|
|
|
| Пробую сделать новостной граббер - примерно из 130 каналов буду собирать новости.
Есть несколько проблем:
1. Каким образом можно определять схожие статьи, например можно использовать функцию similar_text. Это самый простой способ, но может быть есть еще способы для сравнения обьемных строк?
2. Где лучше хранить новости? В базе данных, или делать для каждой категории каталог, и записывать туда файлы вида 12345_news.htm и одновременно заносить инфу о файле в базу? | |
|
|
|
|
|
|
|
для: fis
(30.04.2007 в 18:21)
| | ищите ключевые слова вроде спорт, футбол, мобильные и на их основе рассовываете по категориям... а насчет хранения - однозначно, базу! | |
|
|
|
|
|
|
|
для: bronenos
(30.04.2007 в 18:34)
| | Не это понятно, вопрос в том чтобы найти одинаковые по смыслу статьи с разных источников. | |
|
|
|
|
|
|
|
для: fis
(30.04.2007 в 18:35)
| | - | |
|
|
|