| |
|
|
| | Пробую сделать новостной граббер - примерно из 130 каналов буду собирать новости.
Есть несколько проблем:
1. Каким образом можно определять схожие статьи, например можно использовать функцию similar_text. Это самый простой способ, но может быть есть еще способы для сравнения обьемных строк?
2. Где лучше хранить новости? В базе данных, или делать для каждой категории каталог, и записывать туда файлы вида 12345_news.htm и одновременно заносить инфу о файле в базу? | |
| |
|
|
| |
|
|
| |
для: fis
(30.04.2007 в 18:21)
| | | ищите ключевые слова вроде спорт, футбол, мобильные и на их основе рассовываете по категориям... а насчет хранения - однозначно, базу! | |
| |
|
|
| |
|
|
| |
для: bronenos
(30.04.2007 в 18:34)
| | | Не это понятно, вопрос в том чтобы найти одинаковые по смыслу статьи с разных источников. | |
| |
|
|
| |
|
|
| |
для: fis
(30.04.2007 в 18:35)
| | | - | |
| |
|
|