|
|
|
| Здравствуйте, Всем!
Пишу скрипт, который анализирует сайт на ключевые слова.
Существует такой сервис: http://www.ashmanov.com/tech/semantic/demo/complete/
Нужно сделать, подобное, но покаж-то не знаю эффективен ли будет метод:
1) Используя библиотеку CURL, страницу в виде HTML кода заносим в переменную.
2) Удаляем теги html, т.е. остается только текст
3) Разбиваю полученный текст на массив....(сортирую, удаляю пустые значения...)
После этих операций, весь текст сайта, разбивается на слова и заносится в массив.
Массив получается с однокоренными словами(автомобиль, автомобили, автомобилей и тд)
Использую морфологический класс, и получаю норм массив слов.
Затем узнаю, какое кол-во слов и сколько раз каждое слово повторяется в массиве.
Проблема в том, что если использовать данный алгоритм( по моим соображениям), возрастет нагрузка на сервер, т.к. таких запросов будет более 100 в сек.
Возможно есть другой алгоритм?
И еще вопрос, возможно ли разделить текст на фразы?
С Уважением, Сергей. | |
|
|