Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В. Программирование. Ступени успешной карьеры. Авторы: Кузнецов М.В., Симдянов И.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Анализ страницы
 
 автор: Tokmak   (09.06.2009 в 16:15)   письмо автору
 
 

Здравствуйте, Всем!

Пишу скрипт, который анализирует сайт на ключевые слова.
Существует такой сервис: http://www.ashmanov.com/tech/semantic/demo/complete/

Нужно сделать, подобное, но покаж-то не знаю эффективен ли будет метод:
1) Используя библиотеку CURL, страницу в виде HTML кода заносим в переменную.
2) Удаляем теги html, т.е. остается только текст
3) Разбиваю полученный текст на массив....(сортирую, удаляю пустые значения...)

После этих операций, весь текст сайта, разбивается на слова и заносится в массив.
Массив получается с однокоренными словами(автомобиль, автомобили, автомобилей и тд)
Использую морфологический класс, и получаю норм массив слов.
Затем узнаю, какое кол-во слов и сколько раз каждое слово повторяется в массиве.

Проблема в том, что если использовать данный алгоритм( по моим соображениям), возрастет нагрузка на сервер, т.к. таких запросов будет более 100 в сек.
Возможно есть другой алгоритм?

И еще вопрос, возможно ли разделить текст на фразы?

С Уважением, Сергей.

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования