Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Как сделать поисковый робот?
 
 автор: Владимир55   (24.02.2015 в 20:35)   письмо автору
 
 

Хочется сделать скрипт, который будет просматривать страницы в одном клике от главной.

Казалось бы, это несложно - взять код главной и найти в нем все ссылки, а потом открыть страницы по этим ссылкам. Но когда я посмотрел реальные сайты, то мой энтузиазм сильно поубавился, ибо там такое разнообразие исполнения меню, что с ума сойти можно!

Некоторые ссылки идут от корня, другие имеют полный адрес, а третьи через стили и списки запутаны так, что и вручную не разберешься, где вообще здесь ссылки, не говоря уже про их анкоры!

Но ведь Яндекс же это как-то делает!

Может быть, есть какой-то прием, или специальная функция, или еще что-то отработанное, что позволяет найти на странице все ссылки и их анкоры?

  Ответить  
 
 автор: Sfinks   (24.02.2015 в 21:19)   письмо автору
 
   для: Владимир55   (24.02.2015 в 20:35)
 

Браузер это тоже делает. И не только находит, но еще и отрисовывает. Так что боту надо всего-лишь половину работы сделать )
Нет, никакого специального метода нет. Просто начинаете писать бота, проверяете результат, находите неточности, дебажите, обучаете его новому методу поиска и т.д, пока не учтете все нюансы.

  Ответить  
 
 автор: Владимир55   (25.02.2015 в 14:06)   письмо автору
 
   для: Sfinks   (24.02.2015 в 21:19)
 

А библиотека Simple HTML DOM Parser ?

  Ответить  
 
 автор: Sfinks   (25.02.2015 в 19:27)   письмо автору
 
   для: Владимир55   (25.02.2015 в 14:06)
 

Конечно какую-то часть работы она сделает. DOM она спарсит. И явные ссылки вы получите. Но их можно и регулярками получить. А JS? все онклики и т.п.? А динамически подгружаемый контент?

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования