|
|
|
| Хочется сделать скрипт, который будет просматривать страницы в одном клике от главной.
Казалось бы, это несложно - взять код главной и найти в нем все ссылки, а потом открыть страницы по этим ссылкам. Но когда я посмотрел реальные сайты, то мой энтузиазм сильно поубавился, ибо там такое разнообразие исполнения меню, что с ума сойти можно!
Некоторые ссылки идут от корня, другие имеют полный адрес, а третьи через стили и списки запутаны так, что и вручную не разберешься, где вообще здесь ссылки, не говоря уже про их анкоры!
Но ведь Яндекс же это как-то делает!
Может быть, есть какой-то прием, или специальная функция, или еще что-то отработанное, что позволяет найти на странице все ссылки и их анкоры? | |
|
|
|
|
|
|
|
для: Владимир55
(24.02.2015 в 20:35)
| | Браузер это тоже делает. И не только находит, но еще и отрисовывает. Так что боту надо всего-лишь половину работы сделать )
Нет, никакого специального метода нет. Просто начинаете писать бота, проверяете результат, находите неточности, дебажите, обучаете его новому методу поиска и т.д, пока не учтете все нюансы. | |
|
|
|
|
|
|
|
для: Sfinks
(24.02.2015 в 21:19)
| | А библиотека Simple HTML DOM Parser ? | |
|
|
|
|
|
|
|
для: Владимир55
(25.02.2015 в 14:06)
| | Конечно какую-то часть работы она сделает. DOM она спарсит. И явные ссылки вы получите. Но их можно и регулярками получить. А JS? все онклики и т.п.? А динамически подгружаемый контент? | |
|
|
|