|
|
|
| Вот инетересный вопрос появился. Короче есть html страница (или что угодно, в принципе), может даже 2 или 3, есть некая статичная область. Смысл - составить програмно регэксп для того что бы выдирать этот статичный текст.
Например, нужно парсить тот же яндекс, или любую html который формируется на основе БД - изменили они дизайн страницы, а ты определил это и подкорректировался.
Кто-нибудь что-нибудь подобное пробовал реализовать ? | |
|
|
|
|
|
|
|
для: EveryonE
(21.11.2006 в 23:38)
| | Возможно вас заинтересует тема по ссылке http://www.softtime.ru/forum/read.php?id_forum=6&id_theme=7574 или имеется в виду что-то другое? | |
|
|
|
|
|
|
|
для: cheops
(22.11.2006 в 00:22)
| | да, другое. поясню на примере.
вот например хочу сделать автоматический парсинг какой-нибудь web-страницы.
Например www.test.ru/page_created_on_db_data.php?id=1
когда я пишу парсер к ней, т.е. составляю регэексп который выдирает нужные мне данные. например из
-------lalalalala<table><tr><td>номер 1</td><td col="asd">ДАННЫЕ</td></tr></table>lalala------
вынимает ДАННЫЕ, а регэксп который я сам составляю /<td col=\"asd\">(.*)</td>/siU
и все прекрасно грабится (ведь все кроме ДАННЫЕ статично, а ДАННЫЕ вставляются из базы данных), но это пока не происходит редизайн страницы. Как только это происходит надо лезть и править регэксп, например сама страница стала такая
-------lalalalala<div>номер 1</div><div style="zxc">qwerty ДАННЫЕ</div>lalala------
и нужно использовать регэксп, например /<div style=\"zxc\">qwerty (.*)</div>/siU
в обоих случаях используется один и тот же URL и ДАННЫЕ никак не меняются.
Так вот - есть ли алгоритм который могбы основываясь на URL и ДАННЫЕ составлять регэксп (автоматом, а не руками :) ) что бы грабились ДАННЫЕ2 со страницы www.test.ru/page_created_on_db_data.php?id=123
:) | |
|
|
|