Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум Регулярные Выражения

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Автопостроение регэкспов
 
 автор: EveryonE   (21.11.2006 в 23:38)   письмо автору
 
 

Вот инетересный вопрос появился. Короче есть html страница (или что угодно, в принципе), может даже 2 или 3, есть некая статичная область. Смысл - составить програмно регэксп для того что бы выдирать этот статичный текст.

Например, нужно парсить тот же яндекс, или любую html который формируется на основе БД - изменили они дизайн страницы, а ты определил это и подкорректировался.

Кто-нибудь что-нибудь подобное пробовал реализовать ?

   
 
 автор: cheops   (22.11.2006 в 00:22)   письмо автору
 
   для: EveryonE   (21.11.2006 в 23:38)
 

Возможно вас заинтересует тема по ссылке http://www.softtime.ru/forum/read.php?id_forum=6&id_theme=7574 или имеется в виду что-то другое?

   
 
 автор: EveryonE   (22.11.2006 в 01:28)   письмо автору
 
   для: cheops   (22.11.2006 в 00:22)
 

да, другое. поясню на примере.

вот например хочу сделать автоматический парсинг какой-нибудь web-страницы.

Например www.test.ru/page_created_on_db_data.php?id=1

когда я пишу парсер к ней, т.е. составляю регэексп который выдирает нужные мне данные. например из
-------lalalalala<table><tr><td>номер 1</td><td col="asd">ДАННЫЕ</td></tr></table>lalala------
вынимает ДАННЫЕ, а регэксп который я сам составляю /<td col=\"asd\">(.*)</td>/siU
и все прекрасно грабится (ведь все кроме ДАННЫЕ статично, а ДАННЫЕ вставляются из базы данных), но это пока не происходит редизайн страницы. Как только это происходит надо лезть и править регэксп, например сама страница стала такая
-------lalalalala<div>номер 1</div><div style="zxc">qwerty ДАННЫЕ</div>lalala------
и нужно использовать регэксп, например /<div style=\"zxc\">qwerty (.*)</div>/siU

в обоих случаях используется один и тот же URL и ДАННЫЕ никак не меняются.

Так вот - есть ли алгоритм который могбы основываясь на URL и ДАННЫЕ составлять регэксп (автоматом, а не руками :) ) что бы грабились ДАННЫЕ2 со страницы www.test.ru/page_created_on_db_data.php?id=123

:)

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования