| |
|
|
| | Задача: как с помощью регулярных выражений очистить локальные ссылки с сайта от ссылок на картинку или ссылок на doc файл или от ссылок на прайс. При парсинге страницы вылезают ссылки вида
/about
/img/34/45.jpg
/img/34/45.gip
/files/file.xls
/files/file.zip
/files/file.doc
/files/file.pdf
/23.html
/23.htm
/23.php3
/23.php5
/23.php
Мне нужны ссылки только на реальные страницы сайта с текстом, тоесть нужно исключить "левые ссылки" оставив только правильные. Как пауки обходят такие ссылки? Ведь вариантов то вроде достаточно для ненужных ссылок. Может кто решал подобную задачу киньте исходник. В поиске я копался ничё на эту тему не нашёл :((( | |
| |
|
|
| |
|
|
| |
для: Ктулхер
(21.05.2008 в 15:12)
| | | Неужели никто не в силах решить это? Я с регулярными просто на ВЫ они мне очень трудно даются :((( | |
| |
|
|
| |
|
|
| |
для: Ктулхер
(21.05.2008 в 15:12)
| | | >Мне нужны ссылки только на реальные страницы сайта с текстом
/about
/img/34/45.jpg
/img/34/45.gip
/files/file.xls
/files/file.zip
/files/file.doc
/files/file.pdf
/23.html
/23.htm
/23.php3
/23.php5
/23.php
Как ссылки выглядят, с атрибутами или без?
Так как это например (/img/34/45.jpg) не ссылка. | |
| |
|
|
| |
|
|
| |
для: AcidTrash
(21.05.2008 в 21:31)
| | | Ссылки могут быть самы различные с атрибутами и без.
Дайте хотябы пример выражения который бы вырезал из вышеприведённых адресов
только страницы, а нре файлы и картинки | |
| |
|
|