|
|
|
| Задача: имеется n='lenta.ru'
Выбрать из текста все ссылки формата http://www[ . . .]lenta.ru/[. . .]
т.е. валидные:
http://www.sport.lenta.ru
http://www.lenta.ru/new/ | |
|
|
|
|
|
|
|
для: TTN
(14.03.2011 в 16:20)
| | Что-то такое получилось
@"http:\\\\www\..*\" + n + @".*" | |
|
|
|
|
|
|
|
для: TTN
(14.03.2011 в 16:36)
| | >.*
Если регулярные выражения жадные, то эта последовательность будет соответствовать подстроке от первого http://, до последней двойной кавычки (кстати, иногда для обрамления адресов используются одиночные кавычки). Возможно стоит заменить на ".*?" | |
|
|
|
|
|
|
|
для: TTN
(14.03.2011 в 16:36)
| | Правка:
"http:\/\/www\.*\" + n + @".*(?=\/\"")"
Подскажите, как исключить строки, содержащие "redirect" | |
|
|
|
|
|
|
|
для: TTN
(14.03.2011 в 16:20)
| | Можно начать отталкиваться от следующего скрипта (если будете использовать в другом языке программирования, учитывайте, что тут "жадные" регулярные выражения)
<?php
$text = "Задача: имеется n='lenta.ru'
Выбрать из текста все ссылки формата http://www[ . . .]lenta.ru/[. . .]
т.е. валидные:
http://www.sport.lenta.ru
http://www.lenta.ru/new/";
$pattern = "|http://www[-0-9a-z.]+lenta\.ru[^\s\"\']*|i";
preg_match_all($pattern, $text, $out);
echo "<pre>";
print_r($out);
echo "</pre>";
?>
|
| |
|
|
|