| |
|
|
| | Может быть у кого-нибудь есть скрипты для чистки дублированных урл? Ну например чтобы достать их из .txt -файла потом, повторяющиеся очистить, оставить оригиналы, и оставить только домены. | |
| |
|
|
| |
|
|
| |
для: dump
(07.09.2009 в 12:04)
| | | Пока не очень понятно, у вас есть пример файла, который нужно подвергнуть этой операции? | |
| |
|
|
| |
|
|
| |
для: cheops
(07.09.2009 в 13:48)
| | | Ну вот скажем у меня есть список урлов, например полученный из парсинга выдачи, и мне нужно получить из него список сайтов. Например:
Исходный список:
http://scienceblog.ru/
http://scienceblog.ru/2009/04/22/5-nauchnykh-fokusov-s-vodojj/
http://dxdt.ru/
http://amp3direct.org/
http://amp3direct.org/category/raznoe/
И конечный должен выглядеть так:
http://scienceblog.ru/
http://dxdt.ru/
http://amp3direct.org/ | |
| |
|
|
| |
|
|
| |
для: dump
(10.09.2009 в 14:34)
| | | parse_url() и выборка по элементам 'host' в ключи массива. | |
| |
|
|