|
|
|
| Может быть у кого-нибудь есть скрипты для чистки дублированных урл? Ну например чтобы достать их из .txt -файла потом, повторяющиеся очистить, оставить оригиналы, и оставить только домены. | |
|
|
|
|
|
|
|
для: dump
(07.09.2009 в 12:04)
| | Пока не очень понятно, у вас есть пример файла, который нужно подвергнуть этой операции? | |
|
|
|
|
|
|
|
для: cheops
(07.09.2009 в 13:48)
| | Ну вот скажем у меня есть список урлов, например полученный из парсинга выдачи, и мне нужно получить из него список сайтов. Например:
Исходный список:
http://scienceblog.ru/
http://scienceblog.ru/2009/04/22/5-nauchnykh-fokusov-s-vodojj/
http://dxdt.ru/
http://amp3direct.org/
http://amp3direct.org/category/raznoe/
И конечный должен выглядеть так:
http://scienceblog.ru/
http://dxdt.ru/
http://amp3direct.org/ | |
|
|
|
|
|
|
|
для: dump
(10.09.2009 в 14:34)
| | parse_url() и выборка по элементам 'host' в ключи массива. | |
|
|
|