|
|
|
| Парсер банится за постоянное дергания сайта, юзаю прокси, там видимо какаято защита и страницы просто не отдаются...
Как это обойти? | |
|
|
|
|
|
|
|
для: sl1p
(04.03.2011 в 17:46)
| | А с какой целью сайт дергаете - нет возможности кэшировать данные (уменьшить частоту обращения)? | |
|
|
|
|
|
|
|
для: cheops
(04.03.2011 в 17:59)
| | Сравниваются цены и свойства товаров с каталогом..
Кешировать теоретически можно, но это будет адский объём и обращений всё равно будет достаточно для блокировки. | |
|
|
|
|
|
|
|
для: sl1p
(04.03.2011 в 18:06)
| | Тогда нужно подбирать пул прокси-серверов и следить, чтобы с каждого IP-адреса было ограниченное количество обращений. Или договариваться с владельцем сайта, наверняка у него имеется готовый сервис для выгрузки всех цен для Yandex-каталога, не думаю, что они будут сильно противиться, чтобы предоставить доступ к нему вам (вы же вроде их как рекламируете) - им минимальная нагрузка и вам хорошо. Правда, если вы сами обращаетесь к Yandex-каталогу вряд ли стоит расчитывать на понимание с их стороны, создание и поддержка таких баз данных требует серьезных вложений и усилий. | |
|
|
|
|
|
|
|
для: cheops
(04.03.2011 в 18:13)
| | проблема в том что даже первый раз нет конекта, бросается форбиден 403.. хотя все другие сайты через эту проксю тянет.
А просить их нет смысла. Это делается для приватного использования, и нужно использовать поиск этого сайта. Т.к. данные о товаре разбросаны и могут быть не корректными, а поиск всё равно выдаёт нужные результаты. | |
|
|
|
|
|
|
|
для: sl1p
(04.03.2011 в 18:16)
| | Прокси прозрачный или непрозрачный? Может стоит поискать/купить более надежный прокси-доступ? | |
|
|
|
|
|
|
|
для: cheops
(04.03.2011 в 18:25)
| | Если честно не особо разбираюсь в этом всём...
Прозрачный это общедоступный?
А если купить, каким образом он обойдёт эту защиту?
Да и самый интересный вопрос, как эта защита работает? | |
|
|
|
|
|
|
|
для: sl1p
(04.03.2011 в 18:39)
| | подскажите пжлст, где купить качественные HTTP/Socks Proxy по нормальной цене?:) | |
|
|
|