|
|
|
| Добрый.
Нужно отделить на сайте живых людей (гостей, незарегистрированных пользователей) от поисковых ботов.
Я понимаю, что делать это нужно через юзер агента, но вот вопрос: как узнать все существующие поисковые системы в мире? Никак, я думаю, отвечая себе. Может у всех роботов есть какая-то отличительная черта? Или всё равно придётся мириться с тем, что хоть какой-то поисковик из Норвегии сможет увидеть, что не должен по идеи, и что любой человек может сделать down или file_contents к любой моей странице? | |
|
|
|
|
|
|
|
для: Udachix
(11.06.2013 в 13:41)
| | Не «down», а fopen (планшет, блин). | |
|
|
|
|
|
|
|
для: Udachix
(11.06.2013 в 13:41)
| | у ботов известных поисковиков есть общая отличительная черта - это пустой рефер. Оставьте свободным вход только на главную страницу, вот и всё, но не стоит забывать, что за каждым ботом - люди, так что, если захотят, то подстроятся.
Вообще-то, тема актуальная, но решать её проще с другого конца - разрешать просмотр только своим. | |
|
|
|
|
|
|
|
для: Udachix
(11.06.2013 в 13:41)
| | Простая проверка на выполнение яваскрипта, если это не вап-сайт конечно.
Поисковые боты яваскрипт не обрабатывают, ну а если у обычного пользователя он отключен, то это, извините, его проблемы.
Список юзер-агентов есть тут: http://www.robotstxt.org/db/all.txt поиск по полю robot-useragent:
Но это ненадежная проверка в любом случае, ведь вам нужна минимальная защита от парсеров как я понял. | |
|
|
|
|
|
|
|
для: DangerBay
(11.06.2013 в 15:54)
| | > Поисковые боты яваскрипт не обрабатывают
Кто ж Вам это сказал?
Вы смотрели когда-нибудь предпросмотр страниц в инструментах для вебматеров гугла?
Они уже даже ajax'ом умеют пользоваться. | |
|
|
|
|
|
|
|
для: Sfinks
(11.06.2013 в 16:01)
| | Это гуглбот, а большинство поисковиков не умеют. При желании можно сделать так, что ни один робот не сможет имитировать работу настоящего бразуера. Но это больше актуально для защиты от парсеров, а не поисковиков. Ведь есть файл robots.txt где все параметры индексации можно настроить. | |
|
|
|
|
|
|
|
для: DangerBay
(11.06.2013 в 16:27)
| | > При желании можно сделать так, что ни один робот не сможет имитировать работу
> настоящего бразуера
Нельзя.
Вернее БЕЗ причинения неудобств для пользователя - нельзя.
Можно заставить юзера каждые 5 страниц вводить капчу, например. Но понравится ли это посетителям..... | |
|
|
|
|
|
|
|
для: DangerBay
(11.06.2013 в 15:54)
| | Уважаемые создатели форума Софттайм. Я еле выделил ссылку на планшете, чтобы открыть адрес в браузере. Сделайте автоматический подхват ссылок и превращение их текстовых адресов в HTML-адреса, пожалуйста. | |
|
|
|
|
|
|
|
для: Udachix
(11.06.2013 в 13:41)
| | > хоть какой-то поисковик из Норвегии сможет увидеть, что не должен
Это наводит на мысль, что вы хотите скрыть какой-то контент от поисковиков с точки зрения SEO.
Не советую этого делать, т.к. у всех более менее серьезных поисковых систем есть роботы шпионы, которых не возможно отличить от человека (т.е. они передают абсолютно все те же заголовки, что и обычный браузер). Занимаются эти роботы именно тем, что сверяют контент который вы отдаете ему (т.е. человеку) и их официальному боту. Если он (шпион) вдруг находит отличия, то накладывается бан на весь сайт.
> и что любой человек может сделать fopen или file_contents к любой моей странице?
fopen или file_get_contents может и не сможет, от примитивных способов кражи контента защититься можно.
Но вот с помощью сокетов или CURL можно полностью съэмитировать работу браузера. А значит все что может скачать браузер, может скачать и скрипт. Если тот, кому интересен Ваш сайт грамотен, защититься от него практически не возможно.
Можно попортить кровь.... Можно сделать так, что он скорее плюнет, чем будет мучаться с каждой страницей.... Но это только на том основании, что он человек.
В теории же скачать скриптом можно все.
Я помню даже с рапидшары скачивал скриптом файлы на свой хостинг без каких либо ограничений, а потом уже со своего хостинга скачивал в 8 потоков простой качалкой. | |
|
|
|
|
|
|
|
для: Sfinks
(11.06.2013 в 15:58)
| | Бан на сайт при разном тексте боту и не боту?!!! Ахахахахахахахахахахахахахахаха... Такой поисковик самому в бан нужно отправлять xD | |
|
|
|
|
|
|
|
для: Udachix
(11.06.2013 в 13:41)
| | Много здесь было написано вами, и пока я сделал вывод, что скрыть контент можно только от основных поисковых систем и только официально, то есть по проверке в юзер-агенте.
Скрывать коды карт оплаты я не собираюсь. Просто есть настройка, что пользователь может выбрать, кому показывать его контент: всем, гостям (всем, кроме ботов), пользователям. Первое и третье — легко. Остается решить вопрос со вторым пунктом. | |
|
|
|
|
|
|
|
для: Udachix
(11.06.2013 в 13:41)
| | Защититься от fopen и file_get_contents я бы тоже хотел, но это, правильнее всего, назвать вторым пунктом в данной теме. В принципе, наверно нужно было создать отдельную тему на форуме.
Например, знаю, что от подобного защищён Кинопоиск. Он выводит вам подставу при подобных запросах. | |
|
|
|
|
|
|
|
для: Udachix
(11.06.2013 в 13:41)
| | Я знаю один хитрожопый сайт, еоторый публикует разного рода объявы. Так вот, весь коммерческий контент и внутренние ссылки грузятся AJAX'ом на свои места только в случае, если JS определит, что у браузера есть реальные ширина и высота. | |
|
|
|
|
|
|
|
для: Udachix
(11.06.2013 в 13:41)
| | Нашел источник со списком user-agent'ов ботов. Неслабая проверка будет. | |
|
|
|
|
|
|
|
для: Udachix
(26.06.2013 в 14:38)
| | Только для тех, кому не надо ее обойти. Но указать в UA можно хоть Вася Пупкин, при чем без заморочек. В PHP есть для этого штатные средства. | |
|
|
|
|
|
|
|
для: Sfinks
(26.06.2013 в 14:53)
| | Ну, тут уже ничего не поделаешь. Хотя бы частично скрывается. | |
|
|
|