Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Нужно отделить людей от не людей )
 
 автор: Udachix   (11.06.2013 в 13:41)   письмо автору
 
 

Добрый.

Нужно отделить на сайте живых людей (гостей, незарегистрированных пользователей) от поисковых ботов.

Я понимаю, что делать это нужно через юзер агента, но вот вопрос: как узнать все существующие поисковые системы в мире? Никак, я думаю, отвечая себе. Может у всех роботов есть какая-то отличительная черта? Или всё равно придётся мириться с тем, что хоть какой-то поисковик из Норвегии сможет увидеть, что не должен по идеи, и что любой человек может сделать down или file_contents к любой моей странице?

  Ответить  
 
 автор: Udachix   (11.06.2013 в 13:43)   письмо автору
 
   для: Udachix   (11.06.2013 в 13:41)
 

Не «down», а fopen (планшет, блин).

  Ответить  
 
 автор: bnm   (11.06.2013 в 15:14)   письмо автору
 
   для: Udachix   (11.06.2013 в 13:41)
 

у ботов известных поисковиков есть общая отличительная черта - это пустой рефер. Оставьте свободным вход только на главную страницу, вот и всё, но не стоит забывать, что за каждым ботом - люди, так что, если захотят, то подстроятся.
Вообще-то, тема актуальная, но решать её проще с другого конца - разрешать просмотр только своим.

  Ответить  
 
 автор: DangerBay   (11.06.2013 в 15:54)   письмо автору
 
   для: Udachix   (11.06.2013 в 13:41)
 

Простая проверка на выполнение яваскрипта, если это не вап-сайт конечно.
Поисковые боты яваскрипт не обрабатывают, ну а если у обычного пользователя он отключен, то это, извините, его проблемы.

Список юзер-агентов есть тут: http://www.robotstxt.org/db/all.txt поиск по полю robot-useragent:
Но это ненадежная проверка в любом случае, ведь вам нужна минимальная защита от парсеров как я понял.

  Ответить  
 
 автор: Sfinks   (11.06.2013 в 16:01)   письмо автору
 
   для: DangerBay   (11.06.2013 в 15:54)
 

> Поисковые боты яваскрипт не обрабатывают
Кто ж Вам это сказал?
Вы смотрели когда-нибудь предпросмотр страниц в инструментах для вебматеров гугла?
Они уже даже ajax'ом умеют пользоваться.

  Ответить  
 
 автор: DangerBay   (11.06.2013 в 16:27)   письмо автору
 
   для: Sfinks   (11.06.2013 в 16:01)
 

Это гуглбот, а большинство поисковиков не умеют. При желании можно сделать так, что ни один робот не сможет имитировать работу настоящего бразуера. Но это больше актуально для защиты от парсеров, а не поисковиков. Ведь есть файл robots.txt где все параметры индексации можно настроить.

  Ответить  
 
 автор: Sfinks   (11.06.2013 в 16:38)   письмо автору
 
   для: DangerBay   (11.06.2013 в 16:27)
 

> При желании можно сделать так, что ни один робот не сможет имитировать работу
> настоящего бразуера

Нельзя.
Вернее БЕЗ причинения неудобств для пользователя - нельзя.
Можно заставить юзера каждые 5 страниц вводить капчу, например. Но понравится ли это посетителям.....

  Ответить  
 
 автор: Udachix   (11.06.2013 в 17:23)   письмо автору
 
   для: DangerBay   (11.06.2013 в 15:54)
 

Уважаемые создатели форума Софттайм. Я еле выделил ссылку на планшете, чтобы открыть адрес в браузере. Сделайте автоматический подхват ссылок и превращение их текстовых адресов в HTML-адреса, пожалуйста.

  Ответить  
 
 автор: Sfinks   (11.06.2013 в 15:58)   письмо автору
 
   для: Udachix   (11.06.2013 в 13:41)
 

> хоть какой-то поисковик из Норвегии сможет увидеть, что не должен
Это наводит на мысль, что вы хотите скрыть какой-то контент от поисковиков с точки зрения SEO.
Не советую этого делать, т.к. у всех более менее серьезных поисковых систем есть роботы шпионы, которых не возможно отличить от человека (т.е. они передают абсолютно все те же заголовки, что и обычный браузер). Занимаются эти роботы именно тем, что сверяют контент который вы отдаете ему (т.е. человеку) и их официальному боту. Если он (шпион) вдруг находит отличия, то накладывается бан на весь сайт.

> и что любой человек может сделать fopen или file_contents к любой моей странице?
fopen или file_get_contents может и не сможет, от примитивных способов кражи контента защититься можно.
Но вот с помощью сокетов или CURL можно полностью съэмитировать работу браузера. А значит все что может скачать браузер, может скачать и скрипт. Если тот, кому интересен Ваш сайт грамотен, защититься от него практически не возможно.
Можно попортить кровь.... Можно сделать так, что он скорее плюнет, чем будет мучаться с каждой страницей.... Но это только на том основании, что он человек.
В теории же скачать скриптом можно все.
Я помню даже с рапидшары скачивал скриптом файлы на свой хостинг без каких либо ограничений, а потом уже со своего хостинга скачивал в 8 потоков простой качалкой.

  Ответить  
 
 автор: Udachix   (11.06.2013 в 17:26)   письмо автору
 
   для: Sfinks   (11.06.2013 в 15:58)
 

Бан на сайт при разном тексте боту и не боту?!!! Ахахахахахахахахахахахахахахаха... Такой поисковик самому в бан нужно отправлять xD

  Ответить  
 
 автор: Udachix   (11.06.2013 в 17:15)   письмо автору
 
   для: Udachix   (11.06.2013 в 13:41)
 

Много здесь было написано вами, и пока я сделал вывод, что скрыть контент можно только от основных поисковых систем и только официально, то есть по проверке в юзер-агенте.

Скрывать коды карт оплаты я не собираюсь. Просто есть настройка, что пользователь может выбрать, кому показывать его контент: всем, гостям (всем, кроме ботов), пользователям. Первое и третье — легко. Остается решить вопрос со вторым пунктом.

  Ответить  
 
 автор: Udachix   (11.06.2013 в 17:19)   письмо автору
 
   для: Udachix   (11.06.2013 в 13:41)
 

Защититься от fopen и file_get_contents я бы тоже хотел, но это, правильнее всего, назвать вторым пунктом в данной теме. В принципе, наверно нужно было создать отдельную тему на форуме.

Например, знаю, что от подобного защищён Кинопоиск. Он выводит вам подставу при подобных запросах.

  Ответить  
 
 автор: Deed   (11.06.2013 в 19:40)   письмо автору
 
   для: Udachix   (11.06.2013 в 13:41)
 

Я знаю один хитрожопый сайт, еоторый публикует разного рода объявы. Так вот, весь коммерческий контент и внутренние ссылки грузятся AJAX'ом на свои места только в случае, если JS определит, что у браузера есть реальные ширина и высота.

  Ответить  
 
 автор: Udachix   (26.06.2013 в 14:38)   письмо автору
 
   для: Udachix   (11.06.2013 в 13:41)
 

Нашел источник со списком user-agent'ов ботов. Неслабая проверка будет.

  Ответить  
 
 автор: Sfinks   (26.06.2013 в 14:53)   письмо автору
 
   для: Udachix   (26.06.2013 в 14:38)
 

Только для тех, кому не надо ее обойти. Но указать в UA можно хоть Вася Пупкин, при чем без заморочек. В PHP есть для этого штатные средства.

  Ответить  
 
 автор: Udachix   (26.06.2013 в 15:29)   письмо автору
 
   для: Sfinks   (26.06.2013 в 14:53)
 

Ну, тут уже ничего не поделаешь. Хотя бы частично скрывается.

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования