Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. Программирование. Ступени успешной карьеры. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В. Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Разное

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: robot.txt Закрыть доступ к страницам с параметром
 
 автор: добряк   (19.03.2013 в 12:34)   письмо автору
 
 

Здравствуйте.
В процессе настройки сайта образовались страницы доступ к которым надо запретить
пример.

1. запретить доступ к страницам с параметром catalog для сканирования роботами

сайт/forum/?catalog=1
сайт/forum/?catalog=2
сайт/forum/?catalog=3
...
сайт/forum/?catalog=100000

2. Разрешить доступ к страницам с параметром id для сканирования роботами

сайт/forum/?id=1
сайт/forum/?id=2
сайт/forum/?id=3
...
сайт/forum/?id=100000

Надо запретить роботам сканировать страницы с данным параметром
и разрешить доступ к страницам с другими параметрами

Подскажите пожалуйста. Спасибо.

  Ответить  
 
 автор: Владимир55   (19.03.2013 в 13:58)   письмо автору
 
   для: добряк   (19.03.2013 в 12:34)
 

С помощью файла robots.txt Вы имеете возможность запретить поисковым системам ИНДЕКСИРОВАТЬ Ваш сайт. Но сканировать страницы они будут по-прежнему.

То есть, в поисковый индекс запрещенные страницы не войдут, но в поисковике они будут, и по всему сайту роботы будут бегать.

  Ответить  
 
 автор: добряк   (19.03.2013 в 14:44)   письмо автору
 
   для: Владимир55   (19.03.2013 в 13:58)
 

А и что можно сделать? Вы бы что сделали?

  Ответить  
 
 автор: Владимир55   (19.03.2013 в 15:42)   письмо автору
 
   для: добряк   (19.03.2013 в 14:44)
 

Я сделал то, о чем уже писал: оставил доступ без ограничений только для роботов пяти основных поисковых систем. А всем остальным посетителям, кем бы они ни были, установил лимит просмотров.

Но и допущенным роботам установил интервал и выдаю им предполагаемое время изменения страниц, чтобы зря не топтались.

  Ответить  
 
 автор: добряк   (19.03.2013 в 15:58)   письмо автору
 
   для: Владимир55   (19.03.2013 в 15:42)
 

Так как вы блокируете доступ, если не robot.txt, то как?
Если вы писали конкретно и это не 404, то напомните пожалуйста.

  Ответить  
 
 автор: Владимир55   (19.03.2013 в 17:40)   письмо автору
 
   для: добряк   (19.03.2013 в 15:58)
 

Принадлежность посетителя к одной из пяти поисковых систем установить несложно. Если же посетитель к ним не относится, то по IP считаем, сколько страниц он уже посмотрел. Если больше лимита, то выдаем ему отклик "Доступ запрещен".

Спустя время (у меня сутки) счетчик по IP обнуляем.

  Ответить  
 
 автор: добряк   (19.03.2013 в 18:04)   письмо автору
 
   для: Владимир55   (19.03.2013 в 17:40)
 

Если больше лимита, то выдаем ему отклик "Доступ запрещен".
Чем? Может ртом или письмо по почте отсылаете, а может в суд подаете?

Приложил бы файлик на денек?

  Ответить  
 
 автор: Владимир55   (19.03.2013 в 21:51)   письмо автору
 
   для: добряк   (19.03.2013 в 18:04)
 

Приложил бы файлик на денек?

Скрипт встроен в систему, а потому собрать его для демонстрации не получится.

Если больше лимита, то выдаем ему отклик "Доступ запрещен".
Чем? Может ртом или письмо по почте отсылаете, а может в суд подаете?


Если страница присутствует, то сервер сам выдает отклик 200. Если страница отсутствует, то нужно делать обработку ошибок и выдавать страницу обработки с откликом 404 (я Вам об этом писал). А если доступ запрещен, то следует выдавать отклик 403 - Forbidden, запрещено. То есть, сервер понял запрос, но отказывается его выполнять из-за ограничений в доступе.

Forbidden формируется точно также, как и 404 при обработке ошибки. В скрипте это надо делать совместно, то есть выдавать либо один отклик, либо другой.

  Ответить  
 
 автор: добряк   (19.03.2013 в 22:20)   письмо автору
 
   для: Владимир55   (19.03.2013 в 21:51)
 

1. Так и не понятно, как их различить, робота от человека?
Пустые ответы к сожалению бесполезны.
Напишите лучше откуда у вас встроены, где это взять, что бы можно было покапать?
Иначе ...

2. Еще номер.
У меня вопрос был задан: "1. запретить доступ к страницам с параметром catalog для сканирования роботами, так как они удалены"
А вы извините, все время отвечаете на другой вопрос о запретных зонах, и ответа нет?

  Ответить  
 
 автор: Владимир55   (19.03.2013 в 22:56)   письмо автору
 
   для: добряк   (19.03.2013 в 22:20)
 

А вы извините, все время отвечаете на другой вопрос о запретных зонах, и ответа нет?

Приношу свои извинения!

(Я имел в виду "Вы бы что сделали?")

  Ответить  
 
 автор: Sfinks   (20.03.2013 в 08:58)   письмо автору
 
   для: Владимир55   (19.03.2013 в 17:40)
 

Это в корне не правильно, если только сайт не предназначен для узкого круга людей со статическими IP.
Думаю ни для кого не секрет, что подавляющее большинство провайдеров предоставляют доступ с динамическим IP. И, как следствие, под одним IP могут быть сотни РАЗНЫХ людей.
-------------------------------------
Если для Вас принципиально знать статистику, то сохраняйте $_SERVER['HTTP_USER_AGENT'] в базу и на досуге с помощью поисковика разбирайтесь ху-из-ху.
Для мобильников можно проверять IP - тут: http://www.procontent.ru/dev/gateway-ips.html есть диапазоны адресов операторов.
Опять же для мобильников есть класс http://wurfl.sourceforge.net/php_index.php для определения названия и параметров телефона по юзер-агенту.
На основе собранной статистики уже принимаете решение давать доступ или запрещать.

  Ответить  
 
 автор: Владимир55   (20.03.2013 в 10:15)   письмо автору
 
   для: Sfinks   (20.03.2013 в 08:58)
 

"Это в корне не правильно, если только сайт не предназначен для узкого круга людей со статическими IP."

Разумеется, под одном IP приходят разные люди и какое-то количество посетителей будет потеряно. Но практика показывает, что это мизер. Буквально ничтожное значение, не стоящее внимания.

Конечно, если бы это был сайт госуслуг или, к примеру, коммерческого банка, где нужно обеспечить доступ буквально каждому клиенту, то такой метод был бы не очень хорош. А для моего сайта, как и для большинства других обычных сайтов, вполне подходит.

Кстати, с моей подачи его уже вовсю применяют, поскольку роботы и качалки многих достали.
Так что, в корне (в принципе) неправильно, а в реале нормально.

  Ответить  
 
 автор: Sfinks   (20.03.2013 в 12:46)   письмо автору
 
   для: Владимир55   (20.03.2013 в 10:15)
 

Ну это дело хозяйское. Я придерживаюсь версии, что по закону подлости, 100 человек которые зашли - зашли в холостую, а вот именно тот 101-ый, который не попал - принес бы прибыль.

  Ответить  
 
 автор: добряк   (20.03.2013 в 15:43)   письмо автору
 
   для: Sfinks   (20.03.2013 в 08:58)
 

Извините, если я помешал.
Но у меня вопрос про доступ для сканирования роботами.
Т.е не про апач, а про Google

Допустим у вас 1 000 000 страниц. Часть, например 1 00 000, вы удалили, но робот(добрый поисковик, например Google) заходит каждый раз, сканирует отсутствующие страницы, ГРУЗИТ сайт, вежливо сообщает, что у вас ошибка мол, файлы потеряны, штрафует и понижает ранг в поисковой выдаче. А никакие файлы на самом деле не потеряны, а удалены, так как причина была серьезная, стратегия рекламная. ВОт и получается, что вы делаете одно, а робот думает совсем другое. Он домысливает и вам хуже делает.
Так как ему в бить в его пустую башку, чтобы он не заходил и не сканировал отсутсвующие страницы.

http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449
Файл robots.txt позволяет ограничить доступ к сайту для роботов поисковых систем, сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл robots.txt, который запрещает им доступ к определенным страницам.
Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем.

  Ответить  
 
 автор: Sfinks   (21.03.2013 в 14:49)   письмо автору
 
   для: добряк   (20.03.2013 в 15:43)
 

Можно так заблокировать.
User-Agent: *
disallow: /forum/?catalog=

Но это в теории. На практике же они все-равно там будут лазить.

На счет штрафов - удаляемые страницы - это норма. И было бы странно за это штрафовать. Если на УДАЛЕННУЮ страницу есть внутренние ссылки - за это штраф оправдан. Если же ее адрес просто где-то в поисковике сохранился, то достаточно отдавать ответ 404 и такие страницы со временем сами удалятся из индекса.

  Ответить  
 
 автор: добряк   (21.03.2013 в 16:19)   письмо автору
 
   для: Sfinks   (21.03.2013 в 14:49)
 

Спасибо, очень разумно и кратко ситуацию обрисовали
Но у меня была страница
http://download-books.ru/booka/?idload=Excel+2010+%E4%EB%FF+%E6%E5%ED%F9%E8%ED
Их у меня было 450 000.

Я её удалил. и что то робот как то странно реагирует.
Сейчас вставил <meta name="robots" content="noindex">
Надо в robot. что-то воткнкуть, но не получается правильная команда.

Было 8 000 посетителей, пришли bogobot и все упало.
Я в этом как то не очень, у меня первый проект на PHP.

В сентябре, как открыл сайт, так каждую неделю по 500-700 посещений прибавлялось.
Что делать сейчас и не знаю.
То то открою, то это закрою.
Еще раз спасибо за поддержку, я а то рассторен, что не очень понятно

  Ответить  
 
 автор: Sfinks   (21.03.2013 в 17:02)   письмо автору
 
   для: добряк   (21.03.2013 в 16:19)
 

> Надо в robot. что-то воткнкуть, но не получается правильная команда

Копипастом умеете пользоваться??? Я выше написал правильную команду.

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования