|
|
|
| Здравствуйте.
В процессе настройки сайта образовались страницы доступ к которым надо запретить
пример.
1. запретить доступ к страницам с параметром catalog для сканирования роботами
сайт/forum/?catalog=1
сайт/forum/?catalog=2
сайт/forum/?catalog=3
...
сайт/forum/?catalog=100000
2. Разрешить доступ к страницам с параметром id для сканирования роботами
сайт/forum/?id=1
сайт/forum/?id=2
сайт/forum/?id=3
...
сайт/forum/?id=100000
Надо запретить роботам сканировать страницы с данным параметром
и разрешить доступ к страницам с другими параметрами
Подскажите пожалуйста. Спасибо. | |
|
|
|
|
|
|
|
для: добряк
(19.03.2013 в 12:34)
| | С помощью файла robots.txt Вы имеете возможность запретить поисковым системам ИНДЕКСИРОВАТЬ Ваш сайт. Но сканировать страницы они будут по-прежнему.
То есть, в поисковый индекс запрещенные страницы не войдут, но в поисковике они будут, и по всему сайту роботы будут бегать. | |
|
|
|
|
|
|
|
для: Владимир55
(19.03.2013 в 13:58)
| | А и что можно сделать? Вы бы что сделали? | |
|
|
|
|
|
|
|
для: добряк
(19.03.2013 в 14:44)
| | Я сделал то, о чем уже писал: оставил доступ без ограничений только для роботов пяти основных поисковых систем. А всем остальным посетителям, кем бы они ни были, установил лимит просмотров.
Но и допущенным роботам установил интервал и выдаю им предполагаемое время изменения страниц, чтобы зря не топтались. | |
|
|
|
|
|
|
|
для: Владимир55
(19.03.2013 в 15:42)
| | Так как вы блокируете доступ, если не robot.txt, то как?
Если вы писали конкретно и это не 404, то напомните пожалуйста. | |
|
|
|
|
|
|
|
для: добряк
(19.03.2013 в 15:58)
| | Принадлежность посетителя к одной из пяти поисковых систем установить несложно. Если же посетитель к ним не относится, то по IP считаем, сколько страниц он уже посмотрел. Если больше лимита, то выдаем ему отклик "Доступ запрещен".
Спустя время (у меня сутки) счетчик по IP обнуляем. | |
|
|
|
|
|
|
|
для: Владимир55
(19.03.2013 в 17:40)
| | Если больше лимита, то выдаем ему отклик "Доступ запрещен".
Чем? Может ртом или письмо по почте отсылаете, а может в суд подаете?
Приложил бы файлик на денек? | |
|
|
|
|
|
|
|
для: добряк
(19.03.2013 в 18:04)
| | Приложил бы файлик на денек?
Скрипт встроен в систему, а потому собрать его для демонстрации не получится.
Если больше лимита, то выдаем ему отклик "Доступ запрещен".
Чем? Может ртом или письмо по почте отсылаете, а может в суд подаете?
Если страница присутствует, то сервер сам выдает отклик 200. Если страница отсутствует, то нужно делать обработку ошибок и выдавать страницу обработки с откликом 404 (я Вам об этом писал). А если доступ запрещен, то следует выдавать отклик 403 - Forbidden, запрещено. То есть, сервер понял запрос, но отказывается его выполнять из-за ограничений в доступе.
Forbidden формируется точно также, как и 404 при обработке ошибки. В скрипте это надо делать совместно, то есть выдавать либо один отклик, либо другой. | |
|
|
|
|
|
|
|
для: Владимир55
(19.03.2013 в 21:51)
| | 1. Так и не понятно, как их различить, робота от человека?
Пустые ответы к сожалению бесполезны.
Напишите лучше откуда у вас встроены, где это взять, что бы можно было покапать?
Иначе ...
2. Еще номер.
У меня вопрос был задан: "1. запретить доступ к страницам с параметром catalog для сканирования роботами, так как они удалены"
А вы извините, все время отвечаете на другой вопрос о запретных зонах, и ответа нет? | |
|
|
|
|
|
|
|
для: добряк
(19.03.2013 в 22:20)
| | А вы извините, все время отвечаете на другой вопрос о запретных зонах, и ответа нет?
Приношу свои извинения!
(Я имел в виду "Вы бы что сделали?") | |
|
|
|
|
|
|
|
для: Владимир55
(19.03.2013 в 17:40)
| | Это в корне не правильно, если только сайт не предназначен для узкого круга людей со статическими IP.
Думаю ни для кого не секрет, что подавляющее большинство провайдеров предоставляют доступ с динамическим IP. И, как следствие, под одним IP могут быть сотни РАЗНЫХ людей.
-------------------------------------
Если для Вас принципиально знать статистику, то сохраняйте $_SERVER['HTTP_USER_AGENT'] в базу и на досуге с помощью поисковика разбирайтесь ху-из-ху.
Для мобильников можно проверять IP - тут: http://www.procontent.ru/dev/gateway-ips.html есть диапазоны адресов операторов.
Опять же для мобильников есть класс http://wurfl.sourceforge.net/php_index.php для определения названия и параметров телефона по юзер-агенту.
На основе собранной статистики уже принимаете решение давать доступ или запрещать. | |
|
|
|
|
|
|
|
для: Sfinks
(20.03.2013 в 08:58)
| | "Это в корне не правильно, если только сайт не предназначен для узкого круга людей со статическими IP."
Разумеется, под одном IP приходят разные люди и какое-то количество посетителей будет потеряно. Но практика показывает, что это мизер. Буквально ничтожное значение, не стоящее внимания.
Конечно, если бы это был сайт госуслуг или, к примеру, коммерческого банка, где нужно обеспечить доступ буквально каждому клиенту, то такой метод был бы не очень хорош. А для моего сайта, как и для большинства других обычных сайтов, вполне подходит.
Кстати, с моей подачи его уже вовсю применяют, поскольку роботы и качалки многих достали.
Так что, в корне (в принципе) неправильно, а в реале нормально. | |
|
|
|
|
|
|
|
для: Владимир55
(20.03.2013 в 10:15)
| | Ну это дело хозяйское. Я придерживаюсь версии, что по закону подлости, 100 человек которые зашли - зашли в холостую, а вот именно тот 101-ый, который не попал - принес бы прибыль. | |
|
|
|
|
|
|
|
для: Sfinks
(20.03.2013 в 08:58)
| | Извините, если я помешал.
Но у меня вопрос про доступ для сканирования роботами.
Т.е не про апач, а про Google
Допустим у вас 1 000 000 страниц. Часть, например 1 00 000, вы удалили, но робот(добрый поисковик, например Google) заходит каждый раз, сканирует отсутствующие страницы, ГРУЗИТ сайт, вежливо сообщает, что у вас ошибка мол, файлы потеряны, штрафует и понижает ранг в поисковой выдаче. А никакие файлы на самом деле не потеряны, а удалены, так как причина была серьезная, стратегия рекламная. ВОт и получается, что вы делаете одно, а робот думает совсем другое. Он домысливает и вам хуже делает.
Так как ему в бить в его пустую башку, чтобы он не заходил и не сканировал отсутсвующие страницы.
http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449
Файл robots.txt позволяет ограничить доступ к сайту для роботов поисковых систем, сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл robots.txt, который запрещает им доступ к определенным страницам.
Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. | |
|
|
|
|
|
|
|
для: добряк
(20.03.2013 в 15:43)
| | Можно так заблокировать.
User-Agent: *
disallow: /forum/?catalog=
|
Но это в теории. На практике же они все-равно там будут лазить.
На счет штрафов - удаляемые страницы - это норма. И было бы странно за это штрафовать. Если на УДАЛЕННУЮ страницу есть внутренние ссылки - за это штраф оправдан. Если же ее адрес просто где-то в поисковике сохранился, то достаточно отдавать ответ 404 и такие страницы со временем сами удалятся из индекса. | |
|
|
|
|
|
|
|
для: Sfinks
(21.03.2013 в 14:49)
| | Спасибо, очень разумно и кратко ситуацию обрисовали
Но у меня была страница
http://download-books.ru/booka/?idload=Excel+2010+%E4%EB%FF+%E6%E5%ED%F9%E8%ED
Их у меня было 450 000.
Я её удалил. и что то робот как то странно реагирует.
Сейчас вставил <meta name="robots" content="noindex">
Надо в robot. что-то воткнкуть, но не получается правильная команда.
Было 8 000 посетителей, пришли bogobot и все упало.
Я в этом как то не очень, у меня первый проект на PHP.
В сентябре, как открыл сайт, так каждую неделю по 500-700 посещений прибавлялось.
Что делать сейчас и не знаю.
То то открою, то это закрою.
Еще раз спасибо за поддержку, я а то рассторен, что не очень понятно | |
|
|
|
|
|
|
|
для: добряк
(21.03.2013 в 16:19)
| | > Надо в robot. что-то воткнкуть, но не получается правильная команда
Копипастом умеете пользоваться??? Я выше написал правильную команду. | |
|
|
|