Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В. Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Разное

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум (новые сообщения вниз) Структурный форум

тема: robot.txt Закрыть доступ к страницам с параметром

Сообщения:  [1-10]   [11-17] 

 
 автор: Sfinks   (21.03.2013 в 17:02)   письмо автору
 
   для: добряк   (21.03.2013 в 16:19)
 

> Надо в robot. что-то воткнкуть, но не получается правильная команда

Копипастом умеете пользоваться??? Я выше написал правильную команду.

  Ответить  
 
 автор: добряк   (21.03.2013 в 16:19)   письмо автору
 
   для: Sfinks   (21.03.2013 в 14:49)
 

Спасибо, очень разумно и кратко ситуацию обрисовали
Но у меня была страница
http://download-books.ru/booka/?idload=Excel+2010+%E4%EB%FF+%E6%E5%ED%F9%E8%ED
Их у меня было 450 000.

Я её удалил. и что то робот как то странно реагирует.
Сейчас вставил <meta name="robots" content="noindex">
Надо в robot. что-то воткнкуть, но не получается правильная команда.

Было 8 000 посетителей, пришли bogobot и все упало.
Я в этом как то не очень, у меня первый проект на PHP.

В сентябре, как открыл сайт, так каждую неделю по 500-700 посещений прибавлялось.
Что делать сейчас и не знаю.
То то открою, то это закрою.
Еще раз спасибо за поддержку, я а то рассторен, что не очень понятно

  Ответить  
 
 автор: Sfinks   (21.03.2013 в 14:49)   письмо автору
 
   для: добряк   (20.03.2013 в 15:43)
 

Можно так заблокировать.
User-Agent: *
disallow: /forum/?catalog=

Но это в теории. На практике же они все-равно там будут лазить.

На счет штрафов - удаляемые страницы - это норма. И было бы странно за это штрафовать. Если на УДАЛЕННУЮ страницу есть внутренние ссылки - за это штраф оправдан. Если же ее адрес просто где-то в поисковике сохранился, то достаточно отдавать ответ 404 и такие страницы со временем сами удалятся из индекса.

  Ответить  
 
 автор: добряк   (20.03.2013 в 15:43)   письмо автору
 
   для: Sfinks   (20.03.2013 в 08:58)
 

Извините, если я помешал.
Но у меня вопрос про доступ для сканирования роботами.
Т.е не про апач, а про Google

Допустим у вас 1 000 000 страниц. Часть, например 1 00 000, вы удалили, но робот(добрый поисковик, например Google) заходит каждый раз, сканирует отсутствующие страницы, ГРУЗИТ сайт, вежливо сообщает, что у вас ошибка мол, файлы потеряны, штрафует и понижает ранг в поисковой выдаче. А никакие файлы на самом деле не потеряны, а удалены, так как причина была серьезная, стратегия рекламная. ВОт и получается, что вы делаете одно, а робот думает совсем другое. Он домысливает и вам хуже делает.
Так как ему в бить в его пустую башку, чтобы он не заходил и не сканировал отсутсвующие страницы.

http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449
Файл robots.txt позволяет ограничить доступ к сайту для роботов поисковых систем, сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл robots.txt, который запрещает им доступ к определенным страницам.
Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем.

  Ответить  
 
 автор: Sfinks   (20.03.2013 в 12:46)   письмо автору
 
   для: Владимир55   (20.03.2013 в 10:15)
 

Ну это дело хозяйское. Я придерживаюсь версии, что по закону подлости, 100 человек которые зашли - зашли в холостую, а вот именно тот 101-ый, который не попал - принес бы прибыль.

  Ответить  
 
 автор: Владимир55   (20.03.2013 в 10:15)   письмо автору
 
   для: Sfinks   (20.03.2013 в 08:58)
 

"Это в корне не правильно, если только сайт не предназначен для узкого круга людей со статическими IP."

Разумеется, под одном IP приходят разные люди и какое-то количество посетителей будет потеряно. Но практика показывает, что это мизер. Буквально ничтожное значение, не стоящее внимания.

Конечно, если бы это был сайт госуслуг или, к примеру, коммерческого банка, где нужно обеспечить доступ буквально каждому клиенту, то такой метод был бы не очень хорош. А для моего сайта, как и для большинства других обычных сайтов, вполне подходит.

Кстати, с моей подачи его уже вовсю применяют, поскольку роботы и качалки многих достали.
Так что, в корне (в принципе) неправильно, а в реале нормально.

  Ответить  
 
 автор: Sfinks   (20.03.2013 в 08:58)   письмо автору
 
   для: Владимир55   (19.03.2013 в 17:40)
 

Это в корне не правильно, если только сайт не предназначен для узкого круга людей со статическими IP.
Думаю ни для кого не секрет, что подавляющее большинство провайдеров предоставляют доступ с динамическим IP. И, как следствие, под одним IP могут быть сотни РАЗНЫХ людей.
-------------------------------------
Если для Вас принципиально знать статистику, то сохраняйте $_SERVER['HTTP_USER_AGENT'] в базу и на досуге с помощью поисковика разбирайтесь ху-из-ху.
Для мобильников можно проверять IP - тут: http://www.procontent.ru/dev/gateway-ips.html есть диапазоны адресов операторов.
Опять же для мобильников есть класс http://wurfl.sourceforge.net/php_index.php для определения названия и параметров телефона по юзер-агенту.
На основе собранной статистики уже принимаете решение давать доступ или запрещать.

  Ответить  
 
 автор: Владимир55   (19.03.2013 в 22:56)   письмо автору
 
   для: добряк   (19.03.2013 в 22:20)
 

А вы извините, все время отвечаете на другой вопрос о запретных зонах, и ответа нет?

Приношу свои извинения!

(Я имел в виду "Вы бы что сделали?")

  Ответить  
 
 автор: добряк   (19.03.2013 в 22:20)   письмо автору
 
   для: Владимир55   (19.03.2013 в 21:51)
 

1. Так и не понятно, как их различить, робота от человека?
Пустые ответы к сожалению бесполезны.
Напишите лучше откуда у вас встроены, где это взять, что бы можно было покапать?
Иначе ...

2. Еще номер.
У меня вопрос был задан: "1. запретить доступ к страницам с параметром catalog для сканирования роботами, так как они удалены"
А вы извините, все время отвечаете на другой вопрос о запретных зонах, и ответа нет?

  Ответить  
 
 автор: Владимир55   (19.03.2013 в 21:51)   письмо автору
 
   для: добряк   (19.03.2013 в 18:04)
 

Приложил бы файлик на денек?

Скрипт встроен в систему, а потому собрать его для демонстрации не получится.

Если больше лимита, то выдаем ему отклик "Доступ запрещен".
Чем? Может ртом или письмо по почте отсылаете, а может в суд подаете?


Если страница присутствует, то сервер сам выдает отклик 200. Если страница отсутствует, то нужно делать обработку ошибок и выдавать страницу обработки с откликом 404 (я Вам об этом писал). А если доступ запрещен, то следует выдавать отклик 403 - Forbidden, запрещено. То есть, сервер понял запрос, но отказывается его выполнять из-за ограничений в доступе.

Forbidden формируется точно также, как и 404 при обработке ошибки. В скрипте это надо делать совместно, то есть выдавать либо один отклик, либо другой.

  Ответить  

Сообщения:  [1-10]   [11-17] 

Форум разработан IT-студией SoftTime
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования