Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В. MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум Apache

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Как запретить поисковому боту смотреть весь сайт кроме главной страницы?
 
 автор: vbps   (23.12.2011 в 03:03)   письмо автору
 
 

Как запретить поисковому боту смотреть весь сайт кроме главной страницы?

  Ответить  
 
 автор: NexGen   (23.12.2011 в 11:29)   письмо автору
 
   для: vbps   (23.12.2011 в 03:03)
 

почитай про robots.txt , если в 2-х словах, создаешь файл robots.txt в корне, с таким содержанием.

User-agent: *
Allow: /index
Disallow: /
Host: mysite.ru

вместо mysite.ru впиши свой сайт.

  Ответить  
 
 автор: SerG7   (24.12.2011 в 15:19)   письмо автору
 
   для: NexGen   (23.12.2011 в 11:29)
 

Гугл бот чихал на эти дерективы...в robots.txt

Можно анализировать User-Agent который несет бот и блокировать

Но самое интересное что некоторые боты гугла и некоторых других поисковиков не несут его или заходят с другим ..неизвестным...

ВЫВОД: НИКАК...:(

Поспешил с выводом...можно....
надо все ссылки с главной страницы перевести в виде кнопок и навесить ява скрипт такой хитрый чтобы бот не смог оттуда выковыривать ссылки..а на кнопки он ПОКА нажимать не умеет....;)

  Ответить  
 
 автор: NexGen   (24.12.2011 в 18:38)   письмо автору
 
   для: SerG7   (24.12.2011 в 15:19)
 

откуда такая информация? вот официальная, взята с гугла:

Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы включали в свои индексы все содержание вашего сайта, файл robots.txt (даже пустой) не требуется.

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL-адреса, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.


если нету ссылок с других ресурсов на сайт, то залоченное не будет индексироваться.

UPD а если уже страницы проиндексированы, то можно воспользоваться метатегом:
<meta name="robots" content="noindex">

добавить на каждую страницу, кроме главной, дождаться пока боты пройдут по этим страницам и они вырадут из индекса, потом залочить в robots, перед этим естественно в robots нужно открыть доступ. "noindex" распознается гуглом, яндексом и рамблером, остальные не знаю.

  Ответить  
 
 автор: SerG7   (24.12.2011 в 22:57)   письмо автору
 
   для: NexGen   (24.12.2011 в 18:38)
 

На заборе написано одно..а там дрова......опыт и статистика говорят обратное.....

  Ответить  
 
 автор: vbps   (25.12.2011 в 11:22)   письмо автору
 
   для: SerG7   (24.12.2011 в 15:19)
 

Мне нужно блокировать только определенных ботов, например мсн, и яху. Но так что бы главная страница была для них открыта. Что бы сайт хоть как то в них присутствовал.
Ситуация такая, на сайте более 500.000 страниц. Толку от западных поисковиков ноль (гугл не в счет).
Нагрузку боты дают только в путь.
Robots.txt не спасет. Как показывает практика, в индекс может страницы и не попадут, а бот все равно пробежится (подозреваю, в поисках ссылок, куда ему можно идти, может еще для чего).

  Ответить  
 
 автор: SerG7   (25.12.2011 в 11:34)   письмо автору
 
   для: vbps   (25.12.2011 в 11:22)
 

.htaccess
http://forum.searchengines.ru/showthread.php?t=446294

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования