|
|
|
| Как запретить поисковому боту смотреть весь сайт кроме главной страницы? | |
|
|
|
|
|
|
|
для: vbps
(23.12.2011 в 03:03)
| | почитай про robots.txt , если в 2-х словах, создаешь файл robots.txt в корне, с таким содержанием.
User-agent: *
Allow: /index
Disallow: /
Host: mysite.ru
вместо mysite.ru впиши свой сайт. | |
|
|
|
|
|
|
|
для: NexGen
(23.12.2011 в 11:29)
| | Гугл бот чихал на эти дерективы...в robots.txt
Можно анализировать User-Agent который несет бот и блокировать
Но самое интересное что некоторые боты гугла и некоторых других поисковиков не несут его или заходят с другим ..неизвестным...
ВЫВОД: НИКАК...:(
Поспешил с выводом...можно....
надо все ссылки с главной страницы перевести в виде кнопок и навесить ява скрипт такой хитрый чтобы бот не смог оттуда выковыривать ссылки..а на кнопки он ПОКА нажимать не умеет....;) | |
|
|
|
|
|
|
|
для: SerG7
(24.12.2011 в 15:19)
| | откуда такая информация? вот официальная, взята с гугла:
Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы включали в свои индексы все содержание вашего сайта, файл robots.txt (даже пустой) не требуется.
Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL-адреса, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.
если нету ссылок с других ресурсов на сайт, то залоченное не будет индексироваться.
UPD а если уже страницы проиндексированы, то можно воспользоваться метатегом:
<meta name="robots" content="noindex">
|
добавить на каждую страницу, кроме главной, дождаться пока боты пройдут по этим страницам и они вырадут из индекса, потом залочить в robots, перед этим естественно в robots нужно открыть доступ. "noindex" распознается гуглом, яндексом и рамблером, остальные не знаю. | |
|
|
|
|
|
|
|
для: NexGen
(24.12.2011 в 18:38)
| | На заборе написано одно..а там дрова......опыт и статистика говорят обратное..... | |
|
|
|
|
|
|
|
для: SerG7
(24.12.2011 в 15:19)
| | Мне нужно блокировать только определенных ботов, например мсн, и яху. Но так что бы главная страница была для них открыта. Что бы сайт хоть как то в них присутствовал.
Ситуация такая, на сайте более 500.000 страниц. Толку от западных поисковиков ноль (гугл не в счет).
Нагрузку боты дают только в путь.
Robots.txt не спасет. Как показывает практика, в индекс может страницы и не попадут, а бот все равно пробежится (подозреваю, в поисках ссылок, куда ему можно идти, может еще для чего). | |
|
|
|
|