Как избежать дублей страниц?

Главная страница

Создание сайтов

Блог Кузнецова М.В.

Статьи о PHP

PHP-скрипты

Статьи об Apache

Форум С++

Консультации

Форум "Про Жизнь"

Форум:	Форум PHP	Форум Apache	Форум Регулярные Выражения	Форум MySQL	HTML+CSS+JavaScript	Форум Flash	Разное
Новые темы:	0	0	0	0	0	0	0

Здравствуйте, Посетитель!

вид форума:

тема: Как избежать дублей страниц?

следующая тема

предыдущая тема

	автор: Владимир55 (26.01.2012 в 10:57) письмо автору
	При индексации страниц, имеющих постоянный текст при различных параметрах адресной строки, получаются дубли страниц на сайте. Как показывает практика, атрибут rel="canonical" никак не решает этой проблемы, а роботс Гугл вообще не читает. Как альтернатива мне представляется целесообразным передача информации не через параметры адресной строки, а через сессии (в случаях, когда такая замена возможна исходя из алгоритма работы). Но возникает сомнение вот какого плана. Поисковик является несессионным обозревателем. А это значит, что для него сессия будет передана в адресной строке. И тогда получится, что дублей еще больше. Или, всё-таки, поисковик умеет отличать сессию, передающуюся через адресную строку, от другой информации в адресной строке?
	Ответить

	автор: cheops (26.01.2012 в 13:08) письмо автору
	для: Владимир55 (26.01.2012 в 10:57)
	У меня большое подозрение, точнее почти уверенность, что проверяющие роботы сессию поддерживают и вообще ведут себя не отличимо от браузера. Если они найдут различия с тем, что проиндексировали обычные роботы - может получиться еще хуже.
	Ответить

автор: Владимир55 (26.01.2012 в 13:59) письмо автору

для: cheops (26.01.2012 в 13:08)

Я тут имел в виду вот что.

Если поисковик несессионный (хоть основной, хоть проверяющий), то РНР произведет автозамену и получится УРЛ вида

http://softtime.ru/test.php?PHPSESSID=ac4f4a45bdc893434c95dcaffb1c1811

Идентификатор здесь специфичный - PHPSESSID.

Может ли быть так, что такой идентификатор по умолчанию не рассматривается как динамический параметр УРЛа?

=================

А если .htaccess прописать:

php_value session.use_trans_sid off
или непосредственно в скрипте

ini_set('session.use_trans_sid', 0); session_start();
то может возникнуть логическая путаница, если у пользователя запрещены куки.

Или сейчас куки никто не запрещает?

Соффтайм как поступает?

Ответить

	автор: cheops (26.01.2012 в 14:21) письмо автору
	для: Владимир55 (26.01.2012 в 13:59)
	>Или сейчас их никто не запрещает? Скоро уж cookie устаревшим механизмом объявят, будет хранилище... Cookie раньше запрещали Web-разработчики и вся прочая околокомпьютерная шпана, которой была ненавистна сама мысль, что какие-то чужеродные приложения будут что-то писать на их машины без их ведома. Тогда это было в новинку, вирусы распространялись дисками, многие о сетевых угрозах знали только по наслышке и перестраховывались. Нет, конечно, наверняка есть те, кто отключает Cookie начитавшись форумов 15-летней давности. Я в то время лично знавал людей, которые помимо Cookie и JavaScript отключали еще и META-тэги... но мы так до текстовых страниц и lynx скатимся, если будем учитывать интересы фриков...
	Ответить

	автор: Владимир55 (26.01.2012 в 14:37) письмо автору
	для: cheops (26.01.2012 в 14:21)
	Понятно. А всё же, как Соффттайм решает проблему дублирования страниц под влиянием сессий? Игнорирует её? Или Вы на тематических страницах сессии не используете? =============== Кстати, а ведь при запрете сессий и запрете Cookie результаты ввода информации через форму не могут быть обработаны?
	Ответить

	автор: cheops (26.01.2012 в 15:23) письмо автору
	для: Владимир55 (26.01.2012 в 14:37)
	Владимир, мы сто раз говорили, нам поисковики не нужны, если мы нужны им - ради бога, можем даже делать так, чтобы им было слегка удобно, если на это есть время. Однако, главные тут посетители - люди, главное чтобы им было удобно, если им будет удобно с пятью дублями - их будет пять, поисковые роботы пусть думают что хотят. Если вы заметили, они тоже и на правила и на стандарты плюют, если им это хоть чуть-чуть выгодно. Интернет он для людей создавался, а не для роботов, мы его для людей дальше и будем строить. PS Когда профессионалам нужна масса (как правило, речь даже не о массе, а о её деньгах), то задействуют совершенно другие каналы, в поисковых системах работают слишком умные и обеспеченные люди, чтобы они своими мощностями за здорово живешь вам пожизненно обеспечивали клиентов. Действуют через СМИ, обманывают биржевиков, причем так, чтобы не на обманке шла реакция, а на откате маятника, когда им деваться некуда и на бирже паника и из этой лавины быков или медведей никак не выскочить, не смотря ни на какие доводы разума... Вы наши "Социальные хакеры" читали? Это введение в поведение толпы (это не пустые теоретизирования, это работа полевого психолога, который на практике проверял, как оно работает), там конечно только наметки, потому, что я во время создания книги постоянно орал: "Только не этот случай!", "Макс, ты с ума сошел!", "Это в книге появится только через мой труп!". Поэтому скромный объем - целиком моя вина/заслуга, но там добротное введение и подборка ссылок для дальнейшего изучения.
	Ответить

	автор: Владимир55 (26.01.2012 в 15:44) письмо автору
	для: cheops (26.01.2012 в 15:23)
	Владимир, мы сто раз говорили, нам поисковики не нужны Это то я помню. Но имелись в виду сайты, которые Соффтайм делает для своих клиентов.
	Ответить

	автор: cheops (26.01.2012 в 16:00) письмо автору
	для: Владимир55 (26.01.2012 в 15:44)
	А... во-первых не всем это нужно, обычно специально обговаривается, во-вторых там где это критично, URL-формируется на уровне движка, т.е. два разных URL просто нигде и никогда не фигурируют. Если беремся за раскрутку, то домен придумывает КМВ - где он берет хорошие не занятые или только освободившиеся имена - это к нему вопрос, но я так понимаю, что это результат начитанного сознания не чуждого поэзии и литературы, которое легко находит бреши в скриптах, подбирающих домены по словарю (домен важен, я в свое время занял домен simdyanov.ru для своего блога, если вдруг соберусь, мне КМВ как 2x2 показал, что можно даже не начинать на нем никакой IT-шный блог). До смешного доходит, звонит мне зарегистрируй домен, регистрирую на его имя, через день ему звонят и умоляют продать :))) Речь о 03-03-03.ru. После этого идут консультации, иногда тексты, в самом крайнем случае тяжелая артиллерия - внешний мир (но последнее почти всегда только на наши собственные проекты). А крохи вроде валидации, отсутствия дублей выполняются ровно на столько, чтобы было удобно и пользователям и разработчикам - не скажу, что об этом у меня сильно болит голова. Да в новых проектах валидный код, но если приглянется нестандартный CSS-атрибут какого-то браузера - он пойдет в дело, не смотря на вопли валидаторов, тем более я знаю кто писал валидаторы, зачем и какого они сами об этом мнения. Да стараемся везде использовать только одну ссылку, но если поисковик найдет каноническое имя - это его проблемы, никто его туда не звал и никто ему его не показывал - ну если клиент настаивает, можем сменить имя скрипта, чтобы снова было доступно только mod_rewrite-имя. PS Однако, как правило, мы не беремся за раскрутку, так как действует несколько не стандартными средствами. Не все к этому готовы, да и за стандартные не все готовы платить. Если в случае кода понятно, что оплачивается, то при раскрутке довольно много скользких моментов - не всем понятно сколько это стоит, как оценивать, и вообще может это сайт сам так раскрутился... в общем мы предпочитаем работать в более прозрачном водоеме.
	Ответить