Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В. PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Разное

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Как избежать дублей страниц?
 
 автор: Владимир55   (26.01.2012 в 10:57)   письмо автору
 
 

При индексации страниц, имеющих постоянный текст при различных параметрах адресной строки, получаются дубли страниц на сайте.

Как показывает практика, атрибут rel="canonical" никак не решает этой проблемы, а роботс Гугл вообще не читает.

Как альтернатива мне представляется целесообразным передача информации не через параметры адресной строки, а через сессии (в случаях, когда такая замена возможна исходя из алгоритма работы).

Но возникает сомнение вот какого плана.

Поисковик является несессионным обозревателем. А это значит, что для него сессия будет передана в адресной строке. И тогда получится, что дублей еще больше.

Или, всё-таки, поисковик умеет отличать сессию, передающуюся через адресную строку, от другой информации в адресной строке?

  Ответить  
 
 автор: cheops   (26.01.2012 в 13:08)   письмо автору
 
   для: Владимир55   (26.01.2012 в 10:57)
 

У меня большое подозрение, точнее почти уверенность, что проверяющие роботы сессию поддерживают и вообще ведут себя не отличимо от браузера. Если они найдут различия с тем, что проиндексировали обычные роботы - может получиться еще хуже.

  Ответить  
 
 автор: Владимир55   (26.01.2012 в 13:59)   письмо автору
 
   для: cheops   (26.01.2012 в 13:08)
 

Я тут имел в виду вот что.

Если поисковик несессионный (хоть основной, хоть проверяющий), то РНР произведет автозамену и получится УРЛ вида

http://softtime.ru/test.php?PHPSESSID=ac4f4a45bdc893434c95dcaffb1c1811


Идентификатор здесь специфичный - PHPSESSID.

Может ли быть так, что такой идентификатор по умолчанию не рассматривается как динамический параметр УРЛа?

=================

А если .htaccess прописать:

php_value session.use_trans_sid off
или непосредственно в скрипте
ini_set('session.use_trans_sid', 0);
session_start();
то может возникнуть логическая путаница, если у пользователя запрещены куки.

Или сейчас куки никто не запрещает?

Соффтайм как поступает?

  Ответить  
 
 автор: cheops   (26.01.2012 в 14:21)   письмо автору
 
   для: Владимир55   (26.01.2012 в 13:59)
 

>Или сейчас их никто не запрещает?
Скоро уж cookie устаревшим механизмом объявят, будет хранилище... Cookie раньше запрещали Web-разработчики и вся прочая околокомпьютерная шпана, которой была ненавистна сама мысль, что какие-то чужеродные приложения будут что-то писать на их машины без их ведома. Тогда это было в новинку, вирусы распространялись дисками, многие о сетевых угрозах знали только по наслышке и перестраховывались. Нет, конечно, наверняка есть те, кто отключает Cookie начитавшись форумов 15-летней давности. Я в то время лично знавал людей, которые помимо Cookie и JavaScript отключали еще и META-тэги... но мы так до текстовых страниц и lynx скатимся, если будем учитывать интересы фриков...

  Ответить  
 
 автор: Владимир55   (26.01.2012 в 14:37)   письмо автору
 
   для: cheops   (26.01.2012 в 14:21)
 

Понятно.

А всё же, как Соффттайм решает проблему дублирования страниц под влиянием сессий? Игнорирует её? Или Вы на тематических страницах сессии не используете?

===============

Кстати, а ведь при запрете сессий и запрете Cookie результаты ввода информации через форму не могут быть обработаны?

  Ответить  
 
 автор: cheops   (26.01.2012 в 15:23)   письмо автору
 
   для: Владимир55   (26.01.2012 в 14:37)
 

Владимир, мы сто раз говорили, нам поисковики не нужны, если мы нужны им - ради бога, можем даже делать так, чтобы им было слегка удобно, если на это есть время. Однако, главные тут посетители - люди, главное чтобы им было удобно, если им будет удобно с пятью дублями - их будет пять, поисковые роботы пусть думают что хотят. Если вы заметили, они тоже и на правила и на стандарты плюют, если им это хоть чуть-чуть выгодно. Интернет он для людей создавался, а не для роботов, мы его для людей дальше и будем строить.

PS Когда профессионалам нужна масса (как правило, речь даже не о массе, а о её деньгах), то задействуют совершенно другие каналы, в поисковых системах работают слишком умные и обеспеченные люди, чтобы они своими мощностями за здорово живешь вам пожизненно обеспечивали клиентов. Действуют через СМИ, обманывают биржевиков, причем так, чтобы не на обманке шла реакция, а на откате маятника, когда им деваться некуда и на бирже паника и из этой лавины быков или медведей никак не выскочить, не смотря ни на какие доводы разума... Вы наши "Социальные хакеры" читали? Это введение в поведение толпы (это не пустые теоретизирования, это работа полевого психолога, который на практике проверял, как оно работает), там конечно только наметки, потому, что я во время создания книги постоянно орал: "Только не этот случай!", "Макс, ты с ума сошел!", "Это в книге появится только через мой труп!". Поэтому скромный объем - целиком моя вина/заслуга, но там добротное введение и подборка ссылок для дальнейшего изучения.

  Ответить  
 
 автор: Владимир55   (26.01.2012 в 15:44)   письмо автору
 
   для: cheops   (26.01.2012 в 15:23)
 

Владимир, мы сто раз говорили, нам поисковики не нужны

Это то я помню. Но имелись в виду сайты, которые Соффтайм делает для своих клиентов.

  Ответить  
 
 автор: cheops   (26.01.2012 в 16:00)   письмо автору
 
   для: Владимир55   (26.01.2012 в 15:44)
 

А... во-первых не всем это нужно, обычно специально обговаривается, во-вторых там где это критично, URL-формируется на уровне движка, т.е. два разных URL просто нигде и никогда не фигурируют. Если беремся за раскрутку, то домен придумывает КМВ - где он берет хорошие не занятые или только освободившиеся имена - это к нему вопрос, но я так понимаю, что это результат начитанного сознания не чуждого поэзии и литературы, которое легко находит бреши в скриптах, подбирающих домены по словарю (домен важен, я в свое время занял домен simdyanov.ru для своего блога, если вдруг соберусь, мне КМВ как 2x2 показал, что можно даже не начинать на нем никакой IT-шный блог). До смешного доходит, звонит мне зарегистрируй домен, регистрирую на его имя, через день ему звонят и умоляют продать :))) Речь о 03-03-03.ru. После этого идут консультации, иногда тексты, в самом крайнем случае тяжелая артиллерия - внешний мир (но последнее почти всегда только на наши собственные проекты). А крохи вроде валидации, отсутствия дублей выполняются ровно на столько, чтобы было удобно и пользователям и разработчикам - не скажу, что об этом у меня сильно болит голова. Да в новых проектах валидный код, но если приглянется нестандартный CSS-атрибут какого-то браузера - он пойдет в дело, не смотря на вопли валидаторов, тем более я знаю кто писал валидаторы, зачем и какого они сами об этом мнения. Да стараемся везде использовать только одну ссылку, но если поисковик найдет каноническое имя - это его проблемы, никто его туда не звал и никто ему его не показывал - ну если клиент настаивает, можем сменить имя скрипта, чтобы снова было доступно только mod_rewrite-имя.

PS Однако, как правило, мы не беремся за раскрутку, так как действует несколько не стандартными средствами. Не все к этому готовы, да и за стандартные не все готовы платить. Если в случае кода понятно, что оплачивается, то при раскрутке довольно много скользких моментов - не всем понятно сколько это стоит, как оценивать, и вообще может это сайт сам так раскрутился... в общем мы предпочитаем работать в более прозрачном водоеме.

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования