Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Система статистики -> поисковики
 
 автор: pegas   (23.03.2005 в 12:16)   письмо автору
 
 

В Вашей статистике идет учет только яндеса, рамблера и апорта.
Я хочу расширить его, чтобы он учитывал и другие поисковики. Как это сделать?
Имею ввиду откуда узнать имена поисковых ботов?

   
 
 автор: cheops   (23.03.2005 в 12:29)   письмо автору
 
   для: pegas   (23.03.2005 в 12:16)
 

Систематического описания поисковых роботов я не видел, поэтому это следует выяснить самостоятельно. Для этого необходимо собрать статистику, создав ловушку в начале каждого файла, фиксирующую переменную $HTTP_USER_AGENT каждого из посетителей с сохранением её в файле или базе данных
<?php
  mysql_query
("INSER INTO useragent VALUES (0,'$HTTP_USER_AGENT');");
?>

Таблица useragent создаётся при помощи SQL-запроса
CREATE TABLE useragent VALUES (
  id_hitfile INT(11) NOT NULL AUTO_INCREMENT,
  usragnt TINYTEXT;
) TYPE=MyISAM;

   
 
 автор: pegas   (23.03.2005 в 12:56)   письмо автору
 
   для: cheops   (23.03.2005 в 12:29)
 

спасибо, попробую!

   
 
 автор: Loki   (23.03.2005 в 22:59)   письмо автору
 
   для: cheops   (23.03.2005 в 12:29)
 

Я тоже начал наблюдать. Если есть интерес, то могу постепенно выкладывать результаты.
Пока нашел двух:
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
и еще одного гугла, но не Googlebot, а другой, без бота:)

   
 
 автор: cheops   (24.03.2005 в 00:32)   письмо автору
 
   для: Loki   (23.03.2005 в 22:59)
 

msnbot - это судя повсему поисковый робот microsoft который с помпой был запущен этим летом - от него отбоя нет - по 100 раз на дню ходит...
Хм... а какой юзерагент у google - они в принципе тоже чего-то переделывали...

   
 
 автор: Artem S.   (24.03.2005 в 06:13)   письмо автору
 
   для: cheops   (24.03.2005 в 00:32)
 

Googlebot/2.1 (+http://www.google.com/bot.html)

   
 
 автор: Loki   (24.03.2005 в 09:07)   письмо автору
 
   для: Artem S.   (24.03.2005 в 06:13)
 

>Googlebot/2.1 (+http://www.google.com/bot.html)
Нет, с этим все понятно, там другой был.
А ко мне сегодня вот такой заходил:
TurnitinBot/2.0 http://www.turnitin.com/robot/crawlerinfo.html
но врядли он кому нужен:)

   
 
 автор: pegas   (24.03.2005 в 12:08)   письмо автору
 
   для: Loki   (24.03.2005 в 09:07)
 

Я тут тоже за сутки отловил двух:
1. msnbot/1.0
2. SurveyBot/2.3

   
 
 автор: blackdog   (25.03.2005 в 02:09)   письмо автору
 
   для: pegas   (24.03.2005 в 12:08)
 

ловите Тех что отловил я для своего счетчика за все время
--------------
Turtle Scanner (http://www.turtle.ru/) % TurtleScanner
Google Bot (http://www.google.com/) % Googlebot
Yandex Crawler (http://www.yandex.ru/) % Yandex/
Rambler Crawler (http://www.rambler.ru/) % StackRambler
FAST-WebCrawler (http://fast.no/) % FAST-WebCrawler
ASPseek % ASPseek
UdmSearch % UdmSearch
XWareCrawler % XWareCrawler
WatzNew Agent (http://www.watznew.com) % WatzNew
AlkalineBOT % AlkalineBOT
NetAnts % NetAnts
URL_Spider_Pro (http://www.innerprise.net/usp-spider.asp) %URL_Spider_Pro
CGIexpo.com Verifier % CGIexpo.com Verifier
Rumours-Agent % Rumours-Agent
asterias % asterias
nabot % nabot
Pockey-GetHTML/4.11.5 (Win32; GUI; ix86) % Pockey-GetHTML
InetURL % InetURL
WatzNew Agent % WatzNew Agent (www.watznew.com)
Altavista % Mercator-
Altavista % Scooter
AskJeeves % ask jeeves
Direct Hit % (Direct Hit Grabber)
Excite % ArchitextSpider
Excite % libwww-perl/5.33
FAST % fastlwspider
FAST % FAST-WebCrawler
Google % Googlebot/
IBM/Almaden % http://www.almaden.ibm.com/cs/crawler
IncyWincy % http://www.loopimprovements.com/robot.html
Infoseek % Infoseek Sidewinder/
Inktomi % Slurp.
Inktomi % Slurp/
Lycos % Lycos_Spider_
NorthenLight % Gulliver/1.3
NationalDirectory % nationaldirectory-webspider/
PicSearch % http://www.picsearch.com/bot.html
Moget (Japan) % moget@goo.ne.jp
Szukacz (Poland) % www.szukacz.pl/jakdzialarobot.html
OpenFind (TAIWAN) % Openfind data gatherer, Openbot
NaverRobot (www.naver.com) % NaverRobot
appie 1.1 (www.walhello.com) % appie 1.1
MSN Bot % http://search.msn.com/msnbot.htm
KM.RU Crawler (eStyleSearch) % eStyleSearch
KM.RU Crawler (eStyleSearch) % eStyleSearch
Yahoo Slurp (http://help.yahoo.com/help/us/ysearch/slurp)% Yahoo! Slurp

   
 
 автор: Loki   (25.03.2005 в 15:26)   письмо автору
 
   для: blackdog   (25.03.2005 в 02:09)
 

Ух ты! Вот это здорово!
Правда, знакомые поисковики можно по пальцам пересчитать... причем, одной руки:)

   
 
 автор: Loki   (25.03.2005 в 16:02)   письмо автору
 
   для: blackdog   (25.03.2005 в 02:09)
 

Новенький
WebSauger 1.20b

   
 
 автор: Олег   (25.03.2005 в 18:13)   письмо автору
 
   для: Loki   (25.03.2005 в 16:02)
 

а как, куда и что конкретно надо вставить в базу чтоб счетчик ловил посещения новых поисковиков ? или может просто ктото выложит архив уже с этим дополнением :( Плиз.. если не сложно

   
 
 автор: Loki   (28.03.2005 в 09:44)   письмо автору
 
   для: Олег   (25.03.2005 в 18:13)
 

В базе надо создать новую таблицу при помощи команды

CREATE TABLE 'useragent' (
  'id_hitfile' int(11) NOT NULL auto_increment,
  'ips' tinytext NOT NULL,
  'usragnt' tinytext NOT NULL,
  PRIMARY KEY  ('id_hitfile')
) TYPE=MyISAM ;

А в конец файла count.php вставить следующее:

<?
//Ловушка для роботов
if ($os=='none')
mysql_query("INSERT INTO useragent VALUES (0,'$ip','$HTTP_USER_AGENT');");
<?

на самом деле, вторая колонка не обязательна, но я оставил ее для связи с остальными таблицами.

   
 
 автор: XPraptor   (25.03.2005 в 18:15)   письмо автору
 
   для: Loki   (25.03.2005 в 16:02)
 

В нете есть скрипт CnsStats статистика на PHP, он у меня на портале стоит, в нем более 160 поисковых роботов в базе, и он всегда тебе ответит какие роботы когда и по сколько страниц прошлию Ставьте эту систему и не партесь.

   
 
 автор: Loki   (28.03.2005 в 09:35)   письмо автору
 
   для: XPraptor   (25.03.2005 в 18:15)
 

Хочется же развить свое, родное:)
У меня последине дни
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
по нескольку раз на дню заходит...

   
 
 автор: cheops   (28.03.2005 в 10:14)   письмо автору
 
   для: Loki   (28.03.2005 в 09:35)
 

Ммм... легендарный Yahoo, у вас наверное английский текст на странице присутствует... из-за нашего справочника нас HotLog шерстит :))) А потом ищешь что-нибудь по англицки в забугорных поисковиках - китайский, русский...

   
 
 автор: Loki   (28.03.2005 в 12:26)   письмо автору
 
   для: cheops   (28.03.2005 в 10:14)
 

Если бы:) Правда, у меня название сайта по аглицки написано, похоже что ему этого достаточно:)
Сейчас проверил - сканирует самые что нинаесть русскоязычные страницы:)

   
 
 автор: Loki   (28.03.2005 в 13:07)   письмо автору
 
   для: cheops   (28.03.2005 в 10:14)
 

Сходил на yahoo.com - ищет по русским ключевым словам как ни в чем не бывало... и вроде как неплохо ищет. Так что скоро рамблеров и яндексов потеснят:)

   
 
 автор: Loki   (28.03.2005 в 16:52)   письмо автору
 
   для: Loki   (28.03.2005 в 13:07)
 

Еще новенький:
Mozilla/4.0 (compatible; Trend Micro tmdr 1.0-1000)
Mozilla/4.0 (compatible; Trend Micro tmdr 1.0-1139)
отличаются только цифрой в конце... ОЧЕНЬ настырный:)

   
 
 автор: cheops   (28.03.2005 в 22:15)   письмо автору
 
   для: Loki   (28.03.2005 в 16:52)
 

А не может быть это менеджером закачки? У вас на сайте есть чего покачать в автоматическом режиме? У нас уж очень форум любят так качать...

   
 
 автор: Loki   (29.03.2005 в 11:23)   письмо автору
 
   для: cheops   (28.03.2005 в 22:15)
 

По идее, качать нечего, но я уже встречал свои материалы на других сайтах в платном доступе, так что может и появились какие шустрые ребята... Хотя, сегодня снова несколько десятков обращений... чего они вчера не докочали?:)))

   
 
 автор: cheops (из ННГУ)   (29.03.2005 в 17:43)
 
   для: Loki   (29.03.2005 в 11:23)
 

Хм... это могут быть другие... хотя если это происходит регулярно, то скорее всего какой-то робот. Поиск в Интернет по нему ничего не даёт?

   
 
 автор: Loki   (29.03.2005 в 18:15)   письмо автору
 
   для: cheops (из ННГУ)   (29.03.2005 в 17:43)
 

Довольно быстро попадаешь на "Trend Micro - Free online virus Scan"... остается непонятным - кто проверял мой сайт на вирусы. Или он по собственной инициативе весь инет шерстит?:))))

   
 
 автор: Loki   (07.04.2005 в 14:01)   письмо автору
 
   для: cheops   (24.03.2005 в 00:32)
 

Нашел я гугла о котором говорил:)
Mediapartners-Google/2.1

   
 
 автор: Loki   (30.03.2005 в 09:56)   письмо автору
 
   для: pegas   (23.03.2005 в 12:16)
 

Еще раз о юзерагентах.
Сегодня ко мне заходил макинтошевиц. Естественно, в статистике он учтен как поисковый робот, так как USER_AGENT у него Mozilla/4.0 (compatible; MSIE 5.0; Mac_PowerPC)
В общем, система дает сбои... надо что-то придумывать:(

   
 
 автор: cheops   (30.03.2005 в 10:16)   письмо автору
 
   для: Loki   (30.03.2005 в 09:56)
 

Хм... макинтош сдаёт позиции, первый раз слышу, чтобы в USER_AGENT отсутствовало слово "Macintosh" - придётся добавить ещё "PowerPC"...

   
 
 автор: Loki   (01.04.2005 в 15:18)   письмо автору
 
   для: cheops   (30.03.2005 в 10:16)
 

Тут ко мне еще один экзотИк забрел:
Mozilla/5.0 (X11; U; FreeBSD i386; en-US; rv:1.7.5) Gecko/20050317 Firefox/1.0
А вот не предусмотрено у нас такой системы;)

   
 
 автор: cheops   (01.04.2005 в 22:10)   письмо автору
 
   для: Loki   (01.04.2005 в 15:18)
 

Ну даже я не отваживаюсь FreeBSD ставить на домашней машине и использовать её для работы или серфинга в Интернет - это действительно экзотика :))) обычно её на сервер ставят... причём поиск дров для неё напоминает картину "Бурлаки на Волге" :)))

   
 
 автор: Loki   (07.04.2005 в 10:33)   письмо автору
 
   для: cheops   (01.04.2005 в 22:10)
 

У меня тут нарисовался еще один поисковик. Никогда про такой не слышал, но уже имею два перехода с него:
http://vengo.ru/search?q=софтбокс своими руками

   
 
 автор: cheops   (07.04.2005 в 11:21)   письмо автору
 
   для: Loki   (07.04.2005 в 10:33)
 

Хм... может специализированный какой. В Интернет полно тематических поисковиков, т.е. интересует вас только наука, идёте на http://www.sciencedirect.com/ и гарантировано получаете в результатах, только ссылки на статьи и сайты научной направленности, точно так же могли создать поисковик с тематикой вашего сайта и забить вас туда, чтобы робот вас шерстил время от времени и обновлял базы этого поисковика - пользователяе не нужно переворачивать горы мусора, чтобы найти нужную информацию.

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования