Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Сгенерировать ключевые слова на основании контента документа
 
 автор: antf   (24.02.2009 в 20:16)   письмо автору
 
 

Здравствуйте.

Необходимо скриптом сгенерировать ключевые слова на основании контента страницы. Какие слова скрипт может посчитать ключевыми? Как их отличить от не ключевых?

Способ 1

* Формируем массив слов документа.
* Удаляем коротки слова (желательно удалить еще служебные слова и наречия, но тут нужен словарь).
* Формируем ассоциативный массив - слово => частота употребления. Первые десять слов будут ключевыми.

Недостатки:

* Частота употребления далеко не всегда свидетельствует о том, что это слово ключевое.
* В массив могут попасть мусорные слова: которого, этого, этому...

  Ответить  
 
 автор: Dimka31   (24.02.2009 в 20:18)   письмо автору
 
   для: antf   (24.02.2009 в 20:16)
 

можно считать что ключевики это ссылки или текст выделенный жирным

  Ответить  
 
 автор: antf   (25.02.2009 в 16:43)   письмо автору
 
   для: Dimka31   (24.02.2009 в 20:18)
 

Очень хорошее предложение. Вычленяю я текст из заголовка и что с ним делать дальше? Порезать на слова?

  Ответить  
 
 автор: antf   (26.02.2009 в 15:45)   письмо автору
1.5 Кб
 
   для: antf   (25.02.2009 в 16:43)
 

Написал свой генератор кейвордов. Работает следующим образом:

* Вычленяет текст между тегами <b>, <i>, <h1>, <h2>, <h3>, кавычками
* Если длина текста меньше $word_max_len (настраивается в теле функции), он очищается от спецсимволов и становится ключевым словом.

Пример в аттаче. Демо keywordgen_example.php

  Ответить  
 
 автор: Eugene77   (26.02.2009 в 17:48)   письмо автору
 
   для: antf   (26.02.2009 в 15:45)
 

В Интернете есть куча страниц, где эти теги вообще не используются.

Хорошо бы подсчитать (число повторений слова/к общему числу слов на странице), а потом сравнить полученные числа(дроби) с какой-то большой аналогичной статистикой.

  Ответить  
 
 автор: antf   (26.02.2009 в 18:26)   письмо автору
 
   для: Eugene77   (26.02.2009 в 17:48)
 

>В Интернете есть куча страниц, где эти теги вообще не используются.

Нам бы это заказчику объяснить :))

  Ответить  
 
 автор: Eugene77   (27.02.2009 в 19:02)   письмо автору
 
   для: antf   (26.02.2009 в 18:26)
 

>Нам бы это заказчику объяснить :))

Просто при вашем подходе с рядом страниц будут у заказчика возникать проблемы.
Недостаточно будет информации для поиска ключевиков.

  Ответить  
 
 автор: antf   (27.02.2009 в 19:19)   письмо автору
 
   для: Eugene77   (27.02.2009 в 19:02)
 

Да заказчик сказал, что можно любой бесплатный прикрутить. Посмотрел несколько таких. Формируют ассоциативный массив ключевое слово => встречаемость. Самые встречаемые и есть ключевые. Я-то пытаюсь их выловить в зависимости от смысла. И это должны быть действительно ключевые слова, а не цитаты. Хотя, может, действительно, прикрутить и не париться :) ?

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования