|
|
|
| Здравствуйте.
Необходимо скриптом сгенерировать ключевые слова на основании контента страницы. Какие слова скрипт может посчитать ключевыми? Как их отличить от не ключевых?
Способ 1
* Формируем массив слов документа.
* Удаляем коротки слова (желательно удалить еще служебные слова и наречия, но тут нужен словарь).
* Формируем ассоциативный массив - слово => частота употребления. Первые десять слов будут ключевыми.
Недостатки:
* Частота употребления далеко не всегда свидетельствует о том, что это слово ключевое.
* В массив могут попасть мусорные слова: которого, этого, этому... | |
|
|
|
|
|
|
|
для: antf
(24.02.2009 в 20:16)
| | можно считать что ключевики это ссылки или текст выделенный жирным | |
|
|
|
|
|
|
|
для: Dimka31
(24.02.2009 в 20:18)
| | Очень хорошее предложение. Вычленяю я текст из заголовка и что с ним делать дальше? Порезать на слова? | |
|
|
|
|
 1.5 Кб |
|
|
для: antf
(25.02.2009 в 16:43)
| | Написал свой генератор кейвордов. Работает следующим образом:
* Вычленяет текст между тегами <b>, <i>, <h1>, <h2>, <h3>, кавычками
* Если длина текста меньше $word_max_len (настраивается в теле функции), он очищается от спецсимволов и становится ключевым словом.
Пример в аттаче. Демо keywordgen_example.php | |
|
|
|
|
|
|
|
для: antf
(26.02.2009 в 15:45)
| | В Интернете есть куча страниц, где эти теги вообще не используются.
Хорошо бы подсчитать (число повторений слова/к общему числу слов на странице), а потом сравнить полученные числа(дроби) с какой-то большой аналогичной статистикой. | |
|
|
|
|
|
|
|
для: Eugene77
(26.02.2009 в 17:48)
| | >В Интернете есть куча страниц, где эти теги вообще не используются.
Нам бы это заказчику объяснить :)) | |
|
|
|
|
|
|
|
для: antf
(26.02.2009 в 18:26)
| | >Нам бы это заказчику объяснить :))
Просто при вашем подходе с рядом страниц будут у заказчика возникать проблемы.
Недостаточно будет информации для поиска ключевиков. | |
|
|
|
|
|
|
|
для: Eugene77
(27.02.2009 в 19:02)
| | Да заказчик сказал, что можно любой бесплатный прикрутить. Посмотрел несколько таких. Формируют ассоциативный массив ключевое слово => встречаемость. Самые встречаемые и есть ключевые. Я-то пытаюсь их выловить в зависимости от смысла. И это должны быть действительно ключевые слова, а не цитаты. Хотя, может, действительно, прикрутить и не париться :) ? | |
|
|
|