| |
|
|
| | В массиве встречаются строки, содержащие в себе дважды одну и ту же фразу. Например:
автокредит ак барс банк в казани автокредит ак барс банк в казани
автокредит альфа банк уфа автокредит альфа банк уфа
автокредит альфа-банка красноярск автокредит альфа-банка красноярск
|
Максимальное количество слов в одном элементе неопределенно, но не очень большое – приблизительно десять-пятнадцать.
Есть ли возможность автоматически определять факт удвоения текста и удалять дубль? | |
| |
|
|
| |
|
|
| |
для: Владимир55
(21.01.2012 в 14:32)
| | | ну можно попробовать разбить строку через explode(), а потом полученный массив обработать функцией array_unique()
это как вариант....
можно регулярными попробовать сделать... | |
| |
|
|
| |
|
|
| |
для: Slo_Nik
(21.01.2012 в 14:39)
| | | Спасибо, идея интересная! | |
| |
|
|
| |
|
|
| |
для: Владимир55
(21.01.2012 в 14:32)
| | | Быстро и просто не получится... сначала нужно составить индекс фраз, потом уже опираясь на индекс проверить сколько раз входит эта фраза в строку и сколько вообще строк с такой фразой.
PS Вообще так поисковые системы и начинаются :))), а если честно вам вероятно стоит посмотреть в сторону алгоритма полнотекстового поиска (причем собственного варианта, а не библиотечного, скажем, из MySQL). | |
| |
|
|
| |
|
|
| |
для: cheops
(21.01.2012 в 14:50)
| | | Да, это было бы великолепно! Тем более, что при внимательном изучении обнаружилось, что в некоторых дублях слова перставлены местами. | |
| |
|
|
| |
|
|
| |
для: Владимир55
(21.01.2012 в 15:20)
| | | вот об этом и я подумал ))) | |
| |
|
|