|
|
|
| Нужно регулярное выражение Только русские буквы и знаки препинапия скобки числа.
Т.е. Из кучи мусора на страницы остаётся только русский текст.
Вообщем только русские буквы и всё спец знаки | |
|
|
|
|
|
|
|
для: yarovoews
(31.12.2008 в 19:11)
| | Возможно вам подойдет следующее выражение
|^[-\dа-яё\.,!\?\(\)\"\' ]+$|i
|
| |
|
|
|
|
|
|
|
для: cheops
(31.12.2008 в 19:46)
| | Что-то не подходит...
<?php
// Парсинг контетна из страниц
$fn = file_get_contents('http://guest/content/12.htm');
//$fn = iconv('UTF-8', 'WINDOWS-1251', $fn);
//$fn = eregi_replace('CHARSET=utf8', 'CHARSET=cp1251', $fn);
/*echo $fn;*/
$fn = explode("\n", $fn);
for($a = 0; $a<count($fn); $a++)
{
$fn[$a] = strip_tags($fn[$a]);
if(preg_match("/^[а-яА-Я0-9\s]+$/", $fn[$a])!=false)
{echo $fn[$a];}
}
?>
Качаю страницу, убиваю теги, остаётся ещё много мусора, как бы его убрать,
а имеенно это CSS и JavaScript.
Может подскажите другой вариант. Хочется получить как можно чище текст. | |
|
|
|
|
|
|
|
для: yarovoews
(31.12.2008 в 19:59)
| | Если там UTF-8, то добавьте модификатор "u" | |
|
|
|
|
|
|
|
для: BinLaden
(31.12.2008 в 21:12)
| | Кодировка не проблема, регулярка не подходит. | |
|
|
|
|
|
|
|
для: yarovoews
(01.01.2009 в 08:01)
| | Файл в кодировке windows-1251 | |
|
|
|
|
|
|
|
для: cheops
(31.12.2008 в 19:46)
| | Немного переделал
|^[-\dа-яё\.,!\?\(\)\"\'\:\@\s\;]+$|i
|
Нужно ещё сюда добавить латинские буквы, но чтоб их было определённое колличество в строке. | |
|
|
|
|
|
|
|
для: Yarovoews
(01.01.2009 в 10:41)
| | >Нужно ещё сюда добавить латинские буквы, но чтоб их было определённое колличество в строке.
Не очень понятно, приведите пример того, когда латинские буквы допустимы, а когда нет. | |
|
|
|
|
|
|
|
для: cheops
(31.12.2008 в 19:46)
| | Автор >Т.е. Из кучи мусора на страницы остаётся только русский текст.
На странице
А зачем начало и конец в РВ?. Да и еще судя по всему надо учитывать перевод строк. | |
|
|
|