Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум Регулярные Выражения

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Только русские буквы и знаки препинапия.
 
 автор: yarovoews   (31.12.2008 в 19:11)   письмо автору
 
 

Нужно регулярное выражение Только русские буквы и знаки препинапия скобки числа.
Т.е. Из кучи мусора на страницы остаётся только русский текст.
Вообщем только русские буквы и всё спец знаки

  Ответить  
 
 автор: cheops   (31.12.2008 в 19:46)   письмо автору
 
   для: yarovoews   (31.12.2008 в 19:11)
 

Возможно вам подойдет следующее выражение
|^[-\dа-яё\.,!\?\(\)\"\' ]+$|i

  Ответить  
 
 автор: yarovoews   (31.12.2008 в 19:59)   письмо автору
 
   для: cheops   (31.12.2008 в 19:46)
 

Что-то не подходит...

<?php
// Парсинг контетна из страниц
$fn = file_get_contents('http://guest/content/12.htm');
//$fn = iconv('UTF-8', 'WINDOWS-1251', $fn);
//$fn = eregi_replace('CHARSET=utf8', 'CHARSET=cp1251', $fn);

/*echo $fn;*/

$fn = explode("\n", $fn);

for($a = 0; $a<count($fn); $a++)
{

$fn[$a] = strip_tags($fn[$a]);
if(preg_match("/^[а-яА-Я0-9\s]+$/", $fn[$a])!=false)
{echo $fn[$a];}

}
?>
Качаю страницу, убиваю теги, остаётся ещё много мусора, как бы его убрать,
а имеенно это CSS и JavaScript.
Может подскажите другой вариант. Хочется получить как можно чище текст.

  Ответить  
 
 автор: BinLaden   (31.12.2008 в 21:12)   письмо автору
 
   для: yarovoews   (31.12.2008 в 19:59)
 

Если там UTF-8, то добавьте модификатор "u"

  Ответить  
 
 автор: yarovoews   (01.01.2009 в 08:01)   письмо автору
 
   для: BinLaden   (31.12.2008 в 21:12)
 

Кодировка не проблема, регулярка не подходит.

  Ответить  
 
 автор: Yarovoews   (01.01.2009 в 08:02)   письмо автору
 
   для: yarovoews   (01.01.2009 в 08:01)
 

Файл в кодировке windows-1251

  Ответить  
 
 автор: Yarovoews   (01.01.2009 в 10:41)   письмо автору
 
   для: cheops   (31.12.2008 в 19:46)
 

Немного переделал
|^[-\dа-яё\.,!\?\(\)\"\'\:\@\s\;]+$|i

Нужно ещё сюда добавить латинские буквы, но чтоб их было определённое колличество в строке.

  Ответить  
 
 автор: cheops   (02.01.2009 в 14:54)   письмо автору
 
   для: Yarovoews   (01.01.2009 в 10:41)
 

>Нужно ещё сюда добавить латинские буквы, но чтоб их было определённое колличество в строке.
Не очень понятно, приведите пример того, когда латинские буквы допустимы, а когда нет.

  Ответить  
 
 автор: AcidTrash   (03.01.2009 в 20:48)   письмо автору
 
   для: cheops   (31.12.2008 в 19:46)
 

Автор >Т.е. Из кучи мусора на страницы остаётся только русский текст.
На странице
А зачем начало и конец в РВ?. Да и еще судя по всему надо учитывать перевод строк.

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования