Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В. Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В. PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. Программирование. Ступени успешной карьеры. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум Регулярные Выражения

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум (новые сообщения вниз) Структурный форум

тема: Разбить текст на предложения со ссылками

Сообщения:  [1-2] 

 
 автор: cheops   (04.06.2010 в 11:00)   письмо автору
 
   для: alexan   (04.06.2010 в 06:54)
 

1. Ссылки можно сохранить при помощи такой схемы
<?php
  $text 
"Предложение г. .html предложение. Предложение";
  
$pattern "~[\.?!]+(?!htm)~"
  
$arr preg_split($pattern$text$matches);
  echo 
"<pre>";
  
print_r($arr);
  echo 
"</pre>";
?>

Она же, кстати, позволяет наращивать знаки припинания.

  Ответить  
 
 автор: alexan   (04.06.2010 в 06:54)   письмо автору
 
 

Здравствуйте друзья!
Столкнулся с задачей разбить текст на предложения. Пошел стандартным путем, регулярка вида:

$pattern = "~[^\.?!]+~";
preg_match_all($pattern, $text, $matches);

все бы ничего, но
1. В тексте попадаются ссылки и регулярка естественно их тоже разрезает
2. Попадаются сокращения

Можно ли написать выражение, которое разобьет текст на предложения, но будет обходить ссылки(.html, .htm и т.д.) и сокращения(3-4буквы+".")?
И можно ли сделать так, чтоб выражение вообще не трогало знаки препинания(.!?), а просто добавляло к ним знак "¦", чтобы по нему потом и разбивать?
Заранее благодарен, очень жду ваших советов, ну очч. надо!

  Ответить  

Сообщения:  [1-2] 

Форум разработан IT-студией SoftTime
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования