Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: текст из pdf
 
 автор: kosta_in_net   (13.01.2011 в 01:42)   письмо автору
 
 

Не нашел соответствующих тем, хотя, полагал, вопрос уже поднимался. Как можно выдрать текст из PDF-файлов на сайте, работающем на php? Это возможно средствами одного пхп, или нужны иные средства? Есть, кто в курсе?
Нужно сделать поиск по пдф-файлам. Я думаю, вытаскивать из них текст (вероятно, при загрузке файла на сервер - это деталь не существенная), и класть текст в SQL-базу. Из поисковой формы поиск будет проводиться по базе, а затем даваться ссылка на пдф-документы, соответствующие записям с найденым текстом.
Вопрос в том, как получить текст из PDF. А может можно искать как-то еще?

  Ответить  
 
 автор: mihdan   (13.01.2011 в 02:40)   письмо автору
 
   для: kosta_in_net   (13.01.2011 в 01:42)
 

[поправлено модератором]

  Ответить  
 
 автор: kosta_in_net   (17.01.2011 в 14:35)   письмо автору
 
   для: mihdan   (13.01.2011 в 02:40)
 

Приводимый там в качестве примера "Парус" обрабатывается. А вот реальный файл http://www.snr.com.ru/pdf_snr_catalogue/eng/gencat_bore.pdf выдает сплошные квадратики. Другие файлы (испробовал несколько штук) вообще не выдают ничего.
Что же касается упомянутой там утилиты pdftotext, то, судя по всему, она вовсе не на всех серверах есть. Да и shell_exec не везде разрешен :(

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования