|
|
|
| Не нашел соответствующих тем, хотя, полагал, вопрос уже поднимался. Как можно выдрать текст из PDF-файлов на сайте, работающем на php? Это возможно средствами одного пхп, или нужны иные средства? Есть, кто в курсе?
Нужно сделать поиск по пдф-файлам. Я думаю, вытаскивать из них текст (вероятно, при загрузке файла на сервер - это деталь не существенная), и класть текст в SQL-базу. Из поисковой формы поиск будет проводиться по базе, а затем даваться ссылка на пдф-документы, соответствующие записям с найденым текстом.
Вопрос в том, как получить текст из PDF. А может можно искать как-то еще? | |
|
|
|
|
|
|
|
для: kosta_in_net
(13.01.2011 в 01:42)
| | [поправлено модератором] | |
|
|
|
|
|
|
|
для: mihdan
(13.01.2011 в 02:40)
| | Приводимый там в качестве примера "Парус" обрабатывается. А вот реальный файл http://www.snr.com.ru/pdf_snr_catalogue/eng/gencat_bore.pdf выдает сплошные квадратики. Другие файлы (испробовал несколько штук) вообще не выдают ничего.
Что же касается упомянутой там утилиты pdftotext, то, судя по всему, она вовсе не на всех серверах есть. Да и shell_exec не везде разрешен :( | |
|
|
|