2014-09-15 3 views
0

Я занимаюсь разработкой веб-сайта. Я хочу найти файл pdf для строки поиска и показать результаты на веб-сайте. Файл PDF доступен, и когда пользователь вводит какой-либо текст для поиска, результаты должны быть показаны. Я пробовал использовать «pdf-объект», и это не то, что я хочу сделать. Мне нужно не просматривать pdf-файл на веб-сайте, а искать в формате pdf.Поиск текста в PDF-файле, который содержит более 1000 страниц

+1

Я как-то запрограммировал что-то вроде этого. Это было непросто. Я использовал Libpoppler. – thb

+0

У вас есть код для того, что вы сделали –

+0

Да, но это сложно, и я не уверен, что он вам поможет. Если вы используете Debian, Ubuntu или тому подобное, то извлеките исходный код пакета 'derings'. Мой код там. – thb

ответ

1

Libpoppler может помочь. Он анализирует PDF.

С Libpoppler приходит утилита командной строки pdftotext, которая может подойдет вашей цели (она входит в число других в пакет Debian poppler-utils). Лучше, однако, может быть pdfgrep, инструмент для поиска текста в файлах PDF, который не поставляется с Libpoppler. Все они доступны в Debian, возможно, среди других мест.

Смежные вопросы