Я занимаюсь разработкой веб-сайта. Я хочу найти файл pdf для строки поиска и показать результаты на веб-сайте. Файл PDF доступен, и когда пользователь вводит какой-либо текст для поиска, результаты должны быть показаны. Я пробовал использовать «pdf-объект», и это не то, что я хочу сделать. Мне нужно не просматривать pdf-файл на веб-сайте, а искать в формате pdf.Поиск текста в PDF-файле, который содержит более 1000 страниц
0
A
ответ
1
Libpoppler может помочь. Он анализирует PDF.
С Libpoppler приходит утилита командной строки pdftotext
, которая может подойдет вашей цели (она входит в число других в пакет Debian poppler-utils
). Лучше, однако, может быть pdfgrep
, инструмент для поиска текста в файлах PDF, который не поставляется с Libpoppler. Все они доступны в Debian, возможно, среди других мест.
Смежные вопросы
- 1. SQL: Поиск текста, который содержит в массивах
- 2. Поиск текста в 100 страниц
- 3. Поиск более 1000 запросов в parse iOS
- 4. Создание статического сайта ASP.NET, который содержит более 100 страниц
- 5. Поиск прямоугольника, который содержит точку
- 6. Поиск нескольких строк текста, который не содержит определенного выражения
- 7. Поиск текста, который содержит определенную строку с пробелом?
- 8. Поиск страниц без текста в PDF
- 9. Сортировка текста, который содержит цифры?
- 10. Поиск в списке, который содержит атрибут объекта
- 11. Поиск значения в dataframe, который содержит список
- 12. Выполнение 1000+ страниц/мин в среде браузера
- 13. Конвертировать PDF-страницы в изображения более 1000
- 14. Как отсортировать ArrayList, который содержит более 1000 различных строк на основе similairy для другой заданной строки
- 15. Код хэша, который содержит более 16 символов?
- 16. Хранение текста, который содержит теги html
- 17. Итерация по страницам в Word и поиск страниц содержит изображение
- 18. Как обрабатывать 1000 статических страниц в рельсах
- 19. XSLT выбор текста, который содержит сильные теги
- 20. поиск по 'id', который содержит '/' + jquery
- 21. Более 1000 маркеров для карты
- 22. Поиск текста через поиск
- 23. Поиск строк в списке, который содержит определенное слово
- 24. Проблема с удалением идентификаторов более 1000
- 25. GridView отображает более 1000 строк
- 26. Внимание: формуляр на этой странице содержит более 1000 полей. PHP MySql
- 27. Поиск страниц с тегом в CQ5
- 28. Сброс Linqpad более 1000 рядов
- 29. Оптимизация запроса mysql, который содержит более 20 встроенных таблиц
- 30. Поиск текста в pdf
Я как-то запрограммировал что-то вроде этого. Это было непросто. Я использовал Libpoppler. – thb
У вас есть код для того, что вы сделали –
Да, но это сложно, и я не уверен, что он вам поможет. Если вы используете Debian, Ubuntu или тому подобное, то извлеките исходный код пакета 'derings'. Мой код там. – thb