У меня есть список файлов .pdf, ppt, pptx, xls, xlsx, doc и .docx List<File>
и теперь вы хотите искать адреса электронной почты в этих файлах. Моя проблема заключается в том, как извлечь план Text smart из этих файлов. В настоящее время я использую Apache POI, и у меня есть один метод для каждого типа файлов, есть ли более короткая, более элегантная возможность сделать это? Возможно, есть также возможность обрабатывать файлы .odt, .odp, .ods? Как получить текст плана из .pdf, ppt, pptx, xls, xlsx, doc и .docx Файлы в строку?Извлечь текст из файлов Office и PDF в Java
ответ
Если библиотека Apache может преобразовать файл в текст, вы можете сделать regex search в результирующем тексте. Если вы можете использовать какую-либо другую библиотеку Java, вы можете искать ее непосредственно в исходном документе или, по крайней мере, сначала конвертировать в обычный текст.
Компания, в которой я работаю, имеет несколько библиотек для двух из этих форматов. С библиотекой Gnostice XtremeDocumentStudio (для Java) вы можете конвертировать файлы PDF и DOCX в обычный текст.
DocumentConverter dc = new DocumentConverter();
dc.convertToFile("sample.pdf", "sample-pdf.txt");
dc.convertToFile("sample.docx", "sample-docx.txt");
С Gnostice PDFOne (для Java) библиотеки, вы можете напрямую выполнить search in the PDF using a regex (другое регулярное выражение, один созданный для адресов электронной почты, ссылки выше). Эта библиотека работает только с файлами PDF.
PdfDocument doc = new PdfDocument();
doc.load("Input_Docs\\input_doc.pdf");
// Obtain all website addresses in page 2
ArrayList lstSearchResults =
(ArrayList) doc.search("http://{1}", // regular expression
2, // page number
PdfSearchMode.REGEX,
PdfSearchOptions.NONE);
Вы попробовали JOffice? Он поддерживает форматы документов OpenOffice (.odt, .ods), а также форматы документов Microsoft Office.
- 1. извлечь текст из pdf-файлов
- 2. Извлечь текст из pdf и текстовых файлов
- 3. Извлечь текст из PDF
- 4. Извлечь текст из PDF/A в Java
- 5. Извлечь текст из PDF в Railo
- 6. Извлечь текст из pdf в формате
- 7. Как извлечь текст из PDF?
- 8. извлечь текст из pdf-файла
- 9. Извлечь текст из изображения в PDF
- 10. Как извлечь текст из файла pdf и doc без загрузки
- 11. Как извлечь текст из PDF для работы?
- 12. Как извлечь заметки и выделенные части из файлов PDF
- 13. Извлечь текст из pdf в C#
- 14. Извлечь текст из PDF (движок Google)
- 15. Извлечь все из PDF
- 16. Извлечь текст и изображения из PDF с помощью iText5
- 17. Извлечь текст из коррумпированного (?) Pdf document
- 18. Извлечь текст из pdf с помощью zlib
- 19. Как извлечь текст из документов MS Office в C#
- 20. Как извлечь текст из документа PDF
- 21. Извлечь текст из строки Java
- 22. Извлечь текстовый контент из PDF
- 23. Python, разделяющий изображения и текст из файлов MS Office
- 24. Как извлечь текст из файла PDF в Perl?
- 25. Можно ли извлекать метаинформацию из файлов MS Office и/или PDF-файлов с помощью PHP?
- 26. извлечь текст из pdf в php не работает для всех файлов PDF
- 27. Извлечь PDF-файл в java и отобразить как HTML
- 28. Как создать и извлечь изображение из сканированного PDF-файла (Java)
- 29. Экстракты из PDF-файлов
- 30. автоматически извлекает текст из pdf для многих файлов
Вы попробовали [Apache Tika] (http://tika.apache.org/)? – Gagravarr