Я ищу утилиту java, с помощью которой пользователь может конвертировать любой тип файла (pdf, doc, docx, xls, xlsx, csv, rtf, txt). У нас есть требование, в котором пользователь может загружать файлы любого типа, и нам нужно прочитать содержимое файла (только текст), преобразовать его и сохранить в объекте. Это можно сделать с помощью Apachi poi, но мне интересно, существует ли какая-либо утилита java?Java Utility для преобразования содержимого любого файла в текстовый файл.
ответ
Возможно, вас заинтересует Apache Tika, который включает в себя функциональность Apache POI и PDFBox. Из описания проекта инструментарий: «обнаруживает и извлекает метаданные и структурированный текстовый контент из различных документов с использованием существующих библиотек-парсеров.«
Спасибо, Хавьер, Апач Тика выглядит хорошо и выполняет мои требования. –
Я предполагаю, что у вас не может быть какой-либо универсальной функции для каждого типа файлов. Вам нужно будет реализовать методы преобразования для каждого типа файла. This link помогает с файлами PDF, а также предоставит вам шаблон для работы с вашими другими типами файлов.
Спасибо Крису за комментарий, однако я лично никогда не рекомендовал бы кого-либо использовать roseindia.net. Поверьте мне, это худший сайт, чтобы что-то узнать. –
- 1. Текстовый файл для преобразования файла XML
- 2. использовать Java для преобразования ЛЮБОГО файла в шестнадцатеричный и обратно
- 3. Текстовый текстовый файл в Java
- 4. Программа Java для преобразования файлов avro в текстовый файл
- 5. файл класса для преобразования Java-файла
- 6. Как использовать VBscript для преобразования содержимого содержимого папки в текстовый файл. Он также должен извлекать только тип файла «outlook Item»
- 7. C#: Добавление * содержимого * одного текстового файла в другой текстовый файл
- 8. Какова наилучшая практика для создания классов Utility Utility в Java
- 9. Как записать в текстовый файл без перезаписи содержимого файла?
- 10. Java: Как читать текстовый файл
- 11. копирование содержимого двух связанных списков в текстовый файл в java
- 12. Restructure текстовый файл в Java
- 13. Преобразование любого файла в двоичный файл и обратно
- 14. Пакетный файл для преобразования военного времени в стандартное время из текстового файла в новый текстовый файл
- 15. Parse Текстовый файл в Java
- 16. Запись содержимого ObservableCollection в текстовый файл
- 17. Запись содержимого списка в текстовый файл
- 18. Сканировать текстовый файл в Java
- 19. Java Запись в текстовый файл
- 20. Получение содержимого окна в текстовый файл
- 21. Преобразование любого файла в двоичный файл в java
- 22. Преобразование любого файла в PNG в Java
- 23. Создание Ruby Script для преобразования содержимого документа Word в текстовый файл
- 24. Запись содержимого массива в текстовый файл
- 25. Запись содержимого формы в текстовый файл
- 26. Java Small Utility Application
- 27. Utility Test Java
- 28. Сохранение текстовых полей в текстовый файл и загрузка содержимого текстового файла в текстовые поля (сериализованный) Java
- 29. текстовый файл для 2d массивов в java
- 30. Весь текстовый файл для строки в Java
Каков ваш вопрос программирования? Такая утилита будет либо очень склонна к ошибкам (недостаточно конкретной), либо очень сложна для разработки (с учетом многих конкретных случаев) и, следовательно, запатентована (например, используется для поисковых систем). – ipavlic
Для синтаксического анализа PDF вы можете использовать PDFBox: http://pdfbox.apache.org/ –
Christophe, as javier предоставил ссылку для apache tikka и ее использование внутри PDFBox. Его не только о pdf, мне также нужно разбирать и другие форматы. –