2013-02-25 2 views
2

Я ищу утилиту java, с помощью которой пользователь может конвертировать любой тип файла (pdf, doc, docx, xls, xlsx, csv, rtf, txt). У нас есть требование, в котором пользователь может загружать файлы любого типа, и нам нужно прочитать содержимое файла (только текст), преобразовать его и сохранить в объекте. Это можно сделать с помощью Apachi poi, но мне интересно, существует ли какая-либо утилита java?Java Utility для преобразования содержимого любого файла в текстовый файл.

+0

Каков ваш вопрос программирования? Такая утилита будет либо очень склонна к ошибкам (недостаточно конкретной), либо очень сложна для разработки (с учетом многих конкретных случаев) и, следовательно, запатентована (например, используется для поисковых систем). – ipavlic

+0

Для синтаксического анализа PDF вы можете использовать PDFBox: http://pdfbox.apache.org/ –

+0

Christophe, as javier предоставил ссылку для apache tikka и ее использование внутри PDFBox. Его не только о pdf, мне также нужно разбирать и другие форматы. –

ответ

4

Возможно, вас заинтересует Apache Tika, который включает в себя функциональность Apache POI и PDFBox. Из описания проекта инструментарий: «обнаруживает и извлекает метаданные и структурированный текстовый контент из различных документов с использованием существующих библиотек-парсеров.«

+0

Спасибо, Хавьер, Апач Тика выглядит хорошо и выполняет мои требования. –

0

Я предполагаю, что у вас не может быть какой-либо универсальной функции для каждого типа файлов. Вам нужно будет реализовать методы преобразования для каждого типа файла. This link помогает с файлами PDF, а также предоставит вам шаблон для работы с вашими другими типами файлов.

+0

Спасибо Крису за комментарий, однако я лично никогда не рекомендовал бы кого-либо использовать roseindia.net. Поверьте мне, это худший сайт, чтобы что-то узнать. –

Смежные вопросы