2013-03-21 2 views
2

Недавно я натолкнулся на Apache Tika, красивый инструментарий, который обрабатывает файлы нескольких типов для извлечения текста (и некоторой другой информации, такой как метаданные).Удаление и изменение текста текста

Проблема, с которой я столкнулся в том, что данный документ (в каком-то формате, такие как PDF, DOC, XLS и т.д.), мне нужно экстракта текста, изменить некоторые из них, и повторно -build документ в оригинальном формате (с измененным текстом). Насколько мне известно, Tika предоставляет возможность извлечения текста, но не «строчка» измененных документов назад.

Я чувствую, что есть некоторые библиотеки, которые делают это для конкретных типов файлов, но я не знаю ни одного набора инструментов аналогично Тик, который обеспечивает решение от конца до конца для меня обработок всех в типы файлов, поддерживаемые Tika. Я также не уверен, что сама Тика может это сделать для меня.

Если кто-то знает что-нибудь в этом роде, пожалуйста, дайте мне знать. Я ищу библиотеку, написанную на Java.

С уважением,

Salil

EDIT: coderanch.com/how-to/java/AccessingFileFormats имеет несколько ToolKits Листер, но я был бы признателен за то, что оборачивает все форматы, поддерживаемые Тика всесторонне.

ответ

2
  • Apache POI

Apache POI ваше решение Java Excel (для Excel 97-2008). У нас есть полный API для переноса других форматов OOXML и OLE2 и приветствуем участие других.

Файлы OLE2 включают в себя большинство файлов Microsoft Office, таких как XLS, DOC и PPT, а также форматы файлов на основе API-интерфейсов MFC. Проект предоставляет API для OLE2 файловой системы (POIFS) и OLE2 Document Properties (HPSF).

Office OpenXML Format - это новый формат XML-файлов, основанный на стандартах, найденный в Microsoft Office 2007 и 2008. Это включает в себя XLSX, DOCX и PPTX.

  • Затмение Birt

    Q: Какие форматы вывода отчета делает поддержку BIRT?

Версия 2.1 поддерживает HTML, Paginated HTML и PDF. Версия 2.2 поддержка HTML, Paginated HTML, PDF, WORD, XLS и PostScript

+1

Да, я ищу что-то, что поддерживает PDF, XML, PPT и другие форматы Office. У этой ссылки есть дополнительная информация: https: //www.coderanch.com/how-to/java/AccessingFileFormats Но все эти (и те, о которых вы упомянули) имеют какой-то формат или другие недостающие. Я ищу что-то, что обертывает все эти форматы (аналогично Tika). Спасибо за вашу помощь. – Salil

0

Похоже, что нет лучших инструментов, как упомянуто here. Единственный выход - написать собственную оболочку для одного или нескольких из этих наборов инструментов, чтобы выполнить эту работу. Было бы здорово, если бы сама Тика предоставила этот объект, но, к сожалению, это не так.

Смежные вопросы