Недавно я натолкнулся на Apache Tika, красивый инструментарий, который обрабатывает файлы нескольких типов для извлечения текста (и некоторой другой информации, такой как метаданные).Удаление и изменение текста текста
Проблема, с которой я столкнулся в том, что данный документ (в каком-то формате, такие как PDF, DOC, XLS и т.д.), мне нужно экстракта текста, изменить некоторые из них, и повторно -build документ в оригинальном формате (с измененным текстом). Насколько мне известно, Tika предоставляет возможность извлечения текста, но не «строчка» измененных документов назад.
Я чувствую, что есть некоторые библиотеки, которые делают это для конкретных типов файлов, но я не знаю ни одного набора инструментов аналогично Тик, который обеспечивает решение от конца до конца для меня обработок всех в типы файлов, поддерживаемые Tika. Я также не уверен, что сама Тика может это сделать для меня.
Если кто-то знает что-нибудь в этом роде, пожалуйста, дайте мне знать. Я ищу библиотеку, написанную на Java.
С уважением,
Salil
EDIT: coderanch.com/how-to/java/AccessingFileFormats имеет несколько ToolKits Листер, но я был бы признателен за то, что оборачивает все форматы, поддерживаемые Тика всесторонне.
Да, я ищу что-то, что поддерживает PDF, XML, PPT и другие форматы Office. У этой ссылки есть дополнительная информация: https: //www.coderanch.com/how-to/java/AccessingFileFormats Но все эти (и те, о которых вы упомянули) имеют какой-то формат или другие недостающие. Я ищу что-то, что обертывает все эти форматы (аналогично Tika). Спасибо за вашу помощь. – Salil