Я использую Apache Tika для разбора RTF-файлов, чтобы получить текст в виде строки. Теперь я хочу удалить некоторые символы из этой строки -> ok. Теперь я хочу сохранить результат как RTF снова. (Вы можете думать об этом процессе как об изменении файла RTF, удалив абзац.) Как это возможно? Как я могу экспортировать эту строку в RTF с помощью Tika?Возможность импорта, изменения и экспорта Java RTF?
4
A
ответ
2
Существует решение для редактирования документов, но оно немного сложное. Вы можете использовать API OpenOffice, чтобы открыть множество типов документов и экспортировать их в другие форматы. Я использовал его некоторое время назад для чтения данных из базы данных и экспорта в виде файла odt и xls.
Я никогда не использовал его для edit a doc, как файл из Writer или MS Word, но по OpenOffice documentation я знаю, что это возможно. Может быть, это может быть пушка, чтобы убить муху, но если вы найдете другие способы, можете решить вашу проблему.
API-интерфейс работает с Java, C++ и т.д.
Почему бы не использовать правильную библиотеку в формате RTF для непосредственного редактирования, а не пытаться превратить его в обычный текст, то снова? – Gagravarr
Мне нужно найти определенные ключевые слова и параграфы в этом rtf и удалить их. Можете ли вы назвать подходящую библиотеку RTF для Java? –
Я пробовал со стандартным Java Swing RTFEditorKit. Было бы хорошо работать, если RTFEditorKit будет поддерживать многоязычные RTF-файлы ... к сожалению, это не так (мне нужно многоязычность!). Разбор китайских и русских rtfs приводит к мусору, потому что RTFEditorKit не предоставляет кодировку для каждого шрифта! Я нашел этот небольшой комментарий в RTFReader:/* TODO: кодировки шрифтов для шрифтов (\ fcharset control word)? */-> Это то, что мне нужно ... –