2012-04-25 3 views
4

Я использую Apache Tika для разбора RTF-файлов, чтобы получить текст в виде строки. Теперь я хочу удалить некоторые символы из этой строки -> ok. Теперь я хочу сохранить результат как RTF снова. (Вы можете думать об этом процессе как об изменении файла RTF, удалив абзац.) Как это возможно? Как я могу экспортировать эту строку в RTF с помощью Tika?Возможность импорта, изменения и экспорта Java RTF?

+0

Почему бы не использовать правильную библиотеку в формате RTF для непосредственного редактирования, а не пытаться превратить его в обычный текст, то снова? – Gagravarr

+0

Мне нужно найти определенные ключевые слова и параграфы в этом rtf и удалить их. Можете ли вы назвать подходящую библиотеку RTF для Java? –

+0

Я пробовал со стандартным Java Swing RTFEditorKit. Было бы хорошо работать, если RTFEditorKit будет поддерживать многоязычные RTF-файлы ... к сожалению, это не так (мне нужно многоязычность!). Разбор китайских и русских rtfs приводит к мусору, потому что RTFEditorKit не предоставляет кодировку для каждого шрифта! Я нашел этот небольшой комментарий в RTFReader:/* TODO: кодировки шрифтов для шрифтов (\ fcharset control word)? */-> Это то, что мне нужно ... –

ответ

2

Существует решение для редактирования документов, но оно немного сложное. Вы можете использовать API OpenOffice, чтобы открыть множество типов документов и экспортировать их в другие форматы. Я использовал его некоторое время назад для чтения данных из базы данных и экспорта в виде файла odt и xls.

Я никогда не использовал его для edit a doc, как файл из Writer или MS Word, но по OpenOffice documentation я знаю, что это возможно. Может быть, это может быть пушка, чтобы убить муху, но если вы найдете другие способы, можете решить вашу проблему.

API-интерфейс работает с Java, C++ и т.д.