2016-03-02 3 views
1

У меня есть файлы в формате pdf и слова, которые необходимо использовать в качестве входных данных для Ruta. Я могу преобразовать их в текстовые файлы, но потеряю все таблицы и форматирование, если я это сделаю. В любом случае я могу использовать их, не теряя информации?Тип ввода UIMA Ruta - html

Спасибо!

ответ

1

Вам нужна дополнительная программа, которая может конвертировать PDF (/ doc/docx) в html. В основном есть два разных типа конвертера PDF: те, которые используют абсолютные позиции для создания привлекательного html, и те, которые полагаются только на html-элементы и css. Для обработки таблиц рекомендую последние. Я лично использую Commerical решения, но есть и много хорошего программное обеспечение с открытым исходным кодом, например, pdf2htmlEX

Если у вас есть HTML, то вы можете применить HtmlAnnotator и HtmlConverter для получения простого текста с примечаниями для HTML тегов, как описанный в документе UIMA Ruta documentation

+0

Спасибо, Питер! Могу ли я узнать, какие коммерческие решения вы порекомендуете для текстовых и pdf-файлов? Мы использовали профессиональные Adobe, но они создают htmls, которые не совместимы с Ruta. –

+0

Мой опыт относительно Word/docx устарел. PDF: Я оценил Adobe Pro, Nuance Omnipage, Abbyy finereader amonst others. У каждого есть разные преимущества. В настоящее время я использую Datalogics PDF Alchemist. –

+0

Почему html adobe несовместим? –

Смежные вопросы