Вам нужна дополнительная программа, которая может конвертировать PDF (/ doc/docx) в html. В основном есть два разных типа конвертера PDF: те, которые используют абсолютные позиции для создания привлекательного html, и те, которые полагаются только на html-элементы и css. Для обработки таблиц рекомендую последние. Я лично использую Commerical решения, но есть и много хорошего программное обеспечение с открытым исходным кодом, например, pdf2htmlEX
Если у вас есть HTML, то вы можете применить HtmlAnnotator и HtmlConverter для получения простого текста с примечаниями для HTML тегов, как описанный в документе UIMA Ruta documentation
Спасибо, Питер! Могу ли я узнать, какие коммерческие решения вы порекомендуете для текстовых и pdf-файлов? Мы использовали профессиональные Adobe, но они создают htmls, которые не совместимы с Ruta. –
Мой опыт относительно Word/docx устарел. PDF: Я оценил Adobe Pro, Nuance Omnipage, Abbyy finereader amonst others. У каждого есть разные преимущества. В настоящее время я использую Datalogics PDF Alchemist. –
Почему html adobe несовместим? –