2010-11-17 2 views
3

Мне поручено извлечь некоторую структурированную информацию из сотен человекочитаемых документов (в основном из MS Word) и поместить их в базу данных. Данные в значительной степени встроены в таблицы на весь документ, но между таблицами много текста, и хотя документы очень похожи по структуре, есть несколько отличий. Документы меняются довольно часто (мы получаем обновленную версию каждые несколько месяцев)Скребок структурированной информации из сотен документов Word?

До сих пор единственный жизнеспособный вариант, о котором я могу думать, - это вручную пройти все документы и вставить/обновить информацию, но я думал, что буду спросите здесь, если кто-нибудь подумает, что можно каким-то образом очистить документы?

О, и данные должны быть достаточно корректно ...

+0

В каком формате находятся файлы? .doc, .docx, ...? –

+0

@ 0xA3 смесь в основном doc и docx, но также и некоторые pdf-файлы – Andreas

+0

Откладывание PDF-файлов в стороне на данный момент, поможет ли она скопировать все таблицы во всех документах Word в один документ? – JasonPlutext

ответ

2

Я сделал аналогичную работу (без таблиц, хотя) с использованием converter from RTF to FO.

Вы конвертируете документы в RTF, а затем в FO, что дает вам хорошую структуру XML документа. Затем вы можете легко разобрать и очистить данные.