Мне поручено извлечь некоторую структурированную информацию из сотен человекочитаемых документов (в основном из MS Word) и поместить их в базу данных. Данные в значительной степени встроены в таблицы на весь документ, но между таблицами много текста, и хотя документы очень похожи по структуре, есть несколько отличий. Документы меняются довольно часто (мы получаем обновленную версию каждые несколько месяцев)Скребок структурированной информации из сотен документов Word?
До сих пор единственный жизнеспособный вариант, о котором я могу думать, - это вручную пройти все документы и вставить/обновить информацию, но я думал, что буду спросите здесь, если кто-нибудь подумает, что можно каким-то образом очистить документы?
О, и данные должны быть достаточно корректно ...
В каком формате находятся файлы? .doc, .docx, ...? –
@ 0xA3 смесь в основном doc и docx, но также и некоторые pdf-файлы – Andreas
Откладывание PDF-файлов в стороне на данный момент, поможет ли она скопировать все таблицы во всех документах Word в один документ? – JasonPlutext