У меня есть около 30 документов .docx (Résumés) с данными об именах людей, навыках и т. Д. Мне нужно заполнить электронную таблицу некоторой частью этой информации, и для сокращения ручной работы я думал, что могу использовать метод интеллектуального анализа.Текстовые документы MS Word?
Существуют ли какие-либо инструменты или подходы, которые были бы полезны при добыче (вроде полуструктурированной) информации из этих документов?
Вы можете перейти к содержимому файлов с помощью таких инструментов, как [python-docx] (https://github.com/mikemaccana/python-docx). Получение имен, навыков и т. Д. Сложнее (при условии, что они не соответствуют одному и тому же формату). Вы можете попытаться скомпоновать некоторые правила, но если вы хотите, чтобы это было более надежным, там есть коммерческие инструменты [подобные этому] (http://www.daxtra.com/parsing.html) ... – Dougal