2012-04-27 2 views
-2

У меня есть около 30 документов .docx (Résumés) с данными об именах людей, навыках и т. Д. Мне нужно заполнить электронную таблицу некоторой частью этой информации, и для сокращения ручной работы я думал, что могу использовать метод интеллектуального анализа.Текстовые документы MS Word?

Существуют ли какие-либо инструменты или подходы, которые были бы полезны при добыче (вроде полуструктурированной) информации из этих документов?

+0

Вы можете перейти к содержимому файлов с помощью таких инструментов, как [python-docx] (https://github.com/mikemaccana/python-docx). Получение имен, навыков и т. Д. Сложнее (при условии, что они не соответствуют одному и тому же формату). Вы можете попытаться скомпоновать некоторые правила, но если вы хотите, чтобы это было более надежным, там есть коммерческие инструменты [подобные этому] (http://www.daxtra.com/parsing.html) ... – Dougal

ответ

0

Лучшее, что я могу придумать, это использовать perl, поскольку я знаю, что вы можете pull from word documents (хотя это само по себе может быть сложно) и populate xml spreadsheets с использованием модулей perl.

Я не писал perl в гневе в течение длительного времени, поэтому я не могу предложить примеры того, как это сделать, но если бы я должен был что-то собрать вместе, я бы порекомендовал perl. Я уверен, что кто-то скажет, что есть эквивалентные функции в python и, возможно, даже в Ruby, но perl - это то, что я использовал, и я нашел его очень эффективным для манипулирования/сопоставления/обработки/обработки текста.

0

Вы можете попробовать использовать инструмент catdochttp://www.wagner.pp.ru/~vitus/software/catdoc/, который будет извлекать текстовое содержимое из файла MS Word, а затем после этого делать любую текстовую обработку, которую вы хотите. Я бы, вероятно, просто grep за существование определенных слов в резюме против выхода catdoc. Нет смысла перерабатывать решение.

Смежные вопросы