У меня есть тривиальное понимание НЛП, поэтому, пожалуйста, держите вещи основными.Текстовая классификация
Я хотел бы запустить некоторые PDF-файлы при работе с помощью экстрактора/классификатора ключевых слов и построить таксономию - в надежде доставить некоторые бизнес-аналитики.
Например, если учесть несколько тысяч PDF-файлов для моей работы, я бы хотел определить рынки, к которым они применяются (мы обслуживаем около 5 основных отраслей промышленности, каждая из которых имеет несколько небольших отраслей промышленности. Каждая отрасль и суб-отрасль имеет определенный рынок и в большинстве случаев это касается OEM-производителей, которые, в свою очередь, обрабатывают модели, которые далее подразделяются на составные части и т. д.
Я хотел бы хрустить эти PDF-файлы в полуструктурированный (на самом деле график) вывод:
- Aerospace
- Производство
- Ремонт
- PT Поддержка
- M250
- C20
- С18
- PT Поддержка
- Ремонт
- Распределение
- Производство
Может текст классификаторы сделать это? Это слишком специфично? Как вы тренируетесь в такой системе, что C18 является «образцом» производителя «Rolls Royce» серии M250 и «PT SUPPORT» является подкомпонентом?
я мог построить эти данные вручную, но будет длиться вечно ...
Есть ли способ, которым я мог бы использовать рамки текста классификаторов и построить что-то более эффективно, чем регулярное выражение и питона?
Просто ищет идеи на этом этапе ... Посмотрел несколько руководств по R и python libs, но они не звучали совсем как то, что я ищу.
PDF - это учебные данные - по крайней мере, это была надежда.Я мог бы вручную построить отношения всех производителей, моделей, двигателей, компонентов и т. Д., Но это огромная задача и побеждает цель. Я надеялся, что классификатор может определить/оценить, когда сущности связаны друг с другом из-за их появления и использования в PDF. Производитель обычно предшествует модели во всех документах, на которые я смотрел. –
Тогда проблема становится скорее кластером, чем классифицированием, тогда вы можете попробовать попробовать carrot2 http://stackoverflow.com/a/5064981/847897 – GaneshP