2016-03-13 3 views
-1

У меня есть тривиальное понимание НЛП, поэтому, пожалуйста, держите вещи основными.Текстовая классификация

Я хотел бы запустить некоторые PDF-файлы при работе с помощью экстрактора/классификатора ключевых слов и построить таксономию - в надежде доставить некоторые бизнес-аналитики.

Например, если учесть несколько тысяч PDF-файлов для моей работы, я бы хотел определить рынки, к которым они применяются (мы обслуживаем около 5 основных отраслей промышленности, каждая из которых имеет несколько небольших отраслей промышленности. Каждая отрасль и суб-отрасль имеет определенный рынок и в большинстве случаев это касается OEM-производителей, которые, в свою очередь, обрабатывают модели, которые далее подразделяются на составные части и т. д.

Я хотел бы хрустить эти PDF-файлы в полуструктурированный (на самом деле график) вывод:

  • Aerospace
    • Производство
      • Ремонт
        • PT Поддержка
          • M250
          • C20
          • С18
    • Распределение

Может текст классификаторы сделать это? Это слишком специфично? Как вы тренируетесь в такой системе, что C18 является «образцом» производителя «Rolls Royce» серии M250 и «PT SUPPORT» является подкомпонентом?

я мог построить эти данные вручную, но будет длиться вечно ...

Есть ли способ, которым я мог бы использовать рамки текста классификаторов и построить что-то более эффективно, чем регулярное выражение и питона?

Просто ищет идеи на этом этапе ... Посмотрел несколько руководств по R и python libs, но они не звучали совсем как то, что я ищу.

ответ

0

Ok позволяет разбить задачу на мелкие подзадачи первых, я сокрушу задачу

  1. прочитанной PDF и извлекать данные и метаданные из них - смотреть на Apache Tikka Lib
  2. Любой классификатор чтобы получить более эффективные данные по обучению - Создайте учебные данные для классификатора текста
  3. Затем примените любой подходящий классификатор algo.

Вы также можете просмотреть кластерный алгоритм 10, он автоматически проанализирует данные и группу PDF в разные категории.

+0

PDF - это учебные данные - по крайней мере, это была надежда.Я мог бы вручную построить отношения всех производителей, моделей, двигателей, компонентов и т. Д., Но это огромная задача и побеждает цель. Я надеялся, что классификатор может определить/оценить, когда сущности связаны друг с другом из-за их появления и использования в PDF. Производитель обычно предшествует модели во всех документах, на которые я смотрел. –

+0

Тогда проблема становится скорее кластером, чем классифицированием, тогда вы можете попробовать попробовать carrot2 http://stackoverflow.com/a/5064981/847897 – GaneshP