Текстовая классификация

-1

У меня есть тривиальное понимание НЛП, поэтому, пожалуйста, держите вещи основными.Текстовая классификация

Я хотел бы запустить некоторые PDF-файлы при работе с помощью экстрактора/классификатора ключевых слов и построить таксономию - в надежде доставить некоторые бизнес-аналитики.

Например, если учесть несколько тысяч PDF-файлов для моей работы, я бы хотел определить рынки, к которым они применяются (мы обслуживаем около 5 основных отраслей промышленности, каждая из которых имеет несколько небольших отраслей промышленности. Каждая отрасль и суб-отрасль имеет определенный рынок и в большинстве случаев это касается OEM-производителей, которые, в свою очередь, обрабатывают модели, которые далее подразделяются на составные части и т. д.

Я хотел бы хрустить эти PDF-файлы в полуструктурированный (на самом деле график) вывод:

Aerospace
- Производство
  - Ремонт
    - PT Поддержка
      - M250
      - C20
      - С18
- Распределение

Может текст классификаторы сделать это? Это слишком специфично? Как вы тренируетесь в такой системе, что C18 является «образцом» производителя «Rolls Royce» серии M250 и «PT SUPPORT» является подкомпонентом?

я мог построить эти данные вручную, но будет длиться вечно ...

Есть ли способ, которым я мог бы использовать рамки текста классификаторов и построить что-то более эффективно, чем регулярное выражение и питона?

Просто ищет идеи на этом этапе ... Посмотрел несколько руководств по R и python libs, но они не звучали совсем как то, что я ищу.

источник

2016-03-13 Alex.Barylski

Ok позволяет разбить задачу на мелкие подзадачи первых, я сокрушу задачу

прочитанной PDF и извлекать данные и метаданные из них - смотреть на Apache Tikka Lib
Любой классификатор чтобы получить более эффективные данные по обучению - Создайте учебные данные для классификатора текста
Затем примените любой подходящий классификатор algo.

Вы также можете просмотреть кластерный алгоритм 10, он автоматически проанализирует данные и группу PDF в разные категории.

источник

2016-03-13 20:36:58 GaneshP

PDF - это учебные данные - по крайней мере, это была надежда.Я мог бы вручную построить отношения всех производителей, моделей, двигателей, компонентов и т. Д., Но это огромная задача и побеждает цель. Я надеялся, что классификатор может определить/оценить, когда сущности связаны друг с другом из-за их появления и использования в PDF. Производитель обычно предшествует модели во всех документах, на которые я смотрел. –

Тогда проблема становится скорее кластером, чем классифицированием, тогда вы можете попробовать попробовать carrot2 http://stackoverflow.com/a/5064981/847897 – GaneshP

Текстовая классификация

ответ

Смежные вопросы