2

В настоящее время я работаю над проектами, в которых я должен классифицировать данные обзора ресторана. Я использую многокомпонентный алгоритм Наивного Байеса. Я немного смущен, что моя проблема связана с многокласными или многоколоночными.Multiclass vs Multilabel

обзор ПРИМЕР-

Пожалуйста, относиться к своему клиенту, как клиент, а не собаки. . Я никогда не пойду или не советую никому пойти в Найейям, Хауз Хас. Они ребята, больные и полные бизнесмены. Пища была версия плохой вкус, но место и сотрудники были слишком грязные

Он содержит три различных класса, как

Bad Experience 
Staff Behavior 
food quality 

Как создать набор данных для обучения?

Должен ли я использовать MultiLabel и создавать обучающие данные, установленные как

ID Content     Tags 
1, "content of the review#1", Bad Experience,Staff Behavior,food quality 

или

как в мультиклассируют

Review   Tags 
above review, Bad Experience 
above review, Staff Behavior 
above review, food quality 

Любое предложение

+0

Я считаю, что хорошим подходом будет мультипликация на основе 'x'.То есть для каждого обзора 'x' есть метки' y', где 'y' - вектор с элементами' n' ('n' - количество меток). Значения 'y' являются нулями и единицами (один для правильных меток для каждого образца). – sirfz

ответ

0

Ваша проблема является multilabel classification примером.

Один из подходов заключаются в лечении каждого выходной отклика в виде отдельной двоичной задачи классификации

X   Y1 Y2 
0 1.438161 0  1 
1 -0.283780 1  1 
2 0.552564 1  0 
3 1.931332 0  1 
4 1.656010 0  1 
5 0.944862 1  0 

где Y1, Y2 представляет собой один горячее кодирование, произошло ли «Неудачный опыт» или «поведение персонала» или нет.

Вы можете найти отработанный пример многоклассовой классификации в scikit-learn documentation.

0

Multi-класс Классификация:

В мульти классификации класса мы нацелены классифицировать то, что принадлежит к более чем двух классов, но один на один раз. Например: Классификация фруктов Проблема, когда каждый образ плода относится только к одной категории за раз, когда он не может принадлежать более чем к категории. Например: input x - это изображение, так что x может принадлежать Apple или Orange или Mango, но оно не может принадлежать классу Apple, Orange или Orange и Mango.

Multi-Лейбл Классификация:

В классификации несколько этикеток компания может относится к нескольким категориям одновременно, например: газетная статью, продукт Комментарий и т.д.

В соответствии с вышеизложенной информацией, предусмотренной в вопрос этой проблемы следует продемонстрировать как классификацию с несколькими метками.

Надеюсь, это вам поможет. Для получения дополнительной информации: http://scikit-learn.org/stable/modules/multiclass.html

Смежные вопросы