2016-12-12 1 views
0

Я новичок в области аналитики. Может быть, этот вопрос глупо для вас. Я работаю над классификацией обзора, используя R. Я должен классифицировать обзор на 50 различных категорий. Я вручную помещаю данные для целей обучения модели. Я немного смущен, как пометить обзор?Должен ли выставить предложение или весь обзор для набора учебных заданий?

Что я здесь делаю,
Сначала я преобразовал отдельный обзор в предложения, а затем дал конкретную категорию этим предложениям. Я здесь делаю?

Или я должен дать тег категории обзору, не вдаваясь в предложения? Если обзор подпадает под более чем 1 категорию, что делать?

+0

Вам необходимо сгенерировать функции из текста перед поездкой, какие функции вы сейчас генерируете? –

+0

Я использую сумку слов –

ответ

1

В каждом обзоре может быть несколько ярлыков. Какие бы функции, которые вы используете для вашего классификатора, не влияют на процесс маркировки.

Ваших меченые обзоров (для обучения или оценки) должны выглядеть следующим образом:

ID  Content     Tags 
review#1, "content of the review#1", Mexican food,spicy 
review#2, "content of the review#2", American food,apple pie,dessert 

где «мексиканская еда», «пряный», «яблочный пирог», «десерт» и «американская еда» все возможные теги. Для каждого обзора вам нужно только указать те теги, которые применяются. По умолчанию мы предполагаем, что другие теги не применяются.

Во время обучения вы должны выбрать классификатор, который работает для multi-label.

Смежные вопросы