2015-09-08 2 views
1

Мне нужно классифицировать вопросы, предлагающие указать бренд. У меня есть набор образцов с изображением слова «бренд».Классификатор или эвристика?

Положительных как:

  • "? Ваш любимый косметический бренд",

  • "? Какой аромат бренда (если таковые имеются) Как вы думаете, это объявление для" .. .

и негативы, как:

  • «Есть ли какая-то особая причина, почему вы выбрали этот бренд?»

Из-за этого можно обучить 2-классный классификатор на основе конкретных образцов. Однако точность и отзыв будут плохими. Есть ли способ построить что-то с хорошей точностью, основанное на множестве положительных образцов?

ответ

1

Точность и отзыв не должны быть плохими. Вы должны попытаться построить бинарный классификатор (я бы рекомендовал SVM или дерево решений для этой цели). Я бы рекомендовал выделить такие функции, как количество вхождений каждого слова в выборке (или tf-idf) или длину слов и предложений. Я думаю, что слово вопроса в предложении будет иметь большое влияние на классификацию.

Кроме того, обратите внимание, что хорошее значение точности очень легко получить, когда вам не нужно вспоминать.

0

Выбор набора слов в качестве функций с использованием tf-idf и обучения алгоритму дерева кажется самым простым способом, но я также предлагаю также попробовать кластеризацию k-mean в случае, когда noe или более категорий ответов рассматриваются как «нейтральные» появляются. Это поможет вам решить, какой из них вы считаете положительным или отрицательным, чтобы перегруппировать свой вектор функции и впоследствии ваш алгоритм.

Я также являюсь огромным поклонником вариантов HMM (я использовал их для дезагрегации энергии), и я предлагаю вам взглянуть на следующее. Это может дать вам дополнительные идеи:

http://www.merl.com/publications/docs/TR2004-085.pdf