2015-03-11 4 views
0

У меня есть 4 разных категории, и у меня также есть около 3000 слов, которые относятся к каждой из этих категорий. Теперь, если приходит новое предложение, я могу разбить предложение на слова и получить больше слов, связанных с ним. Поэтому, скажем, для каждого нового предложения я могу получить 20-30 слов, генерируемых из предложения. Теперь, как лучше всего классифицировать это предложение в вышеупомянутой категории? Я знаю, что слова слов хорошо работают. Я также посмотрел на LDA, но он работает с документами, где, поскольку у меня есть список слов как учебный корпус. В LDA он смотрит на позицию слова в документе. Поэтому я не смог получить значимых результатов от LDA.Классификация по одному предложению

+0

Не могли бы вы объяснить это, пожалуйста: «Так скажите для каждого нового предложения, что я могу получить 20-30 слов, полученных из предложения».? Как, конкретно, вы «генерируете» слова из своих предложений? Во-вторых, вы пробовали что-то вроде простой оценки подобия косинуса для ваших (обогащенных?) Векторов слов? – fnl

+0

Я использую google word2Vec, чтобы получить похожие слова в предложении. Я еще не пробовал косинусную оценку подобия. Спасибо за предложение, я это рассмотрю. – Rusty

ответ

0

Я не уверен, полностью ли я понимаю, в чем ваш вопрос. Сумка слов хорошо работает для некоторых целей, но во многих случаях она отбрасывает много потенциально полезной информации (например, которая может быть взята из порядка слов). И если вы принимаете грамматическое предложение как ввод, почему бы не использовать ваше предложение в качестве документа и по-прежнему использовать LDA? Позиция слова в вашем предложении все еще может быть очень разумной.

Существует множество доступных методов классификации. Какой из них лучше всего зависит от вашей цели. Если вы новичок в этой области, это может быть интересно посмотреть: https://www.coursera.org/course/ml

0

Вроде, Игорь, я также немного смущен относительно вашей проблемы. Будь то документ или предложение, эти термины будут частью набора функций для категоризации в той или иной форме. Вы можете узнать наиболее релевантные термины каждой категории и использовать эти знания, лучше классифицировать новые предложения. Например, если ваше предложение выглядит следующим образом: «У нашего макета есть бродячая собака, которая кусает всех, кто подходит к ней». Если вы возьмете полезные слова из этого предложения, удалив стоп-слова, они немногочисленны (бездомные, собака, макет, укусы, рядом). Вы можете классифицировать его в ведро «animal_issue». Если вы тренируете свою систему с помощью большего набора примеров, этот пакет слов модели может помочь. В противном случае вы можете использовать LDA/другие подходы к моделированию темы.

Смежные вопросы