У меня есть 4 разных категории, и у меня также есть около 3000 слов, которые относятся к каждой из этих категорий. Теперь, если приходит новое предложение, я могу разбить предложение на слова и получить больше слов, связанных с ним. Поэтому, скажем, для каждого нового предложения я могу получить 20-30 слов, генерируемых из предложения. Теперь, как лучше всего классифицировать это предложение в вышеупомянутой категории? Я знаю, что слова слов хорошо работают. Я также посмотрел на LDA, но он работает с документами, где, поскольку у меня есть список слов как учебный корпус. В LDA он смотрит на позицию слова в документе. Поэтому я не смог получить значимых результатов от LDA.Классификация по одному предложению
ответ
Я не уверен, полностью ли я понимаю, в чем ваш вопрос. Сумка слов хорошо работает для некоторых целей, но во многих случаях она отбрасывает много потенциально полезной информации (например, которая может быть взята из порядка слов). И если вы принимаете грамматическое предложение как ввод, почему бы не использовать ваше предложение в качестве документа и по-прежнему использовать LDA? Позиция слова в вашем предложении все еще может быть очень разумной.
Существует множество доступных методов классификации. Какой из них лучше всего зависит от вашей цели. Если вы новичок в этой области, это может быть интересно посмотреть: https://www.coursera.org/course/ml
Вроде, Игорь, я также немного смущен относительно вашей проблемы. Будь то документ или предложение, эти термины будут частью набора функций для категоризации в той или иной форме. Вы можете узнать наиболее релевантные термины каждой категории и использовать эти знания, лучше классифицировать новые предложения. Например, если ваше предложение выглядит следующим образом: «У нашего макета есть бродячая собака, которая кусает всех, кто подходит к ней». Если вы возьмете полезные слова из этого предложения, удалив стоп-слова, они немногочисленны (бездомные, собака, макет, укусы, рядом). Вы можете классифицировать его в ведро «animal_issue». Если вы тренируете свою систему с помощью большего набора примеров, этот пакет слов модели может помочь. В противном случае вы можете использовать LDA/другие подходы к моделированию темы.
- 1. Regex соответствует только одному предложению
- 2. Показать по одному предложению на ярлыке (iOS swift)
- 3. группа по предложению
- 4. Типовая классификация по вероятности
- 5. динамическая группа linq по предложению
- 6. Комплексный порядок TSQL по предложению
- 7. Пользовательский заказ MySQL по предложению
- 8. Подзапрос Couchbase по предложению WHERE
- 9. AutocompleteBox навигация по предложению крана
- 10. Oracle SQL Group по предложению
- 11. cx_Oracle игнорирует порядок по предложению
- 12. Группа по предложению count() в SQL Server
- 13. Keras: классификация по многоклассам
- 14. Записи, не сгруппированные по группе по предложению?
- 15. SQL-агрегация по группам по предложению
- 16. Классификация изображений Matlab по цветам
- 17. Классификация изображений по маленькому объекту
- 18. Классификация твитов по 4 категориям
- 19. Регрессия, классификация по изучению машин
- 20. Двоичная классификация по набору данных по набору
- 21. PHP SELECT Группа операторов по предложению
- 22. MySQL удаляет пространство перед заказом по предложению
- 23. Создайте SQL-запрос с порядком по предложению
- 24. MySql Индексы где и порядок по предложению
- 25. Заказ по динамическому предложению MYSQL. Использование $ _REQUEST
- 26. Hibernate Поиск по предложению о критериях
- 27. Objective-C :: Слушать музыку по предложению
- 28. создание кадра данных после группы по предложению
- 29. Mule Query Language - Заказать по предложению
- 30. получение проблемы в группе по предложению
Не могли бы вы объяснить это, пожалуйста: «Так скажите для каждого нового предложения, что я могу получить 20-30 слов, полученных из предложения».? Как, конкретно, вы «генерируете» слова из своих предложений? Во-вторых, вы пробовали что-то вроде простой оценки подобия косинуса для ваших (обогащенных?) Векторов слов? – fnl
Я использую google word2Vec, чтобы получить похожие слова в предложении. Я еще не пробовал косинусную оценку подобия. Спасибо за предложение, я это рассмотрю. – Rusty