Как выбрать между подобием документа tf-idf и наивным классификатором Байеса. Я не понимаю, какой из них использовать, есть ли какой-нибудь метод для определения того, какой алгоритм хорош для какой цели?Дифференциация между подобием документа tf-idf и наивным классификатором Байеса
ответ
У вас нет.
Термин Частота Частота обратных документов - это метод назначения числовых значений функциям. Он (в основном) не зависит от метода для классификации точек данных.
Я предполагаю, что по подобию вы имеете в виду сходство с косинусом & ближайшая классификация.
При условии, что вы выполняете классификацию, вы должны выбрать тот метод, который, как представляется, дает вам наилучшую точность (или лучше всего соответствует вашим требованиям). При наличии очень больших наборов данных вычисление косинусного сходства с каждым документом в вашем наборе данных станет непомерно высоким.
Если вы имели в виду сходство по косинусу с результатами ранжирования (найдите документ, подобный Q), тогда нет «выбора». Это ранжирующая задача, наивные заливы для классификации.
В реальной жизни оба метода не особенно хороши. Вы использовали бы их только для того, чтобы получить первоначальное представление о том, насколько сложно/легко выполнить задачу, бросив в нее простые методы &. Если один «тупой» метод выполняется значительно лучше, чем другие, вы можете попробовать попробовать более продвинутые модели, связанные с лучшим немым методом.
Вопросник может означать получение информации, в котором подобие запроса, измеренное косинусом и наивным байесом, является действительным выбором. Он должен сказать, что приложение, хотя ... –
- 1. Пример простого Байеса наивного классификатором с матрицами
- 2. Дифференциация между изображением документа и другим изображением
- 3. С открытым() оператором с наивным байесовским классификатором занимает до
- 4. Gaussian Наивную классификация Байеса
- 5. Скорость обучения TfIdf/вес документа
- 6. Дифференциация между enum и полем
- 7. Дифференциация между автозаполнением и ajax?
- 8. Дифференциация между ATSP и TSP
- 9. Дифференциация между x ++ и ++ x?
- 10. Дифференциация между «Entity» и «Table»
- 11. Как получить вектор tfidf для данного документа
- 12. Выбор между SVM и классификатором MLP
- 13. Дифференциация между учетными записями
- 14. Дифференциация между MVC Маршруты
- 15. Дифференциация между двумя кластерами
- 16. Дифференциация между диапазонами ввода
- 17. Дифференциация между исключением
- 18. Java - дифференциация между строками
- 19. кластеризация с подобием косинуса
- 20. Дифференциация между формами - JQuery
- 21. Дифференциация между CheckboxTreeViewers CheckStateListener и Selection Listener
- 22. Дифференциация между удалением/установкой и обновлением приложения
- 23. дифференциация между отслеживанием и обычными кукисами
- 24. Дифференциация между Compose Inspector и Read Inspector
- 25. Дифференциация между GPL + classpath_exception и LGPL
- 26. Дифференциация между Токио и Сеулом Часовой пояс
- 27. Дифференциация между виртуальными (роботами) и физическими ключами
- 28. PHP - Дифференциация между запросами GET и POST
- 29. Дифференциация между строкой и классом в Swift
- 30. Дифференциация между режимом размещения и режимом разработки
Какая проблема вы пытаетесь решить? Вам нужно показать минимальную попытку программирования, чтобы мы могли ответить на любые вопросы. – jeremyjjbrown
У меня есть набор данных для википедии apple-computer (mac) и apple-fruit. Мне нужно классифицировать входные данные в одну из этих категорий. –