2014-02-07 1 views
2

Как выбрать между подобием документа tf-idf и наивным классификатором Байеса. Я не понимаю, какой из них использовать, есть ли какой-нибудь метод для определения того, какой алгоритм хорош для какой цели?Дифференциация между подобием документа tf-idf и наивным классификатором Байеса

+1

Какая проблема вы пытаетесь решить? Вам нужно показать минимальную попытку программирования, чтобы мы могли ответить на любые вопросы. – jeremyjjbrown

+0

У меня есть набор данных для википедии apple-computer (mac) и apple-fruit. Мне нужно классифицировать входные данные в одну из этих категорий. –

ответ

2

У вас нет.

Термин Частота Частота обратных документов - это метод назначения числовых значений функциям. Он (в основном) не зависит от метода для классификации точек данных.

Я предполагаю, что по подобию вы имеете в виду сходство с косинусом & ближайшая классификация.

При условии, что вы выполняете классификацию, вы должны выбрать тот метод, который, как представляется, дает вам наилучшую точность (или лучше всего соответствует вашим требованиям). При наличии очень больших наборов данных вычисление косинусного сходства с каждым документом в вашем наборе данных станет непомерно высоким.

Если вы имели в виду сходство по косинусу с результатами ранжирования (найдите документ, подобный Q), тогда нет «выбора». Это ранжирующая задача, наивные заливы для классификации.

В реальной жизни оба метода не особенно хороши. Вы использовали бы их только для того, чтобы получить первоначальное представление о том, насколько сложно/легко выполнить задачу, бросив в нее простые методы &. Если один «тупой» метод выполняется значительно лучше, чем другие, вы можете попробовать попробовать более продвинутые модели, связанные с лучшим немым методом.

+0

Вопросник может означать получение информации, в котором подобие запроса, измеренное косинусом и наивным байесом, является действительным выбором. Он должен сказать, что приложение, хотя ... –

Смежные вопросы