2014-02-12 3 views
0

Я пытаюсь запустить классификатор, наивные заливы, более 1,6 миллиона твитов, используя nltk и python.Сумма классификационного времени

Пожалуйста, скажите, пожалуйста, если это глупая вещь, поскольку процесс занял около 12 часов и в настоящее время использует 3,2 ГБ памяти.

Это просто игра ожидания, которая зависит от того, насколько хороша ваша вычислительная мощность или есть ли более эффективные способы делать вещи?

ответ

1

Ваш набор данных очень велик, поэтому вам следует ожидать длительного времени работы и потребления памяти. Трудно сказать, разумно ли это без дополнительной информации.

Возможно, вы пытаетесь использовать некоторые классификаторы из scikit-learn вместо базовых классификаторов nltk, там есть много эффективных вариантов - ближайших соседей K, линейная регрессия, чтобы назвать несколько, а также альтернативные реализации наивных классификаторов Байеса , У меня был лучший успех, классифицирующий текст с ними.

here - ссылка на оболочку для использования с наборами данных на основе nltk. Надеюсь, это поможет.

+0

блестящее спасибо, да, я ожидал, что это займет довольно много времени, но я думаю, что не так долго. Я постараюсь завершить эту классификацию и посмотреть, насколько она точна, но определенно изучает другие классификаторы. –

Смежные вопросы