0

У меня есть файл csv с 3483 строками и 460K символами и 65K словами, и я пытаюсь использовать этот корпус для обучения классификатору NaiveBayes в Scikit-learn.С открытым() оператором с наивным байесовским классификатором занимает до

Проблема в том, что я использую это утверждение ниже, занимает слишком много времени (1 час и не заканчивается).

from textblob import TextBlob 
from textblob.classifiers import NaiveBayesClassifier 
import csv 

with open('train.csv', 'r') as fp: 
    cl = NaiveBayesClassifier(fp, format="csv") 

Любые догадки о том, что я делаю неправильно?

Заранее спасибо.

+0

отформатирован ли ваш файл CSV, как так: http://textblob.readthedocs.io/en/dev/classifiers.html – vendaTrout

+0

Да @vendaTrout Это пример файла: '' 'instagrama, Instagram # фб, FACEBOOK facebookio, FACEBOOK facebooktime мессенджер iphone, FACEBOOK WhatsApp ком, WHATSSUP facebooko # фб, FACEBOOK facebookiokio # Ф.Б., FACEBOOK instagramas:, Instagram facebook https: Ф.Б., FACEBOOK Facebook # Ф.Б., FACEBOOK '' ' – Flavio

+0

Предполагая, что каждый данные и метка поезда разделены с помощью «\ n», вы можете профилировать функцию для меньшего csv или этого. Посмотрите на модуль stdlib [profiling] (https://docs.python.org/3/library/profile.html). – vendaTrout

ответ

Смежные вопросы