Я работаю с сообщениями на доске объявлений (содержится в файлах CSV
), пытаясь очистить данные/etc, перед тем, как обучить классификационные модели.Python Pandas CSV import/Unicode woes
Дела шли хорошо, пока я не получил:
TypeError: 'float' object is not iterable
в ответ на линии:
letters_only = ''.join([i for i in textToProcess if not i.isdigit()])
Где textToProcess происходит от (train["text"][i])
.
Итак ... когда я думал, чтобы проверить мои данные, делая звонки:
print train.isnull().sum()
print test.isnull().sum()
я получил следующий вывод:
id 0
category 0
title 0
text 1
train 26
dtype: int64
id 5512
category 5512
title 5512
text 5512
train 5512
dtype: int64
Вопрос: Итак, я беру это означает, что в тестовом наборе в каждом столбце есть 5512 нулевых значений?
Это было бы странно, поскольку импорт и т. Д., По-видимому, вел себя так, как ожидалось, по большей части до этого момента. Например, вызовы, например, train["text"][0]
произвел ожидаемый результат (а именно текст).
В случае это помогает, мои оригинальные read_csv импортные звонки выглядели как:
train = pd.read_csv(full_train_filename, header=0, encoding = 'utf-8')
test = pd.read_csv(full_test_filename, header=0, encoding = 'utf-8')`
Я не уверен, что есть один прямой вопрос здесь, но я надеюсь, что кто-то видит что-то, что я сделал неправильно.
Любые мысли были бы весьма благодарны.
Возможно ли поделиться своими 'csv' если не уверенными? – jezrael
К сожалению, я считаю, что это считается конфиденциальным. Что-нибудь, в частности, вы бы искали? Я могу заглянуть и отчитаться. – JHarris
Да. По умолчанию это «,», из pandas docs: – JHarris