2014-12-21 1 views
1

Я новичок в пандах, пытаясь практиковать с некоторыми данными. Я получаю учебный набор данных в следующем формате.
Это набор данных для просмотра фильмов. Как я могу сделать DataFrame из этого типа данных для использования в классификации SVM. Я уже практиковал данные по размеру [12000 * 12] для классификации, где каждая строка имеет равное количество атрибутов. Но здесь атрибуты не равны. Как я могу это изменить.Как я могу сделать Dataframe для классификации из набора данных обзора фильма?

PhraseId SentenceId Phrase Sentiment 
1 1 Wanker Goths are on the loose ! 2 
2 1 Wanker Goths 2 
3 1 Wanker 2 
4 1 Goths 2 
5 1 are on the loose ! 2 
6 1 are on the loose 2 
7 1 on the loose 2 
8 1 the loose 2 
9 2 made Eddie Murphy a movie star and the man has n't aged a day . 3 
10 2 made Eddie Murphy a movie star and the man 3 
11 2 Eddie Murphy a movie star and the man 2 
12 2 a movie star and the man 2 
13 2 a movie star and 2 
14 2 has n't aged a day . 2 
15 2 has n't aged a day 3 
16 2 aged a day 2 

Это фактическое обучение dataset (частичное).

Моя цель - сформировать DataFrame из этого набора данных с цифровым отображением данных, чтобы я мог использовать этот dataframe для классификации Sentiment.

+0

Я знаю, что у pandas есть get_dummies(), но я никогда не использовал его в проблеме классификации текста –

ответ

1

С чистым питоном:

t = """PhraseId SentenceId Phrase Sentiment 
1 1 Wanker Goths are on the loose ! 2 
2 1 Wanker Goths 2 
3 1 Wanker 2 
4 1 Goths 2 
5 1 are on the loose ! 2""" 

Разделительного строка в новых строках:

t = t.split('\n') 

Затем получает список расщепленных строк:

s = [i.split() for i in t] 

И затем сливая фразу и получение данных:

import pandas as pd 
df = pd.DataFrame([(i[0],i[1],' '.join(i[2:-1]),i[-1]) for i in s],columns=s[0]) 
df = df.ix[1:] 
print df 
+0

Достаточно ли этого df для SVM в sklearn? – aerokite

+0

Извините, я знаю, как преобразовать это в DataFrame. – hellpanderrr

+0

Спасибо, сэр. Я знаю эту часть. Мне действительно нужно преобразовать – aerokite

Смежные вопросы