Я новичок в пандах, пытаясь практиковать с некоторыми данными. Я получаю учебный набор данных в следующем формате.
Это набор данных для просмотра фильмов. Как я могу сделать DataFrame из этого типа данных для использования в классификации SVM. Я уже практиковал данные по размеру [12000 * 12] для классификации, где каждая строка имеет равное количество атрибутов. Но здесь атрибуты не равны. Как я могу это изменить.Как я могу сделать Dataframe для классификации из набора данных обзора фильма?
PhraseId SentenceId Phrase Sentiment
1 1 Wanker Goths are on the loose ! 2
2 1 Wanker Goths 2
3 1 Wanker 2
4 1 Goths 2
5 1 are on the loose ! 2
6 1 are on the loose 2
7 1 on the loose 2
8 1 the loose 2
9 2 made Eddie Murphy a movie star and the man has n't aged a day . 3
10 2 made Eddie Murphy a movie star and the man 3
11 2 Eddie Murphy a movie star and the man 2
12 2 a movie star and the man 2
13 2 a movie star and 2
14 2 has n't aged a day . 2
15 2 has n't aged a day 3
16 2 aged a day 2
Это фактическое обучение dataset (частичное).
Моя цель - сформировать DataFrame из этого набора данных с цифровым отображением данных, чтобы я мог использовать этот dataframe для классификации Sentiment.
Я знаю, что у pandas есть get_dummies(), но я никогда не использовал его в проблеме классификации текста –