Я работаю над небольшим проектом NLP авторства: у меня есть несколько текстов от двух авторов, и я хочу сказать, кто их написал.Подготовить данные для scikit-learn
У меня есть предварительно обработанный текст (tokenized, pos-tagged, ect.), И я хочу загрузить его в sciki-learn.
документов имеют такую форму:
Testo - SPN Testo testare+v+indic+pres+nil+1+sing testo+n+m+sing O
: - XPS colon colon+punc O
" - XPO " quotation_mark+punc O
Buongiorno - I buongiorno buongiorno+inter buongiorno+n+m+_ O
a - E a a+prep O
tutti - PP tutto tutto+adj+m+plur+pst+ind tutto+pron+_+m+_+plur+ind O
. <eos> XPS full_stop full_stop+punc O
Ci - PP pro loc+pron+loc+_+3+_+clit pro+pron+accdat+_+1+plur+clit O
sarebbe - VI essere essere+v+cond+pres+nil+2+sing O
molto - B molto molto+adj+m+sing+pst+ind
Так это вкладка separeted текстовый файл из 6 столбцов (слово, в конце предложения маркером, часть речи, леммы, морфологической информации и имя маркера распознавания лиц).
Каждый файл представляет собой документ для классификации.
Что было бы лучшим способом сформировать их для изучения scikit?