2015-02-07 4 views
0

Я работаю над небольшим проектом NLP авторства: у меня есть несколько текстов от двух авторов, и я хочу сказать, кто их написал.Подготовить данные для scikit-learn

У меня есть предварительно обработанный текст (tokenized, pos-tagged, ect.), И я хочу загрузить его в sciki-learn.

документов имеют такую ​​форму:

Testo - SPN Testo testare+v+indic+pres+nil+1+sing testo+n+m+sing O 
: - XPS colon colon+punc O 
" - XPO " quotation_mark+punc O 
Buongiorno - I buongiorno buongiorno+inter buongiorno+n+m+_ O 
a - E a a+prep O 
tutti - PP tutto tutto+adj+m+plur+pst+ind tutto+pron+_+m+_+plur+ind O 
. <eos> XPS full_stop full_stop+punc O 
Ci - PP pro loc+pron+loc+_+3+_+clit pro+pron+accdat+_+1+plur+clit O 
sarebbe - VI essere essere+v+cond+pres+nil+2+sing O 
molto - B molto molto+adj+m+sing+pst+ind 

Так это вкладка separeted текстовый файл из 6 столбцов (слово, в конце предложения маркером, часть речи, леммы, морфологической информации и имя маркера распознавания лиц).

Каждый файл представляет собой документ для классификации.

Что было бы лучшим способом сформировать их для изучения scikit?

ответ

1

Структура они используют в scikit учиться пример http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html описан здесь http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_files.html

Заменить этот

# Load some categories from the training set 
if opts.all_categories: 
    categories = None 
else: 
    categories = [ 
     'alt.atheism', 
     'talk.religion.misc', 
     'comp.graphics', 
     'sci.space', 
    ] 

if opts.filtered: 
    remove = ('headers', 'footers', 'quotes') 
else: 
    remove =() 

print("Loading 20 newsgroups dataset for categories:") 
print(categories if categories else "all") 

data_train = fetch_20newsgroups(subset='train', categories=categories, 
           shuffle=True, random_state=42, 
           remove=remove) 

data_test = fetch_20newsgroups(subset='test', categories=categories, 
           shuffle=True, random_state=42, 
           remove=remove) 

с вашими высказываниями нагрузки данных, например:

# Load some categories from the training set 
categories = [ 
     'high', 
     'low', 
] 

print("loading dataset for categories:") 
print(categories if categories else "all") 

train_path='c:/Users/username/Documents/SciKit/train' 
data_train = load_files(train_path, encoding='latin1') 

test_path='c:/Users/username/Documents/SciKit/test' 
data_test = load_files(test_path, encoding='latin1') 

и в каждый из обучающих и тестовых каталогов создает «высокие» и «низкие» подкаталоги для ваших файлов категорий.

Смежные вопросы