2015-07-08 3 views
1

Каждый знает, где следующие файлы расположены:Stanford CoreNLP Обучение Примеры

trainFileList = /u/nlp/data/ner/column_data/muc6.ptb.train, /и/NLP/данные/нер/column_data/muc7.ptb.train

Я следую справку ссылку http://nlp.stanford.edu/software/crf-faq.shtml#a

Если все, что мне нужно сделать, это предоставить файл с двумя колонками, состоящие из лексем и класса, то, что будет работать. Но мне любопытно узнать файлы поезда, перечисленные в файлах свойств классификатора.

serializeTo = english.muc.7class.caseless.distsim.crf.ser.gz

Java -mx1g -cp "$ CLASSPATH" edu.stanford.nlp.ie.NERClassifierCombiner -textFile sample.txt -ner .model classifiers/english.all.3class.distsim.crf.ser.gz, классификаторы/english.conll.4class.distsim.crf.ser.gz, классификаторы/english.muc.7class.distsim.crf.ser.gz - OUTPUTFORMAT tabbedEntities -textFile sample.txt> sample2.tsv

ответ

1

эти файлы являются подготовка данных для MUC-6 и MUC-7 задач:

http://cs.nyu.edu/faculty/grishman/muc6.html

Они не распространяются Стэнфордом. Я посмотрю, смогу ли я выяснить, где они распределены, и обновить этот ответ.

UPDATE: LDC распространяет эти файлы, если вы хотите получить копию, у них есть проблемы с авторским правом, поэтому вам необходимо их приобрести из LDC, поэтому мы их не распространяем. Вот некоторые ссылки с дополнительной информацией:

http://www-nlpir.nist.gov/related_projects/muc/muc_data/muc_data_index.html

https://catalog.ldc.upenn.edu/LDC2003T13

https://catalog.ldc.upenn.edu/LDC2001T02

Смежные вопросы