2015-01-13 2 views
0

Я посмотрел повсюду, чтобы определить, можно ли просто запустить компонент токенизатора Stanford CoreNLP из командной строки и передать вывод напрямую в файл (как можно сделайте это со Стэнфордским китайским сексером Word), и я не видел окончательного ответа, поэтому я ставил его здесь как отдельный вопрос, возможно ли это? Если да, то как?Стэнфордский токенизатор запускается из вывода строки командной строки в файл

Я пытался использовать команду, указанную на CoreNLP website, т.е.

java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse,dcoref -file input.txt 

С дополнительной модификацией >> output.txt в конце, который я понимаю, весьма упрощенно, но, как я уже упоминал выше, для который работал.

Это скажет мне, сколько же токенов есть в качестве вывода на терминал, но файл output.txt всегда пуст, почему? Возможно, я смогу использовать альтернативную стратегию трубопроводов?

В идеале, что бы мне хотелось, все маркеры разделены на разные строки в выходном файле.

На данный момент я думаю, что мне нужно будет написать небольшую программу на Java для достижения задачи, это так?

ответ

0

ОБНОВЛЕНИЕ:

Это не так. Отвечая на мой вопрос. Кажется, это так. Просто добавьте парсер в путь к классам, а затем вы можете использовать команды в командной строке. По какой-то причине он не работает с добавлением CoreNLP в classpath.

Я предполагаю, что мне нужно сделать токенизатор на Java CLASSPATH, прежде чем я смогу использовать его из командной строки, это то, на что ссылается -cp в приведенном выше коде. Хотя, по какой-то причине, я не смог заставить его встать. Правильно ли это звучит?

Смежные вопросы