2015-07-21 2 views
0

У меня возникла проблема с использованием трубопровода Стэнфорда (последняя версия CoreNLP) для анализа BNC.Stanford CoreNLP - черточки

Выражение проблемных предложений следующее: проблема заключается в тире (если я их удаляю, она проходит).

«... они делали это снова и снова - в течение многих лет».

Парсер просто застревает в этом предложении, и он даже не вызывает ошибку. Предложение корректно анализируется в веб-интерфейсе.

Я попробовал варианты токенизатора, без результата.

добавить командную строку я использую: Java [...] edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators разметить, ssplit, позы, depparse -tokenize.whitespace лжи -ssplit.eolonly правды -parse .model edu/stanford/nlp/models/parser/nndep/english_SD.gz -файл $ inputfile

Есть ли у кого-нибудь предложение о том, как справиться с этой проблемой?

Большое спасибо!

Gabriella

ответ

1

Бег с Stanford CoreNLP v.3.5.2 на OS X 10.10.4, я не мог воспроизвести эту проблему. Приведенная примерная строка была проанализирована просто отлично.

Возможно, возникла проблема, но если это так, и вы хотели бы получить более подробную информацию о версии, ОС и версии Stanford NLP и вставить текстовый файл, который не работает где-то для загрузки, чтобы проблема не была чем-то вроде окончания строки, которая теряется при вставке текста на веб-странице.

+0

Большое спасибо за заботу о моем вопросе! –

+0

Я использую Stanford Corenlp-3.5.2 на компьютерном кластере с узлами Linux 3.0.101-0.47.50. Проблематичное предложение на самом деле дольше, чем то, что я изначально разместил: поскольку я ошибочно полагал, что проблема была в тире, я отрезал ее свое первоначальное сообщение. Простите за это! Я загрузил соответствующий .txt файл по следующей ссылке: http://cogsci.uni-osnabrueck.de/~glapesa/problematic_sentence.txt –

+0

Полное предложение также обрабатывается нормально на моем Mac .... Какая версия Java вы бежите? Oracle Java 8 (какая версия?) Или версия OpenJDK, которая поставляется с Linux? –

Смежные вопросы