У меня возникла проблема с использованием трубопровода Стэнфорда (последняя версия CoreNLP) для анализа BNC.Stanford CoreNLP - черточки
Выражение проблемных предложений следующее: проблема заключается в тире (если я их удаляю, она проходит).
«... они делали это снова и снова - в течение многих лет».
Парсер просто застревает в этом предложении, и он даже не вызывает ошибку. Предложение корректно анализируется в веб-интерфейсе.
Я попробовал варианты токенизатора, без результата.
добавить командную строку я использую: Java [...] edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators разметить, ssplit, позы, depparse -tokenize.whitespace лжи -ssplit.eolonly правды -parse .model edu/stanford/nlp/models/parser/nndep/english_SD.gz -файл $ inputfile
Есть ли у кого-нибудь предложение о том, как справиться с этой проблемой?
Большое спасибо!
Gabriella
Большое спасибо за заботу о моем вопросе! –
Я использую Stanford Corenlp-3.5.2 на компьютерном кластере с узлами Linux 3.0.101-0.47.50. Проблематичное предложение на самом деле дольше, чем то, что я изначально разместил: поскольку я ошибочно полагал, что проблема была в тире, я отрезал ее свое первоначальное сообщение. Простите за это! Я загрузил соответствующий .txt файл по следующей ссылке: http://cogsci.uni-osnabrueck.de/~glapesa/problematic_sentence.txt –
Полное предложение также обрабатывается нормально на моем Mac .... Какая версия Java вы бежите? Oracle Java 8 (какая версия?) Или версия OpenJDK, которая поставляется с Linux? –