2015-05-19 5 views
0

Есть ли опция в Stanford Corenlp для указания сокращений? Например, в предложении: The reason pt. stayed at home was to rest. pt - аббревиатура для пациента, а corenlp неправильно разбивает его на два предложения.stanford corenlp, расщепляющие предложения, аббревиатуры исключений

Мне было интересно, как я могу передать список аббревиатур в токенизатор Стэнфорда.

+0

Вы смотрите конкретно на клинический/медицинский язык? Если это так, то не используйте Stanford corenlp. Перейдите на инструментарий, специализирующийся на биомедицинской НЛП. Справедливое предупреждение, однако, это ужасно трудная область для НЛП. –

ответ

2

Короткий ответ: «Нет, теперь нет возможности указывать пользовательские сокращения» (насколько я знаю). Более длинный ответ заключается в том, что этот код находится в файле *.flex, и вы можете добавить к нему пользовательские аббревиатуры. Я думаю, что место, которое нужно сделать, находится в PTBLexer.flex в соответствии с определением ABBREV1.

+0

Я изменил файл и перекомпилировал его, но он не сработал. Я добавил свои сокращения в ABBREV1 в строке 641. – CentAu

+0

Должен ли файл .flex скомпилироваться по-другому? – CentAu

+0

Да, вам, скорее всего, придется скомпилировать это с помощью jflex. –

Смежные вопросы