Недавно я обнаружил парсер Stanford NLP, и это выглядит довольно удивительно. В настоящее время у меня есть рабочий экземпляр этого проекта, но мы сталкиваемся с указанными ниже проблемами.Java, Stanford NLP: Извлечение конкретных речевых меток из парсера
- Как я могу разобрать текст, а затем извлечь только определенные речевые метки из проанализированных данных, например, как можно извлечь только
NNPS
иPRP
из предложения. - Наша платформа работает на английском и немецком языках, поэтому всегда есть возможность, что текст написан на английском или немецком языке. Как я могу разместить этот сценарий. Спасибо.
Код:
private final String PCG_MODEL = "edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz";
private final TokenizerFactory<CoreLabel> tokenizerFactory = PTBTokenizer.factory(new CoreLabelTokenFactory(), "invertible=true");
public void testParser() {
LexicalizedParser lp = LexicalizedParser.loadModel(PCG_MODEL);
String sent="Complete Howto guide to install EC2 Linux server in Amazon Web services cloud.";
Tree parse;
parse = lp.parse(sent);
List taggedWords = parse.taggedYield();
System.out.println(taggedWords);
}
Приведенный выше пример работает, но как вы можете видеть, я загрузке данных на английском. Спасибо.
См здесь - http://nlp.stanford.edu/software/pos-tagger-faq.shtml –
@SrikanthA: Спасибо, с точки-24, я понимаю, что есть механизм возврата, если язык неверен. Любая идея о первом выпуске. Спасибо. –