official OpenNLP documentation (глава 2) должно дать вам общее понимание. В нем указано:
Детектор предложений OpenNLP может обнаружить, что знак пунктуации обозначает конец предложения или нет. В этом смысле предложение определяется как самая длинная чередующаяся символьная последовательность белого пробела между двумя знаками препинания. Первое и последнее предложение делают исключение из этого правила. Предполагается, что первым символом без пробела является начало предложения, а последний символ без пробелов считается конечным предложением. Нижеприведенный текст текста следует отнести к его предложениям ....
Внутри OpenNLP использует для этого предварительно подготовленные модели. Эти models are available for different languages охватывают широкий спектр лингвистических характеристик.
Тем не менее, вы можете обучать свои «собственные» модели, которые могут лучше соответствовать вашему текстовому материалу, который вы хотите подавать в детектор предложений. Соответствующий раздел в OpenNLP и соответствующая страница JavaDoc должны вас проинструктировать.
Если вам интересно углубить процесс разбора, вы также можете прочитать это StackOverflow question и соответствующие ответы, поскольку они обсуждают ParserModel
и как использовать связанные классы.
Надеюсь, что это поможет.
Пожалуйста, кто-нибудь ответит ... как анализируются данные внутри парсера OPEN NLP. – anamika
Помогите мне .. какой тип разбора .Какая грамматика и правила применяются при разборе – anamika