Я хочу разбить текст на предложения. Мой текст содержит \n
символ между ними. Я хочу, чтобы расщепление проводилось в \n
и .
(точка). Я не могу использовать BreakIterator
как условие расщепления, так как это пробел, за которым следует период (в тексте я хочу разделить, что не обязательно).Разбиение на предложения Java
Пример:
i am a java programmer.i like coding in java. pi is 3.14\n regex not working
Должен ли выход:
['i am a java programmer', 'i like coding in java', 'pi is 3.14', 'regex not working']
Я попытался простой регулярное выражение, которое расщепляется на любой \n
или .
:
[\\\\n\\.]
Это не работает хотя, указав отдельно работает.
\\\\n
\\.
Так может кто-нибудь дать регулярное выражение, которое будет разделить на любой \n
или .
?
Другая проблема заключается в том, что я не хочу, чтобы расщепление выполнялось в случае десятичных знаков, таких как 5.6.
Что делать, если у вас есть что-то вроде «blah blah U.S.». Вы хотите считать это одним предложением или двумя предложениями? –