поэтому в конце концов (после нескольких дней отладки) я нашел проблему. Он не находится в regex вообще: /. Это швы, что я был подрезка EKSTRA белых пространств сregex не может распознать « n»?
intput= Regex.Replace(input, "\\s+", " ");
поэтому все новые линии заменяются «». Глупый! Модератор, пожалуйста, удалите это, если ненужно!
У меня есть регулярное выражение для tokenizing текст и выглядит следующим образом:
"(?<html>Ç)|
(?<number>\\d+(?:[.]\\d+)?(?=[][ \f\n\r\t\v!?.,():;\"'„Ç]|$))|
(?<other>(?:[^][Ç \f\n\r\t\v!?.,():;\"'„A-Za-zčćšđžČĆŠĐŽäöÖü][^ Ç\f\n\r\t\vA-Za-zčćšđžČĆŠĐŽäöÖü]*)?[^][ Ç\f\n\r\t\v!?.,():;\"'„A-Za-zčćšđžČĆŠĐŽäöÖü](?=[][!?.,():;\"'„]*(?:$|[ Ç\f\n\r\t\v])))|
(?<word>(?:[^][ Ç\f\n\r\t\v!?.,():;\"'„][^ Ç\f\n\r\t\v]*)?[^][ Ç\f\n\r\t\v!?.,():;\"'„])|
(?<punctuation>[][ \f\n\r\t\v!?.,():;\"'„])"
Проблема в этой части: (?<punctuation>[][ \f\n\r\t\v!?.,():;\"'„])
. Поэтому, когда im prsing текст с вводом "\n\n"
, он группируется в пунктуационных совпадениях: " "," "
- другими словами, пространство и пространство ... и я не знаю почему?
не является вашим регулярным выражением, работающим на линейном уровне, например. в perl? – bertolami
Прошу прощения ... это не очень понятно ... это превращает новые строки в пробелы? Вы хотите, чтобы он группировал знаки препинания? И пока я нахожусь в этом, что это за '[' 'вы продолжаете писать? – Kobi
это также происходит с параметром RegexOptions.Multiline включен и выключен? –