У меня возникла следующая проблема с регулярным выражением: я написал программу, которая читает слова из некоторых текстовых (txt) файлов и записывает их в другой файл, записывая одно слово в строке.Regex удалил специальный символ
Все работает нормально, за исключением случаев, когда в слове есть специальные символы ľščťžýáíé
. Регулярное выражение удаляет символ и разбивает слово, в котором был специальный символ.
Для примера:
Вход:
I am Jožo.
Выход:
I
am
Jo
o
Вот фрагмент кода:
while((line = br.readLine())!= null){
Pattern p = Pattern.compile("[\\w']+");
Matcher m = p.matcher(line);
}
Попробуйте эту ссылку, http://stackoverflow.com/questions/2276200/cha nging-default-encoding-of-python. Знаете ли вы, что такое байтовое представление ž? – JustinDanielson