Проблема: Не удается получить символ Юникода для правильной печати.ANTLR: Сканирование символов Unicode
Вот моя грамматика:
options { k=1; filter=true;
// Allow any char but \uFFFF (16 bit -1)
charVocabulary='\u0000'..'\uFFFE';
}
ANYCHAR :'$'
| '_' { System.out.println("Found underscore: "+getText()); }
| 'a'..'z' { System.out.println("Found alpha: "+getText()); }
| '\u0080'..'\ufffe' { System.out.println("Found unicode: "+getText()); }
;
Фрагмент кода основного метода, ссылающегося на лексера:
public static void main(String[] args) {
SimpleLexer simpleLexer = new SimpleLexer(System.in);
while(true) {
try {
Token t = simpleLexer.nextToken();
System.out.println("Token : "+t);
} catch(Exception e) {}
}
}
Для ввода "ठ", я получаю следующий результат:
Found unicode:
Token : ["à",<5>,line=1,col=7]
Found unicode:
Token : ["¤",<5>,line=1,col=8]
Found unicode:
Token : [" ",<5>,line=1,col=9]
Похоже, что лексер обрабатывает Unicode ch ar "ठ" как три отдельных символа. Моя цель - сканировать и печатать «ठ».
не связанных с вашей проблемой, но я не рекомендую никогда «проглотить» свои исключения: когда дела идут плохо , вы не знаете, что произошло (и где). Вместо 'catch (исключение e) {}', по крайней мере, выполните: catch (исключение e) {e.printStackTrace(); } ' –
Вы правы, сэр :) Урок для меня: прочитайте скопированный код до конца, прежде чем использовать его. – Jhakki