Приложение на моем компьютере необходимо прочитать в текстовом файле. У меня их несколько, и один не работает; программа не читает ее и говорит мне, что в ней где-то есть плохой символ. Прежде всего я предполагаю, что там где-то есть символ не-ascii, но я не знаю, как его найти. Perl или любое общее регулярное выражение было бы неплохо. Есть идеи?Поиск документа для не-ascii
ответ
Вы можете использовать [^\x20-\x7E]
в соответствии с символом, отличным от ASCII.
например. grep -P '[^\x20-\x7E]' suspicious_file
У меня возникла проблема с этим, так как он также идентифицировал бы все символы конца строки в моем файле. Объединив ваш ответ с Руахом, хотя он работал как шарм: [^ \ t \ n \ r \ x20- \ x7E] – JMM
В моем случае [ответ на другой вопрос] (http://stackoverflow.com/a/ 882437/873282) было лучше: '[\ xE0- \ xFF]' – koppor
perl -wne 'printf "byte %02X in line $.\n", ord $& while s/[^\t\n\x20-\x7E]//;'
найдет каждый символ, который не является ASCII Покрытый письменами символ, табуляция, пробел или символ новой строки.
Если он сообщает 0D
s (возврат каретки) в файлах, которые являются O.K., а затем измените \t\n
на \t\n\r
.
Если это только сообщения 0D
s в файлах, которые являются плохими, то вы можете исправить эти файлы, запустив на них dos2unix
.
Просто добавление, нужно запустить ввод как окончательный неперечисленный аргумент. –
Нравится, спасибо! Мне пришлось немного изменить его для консоли DOS: 'perl -wne 'printf qq (byte% 02X в строке $. \ N), ord $ & while s/[^ \ t \ n \ x20- \ x7E]//;»
Если вы используете табуляторы в исходном коде, а, попробуйте этот шаблон:
[^\x08-\x7E]
также работает в Notepad ++
- 1. Поиск XML-документа для строки
- 2. Поиск данных внутри документа документа
- 3. Поиск документа Mongodb
- 4. Поиск ключевого слова внутри файла документа документа
- 5. поиск новизны документа
- 6. Сложный поиск веб-документа
- 7. Поиск документа для нескольких терминов в VBA?
- 8. Поиск документа для элемента с именем стиля?
- 9. Поиск документа XLM для строки в теге
- 10. Поиск текстового документа для строки - JAVA
- 11. Поиск объекта ObjectId документа: pymongo
- 12. Поиск документа HTML в PHP
- 13. Vim, поиск в заголовке документа
- 14. Поиск документа Word из надстройки
- 15. Поиск типа шаблона документа библиотеки
- 16. Поиск гиперссылок внутри PDF-документа?
- 17. Поиск документа в примечаниях лотоса
- 18. поиск документа ищет внутри объекта
- 19. Поиск поддокумента документа в mongodb?
- 20. Поиск документа в файловой системе
- 21. Поиск встроенного документа в mongodb?
- 22. Поиск функций для классификации документа для печати или непечатаемой
- 23. Mongoose - поиск документа и обновление некоторых полей вложенного документа
- 24. Поиск документа Dcusign с использованием Docusign-connect
- 25. Поиск формата документа .. плавный макет + управление страницей
- 26. Поиск документа документации VMS (документ VAX?)
- 27. Упругий поиск GET не дает последнего документа
- 28. Поиск документа MongoDB ObjectId с Mongoose
- 29. Поиск документа по числовым полям в Lucene
- 30. Поиск документа с использованием solr и drupal
Что вы пытаетесь до сих пор? – nmagerko
Я считаю, что вы можете найти ответ [здесь] (http://stackoverflow.com/questions/881931/how-can-i-find-extended-ascii-characters-in-a-file-using-perl)? – Neilos
Я принял математический кофе, потому что он был сверхзадачи - работал в Notepad ++ –