У меня есть документы, которые прошли конвертацию OCR из PDF в HTML. Из-за этого они закончили с большим количеством случайных знаков пресетов unicode, где конвертер перепутался (т. Е. Elipses и т. Д.). Они также правильно имеют кучу неанглийских, но все же алфавитных символов, таких как é, и русских символов и т. Д.Есть ли способ сопоставить любой Unicode неалкогольный символ?
Есть ли способ сделать регулярное выражение, которое будет соответствовать любому символу алфавита Юникода (из алфавитов любой язык)? Или тот, который будет соответствовать только неалфавитам? Любой из них был бы очень полезным и удивительным. Я использую Perl, если это что-то меняет. Благодаря!
Точно так же вы можете использовать '\ P' для соответствия символу * not *, имеющему определенное свойство (так что' \ P {L} 'соответствует любому небуквенному символу). –
Могу ли я использовать код символа, пропускающий некоторые кодовые точки? Как \ p {P} опуская периоды и запятые? Отрицание этого было бы идеально для меня. – Eli