Когда я конвертирую pdf-файл в текстовый файл, используя pdftotext, арабские символы отображаются неудобно, как этот ع, как я могу преобразовать все эти символы в обычные арабские символы?Как преобразовать арабские формы представления-B в нормальные арабские символы с bash?
0
A
ответ
1
Вы можете использовать этот код:
Примечание: Возможно, потребуется изменить некоторые линии, как ا, ه, ي и لا, если вы хотите, чтобы исходный текст. но вы можете использовать это, если хотите избежать ошибок людей, связанных с этими письмами.
cat file.txt | sed 's/[ﺀﺁﺂﺃﺄﺅﺆﺇﺈﺉﺊﺋﺌﺍﺎ]/ا/g;'\
's/[ﺏﺐﺑﺒ]/ب/g;'\
's/[ﺓﺔ]/ه/g;'\
's/[ﺕﺖﺗﺘ]/ت/g;'\
's/[ﺙﺚﺛﺜ]/ث/g;'\
's/[ﺝﺞﺟﺠ]/ج/g;'\
's/[ﺡﺢﺣﺤ]/ح/g;'\
's/[ﺥﺦﺧﺨ]/خ/g;'\
's/[ﺩﺪ]/د/g;'\
's/[ﺫﺬ]/ذ/g;'\
's/[ﺭﺮ]/ر/g;'\
's/[ﺯﺰ]/ز/g;'\
's/[ﺱﺲﺳﺴ]/س/g;'\
's/[ﺵﺶﺷﺸ]/ش/g;'\
's/[ﺹﺺﺻﺼ]/ص/g;'\
's/[ﺽﺾﺿﻀ]/ض/g;'\
's/[ﻁﻂﻃﻄ]/ط/g;'\
's/[ﻅﻆﻇﻈ]/ظ/g;'\
's/[ﻉﻊﻋﻌ]/ع/g;'\
's/[ﻍﻎﻏﻐ]/غ/g;'\
's/[ﻑﻒﻓﻔ]/ف/g;'\
's/[ﻕﻖﻗﻘ]/ق/g;'\
's/[ﻙﻚﻛﻜ]/ك/g;'\
's/[ﻝﻞﻟﻠ]/ل/g;'\
's/[ﻡﻢﻣﻤ]/م/g;'\
's/[ﻥﻦﻧﻨ]/ن/g;'\
's/[ﻩﻪﻫﻬ]/ه/g;'\
's/[ﻭﻮ]/و/g;'\
's/[ﻯﻰﻱﻲﻳﻴ]/ي/g;'\
's/[ﻵﻶﻷﻸﻹﻺﻻﻼ]/لا/g;'