2016-09-09 1 views
0

Когда я конвертирую pdf-файл в текстовый файл, используя pdftotext, арабские символы отображаются неудобно, как этот ع, как я могу преобразовать все эти символы в обычные арабские символы?Как преобразовать арабские формы представления-B в нормальные арабские символы с bash?

ответ

1

Вы можете использовать этот код:

Примечание: Возможно, потребуется изменить некоторые линии, как ا, ه, ي и لا, если вы хотите, чтобы исходный текст. но вы можете использовать это, если хотите избежать ошибок людей, связанных с этими письмами.

cat file.txt | sed 's/[ﺀﺁﺂﺃﺄﺅﺆﺇﺈﺉﺊﺋﺌﺍﺎ]/ا/g;'\ 
's/[ﺏﺐﺑﺒ]/ب/g;'\ 
's/[ﺓﺔ]/ه/g;'\ 
's/[ﺕﺖﺗﺘ]/ت/g;'\ 
's/[ﺙﺚﺛﺜ]/ث/g;'\ 
's/[ﺝﺞﺟﺠ]/ج/g;'\ 
's/[ﺡﺢﺣﺤ]/ح/g;'\ 
's/[ﺥﺦﺧﺨ]/خ/g;'\ 
's/[ﺩﺪ]/د/g;'\ 
's/[ﺫﺬ]/ذ/g;'\ 
's/[ﺭﺮ]/ر/g;'\ 
's/[ﺯﺰ]/ز/g;'\ 
's/[ﺱﺲﺳﺴ]/س/g;'\ 
's/[ﺵﺶﺷﺸ]/ش/g;'\ 
's/[ﺹﺺﺻﺼ]/ص/g;'\ 
's/[ﺽﺾﺿﻀ]/ض/g;'\ 
's/[ﻁﻂﻃﻄ]/ط/g;'\ 
's/[ﻅﻆﻇﻈ]/ظ/g;'\ 
's/[ﻉﻊﻋﻌ]/ع/g;'\ 
's/[ﻍﻎﻏﻐ]/غ/g;'\ 
's/[ﻑﻒﻓﻔ]/ف/g;'\ 
's/[ﻕﻖﻗﻘ]/ق/g;'\ 
's/[ﻙﻚﻛﻜ]/ك/g;'\ 
's/[ﻝﻞﻟﻠ]/ل/g;'\ 
's/[ﻡﻢﻣﻤ]/م/g;'\ 
's/[ﻥﻦﻧﻨ]/ن/g;'\ 
's/[ﻩﻪﻫﻬ]/ه/g;'\ 
's/[ﻭﻮ]/و/g;'\ 
's/[ﻯﻰﻱﻲﻳﻴ]/ي/g;'\ 
's/[ﻵﻶﻷﻸﻹﻺﻻﻼ]/لا/g;'