2014-02-04 3 views
1

Я пытаюсь экспортировать фрейм данных с арабским текстом в R.Экспортный арабский текст из R

Когда R импортирует арабский текст он преобразует его в UTF-8 кодов. Например:

 <U+0627><U+0644><U+0641><U+0631><U+0639> <U+0627><U+0644><U+062A><U+0634><U+0631><U+064A><U+0639><U+064A><U+060C> <U+0627><U+0644><U+0641><U+0631><U+0639> <U+0627><U+0644><U+062A><U+0646><U+0641><U+064A><U+0630><U+064A><U+060C><U+0627><U+0644><U+0641><U+0631><U+0639> <U+0627><U+0644><U+0642><U+0636><U+0627><U+0626><U+064A>. <U+0627><U+0644><U+062D><U+0643><U+0648><U+0645><U+0629> <U+0627><U+0644><U+0641><U+062F><U+0631><U+0627><U+0644><U+064A> 

К сожалению, я не могу заставить его вернуться в читаемый арабский язык при экспорте. Ниже приведен код, который я использую ...

write.csv(my.data,"data.csv", fileEncoding='UTF-8') 

У кого-нибудь есть решение?

Кроме того, вот моя информация о сеансе.

R version 3.0.1 (2013-05-16) 
Platform: x86_64-w64-mingw32/x64 (64-bit) 

locale: 
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252 
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C       
[5] LC_TIME=English_United States.1252  

attached base packages: 
[1] stats  graphics grDevices utils  datasets methods base  

other attached packages: 
[1] ggplot2_0.9.3.1 

loaded via a namespace (and not attached): 
[1] colorspace_1.2-2 dichromat_2.0-0 digest_0.6.3  grid_3.0.1 gtable_0.1.2  
[6] labeling_0.2  MASS_7.3-27  munsell_0.4.2  plyr_1.8   proto_0.3-10  
[11] RColorBrewer_1.0-5 reshape2_1.2.2  scales_0.2.3  stringr_0.6.2  tools_3.0.1  
+0

Отправьте свой 'sessionInfo()' и какую операционную систему вы используете. – nograpes

+0

Я думаю, что это просто проблема с кодировкой. Прочтите мой ответ [здесь] (http://stackoverflow.com/questions/21238631/reading-arabic-data-text-in-r-and-plot/21239501#21239501), он должен вам помочь. – agstudy

+0

Посмотрите эту страницу. http://stackoverflow.com/questions/11228307/writing-data-isnt-preserving-encoding это работает для меня в арабский –

ответ

2

Вам необходимо будет установить и использовать локали. Это сложно, а иногда и не работает.

Там в некоторые решения и код, предлагаемые здесь: Writing data isn't preserving encoding

Имейте в виду, что вы на самом деле установить языковые пакеты для вашей операционной системы и для некоторых версий Windows, есть не любой доступный отдельно на всех.

0

Этот код работал со мной, так что я делю его:

Sys.setlocale("LC_CTYPE", "arabic") 

write.csv(group$message, file = 'posts.txt', fileEncoding = "UTF-8") 

Если вы сохраните файл как CSV он не будет работать. Вы должны сохранить его как txt.

Смежные вопросы