2015-02-16 4 views
-1

У меня есть следующий код:Чтение слов из строки Unicode вместо Char

for line in contentText: 
      print type(line), #-> o/p is unicode 
      word = line.strip().split() 
      print word, #-> o/p is <type 'list'> 
      print type(word), 

когда я line.strip().split(), становится отображается каждый символ.

Например, если моя строка «Чтение слов из строки Unicode вместо Char», то о/р: Р е д

ш о г д

a . . так далее

Я хочу прочитать его как «Read», «слово», от как слова, а не полукокса для дальнейшей обработки ..

Как я могу добиться этого?

Также как можно удалить пробелы для дальнейшей обработки?

+0

это 'для г in line.strip(). split(): print i' работает для меня. –

ответ

1

переборе строковое Урожайность одной строки символов:

>>> text = 'Read word' 
>>> for x in text: 
...  print x 
... 
R 
e 
a 
d 

w 
o 
r 
d 

Split первым, чтобы получить список слов, а затем просматривать список:

>>> text.split() # str.split remove space characters 
['Read', 'word'] 

>>> for x in text.split(): 
...  print x 
... 
Read 
word 
+0

Итак, в основном вы просите меня поставить «для строки в contentText?» – Rakanid

+0

Нет; если 'contentText' - это строка, а не список строк, вообще не обходите ее. – tripleee

+0

@ tripleee Я новичок и немного смущен здесь. Итак, вы заявляете, что contentText - это строка. Таким образом, в этой строке хранится целая строка: «Чтение Word из строки Unicode вместо Char» - это строка, и если я перейду через нее, она будет читать каждый символ R e a d отдельно, но не как слово «Чтение Word». Итак, для этого я раскололся и разбился на основе пробелов? – Rakanid

Смежные вопросы