Эта тема была адресована для текстовых смайликов по адресу link1, link2, link3. Тем не менее, я хотел бы сделать что-то немного отличное от соответствия простым смайликам. Я сортирую твиты, содержащие значки смайликов. Следующая информация в Юникоде содержит только такие смайлики: pdf.Как найти и считать смайлики в строке с помощью python?
Использование строки с английскими словами, которая также содержит любые из этих смайликов от pdf, я хотел бы иметь возможность сравнить количество смайликов с количеством слов.
Направление, по которому я направлялся вниз, кажется, не самый лучший вариант, и я искал некоторую помощь. Как вы можете видеть в приведенном ниже сценарии, я просто планировал сделать работу из командной строки:
$cat <file containing the strings with emoticons> | ./emo.py
emo.py псевдо сценария:
import re
import sys
for row in sys.stdin:
print row.decode('utf-8').encode("ascii","replace")
#insert regex to find the emoticons
if match:
#do some counting using .split(" ")
#print the counting
Проблема, что я бегу в является декодированием/кодированием. Я не нашел хороший вариант для того, как кодировать/декодировать строку, чтобы я мог правильно находить значки. Пример строки, которую я хочу найти, чтобы найти количество слов и смайликов, выглядит следующим образом:
«Smiley emoticon rocks! Мне нравятся вы ."
Задача: Вы можете создать скрипт, который подсчитывает количество слов и смайликов в этой строке? Обратите внимание, что смайлики сидят рядом со словами без пробелов между ними.
Использует regexp требование здесь? – abarnert
Это все довольно обычное регулярное выражение, так что ... прочитали ли вы [Регулярное выражение HOWTO] (http://docs.python.org/3.3/howto/regex.html#regex-howto), или, что лучше, третье -партийный учебник? – abarnert