2012-02-18 2 views
0

Я использую Python для написания некоторых скриптов, которые объединяют две системы. Система сканирует почтовые ящики и ищет конкретную строку темы, а затем анализирует информацию из электронной почты. Один из элементов, которые я ищу, - это HTML-ссылка, которую я затем использую Curl для записи html-кода в текстовый файл в текстовом формате.Использование Python для перевода с японского на английский

Мой вопрос в том, есть ли текст в электронном письме на японском языке, есть ли в Python модули, которые автоматически преобразуют этот текст на английский? Или у меня есть преобразование в строку в Unicode, а затем декодирование?

Вот пример того, что я вижу. Когда я использую локон, чтобы захватить текст из URL:

USB Host Stack 処理において解放されたメモリを不正に使用している 

Когда я делаю простой re.match, чтобы захватить строку и записать его в файл получить это:

USB Host Stack æQtk0J0D0f0ã‰>eU0Œ0_0á0â0ê0’0Nckk0O(uW0f0D0‹0 

I также получить следующее, когда я захватить электронную почту с помощью модуля электронной

>>> emailMessage.get_payload() 
USB Host Stack =E5=87=A6=E7=90=86=E3=81=AB=E3=81=8A=E3=81=84=E3=81=A6=E8=A7= 
=A3=E6=94=BE=E3=81=95=E3=82=8C=E3=81=9F=E3=83=A1=E3=83=A2=E3=83=AA=E3=82=92= 
=E4=B8=8D=E6=AD=A3=E3=81=AB=E4=BD=BF=E7=94=A8=E3=81=97=E3=81=A6=E3=81=84=E3= 
=82=8B 

Так что, я думаю, мой вопрос в том, какие шаги я должен предпринять, чтобы получить это, чтобы преобразовать в Engl иш правильно. Я бы очень хотел взять первый, который является японским персонажем, и перевести его на английский.

+0

Вы используете Python 2.x или Python 3.x? Если вы используете Python 2.x ... прочитали ли вы что-нибудь о ['unicode'] (http://docs.python.org/library/functions.html#unicode)? – juliomalegria

+0

Перевести на английский язык как? Заклинание или перевод? –

+1

Строка уже Юникод. Вы можете напрямую обрабатывать японский язык. Никакой «конверсии» не требуется. Если вы хотите перевести японский язык на английский, вам нужно очень и очень сложное программное обеспечение. Вы спрашиваете о НЛТК? Или вы спрашиваете о Google Translate? –

ответ

0

Перевод на естественный язык - очень сложная проблема, как писали другие. Итак, посмотрите на отправку строк для перевода в сервис, например, google translate, который переведет их для вас (плохо, но лучше, чем ничего) и отправьте их обратно.

Следующая SO ссылка показывает один из способов: translate url with google translate from python script

Перед тем, как получить, что для работы, вы должны разобраться в своих проблемах кодирования (Юникод, UUencoding и т.д.), так что вы читать и писать текст, не развращает его ,

+0

Спасибо. В другой части системы система полностью автоматизирована, поэтому автоматизировать часть google будет сложно. –

+1

Обратите внимание, что Google Translate api v1 недавно устарел, а v2 - платная услуга, поэтому многие примеры в Интернете больше не будут работать. Ожидайте много ошибок «Подозреваемые условия обслуживания». – DSM

+0

На другой ноте ... простой вопрос, так как мы на эту тему. Почему readline() не возвращает мне именно то, что присутствует в txt-файле, который я читаю? Как вы можете видеть из моего первого опыта, я делаю. –

Смежные вопросы