2015-03-12 4 views
0

Я пытаюсь создать свою собственную цифровую испанскую базу данных на английском языке, переведя весь испанский корпус, найденный в nltk 3.0 для python 3. Я использую набор инструментов Google, чтобы сделать перевод, и его доказательство будет очень медленным процессом. Мне интересно, существует ли словарь на испанском и английском языках (желательно в форме модуля), который я могу импортировать и использовать в python 3. Ниже приведен код, который мне нужно сделать для перевода вручную. Пока это занимает около 12,5 минут на 5000 переводов.Есть ли испанский-английский словарь для использования с python 3?

import goslate 
import nltk 
import pickle 
x = pickle.load(open("espcorpus.pickle", "rb")) 
gs = goslate.Goslate() 
y = len(x) 
y = y-1 
print(y) 
z = 0 
b = [] 
n = 0 
error = 0 
import pickle 
while z < 192683: 
    n = n + 1 
    while -1 < z < (4481*n): 
     try: 
      c = gs.translate(x[z], 'en', 'es') 
      word=nltk.word_tokenize(c) 
      c = nltk.pos_tag(word) 
      b.append(c[0]) 
      print(z) 
      z += 1 
     except: 
      continue 
      error += 1 
    pickle.dump(b, (open('filename%s.pickle' % n, 'wb'))) 
    print(n) 
    b = [] 
    print('errors: %i' % error) 
idealist = [] 
n = 1 
while n<27: 
    print(n) 
    target = 'filename%s.pickle' % n 
    with open(target, "rb") as file: 
     unpickler = pickle.Unpickler(file) 
     poop = unpickler.load() 
     x = len(poop) 
     z = 0 
     while z<x: 
      idealist.append(poop[z]) 
      z= z +1 
    n = n + 1 
    print(len(idealist)) 
    pickle.dump(idealist, (open('master.pickle', 'wb'))) 

Как я хотел бы иметь окончательную настройку базы данных: [испанское слово, английское слово, английский Часть речи тег]

Пожалуйста, дайте мне знать, если я оставил ничего.

Благодарим вас за предоставленный опыт.

ответ

4

Вам не нужен словарь, специально отформатированный для python, только формат, который вы можете переваривать с помощью python, и это будет означать практически любой известный текстовый формат. Просто попробуйте найти словарь с открытым исходным кодом в удобном для чтения формате и проанализировать его с помощью python.

Здесь, например: http://www.dicts.info/uddl.php

+0

Благодарим за помощь. –

Смежные вопросы