2014-10-29 2 views
4

Я использую google_ngram_downloader, чтобы прочитать наборы данных google.Чтение google ngrams с помощью google_ngram_downloader

Код:

from google_ngram_downloader import readline_google_store 
fname, url, records = next(readline_google_store(ngram_len=1)) 
for x in range(0,5): 
    print next(records) 

Здесь я читаю наборы данных, один за другим начиная с 0,1, ... а, б, г ... next (readline_google_store (ngram_len = 1)) дает ngrams один за другим. Я хочу прямо читать наборы данных, которые будут 'a', 'b' ничего не по одному.

Обязательный: только для чтения данных, который начинается с буквы 'в', имеющей 1-граммовый набор данных.

+0

Я смущен. В чем вопрос? – Daniel

+0

'@ Daniel': Google хранит свой n-грамм в этом формате, поскольку http://storage.googleapis.com/books/ngrams/books/datasetsv2.html и выше код используется для последовательного чтения этих n-граммов. Я хочу, чтобы я предположил, что хочу читать только набор данных с буквой «a» из 5 граммов ** и пропускать оставшиеся. – iNikkz

ответ

1

Один из способов - добавить indices в явном виде. Используйте эту строку, чтобы получить только ngrams длины 1, которые начинаются с a.

fname, url, records = next(readline_google_store(ngram_len=1,indices='a')) 
Смежные вопросы