Я работаю над проектом по поиску информации. Я сделал полный инвертированный указатель, используя Hadoop/Python. Hadoop выводит индексы как пары (слова, документы), которые записаны в файле. Для быстрого доступа я создал словарь (хеш-таблицу), используя указанный выше файл. Мой вопрос: как я могу хранить такой индекс на диске, который также имеет быструю доступность. В настоящее время я храню словарь с использованием модуля пиренейского пика и загружаю из него , но он сразу выводит весь индекс в память (или делает это?). Просьба предложить эффективный способ хранения и поиска по индексу.Хранение инвертированного индекса
Мой словарь структура выглядит следующим образом (с использованием вложенных словарей)
{слово: {doc1: [места], doc2: [места], ....}}
так, что я могу получить документы, содержащие слово словарь [слово] .keys() ... и так далее.
Несомненно, вы не хотите просто использовать Sphinx/Lucene/Xapian? –