Это часть информации, которую я делаю для школы. План состоит в том, чтобы создать хэш-карту слов, используя первые две буквы слова в качестве ключа и любые слова с двумя буквами, сохраненными как строковое значение. Так,Помощь с построением инвертированного индекса
HashMap [ «ба»] = «плохой ячмень база»
После того, как я сделал tokenizing линию я беру эту HashMap, сериализовать его, и добавить его в текстовый файл с именем после того, как ключ.
Идея состоит в том, что если я возьму свои данные и распространю их на сотни файлов, я уменьшу время, необходимое для выполнения поиска, уменьшив плотность каждого файла. Проблема, с которой я сталкиваюсь, заключается в том, что когда я делаю 100+ файлов в каждом прогоне, это заставляет задуматься о создании нескольких файлов по любой причине, и поэтому эти записи пустые. Есть ли способ сделать это более эффективным? Стоит ли продолжать это, или я должен отказаться от него?
Я хотел бы упомянуть, что я использую PHP. Двумя языками, которые я знаю относительно близко, являются PHP и Java. Я выбрал PHP, потому что передняя часть будет очень простой в использовании, и я смогу добавить такие функции, как автозаполнение/предлагаемый поиск, без проблем. Я также не вижу преимуществ в использовании Java. Любая помощь приветствуется, спасибо.
Возможно ли использование базы данных? – VolkerK
К сожалению, нет. Я должен индексировать и выбирать все самостоятельно. – tipu