Я новичок в концепции фильтра цветения. Пожалуйста, дайте мне знать ваши мысли по этому поводу. У меня есть 3 типа категорий. Каждый тип содержит миллиарды категорий.Реализация цветного фильтра для миллиардов категорий
Нужно ли мне 3 объекта фильтра цветения или есть ли способ управлять всеми типами категорий в объекте?
Я использую реализацию фильтра залива Apache hadoop i.e
org.apache.hadoop.util.bloom.Filter
. Есть ли другая реализация лучше, чем эта?Какой должен быть идеальный размер массива бит для обработки миллиардов записей?
Непонятно, какие операции вы собираетесь выполнять в своих категориях. Вы только вставляете и проверяете членство? Будете ли вы терпеть ложные срабатывания (когда фильтр сообщает вам «да» на элементе, который фактически отсутствует). Если да и да, то фильтр Bloom может быть хорошим выбором. Что касается размера проблемы порядка миллиардов, я очень сомневаюсь, что фильтр Bloom будет лучше, чем простой битсет – HEKTO