2014-01-30 2 views
-2

Я новичок в концепции фильтра цветения. Пожалуйста, дайте мне знать ваши мысли по этому поводу. У меня есть 3 типа категорий. Каждый тип содержит миллиарды категорий.Реализация цветного фильтра для миллиардов категорий

  1. Нужно ли мне 3 объекта фильтра цветения или есть ли способ управлять всеми типами категорий в объекте?

  2. Я использую реализацию фильтра залива Apache hadoop i.e org.apache.hadoop.util.bloom.Filter. Есть ли другая реализация лучше, чем эта?

  3. Какой должен быть идеальный размер массива бит для обработки миллиардов записей?

+0

Непонятно, какие операции вы собираетесь выполнять в своих категориях. Вы только вставляете и проверяете членство? Будете ли вы терпеть ложные срабатывания (когда фильтр сообщает вам «да» на элементе, который фактически отсутствует). Если да и да, то фильтр Bloom может быть хорошим выбором. Что касается размера проблемы порядка миллиардов, я очень сомневаюсь, что фильтр Bloom будет лучше, чем простой битсет – HEKTO

ответ

2
  1. Нужно ли мне 3 объекта цветения фильтра: в зависимости от того, что вы хотите сделать (вы не описали, что), да.

  2. Есть ли другая реализация: обязательно! Попробуйте использовать Google.

  3. Идеальный размер массива бит: это зависит от того, что вы хотите сделать. Попробуйте прочитать Wikipedia article about Bloom filters. Существуют формулы для вычисления вероятности.

Смежные вопросы