2013-07-12 4 views
4

Использование elasticsearch 0.19.4 (я знаю, что это старый, но его то, что требуется в зависимости)поиска дубликатов значений полей в elasticsearch

У меня есть поле «переваривать» в индексе elasticsearch - и я хотел бы выполнить запрос, который вернет мне все случаи, когда есть повторяющиеся значения дайджеста. Это можно сделать?

Для записей, имеющих повторяющиеся значения, я хотел бы вернуть другие значения, такие как «url», которые не могут быть дублированы.

+0

Я также ищу то же самое, но до сих пор ничего не нашел. Если кто-нибудь знает ответ на этот вопрос, тогда ответьте. Спасибо заранее! – Mukesh

ответ

3

Для этого можно использовать Terms Aggregation.

POST <index>/<type>/_search?search_type=count 
{ 
    "aggs": { 
     "duplicateNames": { 
      "terms": { 
       "field": "digest", 
       "size": 0, 
       "min_doc_count": 2 
      } 
     } 
    } 
} 

Это возвратит все значения поля digest, которые возникают, по крайней мере, 2-х документов. Я согласен, что это не соответствует вашему варианту использования, но это может помочь.

Смежные вопросы