У меня есть требование следующим образом:ElasticSearch с выдачей Hadoop дублирования данных
Что бы данные есть в Hadoop, мне нужно, чтобы сделать его доступным для поиска (и наоборот).
Для этого я использую ElasticSearch
, где мы можем использовать elasticsearch-hadoop plug-in
для отправки данных от hadoop до Elastic.And теперь возможен поиск в режиме реального времени.
Но, мой вопрос, нет дублирования данных. Независимо от данных в hadoop, то же самое дублируется в поиске Elastic с индексацией . Есть ли способ избавиться от этого дублирования, или моя концепция неверна. Я много искал, но не знаю ни малейшего представления об этой проблеме дублирования.
Спасибо за ваш ответ rnio. В случае повторного запуска одного и того же запроса вы правы. Но просто посмотрите движение данных в первом огне. При запуске в первый раз все данные передаются вправо Elastic. Мой вопрос нацелен на то, чтобы дублировать данные. –
Я не уверен, что понял. Если у вас есть дубликаты в вашем наборе данных, вы можете удалить их с помощью агрегации свиней или с помощью вложенного foreach. –