Имеет ли mapreduce и любые другие технологии hadoop (HBase, Hive, pig и т. Д.) Хорошо подходят для ситуаций, когда у вас есть несколько входных файлов и где данные нужно сравнивать между различными источниками данных ,Использование Hadoop для обработки данных из нескольких источников данных
В прошлом я написал несколько работ по созданию Mapreduce с использованием Hadoop и Pig. Однако эти задачи были довольно простыми, поскольку они включали манипулирование только одним набором данных. Требования, которые мы имеем сейчас, диктуют, что мы читаем данные из нескольких источников и выполняем сравнения по различным элементам данных на другом источнике данных. Затем мы сообщаем о различиях. Наборы данных, с которыми мы работаем, находятся в области 10 миллионов - 60 миллионов записей, и до сих пор нам не удалось сделать эти задания достаточно быстрыми.
Есть ли случай использования mapreduce для решения таких проблем или я иду по неверному маршруту.
Любые предложения очень ценятся.
ли наборы данных предварительно отсортированные и распределяли? Как сравниваются данные (ключ в записях или более сложный)? –
Наборы данных поступают от сторонних поставщиков, поэтому я не могу гарантировать порядок сортировки. В принципе, я должен сопоставлять поля адресов из этих источников с «основным» источником, который мы размещаем, и на основе совпадений мы делаем определенные вещи. Операции сравнения в адресных полях включают довольно сложную логику соответствия строк . – swedstar