Сценария:использование HBase вместо HDFS в MapReduce
анализирует терабайт данных и сделать какую-нибудь текст добычу на вершине, что и хранить данные в HDFS файлы. Затем, чтобы запросить данные, мы импортируем эти данные в Hive.
Однако нам также необходимо выполнить некоторые операции обновления для инкрементных данных. Например, если одна и та же строка строк существует в новых и старых данных, то обновляйте данные, а не вставляйте их.
В настоящее время я выполняю вышеуказанные операции с использованием HDFS. Теперь я думаю о переходе в HBase с операциями чтения/записи.
Я хочу узнать о преимуществах и недостатках этого подхода использования HBase для чтения/записи с MapReduce по сравнению с HDFS.
Дополнение к этому ответу, если вы используете все свои данные в hdfs каждый раз, когда вы запускаете задание mapreduce, это будет sloooow, считывая все данные каждый раз из hbase по сравнению с hfds txt или паркет файлы – halil
@halil благодарит за ценный комментарий. –
@halil Вы поддерживаете hbase или hdfs. ваш комментарий был немного неоднозначным. –