Я пытаюсь сравнить две разные таблицы в HBase, чтобы я мог автоматизировать проверку некоторых процессов ETL, которые мы используем для перемещения данных в HBase. Каков наилучший способ сравнить две таблицы в HBase?Как разбить две таблицы в HBase
Мой случай использования ниже:
То, что я пытаюсь сделать, это создать одну таблицу, которая будет мой ожидаемый результат. Эта таблица будет содержать все данные, которые я ожидаю создать, выполнив код команды с входным файлом. Затем я проведу разницу между фактической выходной таблицей и ожидаемой выходной таблицей, чтобы проверить целостность тестируемого компонента.
Не могли бы вы рассказать о том, что вы имеете в виду, сравнивая таблицы? Я не вижу реальной причины дублировать данные на две таблицы? Вы хотите видеть как diff или ищете какой-то конкретный случай использования? Может быть, разработка вашего примера использования поможет понять проблему немного больше. –
Да, я пытаюсь получить diff. Я добавил свой сценарий к моему первоначальному вопросу. Я инженер QA для команды, которая много работает с HBase, и я пытаюсь автоматизировать мой процесс тестирования, и мне трудно найти инструменты для сравнения для HBase. – RHicke
К сожалению, вы не можете получить разницу двух таблиц в HBase. Если вы не напишите свой собственный код типа diff. Однако, если ключи следуют определенному шаблону, вы можете выполнять сканирование для новых ключей, которые добавляются во время ETL, или вы можете попросить разработчиков поместить некоторые новые метаданные для индексации последних дополнительных ключей. Затем вы можете выполнить сканирование этих метаданных и посмотреть, что изменилось. Хотелось бы, чтобы было лучшее решение. Но, помимо написания специальной утилиты, я не могу придумать много способов сделать это. –