При вводе «внешних» данных в Hive, что является лучшим способом проверить, что он «чистый»? Мы не хотим, чтобы какие-либо недопустимые значения попадали в нашу таблицу Hive.Улей: проверка данных/обработка плохих данных?
Например, если поле в исходных данных должно содержать допустимую дату, но формат является неправильным (например: «Я» был введен пользователем-пользователем, а не одним), как мы это обнаружим?
У нас есть 20I5-06-09
в исходных данных вместо 2015-06-09
.
Еще сложнее, что, если формат в порядке, но это не действительная дата; например, исходные данные содержат 2015-02-30
, но мы не хотим этого, потому что февраль не может иметь 30 дней.
Спасибо за это предложение; Я дам ему попробовать! – talkietoaster