Я пытаюсь подсчитать количество строк в файле в hdfs
/HIVE
. Есть некоторые случаи, когда я хочу, чтобы количество строк всей таблицы находилось в HIVE
, а в некоторых случаях я хочу, чтобы количество строк только в файле в HIVE
.Как подсчитать количество строк файла hdfs?
Я пробовал такие вещи, как !hadoop fs -count /<path to file(s)/
, но это дает только FILE COUNT
, затем CONTENT_SIZE
. от here
Как получить количество линий?
Я не большой поклонник такого подхода, так как для этого требуется создать таблицу Hive только для подсчета строк, что является довольно большим побочным эффектом. Я склоняюсь к использованию Свинья в соответствии с лучшим ответом http://stackoverflow.com/questions/32612867/how-to-count-lines-in-a-file-on-hdfs-command, поскольку это не требует любое временное хранилище, которое необходимо создать, или для данных, которые нужно скопировать в любом месте. –
Согласен Бен .. но он хочет использовать только один файл, и поэтому я предложил этот подход. – hadooper