Теперь я закончил курс хаупа, я хочу работать над Hadoop. Я хочу знать процесс обработки данных, чтобы визуализировать данные.как предварительно обрабатывать данные и загружать их в улей
Я знаю о том, как эко работы компонентов системы, и я построил Hadoop кластер с 8 DataNodes и 1 NameNode: 1 NameNode --Resourcemanager, NameNode, secondarynamenode, улей 8 - узлы DataNode DataNode, Nodemanager
Я хочу знать следующие вещи:
- Я получил данные .tar структурированные файлы и первые 4 строки имеют description.how обрабатывать данные этого типа, немного запутанные. 1.a Могу ли я напрямую обрабатывать данные, так как это tar-файлы. Если да, то как удалить данные в первых четырех строках, мне нужно разблокировать и удалить первые 4 строки 1.b, и я хочу обработать это данные с использованием улья.
Просьба предложить мне, как это сделать.
Заранее спасибо.
спасибо за быстрый ответ. Теперь у меня есть идея. В моем случае Структура файла:/home/admin/jan/file1 -> file1.tar Файл zip был выполнен в домашнем каталоге, поэтому, если я разархивирую этот файл, будет структурирован файл, как показано ниже, /home/admin/jan/file1 в приведенном выше случае будут ли файлы считываться с использованием внешних таблиц улья? Не могли бы вы сообщить мне, где установить улей либо на Namenode, либо на Datanode? Я установил Datanode и secondarynamenode на том же сервере, запустив службы im see secondarynamnode работает на 0.0.0.0 .. – thambisetty
Да, вы можете создать внешнюю таблицу, но данные должны быть в HDFS не в локальном домашнем каталоге. Итак, используйте команду hadoop fs -put/home/admin/jan/file1/hdfs_path, чтобы поместить данные из локального в hdfs, а затем создать внешнюю таблицу для этих данных, используя CREATE EXTERNAL TABLE TABLENAME (COL ...) LOCATION '/ hdfs_path '. Также вы можете установить куст в любом узле кластера. – anand
У меня есть структура каталогов, как показано ниже в моем hadoop, /hadoop/maindirec/subdirect1/files1-100/hadoop/maindirec/subdirect2/files1-100/hadoop/maindirec/subdirect3/files1-100/hadoop/maindirec/subdirect4/files1-100/hadoop/maindirec/subdirect5/files1-100 Теперь я хочу создать таблицу hive с форматом orc как maindirec и subdirect1-5 как частицы – thambisetty