Я запускаю сценарий hvie
на EMR
, который вытаскивает данные из s3
ключей. Я могу получить все данные и просто положить их в таблицу. Проблема в том, что некоторые из данных, которые мне нужны, - это имя ключа. Как получить ключевое имя от hive
и поместить его в таблицу hive
?Получение имени ключа s3 в пределах EMR
ответ
Недавно я столкнулся с аналогичной проблемой. От того, что я исследовал, это зависит. Вы можете получить данные из части «directory», но не «часть имени файла» s3-ключей.
Вы можете использовать partition
, если ключи s3 отформатированы правильно. partition
можно запросить так же, как и столбцы. вот ссылка с некоторыми примерами: Loading data with Hive, S3, EMR, and Recover Partitions
Вы также можете сами указать разделы, если s3-файлы уже сгруппированы правильно. Например мне нужна информация о дате, так мой сценарий выглядит следующим образом:
create external table Example(Id string, PostalCode string, State string)
partitioned by (year int, month int, day int)
row format delimited fields terminated by ','
tblproperties ("skip.header.line.count"="1");
alter table Example add partition(year=2014,month=8,day=1) location 's3n://{BuckeyName}/myExampledata/2014/08/01/';
alter table Example add partition(year=2014,month=8,day=2) location 's3n://{BuckeyName}/myExampledata/2014/08/02/';
...keep going
Данные partition
должна быть частью «имя каталога», а не «имя файла», так как данные ульев грузов из каталога.
Если вам нужно прочитать какой-либо текст из имени файла, я думаю, вам нужно создать специальную программу для переименования объектов так, чтобы нужный текст находился в «имени каталога».
Удачи вам!
- 1. Доступ к данным в S3 в пределах EMR
- 2. Процесс Зашифрованный файл S3 в EMR (MapReduce)
- 3. Загрузка AWS EMR с S3
- 4. EMR Hadoop обрабатывает весь файл S3
- 5. Amazon EMR: «нет вывода» найдено в S3
- 6. Совпадение файлов S3 для чтения в EMR
- 7. Как увидеть выход в Amazon EMR/S3?
- 8. Вывод одного файла в S3 за ключ в Hadoop/EMR
- 9. AWS EMR производительность HDFS vs S3
- 10. EMR hdfs прозрачно с поддержкой s3
- 11. AWS EMR импортирует внешнюю библиотеку из S3
- 12. Перекресток доступа S3 от AWS EMR Spark
- 13. Amazon Web Services (AWS) EC2, EMR, S3
- 14. Получение emr-ddb-hadoop.jar для подключения DynamoDB с EMR Spark
- 15. Получение только имени файла из AWS S3 в Ruby
- 16. получение глобального имени ведра s3 при использовании скрепки в рельсах
- 17. Как скопировать файл с S3 в Amazon EMR в Data Pipeline после предоставления EMR?
- 18. Как указать ведро S3 в качестве моего ввода в EMR
- 19. Загрузите файл с S3 в узлы кластера EMR в pyspark
- 20. Как передать банку в ведро S3 в кластер EMR?
- 21. Получение имени объекта для S3 метода печати неисправного
- 22. Получение содержимого неизвестного ключа
- 23. Force AWS EMR для распаковки файлов в S3
- 24. AWS EMR запись в KMS Зашифрованные файлы паркета S3
- 25. Задание других пользовательских кодов S3 в потоках заданий EMR
- 26. Используйте S3DistCp для копирования файла с S3 в EMR
- 27. EMR Spark не удалось сохранить DataFrame в S3
- 28. Сценарий подсчета сценариев свиней на Amazon EMR Получение ошибки
- 29. Amazon EMR и S3, org.apache.spark.sql.AnalysisException: путь s3: //..../var/table уже существует
- 30. Hadoop навсегда на EMR и профилирование EMR