Как запросить общедоступный набор данных S3 с использованием красного смещения

Документация Amazon AWS просто ужасна и абсолютно бесполезна. Почувствуйте себя хорошо, чтобы понять это, теперь мы можем перейти к актуальной проблеме.Как запросить общедоступный набор данных S3 с использованием красного смещения

Я использую SQL верстак для подключения к кластеру красного смещению я в состоянии соединиться отлично, но не могу запустить любые команды ...

Как я могу запросить общее ползание s3 набор данных?

источник

2015-06-29 George Gervin

, чтобы запросить результат, сначала необходимо загрузить его в красное смещение. Взгляните на команду «copy» – Vor

Я пробовал это, и все, что я получаю, это синтаксические ошибки. Как я должен знать имена таблиц публичного набора данных? –

Набор данных Common Crawl Corpus, указанный в Amazon S3, является apparently formatted as WARC files. Однако Amazon Redshift может загружать только CSV-файлы (несжатые, GZIP или LZOP).

Поэтому вам необходимо предварительно обработать файлы Common Crawl в соответствующем формате для загрузки в Amazon Redshift. Один из способов сделать это - использовать Amazon Elastic MapReduce (EMR). Страница говорит:

Common Crawl обеспечивает связующий код, необходимый для запуска заданий Hadoop на Amazon Elastic MapReduce, которые могут работать против ползания корпуса, проживающих здесь, в Amazon Public Data Sets.

Обратите внимание, что это будет довольно сложный процесс (как и все, что связано с Hadoop).

источник

2015-08-04 05:33:14

Как запросить общедоступный набор данных S3 с использованием красного смещения

ответ

Смежные вопросы