2015-06-29 2 views
0

Документация Amazon AWS просто ужасна и абсолютно бесполезна. Почувствуйте себя хорошо, чтобы понять это, теперь мы можем перейти к актуальной проблеме.Как запросить общедоступный набор данных S3 с использованием красного смещения

Я использую SQL верстак для подключения к кластеру красного смещению я в состоянии соединиться отлично, но не могу запустить любые команды ...

Как я могу запросить общее ползание s3 набор данных?

+0

, чтобы запросить результат, сначала необходимо загрузить его в красное смещение. Взгляните на команду «copy» – Vor

+0

Я пробовал это, и все, что я получаю, это синтаксические ошибки. Как я должен знать имена таблиц публичного набора данных? –

ответ

0

Набор данных Common Crawl Corpus, указанный в Amazon S3, является apparently formatted as WARC files. Однако Amazon Redshift может загружать только CSV-файлы (несжатые, GZIP или LZOP).

Поэтому вам необходимо предварительно обработать файлы Common Crawl в соответствующем формате для загрузки в Amazon Redshift. Один из способов сделать это - использовать Amazon Elastic MapReduce (EMR). Страница говорит:

Common Crawl обеспечивает связующий код, необходимый для запуска заданий Hadoop на Amazon Elastic MapReduce, которые могут работать против ползания корпуса, проживающих здесь, в Amazon Public Data Sets.

Обратите внимание, что это будет довольно сложный процесс (как и все, что связано с Hadoop).

Смежные вопросы