2014-10-18 2 views
0

Я новичок в Amazon AWS. Я хочу получить доступ к набору данных Google Книг Ngrams. Размер составляет около 2,2 ТБ. Доступно по адресу: s3: //datasets.elasticmapreduce/ngrams/books/Как получить доступ к общедоступному набору данных Amazon для EC2

Поскольку данные большие, я не могу загрузить его на свой компьютер. (1) Как я могу просто изучить часть данных? Например, загрузите или просмотрите онлайн 10 МБ большого файла. (2) Как создать снимок, чтобы я мог использовать Amazon EC2 для анализа данных? Чтобы создать общий объем набора данных из моментального снимка, мне нужно найти идентификатор моментального снимка для этого набора данных. Но я не могу найти его нигде.

ответ

1

(1) Да, вы можете использовать AWS CLI или S3DistCP для копирования части данных. (2) Эти данные находятся на S3, поэтому у вас не будет моментального снимка, как на наборах данных EBS.

Я рекомендую вам взять эту лабораторию для того чтобы понять, как обрабатывать этот набор данных: https://run.qwiklab.com/focuses/preview/1161?locale=en

+0

Это не свободная лаборатория (1 жетон = 30 USD), но если вы хотите, я могу отправить вам бесплатный токен код, DM @jmfaerman на твиттере. –

+0

Спасибо! Я ценю это! Я только что написал твиттер для вас. – ohmygoddess

+0

Я закончил бесплатную лабораторию. Спасибо! Могу я задать вопрос? Я загрузил input.txt в свой ведро s3 и поместил mapper.py и reducer.py в ту же папку ведра s3. Я хочу получить случайную строку в файле input.txt в файле reducer.py. i.e line1 = linecache.getlines ('/ path/input.txt', 1). Однако, даже если я помещаю их в одну и ту же папку и использую путь os.path.realpath, чтобы получить путь к input.txt, этап редуктора завершился неудачно. На моей локальной машине он работает хорошо. Таким образом, возможно, что расположение input.txt не совпадает с редуктором.py, даже если они находятся в одной и той же папке s3. Спасибо! – ohmygoddess

Смежные вопросы