Я новичок в Amazon AWS. Я хочу получить доступ к набору данных Google Книг Ngrams. Размер составляет около 2,2 ТБ. Доступно по адресу: s3: //datasets.elasticmapreduce/ngrams/books/Как получить доступ к общедоступному набору данных Amazon для EC2
Поскольку данные большие, я не могу загрузить его на свой компьютер. (1) Как я могу просто изучить часть данных? Например, загрузите или просмотрите онлайн 10 МБ большого файла. (2) Как создать снимок, чтобы я мог использовать Amazon EC2 для анализа данных? Чтобы создать общий объем набора данных из моментального снимка, мне нужно найти идентификатор моментального снимка для этого набора данных. Но я не могу найти его нигде.
Это не свободная лаборатория (1 жетон = 30 USD), но если вы хотите, я могу отправить вам бесплатный токен код, DM @jmfaerman на твиттере. –
Спасибо! Я ценю это! Я только что написал твиттер для вас. – ohmygoddess
Я закончил бесплатную лабораторию. Спасибо! Могу я задать вопрос? Я загрузил input.txt в свой ведро s3 и поместил mapper.py и reducer.py в ту же папку ведра s3. Я хочу получить случайную строку в файле input.txt в файле reducer.py. i.e line1 = linecache.getlines ('/ path/input.txt', 1). Однако, даже если я помещаю их в одну и ту же папку и использую путь os.path.realpath, чтобы получить путь к input.txt, этап редуктора завершился неудачно. На моей локальной машине он работает хорошо. Таким образом, возможно, что расположение input.txt не совпадает с редуктором.py, даже если они находятся в одной и той же папке s3. Спасибо! – ohmygoddess