2012-06-01 3 views

ответ

0

Возможно, быстрее генерировать данные, чем загружать их и выставлять. Это имеет то преимущество, что дает вам контроль над проблемным доменом и позволяет вашему демо значит что-то для людей, которые смотрят.

+0

Да, но это не представляет интереса для разработки реальных и интересных алгоритмов для анализа данных. – Kartoch

+0

Это хорошая идея в сочетании с каким-то генетическим алгоритмом или чем-то - тогда вы можете анализировать данные, чтобы искать смысл. –

26

Я хотел бы предложить вам скачивание миллиона песен набора данных со следующим сайта:

http://labrosa.ee.columbia.edu/millionsong/

Лучше всего с миллионами песен Dataset является то, что вы можете скачать 1 Гб (около 10000 песен), 10GB, 50GB или около 300 ГБ для вашего кластера Hadoop и сделайте все, что захотите. Мне нравится использовать его и многому научиться с помощью этого набора данных.

Для начала вы можете скачать набор данных начинаются с любой буквы от А до Я, который будет в диапазоне от 1 ГБ до 20 ГБ .. Вы также можете использовать сайт Infochimp:

http://www.infochimps.com/collections/million-songs

В одном из моих следующих блог я показал, как загрузить 1 Гб набор данных и запустить Pig сценарии:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx

+1

Простой набор данных, спасибо! –

10

Есть общественные наборы данных доступны вам на Amazon:
http://aws.amazon.com/publicdatasets/
Я предлагаю рассмотреть возможность запуска демо-кластера - и, таким образом, сохранить загрузку.
Существует также хороший набор данных из переполненной сети из Common Crawl, который также доступен на amazon s3. http://commoncrawl.org/

10

Предмет, который может вас заинтересовать, "Using Hadoop to analyze the full Wikipedia dump files using WikiHadoop".

Если вы после Wikipedia страницы просмотреть статистику, то this может помочь. Вы можете загружать файлы pagecount с 2007 года до текущей даты. Просто чтобы дать представление о размере файлов, 1.9 GB за один день (здесь я выбрал 2012-05-01), распространяемый по 24 файлам.

В настоящее время в 31 стране есть сайты, которые предоставляют общедоступные данные в различных форматах, http://www.data.gov/opendatasites. Кроме того, Всемирный банк делает доступными данные на http://data.worldbank.org/data-catalog

13

Том Уайт упоминает о образце данных о погоде в своей книге (Hadoop: окончательное руководство).

http://hadoopbook.com/code.html

Данные доступны для более чем 100 лет.

Я использовал wget в linux, чтобы вытащить данные. Для самого 2007 года размер данных составляет 27 ГБ.

Он размещается как ссылка FTP. Таким образом, вы можете загрузить с помощью любой утилиты FTP.

ftp://ftp.ncdc.noaa.gov/pub/data/noaa/

Для получения полной информации, пожалуйста, проверьте мой блог:

http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html

+1

Это нормально, чтобы ссылаться на ваш блог, но лучше включить фактическую инструкцию, если это возможно. Таким образом, его можно искать, и его легче читать, а затем следовать по ссылке с сайта. Это хороший ресурс, спасибо за его добавление. –

+0

@ Джошуа Уилсон: Я думал не повторять ту же информацию. Это единственная причина, иначе я бы хотел добавить. Спасибо за предложение, я обновил его сейчас. –

3

Если вы заинтересованы в показателях страны, лучший источник я нашел worldbank.org. Данные, которые они предлагают, могут быть экспортированы как CSV, что упрощает работу с Hadoop. Если вы используете .NET, я написал blogpost http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html, где вы можете видеть, как выглядят данные, и если вы загружаете код из gidhub https://github.com/ryan-popa/Hadoop-Analysis, у вас уже есть методы синтаксического анализа строк.

Смежные вопросы