2011-02-04 4 views
13

Я студент-выпускник CS (Data mining и машинное обучение) и хорошо разбираюсь в ядре Java (> 4 года). Я прочитал кучу вещей на Hadoop и Map/ReduceHadoop Обучение машинам/идея проекта интеллектуального анализа данных?

Теперь я хотел бы сделать проект на этом материале (над моим свободным временем корса), чтобы лучше понять.

Любые хорошие проектные идеи были бы действительно оценены. Я просто хочу сделать это, чтобы учиться, поэтому я действительно не возражаю против изобретательства колеса. Кроме того, все, что связано с интеллектуальным анализом данных/машинным обучением, будет дополнительным бонусом (соответствует моему исследованию), но абсолютно не обязательно.

+0

Что вы подразумеваете под графом? Каковы ваши интересы, которые вы хотели бы изучить/построить/улучшить? У меня есть некоторые предложения, но я хочу, прежде всего, дождаться ваших личных полей интересов ... – Sam

+0

По графическому интеллектуальному анализу я имел в виду, что работал над задачами оптимизации на больших графиках (Flicker, DBLP), и в настоящее время я работаю над некоторым анализом графства в социальной сети, включая тему моделирование в данных Twitter, а также малые аппроксимации матричных рангов больших графов. В противном случае меня интересуют проблемы машинного обучения и проблем с интеллектуальным анализом данных. Однако для Hadoop я ищу любой нетривиальный, но не исследовательский проект, который я могу сделать в свое свободное время, чтобы лучше понять. – dreamer13134

ответ

8

Вы ничего не писали о ваших интересах. Я знаю, что алгоритмы в горном графике реализованы над картой hadoop. Это программное обеспечение http://www.cs.cmu.edu/~pegasus/ и документ: «PEGASUS: система гранулометрического графа - реализация и наблюдения» может дать вам отправную точку.

Далее, эта ссылка обсуждает что-то похожее на ваш вопрос: http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/, но это в python. И есть очень хорошая статья от Andrew Ng «Map-Reduce для машинного обучения на Multicore».

Была проведена мастерская NIPS 2009 по аналогичной теме «Изучение крупномасштабных машин: параллелизм и массивные наборы данных». Вы можете просмотреть часть бумаги и получить представление.

Edit: Также есть Apache Mahout http://mahout.apache.org/ -> «Наши основные алгоритмы кластеризации, classfication и партии на основе совместной фильтрации реализованы поверх Apache Hadoop с помощью карты/уменьшить парадигму»

+0

Большое спасибо за указатели. Я ценю это. – dreamer13134

+0

В основном я сосредоточен на машинном обучении, графообразующем материале в своих мастерах, и я хочу изучить хауоп в качестве дополнительного набора навыков. Я прошел через такие проекты, как Mahout, но я хотел бы что-то построить самостоятельно, чтобы получить более глубокое понимание, а также разработку крупномасштабного программного обеспечения. – dreamer13134

1

Почему вы не вклад в Apache Hadoop/Mahout, помогая им реализовать дополнительные алгоритмы?

https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms

Имеет ряд алгоритмов, помеченных как "открыть". Насколько я понимаю, они могли бы использовать помощь в их реализации? И есть сотни алгоритмов, даже отсутствующих в этом списке.

В любом случае, поскольку вы хотите что-то сделать с Hadoop, почему бы вам не ответить спросить их, что им нужно вместо того, чтобы спрашивать на каком-то случайном интернет-сайте?

0

Попытка представить эффективный способ реализации иерархического агломерационного кластеризации на Hadoop - хороший проект для работы. Он не только включает алгоритмические аспекты, но также имеет оптимизацию, связанную с основной картой.

Смежные вопросы