2012-01-16 2 views

ответ

5

Насколько я знаю, MapR является только «более быстрым» Hadoop. Алгоритмов нет.

Таким образом, ваши рабочие места должны быть совместимы.

Но какова сделка в реализации собственной? K-средство ультра просто. Смотрите мой блог: http://codingwiththomas.blogspot.com/2011/05/k-means-clustering-with-mapreduce.html

Однако я реализовал к-средства кластеризации с BSP (Bulk Synchronous Parallel) и Apache Хама, который почти в десять раз быстрее, если сравнивать его с результатами тестов Mahout в этой книге: http://www.manning.com/ingersoll/ (сопряженный JIRA: https://issues.apache.org/jira/browse/MAHOUT-588) Вот эталоном к- средств с Apache Хама: http://wiki.apache.org/hama/Benchmarks

Вы можете найти здесь: https://github.com/thomasjungblut/thomasjungblut-common/blob/master/src/de/jungblut/clustering/KMeansBSP.java

+0

Ууу! Я посмотрю на эти ссылки! Спасибо .... –

+0

MapR - это не просто быстрый Hadoop. Он также включает в себя все стандартные компоненты экосистемы. Сюда входит Mahout. –

+1

Вы, безусловно, правы, что реализация Hadoop с уменьшением карты не подходит для итеративных алгоритмов, таких как традиционные k-средства, используя алгоритм Ллойда. Существует открытый JIRA, который позволит проводить однопроходный анализ k-средних. Будучи однопроходным, этот алгоритм не требует многократных проходов через данные, а также не требует множественных вызовов сокращения карты для работы. Ускорения должны быть сопоставимы с тем, что описывает Томас. –

Смежные вопросы