2010-08-04 3 views
4

Я столкнулся с настоящей проблемой. Мне нужно сделать кластер Kmeans для 5 миллионов векторов, каждый из которых содержит около 32 колос. Я пробовал Mahout, который требует Linux, и я нахожусь в окнах, я сдерживаюсь от использования ОС Linux и любого вида симулятора.KMeans кластеризация для более чем 5 миллионов векторов

Может ли кто-нибудь предложить алгоритм кластеризации KMeans, который масштабируется до 5M векторов и может сходиться быстро?

Я проверил несколько, но они не будут масштабироваться. Это означает, что они медленны и навсегда завершаются.

Благодаря

+0

, сколько кластеров? Евклидова или индивидуальная метрика? – denis

+0

Euclidean clusters – 2012-02-27 18:36:21

ответ

2

ОК, так что кто-либо хочет кластеризацию для крупных наборов данных, единственный способ сделать это состоит в использовании Mahout. Для ИТ требуется платформа Linux. Поэтому мне пришлось использовать виртуальную коробку, поместить Ubuntu на нее, а затем использовать Mahout. Его длинная процедура для настройки Mahout, но две ссылки, которые я использовал, следующие.

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster)

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster)

+0

Ссылки больше не верны, но вы можете легко найти эти руководства с помощью google. –

+0

Конечная скобка должна быть частью URL-адреса. Выше вы можете видеть, что в настоящее время он не подсвечивается как часть URL-адреса. Добавьте его, когда URL-адрес в вашем браузере и переведет вас на страницу – 2010-11-03 07:04:25

Смежные вопросы