2014-02-17 1 views
5

Я знаю, что можно использовать язык python над Hadoop.Возможно ли запустить алгоритмы Python scikit-learn над Hadoop?

Но можно ли использовать алгоритмы машинного обучения scikit-learn на Hadoop?

Если ответ отрицательный, есть ли какая-то компьютерная библиотека обучения для python и Hadoop?

Спасибо за вашу помощь.

ответ

2

Краткий ответ: ДА. Потому что вы можете запускать почти все на Hadoop.

Долгий ответ: зависит от. Ответьте на этот вопрос для начала:

  • Можете ли вы разделить свой набор данных на разделы?

Кроме того, вы можете найти презентация полезной (Hadoop начинается с 73-го слайда).

+0

ОК, поэтому, если я понимаю, мы обязаны написать собственный код карты/подтверждения. Существует некоторая библиотека High Level для прямого вызова алгоритмов машинного обучения для hadoop в python, правильно? –

+0

Нет, вы не можете написать какой-то общий код в python, а затем волшебным образом преобразовать его в масштабируемое задание MapReduce. Конечно, такой технологии нет. –

+0

@shanks_roux только что нашел его сегодня и подумал, что вам может быть интересно. ** [MLlib] (https://spark.incubator.apache.org/mllib/) ** является частью проекта Apache Spark, он позволяет вам разрабатывать ** алгоритмы машинного обучения ** в ** Python ** (lib взаимодействует с NumPy) и запускает их на ** Hadoop ** (или без него). Попробуйте. –

2

Остерегайтесь jpype модуля. Используя jpype, вы можете запускать алгоритмы Mahout, и вы будете писать код в Python. Однако я считаю, что это не лучшее решение. Если вам действительно нужна огромная масштабируемость, чем прямо с Mahout. Я тренируюсь, занимаюсь POC, решает проблемы с игрушками, используя scikit-learn, однако, когда мне нужно делать массивные большие кластеры данных и так далее, я иду в Mahout.

Смежные вопросы