Мы учащиеся, которые пытаются обрабатывать данные размером около 140 миллионов записей и пытаются запустить несколько алгоритмов машинного обучения. мы новичок во всех облачных решениях и реализациях mahout. В настоящее время мы установили их в базе данных postgresql, но текущая реализация не масштабируется, и операции чтения/записи, кажется, очень медленны после многочисленных настроек производительности. Мы планируем для облачных сервисов.Amazon EC2 vs PiCloud
Мы изучили несколько возможных альтернатив. услуги
- Amazon облако основе (реализация Mahout)
- Picloud с scikits учиться (мы планировали использовать формат hdf5 с NumPy)
- Пожалуйста, порекомендуйте какие-либо другие варианты если таковые имеются.
Вот следующие вопросы
- Какой бы дают нам лучшие результаты (поворот вокруг времени) и будет экономически эффективным? Пожалуйста, упомяните о любых других альтернативах.
- В случае, если мы настроим услуги amazon, как мы должны иметь формат данных? Если мы будем использовать dynamodb, будет стоить взлететь?
Благодаря
Можете ли вы прокомментировать PiCloud (Hdf5 с Scikit) VS AWS. –
нет, я не знаком с PiCloud. – ObscureRobot