2015-01-03 4 views
0

Я изучал платформу машинного обучения H20 и пытался выяснить, использует ли ее R с R, чтобы обрабатывать действительно большие данные (>> доступная оперативная память на ноутбуке) или если это все еще связаны объемом ОЗУ? Я думаю, что, поскольку это «в памяти», это означает, что для этого по-прежнему требуется очень большой объем оперативной памяти или серверных кластеров? У кого-нибудь есть опыт с этим?H2O с R: Требование к памяти

ответ

4

Да, h20 - in-memory architecture и, следовательно, ограничен физической памятью. Они поддерживают около 15 различных схем сжатия под капотом, включая устройства, предназначенные для сжатия разреженных данных.

Говорят, что потоковая поддержка «включена в дорожную карту, но еще не реализована».

Если ваш набор данных не подходит, и вы не можете более эффективно сжимать или кодировать свои типы данных (коэффициент, логический, разделение на диапазоны, препроцессирование текста), тогда вам понадобится большой кластер или большое облако пример.

Кроме того, FYI support for R только подмножество:

примечание на R: H2O поддерживает R-подобный язык - не полная семантика R - но аспекты данных-munging очевидно данных Параллельное из R, и , все операторы работают полностью параллельно и распределены. Существует a REPL. Вы можете использовать его для добавления или удаления столбцов или строк, создания функций, припущения отсутствующих значений или ввода многих R-выражений и их запустить в масштабе.

Так, например, используйте, по возможности, их Предварительно запеченные алгоритмы (высокопроизводительная собственная реализация Java), а не общий алгоритм R-кода.

Является ли ваша потребность в прототипировании или производстве? Вы можете спросить, есть ли у них какие-либо ссылочные заказчики в производстве на R-H2O.