Я изучал платформу машинного обучения H20 и пытался выяснить, использует ли ее R с R, чтобы обрабатывать действительно большие данные (>> доступная оперативная память на ноутбуке) или если это все еще связаны объемом ОЗУ? Я думаю, что, поскольку это «в памяти», это означает, что для этого по-прежнему требуется очень большой объем оперативной памяти или серверных кластеров? У кого-нибудь есть опыт с этим?H2O с R: Требование к памяти
ответ
Да, h20 - in-memory architecture и, следовательно, ограничен физической памятью. Они поддерживают около 15 различных схем сжатия под капотом, включая устройства, предназначенные для сжатия разреженных данных.
Говорят, что потоковая поддержка «включена в дорожную карту, но еще не реализована».
Если ваш набор данных не подходит, и вы не можете более эффективно сжимать или кодировать свои типы данных (коэффициент, логический, разделение на диапазоны, препроцессирование текста), тогда вам понадобится большой кластер или большое облако пример.
Кроме того, FYI support for R только подмножество:
примечание на R: H2O поддерживает R-подобный язык - не полная семантика R - но аспекты данных-munging очевидно данных Параллельное из R, и , все операторы работают полностью параллельно и распределены. Существует a REPL. Вы можете использовать его для добавления или удаления столбцов или строк, создания функций, припущения отсутствующих значений или ввода многих R-выражений и их запустить в масштабе.
Так, например, используйте, по возможности, их Предварительно запеченные алгоритмы (высокопроизводительная собственная реализация Java), а не общий алгоритм R-кода.
Является ли ваша потребность в прототипировании или производстве? Вы можете спросить, есть ли у них какие-либо ссылочные заказчики в производстве на R-H2O.