Я читал H2OFrame
из файла CSV:Как фильтровать строки в H2OFrame (scala) на основе значения столбца?
val h2oFrame = new H2OFrame(new File(inputCsvFilePath))
Как я могу выполнить эквивалент .filter()
операции (как для Спарк DataFrame
или RDD
). Например, как мне получить новый H2OFrame
, где «label» (который является именем столбца) является >1
?
Я попытался преобразования в org.apache.spark.sql.DataFrame
, как показано ниже (упрощенный пример):
val df = asDataFrame(h2oFrame)
val dff = df.filter(s"label > 1")
print(dff.toString(0,15))
Но это, кажется, бросить OutOfMemoryError
, как показано ниже:
Исключение: java.lang.OutOfMemoryError выброшен из UncaughtExceptionHandler в потоке «Оператор запуска-работника-2»
Хорошо, выглядит как 'OutOfMemoryError' может быть решена за счет увеличения' -XX: MaxPermSize = 92m' к чему-то высшему. По-прежнему хотелось бы ответить на исходный вопрос о том, как это сделать непосредственно на «H2OFrame». –