Я обрабатываю Dataset<Row>
в Apache Spark с помощью Java и должен выполнить пару математических преобразований по всем столбцам в этом наборе данных. В основном одно из преобразований - получить журнал всех значений, хранящихся в этом наборе данных, и все еще возвращать Dataset<Row>
. Я ясно вижу, как это сделать в функции map
в RDD, но как я могу это сделать в Dataset<Row>
?Применение преобразований в наборе данных Apache Spark
Контекст: Dataset<Row> old
содержит 2 колонки a
и b
. Я хочу, чтобы вернуть новый Dataset<Row> new
с обеими колоннами a = log(a)
и b = log(b)
Пожалуйста, объясните более подробно, что вы пытаетесь сделать, что вы делали до сих пор и т.д. Dataset имеет множество функций, которые могут быть использованы. –