Я хочу сделать некоторую предварительную обработку моих данных, и я хочу сбросить строки, которые являются разреженными (для некоторого порогового значения).Как удалить строки со слишком большим количеством значений NULL?
Например, у меня есть таблица данных данных с 10 функциями, и у меня есть строка с 8 нулевым значением, а затем я хочу ее сбросить.
Я нашел некоторые связанные темы, но я не могу найти полезную информацию для своей цели.
stackoverflow.com/questions/3473778/count-number-of-nulls-in-a-row
Примеры, как в ссылке выше, не будет работать для меня, потому что я хочу сделать, это предварительная обработка автоматически. Я не могу писать имена столбцов и делать что-то соответствующим образом.
Так или иначе, чтобы выполнить операцию удаления без использования имен столбцов в Apache Spark с scala?
Я могу сделать это без преобразования в RDD. Оставайтесь на линии. –