Я проверил определение API distinct()
в documentation, он говоритКак использовать API-интерфейс Spark()?
Возвращает новый набор данных, который содержит различные элементы исходного набора данных.
Но каково правило для разделения исходного набора данных?
Предположим, что мой набор данных содержит 100 строк, и моя программа будет обрабатывать его по строкам, если я использую отдельный(), чтобы разделить мой набор данных, скажем 300 задач, будет ли результат отличаться от разбиения 100 задач?
Благодарим вас за ответ. Тогда что мне делать, чтобы разбить набор данных на приложение Spark и убедиться, что моя программа может работать одновременно? – fanhk
Кстати, в чем смысл параметра distinct()? кажется, называется «numPartition» – fanhk
@fanhk: для использования Spark вам понадобится [RDD] (http://spark.apache.org/docs/latest/programming-guide.html#resilient-distributed-datasets-rdds) и при использовании RDD вам не нужно самостоятельно настраивать параллелизм, он встроен. Я добавил ответы на другие вопросы в своем посте. –