Does UpdateStateByKey в Spark перетасовывает данные через

Я новичок в Spark, и я хотел бы понять, нужно ли мне агрегировать данные DStream по ключу до вызова updateStateByKey?Does UpdateStateByKey в Spark перетасовывает данные через

Мое приложение в основном подсчитывает количество слов в каждом втором используя Спарк Потоковых, где я выполнить несколько карт операций перед выполнением государства полного обновления следующим образом,

val words = inputDstream.flatMap(x => x.split(" ")) 
val wordDstream = words.map(x => (x, 1)) 
val stateDstream = wordDstream.updateStateByKey(UpdateFunc _) 
stateDstream.print()

Say после второй операции на карте, то же самый ключи (слова) могут присутствовать на рабочих узлах из-за разных разделов. Поэтому я предполагаю, что метод updateStateByKey внутренне перемещает и агрегирует значения ключей как Seq [Int] и вызывает updateFunc. Правильно ли мое предположение?

источник

2015-06-07 Sathish

Правильно: как вы можете видеть в сигнатуре метода, он принимает необязательный аргумент partitionNum/Partitioner, который обозначает количество редукторов, то есть государственных обновлений. Это приводит к тасованию.

Кроме того, я предлагаю, чтобы явно поставить число там в противном случае искры может значительно уменьшить параллелизм вашего задания, пытаясь выполнить задачи на местном уровне относительно расположения блоков блокпоста HDFS файлов

источник

2015-06-09 01:33:34 alexandrosB

Спасибо alexandrosB !! – Sathish

updateStateByKey() не перетасовать состояние, а новые данные приводятся к узлам, содержащим состояние для одного и того же ключа.

Ссылка на ответ Tathagat на подобный вопрос: https://www.mail-archive.com/[email protected]/msg43512.html

источник

2016-01-06 14:21:21 Soumitra

Does UpdateStateByKey в Spark перетасовывает данные через

ответ

Смежные вопросы