Я пытаюсь решить следующую проблему, используя pyspark. У меня есть файл на hdfs в формате, который является дампом таблицы поиска.Создание большого словаря в pyspark
key1, value1
key2, value2
...
Я хочу загрузить это в словарь python в pyspark и использовать его для других целей. Поэтому я пытался:
table = {}
def populateDict(line):
(k,v) = line.split(",", 1)
table[k] = v
kvfile = sc.textFile("pathtofile")
kvfile.foreach(populateDict)
Я обнаружил, что переменная таблицы не изменяется. Итак, есть ли способ создать большую искупительную хэш-таблицу в искры?
Прохладный спасибо. Означает ли это, что карта должна соответствовать памяти водителя? Или он все еще распространяется? – Kamal
@ Камаль, да, он должен соответствовать в мп. U может использовать пару rdd в качестве таблицы поиска. Также подумал о решении с аккумулируемым, скоро опубликует – aaronman
Хорошо. Я искал распределенную карту в искры. Похоже, это невозможно! – Kamal