У меня есть некоторые проблемы с subtractByKey.Spark: subtractByKey issue (pyspark)
У меня есть 2 файла: Первый один, как: (Client ID + почтовый клиент)
client_id emails
4A85FD8E-197D-2AE3-B939-A527AFF16A04 [email protected]***tur.com
D48D530C-CF68-DAF1-18F0-E0A0A03F3E06 [email protected]***ncus.net:[email protected]****m.ca
40815230-25DC-9EA0-01D1-2706B4B56958 [email protected]****nc.net
...
и второй один: (только почта)
[email protected]****s.com
[email protected]****m.org
[email protected]****e.edu
....
Некоторые строки в первом файле могут иметь 2 (или более) почты в этом формате:
mail:mail
Что я сделал:
*test1=sc.textFile("file1")
*test2=sc.textFile("file2")
*test3=test1.subtractByKey(test2)
и результат ...:
[(u'A', u'B'), (u'A', u'D'), (u'A', u'1'), (u'A', u'D'), (u'A', u'D'), (u'A', u'B'), (u'A', u'F'), (u'A', u'E'), (u'A', u'9'), (u'A', u'5'), (u'A', u'9'), (u'A', u'6'), (u'c', u'l'), (u'E', u'8'), (u'E', u'4'), (u'E', u'6'), (u'E', u'6'), (u'E', u'7'), (u'E', u'5'), (u'E', u'5'), (u'E', u'5'), (u'E', u'2'), (u'E', u'8'), (u'C', u'2'), (u'C', u'5'), (u'C', u'6'), (u'C', u'C'), (u'C', u'E'), (u'C', u'3'), (u'C', u'F'), (u'C', u'4'), (u'C', u'B'), (u'C', u'F'), (u'C', u'F'), (u'C', u'8'), (u'C', u'0'), (u'1', u'D'), (u'1', u'2'), (u'1', u'3'), (u'1', u'8'), (u'1', u'0'), (u'1', u'F'), ... ]
Я хотел удалить клиентов в первом файле, который имел свою почту во втором файле, но это не работает.
Вы должны отредактировать свой вопрос в формате 'code', потому что я вижу довольно запутанный – armnotstrong
в нем нет кода ... кроме 3 строк, которые находятся в формате кода. – Ezay
это первый файл, который может содержать несколько электронных писем, не так ли? – armnotstrong