我有兩個(gè) RDD 有公共變量,其格式如下: x = sc.parallelize([("A", 1), ("B", 4),("A",2)]) y = sc.parallelize([("A", -1),("B", 5)])然后我想使用公共變量與他們分組。"A"和"B"。我嘗試使用以下命令: z = [(x, tuple(map(list, y))) for x, y in sorted(list(x.cogroup(y).collect()))] print(z)我得到的是[('A', ([1, 2], [-1])), ('B', ([4], [5]))]但是,我想要的是[('A', ([1], [-1])), ('B', ([4], [5])),('A', ([2], [-1]))]如何更改代碼以獲得如上所示的輸出?謝謝你。
如何在不聚合原始 RDD 分區(qū)的情況下與多個(gè) RDD 進(jìn)行分組?
函數(shù)式編程
2022-04-27 13:07:35