首頁猿問如何在 pyspark...

如何在 pyspark 數(shù)據(jù)框中使用 write.partitionBy 時刪除重復項？

Python

慕桂英3389331 2023-10-18 20:39:56

我有一個數(shù)據(jù)框，如下所示：|------------|-----------|---------------|---------------|| Name | Type | Attribute 1 | Attribute 2 ||------------|-----------|---------------|---------------|| Roger | A | X | Y ||------------|-----------|---------------|---------------|| Roger | A | X | Y ||------------|-----------|---------------|---------------|| Roger | A | X | Y ||------------|-----------|---------------|---------------|| Rafael | A | G | H ||------------|-----------|---------------|---------------|| Rafael | A | G | H ||------------|-----------|---------------|---------------|| Rafael | B | G | H ||------------|-----------|---------------|---------------|我想根據(jù)名稱和類型對此數(shù)據(jù)框進行分區(qū)并將其保存到磁盤目前的代碼行看起來像這樣，df.write.partitionBy("Name", "Type").mode("append").csv("output/", header=True)輸出被正確保存，但有重復的行，如下所述在文件夾中/輸出/羅杰/A|---------------|---------------|| Attribute 1 | Attribute 2 ||---------------|---------------|| X | Y ||---------------|---------------|| X | Y ||---------------|---------------|| X | Y ||---------------|---------------|/輸出/拉斐爾/A|---------------|---------------|| Attribute 1 | Attribute 2 ||---------------|---------------|| G | H ||---------------|---------------|| G | H ||---------------|---------------|/輸出/拉斐爾/B|---------------|---------------|| Attribute 1 | Attribute 2 ||---------------|---------------|| G | H ||---------------|---------------| 如您所見，此 csv 包含重復項。使用 write.partitionbY 時如何刪除這些重復項？

查看完整描述

1 回答

狐的傳說

TA貢獻1804條經(jīng)驗獲得超3個贊

.distinct()寫作前使用。

df.distinct().write.partitionBy("Name", "Type").mode("append").csv("output/", header=True)

反對回復 2023-10-18

1 回答
0 關(guān)注
152 瀏覽

關(guān)注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

如何在 pyspark 數(shù)據(jù)框中使用 write.partitionBy 時刪除重復項？

如何在 pyspark 數(shù)據(jù)框中使用 write.partitionBy 時刪除重復項？

1 回答

添加回答