我已經(jīng)看到了幾個類似的問題,但對我的情況卻不是令人滿意的答案。這是一個示例DataFrame:+------+-----+----+| id|value|type|+------+-----+----+|283924| 1.5| 0||283924| 1.5| 1||982384| 3.0| 0||982384| 3.0| 1||892383| 2.0| 0||892383| 2.5| 1|+------+-----+----+我只想通過"id"和"value"列來識別重復(fù)項,然后刪除所有實例。在這種情況下:第1行和第2行是重復(fù)的(同樣,我們忽略了“類型”列)第3行和第4行是重復(fù)的,因此僅應(yīng)保留第5行和第6行:輸出為:+------+-----+----+| id|value|type|+------+-----+----+|892383| 2.5| 1||892383| 2.0| 0|+------+-----+----+我試過了df.dropDuplicates(subset = ['id', 'value'], keep = False)但是“保持”功能不在PySpark中(因為它在中)pandas.DataFrame.drop_duplicates。我還能怎么做?
添加回答
舉報
0/150
提交
取消