首頁猿問刪除相對于某些行重復(fù)的所有行

刪除相對于某些行重復(fù)的所有行

Python

有只小跳蛙 2021-05-07 10:19:03

我已經(jīng)看到了幾個類似的問題，但對我的情況卻不是令人滿意的答案。這是一個示例DataFrame：+------+-----+----+| id|value|type|+------+-----+----+|283924| 1.5| 0||283924| 1.5| 1||982384| 3.0| 0||982384| 3.0| 1||892383| 2.0| 0||892383| 2.5| 1|+------+-----+----+我只想通過"id"和"value"列來識別重復(fù)項，然后刪除所有實例。在這種情況下：第1行和第2行是重復(fù)的（同樣，我們忽略了“類型”列）第3行和第4行是重復(fù)的，因此僅應(yīng)保留第5行和第6行：輸出為：+------+-----+----+| id|value|type|+------+-----+----+|892383| 2.5| 1||892383| 2.0| 0|+------+-----+----+我試過了df.dropDuplicates(subset = ['id', 'value'], keep = False)但是“保持”功能不在PySpark中（因為它在中）pandas.DataFrame.drop_duplicates。我還能怎么做？

查看完整描述