首頁猿問 df.duplicated（）誤報？

df.duplicated（）誤報？

Python

胡子哥哥 2021-03-29 08:36:43

我有一個數據框，其中包含具有3級MultiIndex的2,865,044個條目MultiIndex.levels.names = ['year', 'country', 'productcode']我試圖重塑數據框以生成寬數據框，但出現錯誤：ReshapeError: Index contains duplicate entries, cannot reshape我用過：data[data.duplicated()]來識別導致錯誤的行，但是它列出的數據似乎不包含任何重復項。這導致我使用to_csv（）導出數據框并在Stata中打開數據，并使用重復列表命令查找不包含重復項的數據集（根據stata）。來自已排序的csv文件的示例：year country productcode duplicate1962 MYS 711 FALSE1962 MYS 712 TRUE1962 MYS 721 FALSE我知道這是一個漫長的過程，但是想法可能是什么原因造成的？每個索引列中的數據類型為['year'：int; 'country'：str，'productcode'：str]。熊貓會如何定義獨特的群體？有什么更好的方法列出有問題的索引行嗎？更新：我已經嘗試過重置索引temp = data.reset_index()dup = temp[temp.duplicated(cols=['year', 'country', 'productcode'])]我得到一個完全不同的清單！year country productcode1994 HKG 97101994 USA 97101995 HKG 97101995 USA 9710在我的IPython會話期間，這似乎是一個奇怪的內存問題。今天早上的新實例似乎可以正常工作，并且無需對昨天的代碼進行任何調整即可重塑數據！如果問題再次出現，我會進一步調試，并告知您。任何人都知道IPython會話的良好調試器嗎？

查看完整描述