我有一個數據框,其中包含具有3級MultiIndex的2,865,044個條目MultiIndex.levels.names = ['year', 'country', 'productcode']我試圖重塑數據框以生成寬數據框,但出現錯誤:ReshapeError: Index contains duplicate entries, cannot reshape我用過:data[data.duplicated()]來識別導致錯誤的行,但是它列出的數據似乎不包含任何重復項。這導致我使用to_csv()導出數據框并在Stata中打開數據,并使用重復列表命令查找不包含重復項的數據集(根據stata)。來自已排序的csv文件的示例:year country productcode duplicate1962 MYS 711 FALSE1962 MYS 712 TRUE1962 MYS 721 FALSE我知道這是一個漫長的過程,但是想法可能是什么原因造成的?每個索引列中的數據類型為['year':int; 'country':str,'productcode':str]。熊貓會如何定義獨特的群體?有什么更好的方法列出有問題的索引行嗎?更新: 我已經嘗試過重置索引temp = data.reset_index()dup = temp[temp.duplicated(cols=['year', 'country', 'productcode'])]我得到一個完全不同的清單!year country productcode1994 HKG 97101994 USA 97101995 HKG 97101995 USA 9710在我的IPython會話期間,這似乎是一個奇怪的內存問題。今天早上的新實例似乎可以正常工作,并且無需對昨天的代碼進行任何調整即可重塑數據!如果問題再次出現,我會進一步調試,并告知您。任何人都知道IPython會話的良好調試器嗎?
添加回答
舉報
0/150
提交
取消