1 回答

TA貢獻1834條經驗 獲得超8個贊
第一個循環(huán)解決方案是迭代每一行,通過 DataFrame 進行比較sum:
df = df.apply(lambda x: df.ne(x).sum(axis=1), axis=1)
print (df)
A B C
A 0 2 3
B 2 0 4
C 3 4 0
或者為了提高性能,將 numpy 中的值與 3d 數(shù)組的廣播進行比較,sum 和 last 使用 DataFrame 構造函數(shù):
a = df.to_numpy()
out = pd.DataFrame((a != a[:, None]).sum(2), index=df.index, columns=df.index)
print (out)
A B C
A 0 2 3
B 2 0 4
C 3 4 0
np.random.seed(123)
df = pd.DataFrame( np.random.randint(20, size=(100, 500)))
print (df)
In [119]: %%timeit
...: df.apply(lambda x: df.ne(x).sum(axis=1), axis=1)
...:
...:
12.8 s ± 1.02 s per loop (mean ± std. dev. of 7 runs, 1 loop each)
In [120]: %%timeit
...: a = df.to_numpy()
...: pd.DataFrame((a != a[:, None]).sum(2), index=df.index, columns=df.index)
...:
...:
14.6 ms ± 325 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
添加回答
舉報