我有一個(gè)分類任務(wù),這意味著沖突會(huì)損害性能,即相同的功能但不同的標(biāo)簽。idx feature label 0 a 0 1 a 1 2 b 0 3 c 1 4 a 0 5 b 0我怎樣才能獲得如下所示的格式化數(shù)據(jù)框?idx feature label 2 b 0 3 c 1 5 b 0 Dataframe.duplicated()只輸出重復(fù)的行,看來之間的邏輯運(yùn)算df["features"].duplicated()并df.duplicated()沒有返回我想要的結(jié)果。
1 回答

30秒到達(dá)戰(zhàn)場(chǎng)
TA貢獻(xiàn)1828條經(jīng)驗(yàn) 獲得超6個(gè)贊
我認(rèn)為您需要每組只有一個(gè)唯一值的行 - 因此使用GroupBy.transform
with?DataFrameGroupBy.nunique
、比較依據(jù)1
和 過濾boolean indexing
:
df = df[df.groupby('feature')['label'].transform('nunique').eq(1)]
print (df)
? ?idx feature? label
2? ? 2? ? ? ?b? ? ? 0
3? ? 3? ? ? ?c? ? ? 1
5? ? 5? ? ? ?b? ? ? 0
添加回答
舉報(bào)
0/150
提交
取消