2 回答

TA貢獻(xiàn)1995條經(jīng)驗(yàn) 獲得超2個(gè)贊
這是因?yàn)槟鷤鬟f的分組參數(shù)無(wú)法將數(shù)據(jù)幀切成所需的部分。所以它只是復(fù)制整個(gè)數(shù)據(jù)框并將其“壓縮”到您傳遞的分組數(shù)組中。一個(gè)例子 -
a = pd.DataFrame([[True,False,False],[False,True,False]], columns=['A','B','C'])
c = a.groupby([True,False])
print('length of grouper object:',len(c))
print(' ')
print(list(c)[0])
print(' ')
print(list(c)[1])
length of grouper object: 2
(False, A B C
1 False True False)
(True, A B C
0 True False False)
請(qǐng)注意,使用分組數(shù)組 [False, True],它只是將整個(gè)數(shù)據(jù)幀 a 與每個(gè)壓縮在一起。如果您改為傳遞它可以在軸 1 中找到的內(nèi)容,它將考慮將該系列中的項(xiàng)目用于對(duì)數(shù)據(jù)集進(jìn)行分組。
另一種看待它的方法是,分組參數(shù)需要是一個(gè)帶有名稱(chēng)的系列,并且該名稱(chēng)應(yīng)該在數(shù)據(jù)框的列中找到。如果你傳遞一個(gè)數(shù)組 [True, False],它基本上被解釋為一個(gè)無(wú)名系列,因此無(wú)法獲得它的鍵來(lái)進(jìn)行拆分。
如果你想了解 groupby 的工作原理,下面是一個(gè)很好的圖像 -
拆分發(fā)生在提供的鍵上,并且該鍵需要在索引/列中可引用,否則它無(wú)法拆分并簡(jiǎn)單地返回每個(gè)組的未拆分?jǐn)?shù)據(jù)幀。第一步是石斑魚(yú)所做的,接下來(lái)是應(yīng)用和組合步驟,這些步驟很簡(jiǎn)單。在您上面看到的元組(打印輸出)中,apply 函數(shù)對(duì)t[1]
每個(gè)元組的元素進(jìn)行操作,然后將其與t[0]
每個(gè)元組的元素組合并垂直連接。

TA貢獻(xiàn)1777條經(jīng)驗(yàn) 獲得超3個(gè)贊
讓我們分解一下
.groubpy().apply(pd.DataFrame)
正如您在所有變體中使用的那樣,從每個(gè)組中獲取行并創(chuàng)建一個(gè)數(shù)據(jù)框,該數(shù)據(jù)框基本上返回self
,因此輸出看起來(lái)相同,但 pandas 到達(dá)那里的方式在每種情況下都不同
b=a.groupby([False,False])
:兩行屬于同一個(gè)組(group_idFalse
),一起解析一次形成相同的dfc=a.groupby([True,False])
:有兩組,每組一行。Apply 獲取每個(gè)組并構(gòu)建兩個(gè)單獨(dú)的 DataFrame(每個(gè)組一個(gè))。然后連接并返回與原始相同的 dfd=a.groupby([False,True])
: 與 #2 相同,但現(xiàn)在第一行屬于 groupFalse
。如果您聚合或應(yīng)用了不同的函數(shù)(pandas.DataFrame 除外),您會(huì)看到 df 作為True, False
索引(默認(rèn)情況下按 groupby 排序)并且第 1 行將顯示為第一行,因?yàn)樗鼘儆诮MTrue
添加回答
舉報(bào)