首頁(yè) 猿問(wèn) Python Pandas...

Python Pandas 是否有辦法指定一個(gè)列來(lái)計(jì)算值組合的每次出現(xiàn)？

Python

POPMUISE 2023-04-18 15:32:07

我有一個(gè)包含 22 列的 Pandas 數(shù)據(jù)框，用于處理建筑評(píng)估，但是，我只關(guān)注兩個(gè)特定的列。這兩列是數(shù)字建筑物 ID 和評(píng)估階段，指示相應(yīng)建筑物 ID 處于哪個(gè)階段?；旧?，我想做的是計(jì)算這兩列中值組合的出現(xiàn)次數(shù)，并將這些計(jì)數(shù)存儲(chǔ)在序數(shù)列。詳情如下： Building ID | Assessment Phase----------------------------------- 001 Phase 1 002 Phase 2 002 Phase 2 003 Phase 3 003 Phase 2 003 Phase 3 004 Unk 004 Phase 1 005 Phase 2您會(huì)注意到有重復(fù)的 ID 和看起來(lái)相同的評(píng)估。我想要按建筑物 ID 和評(píng)估階段分組的每個(gè)類(lèi)似事件的累積行數(shù)。它應(yīng)該看起來(lái)像這樣： Building ID | Assessment Phase | Bldg_Phs_Ord-------------------------------------------------- 001 Phase 1 1 002 Phase 2 1 002 Phase 2 2 003 Phase 3 1 003 Phase 3 2 003 Phase 3 3 004 Unk 1 004 Phase 1 1 005 Phase 2 1可以看出，每個(gè)組合都有單獨(dú)的計(jì)數(shù)。一些組合重復(fù)幾次，其中每個(gè)后續(xù)組合都放在自己的行中。我嘗試過(guò)的是測(cè)試它是否正確輸出：test_cnt = bldg_df.groupby(['Building ID', 'Assessment Phase']).size().to_frame('COUNT').sort_values(by=['Building ID']).reset_index()不幸的是，只要存在不止一個(gè)重復(fù)組合，這就會(huì)將這些組合聚合在一起。 Building ID | Assessment Phase | COUNT-------------------------------------------------- 001 Phase 1 1 002 Phase 2 2 003 Phase 3 3 004 Unk 1 004 Phase 1 1 005 Phase 2 1我應(yīng)該添加什么以便它返回每個(gè)單獨(dú)的累積行數(shù)？

查看完整描述

3 回答

慕娘9325324

TA貢獻(xiàn)1783條經(jīng)驗(yàn) 獲得超5個(gè)贊

IIUC 您正在尋找cumcount：

df["count"] = df.groupby(['Building ID', 'Assessment Phase']).cumcount()+1

print (df)

Building ID Assessment Phase count

0 1 Phase 1 1

1 2 Phase 2 1

2 2 Phase 2 2

3 3 Phase 3 1

4 3 Phase 3 2

5 3 Phase 3 3

6 4 Unk 1

7 4 Phase 1 1

8 5 Phase 2 1

反對(duì) 回復(fù) 2023-04-18

慕碼人8056858

TA貢獻(xiàn)1803條經(jīng)驗(yàn) 獲得超6個(gè)贊

首先，創(chuàng)建數(shù)據(jù)框：

from io import StringIO

import pandas as pd

data = ''' Building ID Assessment Phase

001 Phase 1

002 Phase 2

003 Phase 3

003 Phase 2

003 Phase 3

004 Unk

004 Phase 1

005 Phase 2

df = pd.read_csv(StringIO(data), sep='\s\s+', engine='python')

'''

其次，創(chuàng)建一個(gè)名為“計(jì)數(shù)器”的輔助列（0 表示未知評(píng)估階段，否則為 1）：

df['counter'] = 1

mask = df['Assessment Phase'] == 'Unk'

df.loc[mask, 'counter'] = 0

第三，按建筑物ID分組，并將cumsum（累積和）函數(shù)應(yīng)用于計(jì)數(shù)器列。然后手動(dòng)更新“未知”行。

df['Bldg_Phs_Ord'] = df.groupby('Building ID')['counter'].cumsum()

df.loc[mask, 'Bldg_Phs_Ord'] = 1

print(df)

Building ID Assessment Phase counter Bldg_Phs_Ord

0 1 Phase 1 1 1

1 2 Phase 2 1 1

2 2 Phase 2 1 2

3 3 Phase 3 1 1

4 3 Phase 2 1 2

5 3 Phase 3 1 3

6 4 Unk 0 1

7 4 Phase 1 1 1

8 5 Phase 2 1 1

我不知道如何避免對(duì)“Unk”評(píng)估階段的特殊處理。并且cumsum()對(duì)數(shù)據(jù)框的初始順序敏感。

反對(duì) 回復(fù) 2023-04-18

青春有我

TA貢獻(xiàn)1784條經(jīng)驗(yàn) 獲得超8個(gè)贊

假設(shè)df是您的輸入數(shù)據(jù)框，請(qǐng)嘗試：

df['COUNT'] = df.groupby(['Building ID', 'Assessment Phase']).cumcount().add(1)

cumcount不會(huì)減少行數(shù)。

反對(duì) 回復(fù) 2023-04-18

3 回答
0 關(guān)注
283 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書(shū)簽

微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Python Pandas 是否有辦法指定一個(gè)列來(lái)計(jì)算值組合的每次出現(xiàn)？

Python Pandas 是否有辦法指定一個(gè)列來(lái)計(jì)算值組合的每次出現(xiàn)？

3 回答

添加回答