首頁(yè) 猿問(wèn) 在一行而不是多行中獲取編碼的分類(lèi)變量

在一行而不是多行中獲取編碼的分類(lèi)變量

Python

慕田峪7331174 2023-07-18 15:20:13

我有與此類(lèi)似的原始數(shù)據(jù)框my_df = pd.DataFrame({'uid': [4, 3, 6, 4, 3, 6, 1],'days': ['D1', 'D3', 'D3', 'D4', 'D4', 'D2','D2']}) uid days0 4 D11 3 D32 6 D33 4 D44 3 D4我使用 get_dummies() 并獲得了這種編碼數(shù)據(jù)幀。my_new_df = pd.get_dummies(my_df ,columns=['days'])uid days_D1 days_D2 days_D3 days_D40 4 1 0 0 01 3 0 0 1 02 6 0 0 1 03 4 0 0 0 14 3 0 0 0 1我想要一個(gè)數(shù)據(jù)框，其中每個(gè) uid 的所有分類(lèi)值都編碼在一行中。像這樣uid D1 D2 D3 D44 1 0 0 13 0 0 1 16 0 1 1 01 0 1 0 0我曾嘗試尋找實(shí)現(xiàn)此結(jié)果的優(yōu)化方法，但我無(wú)法做到這一點(diǎn)。我的原始數(shù)據(jù)框中有 222000 個(gè)值。請(qǐng)建議獲取這樣的編碼分類(lèi)變量的方法

查看完整描述

3 回答

夢(mèng)里花落0921

TA貢獻(xiàn)1772條經(jīng)驗(yàn) 獲得超6個(gè)贊

您可以嘗試對(duì) 進(jìn)行分組，uid并在之后獲取其他列的最大值get_dummies

(pd.get_dummies(my_df ,columns=['days'],prefix='',prefix_sep='')

.groupby('uid',sort=False).max())

或者用pivot替代：

my_df.pivot_table(index="uid",columns="days",aggfunc='size',fill_value=0)

D1 D2 D3 D4

uid

4 1 0 0 1

3 0 0 1 1

6 0 1 1 0

1 0 1 0 0

反對(duì) 回復(fù) 2023-07-18

千萬(wàn)里不及你

TA貢獻(xiàn)1784條經(jīng)驗(yàn) 獲得超9個(gè)贊

您可以使用crosstab+ clip：

df = pd.crosstab(my_df['uid'], my_df['days']).clip(upper=1)

days D1 D2 D3 D4

uid

1 0 1 0 0

3 0 0 1 1

4 1 0 0 1

6 0 1 1 0

反對(duì) 回復(fù) 2023-07-18

手掌心

TA貢獻(xiàn)1942條經(jīng)驗(yàn) 獲得超3個(gè)贊

嘗試這個(gè)選項(xiàng)：

ss = pd.get_dummies(my_df, columns=['days']).groupby(['uid'], as_index=False).sum()

print(ss)

輸出：

uid days_D1 days_D2 days_D3 days_D4

0 1 0 1 0 0

1 3 0 0 1 1

2 4 1 0 0 1

3 6 0 1 1 0

反對(duì) 回復(fù) 2023-07-18

3 回答
0 關(guān)注
174 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書(shū)簽

微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

在一行而不是多行中獲取編碼的分類(lèi)變量

在一行而不是多行中獲取編碼的分類(lèi)變量

3 回答

添加回答