第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

通過檢測(cè) NaN 出現(xiàn)的位置,通過其他列的數(shù)學(xué)運(yùn)算填充一列中的 NaN

通過檢測(cè) NaN 出現(xiàn)的位置,通過其他列的數(shù)學(xué)運(yùn)算填充一列中的 NaN

富國滬深 2021-11-16 16:41:02
我的數(shù)據(jù)框包含數(shù)百列。幸運(yùn)的是,它們可以分為具有常規(guī)列名的兩大組。第 1 組包含列 Pdc、Pdc.1、Pdc.2 .... Pdc.250。第 2 組由 Pac、Pac.1.、Pac.2 .... Pac.250 組成。請(qǐng)注意,每組的第一列不包含后綴編號(hào)。我想填充所有 NaN,無論它們?cè)谀睦铮褂靡韵乱?guī)則:第 1 組(目標(biāo)列和行)列的任何行中的 NaN 將用第 2 組中的列中的值以相同的順序填充(源列和行)乘以目標(biāo)列的平均值除以源列的平均值。為了簡(jiǎn)單起見,例如,如果 NaN 在 Pdc.25 第 10 行(第 1 組)中,則應(yīng)填充為:Pdc.25 第 10 行 = Pac.25 第 10 行 *(平均 Pdc.25 / 平均 Pac.25 )如果 NaN 在第 2 組中,則公式如下:Pac.30 row 15 = Pdc.30 row 15 * (mean Pac.30 / mean Pdc.30)我寫了以下代碼:df['Pdc.25'] = (df['Pdc.25'].fillna(df['Pac.25']*((df['Pdc.25'].mean()/df['Pac.25'].mean())))).to_frame()df['Pac.30'] = (df['Pac.30'].fillna(df['Pdc.30']*((df['Pac.30'].mean()/df['Pdc.30'].mean())))).to_frame()上面的代碼工作得很好,但是對(duì)于 500 列,我必須寫 500 行方程。知道如何使它變得簡(jiǎn)單,例如,通過自動(dòng)定位 NaN 并根據(jù)規(guī)則填充它們嗎?謝謝你看我的問題。
查看完整描述

1 回答

?
千巷貓影

TA貢獻(xiàn)1829條經(jīng)驗(yàn) 獲得超7個(gè)贊

.values根據(jù)您的命名約定,確保列已排序并用于對(duì)齊操作。可以.where用來填滿一切。如果您想在缺少列的情況下更安全(即您有 Pac.31 但沒有 Pdc.31),則映射操作的列名,以保證對(duì)齊。


import pandas as pd

#df = df.sort_index(axis=1)


pac = df.filter(like='Pac')

pdc = df.filter(like='Pdc')


df_res = pd.concat([pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values),

                    pdc.where(pdc.notnull(), pac.multiply(pdc.mean().div(pac.mean().values).values).values)

                    ], axis=1)

輸出df_res:

        Pac  Pac.1     Pac.2       Pdc     Pdc.1  Pdc.2

0  1.000000    6.0  3.000000  1.285714  4.952381    2.0

1  1.555556    1.0  2.000000  2.000000  2.000000    1.0

2  7.000000    6.0  3.714286  7.000000  4.952381    3.0

3  6.000000    7.0  5.000000  5.000000  5.000000    7.0

4  5.000000    2.0  3.714286  6.000000  1.650794    3.0

5  2.000000    7.0  4.000000  7.000000  5.000000    1.0

6  3.000000    4.0  3.000000  4.000000  1.000000    1.0

7  1.000000    5.0  3.000000  1.285714  7.000000    3.0

8  5.000000    5.0  6.000000  4.000000  5.000000    6.0

9  5.000000    2.0  3.714286  6.428571  1.000000    3.0

樣本數(shù)據(jù)

import numpy as np

df = pd.DataFrame(np.random.choice([1,2,3,4,5,6,7, np.NaN], (10,6)),

                  columns = ['Pdc', 'Pdc.1', 'Pdc.2', 'Pac', 'Pac.1', 'Pac.2'])


   Pdc  Pdc.1  Pdc.2  Pac  Pac.1  Pac.2

0  NaN    NaN    2.0  1.0    6.0    3.0

1  2.0    2.0    1.0  NaN    1.0    2.0

2  7.0    NaN    3.0  7.0    6.0    NaN

3  5.0    5.0    7.0  6.0    7.0    5.0

4  6.0    NaN    3.0  5.0    2.0    NaN

5  7.0    5.0    1.0  2.0    7.0    4.0

6  4.0    1.0    1.0  3.0    4.0    3.0

7  NaN    7.0    3.0  1.0    5.0    3.0

8  4.0    5.0    6.0  5.0    5.0    6.0

9  NaN    1.0    3.0  5.0    2.0    NaN

解釋:

第一步是對(duì)列進(jìn)行排序,然后過濾查找以字符串'Pac'或開頭的列'Pdc'。由于我們對(duì)索引進(jìn)行了排序,這保證了排序是一致的(只要組中的后綴集相同)


df = df.sort_index(axis=1)

pac = df.filter(like='Pac')

pdc = df.filter(like='Pdc')


print(pac.head(3))

#   Pac  Pac.1  Pac.2

#0  1.0    6.0    3.0

#1  NaN    1.0    2.0

#2  7.0    6.0    NaN


print(pdc.head(3))

#   Pdc  Pdc.1  Pdc.2

#0  NaN    NaN    2.0

#1  2.0    2.0    1.0

#2  7.0    NaN    3.0

現(xiàn)在我們可以做數(shù)學(xué)了。忽略.fillna邏輯,只考慮計(jì)算我們將為所有內(nèi)容填充的內(nèi)容。DataFrame操作對(duì)準(zhǔn)被指數(shù)(兩行和列)。您可以看到pac并pdc共享行索引,但列索引(列名稱)不同,這會(huì)導(dǎo)致問題:


pac.mean()

#Pac      3.888889

#Pac.1    4.500000

#Pac.2    3.714286

#dtype: float64


pdc.mean()

#Pdc      5.000000

#Pdc.1    3.714286

#Pdc.2    3.000000

#dtype: float64


pac.mean().div(pdc.mean())

#Pac     NaN

#Pac.1   NaN

#Pac.2   NaN

#Pdc     NaN

#Pdc.1   NaN

#Pdc.2   NaN

但是,因?yàn)槲覀冎斑M(jìn)行了排序,我們可以看到它們values是對(duì)齊的,所以我們安全地劃分每列意味著訪問值數(shù)組。這給出了每Pac列的平均值除以相應(yīng)Pdc列的平均值。


pac.mean().div(pdc.mean().values)

#Pac      0.777778

#Pac.1    1.211538

#Pac.2    1.238095

#dtype: float64

乘法有同樣的對(duì)齊問題,所以再次訪問這些值,現(xiàn)在這給了我們一個(gè)DataFrame與子集相同的形狀,如果值為空,我們應(yīng)該填充:


pdc.multiply(pac.mean().div(pdc.mean().values).values)

#        Pdc     Pdc.1     Pdc.2

#0       NaN       NaN  2.476190

#1  1.555556  2.423077  1.238095

#...

最后,fillna邏輯完成了,where因?yàn)槲覀冇袃蓚€(gè)DataFrames:


pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values)

可以理解為“在 pac 中使用不為空的值,否則使用計(jì)算中的值”,這正是我們想要的。我們?cè)俅涡枰L問.values'other'(第二個(gè)參數(shù))的 ,where因?yàn)榱忻俅尾煌?,但值是?duì)齊的。


分別為每個(gè)組執(zhí)行此操作,然后將它們重新加入。


查看完整回答
反對(duì) 回復(fù) 2021-11-16
  • 1 回答
  • 0 關(guān)注
  • 170 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)