第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問(wèn)題,去搜搜看,總會(huì)有你想問(wèn)的

查找缺失的天數(shù)和分組

查找缺失的天數(shù)和分組

慕萊塢森 2023-12-12 21:46:54
我有一個(gè)看起來(lái)像這樣的數(shù)據(jù)框            dt user  0   2016-01-01    a    1   2016-01-02    a   2   2016-01-03    a    3   2016-01-04    a    4   2016-01-05    a    5   2016-01-06    a    6   2016-01-01    b    7   2016-01-02    b    8   2016-01-03    b    9   2016-01-04    b    10  2016-01-05    b    11  2016-01-06    b    12  2016-01-07    b 13  2015-12-31    c    14   2016-01-01   c    15   2016-01-02   c    16   2016-01-03   c    17   2016-01-04   c    18  2016-01-05    c    19  2016-01-06    c    20  2016-01-07    c 21  2016-01-08    c    22  2016-01-09    c23  2016-01-10    c  我想找到每個(gè)用戶丟失的日期。對(duì)于日期范圍,最小日期為2015-12-31 ,最大日期為2016-01-10。結(jié)果如下:   user     missing_days    a          5    b          4    c          0
查看完整描述

4 回答

?
慕村225694

TA貢獻(xiàn)1880條經(jīng)驗(yàn) 獲得超4個(gè)贊

用于isin檢查每組的日期范圍user以及agg.sum每組返回的布爾掩碼


df['dt'] = pd.to_datetime(df['dt']) #if `dt` columns already in datetime dtype, ignore this

check_dates = pd.date_range('2015-12-31', '2016-01-10', freq='D')

s =  df.groupby('user').dt.agg(lambda x: (~check_dates.isin(x)).sum())


Out[920]:

user

a    5

b    4

c    0

Name: dt, dtype: int64


查看完整回答
反對(duì) 回復(fù) 2023-12-12
?
飲歌長(zhǎng)嘯

TA貢獻(xiàn)1951條經(jīng)驗(yàn) 獲得超3個(gè)贊

### Convert your dates to datetime

df['dt'] = pd.to_datetime(df['dt'], infer_datetime_format=True)

### Create the list of dates per user

user_days = df.groupby('user')['dt'].apply(list)


### Initialize the final dataframe

df_miss_dates = pd.DataFrame(user_days)


all_dates = pd.date_range('2015-12-31', '2016-01-10', freq='D')

### Find the number of missing dates per user

df_miss_dates['missing_days'] = df_miss_dates['dt'].apply(lambda x: len(set(all_dates) - set(x)))

df_miss_dates.drop(columns='dt', inplace=True)

print(df_miss_dates)

輸出:


      missing_days

user              

a                5

b                4

c                0


查看完整回答
反對(duì) 回復(fù) 2023-12-12
?
天涯盡頭無(wú)女友

TA貢獻(xiàn)1831條經(jīng)驗(yàn) 獲得超9個(gè)贊

定義以下函數(shù):


def missingDates(grp : pd.Series, d1 : pd.Timestamp, d2 : pd.Timestamp):

    ndTotal = (d2 - d1).days + 1

    ndPresent = grp[grp.between(d1, d2)].index.size

    return ndTotal - ndPresent

然后將其應(yīng)用到每個(gè)組并更改為 DataFrame (正如我從您的帖子中看到的,您只需要一個(gè)DataFrame,有 2 列):


result = df.groupby('user')['dt'].apply(missingDates,

    pd.to_datetime('2015-12-31'), pd.to_datetime('2016-01-10'))\

    .rename('missing_days').reset_index()

結(jié)果是:


  user  missing_days

0    a             5

1    b             4

2    c             0

我的解決方案依賴于這樣一個(gè)事實(shí):每個(gè)組中的日期都是唯一的,并且所有日期都沒(méi)有時(shí)間部分。如果不滿足這些條件,則應(yīng)添加日期規(guī)范化和調(diào)用唯一 函數(shù)。


補(bǔ)充說(shuō)明:將dt(列名)更改為其他名稱,因?yàn)閐t是Pandas中日期訪問(wèn)器的名稱。用列名或變量名“覆蓋”標(biāo)準(zhǔn)pandasonic名稱是一種不好的做法。


查看完整回答
反對(duì) 回復(fù) 2023-12-12
?
瀟瀟雨雨

TA貢獻(xiàn)1833條經(jīng)驗(yàn) 獲得超4個(gè)贊

你可以這樣做


from datetime import date, timedelta

sdate = date(2015, 12, 31)   # start date

edate = date(2016, 1, 10)   # end date

delta = edate - sdate       # as timedelta

days=[]

for i in range(delta.days + 1):

    day = sdate + timedelta(days=i)

    days.append(str(day))

user=[]

missing_days = []

for user_n in df.user.unique():

    user_days = df.loc[df.user ==user_n,'dt' ].to_list()

    md = len([day for day in days if day not in user_days])

    user.append(user_n)

    missing_days.append(md)

new_df = pd.DataFrame({'user': user,'missing_days': missing_days})

new_df

輸出


user    missing_days

a       5

b       4


查看完整回答
反對(duì) 回復(fù) 2023-12-12
  • 4 回答
  • 0 關(guān)注
  • 219 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)