BIG陽(yáng)
2023-07-11 14:05:49
假設(shè)我有一個(gè)包含兩列、一個(gè)字符串和一個(gè)日期時(shí)間的 pandas 數(shù)據(jù)框,如下所示:ORDER TIMESTAMPGO 6/4/2019 09:59:49.497000STAY 6/4/2019 09:05:27.036000WAIT 6/4/2019 10:33:05.645000GO 6/4/2019 10:28:03.649000STAY 6/4/2019 11:23:11.614000GO 6/4/2019 11:00:33.574000WAIT 6/4/2019 11:41:55.744000我想創(chuàng)建一個(gè)列表,其中每個(gè)條目都是一個(gè)包含三個(gè)值的列表。對(duì)于每個(gè)選擇的時(shí)間間隔(例如一小時(shí)),每個(gè)條目是:[開(kāi)始時(shí)間、總行數(shù)、順序?yàn)?GO 的行的百分比]。例如,對(duì)于上面的數(shù)據(jù)框,我的列表是:[6/4/2019 09:00:00.000000, 2, 50][6/4/2019 10:00:00.000000, 2, 50][6/4/2019 11:00:00.000000, 3, 33.3]我創(chuàng)建了一個(gè)簡(jiǎn)單的 while 循環(huán):go= []while t<=df["timestamp"].iloc[-1]: tmp1 = df[(df["date_time"]>=t) & (df["timestamp"]<t+timedelta(hour=1))] tmp2 = df[(df["date_time"]>=t) & (df["timestamp"]<t+timedelta(hour=1)) & (df["Order"]=="GO")] go.append([t, tmp1.shape[0], 100.0*tmp2.shape[0]/tmp1.shape[0]]) #increment the time by the interval t=t+timedelta(hour=1)然而,我的初始數(shù)據(jù)幀有數(shù)百萬(wàn)行,我希望我的時(shí)間間隔比一個(gè)小時(shí)短得多,所以這種方法非常慢。更Pythonic的方法是什么?
1 回答

小怪獸愛(ài)吃肉
TA貢獻(xiàn)1852條經(jīng)驗(yàn) 獲得超1個(gè)贊
讓我們嘗試groupby().agg()使用size行數(shù)并mean獲取行的比率GO:
(df.ORDER.eq('GO').astype(int)
.groupby(df.TIMESTAMP.dt.floor('1H')) # groupby interval of choice
.agg(['size','mean'])
.reset_index() # get timestamp back
.to_numpy().tolist() # this is to generate the list
)
輸出:
[[Timestamp('2019-06-04 09:00:00'), 2, 0.5],
[Timestamp('2019-06-04 10:00:00'), 2, 0.5],
[Timestamp('2019-06-04 11:00:00'), 3, 0.3333333333333333]]
添加回答
舉報(bào)
0/150
提交
取消