首頁(yè) 猿問(wèn) Python Pandas...

Python Pandas 根據(jù)時(shí)間從列中選擇值

Python

有只小跳蛙 2024-01-15 17:21:07

我是 Python 和 ML 的新手，我正在嘗試使用 csv 文件并創(chuàng)建一個(gè)模型來(lái)預(yù)測(cè)主機(jī)響應(yīng)的持續(xù)時(shí)間。我所做的第一件事是使用 Pandas 解析 csv 文件中的日志，現(xiàn)在我有 csv 文件，其中的列按以下順序排列并附有示例： _time host duration202 2020-09-26T10:56:33.630+0200 malcon 850203 2020-09-26T10:56:33.630+0200 malcon2 878703 2020-09-25T21:26:04.651+0200 malcon 973我想做的第一件事是使用一些模型進(jìn)行異常檢測(cè)，但也許有一種更簡(jiǎn)單的方法來(lái)完成我想要的事情。我希望按時(shí)間戳獲取每 3 分鐘間隔高于 800 的持續(xù)時(shí)間值，并根據(jù)我一周內(nèi)的數(shù)據(jù)預(yù)測(cè)這些值。我從代碼開(kāi)始，該代碼會(huì)發(fā)現(xiàn)持續(xù)時(shí)間值高于或等于 800，但不知道如何將它們與時(shí)間關(guān)聯(lián)并定義間隔。到目前為止我的代碼是：import pandas as pddata = pd.read_csv("example_all.csv")df = pd.DataFrame(data,columns=['_time','host','duration'])high = (df.loc[df['duration'] >= 800])print(high) 任何提示和建議將不勝感激！謝謝！更新：我正在嘗試使用滾動(dòng)功能，但我認(rèn)為我沒(méi)有正確理解它，并且我有點(diǎn)迷失其中。正如此處所建議的，我使用 to_datetime 函數(shù)轉(zhuǎn)換時(shí)間戳并按時(shí)間對(duì)數(shù)據(jù)進(jìn)行排序。不幸的是，我找不到一種方法來(lái)指定持續(xù)時(shí)間高于 800 的 3 分鐘時(shí)間間隔。我的代碼現(xiàn)在看起來(lái)像這樣：import pandas as pddata = pd.read_csv("example_all.csv")data["_time"] = pd.to_datetime(data["_time"], utc='true')df = pd.DataFrame(data,columns=['_time','host','duration'])df.sort_values('_time')high = (df.loc[df['duration'] >= 800])print(high)輸出： _time host duration202 2020-09-26 08:56:33.630000+00:00 malcon 850203 2020-09-26 08:56:33.630000+00:00 malcon2 850702 2020-09-25 19:26:05.573000+00:00 malcon 878703 2020-09-25 19:26:04.651000+00:00 malcon 973704 2020-09-25 19:26:03.667000+00:00 malcon 993...

查看完整描述

1 回答

開(kāi)心每一天1111

TA貢獻(xiàn)1836條經(jīng)驗(yàn) 獲得超13個(gè)贊

如果您要查找任何 >= 800 的值，并且在前 3 分鐘內(nèi)未記錄任何 < 800 的值，則此方法將起作用：

import pandas as pd

from pandas.tseries.offsets import Minute

data = pd.read_csv("example_all.csv", parse_dates=[0])

data = data.sort_values('_time')

def all_over_800(values):

return values.map(lambda x: x >= 800).all()

data['over_threshold'] = data[['_time', 'duration']].rolling(

Minute(3), on='_time').apply(lambda win: all_over_800(win))['duration']

請(qǐng)注意，center窗口選項(xiàng)未針對(duì)日期時(shí)間偏移窗口實(shí)現(xiàn)，因此檢查前 3 分鐘（或根據(jù)順序后的 3 分鐘）是此方法的唯一選項(xiàng)。如果您不介意對(duì)數(shù)據(jù)幀進(jìn)行兩次排序，則可以結(jié)合前面和后面的結(jié)果來(lái)檢查樣本的兩側(cè)。

反對(duì) 回復(fù) 2024-01-15