第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

Python Pandas 根據(jù)時(shí)間從列中選擇值

Python Pandas 根據(jù)時(shí)間從列中選擇值

有只小跳蛙 2024-01-15 17:21:07
我是 Python 和 ML 的新手,我正在嘗試使用 csv 文件并創(chuàng)建一個(gè)模型來預(yù)測(cè)主機(jī)響應(yīng)的持續(xù)時(shí)間。我所做的第一件事是使用 Pandas 解析 csv 文件中的日志,現(xiàn)在我有 csv 文件,其中的列按以下順序排列并附有示例:                               _time             host  duration202     2020-09-26T10:56:33.630+0200           malcon       850203     2020-09-26T10:56:33.630+0200          malcon2       878703     2020-09-25T21:26:04.651+0200           malcon       973我想做的第一件事是使用一些模型進(jìn)行異常檢測(cè),但也許有一種更簡(jiǎn)單的方法來完成我想要的事情。我希望按時(shí)間戳獲取每 3 分鐘間隔高于 800 的持續(xù)時(shí)間值,并根據(jù)我一周內(nèi)的數(shù)據(jù)預(yù)測(cè)這些值。我從代碼開始,該代碼會(huì)發(fā)現(xiàn)持續(xù)時(shí)間值高于或等于 800,但不知道如何將它們與時(shí)間關(guān)聯(lián)并定義間隔。到目前為止我的代碼是:import pandas as pddata = pd.read_csv("example_all.csv")df = pd.DataFrame(data,columns=['_time','host','duration'])high = (df.loc[df['duration'] >= 800])print(high) 任何提示和建議將不勝感激!謝謝!更新:我正在嘗試使用滾動(dòng)功能,但我認(rèn)為我沒有正確理解它,并且我有點(diǎn)迷失其中。正如此處所建議的,我使用 to_datetime 函數(shù)轉(zhuǎn)換時(shí)間戳并按時(shí)間對(duì)數(shù)據(jù)進(jìn)行排序。不幸的是,我找不到一種方法來指定持續(xù)時(shí)間高于 800 的 3 分鐘時(shí)間間隔。我的代碼現(xiàn)在看起來像這樣:import pandas as pddata = pd.read_csv("example_all.csv")data["_time"] = pd.to_datetime(data["_time"], utc='true')df = pd.DataFrame(data,columns=['_time','host','duration'])df.sort_values('_time')high = (df.loc[df['duration'] >= 800])print(high)輸出:                                  _time             host  duration202    2020-09-26 08:56:33.630000+00:00           malcon       850203    2020-09-26 08:56:33.630000+00:00          malcon2       850702    2020-09-25 19:26:05.573000+00:00           malcon       878703    2020-09-25 19:26:04.651000+00:00           malcon       973704    2020-09-25 19:26:03.667000+00:00           malcon       993...
查看完整描述

1 回答

?
開心每一天1111

TA貢獻(xiàn)1836條經(jīng)驗(yàn) 獲得超13個(gè)贊

如果您要查找任何 >= 800 的值,并且在前 3 分鐘內(nèi)未記錄任何 < 800 的值,則此方法將起作用:


import pandas as pd

from pandas.tseries.offsets import Minute


data = pd.read_csv("example_all.csv", parse_dates=[0])


data = data.sort_values('_time')



def all_over_800(values):

    return values.map(lambda x: x >= 800).all()



data['over_threshold'] = data[['_time', 'duration']].rolling(

    Minute(3), on='_time').apply(lambda win: all_over_800(win))['duration']


請(qǐng)注意,center窗口選項(xiàng)未針對(duì)日期時(shí)間偏移窗口實(shí)現(xiàn),因此檢查前 3 分鐘(或根據(jù)順序后的 3 分鐘)是此方法的唯一選項(xiàng)。如果您不介意對(duì)數(shù)據(jù)幀進(jìn)行兩次排序,則可以結(jié)合前面和后面的結(jié)果來檢查樣本的兩側(cè)。


查看完整回答
反對(duì) 回復(fù) 2024-01-15
  • 1 回答
  • 0 關(guān)注
  • 125 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)