Pandas 時間序列概述
1. 前言
上節(jié)我們學(xué)習(xí)了 Pandas 用于統(tǒng)計(jì)描述的常用操作方法,為我們數(shù)據(jù)分析提供了編輯的操作。我們前面接觸到的數(shù)據(jù)類型有缺失值、字符串型、數(shù)值型,也學(xué)習(xí)了這些數(shù)據(jù)的常用的處理和分析方法,除了這些數(shù)據(jù)類型,我們實(shí)際應(yīng)用中還有一類數(shù)據(jù),那就是時間,那在 Pandas 庫中,時間數(shù)據(jù)又是怎么樣表示的呢?
這節(jié)我們就一起來學(xué)習(xí) Pandas 庫中一種重要的結(jié)構(gòu)化數(shù)據(jù)形式 —— 時間序列。
2. 時間序列對比
學(xué)習(xí)過 python 的同學(xué)都應(yīng)該知道,在原生的 python 語言中,就有關(guān)于日期、時間的表示方式,最簡單的就是通過 datetime 日期和時間處理包創(chuàng)建日期時間對象,或者結(jié)合第三方的日期時間處理模塊,如 dateutil ,可以方便的對日期和時間數(shù)據(jù)進(jìn)行處理分析,雖然他們用起來簡單易懂,但在較為復(fù)雜的數(shù)據(jù)結(jié)構(gòu)中,對于時間的處理功能就不能很好勝任了。
在此基礎(chǔ)上,NumPy 團(tuán)隊(duì)開發(fā)優(yōu)化了時間序列數(shù)據(jù),提出了 datetime64 數(shù)據(jù)類型,因此有效的提升了復(fù)雜數(shù)據(jù)結(jié)構(gòu)在時間序列處理過程中的效率和精度問題,但該數(shù)據(jù)類型在操作過程中卻沒有那么簡便和靈活。而 Pandas 庫對于時間和日期的處理,正是結(jié)合了他們的優(yōu)點(diǎn),不僅操作起來簡單便捷,還提供了豐富的操作方法,使得時間序列的處理能力上較為強(qiáng)大。
3.Pandas 中的時間序列
實(shí)際數(shù)據(jù)分析中,時間是我們經(jīng)常用到的數(shù)據(jù)量,如具體時間點(diǎn),某個時間段,不同的應(yīng)用場景,時間序列的數(shù)據(jù)表現(xiàn)形式不一樣,比如金融領(lǐng)域股票價(jià)格隨時間變化的波動,某個時間點(diǎn)的天氣溫度,化學(xué)元素的衰變周期等,Pandas 庫中根據(jù)實(shí)際應(yīng)用的時間數(shù)據(jù)特點(diǎn),將時間序列主要分為了三種:
時間戳 (Timestamp):表示具體的某個時間點(diǎn),比如 2021 年 01 月 04 日 12 點(diǎn) 11 分 46 秒;
時間間隔 (Period):由具體的開始和結(jié)束時間,比如 2020 年 11 月 1 日 ——2020 年 11 月 28 日;
持續(xù)時長 (Timedeltas):是一個特定的時間長度,比如 10 秒鐘。
4. 小結(jié)
本節(jié)課程我們主要學(xué)習(xí)了 Pandas 庫中時間序列的優(yōu)勢,以及認(rèn)識了 Pandas 庫中的常用的三種序列類型。本節(jié)課程的重點(diǎn)如下:
- Pandas 庫中的常用的三種序列類型和他們的特點(diǎn)。