寫文章

首頁手記 Pandas實(shí)戰(zhàn)：從入門到精通的簡(jiǎn)單教程

Pandas實(shí)戰(zhàn)：從入門到精通的簡(jiǎn)單教程

標(biāo)簽：

Python 數(shù)據(jù)分析&挖掘

本文详细介绍了Pandas的基本概念、数据结构、安装方法以及创建和操作Series和DataFrame的方法。文章还涵盖了数据读取、保存、清洗、预处理、筛选、排序和分组等内容，并通过实战案例展示了Pandas实战应用的全过程，帮助读者深入了解和掌握Pandas实战技能。

Pandas基础介绍

Pandas是一个强大的Python数据处理和分析库，它提供了灵活的数据结构和数据处理功能，使得数据处理和分析变得非常高效和简洁。Pandas的主要数据结构是Series和DataFrame，可以处理一维和二维数据。

Pandas是什么

Pandas是一个开源的Python库，由Wes McKinney在2008年开发，旨在使Python成为R语言之外的数据分析和统计建模的替代选择。Pandas具有以下特点：

高性能的数据结构和数据处理功能：Pandas提供了两种主要的数据结构：Series和DataFrame，分别用于处理一维和二维数据。
灵活的数据处理能力：Pandas提供了丰富的数据清洗、预处理、筛选、排序、合并等操作。
强大的数据分析功能：Pandas可以轻松地进行数据的统计分析和可视化。
与NumPy和Matplotlib等库的良好集成：Pandas的数据结构可以与NumPy等其他科学计算库集成，方便进行进一步的数据处理和分析。

Pandas的数据结构

Pandas的数据结构主要包括Series和DataFrame。

Series：一维数组，类似于NumPy的一维数组，但Series可以包含标签，使其更容易索引和操作数据。
DataFrame：二维表格结构，类似于Excel中的表格或SQL中的表。DataFrame由索引（行标签）和列组成，可以包含不同的数据类型。

安装与环境配置

安装Pandas非常简单，可以通过pip工具安装：

pip install pandas

安装完成后，可以通过导入Pandas库来开始使用它：

import pandas as pd

此外，Pandas还依赖于NumPy库，确保已经安装了NumPy：

pip install numpy

Series和DataFrame的创建与基本操作

Series的创建与操作

创建Series

Series可以通过列表、字典或NumPy数组创建：

import pandas as pd
import numpy as np

# 从列表创建Series
s1 = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s1)

# 从字典创建Series
data = {'a': 1, 'b': 2, 'c': 3}
s2 = pd.Series(data)
print(s2)

# 从NumPy数组创建Series
arr = np.array([10, 20, 30, 40])
s3 = pd.Series(arr)
print(s3)

Series的基本操作

访问元素：可以通过索引访问Series中的值：

s = pd.Series(['a', 'b', 'c', 'd', 'e'])
print(s[0])  # 输出 'a'
print(s[-1])  # 输出 'e'

修改元素：可以通过赋值修改Series中的值：

s = pd.Series(['a', 'b', 'c', 'd', 'e'])
s[0] = 'A'
print(s)  # 输出 Series(['A', 'b', 'c', 'd', 'e])

排序操作：

s = pd.Series([10, 7, 12, 45, 20])
s_sorted = s.sort_values()
print(s_sorted)  # 输出 Series([7, 10, 12, 20, 45])

DataFrame的创建与操作

创建DataFrame

DataFrame可以通过字典、列表或NumPy数组创建：

import pandas as pd
import numpy as np

# 从字典创建DataFrame
data = {'Name': ['Tom', 'Nick', 'John', 'Peter'], 'Age': [20, 21, 19, 18]}
df = pd.DataFrame(data)
print(df)

# 从列表创建DataFrame
data = [['Tom', 20], ['Nick', 21], ['John', 19], ['Peter', 18]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)

# 从NumPy数组创建DataFrame
arr = np.random.rand(4, 3)
df = pd.DataFrame(arr, columns=['A', 'B', 'C'])
print(df)

DataFrame的基本操作

访问元素：可以通过索引和列名访问DataFrame中的值：

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df['A'][0])  # 输出 1

修改元素：可以通过索引和列名修改DataFrame中的值：

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['A'][0] = 10
print(df)  # 输出 DataFrame with A: [10, 2, 3] and B: [4, 5, 6]

插入列：

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = [7, 8, 9]
print(df)

索引操作：

访问索引：

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['X', 'Y', 'Z'])
print(df.index)  # 输出 Index(['X', 'Y', 'Z'], dtype='object')

重设索引：

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['X', 'Y', 'Z'])
df.reset_index(inplace=True)
print(df)

列操作：

访问列：

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df['A'])  # 输出 Series([1, 2, 3])

删除列：

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df.drop(columns=['B'], inplace=True)
print(df)

数据的读取与保存

使用Pandas读取CSV、Excel等数据格式

读取CSV文件

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')
print(df)

读取Excel文件

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx')
print(df)

数据的保存方法

保存CSV文件

import pandas as pd

# 保存DataFrame为CSV文件
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df.to_csv('output.csv', index=False)

保存Excel文件

import pandas as pd

# 保存DataFrame为Excel文件
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df.to_excel('output.xlsx', index=False)

数据清洗与预处理

缺失值处理

检测缺失值

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [5, np.nan, np.nan], 'C': [1, 2, 3]})
print(df.isna())  # 输出布尔矩阵，缺失值为True

删除缺失值

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [5, np.nan, np.nan], 'C': [1, 2, 3]})
df.dropna(inplace=True)
print(df)

填充缺失值

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [5, np.nan, np.nan], 'C': [1, 2, 3]})
df.fillna(value=0, inplace=True)
print(df)

重复数据处理

检测重复数据

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3, 3], 'B': [5, 6, 6, 7, 7]})
print(df.duplicated())  # 输出布尔矩阵，重复数据为True

删除重复数据

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3, 3], 'B': [5, 6, 6, 7, 7]})
df.drop_duplicates(inplace=True)
print(df)

数据类型转换

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']})
df['A'] = df['A'].astype(float)
df['B'] = df['B'].astype(str)
print(df.dtypes)

数据筛选与排序

条件筛选

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})
filtered_df = df[df['A'] > 2]
print(filtered_df)

多条件筛选

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})
filtered_df = df[(df['A'] > 2) & (df['B'] < 8)]
print(filtered_df)

排序操作

排序

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})
sorted_df = df.sort_values(by='A', ascending=False)
print(sorted_df)

去重与分组

去重

import pandas as pd

df = pd.DataFrame({'A': [1, 1, 2, 2], 'B': [3, 4, 5, 6]})
unique_df = df.drop_duplicates()
print(unique_df)

分组

import pandas as pd

df = pd.DataFrame({'A': [1, 1, 2, 2], 'B': [3, 4, 5, 6], 'C': [7, 8, 9, 10]})
grouped_df = df.groupby('A').sum()
print(grouped_df)

实战案例

简单数据分析案例

加载数据

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())  # 打印前几行数据

数据清洗

import pandas as pd
import numpy as np

df = pd.read_csv('data.csv')
df.dropna(inplace=True)
df.fillna(value=0, inplace=True)
print(df)

数据分析

import pandas as pd

df = pd.read_csv('data.csv')
mean_value = df['A'].mean()
print(f'Mean of column A: {mean_value}')

数据可视化基础

安装Matplotlib

pip install matplotlib

使用Matplotlib绘制图表

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')
df.plot(x='A', y='B', kind='scatter')
plt.show()

数据处理常见问题及解决方案

常见问题

数据缺失：可以通过填充或删除缺失值来解决。
重复数据：可以通过删除重复数据来解决。
数据类型不一致：可以通过数据类型转换来解决。

解决方案示例

import pandas as pd
import numpy as np

# 数据缺失
df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [5, np.nan, np.nan], 'C': [1, 2, 3]})
df.fillna(value=0, inplace=True)
print(df)

# 重复数据
df = pd.DataFrame({'A': [1, 1, 2, 2], 'B': [3, 4, 5, 6]})
df.drop_duplicates(inplace=True)
print(df)

# 数据类型不一致
df = pd.DataFrame({'A': [1, '2', 3], 'B': [5, '6', 7]})
df['A'] = df['A'].astype(float)
print(df.dtypes)

通过以上内容，读者可以了解Pandas的基本使用方法和常见数据处理操作。Pandas是一个强大的数据分析工具，通过深入学习和实践，可以更好地利用Pandas进行数据分析和处理。推荐继续在慕课网学习更多Pandas课程，进一步提高数据分析能力。

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺得本文不錯(cuò)，就分享一下吧！

評(píng)論

評(píng)論

共同學(xué)習(xí)，寫下你的評(píng)論

評(píng)論加載中...

展開查看更多評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中

qq_花開花謝_0

學(xué)生

手記
篇

粉絲

9

獲贊與收藏

36

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

Python 辦公自動(dòng)化教程

17個(gè)小節(jié) 26660 901

Python 算法入門教程

15個(gè)小節(jié) 28979 1116

Python 進(jìn)階應(yīng)用教程

38個(gè)小節(jié) 69382 1088

推薦

評(píng)論

收藏

共同學(xué)習(xí)，寫下你的評(píng)論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會(huì)直接到老師賬戶

支付方式

打開微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶專享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購買實(shí)戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學(xué)習(xí)，選課去


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Pandas實(shí)戰(zhàn)：從入門到精通的簡(jiǎn)單教程

Pandas是什么

Pandas的数据结构

安装与环境配置

Series的创建与操作

创建Series

Series的基本操作

DataFrame的创建与操作

创建DataFrame

DataFrame的基本操作

使用Pandas读取CSV、Excel等数据格式

读取CSV文件

读取Excel文件

数据的保存方法

保存CSV文件

保存Excel文件

缺失值处理

检测缺失值

删除缺失值

填充缺失值

重复数据处理

检测重复数据

删除重复数据

数据类型转换

数据类型转换

条件筛选

条件筛选

多条件筛选

排序操作

排序

去重与分组

去重

分组

简单数据分析案例

加载数据

数据清洗

数据分析

数据可视化基础

安装Matplotlib

使用Matplotlib绘制图表

数据处理常见问题及解决方案

常见问题

解决方案示例

閱讀免費(fèi)教程