Python速查表:數(shù)據(jù)分析與開發(fā)必備技巧
Python 是一种解释性、广泛使用的高级编程语言,支持面向对象的编程风格、过程式的编程风格和函数式编程风格。
代码如下: # 数据类型:
x = 10 # int
y = 10.5 # float
z = "Hello" # str
# 列表:
my_list = [1, 2, 3, 4]
my_list.append(5)
# 字典:
my_dict = {"name": "Alice", "age": 25}
my_dict["city"] = "New York"
# 循环:
for i in range(5):
print(i)
# 函数:
def square(x):
return x ** 2
# Lambda 表达式:
add = lambda a, b: a + b
2. NumPy
理论说:
NumPy 是一个用于 Python 的数值计算库。它支持数组、矩阵和各种数学运算。
代码:这里是代码: import numpy as np
# 创建数组
arr = np.array([1, 2, 3, 4])
zeros = np.zeros((2, 3))
ones = np.ones((2, 3))
# 计算
arr_sum = np.sum(arr)
arr_mean = np.mean(arr)
arr_std = np.std(arr)
# 切片操作
slice_arr = arr[1:3]
3. 熊猫
理论:
Pandas 是一个用于数据处理和分析的库。它提供 Series 和 DataFrame 等数据结构,能够高效地处理结构化数据集。
import pandas as pd
# 创建 DataFrame
data = {"Name": ["Alice", "Bob"], "Age": [25, 30]}
df = pd.DataFrame(data)
# 读取/写入数据
csv_data = pd.read_csv("data.csv")
df.to_csv("output.csv", index=False)
# 分析数据
df.info()
df.describe()
# 筛选行
filtered_df = df[df['Age'] > 25]
# 按名称分组并计算平均值
grouped = df.groupby("Name").mean()
4. matplotlib和seaborn
理论部分:Matplotlib 和 Seaborn 是用来做数据可视化的库。Matplotlib 提供基本的绘图工具,而 Seaborn 提供高级统计图表。
代码:import matplotlib.pyplot as plt
import seaborn as sns
# 示例折线图
plt.plot([1, 2, 3], [4, 5, 6])
plt.title("示例折线图")
plt.show()
# Seaborn 热力图
# 生成随机数据
data = np.random.rand(4, 4)
# 示例热度图
sns.heatmap(data, annot=True)
plt.show()
5. 章节 5:Scikit-learn(一个常用的机器学习库)
理论:
Scikit-learn 是一个用于机器学习的库。它提供了数据预处理和模型选择的工具,包括线性回归、分类和聚类等在内的各种算法。
下面是一些代码: from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 数据分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 训练
model = LinearRegression()
model.fit(X_train, y_train)
# 评估模型
predictions = model.predict(X_test)
mse = mean_squared_error(y_test, predictions)
6. 数据清理和预处理
理论:
数据清理包括处理缺失值、去重以及提高数据质量。预处理包括缩放、编码和转换数据,以供机器学习使用。
代码: # 填充缺失值
df.fillna(0, inplace=True)
# 删除缺失值
df.dropna(inplace=True)
# 标签编码
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
df['Category'] = encoder.fit_transform(df['Category'])
# 标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df)
7. 使用 API
理论部分:
API 允许程序与网络服务交互。Python 的 requests
库简化了常用的 HTTP 请求方法,例如 GET 和 POST 请求。
代码:
import requests
# 发出 GET 请求
response = requests.get("https://api.example.com/data")
if response.status_code == 200:
data = response.json()
# 发出 POST 请求
payload = {"key": "value"}
response = requests.post("https://api.example.com/data", json=payload)
8. SQL与Python(SQLite)
说说理论:
SQLite 是一个轻量级的数据库管理系统。Python 的 sqlite3
库通过编程来执行 SQL 操作。
import sqlite3
# 连接到数据库
conn = sqlite3.connect("database.db")
cursor = conn.cursor()
# 执行这些查询
cursor.execute("CREATE TABLE IF NOT EXISTS users (id INTEGER, name TEXT)")
cursor.execute("INSERT INTO users VALUES (1, 'Alice')")
# 读取数据
cursor.execute("SELECT * FROM users")
rows = cursor.fetchall()
conn.commit()
conn.close()
9. 正则表达式 (Regex)
理论说:
正则表达式(简称regex)是一种用于匹配和处理字符串的模式。Python中的re
库支持正则表达式。
import re
# 匹配模式(正则表达式):
pattern = r"\d+"
result = re.findall(pattern, "123 Main Street")
# 替换模式(正则表达式):
new_text = re.sub(r"\d+", "#", "123 Main Street")
10. 文件处理
理论部分:
文件操作允许你读取、写入和操作文件。Python 内置的 open()
函数使得文件操作变得简单易行。
代码:
# 打开文件来读
with open("data.txt", "r") as file:
content = file.read()
# 写文件
with open("output.txt", "w") as file:
# 准备将 'Hello, World!' 写入新文件
file.write("Hello, World!")
这份快捷参考表是数据分析师和开发人员常用的 Python 任务和库的快速参考指南。
谢谢!👍
感谢你花时间查看这份速查表。希望它能成为你Python开发旅程中的宝贵资源。如果你觉得它有用,请给它点个赞👍 — 这对我非常重要!
如果你有任何建议、反馈或改进的想法,欢迎分享。我一直希望能让这变得更好、更实用,更有助于大家。
编程愉快!🚀
共同學(xué)習(xí),寫下你的評(píng)論
評(píng)論加載中...
作者其他優(yōu)質(zhì)文章