首頁(yè) 手記 Python機(jī)器學(xué)習(xí)算法之線性回歸算法

Python機(jī)器學(xué)習(xí)算法之線性回歸算法

標(biāo)簽：

Python 機(jī)器學(xué)習(xí) 人工智能

1.算法概述

回归就是用一条曲线对数据点进行拟合，该曲线称为最佳拟合曲线，这个拟合过程称为回归。当该曲线是一条直线时，就是线性回归。
线性回归(Linear Regression)是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖关系的一种统计分析方法。
线性回归一般用来做连续值的预测，预测的结果是一个连续值。
线性回归在训练学习样本时，不仅需要提供特征向量X，还需要提供样本的实际结果（标记label），因此线性回归模型属于监督学习里的回归模型。

2.算法步骤

加载数据集
数据预处理
建立线性回归模型
极小化损失函数
参数求解
模型检验
经济预测

3.梯度下降法

4.最小二乘法

5.算法实现

自定义实现

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# 构造训练数据
x = np.arange(0., 10., 0.2)
m = len(x)
x0 = np.full(m, 1.0)
input_data = np.vstack([x0, x]).T
target_data = 2 * x + 5 + np.random.randn(m)

# 终止条件
loop_max = 10000  # 最大迭代次数
epsilon = 1e-3    # 收敛条件最小值

# 初始化权值
np.random.seed(0)
theta = np.random.randn(2)
alpha = 0.001  # 步长
diff = 0.
error = np.zeros(2)
count = 0  # 循环次数
finish = 0  # 终止标志

# 迭代
while count < loop_max:
    count += 1
    # 在标准梯度下降中，权值更新的每一步对多个样例求和，需要更多的计算
    sum_m = np.zeros(2)
    for i in range(m):
        dif = (np.dot(theta, input_data[i]) - target_data[i]) * input_data[i]
        # 当alpha取值过大时,sum_m会在迭代过程中会溢出
        sum_m = sum_m + dif

    # 注意步长alpha的取值,过大会导致振荡
    theta = theta - alpha * sum_m

    # 判断是否已收敛
    if np.linalg.norm(theta - error) < epsilon:
        finish = 1
        break
    else:
        error = theta

    print('迭代次数 = %d' % count, '\t w:', theta)
print('迭代次数 = %d' % count, '\t w:', theta)

# 用scipy线性回归进行检查
slope, intercept, r_value, p_value, slope_std_error = stats.linregress(x, 
                                                                       target_data)
print('截距 = %s 斜率 = %s' % (intercept, slope))

# 用plot进行展示
plt.plot(x, target_data, 'b*')
plt.plot(x, theta[1] * x + theta[0], 'r')
plt.xlabel("x")
plt.ylabel("y")
plt.show()

利用Sklearn库实现

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.linear_model import LinearRegression

boston_dataset = datasets.load_boston()
data = pd.DataFrame(boston_dataset.data)
data.columns = boston_dataset.feature_names
data['PRICE'] = boston_dataset.target

# 取出房间数和房价并转化成矩阵形式
x = data.loc[:, 'RM'].as_matrix(columns=None)
y = data.loc[:, 'PRICE'].as_matrix(columns=None)

# 进行矩阵的转置
x = np.array([x]).T
y = np.array([y]).T

# 训练线性模型
l = LinearRegression()
l.fit(x, y)

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.scatter(x, y, s=10, alpha=0.5, c='green')
plt.plot(x, l.predict(x), c='blue', linewidth='1')
plt.xlabel("房间数(Number)")
plt.ylabel("房价(Price)")
plt.show()

6.算法优化

当数据间存在线性关系时，用普通的最小二乘法建模得到的结果误差会很大，甚至会出现和实际相悖的情况，在这种情况下，普通最小二乘法是失效的。而化学家
S. Wold于1983年提出的偏最小二乘法在某种程度上改善了普通最小二乘法对变量间存在线性关系时建模的弊端。

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺得本文不錯(cuò)，就分享一下吧！

評(píng)論

評(píng)論

共同學(xué)習(xí)，寫下你的評(píng)論

評(píng)論加載中...

展開查看更多評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中

幕布斯7119047

手記
篇

粉絲

28

獲贊與收藏

104

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

Python 辦公自動(dòng)化教程

17個(gè)小節(jié) 26988 912

Python 算法入門教程

15個(gè)小節(jié) 29441 1131

Python 進(jìn)階應(yīng)用教程

38個(gè)小節(jié) 71026 1107

推薦

評(píng)論

收藏

共同學(xué)習(xí)，寫下你的評(píng)論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說(shuō)多少就多少

贊賞金額會(huì)直接到老師賬戶

支付方式

打開微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶專享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購(gòu)買實(shí)戰(zhàn)課、體系課
無(wú)門檻使用

先去看看，有什么好東西馬上兌換我愛學(xué)習(xí)，選課去


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空