寫文章

首頁手記 python之k-近鄰算法（sklearn版）

python之k-近鄰算法（sklearn版）

標簽：

Python

一，处理类别数据

上篇文章我们是利用KNN.py中的自编函数panduan在读取数据的过程中来实现的，而这种转变在sklearn中已经有轮子调用了
这里再补充一点：对于类别数据(对于特征值也是适用的),可以分为标称特征（nominal feature）和有序特征(ordinal feature).
对于我们这里的数据largeDoses，smallDoses，didntLike应该是对应着有序特征

#接下来将喜欢的类别中的三类转变为1,2,3like_order = {"didntLike":1,"smallDoses":2,"largeDoses":3}
df['喜欢的类别'] = df['喜欢的类别'].map(like_order)
df['喜欢的类别'].drop_duplicates()

得到结果：
df['喜欢的类别'].drop_duplicates()
Out[8]: 
0    largeDoses
1    smallDoses
2     didntLike
Name: 喜欢的类别, dtype: object

如果后续转变回来，可以定义一个逆映射字典
inv_like_order = {v:k for k,v in like_order.items()}
df['喜欢的类别'] = df['喜欢的类别'].map(inv_like_order)
df['喜欢的类别'].drop_duplicates()

得到结果：
Out[12]: 
0    largeDoses
1    smallDoses
2     didntLike
Name: 喜欢的类别, dtype: object

如果在这里'喜欢的类别'本身不带有有序的含义的话，即largeDoses，smallDoses，didntLike三个类别没有序别之分，可以借用sklearn里的功能

#自己写import numpy as np
like_not_order = {label:idx for idx,label in enumerate(np.unique(df['喜欢的类别']))}
df['喜欢的类别'] = df['喜欢的类别'].map(like_not_order)
df['喜欢的类别'].drop_duplicates()

Out[17]: 
0    11    22    0Name: 喜欢的类别, dtype: int64#sklearn from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y = class_le.fit_transform(df['喜欢的类别'].values)
np.unique(y)
Out[22]: array([0, 1, 2], dtype=int64)##转变回原来的类别class_le.inverse_transform(y)

可以看到借用sklearn是比较方便的

但是。。。。。但是。。。。以上的0,1,2在算法看来依然是有顺序的，所以我们可以利用独热编码（one-hot encoding），即创建一个新的虚拟特征（dummy feature）

from sklearn.preprocessing import OneHotEncoder#categorical_features参数指定我们对数据集中第几列进行独热编码ohe = OneHotEncoder(categorical_features=[3]) 
ohe.fit_transform(df).toarray()

也可以利用pandas里的功能

pd.get_dummies(df) #只对类别性数据有用，会忽略数值型数据

————————————————————————————————————

二、将特征值缩放到相同区间

特征缩放（feature scaling）对于除了决策树和随机森林两个算法没用以外，对其他算法和优化算法来讲都是必不可少的

2.1 归一化（将值缩放到0-1之间）

即上篇文章所涉及到的

image.png

from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
y = mms.fit_transform(df.iloc[:,0:3])

2.2 标准化（将值缩放到均值为0，方差为1，即标准正态分布）

对于线性模型来讲，标准化更加好，一是符合线性模型对权重的处理，二是保留了异常值的信息

image.png

from sklearn.preprocessing import StandardScaler
stds = StandardScaler()
y = stds.fit_transform(df.iloc[:,0:3])

———————————————————————————————————

三、将数据集划分为训练集和测试集

上篇文章对于此类问题的处理见datingClassTest函数

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(df.iloc[:,0:3],df.iloc[:,3], \
                                                 test_size=0.1,random_state=0)

image.png

四、k-近邻算法

K-近邻算法被称之为惰性算法，和其他机器学习算法不一样，因为他仅仅是对训练数据集有记忆功能，而不是从训练集中通过学习得到一个判别函数，即不需要训练，看过上篇文章的小伙伴应该会有体会。缺点是计算复杂度会随着样本数量的增长而呈线性增长，除非数据集中特征数量有限

image.png

from sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.preprocessing import MinMaxScaler
like_order = {"didntLike":1,"smallDoses":2,"largeDoses":3}
df['喜欢的类别'] = df['喜欢的类别'].map(like_order)
X_train,X_test,y_train,y_test = train_test_split(df.iloc[:,0:3],df.iloc[:,3], \
                                                 test_size=0.1,random_state=0)#n_neighbors代表近邻数，p=2代表欧式距离，p=1代表曼哈顿距离#metric='minkowski'代表闵可夫斯基距离，他是对欧氏距离和曼哈顿距离的一种泛化knn = KNeighborsClassifier(n_neighbors=5,p=2,metric='minkowski')
mms = MinMaxScaler()
X_train_std =  mms.fit_transform(X_train)
knn.fit(X_train_std,y_train)
knn.predict(mms.fit_transform(X_test))

作者：鸣人吃土豆
链接：https://www.jianshu.com/p/7baa48520126

點擊查看更多內(nèi)容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優(yōu)質(zhì)文章

正在加載中

慕哥9229398

手記
篇

粉絲

199

獲贊與收藏

915

關(guān)注作者，訂閱最新文章

閱讀免費教程

Python 辦公自動化教程

17個小節(jié) 26681 902

Python 算法入門教程

15個小節(jié) 28996 1118

Python 進階應(yīng)用教程

38個小節(jié) 69557 1090

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優(yōu)惠券免費領(lǐng)

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優(yōu)惠券可用于購買實戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

python之k-近鄰算法（sklearn版）

一，处理类别数据

二、将特征值缩放到相同区间

2.1 归一化（将值缩放到0-1之间）

2.2 标准化（将值缩放到均值为0，方差为1，即标准正态分布）

三、将数据集划分为训练集和测试集

四、k-近邻算法

閱讀免費教程