第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機(jī)立即綁定

機(jī)器學(xué)習(xí) 西瓜書 Day15 特征選擇與稀疏學(xué)習(xí)

p247 - p266
哈哈哈感觉今天看书的状态不错
看来有希望把欠的两天都补上呀
不多说了进入第11章

第11章 特征选择与稀疏学习

11.1 子集搜索与评价

从给定的特征集合中选择相关特征子集的过程,称为“特征选择”。
特征选择是一个重要的数据预处理过程。
能降低“维数灾难”风险,并有降维的效果。

处理高维数据的两大主流技术:“降维”、“特征选择”。

“无关特征”,“冗余特征”?
如果“冗余特征”对应了一个中间过程,那么这个“冗余过程”是有益的。

怎么选特征?
产生一个“候选子集”,评价出好坏,基于评价产生下一个候选子集,再评价,直到收敛。
两个问题:
1)如何获取候选子集?
“子集搜索问题”。前向(非常像决策树)、后向、双向。
贪心策略,并不能全局最优。

2)如何评价好坏?
使用信息增益。
实际上,特征子集对应了一个对数据集D的划分,真实label对应了一个划分。想办法比较这两个划分的差异就能评价好坏。

特征搜索+子集评价:特征选择。
常见分为三类:过滤式、包裹式、嵌入式。

11.2 过滤式选择

过滤式方法先对数据集进行特征选择,再训练学习器。特征选择和学习器无关。

Relief:著名的特征选择方法。
设计了一个“相关统计量”来度量特征的重要性。

对每个样本先选择最近的同类样本,在选择最近的不同类样本。
相关统计量对于每个属性j的计算方法:p250 式11.3

FRelief:对多分类的扩展。

11.3 包裹式选择

包裹式选择考虑学习器,把学习器的性能作为评价指标。
也就是要给学习器选择最有利于其性能,量身定做的特征子集。

开销自然会比过滤式大。

LVW:典型的包裹式选择方法。(拉斯维加斯框架下)
伪码见p251

LVW中特征子集搜索采用了随机策略,每次评价都得重新训练学习器,故计算开销是很大的。
同时,由于是拉斯维加斯框架,故可能给不出解。

11.4 嵌入式选择和L1正则化

嵌入式:学习器训练过程中自动进行了特征选择。

当维数较大样本较少,容易陷入过拟合。
故加入正则项。

而L1范数是比L2更容易得到更稀疏的解的,也就是说w中0更多。也就是选择了特征。
p252 式11.7称为LASSO

从而基于L1正则化的学习方法就是一种嵌入式特征选择方法

L1正则化问题的求解可使用近端梯度下降方法(PGD)。详细原理见p253-254。
PGD可以使LASSO和其他基于L1范数最小化的方法得以快速求解。

11.5 稀疏表示与字典学习



作者:皇家马德里主教练齐达内
链接:https://www.jianshu.com/p/c5cc45e7c6eb


點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優(yōu)質(zhì)文章

正在加載中
數(shù)據(jù)庫工程師
手記
粉絲
42
獲贊與收藏
204

關(guān)注作者,訂閱最新文章

閱讀免費(fèi)教程

  • 推薦
  • 評論
  • 收藏
  • 共同學(xué)習(xí),寫下你的評論
感謝您的支持,我會繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊有機(jī)會得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

舉報

0/150
提交
取消