我使用多種算法訓(xùn)練了一個(gè)模型,包括來自skicit-learn 的隨機(jī)森林和LightGBM。這些模型在準(zhǔn)確性和其他統(tǒng)計(jì)數(shù)據(jù)方面表現(xiàn)相似。問題在于這兩種算法在特征重要性方面的行為不一致。我使用了默認(rèn)參數(shù),并且我知道它們使用不同的方法來計(jì)算特征重要性,但我認(rèn)為高度相關(guān)的特征應(yīng)該始終對(duì)模型的預(yù)測(cè)產(chǎn)生最大的影響。隨機(jī)森林對(duì)我來說更有意義,因?yàn)楦叨认嚓P(guān)的特征出現(xiàn)在頂部,而 LightGBM 則不然。有沒有辦法解釋這種行為,并且 LightGBM 的結(jié)果是否值得信賴?隨機(jī)森林特征重要性LightGBM 特征重要性與目標(biāo)的相關(guān)性
2 回答

蠱毒傳說
TA貢獻(xiàn)1895條經(jīng)驗(yàn) 獲得超3個(gè)贊
我也有類似的問題。LGBM 的默認(rèn)特征重要性基于“分裂”,當(dāng)我將其更改為“增益”時(shí),繪圖給出了類似的結(jié)果。

小唯快跑啊
TA貢獻(xiàn)1863條經(jīng)驗(yàn) 獲得超2個(gè)贊
嗯,GBM 通常表現(xiàn)得更好,尤其是與隨機(jī)森林進(jìn)行比較時(shí)。尤其是與 LightGBM 進(jìn)行比較時(shí)。與隨機(jī)森林相比,經(jīng)過適當(dāng)調(diào)整的 LightGBM 很可能在性能和速度方面獲勝。
GBM的優(yōu)點(diǎn):
More developed. A lot of new features are developed for modern GBM model (xgboost, lightgbm, catboost) which affect its performance, speed, and scalability.
GBM的缺點(diǎn):
Number of parameters to tune Tendency to overfit easily
如果您不確定 LightGBM 的超參數(shù)是否正確調(diào)整,請(qǐng)堅(jiān)持使用隨機(jī)森林;這將更容易使用和維護(hù)。
添加回答
舉報(bào)
0/150
提交
取消