對于一個探索性學期項目,我試圖使用生產過程中進行的各種測量來預測質量控制測量的結果值。對于該項目,我正在測試不同的算法(LinearRegression、RandomForestRegressor、GradientBoostingRegressor,...)。我通常得到相當?shù)偷?r2 值(大約 0.3),這可能是由于特征值的分散而不是我這里真正的問題。最初,我有大約 100 個特征,我試圖使用 RFE 和 LinearRegression() 作為估計器來減少這些特征。交叉驗證表明,我應該將特征減少到僅 60 個。然而,當我這樣做時,對于某些模型,R2 值會增加。這怎么可能?我的印象是,向模型添加變量總是會增加 R2,因此減少變量數(shù)量應該會導致 R2 值降低。有人可以對此發(fā)表評論或提供解釋嗎?提前致謝。
為什么使用 RFE 進行特征縮減后 R2 值會增加?
函數(shù)式編程
2023-07-05 10:22:21