1 回答

TA貢獻(xiàn)1812條經(jīng)驗(yàn) 獲得超5個(gè)贊
如果您有許多特征,并且其中許多可能與模型無(wú)關(guān),則特征選擇將使您能夠丟棄它們并將數(shù)據(jù)集限制為最相關(guān)的特征。
以下是在這些情況下需要考慮的幾個(gè)關(guān)鍵方面:
維數(shù)詛咒
當(dāng)您處理大型數(shù)據(jù)集時(shí),這通常是至關(guān)重要的一步。例如,盲目地對(duì)所有分類(lèi)特征進(jìn)行單熱編碼可能會(huì)導(dǎo)致大量數(shù)據(jù)幀,甚至可能無(wú)法存儲(chǔ)到內(nèi)存中,更不用說(shuō)用于機(jī)器學(xué)習(xí)模型了。在這種情況下,您可能需要減少要編碼的功能數(shù)量或研究其他分類(lèi)編碼器,例如貝葉斯編碼器(請(qǐng)參閱答案的最后一部分)。
特征重要性
不進(jìn)行特征選擇的一個(gè)負(fù)面影響,在這里非常雄辯地提出,可能是我們有許多高度相關(guān)的特征,并且在分析特征重要性時(shí),您獲得的這些特征的重要性可能并不表明它們的實(shí)際相關(guān)性。
回答問(wèn)題的第二部分,如果您擁有的功能可能是相關(guān)的并且您已經(jīng)完成了一些功能工程,那么您可以對(duì)它們進(jìn)行編碼,如果您最終擁有許多功能,那么您可以執(zhí)行功能選擇并減少功能的維度生成的數(shù)據(jù)集。有許多特征選擇技術(shù)。您可以在特征選擇中找到 scikit-learn 中可用的列表。
添加回答
舉報(bào)