2 回答

TA貢獻(xiàn)1817條經(jīng)驗(yàn) 獲得超6個(gè)贊
你有一個(gè)錯(cuò)誤train_test_split
- 結(jié)果的順序很重要;正確的用法是:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2, random_state=0)
檢查文檔。

TA貢獻(xiàn)1772條經(jīng)驗(yàn) 獲得超6個(gè)贊
你不必做任何你不想做的事情:-)。但一般來說,你會(huì)想以某種方式處理多重共線性之類的事情——但這并不一定意味著降維。
你的數(shù)據(jù)是什么形狀的?如果您有 20 個(gè)特征,但有 10k 個(gè)觀察值,則不需要降維(至少在第一遍中不需要)。
但是,如果您有 1k 個(gè)特征和 10k 個(gè)觀察值,那么您將非常適合在學(xué)習(xí)者之前進(jìn)行無監(jiān)督的降維步驟。
您可能想先嘗試一些正則化(請(qǐng)參閱https://web.stanford.edu/~hastie/ElemStatLearn/ - 您可以從那里免費(fèi)下載這本書)。
因此,例如,嘗試使用ElasticNet
類而不是LinearRegression
類。這幾乎是一樣的,但對(duì)權(quán)重的 $L_1$ 和 $L_2$ 規(guī)范會(huì)有所懲罰。這往往有助于泛化。
如果不了解您的特定問題的更多信息,就很難說其他任何事情。
添加回答
舉報(bào)