第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

使用 StackingClassifier 進(jìn)行訓(xùn)練/測(cè)試分割而不是 CV

使用 StackingClassifier 進(jìn)行訓(xùn)練/測(cè)試分割而不是 CV

哈士奇WWW 2024-01-15 17:22:00
我最近一直在嘗試 StackingClassifiers,通常它與交叉驗(yàn)證一起使用(默認(rèn)值:K-fold,num-folds = 5)。就是這樣寫的:from sklearn.pipeline import Pipelinefrom sklearn.tree import DecisionTreeClassifierfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_split, RandomizedSearchCV, KFoldX, y = load_breast_cancer(return_X_y=True, as_frame=True)model = StackingClassifier(estimators=[        ('tree', Pipeline([('tree', DecisionTreeClassifier(random_state=42))])),        ('knn', Pipeline([('knn', KNeighborsClassifier())])),    ],final_estimator = final_estimator, n_jobs = 10, passthrough = False, cv = KFold())model.fit(X, y)效果很好。然而,k 折交叉驗(yàn)證作為訓(xùn)練堆疊分類器的一種方法確實(shí)相當(dāng)慢。理想情況下,我想使用 80% 的訓(xùn)練數(shù)據(jù)用于訓(xùn)練組件模型,另外20%用于訓(xùn)練 Final_estimator 的方法。根據(jù)docs,您可以使用一個(gè)迭代器來(lái)生成訓(xùn)練測(cè)試分割作為cv(交叉驗(yàn)證)的輸入(這很奇怪,因?yàn)樗辉偈?CV)。所以我想分為兩部分的問題是否可以使用 StackingClassifier 以這種方式工作,其中根本不使用交叉驗(yàn)證(CV),而是使用訓(xùn)練/測(cè)試分割(主要是為了加快擬合速度)?如果是這樣,這看起來(lái)怎么樣?我將設(shè)置什么作為cv的輸入?另一張紙條。查看用戶指南中的潛在 CV 選項(xiàng) ShuffleSplit 和 nsplits=1 似乎是一個(gè)不錯(cuò)的選擇,我嘗試了它。model = StackingClassifier(estimators=[        ('tree', Pipeline([('tree', DecisionTreeClassifier(random_state=42))])),        ('knn', Pipeline([('knn', KNeighborsClassifier())])),    ],final_estimator = final_estimator, n_jobs = 10, passthrough = False, cv = ShuffleSplit(n_splits=1))model.fit(X, y)但不幸的是這不起作用并引發(fā)錯(cuò)誤:ValueError: cross_val_predict only works for partitions
查看完整描述

2 回答

?
斯蒂芬大帝

TA貢獻(xiàn)1827條經(jīng)驗(yàn) 獲得超8個(gè)贊

sklearn 的 Stacked Classifier 頁(yè)面指出“... estimators_ 適合整個(gè) X,而Final_estimator_使用cross_val_predict的基本估計(jì)器的交叉驗(yàn)證預(yù)測(cè)進(jìn)行訓(xùn)練?!?/p>

我認(rèn)為如果您想使用基于 80%-20% 的傳統(tǒng)訓(xùn)練測(cè)試方法,您應(yīng)該在 StackedClassifier 之外進(jìn)行。主要原因是使該過程與根據(jù)上面記錄的注釋使用堆疊分類器的方式保持一致。

我已經(jīng)完成了此操作,我的管道/設(shè)置描述性如下。我不介意花費(fèi)額外的時(shí)間對(duì)每個(gè)分類器進(jìn)行訓(xùn)練測(cè)試,因?yàn)樽罱K分類器對(duì) StackedClassifier 的處理效率更高:

  1. 以 70%-30% / 80%-20% 的分割運(yùn)行單獨(dú)的分類器(KNN、決策樹、隨機(jī)森林、樸素貝葉斯等)。找到最佳參數(shù)化。

  2. 設(shè)置 StackedClassifier,其中每個(gè)分類器都適合您通過整個(gè)數(shù)據(jù)確定的最佳參數(shù)(此階段沒有分割)

  3. 檢查并驗(yàn)證最終分類器相對(duì)于各個(gè)分類器性能的結(jié)果。

我認(rèn)為花費(fèi)的額外時(shí)間是不可避免的,因?yàn)槟谝霝楦鱾€(gè)分類器分割數(shù)據(jù)的額外步驟。對(duì)于最終分類器 CV 階段,即使進(jìn)行分割,最終模型輸入也應(yīng)在整個(gè)數(shù)據(jù)上運(yùn)行,以實(shí)現(xiàn)單個(gè)和最終分類器的最大效率。


查看完整回答
反對(duì) 回復(fù) 2024-01-15
?
繁花不似錦

TA貢獻(xiàn)1851條經(jīng)驗(yàn) 獲得超4個(gè)贊

您可以獲得的最快加速是KFold(n_splits=2):


model = StackingClassifier(estimators=[

        ('tree', Pipeline([('tree', DecisionTreeClassifier(random_state=42))])),

        ('knn', Pipeline([('knn', KNeighborsClassifier())])),

    ],final_estimator = final_estimator, n_jobs = 10, passthrough = False, cv = KFold(n_splits=2))

cvparam只接受“分區(qū)”或“分區(qū)者”(正如他們所說(shuō)的“根據(jù)定義”)。它們是KFold(), StratifiedKFold,但不是ShuffleSplit或train_test_split。


分區(qū)器:


n =5

x = range(90,100)

cv = KFold(n_splits=n).split(x)


for i,j in cv:

    print("TRAIN:",i,"TEST",j)

TRAIN: [2 3 4 5 6 7 8 9] TEST [0 1]

TRAIN: [0 1 4 5 6 7 8 9] TEST [2 3]

TRAIN: [0 1 2 3 6 7 8 9] TEST [4 5]

TRAIN: [0 1 2 3 4 5 8 9] TEST [6 7]

TRAIN: [0 1 2 3 4 5 6 7] TEST [8 9]

非分區(qū)者:


n =5

x = range(90,100)

# cv = KFold(n_splits=n).split(x)

cv = ShuffleSplit(n_splits=n, train_size=.8).split(x)


for i,j in cv:

    print("TRAIN:",i,"TEST",j)

TRAIN: [7 9 0 1 6 4 8 3] TEST [2 5]

TRAIN: [3 2 7 0 8 4 6 1] TEST [5 9]

TRAIN: [5 1 8 7 4 0 2 6] TEST [9 3]

TRAIN: [7 1 5 8 6 9 4 0] TEST [2 3]

TRAIN: [7 0 3 2 6 1 5 9] TEST [4 8]


查看完整回答
反對(duì) 回復(fù) 2024-01-15
  • 2 回答
  • 0 關(guān)注
  • 310 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)