第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問(wèn)題,去搜搜看,總會(huì)有你想問(wèn)的

如何使用 SMOTE 在過(guò)采樣中修復(fù)樣本 < K-鄰居錯(cuò)誤?

如何使用 SMOTE 在過(guò)采樣中修復(fù)樣本 < K-鄰居錯(cuò)誤?

qq_笑_17 2022-01-05 10:06:29
我正在為 11 個(gè)標(biāo)簽設(shè)計(jì)一個(gè)多類(lèi)分類(lèi)器。我正在SMOTE用來(lái)解決采樣問(wèn)題。但是我面臨以下錯(cuò)誤:-SMOTE 錯(cuò)誤from imblearn.over_sampling import SMOTEsm = SMOTE(random_state=42)X_res, Y_res = sm.fit_sample(X_f, Y_f)錯(cuò)誤~/.local/lib/python3.6/site-packages/sklearn/neighbors/base.py in kneighbors(self, X, n_neighbors, return_distance)    414                 "Expected n_neighbors <= n_samples, "    415                 " but n_samples = %d, n_neighbors = %d" %--> 416                 (train_size, n_neighbors)    417             )    418         n_samples, _ = X.shapeValueError: Expected n_neighbors <= n_samples,  but n_samples = 1, n_neighbors = 6為什么它說(shuō)我只有 1 個(gè) n_samples?當(dāng)我為 10 萬(wàn)行(只有 4 個(gè)標(biāo)簽)的小得多的數(shù)據(jù)集嘗試相同的代碼時(shí),它運(yùn)行得很好。有關(guān)輸入的詳細(xì)信息輸入?yún)?shù)X_farray([[1.43347000e+05, 1.00000000e+00, 2.03869492e+03, ...,        1.00000000e+00, 1.00000000e+00, 1.35233019e+03],       [5.09050000e+04, 0.00000000e+00, 0.00000000e+00, ...,        5.09050000e+04, 0.00000000e+00, 5.09050000e+04],       [1.43899000e+05, 2.00000000e+00, 2.11447368e+03, ...,        1.00000000e+00, 2.00000000e+00, 1.39707767e+03],       ...,       [8.50000000e+01, 0.00000000e+00, 0.00000000e+00, ...,        8.50000000e+01, 0.00000000e+00, 8.50000000e+01],       [2.33000000e+02, 4.00000000e+00, 4.90000000e+01, ...,        4.00000000e+00, 4.00000000e+00, 7.76666667e+01],       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, ...,        0.00000000e+00, 0.00000000e+00, 0.00000000e+00]])輸入?yún)?shù)的維度print(X_f.shape, Y_f.shape)(2087620, 31) (2087620, 11)我嘗試使用其他imblearn包裝技術(shù)調(diào)試 SMOTE fit_resample() 方法 我知道 SMOTE 通過(guò)使用少數(shù)數(shù)據(jù)點(diǎn)的最近鄰居之間的歐幾里德距離合成少數(shù)樣本來(lái)工作。所以我打印了 ../python3.6/site-packages/sklearn/neighbors/base.py 文件中的 n_samples 變量。它顯示樣本從 5236 -> 103 -> 3 穩(wěn)步減少,然后我得到了錯(cuò)誤。我不明白發(fā)生了什么。使用SVMSMOTE:- 計(jì)算時(shí)間太長(zhǎng)(超過(guò) 2 天),并且 PC 崩潰。使用RandomOverSampler:- 模型的準(zhǔn)確度很差,為 45%使用不同的sampling_strategy:-minority僅適用于。此處和此處提供的建議也未成功。老實(shí)說(shuō),我無(wú)法理解他們。當(dāng)我將數(shù)據(jù)集減少到 100k、1k 和 5k 行時(shí),收到了同樣的錯(cuò)誤。盡管?chē)L試過(guò),但我還是不太明白。我是采樣的新手。你能幫我解決這個(gè)問(wèn)題嗎?
查看完整描述

2 回答

?
Cats萌萌

TA貢獻(xiàn)1805條經(jīng)驗(yàn) 獲得超9個(gè)贊

發(fā)生此錯(cuò)誤是因?yàn)閿?shù)據(jù)集中的某些實(shí)例太少。例如,在一個(gè) 2M 的強(qiáng)大數(shù)據(jù)集中,只有一個(gè)實(shí)例具有特定的標(biāo)簽“ ”。

因此,對(duì)于這個(gè)實(shí)例,沒(méi)有 SMOTE 算法的樣本來(lái)制作合成副本。仔細(xì)檢查您的數(shù)據(jù)集,并確保它干凈且可用。

使用刪除了不必要的實(shí)例 df.where("Label != '???'")


查看完整回答
反對(duì) 回復(fù) 2022-01-05
?
慕妹3242003

TA貢獻(xiàn)1824條經(jīng)驗(yàn) 獲得超6個(gè)贊

我今天遇到了類(lèi)似的問(wèn)題。當(dāng)我增加數(shù)據(jù)集的行數(shù)時(shí),問(wèn)題得到解決。當(dāng)我更改為 n_rows = 5000 時(shí),我首先嘗試使用 n_rows = 1000 的子樣本,但不再出現(xiàn)錯(cuò)誤。

由于數(shù)據(jù)集的輸入大小非常大,您可能會(huì)發(fā)現(xiàn)在應(yīng)用 imblearn 之前減小數(shù)據(jù)集的大小很有用。事實(shí)上,您將在網(wǎng)絡(luò)上找到一些實(shí)驗(yàn),這些實(shí)驗(yàn)表明存在數(shù)據(jù)集長(zhǎng)度閾值,其中分類(lèi)器不會(huì)顯著提高其性能。是這些實(shí)驗(yàn)之一。


查看完整回答
反對(duì) 回復(fù) 2022-01-05
  • 2 回答
  • 0 關(guān)注
  • 406 瀏覽
慕課專(zhuān)欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)