第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

用于多類目標(biāo)檢測(cè)的分層 K 折?

用于多類目標(biāo)檢測(cè)的分層 K 折?

qq_笑_17 2023-09-26 17:09:48
更新我已經(jīng)上傳了一個(gè)虛擬數(shù)據(jù)集,df.head():它總共有4 個(gè)類df.object.value_counts():human? ? 23car? ? ? 13cat? ? ? ?5dog? ? ? ?3我想對(duì)K-Fold多類對(duì)象檢測(cè)數(shù)據(jù)集進(jìn)行正確的驗(yàn)證分割。初步方法為了實(shí)現(xiàn)正確的 k 倍驗(yàn)證分割,我考慮了object counts和 的數(shù)量bounding box。據(jù)我了解,K-fold拆分策略主要取決于數(shù)據(jù)集(元信息)。但現(xiàn)在對(duì)于這些數(shù)據(jù)集,我嘗試了如下操作:skf = StratifiedKFold(n_splits=3, shuffle=True, random_state=101)df_folds = main_df[['image_id']].copy()df_folds.loc[:, 'bbox_count'] = 1df_folds = df_folds.groupby('image_id').count()df_folds.loc[:, 'object_count'] = main_df.groupby('image_id')['object'].nunique()df_folds.loc[:, 'stratify_group'] = np.char.add(? ? df_folds['object_count'].values.astype(str),? ? df_folds['bbox_count'].apply(lambda x: f'_{x // 15}').values.astype(str))df_folds.loc[:, 'fold'] = 0for fold_number, (train_index, val_index) in enumerate(skf.split(X=df_folds.index, y=df_folds['stratify_group'])):? ? df_folds.loc[df_folds.iloc[val_index].index, 'fold'] = fold_number拆分后,我檢查了它是否正常工作。到目前為止看起來還不錯(cuò)。所有的褶皺都包含分層k-fold樣本,len(df_folds[df_folds['fold'] == fold_number].index)并且彼此之間沒有交集,set(A).intersection(B)其中A和B是兩個(gè)褶皺的指數(shù)值(image_id)。但問題似乎是這樣的:Fold?0?has?total:?18?+?2?+?3?=?23?bbox Fold?1?has?total:?2?+?11?=?13?bbox Fold?2?has?total:?5?+?3?=?8?bbox憂慮但是,我無法確定這是否是完成此類任務(wù)的正確方法。我想要一些建議。上面的方法可以嗎?或者有什么問題嗎?或者有更好的方法!任何形式的建議將不勝感激。謝謝。
查看完整描述

3 回答

?
三國(guó)紛爭(zhēng)

TA貢獻(xiàn)1804條經(jīng)驗(yàn) 獲得超7個(gè)贊

您可以直接使用 StratifiedKFold() 或 StratifiedShuffleSplit() 來根據(jù)某些分類列使用分層采樣來分割數(shù)據(jù)集。


虛擬數(shù)據(jù):


import pandas as pd

import numpy as np


np.random.seed(43)

df = pd.DataFrame({'ID': (1,1,2,2,3,3),

               'Object': ('bus', 'car', 'bus', 'bus', 'bus', 'car'),

               'X' : np.random.randint(0, 10, 6),

               'Y' : np.random.randn(6)


})



df

使用 StratifiedKFold()


from sklearn.model_selection import StratifiedKFold


skf = StratifiedKFold(n_splits=2)


for train_index, test_index in skf.split(df, df["Object"]):

        strat_train_set_1 = df.loc[test_index]

        strat_test_set_1 = df.loc[test_index]


print('train_set :', strat_train_set_1, '\n' , 'test_set :', strat_test_set_1)

同樣,如果您選擇使用 StratifiedShuffleSplit(),您可以


from sklearn.model_selection import StratifiedShuffleSplit


sss = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)

# n_splits = Number of re-shuffling & splitting iterations.


for train_index, test_index in sss.split(df, df["Object"]):

 # split(X, y[, groups]) Generates indices to split data into training and test set.


        strat_train_set = df.loc[train_index]

        strat_test_set = df.loc[test_index]


print('train_set :', strat_train_set, '\n' , 'test_set :', strat_test_set)


查看完整回答
反對(duì) 回復(fù) 2023-09-26
?
弒天下

TA貢獻(xiàn)1818條經(jīng)驗(yàn) 獲得超8個(gè)贊

我會(huì)簡(jiǎn)單地使用KFoldpython 的 scikit-learn 方法來做到這一點(diǎn)


from numpy import array

from sklearn.model_selection import KFold

data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])

kfold = KFold(3, True, 1)

for train, test in kfold.split(data):

? ? print('train: %s, test: %s' % (data[train], data[test]))

查看完整回答
反對(duì) 回復(fù) 2023-09-26
?
繁星coding

TA貢獻(xiàn)1797條經(jīng)驗(yàn) 獲得超4個(gè)贊

創(chuàng)建交叉驗(yàn)證拆分時(shí),我們關(guān)心創(chuàng)建的折疊,這些折疊對(duì)數(shù)據(jù)中遇到的各種“案例”具有良好的分布。

就您而言,您決定根據(jù)汽車數(shù)量和邊界框數(shù)量進(jìn)行折疊,這是一個(gè)不錯(cuò)但有限的選擇。因此,如果您可以使用數(shù)據(jù)/元數(shù)據(jù)識(shí)別特定情況,您可以嘗試使用它創(chuàng)建更智能的折疊。

最明顯的選擇是平衡折疊中的對(duì)象類型(類),但您可以走得更遠(yuǎn)。

這是主要思想,假設(shè)您有主要在法國(guó)遇到的汽車的圖像,以及主要在美國(guó)遇到的其他汽車的圖像,它可以用于創(chuàng)建良好的折疊,每個(gè)折疊中法國(guó)和美國(guó)汽車的數(shù)量保持平衡。天氣條件等也可以這樣做。因此,每次折疊都將包含可供學(xué)習(xí)的代表性數(shù)據(jù),以便您的網(wǎng)絡(luò)不會(huì)對(duì)您的任務(wù)產(chǎn)生偏見。因此,您的模型對(duì)于現(xiàn)實(shí)生活中數(shù)據(jù)的潛在變化將更加穩(wěn)健。

那么,您可以在交叉驗(yàn)證策略中添加一些元數(shù)據(jù)來創(chuàng)建更好的簡(jiǎn)歷嗎?如果不是這種情況,您能否使用數(shù)據(jù)集的 x、y、w、h 列獲取有關(guān)潛在極端情況的信息?

然后,您應(yīng)該嘗試在樣本方面進(jìn)行平衡折疊,以便在相同的樣本大小上評(píng)估您的分?jǐn)?shù),這將減少方差并最終提供更好的評(píng)估。


查看完整回答
反對(duì) 回復(fù) 2023-09-26
  • 3 回答
  • 0 關(guān)注
  • 142 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)