3 回答

TA貢獻(xiàn)1804條經(jīng)驗(yàn) 獲得超7個(gè)贊
您可以直接使用 StratifiedKFold() 或 StratifiedShuffleSplit() 來根據(jù)某些分類列使用分層采樣來分割數(shù)據(jù)集。
虛擬數(shù)據(jù):
import pandas as pd
import numpy as np
np.random.seed(43)
df = pd.DataFrame({'ID': (1,1,2,2,3,3),
'Object': ('bus', 'car', 'bus', 'bus', 'bus', 'car'),
'X' : np.random.randint(0, 10, 6),
'Y' : np.random.randn(6)
})
df
使用 StratifiedKFold()
from sklearn.model_selection import StratifiedKFold
skf = StratifiedKFold(n_splits=2)
for train_index, test_index in skf.split(df, df["Object"]):
strat_train_set_1 = df.loc[test_index]
strat_test_set_1 = df.loc[test_index]
print('train_set :', strat_train_set_1, '\n' , 'test_set :', strat_test_set_1)
同樣,如果您選擇使用 StratifiedShuffleSplit(),您可以
from sklearn.model_selection import StratifiedShuffleSplit
sss = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
# n_splits = Number of re-shuffling & splitting iterations.
for train_index, test_index in sss.split(df, df["Object"]):
# split(X, y[, groups]) Generates indices to split data into training and test set.
strat_train_set = df.loc[train_index]
strat_test_set = df.loc[test_index]
print('train_set :', strat_train_set, '\n' , 'test_set :', strat_test_set)

TA貢獻(xiàn)1818條經(jīng)驗(yàn) 獲得超8個(gè)贊
我會(huì)簡(jiǎn)單地使用KFoldpython 的 scikit-learn 方法來做到這一點(diǎn)
from numpy import array
from sklearn.model_selection import KFold
data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])
kfold = KFold(3, True, 1)
for train, test in kfold.split(data):
? ? print('train: %s, test: %s' % (data[train], data[test]))

TA貢獻(xiàn)1797條經(jīng)驗(yàn) 獲得超4個(gè)贊
創(chuàng)建交叉驗(yàn)證拆分時(shí),我們關(guān)心創(chuàng)建的折疊,這些折疊對(duì)數(shù)據(jù)中遇到的各種“案例”具有良好的分布。
就您而言,您決定根據(jù)汽車數(shù)量和邊界框數(shù)量進(jìn)行折疊,這是一個(gè)不錯(cuò)但有限的選擇。因此,如果您可以使用數(shù)據(jù)/元數(shù)據(jù)識(shí)別特定情況,您可以嘗試使用它創(chuàng)建更智能的折疊。
最明顯的選擇是平衡折疊中的對(duì)象類型(類),但您可以走得更遠(yuǎn)。
這是主要思想,假設(shè)您有主要在法國(guó)遇到的汽車的圖像,以及主要在美國(guó)遇到的其他汽車的圖像,它可以用于創(chuàng)建良好的折疊,每個(gè)折疊中法國(guó)和美國(guó)汽車的數(shù)量保持平衡。天氣條件等也可以這樣做。因此,每次折疊都將包含可供學(xué)習(xí)的代表性數(shù)據(jù),以便您的網(wǎng)絡(luò)不會(huì)對(duì)您的任務(wù)產(chǎn)生偏見。因此,您的模型對(duì)于現(xiàn)實(shí)生活中數(shù)據(jù)的潛在變化將更加穩(wěn)健。
那么,您可以在交叉驗(yàn)證策略中添加一些元數(shù)據(jù)來創(chuàng)建更好的簡(jiǎn)歷嗎?如果不是這種情況,您能否使用數(shù)據(jù)集的 x、y、w、h 列獲取有關(guān)潛在極端情況的信息?
然后,您應(yīng)該嘗試在樣本方面進(jìn)行平衡折疊,以便在相同的樣本大小上評(píng)估您的分?jǐn)?shù),這將減少方差并最終提供更好的評(píng)估。
添加回答
舉報(bào)