1 回答

TA貢獻(xiàn)1878條經(jīng)驗(yàn) 獲得超4個(gè)贊
每次調(diào)用Word2Vec()
構(gòu)造函數(shù)都會創(chuàng)建一個(gè)全新的模型。
但是,由于各種原因,在正常情況下運(yùn)行并不是完全確定的,因此下游評估(如未顯示的聚類)的結(jié)果質(zhì)量會在運(yùn)行之間抖動。
如果相同的數(shù)據(jù)重復(fù)跑的方差很大,那很可能是其他問題,比如過大的模型容易過擬合。(運(yùn)行之間的穩(wěn)定性可以是一個(gè)指標(biāo),表明您的過程已充分指定,數(shù)據(jù)和模型選擇正在驅(qū)動結(jié)果,而不是算法使用的隨機(jī)性。)
如果此解釋不令人滿意,請嘗試在您的問題中添加更多信息 - 例如您的評估分?jǐn)?shù)的實(shí)際大小,在重復(fù)運(yùn)行中,無論是否有您推測的影響結(jié)果的變化。(我懷疑您認(rèn)為有效的步驟的變化不會大于重新運(yùn)行或不同seed
值的變化。)
(更一般地說,Word2Vec
通??释M可能多的不同訓(xùn)練數(shù)據(jù);只有當(dāng)文本不代表相關(guān)領(lǐng)域時(shí),它們才可能導(dǎo)致更糟糕的模型。所以我通常不希望對哪個(gè)子集有更多選擇句子最好是一項(xiàng)重要的技術(shù),除非某些句子完全是垃圾/噪音,但當(dāng)然總會有變化,您會發(fā)現(xiàn)對您的特定數(shù)據(jù)/目標(biāo)有一些影響。)
添加回答
舉報(bào)