1 回答

TA貢獻1878條經(jīng)驗 獲得超4個贊
每次調(diào)用Word2Vec()
構(gòu)造函數(shù)都會創(chuàng)建一個全新的模型。
但是,由于各種原因,在正常情況下運行并不是完全確定的,因此下游評估(如未顯示的聚類)的結(jié)果質(zhì)量會在運行之間抖動。
如果相同的數(shù)據(jù)重復(fù)跑的方差很大,那很可能是其他問題,比如過大的模型容易過擬合。(運行之間的穩(wěn)定性可以是一個指標,表明您的過程已充分指定,數(shù)據(jù)和模型選擇正在驅(qū)動結(jié)果,而不是算法使用的隨機性。)
如果此解釋不令人滿意,請嘗試在您的問題中添加更多信息 - 例如您的評估分數(shù)的實際大小,在重復(fù)運行中,無論是否有您推測的影響結(jié)果的變化。(我懷疑您認為有效的步驟的變化不會大于重新運行或不同seed
值的變化。)
(更一般地說,Word2Vec
通??释M可能多的不同訓(xùn)練數(shù)據(jù);只有當文本不代表相關(guān)領(lǐng)域時,它們才可能導(dǎo)致更糟糕的模型。所以我通常不希望對哪個子集有更多選擇句子最好是一項重要的技術(shù),除非某些句子完全是垃圾/噪音,但當然總會有變化,您會發(fā)現(xiàn)對您的特定數(shù)據(jù)/目標有一些影響。)
添加回答
舉報