第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會有你想問的

gensim `Word2Vec()` 構(gòu)造函數(shù)是否構(gòu)建了一個(gè)完全獨(dú)立的模型?

gensim `Word2Vec()` 構(gòu)造函數(shù)是否構(gòu)建了一個(gè)完全獨(dú)立的模型?

瀟湘沐 2023-06-13 19:21:17
我正在測試用相同的整體詞匯量喂養(yǎng) gensim 的 Word2Vec 不同句子,看看是否有些句子比其他句子攜帶“更好”的信息。我訓(xùn)練 Word2Vec 的方法是這樣的def encode_sentences(self, w2v_params, sentences):    model = Word2Vec(sentences, **w2v_params)        idx_order = torch.tensor([int(i) for i in model.wv.index2entity], dtype=torch.long)    X = torch.zeros((idx_order.max()+1, w2v_params['size']), dtype=torch.float)        # Put embeddings back in order    X[idx_order] = torch.tensor(model.wv.vectors)        return X, y我在這里希望的是,每次運(yùn)行 w2v 時(shí),它都會從一個(gè)新模型開始并從頭開始訓(xùn)練。但是,我正在測試 3 種句子,所以我的測試代碼如下所示:def test(sentence):    w2v = {'size': 128, 'sg': 1}    X = encode_sentences(w2v, sentence)    evaluate(X) # Basic cluster analysis stuff here# s1, s2 and s3 are the 3 sets of sentences with the same vocabulary in different order/frequency[print(test(s) for s in [s1, s2, s3]]但是,我注意到如果我刪除其中一個(gè)測試集,并且只測試s1和s2(或三者中的兩組的任意組合),則聚類的整體質(zhì)量會下降。如果我在調(diào)用之前返回encode_sentences并添加,整體集群質(zhì)量也會下降,但無論測試多少數(shù)據(jù)集都保持一致。del modelreturn是什么賦予了?構(gòu)造函數(shù)實(shí)際上不是每次都使用新權(quán)重構(gòu)建新模型嗎?文檔和源代碼沒有說明這一點(diǎn)。我很確定這不是我的評估方法,因?yàn)閐el model添加后一切都已修復(fù)。我在這里不知所措......這些運(yùn)行實(shí)際上是獨(dú)立的,還是每次調(diào)用都Word2Vec(foo, ...)相當(dāng)于用新數(shù)據(jù)重新訓(xùn)練以前的模型foo?在你問之前,nomodel不在變量范圍之外encode_sentence;那是整個(gè)程序中唯一一次使用變量名。很奇怪。
查看完整描述

1 回答

?
UYOU

TA貢獻(xiàn)1878條經(jīng)驗(yàn) 獲得超4個(gè)贊

每次調(diào)用Word2Vec()構(gòu)造函數(shù)都會創(chuàng)建一個(gè)全新的模型。

但是,由于各種原因,在正常情況下運(yùn)行并不是完全確定的,因此下游評估(如未顯示的聚類)的結(jié)果質(zhì)量會在運(yùn)行之間抖動。

如果相同的數(shù)據(jù)重復(fù)跑的方差很大,那很可能是其他問題,比如過大的模型容易過擬合。(運(yùn)行之間的穩(wěn)定性可以是一個(gè)指標(biāo),表明您的過程已充分指定,數(shù)據(jù)和模型選擇正在驅(qū)動結(jié)果,而不是算法使用的隨機(jī)性。)

如果此解釋不令人滿意,請嘗試在您的問題中添加更多信息 - 例如您的評估分?jǐn)?shù)的實(shí)際大小,在重復(fù)運(yùn)行中,無論是否有您推測的影響結(jié)果的變化。(我懷疑您認(rèn)為有效的步驟的變化不會大于重新運(yùn)行或不同seed值的變化。)

(更一般地說,Word2Vec通??释M可能多的不同訓(xùn)練數(shù)據(jù);只有當(dāng)文本不代表相關(guān)領(lǐng)域時(shí),它們才可能導(dǎo)致更糟糕的模型。所以我通常不希望對哪個(gè)子集有更多選擇句子最好是一項(xiàng)重要的技術(shù),除非某些句子完全是垃圾/噪音,但當(dāng)然總會有變化,您會發(fā)現(xiàn)對您的特定數(shù)據(jù)/目標(biāo)有一些影響。)


查看完整回答
反對 回復(fù) 2023-06-13
  • 1 回答
  • 0 關(guān)注
  • 121 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號