首頁猿問 gensim...

gensim `Word2Vec()` 構(gòu)造函數(shù)是否構(gòu)建了一個完全獨立的模型？

Python

瀟湘沐 2023-06-13 19:21:17

我正在測試用相同的整體詞匯量喂養(yǎng) gensim 的 Word2Vec 不同句子，看看是否有些句子比其他句子攜帶“更好”的信息。我訓(xùn)練 Word2Vec 的方法是這樣的def encode_sentences(self, w2v_params, sentences): model = Word2Vec(sentences, **w2v_params) idx_order = torch.tensor([int(i) for i in model.wv.index2entity], dtype=torch.long) X = torch.zeros((idx_order.max()+1, w2v_params['size']), dtype=torch.float) # Put embeddings back in order X[idx_order] = torch.tensor(model.wv.vectors) return X, y我在這里希望的是，每次運行 w2v 時，它都會從一個新模型開始并從頭開始訓(xùn)練。但是，我正在測試 3 種句子，所以我的測試代碼如下所示：def test(sentence): w2v = {'size': 128, 'sg': 1} X = encode_sentences(w2v, sentence) evaluate(X) # Basic cluster analysis stuff here# s1, s2 and s3 are the 3 sets of sentences with the same vocabulary in different order/frequency[print(test(s) for s in [s1, s2, s3]]但是，我注意到如果我刪除其中一個測試集，并且只測試s1和s2（或三者中的兩組的任意組合），則聚類的整體質(zhì)量會下降。如果我在調(diào)用之前返回encode_sentences并添加，整體集群質(zhì)量也會下降，但無論測試多少數(shù)據(jù)集都保持一致。del modelreturn是什么賦予了？構(gòu)造函數(shù)實際上不是每次都使用新權(quán)重構(gòu)建新模型嗎？文檔和源代碼沒有說明這一點。我很確定這不是我的評估方法，因為del model添加后一切都已修復(fù)。我在這里不知所措......這些運行實際上是獨立的，還是每次調(diào)用都Word2Vec(foo, ...)相當于用新數(shù)據(jù)重新訓(xùn)練以前的模型foo？在你問之前，nomodel不在變量范圍之外encode_sentence；那是整個程序中唯一一次使用變量名。很奇怪。

查看完整描述

1 回答

UYOU

TA貢獻1878條經(jīng)驗獲得超4個贊

每次調(diào)用Word2Vec()構(gòu)造函數(shù)都會創(chuàng)建一個全新的模型。

但是，由于各種原因，在正常情況下運行并不是完全確定的，因此下游評估（如未顯示的聚類）的結(jié)果質(zhì)量會在運行之間抖動。

如果相同的數(shù)據(jù)重復(fù)跑的方差很大，那很可能是其他問題，比如過大的模型容易過擬合。（運行之間的穩(wěn)定性可以是一個指標，表明您的過程已充分指定，數(shù)據(jù)和模型選擇正在驅(qū)動結(jié)果，而不是算法使用的隨機性。）

如果此解釋不令人滿意，請嘗試在您的問題中添加更多信息 - 例如您的評估分數(shù)的實際大小，在重復(fù)運行中，無論是否有您推測的影響結(jié)果的變化。（我懷疑您認為有效的步驟的變化不會大于重新運行或不同seed值的變化。）

（更一般地說，Word2Vec通?？释M可能多的不同訓(xùn)練數(shù)據(jù)；只有當文本不代表相關(guān)領(lǐng)域時，它們才可能導(dǎo)致更糟糕的模型。所以我通常不希望對哪個子集有更多選擇句子最好是一項重要的技術(shù)，除非某些句子完全是垃圾/噪音，但當然總會有變化，您會發(fā)現(xiàn)對您的特定數(shù)據(jù)/目標有一些影響。）

反對回復(fù) 2023-06-13