3 回答

TA貢獻(xiàn)1853條經(jīng)驗(yàn) 獲得超6個(gè)贊
我的感覺是(#translate 到直覺,而不是數(shù)學(xué)):
將根據(jù)這兩個(gè)詞彼此靠近或在相同上下文中使用的頻率來計(jì)算相似度。
如果你從那里去:
如果這兩個(gè)詞實(shí)際上相似,則它們使用的頻率越高 => 您擁有的訓(xùn)練數(shù)據(jù)越多 => 模型越好 => 它們越接近。
如果你有更多的上下文來使用這兩個(gè)詞,那么它們的關(guān)系會(huì)更緊密。
但是,如果它們在整個(gè)語料庫中出現(xiàn)的頻率較低,但在一起的頻率較高,則它們的關(guān)系也會(huì)更加緊密。
所以它更像是一個(gè) (frequency_same_context)/(frequency_overall)。如果你不改變它,你應(yīng)該沒問題,我猜?

TA貢獻(xiàn)1828條經(jīng)驗(yàn) 獲得超4個(gè)贊
如果您已經(jīng)“精簡”了一個(gè)單詞的示例上下文的數(shù)量,而不是其他單詞,那么相似性肯定會(huì)改變。
Word2Vec 依賴于許多不同的單詞用法示例。訓(xùn)練過程一次只考慮一個(gè)同時(shí)出現(xiàn)的例子。(在流行的 skip-gram 模式中,只有一個(gè)context-word -> target-word
例子。)。
訓(xùn)練反復(fù)向神經(jīng)網(wǎng)絡(luò)呈現(xiàn)一個(gè)單一的上下文,沿著一些有趣的小路徑子集檢查網(wǎng)絡(luò)的響應(yīng),并通過改變網(wǎng)絡(luò)的內(nèi)部權(quán)重和“投影權(quán)重”略微推動(dòng)網(wǎng)絡(luò)做得更好定義一個(gè)詞的向量。
與其他向量相比,正是所有這些更新的聚合效果,經(jīng)過多次迭代,最終將每個(gè)詞的向量推到了有用的地方。(這是改進(jìn)一些示例和改進(jìn)其他示例之間的“拔河”。)
任何改變所用示例組合的事情都會(huì)改變最終結(jié)果。特別是,如果A
整體單詞的示例較少,則使模型在包括A
. 它的最終位置和相關(guān)權(quán)重將更多地受到其他單詞更多示例的影響。
此外,精簡 的例子A
實(shí)際上會(huì)改變它與它曾經(jīng)共同訓(xùn)練過的所有單詞的共現(xiàn)率。更少的A
上下文意思的數(shù)量A -> B
和B -> A
環(huán)境也將發(fā)生變化,這也將改變字B
的最終位置。這適用于與,共現(xiàn)的所有其他單詞C
,D
等,A
尤其是當(dāng)某些上下文比其他上下文更稀薄時(shí)。(因?yàn)?,在?code>A的新發(fā)行版示例中,'context 2' 出現(xiàn)頻率為 1/5000,但 'context 3' 出現(xiàn)頻率為 1/10。)
請注意,在大多數(shù) Word2Vec 實(shí)現(xiàn)中都有一個(gè)頻繁詞下采樣功能,通常由一個(gè)名為 的參數(shù)控制sample
,它有意丟棄了許多非常頻繁出現(xiàn)的詞。這確實(shí)會(huì)有意地改變訓(xùn)練語料庫中單詞的相對頻率。
與無下采樣相比,這里精心選擇的值往往會(huì)加快訓(xùn)練速度并提高最終詞向量的質(zhì)量。為什么?一旦你有成百上千個(gè)頻繁詞的不同例子,額外的邊際例子并不能幫助改善這個(gè)詞 - 但它是花費(fèi)更多的時(shí)間和更高比例的整體訓(xùn)練時(shí)間,改進(jìn)那些常用詞的模型。并且這些詞的微小改進(jìn),在許多示例中,必須按照上述過程與對更稀有示例的更多詞的改進(jìn)進(jìn)行權(quán)衡。丟棄一些“過于頻繁”的詞讓其他詞對模型的最終狀態(tài)有更大的相對影響,甚至實(shí)際上甚至有效地縮小了稀有詞之間的有效上下文距離(當(dāng)更頻繁的介入詞被刪除時(shí))。

TA貢獻(xiàn)1805條經(jīng)驗(yàn) 獲得超10個(gè)贊
Gensim 實(shí)現(xiàn)了兩個(gè)詞向量模型:
跳碼
CBOW
兩者之間的區(qū)別在于如何使用特征化和標(biāo)簽來訓(xùn)練詞向量模型。
兩種模型都在標(biāo)記上下文上進(jìn)行訓(xùn)練,以將標(biāo)記自動(dòng)編碼為連續(xù)的語義向量空間。
跳格
訓(xùn)練的輸入是上下文窗口 n-gram,而預(yù)測標(biāo)簽是第 n 個(gè)標(biāo)記。
如果我們使用二元上下文窗口,輸入向量將使用標(biāo)記;
[Token_(n-2), Token_(n-1), Token_(n+1), Token_(n+2)]
要預(yù)測的標(biāo)簽將是
Token_n
CBOW
訓(xùn)練的輸入是上下文窗口 n-gram,而預(yù)測標(biāo)簽是第 n 個(gè)標(biāo)記。
如果我們使用二元上下文窗口,輸入向量將使用標(biāo)記;
Token_n
要預(yù)測的標(biāo)簽將是
[Token_(n-2), Token_(n-1), Token_(n+1), Token_(n+2)]
目的是什么?
顯然這是一個(gè)粗略的過度簡化,但它有助于我們問,詞向量模型有什么作用?
gensim中實(shí)現(xiàn)的詞向量模型的目的是什么?
這兩個(gè)模型為給定的標(biāo)記編碼語義上下文。
因此,詢問模型中單詞的相似程度應(yīng)該與它們所訓(xùn)練的上下文成正比。
TL; 博士
WV 模型對表示中的詞上下文進(jìn)行編碼。
因此,單詞的相似性與它們的數(shù)量不成正比,而與它們出現(xiàn)的上下文成正比。
添加回答
舉報(bào)