首頁猿問單詞 A 和 B...

單詞 A 和 B 之間的語義相似性：依賴于語料庫中 A 和 B 的頻率？

Python

哈士奇WWW 2021-12-29 10:59:07

背景：給定一個(gè)語料庫，我想用 word2wec (Gensim) 的實(shí)現(xiàn)來訓(xùn)練它。想了解 2 個(gè)標(biāo)記之間的最終相似度是否取決于語料庫中 A 和 B 的頻率（保留所有上下文），還是不可知。例子：（可能不理想，但用它來闡述問題陳述）假設(shè)單詞“A”在語料庫中的 3 個(gè)不同上下文中使用：Context 1 : 1000 timesContext 2 : 50000 timesContext 3 : 50000 times'B' 用于 2 個(gè)不同的上下文：Context 1 : 300 times Context 5 : 1000 time問題：如果我更改語料庫中“A”的頻率（確保沒有上下文丟失，即“A”在所有上下文中仍像原始語料庫一樣至少使用一次），A 和 B 之間的相似性是是相同的？'A' 跨上下文的新分布 Context 1 : 5 times Context 2 : 10 times Context 3 : 5000 times任何線索表示贊賞

查看完整描述

3 回答

墨色風(fēng)雨

TA貢獻(xiàn)1853條經(jīng)驗(yàn) 獲得超6個(gè)贊

我的感覺是（#translate 到直覺，而不是數(shù)學(xué)）：

將根據(jù)這兩個(gè)詞彼此靠近或在相同上下文中使用的頻率來計(jì)算相似度。

如果你從那里去：

如果這兩個(gè)詞實(shí)際上相似，則它們使用的頻率越高 => 您擁有的訓(xùn)練數(shù)據(jù)越多 => 模型越好 => 它們越接近。

如果你有更多的上下文來使用這兩個(gè)詞，那么它們的關(guān)系會(huì)更緊密。

但是，如果它們在整個(gè)語料庫中出現(xiàn)的頻率較低，但在一起的頻率較高，則它們的關(guān)系也會(huì)更加緊密。

所以它更像是一個(gè) (frequency_same_context)/(frequency_overall)。如果你不改變它，你應(yīng)該沒問題，我猜？

反對回復(fù) 2021-12-29

明月笑刀無情

TA貢獻(xiàn)1828條經(jīng)驗(yàn) 獲得超4個(gè)贊

如果您已經(jīng)“精簡”了一個(gè)單詞的示例上下文的數(shù)量，而不是其他單詞，那么相似性肯定會(huì)改變。

Word2Vec 依賴于許多不同的單詞用法示例。訓(xùn)練過程一次只考慮一個(gè)同時(shí)出現(xiàn)的例子。（在流行的 skip-gram 模式中，只有一個(gè)context-word -> target-word例子。）。

訓(xùn)練反復(fù)向神經(jīng)網(wǎng)絡(luò)呈現(xiàn)一個(gè)單一的上下文，沿著一些有趣的小路徑子集檢查網(wǎng)絡(luò)的響應(yīng)，并通過改變網(wǎng)絡(luò)的內(nèi)部權(quán)重和“投影權(quán)重”略微推動(dòng)網(wǎng)絡(luò)做得更好定義一個(gè)詞的向量。

與其他向量相比，正是所有這些更新的聚合效果，經(jīng)過多次迭代，最終將每個(gè)詞的向量推到了有用的地方。（這是改進(jìn)一些示例和改進(jìn)其他示例之間的“拔河”。）

任何改變所用示例組合的事情都會(huì)改變最終結(jié)果。特別是，如果A整體單詞的示例較少，則使模型在包括A. 它的最終位置和相關(guān)權(quán)重將更多地受到其他單詞更多示例的影響。

此外，精簡的例子A實(shí)際上會(huì)改變它與它曾經(jīng)共同訓(xùn)練過的所有單詞的共現(xiàn)率。更少的A上下文意思的數(shù)量A -> B和B -> A環(huán)境也將發(fā)生變化，這也將改變字B的最終位置。這適用于與,共現(xiàn)的所有其他單詞C,D等，A尤其是當(dāng)某些上下文比其他上下文更稀薄時(shí)。（因?yàn)?，在?code>A的新發(fā)行版示例中，'context 2' 出現(xiàn)頻率為 1/5000，但 'context 3' 出現(xiàn)頻率為 1/10。）

請注意，在大多數(shù) Word2Vec 實(shí)現(xiàn)中都有一個(gè)頻繁詞下采樣功能，通常由一個(gè)名為的參數(shù)控制sample，它有意丟棄了許多非常頻繁出現(xiàn)的詞。這確實(shí)會(huì)有意地改變訓(xùn)練語料庫中單詞的相對頻率。

與無下采樣相比，這里精心選擇的值往往會(huì)加快訓(xùn)練速度并提高最終詞向量的質(zhì)量。為什么？一旦你有成百上千個(gè)頻繁詞的不同例子，額外的邊際例子并不能幫助改善這個(gè)詞 - 但它是花費(fèi)更多的時(shí)間和更高比例的整體訓(xùn)練時(shí)間，改進(jìn)那些常用詞的模型。并且這些詞的微小改進(jìn)，在許多示例中，必須按照上述過程與對更稀有示例的更多詞的改進(jìn)進(jìn)行權(quán)衡。丟棄一些“過于頻繁”的詞讓其他詞對模型的最終狀態(tài)有更大的相對影響，甚至實(shí)際上甚至有效地縮小了稀有詞之間的有效上下文距離（當(dāng)更頻繁的介入詞被刪除時(shí)）。

反對回復(fù) 2021-12-29

holdtom

TA貢獻(xiàn)1805條經(jīng)驗(yàn) 獲得超10個(gè)贊

Gensim 實(shí)現(xiàn)了兩個(gè)詞向量模型：

跳碼
CBOW

兩者之間的區(qū)別在于如何使用特征化和標(biāo)簽來訓(xùn)練詞向量模型。

兩種模型都在標(biāo)記上下文上進(jìn)行訓(xùn)練，以將標(biāo)記自動(dòng)編碼為連續(xù)的語義向量空間。

跳格

訓(xùn)練的輸入是上下文窗口 n-gram，而預(yù)測標(biāo)簽是第 n 個(gè)標(biāo)記。

如果我們使用二元上下文窗口，輸入向量將使用標(biāo)記；

[Token_(n-2), Token_(n-1), Token_(n+1), Token_(n+2)]

要預(yù)測的標(biāo)簽將是

Token_n

CBOW

訓(xùn)練的輸入是上下文窗口 n-gram，而預(yù)測標(biāo)簽是第 n 個(gè)標(biāo)記。

如果我們使用二元上下文窗口，輸入向量將使用標(biāo)記；

Token_n

要預(yù)測的標(biāo)簽將是

[Token_(n-2), Token_(n-1), Token_(n+1), Token_(n+2)]

目的是什么？

顯然這是一個(gè)粗略的過度簡化，但它有助于我們問，詞向量模型有什么作用？

gensim中實(shí)現(xiàn)的詞向量模型的目的是什么？

這兩個(gè)模型為給定的標(biāo)記編碼語義上下文。

因此，詢問模型中單詞的相似程度應(yīng)該與它們所訓(xùn)練的上下文成正比。

TL; 博士

WV 模型對表示中的詞上下文進(jìn)行編碼。

因此，單詞的相似性與它們的數(shù)量不成正比，而與它們出現(xiàn)的上下文成正比。

反對回復(fù) 2021-12-29

3 回答
0 關(guān)注
164 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

單詞 A 和 B 之間的語義相似性：依賴于語料庫中 A 和 B 的頻率？

單詞 A 和 B 之間的語義相似性：依賴于語料庫中 A 和 B 的頻率？

3 回答

跳格

CBOW

目的是什么？

TL; 博士

添加回答

目的是什么？