第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

單詞 A 和 B 之間的語義相似性:依賴于語料庫中 A 和 B 的頻率?

單詞 A 和 B 之間的語義相似性:依賴于語料庫中 A 和 B 的頻率?

哈士奇WWW 2021-12-29 10:59:07
背景 :給定一個(gè)語料庫,我想用 word2wec (Gensim) 的實(shí)現(xiàn)來訓(xùn)練它。想了解 2 個(gè)標(biāo)記之間的最終相似度是否取決于語料庫中 A 和 B 的頻率(保留所有上下文),還是不可知。例子:(可能不理想,但用它來闡述問題陳述)假設(shè)單詞“A”在語料庫中的 3 個(gè)不同上下文中使用:Context 1 : 1000 timesContext 2 : 50000 timesContext 3 : 50000 times'B' 用于 2 個(gè)不同的上下文:Context 1 : 300 times Context 5 : 1000 time問題 :如果我更改語料庫中“A”的頻率(確保沒有上下文丟失,即“A”在所有上下文中仍像原始語料庫一樣至少使用一次),A 和 B 之間的相似性是是相同的 ?'A' 跨上下文的新分布 Context 1 : 5 times Context 2 : 10 times Context 3 : 5000 times任何線索表示贊賞
查看完整描述

3 回答

?
墨色風(fēng)雨

TA貢獻(xiàn)1853條經(jīng)驗(yàn) 獲得超6個(gè)贊

我的感覺是(#translate 到直覺,而不是數(shù)學(xué)):

將根據(jù)這兩個(gè)詞彼此靠近或在相同上下文中使用的頻率來計(jì)算相似度。

如果你從那里去:

如果這兩個(gè)詞實(shí)際上相似,則它們使用的頻率越高 => 您擁有的訓(xùn)練數(shù)據(jù)越多 => 模型越好 => 它們越接近。

如果你有更多的上下文來使用這兩個(gè)詞,那么它們的關(guān)系會(huì)更緊密。

但是,如果它們在整個(gè)語料庫中出現(xiàn)的頻率較低,但在一起的頻率較高,則它們的關(guān)系也會(huì)更加緊密。

所以它更像是一個(gè) (frequency_same_context)/(frequency_overall)。如果你不改變它,你應(yīng)該沒問題,我猜?


查看完整回答
反對 回復(fù) 2021-12-29
?
明月笑刀無情

TA貢獻(xiàn)1828條經(jīng)驗(yàn) 獲得超4個(gè)贊

如果您已經(jīng)“精簡”了一個(gè)單詞的示例上下文的數(shù)量,而不是其他單詞,那么相似性肯定會(huì)改變。

Word2Vec 依賴于許多不同的單詞用法示例。訓(xùn)練過程一次只考慮一個(gè)同時(shí)出現(xiàn)的例子。(在流行的 skip-gram 模式中,只有一個(gè)context-word -> target-word例子。)。

訓(xùn)練反復(fù)向神經(jīng)網(wǎng)絡(luò)呈現(xiàn)一個(gè)單一的上下文,沿著一些有趣的小路徑子集檢查網(wǎng)絡(luò)的響應(yīng),并通過改變網(wǎng)絡(luò)的內(nèi)部權(quán)重和“投影權(quán)重”略微推動(dòng)網(wǎng)絡(luò)做得更好定義一個(gè)詞的向量。

與其他向量相比,正是所有這些更新的聚合效果,經(jīng)過多次迭代,最終將每個(gè)詞的向量推到了有用的地方。(這是改進(jìn)一些示例和改進(jìn)其他示例之間的“拔河”。)

任何改變所用示例組合的事情都會(huì)改變最終結(jié)果。特別是,如果A整體單詞的示例較少,則使模型在包括A. 它的最終位置和相關(guān)權(quán)重將更多地受到其他單詞更多示例的影響。

此外,精簡 的例子A實(shí)際上會(huì)改變它與它曾經(jīng)共同訓(xùn)練過的所有單詞的共現(xiàn)率。更少的A上下文意思的數(shù)量A -> BB -> A環(huán)境也將發(fā)生變化,這也將改變字B的最終位置。這適用于與,共現(xiàn)的所有其他單詞C,D等,A尤其是當(dāng)某些上下文比其他上下文更稀薄時(shí)。(因?yàn)?,在?code>A的新發(fā)行版示例中,'context 2' 出現(xiàn)頻率為 1/5000,但 'context 3' 出現(xiàn)頻率為 1/10。)

請注意,在大多數(shù) Word2Vec 實(shí)現(xiàn)中都有一個(gè)頻繁詞下采樣功能,通常由一個(gè)名為 的參數(shù)控制sample,它有意丟棄了許多非常頻繁出現(xiàn)的詞。這確實(shí)會(huì)有意地改變訓(xùn)練語料庫中單詞的相對頻率。

與無下采樣相比,這里精心選擇的值往往會(huì)加快訓(xùn)練速度提高最終詞向量的質(zhì)量。為什么?一旦你有成百上千個(gè)頻繁詞的不同例子,額外的邊際例子并不能幫助改善這個(gè)詞 - 但它花費(fèi)更多的時(shí)間和更高比例的整體訓(xùn)練時(shí)間,改進(jìn)那些常用詞的模型。并且這些詞的微小改進(jìn),在許多示例中,必須按照上述過程與對更稀有示例的更多詞的改進(jìn)進(jìn)行權(quán)衡。丟棄一些“過于頻繁”的詞讓其他詞對模型的最終狀態(tài)有更大的相對影響,甚至實(shí)際上甚至有效地縮小了稀有詞之間的有效上下文距離(當(dāng)更頻繁的介入詞被刪除時(shí))。


查看完整回答
反對 回復(fù) 2021-12-29
?
holdtom

TA貢獻(xiàn)1805條經(jīng)驗(yàn) 獲得超10個(gè)贊

Gensim 實(shí)現(xiàn)了兩個(gè)詞向量模型:

  1. 跳碼

  2. CBOW

兩者之間的區(qū)別在于如何使用特征化和標(biāo)簽來訓(xùn)練詞向量模型。

兩種模型都在標(biāo)記上下文上進(jìn)行訓(xùn)練,以將標(biāo)記自動(dòng)編碼為連續(xù)的語義向量空間。

跳格

訓(xùn)練的輸入是上下文窗口 n-gram,而預(yù)測標(biāo)簽是第 n 個(gè)標(biāo)記。

如果我們使用二元上下文窗口,輸入向量將使用標(biāo)記;

[Token_(n-2), Token_(n-1), Token_(n+1), Token_(n+2)]

要預(yù)測的標(biāo)簽將是

Token_n

CBOW

訓(xùn)練的輸入是上下文窗口 n-gram,而預(yù)測標(biāo)簽是第 n 個(gè)標(biāo)記。

如果我們使用二元上下文窗口,輸入向量將使用標(biāo)記;

Token_n

要預(yù)測的標(biāo)簽將是

[Token_(n-2), Token_(n-1), Token_(n+1), Token_(n+2)]

目的是什么?

顯然這是一個(gè)粗略的過度簡化,但它有助于我們問,詞向量模型有什么作用?

gensim中實(shí)現(xiàn)的詞向量模型的目的是什么?

這兩個(gè)模型為給定的標(biāo)記編碼語義上下文。

因此,詢問模型中單詞的相似程度應(yīng)該與它們所訓(xùn)練的上下文成正比

TL; 博士

WV 模型對表示中的詞上下文進(jìn)行編碼。

因此,單詞的相似性與它們的數(shù)量不成正比,而與它們出現(xiàn)的上下文成正比。


查看完整回答
反對 回復(fù) 2021-12-29
  • 3 回答
  • 0 關(guān)注
  • 164 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號