第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機(jī)立即綁定

word_embedding的負(fù)采樣算法,Negative Sampling 模型

標(biāo)簽:
深度學(xué)習(xí)

Negative Sampling 模型的CBOW和Skip-gram的原理。它相对于Hierarchical softmax 模型来说,不再采用huffman树,这样可以大幅提高性能。
一、Negative Sampling
       在负采样中,对于给定的词w,如何生成它的负采样集合NEG(w)呢?已知一个词w,它的上下文是context(w),那么词w就是一个正例,其他词就是一个负例。但是负例样本太多了,我们怎么去选取呢?在语料库C中,各个词出现的频率是不一样的,我们采样的时候要求高频词选中的概率较大,而低频词选中的概率较小。这就是一个带权采样的问题。设词典D中的每一个词w对应线段的一个长度:  
       任何采样算法都应该保证频次越高的样本越容易被采样出来。基本的思路是对于长度为1的线段,根据词语的词频将其公平地分配给每个词语:
https://img1.sycdn.imooc.com//5b3e0683000158d404600154.jpg
counter就是w的词频。
于是我们将该线段公平地分配了:
https://img1.sycdn.imooc.com//5b3e068d0001f95312120130.jpg

接下来我们只要生成一个0-1之间的随机数,看看落到哪个区间,就能采样到该区间对应的单词了,很公平。

但怎么根据小数找区间呢?速度慢可不行。

word2vec用的是一种查表的方式,将上述线段标上M个“刻度”,刻度之间的间隔是相等的,即1/M:
https://img1.sycdn.imooc.com//5b3e069a00015ae512480432.jpg
接着我们就不生成0-1之间的随机数了,我们生成0-M之间的整数,去这个刻度尺上一查就能抽中一个单词了。

在word2vec中,该“刻度尺”对应着table数组。具体实现时,对词频取了0.75次幂:

https://img1.sycdn.imooc.com//5b3e06a500019f5b05360168.jpg

https://img1.sycdn.imooc.com//5b3e06b200011e0a05960263.jpg  
这个幂实际上是一种“平滑”策略,能够让低频词多一些出场机会,高频词贡献一些出场机会,劫富济贫。

二、CBOW

https://img1.sycdn.imooc.com//5b3e06be0001d1b309750793.jpg
 https://img1.sycdn.imooc.com//5b3e06c70001864d11200697.jpg
https://img1.sycdn.imooc.com//5b3e06d4000187a410810752.jpg
https://img1.sycdn.imooc.com//5b3e06de0001f7f310460391.jpg

三、损失函数
NCE损失函数表示如下:  
Jθ=−∑w∈V(logP(y=1|x)+∑i=1klogP(y=0|x(w(i))))Jθ=−∑w∈V(log⁡P(y=1|x)+∑i=1klog⁡P(y=0|x(w(i))))
该损失函数计算上下文与目标单词之间的点积,采集每一个正样本的同时采集k个负样本。公式的第一项最小化正样本的损失,第二项最大化负样本的损失。现在如果将负样本作为第一项的变量输入,则损失函数结果应该很大。

参考文献:
http://www.cnblogs.com/neopenx/p/4571996.html


點(diǎn)擊查看更多內(nèi)容
1人點(diǎn)贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優(yōu)質(zhì)文章

正在加載中
感謝您的支持,我會繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊有機(jī)會得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

舉報

0/150
提交
取消