第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何以最佳方式處理不在 word2vec 詞匯中的單詞

如何以最佳方式處理不在 word2vec 詞匯中的單詞

湖上湖 2021-11-09 19:55:22
我有一個大約 1000 萬個句子的列表,每個句子最多包含 70 個單詞。我在每個單詞上運行 gensim word2vec,然后取每個句子的簡單平均值。問題是我使用了 min_count=1000,所以很多詞都沒有出現(xiàn)在詞匯表中。為了解決這個問題,我將 vocab 數(shù)組(包含大約 10000 個單詞)與每個句子相交,如果該交集中至少剩下一個元素,則返回其簡單平均值,否則返回一個零向量。問題是當我在整個數(shù)據(jù)集上運行它時,計算每個平均值需要很長時間,即使拆分成多個線程,我想獲得一個可以運行得更快的更好的解決方案。我在 EC2 r4.4xlarge 實例上運行它。我已經(jīng)嘗試切換到 doc2vec,它更快,但結(jié)果不如 word2vec 的簡單平均值。word2vec_aug_32x = Word2Vec(sentences=sentences,                         min_count=1000,                         size=32,                         window=2,                        workers=16,                         sg=0)vocab_arr = np.array(list(word2vec_aug_32x.wv.vocab.keys()))def get_embedded_average(sentence):    sentence = np.intersect1d(sentence, vocab_arr)    if sentence.shape[0] > 0:        return np.mean(word2vec_aug_32x[sentence], axis=0).tolist()    else:        return np.zeros(32).tolist()pool = multiprocessing.Pool(processes=16)w2v_averages = np.asarray(pool.map(get_embedded_average, np.asarray(sentences)))pool.close()如果您對具有相同句子嵌入目的并可以解決我的問題的不同算法或技術(shù)有任何建議,我很樂意閱讀它。
查看完整描述

2 回答

?
PIPIONE

TA貢獻1829條經(jīng)驗 獲得超9個贊

您可以使用FastText而不是 Word2Vec。FastText 能夠通過查看子詞信息(字符 ngrams)來嵌入詞匯外的詞。Gensim還有一個FastText實現(xiàn),非常好用:


from gensim.models import FastText


model = FastText(sentences=training_data, size=128, ...)


word = 'hello' # can be out of vocabulary

embedding = model[word] # fetches the word embedding


查看完整回答
反對 回復(fù) 2021-11-09
?
ITMISS

TA貢獻1871條經(jīng)驗 獲得超8個贊

Doc2Vec與普通的平均詞向量相比,通常文本向量的有用性非常相似(或者在調(diào)整后更好一些)。(畢竟,算法非常相似,處理相同數(shù)據(jù)的相同形式,并且創(chuàng)建的模型大小大致相同。)如果出現(xiàn)大幅下降,則您的Doc2Vec過程可能存在錯誤。

正如@AnnaKrogager 指出的那樣,F(xiàn)astText 可以通過使用單詞片段合成猜測向量來處理詞匯外的單詞。(這需要單詞具有這種共享詞根的語言。)向量可能不是很好,但通常比完全忽略未知單詞或使用全零向量或隨機插入向量要好。

在進程之間拆分它是否有助于運行時?因為向子進程和從子進程發(fā)送批處理工作有很多開銷,而 Python 中的子進程會導(dǎo)致內(nèi)存需求激增——而且這種開銷甚至虛擬內(nèi)存交換都可能超過并行性的任何其他好處.


查看完整回答
反對 回復(fù) 2021-11-09
  • 2 回答
  • 0 關(guān)注
  • 178 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號