第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

Word2vec Gensim 準(zhǔn)確度分析

Word2vec Gensim 準(zhǔn)確度分析

楊__羊羊 2021-07-08 14:11:57
我正在開發(fā)一個(gè) NLP 應(yīng)用程序,其中有一個(gè)文本文件語料庫。我想使用Gensim word2vec 算法創(chuàng)建詞向量。我做了 90% 的訓(xùn)練和 10% 的測(cè)試拆分。我在適當(dāng)?shù)募嫌?xùn)練了模型,但我想評(píng)估模型在測(cè)試集上的準(zhǔn)確性。我在互聯(lián)網(wǎng)上瀏覽過任何關(guān)于準(zhǔn)確性評(píng)估的文檔,但我找不到任何允許我這樣做的方法。有誰知道進(jìn)行精度分析的函數(shù)?我處理測(cè)試數(shù)據(jù)的方式是從測(cè)試文件夾中的文本文件中提取所有句子,并將其變成一個(gè)巨大的句子列表。在那之后,我使用了一個(gè)我認(rèn)為是正確的函數(shù)(事實(shí)證明它不是因?yàn)樗o了我這個(gè)錯(cuò)誤:TypeError: 不知道如何處理 uri)。這是我如何去做的:test_filenames = glob.glob('./testing/*.txt')print("Found corpus of %s safety/incident reports:" %len(test_filenames))test_corpus_raw = u""for text_file in test_filenames:    txt_file = open(text_file, 'r')    test_corpus_raw += unicode(txt_file.readlines())print("Test Corpus is now {0} characters long".format(len(test_corpus_raw)))test_raw_sentences = tokenizer.tokenize(test_corpus_raw)def sentence_to_wordlist(raw):    clean = re.sub("[^a-zA-Z]"," ", raw)    words = clean.split()    return wordstest_sentences = []for raw_sentence in test_raw_sentences:    if len(raw_sentence) > 0:        test_sentences.append(sentence_to_wordlist(raw_sentence))test_token_count = sum([len(sentence) for sentence in test_sentences])print("The test corpus contains {0:,} tokens".format(test_token_count))####### THIS LAST LINE PRODUCES AN ERROR: TypeError: don't know how to handle uri texts2vec.wv.accuracy(test_sentences, case_insensitive=True)我不知道如何解決這最后一部分。請(qǐng)幫忙。提前致謝!
查看完整描述

2 回答

?
Smart貓小萌

TA貢獻(xiàn)1911條經(jīng)驗(yàn) 獲得超7個(gè)贊

accuracy()一個(gè)方法gensim字向量模型(現(xiàn)在的冷遇相比evaluate_word_analogies())不會(huì)把你的文本輸入-它需要的字,類推挑戰(zhàn)專門格式的文件。這個(gè)文件通常被命名為questions-words.txt.

這是一種測(cè)試通用詞向量的流行方法,可以追溯到 Google 的原始 Word2Vec 論文和代碼發(fā)布。

但是,此評(píng)估不一定表明哪些詞向量最適合您的需求。(例如,一組詞向量可能在這些類比上得分更高,但對(duì)于特定分類或信息檢索目標(biāo)則更糟。)

為了您自己的目的的良好向量,您應(yīng)該設(shè)計(jì)一些特定于任務(wù)的評(píng)估,它給出與您的最終目標(biāo)的成功相關(guān)的分?jǐn)?shù)。

另請(qǐng)注意,作為無監(jiān)督算法,詞向量不一定需要保留測(cè)試集才能進(jìn)行評(píng)估。您通常希望使用盡可能多的數(shù)據(jù)來訓(xùn)練詞向量——確保最大的詞匯覆蓋率,每個(gè)詞的示例最多。然后,您可能會(huì)根據(jù)某個(gè)外部標(biāo)準(zhǔn)測(cè)試詞向量——比如類比問題,它們根本不是訓(xùn)練集的一部分。

或者,您只需將詞向量用作您正在測(cè)試的某些下游任務(wù)的附加輸入,并且在該下游任務(wù)中,您將保留用于訓(xùn)練某些監(jiān)督算法的測(cè)試集。這確保您的監(jiān)督方法不僅僅是記住/過度擬合標(biāo)記的輸入,并且為您提供關(guān)于該詞向量集是否有助于下游任務(wù)的間接質(zhì)量信號(hào)。(而且,該詞向量集可以根據(jù)它們對(duì)其他監(jiān)督任務(wù)的幫助程度與其他詞向量集進(jìn)行比較,而不是與它們自己相同的無監(jiān)督訓(xùn)練步驟進(jìn)行比較。)



查看完整回答
反對(duì) 回復(fù) 2021-07-13
?
慕村9548890

TA貢獻(xiàn)1884條經(jīng)驗(yàn) 獲得超4個(gè)贊

Gensim 具有用于測(cè)試數(shù)據(jù)的各種其他指標(biāo),使用它們,您可能可以在幾行代碼中定義自己的函數(shù)。例如,除了models.wv.analogy()evaluate_word_analogies,也有類似的功能evaluate_word_pairs,closer_than()distance(),most_similar()等(請(qǐng)參閱該文檔的models.keyedvector更多細(xì)節(jié)。)這些功能,也許單獨(dú)或作為更大的功能部分用來評(píng)估你的話的嵌入。希望這可以幫助!


查看完整回答
反對(duì) 回復(fù) 2021-07-13
  • 2 回答
  • 0 關(guān)注
  • 286 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)