第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

TfidfVectorizer 賦予停用詞高權(quán)重

TfidfVectorizer 賦予停用詞高權(quán)重

九州編程 2022-07-05 19:18:48
給定以下代碼:import pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizerimport urllib.request  # the lib that handles the url stufffrom bs4 import BeautifulSoupimport unicodedatadef remove_control_characters(s):    base = ""    for ch in s:        if unicodedata.category(ch)[0]!="C":            base = base + ch.lower()        else:            base = base + " "    return base moby_dick_url='http://www.gutenberg.org/files/2701/2701-0.txt'soul_of_japan = 'http://www.gutenberg.org/files/12096/12096-0.txt'def extract_body(url):    with urllib.request.urlopen(url) as s:        data = BeautifulSoup(s).body()[0].string        stripped = remove_control_characters(data)        return strippedmoby = extract_body(moby_dick_url)    bushido = extract_body(soul_of_japan)corpus = [moby,bushido]vectorizer = TfidfVectorizer(use_idf=False, smooth_idf=True)tf_idf = vectorizer.fit_transform(corpus)df_tfidf = pd.DataFrame(tf_idf.toarray(), columns=vectorizer.get_feature_names(), index=["Moby", "Bushido"])df_tfidf[["the", "whale"]]我希望“鯨魚”在“白鯨記”中的 tf-idf 得分相對(duì)較高,但在“武士道:日本之魂”中得分較低,而“the”在兩者中得分較低。然而,我得到相反的結(jié)果。計(jì)算的結(jié)果是:|       |     the   | whale    ||-------|-----------|----------||Moby   | 0.707171  | 0.083146 ||Bushido| 0.650069  | 0.000000 |這對(duì)我來說毫無意義。誰能指出我在思考或編碼中犯的錯(cuò)誤?
查看完整描述

1 回答

?
收到一只叮咚

TA貢獻(xiàn)1821條經(jīng)驗(yàn) 獲得超5個(gè)贊

你觀察這個(gè)有兩個(gè)原因。

  • 第一個(gè)是因?yàn)槟鷤鬟f給 Tfidf Vectorizer 的參數(shù)。您應(yīng)該這樣做TfidfVectorizer(use_idf=True, ...),因?yàn)樗?tfidf 的 idf 部分(請(qǐng)記住,tf-idf 是詞頻和逆文檔頻率的乘積)會(huì)懲罰出現(xiàn)在所有文檔中的單詞。通過設(shè)置 TfidfVectorizer(use_idf=False, ..),您只是在考慮詞頻部分,這顯然會(huì)導(dǎo)致停用詞的得分更高

  • 第二個(gè)是因?yàn)槟愕臄?shù)據(jù)。假設(shè)您修復(fù)了上面的代碼問題,您的語料庫(kù)仍然非常非常小,只有兩個(gè)文檔。這意味著出現(xiàn)在兩本書中的任何單詞都將以相同的方式受到懲罰?!坝職狻笨赡艹霈F(xiàn)在兩本書中,就像“the”一樣,因此鑒于它們都出現(xiàn)在您的語料庫(kù)的每個(gè)文檔中,它們的 idf 值將是相同的,導(dǎo)致停用詞再次獲得更高的分?jǐn)?shù),因?yàn)樗鼈兊男g(shù)語更大 -頻率


查看完整回答
反對(duì) 回復(fù) 2022-07-05
  • 1 回答
  • 0 關(guān)注
  • 130 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)