首頁猿問 TF-IDF 的純 Pandas 實(shí)現(xiàn)

TF-IDF 的純 Pandas 實(shí)現(xiàn)

Python

慕勒3428872 2021-07-16 19:15:28

我想知道為什么我的 TF-IDF 的 Pandas 實(shí)現(xiàn)顯示的結(jié)果與 sklearn 實(shí)現(xiàn)略有不同。這是我的實(shí)現(xiàn)：text = ["aa bb cc dd ee", "bb cc dd dd"]terms = [Counter(t.split(' ')) for t in text]tf = pd.DataFrame(terms)tf = tf.fillna(0)num_docs = len(text)idf = np.log(num_docs / tf[tf >= 1].count()) + 1 tf_idf = tf * idfnorm = np.sqrt((tf_idf ** 2).sum(axis=1))norm_tf_idf = tf_idf.div(norm, axis=0)>>> norm_tf_idf aa bb cc dd ee0 0.572929 0.338381 0.338381 0.338381 0.5729291 0.000000 0.408248 0.408248 0.816497 0.000000但是，如果我使用 sklearn：tf = TfidfVectorizer(smooth_idf=False, stop_words=None, sublinear_tf=True)x = tf.fit_transform(text)sk = pd.DataFrame(x.toarray())sk.columns = tf.get_feature_names()sk>>> sk aa bb cc dd ee0 0.572929 0.338381 0.338381 0.338381 0.5729291 0.000000 0.453295 0.453295 0.767495 0.000000或者，如果我們減去它們：>>> norm_tf_idf - sk aa bb cc dd ee0 0.0 0.000000 0.000000 0.000000 0.01 0.0 -0.045046 -0.045046 0.049002 0.0

查看完整描述

1 回答

慕婉清6462132

TA貢獻(xiàn)1804條經(jīng)驗(yàn) 獲得超2個(gè)贊

我真笨。在 sklearn 源代碼中潛水后，我注意到了該sublinear_tf參數(shù)。將此參數(shù)設(shè)置為 True 時(shí)，術(shù)語頻率被替換為log(TF) + 1，恰好是我將此參數(shù)設(shè)置為True:)

要在熊貓中實(shí)現(xiàn)次線性 TF，這應(yīng)該有效：

tf[tf > 0]  = np.log(tf[tf > 0] ) + 1

反對(duì) 回復(fù) 2021-07-28

1 回答
0 關(guān)注
233 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

TF-IDF 的純 Pandas 實(shí)現(xiàn)

TF-IDF 的純 Pandas 實(shí)現(xiàn)

1 回答

添加回答