首頁猿問在pyton...

在pyton 2.7中計(jì)算TF-IDF（用三行代碼）。這段代碼有效嗎？

Python

紅顏莎娜 2023-07-18 16:54:43

我正在嘗試計(jì)算大約 7000 個文檔的語料庫的 tfidf 值。在互聯(lián)網(wǎng)上搜索，我找到了很多示例（當(dāng)我嘗試為每個文檔創(chuàng)建唯一詞矩陣時，其中許多示例被鎖定）。唯一有效的似乎是下面的代碼from sklearn.feature_extraction.text import TfidfVectorizerimport pandas as pdtfidf = TfidfVectorizer()x = tfidf.fit_transform(corpus)df_tfidf = pd.DataFrame(x.toarray(), columns=tfidf.get_feature_names())print(df_tfidf)假設(shè)以下語料庫corpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?']它產(chǎn)生了這樣的輸出：這段代碼也適用于我的情況，事實(shí)上它生成了一個包含 7180 行和 10390 列的矩陣。但我不確定這是否正確。您認(rèn)為，這是計(jì)算一組文檔的 tfidf 的有效解決方案嗎？ps：我可以插入我關(guān)注的指南鏈接嗎？

查看完整描述

1 回答

慕田峪7331174

TA貢獻(xiàn)1828條經(jīng)驗(yàn) 獲得超13個贊

是的，這是計(jì)算 tf-idf 矩陣的正確方法。

您正在使用

x = tfidf.fit_transform(corpus)

它首先適合您的TfidfVectorizer語料庫，然后相應(yīng)地轉(zhuǎn)換語料庫，這樣您就可以得到 tf-idf 矩陣作為x

反對回復(fù) 2023-07-18

1 回答
0 關(guān)注
122 瀏覽

關(guān)注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

在pyton 2.7中計(jì)算TF-IDF（用三行代碼）。這段代碼有效嗎？

在pyton 2.7中計(jì)算TF-IDF（用三行代碼）。這段代碼有效嗎？

1 回答

添加回答

在pyton 2.7中計(jì)算TF-IDF（用三行代碼）。這段代碼有效嗎？

在pyton 2.7中計(jì)算TF-IDF（用三行代碼）。這段代碼有效嗎？