首頁猿問從大型語料庫中提取詞頻列表

從大型語料庫中提取詞頻列表

Python

慕運(yùn)維8079593 2021-10-10 16:13:09

我有一個(gè)名為SubIMDB的大型英語語料庫，我想列出所有單詞及其頻率。意思是它們?cè)谡麄€(gè)語料庫中出現(xiàn)了多少。這個(gè)頻率列表應(yīng)該有一些特點(diǎn)：像男孩和男孩這樣的詞或其他語法特征，例如 get 和 getting，相同的詞或詞條，如果有 3 個(gè)男孩和 2 個(gè)男孩，則應(yīng)將它們列為男孩 5。但是，對(duì)于像 Go 和 Went 這樣有不規(guī)則形式（或腳和腳）我想使用這個(gè)頻率列表作為一種字典，所以每當(dāng)我在程序的另一部分看到一個(gè)詞時(shí)，我想檢查它在這個(gè)列表中的頻率。因此，最好是無需查找所有內(nèi)容即可搜索。我的問題是：對(duì)于第一個(gè)問題，我該怎么辦？詞形還原？還是詞干？或者我怎樣才能得到它？其次，我應(yīng)該將它設(shè)置為什么樣的變量類型？像字典或列表或什么？最好將它保存在csv中嗎？是否有任何準(zhǔn)備好的 Python 工具包來完成這一切？非常感謝。

查看完整描述

1 回答

人到中年有點(diǎn)甜

TA貢獻(xiàn)1895條經(jīng)驗(yàn) 獲得超7個(gè)贊

如上所述，問題是基于意見且含糊不清，但這里有一些說明：

兩者都適用于您的情況。Stemming 通常更簡單、更快。我建議從nltk 的PorterStemmer. 如果您需要復(fù)雜的詞形還原，請(qǐng)查看spaCyIMO，這是行業(yè)標(biāo)準(zhǔn)。
您需要字典，一旦您有了詞干/引理，它就會(huì)為您提供分?jǐn)?O(1) 查找。也counter可能變得有用。
取決于您的用例。CSV 更“便攜”，pickle可能更易于使用。
nltk 和 spaCy 中有很多“構(gòu)建塊”，構(gòu)建管道/模型取決于您