我有一個(gè)名為SubIMDB的大型英語語料庫,我想列出所有單詞及其頻率。意思是它們?cè)谡麄€(gè)語料庫中出現(xiàn)了多少。這個(gè)頻率列表應(yīng)該有一些特點(diǎn):像男孩和男孩這樣的詞或其他語法特征,例如 get 和 getting,相同的詞或詞條,如果有 3 個(gè)男孩和 2 個(gè)男孩,則應(yīng)將它們列為男孩 5。但是,對(duì)于像 Go 和 Went 這樣有不規(guī)則形式(或腳和腳)我想使用這個(gè)頻率列表作為一種字典,所以每當(dāng)我在程序的另一部分看到一個(gè)詞時(shí),我想檢查它在這個(gè)列表中的頻率。因此,最好是無需查找所有內(nèi)容即可搜索。我的問題是:對(duì)于第一個(gè)問題,我該怎么辦?詞形還原?還是詞干?或者我怎樣才能得到它?其次,我應(yīng)該將它設(shè)置為什么樣的變量類型?像字典或列表或什么?最好將它保存在csv中嗎?是否有任何準(zhǔn)備好的 Python 工具包來完成這一切?非常感謝。
從大型語料庫中提取詞頻列表
慕運(yùn)維8079593
2021-10-10 16:13:09