-
詞頻-你文件頻率(TF-IDF)
缺點:
詞頻(TF)和逆文件頻率(IDF)的統(tǒng)計和計算都直接從語料統(tǒng)計得出,當增加語料的時候,TF和IDF往往需要重新計算,無法增量更新,每次添加語料,需要重新計算詞頻。?
沒有考慮特征詞的位置因素對文本的區(qū)分度,詞條出現(xiàn)在文檔的不同位置時,對區(qū)分度貢獻大小是不一樣的。
按照傳統(tǒng)TF-IDF,往往一些生僻詞的IDF(反文檔頻率)會比較高、因此這些生僻詞往往會被誤認為是文檔關(guān)鍵詞。
查看全部 -
One-Hot缺點:
????1.詞通常很多,幾十萬個詞,那就需要句子長度x幾十萬的矩陣才能表示這個句子
? ? 2.這種方法效率低下,矩陣包含很多零
? ? 3.無法表達相似性
? ? 4.新加一個詞我們需要重新計算
查看全部 -
One-Hot理解:
先給句子分詞,分詞組從詞表,詞表有索引,然后編碼形成矩陣
查看全部 -
文本表示方法:One-Hot、TF-IDF、Word2Vec
查看全部 -
缺點:
浪費空間,不利于計算
體現(xiàn)不出單詞間的關(guān)系
優(yōu)點:
長度遠小于字典長度
向量加爵代表相似度
可以增量添加新詞
查看全部 -
一個樸素的想法就是,我們把One-Hot中0的位置也利用起來,并且用浮點數(shù)來表示詞特性,這樣我們就可以用固定的,較小的維度來表達海量的信息
查看全部 -
IDF 是逆文件頻率,表示關(guān)鍵詞的普遍程度。
如果包含詞條i的文檔越少,IDF越大,則說明該詞條具有很好的類別區(qū)分能力。
某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語的文件數(shù)目,再將得到的商取對數(shù)得到。
查看全部 -
不懂的名詞兒:
卷積?
過擬合
loss
激活函數(shù)
embedding層
查看全部 -
試試筆記功能,調(diào)閾值
查看全部 -
老師,代碼在哪里呀?4章 和5 章
查看全部 -
建模區(qū)別:
查看全部 -
查看全部
-
1
111111
查看全部 -
22222
查看全部 -
github
查看全部 -
獨熱編碼的缺點
查看全部 -
獨熱編碼(one-hot)
查看全部 -
文本表示方法
查看全部 -
文本分類任務(wù)描述
查看全部 -
文本分類任務(wù)描述
查看全部 -
應(yīng)用——知識點抽取
查看全部 -
應(yīng)用-----非結(jié)構(gòu)化信息提取
查看全部 -
應(yīng)用--意圖識別
查看全部 -
應(yīng)用,情感分析
查看全部 -
文本分類任務(wù)描述
查看全部 -
我的筆記筆記筆記,自然期刊
查看全部 -
我的筆記筆記筆記,自然自然
查看全部 -
我的筆記筆記筆記,自然
查看全部
舉報