簡介:本課介紹數(shù)據(jù)預(yù)處理過程體系,包括數(shù)據(jù)類型與采集、文本轉(zhuǎn)化與抽取、數(shù)據(jù)集成與規(guī)約、中文分詞、數(shù)據(jù)清洗、特征提取與變換、特征向量化、特征降維、特征選擇、可視化、詞典模型、TF-IDF向量模型、主題模型等。
第1章 清洗文本信息
- 視頻: 1-1 30萬條數(shù)據(jù)準(zhǔn)備情況 (02:02)
- 視頻: 1-2 yield生成器實(shí)現(xiàn)斐波那契數(shù)列 (15:19)
- 視頻: 1-3 遞歸遍歷讀取30萬新聞數(shù)據(jù) (10:30)
- 視頻: 1-4 高效讀取30萬新聞數(shù)據(jù) (14:41)
- 視頻: 1-5 正則表達(dá)式介紹與常見使用場景(1) (18:08)
- 視頻: 1-6 正則表達(dá)式清洗文本數(shù)據(jù)(2) (09:35)
- 視頻: 1-7 清洗HTML網(wǎng)頁數(shù)據(jù) (12:29)
- 視頻: 1-8 簡繁字體轉(zhuǎn)換 (08:59)
- 視頻: 1-9 批量清洗30萬新聞文本數(shù)據(jù) (12:12)
第2章 文本特征提取
- 視頻: 2-1 jieba分詞精講(1) (15:28)
- 視頻: 2-2 jieba分詞精講(2) (15:38)
- 視頻: 2-3 HanLP分詞精講 (13:23)
- 視頻: 2-4 自定義去停用詞 (17:47)
- 視頻: 2-5 NLTK詞頻統(tǒng)計(jì)(1) (17:38)
- 視頻: 2-6 NLTK詞頻統(tǒng)計(jì)(2) (03:33)
- 視頻: 2-7 自定義選擇高低詞頻 (08:45)
- 視頻: 2-8 命名實(shí)體的提取 (06:32)
- 視頻: 2-9 slearn計(jì)算多分類下的TFIDF (14:03)
- 視頻: 2-10 實(shí)戰(zhàn)案例:30萬新聞文本特征提取 (11:06)