-
基礎(chǔ)層? 采集層? 數(shù)據(jù)處理層? 應(yīng)用層
基礎(chǔ)層:基礎(chǔ)信息采集;采集層:數(shù)據(jù)結(jié)構(gòu)搭建,數(shù)據(jù)模型搭建;處理層:數(shù)據(jù)清洗,標(biāo)準(zhǔn)化數(shù)據(jù)格式;應(yīng)用層:數(shù)據(jù)分析結(jié)論輸出,深度挖掘;
查看全部 -
數(shù)據(jù)預(yù)處理:
數(shù)據(jù)集成
數(shù)據(jù)清洗
數(shù)據(jù)處理
數(shù)據(jù)變換
數(shù)據(jù)歸納
可視化技術(shù)
XGBoost--實(shí)現(xiàn)30W數(shù)據(jù)文本分析
查看全部 -
文件操作方法
查看全部 -
網(wǎng)絡(luò)爬蟲,有時(shí)間學(xué)習(xí)下查看全部 -
課程思維導(dǎo)圖
查看全部 -
開發(fā)環(huán)境說明
查看全部 -
30萬條數(shù)據(jù)分析??
訓(xùn)練分類器
算法調(diào)優(yōu)
查看全部 -
數(shù)據(jù)預(yù)處理流程
數(shù)據(jù)清理
數(shù)據(jù)集成
數(shù)據(jù)變換
數(shù)據(jù)歸約
查看全部 -
數(shù)據(jù)處理往往比算法模型和調(diào)參帶來的效果更好
文本信息處理,稍作改動(dòng)也支持圖片和語音
查看全部 -
什么是數(shù)據(jù)預(yù)處理
查看全部 -
遍歷讀取文件
算法思路:
·遍歷文件的類TraversalFun:TraversalDir、AllFiles
·遍歷目錄文件TRaversalDir:AllFiles(self.rootDir)
·遞歸遍歷文件AllFiles(self,rootDir)
·判斷是否為文件isfile:打印出文件名
·判斷是否是目錄isdir:遞歸遍歷
查看全部 -
算法思路:
·定義文件路徑和轉(zhuǎn)存路徑:split
·修改新的文件名:TranType(filename,typename)、fnmatch
·設(shè)置完整的保存路徑:join
·啟動(dòng)應(yīng)用程序格式轉(zhuǎn)換:Dispatch
·保存文本:SaveAs
查看全部 -
PDF轉(zhuǎn)TXT的算法實(shí)現(xiàn)
算法思路:
·定義文件路徑和轉(zhuǎn)存路徑:split
·修改新的文件名:fnmatch
·設(shè)置完整的保存路徑:join
·啟動(dòng)應(yīng)用程序格式轉(zhuǎn)換:Dispatch
·保存文本:SaveAs
查看全部 -
Word轉(zhuǎn)TXT算法實(shí)現(xiàn)
算法思路:
·定義文件路徑和轉(zhuǎn)存路徑:split
·修改新的文件名:fnmatch
·設(shè)置完整的保存路徑:join
·啟動(dòng)應(yīng)用程序格式轉(zhuǎn)換:Dispatch
·保存文本:SavaAs
查看全部 -
結(jié)構(gòu)化數(shù)據(jù):
結(jié)構(gòu)化數(shù)據(jù)是指可以使用關(guān)系型數(shù)據(jù)庫表示和存儲(chǔ),表現(xiàn)為二維形式的數(shù)據(jù)。一般特點(diǎn)是:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個(gè)實(shí)體的信息,每一行數(shù)據(jù)的屬性是相同的。
·數(shù)據(jù)特點(diǎn):關(guān)系模型數(shù)據(jù),關(guān)系數(shù)據(jù)庫表示
·常見格式:比如MySQL、Oracle、SQL Server等
·應(yīng)用場(chǎng)合:數(shù)據(jù)庫、系統(tǒng)網(wǎng)站、數(shù)據(jù)備份、ERP等
·數(shù)據(jù)采集:DB導(dǎo)出、SQL等方式
·優(yōu)缺點(diǎn):結(jié)構(gòu)化的數(shù)據(jù)的存儲(chǔ)和排列是很有規(guī)律的,這對(duì)修改和查詢等操作很有幫助。但是,它的擴(kuò)展性不好。
半結(jié)構(gòu)化數(shù)據(jù):
半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來分隔語義元素以及對(duì)記錄和字段進(jìn)行分層。因此,它也被稱為自描述的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù),屬于同一類實(shí)體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序并不重要。
·數(shù)據(jù)特點(diǎn):非關(guān)系模型數(shù)據(jù),還有一定的格式
·常見格式:比如Email、HTML、XML、JSON等
·應(yīng)用場(chǎng)合:郵件系統(tǒng)、檔案系統(tǒng)、新聞網(wǎng)站等
·數(shù)據(jù)的采集:網(wǎng)絡(luò)爬蟲、數(shù)據(jù)解析等方式
·優(yōu)點(diǎn):不同的半結(jié)構(gòu)化數(shù)據(jù)的屬性的個(gè)數(shù)是不定的。有些人說半結(jié)構(gòu)化數(shù)據(jù)是以樹或者圖的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)的數(shù)據(jù),標(biāo)簽是樹的根節(jié)點(diǎn),和標(biāo)簽是子節(jié)點(diǎn)。通過這樣的數(shù)據(jù)格式,可以自由地表達(dá)很多有用的信息,包括自我描述信息(元數(shù)據(jù))。所以,半結(jié)構(gòu)化數(shù)據(jù)的擴(kuò)展性是很好的。
非結(jié)構(gòu)化數(shù)據(jù):
就是沒有固定結(jié)構(gòu)的數(shù)據(jù)。各種文檔、圖片、視頻/音頻等都屬于非結(jié)構(gòu)化數(shù)據(jù)。對(duì)于這類數(shù)據(jù),我們一般直接整體進(jìn)行存儲(chǔ),而且一般存儲(chǔ)為二進(jìn)制的數(shù)據(jù)格式。
·數(shù)據(jù)特點(diǎn):沒有固定格式的數(shù)據(jù)
·常見格式:Word、PDF、PPT、圖片、音視頻等
·應(yīng)用場(chǎng)合:圖片識(shí)別、人臉識(shí)別、醫(yī)療影像、文本分析等
·數(shù)據(jù)采集:網(wǎng)絡(luò)爬蟲、數(shù)據(jù)存檔等方式
查看全部 -
數(shù)據(jù)清理:通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)并解決不一致性來清理數(shù)據(jù)。目標(biāo):格式標(biāo)準(zhǔn)化,異常數(shù)據(jù)清理,錯(cuò)誤糾正,重復(fù)數(shù)據(jù)的清除。
數(shù)據(jù)集成:將數(shù)據(jù)由多個(gè)數(shù)據(jù)源合并成一個(gè)一致的數(shù)據(jù)存儲(chǔ),如數(shù)據(jù)倉庫。
數(shù)據(jù)變換:通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于的形式。如把數(shù)據(jù)壓縮到0.0-1.0數(shù)值區(qū)間。
數(shù)據(jù)歸約:往往數(shù)據(jù)量非常大,得到數(shù)據(jù)集的歸約表示,它小得多,但仍接近保持原數(shù)據(jù)的完整性,結(jié)果與歸約前結(jié)果相同或幾乎相同。
查看全部 -
數(shù)據(jù)預(yù)處理簡而言之就是將原始數(shù)據(jù)裝進(jìn)一個(gè)預(yù)處理的黑匣子之后,產(chǎn)生出高質(zhì)量數(shù)據(jù)用來適應(yīng)相關(guān)技術(shù)或者算法模型。
·將原始數(shù)據(jù)的數(shù)據(jù)直接進(jìn)行分類模型訓(xùn)練,分類器準(zhǔn)確率和召回率都比較低。因此我們?cè)紨?shù)據(jù)存在很多干擾項(xiàng),比如的,是等這些所謂停用詞特征對(duì)分類起的作用不大,很難達(dá)到工程應(yīng)用。
·我們將原始數(shù)據(jù)放進(jìn)預(yù)處理黑匣子后,會(huì)自動(dòng)過濾掉干擾數(shù)據(jù),并且還會(huì)按照約定的方法體現(xiàn)每個(gè)詞特征的重要性,然后將詞特征壓縮變換在數(shù)值型矩陣中,再通過分類器就會(huì)取得不錯(cuò)的效果,可以進(jìn)行工程應(yīng)用。
預(yù)處理前:不完整、偏態(tài)、噪聲、特征比重、特征維度、缺失值、錯(cuò)誤值等問題。
查看全部 -
文件抽取資料
查看全部 -
word 轉(zhuǎn)換tet思路
查看全部 -
三類數(shù)據(jù)類型:結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)
查看全部 -
#coding=utf-8 import?os,fnmatch from?win32com?import?client?as?wc from?win32com.client?import?Dispatch def?Word2Txt(filepath,savePath=''): ????????dirs,filename?=?os.path.split(filePath) ????????new_name="" ????????if?fnmatch.fanmatch(filename,'*.doc'): ????????????new_name?=?filename[:-4]+'.txt' ????????elif?fnmatch.fnmatch(filename,'*.docx'): ????????????new_name?=?filename[:-5]+'.txt' ????????else: ????????????????print("格式不正確") ????????????????return ????????if?savePath?==?'': ????????????savePath?=?dirs ????????else: ????????????????savePath?=?savePath ????????word2txtPath?=?os.path.join(savePath,new_name) ????????print('-->',word2txtPath) ????????wordapp?=?wc.Dispatch('word.Application') ????????mytxt?=?wordapp.Documents.Open(filePath) if?__name__=='__main__': ????filePath?=?os.path.abspath(r'../../*.doc') ????word2Txt(filePath)
查看全部 -
總結(jié)
查看全部 -
1.數(shù)據(jù)集成
查看全部 -
1.why
查看全部 -
特征預(yù)處理
不完整、偏態(tài)、噪聲、特征比重、特征緯度、缺失值、錯(cuò)誤值等問題;
存在完整、正態(tài)、干凈、特征和事、特征緯度合理、無缺失值
查看全部 -
1.特征預(yù)處理
查看全部 -
數(shù)據(jù)預(yù)處理
謂詞、停用詞
特征壓縮變換
查看全部 -
課程初衷。。。
查看全部
舉報(bào)