-
說明
聯(lián)機(jī)分析處理,簡稱OLAP(Online analytical processing),是計算機(jī)技術(shù)中快速解決多維分析問題的一種方法。
Online analytical processing (OLAP) is?software technology you can use to analyze business data from different points of view.
查看全部 -
NO SQL 一致性弱。適合存行為數(shù)據(jù),不適合存交易數(shù)據(jù)。
CAP:consistency,?availability,?and?partition?
查看全部 -
初級學(xué)習(xí):專家學(xué)習(xí)
查看全部 -
用數(shù)據(jù)代替專家!
查看全部 -
從數(shù)據(jù)中尋找規(guī)律,人們干了幾十年、上百年了。基礎(chǔ)的學(xué)科:概率論和數(shù)理統(tǒng)計。
統(tǒng)計學(xué)問題:因為計算能力有限,往往采樣只采少量數(shù)據(jù)
查看全部 -
從歷史數(shù)據(jù)學(xué)習(xí)的 主題,是 機(jī)器 還是 人?
查看全部 -
1
查看全部 -
1
查看全部 -
機(jī)器學(xué)習(xí)常見算法
查看全部 -
機(jī)器學(xué)習(xí)經(jīng)驗分析查看全部
-
機(jī)器學(xué)習(xí)規(guī)律分析是機(jī)器學(xué)習(xí)經(jīng)驗查看全部
-
機(jī)器學(xué)習(xí)簡單認(rèn)知
一.什么是機(jī)器學(xué)習(xí):
1.利用計算機(jī)從歷史數(shù)據(jù)中找到規(guī)律,并把這些規(guī)律用到對未來不確定場景的決策。
2.不確定事件:例如本年度第三季度業(yè)績情況(判斷+決策),(靠規(guī)律),而不是例如太陽從東邊升起的確定性事件
3.機(jī)器學(xué)習(xí)和數(shù)據(jù)分析不同:
?????????????? 主體的不同:計算機(jī)--機(jī)器學(xué)習(xí)、人--數(shù)據(jù)分析。
?????????????? 數(shù)據(jù)分析是依靠人從歷史數(shù)據(jù)中找到規(guī),學(xué)習(xí)效果很大程度以來于人的經(jīng)驗與知識水平,機(jī)器學(xué)習(xí)就是想要拋棄對人的依賴,靠機(jī)器來挖掘規(guī)律。
4.
數(shù)據(jù):機(jī)器學(xué)習(xí)只是解決問題的框架、算法,需要數(shù)據(jù),數(shù)據(jù)量越大越準(zhǔn)確。規(guī)律:通過機(jī)器學(xué)習(xí)不同的算法去找規(guī)律,不同的算法結(jié)果不同。規(guī)律=數(shù)學(xué)函數(shù)=數(shù)學(xué)公式
二.從數(shù)據(jù)中尋找規(guī)律
《概率論》《數(shù)據(jù)統(tǒng)計》是機(jī)器學(xué)習(xí)的基石
傳統(tǒng)的統(tǒng)計學(xué),抽取一定量的樣本然后 進(jìn)行概率統(tǒng)計,然后得到結(jié)論 之后進(jìn)行假設(shè)檢驗
傳統(tǒng)的統(tǒng)計學(xué)受運算能力的限制,所以是用抽樣的方式;
而現(xiàn)在計算能力足夠強(qiáng),就不需要采用抽樣的方式了。
做數(shù)據(jù)分析要對數(shù)據(jù)進(jìn)行量化,才方便計算、比較。
傳統(tǒng)統(tǒng)計:抽樣-描述統(tǒng)計-結(jié)論-假設(shè)檢驗-推斷
機(jī)器學(xué)習(xí)不受計算量的限制,直接跳過抽樣
統(tǒng)計學(xué)受限于計算能力,依賴于采樣的方法,再反作用于原來的數(shù)據(jù)。步驟:抽樣-->描述統(tǒng)計-->結(jié)論-->假設(shè)檢驗。
?
現(xiàn)在無需考慮數(shù)據(jù)量的問題,無需抽樣技術(shù),直接全樣??衫每梢暬夹g(shù)來觀察數(shù)據(jù)。要進(jìn)行數(shù)據(jù)分析,需要先進(jìn)行量化,用模型擬合規(guī)律,函數(shù)-->函數(shù)曲線-->擬合。高維度時很難用可視化的方法,只能用數(shù)學(xué)運算。三.機(jī)器學(xué)習(xí)發(fā)展的原動力
1.??? 從歷史數(shù)據(jù)中找出規(guī)律,把這些規(guī)律用到對未來自動作出決定。
2.??? 用數(shù)據(jù)代替expert——業(yè)務(wù)邏輯
3.??? 經(jīng)濟(jì)驅(qū)動,數(shù)據(jù)
四.業(yè)務(wù)系統(tǒng)發(fā)展歷史
1、基于專家經(jīng)驗 (運維和產(chǎn)品頭腦風(fēng)暴,程序員寫邏輯)
2、基于統(tǒng)計---分維度統(tǒng)計。數(shù)據(jù)分析,受限于數(shù)據(jù)分析人員的經(jīng)驗(數(shù)據(jù)報表,:聯(lián)機(jī)事務(wù)處理OLAPP(on-line transaction processing))
3、機(jī)器學(xué)習(xí)模式
模式①:離線機(jī)器學(xué)習(xí),每天定時更新,跑算法,生成一個新的模型,循環(huán),生成新的模型。對昨天數(shù)據(jù)的研究,用算法分析形成一個模型,指導(dǎo)明天的活動。缺點:存在偶然性,沒法給出正確的模型,如雙11的集中購物。
模式②:在線機(jī)器學(xué)習(xí),實時的數(shù)據(jù)進(jìn)行分析,不斷的形成模型對用戶進(jìn)行指導(dǎo)
五.機(jī)器學(xué)習(xí)的經(jīng)典應(yīng)用
(一)購物籃分析
關(guān)聯(lián)算法,紙尿褲和啤酒
(二)用戶細(xì)分精準(zhǔn)營銷
聚類:把用戶消費數(shù)據(jù)拿過來喂給算法,計算機(jī)運算,人為設(shè)置想要分為幾類。 分完類后,業(yè)務(wù)人員總結(jié)每類人員共同的消費特征。
(三)
樸素貝葉斯的算法:垃圾郵件識別
決策樹:?信用卡欺詐:
?ctr預(yù)估:點擊預(yù)估,核心為線性邏輯回歸 如:互聯(lián)網(wǎng)廣告? 百度搜索的廣告推廣
??? ?推薦系統(tǒng):協(xié)同過濾算法,例如淘寶 買此產(chǎn)品的人同時購買了。
自然語言處理:情感分析(對文本抓關(guān)鍵情感詞),實體識別(提取文本主要數(shù)據(jù),人名等)
深度學(xué)習(xí):圖像識別
更多應(yīng)用:語音識別,人臉識別,手勢控制,智慧機(jī)器人,實時翻譯
六.機(jī)器學(xué)習(xí)和數(shù)據(jù)分析區(qū)別
1:處理的數(shù)據(jù)不同
數(shù)據(jù)分析:交易數(shù)據(jù)、少量數(shù)據(jù)、采樣分析。對數(shù)據(jù)一致性要求嚴(yán)格,使用關(guān)系型數(shù)據(jù)庫sql serve、mysql、oracle。
機(jī)器學(xué)習(xí):行為數(shù)據(jù)、海量數(shù)據(jù)、全量分析。需要保證數(shù)據(jù)吞吐量,數(shù)據(jù)一致性可以打折扣,所以用NoSQL數(shù)據(jù)庫(MongoDB、nosql)和分布式數(shù)據(jù)分析平臺(Hadoop、Spark)
交易數(shù)據(jù) :電商網(wǎng)站用戶下單、銀行存取款賬單
行為數(shù)據(jù):用戶的搜索歷史、瀏覽歷史、點擊歷史、評論
2.解決業(yè)務(wù)問題不同
數(shù)據(jù)分析,報告歷史上發(fā)生的事情。
機(jī)器學(xué)習(xí):通過歷史上發(fā)生的事情,來預(yù)測未來的事情。
3.技術(shù)手段不同
數(shù)據(jù)分析:分析方式是用戶(數(shù)據(jù)分析師)驅(qū)動的,交互式分析。分析能力受限于數(shù)據(jù)分析師的能力,數(shù)據(jù)屬性和維度很有限。
機(jī)器學(xué)習(xí):分析方式是數(shù)據(jù)驅(qū)動的,自動進(jìn)行知識發(fā)現(xiàn)。數(shù)據(jù)屬性和維度數(shù)量級很大。
4.參與者不同
數(shù)據(jù)分析,分析師能力決定結(jié)果,目標(biāo)用戶是公司高層。
機(jī)器學(xué)習(xí),數(shù)據(jù)質(zhì)量決定結(jié)果,目標(biāo)用戶是個體。
七.機(jī)器學(xué)習(xí)算法分類
算法分類1:根據(jù)數(shù)據(jù)有無標(biāo)簽Y進(jìn)行分類
對樣本數(shù)據(jù)進(jìn)行一些訓(xùn)練,得到模型,通過模型判斷X與Y的關(guān)系。
有監(jiān)督學(xué)習(xí):訓(xùn)練數(shù)據(jù)中已經(jīng)明確給出了該數(shù)據(jù)的Y,給數(shù)據(jù)打上了標(biāo)簽。如:已對郵件打上了“垃圾郵件”、“正常郵件”的標(biāo)簽。包括:分類算法、回歸算法。
無監(jiān)督學(xué)習(xí):訓(xùn)練數(shù)據(jù)并沒有Y,數(shù)據(jù)沒有任何標(biāo)簽。典型算法:聚類。
半監(jiān)督學(xué)習(xí):也叫強(qiáng)化學(xué)習(xí),數(shù)據(jù)越多,模型越好。
算法分類2:根據(jù)解決問題進(jìn)行分類
分類與回歸、聚類、標(biāo)注
算法分類3(重要,直指本質(zhì))
生成模型:用來說明分類問題。返回的是屬于各個類的概率。
判別模型:用來說明分類問題。直接給一個函數(shù),數(shù)據(jù)輸入到函數(shù)中,直接返回類別。
八.機(jī)器學(xué)習(xí)常見算法
1.分類---C4.5使用決策樹算法,可以解決【分類】&【回歸】問題;
2.聚類---K-Means算法,屬于無監(jiān)督方法,解決電信用戶分類問題;
3.統(tǒng)計學(xué)習(xí)---SVM(支持向量機(jī))可以解決分類(主)和回歸問題,有很好的表現(xiàn)和深厚的數(shù)學(xué)理論支撐,曾經(jīng)被認(rèn)為是最好的分類算法?,F(xiàn)在光芒被【深度學(xué)習(xí)】掩蓋了。有一定的數(shù)學(xué)門檻,面試中經(jīng)常被問。
4.關(guān)聯(lián)分析---Apriori應(yīng)用于“尿片和紙尿褲”案例,最早解決了頻繁項集問題。由于需要頻繁訪問數(shù)據(jù)庫,已被淘汰。取代它的是華人開的【FP-Growth】算法。應(yīng)用:電商的推薦系統(tǒng),但目前有更好的替代方法。
5.統(tǒng)計分析---EM算法是一個算法框架,用于解決一系列問題。
6.連接挖掘---PageRank。Google使用的網(wǎng)頁排序算法,很著名。
7.集裝與推進(jìn)---AdaBoosts算法,應(yīng)用于人臉識別,本質(zhì)為改進(jìn)的決策樹算法,屬于有監(jiān)督的分類算法。
8.分類---kNN。相對簡單的分類算法,有監(jiān)督。
9.分類---Naive Bayes樸素貝葉斯算法,用于識別垃圾郵件。
目前不常用的算法:Apriori和CART。
高階算法:
FP-Growth---關(guān)聯(lián)分析Apriori的改進(jìn)版,華人發(fā)明的。
邏輯回歸---推薦 搜索結(jié)果的排序。
RF隨機(jī)森林---梯度提升決策樹GBDT,與AdaBoost都屬于對決策樹的改進(jìn)。
LDA---文本分析,自然語言處理。
Wod2Vector---文本挖掘,最終是一個結(jié)果。
HMM---隱馬爾可夫模型,CRF條件隨機(jī)場,自然語言處理,文本挖掘。
九.機(jī)器學(xué)習(xí)解決問題的框架
解決問題的框架:
1.??? 確定目標(biāo)
業(yè)務(wù)需求:知道要做什么。
數(shù)據(jù):學(xué)習(xí)的基礎(chǔ)(數(shù)據(jù)可以直接就喂給算法,數(shù)據(jù)對模型的影響非常大,數(shù)據(jù)決定了最終的預(yù)測結(jié)果)
特征工程:數(shù)據(jù)預(yù)處理,提取特征 70%-數(shù)據(jù)的提取非常重要2.??? 訓(xùn)練模型(重點)
定義模型:確定算法。
定義損失函數(shù):找出算法的偏差。
優(yōu)化算法:對算法進(jìn)行優(yōu)化,讓損失函數(shù)取最小
3.??? 模型評估
交叉驗證:將不同的算法帶入同一類數(shù)據(jù)中,驗證效果。
效果評估:可以看出幾個算法之間具體的差別、效果
查看全部 -
常見機(jī)器學(xué)習(xí)算法
查看全部 -
NoSQL 行為數(shù)據(jù)處理。
查看全部 -
利用計算機(jī)從歷史數(shù)據(jù)中尋找規(guī)律,并把規(guī)律運用于未來的場景決策查看全部
舉報