-
機器學習算法分類
算法分類1:有監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學(強化學習,舉例:小孩學走路,一開始走不穩(wěn),隨著數(shù)據(jù)量的增大,走的越來越熟練。);
算法分類2: 分類與回歸、聚類、標注;
算法分類2:生成模型、判別模型。
查看全部 -
機器學習由數(shù)據(jù)質(zhì)量決定結果,算法往往差距不大。
查看全部 -
機器學習的定義:利用計算機從歷史數(shù)據(jù)中找出規(guī)律,并把這些規(guī)律用到對未來不確定場景的決策。
查看全部 -
2024.12.02 02:37
聽完第一遍!機器學習課。查看全部 -
RT.
查看全部 -
1. 決策樹算法(C4.5, CART)
????無監(jiān)督學習:實際上,決策樹通常用于有監(jiān)督學習,因為它依賴于標注數(shù)據(jù)進行訓練。可以根據(jù)特征來劃分數(shù)據(jù),進行分類或回歸。
????C4.5和CART:雖然這兩者在過去很常見,但如今更先進的算法(如XGBoost)已取代它們??梢钥紤]添加對這些新算法的簡要介紹。
2. K-Means(無監(jiān)督學習)
????聚類算法非常適合于無監(jiān)督學習。K-Means通過最小化每個點到質(zhì)心的距離來分組,適用于大多數(shù)情況下數(shù)據(jù)分布較為均勻的情況。
3. SVM(支持向量機)
????支持向量機是一個非常強大的分類與回歸算法,尤其適用于高維數(shù)據(jù)。盡管深度學習在某些任務中已超越它,SVM仍然是經(jīng)典的高效分類算法之一。
4. Apriori
????已淘汰的算法,確實因其計算復雜度和多次掃描數(shù)據(jù)庫的需求而受到批評。FP-Growth是更高效的替代者,它通過樹形結構減少了對數(shù)據(jù)庫的訪問次數(shù)。
5. EM算法
????作為一種統(tǒng)計學習方法,EM算法的理解確實有一定的門檻,適用于混合模型或缺失數(shù)據(jù)處理等問題。
6. PageRank
????雖然PageRank仍然廣泛應用于搜索引擎中,但其具體實現(xiàn)細節(jié)已經(jīng)有許多創(chuàng)新和優(yōu)化,尤其是在大規(guī)模圖數(shù)據(jù)的處理上。
7. AdaBoost
????這是一種集成學習方法,可以與弱分類器(如決策樹)結合,通過加權的方式提高整體分類準確率。它在圖像識別中有廣泛應用。
8. kNN(k-近鄰)
????與K-Means的不同之處在于,kNN是基于距離的分類方法。它簡單易懂,但對于大數(shù)據(jù)集來說計算復雜度較高。
9. Naive Bayes
????適用于分類任務,特別是在文本分類中,如垃圾郵件檢測。其假設特征之間相互獨立,這在實際數(shù)據(jù)中可能不完全成立,但通常仍能獲得不錯的效果。
高級算法:
????FP-Growth
????????在Apriori的基礎上優(yōu)化了計算效率,尤其適用于關聯(lián)規(guī)則挖掘。
????邏輯回歸
????????非常重要且廣泛使用,尤其是在二分類問題和概率預測中。
????隨機森林(RF)和GBDT
????????兩者都是決策樹的集成算法,廣泛用于分類與回歸問題。GBDT在處理非線性問題時表現(xiàn)尤為出色。
????推薦算法
????????推薦系統(tǒng)廣泛應用于電商、社交平臺中,有很多優(yōu)化方法,如協(xié)同過濾、內(nèi)容推薦等。
????LDA(潛在狄利克雷分配)
????????主要用于主題模型,在文本挖掘中有重要應用。
????Word2Vec
????????用于將詞語轉化為向量表示,是文本數(shù)據(jù)處理中的一個重要技術。
????HMM與CRF
????????隱馬爾可夫模型與條件隨機場都廣泛應用于序列數(shù)據(jù)建模,如語音識別、自然語言處理。
????深度學習
????????包括CNN、RNN等深度神經(jīng)網(wǎng)絡,是目前處理大規(guī)模復雜數(shù)據(jù)(如圖像、語音、文本)最前沿的技術。
查看全部 -
機器學習算法分類(1): 通過模型判斷Y和X的關系
????有監(jiān)督學習:分類算法——Y類:垃圾郵件
????????????????????????????????????????????????X類:正常郵件
????????????????????? ? ? 回歸算法
????無監(jiān)督學習: 聚類? ?(無Y類)
????????????????????????? ? ?
? ? 半監(jiān)督學習:強化學習
機器學習算法分類(2):
????分類與回歸
????聚類
????標注,給每一個對象打上標簽,如句子的主謂賓切割?
機器學習算法分類(3)【重要】
????生成模型:(陪審團)屬于某類的可能性。
????判別模型:? (法官)直接給函數(shù),定結果。
查看全部 -
什么是機器學習
生活中的機器學習
數(shù)據(jù)分析和機器學習
常用算法
框架
demo
查看全部 -
重新開始學習一遍吧。
查看全部 -
機器學習與數(shù)據(jù)分析?
查看全部 -
機器學習常見算法(1)ICDM
1.分類---C4.5使用決策樹算法,可以解決【分類】&【回歸】問題;
2.聚類---K-Means算法,屬于無監(jiān)督方法,解決電信用戶分類問題;
3.統(tǒng)計學習---SVM(支持向量機)可以解決分類(主)和回歸問題,有很好的表現(xiàn)和深厚的數(shù)學理論支撐,曾經(jīng)被認為是最好的分類算法。現(xiàn)在光芒被【深度學習】掩蓋了。有一定的數(shù)學門檻,面試中經(jīng)常被問。
4.關聯(lián)分析---Apriori應用于“尿片和紙尿褲”案例,最早解決了頻繁項集問題。由于需要頻繁訪問數(shù)據(jù)庫,已被淘汰。取代它的是華人開的【FP-Growth】算法。應用:電商的推薦系統(tǒng),但目前有更好的替代方法。
5.統(tǒng)計分析---EM算法是一個算法框架,用于解決一系列問題。
6.連接挖掘---PageRank。Google使用的網(wǎng)頁排序算法,很著名。
7.集裝與推進---AdaBoosts算法,應用于人臉識別,本質(zhì)為改進的決策樹算法,屬于有監(jiān)督的分類算法。
8.分類---kNN。相對簡單的分類算法,有監(jiān)督。
9.分類---Naive Bayes樸素貝葉斯算法,用于識別垃圾郵件。
目前不常用的算法:Apriori和CART。查看全部 -
機器學習解決問題的框架
1)預測問題:
1.1分類:離散型變量
1.2回歸:連續(xù)性變量
2)聚類問題:
3)確定目標:
業(yè)務需求-數(shù)據(jù)-特征工程(數(shù)據(jù)預處理,70%,最重要)查看全部 -
算法分類1:根據(jù)數(shù)據(jù)有無標簽Y進行分類
對樣本數(shù)據(jù)進行一些訓練,得到模型,通過模型判斷X與Y的關系。
? ? 有監(jiān)督學習:訓練數(shù)據(jù)中已經(jīng)明確給出了該數(shù)據(jù)的Y,給數(shù)據(jù)打上了標簽。如:已對郵件打上了“垃圾郵件”、“正常郵件”的標簽。包括:分類算法、回歸算法。
? ? 無監(jiān)督學習:訓練數(shù)據(jù)并沒有Y,數(shù)據(jù)沒有任何標簽。典型算法:聚類。
? ? 半監(jiān)督學習:也叫強化學習,數(shù)據(jù)越多,模型越好。
算法分類2:根據(jù)解決問題進行分類
? ? 分類與回歸、聚類、標注
算法分類3(重要,直指本質(zhì))
? ? 生成模型:用來說明分類問題。返回的是屬于各個類的概率。
? ? 判別模型:用來說明分類問題。直接給一個函數(shù),數(shù)據(jù)輸入到函數(shù)中,直接返回類別。
查看全部 -
2、解決業(yè)務問題不同
數(shù)據(jù)分析,報告歷史上發(fā)生的事情。
機器學習:通過歷史上發(fā)生的事情,來預測未來的事情。
3、技術手段不同
數(shù)據(jù)分析:分析方式是用戶(數(shù)據(jù)分析師)驅動的,交互式分析。分析能力受限于數(shù)據(jù)分析師的能力,數(shù)據(jù)屬性和維度很有限。
機器學習:分析方式是數(shù)據(jù)驅動的,自動進行知識發(fā)現(xiàn)。分析能力不受限于人,數(shù)據(jù)屬性和維度數(shù)量級很大。
4、參與者不同
數(shù)據(jù)分析,分析師能力決定結果,目標用戶是公司管理決策層。
機器學習,數(shù)據(jù)質(zhì)量決定結果,目標用戶是個體。查看全部 -
機器學習與數(shù)據(jù)分析的區(qū)別
處理的數(shù)據(jù)類型和特點
交易數(shù)據(jù) vS 行為數(shù)據(jù)
少量數(shù)據(jù) vs 海量數(shù)據(jù)
采樣分析 vs 全量分析
數(shù)據(jù)分析:
數(shù)據(jù)類型:主要處理交易數(shù)據(jù),例如電商網(wǎng)站用戶下單、銀行存取款賬單等。
數(shù)據(jù)量:通常涉及的數(shù)據(jù)量較少。
數(shù)據(jù)分析方法:傾向于采用采樣分析,因為數(shù)據(jù)量不大,可以對樣本進行深入分析。
數(shù)據(jù)一致性:對數(shù)據(jù)一致性要求嚴格,尤其是在金融交易等場景中,數(shù)據(jù)的準確性至關重要。
數(shù)據(jù)庫使用:因此,數(shù)據(jù)分析通常使用關系型數(shù)據(jù)庫,如SQL Server、MySQL、Oracle等,這些數(shù)據(jù)庫能夠保證事務的ACID屬性(原子性、一致性、隔離性、持久性),確保數(shù)據(jù)的準確性和一致性。
機器學習:
數(shù)據(jù)類型:主要處理行為數(shù)據(jù),例如用戶的搜索歷史、瀏覽歷史、點擊歷史、評論等。
數(shù)據(jù)量:涉及的數(shù)據(jù)量龐大,通常需要處理海量數(shù)據(jù)。
數(shù)據(jù)分析方法:傾向于進行全量分析,以捕捉數(shù)據(jù)中的所有模式和趨勢。
數(shù)據(jù)一致性:對數(shù)據(jù)一致性的要求相對較低,更注重數(shù)據(jù)吞吐量和處理速度。
數(shù)據(jù)庫使用:因此,機器學習通常使用NoSQL數(shù)據(jù)庫(如MongoDB)和分布式數(shù)據(jù)分析平臺(如Hadoop、Spark),這些技術能夠處理大規(guī)模數(shù)據(jù)集,并且具有高吞吐量和靈活性。
2. 數(shù)據(jù)處理方法和工具
數(shù)據(jù)分析:
側重于使用統(tǒng)計方法和查詢語言(如SQL)來分析數(shù)據(jù),以支持決策制定。
工具和語言包括Excel、R、Python(Pandas庫)等。
機器學習:
側重于使用算法和模型來從數(shù)據(jù)中學習模式,并進行預測或分類。
工具和框架包括TensorFlow、PyTorch、Scikit-learn等。
-----
用 Nosql 處理行為數(shù)據(jù),跟錢相關的數(shù)據(jù),是不會用 nosql 去處理的。
查看全部 -
什么是機器學習?
? 利用計算機從歷史數(shù)據(jù)中找出規(guī)律;并把這些規(guī)律用到對未來不定場景的決策
?機器學習的典型應用
? 關聯(lián)規(guī)則:啤酒+紙尿片,購物籃分析
? 聚類:用戶細分精準營銷
? 樸素貝葉斯:垃圾郵件檢測
? 決策樹:風險識別
? ctr預估:互聯(lián)網(wǎng)廣告:百度的前多少個詞條(商業(yè)廣告)(按照點擊率排序)
? 協(xié)同過濾:推薦系統(tǒng)(電商購物車推薦,應用市場下載應用后的推薦等等)
? 自然語言處理:情感分析(對文本抓關鍵情感詞),實體識別(提取文本主要數(shù)據(jù),人名等)
? 深度學習:圖像識別
? 更多應用:語音識別,人臉識別,手勢控制,智慧機器人,實時翻譯
查看全部 -
機器學習的典型應用:
購物籃分析——美國超市啤酒和紙尿褲——關聯(lián)規(guī)則
用戶細分精準營銷—— 中國移動全球通、動感地帶、神州行——聚類
垃圾郵件識別——樸素貝葉斯
信用卡欺詐——決策樹
?
查看全部 -
機器學習的典型應用
用戶細分精準營銷
? 聚類? 用機器對用戶群體分類,判斷用戶具體需要什么。
查看全部 -
購物籃分析
?
?關聯(lián)算法,紙尿褲和啤酒查看全部 -
業(yè)務系統(tǒng)發(fā)展的歷史
基于專家經(jīng)驗
基于統(tǒng)計——分緯度統(tǒng)計
機器學習——在線學習
機器學習兩種使用場景?離線學習和在線學習。
離線學習:批處理的方式,對以前的數(shù)據(jù)進行學習,從而運用到后面的指導中
在線學習:對實時產(chǎn)生的數(shù)據(jù)進行學習,再對實時得業(yè)務進行指導
兩種場景使用的算法都是一樣的。
查看全部 -
機器學習發(fā)展的原動力
從歷史數(shù)據(jù)中找出規(guī)律,把這些規(guī)律用到對未來自動作出決定。
用數(shù)據(jù)代替expert
經(jīng)濟驅動,數(shù)據(jù)變現(xiàn)
查看全部 -
《概率論》《數(shù)據(jù)統(tǒng)計》是機器學習的基石
傳統(tǒng)的統(tǒng)計學,受運算能力的限制,所以是用抽樣的方式, 抽取一定量的樣本然后進行概率統(tǒng)計,然后得到結論之后進行假設檢驗
統(tǒng)計學受限于計算能力,依賴于采樣的方法,再反作用于原來的數(shù)據(jù)。步驟:抽樣-->描述統(tǒng)計-->結論-->假設檢驗。
現(xiàn)在無需考慮數(shù)據(jù)量的問題,無需抽樣技術,直接全樣。可利用可視化技術來觀察數(shù)據(jù)。要進行數(shù)據(jù)分析,需要先進行量化,用模型擬合規(guī)律,函數(shù)-->函數(shù)曲線-->擬合。高維度時很難用可視化的方法,只能用數(shù)學運算。
查看全部 -
什么是機器學習?
利用計算機從歷史數(shù)據(jù)中找出規(guī)律,并把這些規(guī)律用到對未來不確定場景的決策?
- 判斷、決策
主體的不同:計算機--機器學習、人--數(shù)據(jù)分析。數(shù)據(jù)分析是依靠人從歷史數(shù)據(jù)中找到規(guī),學習效果很大程度以來于人的經(jīng)驗與知識水平,
機器學習就是想要拋棄對人的依賴,靠機器來挖掘規(guī)律。
數(shù)據(jù):機器學習只是解決問題的框架、算法,需要數(shù)據(jù),數(shù)據(jù)量越大越準確。
規(guī)律:通過機器學習不同的算法去找規(guī)律,不同的算法結果不同。
查看全部 -
一、 demo - 圖片按照色彩聚類
查看全部 -
一、機器學習解決問題的框架
訓練模型
定義模型
定義損失函數(shù)
優(yōu)化算法
模型評估
交叉驗證
多個算法分別帶入同一類數(shù)據(jù),驗證效果
效果評估
評估多個算法間的差異
查看全部 -
一、機器學習解決問題的框架
聚類問題
預測問題
二、各個算法共同的思想
機器學習 —— 確定目標
業(yè)務需求
數(shù)據(jù)
特征工程(數(shù)據(jù)預處理)
查看全部 -
一、機器學習算法
SVM:支持向量機
關聯(lián)分析: FP-Growth
AdaBoot:? 有監(jiān)督學習,人臉識別
二、常用算法
FP-Growth
邏輯回歸
搜索結果的排序等
RF、GBDT
決策樹的改進
推薦算法
各個推薦系統(tǒng)的算法
LDA
自然語言處理算法
Word2Vetor
文本挖掘
HMM、CRF
文本挖掘
深度學習
圖像識別等
查看全部 -
一、機器學習算法分類
有監(jiān)督學習
分類算法
回歸算法
無監(jiān)督學習
聚類
半監(jiān)督學習(強化學習)
其他
標注
生成模型(屬于各個類的概率)
判別模型 (分類)
查看全部
舉報