關(guān)于學(xué)習(xí)數(shù)據(jù)分析及數(shù)據(jù)挖掘的路線
老師,您好,我是一名大三的學(xué)生,我希望以后能夠從事數(shù)據(jù)分析這方面的工作,請(qǐng)問(wèn)我應(yīng)該怎樣擬定一個(gè)好的學(xué)習(xí)路線呢
老師,您好,我是一名大三的學(xué)生,我希望以后能夠從事數(shù)據(jù)分析這方面的工作,請(qǐng)問(wèn)我應(yīng)該怎樣擬定一個(gè)好的學(xué)習(xí)路線呢
2016-10-02
舉報(bào)
2016-10-04
2).數(shù)據(jù)挖掘工程師
? ? 需要理解主流機(jī)器學(xué)習(xí)算法的原理和應(yīng)用。
? ? 需要熟悉至少一門(mén)編程語(yǔ)言如(Python、C、C++、Java、Delphi等)。
? ? 需要理解數(shù)據(jù)庫(kù)原理,能夠熟練操作至少一種數(shù)據(jù)庫(kù)(Mysql、SQL、DB2、Oracle等),能夠明白MapReduce的原理操作以及熟練使用Hadoop系列工具更好。
? ? 經(jīng)典圖書(shū)推薦:《數(shù)據(jù)挖掘概念與技術(shù)》、《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》、《人工智能及其應(yīng)用》、《數(shù)據(jù)庫(kù)系統(tǒng)概論》、《算法導(dǎo)論》、《Web數(shù)據(jù)挖掘》、《 Python標(biāo)準(zhǔn)庫(kù)》、《thinking in Java》、《Thinking in C++》、《數(shù)據(jù)結(jié)構(gòu)》等。
(3).科學(xué)研究方向
? ? 需要深入學(xué)習(xí)數(shù)據(jù)挖掘的理論基礎(chǔ),包括關(guān)聯(lián)規(guī)則挖掘 (Apriori和FPTree)、分類(lèi)算法(C4.5、KNN、Logistic Regression、SVM等) 、聚類(lèi)算法 (Kmeans、Spectral Clustering)。目標(biāo)可以先吃透數(shù)據(jù)挖掘10大算法各自的使用情況和優(yōu)缺點(diǎn)。
? ? 相對(duì)SAS、SPSS來(lái)說(shuō)R語(yǔ)言更適合科研人員The R Project for Statistical Computing,因?yàn)镽軟件是完全免費(fèi)的,而且開(kāi)放的社區(qū)環(huán)境提供多種附加工具包支持,更適合進(jìn)行統(tǒng)計(jì)計(jì)算分析研究。雖然目前在國(guó)內(nèi)流行度不高,但是強(qiáng)烈推薦。
? ? 可以嘗試改進(jìn)一些主流算法使其更加快速高效,例如實(shí)現(xiàn)Hadoop平臺(tái)下的SVM云算法調(diào)用平臺(tái)--web 工程調(diào)用hadoop集群。
? ? 需要廣而深的閱讀世界著名會(huì)議論文跟蹤熱點(diǎn)技術(shù)。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;還有數(shù)據(jù)挖掘相關(guān)領(lǐng)域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
? ? 可以嘗試參加數(shù)據(jù)挖掘比賽培養(yǎng)全方面解決實(shí)際問(wèn)題的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
? ? 可以嘗試為一些開(kāi)源項(xiàng)目貢獻(xiàn)自己的代碼,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具體可以在SourceForge或GitHub.上發(fā)現(xiàn)更多好玩的項(xiàng)目)。
? ? 經(jīng)典圖書(shū)推薦:《機(jī)器學(xué)習(xí)》 《模式分類(lèi)》《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》《統(tǒng)計(jì)學(xué)習(xí)方法》《數(shù)據(jù)挖掘?qū)嵱脵C(jī)器學(xué)習(xí)技術(shù)》《R語(yǔ)言實(shí)踐》,英文素質(zhì)是科研人才必備的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。
數(shù)據(jù)挖掘涵蓋面很廣,系統(tǒng)的學(xué)習(xí)個(gè)人建議依照以下路線:
? ? 找一本教材,個(gè)人推薦李航的《統(tǒng)計(jì)機(jī)器學(xué)習(xí)》
? ? 可以去看網(wǎng)易上關(guān)于機(jī)器學(xué)習(xí)的公開(kāi)課,是Standford的Prof. Ng的視頻課程,超級(jí)棒。
? ? 結(jié)合教材和視頻,將機(jī)器學(xué)習(xí)算法的公式推一遍,然后用Matlab或者python跑一跑數(shù)據(jù),找點(diǎn)感覺(jué)。
? ? 對(duì)于數(shù)學(xué)也要加強(qiáng),特別在概率論方面。
上面說(shuō)的是機(jī)器學(xué)習(xí),其實(shí)已經(jīng)包括了數(shù)據(jù)挖掘的大部分,在上面了解的差不多之后 ,可以試著去做一些有意思的項(xiàng)目,比如去分析女神的微博情感,或者參加一些數(shù)據(jù)挖掘比賽,kaggle上有很多比賽可以去做。
如果你想從事數(shù)據(jù)挖掘,你必須具備:數(shù)據(jù)挖掘模型、算法的數(shù)學(xué)知識(shí)以及一些數(shù)據(jù)分析軟件(SPSS、SAS、matlab、clementine)
一些數(shù)據(jù)庫(kù)相關(guān)的知識(shí)(oracle、mySQL)了解市場(chǎng)、其它部門(mén)需求當(dāng)然這些都是一點(diǎn)一滴積累起來(lái)的,沒(méi)必要一蹴而就,特別是對(duì)市場(chǎng)、行業(yè)的了解以及對(duì)公司其它部門(mén)的需求的理解非常重要,這決定了你能否從基礎(chǔ)的分析人員上升到產(chǎn)品層、決策層,都是要在實(shí)際的工作中積累起來(lái)的。。
數(shù)據(jù)挖掘工程師
崗位描述Job Description
阿里巴巴每天處理上百億次的用戶請(qǐng)求,其中不少服務(wù)需要利用海量數(shù)據(jù)和機(jī)器智能來(lái)滿足用戶需求。如:營(yíng)銷(xiāo)推廣、搜索、推薦、翻譯、圖像識(shí)別、語(yǔ)音識(shí)別等。
在這里,你將和頂尖科學(xué)家和大牛工程師們一起分析討論業(yè)務(wù)場(chǎng)景中的問(wèn)題,通過(guò)建立數(shù)學(xué)模型,并利用海量數(shù)據(jù)和底層算法庫(kù),解決各種業(yè)務(wù)問(wèn)題。
如何提升點(diǎn)擊率、用戶最喜歡哪個(gè)品牌、如何讓商家得到更多轉(zhuǎn)化成交……一個(gè)個(gè)實(shí)際問(wèn)題讓你在提升客戶體驗(yàn)的同時(shí),深刻理解電子商務(wù)的方方面面。
通過(guò)仔細(xì)分析數(shù)據(jù)分布、鏈接關(guān)系以及各種異常檢測(cè),你將能夠通過(guò)數(shù)據(jù)洞悉問(wèn)題本質(zhì),利用海量機(jī)器和數(shù)據(jù)解決各種排序、分類(lèi)、聚類(lèi)問(wèn)題。
崗位要求Qualifications
1、 本科以上學(xué)歷、碩士博士?jī)?yōu)先。具有很強(qiáng)的邏輯分析能力,對(duì)數(shù)據(jù)敏感。
2、 具有一定的數(shù)據(jù)建模實(shí)踐經(jīng)驗(yàn),扎實(shí)的編程基礎(chǔ),精通至少一門(mén)編程語(yǔ)言。熟悉R語(yǔ)言優(yōu)先。
3、 熟悉常用機(jī)器學(xué)習(xí)算法,對(duì)信息檢索、自然語(yǔ)言處理、圖像處理、語(yǔ)音處理等相關(guān)領(lǐng)域的應(yīng)用問(wèn)題有大量實(shí)踐經(jīng)驗(yàn)者優(yōu)先。
4、有實(shí)際成果并發(fā)表在國(guó)際頂級(jí)會(huì)議、期刊者優(yōu)先。
5、 擁有海量數(shù)據(jù)處理經(jīng)驗(yàn)者、熟悉Map-Reduce模型者優(yōu)先。
6、擅長(zhǎng)與商業(yè)伙伴的交流溝通,具有優(yōu)秀的報(bào)告講解能力及溝通能力優(yōu)先。
7、 能夠積極創(chuàng)新, 樂(lè)于面對(duì)挑戰(zhàn), 負(fù)責(zé)敬業(yè)。
8、 優(yōu)秀的團(tuán)隊(duì)合作精神;誠(chéng)實(shí), 勤奮, 嚴(yán)謹(jǐn)。
數(shù)據(jù)研發(fā)工程師
崗位描述Job Description
如果你想,參與阿里大數(shù)據(jù)的采集、存儲(chǔ)、處理,通過(guò)分布式大數(shù)據(jù)平臺(tái)加工數(shù)據(jù),支持業(yè)務(wù)管理決策。
如果你想,參與阿里大數(shù)據(jù)體系的設(shè)計(jì)、開(kāi)發(fā)、維護(hù),通過(guò)數(shù)據(jù)倉(cāng)庫(kù)、元數(shù)據(jù)、質(zhì)量體系有效的管理和組織幾百P的數(shù)據(jù)。
如果你想,參與阿里大數(shù)據(jù)產(chǎn)品的研發(fā),通過(guò)對(duì)數(shù)據(jù)的理解,發(fā)揮你的商業(yè)sense,發(fā)掘數(shù)據(jù)價(jià)值,探索大數(shù)據(jù)商業(yè)化。
如果你想,接觸世界領(lǐng)先的大數(shù)據(jù)處理與應(yīng)用的技術(shù)和平臺(tái),獲得大數(shù)據(jù)浪潮之巔的各類(lèi)大牛的指導(dǎo)。
崗位要求Qualifications
如果你,所學(xué)專業(yè)是計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)等相關(guān)專業(yè)。
如果你,有較強(qiáng)的動(dòng)手能力和學(xué)習(xí)能力,熟悉一門(mén)數(shù)據(jù)處理語(yǔ)言,如SQL、JAVA、Python、Perl等,熟悉unix或者linux操作。
如果你,具備扎實(shí)的專業(yè)基礎(chǔ),良好的溝通能力和團(tuán)隊(duì)合作,主動(dòng)積極、樂(lè)于面對(duì)挑戰(zhàn)。
如果你,有參與數(shù)據(jù)處理、分析、挖掘等相關(guān)項(xiàng)目更好。
如果你,對(duì)Hadoop、Hive、Hbase等分布式平臺(tái)有一定的理解更好。
那么,成為數(shù)據(jù)研發(fā)工程師吧,這里就是你的舞臺(tái)。
法工程師
崗位描述Job Description
阿里巴巴對(duì)海量數(shù)據(jù)的處理,需要涉及包括信息檢索、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、分布式計(jì)算等一系列的專業(yè)領(lǐng)域。
在這里,你將與這些領(lǐng)域內(nèi)的頂尖科學(xué)家和大牛工程師們一起分析討論數(shù)學(xué)模型的各種優(yōu)劣,結(jié)合業(yè)務(wù)中的實(shí)際問(wèn)題,設(shè)計(jì)實(shí)現(xiàn)各種算法。
從給定優(yōu)化目標(biāo)的優(yōu)化問(wèn)題求解,到稀疏矩陣的分解;沒(méi)解過(guò)上億維度空間的問(wèn)題就不能算是大數(shù)據(jù)算法工程師。
支持向量機(jī)、圖模型、波爾茨曼機(jī)……沒(méi)試過(guò)最新最牛的模型,就不能說(shuō)已經(jīng)對(duì)上億用戶的體驗(yàn)負(fù)責(zé)。
內(nèi)存壓縮、紅黑樹(shù)、并行度,不能把一個(gè)好算法用最高效的代碼實(shí)現(xiàn)就不是一個(gè)好的算法工程師。
崗位要求Qualifications
1、本科以上學(xué)歷、碩士博士?jī)?yōu)先。扎實(shí)的統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)理論基礎(chǔ),能夠利用高等數(shù)學(xué)知識(shí)推演高維數(shù)學(xué)模型。
2、 具有一定的數(shù)據(jù)建模實(shí)踐經(jīng)驗(yàn),扎實(shí)的編程基礎(chǔ),精通至少一門(mén)編程語(yǔ)言。熟悉R語(yǔ)言優(yōu)先。
3、 熟悉矩陣?yán)碚?、概率論、凸?yōu)化等數(shù)學(xué)理論模型者或具有較好數(shù)學(xué)基礎(chǔ)者優(yōu)先。
4、具有信息檢索、自然語(yǔ)言處理、圖像處理、語(yǔ)音處理、深度學(xué)習(xí)、知識(shí)圖譜、等領(lǐng)域相關(guān)經(jīng)驗(yàn),并在模型創(chuàng)新上有所建樹(shù)者優(yōu)先。
5、 擁有海量數(shù)據(jù)處理經(jīng)驗(yàn)者、熟悉Map-Reduce模型者優(yōu)先。
6、擅長(zhǎng)與商業(yè)伙伴的交流溝通,具有優(yōu)秀的報(bào)告講解能力及溝通能力優(yōu)先。
7、 能夠積極創(chuàng)新, 樂(lè)于面對(duì)挑戰(zhàn), 負(fù)責(zé)敬業(yè)。
8、 優(yōu)秀的團(tuán)隊(duì)合作精神;誠(chéng)實(shí), 勤奮, 嚴(yán)謹(jǐn)。?
端開(kāi)發(fā)工程師
崗位描述Job Description
在這里,你將參與交互設(shè)計(jì)師一起,美化產(chǎn)品線 Web功能的設(shè)計(jì);
與視覺(jué)設(shè)計(jì)師一起,參與完成產(chǎn)品線 Web功能的開(kāi)發(fā)與實(shí)現(xiàn);
有機(jī)會(huì)參與各產(chǎn)品線用戶體驗(yàn)、性能、架構(gòu)等方面的改進(jìn)與優(yōu)化;
你還將加入到我們業(yè)內(nèi)最前沿Web技術(shù)的研究與開(kāi)發(fā)中。
崗位要求Qualifications
我們希望你,可以熟練使用各種 Web 前端技術(shù),包括(X)HTML/CSS/Javascript/JSON 等,并有相關(guān)的項(xiàng)目開(kāi)發(fā)經(jīng)驗(yàn)或成果;
我們希望你,有基于Ajax 應(yīng)用的開(kāi)發(fā)經(jīng)驗(yàn);深刻理解 Web 標(biāo)準(zhǔn),對(duì)可用性、可訪問(wèn)性等相關(guān)知識(shí)有實(shí)際的了解; 對(duì)算法、數(shù)據(jù)結(jié)構(gòu)以及后臺(tái)開(kāi)發(fā)(PHP/Java等)有一定了解;
我們希望你,關(guān)注新事物、新技術(shù),有較強(qiáng)的學(xué)習(xí)能力,喜歡挑戰(zhàn);并且,個(gè)性樂(lè)觀開(kāi)朗,邏輯性強(qiáng),善于和各種背景的人合作。
還等什么呢?快來(lái)加入我們的阿里巴巴,期待你的大展身手!我們希望你,可以熟練使用各種 Web 前端技術(shù),包括(X)HTML/CSS/Javascript/JSON 等,并有相關(guān)的項(xiàng)目開(kāi)發(fā)經(jīng)驗(yàn)或成果;
工作地點(diǎn)Location
成都市(Chengdu),上海市(Shanghai),杭州市(Hangzhou),北京市(Beijing),廣州市(Guangzhou)
參加面試的城市或地區(qū)Interview City or Region
杭州市(Hangzhou),上海市(Shanghai),成都市(Chengdu),南京市(Nanjing),北京市(Beijing),天津市(Tianjin),廣州市(Guangzhou),武漢市(Wuhan),哈爾濱市(Haerbin),西安市(Xian)
數(shù)據(jù)產(chǎn)品經(jīng)理
崗位描述Job Description
如果你想,了解阿里大數(shù)據(jù)的來(lái)龍去脈,參與解讀大數(shù)據(jù)背后的業(yè)務(wù)及商業(yè)意義;
如果你想,用數(shù)據(jù)“說(shuō)話”,全面及時(shí)反映全局運(yùn)營(yíng)狀況,打造“業(yè)務(wù)瞄準(zhǔn)器”,把數(shù)據(jù)轉(zhuǎn)化成生產(chǎn)力,提升業(yè)務(wù)運(yùn)作效率
如果你想,直面業(yè)務(wù)團(tuán)隊(duì),管理和分析客戶需求,形成需求分析和產(chǎn)品設(shè)計(jì),推動(dòng)并解決業(yè)務(wù)問(wèn)題,保障業(yè)務(wù)戰(zhàn)略發(fā)展和支持管理決策
如果你想,參與大數(shù)據(jù)建設(shè),搭建阿里大數(shù)據(jù)底層的統(tǒng)一公共層業(yè)務(wù)模型架構(gòu)和面向公司內(nèi)外客戶的數(shù)據(jù)產(chǎn)品,提供標(biāo)準(zhǔn)、服務(wù)、安全、共享的數(shù)據(jù)服務(wù)平臺(tái)
如果你想,直面千百萬(wàn)商家,深入客戶溝通和了解客戶需求,規(guī)劃、設(shè)計(jì)和落地以商家為目標(biāo)客戶的數(shù)據(jù)產(chǎn)品并持續(xù)優(yōu)化,為商家做生意提供數(shù)據(jù)分析、診斷、建議、優(yōu)化甚至預(yù)測(cè)服務(wù)
崗位要求Qualifications
如果你,所學(xué)專業(yè)是計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)、中文、信息管理與科學(xué)等相關(guān)專業(yè)
如果你,了解互聯(lián)網(wǎng)特別是電子商務(wù),具備良好的數(shù)據(jù)敏感度和業(yè)務(wù)視野,能夠敏銳的捕獲數(shù)據(jù)價(jià)值和產(chǎn)品機(jī)會(huì)
如果你,有強(qiáng)烈的責(zé)任感和ownership,具有積極主動(dòng)追求產(chǎn)品和幫助客戶成功的意愿和熱情,并且愛(ài)好挑戰(zhàn)
如果你,具備很好的文筆和良好的邏輯思維、良好的溝通能力和團(tuán)隊(duì)協(xié)作能力、以及很強(qiáng)的學(xué)習(xí)和動(dòng)手能力
如果你,熟悉一門(mén)數(shù)據(jù)處理語(yǔ)言,如SQL、JAVA、Python、Perl等,熟悉unix或者linux操作則更好
那么,加入數(shù)據(jù)產(chǎn)品經(jīng)理的領(lǐng)域吧,讓我們一起來(lái)解讀大數(shù)據(jù)時(shí)代充滿激情挑戰(zhàn)和創(chuàng)新思維的數(shù)據(jù)產(chǎn)品吧!
工作地點(diǎn)Location
杭州市(Hangzhou),北京市(Beijing),廣州市(Guangzhou)
參加面試的城市或地區(qū)Interview City or Region
杭州市(Hangzhou),上海市(Shanghai),成都市(Chengdu),北京市(Beijing),廣州市(Guangzhou),武漢市(Wuhan)