2 回答

TA貢獻(xiàn)1946條經(jīng)驗(yàn) 獲得超4個(gè)贊
IBM中國研究院高級(jí)研究員陳冠誠主要從事Big Data on Cloud,大數(shù)據(jù)系統(tǒng)性能分析與優(yōu)化方面的技術(shù)研發(fā)。負(fù)責(zé)和參與過SuperVessel超能云的大數(shù)據(jù)服務(wù)開發(fā),Hadoop軟硬件協(xié)同優(yōu)化,MapReduce性能分析與調(diào)優(yōu)工具,高性能FPGA加速器在大數(shù)據(jù)平臺(tái)上應(yīng)用等項(xiàng)目。在Supercomputing(SC),IEEE BigData等國際頂級(jí)會(huì)議和期刊上發(fā)表過多篇大數(shù)據(jù)數(shù)據(jù)處理技術(shù)相關(guān)的論文,并擁有八項(xiàng)大數(shù)據(jù)領(lǐng)域的技術(shù)專利。曾在《程序員》雜志分享過多篇分布式計(jì)算,大數(shù)據(jù)處理技術(shù)等方面的技術(shù)文章。以下為媒體針對(duì)陳冠誠的專訪:
問:首先請(qǐng)介紹下您自己,以及您在Spark 技術(shù)方面所做的工作。
陳冠誠:我是IBM中國研究院的高級(jí)研究員,大數(shù)據(jù)云方向的技術(shù)負(fù)責(zé)人。我們圍繞Spark主要做兩方面的事情:第一,在IBM研究院的SuperVessel公有云上開發(fā)和運(yùn)維Spark as a Service大數(shù)據(jù)服務(wù)。第二,在OpenPOWER架構(gòu)的服務(wù)器上做Spark的性能分析與優(yōu)化。
問:您所在的企業(yè)是如何使用Spark 技術(shù)的?帶來了哪些好處?
陳冠誠:Spark作為新一代的大數(shù)據(jù)處理引擎主要帶來了兩方面好處:
相比于MapReduce在性能上得到了很大提升。
在一個(gè)統(tǒng)一的平臺(tái)上將批處理、SQL、流計(jì)算、圖計(jì)算、機(jī)器學(xué)習(xí)算法等多種范式集中在一起,使混合計(jì)算變得更加的容易。
問:您認(rèn)為Spark 技術(shù)最適用于哪些應(yīng)用場景?
陳冠誠:大規(guī)模機(jī)器學(xué)習(xí)、圖計(jì)算、SQL等類型數(shù)據(jù)分析業(yè)務(wù)是非常適合使用Spark的。當(dāng)然,在企業(yè)的技術(shù)選型過程中,并不是說因?yàn)镾park很火就一定要使用它。例如還有很多公司在用Impala做數(shù)據(jù)分析,一些公司在用Storm和Samaza做流計(jì)算,具體的技術(shù)選型應(yīng)該根據(jù)自己的業(yè)務(wù)場景,人員技能等多方面因素來做綜合考量。
問:企業(yè)在應(yīng)用Spark 技術(shù)時(shí),需要做哪些改變嗎?企業(yè)如果想快速應(yīng)用Spark 應(yīng)該如何去做?
陳冠誠:企業(yè)想要擁抱Spark技術(shù),首先需要技術(shù)人員改變。是否有給力的Spark人才會(huì)是企業(yè)能否成功應(yīng)用Spark最重要的因素。多參與Spark社區(qū)的討論,參加Spark Meetup,給upstrEAM貢獻(xiàn)代碼都是很好的切入方式。如果個(gè)人開發(fā)者想快速上手Spark,可以考慮使用SuperVessel免費(fèi)的Spark公有云服務(wù),它能快速創(chuàng)建一個(gè)Spark集群供大家使用。
問:您所在的企業(yè)在應(yīng)用Spark 技術(shù)時(shí)遇到了哪些問題?是如何解決的?
陳冠誠:我們?cè)趯?duì)Spark進(jìn)行性能調(diào)優(yōu)時(shí)遇到很多問題。例如JVM GC的性能瓶頸、序列化反序列化的開銷、多進(jìn)程好還是多線程好等等。在遇到這些問題的時(shí)候,最好的方法是做好Profiling,準(zhǔn)確找到性能瓶頸,再去調(diào)整相關(guān)的參數(shù)去優(yōu)化這些性能瓶頸。
另一方面,我們發(fā)現(xiàn)如果將Spark部署在云環(huán)境里(例如OpenStack管理的Docker Container)時(shí),它的性能特征和在物理機(jī)上部署又會(huì)有很大的不同,目前我們還在繼續(xù)這方面的工作,希望以后能有機(jī)會(huì)跟大家繼續(xù)分享。
問:作為當(dāng)前流行的大數(shù)據(jù)處理技術(shù),您認(rèn)為Spark 還有哪些方面需要改進(jìn)?
陳冠誠:在與OpenStack這樣的云操作系統(tǒng)的集成上,Spark還是有很多工作可以做的。例如與Docker Container更好的集成,對(duì)Swift對(duì)象存儲(chǔ)的性能優(yōu)化等等。
問:您在本次演講中將分享哪些話題?
陳冠誠:我將分享的話題是“基于OpenStack、Docker和Spark打造SuperVessel大數(shù)據(jù)公有云”:
隨著Spark在2014年的蓬勃發(fā)展,Spark as a Service大數(shù)據(jù)服務(wù)正成為OpenStack生態(tài)系統(tǒng)中的新熱點(diǎn)。另一方面,Docker Container因?yàn)樵谔嵘频馁Y源利用率和生產(chǎn)效率方面的優(yōu)勢(shì)而備受矚目。在IBM中國研究院為高校和技術(shù)愛好者打造的SuperVessel公有云中,我們使用OpenStack、Docker和Spark三項(xiàng)開源技術(shù),在OpenPOWER服務(wù)器上打造了一個(gè)大數(shù)據(jù)公有云服務(wù)。本次演講我們會(huì)向大家介紹如何一步一步使用Spark、Docker和OpenStack打造一個(gè)大數(shù)據(jù)公有云,并分享我們?cè)陂_發(fā)過程中遇到的問題和經(jīng)驗(yàn)教訓(xùn)。
問:哪些聽眾最應(yīng)該了解這些話題?您所分享的主題可以幫助聽眾解決哪些問題?
陳冠誠:對(duì)如何構(gòu)造一個(gè)大數(shù)據(jù)云感興趣的同學(xué)應(yīng)該會(huì)對(duì)這個(gè)話題感興趣,開發(fā)SuperVessel的Spark as a Service服務(wù)過程中我們所做的技術(shù)選型、架構(gòu)設(shè)計(jì)以及解決的問題應(yīng)該能對(duì)大家有所幫助
- 2 回答
- 0 關(guān)注
- 587 瀏覽
添加回答
舉報(bào)