-
Hadoop&Spark比較 Hadoop應用場景: 離線處理,時效性要求不高的場景:Hadoop中間數(shù)據(jù)落到硬盤上,導致Hadoop處理大數(shù)據(jù)時,時效性不高,時間在幾分鐘到幾小時不等,但數(shù)據(jù)可以存儲。 Spark應用場景: 時效性要求高的場景和機器學習:Spark基于內存,中間數(shù)據(jù)多在內存中,數(shù)據(jù)處理塊,但Spark不具備hdfs存儲功能,需借助hdfs Doug Cutting 的觀點: spark這是個生態(tài)系統(tǒng),每個組件都有其作用,各姍其職即可, Spark不具有HDFS的存儲能力,要借助HDFS等持久數(shù)據(jù) 大數(shù)據(jù)將會孕育出更多的新技術查看全部
-
spark歷史:伯克利實驗室研究項目,基于Hadoop的Mapreduce機制,引入內存管理機制,提高了迭代式計算和交互式中的效率。 spark組件: spark core:spark基本功能,包括任務調度,內存管理,容錯機制 內部定義了RDDs(彈性分布式數(shù)據(jù)集),提供多個APIs調用,為其他組件提供底層服務 spark sql:spark處理結構化數(shù)據(jù)的庫,類似Hive SQL,MySql,主要為企業(yè)提供報表統(tǒng)計 spark streaming:實時數(shù)據(jù)流處理組件,類似Storm,提供API操作實時流數(shù)據(jù),企業(yè)中用來從Kafka中接收數(shù)據(jù)做實時統(tǒng)計 Mlib:機器學習功能包,包括聚類,回歸,模型評估和數(shù)據(jù)導入。同時支持集群平臺上的橫向擴展 Graphx:處理圖的庫,并進行圖的并行計算 Cluster Manager是:spark自帶的集群管理 Spark緊密集成的優(yōu)點: spark底層優(yōu)化,基于spark底層的組件也得到相應的優(yōu)化,緊密集成節(jié)省了組件的部署,測試時間查看全部
-
Spark的組件查看全部
-
Spark課程大綱查看全部
-
Spark是一個快速且通用的集群計算平臺。 Spark是快速的: Spark擴充了流行的MapReduce計算模型; Spark是基于內存的計算。 Spark是通用的: Spark的設計容納了其它分布式系統(tǒng)擁有的功能; 批處理,迭代式計算,交互查詢和流處理等。查看全部
-
Mlib:集成的機器學習包 Graphx:處理圖像,圖的計算查看全部
-
Spark是Scala寫的,在jvm上運行,運行環(huán)境java7+查看全部
-
Doug Cutting 的觀點: spark這是個生態(tài)系統(tǒng),每個組件都有其作用,各姍其職即可, Spark不具有HDFS的存儲能力,要借助HDFS等持久數(shù)據(jù) 大數(shù)據(jù)將會孕育出更多的新技術查看全部
-
Spark時效性高,基于內存反應在幾秒查看全部
-
Hadoop 離線處理、時效性要求不高查看全部
-
緊密集成的優(yōu)點: Spark底層優(yōu)化了,基于Spark底層的組件,也得到了相應的優(yōu)化。 緊密集成,節(jié)省了各個組件組合使用時的部署,測試等時間。 向Spark增加新的組件時,其他組件,立刻享用新組建的功能查看全部
-
Cluster Managers: 就是集群管理,Spark自帶一個集群管理是單獨調度器。 常見集群管理包括Hadoop YARN,Apache Mesos查看全部
-
Graphx: 是處理圖的庫(社交網絡圖),并進行圖的并行計算。 像Spark Streaming,Spark SQL一樣,它也繼承了RDD API 它提供了各種圖的操作,和常用的圖算法,例如PangeRank算法。查看全部
-
Mlib: 一個包含通用機器學習功能的包,Machine learning lib 包含分類、聚類、回歸等,還包括模型評估,和數(shù)據(jù)導入。查看全部
-
Spark Core: Spark基本功能,包含任務調度、內存管理、容錯機制 內部定義:RDDs(彈性分布式數(shù)據(jù)集) 提供APIs來創(chuàng)建和操作這些RDDs 應用場景,為其他組件提供底層的服務。查看全部
舉報
0/150
提交
取消