首頁(yè) 猿問 hadoop和spark的區(qū)別?

hadoop和spark的區(qū)別?

Hadoop

慕姐4208626 2019-02-07 20:07:35

hadoop和spark的區(qū)別

查看完整描述

2 回答

慕容708150

TA貢獻(xiàn)1831條經(jīng)驗(yàn) 獲得超4個(gè)贊

解決問題的層面不一樣
首先，Hadoop和Apache Spark兩者都是大數(shù)據(jù)框架，但是各自存在的目的不盡相同。Hadoop實(shí)質(zhì)上更多是一個(gè)分布式數(shù)據(jù)基礎(chǔ)設(shè)施: 它將巨大的數(shù)據(jù)集分派到一個(gè)由普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)進(jìn)行存儲(chǔ)，意味著您不需要購(gòu)買和維護(hù)昂貴的服務(wù)器硬件。
同時(shí)，Hadoop還會(huì)索引和跟蹤這些數(shù)據(jù)，讓大數(shù)據(jù)處理和分析效率達(dá)到前所未有的高度。Spark，則是那么一個(gè)專門用來對(duì)那些分布式存儲(chǔ)的大數(shù)據(jù)進(jìn)行處理的工具，它并不會(huì)進(jìn)行分布式數(shù)據(jù)的存儲(chǔ)。
兩者可合可分
Hadoop除了提供為大家所共識(shí)的HDFS分布式數(shù)據(jù)存儲(chǔ)功能之外，還提供了叫做MapReduce的數(shù)據(jù)處理功能。所以這里我們完全可以拋開Spark，使用Hadoop自身的MapReduce來完成數(shù)據(jù)的處理。
相反，Spark也不是非要依附在Hadoop身上才能生存。但如上所述，畢竟它沒有提供文件管理系統(tǒng)，所以，它必須和其他的分布式文件系統(tǒng)進(jìn)行集成才能運(yùn)作。這里我們可以選擇Hadoop的HDFS,也可以選擇其他的基于云的數(shù)據(jù)系統(tǒng)平臺(tái)。但Spark默認(rèn)來說還是被用在Hadoop上面的，畢竟，大家都認(rèn)為它們的結(jié)合是最好的。
希望能幫到你。

反對(duì) 回復(fù) 2019-03-02

慕標(biāo)琳琳

TA貢獻(xiàn)1830條經(jīng)驗(yàn) 獲得超9個(gè)贊

Hadoop這項(xiàng)大數(shù)據(jù)處理技術(shù)大概已有十年歷史，而且被看做是首選的大數(shù)據(jù)集合處理的解決方案。MapReduce是一路計(jì)算的優(yōu)秀解決方案，不過對(duì)于需要多路計(jì)算和算法的用例來說，并非十分高效。數(shù)據(jù)處理流程中的每一步都需要一個(gè)Map階段和一個(gè)Reduce階段，而且如果要利用這一解決方案，需要將所有用例都轉(zhuǎn)換成MapReduce模式。
在下一步開始之前，上一步的作業(yè)輸出數(shù)據(jù)必須要存儲(chǔ)到分布式文件系統(tǒng)中。因此，復(fù)制和磁盤存儲(chǔ)會(huì)導(dǎo)致這種方式速度變慢。另外Hadoop解決方案中通常會(huì)包含難以安裝和管理的集群。而且為了處理不同的大數(shù)據(jù)用例，還需要集成多種不同的工具（如用于機(jī)器學(xué)習(xí)的Mahout和流數(shù)據(jù)處理的Storm）。
如果想要完成比較復(fù)雜的工作，就必須將一系列的MapReduce作業(yè)串聯(lián)起來然后順序執(zhí)行這些作業(yè)。每一個(gè)作業(yè)都是高時(shí)延的，而且只有在前一個(gè)作業(yè)完成之后下一個(gè)作業(yè)才能開始啟動(dòng)。
而Spark則允許程序開發(fā)者使用有向無環(huán)圖（DAG）開發(fā)復(fù)雜的多步數(shù)據(jù)管道。而且還支持跨有向無環(huán)圖的內(nèi)存數(shù)據(jù)共享，以便不同的作業(yè)可以共同處理同一個(gè)數(shù)據(jù)。
Spark運(yùn)行在現(xiàn)有的Hadoop分布式文件系統(tǒng)基礎(chǔ)之上（HDFS）提供額外的增強(qiáng)功能。它支持將Spark應(yīng)用部署到現(xiàn)存的Hadoop v1集群（with SIMR – Spark-Inside-MapReduce）或Hadoop v2 YARN集群甚至是Apache Mesos之中。
我們應(yīng)該將Spark看作是Hadoop MapReduce的一個(gè)替代品而不是Hadoop的替代品。其意圖并非是替代Hadoop，而是為了提供一個(gè)管理不同的大數(shù)據(jù)用例和需求的全面且統(tǒng)一的解決方案。