第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問(wèn)題,去搜搜看,總會(huì)有你想問(wèn)的

hadoop和spark的區(qū)別

hadoop和spark的區(qū)別

一只萌萌小番薯 2018-12-04 05:04:53
hadoop和spark的區(qū)別
查看完整描述

1 回答

?
哈士奇WWW

TA貢獻(xiàn)1799條經(jīng)驗(yàn) 獲得超6個(gè)贊


展開(kāi)全部

Hadoop這項(xiàng)大數(shù)據(jù)處理技術(shù)大概已有十年歷史,而且被看做是首選的大數(shù)據(jù)集合處理的解決方案。MapReduce是一路計(jì)算的優(yōu)秀解決方案,不過(guò)對(duì)于需要多路計(jì)算和算法的用例來(lái)說(shuō),并非十分高效。數(shù)據(jù)處理流程中的每一步都需要一個(gè)Map階段和一個(gè)Reduce階段,而且如果要利用這一解決方案,需要將所有用例都轉(zhuǎn)換成MapReduce模式。
在下一步開(kāi)始之前,上一步的作業(yè)輸出數(shù)據(jù)必須要存儲(chǔ)到分布式文件系統(tǒng)中。因此,復(fù)制和磁盤(pán)存儲(chǔ)會(huì)導(dǎo)致這種方式速度變慢。另外Hadoop解決方案中通常會(huì)包含難以安裝和管理的集群。而且為了處理不同的大數(shù)據(jù)用例,還需要集成多種不同的工具(如用于機(jī)器學(xué)習(xí)的Mahout和流數(shù)據(jù)處理的Storm)。
如果想要完成比較復(fù)雜的工作,就必須將一系列的MapReduce作業(yè)串聯(lián)起來(lái)然后順序執(zhí)行這些作業(yè)。每一個(gè)作業(yè)都是高時(shí)延的,而且只有在前一個(gè)作業(yè)完成之后下一個(gè)作業(yè)才能開(kāi)始啟動(dòng)。
而Spark則允許程序開(kāi)發(fā)者使用有向無(wú)環(huán)圖(DAG)開(kāi)發(fā)復(fù)雜的多步數(shù)據(jù)管道。而且還支持跨有向無(wú)環(huán)圖的內(nèi)存數(shù)據(jù)共享,以便不同的作業(yè)可以共同處理同一個(gè)數(shù)據(jù)。
Spark運(yùn)行在現(xiàn)有的Hadoop分布式文件系統(tǒng)基礎(chǔ)之上(HDFS)提供額外的增強(qiáng)功能。它支持將Spark應(yīng)用部署到現(xiàn)存的Hadoop v1集群(with SIMR – Spark-Inside-MapReduce)或Hadoop v2 YARN集群甚至是Apache Mesos之中。
我們應(yīng)該將Spark看作是Hadoop MapReduce的一個(gè)替代品而不是Hadoop的替代品。其意圖并非是替代Hadoop,而是為了提供一個(gè)管理不同的大數(shù)據(jù)用例和需求的全面且統(tǒng)一的解決方案。



查看完整回答
反對(duì) 回復(fù) 2018-12-09
  • 1 回答
  • 0 關(guān)注
  • 858 瀏覽
慕課專(zhuān)欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)