2 回答

TA貢獻(xiàn)12條經(jīng)驗(yàn) 獲得超0個(gè)贊
Apache Fink是一種大規(guī)模的數(shù)據(jù)處理工具,它以大數(shù)據(jù)量的低數(shù)據(jù)延遲和高容錯(cuò)性快速處理大數(shù)據(jù)。它的定義特征是它能夠?qū)崟r(shí)處理流數(shù)據(jù)。
Apache Spark是專(zhuān)為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎,是一種與 Hadoop 相似的開(kāi)源集群計(jì)算環(huán)境。
相同點(diǎn):
都是apache 軟件基金會(huì)(ASF)旗下頂級(jí)項(xiàng)目,都是通用數(shù)據(jù)處理平臺(tái)。它們可以應(yīng)用在很多的大數(shù)據(jù)應(yīng)用和處理環(huán)境。兩者均可在不依賴于其他環(huán)境的情況下運(yùn)行于standalone模式,或是運(yùn)行在基于hadoop(YARN,HDFS)之上,由于它們均是運(yùn)行于內(nèi)存,所以他們表現(xiàn)的都比hadoop要好很多。
二者的不同:
Flink在進(jìn)行集合的迭代轉(zhuǎn)換時(shí)可以是循環(huán)或是迭代計(jì)算處理。flink的流式處理的是真正的流處理。流式數(shù)據(jù)一旦進(jìn)入就實(shí)時(shí)進(jìn)行處理,這就允許流數(shù)據(jù)靈活地在操作窗口。
Spark 在另一方面是基于彈性分布式數(shù)據(jù)集(RDD),這(主要的)給于spark基于內(nèi)存內(nèi)數(shù)據(jù)結(jié)構(gòu)的函數(shù)式編程。它可以通過(guò)固定的內(nèi)存給于大批量的計(jì)算。

TA貢獻(xiàn)1911條經(jīng)驗(yàn) 獲得超7個(gè)贊
Spark在SQL上的優(yōu)化,尤其是DataFrame到DataSet其實(shí)是借鑒的Flink的。
Flink最初一開(kāi)始對(duì)SQL支持得就更好。
添加回答
舉報(bào)