第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機(jī)立即綁定

流式計(jì)算

標(biāo)簽:
大數(shù)據(jù)

从spark 说起,谈谈“流式”计算的理解

spark是一个大数据分布式的计算框架,有一些并行计算的基础会更容易理解分布式计算框架的概念。对比并行计算,谈三个概念:

  1. 并行计算

  2. Map Reduce 算子

  3. RDD数据结构

  • 并行计算

spark的任务分为1个driver、多个executor。程序启动driver,driver发送执行的程序(jar)到executor,executor在多台机器并行执行。driver和executor可以理解为进程,像httpd一样,完成某些任务,接受并发送数据的进程。

不同的spark任务都需要分配driver、executor。此时,还需要提供资源管理的应用,包括计算资源内存资源的。

我们采用YARN作为spark资源管理系统,Mesos是另一个资源管理框架。


webp

YARN

  • Map Reduce 算子

大数据与并行计算的最大区别,我认为就在map reduce算子上。

并行计算更喜欢做“关门打狗”的应用,高度并行,线程之间不做交互,例如口令破译,造表等。

spark中,用transform 和 action代替map Reduce操作。transform中的reduceByKey等操作对整体数据处理。例如,下面的代码是一个transform操作,rdd是(word,1)对象,reducebykey统计相同word出现的次数,这个操作是全局完成的。

rdd.reduceByKey((v1,v2)->v1+v2)
  • RDD数据结构

在并行计算中,需要维护一个全局数据结构,类似任务种子,每个节点维护与自己种子对应的数据片。

RDD(Resilient Distributed Datasets),弹性分布式数据集。在spark中,RDD维护一个全局的数据对象。每个任务executor自动对应自己的数据集分片。在编写程序的时候,对executor上到底有哪些数据不用关心,数据集的分片、合并等操作都是透明的,仅需要定义整个数据集的操作。

webp

RDD


spark 大数据应用,挑战

spark用于实现大数据分析功能。如果数据源比较大,有几十亿条,用MySQL做数据分析,可能要一天的时间,spark可能几十分钟就能给出结果(因为采用分布式计算,分布式数据集)。

传统的web服务,属于online业务。online业务要求毫秒级的响应速度,这样的业务产生额外的要求,例如对用户的阅读记录对用户的画像的影响、一个订单对全城车辆调度的影响、一个用户的动态对推荐feed流的影响。

虽然,这些操作实时性不像online业务要求毫秒,但是也是秒级的。对spark批处理提出更多要求。

Spark streaming 解决秒级响应,即流式计算

spark streaming 将spark 批处理应用,缩小为一个微批micro batch,把microbatch作为一个计算单元。


webp

Stream


典型应用如图。大量实时业务产生的实时数据,首先放在一个队列中,例如kafka,Spark streaming 从kafka中取出micorbatch进行处理。

JavaStreamingContext ssc = 
new JavaStreamingContext(sparkConf, Durations.seconds(5));
JavaReceiverInputDStream inputDStream =     
                ssc.socketTextStream("localhost",9999,
                    StorageLevel.MEMORY_AND_DISK());
JavaDStream<String> words =  inputDStream
            .flatMap(s->Arrays.asList(String.valueOf(s)
                          .split(" ")).iterator());

上面的代码案例,定义一个socket输入流,任务每5秒钟执行一次(微批),统计单词个数。

总结

本文是关于spark streaming流式计算理解的介绍文章。

希望读者能通过10分钟的阅读,理解spark streaming 及流式计算的原理。

文中对spark、yarn的原理没有深入讲解,有机会在后面的文章介绍。



作者:白头雁
链接:https://www.jianshu.com/p/e06322ac4f06


點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學(xué)習(xí),寫下你的評論
感謝您的支持,我會繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊有機(jī)會得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

舉報(bào)

0/150
提交
取消