第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

Spark中對(duì)RDD的理解

標(biāo)簽:
Spark

Spark中对RDD的理解

简介

what the is RDD?

RDD(Resilient Distributed Datasets)
(Resilient 弹性),(Distributed 分布式),(Datasets 数据集)
RDD是一个弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限共享内存模型。

RDD的特性

1.分片的数据集(list of partiton)

假设要读取HDFS上的数据,每个block块就是一个分片(partiton),所有的分片(partiton)组合在一起就是一个集合(list) 一个RDD。

2.在分片中使用函数计算(function for computing each partiton)

现在假设我们有map的函数,和一个RDD,这个RDD中有3个partiton,那么这个map函数会在每个partiton之上的进行计算。
计算完毕后,又组成一个新的RDD,以迭代的方式进行计算。


webp

RDD计算顺序

3.数据集依赖RDD

从2.在分片中使用函数计算可以看出。
首先RDD1初始化的时候是在HDFS系统中读出来的数据,然后通过map函数在partiton进行计算又组成了一个新的RDD2,这样我们可以得出结论RDD都是有依赖关系的。依赖的好处就是有容错,假设RDD2中的partiton数据丢失了,可以重新在RDD1中计算过来。

4.KV的RDD

如果RDD中的元素是二元组类型的话,那么这个RDD就叫KV格式的RDD

5.task计算数据本地化

task理解为是一个线程,在任务调度的时候RDD会提供一个接口给我们调用,知道partiton所在的位置之后就分发task让其执行任务。

Driver的作用

1.负责任务的分发(task的分发)
2.将每一个task的计算结果拉回到Driver端。

spark的代码执行流程

1.从文件系统中读取数据(Flie System)加载到RDD。
2.使用transformations算子 对RDD的计算(不会立即执行)。
3.触发Action类算子执行(立即执行)。



作者:陈_志鹏
链接:https://www.jianshu.com/p/82d8df62616a


點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺(jué)得本文不錯(cuò),就分享一下吧!

評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 評(píng)論
  • 收藏
  • 共同學(xué)習(xí),寫(xiě)下你的評(píng)論
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說(shuō)多少就多少
贊賞金額會(huì)直接到老師賬戶(hù)
支付方式
打開(kāi)微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專(zhuān)欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

舉報(bào)

0/150
提交
取消