關(guān)于spark內(nèi)核的學(xué)習(xí)筆記

標(biāo)簽：

大數(shù)據(jù)

一、Spark是基于RDD的计算
注意：Spark并没有读文件的方法，借用的是MR读文件的方法。
MR读文件特点：首先他会将文件切片，划分为一个个split
block（个数）=split=partition

二、RDD是分布式弹性数据集，哪些特性体现了分布式：
1、多个partition组成弹性
2、依赖关系
3、容错
Spark运行流程

四、worker：真正计算的节点
driver：不会执行业务逻辑

解释：
1.构建Spark Application的运行环境（启动Spark Context），Spark Context向资源管理器（可以是Standalone、Mesos、Yarn）注册并申请Executor资源；
2.资源管理器分配Executor资源并开启StandaloneExecutorBackend，Executor运行情况将随着心脏发送到资源管理器上；
3.SparkContext构建DAG图，将DAG图分解成stage，并把Taskset发放给Task Scheduler，Executor向Spark Context申请Task，Task Sheduler将task发放给Executor运行同时Spark Context将应运程序代码发放给Executor
4.Task在Executor上运行，运行完毕释放所有资源