第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定

Spark從零開始

Terby JAVA開發(fā)工程師
難度初級
時長 2小時18分
學習人數(shù)
綜合評分9.80
56人評價 查看評價
9.8 內容實用
9.7 簡潔易懂
9.9 邏輯清晰
  • Spark快速且通用的集群計算平臺
    ? spark是快速的
    ○ Spark擴充了流行的Mapreduce計算模型
    ○ Spark是基于內存的計算
    ? spark是通用的
    ○ 容納了其他分布式系統(tǒng)擁有的功能:批處理、迭代式計算、交互查詢和流處理等,方便維護
    ○ 優(yōu)點:降低了維護成本
    ? spark是高度開放的
    ○ Spark提供了Python,Java,Scala,SQL的API和豐富的內置庫。
    ○ Spark和其他的大數(shù)據(jù)工具整合的很好,包括hadoop,kafka等。

    查看全部
    0 采集 收起 來源:Spark簡介

    2022-11-06

    • RDDs血統(tǒng)關系圖

    Spark維護著RDDs之間的依賴關系和創(chuàng)建關系,叫做 血統(tǒng)關系圖

    Spark使用血統(tǒng)關系圖計算每個RDD的需求和恢復丟失的數(shù)據(jù)


    • 延遲計算( Lazy Evaluation)

    在第一次使用Action操作時才進行計算, 減少數(shù)據(jù)傳輸

    Spark內部記錄metadat表明 transformation操作已經(jīng)相應

    • RDD.persist() 持久操作

    默認每次RDD進行action操作,會重新計算

    persist()后可以重復利用一個RDD (緩存)



    查看全部
    0 采集 收起 來源:RDDS的特性

    2022-03-25

  • //scala
    //RDD逐元素transformation
    lines.map(word=>(word,1))
    lines.filter(word=>word.contains("hello"))
    lines.flatMap(line=>line.split("?"))??????//壓扁
    
    //集合運算
    rdd1.distinct()????//去重
    rdd1.union(rdd2)????//并集
    rdd1.intersection(rdd2)????//交集
    rdd1.subtract(rdd2)
    查看全部
  • RDDs創(chuàng)建

    #scala
    val?rdd=?sc.parallelize(Array(1,2,3,4),4)
    #參數(shù)1:待并行化處理的集合
    #參數(shù)2:分區(qū)個數(shù)
    rdd.count()
    rdd.foreach(println)
    
    #加載外部數(shù)據(jù)
    val?rddText?=?sc.textFile("hello.txt")

    Scala基礎

    #變量
    val?變量值不可修改
    var?可指向類型相同的值
    #匿名函數(shù)和類型推斷??自動推斷l(xiāng)ine是string類型,可調用contain方法
    lines.filter(line?=>?line.contains("world"))
    查看全部
    0 采集 收起 來源:Rdds介紹

    2022-03-23

  • Drive Programs通過 SparkContext 對象訪問Spark


    SparkContext 對象(即sc) 代表和一個集群的連接?

    scala>?val?lines=?sc.textFile("/home/soft/hello.txt")
    lines即為RDDs

    RDDs彈性分布式數(shù)據(jù)集:? 并行分布在整個集群中

    RDDs是Spark分發(fā)數(shù)據(jù)和計算的基礎抽象類

    一個RDD是不可改變的分布式集合對象

    Spark中所有計算都是RDD操作完成


    分片:

    一個RDD內部有許多partitions分片組成,?

    每個partition包含一部分數(shù)據(jù), 可在集群不同節(jié)點計算

    分片是Spark并行處理的單元

    查看全部
    0 采集 收起 來源:Rdds介紹

    2022-03-23

  • Wordcount

    //Scala
    
    Object?WordCount{
    ????def?main(args:?Array[String]){
    ????????val?conf=?new?SparkConf().setAppName("wordcount")
    ????????val?sc?=?new?SparkContext(conf)
    ????????
    ????????val?input=?sc.textFile("/home/soft/hello.txt")
    ????????//RDD操作:壓扁
    ????????val?lines?=?input.flatMap(line=>?line.split("?"))
    ????????//轉換成kv對
    ????????val?count=?lines.map(word=>(word,1)).reduceByKey{case?(x,y)=>x+y}
    ????????val?output=?count.saveAsTextFile("/home/result")
    ????}
    }

    Project Structure -> Artifacts ->+然后 BuildArtifacts? 打包Jar


    啟動集群:

    ????????啟動master? start-master.sh

    ????????啟動worker? spark-class

    ????????提交作業(yè) spark-submit

    #啟動worker
    spark-class?org.apache.spark.deploy.worker.Worker?spark://localhost.localdomain:4040
    #提交
    spark-submit?--master?spark://localhost.localdomain:4040?--class?WordCount?/home/soft/hello.jar
    #上傳jar包
    rz?-be
    查看全部
  • RDDS的特性

    查看全部
    0 采集 收起 來源:RDDS的特性

    2021-09-28

  • RDD基本操作之a(chǎn)ction




    查看全部
  • rdd緩存級別

    查看全部
    0 采集 收起 來源:RDDS的特性

    2021-08-28

  • 小結

    查看全部
  • distinct:驅蟲

    union:合并

    intersection:交集

    subtract:差集

    查看全部
  • spark與hadoop

    spark計算時效:幾秒鐘、幾分鐘

    存儲:基于內存計算,需要借助hdfs持久化數(shù)據(jù)

    查看全部
  • spark core

    查看全部
  • spark的生態(tài)

    查看全部
  • 思路,PPT
    查看全部

舉報

0/150
提交
取消
課程須知
1、 簡單Linux的操作
老師告訴你能學到什么?
1、了解Spark到底是什么 2、了解Spark和Hadoop的區(qū)別 3、了解Spark的基礎知識和概念 4、掌握Spark RDD的基本操作和特性 5、掌握Spark程序的開發(fā)和部署流程

微信掃碼,參與3人拼團

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號

友情提示:

您好,此課程屬于遷移課程,您已購買該課程,無需重復購買,感謝您對慕課網(wǎng)的支持!