簡介:本課中將系統(tǒng)的講解Spark SQL的核心知識,并以實(shí)戰(zhàn)的方式,通過分析Nginx訪問日志的實(shí)戰(zhàn)例子,幫助同學(xué)們領(lǐng)略SparkSQL強(qiáng)大簡便的數(shù)據(jù)分析能力,洞悉SparkSQL調(diào)優(yōu)方式及其核心思想。
第2章 認(rèn)識Spark SQL
本章介紹Spark SQL運(yùn)行原理,DataFrame、DataSet和RDD的相互轉(zhuǎn)化和使用場景,并講解Parquet的使用。
第3章 DataFrame/DataSet常用操作
本章介紹DataFrame的過濾,分組,排序操作和列值的增刪改,以及對Join的優(yōu)化。
第4章 自定義函數(shù)和開窗函數(shù)
本章講解自定義函數(shù)的使用,以及開窗函數(shù)在分組求TopN中的應(yīng)用。
第5章 Nginx訪問日志分析完整實(shí)戰(zhàn)
本章會講解使用Spark SQL分析Nginx訪問日志的項(xiàng)目。包括了數(shù)據(jù)清洗,存儲,監(jiān)控和優(yōu)化。
解鎖即可觀看《大數(shù)據(jù)工程師》完整課程視頻
大數(shù)據(jù)工程師
硬核技能帶你攻克熱點(diǎn)商業(yè)項(xiàng)目,從入門直達(dá)中級工程師水平,掌握DT時代淘金利器!
【第1周】學(xué)好大數(shù)據(jù)先攻克Linux
【第2周】大數(shù)據(jù)起源之初識Hadoop
【第3周】Hadoop之HDFS的使用
【第4周】Hadoop之HDFS核心進(jìn)程剖析
【第5周】Hadoop之初識MR
【第6周】拿來就用的企業(yè)級解決方案
【第7周】Flume從0到高手一站式養(yǎng)成記
【第8周】數(shù)據(jù)倉庫Hive從入門到小牛
【第9周】Hive擴(kuò)展內(nèi)容
【第10周】快速上手NoSQL數(shù)據(jù)庫HBase
【第11周】數(shù)據(jù)分析引擎之Impala
【第12周】7天極速掌握Scala語言
【第13周】Spark快速上手
【第14周】Spark性能優(yōu)化的道與術(shù)
【第15周】Spark3.x擴(kuò)展內(nèi)容
【第16周】綜合項(xiàng)目:電商數(shù)據(jù)倉庫之用戶行為數(shù)倉
【第17周】綜合項(xiàng)目:電商數(shù)據(jù)倉庫之商品訂單數(shù)倉
【第18周】消息隊(duì)列之Kafka從入門到小牛
【第19周】極速上手內(nèi)存數(shù)據(jù)庫Redis
【第20周】Flink快速上手篇
【第21周】Flink高級進(jìn)階之路
【第22周】Flink1.15新特性及狀態(tài)的使用
【第23周】Flink1.15之狀態(tài)的容錯與一致性
【第24周】FlinkSQL(1.15)快速上手
【第25周】FlinkSQL雙流JOIN詳解
【第26周】全文檢索引擎Elasticsearch
【第27周】Es+HBase仿百度搜索引擎項(xiàng)目
【第28周】直播平臺三度關(guān)系推薦V1.0
【第29周】直播平臺三度關(guān)系推薦V2.0
【第30周】數(shù)據(jù)中臺大屏
【第31周】實(shí)時OLAP引擎之ClickHouse
【第32周】實(shí)時數(shù)倉-Kafka Eagle+DS
【第33周】實(shí)時數(shù)倉-Flink CDC數(shù)據(jù)采集
【第34周】實(shí)時數(shù)倉-Paimon(數(shù)據(jù)湖)快速上手
【第35周】實(shí)時數(shù)倉-Paimon(數(shù)據(jù)湖)高級進(jìn)階
【第36周】實(shí)時數(shù)倉-湖倉一體項(xiàng)目
【第37周】一站式流式開發(fā)平臺StreamPark
【第38周】大數(shù)據(jù)分布式SQL網(wǎng)關(guān)Kyuubi