Spark DataFrame 的 groupBy vs groupByKey

標(biāo)簽：

Spark

在使用 Spark SQL 的过程中，经常会用到 groupBy 这个函数进行一些统计工作。但是会发现除了 groupBy 外，还有一个 groupByKey（注意RDD 也有一个 groupByKey，而这里的 groupByKey 是 DataFrame 的 ）。这个 groupByKey 引起了我的好奇，那我们就到源码里面一探究竟吧。

所用 spark 版本：spark 2.1.0

先从使用的角度来说，
groupBy：groupBy类似于传统SQL语言中的group by子语句，但比较不同的是groupBy()可以带多个列名，对多个列进行group。比如想根据 "id" 和 "name" 进行 groupBy 的话可以

df.goupBy("id","name")

groupBy返回的类型是RelationalGroupedDataset。

groupByKey：groupByKey则更加灵活，可以根据用户自己对列的组合来进行groupBy，比如上面的那个例子，根据 "id" 和 "name" 进行 groupBy，使用groupByKey可以这样。

//同前面的goupBy效果是一样的，但返回的类型是不一样的df..toDF("id","name").goupByKey(row =>{    row.getString(0) + row.getString(1)
})

但和groupBy不同的是groupByKey返回的类型是KeyValueGroupedDataset。

下面来看看这两个方法的实现有何区别。

groupBy

  def groupBy(cols: Column*): RelationalGroupedDataset = {
    RelationalGroupedDataset(toDF(), cols.map(_.expr), RelationalGroupedDataset.GroupByType)
  }

最终会去新建一个RelationalGroupedDataset，而这个方法提供count()，max()，agg()，等方法。值得一提的是，这个类在spark1.x的时候类名为“GroupedData”。看看类中的注释吧

/**
 * A set of methods for aggregations on a `DataFrame`, created by `Dataset.groupBy`.
 *
 * The main method is the agg function, which has multiple variants. This class also contains
 * convenience some first order statistics such as mean, sum for convenience.
 *
 * This class was named `GroupedData` in Spark 1.x.
 *
 * @since 2.0.0
 */
@InterfaceStability.Stableclass RelationalGroupedDataset protected[sql](

groupByKey

  @Experimental
  @InterfaceStability.Evolving
  def groupByKey[K: Encoder](func: T => K): KeyValueGroupedDataset[K, T] = {    val inputPlan = logicalPlan    val withGroupingKey = AppendColumns(func, inputPlan)    val executed = sparkSession.sessionState.executePlan(withGroupingKey)    new KeyValueGroupedDataset(      encoderFor[K],      encoderFor[T],      executed,      inputPlan.output,      withGroupingKey.newColumns)
  }

可以发现最后生成和返回的类是KeyValueGroupedDataset。这是dataset的子类，表示聚合过之后的dataset。
我们再看看这个类中的注释吧

/**
 * :: Experimental ::
 * A [[Dataset]] has been logically grouped by a user specified grouping key.  Users should not
 * construct a [[KeyValueGroupedDataset]] directly, but should instead call `groupByKey` on
 * an existing [[Dataset]].
 *
 * @since 2.0.0
 */@Experimental@InterfaceStability.Evolving
class KeyValueGroupedDataset[K, V] private[sql](

可以发现 groupByKey 还处于实验阶段。它是希望可以由用户自己来实现 groupBy 的规则，而不像 groupBy() 一样，需要被列属性所束缚。
通过 groupByKey 用户可以按照自己的需求来进行 grouping 。

总而言之，groupByKey虽然提供了更加灵活的处理 grouping 的方式，但 groupByKey 后返回的类是 KeyValueGroupedDataset ，它里面所提供的操作接口也不如 groupBy 返回的 RelationalGroupedDataset 所提供的接口丰富。除非真的有一些特殊的 grouping 操作，否则还是使用 groupBy 吧。

原文出处：https://www.cnblogs.com/listenfwind/p/9860228.html

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺(jué)得本文不錯(cuò)，就分享一下吧！

評(píng)論

評(píng)論

共同學(xué)習(xí)，寫下你的評(píng)論

評(píng)論加載中...

展開(kāi)查看更多評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中

蝴蝶刀刀

手記
篇

粉絲

38

獲贊與收藏

184

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

后端通用面試教程

41個(gè)小節(jié) 32028 357

網(wǎng)絡(luò)編程入門教程

20個(gè)小節(jié) 13125 247

Pandas 入門教程

25個(gè)小節(jié) 19401 365

推薦

評(píng)論

收藏

共同學(xué)習(xí)，寫下你的評(píng)論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說(shuō)多少就多少

贊賞金額會(huì)直接到老師賬戶

支付方式

打開(kāi)微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶專享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購(gòu)買實(shí)戰(zhàn)課、體系課
無(wú)門檻使用

先去看看，有什么好東西馬上兌換


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Spark DataFrame 的 groupBy vs groupByKey

groupBy

groupByKey

閱讀免費(fèi)教程