第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Pyspark coalesce vs coalesce:秘密相同或只是不幸的命名?

Pyspark coalesce vs coalesce:秘密相同或只是不幸的命名?

慕尼黑的夜晚無繁華 2022-10-25 10:32:42
我正在閱讀Spark:權威指南,但有些東西讓我感到困惑。該函數coalesce在完全不同的上下文中被多次定義。我想知道這是否是相同的功能,我只是沒有看到鏈接,或者這是否只是一個不幸的命名問題。在第 80 頁的“重新分區(qū)和合并”一章下,它說:Coalesce[...] 不會導致完全洗牌,而是會嘗試合并分區(qū)。據我了解,此函數將組合分區(qū),直到它具有函數參數所指示的所需分區(qū)數coalesce。在第 103 頁的“合并”一章下,它說:Spark 包含一個函數,允許您使用該函數從一組列中選擇第一個非空值coalesce。據我了解,此函數將采用一組列,并從第一列中獲取所有非空值。然后對于空值,它將查看第二列,并在那里獲取所有非空值,依此類推。我的問題我對這些功能的理解是否正確?這些功能有什么關系?有沒有我沒看到的鏈接?如果不是,為什么他們會有相同的名字?(這對我來說似乎真的很困惑。)
查看完整描述

1 回答

?
小怪獸愛吃肉

TA貢獻1852條經驗 獲得超1個贊

你的理解是正確的。要回答您的主題中的問題,我會說這只是一個(不是很)不幸的命名。

coalesce()正如您所指出的,作為 RDD 或 Dataset 方法旨在減少分區(qū)數量。谷歌的字典是這樣說的:

聚集在一起形成一個質量或整體。

或者,(作為及物動詞):

將(元素)組合成一個整體或整體。

RDD.coalesce(n)DataFrame.coalesce(n)使用后一種含義。

pyspark.sql.functions.coalesce()我相信是Spark自己實現的常用SQL函數COALESCE,很多RDBMS系統(tǒng)都實現了,比如MS SQL或者Oracle。正如您所注意到的,這個 SQL 函數既可以在程序代碼中直接調用,也可以在 SQL 語句中調用,它返回第一個非空表達式,就像其他 SQL 發(fā)行版的實現一樣。
在這種情況下,coalesce并不孤單。諸如rtrimtrunc,之類的函數date_add都可以在許多其他 RDBMS 發(fā)行版中找到,并且(至少就我所見)是非常標準的。

有一種方法可以將“coalesce”解釋為“come together...”,意思是這個實現是什么(參數合并為一個、null 或第一個 non-null

換句話說,兩者之間的主要聯(lián)系是意義。即使我對親密的實現細節(jié)不是很熟悉,我也無法猜測 and 之間存在實現級別的關系RDD.coalesce,functions.coalesce就像RDD.coalesceand之間的關系一樣DataFrame.coalesce。


查看完整回答
反對 回復 2022-10-25
  • 1 回答
  • 0 關注
  • 174 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號