首頁猿問 Pyspark coalesce...

Pyspark coalesce vs coalesce：秘密相同或只是不幸的命名？

Python

慕尼黑的夜晚無繁華 2022-10-25 10:32:42

我正在閱讀Spark：權威指南，但有些東西讓我感到困惑。該函數coalesce在完全不同的上下文中被多次定義。我想知道這是否是相同的功能，我只是沒有看到鏈接，或者這是否只是一個不幸的命名問題。在第 80 頁的“重新分區(qū)和合并”一章下，它說：Coalesce[...] 不會導致完全洗牌，而是會嘗試合并分區(qū)。據我了解，此函數將組合分區(qū)，直到它具有函數參數所指示的所需分區(qū)數coalesce。在第 103 頁的“合并”一章下，它說：Spark 包含一個函數，允許您使用該函數從一組列中選擇第一個非空值coalesce。據我了解，此函數將采用一組列，并從第一列中獲取所有非空值。然后對于空值，它將查看第二列，并在那里獲取所有非空值，依此類推。我的問題我對這些功能的理解是否正確？這些功能有什么關系？有沒有我沒看到的鏈接？如果不是，為什么他們會有相同的名字？（這對我來說似乎真的很困惑。）

查看完整描述

1 回答

小怪獸愛吃肉

TA貢獻1852條經驗獲得超1個贊

你的理解是正確的。要回答您的主題中的問題，我會說這只是一個（不是很）不幸的命名。

coalesce()正如您所指出的，作為 RDD 或 Dataset 方法旨在減少分區(qū)數量。谷歌的字典是這樣說的：

聚集在一起形成一個質量或整體。

或者，（作為及物動詞）：

將（元素）組合成一個整體或整體。

RDD.coalesce(n)或DataFrame.coalesce(n)使用后一種含義。

pyspark.sql.functions.coalesce()我相信是Spark自己實現的常用SQL函數COALESCE，很多RDBMS系統(tǒng)都實現了，比如MS SQL或者Oracle。正如您所注意到的，這個 SQL 函數既可以在程序代碼中直接調用，也可以在 SQL 語句中調用，它返回第一個非空表達式，就像其他 SQL 發(fā)行版的實現一樣。
在這種情況下，coalesce并不孤單。諸如rtrim, trunc,之類的函數date_add都可以在許多其他 RDBMS 發(fā)行版中找到，并且（至少就我所見）是非常標準的。

有一種方法可以將“coalesce”解釋為“come together...”，意思是這個實現是什么（參數合并為一個、null 或第一個 non-null）

換句話說，兩者之間的主要聯(lián)系是意義。即使我對親密的實現細節(jié)不是很熟悉，我也無法猜測 and 之間存在實現級別的關系RDD.coalesce，functions.coalesce就像RDD.coalesceand之間的關系一樣DataFrame.coalesce。

反對回復 2022-10-25