首頁猿問 Spark...

Spark SQL-df.repartition和DataFrameWriter partition

SQL Server MySQL

眼眸繁星 2019-12-17 10:41:30

DataFrame repartition()和DataFrameWriter partitionBy()方法之間有什么區(qū)別？我希望兩者都用于“基于dataframe列對數(shù)據(jù)進行分區(qū)”嗎？還是有什么區(qū)別？

查看完整描述

3 回答

揚帆大魚

TA貢獻1799條經(jīng)驗獲得超9個贊

如果運行repartition(COL)，則在計算過程中更改分區(qū)-您將獲得spark.sql.shuffle.partitions（默認值：200）分區(qū)。如果您隨后致電，.write您將獲得一個包含許多文件的目錄。

如果運行，.write.partitionBy(COL)則結果將獲得與COL中的唯一值一樣多的目錄。這樣可以加快進一步的數(shù)據(jù)讀取速度（如果您按分區(qū)列進行過濾），并節(jié)省了一些存儲空間（分區(qū)列已從數(shù)據(jù)文件中刪除）。

更新：參見@conradlee的答案。他不僅詳細說明了應用不同方法后的目錄結構，而且還解釋了兩種情況下文件的數(shù)量。

反對回復 2019-12-17

ITMISS

TA貢獻1871條經(jīng)驗獲得超8個贊

repartition()用于對內(nèi)存中的數(shù)據(jù)進行分區(qū)，并partitionBy用于對磁盤上的數(shù)據(jù)進行分區(qū)。如本博客文章所述，它們通常結合使用。

二者repartition()并partitionBy可以用于“基于數(shù)據(jù)幀列分區(qū)數(shù)據(jù)”，但repartition()在存儲分區(qū)中的數(shù)據(jù)和partitionBy分區(qū)在磁盤上的數(shù)據(jù)。

repartition（）

讓我們玩一些代碼以更好地了解分區(qū)。假設您具有以下CSV數(shù)據(jù)。

first_name,last_name,country

Ernesto,Guevara,Argentina

Vladimir,Putin,Russia

Maria,Sharapova,Russia

Bruce,Lee,China

Jack,Ma,China

df.repartition(col("country")) 將按內(nèi)存中的國家/地區(qū)對數(shù)據(jù)進行分區(qū)。

讓我們寫出數(shù)據(jù)，以便我們可以檢查每個內(nèi)存分區(qū)的內(nèi)容。

val outputPath = new java.io.File("./tmp/partitioned_by_country/").getCanonicalPath

df.repartition(col("country"))

.write

.csv(outputPath)

這是將數(shù)據(jù)寫到磁盤上的方法：

partitioned_by_country/

part-00002-95acd280-42dc-457e-ad4f-c6c73be6226f-c000.csv

part-00044-95acd280-42dc-457e-ad4f-c6c73be6226f-c000.csv

part-00059-95acd280-42dc-457e-ad4f-c6c73be6226f-c000.csv

每個文件都包含一個國家/ part-00059-95acd280-42dc-457e-ad4f-c6c73be6226f-c000.csv地區(qū)的數(shù)據(jù)-該文件包含以下中國數(shù)據(jù)，例如：

Bruce,Lee,China

Jack,Ma,China

partitionBy（）

讓我們將數(shù)據(jù)寫到磁盤上partitionBy，看看文件系統(tǒng)輸出如何不同。

這是將數(shù)據(jù)寫到磁盤分區(qū)的代碼。

val outputPath = new java.io.File("./tmp/partitionedBy_disk/").getCanonicalPath

df

.write

.partitionBy("country")

.csv(outputPath)

磁盤上的數(shù)據(jù)如下所示：

partitionedBy_disk/

country=Argentina/

part-00000-906f845c-ecdc-4b37-a13d-099c211527b4.c000.csv

country=China/

part-00000-906f845c-ecdc-4b37-a13d-099c211527b4.c000

country=Russia/

part-00000-906f845c-ecdc-4b37-a13d-099c211527b4.c000

為什么要對磁盤上的數(shù)據(jù)進行分區(qū)？

如本博文所述，對磁盤上的數(shù)據(jù)進行分區(qū)可以使某些查詢運行得更快。

反對回復 2019-12-17

3 回答
0 關注
1710 瀏覽

關注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Spark SQL-df.repartition和DataFrameWriter partition

Spark SQL-df.repartition和DataFrameWriter partition

3 回答

添加回答