3 回答

TA貢獻1799條經(jīng)驗 獲得超9個贊
如果運行repartition(COL)
,則在計算過程中更改分區(qū)-您將獲得spark.sql.shuffle.partitions
(默認值:200)分區(qū)。如果您隨后致電,.write
您將獲得一個包含許多文件的目錄。
如果運行,.write.partitionBy(COL)
則結(jié)果將獲得與COL中的唯一值一樣多的目錄。這樣可以加快進一步的數(shù)據(jù)讀取速度(如果您按分區(qū)列進行過濾),并節(jié)省了一些存儲空間(分區(qū)列已從數(shù)據(jù)文件中刪除)。
更新:參見@conradlee的答案。他不僅詳細說明了應(yīng)用不同方法后的目錄結(jié)構(gòu),而且還解釋了兩種情況下文件的數(shù)量。

TA貢獻1871條經(jīng)驗 獲得超8個贊
repartition()用于對內(nèi)存中的數(shù)據(jù)進行分區(qū),并partitionBy用于對磁盤上的數(shù)據(jù)進行分區(qū)。如本博客文章所述,它們通常結(jié)合使用。
二者repartition()并partitionBy可以用于“基于數(shù)據(jù)幀列分區(qū)數(shù)據(jù)”,但repartition()在存儲分區(qū)中的數(shù)據(jù)和partitionBy分區(qū)在磁盤上的數(shù)據(jù)。
repartition()
讓我們玩一些代碼以更好地了解分區(qū)。假設(shè)您具有以下CSV數(shù)據(jù)。
first_name,last_name,country
Ernesto,Guevara,Argentina
Vladimir,Putin,Russia
Maria,Sharapova,Russia
Bruce,Lee,China
Jack,Ma,China
df.repartition(col("country")) 將按內(nèi)存中的國家/地區(qū)對數(shù)據(jù)進行分區(qū)。
讓我們寫出數(shù)據(jù),以便我們可以檢查每個內(nèi)存分區(qū)的內(nèi)容。
val outputPath = new java.io.File("./tmp/partitioned_by_country/").getCanonicalPath
df.repartition(col("country"))
.write
.csv(outputPath)
這是將數(shù)據(jù)寫到磁盤上的方法:
partitioned_by_country/
part-00002-95acd280-42dc-457e-ad4f-c6c73be6226f-c000.csv
part-00044-95acd280-42dc-457e-ad4f-c6c73be6226f-c000.csv
part-00059-95acd280-42dc-457e-ad4f-c6c73be6226f-c000.csv
每個文件都包含一個國家/ part-00059-95acd280-42dc-457e-ad4f-c6c73be6226f-c000.csv地區(qū)的數(shù)據(jù)-該文件包含以下中國數(shù)據(jù),例如:
Bruce,Lee,China
Jack,Ma,China
partitionBy()
讓我們將數(shù)據(jù)寫到磁盤上partitionBy,看看文件系統(tǒng)輸出如何不同。
這是將數(shù)據(jù)寫到磁盤分區(qū)的代碼。
val outputPath = new java.io.File("./tmp/partitionedBy_disk/").getCanonicalPath
df
.write
.partitionBy("country")
.csv(outputPath)
磁盤上的數(shù)據(jù)如下所示:
partitionedBy_disk/
country=Argentina/
part-00000-906f845c-ecdc-4b37-a13d-099c211527b4.c000.csv
country=China/
part-00000-906f845c-ecdc-4b37-a13d-099c211527b4.c000
country=Russia/
part-00000-906f845c-ecdc-4b37-a13d-099c211527b4.c000
為什么要對磁盤上的數(shù)據(jù)進行分區(qū)?
如本博文所述,對磁盤上的數(shù)據(jù)進行分區(qū)可以使某些查詢運行得更快。
添加回答
舉報