首頁(yè) 猿問(wèn) 用火花-csv編寫(xiě)單個(gè)csv文件

用火花-csv編寫(xiě)單個(gè)csv文件

.NET 源碼算法與數(shù)據(jù)結(jié)構(gòu)

尚方寶劍之說(shuō) 2019-07-11 20:53:33

用火花-csv編寫(xiě)單個(gè)csv文件我在用https://github.com/databricks/spark-csv，我試圖寫(xiě)一個(gè)CSV，但不能，它是一個(gè)文件夾。需要一個(gè)Scala函數(shù)，它將接受像路徑和文件名這樣的參數(shù)，并編寫(xiě)那個(gè)CSV文件。

查看完整描述

3 回答

慕森王

TA貢獻(xiàn)1777條經(jīng)驗(yàn) 獲得超3個(gè)贊

它正在創(chuàng)建一個(gè)包含多個(gè)文件的文件夾，因?yàn)槊總€(gè)分區(qū)都是單獨(dú)保存的。如果需要一個(gè)輸出文件(仍在文件夾中)，則可以repartition(如果上游數(shù)據(jù)很大，但需要洗牌，則首選)：

df   .repartition(1)
   .write.format("com.databricks.spark.csv")
   .option("header", "true")
   .save("mydata.csv")

或coalesce:

df   .coalesce(1)
   .write.format("com.databricks.spark.csv")
   .option("header", "true")
   .save("mydata.csv")

保存前的數(shù)據(jù)幀：

所有數(shù)據(jù)將寫(xiě)入mydata.csv/part-00000..在使用此選項(xiàng)之前確保您了解正在發(fā)生的事情，以及將所有數(shù)據(jù)傳輸給單個(gè)員工的成本。..如果使用帶有復(fù)制的分布式文件系統(tǒng)，數(shù)據(jù)將被多次傳輸-首先獲取到單個(gè)工作人員，然后通過(guò)存儲(chǔ)節(jié)點(diǎn)分發(fā)。

或者，您可以保留代碼的原樣，并使用通用工具，如cat或HDFSgetmerge然后簡(jiǎn)單地合并所有的部分。

反對(duì) 回復(fù) 2019-07-11

HUWWW

TA貢獻(xiàn)1874條經(jīng)驗(yàn) 獲得超12個(gè)贊

如果您正在使用HDFS運(yùn)行SPark，我一直在通過(guò)正常編寫(xiě)CSV文件和利用HDFS進(jìn)行合并來(lái)解決這個(gè)問(wèn)題。我是在星火(1.6)直接這樣做的：

import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs._def merge(srcPath: String, dstPath: String): Unit =  {
   val hadoopConfig = new Configuration()
   val hdfs = FileSystem.get(hadoopConfig)
   FileUtil.copyMerge(hdfs, new Path(srcPath), hdfs, new Path(dstPath), true, hadoopConfig, null) 
   // the "true" setting deletes the source files once they are merged into the new output}val newData =
    << create your dataframe >>val outputfile = "/user/feeds/project/outputs/subject"  
    var filename = "myinsights"var outputFileName = outputfile + "/temp_" + filename 
var mergedFileName = outputfile + "/merged_" + filenamevar mergeFindGlob  = outputFileName

    newData.write        .format("com.databricks.spark.csv")
        .option("header", "false")
        .mode("overwrite")
        .save(outputFileName)
    merge(mergeFindGlob, mergedFileName )
    newData.unpersist()

我不記得我是從哪里學(xué)到這個(gè)把戲的，但它可能對(duì)你有用。

反對(duì) 回復(fù) 2019-07-11

慕妹3242003

TA貢獻(xiàn)1824條經(jīng)驗(yàn) 獲得超6個(gè)贊

我在這里可能有點(diǎn)晚了，但是.coalesce(1)或repartition(1)可能適用于小數(shù)據(jù)集，但大型數(shù)據(jù)集都將被拋到一個(gè)節(jié)點(diǎn)上的一個(gè)分區(qū)中。這可能會(huì)拋出OOM錯(cuò)誤，或者充其量只能緩慢地處理。

我強(qiáng)烈建議你使用FileUtil.copyMerge()函數(shù)來(lái)自HadoopAPI。這將把輸出合并到一個(gè)文件中。

編輯-這有效地將數(shù)據(jù)帶給驅(qū)動(dòng)程序，而不是執(zhí)行者節(jié)點(diǎn)。Coalesce()如果單個(gè)執(zhí)行器具有比驅(qū)動(dòng)程序更多的RAM，就可以了。

編輯2：copyMerge()在Hadoop3.0中被刪除。有關(guān)如何使用最新版本的更多信息，請(qǐng)參見(jiàn)下面的堆棧溢出文章：Hadoop如何在Hadoop3.0中實(shí)現(xiàn)CopyMerge

反對(duì) 回復(fù) 2019-07-11