3 回答

TA貢獻1995條經(jīng)驗 獲得超2個贊
根據(jù)Azure 訂閱限制和配額
Azure Data Lake Store 是用于大數(shù)據(jù)分析工作負載的企業(yè)級超大規(guī)模存儲庫。Data Lake Store 使您能夠在一個地方捕獲任何大小、類型和攝取速度的數(shù)據(jù),以進行操作和探索性分析。您可以在 Data Lake Store 帳戶中存儲的數(shù)據(jù)量沒有限制。
而且,根據(jù)“使用 Azure Data Lake Store 的最佳實踐”一章中的“性能和規(guī)模考慮”一章,“使用 Data Lake Store 驅(qū)動程序緩沖區(qū)優(yōu)化“寫入””段落
要在從 Hadoop 寫入數(shù)據(jù)湖存儲時優(yōu)化性能并降低 IOPS,請執(zhí)行盡可能接近數(shù)據(jù)湖存儲驅(qū)動程序緩沖區(qū)大小的寫入操作。在刷新之前盡量不要超過緩沖區(qū)大小,例如在使用 Apache Storm 或 Spark 流式處理工作負載進行流式處理時。從 HDInsight/Hadoop 寫入 Data Lake Store 時,重要的是要知道Data Lake Store 有一個帶有 4-MB 緩沖區(qū)的驅(qū)動程序。與許多文件系統(tǒng)驅(qū)動程序一樣,可以在達到 4 MB 大小之前手動刷新此緩沖區(qū)。如果沒有,如果下一次寫入超過緩沖區(qū)的最大大小,它會立即刷新到存儲。在可能的情況下,在按計數(shù)或時間窗口同步/刷新策略時,您必須避免緩沖區(qū)溢出或嚴重不足。
回答
根據(jù)這個回答,使用DataLakeStoreUploader不會出現(xiàn)這個問題。主要原因可能是因為他們?yōu)槟阕鰶_洗。因此,您可能使用 FileSystem.UploadFile 方法離金屬太近了;)
根據(jù)這篇文章,另一種解決方案應該是從一個空文件開始,并在刷新之前向其中添加 < 4mb 塊。
- 3 回答
- 0 關注
- 271 瀏覽
添加回答
舉報