3 回答

TA貢獻(xiàn)1995條經(jīng)驗(yàn) 獲得超2個(gè)贊
根據(jù)Azure 訂閱限制和配額
Azure Data Lake Store 是用于大數(shù)據(jù)分析工作負(fù)載的企業(yè)級(jí)超大規(guī)模存儲(chǔ)庫(kù)。Data Lake Store 使您能夠在一個(gè)地方捕獲任何大小、類型和攝取速度的數(shù)據(jù),以進(jìn)行操作和探索性分析。您可以在 Data Lake Store 帳戶中存儲(chǔ)的數(shù)據(jù)量沒(méi)有限制。
而且,根據(jù)“使用 Azure Data Lake Store 的最佳實(shí)踐”一章中的“性能和規(guī)??紤]”一章,“使用 Data Lake Store 驅(qū)動(dòng)程序緩沖區(qū)優(yōu)化“寫(xiě)入””段落
要在從 Hadoop 寫(xiě)入數(shù)據(jù)湖存儲(chǔ)時(shí)優(yōu)化性能并降低 IOPS,請(qǐng)執(zhí)行盡可能接近數(shù)據(jù)湖存儲(chǔ)驅(qū)動(dòng)程序緩沖區(qū)大小的寫(xiě)入操作。在刷新之前盡量不要超過(guò)緩沖區(qū)大小,例如在使用 Apache Storm 或 Spark 流式處理工作負(fù)載進(jìn)行流式處理時(shí)。從 HDInsight/Hadoop 寫(xiě)入 Data Lake Store 時(shí),重要的是要知道Data Lake Store 有一個(gè)帶有 4-MB 緩沖區(qū)的驅(qū)動(dòng)程序。與許多文件系統(tǒng)驅(qū)動(dòng)程序一樣,可以在達(dá)到 4 MB 大小之前手動(dòng)刷新此緩沖區(qū)。如果沒(méi)有,如果下一次寫(xiě)入超過(guò)緩沖區(qū)的最大大小,它會(huì)立即刷新到存儲(chǔ)。在可能的情況下,在按計(jì)數(shù)或時(shí)間窗口同步/刷新策略時(shí),您必須避免緩沖區(qū)溢出或嚴(yán)重不足。
回答
根據(jù)這個(gè)回答,使用DataLakeStoreUploader不會(huì)出現(xiàn)這個(gè)問(wèn)題。主要原因可能是因?yàn)樗麄優(yōu)槟阕鰶_洗。因此,您可能使用 FileSystem.UploadFile 方法離金屬太近了;)
根據(jù)這篇文章,另一種解決方案應(yīng)該是從一個(gè)空文件開(kāi)始,并在刷新之前向其中添加 < 4mb 塊。
- 3 回答
- 0 關(guān)注
- 253 瀏覽
添加回答
舉報(bào)