首頁猿問 Azure Data Lake...

Azure Data Lake Store 文件大小限制

C#

Qyouu 2021-07-01 10:04:47

我使用以下函數(shù)將文件上傳到 Azure Data Lake Store：DataLakeStoreFileSystemManagementClient.FileSystem.UploadFile(store, filePath, key, overwrite: true);對于僅大于 ~4MB 的文件，它給了我以下錯誤："Found a record that exceeds the maximum allowed record length around offset 4194304"Microsoft.Azure.Management.DataLake.Store.TransferFailedException: at Microsoft.Azure.Management.DataLake.Store.FileSystemOperations.UploadFile (Microsoft.Azure.Management.DataLake.Store, Version=2.0.0.0, Culture=neutral, PublicKeyToken=31bf3856ad364e35)如果這是 Azure Data Lake 中某處的設置，或者我可以在客戶端進行調(diào)整，任何人都可以提供任何見解嗎？謝謝！我在谷歌上搜索了錯誤，唯一返回的是 Java 代碼示例。

查看完整描述

3 回答

拉風的咖菲貓

TA貢獻1995條經(jīng)驗獲得超2個贊

根據(jù)Azure 訂閱限制和配額

Azure Data Lake Store 是用于大數(shù)據(jù)分析工作負載的企業(yè)級超大規(guī)模存儲庫。Data Lake Store 使您能夠在一個地方捕獲任何大小、類型和攝取速度的數(shù)據(jù)，以進行操作和探索性分析。您可以在 Data Lake Store 帳戶中存儲的數(shù)據(jù)量沒有限制。

而且，根據(jù)“使用 Azure Data Lake Store 的最佳實踐”一章中的“性能和規(guī)模考慮”一章，“使用 Data Lake Store 驅(qū)動程序緩沖區(qū)優(yōu)化“寫入””段落

要在從 Hadoop 寫入數(shù)據(jù)湖存儲時優(yōu)化性能并降低 IOPS，請執(zhí)行盡可能接近數(shù)據(jù)湖存儲驅(qū)動程序緩沖區(qū)大小的寫入操作。在刷新之前盡量不要超過緩沖區(qū)大小，例如在使用 Apache Storm 或 Spark 流式處理工作負載進行流式處理時。從 HDInsight/Hadoop 寫入 Data Lake Store 時，重要的是要知道Data Lake Store 有一個帶有 4-MB 緩沖區(qū)的驅(qū)動程序。與許多文件系統(tǒng)驅(qū)動程序一樣，可以在達到 4 MB 大小之前手動刷新此緩沖區(qū)。如果沒有，如果下一次寫入超過緩沖區(qū)的最大大小，它會立即刷新到存儲。在可能的情況下，在按計數(shù)或時間窗口同步/刷新策略時，您必須避免緩沖區(qū)溢出或嚴重不足。

回答
根據(jù)這個回答，使用DataLakeStoreUploader不會出現(xiàn)這個問題。主要原因可能是因為他們?yōu)槟阕鰶_洗。因此，您可能使用 FileSystem.UploadFile 方法離金屬太近了；)

根據(jù)這篇文章，另一種解決方案應該是從一個空文件開始，并在刷新之前向其中添加 < 4mb 塊。

反對回復 2021-07-03