首頁猿問 Pytables：可以減小...

Pytables：可以減小 Appended Earray 的大小嗎？

Python

Helenr 2023-06-06 17:36:37

在我的例子中，輸出文件 (earray.h5) 的大小很大。有沒有辦法附加數(shù)據(jù)，使輸出文件不那么大？例如，在我的例子中（見下面的鏈接）一個 13GB 的輸入文件（dset_1：2.1E8 x 4 和 dset_2：2.1E8 x 4）給出了一個只有一列（2.5E10 x 1）的 197 GB 輸出文件。所有元素都是 float64。我想減小輸出文件的大小，這樣腳本的執(zhí)行速度就不會受到影響，并且輸出文件的讀取也可以高效地供以后使用。沿著列而不只是行保存數(shù)據(jù)有幫助嗎？對此有什么建議嗎？下面給出的是一個 MWE。# no. of chunks from dset-1 and dset-2 in inp.h5loop_1 = 40loop_2 = 20?# save to disk after these many rowsapp_len = 10**6?# **********************************************#? ? ? ?Grabbing input.h5 file# **********************************************filename = 'inp.h5'f2 = h5py.File(filename, 'r')chunks1 = f2['dset_1']chunks2 = f2['dset_2']shape1, shape2 = chunks1.shape[0], chunks2.shape[0]f1 = tables.open_file("table.h5", "w")a = f1.create_earray(f1.root, "dataset_1", atom=tables.Float64Atom(), shape=(0, 4))size1 = shape1//loop_1size2 = shape2//loop_2# ***************************************************#? ? ? ?Grabbing chunks to process and append data# ***************************************************for c in range(loop_1):? ? h = c*size1? ? # grab chunks from dset_1 of inp.h5??? ? chunk1 = chunks1[h:(h + size1)]? ? for d in range(loop_2):? ? ? ? g = d*size2? ? ? ? chunk2 = chunks2[g:(g + size2)] # grab chunks from dset_2 of inp.h5?? ? ? ? r1 = chunk1.shape[0]? ? ? ? r2 = chunk2.shape[0]? ? ? ? left, right = 0, 0? ? ? ? for j in range(r1):? # grab col.2 values from dataset-1? ? ? ? ? ? e1 = chunk1[j, 1]? ? ? ? ? ? #...Algaebraic operations here to output a row containing 4 float64? ? ? ? ? ? #...append to a (earray) when no. of rows reach a million? ? ? ? del chunk2? ? del chunk1f2.close()

查看完整描述

1 回答

HUH函數(shù)

TA貢獻1836條經(jīng)驗獲得超4個贊

這是一個“僅”寫入 1.5e6 行的簡單示例。我沒有做任何事情來優(yōu)化非常大的文件的性能。您正在創(chuàng)建一個非常大的文件，但沒有說明有多少行（顯然超過 10**6）。以下是根據(jù)另一個線程中的評論提出的一些建議。

我推薦的區(qū)域（3 個與 PyTables 代碼相關，2 個基于外部使用）。

PyTables 代碼建議：

創(chuàng)建文件時啟用壓縮（filters=創(chuàng)建文件時添加參數(shù)）。從開始tb.Filters(complevel=1)。
expectedrows=在.create_tables()（根據(jù) PyTables 文檔，“這將優(yōu)化 HDF5 B 樹和使用的內(nèi)存量”）中定義參數(shù)。默認值設置在tables/parameters.py（查找 EXPECTED_ROWS_TABLE；在我的安裝中它只有 10000）。如果您要創(chuàng)建 10**6（或更多）行，我建議您將此設置為更大的值。
setting 有一個附帶的好處expectedrows=。如果你沒有定義 chunkshape，'一個合理的值是根據(jù) expectedrows 參數(shù)計算的'。檢查使用的值。這不會減小創(chuàng)建的文件大小，但會提高 I/O 性能。

如果您在創(chuàng)建文件時沒有使用壓縮，則有 2 種方法可以壓縮現(xiàn)有文件：

外部實用程序：

PyTables 實用程序ptrepack- 針對 HDF5 文件運行以創(chuàng)建新文件（對于從未壓縮到壓縮，反之亦然）。它隨 PyTables 一起提供，并在命令行上運行。
HDF5 實用程序h5repack- 與ptrepack.?它隨 HDF Group 的 HDF5 安裝程序一起提供。

文件壓縮需要權衡取舍：它減小了文件大小，但增加了訪問時間（降低了 I/O 性能）。我傾向于使用經(jīng)常打開的未壓縮文件（以獲得最佳 I/O 性能）。然后完成后，我將其轉(zhuǎn)換為壓縮格式以進行長期存檔。您可以繼續(xù)以壓縮格式使用它們（API 處理干凈）。

反對回復 2023-06-06