首頁(yè) 猿問(wèn) H5Py 和存儲(chǔ)

H5Py 和存儲(chǔ)

Python

守著一只汪 2022-10-06 18:53:01

我正在編寫(xiě)一些代碼，需要將一個(gè)非常大的 numpy 數(shù)組保存到內(nèi)存中。numpy 數(shù)組實(shí)際上太大了，以至于我無(wú)法一次將其全部加載到內(nèi)存中。但我可以分塊計(jì)算數(shù)組。即我的代碼看起來(lái)像：for i in np.arange(numberOfChunks): myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = #... do some calculation由于我不能myArray一次全部加載到內(nèi)存中，我想一次將它保存到一個(gè)“塊”的文件中。即我想做這樣的事情：for i in np.arange(numberOfChunks): myArrayChunk = #... do some calculation to obtain chunk saveToFile(myArrayChunk, indicesInFile=[(i*chunkSize):(i*(chunkSize+1)),:,:], filename)我知道這可以做到，h5py但我有點(diǎn)困惑如何做到這一點(diǎn)。我目前的理解是我可以這樣做：import h5py# Make the fileh5py_file = h5py.File(filename, "a")# Tell it we are going to store a datasetmyArray = h5py_file.create_dataset("myArray", myArrayDimensions, compression="gzip")for i in np.arange(numberOfChunks): myArrayChunk = #... do some calculation to obtain chunk myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk但這就是我變得有點(diǎn)困惑的地方。我已經(jīng)讀過(guò)，如果你h5py像我寫(xiě)的那樣索引一個(gè)數(shù)據(jù)類(lèi)型myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]，那么這部分myArray現(xiàn)在已經(jīng)被讀入內(nèi)存。所以可以肯定的是，在我上面的循環(huán)結(jié)束時(shí)，我現(xiàn)在還沒(méi)有全部myArray記住嗎？這如何拯救了我的記憶？同樣，稍后，我想一次將一個(gè)塊讀入我的文件，做進(jìn)一步的計(jì)算。即我想做類(lèi)似的事情：import h5py# Read in the fileh5py_file = h5py.File(filename, "a")# Read in myArraymyArray = h5py_file['myArray']for i in np.arange(numberOfChunks): # Read in chunk myArrayChunk = myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] # ... Do some calculation on myArrayChunk但是到這個(gè)循環(huán)結(jié)束時(shí)，整個(gè)myArray現(xiàn)在都在記憶中了嗎？我對(duì)何時(shí)myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]在內(nèi)存中以及何時(shí)不在內(nèi)存中感到有些困惑。請(qǐng)有人解釋一下。

查看完整描述

1 回答

GCT1015

TA貢獻(xiàn)1827條經(jīng)驗(yàn) 獲得超4個(gè)贊

你有基本的想法。說(shuō)“保存到內(nèi)存”時(shí)要小心。NumPy 數(shù)組保存在內(nèi)存 (RAM) 中。HDF5 數(shù)據(jù)保存在磁盤(pán)上（而不是內(nèi)存/RAM?。缓笤L問(wèn)（使用的內(nèi)存取決于您的訪問(wèn)方式）。在第一步中，您將創(chuàng)建數(shù)據(jù)塊并將其寫(xiě)入磁盤(pán)。在第二步中，您將分塊訪問(wèn)磁盤(pán)中的數(shù)據(jù)。最后提供的工作示例。

使用h5py2 種讀取數(shù)據(jù)的方式讀取數(shù)據(jù)時(shí)：

返回 NumPy 數(shù)組：

myArrayNP = myArray[:,:,:]

返回 h5py 數(shù)據(jù)集對(duì)象，其操作類(lèi)似于 NumPy 數(shù)組：

myArrayDS = myArray

區(qū)別：h5py 數(shù)據(jù)集對(duì)象不會(huì)一次全部讀入內(nèi)存。然后，您可以根據(jù)需要對(duì)它們進(jìn)行切片。從上面繼續(xù)，這是獲取數(shù)據(jù)子集的有效操作：

myArrayChunkNP = myArrayDS[i*chunkSize):(i+1)*chunkSize),:,:]

我的示例還糾正了塊大小增量方程中的 1 個(gè)小錯(cuò)誤。你有：

myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk

你想要：

myArray[(i*chunkSize):(i+1)*chunkSize),:,:] = myArrayChunk

工作示例（寫(xiě)入和讀取）：

import h5py

import numpy as np

# Make the file

with h5py.File("SO_61173314.h5", "w") as h5w:

numberOfChunks = 3

chunkSize = 4

print( 'WRITING %d chunks with w/ chunkSize=%d ' % (numberOfChunks,chunkSize) )

# Write dataset to disk

h5Array = h5w.create_dataset("myArray", (numberOfChunks*chunkSize,2,2), compression="gzip")

for i in range(numberOfChunks):

h5ArrayChunk = np.random.random(chunkSize*2*2).reshape(chunkSize,2,2)

print (h5ArrayChunk)

h5Array[(i*chunkSize):((i+1)*chunkSize),:,:] = h5ArrayChunk

with h5py.File("SO_61173314.h5", "r") as h5r:

print( '/nREADING %d chunks with w/ chunkSize=%d/n' % (numberOfChunks,chunkSize) )

# Access myArray dataset - Note: This is NOT a NumpPy array

myArray = h5r['myArray']

for i in range(numberOfChunks):

# Read a chunk into memory (as a NumPy array)

myArrayChunk = myArray[(i*chunkSize):((i+1)*chunkSize),:,:]

# ... Do some calculation on myArrayChunk

print (myArrayChunk)

反對(duì) 回復(fù) 2022-10-06

1 回答
0 關(guān)注
135 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書(shū)簽

微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

H5Py 和存儲(chǔ)

H5Py 和存儲(chǔ)

1 回答

添加回答