首頁猿問使用 Dask 按部分高效讀取大型...

使用 Dask 按部分高效讀取大型 csv 文件

Python

幕布斯7119047 2022-09-06 18:04:59

現(xiàn)在，我正在使用Dask讀取大型csv文件，并對其進行一些后處理（例如，進行一些數(shù)學運算，然后通過一些ML模型進行預測并將結(jié)果寫入數(shù)據(jù)庫）。避免加載內(nèi)存中的所有數(shù)據(jù)，我想按當前大小的塊讀取：讀取第一個塊，預測，寫入，讀取第二個塊等。我嘗試了下一個解決方案，使用和：skiprowsnrowsimport dask.dataframe as ddread_path = "medium.csv"# Read by chunkskiprows = 100000nrows = 50000res_df = dd.read_csv(read_path, skiprows=skiprows)res_df = res_df.head(nrows)print(res_df.shape)print(res_df.head())但是我得到錯誤：值錯誤：樣本不夠大，無法包含至少一行數(shù)據(jù)。請在調(diào)用中增加字節(jié)數(shù)sampleread_csv/read_table另外，據(jù)我所知，它將每次（[False，F(xiàn)alse，...，True，...]）計算二進制掩碼，以查找要加載的行的所有數(shù)據(jù)。我們怎樣才能更有效率地做到這一點？也許使用dask中的一些分布式或延遲函數(shù)？

查看完整描述

1 回答

紅顏莎娜

TA貢獻1842條經(jīng)驗獲得超13個贊

Dask數(shù)據(jù)幀將為您對數(shù)據(jù)進行分區(qū)，您無需使用nrows/skip_rows

df = dd.read_csv(filename)

如果你想挑選一個特定的分區(qū)，那么你可以使用分區(qū)訪問器

part = df.partitions[i]

但是，您可能還希望并行應用函數(shù)。

df.map_partitions(process).to_csv("data.*.csv")

反對回復 2022-09-06

1 回答
0 關注
212 瀏覽

關注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

使用 Dask 按部分高效讀取大型 csv 文件

使用 Dask 按部分高效讀取大型 csv 文件

1 回答

添加回答