第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

使用 Dask 按部分高效讀取大型 csv 文件

使用 Dask 按部分高效讀取大型 csv 文件

幕布斯7119047 2022-09-06 18:04:59
現(xiàn)在,我正在使用Dask讀取大型csv文件,并對其進行一些后處理(例如,進行一些數(shù)學運算,然后通過一些ML模型進行預測并將結(jié)果寫入數(shù)據(jù)庫)。避免加載內(nèi)存中的所有數(shù)據(jù),我想按當前大小的塊讀取:讀取第一個塊,預測,寫入,讀取第二個塊等。我嘗試了下一個解決方案,使用和:skiprowsnrowsimport dask.dataframe as ddread_path = "medium.csv"# Read by chunkskiprows = 100000nrows = 50000res_df = dd.read_csv(read_path, skiprows=skiprows)res_df = res_df.head(nrows)print(res_df.shape)print(res_df.head())但是我得到錯誤:值錯誤:樣本不夠大,無法包含至少一行數(shù)據(jù)。請在調(diào)用中增加字節(jié)數(shù)sampleread_csv/read_table另外,據(jù)我所知,它將每次([False,F(xiàn)alse,...,True,...])計算二進制掩碼,以查找要加載的行的所有數(shù)據(jù)。我們怎樣才能更有效率地做到這一點?也許使用dask中的一些分布式或延遲函數(shù)?
查看完整描述

1 回答

?
紅顏莎娜

TA貢獻1842條經(jīng)驗 獲得超13個贊

Dask數(shù)據(jù)幀將為您對數(shù)據(jù)進行分區(qū),您無需使用nrows/skip_rows

df = dd.read_csv(filename)

如果你想挑選一個特定的分區(qū),那么你可以使用分區(qū)訪問器

part = df.partitions[i]

但是,您可能還希望并行應用函數(shù)。

df.map_partitions(process).to_csv("data.*.csv")


查看完整回答
反對 回復 2022-09-06
  • 1 回答
  • 0 關注
  • 212 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號