第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

使用 Python 以內(nèi)存高效的方式使用 pandas 處理數(shù)據(jù)

使用 Python 以內(nèi)存高效的方式使用 pandas 處理數(shù)據(jù)

森欄 2023-09-26 14:52:05
我必須讀取多個(gè) csv 文件并將它們按"event_name". 我也可能有一些重復(fù)項(xiàng),所以我需要?jiǎng)h除它們。paths包含csv文件的所有路徑,我的代碼如下:data = []for path in paths:    csv_file = pd.read_csv(path)    data.append(csv_file)events = pd.concat(data)events = events.drop_duplicates()event_names = events.groupby('event_name')ev2 = []for name, group in event_names:    a, b = group.shape    ev2.append([name, a])這段代碼將告訴我event_name有多少個(gè)唯一的 unique ,以及每個(gè)event_name. 它工作得很好,除了 csv 文件太大而且我遇到了內(nèi)存問題。有沒有辦法使用更少的內(nèi)存來做同樣的事情?我讀到了有關(guān)使用dir()和globals()刪除變量的內(nèi)容,我當(dāng)然可以使用它們,因?yàn)橐坏┪矣辛?,我就不再event_names需要 DataFrame 了。events但是,我仍然遇到這些記憶問題。更具體地說,我的問題是:我可以以更節(jié)省內(nèi)存的方式讀取 csv 文件嗎?或者我可以做些什么來減少內(nèi)存使用?我不介意犧牲性能,只要我可以一次讀取所有 csv 文件,而不是逐塊讀取。
查看完整描述

1 回答

?
飲歌長嘯

TA貢獻(xiàn)1951條經(jīng)驗(yàn) 獲得超3個(gè)贊

只需保留每行的哈希值即可減少數(shù)據(jù)大小。


csv_file = pd.read_csv(path)


# compute hash (gives an `uint64` value per row)

csv_file["hash"] = pd.util.hash_pandas_object(csv_file)


# keep only the 2 columns relevant to counting

data.append(csv_file[["event_name", "hash"]])

如果您不能冒哈希沖突的風(fēng)險(xiǎn)(這在天文數(shù)字上不太可能發(fā)生),只需使用另一個(gè)哈希鍵并檢查最終計(jì)數(shù)結(jié)果是否相同。更改哈希鍵的方法如下。


# compute hash using a different hash key

csv_file["hash2"] = pd.util.hash_pandas_object(csv_file, hash_key='stackoverflow')


查看完整回答
反對 回復(fù) 2023-09-26
  • 1 回答
  • 0 關(guān)注
  • 123 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號