第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

Python 中的加速生成器 -> 列表 -> CSV

Python 中的加速生成器 -> 列表 -> CSV

GCT1015 2023-09-12 17:54:10
我需要優(yōu)化寫入從 Elastic Search 中提取的 CSV 文件數(shù)據(jù)的過程,其中 elasticsearch.helpers.scan 使用 json/dict 數(shù)據(jù)構(gòu)建一個(gè)生成器函數(shù)。results = elasticsearch.helpers.scan(es, query=body, index=index)with io.open(csv_file_name, "w", encoding="utf-8", newline="") as csv_file:    writer = csv.DictWriter(csv_file, fieldnames=column_names, delimiter=';')    writer.writeheader()    writer.writerows([document['_source'] for document in results])我計(jì)時(shí)了一下,發(fā)現(xiàn)罪魁禍?zhǔn)资牵?“[document['_source'] for document in results]”需要很長(zhǎng)很長(zhǎng)的時(shí)間來(lái)通過生成器將其解包到列表中,以便將其寫入 CSV。大約需要 30 秒處理 10k 條記錄,這可能總共需要幾個(gè)小時(shí),因?yàn)樵谀承┣闆r下我必須處理數(shù)百萬(wàn)條記錄(每條記錄接近 70 列/功能)。有沒有更有效的方法來(lái)做到這一點(diǎn)?我嘗試了不同的方法來(lái)迭代數(shù)據(jù)(例如在生成器上使用“For”和“next”),但沒有明顯更好的結(jié)果。我應(yīng)該以不同的方式從彈性搜索中提取數(shù)據(jù)嗎?(掃描助手除外,它返回生成器函數(shù))
查看完整描述

1 回答

?
胡說叔叔

TA貢獻(xiàn)1804條經(jīng)驗(yàn) 獲得超8個(gè)贊

[document['_source']?for?document?in?results]

實(shí)際上不是一個(gè)生成器,而是一個(gè)列表理解,它根據(jù)需要分配盡可能多的內(nèi)存來(lái)容納 中的所有文檔results。

很可能更快的方法是實(shí)際使用生成器:

(document['_source']?for?document?in?results)

共:

results?=?elasticsearch.helpers.scan(es,?query=body,?index=index)
with?io.open(csv_file_name,?"w",?encoding="utf-8",?newline="")?as?csv_file:
????writer?=?csv.DictWriter(csv_file,?fieldnames=column_names,?delimiter=';')
????writer.writeheader()
????writer.writerows((document['_source']?for?document?in?results))


查看完整回答
反對(duì) 回復(fù) 2023-09-12
  • 1 回答
  • 0 關(guān)注
  • 117 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)