1 回答

TA貢獻(xiàn)1798條經(jīng)驗(yàn) 獲得超7個(gè)贊
我可以幫助回答您的具體問題tsfresh
,但 iftsfresh
只是一個(gè)簡單的玩具示例,可能不是您想要的。
對于tsfresh
,您通常不會混合使用tsfresh
dask 和 dask 的多重處理,而是讓 dask 執(zhí)行所有處理。這意味著,您從一個(gè)單一的開始dask.DataFrame
(在您的測試用例中,您可以將 pandas 數(shù)據(jù)幀轉(zhuǎn)換為 dask 數(shù)據(jù)幀 - 對于您的讀取用例,您可以直接從S3
?docu讀取),然后在 dask 數(shù)據(jù)幀中分發(fā)特征提?。ㄌ卣魈崛〉暮锰幨?,它在每個(gè)時(shí)間序列上獨(dú)立工作。因此我們可以為每個(gè)時(shí)間序列生成一個(gè)作業(yè))。
我不確定這是否有助于解決您更普遍的問題。在我看來,你(在大多數(shù)情況下)不想混合dask的分布函數(shù)和“本地”多核計(jì)算,而只是讓dask處理一切。因?yàn)槿绻挥?dask 集群上,您甚至可能不知道每臺機(jī)器上有多少個(gè)核心(或者每個(gè)作業(yè)可能只獲得一個(gè)核心)。
這意味著,如果您的作業(yè)可以分發(fā) N 次,并且每個(gè)作業(yè)將啟動 M 個(gè)子作業(yè),您只需將“N x M”作業(yè)交給 dask 并讓它計(jì)算其余部分(包括數(shù)據(jù)局部性)。
添加回答
舉報(bào)