第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

data.table vs dplyr:一個(gè)人能做好事情,而另一個(gè)人做得不好嗎?

data.table vs dplyr:一個(gè)人能做好事情,而另一個(gè)人做得不好嗎?

弒天下 2019-07-13 16:20:05
概述我比較熟悉data.table,沒那么多dplyr..我讀過一些dplyr小插曲一些例子出現(xiàn)了,到目前為止,我的結(jié)論是:data.table和dplyr在速度上具有可比性,除非有許多(即>10-100 K)組,而且在其他一些情況下(見下面的基準(zhǔn))dplyr具有更易訪問的語法dplyr抽象(或?qū)?潛在的DB交互有一些細(xì)微的功能差異(參見下面的“示例/使用”)在我的心目中,2.沒有多大的負(fù)擔(dān),因?yàn)槲覍?duì)它相當(dāng)熟悉data.table雖然我理解對(duì)于這兩個(gè)新用戶來說,這將是一個(gè)很大的因素。我想避免爭(zhēng)論哪個(gè)更直觀,因?yàn)檫@與我從一個(gè)已經(jīng)熟悉的人的角度提出的具體問題無關(guān)。data.table..我還想避免討論“更直觀”如何導(dǎo)致更快的分析(當(dāng)然是正確的,但也不是我最感興趣的)。問題我想知道的是:對(duì)于熟悉包的人來說,是否有更容易用一個(gè)或另一個(gè)包進(jìn)行編碼的分析任務(wù)(例如,所需擊鍵的一些組合與所需級(jí)別的暗喻,其中每一個(gè)都較少是一件好事)。是否有分析任務(wù)在一個(gè)包中比另一個(gè)包中執(zhí)行得更有效(即超過2倍)。一最近的問題讓我更多地思考這件事,因?yàn)樵谀侵拔覜]有想到dplyr會(huì)提供超出我所能做的data.table..這是dplyr解決方案(Q結(jié)束時(shí)的數(shù)據(jù)):dat %.%   group_by(name, job) %.%   filter(job != "Boss" | year == min(year)) %.%   mutate(cumu_job2 = cumsum(job2))比我的黑客攻擊要好得多data.table解決辦法。盡管如此,很好data.table解決方案也很好(謝謝Jean-Robert,Arun,注意,我喜歡單一的聲明,而不是嚴(yán)格的最優(yōu)解決方案):setDT(dat)[,   .SD[job != "Boss" | year == min(year)][, cumjob := cumsum(job2)],    by=list(id, job)]后者的語法看起來非常深?yuàn)W,但如果您習(xí)慣了,它實(shí)際上是非常簡(jiǎn)單的。data.table(即不使用一些更深?yuàn)W的技巧)。理想情況下,我想看到的是一些好的例子dplyr或data.table方法實(shí)質(zhì)上更簡(jiǎn)潔,或者表現(xiàn)得更好。實(shí)例使用dplyr不允許返回任意行數(shù)的分組操作(從埃德迪問題,注意:看起來它將在Dplyr 0.5同時(shí),@初學(xué)者展示了一種潛在的解決辦法-使用do在回答@Eddi的問題時(shí))。data.table支座滾動(dòng)連接(謝謝@dholstius)重疊聯(lián)接data.table內(nèi)部?jī)?yōu)化窗體的表達(dá)式。DT[col == value]或DT[col %in% values]為速度貫通自動(dòng)標(biāo)引用二進(jìn)制搜索同時(shí)使用相同的基R語法。看這里更多的細(xì)節(jié)和一個(gè)小小的基準(zhǔn)。dplyr提供功能的標(biāo)準(zhǔn)評(píng)估版本(例如:regroup, summarize_each_),這可以簡(jiǎn)化dplyr(注:按方案使用data.table是絕對(duì)有可能的,只是需要一些仔細(xì)的思考,替換/引用,等等,至少據(jù)我所知)基準(zhǔn)我跑了我自己的基準(zhǔn)并發(fā)現(xiàn)這兩個(gè)包在“拆分應(yīng)用合并”風(fēng)格分析中是可比較的,除非在有大量組(>100 K)的情況下。data.table變得更快。@Arun聯(lián)接基準(zhǔn),表明data.table比例尺dplyr隨著組數(shù)的增加(在包和最近版本的R中都更新了最近的增強(qiáng))。同時(shí),在嘗試獲取唯一價(jià)值有data.table~6倍快。(未經(jīng)核實(shí))data.table在更大版本的組/應(yīng)用/排序時(shí),速度提高了75%dplyr比小的快40%從評(píng)論中提出的另一個(gè)這樣的問題,謝謝丹納斯)。馬特,主要作者data.table,有的基準(zhǔn)分組操作data.table, dplyr巨蟒pandas最多20億行(內(nèi)存中~100 GB).阿80K組的舊基準(zhǔn)有data.table~8倍快
查看完整描述

目前暫無任何回答

  • 0 回答
  • 0 關(guān)注
  • 716 瀏覽

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)