DataFrame/DataSet組的行為/優(yōu)化假設(shè)我們有DataFramedf由下列欄組成:姓名,姓氏,大小,寬度,長度,體重現(xiàn)在我們想要執(zhí)行幾個操作,例如,我們希望創(chuàng)建包含大小和寬度數(shù)據(jù)的幾個DataFrame。val df1 = df.groupBy("surname").agg( sum("size") )val df2 = df.groupBy("surname").agg( sum("width") )您可以注意到,其他列,如Length,在任何地方都不使用。斯派克是否足夠聰明,在洗牌階段之前丟棄多余的列,還是它們被隨身攜帶?Wil Run:val dfBasic = df.select("surname", "size", "width")在分組之前對性能有什么影響?
2 回答

素胚勾勒不出你
TA貢獻1827條經(jīng)驗 獲得超9個贊
我試圖搜索和讀取任何解釋跨節(jié)點混合操作的源,這些操作的性能和分布是DataFrame(特別是)和RDD在節(jié)點上的操作,但是可以找到,給出的只是示例和輸出。你能指導(dǎo)教授這樣的概念的課程嗎(比如RDD中的groupbyKey是昂貴的,而df中的groupby不是)
- 2 回答
- 0 關(guān)注
- 843 瀏覽
添加回答
舉報
0/150
提交
取消