我正在使用Java Spark來統(tǒng)計(jì)數(shù)據(jù)集。我需要通過許多exper聚合數(shù)據(jù)集,因此代碼又長又難看。expers有一些共同的邏輯,我可以用循環(huán)生成exper嗎?下面是代碼示例,實(shí)際代碼有數(shù)百行重復(fù)代碼:Dataset<Row> res = ds.groupBy(ds.col("uid")).agg(functions.max(ds.col("create_time")).as("create_time"),functions.sum(functions.when(ds.col("date_diff").$less$eq(30).and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_1"), functions.sum(functions.when(ds.col("date_diff").$less$eq(60) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_2"), functions.sum(functions.when(ds.col("date_diff").$less$eq(90) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_3"), functions.sum(functions.when(ds.col("date_diff").$less$eq(120) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_4"), functions.sum(functions.when(ds.col("date_diff").$less$eq(150) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_5"), functions.sum(functions.when(ds.col("date_diff").$less$eq(180) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_6"))我得到了這樣的解決方案:List<Column> exprs = new ArrayList<>();for (int i = 1; i < 7; i ++ ) { exprs.add(functions.sum(functions.when(ds.col("date_diff").$less$eq(30*i) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_"+Integer.toString(i));}Dataset<Row> res = ds.groupBy(ds.col("uid")).agg(functions.max(ds.col("create_time")).as("create_time"),exprs.toArray(new Column[exprs.size()]));
1 回答

哆啦的時(shí)光機(jī)
TA貢獻(xiàn)1779條經(jīng)驗(yàn) 獲得超6個(gè)贊
您可以:
創(chuàng)建一個(gè)數(shù)據(jù)幀(數(shù)據(jù)集是一個(gè)數(shù)據(jù)幀,與任何其他列的數(shù)據(jù)集相對),其中包含所有其他列,然后對新創(chuàng)建的列執(zhí)行聚合。您可以在循環(huán)中創(chuàng)建列。
構(gòu)建一個(gè) UDAF(用戶定義的聚合函數(shù)),該函數(shù)將在 Java 中處理您的自定義代碼。
希望它有幫助...
添加回答
舉報(bào)
0/150
提交
取消