我試圖輸出同一個鍵的 SUM 和 COUNT 。例如。給定一個包含數(shù)百萬個飛機(jī)延誤事件的 .csv。使用 Apache Beam (Java),我想對每架飛機(jī)的延誤持續(xù)時間進(jìn)行求和,并計算每架飛機(jī)的延誤次數(shù)。每行都有plane_id, delay_duration, date等我正在嘗試創(chuàng)建兩個 PCollection,并希望在輸出之前將它們合并。PCollection<KV<String, Integer>> sum = eventInfo.apply(MapElements.into(TypeDescriptors.kvs(TypeDescriptors.strings(),TypeDescriptors.integers())).via((Event.EventInfo gInfo) -> KV.of(gInfo.getKey('plane_id'), gInfo.getDuration()))).apply(Sum.integersPerKey());
PCollection<KV<String, Long>> count = eventInfo.apply(MapElements.into(TypeDescriptors.kvs(TypeDescriptors.strings(), TypeDescriptors.integers())).via((Event.EventInfo gInfo) -> KV.of(gInfo.getKey('plane_id'), gInfo.getDuration()))).apply(Count.perKey());這兩個 PCollection 按預(yù)期工作,但我不知道如何在 3 列中輸出它(合并它?)總和| 數(shù)數(shù)。
添加回答
舉報
0/150
提交
取消