我在 java 中使用 apache spark,我想做的是過濾一些數(shù)據(jù),按特定鍵對其進(jìn)行分組,然后計算每個鍵的元素數(shù)量。目前我正在這樣做:Dataset<MyBean> rawEvents = readData(spark); Dataset<MyBean> filtered = rawEvents.filter((FilterFunction<MyBean>) events -> //filter function ));KeyValueGroupedDataset<String, MyBean> grouped = filtered .groupByKey((MapFunction<MyBean, String>) event -> { return event.getKey(); }, Encoders.STRING());grouped.count().write().parquet("output.parquet");它無法寫入,因為:org.apache.spark.sql.AnalysisException: Attribute name "count(1)" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.;我怎樣才能為計數(shù)列起別名,以免發(fā)生這種情況?
2 回答

明月笑刀無情
TA貢獻(xiàn)1828條經(jīng)驗 獲得超4個贊
grouped.count()
Dataset<Tuple2<String, Object>
在你的情況下返回 a 。
本質(zhì)上,重命名Dataset對象中的列將解決您的問題。
您可以使用DatasetwithColumnRenamed
API的方法。
grouped.count().withColumnRenamed("count(1)", "counts").write().parquet("output.parquet")

吃雞游戲
TA貢獻(xiàn)1829條經(jīng)驗 獲得超7個贊
grouped.count()選擇所有列并添加to count 列后alias,使用 write 方法。
例子:
import static org.apache.spark.sql.functions.col;
import org.apache.spark.sql.Column;
Column[] colList = { col("column1"), col("column2"), col("count(1)").alias("count") };
grouped.count().select(colList).write.parquet("output.parquet");
添加回答
舉報
0/150
提交
取消