我在 java 中使用 apache spark,我想做的是過濾一些數(shù)據(jù),按特定鍵對(duì)其進(jìn)行分組,然后計(jì)算每個(gè)鍵的元素?cái)?shù)量。目前我正在這樣做:Dataset<MyBean> rawEvents = readData(spark); Dataset<MyBean> filtered = rawEvents.filter((FilterFunction<MyBean>) events -> //filter function ));KeyValueGroupedDataset<String, MyBean> grouped = filtered .groupByKey((MapFunction<MyBean, String>) event -> { return event.getKey(); }, Encoders.STRING());grouped.count().write().parquet("output.parquet");它無法寫入,因?yàn)椋簅rg.apache.spark.sql.AnalysisException: Attribute name "count(1)" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.;我怎樣才能為計(jì)數(shù)列起別名,以免發(fā)生這種情況?
2 回答

明月笑刀無情
TA貢獻(xiàn)1828條經(jīng)驗(yàn) 獲得超4個(gè)贊
grouped.count()
Dataset<Tuple2<String, Object>
在你的情況下返回 a 。
本質(zhì)上,重命名Dataset對(duì)象中的列將解決您的問題。
您可以使用DatasetwithColumnRenamed
API的方法。
grouped.count().withColumnRenamed("count(1)", "counts").write().parquet("output.parquet")

吃雞游戲
TA貢獻(xiàn)1829條經(jīng)驗(yàn) 獲得超7個(gè)贊
grouped.count()選擇所有列并添加to count 列后alias,使用 write 方法。
例子:
import static org.apache.spark.sql.functions.col;
import org.apache.spark.sql.Column;
Column[] colList = { col("column1"), col("column2"), col("count(1)").alias("count") };
grouped.count().select(colList).write.parquet("output.parquet");
添加回答
舉報(bào)
0/150
提交
取消