各位同事,大家好。我有一個(gè)大數(shù)據(jù)集(約2.370億行)。有很多列。例如,我需要?jiǎng)h除列名所有重復(fù)userId,VTS。userId Vts moreColumn1 moreColumn210 150 2 3 -delete11 160 1 610 150 0 1 -delete我對(duì)SQL不好。嘗試了與Internet不同的變體,但不起作用。更新:輸入答案!我忘了說我使用Java。有我針對(duì)Java的優(yōu)化代碼:viewingDataset.groupBy("userId", "VTS") .count() .where("count = 1") .drop("count") .join(viewingDataset, JavaConversions.asScalaBuffer(asList("userId", "VTS")))
添加回答
舉報(bào)
0/150
提交
取消