我正在嘗試從 kafka 獲取數(shù)據(jù)到 spark-structured-streaming,但我無法檢查我是否做得很好。我想在控制臺上打印來自 kafka 的數(shù)據(jù),但控制臺上什么也沒有??赡苁且?yàn)閬碜钥ǚ蚩ǖ臄?shù)據(jù)量很大,但我不知道。我正在使用 Windows 10。我檢查了 kafka 的端口是由“netstat -an | findstr TARGET_IP”建立的。TARGET_IP 表示kafka生產(chǎn)者的IP。根據(jù)以上結(jié)果的 PID,我檢查了“任務(wù)列表/FI“PID eq 5406””。5406是java.exe的PID,PID 5406占用的內(nèi)存在不斷增加。public static void main( String[] args ) { SparkSession spark = SparkSession.builder() .master("local") .appName("App").getOrCreate(); Dataset<Row> df = spark .readStream() .format("kafka") .option("kafka.bootstrap.servers", "TARGET_IP:TARGET_PORT") .option("subscribe", "TARGET_TOPIC") .option("startingOffsets", "earliest") .load(); df.printSchema(); StreamingQuery queryone = df.writeStream().trigger(Trigger.ProcessingTime(1000)).format("console").start(); try { queryone.awaitTermination(); } catch (StreamingQueryException e) { e.printStackTrace(); }}
添加回答
舉報(bào)
0/150
提交
取消