慕運(yùn)維8079593
2024-01-25 21:29:53
我正在嘗試將數(shù)據(jù)從 Google BigQuery 加載到在 Google Dataproc 上運(yùn)行的 Spark(我正在使用 Java)。我嘗試按照此處的說明進(jìn)行操作:https ://cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example我收到錯(cuò)誤:“ ClassNotFoundException: Failed to find data source: bigquery。”我的 pom.xml 如下所示:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.virtualpairprogrammers</groupId> <artifactId>learningSpark</artifactId> <version>0.0.3-SNAPSHOT</version> <packaging>jar</packaging> <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding> <java.version>1.8</java.version> </properties> <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.2</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.3.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.2.0</version> </dependency> <dependency> <groupId>com.google.cloud.spark</groupId> <artifactId>spark-bigquery_2.11</artifactId> <version>0.9.1-beta</version> <classifier>shaded</classifier> </dependency> </dependencies>將依賴項(xiàng)添加到我的 pom.xml 后,它會下載大量內(nèi)容來構(gòu)建 .jar,所以我認(rèn)為我應(yīng)該擁有正確的依賴項(xiàng)?然而,Eclipse 還警告我“從未使用過 import com.google.cloud.spark.bigquery”。
3 回答

MM們
TA貢獻(xiàn)1886條經(jīng)驗(yàn) 獲得超2個(gè)贊
我認(rèn)為您只添加了 BQ 連接器作為編譯時(shí)依賴項(xiàng),但在運(yùn)行時(shí)缺少它。您需要制作一個(gè) uber jar,其中包含作業(yè) jar 中的連接器(需要更新文檔),或者在提交作業(yè)時(shí)包含它gcloud dataproc jobs submit spark --properties spark.jars.packages=com.google.cloud.spark:spark-bigquery_2.11:0.9.1-beta
。

牧羊人nacy
TA貢獻(xiàn)1862條經(jīng)驗(yàn) 獲得超7個(gè)贊
我遇到了同樣的問題,并將格式從“bigquery”更新為“com.google.cloud.spark.bigquery”,這對我有用。

慕森王
TA貢獻(xiàn)1777條經(jīng)驗(yàn) 獲得超3個(gè)贊
在 build.sbt 中指定依賴項(xiàng)并按照 Peter 建議的格式使用“com.google.cloud.spark.bigquery”為我解決了這個(gè)問題。
添加回答
舉報(bào)
0/150
提交
取消