1 回答
TA貢獻(xiàn)1810條經(jīng)驗(yàn) 獲得超4個(gè)贊
所以我們終于弄清楚了這個(gè)問題——至少在我們的例子中是這樣。
使用 Hue 創(chuàng)建工作流時(shí),添加 Spark 操作時(shí),默認(rèn)情況下會(huì)提示輸入“文件”和“Jar/py 名稱”。我們分別在這些字段中提供了我們想要運(yùn)行的 JAR 文件的路徑和該 JAR 文件的名稱,它創(chuàng)建了如下所示的基本操作:

它創(chuàng)建的最終 XML 如下所示:
<action name="spark-210e">
<spark xmlns="uri:oozie:spark-action:0.2">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<master>yarn</master>
<mode>cluster</mode>
<name>CleanseData</name>
<class>com.data.CleanseData</class>
<jar>JCleanseData.jar</jar>
<spark-opts>--driver-memory 2G --executor-memory 2G --num-executors 10 --files hive-site.xml</spark-opts>
<arg>yarn</arg>
<arg>[someArg1]</arg>
<arg>[someArg2]</arg>
<file>lib/JCleanseData.jar#JCleanseData.jar</file>
</spark>
<ok to="[nextAction]"/>
<error to="Kill"/>
</action>
在我們的案例中,其中的默認(rèn)file標(biāo)簽導(dǎo)致了問題。
因此,我們刪除了它并將定義編輯為如下所示并且有效。還要注意對(duì)<jar>標(biāo)簽的更改。
<action name="spark-210e">
<spark xmlns="uri:oozie:spark-action:0.2">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<master>yarn</master>
<mode>cluster</mode>
<name>CleanseData</name>
<class>com.data.CleanseData</class>
<jar>hdfs://path/to/JCleanseData.jar</jar>
<spark-opts>--driver-memory 2G --executor-memory 2G --num-executors 10 --files hive-site.xml</spark-opts>
<arg>yarn</arg>
<arg>[someArg1]</arg>
<arg>[someArg1]</arg>
</spark>
<ok to="[nextAction]"/>
<error to="Kill"/>
</action>
PS:我們對(duì) Hive 操作也有類似的問題。hive-site.xml我們應(yīng)該通過 Hive 操作傳遞的文件——它創(chuàng)建了一個(gè)<job-xml>標(biāo)簽——也導(dǎo)致了問題。所以我們刪除了它,它按預(yù)期工作。
添加回答
舉報(bào)
