慕碼人8056858
2021-08-14 21:24:15
在本地機(jī)器(Win10 64、Python 3、Spark 2.4.0)上安裝它并設(shè)置所有環(huán)境變量(HADOOP_HOME、SPARK_HOME 等)后,我試圖通過 WordCount.py 文件運(yùn)行一個(gè)簡(jiǎn)單的 Spark 作業(yè):from pyspark import SparkContext, SparkConfif __name__ == "__main__": conf = SparkConf().setAppName("word count").setMaster("local[2]") sc = SparkContext(conf = conf) lines = sc.textFile("C:/Users/mjdbr/Documents/BigData/python-spark-tutorial/in/word_count.text") words = lines.flatMap(lambda line: line.split(" ")) wordCounts = words.countByValue() for word, count in wordCounts.items(): print("{} : {}".format(word, count))從終端運(yùn)行后:spark-submit WordCount.py我得到以下錯(cuò)誤。我檢查(通過逐行注釋)它在wordCounts = words.countByValue()知道我應(yīng)該檢查什么才能使它工作嗎?在安裝資源方面 - 我按照本教程中的說明進(jìn)行操作:從Apache Spark 網(wǎng)站下載 spark-2.4.0-bin-hadoop2.7.tgz將它解壓到我的 C 盤已經(jīng)安裝了 Python_3(Anaconda 發(fā)行版)以及 Java創(chuàng)建本地 'C:\hadoop\bin' 文件夾來存儲(chǔ) winutils.exe創(chuàng)建 'C:\tmp\hive' 文件夾并授予 Spark 訪問權(quán)限添加了環(huán)境變量(SPARK_HOME、HADOOP_HOME 等)我應(yīng)該安裝任何額外的資源嗎?
3 回答

喵喵時(shí)光機(jī)
TA貢獻(xiàn)1846條經(jīng)驗(yàn) 獲得超7個(gè)贊
我得到了同樣的錯(cuò)誤。我通過安裝以前版本的 Spark(2.3 而不是 2.4)解決了這個(gè)問題?,F(xiàn)在完美運(yùn)行了,可能是pyspark最新版本的問題。

繁花如伊
TA貢獻(xiàn)2012條經(jīng)驗(yàn) 獲得超12個(gè)贊
問題的核心是pyspark和python的連接,通過重新定義環(huán)境變量來解決。
我剛剛將環(huán)境變量的值PYSPARK_DRIVER_PYTHON
從ipython
tojupyter
和PYSPARK_PYTHON
frompython3
更改為python
。
現(xiàn)在我使用 Jupyter Notebook、Python 3.7、Java JDK 11.0.6、Spark 2.4.2

躍然一笑
TA貢獻(xiàn)1826條經(jīng)驗(yàn) 獲得超6個(gè)贊
將 Spark 從 2.4.0 降級(jí)回 2.3.2 對(duì)我來說還不夠。我不知道為什么,但在我的情況下,我必須從 SparkSession 創(chuàng)建 SparkContext 就像
sc = spark.sparkContext
然后同樣的錯(cuò)誤消失了。
添加回答
舉報(bào)
0/150
提交
取消