我正在嘗試使用 810 個(gè)單獨(dú)的 tif 文件處理多個(gè)文件夾。文件夾結(jié)構(gòu):在嘗試為此創(chuàng)建數(shù)據(jù)框時(shí),我遇到了加載的字節(jié)數(shù)組為空的問(wèn)題。我顯然需要那些進(jìn)行處理。數(shù)據(jù)框創(chuàng)建:spark = SparkSession \ .builder \ .appName(name) \ .config("spark.executor.memory", "2g") \ .config("spark.driver.memory", "2g") \ .config("spark.executor.cores", "2") \ .getOrCreate()file_rdd = spark.read.format('image').load(argv[1] + '/' + '*/*')Argv 顯然包含基本文件夾作為第一個(gè)參數(shù)。在調(diào)試(通過(guò)調(diào)試器或打?。r(shí),我注意到我的數(shù)據(jù)框是一堆只有原點(diǎn)集的行,所有其他值要么是 -1 要么是空的。我主要需要填寫(xiě)字節(jié)數(shù)組,以及一個(gè)來(lái)源。雖然,當(dāng)觀察我系統(tǒng)上使用的內(nèi)存時(shí),有一個(gè)明顯的峰值,表明它肯定加載了一些東西。我做錯(cuò)了什么或不受支持?
1 回答

阿波羅的戰(zhàn)車
TA貢獻(xiàn)1862條經(jīng)驗(yàn) 獲得超6個(gè)贊
-1
s 表示對(duì)應(yīng)的圖片無(wú)效。如果您添加dropInvalid
選項(xiàng)并將其設(shè)置為True
,則這些選項(xiàng)可能根本不存在。
Spark 使用 Java 的ImageIO
庫(kù)來(lái)讀取圖像。ImageIO
利用插件支持不同的圖像格式。Java 版本高達(dá) 8 只附帶 JPEG、PNG、BMP、WBMP 和 GIF 插件。Java 9 為 TIFF 添加了一個(gè)標(biāo)準(zhǔn)插件。由于 Spark 官方僅支持 Java 8,因此您的選擇是使用 3rd 方 TIFF 插件ImageIO
,例如由 Stack Overflow 用戶提供的這個(gè)插件。
要使用上述插件,請(qǐng)?jiān)?Spark 會(huì)話配置中添加如下內(nèi)容:
.config("spark.jars.packages", "com.twelvemonkeys.imageio:imageio-tiff:3.5,com.twelvemonkeys.imageio:imageio-core:3.5") \
您可以在Maven 索引中跟蹤包版本。
添加回答
舉報(bào)
0/150
提交
取消