我正在嘗試使用 810 個單獨的 tif 文件處理多個文件夾。文件夾結構:在嘗試為此創(chuàng)建數(shù)據(jù)框時,我遇到了加載的字節(jié)數(shù)組為空的問題。我顯然需要那些進行處理。數(shù)據(jù)框創(chuàng)建:spark = SparkSession \ .builder \ .appName(name) \ .config("spark.executor.memory", "2g") \ .config("spark.driver.memory", "2g") \ .config("spark.executor.cores", "2") \ .getOrCreate()file_rdd = spark.read.format('image').load(argv[1] + '/' + '*/*')Argv 顯然包含基本文件夾作為第一個參數(shù)。在調試(通過調試器或打?。r,我注意到我的數(shù)據(jù)框是一堆只有原點集的行,所有其他值要么是 -1 要么是空的。我主要需要填寫字節(jié)數(shù)組,以及一個來源。雖然,當觀察我系統(tǒng)上使用的內存時,有一個明顯的峰值,表明它肯定加載了一些東西。我做錯了什么或不受支持?
1 回答

阿波羅的戰(zhàn)車
TA貢獻1862條經驗 獲得超6個贊
-1
s 表示對應的圖片無效。如果您添加dropInvalid
選項并將其設置為True
,則這些選項可能根本不存在。
Spark 使用 Java 的ImageIO
庫來讀取圖像。ImageIO
利用插件支持不同的圖像格式。Java 版本高達 8 只附帶 JPEG、PNG、BMP、WBMP 和 GIF 插件。Java 9 為 TIFF 添加了一個標準插件。由于 Spark 官方僅支持 Java 8,因此您的選擇是使用 3rd 方 TIFF 插件ImageIO
,例如由 Stack Overflow 用戶提供的這個插件。
要使用上述插件,請在 Spark 會話配置中添加如下內容:
.config("spark.jars.packages", "com.twelvemonkeys.imageio:imageio-tiff:3.5,com.twelvemonkeys.imageio:imageio-core:3.5") \
您可以在Maven 索引中跟蹤包版本。
添加回答
舉報
0/150
提交
取消