首頁猿問為什么如果我用魔杖從pdf中提取圖...

為什么如果我用魔杖從pdf中提取圖像jpg，它會使我在文本上變成黑色背景

Python

嗶嗶one 2022-01-18 16:17:17

我對一些 pdf 文件有疑問。我需要將它們轉(zhuǎn)換為 jpg 圖像，使它們可用于 OCR，但是當(dāng)我轉(zhuǎn)換其中一些時(shí)，Wand 將我轉(zhuǎn)換為 jpg，其中文本上有黑色背景。我看到這是關(guān)于空間顏色的常見問題。它似乎發(fā)生在文件 word 轉(zhuǎn)換為 pdf 文件的情況下，其中空間顏色變?yōu)?CMYK。Tesseract OCR 只接受空間顏色 RGB。我已經(jīng)編寫了一個(gè)可以轉(zhuǎn)換的 python 腳本，但我想解決這個(gè)問題。你可以幫幫我嗎？謝謝。原始頁面 pd將 pdf 轉(zhuǎn)換為 jpg

查看完整描述

2 回答

波斯汪

TA貢獻(xiàn)1811條經(jīng)驗(yàn) 獲得超4個(gè)贊

解決方案是在調(diào)用 save 之前設(shè)置這些：

page = wi(image=img)

page.background_color = Color('white')

page.alpha_channel = 'remove'

page.save(...)

反對回復(fù) 2022-01-18

繁星點(diǎn)點(diǎn)滴滴

TA貢獻(xiàn)1803條經(jīng)驗(yàn) 獲得超3個(gè)贊

這是我的代碼：

def convert_pdf(pdf_file):

# Get name file

title = os.path.splitext(os.path.basename(pdf_file))[0]

basename = os.path.basename(pdf_file)

pdf = wi(filename=pdf_file, resolution=100)

pdfImage = pdf.convert("jpg")

outputPath = PATH_IMAGES+"/" + basename

if not os.path.exists(outputPath):

os.mkdir(outputPath)

i=1

for img in pdfImage.sequence:

page = wi(image=img)

page.save(filename=outputPath+"/"+title+"(*page="+str(i)+"*)"+".jpg")

imagePathConverted = outputPath+"/"+title+"(*page="+str(i)+"*)"+".jpg"

'''image = Image.open(imagePathConverted)

if image.mode != 'RGB':

rgb_image = image.convert('RGB')

rgb_image.save(imagePathConverted)'''

i += 1

return outputPath

反對回復(fù) 2022-01-18

2 回答
0 關(guān)注
209 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

為什么如果我用魔杖從pdf中提取圖像jpg，它會使我在文本上變成黑色背景

為什么如果我用魔杖從pdf中提取圖像jpg，它會使我在文本上變成黑色背景

2 回答

添加回答

為什么如果我用魔杖從pdf中提取圖像jpg，它會使我在文本上變成黑色背景

為什么如果我用魔杖從pdf中提取圖像jpg，它會使我在文本上變成黑色背景