幫忙找錯。謝謝了
# -*- coding: utf-8 -*-
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from urllib.request import urlopen
# fp = open("ReferenceCard.pdf","rb") # 獲取文檔對象,“rb”表示以二進(jìn)制讀的方式打開
fp = urlopen("http://www.tencent.com/zh-cn/articles/8003251479983154.pdf")
parser = PDFParser(fp) #創(chuàng)建一個與文檔關(guān)聯(lián)的解釋器
doc = PDFDocument() # PDF文檔的對象
parser.set_document(doc) # 鏈接文檔對象
doc.set_parser(parser) # 鏈接解釋器
doc.initialize("") # 初始化文檔,如果該文檔有加密,則密碼寫在“”里
resource = PDFResourceManager # 創(chuàng)建PDF資源管理器
laparam = LAParams() # 創(chuàng)建參數(shù)分析器
device = PDFPageAggregator(resource,laparams=laparam) # 創(chuàng)建一個聚合器,接收PDF資源管理器和參數(shù)解析器
interpreter = PDFPageInterpreter(resource,device) # 創(chuàng)建PDF頁面解釋器,需要PDF資源管理器和聚合器
for page in doc.get_pages(): # 使用文檔對象得到頁面的集合
? ?interpreter.process_page(page) # 使用頁面解釋器來讀取
? ?layout = device.get_result() # 使用聚合器來獲取內(nèi)容
? ?for out in layout:
? ? ? ?if hasattr(out,"get_text"):
? ? ? ? ? ?print(out.get_text())
以下是報錯:
(忽略下面這張圖)
2018-06-25
缺括號
2017-09-17
忽略最后一張圖