繁體Pdf不能正常顯示而是像(cid:152)(cid:618)(cid:825)(cid:2973)(cid:1734)(cid:153)這樣的字符串呢(然而也沒有報錯)?
#就是用的老師的代碼= =
#!/usr/bin/env python
# -*- coding:utf-8 -*-
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from urllib.request import urlopen
# 獲取文檔對象
# fp = open("naacl06-shinyama.pdf", "rb")
fp = urlopen("http://www.tencent.com/zh-cn/content/ir/an/2016/attachments/20160321.pdf")
# 創(chuàng)建一個與文檔關(guān)聯(lián)的解釋器
parser = PDFParser(fp)
# PDF文檔的對象
doc = PDFDocument()
# 鏈接解釋器和文檔對象
parser.set_document(doc)
doc.set_parser(parser)
# 初始化文檔
doc.initialize("")
# 創(chuàng)建PDF資源管理器
resource = PDFResourceManager()
# 參數(shù)分析器
laparam = LAParams()
# 創(chuàng)建一個聚合器
device = PDFPageAggregator(resource, laparams=laparam)
# 創(chuàng)建PDF頁面解釋器
interpreter = PDFPageInterpreter(resource, device)
# 使用文檔對象得到頁面的集合
for page in doc.get_pages():
? ?# 使用頁面解釋器來讀取
? ?interpreter.process_page(page)
? ?# 使用聚合器來獲得內(nèi)容
? ?layout = device.get_result()
? ?for out in layout:
? ? ? ?if hasattr(out, "get_text"):
? ? ? ? ? ?print(out.get_text())
2017-02-06
應(yīng)該是你那里的編碼格式?jīng)]有轉(zhuǎn)換對