課程
/后端開發(fā)
/Python
/python遇見數(shù)據(jù)采集
如題?
PDF下載好讀取他的意義是什么?
2016-09-15
源自:python遇見數(shù)據(jù)采集 5-5
正在回答
比如說你想收集所有上市公司歷年來資產(chǎn)負(fù)債,資產(chǎn)增長,股份變革等等這些情況,你不可能通過人工的方法來查找,因?yàn)閱螁紊顪加袔浊Ъ夜荆荒芤揽砍绦騺硗瓿?,但是這些信息大部分都是以PDF文件保存的,如果不讀取PDF文件還有什么好的方法來完成呢?
而且大部分的文件都是以PDF保存的,如果你想從這些文件里面查找信息,一兩個(gè)文件可能還能人工去查找統(tǒng)計(jì),如果是一百個(gè),一萬個(gè)文件,依靠人工不知道要到什么時(shí)候才能完成,而且還可能會(huì)統(tǒng)計(jì)錯(cuò)誤。
有些數(shù)據(jù)是被嵌套在PDF文檔里面的,這時(shí)候就需要把它讀取出來再處理
還有就是將PDF文檔中的內(nèi)容轉(zhuǎn)成文字(當(dāng)然這個(gè)在13版的word里面也能做到)
反正不管怎么說,讀取PDF文檔都是件吃力不討好的事情。過程繁瑣而且準(zhǔn)確率也不是很高。如果不需要讀取那是最好了
舉報(bào)
本教程讓你初步掌握Python進(jìn)行數(shù)據(jù)采集,創(chuàng)造屬于你的價(jià)值
1 回答老師python還有別的 讀取pdf的庫嗎
3 回答為什么最后用urlopen讀取線上pdf地址時(shí),讀取信息顯示異常
1 回答頁面解釋器讀取出錯(cuò)
2 回答python能修改雙層pdf中文字透明度嗎
2 回答讀取不了wiki那個(gè)url鏈接,求助。。
Copyright ? 2025 imooc.com All Rights Reserved | 京ICP備12003892號(hào)-11 京公網(wǎng)安備11010802030151號(hào)
購課補(bǔ)貼聯(lián)系客服咨詢優(yōu)惠詳情
慕課網(wǎng)APP您的移動(dòng)學(xué)習(xí)伙伴
掃描二維碼關(guān)注慕課網(wǎng)微信公眾號(hào)
2016-09-17
比如說你想收集所有上市公司歷年來資產(chǎn)負(fù)債,資產(chǎn)增長,股份變革等等這些情況,你不可能通過人工的方法來查找,因?yàn)閱螁紊顪加袔浊Ъ夜荆荒芤揽砍绦騺硗瓿?,但是這些信息大部分都是以PDF文件保存的,如果不讀取PDF文件還有什么好的方法來完成呢?
而且大部分的文件都是以PDF保存的,如果你想從這些文件里面查找信息,一兩個(gè)文件可能還能人工去查找統(tǒng)計(jì),如果是一百個(gè),一萬個(gè)文件,依靠人工不知道要到什么時(shí)候才能完成,而且還可能會(huì)統(tǒng)計(jì)錯(cuò)誤。
2016-09-15
有些數(shù)據(jù)是被嵌套在PDF文檔里面的,這時(shí)候就需要把它讀取出來再處理
還有就是將PDF文檔中的內(nèi)容轉(zhuǎn)成文字(當(dāng)然這個(gè)在13版的word里面也能做到)
反正不管怎么說,讀取PDF文檔都是件吃力不討好的事情。過程繁瑣而且準(zhǔn)確率也不是很高。如果不需要讀取那是最好了