簡介:爬蟲技術(shù)用來從互聯(lián)網(wǎng)上自動獲取需要的數(shù)據(jù)。課程從對爬蟲的介紹出發(fā),引入一個簡單爬蟲的技術(shù)架構(gòu),然后通過是什么、怎么做、現(xiàn)場演示三步驟,解釋爬蟲技術(shù)架構(gòu)中的三個模塊。最后,一套優(yōu)雅精美的爬蟲代碼實戰(zhàn)編寫,向大家演示了實戰(zhàn)抓取百度百科1000個頁面的數(shù)據(jù)全過程
第1章 課程介紹
本章對課程要學(xué)習(xí)的內(nèi)容進(jìn)行概覽,明確告訴大家將從課程中學(xué)到開發(fā)一個爬蟲所需的相關(guān)技術(shù)。
第2章 爬蟲簡介以及爬蟲的技術(shù)價值
本章介紹了爬蟲技術(shù)的含義,以及爬蟲這門技術(shù)存在的價值和意義
第3章 簡單爬蟲架構(gòu)
本章介紹了精心提煉的一個簡潔爬蟲技術(shù)架構(gòu),通過動態(tài)圖介紹了技術(shù)架構(gòu)實現(xiàn)爬蟲任務(wù)的流程,使大家對爬蟲的整體組成和運(yùn)行流程有整體的把握。
第4章 URL管理器和實現(xiàn)方法
本章介紹了簡單爬蟲架構(gòu)的URL管理器模塊,用于管理待爬取的URL集合和已爬取的URL集合,也介紹了實現(xiàn)URL管理器的幾種方法
第5章 網(wǎng)頁下載器和urllib2模塊
本章介紹了簡單爬蟲架構(gòu)的網(wǎng)頁下載器模塊,將網(wǎng)頁下載下來然后才能進(jìn)行后續(xù)的數(shù)據(jù)提取,本章然后介紹了Python自帶的urllib2模塊的各種使用語法用于網(wǎng)頁的下載
第6章 網(wǎng)頁解析器和BeautifulSoup第三方模塊
本章介紹了簡單爬蟲架構(gòu)的網(wǎng)頁解析器模塊,解析器用于從網(wǎng)頁中提取價值數(shù)據(jù)和新的待爬取URL,本章然后介紹了BeautifulSoup這個強(qiáng)大的第三方模塊用于數(shù)據(jù)的解析和提取
第7章 實戰(zhàn)演練:爬取百度百科1000個頁面的數(shù)據(jù)
本章是課程的核心部分,通過一套精心設(shè)計并編寫的爬蟲代碼,實現(xiàn)了課程前面講述的簡單爬蟲架構(gòu)中各個組成部分,爬蟲代碼最終完成了百度百科1000個頁面的數(shù)據(jù)爬取并進(jìn)行了數(shù)據(jù)展示,本代碼經(jīng)過配置修改后,可以用來爬取任何網(wǎng)站數(shù)據(jù)。
第8章 課程總結(jié)
本章回顧了課程講過的知識,對爬蟲的技術(shù)架構(gòu)有一個整體的回顧和把握,另外也對爬蟲技術(shù)的深入發(fā)展將會遇到的困難進(jìn)行了簡單展望