簡介:Scrapy,Python開發(fā)的一個快速,高層次的web抓取框架,用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。任何人都可以根據(jù)需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。本課程將帶你入門并實踐Scrapy框架!
第2章 scrapy框架、mongodb數(shù)據(jù)庫的安裝及scrapy實踐
本章分為3部分,第一部分:詳細(xì)介紹了scrapy框架、mongodb數(shù)據(jù)庫的安裝,對報錯進行了排查及解決。
第二部分:通過scrapy框架架構(gòu),講解了scrapy各個組件的作用,以及scrapy在抓取數(shù)據(jù)的時候,數(shù)據(jù)流在框架內(nèi)是如何進行流動的
第三部分:通過一個抓取實例演示了scrapy在項目中如何配置,如何編寫,如何解析及抓取數(shù)據(jù),最后將數(shù)據(jù)存儲在mongodb當(dāng)中。
- 視頻: 2-1 scrapy的安裝、和安裝中遇到的問題 (09:37)
- 視頻: 2-2 scrapy的介紹、組件、數(shù)據(jù)流 (07:57)
- 視頻: 2-3 mongodb數(shù)據(jù)庫的安裝 (06:04)
- 視頻: 2-4 新建scrapy項目 (06:05)
- 視頻: 2-5 明確目標(biāo) (03:03)
- 視頻: 2-6 spider文件的編寫(1) (09:48)
- 視頻: 2-7 spider文件的編寫(2) (22:44)
- 視頻: 2-8 保存數(shù)據(jù) (09:00)
- 視頻: 2-9 ip代理中間件編寫 (05:23)
- 視頻: 2-10 user-agent中間件的編寫 (03:55)
- 視頻: 2-11 最后的注意事項 (01:10)