第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機(jī)立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

使用CrawlSpider翻頁抓取時,如何抓取第一頁上面的內(nèi)容?

使用CrawlSpider翻頁抓取時,如何抓取第一頁上面的內(nèi)容?

Qyouu 2019-02-24 00:50:36
我使用CrawlSpider結(jié)合下面的Rules來進(jìn)行自動翻頁,爬取豆瓣top250的電影信息: rules = ( Rule(LinkExtractor(restrict_xpaths='//span[@class="next"]/a'), callback='parse_item', follow=True), ) 因為我想要抓取的信息都在表層的網(wǎng)頁上,所以我不需要進(jìn)入到每一頁上的URL里面。 但是這樣問題就來了,即使callback設(shè)置了處理函數(shù),但是只有當(dāng)LinkExtractor提取第二頁鏈接并生成Response的時候才會開始調(diào)用callback函數(shù),那這樣第一頁的內(nèi)容就沒了。 網(wǎng)上搜索過一些其他方案,但是基本都是用兩個或以上的Rule(他們需要進(jìn)入到深層的URL)。如果用最基本的Spider手動寫翻頁代碼的話確實可以解決這個問題,可是能不能用CrawlerSpider解決呢,因為這樣看起來優(yōu)雅一點。
查看完整描述

2 回答

?
蝴蝶刀刀

TA貢獻(xiàn)1801條經(jīng)驗 獲得超8個贊

第一頁的內(nèi)容默認(rèn)回調(diào)函數(shù)為parse_start_url,你只需重寫這個方法即可

查看完整回答
反對 回復(fù) 2019-03-01
?
烙印99

TA貢獻(xiàn)1829條經(jīng)驗 獲得超13個贊

LinkExtractor這里面寫的不是正則寫的是你匹配的下一頁的url里面的東西LinkExtractor(r'/subject/d+/')

查看完整回答
反對 回復(fù) 2019-03-01
  • 2 回答
  • 0 關(guān)注
  • 1007 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號