第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

scrapy 如何爬取不同的網(wǎng)頁URL結(jié)構(gòu),返回相同的item

scrapy 如何爬取不同的網(wǎng)頁URL結(jié)構(gòu),返回相同的item

蝴蝶不菲 2019-04-27 22:14:32
問題描述例如有一個網(wǎng)站內(nèi)的有三個板塊都是公司的新聞相關(guān)https://www.glprop.com.cn/pre...https://www.glprop.com.cn/in-...https://www.glprop.com.cn/in-...這三個頁面都有新聞標(biāo)題,時間,URL,每個頁面還有下一頁的這種新聞鏈接。問題出現(xiàn)的環(huán)境背景及自己嘗試過哪些方法我定義了一個itemclassPuluosiNewsItem(scrapy.Item):newstitle=scrapy.Field()newtiems=scrapy.Field()newslink=scrapy.Field()然后spider里面想通過獲取三個url構(gòu)建request然后回調(diào)函數(shù)getnews來獲取新聞事件,新聞標(biāo)題,新聞鏈接,但是每個URL里面新聞又按年份進行了分類,類似于下一頁下一頁,實在不知道如何寫spider從三個url里面返回相同的item,難道要寫三個spider嗎?classPuluosiSpider(scrapy.Spider):name='puluosi'allowed_domains=['glprop.com.cn']start_urls=['https://www.glprop.com.cn/press-releases.html']#獲取所有hrefdefparse(self,response):print('此時啟動的爬蟲為:puluosi')urllist=response.xpath('//div[@class="menu"]/ul/li[4]//li')#把媒體中的國際市場發(fā)債信息url去除urllist.pop()base_url='https://www.glprop.com.cn'forwebinurllist:url=base_url+web.xpath('.//a/@href').extract()[0]yieldscrapy.Request(url,callback=self.getnews)#print("REQUEST:",scrapy.Request)defgetnews(self,response):pass
查看完整描述

2 回答

  • 2 回答
  • 0 關(guān)注
  • 280 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號