首頁猿問 scrapy...

scrapy Rule如何解析json格式的鏈接？

Python

手掌心 2019-01-05 11:44:12

rules = { 'sina':( Rule(LinkExtractor(allow='/\d+-\d+-\d+\/.*?-.*?.shtml', deny=('http://search.sina.com.cn/.*?')), callback='parse_item', follow=True), ) }如上，目的是從目標(biāo)頁面解析出符合條件的鏈接目標(biāo)頁面示例：https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=1&encode=utf-8&callback=feedCardJsonpCallback&_=1545017197742試了很多正則的方法，都匹配不出來"urls":"[\"https:\\\/\\\/news.sina.com.cn\\\/o\\\/2018-12-18\\\/doc-ihqhqcir7816653.shtml\"]"這里面的鏈接，正則表達(dá)式測試過沒問題，但是在scrapy 的Rule里就不行

查看完整描述