Scrapy入門案例——爬取豆瓣電影

標簽：

Python

请谨记如下三条命令：

scrapy startproject xxx    创建scrapy项目
scrapy genspider xxx "xxx.com"  创建爬虫spider，名字不能和项目名一样
scrapy crawl xxx  运行某个爬虫项目

首先scrapy startproject douban 建立项目，其次切换到spiders目录下，scrapy genspider douban_movie 建立爬虫。

我们要爬取的数据很简单，是豆瓣电影排行榜。之所以说它简单是因为它请求返回的数据我们可以转换成规整的json列表，并且获取分页链接也很简单。

我们只获得title和url的信息。明确了请求目标后，我们开始编写items

import scrapyclass DoubanItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()

其次编辑spiders下的爬虫文件

# -*- coding: utf-8 -*-import scrapyfrom douban.items import DoubanItemimport jsonclass DoubanMovieSpider(scrapy.Spider):
    name = 'douban_movie'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20']
    offset = 0
    def parse(self, response):
        item = DoubanItem()
        content_list = json.loads(response.body.decode())        if (content_list == []):            return
        for content in content_list:
            item['title'] = content['title']
            item['url'] = content['url']            yield item
        self.offset += 20
        url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start='+str(self.offset) + '&limit=20'
        yield scrapy.Request(url=url,callback=self.parse)

response.body 获得数据是<class 'bytes'>型，我们需要转换为str型，response.body.decode()。然后通过json.loads()将字符串装换成json 列表，列表里的元素其实就是dict型。

然后保存数据，编辑pipelines.py

import jsonclass DoubanPipeline(object):
    def open_spider(self,spider):        self.file = open("douban.json","w")        self.num = 0
    def process_item(self, item, spider):        self.num+=1
        content = json.dumps(dict(item),ensure_ascii=False)+'\n'
        self.file.write(content)        return item    def close_spider(self,spider):
        print('一共保存了'+str(self.num)+'条数据')        self.file.close()

在运行前需要设置settings.py

#打开这两个注释：USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.15 Safari/537.36'  #模拟浏览器ITEM_PIPELINES = {   'douban.pipelines.DoubanPipeline': 300,
}   #编辑好管道要记得注册管道#ROBOTSTXT_OBEY = True  注释掉robot协议，不然会报错

作者：韵呀
链接：https://www.jianshu.com/p/ac9547e332da

點擊查看更多內(nèi)容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優(yōu)質(zhì)文章

正在加載中

慕神8447489

手記
篇

粉絲

174

獲贊與收藏

959

關(guān)注作者，訂閱最新文章

閱讀免費教程

Python 辦公自動化教程

17個小節(jié) 26691 902

Python 算法入門教程

15個小節(jié) 29028 1118

Python 進階應(yīng)用教程

38個小節(jié) 69707 1091

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優(yōu)惠券免費領(lǐng)

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優(yōu)惠券可用于購買實戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Scrapy入門案例——爬取豆瓣電影

请谨记如下三条命令：

閱讀免費教程