寫文章

首頁手記 looter——超輕量級爬蟲框架

looter——超輕量級爬蟲框架

標(biāo)簽：

Python

如今，网上的爬虫教程可谓是泛滥成灾了，从urllib开始讲，最后才讲到requests和selenium这类高级库，实际上，根本就不必这么费心地去了解这么多无谓的东西的。只需记住爬虫总共就三大步骤：发起请求——解析数据——存储数据，这样就足以写出最基本的爬虫了。诸如像Scrapy这样的框架，可以说是集成了爬虫的一切，但是新人可能会用的不怎么顺手，看教程可能还会踩各种各样的坑，而且Scrapy本身体积也有点大。因此，本人决定亲手写一个轻量级的爬虫框架————

如果想要看更多的爬虫例子，猛戳这里（里面有惊喜哦）

工作流

如果你想迅速撸出一个爬虫，那么你可以用looter提供的模板来自动生成一个

$ looter genspider <name> <tmpl> [--async]

在这行代码中，tmpl是模板，分为data和image两种模板。

async是一个备用的选项，它使得生成的爬虫核心用asyncio而非线程池。

在生成的模板中，你可以自定义domain和tasklist这两个变量。

什么是tasklist？实际上它就是你想要抓取的页面的所有链接。

以

然后你就要定制你的crawl函数，这是爬虫的核心部分。

def crawl(url):
    tree = lt.fetch(url)
    items = tree.cssselect('ul li')    for item in items:
        data = dict()        # data[...] = item.cssselect(...)
        pprint(data)

在大多数情况下，你所要抓取的内容是一个列表（也就是HTML中的ul或ol标签），可以用css选择器将它们保存为items变量。

然后，你只需使用for循环来迭代它们，并抽取你想要的数据，将它们存储到dict中。

但是，在你写完这个爬虫之前，最好用looter提供的shell来调试一下你的cssselect代码是否正确。（目前已集成

调试完成后，你的爬虫自然也就完成了。怎么样，是不是很简单:)

函数

looter为用户提供了很多实用的函数。

view

在爬取页面前，你最好确认一下页面的渲染是否是你想要的

>>> view(url)

save_imgs

当你获取了一堆图片链接时，用它可以直接将它们保存到本地

>>> img_urls = [...]>>> save_imgs(img_urls)

alexa_rank

>>> alexa_rank(url)

links

获取网页的所有链接

>>> links(res)                  # 获取所有链接>>> links(res, absolute=True)   # 获取绝对链接>>> links(res, search='text')   # 查找指定链接

同样地，你也可以用正则表达式来获取匹配的链接

>>> re_links(res, r'regex_pattern')

save_as_json

将所得结果保存为json文件，支持按键值排序

>>> total = [...]>>> save_as_json(total, name='text', sort_by='key')

parse_robots

用于爬取网站robots.txt上的所有链接。这个在做全站爬虫或者递归式url爬虫时颇为有效

>>> parse_robots(url)

login

有一些网站必须要先登录才能爬取，于是就有了login函数，本质其实就是建立session会话向服务器发送带有data的POST请求。考验各位抓包的能力，以下为模拟登录网易126邮箱（要求参数：postdata和param）

>>> params = {'df': 'mail126_letter', 'from': 'web', 'funcid': 'loginone', 'iframe': '1', 'language': '-1', 'passtype': '1', 'product': 'mail126', 'verifycookie': '-1', 'net': 'failed', 'style': '-1', 'race': '-2_-2_-2_db', 'uid': 'webscraping123@126.com', 'hid': '10010102'}>>> postdata = {'username': 你的用户名, 'savelogin': '1', 'url2': 'http://mail.126.com/errorpage/error126.htm', 'password': 你的密码}>>> url = "https://mail.126.com/entry/cgi/ntesdoor?">>> res, ses = login(url, postdata, params=params) # res为post请求后的页面，ses为请求会话>>> index_url = re.findall(r'href = "(.*?)"', res.text)[0] # 在res中获取重定向主页的链接>>> index = ses.get(index_url) # 用ses会话访问重定向链接，想确认成功的话print下即可

防反爬虫技巧

延迟爬取：time.sleep(n)
代理IP池：scylla
动态JS网页：requestium或抓包
模拟登陆：fuck-login
验证码：Tesseract、OpenCV、Keras、打码平台

api搭建

有时候，仅仅爬取数据存到数据库里是不够的。如果想把数据开放出去，就需要搭建api。一旦建成，你就可以以网页、app甚至是微信小程序的形式来向他人展现和使用你的数据了。

利用一个叫eve的框架，我们就能迅速搭建出我们的api

$ pip install eve

假设你已经利用爬虫爬取到了jav的数据并存入了MongoDB数据库中，那么搭建api就只需创建2个文件：一个是api的站点文件（本质上是一个flask的app实例），另一个是api的配置文件。

jav_api.py

from eve import Eve

app = Eve(settings='jav_settings.py')if __name__ == '__main__':
    app.run()

jav_settings.py

# validation rules: http://docs.python-cerberus.org/en/stable/validation-rules.htmljav = {    'datasource': {        'source': 'torrents',        'default_sort': [('date', -1)]
    }
}
ALLOW_UNKNOWN = TrueDOMAIN = {'jav': jav}
MONGO_DBNAME = 'jav'MONGO_QUERY_BLACKLIST = ['$where']
RENDERERS = ['eve.render.JSONRenderer']

http://127.0.0.1:5000/jav?where={"name":{"$regex":"波多"}}

作者：Python小哥哥
链接：https://www.jianshu.com/p/cc1d39dab531

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺得本文不錯(cuò)，就分享一下吧！

評論

評論

共同學(xué)習(xí)，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優(yōu)質(zhì)文章

正在加載中

青春有我

JAVA開發(fā)工程師

手記
篇

粉絲

205

獲贊與收藏

1011

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

Python 辦公自動(dòng)化教程

17個(gè)小節(jié) 27002 912

Python 算法入門教程

15個(gè)小節(jié) 29453 1133

Python 進(jìn)階應(yīng)用教程

38個(gè)小節(jié) 71074 1109

推薦

評論

收藏

共同學(xué)習(xí)，寫下你的評論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會(huì)直接到老師賬戶

支付方式

打開微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶專享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購買實(shí)戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學(xué)習(xí)，選課去


熱搜

最近搜索清空

looter——超輕量級爬蟲框架

工作流

api搭建

閱讀免費(fèi)教程