第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

一篇文章教會(huì)你利用Python網(wǎng)絡(luò)爬蟲(chóng)獲取Mikan動(dòng)漫資源

【一、项目背景】

[蜜柑计划 - Mikan Project] :新一代的动漫下载站。是一个专门为喜欢动漫的小伙伴们打造的动漫视频在线播放网站,为大家第一时间分享最新动漫资源,每日精选最优质的动漫推荐。

【二、项目目标】

实现获取动漫种子链接,并下载保存在文档。

【三、涉及的库和网站】

1、网址如下:

https://mikanani.me/Home/Classic/{}

2、涉及的库:**reques****ts、****lxml、**fake_useragent

3、软件**:PyCharm**

【四、项目分析】

首先需要解决如何对下一页的网址进行请求的问题。可以点击下一页的按钮,观察到网站的变化分别如下所示:

https://mikanani.me/Home/Classic/1

https://mikanani.me/Home/Classic/2

https://mikanani.me/Home/Classic/3

点击下一页时,每增加一页Classic/()自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。

【五、反爬措施】

1、获取正常的 http请求头,并在requests请求时设置这些常规的http请求头。

2、使用 fake_useragent ,产生随机的UserAgent进行访问。

【六、项目实施】

1、我们定义一个class类继承object,然后定义init方法继承self,再定义一个主函数main继承self。导入需要的库和网址。

import requests
from lxml import etree
from fake_useragent import UserAgent

class  Mikan(object):
    def __init__(self):
      self.url = "https://mikanani.me/Home/Classic/{}"

    def main(self):
        pass

if __name__ == '__main__':
    Siper = Mikan()
    Siper.main()

2、主方法(main):for循环实现多个网页请求。

stat = int(input("start :"))
end = int(input(" end:"))
for page in range(stat, end + 1):
    url = self.url.format(page)
    print(url)

3、 随机产生UserAgent。

for i in range(1, 50):
            self.headers = {
                'User-Agent': ua.random,
            }

4、发送请求 获取响应, 页面回调,方便下次请求。

def get_page(self, url):
    res = requests.get(url=url, headers=self.headers)
    html = res.content.decode("utf-8")
    return html

5、xpath解析一级页面数据,for循环遍历补全网址,获取二级页面网址。

parse_html = etree.HTML(html)
one = parse_html.xpath('//tbody//tr//td[3]/a/@href')
for li in one:
    yr = "https://mikanani.me" + li

6、二级页面请求 ,先找到页面父节点,for循环遍历,再用path获取到种子的下载地址。补全种子链接地址。

tow = parse_html2.xpath('//body')
for i in tow:
    four = i.xpath('.//p[@class="episode-title"]//text()')[0].strip()
    fif = i.xpath('.//div[@class="leftbar-nav"]/a[1]/@href')[0].strip()
    # print(four)
    t = "https://mikanani.me" + fif
    print(t)

7、保存在word文档 。

 dirname = "./种子/" + four[:15] + four[-20:] + '.torrent'
  # print(dirname)
  html3 = requests.get(url=t, headers=self.headers).content
  with open(dirname, 'wb') as f:
      f.write(html3)
      print("\n%s下载成功" % four)

8、调用方法,实现功能。

 html = self.get_page(url)
 self.parse_page(html)

【七、效果展示】

1、运行程序,在控制台输入起始页,终止页,如下图所示。

2、将下载成功的图片信息显示在控制台,如下图所示。

3、保存.torrent文档。

4、如何打开种子文件?先上传到百度云盘,如下图所示。

5、双击解析下载,如下图所示。

【八、总结】

1、不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。

2、本文章就python爬取Mikan Project,在下载种子的难点和重点,以及如何防止反爬,做出了相对于的解决方案。

3、介绍了如何去拼接字符串,以及列表如何进行类型的转换。

4、欢迎大家积极尝试,有时候看到别人实现起来很简单,但是到自己动手实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。

5、Mikan Project还提供了星期的专栏。每一天都可以看到好看的动漫。专门为喜欢动漫的小伙伴们打造的动漫视频。

點(diǎn)擊查看更多內(nèi)容
1人點(diǎn)贊

若覺(jué)得本文不錯(cuò),就分享一下吧!

評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說(shuō)多少就多少
贊賞金額會(huì)直接到老師賬戶(hù)
支付方式
打開(kāi)微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專(zhuān)欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

舉報(bào)

0/150
提交
取消