第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

章節(jié)
問答
課簽
筆記
評論
占位
占位

HTTP響應的內(nèi)容

通過urllib或者requests請求后,會得到一個HTTPResponse,HTTPResponse擁有狀態(tài)碼、回應頭等的信息。
但我們知道,對于一個頁面,通常是由文字、圖片等信息組成的,這些屬于一個HTTPResponse的內(nèi)容。

import requests

response = requests.get('http://idcbgp.cn')
content = str(response.content, encoding='utf-8') # ==> 打印具體內(nèi)容

打印的結果是一個很長的字符串,顯得雜亂無章,但其實它是由結構的,它是一個標準的HTML頁面,可以從頁面內(nèi)容里面獲取很多有用的數(shù)據(jù)。
網(wǎng)絡爬蟲是典型的應用程序,它的工作原理就是通過不斷的請求互聯(lián)網(wǎng)的頁面,并從回應中解析獲取出有用的數(shù)據(jù);數(shù)據(jù)積累后,可以有很多用處。
通過requests獲得網(wǎng)頁的內(nèi)容后,我們可以嘗試使用一些簡單的方法獲取頁面的內(nèi)容。

content_list = content.split('\n') # 分行
len(content_list) # 打印頁面內(nèi)容的行數(shù)

在網(wǎng)頁中,頁面內(nèi)部鏈接其他資源的信息是通過href提供的,通過字符串匹配的方式可以過濾出包含鏈接的行。

for line in content_list:
    if 'href' in line:
        print(line.strip())

過濾出來的信息或許有些雜亂,但也包含了一些有用的數(shù)據(jù),我們可以從過濾后的信息中找到鏈接相關的信息。不過我們過濾的方式比較簡單,通過優(yōu)化過濾的方式可以匹配到更加精準的數(shù)據(jù)。而爬蟲正是這樣工作的。

任務

請從頁面返回的內(nèi)容中,過濾出鏈接含有www的內(nèi)容。

?不會了怎么辦

1. 請在本地編寫代碼練習

2. pip install requests安裝requests庫

參考答案:

response = requests.get('http://idcbgp.cn')
content = str(response.content, encoding='utf-8') # ==> 打印具體內(nèi)容
content_list = content.split('\n') # 分行
for line in content_list:
    if 'href' in line and 'www' in line:
        print(line.strip())
||

提問題

寫筆記

公開筆記
提交
||

請驗證,完成請求

由于請求次數(shù)過多,請先驗證,完成再次請求

加群二維碼

打開微信掃碼自動綁定

您還未綁定服務號

綁定后可得到

  • · 粉絲專屬優(yōu)惠福利
  • · 大咖直播交流干貨
  • · 課程更新,問題答復提醒
  • · 賬號支付安全提醒

收藏課程后,能更快找到我哦~

使用 Ctrl+D 可將課程添加到書簽

邀請您關注公眾號
關注后,及時獲悉本課程動態(tài)

舉報

0/150
提交
取消
全部 精華 我要發(fā)布
全部 我要發(fā)布
最熱 最新
只看我的

手記推薦

更多

本次提問將花費2個積分

你的積分不足,無法發(fā)表

為什么扣積分?

本次提問將花費2個積分

繼續(xù)發(fā)表請點擊 "確定"

為什么扣積分?