-
3.特殊情景的處理器
有的網(wǎng)站需要登陸 代理 url相互跳轉(zhuǎn)等
查看全部 -
2.第二個用urllib2下載網(wǎng)頁的方法,傳入一些信息
python3.x需要這樣寫
# encoding:UTF-8
import urllib.request
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).getcode()
print(data)查看全部 -
1.最簡潔方法
直接請求,獲取狀態(tài)碼200,讀取內(nèi)容
查看全部 -
URL補(bǔ)全為分析URL的一種
查看全部 -
URL管理器實(shí)現(xiàn)方式,內(nèi)存? 關(guān)系數(shù)據(jù)庫? 緩存數(shù)據(jù)庫
查看全部 -
URL管理器:管理待抓取和已抓取URL集合,防止重復(fù),循環(huán)抓取
查看全部 -
爬蟲的架構(gòu)
查看全部 -
URL管理器實(shí)現(xiàn)方式
查看全部 -
網(wǎng)頁解析器DOM
查看全部 -
beautifulsoup 爬取數(shù)據(jù)
可以使用正則模糊匹配
如圖示例
soup.find('a', href=re.compile(r"ill"))
注:
r"ill" 基礎(chǔ)語法,R/r可以真實(shí)輸出,不會將字符串進(jìn)行轉(zhuǎn)義
查看全部 -
訪問節(jié)點(diǎn)信息
node.name 獲取查找到的節(jié)點(diǎn)標(biāo)簽名稱
node['href']獲取查找到的a節(jié)點(diǎn)href屬性
node.get_text()獲取查找到的a節(jié)點(diǎn)的鏈接文字
查看全部 -
find_all(標(biāo)簽,屬性,字符)
其中class屬性為避免與python系統(tǒng)函數(shù)沖突,應(yīng)寫為class_
查看全部 -
實(shí)例化beautifulsoup,
并賦值指定html屬性
查看全部 -
HTTPCookieProcessor
ProxyHandler
HTTPSHandler
HTTPRedirectHandler
使用以上方法可以模擬登陸/herder頭等參數(shù)
查看全部 -
urllib2 據(jù)其它筆記描述,它是python2的官方模塊
requests 待補(bǔ)充
----------------
from?urllib?import?request
不知道是不是requests,待驗(yàn)證
查看全部
舉報