-
URL管理器作用
查看全部 -
完美。。。
查看全部 -
URL爬取的數(shù)據(jù)可以儲存在python.set()數(shù)據(jù)格式中
查看全部 -
URL管理器應(yīng)該實現(xiàn)的基本功能:
查看全部 -
爬蟲流程圖
查看全部 -
URL管理器:https://baike.baidu.com/item/url/110640?fr=aladdin
查看全部 -
搜索節(jié)點(find_all,find)
find_all(name,attrs,string)[名稱、屬性、文字]
對于它的名稱,屬性和文字,都可傳入一個正則表達式來匹配
'class'后加了'_'的原因:python的關(guān)鍵字有class,bs為了避免沖突,加了一個'_'
查看全部 -
創(chuàng)建BeautifulSoup對象
查看全部 -
Beautiful Soup語法
根據(jù)下載好的HTML網(wǎng)頁字符串可創(chuàng)建一個BeautifulSoup對象,創(chuàng)建這個對象的同時就會將整個文檔字符串下載成一個DOM樹
根據(jù)這個DOM樹我們就可進行各種節(jié)點的搜索;搜索節(jié)點時,可按照節(jié)點名稱或節(jié)點屬性或節(jié)點文字進行搜索
查看全部 -
創(chuàng)建BeautifulSoup對象
查看全部 -
網(wǎng)頁解析器--結(jié)構(gòu)化解析-DOM
查看全部 -
python的4種網(wǎng)頁解析器
查看全部 -
網(wǎng)頁解析器
查看全部 -
urllib2下載網(wǎng)頁方法3:添加特殊情景的處理器--cookie處理
導(dǎo)入urllib2,cookielib模塊
創(chuàng)建cookie容器,存儲cookie數(shù)據(jù)
創(chuàng)建一個opener:然后使用urllib2的HTTPCookieProcessor,以生成的cookie容器作為參數(shù),生成一個header,將header傳給urllib2的build_opener()方法來生成一個opener對象
urllib2安裝opener:使用urllib2的install_opener增強處理器
使用帶有cookie的urllib2訪問網(wǎng)頁:
查看全部 -
urllib2下載網(wǎng)頁方法3:添加特殊情景的處理器
用戶登錄才能訪問的網(wǎng)頁,需要添加cookie的處理:HTTPCookieProcessor
需要代理才能訪問,需要添加代理的處理:ProxyHandler
網(wǎng)頁協(xié)議加密的,需要添加處理:HTTPSHandler
網(wǎng)頁存在相互跳轉(zhuǎn)關(guān)系,需要添加處理:HTTPRedirectHandler
查看全部
舉報