-
HTTPCookieProcessor 需要登錄
ProxyHandler? 需要代理
HTTPSHandler? 網(wǎng)站是使用https加密訪問的
HTTPRedirectHandler 網(wǎng)站的url是相互的跳轉(zhuǎn)關(guān)系
查看全部 -
urllib2下載網(wǎng)頁方法:添加data http header
將爬蟲偽裝成瀏覽器
查看全部 -
創(chuàng)建beautifulsoup
查看全部 -
urllib2下載網(wǎng)頁方法--1(最簡(jiǎn)介方法) import urllib2 response = urllib2.urlopen('http://wwww.baidu.com') #若狀態(tài)碼為200,則表示成功 print response.getcode() #讀取下載的內(nèi)容 cont = response.read() 2.共享處理 添加data(需要用戶輸入的參數(shù))、http header(向服務(wù)器提交http信息) 將url、data、header傳送給urllib2.Request生成request對(duì)象,后繼續(xù)使用urllib2.urlopen(request) import urllib2 #導(dǎo)入模塊 request = urllib2.request(url)#創(chuàng)建Request對(duì)象 request.add_data(‘a(chǎn)’,‘1’)#提交數(shù)據(jù)/如a這個(gè)數(shù)據(jù)項(xiàng)等于1 request.add_header(‘User-Agent’,‘Mozilla/5.0’)#添加http的header/將爬蟲 ? ? ? ? ? ? ?偽裝成Mozilla瀏覽器 response = urllib2.urlopen(request)#發(fā)送請(qǐng)求獲取結(jié)果 3.添加特殊情景的處理器: 需要用戶登錄的需要cookie處理:HTTPCookieProcessor 代理訪問:ProxyHandler HTTPS加密訪問:HTTPSHandler URL相互自動(dòng)跳轉(zhuǎn):HTTPRedirectHandler 將這些handler傳遞給urllib2的build_opener的方法來創(chuàng)建一個(gè)opener對(duì)象: opener = urllib2.build_opener(handler) 然后給urllib2 install_opener這個(gè)opener: urllib2.install_opener(opener) 后urllib2.urlopen(url) 或urllib2.urlopen(request)
查看全部 -
urllib2下載網(wǎng)頁方法3
查看全部 -
urllib2下載網(wǎng)頁方法2
查看全部 -
urllib2下載網(wǎng)頁方法1
查看全部 -
urllib2下載網(wǎng)頁方法3的具體代碼
查看全部 -
urllib2下載網(wǎng)頁方法3
查看全部 -
urllib2下載網(wǎng)頁方法2的具體代碼
提交變量a,他的值是1
偽裝成Mozilla/5.0瀏覽器
查看全部 -
添加header可以向服務(wù)器提交http頭信息
添加一個(gè)data可以提交用戶需要輸入的信息?
查看全部 -
urllib2下載網(wǎng)頁的具體代碼
查看全部 -
urllib2下載網(wǎng)頁最簡(jiǎn)潔方法
查看全部 -
python的set()可以自動(dòng)去除掉集合中重復(fù)的部分
查看全部 -
簡(jiǎn)單爬蟲架構(gòu)
查看全部
舉報(bào)