-
import urllib2 class HtmlDownloader(object): #下載網(wǎng)頁(yè)內(nèi)容 def download(self,url): if url is None: return None response=urllib2.urlopen(url) if response.getcode()!=200:#判斷是否請(qǐng)求成功 return None return response.read()查看全部
-
class UrlManager(object): def __init__(self):#初始化 self.new_urls=set() self.old_urls=set() #向URL管理器中添加一個(gè)新的URL def add_new_url(self,url): if url is None: return if url not in self.new_urls and url not in self.old_urls : self.new_urls.add(url) #向URL管理器中批量添加新的URL def add_new_urls(self,urls): if urls is None or len(urls)==0: return for url in urls: self.add_new_url(url)#調(diào)用單條添加方法 #判斷URL管理器中是否有新的待爬取的URL def has_new_url(self): return len(self.new_urls)!=0 #從URL管理器中獲取一個(gè)新的帶爬取的URL def get_new_url(self): new_url=self.new_urls.pop()#返回一個(gè)URL并從中移除這條URL self.old_urls.add(new_url)#添加到 self.old_urls中 return new_url查看全部
-
調(diào)度器是做流程控制,可用狀態(tài)機(jī)實(shí)現(xiàn)。查看全部
-
url管理器管理url是否已經(jīng)爬過(guò); 網(wǎng)頁(yè)下載器緩存網(wǎng)頁(yè)全部?jī)?nèi)容; 網(wǎng)頁(yè)分析器獲取有效信息存儲(chǔ),并獲取新的可用URL反饋給url管理器。查看全部
-
Craw查看全部
-
beautifulSoup 訪問(wèn)節(jié)點(diǎn)信息查看全部
-
beautifulSoup 搜索節(jié)點(diǎn)查看全部
-
創(chuàng)建Beautiful Soup對(duì)象查看全部
-
beautiful Soup 語(yǔ)法2查看全部
-
beautiful Soup 語(yǔ)法查看全部
-
beautiful Soup 下載地址查看全部
-
結(jié)構(gòu)化解析查看全部
-
網(wǎng)頁(yè)解析器查看全部
-
urllib2 下載網(wǎng)頁(yè)方法1查看全部
-
URL管理器查看全部
舉報(bào)
0/150
提交
取消