求大神??!
為什么我的代碼只能爬一條數(shù)據(jù)?求大神指導(dǎo)
while self.urls.has_new_url():
? ? ? ? ? ? try:
? ? ? ? ? ? ? ? new_url = self.urls.get_new_url() ? #獲取到待爬取的url
? ? ? ? ? ? ? ? print ('craw %d : %s' %(count,new_url))
? ? ? ? ? ? ? ? html_cont = self.downloader.download(new_url) ?#啟動(dòng)下載器下載這個(gè)頁(yè)面
? ? ? ? ? ? ? ? new_urls , new_data = self.parser.parse(new_url ,html_cont) ?#解析器獲取新的url和數(shù)據(jù)
? ? ? ? ? ? ? ? self.urls.add_new_urls(new_urls) ?#將新的url補(bǔ)充到新的url管理器
? ? ? ? ? ? ? ? self.outputer.collect_data(new_data) #進(jìn)行數(shù)據(jù)的收集
? ? ? ? ? ? ? ? count = count + 1
? ? ? ? ? ? ? ? if(count == 100):
? ? ? ? ? ? ? ? ? ? break
? ? ? ? ? ??
? ? ? ?
? ? ? ? ? ? ? ? # ? print(count)
? ? ? ? ? ? except: ? ? ? ? ? ? #異常處理
? ? ? ? ? ? ? ? print ('craw failed~')
?我在測(cè)試has_new_url()循環(huán)第二次的時(shí)候has_new_url的值為0 不知道為什么
2018-06-21
解析錯(cuò)誤吧,re.compile(r'/item/')