第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時(shí)綁定郵箱和手機(jī)立即綁定

只抓取一行 第二行就輸出failed 跪求解決方法

spider_main代碼

#?-*-?coding:?utf-8?-*-
import?url_manager,html_downloader,html_parser,html_outputer
class?SpiderMain(object):
????def?__init__(self):
????????self.urls?=?url_manager.UrlManager()
????????self.downloader?=?html_downloader.HtmlDownloader()
????????self.parser?=?html_parser.HtmlParser()
????????self.outputer=html_outputer.HtmlOutputer()


????def?craw(self,root_url):
????????count?=?1;
????????self.urls.add_new_url(root_url)
????????while?self.urls.has_new_url():
????????????try:
????????????????new_url?=?self.urls.get_new_url()
????????????????print?'craw?%d?:?%s'%(count,?new_url)
????????????????html_cont?=?self.downloader.download(new_url)
????????????????new_urls,new_data?=?self.parser.parse(new_url,html_cont)
????????????????self.urls.add_new_urls(new_urls)
????????????????self.outputer.collect_data(new_data)

????????????????if?count?==?1000:
????????????????????break
????????????????count?=?count?+?1
????????????except:
????????????????print?'craw?failed'
????????self.outputer.output_html()


if?__name__=='__main__':
????root_url?=?"http://baike.baidu.com/view/21087.html"
????obj_spider?=?SpiderMain()
????obj_spider.craw(root_url)

https://img1.sycdn.imooc.com//5b3c2fd90001b0bc05250163.jpg

正在回答

2 回答

我的也是這個(gè)問題response =request.urlopen(url)爬取到的只有頭標(biāo)簽的內(nèi)容還不完整。。

0 回復(fù) 有任何疑惑可以回復(fù)我~

這個(gè)路徑訪問失敗吧?我看現(xiàn)在百科路徑不是這個(gè)了,所以沒有新的待爬取路徑產(chǎn)生。。你改成現(xiàn)在的試試,包括爬取目標(biāo)的格式也變了

0 回復(fù) 有任何疑惑可以回復(fù)我~

舉報(bào)

0/150
提交
取消
Python開發(fā)簡單爬蟲
  • 參與學(xué)習(xí)       227603    人
  • 解答問題       1284    個(gè)

本教程帶您解開python爬蟲這門神奇技術(shù)的面紗

進(jìn)入課程

只抓取一行 第二行就輸出failed 跪求解決方法

我要回答 關(guān)注問題
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號