講得很棒。老師實(shí)例爬蟲--分析目標(biāo)這一頁ppt有個(gè)小錯(cuò)誤。簡(jiǎn)介這邊,div少了一個(gè)斜線,應(yīng)該是<div class = "lemma-summary">***</div>
2016-02-21
最新回答 / stonesray
不好做吧,畢竟就算是指定頁面,當(dāng)頁面更新后還需要更新代碼,通用的爬蟲適配是個(gè)大問題,除非針對(duì)某類網(wǎng)站格式相同的頁面......我感覺是這個(gè)樣的哈~
2016-02-21
最贊回答 / PhoebeChen
參考許多人的問題可以通過把try和except的部分注解掉然后執(zhí)行的時(shí)候會(huì)出現(xiàn)TypeError: unbound method parse() must be called with HtmlParser instance as first argument (got str...錯(cuò)誤里面提到HtmlParser出錯(cuò)原因應(yīng)該是你沒把?HtmlParser 給實(shí)例化檢查調(diào)度程序spider_main.py中的class?SpiderMain里的def __init__(self):發(fā)現(xiàn) self.pars...
2016-02-19
已采納回答 / avalon3515
我使用的是python3,根據(jù)實(shí)際調(diào)試發(fā)現(xiàn)此處不需要用encode('utf-8'),但是fout = open('output.html', 'w', encoding='utf-8')要把encoding參數(shù)加上,因?yàn)樵趙indows下默認(rèn)編碼是gbk,忽略次參數(shù)會(huì)產(chǎn)生錯(cuò)誤。
2016-02-17
已采納回答 / blacksea3
有可能中間這一塊哪里代碼打錯(cuò)了而不是self.urls.has_new_url()==0導(dǎo)致退出循環(huán),python的百科里面是有別的鏈接的,你可以試著把try-except去掉,讓錯(cuò)誤直接顯示出來中間這一塊指的是:<...code...>根據(jù)錯(cuò)誤位置設(shè)置print 相應(yīng)的變量查看錯(cuò)誤原因。
2016-02-16
已采納回答 / 傳說級(jí)小白
就比如我們正常打開網(wǎng)頁的時(shí)候也會(huì)報(bào)錯(cuò),可能和你網(wǎng)速有關(guān),也可以是服務(wù)端處理請(qǐng)求有關(guān)
2016-02-15
爬蟲
url管理器
網(wǎng)頁下載器
網(wǎng)頁解析器(解析:url、有用數(shù)據(jù))
url管理器
網(wǎng)頁下載器
網(wǎng)頁解析器(解析:url、有用數(shù)據(jù))
2016-02-15