最新回答 / UFO2015
# 初始化 class```pyclass UrlManage(object):? def __init__(self):? ? self.new_urls = set();? ? self.old_urls = set();? def add_new_url(self, url):? ? # todo```
2016-09-13
已采納回答 / sin丶
下載代碼后發(fā)現(xiàn)問題還是挺多的,除了那個outputer,在html_parser下data寫成date,title也打錯了,參數(shù)page_url也沒設(shè)置。html_outputer里,方法output_html沒有寫進(jìn)去標(biāo)題。慢慢改吧。
2016-09-13
最新回答 / 慕粉3182733
python3里面沒有urllib2,只有urllib,跟2的用法不一樣。我同時安裝了python2和3,在解釋2編寫的代碼的時候用2的解釋器,解釋3編寫的代碼的時候用3的解釋器。開發(fā)環(huán)境是pycharm,可以更改settings里面的interpreter。如果是命令行的話可以用py -2或者py -3運(yùn)行程序。如果環(huán)境變量2在前可以省略py -2,3同樣。
2016-09-08
最新回答 / 否則悲傷從何而來
那你唯一需要修改的就是“然后又隨機(jī)選一個鏈接接著爬”,這邊的規(guī)則應(yīng)該是你自己想的算法吧建議你寫一個方法,把和當(dāng)前url的關(guān)鍵詞按照某種規(guī)律,把當(dāng)前頁面的所有url“過濾”成自己需要的有“相關(guān)性”URL,就在UrlManger里面的get_new_url下,比如self.new_urls.getMyRulUrl(self.new_urls)
2016-09-07