已采納回答 / 墨爾卡娜
當(dāng)?shù)谝粋€頁面被分析之后,會獲取到該頁面上的其他詞條的跳轉(zhuǎn)url,也就是/view/*****.html,然后這些url會被拼裝成完整的url加入到set中,程序循環(huán)一次之后檢查set是否為空,如果不為空就會拿一個新的url去爬取,新的頁面也會有些引用的詞條的,然后就源源不斷的有新的詞條地址添加到set中去了,代碼就是分析模塊中使用正則表達(dá)式的那部分
2016-10-05
最新回答 / 創(chuàng)建香菇
樓上說的對,注釋里面已經(jīng)講清楚了,所以是百科詞條的原因,可以把count限制在50,或者換一個root_url,或者當(dāng)出現(xiàn)nonetype的時候就結(jié)束運(yùn)行。
2016-10-05
已采納回答 / Duiknow
代碼沒有報錯是因?yàn)槟阌凶远x報錯的try ?except ? ?應(yīng)該是哪里你出現(xiàn)了拼寫錯誤或者判斷條件寫錯了 ? 運(yùn)行跟蹤調(diào)試下就可以了 ? 代碼剛剛測試過沒有問題
2016-10-04
已采納回答 / NoBB_
用eclipse的話,可以打開eclipse,然后在help->eclipse Marketplace->搜索 pyDev->install或者不用eclipse,直接下個pyCharm, 感覺也挺好用
2016-10-01