已采納回答 / Lovins
添加到 url管理器中才能循環(huán)訪問 url,爬取相關(guān)數(shù)據(jù)。如果不添加進去,只會爬取 root_url的數(shù)據(jù)了。
2017-12-22
已采納回答 / xixiyingyi
因為爬的數(shù)目少(才1000條....),理論上全部百科的網(wǎng)頁都可以獲取到,但是全部百科網(wǎng)頁的數(shù)目是你無法想象的。我爬到了各種各樣的百科信息,包括計算機、學校、人命......,你可以把爬的數(shù)量count設(shè)置為1億試試......
2017-10-09
已采納回答 / wzrzt
應(yīng)該只是需要把后面的文字拼上去就好了,沒有 lemmaid的就沒有,可能需要分兩種情況,你試一下。<...圖片...><...圖片...>
2017-09-25
已采納回答 / majorinche
url_manager本身是自建的一個模塊啊,UrlManager()才是類的實例后面的HtmlOutputer是另一個模塊的的實例程序開始有import url_manager這個語句來導(dǎo)入這個模塊的,跟import re一個意思
2017-09-23
已采納回答 / 慕UI7442310
因為class是python里面的關(guān)鍵字“類”,如果這里使用關(guān)鍵字class會被python認為是一個類,從而會產(chǎn)生歧義進而報錯,所以加一個下劃線與class區(qū)分能避免此類錯誤!
2017-09-22