python爬蟲
我想請(qǐng)問一下為什么使用這個(gè)程序有的網(wǎng)頁不會(huì)記錄在內(nèi)?像這個(gè)程序里的選擇條件是/item/*那應(yīng)該是整個(gè)百度百科的python頁面的所有滿足這個(gè)條件的都會(huì)記錄吧?
我想請(qǐng)問一下為什么使用這個(gè)程序有的網(wǎng)頁不會(huì)記錄在內(nèi)?像這個(gè)程序里的選擇條件是/item/*那應(yīng)該是整個(gè)百度百科的python頁面的所有滿足這個(gè)條件的都會(huì)記錄吧?
2017-10-09
舉報(bào)
2017-10-12
因?yàn)榕赖臄?shù)目少(才1000條....),理論上全部百科的網(wǎng)頁都可以獲取到,但是全部百科網(wǎng)頁的數(shù)目是你無法想象的。我爬到了各種各樣的百科信息,包括計(jì)算機(jī)、學(xué)校、人命......,你可以把爬的數(shù)量count設(shè)置為1億試試......
2017-10-13
那可不可以理解成當(dāng)爬蟲到一個(gè)頁面時(shí),先搜集這個(gè)頁面上所有符合的url于一個(gè)集合里,然后下一個(gè)打開的是集合中任意可能的一個(gè)url?