課程
                    
                        /后端開發(fā)
                        
                            /Python
                        
                        /Python開發(fā)簡(jiǎn)單爬蟲

python爬蟲

我想請(qǐng)問一下為什么使用這個(gè)程序有的網(wǎng)頁不會(huì)記錄在內(nèi)?像這個(gè)程序里的選擇條件是/item/*那應(yīng)該是整個(gè)百度百科的python頁面的所有滿足這個(gè)條件的都會(huì)記錄吧？

kissingfire

2017-10-09

源自：Python開發(fā)簡(jiǎn)單爬蟲 7-1

關(guān)注問題我要回答

1461

操作

收起

2 回答

xixiyingyi 回答被采納 +2 積分
2017-10-12

因?yàn)榕赖臄?shù)目少（才1000條....），理論上全部百科的網(wǎng)頁都可以獲取到，但是全部百科網(wǎng)頁的數(shù)目是你無法想象的。我爬到了各種各樣的百科信息，包括計(jì)算機(jī)、學(xué)校、人命......，你可以把爬的數(shù)量count設(shè)置為1億試試......

0 回復(fù) 有任何疑惑可以回復(fù)我~

收起回答

#1

xixiyingyi

人的名稱

2017-10-12 回復(fù) 有任何疑惑可以回復(fù)我~

#2

kissingfire 提問者回復(fù) xixiyingyi

謝謝~那可不可以理解成當(dāng)爬蟲到一個(gè)頁面時(shí)，先搜集這個(gè)頁面上所有符合的url于一個(gè)集合里，然后下一個(gè)打開的是集合中任意可能的一個(gè)url？

2017-10-13 回復(fù) 有任何疑惑可以回復(fù)我~

#3

xixiyingyi 回復(fù) kissingfire 提問者

爬到的頁面后，通過解析，會(huì)得到這個(gè)頁面的 urls 和其它希望得到的數(shù)據(jù)，然后將獲取到的 urls 加入到url管理器的集合里面（課程里面使用的是set（）集合，所以我們?nèi)〕鰜淼臅r(shí)候也是隨機(jī)的），以備之后的循環(huán)爬取。數(shù)據(jù)部分就放在數(shù)據(jù)收集器里面。如此循環(huán)下去

2017-10-16 回復(fù) 有任何疑惑可以回復(fù)我~