第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

python爬蟲

我想請(qǐng)問一下為什么使用這個(gè)程序有的網(wǎng)頁不會(huì)記錄在內(nèi)?像這個(gè)程序里的選擇條件是/item/*那應(yīng)該是整個(gè)百度百科的python頁面的所有滿足這個(gè)條件的都會(huì)記錄吧?

正在回答

2 回答

因?yàn)榕赖臄?shù)目少(才1000條....),理論上全部百科的網(wǎng)頁都可以獲取到,但是全部百科網(wǎng)頁的數(shù)目是你無法想象的。我爬到了各種各樣的百科信息,包括計(jì)算機(jī)、學(xué)校、人命......,你可以把爬的數(shù)量count設(shè)置為1億試試......

0 回復(fù) 有任何疑惑可以回復(fù)我~
#1

xixiyingyi

人的名稱
2017-10-12 回復(fù) 有任何疑惑可以回復(fù)我~
#2

kissingfire 提問者 回復(fù) xixiyingyi

謝謝~那可不可以理解成當(dāng)爬蟲到一個(gè)頁面時(shí),先搜集這個(gè)頁面上所有符合的url于一個(gè)集合里,然后下一個(gè)打開的是集合中任意可能的一個(gè)url?
2017-10-13 回復(fù) 有任何疑惑可以回復(fù)我~
#3

xixiyingyi 回復(fù) kissingfire 提問者

爬到的頁面后,通過解析,會(huì)得到這個(gè)頁面的 urls 和 其它希望得到的數(shù)據(jù),然后將獲取到的 urls 加入到url管理器的集合里面(課程里面使用的是set()集合,所以我們?nèi)〕鰜淼臅r(shí)候也是隨機(jī)的),以備之后的循環(huán)爬取。數(shù)據(jù)部分就放在數(shù)據(jù)收集器里面。如此循環(huán)下去
2017-10-16 回復(fù) 有任何疑惑可以回復(fù)我~
#4

kissingfire 提問者 回復(fù) xixiyingyi

哦哦,懂了,謝謝~
2017-10-25 回復(fù) 有任何疑惑可以回復(fù)我~
查看1條回復(fù)

那可不可以理解成當(dāng)爬蟲到一個(gè)頁面時(shí),先搜集這個(gè)頁面上所有符合的url于一個(gè)集合里,然后下一個(gè)打開的是集合中任意可能的一個(gè)url?

0 回復(fù) 有任何疑惑可以回復(fù)我~

舉報(bào)

0/150
提交
取消
Python開發(fā)簡(jiǎn)單爬蟲
  • 參與學(xué)習(xí)       227603    人
  • 解答問題       1282    個(gè)

本教程帶您解開python爬蟲這門神奇技術(shù)的面紗

進(jìn)入課程
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)