課程
/后端開發(fā)
/Python
/Python開發(fā)簡單爬蟲
我想知道那些詞條是以什么方式搜索出來的?對應(yīng)的代碼是在哪部分?
2016-10-05
源自:Python開發(fā)簡單爬蟲 1-1
正在回答
當?shù)谝粋€頁面被分析之后,會獲取到該頁面上的其他詞條的跳轉(zhuǎn)url,也就是/view/*****.html,然后這些url會被拼裝成完整的url加入到set中,程序循環(huán)一次之后檢查set是否為空,如果不為空就會拿一個新的url去爬取,新的頁面也會有些引用的詞條的,然后就源源不斷的有新的詞條地址添加到set中去了,代碼就是分析模塊中使用正則表達式的那部分
WIM0912 提問者
舉報
本教程帶您解開python爬蟲這門神奇技術(shù)的面紗
Copyright ? 2025 imooc.com All Rights Reserved | 京ICP備12003892號-11 京公網(wǎng)安備11010802030151號
購課補貼聯(lián)系客服咨詢優(yōu)惠詳情
慕課網(wǎng)APP您的移動學(xué)習(xí)伙伴
掃描二維碼關(guān)注慕課網(wǎng)微信公眾號
2016-10-05
當?shù)谝粋€頁面被分析之后,會獲取到該頁面上的其他詞條的跳轉(zhuǎn)url,也就是/view/*****.html,然后這些url會被拼裝成完整的url加入到set中,程序循環(huán)一次之后檢查set是否為空,如果不為空就會拿一個新的url去爬取,新的頁面也會有些引用的詞條的,然后就源源不斷的有新的詞條地址添加到set中去了,代碼就是分析模塊中使用正則表達式的那部分