課程
                    
                        /后端開發(fā)
                        
                            /Python
                        
                        /Python開發(fā)簡單爬蟲

我想知道那些詞條是以什么方式搜索出來的？

我想知道那些詞條是以什么方式搜索出來的？對應(yīng)的代碼是在哪部分？

WIM0912

2016-10-05

源自：Python開發(fā)簡單爬蟲 1-1

關(guān)注問題我要回答

687

操作

收起

1 回答

墨爾卡娜回答被采納 +3 積分
2016-10-05

當?shù)谝粋€頁面被分析之后，會獲取到該頁面上的其他詞條的跳轉(zhuǎn)url，也就是/view/*****.html,然后這些url會被拼裝成完整的url加入到set中，程序循環(huán)一次之后檢查set是否為空，如果不為空就會拿一個新的url去爬取，新的頁面也會有些引用的詞條的，然后就源源不斷的有新的詞條地址添加到set中去了，代碼就是分析模塊中使用正則表達式的那部分