課程
                    
                        /后端開發(fā)
                        
                            /Python
                        
                        /Python開發(fā)簡單爬蟲

不知道為什么，只爬了一行

不知道為什么，只爬了一行：

craw 1 : https://baike.baidu.com/item/Python

craw failed

請問怎么解決

慕慕7354492

2017-09-04

源自：Python開發(fā)簡單爬蟲 8-1

關注問題我要回答

955

操作

收起

3 回答

阿騰啊阿騰
2018-03-20

將try。。。except。。。刪除，然后查看是哪里出了問題，一步一步來分析解決，不然程序就只有報錯，沒有輸出錯誤信息

0 回復有任何疑惑可以回復我~

收起回答

生活發(fā)言權
2017-10-11

spider_main.py中加入：

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

原因：會驗證SSL 證書，而百度的https直接會失敗。需要unverified處理。

0 回復有任何疑惑可以回復我~

收起回答

慕村4082400
2017-09-04

我也出現(xiàn)了這個問題，剛剛解決掉。

第一，檢查你的代碼，是否全部和文中一樣。

第二，如果一樣，我的問題出在了html_parser中的_get_new_urls方法中，視頻中老師寫的那個正則表達式在現(xiàn)在的網頁中是打不開的，需要寫成符合現(xiàn)在網頁中的超鏈接的href類型的表達式。我改為links=soup.find_all('a', href=re.compile(r"/item/[0-9a-zA-Z\%]+"))之后，正確返回了所有的抓取到的url以及文檔。

不知道你的是什么原因，但你可以試一試，希望能夠幫到你。

0 回復有任何疑惑可以回復我~

收起回答