課程
                    
                        /后端開發(fā)
                        
                            /Python
                        
                        /Python開發(fā)簡單爬蟲

python 3.5 解析器代碼問題

name 'new_urls' is not defined

這個怎么解決

00:05

厲害咯

2016-12-01

源自：Python開發(fā)簡單爬蟲 7-5

關(guān)注問題我要回答

2501

操作

收起

12 回答

厲害咯提問者
2016-12-01

#解析器

from?bs4?import?BeautifulSoup
import?re
import?urllib.parse

class?HtmlParser(object):

????def?_get_new_urls(self,?page_url,?soup):
????????#/view/123.htm
????????new_urls?=?set()
????????links?=?soup.find_all('a',?href?=?re.compile(r"/view/\d+\.htm"))
????????for?link?in?links:
????????????new_url?=?link['href']
????????????new_full_url?=?urllib.parse.urljoin(page_url,new_url)
????????????new_urls.add(new_full_url)
????????????#print(new_urls)
????????????return?new_urls

????def?_get_new_data(self,?page_url,?soup):
????????res_data?=?{}

????????#?url
????????res_data['url']?=?page_url

????????#?<>
????????title_node?=?soup.find('dd',?class_?=?"lemmaWgt-lemmaTitle-title").find("h1")
????????res_data['title']?=?title_node.get_text()

????????#<>
????????summary_node?=?soup.find('div',class_?=?"lemma-summary")
????????res_data['summary']?=?summary_node.get_text()

????????return?res_data

????def?parse(self,?page_url,?html_cont):
????????if?page_url?is?None?or?html_cont?is?None:
????????????return

????????soup?=?BeautifulSoup(html_cont,?'html.parser',?from_encoding='utf-8')
????????new_urls?=?self._get_new_urls(page_url,?soup)
????????new_data?=?self._get_new_data(page_url,?soup)
????????return?new_urls,?new_data

這個代碼哪兒出錯了，我沒找到