課程
                    
                        /后端開發(fā)
                        
                            /Python
                        
                        /Python開發(fā)簡單爬蟲

title_node=soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1")有什么錯

??????? title_node=soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1")
??????? res_data['title']=title_node.get_text()

qq_袮D影孑_03909390

2018-07-23

源自：Python開發(fā)簡單爬蟲 7-7

關注問題我要回答

1873

操作

收起

3 回答

本本小生
2020-07-12

修改成：title_node?=?soup.find('dl',?class_='lemmaWgt-lemmaTitle?lemmaWgt-lemmaTitle-').find('h1')
因為百度百科有些頁面里沒有?（'dd',class='lemmaWgt-lemmaTitle-title'）這個元素。
但是一定會有('dl',?class_='lemmaWgt-lemmaTitle?lemmaWgt-lemmaTitle-')。
我也是測試半天才發(fā)現(xiàn)這個原因的，希望能幫到你。

0 回復有任何疑惑可以回復我~

收起回答

qq__abdjrH
2018-10-29

我也是這個問題，請問解決了嗎？

0 回復有任何疑惑可以回復我~

收起回答

qq_三生嘆_03556847
2018-07-23

#已經很明確的告訴你了，你這個soup是NoneType,沒有實例化

下面是我的代碼，希望對你有幫助

import?re
import?urllib.parse

from?bs4?import?BeautifulSoup


class?HtmlParser(object):
????def?parse(self,?page_url,?html_cont):
????????if?page_url?is?None?or?html_cont?is?None:
????????????return

????????soup?=?BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')
????????new_urls?=?self._get_new_urls(page_url,soup)
????????new_data?=?self._get_new_data(page_url,soup)
????????return?new_urls,new_data

????def?_get_new_urls(self,?page_url,?soup):
????????new_urls?=?set()
????????#/view/%a1%e7%ae%97%e6%9c%ba%(亂碼的代表漢字)
????????links?=?soup.find_all('a',href=re.compile(r'/item/\w+'))
????????for?link?in?links:
????????????new_url?=?link['href']
????????????new_full_url?=?urllib.parse.urljoin(page_url,new_url)
????????????new_urls.add(new_full_url)
????????return?new_urls

????def?_get_new_data(self,?page_url,?soup):
????????res_data?=?{}
????????#?url
????????res_data['url']?=?page_url


????????#?<dl?class="lemmaWgt-lemmaTitle?lemmaWgt-lemmaTitle-"><h1>Python</h1>

????????title_node?=?soup.find('dl',class_='lemmaWgt-lemmaTitle-').find("h1")
????????res_data['title']?=?title_node.get_text()

????????#<div?class="lemma-summary"?label-module="lemmaSummary">
????????summary_node?=?soup.find('div',class_='lemma-summary')
????????res_data['summary']?=?summary_node.get_text()

????????return?res_data

0 回復有任何疑惑可以回復我~

收起回答