第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

即使在實施了用戶代理后,網(wǎng)站也拒絕了網(wǎng)絡(luò)抓取工具

即使在實施了用戶代理后,網(wǎng)站也拒絕了網(wǎng)絡(luò)抓取工具

溫溫醬 2021-12-09 15:33:41
我目前正在創(chuàng)建一個網(wǎng)絡(luò)爬蟲來從學校項目的網(wǎng)站收集數(shù)據(jù)。這個問題是我收到以下錯誤代碼(僅來自這個網(wǎng)頁):<h1>You are viewing this page in an unauthorized frame window.</h1>0[Finished in 5.4s]這是完整的代碼:#Creating my own webcrawlerfrom urllib.request import urlopen as uReqfrom bs4 import BeautifulSoup as soupimport urllib.requestmyurl = 'https://nvd.nist.gov/vuln/data-feeds'myReq = (myurl)req = urllib.request.Request(    myurl,     data=None,     headers={        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36'    }) #opening my connection, grabbing the pageuClient = uReq(myurl)page_html = uClient.read()uClient.close()#html parsingpage_soup = soup(page_html, 'html.parser')print(page_soup.h1)containers = page_soup.findAll('td rowspan="1"',{'class':'x-hidden-focus'})print(len(containers))如您所見,我什至添加了一個用戶代理,但仍然收到此錯誤消息。任何幫助表示贊賞!
查看完整描述

1 回答

?
白衣染霜花

TA貢獻1796條經(jīng)驗 獲得超10個贊

我相信“findAll”方法的第一個參數(shù)不會幫助你,所以這個問題可能與 HTTP 請求-響應(yīng)周期無關(guān)。


我查詢了您正在使用的 url,文檔上所有“td”元素的所有可能屬性是:


{'class': ['xml-file-size', 'file-20']}

{'class': ['xml-file-type', 'file-20']}

{'colspan': '2', 'class': ['xml-file-type', 'file-20']}

{'rowspan': '3'}

{'colspan': '2'}

{}

這使得查詢 1 的 'rowspan' 和 'class' 'x-hidden-focus' 返回空列表。


嘗試倒數(shù)第二行:


containers = page_soup.findAll('td', {'colspan'='1', 'class':'file-20'})

或者:


containers = page_soup.findAll('td', {'rowspan': '3'})

甚至只是:


containers = page_soup.findAll('td')

取決于您正在尋找哪些特定的“td”元素。


查看文檔還可以了解更多使用 BeautifulSoup 的方法,包括將函數(shù)作為參數(shù)傳遞等。


查看完整回答
反對 回復(fù) 2021-12-09
  • 1 回答
  • 0 關(guān)注
  • 179 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號