我要抓取的頁(yè)面的內(nèi)容是在如下標(biāo)簽內(nèi)的parent.theZNPKT_CJJS1.innerHTML='[0000789]Andrew';我寫(xiě)的代碼:importurllib2frombs4importBeautifulSoupurl='xxx'html=urllib2.urlopen(url)soup=BeautifulSoup(html,from_encoding='gbk')option=soup.findAll('option')f=open("out.txt","w")print>>f,optionf.close()printoption抓取出來(lái)的結(jié)果全都是[0000049]ANNA這樣的,我想提取[0000049]ANNA這個(gè)內(nèi)容怎樣做呀?很多東西都不懂,經(jīng)過(guò)搜索換了一種方法提取出來(lái)了。用的是正則的方法:importurllib2importreurl='xxx'html=urllib2.urlopen(url).read()patt=re.compile(r'(.+?)')option=patt.findall(html)f=open("out.txt","w")forvalueinoption:printvaluef.writelines(value+'\n')f.close()
beautifulsoup 怎樣抓取 select 標(biāo)簽里面的 option 的文本?
繁星coding
2019-04-09 20:23:21