import urllib2
url='http://www.baidu.com/s?wd=cloga'content=urllib2.urlopen(url).read()import re
urls_pat=re.compile(r'<span class="g">(.*?)</span>')
siteUrls=re.findall(results_pat,content)
strip_tag_pat=re.compile(r'<.*?>')
file=open('results000.csv','w')for i in results:
i0=re.sub(strip_tag_pat,'',i)
i0=i0.strip()
i1=i0.split(' ')
date=i1[-1]
siteUrl=''.join(i1[:-1])
rank+=1
file.write(date+','+siteUrl+','+str(rank)+'\n')
file.close()
1 回答

LEATH
TA貢獻(xiàn)1936條經(jīng)驗(yàn) 獲得超7個(gè)贊
顯而易見(jiàn),該代碼是無(wú)法正常運(yùn)行的。第一個(gè)問(wèn)題是第六行中results_pat應(yīng)該改成urls_pat;第二個(gè)問(wèn)題,第九行results更改為siteUrls;第三個(gè)問(wèn)題,第九行前加入rank = 0
;
其實(shí)該代碼的目的是提取出指定百度搜索頁(yè)面的所有鏈接以及日期,至于rank,我的猜測(cè)是順序,不知是否正確。
添加回答
舉報(bào)
0/150
提交
取消