既然已經(jīng)獲取到解析文檔,除了使用BeautifulSoup,完全可以直接使用正則表達式模塊re進行處理。例如:
sumVisit = re.findall('<li>訪問:<span>(.*?)</span></li>', myPage, re.S)
sumVisit = re.findall('<li>訪問:<span>(.*?)</span></li>', myPage, re.S)
2017-04-04
最新回答 / phoenixor
不需要重新安裝了,不過建議你用代碼檢查下,我的問答里面有一個完整的存儲到Mysql的代碼,你把連接數(shù)據(jù)庫的參數(shù)改成自己的,運行一下看看能不能存儲進去。
2017-04-02
覺得講講Python操作excel會更好的加一,學(xué)到這部分總覺得老師走題了。不過想想標(biāo)題是數(shù)據(jù)采集,好像從pdf拿點數(shù)據(jù)出來也算采集的一種哦。
2017-04-01
這節(jié)有點湊內(nèi)容的嫌疑了,雖然初學(xué)者確實經(jīng)常容易安裝軟件不成功,但是這個視頻重點應(yīng)該放在數(shù)據(jù)采集上面呢。當(dāng)然,學(xué)了一個新的Python庫pdfminer3k。
2017-04-01
其實本節(jié)重點是講了一些困擾初學(xué)者的編碼問題,內(nèi)容非常實用。這個視頻標(biāo)題額,讓我誤解了主要內(nèi)容。另外,老師以為我們沒有學(xué)過日語么,這么淡定的拿來做例子。
2017-04-01
去學(xué)了一圈【Python操作MySQL數(shù)據(jù)庫 】課程和【與MySQL的零距離接觸 】課程的一點點有回過頭來看爬蟲的存儲這一部分,增加一項新技能累??!
2017-04-01