既然已經獲取到解析文檔,除了使用BeautifulSoup,完全可以直接使用正則表達式模塊re進行處理。例如:
sumVisit = re.findall('<li>訪問:<span>(.*?)</span></li>', myPage, re.S)
sumVisit = re.findall('<li>訪問:<span>(.*?)</span></li>', myPage, re.S)
2017-04-04
覺得講講Python操作excel會更好的加一,學到這部分總覺得老師走題了。不過想想標題是數(shù)據(jù)采集,好像從pdf拿點數(shù)據(jù)出來也算采集的一種哦。
2017-04-01
這節(jié)有點湊內容的嫌疑了,雖然初學者確實經常容易安裝軟件不成功,但是這個視頻重點應該放在數(shù)據(jù)采集上面呢。當然,學了一個新的Python庫pdfminer3k。
2017-04-01
其實本節(jié)重點是講了一些困擾初學者的編碼問題,內容非常實用。這個視頻標題額,讓我誤解了主要內容。另外,老師以為我們沒有學過日語么,這么淡定的拿來做例子。
2017-04-01
去學了一圈【Python操作MySQL數(shù)據(jù)庫 】課程和【與MySQL的零距離接觸 】課程的一點點有回過頭來看爬蟲的存儲這一部分,增加一項新技能累啊!
2017-04-01