為何多行文本內容最終只爬取到最后一行內容
老師,麻煩您看一下爬取introduce信息時,xpath寫為
“.//div[@class='info']//div[@class='bd']/p[1]/text()”
然后賦值時
content_s?=?"".join(i_content.split())
您這邊在pycharm終端中輸出第一頁時確實有多行內容分行提取到了,但是最后top250全部爬取時introduce只有最后一行的內容。
我完全按您的代碼運行,爬取第一頁時introduce就只有最后一行內容,top250全部爬取時也只有最后一行的內容。
于是我把xpath改成“.//div[@class='info']//div[@class='bd']/p[1]”,去掉了text()
然后content_s?=?"".join(i_content.split('<br>')) 但是這樣一來雖然把多行內容都爬取到了,但是文本中又多出來空格和標簽的信息,麻煩老師給個好一點的解決
辦法。
2019-08-26
老師的多行處理是錯的,
這個解析出來是一個兩個元素的列表,兩個元素分別是<br>的前后兩段,因此下面這段代碼:
代碼的含義是,分別取出<br>的前后兩段,然后去掉空格換行符等,然后存進數(shù)據(jù)庫的introduce字段。這樣的話第二段的數(shù)據(jù)就會覆蓋第一段先存進去的數(shù)據(jù),因此你看到了“多行文本內容最終只爬取到最后一行內容”這個結果。
可以改成這樣:
2019-10-28
這樣會有省略號怎么辦