我爬出來的鏈接后綴都是16進(jìn)制和% ??
craw 790 : https://baike.baidu.com/item/%E5%88%86%E6%94%AF
craw 791 : https://baike.baidu.com/item/%E5%AE%9E%E9%99%85%E5%9B%BD%E6%B0%91%E6%94%B6%E5%85%A5
craw 792 : https://baike.baidu.com/item/1939%E5%B9%B4/10990429
craw 793 : https://baike.baidu.com/item/O%E8%AE%B0%E5%AE%9E%E5%BD%95
craw 794 :
https://baike.baidu.com/item/%E6%B3%A2%E5%A3%AB%E9%A1%BF類似這樣的
對么?
2019-06-02
控制臺要轉(zhuǎn)換:?print('craw%d : %s ' % ( count , urllib.parse.unquote(new_url) ))? ? #編碼轉(zhuǎn)換
流輸出也要轉(zhuǎn)換:fout.write( '<td>%s</td>' % urllib.parse.unquote( data['url'] ))
2019-03-03
這是漢字的url編碼,可以調(diào)用quote()和unquote()互相轉(zhuǎn)換
2019-02-03
問題+1
2018-12-09
解決了么,我也遇到了一樣的問題