大家在管理爬取到數(shù)據(jù)的時候,一般對異常數(shù)據(jù)是怎么進(jìn)行防御的?比如對一個網(wǎng)站的商品爬取下來后,每天都自動更新最新的信息,但是如果目標(biāo)網(wǎng)站大批量返回錯誤數(shù)據(jù),這樣一下子就把之前的正確數(shù)據(jù)洗掉了。而且這些錯誤數(shù)據(jù)比如說價格,原來是20塊,一下子返回200塊,數(shù)據(jù)類型一樣,但是值的意義不同了。嚴(yán)格來說,這不是技術(shù)問題,所以請不要簡單給個建議說用xx技術(shù)之類的。這不是技術(shù)問題,不是用干什么語言什么框架的問題 (2年前)
對爬蟲爬取到的數(shù)據(jù)管理
精慕HU
2018-07-15 11:08:22