第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

大數(shù)據(jù)怎么樣判斷數(shù)據(jù)唯一性效率高?

大數(shù)據(jù)怎么樣判斷數(shù)據(jù)唯一性效率高?

吃雞游戲 2018-07-30 17:33:14
我想用python對全網(wǎng)的網(wǎng)站進行掃描記錄,想用mysql建個表記錄每個網(wǎng)站的信息,數(shù)據(jù)量大后怎么能快速的判斷這個網(wǎng)站已經(jīng)記錄過呢?基本表結構有:id,url,name,datetime等相關字段,url想有唯一性,是拿到url查詢一下判斷沒有數(shù)據(jù)再插入還是怎么辦?如果做了唯一性索引直接插入時會報錯,謝謝,或是有沒有別的有效的解決辦法?
查看完整描述

3 回答

?
慕俠2389804

TA貢獻1719條經(jīng)驗 獲得超6個贊

推薦使用Bloom Filter存儲已經(jīng)抓取到的url.
Bloom Filter實際上是由一組哈希函數(shù)和一個字節(jié)列表組成.?

如果使用Python可直接安裝Pybloom包, 這里已經(jīng)實現(xiàn)了Bloom Filter.


查看完整回答
反對 回復 2018-08-02
?
狐的傳說

TA貢獻1804條經(jīng)驗 獲得超3個贊

對url進行hash,就是微博短域名一樣,然后用kv,mysql都行

查看完整回答
反對 回復 2018-08-02
?
蕭十郎

TA貢獻1815條經(jīng)驗 獲得超13個贊

分布式kv數(shù)據(jù)庫
對url分組

查看完整回答
反對 回復 2018-08-02
  • 3 回答
  • 0 關注
  • 1167 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號