第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機(jī)立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

什么是增量式抓取 關(guān)于網(wǎng)絡(luò)爬蟲的?

什么是增量式抓取 關(guān)于網(wǎng)絡(luò)爬蟲的?

慕森王 2019-02-08 11:07:07
什么是增量式抓取 關(guān)于網(wǎng)絡(luò)爬蟲的
查看完整描述

1 回答

?
慕田峪9158850

TA貢獻(xiàn)1794條經(jīng)驗 獲得超7個贊

Nutch爬蟲的工作策略一般則可以分為累積式抓?。╟umulative crawling)和增量式抓?。╥ncremental crawling)兩種。
累積式抓取是指從某一個時間點(diǎn)開始,通過遍歷的方式抓取系統(tǒng)所能允許存儲和處理的所有網(wǎng)頁。在理想的軟硬件環(huán)境 下,經(jīng)過足夠的運(yùn)行時間,累積式抓取的策略可以保證抓取到相當(dāng)規(guī)模的網(wǎng)頁集合。但由于Web數(shù)據(jù)的動態(tài)特性,集合中網(wǎng)頁的被抓取時間點(diǎn)是不同的,頁面被更新的情況也不同,因此累積式抓取到的網(wǎng)頁集合事實上并無法與真實環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。
增量式抓取是指在具有一定量規(guī)模的網(wǎng)絡(luò)頁面集合的基礎(chǔ)上,采用更新數(shù)據(jù)的方式選取已有集合中的過時網(wǎng)頁進(jìn)行抓取,以保證所抓取到的數(shù)據(jù)與真實網(wǎng)絡(luò)數(shù)據(jù)足夠接近。進(jìn)行增量式抓取的前提是,系統(tǒng)已經(jīng)抓取了足夠數(shù)量的網(wǎng)絡(luò)頁面,并具有這些頁面被抓取的時間信息。
面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計中,通常既包括累積式抓取,也包括增量式抓取的策略。累積式抓取一般用于數(shù)據(jù)集合的整體建立或大規(guī)模更新階段;而增量式抓取則主要針對數(shù)據(jù)集合的日常維護(hù)與即時更新。

查看完整回答
反對 回復(fù) 2019-03-06
  • 1 回答
  • 0 關(guān)注
  • 899 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號