有一個(gè)項(xiàng)目,我要對(duì)頁(yè)面每天19點(diǎn)開(kāi)始爬,每隔30分鐘爬取一次,直到爬取到增量?jī)?nèi)容后停止,然后明日19點(diǎn)再循環(huán)。配置如下@every(minutes=30)
def on_start(self):
...@config(age=24 * 60 * 60)
def index_page(self, response):
...這樣設(shè)置,every=每30分鐘,age=每24小時(shí),可以起到定時(shí)啟動(dòng)的效果嗎?如果要發(fā)起每天19點(diǎn)開(kāi)始的定時(shí)功能,除了第一次在19點(diǎn)點(diǎn)run之外,還有沒(méi)有更合適的方法?此外,該項(xiàng)目的網(wǎng)頁(yè),在內(nèi)容相同的情況下,URL會(huì)變化。請(qǐng)問(wèn)除了手動(dòng)對(duì)比本地?cái)?shù)據(jù)庫(kù)之外,有沒(méi)有更合適的辦法去監(jiān)測(cè)從而只爬取增量?
1 回答

慕絲7291255
TA貢獻(xiàn)1859條經(jīng)驗(yàn) 獲得超6個(gè)贊
第一個(gè)問(wèn)題自己解決了:
調(diào)用Python的時(shí)間日期接口,用if判斷即可。
第二個(gè)問(wèn)題,由于URL會(huì)變動(dòng),也許我給出的是目前唯一可用的方法。
添加回答
舉報(bào)
0/150
提交
取消