5 回答

TA貢獻1820條經(jīng)驗 獲得超10個贊
想到了幾點,簡單說下:
1.數(shù)據(jù)抓取,可以自己寫抓取程序,制定數(shù)據(jù)爬取的時間規(guī)則之類的
2.數(shù)據(jù)處理,抓取到網(wǎng)頁的內(nèi)容通過jsoup或者其他方式對網(wǎng)頁有效內(nèi)容提取,并設(shè)計數(shù)據(jù)結(jié)構(gòu),學(xué)號應(yīng)該是唯一的,可以有學(xué)員表和晨跑記錄表,通過學(xué)號進行關(guān)聯(lián)
3.我的個人理解是按照次數(shù)排序,因為想了下,如果按照時間排序是不合理的,因為是沒有辦法判斷真正的晨跑時間的,那我這里就按次數(shù)來說吧,可以直接在學(xué)員表存放跑步次數(shù)的字段,減少通過記錄表查詢,提高效率,就是需要數(shù)據(jù)處理時維護此字段

TA貢獻1780條經(jīng)驗 獲得超5個贊
模擬登陸:用瀏覽器打開登陸頁觀察接收學(xué)號密碼的url;模擬登陸時post數(shù)據(jù)到該url;從response的header中解析Set-cookie字段信息;
數(shù)據(jù)抓?。合蝮w育數(shù)據(jù)頁發(fā)起get請求(帶上上一步中拿到的cookie字段),拿到response,然后進行正則解析獲得數(shù)據(jù)即可;
建議:緩存用戶每次查詢的數(shù)據(jù),比如緩存2個小時,建議使用redis;數(shù)據(jù)庫可以存查詢到的數(shù)據(jù),先從redis中取數(shù)據(jù),取不到再模擬登陸拿新數(shù)據(jù)。至于數(shù)據(jù)庫這一層,個人感覺可有可無,有的話也可以進行數(shù)據(jù)分析什么的
添加回答
舉報