雖然拉鉤更新了,我們要學(xué)習(xí)的就是方法和思路。但是根據(jù)這個(gè)思路來,我抓取前10條數(shù)據(jù)都抓不到,直接返回了{(lán)"status":false,"msg":"您操作太頻繁,請(qǐng)稍后再訪問","clientIp":"182.108.60.100","state":2402},繼續(xù)看下一節(jié)??丛趺唇鉀Q操作頻繁的問題
2020-03-03評(píng)論:去年的代碼今年就不能用了,抓取城市列表頁面,返回的卻是中間頁面:加載中... 并且發(fā)現(xiàn)requests返回的頁面編碼格式為:
ISO-8859-1,需要在返回結(jié)果前增加代碼:response.encoding='ut-8',才不至于亂碼
ISO-8859-1,需要在返回結(jié)果前增加代碼:response.encoding='ut-8',才不至于亂碼
2-3 創(chuàng)建多進(jìn)程時(shí),按視頻中的做法,出現(xiàn)報(bào)錯(cuò)AttributeError: module 'multiprocessing' has no attribute 'pool',解決方法為:導(dǎo)入模塊代碼改為from multiprocessing.dummy import Pool,然后創(chuàng)建進(jìn)程池處的代碼改為pool = Pool(2)
2020-06-29
2-2 05:02處設(shè)置的第一個(gè)get請(qǐng)求(也就是保存cookie信息的get請(qǐng)求),抓取到的有些城市的URL形式為https://www.lagou.com/jobs/list_python/p-city_2?px=default,這里我不懂怎么進(jìn)行城市匹配,后面通過抓取其他一些城市(如崇左、儋州)的URL形式為:https://www.lagou.com/jobs/list_python?&px=default&city=%E5%B4%87%E5%B7%A6,發(fā)現(xiàn)這里可以進(jìn)行城市匹配,然后就使用該URL,經(jīng)過實(shí)驗(yàn),可以如視頻中一樣獲取到相關(guān)信息。
從這第二節(jié)開始,我fiddler的第一個(gè)get請(qǐng)求那個(gè)響應(yīng)數(shù)據(jù)就不一樣了,好像拉鉤更新了 所以視頻講的就不太對(duì)了
能給個(gè)字段代碼,一個(gè)個(gè)敲代碼漏的多