需要抓取的是博客標(biāo)題,博客時間,博客作者等等內(nèi)容。這個正則該怎么寫?博客搜索頁面里有很多條新聞,難道針對標(biāo)題寫一個,博客時間寫一個,作者等等其他的各寫一個正則么?然后把抓取到的東西分別放到各個數(shù)組。這樣怎么把抓取到的各個相對應(yīng)上,如果某條博客沒有寫發(fā)布時間,這樣標(biāo)題的數(shù)組長度和博客時間的長度不就不一樣長了么,這就跑偏了,現(xiàn)在就是怎么能把一條的內(nèi)容給提取出來。不跑偏,就是如果網(wǎng)頁里有19條博客列表,就算有一條沒有發(fā)布時間,也能完整的把這19條博客所要提取的東西提取出來。哪位大牛能給個思路。我正則剛?cè)腴T,我想這個問題應(yīng)該是正則能解決的。只是自己沒想到。公司讓做一個多論壇抓取的工具,還牽扯到多線程。。唉。。都生的很。誰有過類似的小項目,學(xué)習(xí)學(xué)習(xí)。。
- 1 回答
- 0 關(guān)注
- 548 瀏覽
添加回答
舉報
0/150
提交
取消