爬蟲(chóng)從 Internet 中爬取眾多的網(wǎng)頁(yè)作為原始網(wǎng)頁(yè)庫(kù)存儲(chǔ)于本地,然后網(wǎng)頁(yè)分析器抽取網(wǎng)頁(yè)中的主題內(nèi)容交給分詞器進(jìn)行分詞,得到的結(jié)果用索引器建立正排和倒排索引,這樣就得到了索引數(shù)據(jù)庫(kù),用戶查詢時(shí),在通過(guò)分詞器切割輸入的查詢?cè)~組并通過(guò)檢索器在索引數(shù)據(jù)庫(kù)中進(jìn)行查詢,得到的結(jié)果返回給用戶。請(qǐng)問(wèn)這里原始網(wǎng)頁(yè)庫(kù)是該怎么實(shí)現(xiàn),是直接存到數(shù)據(jù)庫(kù)里嗎?還是什么形式?如果是存到數(shù)據(jù)庫(kù)里,應(yīng)該有哪些字段?
- 2 回答
- 0 關(guān)注
- 2609 瀏覽
添加回答
舉報(bào)
0/150
提交
取消