搜索引擎索引切分策略
發(fā)布時(shí)間:2009-06-11 瀏覽: 次
為了實(shí)現(xiàn)對(duì)資源的快速定位,大規(guī)模信息檢索系統(tǒng)通常都會(huì)采用索引技術(shù),其中使用最廣泛的是倒排列表( inverted list ) , 其基本形式是根據(jù)關(guān)鍵詞列出一個(gè)數(shù)據(jù)集中所有包含該關(guān)鍵詞的文檔 , 即,這樣,給定一個(gè)關(guān)鍵詞,根據(jù)其倒排列表即可快速查找出對(duì)應(yīng)的文檔.另外也有采用其他索引技術(shù)的,比如后綴數(shù)組(suffix array)。 在小規(guī)模搜索系統(tǒng)中,索引通常采用集中式結(jié)構(gòu),而對(duì)于大規(guī)模搜索系統(tǒng),通常需要采用分布式索引.在 P2P搜索系統(tǒng)中如何對(duì)索引進(jìn)行切分是一個(gè)必需要解決的重要問(wèn)題.以倒排列表為例,目前主要存在兩類(lèi)切分方法:基于文檔的切分(Document-based Partitioning)和基于關(guān)鍵詞的切分(Keyword-based Partitioning) 基于文檔的索引切分策略將系統(tǒng)的整個(gè)數(shù)據(jù)集按照文檔切分成多個(gè)子集,每個(gè)結(jié)點(diǎn)負(fù)責(zé)存儲(chǔ)和維護(hù)一個(gè)文檔子集的索引,在查詢(xún)的時(shí)候,查詢(xún)請(qǐng)求結(jié)點(diǎn)通過(guò)洪泛或隨機(jī)走步的方式把查詢(xún)請(qǐng)求轉(zhuǎn)發(fā)到各個(gè)結(jié)點(diǎn)上,由各個(gè)結(jié)點(diǎn)在本地索引中進(jìn)行查詢(xún). 基于文檔的索引切分策略實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單,而且很容易做到各個(gè)索引結(jié)點(diǎn)的負(fù)載均衡,它在緊耦合系統(tǒng)中(結(jié)點(diǎn)數(shù)目一般比較少)得到了很好的應(yīng)用.但由于它在查詢(xún)處理時(shí)必須將查詢(xún)分發(fā)到每一個(gè)結(jié)點(diǎn)上以得到精確的搜索結(jié)果,這樣無(wú)疑增加了系統(tǒng)查詢(xún)開(kāi)銷(xiāo),從而也帶來(lái)了系統(tǒng)的可擴(kuò)展性問(wèn)題. 基于關(guān)鍵詞的索引切分策略將系統(tǒng)的整個(gè)數(shù)據(jù)集的索引按照關(guān)鍵詞切分成多個(gè)部分,每個(gè)結(jié)點(diǎn)存儲(chǔ)一部分索引,也就是說(shuō)每個(gè)結(jié)點(diǎn)負(fù)責(zé)存儲(chǔ)和維護(hù)一部分關(guān)鍵詞的索引,一個(gè)結(jié)點(diǎn)上擁有多個(gè)關(guān)鍵詞的索引,而不同結(jié)點(diǎn)上的索引是正交的(在實(shí)際系統(tǒng)中,為了提高系統(tǒng)可用性,通常都有索引備份策略),在查詢(xún)的時(shí)候,由查詢(xún)請(qǐng)求結(jié)點(diǎn)根據(jù)查詢(xún)?cè)~將查詢(xún)請(qǐng)求發(fā)送到存儲(chǔ)這些關(guān)鍵詞索引的結(jié)點(diǎn)上 基于關(guān)鍵詞的索引切分由于處理一個(gè)查詢(xún)請(qǐng)求只需要少數(shù)幾個(gè)結(jié)點(diǎn)的參與,因此可以同時(shí)支持較多的查詢(xún),提高了系統(tǒng)吞吐率.但是由于它在處理多關(guān)鍵詞查詢(xún)時(shí)需要在結(jié)點(diǎn)之間傳遞索引用于求交運(yùn)算,因此當(dāng)系統(tǒng)中索引的數(shù)據(jù)量很大時(shí),查詢(xún)處理需要占用大量的網(wǎng)絡(luò)帶寬,通信延遲也會(huì)急劇增長(zhǎng).在這方面有一些方法可以用來(lái)減小索引傳輸?shù)耐ㄐ帕?比如索引壓縮技術(shù)、 Bloom Filter 技術(shù)等.此外,基于關(guān)鍵詞的切分方式還面臨著負(fù)載不均衡問(wèn)題,一方面,關(guān)鍵詞在文檔中的分布是不均衡的,有的關(guān)鍵詞索引會(huì)很大,而有的關(guān)鍵詞索引則很小,這就造成各結(jié)點(diǎn)存儲(chǔ)的索引量很難達(dá)到均衡;另一方面,各結(jié)點(diǎn)的查詢(xún)負(fù)載也是不均衡的,容易形成查詢(xún)熱點(diǎn)問(wèn)題.
資訊推薦
- 關(guān)于2016年春節(jié)放假安排2016-01-26
- 為了方便同事們提前訂票回家過(guò)年,現(xiàn)在公司春節(jié)放假時(shí)間安排通知。
春節(jié)放假時(shí)間為:2016年2月3到 2月14日。共11天。
廣大客戶(hù)在我...
- 如何做好創(chuàng)業(yè)型網(wǎng)站運(yùn)營(yíng)2016-03-07
- 1、緊記網(wǎng)站定位,制訂網(wǎng)站長(zhǎng)期與短期經(jīng)營(yíng)目標(biāo)。
網(wǎng)站定位是網(wǎng)站發(fā)展之本,不管是營(yíng)銷(xiāo)型網(wǎng)站建設(shè)還是創(chuàng)業(yè)型網(wǎng)站運(yùn)營(yíng),網(wǎng)站經(jīng)營(yíng)偏離了定位或定位不...
- 奢侈品B2C的網(wǎng)站規(guī)劃該如何做2016-03-07
- 電子商務(wù)(EC,也就是E-Commerce的縮寫(xiě)),關(guān)于電子商務(wù)的定義世人眾說(shuō)紛紜,從不同的角度出發(fā)有不同的定義??梢岳斫鉃橐?Internet為依托,借助一定...
- 微信:支付寶搶紅包要到春晚,我們今晚就開(kāi)始!2016-01-26
- 昨天上午 11 點(diǎn),支付寶通過(guò)一個(gè)長(zhǎng)微博,公布了大家期待已久的與央視春晚獨(dú)家合作的互動(dòng)玩法,核心點(diǎn)在于必須主動(dòng)通過(guò)社交拓展才能夠獲得最多的紅包。
支...