一種大規(guī)模字符串文本的后綴索引構(gòu)造方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及后綴索引構(gòu)造技術(shù)領(lǐng)域,尤其涉及一種利用計算機外存來構(gòu)造大規(guī)模字符串文本后綴索引的方法及裝置。
【背景技術(shù)】
[0002]后綴索引,也稱為后綴數(shù)組(suffix array),是計算機科學(xué)中的一個重要數(shù)據(jù)結(jié)構(gòu),具有結(jié)構(gòu)緊湊且空間占用小的特點,在全文檢索、數(shù)據(jù)壓縮、基因序列對齊和模式匹配等諸多領(lǐng)域具有廣泛應(yīng)用。任意給定一個字符串文本,簡稱為字符串,從字符串中的任意位置開始到該字符串結(jié)尾的所有字符組成一個字符子串,該子串稱為字符串的后綴(suffix)。顯然,長度為η的字符串包含η個后綴,對這η個后綴按字典順序升序保存在一個整型數(shù)組中,該數(shù)組則稱為字符串的后綴索引。
[0003]傳統(tǒng)構(gòu)造后綴索引技術(shù)需要把所有文本全部加載至內(nèi)存,然后才能進行后綴索引構(gòu)造。但近年來,基因數(shù)據(jù)庫、互聯(lián)網(wǎng)文本數(shù)據(jù)以及其它相關(guān)領(lǐng)域的文本數(shù)據(jù)規(guī)模不斷擴大,普通計算機內(nèi)存已無法一次性加載全部文本,這些傳統(tǒng)索弓I構(gòu)造技術(shù)顯然已不再適用。
【發(fā)明內(nèi)容】
[0004]本發(fā)明為克服上述現(xiàn)有技術(shù)所述的至少一種缺陷(不足),首先提供一種大規(guī)模字符串文本的后綴索引構(gòu)造方法,使用戶在普通計算機環(huán)境下(如:內(nèi)存大小為4G)也能進行大規(guī)申吳字符串文本的后綴索引構(gòu)造。
[0005]本發(fā)明的又一目的是提出一種大規(guī)模字符串文本的后綴索引構(gòu)造裝置,其實現(xiàn)了借助計算機外存對大規(guī)模字符串文本進行后綴索引構(gòu)造。
[0006]為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種大規(guī)模文本的后綴索引構(gòu)造方法,所述方法包括:
收縮字符串Τ,得到新的字符串Τ1,Τ1的規(guī)模最多為Τ的一半;
以直接方式或遞歸方式構(gòu)造Τ1的后綴索引;
掃描Τ1的后綴索引,得到Τ的后綴索引。
[0007]其中,所述收縮字符串Τ,得到新的字符串Τ1的具體過程為:
使用大規(guī)模字符串讀取器分批讀取字符串Τ,獲取Τ中所有LMS子串,壓入外存優(yōu)先級隊列容器Q1中。掃描Q1排序L子串,并使用子串命名單元對L子串和LMS子串進行命名,得到的有序L子串存放于外存優(yōu)先級隊列容器Q2中。掃描Q2中所有L子串排序S子串,并對S子串命名,得到有序S子串。提取S子串中所有LMS子串的名字,這些名字按照LMS子串在原字符串中的索引位置升序構(gòu)成新的字符串Τ1 ;
所述LMS子串的識別方法為,該子串的首字符和尾字符均為LMS字符,首字符與尾字符之間不存在任何LMS字符;
所述LMS字符的識別方法為,當(dāng)后綴為LMS后綴時,則該后綴所對應(yīng)字符子串的首字符稱為LMS字符; 所述LMS后綴的識別方法為,若當(dāng)如后綴為S后綴,且字符串T中與當(dāng)如后綴相鄰的左手邊第一個后綴為L后綴,則該后綴為LMS后綴;
所述L子串的識別方法為,子串的首字符為L字符,尾字符為LMS字符,且首字符與尾字符之間不存在任何LMS字符,則該子串為L子串;
所述L或S字符的識別方法為,若某后綴為L或S后綴,則該后綴所對應(yīng)字符子串的首字符分別稱為L或S字符;
所述S子串的識別方法為,子串的首字符為S字符,尾字符為LMS字符,且首字符與尾字符之間不存在任何LMS字符,則該子串為S子串;
所述L后綴、S后綴的識別方法為,先假定字符串最后一個字符為‘$’,該字符在整個字符串所包含的字符當(dāng)中最小并且唯一,為S后綴;然后從字符串文本倒數(shù)第二個字符開始往前掃描,若當(dāng)前字符比前一字符小,則該后綴為S后綴;或當(dāng)前字符與前一字符相等且前一字符所對應(yīng)的后綴為S后綴,則該后綴也為S后綴。除上述兩種情況之外,后綴被識別為L后綴。
[0008]其中,所述構(gòu)造字符串T1的后綴索引的過程為:
若字符串T1中所有字符都唯一,各字符的名稱即為各后綴在后綴索引中的優(yōu)先級次序,掃描字符串T1,每個索引位置生成相應(yīng)的二元組:(T[i],i),g卩(字符名稱,位置索引),將這些二元組全部壓入外存排序器,按照字符名稱排序,排序后取各字符對應(yīng)的索引號存入數(shù)組,即得到T1的后綴索引,否則以T1為新的字符串輸入?yún)?shù),用遞歸方式構(gòu)造T1的后綴索引。
[0009]其中,所述掃描T1的后綴索引,得到T的后綴索引的過程為:
使用大規(guī)模字符串讀取器讀取字符串T,識別其中的LMS后綴,根據(jù)T1的后綴索引,給相應(yīng)的LMS后綴賦予優(yōu)先級,并壓入外存優(yōu)先級隊列容器Q1中;
掃描Q1,得到的有序L后綴,L后綴存放于外存優(yōu)先級隊列Q2中;
掃描Q2,得到有序S后綴序列;
歸并所有L和S后綴,得到字符串T的后綴索引。
[0010]—種大規(guī)模文本的后綴索引構(gòu)造裝置,所述后綴索引構(gòu)造裝置包括大規(guī)模字符串文本讀取器,后綴前驅(qū)信息處理器,前驅(qū)信息存儲模塊,LMS后綴識別器,L/S后綴識別器,子串命名單元,外存優(yōu)先級隊列容器,外存排序器和后綴索引存儲模塊;
大規(guī)模字符串讀取器,用于順序讀取外存大規(guī)模字符串文本;
后綴前驅(qū)信息處理器,用于生成字符串文本中各后綴的前驅(qū)信息,并保存至外存容器;
其中,所述后綴前驅(qū)信息為一個元組,該元組包含了該后綴在字符串中的位置信息,前驅(qū)字符以及前驅(qū)字符距離。這里的前驅(qū)字符為:在字符串T中,后綴i對應(yīng)的字符為T[i],T[i]左側(cè)第一個不等于T[i]的字符稱為后綴i的前驅(qū)字符,例如:某后綴與其前驅(qū)字符的距離為“0”,說明該后綴左側(cè)第一個字符為其前驅(qū)字符;
前驅(qū)信息存儲模塊,一種外存容器,用于存放后綴前驅(qū)信息處理器所輸出的各后綴前驅(qū)信息;
外存優(yōu)先級隊列容器,用于在外存上對字符子串或后綴進行排序,每次從該隊列彈出的子串或后綴為當(dāng)如隊列中最小或最大子串或后綴; L/S后綴識別器,用于識別具體的后綴是L還是S后綴;
LMS后綴識別器,用于識別具體的后綴是否為LMS后綴;
子串命名單元,用于索引構(gòu)造過程中,對字符子串進行命名,以便字符串規(guī)模的收縮; 外存排序器,一種外存容器,可對存入其中的對象按照指定關(guān)鍵字排序;
后綴索引存儲模塊,一種外存容器,用于存儲后綴索引。
[0011]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下的優(yōu)點和積極效果:
本發(fā)明在后綴索引構(gòu)造過程中至少配置大規(guī)模字符串讀取器,后綴前驅(qū)信息處理器,LMS后綴識別器,兩個外存優(yōu)先級隊列容器和外存排序器。這樣,通過大規(guī)模字符串讀取器讀取字符串,通過LMS識別器識別字符串中的LMS子串或后綴,通過外存優(yōu)先級隊列容器實現(xiàn)子串或后綴的排序,最終完成大規(guī)申吳字符串文本的后綴索引構(gòu)造。在索引構(gòu)造過程中,利用了低成本的計算機外存資源,使得后綴索引構(gòu)造不再受限于內(nèi)存容量;從而在任意一臺普通計算機環(huán)境下,本系統(tǒng)能完成超過該內(nèi)存大小的字符串文本數(shù)據(jù)的后綴索引構(gòu)造,突破了現(xiàn)有后綴索引構(gòu)造技術(shù)方案的局限性。而且,本發(fā)明具有運行速度快、I/o量小和簡單易行等優(yōu)點。
【附圖說明】
[0012]圖1為本發(fā)明具體實施方案的方法流程圖。
[0013]圖2為本發(fā)明的裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0014]附圖僅用于示例性說明,不能理解為對本專利的限制;為了更好說明本實施例,附圖某些部件會有省略、放大或縮小,并不代表實際產(chǎn)品的尺寸;
對于本領(lǐng)域技術(shù)人員來說,附圖中某些公知結(jié)構(gòu)及其說明可能省略是可以理解的。下面結(jié)合附圖和實施例對本發(fā)明的技術(shù)方案做進一步的說明。
[0015]本發(fā)明的基本思想是:將字符串文本中的后綴分為L后綴和S后綴,先通過外存優(yōu)先級隊列容器排序字符串中的LMS子串;在有序LMS子串的基礎(chǔ)上,推導(dǎo)有序L后綴;在有序L后綴的基礎(chǔ)上,推導(dǎo)有序S后綴;最后以桶為單位,歸并L后綴和S后綴,輸出后綴索引。這里的桶是指:后綴數(shù)組中具有相同首字符的后綴構(gòu)成一塊連續(xù)的區(qū)域,該區(qū)域稱為桶。
[0016]在索引構(gòu)造過程中,需要隨時訪問后綴的前驅(qū)字符,傳統(tǒng)方法為,將所有字符串全部加載至內(nèi)存,這樣,在索引構(gòu)造過程中可隨機訪問后綴的前驅(qū)字符;但在字符串規(guī)模較大,遠(yuǎn)遠(yuǎn)超過內(nèi)存容量的情況下,這種處理辦法已不再適用。
[0017]因此,本發(fā)明預(yù)先產(chǎn)生字符串各后綴的前驅(qū)信息,并對所有前驅(qū)信息元組排序,預(yù)先存放在外存容器。排序關(guān)鍵字為二元組:后綴的首字符和后綴位置索引,即先按首字符排序,然后按該后綴在源字符串中的位置索引值排序。
[0018]如前所述,具有相同首字符的后綴構(gòu)成一塊連續(xù)的區(qū)域,這個連續(xù)的區(qū)域稱為桶,在索引構(gòu)造過程中,也是按桶關(guān)鍵字有序掃描各后綴,因而在掃描過程中可以僅加載當(dāng)前正在掃描的桶所包含的后綴的前驅(qū)信息,然后通過位置索引值來訪問具體后綴的前驅(qū)信息,從而完成字符子串或者后綴的排序。
[0019]在索引構(gòu)造過程當(dāng)中,還需對L和S子串進行命名。命名過程如下:當(dāng)排序L子串時,定義一個整型變量i,i初始化為0,每彈出一個后綴,i增加1。若當(dāng)前子串與前一子串不等,當(dāng)前子串被命名為當(dāng)前變量i的值;若當(dāng)前子串與前一子串相等,則當(dāng)前子串的名字與前一子串相等。排序S子串時,命名方法與排序L子串一樣,同樣需要定義一個整型變量i,不同的地方是,i初始化為字符串的長度減1,即n-1,每彈出一個后綴,i自減1。
[0020]當(dāng)?shù)玫接行騍子串以后,取其中所有LMS子串(LMS子串屬于S子串),統(tǒng)計LMS子串命名次數(shù),若LMS子串的命名次數(shù)與其數(shù)目一樣,說明字符串中各LMS子串是兩兩互異的,LMS子串的名字即為LMS子串的優(yōu)先級;否則,字符串中存在相等的LMS子串,暫時無法確定其所對應(yīng)的后綴大小關(guān)系;因此,必須提取各LMS子串的名字,按照其所對應(yīng)的LMS后綴在字符串中的位置索引從小到大排列,構(gòu)成一個新的字符串,計算該新字符串各后綴的前驅(qū)信息,排序L和S子串,以遞歸方式計算LMS子串的優(yōu)先級次序。
[0021]當(dāng)LMS子串有序,可通過外存優(yōu)先級隊列容器Q1,輸出有序L后綴至Q2 ;然后在有序L后綴的基礎(chǔ)上,通過Q2,輸出有序S后綴,對L和S后綴按桶關(guān)鍵字歸并,得到字符串的后綴索引。
[0022]基于以上所述,本發(fā)明實施例提供了一種通過計算機外存來構(gòu)造大規(guī)模字符串文本的后綴索引的方法,參見圖1,該方法包括如下步驟:
S101:獲取后綴前驅(qū)信息;