两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

通過(guò)二進(jìn)制特征值匹配以查詢文字的方法

文檔序號(hào):6356316閱讀:418來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):通過(guò)二進(jìn)制特征值匹配以查詢文字的方法
通過(guò)二進(jìn)制特征值匹配以查詢文字的方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種文字搜索方法,特別是一種通過(guò)二進(jìn)制特征值匹配以查詢文字的方法。
背景技術(shù)
現(xiàn)有的文字搜索方法通常采用字符串比較,以取得搜索結(jié)果。例如,中國(guó)大陸專(zhuān)利申請(qǐng)第98103003. 3號(hào)專(zhuān)利揭露一種根據(jù)一查詢檢索數(shù)據(jù)庫(kù)的方法,其包括如下步驟(a)提供一數(shù)據(jù)庫(kù)字符串;(b)提供一查詢字符串;(c)識(shí)別既存在于所述查詢字符串又存在于所述數(shù)據(jù)庫(kù)字符串中的多圖形;(d)提供每一所述識(shí)別的多圖形的花費(fèi);(e)將查詢字符串相對(duì)于每一數(shù)據(jù)庫(kù)字符串定位;(f)將存在于查詢字符串和每一個(gè)數(shù)據(jù)庫(kù)字符串中的多圖形匹配,比較的花費(fèi)提供所述查詢字符串和每一所述數(shù)據(jù)庫(kù)字符串之間的數(shù)值指示的相似 性;(g)重新準(zhǔn)直所述的查詢字符串以減少花費(fèi),這通過(guò)檢查存在于匹配方案中的邊界來(lái)實(shí)現(xiàn);(h)重復(fù)所述的匹配和上述重新準(zhǔn)直至一預(yù)定的次數(shù)或直到匹配花費(fèi)不再增加;以及(i)對(duì)每一個(gè)數(shù)據(jù)庫(kù)字符串重復(fù)上述步驟(c)至(h),以識(shí)別那些與上述查詢字符串最相似的數(shù)據(jù)庫(kù)字符串。但是,字符串比較的速度比較慢,若在一個(gè)龐大的數(shù)據(jù)庫(kù)中查詢字符串往往需要用戶等待較長(zhǎng)的時(shí)間,無(wú)法實(shí)現(xiàn)快速搜索。

發(fā)明內(nèi)容本發(fā)明的主要目的在于提供一種縮短搜索時(shí)間的通過(guò)二進(jìn)制特征值匹配以查詢文字的方法。本發(fā)明提供一種通過(guò)二進(jìn)制特征值匹配以查詢文字的方法,其用于在一數(shù)據(jù)庫(kù)內(nèi)查詢文字,其中,所述數(shù)據(jù)庫(kù)內(nèi)存儲(chǔ)有字符組合,且所述方法包括以下步驟
(I)將數(shù)據(jù)庫(kù)內(nèi)的字符分成X個(gè)單元,其中各單元內(nèi)的字符總頻率均衡;(2)將X個(gè)單元分別與X位二進(jìn)制碼的位數(shù)相對(duì)應(yīng);(3)將數(shù)據(jù)庫(kù)內(nèi)的字符組合分別轉(zhuǎn)換成X位二進(jìn)制碼的對(duì)比特征值;(4)接收查詢文字,并將查詢文字轉(zhuǎn)換成X位二進(jìn)制碼的查詢特征值;(5)將查詢特征值與對(duì)比特征值逐一比較,取得匹配的對(duì)比特征值。特別地,所述X為128。特別地,其中各單元內(nèi)的字符總頻率均衡的步驟具體為;(1-1)統(tǒng)計(jì)數(shù)據(jù)庫(kù)內(nèi)字符的個(gè)數(shù)為N個(gè);(1-2)統(tǒng)計(jì)數(shù)據(jù)庫(kù)內(nèi)所有字符出現(xiàn)的總頻率為M次,并將W定義為單元均衡數(shù),其中,W = M/X,各單元內(nèi)的字符總頻率位于W的誤差范圍內(nèi)。特別地,所述步驟(1-2)之后還包括,(1-3)統(tǒng)計(jì)數(shù)據(jù)庫(kù)內(nèi)各字符分別出現(xiàn)的頻率,將單個(gè)字符頻率定義成Fn,并按頻率高低順序排列,頻率最高為F1,頻率最低為FK ;
(1-4)由 Fl+......Fn-I < W < Fl+......Fn 確定 n 大小并得到臨界值 P = Fl+......
Fn-I ;(1-5)將P分別與Fn……FK中任一值相加以得到當(dāng)前單元內(nèi)的字符總頻率,選擇最適頻率Fm以使當(dāng)前單元內(nèi)的字符總頻率與W最接近,其中,m為n……K中其一數(shù)值;(1-6)確定當(dāng)前單元內(nèi)的字符為Fl……Fn-UFm所對(duì)應(yīng)的字符并將其余K-n個(gè)字符定義為未分組字符。(1-7)判斷K-n是否等于0 ;(1-8)若K-n不等于0,則將K = K-n,并返回至步驟(1_3)。特別地,若K-n等于0,執(zhí)行步驟⑵。
特別地,步驟(5)匹配的對(duì)比特征值為多條,匹配的對(duì)比特征值對(duì)應(yīng)匹配的字符組合。特別地,步驟(5)之后還包括步驟(6)將查詢文字與匹配的字符組合進(jìn)行字符串比較,以取得精確的查詢結(jié)果。與現(xiàn)有技術(shù)相比較,本發(fā)明利用查詢特征值與對(duì)比特征值逐一比較,二進(jìn)制特征值比較的速度快,以便于快速搜索。

圖I為通過(guò)二進(jìn)制特征值匹配以查詢文字的方法的流程圖。圖2為圖I中步驟10的具體流程圖。
具體實(shí)施方式請(qǐng)參閱圖I所示,本發(fā)明提供一種通過(guò)二進(jìn)制特征值匹配以查詢文字的方法,其用于在一數(shù)據(jù)庫(kù)內(nèi)查詢文字,其中,所述數(shù)據(jù)庫(kù)內(nèi)存儲(chǔ)有字符組合,且所述方法包括以下步驟步驟10 :將數(shù)據(jù)庫(kù)內(nèi)的字符分成X個(gè)單元,其中各單元內(nèi)的字符總頻率均衡;于本實(shí)施例中,所述X為128。步驟20 :將X個(gè)單元分別與X位二進(jìn)制碼的位數(shù)相對(duì)應(yīng);步驟30 :將數(shù)據(jù)庫(kù)內(nèi)的字符組合分別轉(zhuǎn)換成X位二進(jìn)制碼的對(duì)比特征值;其中,字符組合中包括多個(gè)不同單元的字符時(shí),對(duì)比特征值中相對(duì)應(yīng)的位上分別置I ;步驟40 :接收查詢文字,并將查詢文字轉(zhuǎn)換成X位二進(jìn)制碼的查詢特征值;其中,查詢文字中包括多個(gè)不同單元的字符時(shí),對(duì)比特征值中相對(duì)應(yīng)的位上分別置I :步驟50 :將查詢特征值與對(duì)比特征值逐一比較,取得匹配的對(duì)比特征值;其中,匹配的對(duì)比特征值可為多條,例如,查詢特征值中三個(gè)不同位上分別置1,匹配的對(duì)比特征值中可包括三個(gè)不同位上分別置1,對(duì)比特征值中的置I的位數(shù)跟查詢特征值中的置I的位數(shù)相同;匹配的對(duì)比特征值中還可包括三個(gè)以上不同位上分別置1,對(duì)比特征值中的置I的位數(shù)中有三個(gè)跟查詢特征值中的置I的位數(shù)相同。且同一匹配的對(duì)比特征值可對(duì)應(yīng)多條匹配的字符組合,例如,當(dāng)對(duì)比特征值相同時(shí),也可能是同一單元不同的字符所形成的字符組
口 o步驟60 :將查詢文字與匹配的字符組合進(jìn)行字符串比較,以取得精確的查詢結(jié)果。請(qǐng)參閱圖2所示,步驟10具體為以下步驟;步驟101 :統(tǒng)計(jì)數(shù)據(jù)庫(kù)內(nèi)字符的個(gè)數(shù)為N個(gè);步驟102 :統(tǒng)計(jì)數(shù)據(jù)庫(kù)內(nèi)所有字符出現(xiàn)的總頻率為M次,并將W定義為單元均衡數(shù),其中,W = M/X,各單元內(nèi)的字符總頻率位于W的誤差范圍內(nèi),其中誤差范圍可自行設(shè)定,例如±1% ;特別地,所述步驟(1-2)之后還包括,步驟103 :統(tǒng)計(jì)數(shù)據(jù)庫(kù)內(nèi)各字符分別出現(xiàn)的頻率,將單個(gè)字符頻率定義成Fn,并按頻率高低順序排列,頻率最高為Fl,頻率最低為FK ;計(jì)算第I單元字符時(shí),K = N ;計(jì)算第2 單元字符時(shí),K = N-第I單元已分組的字符個(gè)數(shù);例如,第I單元包括3個(gè)字符,則計(jì)算第2單元時(shí),K = N-2,若第2單元包括5個(gè)字符,則第3單元時(shí),K = N-2-5 ;以此類(lèi)推;步驟104 :由Fl+......Fn-KKFl+......Fn確定n大小并得到臨界值P = Fl+......
Fn-I ;步驟105 :將P分別與Fn……FK中任一值相加以得到當(dāng)前單元內(nèi)的字符總頻率,選擇最適頻率Fm以使當(dāng)前單元內(nèi)的字符總頻率與W最接近,其中,m為n……K中其一數(shù)值;步驟106 :確定當(dāng)前單元內(nèi)的字符為Fl……Fn-1、Fm所對(duì)應(yīng)的字符并將其余K_n個(gè)字符定義為未分組字符。步驟107 :判斷K-n是否等于0 ;若K_n不等于0,執(zhí)行步驟108 ;否則,執(zhí)行步驟20 ;步驟108 :將K = K-n,并返回至步驟103。例如,數(shù)據(jù)庫(kù)內(nèi)字符的個(gè)數(shù)為6,000個(gè),X為128,所有字符出現(xiàn)的總頻率為256,000次,則單元均衡數(shù)W為2000,需將6,000個(gè)字符分入128個(gè)單元內(nèi),先統(tǒng)計(jì)各字符的
頻率,再排序后得到 Fl = 1000,F(xiàn)2 = 900, F3 = 800, F4 = 700, F5 = 600, F6 = 500,......
F9 = 100……F6000 = 5,則經(jīng)計(jì)算后,第I單元總頻率可通過(guò)F1+F2+F9得到,第I單元對(duì)應(yīng)的字符為FI、F2、F9所對(duì)應(yīng)的字符。第2單元總頻率可通過(guò)F3+F4+F6得到,第2單元對(duì)應(yīng)的字符為F3、F4、F6所對(duì)應(yīng)的字符,依此類(lèi)推,分別得到第3單元至第128單元的字符。其中,第I個(gè)單元的字符與128位二進(jìn)制特征值的第I位數(shù)相對(duì)應(yīng);第2個(gè)單元的字符與128位二進(jìn)制特征值的第2位數(shù)相對(duì)應(yīng);以此類(lèi)推,第128個(gè)單元的字符與128位二進(jìn)制特征值的第128位數(shù)相對(duì)應(yīng)。若,字符組合中若包括第I單元的字符時(shí),128位二進(jìn)制特征值的第I位上置1,字符組合中若包括第78單元的字符時(shí),128位二進(jìn)制特征值的第78位上置1,從而可根據(jù)字符組合得到相應(yīng)的128位二進(jìn)制特征值。舉例來(lái)講,若用戶需查詢“肯德基”,且按上述分組方式得知,“肯”位于第5單元,“德”位于第56單元,“基”位于第118單元,“肯德基”所對(duì)應(yīng)的二進(jìn)制特征值即為第5、56、118位上置I的128位二進(jìn)制特征值,根據(jù)二進(jìn)制特征值逐位比較后,若得到第5、56、118位上置I的二進(jìn)制特征值的對(duì)比特征值500條,其中,500條結(jié)果中也可能包括雖在第5、56、118單元但非“肯德基”字符的字符組合,例如電影院中的三個(gè)字符“電”、“影”、“院”也恰好分別位于第5、56、118單元,再經(jīng)字符串比較后得到精確的包含有“肯德基”字符的字符組合有50條。若數(shù)據(jù)庫(kù)內(nèi)的字符組合的數(shù)目為10,000條,字符串比較300條的時(shí)間相當(dāng)于二進(jìn)制特征值比較10000條的時(shí)間,則利用二進(jìn)制特征值比較方法所花的時(shí)間為300+50條字符串所需的時(shí)間,以便于快速 搜索。
權(quán)利要求
1.一種通過(guò)二進(jìn)制特征值匹配以查詢文字的方法,其用于在一數(shù)據(jù)庫(kù)內(nèi)查詢文字,其中,所述數(shù)據(jù)庫(kù)內(nèi)存儲(chǔ)有字符組合,其特征在于所述方法包括以下步驟 (1)將數(shù)據(jù)庫(kù)內(nèi)的字符分成X個(gè)單元,其中各單元內(nèi)的字符總頻率均衡; (2)將X個(gè)單元分別與X位二進(jìn)制碼的位數(shù)相對(duì)應(yīng); (3)將數(shù)據(jù)庫(kù)內(nèi)的字符組合分別轉(zhuǎn)換成X位二進(jìn)制碼的對(duì)比特征值; (4)接收查詢文字,并將查詢文字轉(zhuǎn)換成X位二進(jìn)制碼的查詢特征值; (5)將查詢特征值與對(duì)比特征值逐一比較,取得匹配的對(duì)比特征值。
2.根據(jù)權(quán)利要求I所述的通過(guò)二進(jìn)制特征值匹配以查詢文字的方法,其特征在于所述X為128。
3.根據(jù)權(quán)利要求2所述的通過(guò)二進(jìn)制特征值匹配以查詢文字的方法,其特征在于其中各單元內(nèi)的字符總頻率均衡的步驟具體為; (1-1)統(tǒng)計(jì)數(shù)據(jù)庫(kù)內(nèi)字符的個(gè)數(shù)為N個(gè); (1-2)統(tǒng)計(jì)數(shù)據(jù)庫(kù)內(nèi)所有字符出現(xiàn)的總頻率為M次,并將W定義為單元均衡數(shù),其中,W=M/X,各單元內(nèi)的字符總頻率位于W的誤差范圍內(nèi)。
4.根據(jù)權(quán)利要求3所述的通過(guò)二進(jìn)制特征值匹配以查詢文字的方法,其特征在于所述步驟(1-2)之后還包括, (1-3)統(tǒng)計(jì)數(shù)據(jù)庫(kù)內(nèi)各字符分別出現(xiàn)的頻率,將單個(gè)字符頻率定義成Fn,并按頻率高低順序排列,頻率最高為Fl,頻率最低為FK ; (1-4)由 Fl+......Fn-I <ff <F1+......Fn 確定 n 大小并得到臨界值 P = Fl+......Fn-I ; (1-5)將P分別與Fn……FK中任一值相加以得到當(dāng)前單元內(nèi)的字符總頻率,選擇最適頻率Fm以使當(dāng)前單元內(nèi)的字符總頻率與W最接近,其中,m為n……K中其一數(shù)值; (1-6)確定當(dāng)前單元內(nèi)的字符為Fl……Fn-UFm所對(duì)應(yīng)的字符并將其余K-n個(gè)字符定義為未分組字符。
(1-7)判斷K-n是否等于O ; (1-8)若K-n不等于0,則將K = K-n,并返回至步驟(1_3)。
5.根據(jù)權(quán)利要求4所述的通過(guò)二進(jìn)制特征值匹配以查詢文字的方法,其特征在于若K-n等于0,執(zhí)行步驟(2)。
6.根據(jù)權(quán)利要求5所述的通過(guò)二進(jìn)制特征值匹配以查詢文字的方法,其特征在于步驟(5)匹配的對(duì)比特征值為多條,匹配的對(duì)比特征值對(duì)應(yīng)匹配的字符組合。
7.根據(jù)權(quán)利要求6所述的通過(guò)二進(jìn)制特征值匹配以查詢文字的方法,其特征在于步驟(5)之后還包括步驟(6)將查詢文字與匹配的字符組合進(jìn)行字符串比較,以取得精確的查詢結(jié)果。
全文摘要
本發(fā)明提供一種通過(guò)二進(jìn)制特征值匹配以查詢文字的方法,其用于在一數(shù)據(jù)庫(kù)內(nèi)查詢文字,其中,所述數(shù)據(jù)庫(kù)內(nèi)存儲(chǔ)有字符組合,且所述方法包括以下步驟將數(shù)據(jù)庫(kù)內(nèi)的字符分成X個(gè)單元,其中各單元內(nèi)的字符總頻率均衡;將X個(gè)單元分別與X位二進(jìn)制碼的位數(shù)相對(duì)應(yīng);將數(shù)據(jù)庫(kù)內(nèi)的字符組合分別轉(zhuǎn)換成X位二進(jìn)制碼的對(duì)比特征值;接收查詢文字,并將查詢文字轉(zhuǎn)換成X位二進(jìn)制碼的查詢特征值;將查詢特征值與對(duì)比特征值逐一比較,取得匹配的對(duì)比特征值。本發(fā)明利用二進(jìn)制特征值比較,以便于快速搜索。
文檔編號(hào)G06F17/30GK102682033SQ201110065300
公開(kāi)日2012年9月19日 申請(qǐng)日期2011年3月17日 優(yōu)先權(quán)日2011年3月17日
發(fā)明者張華恩 申請(qǐng)人:環(huán)達(dá)電腦(上海)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
腾冲县| 富宁县| 雅安市| 墨江| 游戏| 鸡泽县| 五原县| 阳高县| 明水县| 红桥区| 棋牌| 桐乡市| 荆州市| 萨嘎县| 柳江县| 蒲江县| 开远市| 宿松县| 巴里| 兰溪市| 社旗县| 巴青县| 河源市| 襄樊市| 永顺县| 涡阳县| 黑河市| 灵宝市| 彰武县| 亳州市| 太和县| 定安县| 阳高县| 旬阳县| 呼图壁县| 诸暨市| 尚义县| 长治县| 土默特右旗| 荣昌县| 漳平市|