一種基于概念對象模型的問句檢索方法
【專利摘要】一種基于概念對象模型的問句檢索方法,依次包括如下步驟:根據(jù)研究限定領(lǐng)域問句的特點,依照概念對象模型知識表示方法,建立領(lǐng)域概念對象模型;用戶輸入文本問句并確定;基于概念對象模型定義問句的相似度計算方式;基于問句的相似度計算方式進行問句檢索。該方法能夠進行語義分析并提高效率,降低時間復(fù)雜度。
【專利說明】-種基于概念對象模型的問句檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自動問答系統(tǒng)研究領(lǐng)域,更具體地說涉及到自動問答系統(tǒng)中問句的相 似度計算及問句檢索研究。
【背景技術(shù)】
[0002] 漢語句子的相似度計算難度很大,傳統(tǒng)方法主要包括基于TF-IDF方法和基于語 義的算法。基于向量空間模型的TF-IDF方法主要應(yīng)用于大型文檔檢索,只有當(dāng)句子所包含 的詞語足夠多時,此方法才有比較好的效果。由于限定領(lǐng)域的問句短小且包含的詞匯數(shù)量 少,所W應(yīng)用效果欠佳。TF-IDF方法只考慮了詞在上下文中的統(tǒng)計特性,沒有在語義層面上 進行分析,不能很好的體現(xiàn)中文的特性,具有一定的局限性?;谡Z義的算法:由于語義資 料庫的限制,算法效率低下,使得問答系統(tǒng)的實時性變差,基于語義的相似度計算需要某一 語義知識辭典的支持,而知識辭典中包含的主要是通用知識,而針對某一專業(yè)領(lǐng)域知識包 含的較少,缺少對專業(yè)領(lǐng)域關(guān)鍵詞的支持,對領(lǐng)域的問句相似度計算效果欠佳。
[0003] 因此本發(fā)明通過對領(lǐng)域知識的相關(guān)特點和目前語句相似度計算存在的問題進行 研究分析,在結(jié)合一定的語義分析建立概念對象模型的基礎(chǔ)上,提出了基于概念對象模型 的問句相似度計算方法,該方法能夠進行領(lǐng)域概念對象語義分析并提高算法效率,降低算 法時間復(fù)雜度。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種能夠進行簡單的語義分析并提 高算法效率,降低算法時間復(fù)雜度的基于概念對象模型的語句檢索方法,依次包括如下步 驟:
[0005] 步驟1 ;根據(jù)研究限定領(lǐng)域問句的特點,依照概念對象模型知識表示方法,建立領(lǐng) 域概念對象模型;
[000引步驟2 ;用戶輸入文本問句并確定;
[0007] 步驟3 ;字符串流處理,抽取問句中的概念、對象及屬性,利用概念或?qū)ο竺枋鰡?句的主題,利用概念或?qū)ο蟮膶傩悦枋鰡柧浣裹c,把問句表示為概念對象模型表示形式;
[0008] 步驟4 ;基于概念對象模型定義問句的相似度計算方式,具體為把問句相似度計 算分為四部分,對象間相似度計算、屬性間相似度計算、關(guān)系間相似度計算和其余部分相似 度計算,最后加權(quán)計算得到問句的相似度計算方式;
[0009] 步驟5 ;基于問句的相似度計算方式進行問句檢索。
[0010] 優(yōu)選地,所述依照概念對象模型知識表示方法,建立領(lǐng)域概念對象模型,具體步驟 為;通過分析領(lǐng)域問句特點從中抽取領(lǐng)域概念、領(lǐng)域?qū)ο?、概念屬性和對象屬性、及它們?間的關(guān)系,得到領(lǐng)域概念集合、領(lǐng)域?qū)ο蠹稀傩约霞瓣P(guān)系集合,經(jīng)分析關(guān)系集合中的 關(guān)系定義關(guān)系的表示形式,其中概念與屬性之間的關(guān)系、概念與概念間的繼承關(guān)系、概念與 對象之間的關(guān)系分別單獨表示,最后建立領(lǐng)域概念對象模型,具體如下:
[0011] 步驟I. I ;抽取領(lǐng)域概念,建立領(lǐng)域概念集合Cone巧ts =咕,〔2,…C。};
[001引步驟1. 2 ;抽取領(lǐng)域?qū)ο?,建立領(lǐng)域?qū)ο蠹匣痡ects =腳,02,…,0。};
[001引步驟1. 3 ;抽取概念屬性和對象屬性,建立屬性集合Attributes = (Al, Ag,… .AJ ;
[0014] 步驟1. 4 ;抽取領(lǐng)域概念、領(lǐng)域?qū)ο?、概念屬性和對象屬性之間的關(guān)系,建立關(guān)系 集合Relations =出1,尺2,…,而};
[0015] 步驟1. 5 ;定義概念、屬性和對象之間的關(guān)系、概念與屬性之間的關(guān)系、概念與概 念間的繼承關(guān)系、概念與對象之間的關(guān)系和其他關(guān)系的表示形式,建立領(lǐng)域概念對象模型。
[0016] 優(yōu)選地,所述步驟3的具體步驟如下:
[0017] 步驟3. 1 ;利用正向最大匹配法,根據(jù)領(lǐng)域?qū)ο髱煺页鲇脩魡柧渲兴蓄I(lǐng)域?qū)ο螅?若問句只含有一個領(lǐng)域?qū)ο螅D(zhuǎn)步驟3. 2,否則轉(zhuǎn)步驟3. 3 ;
[0018] 步驟3. 2 ;對于領(lǐng)域?qū)ο?,根?jù)領(lǐng)域概念對象模型,獲取其概念的屬性作為對象屬 性,利用正向最大匹配法找出用戶問句包含的對象屬性,如果問句中沒有找到對象屬性,貝U 提供一個默認屬性,最后形成查詢問句的概念對象表示Q = {Q"wwt,Qwwbuw QaJ ;
[0019] 步驟3. 3 ;對于包含兩個及兩個W上領(lǐng)域?qū)ο蟮那闆r,首先根據(jù)領(lǐng)域概念對象模 型,判斷對象之間的關(guān)系,如果一個對象與其他對象之間是對象和屬性的關(guān)系,則認為問句 只包含一個對象,其余為對象的屬性,轉(zhuǎn)步驟3. 2 ;如果一個對象所屬的概念與另一個對象 所屬的概念是上下位關(guān)系,則W下位對象為唯一的領(lǐng)域?qū)ο?,轉(zhuǎn)步驟3. 2 ;其他情況轉(zhuǎn)步驟 3. 4 ;
[0020] 步驟3. 4;對于問句包含多個領(lǐng)域?qū)ο蟮那闆r,把問句表示為領(lǐng)域?qū)ο蟆ο髮?性、對象關(guān)系及其他四部分,Q = {Q"Weet,Qattfibute, Qtehti。。,Qte日t},得到用戶問句的概念對象模 式表示形式。
[0021] 優(yōu)選地,所述步驟4中的問句相似度計算分解為問句包含的對象之間的相似度計 算、對象屬性之間的相似度計算、對象關(guān)系之間的相似度計算、其余部分相似度計算四部 分;其中各部分的計算均看作是對應(yīng)的兩個集合的相似度計算,依次從一個集合中選取一 個元素分別與另一個集合中的元素計算相似度,挑選出最大相似度的元素對,循環(huán)直到第 一個集合為空;然后把挑選出的該些元素對的相似度相加,除W第一個集合包含的元素個 數(shù);最后將分別W兩個集合為基礎(chǔ)計算的結(jié)果平均得到兩個集合的相似度,問句之間的相 似度計算由四部分計算結(jié)果加權(quán)計算得到。
[0022] 優(yōu)選地,所述步驟4的具體步驟如下:
[0023] 步驟4. 1 ;對象部分相似度計算:
[0024]
【權(quán)利要求】
1. 一種基于概念對象模型的問句檢索方法,其特征在于,依次包括如下步驟: 步驟1:根據(jù)研究限定領(lǐng)域問句的特點,依照概念對象模型知識表示方法,建立領(lǐng)域概 念對象模型; 步驟2 :用戶輸入文本問句并確定; 步驟3:字符串流處理,抽取問句中的概念、對象及屬性,利用概念或?qū)ο竺枋鰡柧涞?主題,利用概念或?qū)ο蟮膶傩悦枋鰡柧浣裹c,把問句表示為概念對象模型表示形式; 步驟4 :基于概念對象模型定義問句的相似度計算方式,具體為把問句相似度計算分 為四部分,對象間相似度計算、屬性間相似度計算、關(guān)系間相似度計算和其余部分相似度計 算,最后加權(quán)計算得到問句的相似度計算方式; 步驟5 :基于問句的相似度計算方式進行問句檢索。
2. 如權(quán)利要求1所述的一種基于概念對象模型的問句檢索方法,其特征在于:所述依 照概念對象模型知識表示方法,建立領(lǐng)域概念對象模型,具體步驟為:通過分析領(lǐng)域問句 特點從中抽取領(lǐng)域概念、領(lǐng)域?qū)ο蟆⒏拍顚傩院蛯ο髮傩?、及它們之間的關(guān)系,得到領(lǐng)域概 念集合、領(lǐng)域?qū)ο蠹?、屬性集合及關(guān)系集合,經(jīng)分析關(guān)系集合中的關(guān)系定義關(guān)系的表示形 式,其中概念與屬性之間的關(guān)系、概念與概念間的繼承關(guān)系、概念與對象之間的關(guān)系分別單 獨表示,最后建立領(lǐng)域概念對象模型,具體如下: 步驟I. 1 :抽取領(lǐng)域概念,建立領(lǐng)域概念集合Concepts = IC1, C2,…Cj ; 步驟1. 2 :抽取領(lǐng)域?qū)ο?,建立領(lǐng)域?qū)ο蠹螼b jects = IO1, O2,…,Oj ; 步驟L 3:抽取概念屬性和對象屬性,建立屬性集合Attributes = ; 步驟1. 4 :抽取領(lǐng)域概念、領(lǐng)域?qū)ο?、概念屬性和對象屬性之間的關(guān)系,建立關(guān)系集合 Relations = (R1, R2, , R1I ; 步驟1. 5 :定義概念、屬性和對象之間的關(guān)系、概念與屬性之間的關(guān)系、概念與概念間 的繼承關(guān)系、概念與對象之間的關(guān)系和其他關(guān)系的表示形式,建立領(lǐng)域概念對象模型。
3. 如權(quán)利要求1所述的一種基于概念對象模型的問句檢索方法,其特征在于:所述步 驟3的具體步驟如下: 步驟3. 1 :利用正向最大匹配法,根據(jù)領(lǐng)域?qū)ο髱煺页鲇脩魡柧渲兴蓄I(lǐng)域?qū)ο?,若?句只含有一個領(lǐng)域?qū)ο?,轉(zhuǎn)步驟3. 2,否則轉(zhuǎn)步驟3. 3 ; 步驟3. 2 :對于領(lǐng)域?qū)ο螅鶕?jù)領(lǐng)域概念對象模型,獲取其概念的屬性作為對象屬性, 利用正向最大匹配法找出用戶問句包含的對象屬性,如果問句中沒有找到對象屬性,則提 供一個默認屬性,最后形成查詢問句的概念對象表示Q = (Qtjwec^Qattaibute, QmJ ; 步驟3. 3 :對于包含兩個及兩個以上領(lǐng)域?qū)ο蟮那闆r,首先根據(jù)領(lǐng)域概念對象模型,判 斷對象之間的關(guān)系,如果一個對象與其他對象之間是對象和屬性的關(guān)系,則認為問句只包 含一個對象,其余為對象的屬性,轉(zhuǎn)步驟3. 2 ;如果一個對象所屬的概念與另一個對象所屬 的概念是上下位關(guān)系,則以下位對象為唯一的領(lǐng)域?qū)ο螅D(zhuǎn)步驟3. 2 ;其他情況轉(zhuǎn)步驟3. 4 ; 步驟3. 4 :對于問句包含多個領(lǐng)域?qū)ο蟮那闆r,把問句表示為領(lǐng)域?qū)ο蟆ο髮傩?、?象關(guān)系及其他四部分,Q = {Q_t,Qattaibute, QMlatim,QmsJ,得到用戶問句的概念對象模式表 示形式。
4. 如權(quán)利要求1所述的一種基于概念對象模型的問句檢索方法,其特征在于:所述步 驟4中的問句相似度計算分解為問句包含的對象之間的相似度計算、對象屬性之間的相似 度計算、對象關(guān)系之間的相似度計算、其余部分相似度計算四部分;其中各部分的計算均看 作是對應(yīng)的兩個集合的相似度計算,依次從一個集合中選取一個元素分別與另一個集合中 的元素計算相似度,挑選出最大相似度的元素對,循環(huán)直到第一個集合為空;然后把挑選出 的這些元素對的相似度相加,除以第一個集合包含的元素個數(shù);最后將分別以兩個集合為 基礎(chǔ)計算的結(jié)果平均得到兩個集合的相似度,問句之間的相似度計算由四部分計算結(jié)果加 權(quán)計算得到。
5. 如權(quán)利要求1或4所述的一種基于概念對象模型的問句檢索方法,其特征在于:所 述步驟4的具體步驟如下:
式中sim(Wu,Wv)為詞Wu和詞Wv的相似度,其計算方法基于語義計算方式,W u和Wv分別 是Q' 和Qms中的詞,n4和m4分別是Q' Mst和QMst中詞的個數(shù); 步驟4. 5 :最終問句的相似度計算: SIM (Q' , Q) = B1SIMqobj (Q' obJ, Qobj) +B2SIMqatt (Q' att, Qatt) +B3SIMqrel (Q' rel, Qre x)+a4SIMqres (Q res, Qres) 其中,ai+a2+a3+a4 = 1,a2, a3, a4分別代表各相似度的分配系數(shù)。
6. 如權(quán)利要求5所述的一種基于概念對象模型的問句檢索方法,其特征在于:問句中 的對象表示問句的主題,其屬性表示問句的焦點,其中S1 = 0. 3,a2 = 0. 4,a3 = 0. 15,a4 = 0? 15。
7. 如權(quán)利要求5所述的一種基于概念對象模型的問句檢索方法,其特征在于:如果問 句的對象模型表示形式中缺少某一部分,則把這部分的系數(shù)按比例分配到其他系數(shù)中。
8. 如權(quán)利要求1所述的一種基于概念對象模型的問句檢索方法,其特征在于:所述問 句檢索用于檢索與用戶問句相似的問句,通過相似度計算并排序得到檢索結(jié)果。
【文檔編號】G06F17/30GK104331523SQ201410713510
【公開日】2015年2月4日 申請日期:2014年11月27日 優(yōu)先權(quán)日:2014年11月27日
【發(fā)明者】韓慧健, 賈可亮, 梁秀霞, 張銳, 劉崢, 其他發(fā)明人請求不公開姓名 申請人:韓慧健