子,表2的第一行列出了 6種 操作符:等于、大于、大于等于、小于、小于等于和不等于。
[0049]
| \ \
[0050] 表 2
[0051] 接下來,在步驟S304中,根據語義映射表將用戶輸入的查詢語句擴展為一個或多 個查詢語句。
[0052] 根據所生成的語義映射表,對圖2中任一表頭的查詢都可被轉換為一個或多個針 對源表頭的查詢語句。如下是針對表頭1的一個查詢語句。
[0053] SELECT Title, Author
[0054] FROM Article
[0055] WHERE Author = 'Strehl'
[0056] 根據本發(fā)明的方法,該查詢會被擴展為針對表頭2、3、4的三個查詢語句,如下所 示:
[0057] 表頭 2: SELECT Title, Author list
[0058] FROM Conference paper
[0059] WHERE Author list like 'Strehl'
[0060] 表頭 3: SELECT Title, Authorl, Author2
[0061] FROM Journal paper
[0062] WHERE Authorl = 'Strehl' OR Author2 = 'Strehl'
[0063] 表頭 4: SELECT Title, Inventor
[0064] FROM Patent
[0065] WHERE Inventor = 'Strehl,
[0066] 如果用戶提供的是針對表頭2的查詢,則該查詢會被轉換為針對表頭3和4的兩 個查詢語句,如下所示,然后將針對表頭2、3、4的三個查詢語句的結果作為最終結果返回 給用戶。
[0067] 表頭 3: SELECT Title, Authorl, Author2
[0068] FROM Journal paper
[0069] WHERE Authorl IN( 'Strehl')0R Author2 IN( 'Strehl')
[0070] 表頭 4: SELECT Title, Inventor
[0071] FROM Patent
[0072] WHERE Inventor = 'Strehl'
[0073] 在根據本發(fā)明的一個實施例的數(shù)據查詢方法中,用戶輸入的查詢語句針對的是層 次虛擬表頭中的一個表頭,所擴展的一個或多個查詢語句針對的是層次虛擬表頭中的其他 相關表頭。
[0074] 在一個實施例中,根據語義映射表將用戶輸入的查詢語句擴展為一個或多個查詢 語句包括:如果用戶輸入的查詢語句針對的表頭是源表頭并且該源表頭沒有兄弟表頭,則 查詢語句集合只包括用戶輸入的查詢語句;否則,生成針對表頭的子表頭的查詢語句以及 針對表頭的兄弟表頭的查詢語句;從用戶輸入的查詢語句所針對的表頭開始,向下或同層 遍歷層次虛擬表頭,以生成所有查詢語句。
[0075] 接下來,在步驟S306中,計算擴展的每個查詢語句與用戶輸入的查詢語句之間的 相似度。
[0076] 在一個實施例中,根據用戶輸入的查詢語句中的子句與擴展的查詢語句中的子句 之間的相似度以及一個表頭與其他相關表頭的相似度來計算擴展的每個查詢語句與用戶 輸入的查詢語句之間的相似度。
[0077] 具體地,為了衡量兩個查詢語句而不是查詢概念(詞與詞之間)的相似度,本發(fā)明 中的方法考慮兩個子相似度:l、"seleCt"子句之間的相似度;2、"from"子句之間的相似 度。此外,還將兩個表頭的相似度考慮在內。對兩個屬性的相似度,根據語義相似的四種不 同類型,定義不同的相似值。
[0078] 在一個實施例中,可以將具有 isEquivalentTo ( = ),isCloseTo ( ^ ), isSubConceptOf ( ),isSuperConceptOf ( 3 )這四種語義關系的兩個屬性的相似值分別 定義為 l、〇. 7、0. 8 和 0. 8。
[0079] 可以將"from"子句的兩個表頭名稱的相似值定義為1或0. 7,即當兩個表頭是父 子關系時,相似值為1,因為查詢語句必須向下轉換到源表頭;當兩個表頭是兄弟關系時, 相似值為0.7。
[0080] 根據以上定義,可以將兩個查詢語句的相似度衡量公式設計如公式(1)所示。
[0083] 其中,similarity h,q)表示兩個查詢語句qi和屮之間的相似度;simh, sj表 示兩個表頭名稱Si和Sj之間的相似度;&是具有isEquivalentTo (=)語義相似性的屬性 對的個數(shù);nsub 和 nsup 分別是具有 isSubConceptOf ( s:)和 isSuperConceptOf ( ;□:)語義相 似性的屬性對的個數(shù);nclcised是具有isCloseTo (~)語義相似性的屬性對的個數(shù);nselect表 示查詢語句qi中"select"子句的屬性個數(shù);n from表示查詢語句q;中"from"子句的表頭名 稱的個數(shù);tni表示查詢語句q;中"from"子句的第η個表頭。
[0084] 通過以上公式(1)可以計算出擴展的每個查詢語句與用戶輸入的查詢語句之間 的相似度。接著,在步驟S308中,選擇與用戶輸入的查詢語句的相似度大于預定閾值的擴 展的查詢語句構成查詢語句集合進行查詢。
[0085] 在一個實施例中,設計了針對層次虛擬表頭進行查詢轉換的函數(shù)Function 1- Query_reformulation (q, S, Μ, A, T, Q)。該函數(shù)是一個遞歸函數(shù)。對于任意一個查詢語句 "q",該函數(shù)會輸出一個針對源表頭的查詢集合"Q"。該函數(shù)的輸入包括:查詢q、q所在的 表頭S、層次虛擬表頭Μ、屬性對應關系A、和語義映射表T。輸出為:針對源表頭的查詢集合 Q。
[0086] 函數(shù)首先會進行一個判斷,如果用戶輸入的查詢"q"所在的表頭"S"是一個源表 頭且沒有兄弟表頭,則函數(shù)輸出只包含一個查詢語句"q"的查詢集合"Q",否則函數(shù)先為表 頭"S"的子表頭生成查詢語句,然后為"S"的兄弟表頭生成查詢語句。優(yōu)選地,該函數(shù)以深 度優(yōu)先的方式遍歷層次虛擬表頭并生成擴展的查詢語句。
[0087] 在一個實施例中,函數(shù)Function 1的具體流程如下:
[0088] 1 :如果用戶輸入的查詢"q"所在的表頭"S"是一個源表頭且沒有兄弟表頭
[0089] 2 :則 Q = Q U {q}
[0090] 3 :返回 Q
[0091] 4 :如果S具有子表頭(例如,子表頭集合Cl古Φ)
[0092] 5 :針對每個表頭Sl e Q
[0093] 6 :根據q、M、Sl和S之間的屬性對應關系、以及語義映射表T生成查詢qi
[0094] 7 :如果qi和q的語義相似度大于閾值Θ
[0095] 8 :Query_reformulation (qi; s;, M, A, Τ, Q)
[0096] 9 :如果S具有兄弟表頭(例如,兄弟表頭集合C2古Φ)
[0097] 10 :針對每個表頭Sj e C2
[0098] 11 :根據q、M、Sj和S之間的屬性對應關系、以及語義映射表T生成查詢qj
[0099] 12 :如果qj和q的語義相似度大于閾值Θ
[0100] 13 :Query_reformulation (q^ Sj, M, A, Τ, Q)
[0101] 下面示出了函數(shù)Function 1的機器表達式:
[0102]
[0103] 對于Function 1中的步驟6和11,根據針對表頭s的查詢語句q生成針對表頭 s'的查詢語句q'的具體步驟如下。
[0104] 第一、對查詢語句q中"select"子句的每個屬性,從屬性對應關系A中找到對應 的屬性,這些屬性構成了新的查詢語句的"select"子句中的屬性。
[0105] 第二、使用表頭s'的名稱作為新的"from"子句的表頭名稱。
[0106] 第三、對于"where"子句中的屬性,在語義映射表T中,從行和列分別定位屬性對 應關系和操作符,選擇相應的行和列中的元素作為新的"where"子句中的條件。
[0107] 通過以上步驟,即可生成針對源表頭的查詢語句,可以將這些查詢語句的查詢結 果返回給用戶,如圖2中的步驟4和5那樣。
[0108] 需要指出的是,F(xiàn)unction 1并不是一個完全的遞歸函數(shù),在步驟7和12,會對擴展 的查詢與用戶輸入的查詢進行如上面步驟S306所述的相似度計算,然后再與預定閾值Θ 進行比較,只有大于預定閾值Θ的擴展查詢才會往下進行轉換。
[0109] 圖4是示出根據本發(fā)明的一個實施例的數(shù)據查詢裝置400的示例性配置的框圖。
[0110] 如圖4所示,數(shù)據查詢裝置400包括:語義映射表生成單元402、查詢語句擴展單 元404、相似度計算單元406、以及查詢語句集合構成單元408。
[0111] 其中,語義映射表生成單元402被配置成基于層次虛擬表頭中的屬性生成語義映 射表。
[0112] 查詢語句擴展單元404被配置成根據語義映射表將用