本發(fā)明涉及機器人領(lǐng)域,具體說涉及一種針對問答系統(tǒng)的數(shù)據(jù)處理方法及系統(tǒng)。
背景技術(shù):
對于現(xiàn)有的通用知識庫體系,側(cè)重的應用場景,主要是日常聊天或者自動客服。但是,對于行業(yè)垂直領(lǐng)域,通用化的知識問答系統(tǒng),并不能很好地滿足用戶的基本需求。
比如,問答系統(tǒng)可以應答的問題是“macbook air的價格”。一方面,如果用戶問,“macbook pro的價格”,對于現(xiàn)有的通用知識庫的體系來說,這兩句話,由于具有較多的關(guān)鍵詞的匹配相似成分,所以,計算出來的相似度就會相對較高。其實,這兩句話的答案,是完全不同的。這樣造成的結(jié)果就是表意理解的錯誤,進而給用戶提供錯誤的信息。另一方面,如果有用戶問“air怎么賣的”。對于通用知識庫的體系的匹配計算和相似度計算來說,一般情況下,是不能給出兩條數(shù)據(jù)為相似的提問的結(jié)果的。
綜上,為了使得問答系統(tǒng)的應答更為精確,提高問答系統(tǒng)的用戶體驗,需要一種更優(yōu)的知識庫數(shù)據(jù)處理方法。
技術(shù)實現(xiàn)要素:
為了使得問答系統(tǒng)的應答更為精確,本發(fā)明提供了一種針對問答系統(tǒng)的數(shù)據(jù)處理方法,所述方法包括:
對接收到的用戶輸入進行語義分析,將用戶輸入解構(gòu)為用戶問題數(shù)據(jù);
調(diào)用用戶定制知識庫,對各個所述用戶問題數(shù)據(jù)進行基于用戶垂直領(lǐng)域的表意匹配,以獲取所述用戶輸入的表意數(shù)據(jù)。
在一實施例中:
將用戶輸入解構(gòu)為用戶問題數(shù)據(jù),其中,將用戶輸入解構(gòu)為問題主語以及問題主題;
對各所述用戶問題數(shù)據(jù)進行表意匹配,其中,對所述問題主語以及所述問題主題的用戶問題數(shù)據(jù)進行表意匹配。
在一實施例中,所述方法還包括:
根據(jù)所述用戶輸入的表意數(shù)據(jù)生成相應的應答數(shù)據(jù),其中,所述應答數(shù)據(jù)與所述問題主語以及所述問題主題的表意匹配結(jié)果表意匹配。
在一實施例中,所述用戶定制知識庫包含在所述用戶對應垂直領(lǐng)域具有相同表意的多個不同的用戶問題數(shù)據(jù)。
在一實施例中,構(gòu)造用戶定制知識庫,其中:
將用戶定制化數(shù)據(jù)和/或日志請求數(shù)據(jù)按照垂直領(lǐng)域進行表意類別劃分以獲取多個不同表意類別的用戶問題數(shù)據(jù),同一表意類別下的所述用戶問題數(shù)據(jù)具有相同表意。
本發(fā)明還提出了一種針對問答系統(tǒng)的數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括:
存儲模塊,其配置為存儲用戶定制知識庫;
語義分析模塊,其配置為對接收到的用戶輸入進行語義分析,將用戶輸入解構(gòu)為用戶問題數(shù)據(jù);
表意匹配模塊,其配置為調(diào)用所述用戶定制知識庫,對各個所述用戶問題數(shù)據(jù)進行基于垂直領(lǐng)域的表意匹配,以獲取所述用戶輸入的表意數(shù)據(jù)。
在一實施例中:
所述語義分析模塊配置為將用戶輸入解構(gòu)為問題主語以及問題主題;
所述表意匹配模塊配置為對所述問題主語以及所述問題主題的用戶問題數(shù)據(jù)進行表意匹配。
在一實施例中,所述系統(tǒng)還包括:
應答模塊,其配置為根據(jù)所述用戶輸入的表意數(shù)據(jù)生成相應的應答數(shù)據(jù),其中,所述應答數(shù)據(jù)與所述問題主語以及所述問題主題的表意匹配結(jié)果表意匹配。
在一實施例中,所述存儲模塊配置為存儲用戶定制知識庫,其中,所述用戶定制知識庫包含在所述用戶對應垂直領(lǐng)域具有相同表意的多個不同的用戶問題數(shù)據(jù)。
在一實施例中,所述系統(tǒng)還包括用戶定制知識庫構(gòu)造模塊,其配置為:
將用戶定制化數(shù)據(jù)和/或日志請求數(shù)據(jù)按照垂直領(lǐng)域進行表意類別劃分以獲取多個不同表意類別的用戶問題數(shù)據(jù),同一表意類別下的所述用戶問題數(shù)據(jù)以及所述標準問題數(shù)據(jù)具有相同表意。
根據(jù)本發(fā)明的方法以及系統(tǒng)可以對用戶輸入進行數(shù)據(jù)處理以完成對用戶輸入的表意理解;相較于現(xiàn)有技術(shù),根據(jù)本發(fā)明的方法以及系統(tǒng)可以獲得更為準確的表意數(shù)據(jù),用戶體驗得到極大提高。本發(fā)明的其它特征或優(yōu)點將在隨后的說明書中闡述。
并且,本發(fā)明的部分特征或優(yōu)點將通過說明書而變得顯而易見,或者通過實施本發(fā)明而被了解。本發(fā)明的目的和部分優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的步驟來實現(xiàn)或獲得。
附圖說明
附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例共同用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
圖1是根據(jù)本發(fā)明一實施例方法執(zhí)行流程圖;
圖2是根據(jù)本發(fā)明一實施例系統(tǒng)結(jié)構(gòu)簡圖。
具體實施方式
以下將結(jié)合附圖及實施例來詳細說明本發(fā)明的實施方式,借此本發(fā)明的實施人員可以充分理解本發(fā)明如何應用技術(shù)手段來解決技術(shù)問題,并達成技術(shù)效果的實現(xiàn)過程并依據(jù)上述實現(xiàn)過程具體實施本發(fā)明。需要說明的是,只要不構(gòu)成沖突,本發(fā)明中的各個實施例以及各實施例中的各個特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護范圍之內(nèi)。
對于現(xiàn)有的通用知識庫體系,側(cè)重的應用場景,主要是日常聊天或者自動客服。但是,對于行業(yè)垂直領(lǐng)域,通用化的知識問答系統(tǒng),并不能很好地滿足用戶的基本需求。
現(xiàn)有技術(shù)中,當用戶提問后,問答系統(tǒng)的通常做法是將用戶提問(用戶輸入)轉(zhuǎn)化為問答系統(tǒng)可以理解的表意數(shù)據(jù)(例如特定的關(guān)鍵詞),然后根據(jù)表意數(shù)據(jù)生成與表意數(shù)據(jù)對應的應答數(shù)據(jù)(通常的,問答系統(tǒng)從數(shù)據(jù)庫中搜索輸出表意匹配結(jié)果所對應的答案)。如果用戶輸入轉(zhuǎn)化為表意數(shù)據(jù)這一過程出現(xiàn)錯誤,那么就相當于問答系統(tǒng)對用戶輸入的具體含義理解錯誤,問答系統(tǒng)也就不可能輸出正確的回答。
在現(xiàn)有技術(shù)中,主要基于知識庫完成用戶輸入到表意數(shù)據(jù)的轉(zhuǎn)化。即基于知識庫對用戶輸入進行表意匹配以獲取表意數(shù)據(jù)。具體的,從知識庫中搜索與用戶輸入匹配的表意數(shù)據(jù)。如果知識庫中不存在與用戶輸入匹配的表意數(shù)據(jù),那么表意匹配就無法完成。
一般情況下,問答系統(tǒng)的知識庫包含了問答系統(tǒng)可應答領(lǐng)域的絕大多數(shù)問題樣本。通常,只要用戶提問沒有超出問答系統(tǒng)的應答范圍,其均可在知識庫中搜索到與用戶提問對應匹配的表意數(shù)據(jù)。
然而,在用戶提問時,用戶提問方式、問題表述方式等等是不受限的。尤其是在用戶采用簡化說法、違反語法格式的習慣用語等表述方式時,明明用戶提問的本意(表意)是在問答系統(tǒng)的應答范圍內(nèi),但是用戶提問的具體表述并不常見,因此在知識庫沒有對應的匹配關(guān)系,用戶提問無法轉(zhuǎn)化為問答系統(tǒng)可以理解的表意數(shù)據(jù),最終問答系統(tǒng)無法輸出正確答案。
例如,在一應用環(huán)境中,問答系統(tǒng)可以回答的問題是“macbook air的價格”(“macbook air的價格”這一表意數(shù)據(jù)可被問答系統(tǒng)理解并回答)。如果用戶直接問“macbook air的價格是多少”,其可以獲得正確的應答。但是如果用戶問“air的價格是多少”,由于現(xiàn)有的知識庫中并不存在“macbook air”與“air”的匹配關(guān)系,因此無法將“air的價格是多少”表意匹配成“macbook air的價格”。
也就是說,問答系統(tǒng)不會認為“macbook air的價格”與“air的價格是多少”的表意是一致(近似)的。問答系統(tǒng)基于“air的價格是多少”在知識庫中進行表意匹配,不可能得到“macbook air的價格”這一表意匹配結(jié)果。
為了解決上述問題,現(xiàn)有技術(shù)中采用的方法通常是增加知識庫中的匹配關(guān)系(不斷擴充知識庫)。然而,簡單的直接擴充知識庫行為會帶來負面效果。因為在實際應用場合中,數(shù)據(jù)表意的匹配(近似)關(guān)系是必須結(jié)合具體環(huán)境的。脫離了某些特定的應用環(huán)境,某些表意匹配關(guān)系(近似關(guān)系)就不成立了。
以上面的舉例為例,如果是進行蘋果電腦的銷售詢問,那么“macbook air”與“air”可以建立匹配關(guān)系,即“air”可以指代“macbook air”。但是,如果在日常對話里面,“air”則不會一定指代“macbook air”,其指代的可能是“空氣”。
基于上述分析,為了使得問答系統(tǒng)的應答更為精確,提高問答系統(tǒng)的用戶體驗,本發(fā)明提出了一種針對問答系統(tǒng)的數(shù)據(jù)處理方法。
本發(fā)明的基本思路是從知識庫入手。在特定的問答環(huán)境中,基本上不存在同一提問包含多種根本不同的表意解釋的情況。即當具體的問答環(huán)境確定后,數(shù)據(jù)表意的匹配關(guān)系也就確立了。另外,針對特定的問答環(huán)境,其常用的(慣用的)提問規(guī)?;旧弦彩强梢灶A期的(出現(xiàn)意料之外的提問的幾率很小)。因此,在本發(fā)明一實施例中,針對不同的問答環(huán)境(用戶對應垂直領(lǐng)域)構(gòu)造不同的用戶定制知識庫。在問答系統(tǒng)進行人機交互問答時,根據(jù)當前的問答環(huán)境調(diào)用對應的用戶定制知識庫。這樣就能大大提高提問數(shù)據(jù)的表意匹配成功率,避免出現(xiàn)用戶提問無法識別或表意匹配錯誤的情況。
例如,在用戶進行蘋果牌電子產(chǎn)品價格咨詢時,其問題中如果出現(xiàn)“air”,基本上不可能是表述“空氣”這一表意,而是表述“macbook air”這一產(chǎn)品型號。因此構(gòu)造針對應蘋果牌電子產(chǎn)品價格咨詢的用戶定制知識庫,在該用戶定制知識庫中“air”與“macbook air”匹配。
接下來基于附圖詳細說明根據(jù)本發(fā)明一實施例的方法具體執(zhí)行過程。附圖的流程圖中示出的步驟可以在包含諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行。雖然在流程圖中示出了各步驟的邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
如圖1所示,在本發(fā)明一實施例中,在進行問答過程中,問答系統(tǒng)首先對接收到的用戶輸入進行語義分析(步驟S110);然后將用戶輸入解構(gòu)為用戶問題數(shù)據(jù)(步驟S120)。具體的,步驟S120主要是將用戶輸入結(jié)構(gòu)為多個用戶問題數(shù)據(jù)(問題元素)。例如,“air的價格是多少”解構(gòu)為“air”和“價格多少”。
接著調(diào)用用戶定制知識庫(步驟S130)。在步驟S130中,要根據(jù)當前問答的具體執(zhí)行環(huán)境、語境和/或問答需求來調(diào)用匹配的用戶定制知識庫。
例如,如果當前進行的是蘋果牌電子產(chǎn)品的銷售價格咨詢,則調(diào)用相應的用戶定制知識庫。在該知識庫中,“Apple”的表意與“電子品牌蘋果”匹配;“air”的表意與“產(chǎn)品型號macbook air”匹配。同樣的,如果當前進行的是水果類相關(guān)的咨詢,在調(diào)用的用戶自定義知識庫中,“Apple”的表意就與“水果-蘋果”匹配。
進一步的,在本發(fā)明一實施例中,也可以根據(jù)用戶身份屬性或者是用戶的歷史問答記錄調(diào)用對應的用戶自定義知識庫。
例如,如果用戶的登陸身份是蘋果電子產(chǎn)品銷售人員,那么調(diào)用的用戶自定義知識庫中,“Apple”的表意與“電子品牌蘋果”匹配。如果用戶的歷史問答記錄大多是水果相關(guān)的咨詢,調(diào)用的用戶自定義知識庫中,“Apple”的表意就與“水果-蘋果”匹配。
在調(diào)用對應的用戶自定義知識庫后,就可以基于用戶自定義知識庫對各個用戶問題數(shù)據(jù)進行基于垂直領(lǐng)域的表意匹配(步驟S140),并接下來根據(jù)表意匹配的結(jié)果獲取用戶輸入的表意數(shù)據(jù)(步驟S150)。
具體的,在步驟S140中,將步驟S120中獲取的各個用戶問題數(shù)據(jù)(問題元素)分別進行表意匹配。例如,“air的價格是多少”解構(gòu)為“air”和“的價格是多少”,表意匹配結(jié)果為“macbook air”和“價格”,最終在步驟S150中獲取到的表意數(shù)據(jù)即“macbook air的價格”。
進一步的,基于步驟S150獲取的表意數(shù)據(jù),問答系統(tǒng)就可以生成對應的應答數(shù)據(jù)(步驟S160)。即根據(jù)用戶輸入的表意數(shù)據(jù)生成相應的應答數(shù)據(jù)。
在步驟S140中,由于匹配基準參考的是用戶自定義知識庫,因此大大降低了匹配錯誤或是無法匹配情況出現(xiàn)的幾率,能獲得比泛用的普通知識庫更加正確合理的匹配結(jié)果。這就大大提高了獲取到的用戶輸入的表意數(shù)據(jù)的準確程度,。隨著問答系統(tǒng)獲取的用戶輸入的表意數(shù)據(jù)準確度的提高,問答系統(tǒng)做出的應答的準確度也就相應提高。
進一步的,在用戶提問時,由于用戶提問方式、問題表述方式等等是不受限的,很多相似的用戶輸入表達的是同一意思。但是問答系統(tǒng)在進行匹配時,并不是如同人類思考流程一樣以提問的含義為出發(fā)點,其進行匹配時是直接對比兩組數(shù)據(jù)(如果兩組數(shù)據(jù)不同就不能匹配)。在這種情況下,意思相同的用戶輸入因為一些與表意無關(guān)的微小不同被問答系統(tǒng)識別成具有完全不同表意的用戶輸入。按照完美匹配的方式從知識庫中搜索用戶輸入完全一致的匹配關(guān)系),很可能造成表意匹配結(jié)果為空的情況發(fā)生。
針對上述問題,在本發(fā)明一實施例中,問答系統(tǒng)采用的近似匹配的模式。即在匹配時計算兩組數(shù)據(jù)的相似度,如果相似度大于預設(shè)的閾值則認為兩組數(shù)據(jù)含義相同,可以近似匹配。這樣就能大大提高問答系統(tǒng)對用戶輸入進行表意匹配的靈活度,提高系統(tǒng)對用戶輸入的理解能力。
但是,在某些應用環(huán)境中,數(shù)據(jù)相似度很低的兩組數(shù)據(jù)具備相同的表意。例如,“怎么賣”“多少錢”“價格”等多種異形同義詞的表達,通用的知識庫并不能很好的處理這種情況。在這種情況下,“air多少錢”和“air怎么賣”兩句話的相似程度就會相對較低,其實它們的語義是完全相同的。
針對異形同義詞的問題,在本發(fā)明一實施例中,采用語義分類的解決方案,基于語義將用戶問題數(shù)據(jù)歸類。用戶定制知識庫包含在對應的用戶對應垂直領(lǐng)域具有相同表意的多個不同的用戶問題數(shù)據(jù)。
具體的,問答系統(tǒng)使用了詞向量和支持向量機(svm)等自然語言處理工具,采用數(shù)據(jù)訓練的方式構(gòu)造用戶定制知識庫。
詞向量,是指通過神經(jīng)網(wǎng)絡(luò)的訓練模型,可以把每一個自然語言的詞匯,表示成多維空間中的一個向量表示。在這樣的一個維度下,詞語是可計算的,因此,就可以得到兩個詞之間的距離,這個數(shù)值,正是兩個詞語的相近程度的數(shù)學表示。如果距離很近甚至接近相等的話,系統(tǒng)就可以處理這兩個詞語,認為這兩個詞基本是表意相同的,比如“怎么賣”和“價格”。
SVM,即支持向量機,是一種典型的有監(jiān)督學習的分類算法。svm首先要求有多個標注好的類別,作為數(shù)據(jù)分類的依據(jù)。這些數(shù)據(jù)作為svm的輸入,同樣也是向量形式的數(shù)學表示,此過程稱之為訓練。把更多的數(shù)據(jù)作為模型的輸入,模型的輸出結(jié)果就是算法的分類結(jié)果。因此,在本發(fā)明一實施例中,把相同答案的問題,也就是相同的語義的不同問題的問法,作為svm定義的類別。然后拿客戶提供的數(shù)據(jù)以及用戶請求的日志數(shù)據(jù),作為模型的輸入,然后,算法輸出的分類類別就是需要的語義處理的結(jié)果。
通過詞向量和svm的模型,得到的所有的數(shù)據(jù)的分類,如果說兩條數(shù)據(jù)在同一類,那么該系統(tǒng)認為,它們的語義是完全相同的,比如“多少錢”和“價格”。因此,在這樣的一個層面上,便解決了相同的語義但是相似度很低的問題,由此,相較于通用化的知識庫,便可以提高系統(tǒng)的整體召回率。
對應用戶定制知識庫的語義分類結(jié)構(gòu),在本發(fā)明一實施例中,基于對用戶定制化數(shù)據(jù)和/或日志請求數(shù)據(jù)按照垂直領(lǐng)域進行表意類別劃分來構(gòu)造用戶定制知識庫。在構(gòu)造用戶定制知識庫的過程中將用戶定制化數(shù)據(jù)和/或日志請求數(shù)據(jù)按照垂直領(lǐng)域進行表意類別劃分以獲取多個不同表意類別的用戶問題數(shù)據(jù),同一表意類別下的所述用戶問題數(shù)據(jù)具有相同表意。
進一步的,為了簡化用戶定制知識庫的建立流程,在一實施例中,采用數(shù)據(jù)訓練的方式構(gòu)造用戶定制知識庫。定制化知識庫,需要兩個層面的數(shù)據(jù)作為數(shù)據(jù)輸入。一部分是客戶提供的,需要訓練的定制化數(shù)據(jù),可選的,由于其專業(yè)化和定制屬性,也可以使用該客戶的用戶的所有日志請求數(shù)據(jù),作為訓練數(shù)據(jù)。另外的一個部分的系統(tǒng)的輸入,就是該客戶的用戶的正常數(shù)據(jù)請求,亦即系統(tǒng)最核心的部分,實現(xiàn)的語義理解的工作,最終按照客戶的意圖輸出用戶需求的正確答案。
具體的,對于數(shù)據(jù)訓練的流程,在接收到客戶提供的需要訓練的數(shù)據(jù)之后,系統(tǒng)會首先經(jīng)過數(shù)據(jù)的過濾和預處理的步驟,然后根據(jù)用戶提供的多條問題和一條答案,對相應的數(shù)據(jù),進行分類,在這樣的一個過程中,會同時對一個問題進行數(shù)據(jù)標注,每一個分類,標注一條數(shù)據(jù)或者幾條數(shù)據(jù)即可。之后通過切詞,使用詞向量,得到每一個詞語的向量表示。然后這些數(shù)據(jù),就可以作為SVM算法的輸入,SVM的輸出數(shù)據(jù),恰好就是需要的每一個問題的同義的多種不同表述。
基于上述方法,可以實現(xiàn)異形同義詞、相似同義詞的語義匹配。但是,在有些應用環(huán)境中,近似匹配會造成匹配錯誤。具體的,問答系統(tǒng)在進行近似匹配時,其匹配過程仍然是對比兩組數(shù)據(jù),與完全匹配不同的只是對比時不會要求數(shù)據(jù)百分之百相同。也就是說,其匹配基礎(chǔ)仍然并不是對用戶輸入的具體含義的理解。那么,兩組數(shù)據(jù)極為相似但是具體含義不同時,問答系統(tǒng)會基于數(shù)據(jù)對比結(jié)果將兩組數(shù)據(jù)視為相似輸入(含義相同的提問),這就必然造成表意理解上的錯誤。
例如,問答系統(tǒng)所能夠回答的標準問題是“macbook air的價格”,如果用戶問“macbook pro的價格”,對于問答來說,這兩句話,由于具有較多的關(guān)鍵詞的匹配相似成分,所以,近似匹配得出的結(jié)果是這兩個提問的含義相同。其實,這兩句話的答案,是完全不同的。這樣造成的結(jié)果就是表意理解的錯誤,進而給用戶提供錯誤的信息。
針對上述情況,在本發(fā)明一實施例中,對問答系統(tǒng)進行相似匹配做細節(jié)限制,將語義解析出的某些詞進行嚴格匹配。具體的,在步驟S120中,從用戶輸入中解構(gòu)出關(guān)鍵的用戶問題數(shù)據(jù)(直接影響問題具體表意的關(guān)鍵問題元素)。然后在執(zhí)行步驟S140時,對關(guān)鍵的用戶問題數(shù)據(jù)進行更為嚴格的表意匹配(例如完全匹配或是相似度要求更高的近似匹配)。
在實際應用環(huán)境中,對于特定的用戶提問,都包含主語和主題兩個成分,這兩個成分,代表了該條請求的最核心和最關(guān)鍵的信息,絕對不容有差。例如,“macbook air的價格”和“macbook pro的價格”的主語分別是“macbook air”和“macbook pro”,無論它們字面上多么相像,它們(主語)表意上的不同都決定了兩個問題表意上的根本不同。
又如,“奧迪A6后備箱開口寬度是多少”和“奧迪A6后備箱開口高度是多少”。兩句話的主語相同,都是“奧迪A6”,但是一個的主題是“后備箱開口寬度”,另外一個的主題是“后備廂開口高度”,無論它們字面上多么相像,主題表意上的不同都決定了兩個問題表意上的根本不同。
因此,在本發(fā)明一實施例中:
在圖1所示的步驟S120中,將用戶輸入解構(gòu)為用戶問題數(shù)據(jù),其中,將用戶輸入解構(gòu)為問題主語以及問題主題;
在圖1所示的步驟S140中,對各用戶問題數(shù)據(jù)進行表意匹配,其中,對所述問題主語以及所述問題主題的用戶問題數(shù)據(jù)進行表意匹配(尤其的,該匹配為完全匹配或是相似度極高的近似匹配)。
進一步的,在圖1所示的步驟S160中,應答數(shù)據(jù)與問題主語以及問題主題的表意匹配結(jié)果表意匹配。具體的,只有該應答數(shù)據(jù),完全與問題主語以及問題主題的表意匹配結(jié)果表意匹配,然后,提問數(shù)據(jù)的剩余數(shù)據(jù)又沒有其他的干擾信息,才會返回該應答數(shù)據(jù),作為此系統(tǒng)處理的最終輸出結(jié)果。
進一步的,在本發(fā)明一實施例中,將用戶定制知識庫與通用知識庫結(jié)合,用戶定制知識庫作為通用知識庫的補充優(yōu)化。問答系統(tǒng)在用戶正常請求的時候,進行賬號的判斷。如果該賬號是用戶定制知識庫的用戶,那么在調(diào)用通用的知識庫的同時(如果他也有通用知識庫數(shù)據(jù)的話),也會調(diào)用用戶定制知識庫。如果兩個知識庫的結(jié)果有沖突,會優(yōu)先取用用戶定制知識庫的匹配結(jié)果作為最終的結(jié)果。
綜上,根據(jù)本發(fā)明的方法可以對用戶輸入進行數(shù)據(jù)處理以完成對用戶輸入的表意理解。相較于現(xiàn)有技術(shù),根據(jù)本發(fā)明的方法可以獲得更為準確的表意數(shù)據(jù),用戶體驗得到極大提高。
基于本發(fā)明的方法,本發(fā)明還提出了一種針對問答系統(tǒng)的數(shù)據(jù)處理系統(tǒng)。如圖2所示,在本發(fā)明一實施例中,系統(tǒng)包括:
存儲模塊210,其配置為存儲用戶定制知識庫211;
語義分析模塊220,其配置為對接收到的用戶輸入進行語義分析,將用戶輸入解構(gòu)為用戶問題數(shù)據(jù);
表意匹配模塊230,其配置為調(diào)用用戶定制知識庫211,對各個用戶問題數(shù)據(jù)進行基于垂直領(lǐng)域的表意匹配,以獲取用戶輸入的表意數(shù)據(jù)。
進一步的,系統(tǒng)還包括應答模塊240,其配置為根據(jù)用戶輸入的表意數(shù)據(jù)生成相應的應答數(shù)據(jù)。
為了提高問答系統(tǒng)的應答準確程度,在一實施例中,語義分析模塊220配置為將用戶輸入解構(gòu)為問題主語以及問題主題;表意匹配模塊230配置為對問題主語以及問題主題的用戶問題數(shù)據(jù)進行表意匹配。對應的,應答模塊240配置為應答數(shù)據(jù)與用戶輸入的問題主語以及問題主題的表意匹配結(jié)果表意匹配。
進一步的,在一實施例中,用戶定制知識庫211包含在用戶對應垂直領(lǐng)域具有相同表意的多個不同的用戶問題數(shù)據(jù)。對應的,在一實施例中,系統(tǒng)還包含用于構(gòu)造用戶定制知識庫211的用戶定制知識庫構(gòu)造模塊。用戶定制知識庫構(gòu)造模塊配置為:將用戶定制化數(shù)據(jù)和/或日志請求數(shù)據(jù)按照垂直領(lǐng)域進行表意類別劃分以獲取多個不同表意類別的用戶問題數(shù)據(jù),同一表意類別下的用戶問題數(shù)據(jù)以及標準問題數(shù)據(jù)具有相同表意。
綜上,根據(jù)本發(fā)明的系統(tǒng),可以實現(xiàn)對用戶輸入的數(shù)據(jù)進行表意理解并輸出對應的應答。相較于現(xiàn)有技術(shù),本發(fā)明的系統(tǒng)輸出的應答數(shù)據(jù)的準確率大大提高,用戶體驗得到極大增強。
以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
雖然本發(fā)明所公開的實施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實施方式,并非用以限定本發(fā)明。本發(fā)明所述的方法還可有其他多種實施例。在不背離本發(fā)明實質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當可根據(jù)本發(fā)明作出各種相應的改變或變形,但這些相應的改變或變形都應屬于本發(fā)明的權(quán)利要求的保護范圍。