本發(fā)明涉及數(shù)據(jù)處理領域,特別是涉及一種智能問答方法和裝置。
背景技術:
自動回答智能系統(tǒng)通常是基于受限領域歷史積累的FAQ(Frequently Asked Question,常見問題解答)數(shù)據(jù)進行構建,受限于FAQ數(shù)據(jù)集的完備性,F(xiàn)AQ數(shù)據(jù)越多,系統(tǒng)能夠回答的問題類型和數(shù)量也越多,反之越少。然而,因數(shù)據(jù)積累不足或沒有數(shù)據(jù)積累的領域,給出的答案準確性較低。
技術實現(xiàn)要素:
基于此,有必要針對傳統(tǒng)的FAQ系統(tǒng)回答問題不準確的問題,提供一種智能問答方法和裝置。
一種智能問答方法,包括:
獲取待解答問題;
將所述待解答問題分別發(fā)送給基于常見問題解答的問答系統(tǒng)和基于知識庫的問答系統(tǒng);
獲取所述基于常見問題解答的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度,以及獲取所述基于知識庫的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度;
獲取所述可信度中最高可信度,將所述最高可信度與可信度閾值比較;
若所述最高可信度大于或等于所述可信度閾值,則將所述最高可信度對應的候選答案作為所述待解答問題所對應的答案。
一種智能問答裝置,包括:
問題獲取模塊,用于獲取待解答問題;
發(fā)送模塊,用于將所述待解答問題分別發(fā)送給基于常見問題解答的問答系統(tǒng)和基于知識庫的問答系統(tǒng);
候選答案獲取模塊,用于獲取所述基于常見問題解答的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度,以及獲取所述基于知識庫的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度;
比較模塊,用于獲取所述可信度中最高可信度,將所述最高可信度與可信度閾值比較;
答案確定模塊,用于若所述最高可信度大于或等于所述可信度閾值,則將所述最高可信度對應的候選答案作為所述待解答問題所對應的答案。
上述智能問答方法和裝置,通過將待解答問題發(fā)送給基于常見問題解答的問答系統(tǒng)和基于知識庫的問答系統(tǒng),獲取到基于常見問題解答的問答系統(tǒng)反饋的候選答案及對應的可信度,以及基于知識庫的問答系統(tǒng)反饋的候選答案及對應的可信度,篩選出最高可信度,若最高可信度大于或等于可信度閾值,則將最高可信度對應的候選答案作為待解答問題的答案,基于兩種不同的問答系統(tǒng)得到的答案進行可信度比較,得到的待解答問題的答案的準確性高。
附圖說明
圖1為一個實施例中智能問答方法的應用環(huán)境示意圖;
圖2為一個實施例中服務器的內部結構示意圖;
圖3為一個實施例中智能問答方法的流程圖;
圖4為一個實施例中獲取所述基于常見問題解答的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度的流程圖;
圖5為一個實施例中獲取所述基于知識庫的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度的流程圖;
圖6為一個實施例中智能問答裝置的結構框圖;
圖7為一個實施例中智能問答裝置的結構框圖。
具體實施方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
可以理解,本發(fā)明所使用的術語“第一”、“第二”等可在本文中用于描述各種元件,但這些元件不受這些術語限制。這些術語僅用于將第一個元件與另一個元件區(qū)分。舉例來說,在不脫離本發(fā)明的范圍的情況下,可以將第一客戶端稱為第二客戶端,且類似地,可將第二客戶端稱為第一客戶端。第一客戶端和第二客戶端兩者都是客戶端,但其不是同一客戶端。
圖1為一個實施例中智能問答方法的應用環(huán)境示意圖。如圖1所示,該應用環(huán)境包括終端110和服務器120。終端110與服務器120進行會話通信。服務器120上包括會話管理器、基于常見問題解答的問答系統(tǒng)和基于知識庫的問答系統(tǒng)。會話管理器用于獲取待解答問題,將待解答問題分別發(fā)送給基于常見問題解答的問答系統(tǒng)和基于知識庫的問答系統(tǒng),并得到基于常見問題解答的問答系統(tǒng)返回的答案及對應的可信度和基于知識庫的問答系統(tǒng)返回的答案及對應的可信度,篩選出最高可信度,將最高可信度與可信度閾值比較,若大于或等于可信度閾值,則將最高可信度對應的答案作為該待解答問題的答案。
圖2為一個實施例中服務器(或云端等)的內部結構示意圖。如圖2所示,該服務器包括通過系統(tǒng)總線連接的處理器、非易失性存儲介質、內存儲器和網(wǎng)絡接口。其中,該服務器的非易失性存儲介質存儲有操作系統(tǒng)、數(shù)據(jù)庫和智能問答裝置,數(shù)據(jù)庫中存儲有基于常見問題解答的問答系統(tǒng)和基于知識庫的問答系統(tǒng),該智能問答裝置用于實現(xiàn)適用于服務器的一種智能問答方法。該服務器的處理器用于提供計算和控制能力,支撐整個服務器的運行。該服務器的內存儲器為非易失性存儲介質中的智能問答裝置的運行提供環(huán)境,該內存儲器中可儲存有計算機可讀指令,該計算機可讀指令被所述處理器執(zhí)行時,可使得所述處理器執(zhí)行一種智能問答方法。該服務器的網(wǎng)絡接口用于據(jù)以與外部的終端通過網(wǎng)絡連接通信,比如接收終端發(fā)送的待解答問題以及向終端返回答案等。服務器可以用獨立的服務器或者是多個服務器組成的服務器集群來實現(xiàn)。本領域技術人員可以理解,圖2中示出的結構,僅僅是與本申請方案相關的部分結構的框圖,并不構成對本申請方案所應用于其上的服務器的限定,具體的服務器可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
圖3為一個實施例中智能問答方法的流程圖。如圖3所示,一種智能問答方法,包括:
步驟302,獲取待解答問題。
本實施例中,待解答問題是指用戶咨詢的問題。待解答問題可通過網(wǎng)頁入口輸入,或者通過應用App輸入等。待解答問題的格式可為語音、文本、圖片等至少一種格式。
若提供網(wǎng)頁版咨詢入口,則啟動網(wǎng)頁會話窗,在網(wǎng)頁會話窗中輸入待解答的問題。
若提供應用程序入口,則啟動應用程序會話窗,在應用程序會話窗中輸入待解答的問題。
步驟304,將所述待解答問題分別發(fā)送給基于常見問題解答的問答系統(tǒng)和基于知識庫的問答系統(tǒng)。
本實施例中,基于常見問題解答的問答系統(tǒng)是指基于FAQ的問答系統(tǒng)。常見問題是指被提出的次數(shù)超過次數(shù)閾值的問題。次數(shù)閾值可根據(jù)需要設定,如100次、10次等。常見問題解答是指常見問題的答案?;诔R妴栴}解答的問答系統(tǒng)是指對常見問題進行解答的問答系統(tǒng)。
知識庫是指限定領域內的結構化知識集合。
步驟306,獲取所述基于常見問題解答的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度,以及獲取所述基于知識庫的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度。
本實施例中,基于常見問題解答的問答系統(tǒng)對待解答問題進行檢索和查找得到對應的候選答案,并計算候選答案的可信度?;谥R庫的問答系統(tǒng)對待解答問題進行語義分析,再對分析后的待解答問題進行匹配得到對應的候選答案,并計算候選答案的可信度?;贔AQ的問答系統(tǒng)的答案的可信度可采用文本間相似度度量的方法計算得到相似度值,將相似度值歸一化到0至1之間,作為可信度,1為最可信?;谥R庫的問答系統(tǒng)的答案的可信度,若知識庫中存在答案,則可信度為1,若不存在,則可信度為0。
步驟308,獲取所述可信度中最高可信度,將所述最高可信度與可信度閾值比較。
步驟310,若所述最高可信度大于或等于所述可信度閾值,則將所述最高可信度對應的候選答案作為所述待解答問題所對應的答案。
本實施例中,基于常見問題解答的問答系統(tǒng)對所述待解答問題響應的候選答案的可信度和基于知識庫的問答系統(tǒng)對所述待解答問題響應的候選答案的可信度進行比較,獲取最高可信度,再將最高可信度與可信度閾值進行比較,若最高可信度大于或等于可信度閾值,則將最高可信度閾值對應的候選答案作為待解答問題的答案。
可信度閾值是指可信度需要滿足的最低值??尚哦却笥诨虻扔诳尚哦乳撝担瑒t表示答案可信,否則答案不可信。
上述智能問答方法,通過將待解答問題發(fā)送給基于常見問題解答的問答系統(tǒng)和基于知識庫的問答系統(tǒng),獲取到基于常見問題解答的問答系統(tǒng)反饋的候選答案及對應的可信度,以及基于知識庫的問答系統(tǒng)反饋的候選答案及對應的可信度,篩選出最高可信度,若最高可信度大于或等于可信度閾值,則將最高可信度對應的候選答案作為待解答問題的答案,基于兩種不同的問答系統(tǒng)得到的答案進行可信度比較,得到的待解答問題的答案的準確性高。此外,對于復雜類問題,通過基于常見問題解答的問答系統(tǒng)檢索和統(tǒng)計可得到對應的答案,實現(xiàn)了快速查找對應的答案,節(jié)省了人力;對于簡單類問題,通過基于知識庫的問答系統(tǒng)的準確性,可得到更加準確的答案。再者,上述智能問答方法,有效緩解了眾多受限領域FAQ問題集不足的問題,另一方面有效降低了基于知識庫的問答系統(tǒng)的實現(xiàn)復雜度,降低了對復雜類問題構建知識庫的問答系統(tǒng)的成本。
在一個實施例中,上述智能問答方法還包括:若所述最高可信度小于所述可信度閾值,則獲取人工答案,將所述人工答案作為所述待解答問題所對應的答案。
本實施例中,最高可信度小于可信度閾值,表示候選答案都不可信,需要提示人工解答。獲取人工答案作為待解答問題的答案,以保證待解答問題有對應的答案。
在一個實施例中,上述智能問答方法還包括:將所述待解答問題及對應的人工答案更新到所述基于常見問題解答的問答系統(tǒng)中。
本實施例中,將待解答問題及對應的人工答案更新到基于常見問題解答的問答系統(tǒng)中,以便下次遇到相同或類似的待解答問題時能夠通過常見問題解答的問答系統(tǒng)回答,降低人工成本。
圖4為一個實施例中獲取所述基于常見問題解答的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度的流程圖。如圖4所示,在一個實施例中,所述獲取所述基于常見問題解答的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度,包括:
步驟402,對所述待解答問題進行分詞,提取關鍵字,并對所述關鍵字進行擴展形成第一關鍵字集合。
本實施例中,對待解答問題進行分詞,提取關鍵字,再基于受限領域同義詞庫對關鍵字進行擴展得到第一關鍵字集合。例如待解答問題為“邁騰有哪些型號”,分詞結果為“邁騰”、“有”、“哪些”、“型號?”,關鍵字提取結果為“邁騰”、“型號”?;谑芟揞I域同義詞庫對關鍵字進行擴展,將“型號”擴展為“型號車型”,待解答問題的第一關鍵字集合即可表示【邁騰型號|車型】。
步驟404,將所述基于常見問題解答的問答系統(tǒng)中的各個問題進行分詞,提取關鍵字,生成各個問題對應的第二關鍵字集合。
本實施例中,將基于常見問題解答的問答系統(tǒng)中的每個問題分別進行分詞,提取問題的關鍵字,得到每個問題各自所對應的第二關鍵字集合。例如,將FAQ的問答系統(tǒng)中有問題“邁騰有哪些車型?”,分詞結果為“邁騰”、“有”、“哪些”、“車型?”,關鍵字提取結果為“邁騰”、“車型”,得到的第二關鍵字集合為【邁騰車型】。
步驟406,獲取所述第一關鍵字集合與各個所述第二關鍵字集合的相似度值。
本實施例中,可采用杰卡德距離、編輯距離、杰卡德距離與詞頻-逆向文件頻率權重等計算第一關鍵字集合與第二關鍵字集合的相似度值。
步驟408,選取與所述第一關鍵字集合的相似度值最大的第二關鍵字集合對應的答案作為所述基于常見問題解答的問答系統(tǒng)對所述待解答問題響應的候選答案,并獲取所述候選答案的可信度。
本實施例中,相似度值最大對應的第二關鍵字集合表示在已有的第二關鍵字集合中與第一關鍵字集合最相似。可將相似度值作為候選答案的可信度。
通過將待解答問題進行分詞提取關鍵字,并擴展生成第一關鍵字集合,以及對基于常見問題解答的問答系統(tǒng)中的各個問題進行分詞提取關鍵字生成對應的第二關鍵字集合,計算第一關鍵字集合與第二關鍵字集合的相似度值,選取相似度值最大的第二關鍵字集合對應的答案作為候選答案,將相似度值作為候選答案的可信度,查找簡單方便。
在一個實施例中,所述獲取所述第一關鍵字集合與各個所述第二關鍵字集合的相似度值,包括:獲取所述第一關鍵字集合與各個所述第二關鍵字集合的杰卡德距離,根據(jù)所述杰卡德距離得到所述第一關鍵字集合與各個所述第二關鍵字集合的相似度值,所述相似度值與所述杰卡德距離成正比。
本實施例中,杰卡德距離是用于衡量兩個集合之間的相似性的,可采用兩個集合交集的元素個數(shù)除以兩個集合并集中的元素個數(shù)。計算公式如下:
其中,A和B為集合,J(A,B)為杰卡德距離。
例如,第一關鍵字集合為【邁騰型號|車型】,第二關鍵字集合為【邁騰車型】,擴展后的同義詞可能有多個,也作為一個整體計算。第一關鍵字集合與第二關鍵字集合的交集中的元素個數(shù)為2個,第一關鍵字集合與第二關鍵字集合并集中的元素個數(shù)為2個,則|【邁騰車型】|/|【邁騰車型】|=2/2。
可將第一關鍵字集合與第二關鍵字集合的杰卡德距離作為第一關鍵字集合與第二關鍵字集合的相似度值?;蛘撸蓪⒌谝魂P鍵字集合與第二關鍵字集合的杰卡德距離乘以正數(shù)將得到的結果作為第一關鍵字集合與第二關鍵字集合的相似度值。杰卡德距離越大,相似度值越大。
在一個實施例中,所述獲取所述第一關鍵字集合與各個所述第二關鍵字集合的相似度值,包括:獲取所述第一關鍵字集合與各個所述第二關鍵字集合的杰卡德距離,以及獲取各個所述第二關鍵字集合的詞頻-逆向文件頻率權重,根據(jù)所述杰卡德距離和詞頻-逆向文件頻率權重得到所述第一關鍵字集合與各個所述第二關鍵字集合的相似度值,所述相似度值與所述杰卡德距離和詞頻-逆向文件頻率權重的乘積成正比。
本實施例中,詞頻-逆向文件頻率權重是指TF-IDF(term frequency–inverse document frequency)權重。詞頻(term frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率。某個詞的詞頻可采用該詞在文件中的出現(xiàn)次數(shù)除以在文件中所有字詞的出現(xiàn)次數(shù)之和得到。逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語的文件的數(shù)目,再將得到的商取對數(shù)得到IDF值。計算TF與IDF的乘積得到詞頻-逆向文件頻率權重。
假設文檔集中有N篇文檔,f(i,j)為詞項i在文檔j中出現(xiàn)的頻率(次數(shù)),于是,詞項i在文檔j中的詞項頻率可以定義為:
公式為詞項i在文檔j中歸一化的結果,其中歸一化通過f(i,j)除以同一文檔中出現(xiàn)次數(shù)最多的詞項的頻率來算,因此,TF值都是小于或等于1的。
假設文檔集中有N篇文檔,如果詞項i在n篇文檔中出現(xiàn),那么IDF可以定義為:
但是,當詞項i沒有在任何文檔中出現(xiàn)時,上面的式子將會出現(xiàn)分母為零的情況,所以通常將IDF定義為:
基于TF和IDF的定義,詞項i在文檔j中的得分可以定義為TF(i,j)*IDF(i)也就是:
通過杰卡德距離與詞頻-逆向文件頻率權重得到第一關鍵字集合與第二關鍵字集合的相似度值,更加準確,得到的候選答案更加準確。
在一個實施例中,所述獲取所述第一關鍵字集合與各個所述第二關鍵字集合的相似度值,包括:獲取所述第一關鍵字集合與各個所述第二關鍵字集合的編輯距離,根據(jù)所述編輯距離得到所述第一關鍵字集合與各個所述第二關鍵字集合的相似度值,所述相似度值與所述編輯距離成反比。
本實施例中,編輯距離是指Levenshtein距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數(shù)。采用(最長串長度-編輯操作次數(shù))/最長串長度得到編輯距離。選取編輯距離越小,相似度值越大,得分越高。
圖5為一個實施例中獲取所述基于知識庫的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度的流程圖。如圖5所示,在一個實施例中,所述獲取所述基于知識庫的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度,包括:
步驟502,對所述待解答問題進行語義分析生成問句向量。
本實施例中,可預先設置多個問題模板,采用多個問題模板對待解答問題進行語義分析生成問句向量。問題模板例如,【車型】*【屬性】有哪些?匹配問題如“邁騰的外觀顏色有哪些?”【車型】*【屬性】是多少?匹配問題如“邁騰的最小離地間隙是多少?”。問題模板可采用正則表達式表示。問題可采用正則匹配方式進行模板匹配。
在一個實施例中,可采用NLP(Natural Language Processing,自然語言處理)對待解答問題進行語義分析得到對應的問句向量。
步驟504,將所述問句向量轉化為查詢語句。
本實施例中,將問句向量轉化為查詢語句sparQL?;谙蛄空Z句,使用槽填充方法生成查詢語句。生成sparQL語句為:“select?value{<http://autohome/serie/邁騰><http://autohome/property/車型>?value}”。
步驟506,根據(jù)所述查詢語句從基于知識庫的問答系統(tǒng)中查找與所述查詢語句對應的查詢結果。
本實施例中,查詢語句是符合基于知識庫的問答系統(tǒng)的。根據(jù)查詢語句可從基于知識庫的問答系統(tǒng)中查找,若存在,則查找到對應的查詢結果。若不存在,則返回無結果。
步驟508,將所述查詢結果作為所述基于知識庫的問答系統(tǒng)對所述待解答問題響應的候選答案,獲取所述候選答案對應的可信度。
若查找到候選答案,則候選答案對應的可信度為1,若查找不到候選答案,則基于知識庫的問答系統(tǒng)對待解答問題無候選答案。
因基于知識庫的問答系統(tǒng)中的問題對應的答案準確度高,通過知識庫的問答系統(tǒng)查找到對應的答案,提高了待解答問題對應的答案的準確性,對于復雜類問題,可不建立基于知識庫的問答系統(tǒng),節(jié)省成本。
需要說明的是,上述智能問答方法,可應用于所有受限領域的智能客服系統(tǒng)框架,既可以以BS結構(Browser/Server,瀏覽器/服務器模式)提供服務,也可以在輸入和輸出端加入語音識別和TTS(Text To Speech,從文本到語言)以在電話等通訊網(wǎng)絡中提供服務。具有很強的移植性,可以快速從一個受限領域遷移到另一個受限領域。
圖6為一個實施例中智能問答裝置的結構框圖。如圖6所示,一種智能問答裝置600,運行于服務器上,包括問題獲取模塊602、發(fā)送模塊604、候選答案獲取模塊606、比較模塊608和答案確定模塊610。其中:
問題獲取模塊602用于獲取待解答問題。
本實施例中,待解答問題是指用戶咨詢的問題。待解答問題可通過網(wǎng)頁入口輸入,或者通過應用App輸入等。待解答問題的格式可為語音、文本、圖片等至少一種格式。
發(fā)送模塊604用于將所述待解答問題分別發(fā)送給基于常見問題解答的問答系統(tǒng)和基于知識庫的問答系統(tǒng)。
候選答案獲取模塊606用于獲取所述基于常見問題解答的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度,以及獲取所述基于知識庫的問答系統(tǒng)對所述待解答問題響應的候選答案及對應的可信度。
本實施例中,基于常見問題解答的問答系統(tǒng)對待解答問題進行檢索和查找得到對應的候選答案,并計算候選答案的可信度。基于知識庫的問答系統(tǒng)對待解答問題進行語義分析,再對分析后的待解答問題進行匹配得到對應的候選答案,并計算候選答案的可信度?;贔AQ的問答系統(tǒng)的答案的可信度可采用文本間相似度度量的方法計算得到相似度值,將相似度值歸一化到0至1之間,作為可信度,1為最可信?;谥R庫的問答系統(tǒng)的答案的可信度,若知識庫中存在答案,則可信度為1,若不存在,則可信度為0。
比較模塊608用于獲取所述可信度中最高可信度,將所述最高可信度與可信度閾值比較。
答案確定模塊610用于若所述最高可信度大于或等于所述可信度閾值,則將所述最高可信度對應的候選答案作為所述待解答問題所對應的答案。
上述智能問答裝置,通過將待解答問題發(fā)送給基于常見問題解答的問答系統(tǒng)和基于知識庫的問答系統(tǒng),獲取到基于常見問題解答的問答系統(tǒng)反饋的候選答案及對應的可信度,以及基于知識庫的問答系統(tǒng)反饋的候選答案及對應的可信度,篩選出最高可信度,若最高可信度大于或等于可信度閾值,則將最高可信度對應的候選答案作為待解答問題的答案,基于兩種不同的問答系統(tǒng)得到的答案進行可信度比較,得到的待解答問題的答案的準確性高。此外,對于復雜類問題,通過基于常見問題解答的問答系統(tǒng)檢索和統(tǒng)計可得到對應的答案,實現(xiàn)了快速查找對應的答案,節(jié)省了人力;對于簡單類問題,通過基于知識庫的問答系統(tǒng)的準確性,可得到更加準確的答案。再者,上述智能問答方法,有效緩解了眾多受限領域FAQ問題集不足的問題,另一方面有效降低了基于知識庫的問答系統(tǒng)的實現(xiàn)復雜度,降低了對復雜類問題構建知識庫的問答系統(tǒng)的成本。
在一個實施例中,所述答案確定模塊610還用于若所述最高可信度小于所述可信度閾值,則獲取人工答案,將所述人工答案作為所述待解答問題所對應的答案。
圖7為一個實施例中智能問答裝置的結構框圖。如圖7所示,一種智能問答裝置600,運行于服務器上,除了包括問題獲取模塊602、發(fā)送模塊604、候選答案獲取模塊606、比較模塊608和答案確定模塊610,還包括更新模塊612。其中:
更新模塊612用于將所述待解答問題及對應的人工答案更新到所述基于常見問題解答的問答系統(tǒng)中。
本實施例中,將待解答問題及對應的人工答案更新到基于常見問題解答的問答系統(tǒng)中,以便下次遇到相同或類似的待解答問題時能夠通過常見問題解答的問答系統(tǒng)回答,降低人工成本。
在一個實施例中,所述候選答案獲取模塊606還用于對所述待解答問題進行分詞,提取關鍵字,并對所述關鍵字進行擴展形成第一關鍵字集合;將所述基于常見問題解答的問答系統(tǒng)中的各個問題進行分詞,提取關鍵字,生成各個問題所對應的第二關鍵字集合;獲取所述第一關鍵字集合與各個所述第二關鍵字集合的相似度值;以及選取與所述第一關鍵字集合的相似度值最大的第二關鍵字集合對應的答案作為所述基于常見問題解答的問答系統(tǒng)對所述待解答問題響應的候選答案,并獲取所述候選答案的可信度。
在一個實施例中,所述候選答案獲取模塊606還用于獲取所述第一關鍵字集合與各個所述第二關鍵字集合的杰卡德距離,根據(jù)所述杰卡德距離得到所述第一關鍵字集合與各個所述第二關鍵字集合的相似度值,所述相似度值與所述杰卡德距離成正比。
在一個實施例中,所述候選答案獲取模塊606還用于獲取所述第一關鍵字集合與各個所述第二關鍵字集合的杰卡德距離,以及獲取各個所述第二關鍵字集合的詞頻-逆向文件頻率權重,根據(jù)所述杰卡德距離和詞頻-逆向文件頻率權重得到所述第一關鍵字集合與各個所述第二關鍵字集合的相似度值,所述相似度值與所述杰卡德距離和詞頻-逆向文件頻率權重的乘積成正比。
在一個實施例中,所述候選答案獲取模塊606還用于獲取所述第一關鍵字集合與各個所述第二關鍵字集合的編輯距離,根據(jù)所述編輯距離得到所述第一關鍵字集合與各個所述第二關鍵字集合的相似度值,所述相似度值與所述編輯距離成反比。
在一個實施例中,所述候選答案獲取模塊606還用于對所述待解答問題進行語義分析生成問句向量;將所述問句向量轉化為查詢語句;根據(jù)所述查詢語句從基于知識庫的問答系統(tǒng)中查找與所述查詢語句對應的查詢結果;以及將所述查詢結果作為所述基于知識庫的問答系統(tǒng)對所述待解答問題響應的候選答案,獲取所述候選答案對應的可信度。
本領域普通技術人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關的硬件來完成,所述的程序可存儲于一非易失性計算機可讀取存儲介質中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)等。
以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權利要求為準。