两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于交互上下文處理自然語言方法與流程

文檔序號:11216280閱讀:787來源:國知局
基于交互上下文處理自然語言方法與流程

本發(fā)明總的來說涉及自然語言處理領(lǐng)域,具體而言涉及一種基于交互上下文處理自然語言方法。



背景技術(shù):

隨著計算機技術(shù)的發(fā)展,人工智能機器人開始在市場上興起,例如微軟公司的“小冰”、蘋果公司的“siri”、百度的“度秘”等等。這些人工智能機器人主要分為語音助手類和聊天類。前者主要功能是為用戶提供有用信息,而后者旨在與用戶閑聊。無論哪類機器人都涉及自然語言處理技術(shù)。自然語言處理技術(shù)是指,對用戶輸入的自然語言進行處理,使得機器人能夠理解所述自然語言。

首先,現(xiàn)有人工智能機器人的一大局限性在于,這些機器人與用戶的交互方式比較單一。例如大多數(shù)機器人必須采用問答形式才能從用戶獲取有用信息。

其次,機器人與用戶的交互不具有連貫性,也就是說,用戶的輸入僅能被機器人用于生成當(dāng)前閑聊輸出或查詢結(jié)果,而當(dāng)用戶在情景中斷或者當(dāng)上下文改變的情況下再次繼續(xù)相關(guān)閑聊或詢問相關(guān)問題時,則機器人無法跟進或者需要用戶再次輸入相同信息。這導(dǎo)致較差的用戶體驗。

再次,在現(xiàn)有技術(shù)中通過“被動觸發(fā)式邏輯”來實現(xiàn)用戶與計算機之間的智能交互是。所謂被動觸發(fā)式邏輯是指:在滿足一定條件下被動觸發(fā)的、被人工賦予的交互邏輯。被動觸發(fā)式邏輯一般來用邏輯分叉樹實現(xiàn),其中在邏輯樹的根部、每一個分支節(jié)點上都設(shè)置一系列的“觸發(fā)條件”,一旦觸發(fā)后,根據(jù)預(yù)設(shè)的觸發(fā)條件進入不同的“分支邏輯”。盡管這種模式的技術(shù)實現(xiàn)難度較低,但是成本卻非常高,例如針對一棵3*5的“邏輯樹”(三層交互,每層5種情況)就要設(shè)置125個分支節(jié)點,這最少需要用上千行的代碼來描述,而一個細(xì)分領(lǐng)域中一般需要涉及到幾百個交互邏輯,且每個交互邏輯的分支情況遠(yuǎn)不止5種,因此這樣一個“邏輯分叉樹森林”的復(fù)雜程度是巨大的。如何以較低復(fù)雜度和成本實現(xiàn)所謂的智能交互,是本領(lǐng)域技術(shù)人員一直在探尋的一個目標(biāo)。

另一方面,自然語言處理的難點在于如何從用戶的自然語言輸入中準(zhǔn)確地提取出關(guān)鍵詞,而目前的人工智能機器人在提取關(guān)鍵詞方面的效率和準(zhǔn)確率都不高,其主要原因如下。正確提取關(guān)鍵詞的前提是對自然語言輸入進行正確分詞和確定正確的語義。關(guān)于分詞方法,現(xiàn)有機器人大多采用機械分詞、即窮舉一句話所有可能的分詞結(jié)果,然后將所有分詞結(jié)果中的每個詞在知識庫中進行匹配,最后輸出匹配度最好的結(jié)果。由于知識庫巨大,這導(dǎo)致巨大的計算量,從而極大地提高了計算成本,而且當(dāng)遇到容易混淆的表達方式、如“長春市里有家長春藥店”時,分詞系統(tǒng)也容易出錯。關(guān)于語義確定,由于用戶語言輸入中的核心詞匯可能具有多種含義,例如“土豆”既可以指一種食物、也可以指“土豆”視頻網(wǎng)站,因此現(xiàn)有機器人在遇到有歧義的詞匯時,容易錯誤地確定詞匯的語義。低效和易錯的分詞和語義確定導(dǎo)致關(guān)鍵詞提取的低效和低正確率,從而導(dǎo)致機器人的智能化程度低,用戶體驗較差。



技術(shù)實現(xiàn)要素:

從現(xiàn)有技術(shù)出發(fā),本發(fā)明的任務(wù)是提供一種基于交互上下文處理自然語言方法,通過該方法,可以擴展機器人獲取有用信息的方式、即可以從非針對機器人所提問題的回答、例如閑聊、用戶主動提供的信息等等中獲取有用信息;此外,還可以保證情景交互的連續(xù)性,即情景中斷或上下文變換以后,仍然可以向用戶提供合適的輸出,而無需用戶重新提供在之前已經(jīng)提供過(如通過閑聊或問答提供)的信息。

根據(jù)本發(fā)明,該任務(wù)通過一種基于交互上下文處理自然語言方法來解決,該方法包括下列步驟:

從用戶接收第一自然語言輸入,其中所述第一自然語言輸入包括用戶非響應(yīng)于提問所提供的自然語言輸入;

分析所述第一自然語言輸入以便從所述第一自然語言輸入中提取多個關(guān)鍵元素,其中關(guān)鍵元素包括自然語言輸入中的關(guān)鍵詞在該自然語言輸入的上下文中的語義;

存儲所述關(guān)鍵元素;

從用戶接收第二自然語言輸入;

根據(jù)所述第二自然語言輸入從所存儲的多個關(guān)鍵元素中選擇一個或多個與所述第二自然語言輸入相關(guān)聯(lián)的關(guān)鍵元素;以及

根據(jù)所述第二自然語言輸入和所述相關(guān)聯(lián)的關(guān)鍵元素生成自然語言輸出。

應(yīng)當(dāng)指出,第二自然語言輸入是在第一自然語言輸出之后的任意時刻輸入的自然語言輸入,而不一定是緊跟在第一自然語言輸入之后的自然語言輸入。

根據(jù)本發(fā)明的方法至少具有下列優(yōu)點:(1)在本發(fā)明中,通過附加于提取用戶回答中的關(guān)鍵元素、還提取用戶其它輸入、如閑聊中的關(guān)鍵元素,可以擴展機器人獲取有用信息的方式,例如可以從非針對機器人所提問題的回答、例如閑聊或用戶主動提供的信息等等中獲取關(guān)鍵元素,所述關(guān)鍵元素可以用于針對用戶之后的閑聊或查詢生成輸出,從而使機器人更加智能;(2)在本發(fā)明中,通過提取用戶在先自然語言輸入中的關(guān)鍵元素并將其用于為用戶在后自然語言輸入生成自然語言輸出,可以保證情景交互的連續(xù)性,即情景中斷或上下文變換以后,仍然可以向用戶提供所期望的輸出(如閑聊或查詢結(jié)果),而無需用戶重新提供已經(jīng)在之前提供過(如通過閑聊或問答提供)的信息;(3)在本發(fā)明中,通過提取并保存包括關(guān)鍵詞在當(dāng)前上下文的正確語義的關(guān)鍵元素、而不是僅僅提取并保存關(guān)鍵詞本身,可以大大地消除歧義,提高系統(tǒng)輸出的正確性,這是因為關(guān)鍵詞在不同上下文中具有不同含義、如語義,而通過保存正確的語義,可以在上下文切換時仍然使用關(guān)鍵詞的正確語義,在保證情景交互連續(xù)性的同時還確保系統(tǒng)輸出的正確性。

在本發(fā)明的一個優(yōu)選方案中規(guī)定,根據(jù)所述第二自然語言輸入從所存儲的多個關(guān)鍵元素中選擇一個或多個與所述第二自然語言輸入相關(guān)聯(lián)的關(guān)鍵元素包括下列步驟:

根據(jù)第二自然語言輸入確定知識點;

根據(jù)所述知識點確定生成自然語言輸出所需的語義集合;

從第二自然語言輸入中提取關(guān)鍵元素;

根據(jù)所述語義集合和所提取的關(guān)鍵元素確定所需的剩余語義;以及

從所存儲的多個關(guān)鍵元素中確定所需的剩余語義中的一個或多個第一剩余語義。

通過該優(yōu)選方案,可以以低復(fù)雜度和成本實現(xiàn)智能交互,因為在本發(fā)明中通過知識點即可確定為了生成相應(yīng)自然語言輸出(即系統(tǒng)輸出)所需的語義集合,從而進一步從已存儲的關(guān)鍵元素(在本發(fā)明中,關(guān)鍵元素包括關(guān)鍵詞的正確語義)中查找所需的語義或者進一步向用戶詢問其余語義,由此即可生成符合用戶本意的自然語言輸出,讓系統(tǒng)顯得非常智能化,因此在本發(fā)明中完全不需要設(shè)置復(fù)雜的“邏輯分叉樹森林”,這極大地減小了方案的復(fù)雜度和編程及運算成本。該方案基于發(fā)明人的如下獨特洞察力:如果要清楚地描述一個具體問題(或事情),大多需要多個語義、例如三個語義;例如,為了清楚描述“哪里可以辦理準(zhǔn)生證?”這個問題以至于能夠給出答案,就至少需要三個語義“哪里”、“辦理”和“準(zhǔn)生證”,又如為了清楚表達“重新辦理身份證多少錢?”,需要至少三個語義:“多少錢”、“重新辦理”、“身份證”等等,以此類推發(fā)現(xiàn),“證件”這個知識點包括至少三個所需語義:(1)“證件名稱”,如準(zhǔn)生證、身份證、駕駛證等等;(2)“辦理事項”:如辦理、注銷、重新辦理、掛失等等;(3)“詢問事項”:地點(哪里)、費用(多少錢)、辦理程序(怎么辦理)等等;因此,每個知識點都是所需語義的集合,而每個所需語義都可以用不同的具體語義來填充,這些具體語義可以在用戶的自然語言輸入中被查找,以最終確定用戶所描述的具體問題或事情;因此,在確定知識點(既可以預(yù)設(shè)、也可以通過上下文確定)的情況下,就可以根據(jù)用戶的當(dāng)前和在先自然語言輸入中的關(guān)鍵元素來確定所需語義或者進一步向用戶詢問其余所需語義。這樣一來,完全沒有必要采用復(fù)雜的“邏輯分叉樹森林”,由此極大地降低了方案的復(fù)雜度,從而大大降低了編程(如分支的編程)和運算成本(如各分支的匹配)。

在本發(fā)明的一個擴展方案中規(guī)定,該方法還包括下列步驟:

向用戶提問以確定所需的剩余語義中的除了所述一個或多個第一剩余語義以外的一個或多個第二剩余語義。

通過該擴展方案,可以在所存儲的關(guān)鍵元素還不足以覆蓋所需語義集合中的全部語義的情況下向用戶提問已獲得所需剩余語義,從而生成對用戶更加有用的自然語言輸出。

在本發(fā)明的另一擴展方案中規(guī)定,向用戶提問以確定所需的剩余語義中的除了所述一個或多個第一剩余語義以外的一個或多個第二剩余語義包括下列步驟:

通過分析緊接在第二用戶自然語言輸入之前的一個或多個用戶自然語言輸入來確定上一個上下文;

確定所需的剩余語義中的除了所述一個或多個第一剩余語義以外的剩余語義中與上一個上下文最相關(guān)的剩余語義以作為第二剩余語義;以及

向用戶提問以獲取第二剩余語義。

通過該擴展方案,可以改進向用戶提問以獲得剩余語義的方式,也就是說,通過該擴展方案,可以先向用戶提問與用戶最近談?wù)摰膬?nèi)容相關(guān)的剩余語義,讓人機對話更貼近人與人之間的對話,從而讓系統(tǒng)顯得更“智能”。

在本發(fā)明的又一擴展方案中規(guī)定,根據(jù)第二自然語言輸入確定知識點包括:

根據(jù)預(yù)設(shè)的上下文或者用戶的一個或多個自然語言輸入確定知識點集合;以及

根據(jù)第二自然語言輸入從所述知識點集合中確定知識點。

通過該擴展方案,可以快速地和低成本地確定具體知識點。例如,在便民中心大廳的智能終端上,預(yù)設(shè)的上下文是“行政事宜”,由此可以確定“行政事宜”這個知識點集合,而這個知識點集合又包括多個具體知識點:如“辦證”、“繳費”、“納稅”等等。進而通過用戶所提供的一個或多個自然語言輸入、如第一和第二自然語言輸入確定具體知識點。如此一來,可以方便地確定具體知識點,進而確定所需語義集合。

在本發(fā)明的一個優(yōu)選方案中規(guī)定,分析所述第一自然語言輸入包括下列步驟:

根據(jù)第一語義知識庫對所述第一自然語言輸入進行語義匹配以識別所述第一自然語言輸入的總體語義;

選擇限定知識庫;

通過確定所述限定知識庫中與所述總體語義相關(guān)聯(lián)的條目并去除其余條目來縮減所述限定知識庫;

對所述第一自然語言輸入進行機械分詞以生成所述第一自然語言輸入的分詞結(jié)果集合;

使用經(jīng)縮減的限定知識庫對所述分詞結(jié)果進行匹配以從分詞結(jié)果集合中確定分詞結(jié)果;

使用第二語義知識庫對分詞結(jié)果中的詞語進行匹配以確定所述詞語的語義;以及

從所述詞語的語義中選擇一個或多個用作關(guān)鍵元素。

通過該優(yōu)選方案可以極大地提高分詞效率和分詞正確率。這是因為,本發(fā)明人獨創(chuàng)地采用了下列措施:(1)在現(xiàn)有技術(shù)中,一般使用專用分詞工具(如中科院分詞nlpir、哈工大的ltp等等)來進行分詞,但是這些分詞工具的分詞準(zhǔn)確率不高、而且無法細(xì)分到具體領(lǐng)域,例如遇到“長春市里有家長春藥店”之類易混淆表達方式時,容易分詞錯誤;另一種方式是機械分詞、即把用戶自然語言輸入的每一種文字的排列組合都羅列一遍以保證不會遺漏任何分詞可能性,但是機械分詞雖然準(zhǔn)確率為100%,但是計算量巨大,因為所有分詞結(jié)果集合均需要與涉及各領(lǐng)域的巨大知識庫中的每個條目一一進行匹配比對,但只有一個結(jié)果是準(zhǔn)確的,其它結(jié)果均為額外計算,這樣會造成巨大的計算量、例如動輒幾億次計算量,在本發(fā)明中,為了消除上述缺點,將機械分詞與較小限定知識庫相結(jié)合、即采用較小的限定知識庫來對機械分詞的分詞結(jié)果進行匹配——其中限定知識庫是僅僅包括一個或多個分類的知識庫,而不是涵蓋全部領(lǐng)域的大知識庫——,這樣既結(jié)合了機械分詞的高精度,同時又縮小了要進行匹配的庫,從而大大降低了計算量;(2)在本發(fā)明中,通過提取用戶自然語言輸入的總體語義、即大致含義并篩除限定知識庫中與總體語義不相關(guān)聯(lián)的條目來縮減限定知識庫,可以進一步降低將機械分詞結(jié)果與限定知識庫相匹配的計算量,從而進一步降低計算成本。

在此應(yīng)當(dāng)指出,本發(fā)明中所指的“關(guān)鍵元素”不是指關(guān)鍵詞的文字本身,而是指關(guān)鍵詞的語義。這是因為,關(guān)鍵詞在不同語境或上下文中可能具有不同含義,從而可能將關(guān)鍵詞的錯誤語義用于后續(xù)處理,進而導(dǎo)致輸出與用戶輸入不相干的系統(tǒng)輸出;相反,如果存儲包括正確語義的關(guān)鍵元素,則能為用戶提供更準(zhǔn)確的自然語言輸出(如響應(yīng)于用戶的閑聊或查詢生成閑聊輸出或查詢結(jié)果)。

在本發(fā)明的一個擴展方案中規(guī)定,第二自然語言輸入包括閑聊和用戶查詢。在本發(fā)明中,“用戶查詢”可以理解為祈使句或疑問句形式的用戶輸入,而“閑聊”可以理解為除了用戶查詢以外的用戶自然語言輸入,例如陳述句形式的用戶輸入。通過該方案,可以將本發(fā)明用于聊天機器人和語音助手二者,即本發(fā)明既可以用于與用戶聊天解悶,也可以為用戶提供有用的查詢信息。

另外,應(yīng)當(dāng)指出,“所述第一自然語言輸入包括用戶非響應(yīng)于提問所提供的自然語言輸入”的措辭并未排除第一自然語言輸入包括用戶響應(yīng)于系統(tǒng)查詢提供的自然語言輸入,而是本發(fā)明的方法可以從用戶應(yīng)答和閑聊、以及其它自然語言輸入中提取關(guān)鍵元素。

在本發(fā)明的另一擴展方案中規(guī)定,根據(jù)一個或多個第一自然語言輸入的上下文或者根據(jù)預(yù)設(shè)來選擇限定知識庫。通過該擴展方案,可以更加精準(zhǔn)地選擇限定知識庫,從而提高分詞準(zhǔn)確率。例如,可以根據(jù)用戶輸入的前三句話來確定用戶上下文,或者根據(jù)用戶選擇或系統(tǒng)預(yù)設(shè)來確定用戶上下文,然后根據(jù)用戶上下文選擇合適的限定知識庫。

在本發(fā)明的一個優(yōu)選方案中規(guī)定,根據(jù)第一語義知識庫對所述第一自然語言輸入進行語義匹配包括下列步驟:

將所述第一自然語言輸入與第一語義知識庫進行匹配以識別所述第一自然語言中的句型,其中所述第一語義知識庫包括預(yù)先存儲的句型模型;以及

根據(jù)所述句型確定所述第一自然語言輸入的總體語義。

通過該優(yōu)選方案,可以容易地確定用戶自然語言輸入的總體語義、即大致含義,因為一句話的大致含義一般可以通過這句話的句型來確定,例如“我要吃漢堡”這句話的句型為“我要吃…”,從而可以確定這句話的大致含義與“食物”相關(guān)聯(lián),從而可以除去限定知識庫中與“食物”無關(guān)聯(lián)的條目,從而削減限定知識庫。而且,句型匹配無需分詞即可進行,因此適于在分詞前進行來簡化分詞計算。第一語義知識庫可以預(yù)先存儲各種句型,以供與用戶自然語言輸入進行匹配。其它確定總體語義的方法也是可設(shè)想的,例如提取用戶自然語言輸入中的可能的動詞或名詞,通過所述詞語確定總體語義。

在本發(fā)明的另一優(yōu)選方案中規(guī)定,使用語義知識庫對分詞結(jié)果中的詞語進行匹配以確定所述詞語的語義包括下列步驟:

使用語義知識庫對分詞結(jié)果中的第一詞語進行匹配以確定第一詞語的一個或多個語義;

使用語義知識庫對分詞結(jié)果中的第二詞語進行匹配以確定第二詞語的多個語義;

分別確定第二詞語的多個語義中的每個與第一詞語的一個或多個語義中的每個的關(guān)聯(lián)性;

確定第二詞語的語義和第一詞語的語義中彼此具有最大關(guān)聯(lián)性的語義;以及

將所述語義分別確定為第二詞語的語義和第一詞語的語義。

通過該優(yōu)選方案,可以極大地消除詞語的歧義,從而正確地識別關(guān)鍵元素。這是因為,用戶所說的一句話中的各個詞語的語義是相互關(guān)聯(lián)的,例如在“我要吃土豆”這句話中,“土豆”既可能指一種食物,也可能指“土豆”視頻網(wǎng)站,但是通過分析詞語“土豆”的這幾個語義與該句話中的另一個詞語“吃”的關(guān)聯(lián)程度后發(fā)現(xiàn),“土豆”的“食物”語義與詞語“吃”的語義之間的關(guān)聯(lián)程度最高,由此可以確定“土豆”在這句話中是指食物,由此通過該優(yōu)選方案,可以提高確定語義的正確率,從而促進后續(xù)關(guān)鍵元素的正確確定。其它消除歧義的方式也是可設(shè)想的,例如通過當(dāng)前上下文或用戶之前提供的自然語言輸入來確定各詞語的語義。

在本發(fā)明的一個擴展方案中規(guī)定,總體語義包括下列類別:食物、娛樂、出行、服裝。通過該擴展方案,可以覆蓋生活中的基本面,從而有效地對限定知識庫進行縮減或篩除。其它劃分方式也是可設(shè)想的。

在本發(fā)明的另一擴展方案中規(guī)定,使用貪婪算法、退火算法或者經(jīng)典二叉樹算法來使用限定知識庫對所述分詞結(jié)果進行匹配。通過該擴展方案,可以有效地執(zhí)行匹配過程。

在本發(fā)明的又一擴展方案中規(guī)定,使用貪婪算法、退火算法或者經(jīng)典二叉樹算法來使用語義知識庫對分詞結(jié)果中的詞語進行匹配。通過該擴展方案,可以有效地執(zhí)行匹配過程。

在本發(fā)明的另一擴展方案中規(guī)定,在語義匹配和/或使用限定知識庫對所述分詞結(jié)果進行的匹配和/或使用語義知識庫對分詞結(jié)果中的詞語進行的匹配失敗時,執(zhí)行異常處理程序,其中輸出錯誤提示或者使用神經(jīng)網(wǎng)絡(luò)以在神經(jīng)網(wǎng)絡(luò)中尋找就近的匹配節(jié)點。通過該擴展方案,可以有效地處理異常情況。

此外,本發(fā)明的前述任務(wù)還可以通過一種機器可讀存儲介質(zhì)來解決,該存儲介質(zhì)具有存儲在其上的計算機程序,所述計算機程序被配置為執(zhí)行根據(jù)本發(fā)明的方法。

附圖說明

下面結(jié)合附圖參考具體實施例來進一步闡述本發(fā)明。

圖1示意性地示出了根據(jù)本發(fā)明的方案的一個應(yīng)用場景,其中示意性地說明了根據(jù)本發(fā)明對關(guān)鍵元素的采集;

圖2示意性地示出了根據(jù)本發(fā)明的方案的另一應(yīng)用場景,其中示意性地說明了根據(jù)本發(fā)明的上下文連續(xù)性;

圖3示出了根據(jù)本發(fā)明的方法的流程圖;

圖4示出了根據(jù)本發(fā)明的用于確定針對知識點的所需語義的方法的流程圖;以及

圖5示出了根據(jù)本發(fā)明的用于提取關(guān)鍵元素的方法的流程。

具體實施方式

應(yīng)當(dāng)指出,各附圖中的各組件可能為了圖解說明而被夸大地示出,而不一定是比例正確的。在各附圖中,給相同或功能相同的組件配備了相同的附圖標(biāo)記。

除非另行規(guī)定,在本申請中,量詞“一個”、“一”并未排除多個元素的場景。

圖1示意性地示出了根據(jù)本發(fā)明的方案的一個應(yīng)用場景,其中示意性地說明了根據(jù)本發(fā)明對關(guān)鍵元素的采集。應(yīng)當(dāng)指出,盡管在此將本發(fā)明的方法用于移動設(shè)備、如智能手機上的語音助手,但是本發(fā)明不限于此,而是本發(fā)明還可以應(yīng)用于其它設(shè)備、比如臺式機、智能家電、服務(wù)器、工作站、機場或火車站查詢終端等等其它設(shè)備,也可以應(yīng)用于其它場景、例如聊天、智能交互等等。

如圖1中所示,用戶103在移動設(shè)備101的用戶界面102上與采用根據(jù)本發(fā)明的方法的智能語音助手104交互。用戶103在對話框105和107中與語音助手104閑聊,也就是說,用戶103以非問答式交互方式與語音助手104交互,其中用戶103主動地、或者非響應(yīng)于語音助手104的提問而提供自然語言輸入、即對話框105和107中的內(nèi)容。響應(yīng)于用戶103的自然語言輸入105和107,語音助手104分別提供了例如閑聊形式的應(yīng)答106和108。其中語音助手104對用戶103的自然語言輸入105和107中的關(guān)鍵元素進行了提取和存儲、例如用戶用餐狀態(tài)(已用餐)、用戶出發(fā)地(上海)、用戶目的地(北京)、出發(fā)時間的偏好(上午)等等,關(guān)于提取和存儲關(guān)鍵元素的過程,請參閱圖3和圖4及其相應(yīng)描述。

用戶103再次輸入自然語言輸入109、在此例如為用戶查詢。應(yīng)當(dāng)指出,在此用戶查詢僅僅是示意性的,在其它場景中,用戶103在此仍然可以繼續(xù)與語音助手104閑聊。

響應(yīng)于用戶103的自然語言輸入109,語音助手104在所存儲的關(guān)鍵元素中查找與自然語言輸入109的上下文(如語義)相關(guān)聯(lián)的一個或多個關(guān)鍵元素,并且根據(jù)自然語言輸入109(即用戶查詢)在采用查找到的關(guān)鍵元素的情況下生成語音助手104的應(yīng)答110,其中該應(yīng)答110從所存儲的關(guān)鍵元素中查找到與當(dāng)前上下文、即機票查詢上下文相關(guān)聯(lián)的關(guān)鍵元素:用戶出發(fā)地(上海)、用戶目的地(北京)、出發(fā)時間的偏好(上午)。由此,語音助手104在無需再次向用戶詢問相同信息的情況下即可針對用戶查詢109生成合適的應(yīng)答110、即查詢結(jié)果。

圖2示意性地示出了根據(jù)本發(fā)明的方案的另一應(yīng)用場景,其中示意性地說明了根據(jù)本發(fā)明的上下文連續(xù)性。在此,圖2是緊跟在圖1之后的應(yīng)用場景。

從圖2中可以看出,用戶103的自然語言輸入111表示圖1的機票查詢上下文已經(jīng)結(jié)束,并且用戶103通過自然語言輸入113使系統(tǒng)上下文從機票查詢上下文切換到影片信息查詢上下文。

語音助手104響應(yīng)于用戶103的查詢影片信息的自然語言輸入113提供了相應(yīng)的應(yīng)答114,其中應(yīng)答114介紹了相應(yīng)的影片信息。同時,如上所述,語音助手104還提取相應(yīng)的關(guān)鍵元素、例如熱映電影。

從用戶103的自然語言輸入115中可以看出,系統(tǒng)上下文又從影片信息查詢上下文切換回機票查詢上下文。

在此,如上所述,語音助手104從所存儲的關(guān)鍵元素中查找到與當(dāng)前上下文、即機票查詢上下文相關(guān)聯(lián)的關(guān)鍵元素:用戶出發(fā)地(上海)、出發(fā)時間的偏好(上午)。然后,根據(jù)自然語言輸入115(即用戶查詢)在采用查找到的關(guān)鍵元素的情況下生成語音助手104的應(yīng)答116。在此可以看出,在根據(jù)本發(fā)明的方法中,即使用戶的上下文中斷,但由于存儲了相應(yīng)的關(guān)鍵元素,因此在上下文切換回時,仍然能夠輸出合適的應(yīng)答、如查詢結(jié)果,而無需再次向用戶詢問相同信息。

圖3示出了根據(jù)本發(fā)明的方法200的流程。

在步驟202,從用戶接收第一自然語言輸入,其中所述第一自然語言輸入包括用戶非響應(yīng)于提問所提供的自然語言輸入。在此,“用戶非響應(yīng)于提問所提供的自然語言輸入”是指,用戶不是響應(yīng)于應(yīng)用本發(fā)明的方法200的系統(tǒng)所提供的自然語言輸入、例如閑聊等等。

在步驟204,分析所述第一自然語言輸入以便從所述第一自然語言輸入中提取多個關(guān)鍵元素。在此,分析第一自然語言的過程例如可以包括:確定總體語義、利用總體語義縮減限定知識庫的條目、機械分詞、分詞結(jié)果匹配、確定分詞結(jié)果的語義、以及從語義中選擇關(guān)鍵元素。具體的分詞過程請參閱圖4及其說明。其它分析自然語言以提取關(guān)鍵元素的方案也是可設(shè)想的。在此應(yīng)當(dāng)指出,本發(fā)明中所指的“關(guān)鍵元素”不是指關(guān)鍵詞的文字本身,而是指關(guān)鍵詞的語義。這是因為,關(guān)鍵詞在不同語境或上下文中可能具有不同含義,從而可能將關(guān)鍵詞的錯誤語義用于后續(xù)處理,而如果存儲包括正確語義的關(guān)鍵元素,則能為用戶提供更準(zhǔn)確的自然語言輸出(如響應(yīng)于用戶的閑聊或查詢生成閑聊輸出或查詢結(jié)果)。此外,從分詞結(jié)果的語義中篩選出關(guān)鍵元素的步驟可以按照一定的判斷規(guī)則來進行,例如與當(dāng)前上下文的關(guān)聯(lián)性、語義本身的重要性等等。

在步驟206,存儲所述關(guān)鍵元素。所存儲的關(guān)鍵元素既可以一直被存儲,也可以在一定時間以后被丟棄,例如在一天、一周或一月以后被丟棄。所存儲的關(guān)鍵元素也可以按照關(guān)鍵元素的重要性來確定存儲時長,例如重要的關(guān)鍵元素被存儲較長時間、甚至持久存儲,而重要性較低的關(guān)鍵元素被存儲較短時間。

在步驟208,從用戶接收第二自然語言輸入。第二自然語言輸入可以包括閑聊和用戶查詢。在第二自然語言輸入為閑聊的情況下,系統(tǒng)提供的輸出也可以為閑聊,而在第二自然語言輸入為用戶查詢的情況下,提供系統(tǒng)的輸出可以為查詢結(jié)果。

在步驟210,根據(jù)所述第二自然語言輸入從所存儲的多個關(guān)鍵元素中選擇一個或多個與所述第二自然語言輸入相關(guān)聯(lián)的關(guān)鍵元素。在此,可以首先對第二語言輸入進行分詞和語義識別,并且根據(jù)所識別的語義確定當(dāng)前上下文,并且從所存儲的多個關(guān)鍵元素中選擇與當(dāng)前上下文相關(guān)聯(lián)的關(guān)鍵元素。

在步驟212,根據(jù)所述第二自然語言輸入和所述相關(guān)聯(lián)的關(guān)鍵元素生成自然語言輸出。在此,可以將所選出的關(guān)鍵元素用作屬性值,所述屬性值可以作為生成查詢結(jié)果的基礎(chǔ),例如在圖1的示例中,將如下三個關(guān)鍵元素用作屬性值:用戶出發(fā)地(上海)、用戶目的地(北京)、出發(fā)時間的偏好(上午)。更多屬性值也是可設(shè)想,例如5個至9個。

根據(jù)本發(fā)明的方法至少具有下列優(yōu)點:(1)在本發(fā)明中,通過附加于提取用戶回答中的關(guān)鍵元素、還提取用戶其它輸入、如閑聊中的關(guān)鍵元素,可以擴展機器人獲取有用信息的方式,例如可以從非針對機器人所提問題的回答、例如閑聊或用戶主動提供的信息等等中獲取關(guān)鍵元素,所述關(guān)鍵元素可以用于針對用戶之后的閑聊或查詢生成輸出,從而使機器人更加智能;(2)在本發(fā)明中,通過提取用戶在先自然語言輸入中的關(guān)鍵元素并將其用于為用戶在后自然語言輸入生成自然語言輸出,可以保證情景交互的連續(xù)性,即情景中斷或上下文變換以后,仍然可以向用戶提供所期望的輸出(如閑聊或查詢結(jié)果),而無需用戶重新提供已經(jīng)在之前提供過(如通過閑聊或問答提供)的信息;(3)在本發(fā)明中,通過提取并保存包括關(guān)鍵詞在當(dāng)前上下文的正確語義的關(guān)鍵元素、而不是僅僅提取并保存關(guān)鍵詞本身,可以大大地消除歧義,提高系統(tǒng)輸出的正確性,這是因為關(guān)鍵詞在不同上下文中具有不同含義、如語義,而通過保存正確的語義,可以在上下文切換時仍然使用關(guān)鍵詞的正確語義,在保證情景交互連續(xù)性的同時還確保系統(tǒng)輸出的正確性。

圖4示出了根據(jù)本發(fā)明的用于確定針對知識點的所需語義的方法300的流程,其中虛線框表示可選步驟。

在步驟402,根據(jù)第二自然語言輸入確定知識點。知識點例如可以通過如下方式來確定:首先,根據(jù)預(yù)設(shè)的上下文或者用戶在先提供的多個自然語言輸入確定知識點集合;然后,根據(jù)第二自然語言輸入從所述知識點集合中確定知識點。知識點可以以一定數(shù)據(jù)格式存儲在專門的知識點知識庫中。

在步驟404,根據(jù)所述知識點確定生成自然語言輸出所需的語義集合。例如,“證件”這個知識點可以包括三個所需語義:(1)“證件名稱”,如準(zhǔn)生證、身份證、駕駛證等等;(2)“辦理事項”:如辦理、注銷、重新辦理、掛失等等;(3)“詢問事項”:地點(哪里)、費用(多少錢)、辦理程序(怎么辦理)等等。在此應(yīng)當(dāng)指出,根據(jù)不同知識點,可能需要不同數(shù)目、如2個或4個或更多的語義才能生成相應(yīng)自然語言輸出。

在步驟406,從第二自然語言輸入中提取關(guān)鍵元素。該提取與方法200中從第一自然語言輸入提取關(guān)鍵元素類似,在此就不加以贅述。

在步驟408,根據(jù)所述語義集合和所提取的關(guān)鍵元素確定所需的剩余語義。也就是說,剩余語義是所需的語義集合減去從第二自然語言輸入中提取的相關(guān)關(guān)鍵元素的語義的結(jié)果,也就是說,為了生成自然語言輸出,除了所提取的關(guān)鍵元素中的相關(guān)關(guān)鍵元素以外還需要哪些語義。

在步驟410,從所存儲的多個關(guān)鍵元素中確定所需的剩余語義中的一個或多個第一剩余語義。該確定步驟可以按照關(guān)鍵元素的語義與知識點的關(guān)聯(lián)程度來進行。例如,用戶在第一自然語言輸入中表達了關(guān)于身份證的詢問,則所存儲的關(guān)鍵元素“身份證”與知識點“證件”關(guān)聯(lián)程度較高,則可被選擇以填充剩余語義。

在可選步驟412,向用戶提問以確定所需的剩余語義中的除了所述一個或多個第一剩余語義以外的一個或多個第二剩余語義。該提問步驟可以在所存儲的關(guān)鍵元素不足以覆蓋所需語義集合中的全部語義的情況下向用戶提問已獲得所需剩余語義,從而生成對用戶更加有用的自然語言輸出。該提問步驟可以以按關(guān)聯(lián)性大小排序的方式、即首先提問剩余語義中與上一上下文關(guān)聯(lián)性較大的語義,然后提問關(guān)聯(lián)度較小的語義。這樣一來,可以讓機器更符合人類交談方式,從而顯得更加“智能”。

通過方法400,可以以低復(fù)雜度和成本實現(xiàn)智能交互,因為在方法400中,通過知識點即可確定為了生成相應(yīng)自然語言輸出(即系統(tǒng)輸出)所需的語義集合,從而進一步從已存儲的關(guān)鍵元素(在本發(fā)明中,關(guān)鍵元素包括關(guān)鍵詞的正確語義)中查找所需的語義或者進一步向用戶詢問其余語義,由此即可生成符合用戶本意的自然語言輸出,讓系統(tǒng)顯得非常智能化,因此在本發(fā)明中完全不需要設(shè)置復(fù)雜的“邏輯分叉樹森林”,這極大地減小了方案的復(fù)雜度和編程及運算成本。該方案基于發(fā)明人的如下獨特洞察力:如果要清楚地描述一個具體問題(或事情),大多需要多個語義、例如三個語義;例如,為了清楚描述“哪里可以辦理準(zhǔn)生證?”這個問題以至于能夠給出答案,就至少需要三個語義“哪里”、“辦理”和“準(zhǔn)生證”,又如為了清楚表達“重新辦理身份證多少錢?”,需要至少三個語義:“多少錢”、“重新辦理”、“身份證”等等,以此類推發(fā)現(xiàn),“證件”這個知識點包括至少三個所需語義:(1)“證件名稱”,如準(zhǔn)生證、身份證、駕駛證等等;(2)“辦理事項”:如辦理、注銷、重新辦理、掛失等等;(3)“詢問事項”:地點(哪里)、費用(多少錢)、辦理程序(怎么辦理)等等;因此,每個知識點都是所需語義的集合,而每個所需語義都可以用不同的具體語義來填充,這些具體語義可以在用戶的自然語言輸入中被查找,以最終確定用戶所描述的具體問題或事情;因此,在確定知識點(既可以預(yù)設(shè)、也可以通過上下文確定)的情況下,就可以根據(jù)用戶的當(dāng)前和在先自然語言輸入中的關(guān)鍵元素來確定所需語義或者進一步向用戶詢問其余所需語義。這樣一來,完全沒有必要采用復(fù)雜的“邏輯分叉樹森林”,由此極大地降低了方案的復(fù)雜度,從而大大降低了編程(如分支的編程)和運算成本(如各分支的匹配)。

圖5示出了根據(jù)本發(fā)明的用于提取關(guān)鍵元素的方法400的流程。

在步驟402,根據(jù)第一語義知識庫對所述第一自然語言輸入進行語義匹配以識別所述第一自然語言輸入的總體語義。所述總體語義例如可以通過識別第一自然語言輸入的句型來識別,例如“我要吃漢堡”這句話的句型為“我要吃…”,從而可以確定這句話的大致含義與“食物”相關(guān)聯(lián),從而可以除去限定知識庫中與“食物”無關(guān)聯(lián)的條目,從而削減限定知識庫。所述匹配過程可以采用現(xiàn)有技術(shù)來進行、例如貪婪算法、退火算法或者經(jīng)典二叉樹算法。為了不模糊本發(fā)明,在此不對這些算法展開介紹。在匹配失敗的情況下可以輸出錯誤信息或者進入異常處理程序,例如神經(jīng)網(wǎng)絡(luò)進行進一步查找。

在步驟404,選擇限定知識庫。例如,限定知識庫可以根據(jù)一個或多個第一自然語言輸入的上下文或者根據(jù)預(yù)設(shè)來選擇。

在步驟406,通過確定所述限定知識庫中與所述總體語義相關(guān)聯(lián)的條目并去除其余條目來縮減所述限定知識庫。例如限定知識庫中的每個條目均屬于某類別,而通過總體語義可以確定相關(guān)聯(lián)的一個或多個類別,并且其它類別被從該限定知識庫中篩除。由此,減小了限定知識庫中的數(shù)據(jù)條目,從而降低匹配的計算量。

在步驟408,對所述第一自然語言輸入進行機械分詞以生成所述第一自然語言輸入的分詞結(jié)果集合。機械分詞是指窮舉一句話所有可能的分詞結(jié)果,因此具有精度高的特點,因為不會遺漏任何分詞結(jié)果,但是在知識庫巨大的情況下,容易產(chǎn)生計算量大的缺點,因為每個分詞結(jié)果都需要與巨大知識庫中的每個條目相匹配。機械分詞是從現(xiàn)有技術(shù)中公知的技術(shù),在此不加以贅述。

在步驟410,使用經(jīng)縮減的限定知識庫對所述分詞結(jié)果進行匹配以從分詞結(jié)果集合中確定分詞結(jié)果。通過使用經(jīng)縮減的限定知識庫來對機械分詞的分詞結(jié)果集合進行匹配,可以進一步降低計算量。所述匹配過程可以采用現(xiàn)有技術(shù)來進行、例如貪婪算法、退火算法或者經(jīng)典二叉樹算法。在匹配失敗的情況下可以輸出錯誤信息或者進入異常處理程序,例如神經(jīng)網(wǎng)絡(luò)進行進一步查找。

在步驟412,使用第二語義知識庫對分詞結(jié)果中的詞語進行匹配以確定所述詞語的語義。其中第二語義知識庫可以與第一語義知識庫為相同的語義知識庫,但是也可以為不同的語義知識庫,例如第一語義知識庫僅包含用于識別總體語義的條目、如句型,而第二語義知識庫包含相應(yīng)詞語的語義。所述匹配過程可以采用現(xiàn)有技術(shù)來進行、例如貪婪算法、退火算法或者經(jīng)典二叉樹算法。在匹配失敗的情況下可以輸出錯誤信息或者進入異常處理程序,例如神經(jīng)網(wǎng)絡(luò)進行進一步查找。

在步驟414,從所述詞語的語義中選擇一個或多個用作關(guān)鍵元素。從分詞結(jié)果的語義中篩選出關(guān)鍵元素的步驟可以按照一定的判斷規(guī)則來進行,例如與當(dāng)前上下文的關(guān)聯(lián)性、語義本身的重要性等等,其中篩分規(guī)則越精細(xì),則所需儲存的關(guān)鍵元素的量就越少。但是在一個實施例中,也可以存儲所有詞語作為關(guān)鍵詞。

根據(jù)本發(fā)明的用于提取關(guān)鍵元素的方法400可以極大地提高分詞效率和分詞正確率。這是因為,本發(fā)明人獨創(chuàng)地采用了下列措施:(1)在現(xiàn)有技術(shù)中,一般使用專用分詞工具(如中科院分詞nlpir、哈工大的ltp等等)來進行分詞,但是這些分詞工具的分詞準(zhǔn)確率不高、而且無法細(xì)分到具體領(lǐng)域,例如遇到“長春市里有家長春藥店”之類易混淆表達方式時,容易分詞錯誤;另一種方式是機械分詞、即把用戶自然語言輸入的每一種文字的排列組合都羅列一遍以保證不會遺漏任何分詞可能性,但是機械分詞雖然準(zhǔn)確率為100%,但是計算量巨大,因為所有分詞結(jié)果集合均需要與涉及各領(lǐng)域的巨大知識庫中的每個條目一一進行匹配,但只有一個結(jié)果是準(zhǔn)確的,其它結(jié)果均為額外計算,這樣會造成巨大的計算量、例如動輒幾億次計算量,在本發(fā)明中,為了消除上述缺點,將機械分詞與較小限定知識庫相結(jié)合、即采用較小的限定知識庫來對機械分詞的分詞結(jié)果進行匹配,這樣既結(jié)合了機械分詞的高精度,同時又縮小了要進行匹配的庫,從而大大降低了計算量;(2)在本發(fā)明中,通過提取用戶自然語言輸入的總體語義、即大致含義并篩除限定知識庫中與總體語義不相關(guān)聯(lián)的條目來縮減限定知識庫,可以進一步降低將機械分詞結(jié)果與限定知識庫相匹配的計算量,從而進一步降低計算成本。

雖然本發(fā)明的一些實施方式已經(jīng)在本申請文件中予以了描述,但是對本領(lǐng)域技術(shù)人員顯而易見的是,這些實施方式僅僅是作為示例示出的。本領(lǐng)域技術(shù)人員可以想到眾多的變型方案、替代方案和改進方案而不超出本發(fā)明的范圍。所附權(quán)利要求書旨在限定本發(fā)明的范圍,并藉此涵蓋這些權(quán)利要求本身及其等同變換的范圍內(nèi)的方法和結(jié)構(gòu)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
横峰县| 新昌县| 东安县| 阳江市| 卢氏县| 金寨县| 施甸县| 鹿泉市| 泾源县| 库车县| 专栏| 耿马| 八宿县| 通渭县| 金秀| 吴旗县| 疏勒县| 子长县| 遵义县| 德格县| 晋宁县| 梓潼县| 威海市| 吉林省| 遂平县| 洞头县| 深州市| 贡觉县| 阿克| 磴口县| 乌鲁木齐县| 施秉县| 五寨县| 盐亭县| 枣强县| 伊春市| 潞西市| 平阴县| 温州市| 西畴县| 资中县|