两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

為一個(gè)自然語(yǔ)言理解系統(tǒng)用來(lái)自動(dòng)注解訓(xùn)練數(shù)據(jù)的一個(gè)系統(tǒng)的制作方法

文檔序號(hào):6452591閱讀:278來(lái)源:國(guó)知局
專利名稱:為一個(gè)自然語(yǔ)言理解系統(tǒng)用來(lái)自動(dòng)注解訓(xùn)練數(shù)據(jù)的一個(gè)系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言理解。具體而言,本發(fā)明涉及為訓(xùn)練一個(gè)自然語(yǔ)言理解系統(tǒng)注解訓(xùn)練數(shù)據(jù)。
為了訓(xùn)練常規(guī)的自然語(yǔ)言理解系統(tǒng),需要大量被注解的訓(xùn)練數(shù)據(jù)。沒(méi)有足夠的訓(xùn)練數(shù)據(jù),系統(tǒng)不能充分地被訓(xùn)練且性能受到損害。
然而,為了產(chǎn)生被注解的訓(xùn)練數(shù)據(jù),常規(guī)的系統(tǒng)依賴手工注解。這遭受許多主要缺點(diǎn)。手工注解可能是昂貴的,耗時(shí)的,單調(diào)的,和易于產(chǎn)生錯(cuò)誤的。另外,甚至改正注解也可能是困難的。如果注解幾乎正確,發(fā)現(xiàn)錯(cuò)誤是相當(dāng)困難的。
在一個(gè)實(shí)施例中,當(dāng)用戶與系統(tǒng)交互作用時(shí),只有對(duì)建議注解的合法的可供選擇被用戶顯示以用來(lái)選擇。
在另一個(gè)實(shí)施例中,自然語(yǔ)言理解系統(tǒng)計(jì)算一個(gè)與建議注解聯(lián)合的置信標(biāo)準(zhǔn)。置信標(biāo)準(zhǔn)可能被使用來(lái)在系統(tǒng)最小確信的建議注解中標(biāo)記數(shù)據(jù)。這引起了用戶對(duì)系統(tǒng)最小確信數(shù)據(jù)的注意。
在另一個(gè)實(shí)施例中,為了增加與系統(tǒng)建議注解相關(guān)的速度和正確度,客戶可能限制由自然語(yǔ)言理解系統(tǒng)所建議的注解類型到那些可能的預(yù)定子集。例如,用戶可能選擇語(yǔ)言上的種類或被系統(tǒng)用來(lái)使用的解釋類型。在限制在由系統(tǒng)建議的可能注解中,可提高系統(tǒng)的速度和正確度。
在另一個(gè)實(shí)施例中,自然語(yǔ)言理解系統(tǒng)接收一系列的注解。在那時(shí),系統(tǒng)檢查注解來(lái)確定系統(tǒng)是否已經(jīng)與注解不一致地被訓(xùn)練。這可能被用來(lái)檢測(cè)不一致的任何類型,甚至被不同注解者(人或機(jī)器)使用的不同注解風(fēng)格。系統(tǒng)可能為用戶標(biāo)記,以在減少用戶錯(cuò)誤或在注解數(shù)據(jù)中注解的不一致。
在另一個(gè)實(shí)施例中,系統(tǒng)根據(jù)置信標(biāo)準(zhǔn)以上升的(或下降的)次序排列建議的注解。這為用戶識(shí)別系統(tǒng)最小確信的訓(xùn)練數(shù)據(jù)和為被用戶處理的數(shù)據(jù)分等級(jí)。
系統(tǒng)也能通過(guò)任何初步設(shè)計(jì)類型分類建議注解。這允許用戶同時(shí)處理(例如,改正或檢驗(yàn))一個(gè)給定類型的所有建議注解。這允許較快的注解,并鼓勵(lì)更一致的和更正確的注解工作。
本系統(tǒng)也能使用多種不同的用來(lái)產(chǎn)生建議注解的技術(shù)。這種技術(shù)可能被并行使用,并且基于正在被使用的所有不同技術(shù)的結(jié)果使用一個(gè)選擇算法來(lái)選擇用來(lái)顯示到客戶的建議注解。不同的技術(shù)具有不同的力量,而結(jié)合技術(shù)能經(jīng)常產(chǎn)生比任何單獨(dú)語(yǔ)言理解方法更好的結(jié)果。
相似的,本發(fā)明能顯示給用戶正在被使用的還沒(méi)有接收到足夠訓(xùn)練數(shù)據(jù)的自然語(yǔ)言理解模型的不同部分。這允許用戶識(shí)別仍充分地被需要來(lái)訓(xùn)練模型的不同類型數(shù)據(jù)。
圖3舉例說(shuō)明本發(fā)明的全部操作的一個(gè)流程圖。
圖4是依照本發(fā)明的一個(gè)實(shí)施例,用來(lái)訓(xùn)練自然語(yǔ)言理解系統(tǒng)的一個(gè)系統(tǒng)的更為詳細(xì)的方框圖。
圖5舉例說(shuō)明本發(fā)明的操作的一個(gè)更為詳細(xì)的流程圖。
圖6和7舉例說(shuō)明被本發(fā)明使用的一個(gè)用戶界面的實(shí)施例的屏幕鏡頭。。
圖8是依照本發(fā)明的一個(gè)實(shí)施例,舉例說(shuō)明在被建議的注解中添加或刪除節(jié)點(diǎn)的本發(fā)明操作的一個(gè)流程圖。
圖9是依照本發(fā)明的一個(gè)實(shí)施例,舉例說(shuō)明在建議注解數(shù)據(jù)中多種自然語(yǔ)言理解技術(shù)使用的一個(gè)流程圖。


圖1舉例說(shuō)明一個(gè)可能實(shí)現(xiàn)發(fā)明在其上的適當(dāng)?shù)挠?jì)算系統(tǒng)環(huán)境100的一個(gè)例子。計(jì)算系統(tǒng)環(huán)境100只是一個(gè)適當(dāng)?shù)挠?jì)算系統(tǒng)環(huán)境的一個(gè)例子,不作關(guān)于發(fā)明的使用或功能范圍的任何限制。計(jì)算系統(tǒng)環(huán)境100不需要被解釋為具有關(guān)于在典型的操作環(huán)境100中舉例說(shuō)明的部件的任一或組合的任何從屬或需求。
發(fā)明和許多其它通用或特殊用途計(jì)算系統(tǒng)環(huán)境或設(shè)置一起運(yùn)作??赡苓m合于發(fā)明使用的著名的計(jì)算系統(tǒng),這些環(huán)境和/或設(shè)置的例子包括(但不局限于)個(gè)人計(jì)算機(jī),服務(wù)器計(jì)算機(jī),手持或膝上型設(shè)備,多處理器系統(tǒng),基于微處理器的系統(tǒng),機(jī)頂盒,可編程的消費(fèi)者電子產(chǎn)品,網(wǎng)絡(luò)PC,微電腦,大型機(jī)計(jì)算機(jī),包括以上系統(tǒng)或設(shè)備的任何,和相似的分布式計(jì)算環(huán)境。
發(fā)明可能在計(jì)算機(jī)可執(zhí)行指令的一般上下文中被描述,例如,被一個(gè)計(jì)算機(jī)執(zhí)行的程序代碼。通常,程序模塊包括執(zhí)行特殊任務(wù)或?qū)崿F(xiàn)特殊抽象數(shù)據(jù)類型的例行程序,程序,對(duì)象,部件,數(shù)據(jù)結(jié)構(gòu)等。也可將本發(fā)明用于分布式計(jì)算環(huán)境中,其中,任務(wù)被通過(guò)一個(gè)通訊網(wǎng)絡(luò)連接的遠(yuǎn)程處理設(shè)備執(zhí)行。在一個(gè)分布式計(jì)算環(huán)境中,程序模塊可能位于包括存儲(chǔ)器存儲(chǔ)設(shè)備的局域的和遠(yuǎn)端的計(jì)算機(jī)存儲(chǔ)介質(zhì)。
關(guān)于圖1,用來(lái)實(shí)現(xiàn)發(fā)明的一個(gè)典型系統(tǒng)包括一個(gè)表現(xiàn)為計(jì)算機(jī)110形式的通用計(jì)算設(shè)備。計(jì)算機(jī)110的部件可包括(但不局限于)一個(gè)處理單元120,一個(gè)系統(tǒng)存儲(chǔ)器130,和一個(gè)連接不同系統(tǒng)部件包括系統(tǒng)存儲(chǔ)器到處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可能是幾種總線結(jié)構(gòu)類型中的任何一種包括一個(gè)存儲(chǔ)器總線或存儲(chǔ)器控制器,一個(gè)周邊總線,和使用多種總線結(jié)構(gòu)中的任一的一個(gè)局域總線。作為例子(不加局限性),這種結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線,微通道結(jié)構(gòu)(MCA)總線,擴(kuò)展工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(EISA)總線,視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局域總線,和周邊部件互連(PCI)總線,也即是Mezzanine總線。
計(jì)算機(jī)110一般包括多種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)能夠是任何能被計(jì)算機(jī)110訪問(wèn)的可用介質(zhì)并且包括易失的或非易失的介質(zhì),可移動(dòng)和不可移動(dòng)介質(zhì)。作為例子(不加局限性),計(jì)算機(jī)可讀介質(zhì)可能包含計(jì)算機(jī)存儲(chǔ)介質(zhì)和通訊介質(zhì)。為了諸如計(jì)算機(jī)可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊或其它數(shù)據(jù)的信息存儲(chǔ),計(jì)算機(jī)存儲(chǔ)介質(zhì)包括在任何方法或技術(shù)中實(shí)現(xiàn)的易失的或非易失的,可移動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不局限于,RAM,ROM,EEPROM,閃存或其它存儲(chǔ)器技術(shù),CD-ROM,數(shù)字化通用光盤(DVD)或其它光學(xué)磁盤存儲(chǔ)器,盒式磁帶,磁帶,磁盤存儲(chǔ)器或其它磁存儲(chǔ)設(shè)備,或任何其它能被使用來(lái)存儲(chǔ)想得到的信息和可能被計(jì)算機(jī)100所訪問(wèn)的介質(zhì)。通訊介質(zhì)代表性地包含計(jì)算機(jī)可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊或在一個(gè)已調(diào)制的數(shù)據(jù)信號(hào)中的其它數(shù)據(jù),例如一個(gè)載波WAV或其它傳輸機(jī)制并且包括任何信息傳遞介質(zhì)。術(shù)語(yǔ)“已調(diào)制的數(shù)據(jù)信號(hào)”指具有一個(gè)或多個(gè)它的特征集或在信號(hào)中編碼信息的在這種方法中改變的一個(gè)信號(hào)。作為例子,和不局限性,通訊介質(zhì)包括有線介質(zhì)(例如一個(gè)有線網(wǎng)絡(luò)或直接有線連接)和無(wú)線介質(zhì)(例如聽覺的,F(xiàn)R,紅外線的和其它無(wú)線介質(zhì))。上述任意的組合也應(yīng)該包括在計(jì)算機(jī)可讀介質(zhì)的范圍中。
系統(tǒng)存儲(chǔ)器130包括以易失的和/或非易失的存儲(chǔ)器,例如只讀存儲(chǔ)器(ROM)131和隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)132。一個(gè)基礎(chǔ)輸入/輸出系統(tǒng)133(BIOS),包括有助于計(jì)算機(jī)110中的元件之間轉(zhuǎn)移信息的基礎(chǔ)例程,例如在啟動(dòng)中,被典型的存儲(chǔ)在ROM131。RAM132一般包括數(shù)據(jù)和/或程序模塊,它們能被立即訪問(wèn)和/或通過(guò)處理單元120當(dāng)前正在被操作。作為例子(并不加局限性),圖1舉例說(shuō)明操作系統(tǒng)134,應(yīng)用程序135,其它程序模塊136,和程序數(shù)據(jù)137。
計(jì)算機(jī)110可能也包括其它可移動(dòng)的/不可移動(dòng)的易失的/非易失的計(jì)算機(jī)存儲(chǔ)介質(zhì)。只作為例子,圖1舉例說(shuō)明一個(gè)讀取或?qū)懙讲豢梢苿?dòng)的,非易失的磁性介質(zhì)的硬盤驅(qū)動(dòng)器141,一個(gè)讀取或?qū)懙揭粋€(gè)可移動(dòng)的,非易失的磁盤152的磁盤驅(qū)動(dòng)器151,和一個(gè)讀取或?qū)懙揭粋€(gè)可移動(dòng)的,非易失的光盤156(例如一個(gè)CDROM)或其它光介質(zhì)的光盤驅(qū)動(dòng)器155。其它可能被用在典型的操作環(huán)境中的可移動(dòng)的/不可移動(dòng)的易失的/非易失的計(jì)算機(jī)存儲(chǔ)介質(zhì)包括(但不限于)盒式磁帶,閃存卡,數(shù)字化通用光盤,數(shù)字化錄像磁帶,固態(tài)RAM,固態(tài)ROM等等。硬盤驅(qū)動(dòng)器141一般通過(guò)一個(gè)不可移動(dòng)的存儲(chǔ)器接口例如接口140連接到系統(tǒng)總線121,并且磁盤驅(qū)動(dòng)器151和光盤驅(qū)動(dòng)器155一般通過(guò)一個(gè)可移動(dòng)的存儲(chǔ)器接口(例如接口150)連接到系統(tǒng)總線121。
上面討論的和在圖1中舉例說(shuō)明的驅(qū)動(dòng)器和它們相連的計(jì)算機(jī)存儲(chǔ)介質(zhì),提供對(duì)于計(jì)算機(jī)可讀指令,數(shù)據(jù)結(jié)構(gòu),程序模塊,和其它關(guān)于計(jì)算機(jī)110的數(shù)據(jù)的存儲(chǔ)。在圖1中,例如,硬盤驅(qū)動(dòng)器141被舉例說(shuō)明來(lái)存儲(chǔ)操作系統(tǒng)144,應(yīng)用程序145,其它程序模塊146,和程序數(shù)據(jù)147。值得注意的是這些部件可能相同或異于操作系統(tǒng)134,應(yīng)用程序135,其它程序模塊136,和程序數(shù)據(jù)137。操作系統(tǒng)144,應(yīng)用程序145,其它程序模塊146,和程序數(shù)據(jù)147在這里被給定不同的數(shù)目來(lái)舉例說(shuō)明那個(gè),最小的,它們是不同的副本。
一個(gè)用戶可能通過(guò)輸入設(shè)備例如一個(gè)鍵盤162,一個(gè)麥克風(fēng)163,和一個(gè)指示設(shè)備161,例如一個(gè)鼠標(biāo), 軌道球或觸摸墊來(lái)輸入命令和信息到計(jì)算機(jī)110。其他輸入設(shè)備(未顯示)可能包括一個(gè)操縱桿,游戲墊,圓盤式衛(wèi)星電視天線,掃描儀等等。這些和其它輸入設(shè)備通過(guò)一個(gè)連接到系統(tǒng)總線上的用戶輸入接口160被經(jīng)常連接到處理單元120,但可能被其它接口和總線結(jié)構(gòu)連接,例如一個(gè)并行口,游戲口或一個(gè)通用串行總線架構(gòu)(USB)。一個(gè)監(jiān)視器191或其他類型的顯示設(shè)備也通過(guò)一個(gè)接口,例如一個(gè)視頻接口190被連接到系統(tǒng)總線121。除監(jiān)視器之外,計(jì)算機(jī)也可能包括其它外圍的輸出設(shè)備(例如揚(yáng)聲器197和打印機(jī)196),可能通過(guò)一個(gè)輸出外圍接口190被連接。
使用邏輯連接到一個(gè)或多個(gè)遠(yuǎn)端計(jì)算機(jī)(例如一個(gè)遠(yuǎn)端計(jì)算機(jī)180),計(jì)算機(jī)110可能在一個(gè)網(wǎng)絡(luò)環(huán)境中運(yùn)作。遠(yuǎn)端計(jì)算機(jī)180可能是一臺(tái)個(gè)人計(jì)算機(jī),一臺(tái)手持設(shè)備,一臺(tái)服務(wù)器,一個(gè)路由器,一臺(tái)網(wǎng)絡(luò)PC,一個(gè)對(duì)等式設(shè)備或其它普通的網(wǎng)絡(luò)節(jié)點(diǎn),且一般包括上述的相對(duì)于計(jì)算機(jī)110的許多或所有的元素。在圖1中描述的邏輯連接包括一個(gè)局域網(wǎng)(LAN)171和一個(gè)廣域網(wǎng)(WAN)173,但可能也包括其它網(wǎng)絡(luò)。這種網(wǎng)絡(luò)環(huán)境在辦公室,企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò),企業(yè)內(nèi)部互聯(lián)網(wǎng)和因特網(wǎng)中是普遍的。
當(dāng)被使用在一個(gè)LAN網(wǎng)絡(luò)環(huán)境中時(shí),計(jì)算機(jī)110通過(guò)一個(gè)網(wǎng)絡(luò)接口或適配器170被連接到LAN171。當(dāng)被使用在一個(gè)WAN網(wǎng)絡(luò)環(huán)境中時(shí),計(jì)算機(jī)110一般包括一個(gè)調(diào)制解調(diào)器172和用來(lái)在WAN173(例如因特網(wǎng))上建立通訊的其它方法。調(diào)制解調(diào)器172,可能是內(nèi)部的或外部的,可能通過(guò)用戶輸入接口160被連接到系統(tǒng)總線121,或其它正確的機(jī)制。在一個(gè)網(wǎng)絡(luò)環(huán)境中,相對(duì)于計(jì)算機(jī)110或在其中的部分描述的程序模塊,可能被存儲(chǔ)在遠(yuǎn)端存儲(chǔ)器存儲(chǔ)設(shè)備。作為例子(不加局限性),圖1舉例說(shuō)明當(dāng)居于遠(yuǎn)端計(jì)算機(jī)180上的時(shí)候的遠(yuǎn)端應(yīng)用程序185。也希望所示網(wǎng)絡(luò)連接是可典型性的,并能夠使用在計(jì)算機(jī)之間建立一個(gè)通訊連接的其它方法。
須注意,本發(fā)明可能在一個(gè)計(jì)算機(jī)系統(tǒng)(例如關(guān)于圖1所描述的系統(tǒng))上實(shí)現(xiàn)。然而,本發(fā)明可能在一個(gè)服務(wù)器,一個(gè)用來(lái)消息處理的計(jì)算機(jī)上或一個(gè)分布式系統(tǒng)上實(shí)現(xiàn),其中,本發(fā)明的不同部分在分布式計(jì)算系統(tǒng)的不同部分上實(shí)現(xiàn)。
圖2是依照本發(fā)明的一個(gè)實(shí)施例,舉例說(shuō)明一個(gè)用來(lái)訓(xùn)練一個(gè)自然語(yǔ)言理解(NLU)系統(tǒng)的一個(gè)系統(tǒng)300的一個(gè)方框圖。系統(tǒng)300包括一個(gè)被用來(lái)訓(xùn)練的一個(gè)自然語(yǔ)言理解系統(tǒng)302。系統(tǒng)300包括一個(gè)被用來(lái)訓(xùn)練的一個(gè)自然語(yǔ)言理解系統(tǒng)302。系統(tǒng)300也包括學(xué)習(xí)部件304和改正或檢驗(yàn)接口306。圖3舉例說(shuō)明在圖2所示的系統(tǒng)300的全部操作的一個(gè)流程圖。
NLU系統(tǒng)302是根據(jù)任何已知的自然語(yǔ)言處理技術(shù)接收一個(gè)自然語(yǔ)言輸入和處理以獲得和輸出一個(gè)關(guān)于自然語(yǔ)言輸入意義的顯示的一個(gè)說(shuō)明性的自然語(yǔ)言理解系統(tǒng)。NLU系統(tǒng)302也示出包括必須用被注解的訓(xùn)練數(shù)據(jù)訓(xùn)練的模型。
依照本發(fā)明的一個(gè)實(shí)施例,學(xué)習(xí)部件304是一個(gè)隨意地接收被注解的訓(xùn)練數(shù)據(jù)和訓(xùn)練在自然語(yǔ)言理解(NLU)系統(tǒng)302中使用的模型的訓(xùn)練部件。學(xué)習(xí)部件304可能是任何已知的用來(lái)使用在NLU系統(tǒng)302中的模型的修改或訓(xùn)練的學(xué)習(xí)部件,而本發(fā)明沒(méi)有被限制在任何特定的學(xué)習(xí)部件304。
在任何情況下,學(xué)習(xí)部件304首先隨意地接收初始的被注解的訓(xùn)練數(shù)據(jù)306。這在圖3中被方框308顯示。初始的被注解的訓(xùn)練數(shù)據(jù)306,如果它被使用,包括已經(jīng)被用戶注解的初始數(shù)據(jù),或在NLU系統(tǒng)302中使用的另一個(gè)具有領(lǐng)域和模型知識(shí)的實(shí)體。學(xué)習(xí)部件304因而產(chǎn)生(或訓(xùn)練)NLU系統(tǒng)302的模型。訓(xùn)練基于初始被注解訓(xùn)練數(shù)據(jù)的NLU系統(tǒng)是可選擇的并且在圖3中被方框310舉例說(shuō)明。
NLU系統(tǒng)302從而被初始化并且能為它所接收的未被注解數(shù)據(jù)產(chǎn)生建議注解,盡管初始化步驟不是必需的。在任何情況下,NLU系統(tǒng)302仍沒(méi)有被較好的訓(xùn)練,和許多它的注解將可能是不正確的。
NLU系統(tǒng)302在那時(shí)接收未被注解(或部分被注解)的訓(xùn)練數(shù)據(jù)312,為用戶期望的為更好訓(xùn)練NLU系統(tǒng)302建立注解。將值得注意的是本發(fā)明也可能被用來(lái)為部分被注解數(shù)據(jù)產(chǎn)生注解,或?yàn)槿康?,但不正確的被注解的數(shù)據(jù)。自此以后,術(shù)語(yǔ)“未被注解”將被用來(lái)包括所有的這些用來(lái)期望一個(gè)更深注解的數(shù)據(jù)。在圖3中方框314顯示在NLU系統(tǒng)302上接收未被注解的訓(xùn)練數(shù)據(jù)312。
NLU系統(tǒng)302在那時(shí)為未被注解的訓(xùn)練數(shù)據(jù)312產(chǎn)生建議的注解316。這在圖3中被方框318顯示。建議的注解316被提供到用戶改正或檢驗(yàn)接口用來(lái)向用戶表達(dá)。用戶可能在那時(shí)確認(rèn)被建議的注解316或改變它們。這將在應(yīng)用中在后面進(jìn)一步的被詳細(xì)描述,和在圖3中被方框320顯示。
一旦用戶已經(jīng)改正或檢驗(yàn)了被建議的注解316來(lái)獲取改正的或被檢驗(yàn)的注解322,提供改正的或被檢驗(yàn)的注解322到學(xué)習(xí)部件304。學(xué)習(xí)部件304在那時(shí)訓(xùn)練或修改基于改正的或被檢驗(yàn)的注解322的在NLU系統(tǒng)302中使用的模型。在圖3中被方框324顯示。
在這種方法中,NLU系統(tǒng)302已經(jīng)參與了在訓(xùn)練它本身中用來(lái)使用的被注解訓(xùn)練數(shù)據(jù)322的產(chǎn)生。當(dāng)基于在訓(xùn)練過(guò)程中較早的未被注解的訓(xùn)練數(shù)據(jù)312建立的被建議的注解316可能不正確,已經(jīng)發(fā)現(xiàn)對(duì)用戶改正一個(gè)不正確的注解比從頭開始為未被注解的訓(xùn)練數(shù)據(jù)建立一個(gè)注解要容易得多。因而,本發(fā)明增加了用產(chǎn)生的被注解訓(xùn)練數(shù)據(jù)的輕松度。
同樣,當(dāng)繼續(xù)該過(guò)程且NLU系統(tǒng)302更好地被訓(xùn)練時(shí),被建議注解316在一個(gè)較高比例時(shí)間內(nèi)是正確的,或至少變得更正確。因而,系統(tǒng)為訓(xùn)練它本身在建立正確的被建議注解中開始獲得大的效率。
圖4是依照本發(fā)明的一個(gè)實(shí)施例的訓(xùn)練系統(tǒng)300的更為詳細(xì)的方框圖。圖4更為詳細(xì)地舉例說(shuō)明了NLU系統(tǒng)302,并且也更為詳細(xì)的舉例說(shuō)明與系統(tǒng)300相應(yīng)的數(shù)據(jù)結(jié)構(gòu)。
特別地,圖4顯示NLU系統(tǒng)302包括語(yǔ)言理解部件350和當(dāng)然可能是被一個(gè)特殊的自然語(yǔ)言理解技術(shù)使用的任何其它模型的語(yǔ)言模型352。語(yǔ)言理解部件350說(shuō)明性的包括一個(gè)或更多的已知語(yǔ)言理解算法,用來(lái)解析輸入數(shù)據(jù)和產(chǎn)生一個(gè)輸出解析或表示輸入數(shù)據(jù)的意思和意圖的注解。部件350說(shuō)明性的訪問(wèn)一個(gè)或多個(gè)在執(zhí)行它的處理中的模型352。語(yǔ)言模型352作為例子被舉例說(shuō)明,盡管其它統(tǒng)計(jì)的或基于文法的模型,或其它模型(例如語(yǔ)言模型或語(yǔ)義模型)也可能被使用。
圖4還顯示語(yǔ)言理解部件350的輸出說(shuō)明性的包括訓(xùn)練注解選項(xiàng)353和注解置信標(biāo)準(zhǔn)354。訓(xùn)練注解選項(xiàng)353說(shuō)明性的包括多個(gè)為每個(gè)輸入到部件350的訓(xùn)練句子或訓(xùn)練短語(yǔ)(或其它輸入單元)由部件350產(chǎn)生的不同注解假定。注解置信標(biāo)準(zhǔn)354說(shuō)明性的包括一個(gè)表示作為在相連的訓(xùn)練數(shù)據(jù)注解選項(xiàng)353中部件350所具有的置信水平。在一個(gè)實(shí)施例中,語(yǔ)言理解部件350是一個(gè)產(chǎn)生置信標(biāo)準(zhǔn)354作為必然的結(jié)果的已知部件。置信標(biāo)準(zhǔn)354被與訓(xùn)練注解選項(xiàng)353的每部分相連。
圖4也顯示一個(gè)語(yǔ)言模型覆蓋標(biāo)準(zhǔn)產(chǎn)生部件356。部件356被說(shuō)明性的編程來(lái)確定模型352的部分是否已經(jīng)充分地被訓(xùn)練。在此實(shí)現(xiàn)過(guò)程中,部件356可能說(shuō)明性的識(shí)別已經(jīng)連接到模型352的每個(gè)不同部分的訓(xùn)練數(shù)據(jù)量來(lái)確定模型352的任何部分是否還沒(méi)有被訓(xùn)練數(shù)據(jù)充分地覆蓋。部件356輸出被一個(gè)用戶用來(lái)訪問(wèn)的模型覆蓋標(biāo)準(zhǔn)358。因而,如果模型352的部分還沒(méi)有被用充分?jǐn)?shù)量的訓(xùn)練數(shù)據(jù)訓(xùn)練,用戶可能收集附加的一個(gè)給定類型的訓(xùn)練數(shù)據(jù)來(lái)較好的訓(xùn)練模型352的那些部分。
圖5更為詳細(xì)的舉例說(shuō)明系統(tǒng)操作的一個(gè)流程圖。圖6舉例說(shuō)明被本發(fā)明使用的一個(gè)用戶界面306的一個(gè)實(shí)施例,并將與圖5一起討論。用戶界面306有第一方框364,第二方框366和第三方框368。方框364是表示語(yǔ)言模型352(作為上面所描述的可能是模型的任何其它方式)的一個(gè)解析樹。解析樹具有多個(gè)節(jié)點(diǎn)368,370,372,374,376和378。在圖6中舉例說(shuō)明的典型的實(shí)施例中,這些節(jié)點(diǎn)中的每個(gè)對(duì)應(yīng)于被語(yǔ)言模型352所認(rèn)識(shí)的一個(gè)命令。
在圖6中舉例說(shuō)明的例子中,正在使用的自然語(yǔ)言理解系統(tǒng)是一個(gè)促進(jìn)航線預(yù)定的檢查和安排的系統(tǒng)。因此,節(jié)點(diǎn)368-378都代表被NLU302所認(rèn)識(shí)的命令(并且因而是被語(yǔ)言模型352特別模型化的)。因而,所示的命令是那些例如“解釋代碼”,“機(jī)場(chǎng)清單”,“顯示容量”等。每個(gè)節(jié)點(diǎn)有一個(gè)或多個(gè)從包含進(jìn)一步依賴于定義命令節(jié)點(diǎn)的屬性的子節(jié)點(diǎn)。屬性是說(shuō)明性的,被填滿來(lái)完全識(shí)別已經(jīng)被NLU系統(tǒng)302所認(rèn)識(shí)或理解的命令節(jié)點(diǎn)的槽。槽也可能依次具有它們自己被填滿的槽。
方框366顯示多個(gè)不同的訓(xùn)練短語(yǔ)(在訓(xùn)練數(shù)據(jù)312中),被用來(lái)訓(xùn)練在方框364中被解析樹代表的模型。用戶可能簡(jiǎn)單的選擇這些短語(yǔ)中的一個(gè)(例如用一個(gè)鼠標(biāo)指針在它上面點(diǎn)擊),而系統(tǒng)350相對(duì)于在方框364中舉例說(shuō)明的語(yǔ)言理解部件350和語(yǔ)言模型352應(yīng)用訓(xùn)練短語(yǔ)。系統(tǒng)產(chǎn)生的被建議的解析(或注解)316被顯示在方框368中。域380顯示被用戶選擇的訓(xùn)練短語(yǔ)但也允許用戶鍵入一個(gè)沒(méi)有在方框366的列表中發(fā)現(xiàn)的訓(xùn)練短語(yǔ)。
在操作(如在圖5中舉例說(shuō)明的)中,系統(tǒng)300首先顯示語(yǔ)言模型(例如,模型覆蓋標(biāo)準(zhǔn)358)的訓(xùn)練數(shù)據(jù)覆蓋到用戶。在圖5中被方框360顯示。在產(chǎn)生模型覆蓋標(biāo)準(zhǔn)中,在方框364中舉例說(shuō)明的語(yǔ)言模型中一組規(guī)則,例如,可能有許多已經(jīng)用來(lái)處理很少的訓(xùn)練數(shù)據(jù)的部分或文法規(guī)則。在那種情況中,如果訓(xùn)練數(shù)據(jù)的數(shù)量沒(méi)有達(dá)到一個(gè)預(yù)先選擇的或動(dòng)態(tài)選擇的極限值,系統(tǒng)將說(shuō)明性的加亮或給代碼涂顏色(或另外在視覺上對(duì)比在方框364中的語(yǔ)言模型表現(xiàn)的部分來(lái)顯示已經(jīng)被為模型的每個(gè)部分收集和處理的訓(xùn)練數(shù)據(jù)的數(shù)量)當(dāng)然,可視的對(duì)比可能簡(jiǎn)單的顯示數(shù)據(jù)量已經(jīng)足夠的或不足的,或它能被分成附加水平來(lái)提供一個(gè)更為有細(xì)密紋理的顯示作為被使用來(lái)訓(xùn)練模型的每部分的訓(xùn)練數(shù)據(jù)的特定量。這種可視的對(duì)比也可能基于模型的性能。
如果已經(jīng)處理了足夠的訓(xùn)練數(shù)據(jù)且模型352的所有部分被充分地訓(xùn)練,則訓(xùn)練過(guò)程完成。這由方框362顯示。然而,如果在方框362上,確定的是需要附加的訓(xùn)練數(shù)據(jù),在那時(shí)附加的未被注解的訓(xùn)練數(shù)據(jù)312被輸入到NLU系統(tǒng)302。這在圖5中被方框363顯示。附加的訓(xùn)練數(shù)據(jù)312將說(shuō)明性的包括多個(gè)訓(xùn)練句子或短語(yǔ)或其它語(yǔ)言單元。
當(dāng)用戶增加如在方框363中舉例說(shuō)明的訓(xùn)練數(shù)據(jù)312時(shí),多個(gè)訓(xùn)練短語(yǔ)或訓(xùn)練句子或其它單元可能被應(yīng)用到NLU系統(tǒng)302。NLU系統(tǒng)302在那時(shí)為所有的流入到它的作為訓(xùn)練數(shù)據(jù)312的未被注解的例子產(chǎn)生注解建議。這由方框390顯示。當(dāng)然,對(duì)于每個(gè)未被注解的訓(xùn)練例子,NLU系統(tǒng)302可能產(chǎn)生多個(gè)連同關(guān)聯(lián)的注解置信標(biāo)準(zhǔn)354一起的訓(xùn)練注解選項(xiàng)353(在圖4中顯示)。如果是那種情況,NLU系統(tǒng)302選擇訓(xùn)練選項(xiàng)353中的一個(gè)作為被顯示到用戶的被建議的注解316。這被說(shuō)明性的使用置信標(biāo)準(zhǔn)354來(lái)完成。
在任何情況中,一旦為了每個(gè)未被注解的訓(xùn)練例子的注解建議已經(jīng)在方框390上被建立,系統(tǒng)準(zhǔn)備對(duì)于用戶的交互作用來(lái)或者檢驗(yàn)或者改正建議的注解316。在其中被建議的注解316被顯示到用戶的特殊方法依靠能夠被用戶選擇的如被方框392顯示的處理策略。如果用戶選擇手動(dòng)模式,處理簡(jiǎn)單地轉(zhuǎn)移到方框394。在那個(gè)情況中,再查閱圖6,用戶簡(jiǎn)單地選擇在方框366中的訓(xùn)練例子中的一個(gè)和系統(tǒng)為在方框368中的那個(gè)訓(xùn)練例子顯示被建議的注解316。
系統(tǒng)也可能(在一個(gè)實(shí)施例中)加亮在具有最低置信標(biāo)準(zhǔn)354的方框368中被顯示的注解部分。這在圖5中由方框396顯示。在一個(gè)細(xì)微不正確的和百分之百正確的注解之間發(fā)現(xiàn)差異可能是困難的。加亮被建議注解的低置信部分導(dǎo)致用戶對(duì)NLU系統(tǒng)302最小確信的部分的注意,因而增加了用戶將發(fā)現(xiàn)不正確注解的可能性。
如果,在方框392上,用戶希望將注解時(shí)間減到最少和改進(jìn)注解的一致性,用戶通過(guò)一個(gè)正確的到NLU302的輸入來(lái)選擇這個(gè),和NLU系統(tǒng)302在方框366中輸出被當(dāng)前選擇的類似例子聚合的訓(xùn)練數(shù)據(jù)例子。這被方框398顯示。換句話說(shuō),值得相信的是對(duì)一個(gè)用戶來(lái)說(shuō)收集或檢驗(yàn)被建議注解和作出更一致的注解選擇是較容易的,如果用戶正在同時(shí)改正所有相同類型的被建議注解。因而,在圖6舉例說(shuō)明的例子中,如果訓(xùn)練數(shù)據(jù)包括用來(lái)在“顯示航班”命令(被節(jié)點(diǎn)378表示)上訓(xùn)練模型的600訓(xùn)練例子,用戶可能希望相繼地處理(或者改正或者檢驗(yàn))這些例子中的每個(gè),而不是處理用其它訓(xùn)練例子點(diǎn)綴著的一些“顯示航班”例子。在那種情況中,系統(tǒng)302將“顯示航班”訓(xùn)練句子聚合在一起和在方框366中一起顯示它們。當(dāng)然,有許多不同技術(shù)可能被使用來(lái)聚合相似的訓(xùn)練數(shù)據(jù),例如聚合相似的注解,和用相似的詞聚合注解,來(lái)命名一些。因此,當(dāng)用戶點(diǎn)擊從一個(gè)例子到下一個(gè),用戶正在處理相似的訓(xùn)練數(shù)據(jù)。一旦訓(xùn)練句子已經(jīng)在這種方式中被聚合和顯示,處理關(guān)于方框394繼續(xù),其中,用戶為在方框368中顯示的那個(gè)例子選擇訓(xùn)練例子和解析,或注解中的一個(gè)。
如果在方框392中,用戶希望通過(guò)用戶改正或檢驗(yàn)的每個(gè)例子的訓(xùn)練利益取最大值,用戶通過(guò)一個(gè)正確的到NLU系統(tǒng)302的輸入來(lái)選擇這個(gè)選項(xiàng)。在那個(gè)情況下,NLU系統(tǒng)302呈現(xiàn)基于在上升次序排序中的注解置信標(biāo)準(zhǔn)354來(lái)分類的訓(xùn)練句子和被建議的注解316。這提供系統(tǒng)在列表頂部上的最小可信的例子句子。因此,當(dāng)用戶選擇和檢驗(yàn)或改正這些例子中的每個(gè),系統(tǒng)正在學(xué)習(xí)超過(guò)當(dāng)它處理一個(gè)具有一個(gè)高程度的可信度的例子時(shí)的情況。當(dāng)然,被建議注解和訓(xùn)練句子可能也在任何其它次序中被排列,例如通過(guò)降低置信標(biāo)準(zhǔn)值。呈現(xiàn)在圖5中被方框400顯示的被置信標(biāo)準(zhǔn)排列的訓(xùn)練例子。
不管用戶選擇三個(gè)處理策略中的哪個(gè),用戶最終用一個(gè)顯示呈現(xiàn)顯示在圖6中陳列的信息,或相似的信息。因此,用戶必須從方框366和解析樹(或注釋)中選擇訓(xùn)練例子中的一個(gè),因?yàn)槟莻€(gè)例子在塊368中被說(shuō)明性地呈現(xiàn),伴隨它的最低置信部分被說(shuō)明性地加亮或不知何故地被顯示到用戶,基于注解置信標(biāo)準(zhǔn)354。這在圖5中被方框396顯示。
然后,用戶確定注解是否如方框402所顯示的正確。如果不是,用戶通過(guò)簡(jiǎn)單的點(diǎn)擊那個(gè)片斷選擇在解析中不正確的注解片斷或在方框368中顯示的注解,或者通過(guò)指針加亮它。選擇不正確的注解片斷在圖5中被方框404顯示。
在圖6中顯示的例子中,可見的是用戶已經(jīng)加亮了在被建議注解中的頂部節(jié)點(diǎn)(“解釋代碼”節(jié)點(diǎn))。一旦片斷已經(jīng)被選擇,或被加亮,系統(tǒng)302顯示,例如在一個(gè)順著向下移動(dòng)的方框410中,所有對(duì)于注解的加亮片斷有用的合法注解選擇(從訓(xùn)練數(shù)據(jù)注解選項(xiàng)353中)。這些注解選項(xiàng)353可能在順著向下移動(dòng)的方框410中在基于在注解置信標(biāo)準(zhǔn)354上的置信次序被顯示,或也在任何其它期望的次序中。這在圖5中被方框412顯示。
通過(guò)“合法注解選擇”是意謂那些不能違反被系統(tǒng)302正在使用的模型或模型352的約束。例如,為了處理一個(gè)英語(yǔ)語(yǔ)言輸入,模型或模型352很可能具有約束,顯示每個(gè)句子必須有一個(gè)動(dòng)詞,或那每一個(gè)介詞短語(yǔ)必須用一個(gè)介詞開始。這種約束也可能是語(yǔ)義的。例如,約束可能允許一個(gè)城市在“機(jī)場(chǎng)清單”命令中但不在“顯示容量”命令中。更多約束的任何其它也可能被使用。當(dāng)用戶已經(jīng)選擇了在方框368中是不正確的注解的一個(gè)部分時(shí),系統(tǒng)302對(duì)于訓(xùn)練數(shù)據(jù)的那個(gè)片斷不產(chǎn)生所有可能的解析或注解。代替的是,系統(tǒng)302只產(chǎn)生和顯示對(duì)于訓(xùn)練數(shù)據(jù)的那個(gè)片斷的那些部分或注解,這將導(dǎo)致全部訓(xùn)練句子的一個(gè)合法的解析。如果一個(gè)特殊的注解不能導(dǎo)致一個(gè)合法的全部的解析(一個(gè)不違反正在被使用的模型的約束的),在那時(shí)系統(tǒng)302不顯示那個(gè)可能的解析或注解作為在順著向下移動(dòng)的方框410中的用戶的一個(gè)選項(xiàng)。
一旦可供選擇的被顯示在順著向下移動(dòng)的方框410中,用戶通過(guò)簡(jiǎn)單的加亮它和在它上單擊來(lái)選擇正確的一個(gè)。這在圖5中被方框414顯示。在那時(shí)處理回復(fù)到確定注解現(xiàn)在是正確的的方框402。
改正的或檢驗(yàn)的注解322在那時(shí)被存儲(chǔ)和呈現(xiàn)到學(xué)習(xí)部件304。這在圖5中被方框416顯示。學(xué)習(xí)部件304是說(shuō)明性的修改基于一個(gè)最近加入片斷的訓(xùn)練數(shù)據(jù)(例如改正的或檢驗(yàn)的注解322)的模型的一個(gè)已知學(xué)習(xí)算法。更新的語(yǔ)言模型參數(shù)被在圖4中的方框420舉例說(shuō)明,而產(chǎn)生那些參數(shù)的過(guò)程在圖5中的方框422顯示。
系統(tǒng)302也能為在先前的被注解訓(xùn)練數(shù)據(jù)中的不一致作檢查。例如,當(dāng)NLU系統(tǒng)302學(xué)習(xí)時(shí),它可能學(xué)習(xí)到先前的或當(dāng)前的被注解的訓(xùn)練數(shù)據(jù)是被不正確注解的?;旧希到y(tǒng)是否正確的檢查預(yù)測(cè)了用戶為過(guò)去的訓(xùn)練例子選擇的注解。預(yù)測(cè)錯(cuò)誤可能建議訓(xùn)練設(shè)置不一致。
確定是否為這些不一致作出檢查是用戶可選擇的和被方框424所顯示的。如果學(xué)習(xí)部件304為不一致作出檢查,系統(tǒng)302再一次被控制來(lái)輸出為已經(jīng)被用戶注解的訓(xùn)練數(shù)據(jù)的被建議注解。學(xué)習(xí)部件304比較存儲(chǔ)的注解數(shù)據(jù)(被用戶檢驗(yàn)的或改正的注解并且被存儲(chǔ))和自動(dòng)產(chǎn)生的注解。然后,學(xué)習(xí)部件304尋找在二個(gè)注解中的不一致(如被方框430所顯示的)。如果沒(méi)有不一致,那么這指被用戶改正的或檢驗(yàn)的注解不被系統(tǒng)認(rèn)為有錯(cuò)和處理簡(jiǎn)單的回復(fù)到方框390,其中,注解建議被產(chǎn)生,為被用戶選擇的下一個(gè)未被注解的例子。
然而,如果在方框430上發(fā)現(xiàn)了不一致,這意味著系統(tǒng)302已經(jīng)在一個(gè)充分的訓(xùn)練數(shù)據(jù)量上被訓(xùn)練,訓(xùn)練數(shù)據(jù)將產(chǎn)生一個(gè)與那個(gè)以前被用戶檢驗(yàn)的或改正的注解不一致的注解,系統(tǒng)具有一個(gè)相當(dāng)高水平置信用戶輸入是不正確的。因而,處理再一次回復(fù)到方框396,其中,用戶那被改正的或檢驗(yàn)的注解再一次被顯示到在方框368中的用戶上,再一次用被加亮的低置信部分指引用戶注意系統(tǒng)302已經(jīng)認(rèn)為可能有錯(cuò)誤的注解部分。這為用戶提供了另一個(gè)機(jī)來(lái)檢查注解,以確定它是正確的如被方框402舉例說(shuō)明的。
當(dāng)注解已經(jīng)最終被檢驗(yàn)或改正時(shí),用戶可能簡(jiǎn)單的單擊在UI306上的”學(xué)習(xí)這個(gè)解析”按鈕(或另一個(gè)相似的激勵(lì)者)和語(yǔ)言模型被學(xué)習(xí)部件304更新。
也須注意,另一個(gè)特征被本發(fā)明所預(yù)期。即使只要在改正中合法的注解被產(chǎn)生和顯示到用戶,這可能需要一個(gè)相當(dāng)大數(shù)量的時(shí)間。因而,本發(fā)明提供一個(gè)機(jī)制,通過(guò)用戶可能限制輸入例子的自然語(yǔ)言分析到可能分析的特定子集。這種限制可能,例如,正在限制分析到一個(gè)單個(gè)語(yǔ)言種類或到模型的一定部分。在圖6中舉例說(shuō)明的例子中,如果用戶正在處理”顯示能力”命令,例如,用戶可能在選擇一個(gè)下一個(gè)訓(xùn)練句子之前簡(jiǎn)單的加亮模型的那個(gè)部分。這在圖5中被方框460和462顯示。因而,在NLU系統(tǒng)302正在產(chǎn)生被建議的注解的步驟中,它將它的分析和建議只限制到在模型中歸入所選節(jié)點(diǎn)的那些注解。換句話說(shuō),NLU系統(tǒng)302將只試圖映象輸入的訓(xùn)練句子到在加亮的命令節(jié)點(diǎn)下的節(jié)點(diǎn)。這能夠顯著的減少處理時(shí)間量和提高在產(chǎn)生被建議注解中的準(zhǔn)確性。
圖7和8是依照本發(fā)明的另外的實(shí)施例,舉例說(shuō)明另一個(gè)特征。如上述圖6所示,一旦用戶選擇在方框366中的一個(gè)訓(xùn)練句子,那個(gè)訓(xùn)練句子或短語(yǔ)被應(yīng)用相對(duì)于在NLU系統(tǒng)302中(或它已經(jīng)被應(yīng)用)的語(yǔ)言模型(或其它模型)和系統(tǒng)302,產(chǎn)生在方框368中被顯示的一個(gè)被建議注解。如果那個(gè)被建議注解是不正確的,用戶可能加亮注解的不正確部分,而系統(tǒng)將顯示所有的合法的可供選擇。然而,可能發(fā)生在方框368中被顯示的注解建議的一部分可能是不正確的,不是只因?yàn)橐粋€(gè)節(jié)點(diǎn)被貼錯(cuò)標(biāo)簽,但代之的是因?yàn)橐粋€(gè)節(jié)點(diǎn)不見和必須被添加,或因?yàn)楝F(xiàn)在有太多的節(jié)點(diǎn)和一個(gè)節(jié)點(diǎn)必須被刪除或兩個(gè)必須被合并。
如果一個(gè)節(jié)點(diǎn)必須被刪除,用戶簡(jiǎn)單的加亮它和在那時(shí)從順著向下移動(dòng)的方框410中選擇刪除。然而,如果必須作出對(duì)節(jié)點(diǎn)結(jié)構(gòu)附加的變化,用戶可能在順著向下移動(dòng)的方框410中選擇“增加子節(jié)點(diǎn)”選項(xiàng)。在那種情況中,用戶被用與在圖7中所示的相似的一個(gè)顯示來(lái)呈現(xiàn)。
圖7具有第一域500和第二域502。第一域500顯示訓(xùn)練句子或訓(xùn)練短語(yǔ)的一個(gè)部分,和加亮不再被在方框368中呈現(xiàn)的注解建議所覆蓋的訓(xùn)練短語(yǔ)的部分,但應(yīng)該是。將希望,完全的注解不需要覆蓋在一個(gè)訓(xùn)練句子中的每個(gè)單詞。例如,在一個(gè)命令之前的詞“請(qǐng)”可能沒(méi)有被注解。發(fā)明的本特征簡(jiǎn)單的應(yīng)用于沒(méi)有被注解覆蓋的部分,但對(duì)于一個(gè)完全的注解來(lái)說(shuō)可能是必要的。
在圖7種顯示的例子中,被顯示的訓(xùn)練句子的部分是“西雅圖到波士頓”。圖7還舉例說(shuō)明術(shù)語(yǔ)“西雅圖”被在方框368中當(dāng)前顯示的注解所覆蓋因?yàn)椤拔餮艌D”在灰字體中出現(xiàn)。在粗字體中出現(xiàn)的術(shù)語(yǔ)“到波士頓”顯示它們?nèi)詻](méi)有被在方框368中當(dāng)前顯示的解析(或注解)所覆蓋。
方框502舉例說(shuō)明關(guān)于術(shù)語(yǔ)“到波士頓”的有效的所有合法的注解選項(xiàng)。用戶能簡(jiǎn)單的通過(guò)加亮它和激勵(lì)“OK”按鈕來(lái)選擇那些中的一個(gè)。然而,用戶也可能加亮在方框500中二者任一的或全部的詞(“到波士頓”),和系統(tǒng)302產(chǎn)生關(guān)于被加亮詞的所有可能的合法注解選項(xiàng),和顯示在方框502中的那些選項(xiàng)。因而如果用戶選擇”到”,方框502將列出關(guān)于”到”的所有可能的合法的注解。如果用戶選擇“波士頓”,方框502列出關(guān)于“波士頓”的所有合法的注解。如果用戶選擇“到波士頓”,方框502列出關(guān)于“到波士頓”的所有合法的注解。在這種方式中,用戶可能將在方框500(當(dāng)前沒(méi)有被建議的注解覆蓋)中顯示的訓(xùn)練句子的部分分成任何期望數(shù)目的節(jié)點(diǎn),通過(guò)簡(jiǎn)單的加亮訓(xùn)練句子的許多部分,和選擇在方框502中顯示的合法注解選項(xiàng)中正確的一個(gè)。
特別如圖8中所示,假設(shè)系統(tǒng)300已經(jīng)在方框368中為一個(gè)被選擇的訓(xùn)練句子顯示了一個(gè)建議的解析或注解。這由方框504顯示。假設(shè)在那時(shí)用戶已經(jīng)刪除了一個(gè)不正確的子節(jié)點(diǎn)(如被方框506所顯示)。用戶在那時(shí)在順著向下移動(dòng)的方框410中選擇“增加子節(jié)點(diǎn)”選項(xiàng)如被方框508所顯示。這產(chǎn)生一個(gè)相似于在圖7中顯示那個(gè)的顯示,其中,系統(tǒng)顯示還沒(méi)有被解析(自從被建議注解伙或解析的一些已經(jīng)被用戶刪除)覆蓋的訓(xùn)練數(shù)據(jù)的部分。這被方框510顯示。
接著,系統(tǒng)被方框512所示的為未覆蓋訓(xùn)練數(shù)據(jù)的一個(gè)被選擇部分顯示合法的可供選擇。如果用戶選擇可供選擇中的一個(gè),則在方框368中顯示的注解根據(jù)用戶的選擇而被改正。這由方框514和516顯示,和它被確定當(dāng)前注解是否完成。如果沒(méi)有,處理返回到方框510。如果是的話,然而,處理關(guān)于這個(gè)訓(xùn)練句子被完成。這由方框518顯示。
如果,在方框514用戶沒(méi)有從域502中選擇可供選擇的一個(gè),則確定用戶是否從域500中已經(jīng)選擇(或加亮)了未覆蓋訓(xùn)練數(shù)據(jù)的一個(gè)部分。如果沒(méi)有,系統(tǒng)簡(jiǎn)單的等待用戶或者選擇在域500中顯示的未覆蓋數(shù)據(jù)的一部分或者從域502中選擇一個(gè)正確的解析。這被方框520顯示。然而,如果用戶已經(jīng)加亮了在域500中的未覆蓋訓(xùn)練數(shù)據(jù)的一部分,在那時(shí)處理回到方框512和系統(tǒng)為一個(gè)被選擇的未覆蓋訓(xùn)練數(shù)據(jù)顯示合法的可供選擇所以用戶能選擇正確的注解。
另外依照本發(fā)明的另一個(gè)實(shí)施例,為產(chǎn)生關(guān)于句子(或任何其它自然語(yǔ)言單元例如一個(gè)詞,詞組,短語(yǔ)或句子或句子組)的注解的多個(gè)不同的技術(shù)是已知的。例如,統(tǒng)計(jì)的和基于文法的分類系統(tǒng)對(duì)于從自然語(yǔ)言輸入中產(chǎn)生注解都是已知的。依照本發(fā)明的一個(gè)實(shí)施例,多個(gè)不同技術(shù)被使用來(lái)產(chǎn)生為相同訓(xùn)練句子(或其它自然語(yǔ)言單元)的注解。系統(tǒng)302因而包括,在語(yǔ)言理解部件350中,多個(gè)為產(chǎn)生被建議注解的不同算法。當(dāng)然,系統(tǒng)302也說(shuō)明性的包括與那些不同算法聯(lián)合的相應(yīng)模型。圖9是舉例說(shuō)明依照本發(fā)明的一個(gè)實(shí)施例這些技術(shù)和不同的算法和模型可能怎么被使用。
用戶首先顯示到系統(tǒng)302(通過(guò)一個(gè)用戶界面激勵(lì)者或其它輸入技術(shù))哪個(gè)注解產(chǎn)生技術(shù)用戶希望使用(所有,一些,或只有一個(gè))。這被方框600顯示。技術(shù)可能被選擇通過(guò)測(cè)試每個(gè)相對(duì)于人力注解句子的性能,或任何其它確定哪個(gè)是最有效的方法。系統(tǒng)300在那時(shí)訓(xùn)練與在用來(lái)初始化系統(tǒng)的初始被注解訓(xùn)練數(shù)據(jù)上的那些技術(shù)中的每個(gè)相聯(lián)合的模型。這被方框602顯示。被訓(xùn)練的模型在那時(shí)被使用來(lái)在一個(gè)如上所描述的那個(gè)相似的方式中為未被注解訓(xùn)練數(shù)據(jù)建議注解,同時(shí)使用多個(gè)不同的技術(shù)產(chǎn)生那個(gè)注解的差異。這被方框604顯示。
不同技術(shù)的結(jié)果在那時(shí)被結(jié)合在一起來(lái)選擇一個(gè)被建議的注解顯示到用戶。這由方框606顯示。更多的聯(lián)合算法可能被使用來(lái)精選正確的注解。例如,一個(gè)投票算法可能被使用來(lái)選擇大多數(shù)注解產(chǎn)生技術(shù)贊同的被建議注解。當(dāng)然,其它相似的或甚至更巧妙的聯(lián)合算法可能被使用來(lái)從注解產(chǎn)生技術(shù)產(chǎn)生的那些中精選一個(gè)被建議的注解。
一旦特殊的注解已經(jīng)被選擇,作為被建議的注解,它通過(guò)用戶界面被顯示,這被方框608顯示。
因而可見的是本發(fā)明的許多不同的實(shí)施例可能被用于為了促進(jìn)及時(shí)、有效和不昂貴的訓(xùn)練數(shù)據(jù)的注解,以訓(xùn)練一個(gè)自然語(yǔ)言理解系統(tǒng)。簡(jiǎn)單的使用NLU系統(tǒng)本身來(lái)產(chǎn)生注解建議徹底地減少需要注解訓(xùn)練數(shù)據(jù)的時(shí)間和人工量。即使系統(tǒng)將在初始時(shí)經(jīng)常產(chǎn)生錯(cuò)誤,改正一個(gè)被建議的注解比從零開始建立一個(gè)注解的困難要小得多。
通過(guò)在改正中只呈現(xiàn)合法的可供選擇,系統(tǒng)促進(jìn)更有效的注解編輯。相似的,使用置信標(biāo)準(zhǔn)來(lái)集中用戶的注意到被建議注解的部分,為了系統(tǒng)具有較低的置信度來(lái)減少注解錯(cuò)誤和減少檢驗(yàn)一個(gè)正確的注解建議所需的時(shí)間量。
此外,通過(guò)提供一個(gè)允許一個(gè)用戶限制自然語(yǔ)言理解方法到模型子集的用戶界面也提高性能。如果用戶正在注解一群屬于一個(gè)單獨(dú)語(yǔ)言種類的數(shù)據(jù),用戶可能限制自然語(yǔ)言分析到那個(gè)種類和加速處理,并且提高注解建議的精確性。
本發(fā)明也可能幫助發(fā)現(xiàn)用戶注解錯(cuò)誤,通過(guò)應(yīng)用語(yǔ)言理解算法到被注解的訓(xùn)練數(shù)據(jù)(被用戶確認(rèn)的或改正的)和加亮系統(tǒng)不同意注解的場(chǎng)合,或簡(jiǎn)單的顯示用低置信標(biāo)準(zhǔn)加亮的注解。這系統(tǒng)也可能被設(shè)置來(lái)在低置信數(shù)據(jù)上分訓(xùn)練的優(yōu)先次序。在一個(gè)實(shí)施例中,那個(gè)訓(xùn)練數(shù)據(jù)被呈現(xiàn)到用戶來(lái)首先處理。
在另一個(gè)實(shí)施例中,相似的訓(xùn)練數(shù)據(jù)使用自動(dòng)產(chǎn)生的注解建議或其它任何用來(lái)特征語(yǔ)言相似性的技術(shù)被分組在一起。這使得用戶注解訓(xùn)練數(shù)據(jù)變得較為容易,因?yàn)橛脩粽谕瑫r(shí)注解相似的訓(xùn)練例子。這也允許用戶用較少的錯(cuò)誤更一致的注解。同樣,當(dāng)可能的訓(xùn)練例子被成群時(shí),在訓(xùn)練數(shù)據(jù)中的模式可能較容易的被識(shí)別。
本發(fā)明也提供用來(lái)為更正確的結(jié)果聯(lián)合多個(gè)自然語(yǔ)言理解算法(或注解建議產(chǎn)生技術(shù))。這些技術(shù)可能被并行的使用來(lái)提高提供給用戶的注解支持的質(zhì)量。
另外,由于獲得覆蓋語(yǔ)言模型(或其它正在使用的模型)的所有部分的訓(xùn)練數(shù)據(jù)一般是重要的,本發(fā)明的一個(gè)實(shí)施例顯示語(yǔ)言模型的一個(gè)表現(xiàn),和加亮或在視覺上對(duì)比基于已經(jīng)在訓(xùn)練那些部分中使用的訓(xùn)練數(shù)據(jù)量的模型的部分。這可能通過(guò)顯示模型的哪個(gè)部分需要最多的訓(xùn)練數(shù)據(jù),在訓(xùn)練數(shù)據(jù)收集努力中引導(dǎo)用戶。
盡管關(guān)于特殊的實(shí)施例,本發(fā)明已經(jīng)被描述,本領(lǐng)域的普通技術(shù)人員將認(rèn)識(shí)到將在不脫離發(fā)明的精神和范圍的情況下,可能在形式和細(xì)節(jié)中做出變化。
權(quán)利要求
1.產(chǎn)生被注解訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練具有一個(gè)或多個(gè)模型的一個(gè)自然語(yǔ)言理解(NLU)系統(tǒng)的一個(gè)方法,其特征在于,包括用NLU系統(tǒng)為每個(gè)未被注解的訓(xùn)練數(shù)據(jù)的單元產(chǎn)生一個(gè)建議的注解;為用戶檢驗(yàn)或改正顯示建議的注解以獲取一個(gè)用戶確認(rèn)的注解;和用用戶確認(rèn)的注解訓(xùn)練NLU系統(tǒng)。
2.如權(quán)利要求1所述的方法,其特征在于,還包括在NLU系統(tǒng)中初始化一個(gè)或多個(gè)模型。
3.如權(quán)利要求1所述的方法,其特征在于,為用戶檢驗(yàn)或改正而顯示被建議的注解包括接收被建議的注解的一個(gè)指示用戶識(shí)別部分的一個(gè)用戶輸入;和顯示對(duì)于用戶識(shí)別部分的多個(gè)選擇性的被建議的注解。
4.如權(quán)利要求3所述的方法,其特征在于,一個(gè)或多個(gè)模型強(qiáng)加模型的約束,其中顯示許多被建議的注解,包括為用戶鑒別部分,顯示一個(gè)選擇性的被建議的注解,僅如果對(duì)于與模型約束相一致的單元,選擇性的被建議的注解將導(dǎo)致一個(gè)全面的注解。
5.如權(quán)利要求4所述的方法,其特征在于,被建議的注解包括父節(jié)點(diǎn)和子節(jié)點(diǎn),其中顯示許多選擇性的被建議注解包括當(dāng)促使刪除一個(gè)子節(jié)點(diǎn)時(shí),顯示一個(gè)用戶可實(shí)際刪除節(jié)點(diǎn)的輸入。
6.如權(quán)利要求5所述的方法,其特征在于,顯示許多選擇性的被建議的注解包括顯示沒(méi)有被建議的注解所覆蓋的單元一部分;和對(duì)于沒(méi)有被覆蓋的部分,顯示選擇性的被建議的注解。
7.如權(quán)利要求6所述的方法,其特征在于,用戶能選擇沒(méi)有被覆蓋部分的一個(gè)片斷,其中顯示選擇性的被建議的注解包括為所選擇的片斷顯示選擇性的被建議的注解。
8.如權(quán)利要求7所述的方法,其特征在于,為所選擇的片斷顯示選擇性的被建議的注解,包括僅當(dāng)被建議的注解與模型約束相一致,顯示該被建議的注解。
9.如權(quán)利要求1所述的方法,其特征在于,還包括顯示用來(lái)訓(xùn)練一個(gè)或多個(gè)模型的多個(gè)不同部分的一個(gè)訓(xùn)練數(shù)據(jù)量的一個(gè)指示。
10.如權(quán)利要求9所述的方法,其特征在于,顯示一個(gè)訓(xùn)練數(shù)據(jù)量的一個(gè)指示,包括顯示一個(gè)或多個(gè)模型的一個(gè)表現(xiàn);和在視覺上對(duì)比一個(gè)或多個(gè)已經(jīng)用一個(gè)訓(xùn)練數(shù)據(jù)極限量訓(xùn)練的模型的部分。
11.如權(quán)利要求10所述的方法,其特征在于,基于為一個(gè)或多個(gè)模型的一個(gè)或多個(gè)性能標(biāo)準(zhǔn),訓(xùn)練數(shù)據(jù)極限量是動(dòng)態(tài)的。
12.如權(quán)利要求1所述的方法,其特征在于,顯示關(guān)于檢驗(yàn)或改正的被建議的注解包括產(chǎn)生為被建議的注解的一個(gè)置信標(biāo)準(zhǔn);和在視覺上基于置信標(biāo)準(zhǔn)對(duì)比被顯示的被建議注解的一個(gè)部分。
13.如權(quán)利要求12所述的方法,其特征在于,在視覺上對(duì)比包括在視覺上對(duì)比具有在一個(gè)極限值之下的一個(gè)關(guān)聯(lián)置信標(biāo)準(zhǔn)的被顯示的注解部分。
14.如權(quán)利要求1所述的方法,其特征在于,包括在產(chǎn)生被建議的注解前,接收一個(gè)限制用戶指示;和基于限制用戶指示,限制用來(lái)產(chǎn)生被建議注解的自然語(yǔ)言理解處理。
15.如權(quán)利要求14所述的方法,其特征在于,限制自然語(yǔ)言理解處理包括限制自然語(yǔ)言理解處理到只使用一個(gè)或多個(gè)模型的用戶識(shí)別部分。
16.如權(quán)利要求1所述的方法,其特征在于,還包括識(shí)別在用戶確認(rèn)注解和先前注解的不一致。
17.如權(quán)利要求16所述的方法,其特征在于,還包括如果一個(gè)不一致被識(shí)別,顯示在視覺上對(duì)比用戶確認(rèn)注解的不一致部分的用戶確認(rèn)注解。
18.如權(quán)利要求1所述的方法,其特征在于,顯示被建議的注解包括為每個(gè)被建議的注解產(chǎn)生一個(gè)置信標(biāo)準(zhǔn);和基于置信標(biāo)準(zhǔn),在一個(gè)次序中顯示被建議的注解。
19.如權(quán)利要求1所述的方法,其特征在于,顯示被建議的注解包括基于注解類型分類排序被建議的注解。
20.如權(quán)利要求19所述的方法,其特征在于,顯示被建議的注解包括顯示與另一個(gè)緊密相鄰的相似類型的注解。
21.如權(quán)利要求19所述的方法,其特征在于,顯示被建議的注解包括提供一個(gè)用戶可激勵(lì)的輸入,當(dāng)被激勵(lì)時(shí),允許用戶繼續(xù)改正或檢驗(yàn)相似類型的注解。
22.如權(quán)利要求1所述的方法,其特征在于,用NLU系統(tǒng)產(chǎn)生被建議的注解包括使用多個(gè)不同的NLU子系統(tǒng)為每個(gè)單元產(chǎn)生多個(gè)被建議的注解。
23.如權(quán)利要求22所述的方法,其特征在于,產(chǎn)生被建議的注解還包括為被顯示的每個(gè)單元選擇被建議注解的一個(gè)。
24.一個(gè)用戶界面,用來(lái)訓(xùn)練具有一個(gè)或多個(gè)模型的一個(gè)自然語(yǔ)言理解(NLU)系統(tǒng),其特征在于,用戶界面包括顯示一個(gè)或多個(gè)模型的一個(gè)模型顯示代表的第一部分;顯示未被注解訓(xùn)練輸入的第二部分;和為未被注解訓(xùn)練輸入的被選中的一個(gè)顯示的被建議注解的第三部分。
25.如權(quán)利要求24的用戶界面,其特征在于,還包括一個(gè)第四部分,響應(yīng)于識(shí)別被顯示的被建議注解的一個(gè)部分的用戶輸入,顯示為被識(shí)別的部分的可選擇的被建議注解。
26.為訓(xùn)練具有至少一個(gè)模型的一個(gè)自然語(yǔ)言理解(NLU)系統(tǒng)產(chǎn)生被注解訓(xùn)練數(shù)據(jù)的一個(gè)方法,其特征在于,包括為未被注解的訓(xùn)練數(shù)據(jù)的一個(gè)單元產(chǎn)生一個(gè)被建議的注解;為多個(gè)被建議注解的不同部分計(jì)算一個(gè)置信量度;和通過(guò)在視覺上對(duì)比具有下降在一個(gè)極限水平之下相應(yīng)的置信量度的部分來(lái)顯示被建議的注解。
27.為訓(xùn)練一個(gè)自然語(yǔ)言理解(NLU)系統(tǒng)產(chǎn)生被注解訓(xùn)練數(shù)據(jù)的一個(gè)方法,其特征在于,包括用NLU系統(tǒng),為未被注解的訓(xùn)練數(shù)據(jù)的多個(gè)單元的每個(gè)產(chǎn)生一個(gè)被建議的注解,每個(gè)被建議的注解具有一個(gè)類型;基于類型在一個(gè)次序中顯示被建議的注解,用為被建議注解的用戶改正或檢驗(yàn)的用戶可激勵(lì)輸入來(lái)獲得一個(gè)用戶確認(rèn)的注解。
28.為訓(xùn)練使用多個(gè)不同的自然語(yǔ)言理解技術(shù)的一個(gè)自然語(yǔ)言理解(NLU)系統(tǒng)產(chǎn)生被注解訓(xùn)練數(shù)據(jù)的一個(gè)方法,其特征在于,包括用每個(gè)自然語(yǔ)言訓(xùn)練技術(shù),為未被注解訓(xùn)練數(shù)據(jù)的一個(gè)單元產(chǎn)生一個(gè)被建議的注解,來(lái)獲得多個(gè)被建議注解;選擇多個(gè)被建議注解的一個(gè);和顯示被選擇的被建議的注解,用為被建議注解的用戶改正或檢驗(yàn)的用戶可激勵(lì)輸入來(lái)獲得一個(gè)用戶確認(rèn)的注解。
全文摘要
本發(fā)明使用一個(gè)自然語(yǔ)言理解系統(tǒng),普遍用于訓(xùn)練以助于訓(xùn)練那個(gè)自然語(yǔ)言理解系統(tǒng)來(lái)注解訓(xùn)練數(shù)據(jù)。未被注解的訓(xùn)練數(shù)據(jù)被提供到系統(tǒng)和系統(tǒng)建議注解來(lái)訓(xùn)練數(shù)據(jù)。用戶被提供一個(gè)機(jī)會(huì)來(lái)確認(rèn)或改正被建議的注解,而系統(tǒng)用被改正或被檢驗(yàn)的注解進(jìn)行訓(xùn)練。
文檔編號(hào)G06F17/27GK1457041SQ0312349
公開日2003年11月19日 申請(qǐng)日期2003年5月9日 優(yōu)先權(quán)日2002年5月10日
發(fā)明者A·阿賽羅, 王野翊, 王啟文 申請(qǐng)人:微軟公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
青海省| 青龙| 通海县| 天长市| 连城县| 忻城县| 中江县| 永济市| 阿尔山市| 新沂市| 会理县| 那曲县| 拉孜县| 堆龙德庆县| 华坪县| 普兰县| 大关县| 万载县| 青岛市| 英吉沙县| 和静县| 拉孜县| 繁昌县| 桦南县| 手游| 轮台县| 静宁县| 盈江县| 汉川市| 哈尔滨市| 德化县| 东乡| 广元市| 双鸭山市| 苍溪县| 迭部县| 左权县| 宝山区| 嘉祥县| 隆林| 嘉禾县|