本發(fā)明涉及數(shù)據(jù)分類技術(shù)領(lǐng)域,尤其涉及一種信息分類方法及裝置。
背景技術(shù):
相關(guān)技術(shù)中,當終端等設(shè)備接收到用戶輸入的語音查詢請求時,會根據(jù)該查詢請求從預(yù)設(shè)數(shù)據(jù)庫中查找與該請求對應(yīng)的答案或者回復(fù),但在整個預(yù)設(shè)數(shù)據(jù)庫中進行查找,不但不能保證查找到的答案或者回復(fù)的準確性,而且查找時間也相對較長。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種信息分類方法及裝置,用以實現(xiàn)在保證查找的答案或者回復(fù)的準確率的基礎(chǔ)上,提高查找效率,從而提升用戶的使用體驗。
根據(jù)本發(fā)明實施例的第一方面,提供一種信息分類方法,包括:
獲取用戶輸入的歷史語音數(shù)據(jù)信息對應(yīng)的文本數(shù)據(jù)信息的意圖分類日志記錄;
從所述意圖分類日志記錄的每個意圖分類中獲取多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息;
根據(jù)所述每個意圖分類中多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息、預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型和預(yù)設(shè)的轉(zhuǎn)移概率矩陣,確定用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣;
使用所述用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣確定接收到的當前語音數(shù)據(jù)信息對應(yīng)的當前文本數(shù)據(jù)信息所屬的目標意圖類別;
在所述目標意圖類別對應(yīng)的數(shù)據(jù)庫中查找與所述語音數(shù)據(jù)信息對應(yīng)的應(yīng)答信息。
在該實施例中,在對歷史語音數(shù)據(jù)信息進行分類后,可以獲取意圖分類日志記錄,并從該記錄中獲取每個意圖類別中多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息,進而根據(jù)多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息和預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型和預(yù)設(shè)的轉(zhuǎn)移概率矩陣,確定用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣,并使用所述用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣確定接收到的當前語音數(shù)據(jù)信息對應(yīng)的當前文本數(shù)據(jù)信息所屬的目標意圖類別,在所述目標意圖類別對應(yīng)的數(shù)據(jù)庫中查找與所述語音數(shù)據(jù)信息對應(yīng)的應(yīng)答信息。這樣,不但可以為用戶提供更準確的應(yīng)答信息,還可以減少查找時間,提高查找效率,提升用戶的使用體驗。
其中,歷史語音數(shù)據(jù)信息,可以采用歷史用戶意圖分類模型和歷史目標轉(zhuǎn)移概率矩陣進行分類,這樣,在分類的過程中,不斷根據(jù)歷史分類記錄完善用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣,從而使得分類準確率不斷提高。
在一個實施例中,根據(jù)所述多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息、預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型和預(yù)設(shè)的轉(zhuǎn)移概率矩陣,確定用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣,包括:
將所述多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息作為意圖分類訓(xùn)練語料,利用預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到用戶意圖分類模型;
獲取所述多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息中任意兩個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息之間的上下文關(guān)系;
利用所述相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息之間的上下文關(guān)系和所述預(yù)設(shè)的轉(zhuǎn)移概率矩陣進行訓(xùn)練,得到所述目標轉(zhuǎn)移概率矩陣。
在該實施例中,利用所述意圖分類訓(xùn)練語料和所述預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到所述用戶意圖分類模型,利用相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息之間的上下文關(guān)系和預(yù)設(shè)的轉(zhuǎn)移概率矩陣進行訓(xùn)練,得到目標轉(zhuǎn)移概率矩陣這樣,根據(jù)用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣進行意圖分類,可以保證分類結(jié)果的準確性。
在一個實施例中,所述文本數(shù)據(jù)信息包括以下至少一項:文本信息和拼音信息;
所述意圖分類訓(xùn)練語料包括以下至少一種形式:
文本語料和拼音預(yù)料。
在該實施例中,在進行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,不但可以采用訓(xùn)練語料的文本形式進行訓(xùn)練,還可以采用訓(xùn)練語料的拼音形式進行訓(xùn)練,這樣,可以有效的過濾噪音,避免錯誤累積。
在一個實施例中,所述使用所述用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣確定接收到的當前語音數(shù)據(jù)信息對應(yīng)的當前文本數(shù)據(jù)信息所屬的目標意圖類別,包括:
將所述當前文本數(shù)據(jù)信息作為所述用戶意圖分類模型的輸入,得到所述當前文本數(shù)據(jù)信息對應(yīng)的第一分類結(jié)果;
獲取所述當前文本數(shù)據(jù)信息對應(yīng)的上一句文本數(shù)據(jù)信息所屬的意圖類別;
根據(jù)所述上一句文本數(shù)據(jù)信息所屬的意圖類別和所述目標轉(zhuǎn)移概率矩陣,確定所述當前文本數(shù)據(jù)信息對應(yīng)的第二分類結(jié)果;
根據(jù)所述第一分類結(jié)果和所述第二分類結(jié)果確定所述當前文本數(shù)據(jù)信息所屬的目標意圖分類。
在一個實施例中,所述根據(jù)所述第一分類結(jié)果和所述第二分類結(jié)果確定所述當前文本數(shù)據(jù)信息所屬的目標意圖分類,包括:
根據(jù)所述第一分類結(jié)果和所述第二分類結(jié)果的乘積,確定所述當前文本數(shù)據(jù)信息所屬的目標意圖分類。
在該實施例中,將當前文本數(shù)據(jù)信息作為用戶意圖分類模型的輸入,得到文本數(shù)據(jù)信息對應(yīng)的第一分類結(jié)果,該第一分類結(jié)果表明當前文本數(shù)據(jù)信息屬于各個意圖分類的概率,其是一個1*N維的特征向量,并根據(jù)上一句文本數(shù)據(jù)信息和目標轉(zhuǎn)移概率矩陣計算出當前文本數(shù)據(jù)信息屬于每個意圖類別的概率矩陣,該矩陣可以是N*N維的,進而根據(jù)兩者的乘積得到文本數(shù)據(jù)信息屬于每個意圖類別的總概率,進而將總概率值最高對應(yīng)的意圖類別確定為目標意圖類別。
根據(jù)本發(fā)明實施例的第二方面,提供一種信息分類裝置,包括:
第一獲取模塊,用于獲取用戶輸入的歷史語音數(shù)據(jù)信息對應(yīng)的文本數(shù)據(jù)信息的意圖分類日志記錄;
第二獲取模塊,用于從所述意圖分類日志記錄中獲取多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息;
第一確定模塊,用于根據(jù)所述多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息、預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型和預(yù)設(shè)的轉(zhuǎn)移概率矩陣,確定用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣;
第二確定模塊,用于使用所述用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣確定接收到的當前語音數(shù)據(jù)信息對應(yīng)的當前文本數(shù)據(jù)信息所屬的目標意圖類別;
查找模塊,用于在所述目標意圖類別對應(yīng)的數(shù)據(jù)庫中查找與所述語音數(shù)據(jù)信息對應(yīng)的應(yīng)答信息。
在一個實施例中,所述第一確定模塊包括:
第一訓(xùn)練子模塊,用于將所述多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息作為意圖分類訓(xùn)練語料,利用預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到用戶意圖分類模型;
第一獲取子模塊,用于獲取所述多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息中任意兩個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息之間的上下文關(guān)系;
第二訓(xùn)練子模塊,用于利用所述相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息之間的上下文關(guān)系和所述預(yù)設(shè)的轉(zhuǎn)移概率矩陣進行訓(xùn)練,得到所述目標轉(zhuǎn)移概率矩陣。
在一個實施例中,所述意圖分類訓(xùn)練語料包括以下至少一種形式:
文本語料和拼音預(yù)料。
在一個實施例中,所述第二確定模塊包括:
處理子模塊,用于將所述當前文本數(shù)據(jù)信息作為所述用戶意圖分類模型的輸入,得到所述當前文本數(shù)據(jù)信息對應(yīng)的第一分類結(jié)果;
第二獲取子模塊,用于獲取所述當前文本數(shù)據(jù)信息對應(yīng)的上一句文本數(shù)據(jù)信息所屬的意圖類別;
第一確定子模塊,用于根據(jù)所述上一句文本數(shù)據(jù)信息所屬的意圖類別和所述目標轉(zhuǎn)移概率矩陣,確定所述當前文本數(shù)據(jù)信息對應(yīng)的第二分類結(jié)果;
第二確定子模塊,用于根據(jù)所述第一分類結(jié)果和所述第二分類結(jié)果確定所述當前文本數(shù)據(jù)信息所屬的目標意圖分類。
在一個實施例中,所述第二確定子模塊用于:
根據(jù)所述第一分類結(jié)果和所述第二分類結(jié)果的乘積,確定所述當前文本數(shù)據(jù)信息所屬的目標意圖分類。
應(yīng)當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1是根據(jù)一示例性實施例示出的一種信息分類方法的流程圖。
圖2是根據(jù)一示例性實施例示出的一種信息分類方法中步驟S103的流程圖。
圖3是根據(jù)一示例性實施例示出的一種信息分類方法中步驟S104的流程圖。
圖4是根據(jù)一示例性實施例示出的一種信息分類裝置的框圖。
圖5是根據(jù)一示例性實施例示出的一種信息分類裝置中第一確定模塊的框圖。
圖6是根據(jù)一示例性實施例示出的一種信息分類裝置中第二確定模塊的框圖。
具體實施方式
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)一示例性實施例示出的一種信息分類方法的流程圖。該信息分類方法應(yīng)用于終端設(shè)備中,該終端設(shè)備可以是移動電話,計算機,數(shù)字廣播終端,消息收發(fā)設(shè)備,游戲控制臺,平板設(shè)備,醫(yī)療設(shè)備,健身設(shè)備,個人數(shù)字助理等任一具有語音識別功能的設(shè)備。如圖1所示,該方法包括步驟S101-S105:
在步驟S101中,獲取用戶已輸入的歷史語音數(shù)據(jù)信息對應(yīng)的文本數(shù)據(jù)信息的意圖分類日志記錄;
在步驟S102中,從意圖分類日志記錄中獲取多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息;
在步驟S103中,根據(jù)每個意圖分類中多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息、預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型和預(yù)設(shè)的轉(zhuǎn)移概率矩陣,確定用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣;
其中,意圖分類日志記錄可以是之前對語音數(shù)據(jù)信息進行意圖分類的歷史記錄。而目標轉(zhuǎn)移概率矩陣是根據(jù)語音數(shù)據(jù)信息的上文確定該語音數(shù)據(jù)信息屬于某個意圖類別的概率。即目標轉(zhuǎn)移概率矩陣不關(guān)心當前的語音數(shù)據(jù)信息屬于哪個意圖類別,只獲取上一個語音數(shù)據(jù)信息屬于哪個意圖類別。根據(jù)上一個語音數(shù)據(jù)信息的意圖類別,預(yù)測當前的語音數(shù)據(jù)信息屬于各個意圖類別的概率。
在步驟S104中,使用用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣確定接收到的當前語音數(shù)據(jù)信息對應(yīng)的當前文本數(shù)據(jù)信息所屬的目標意圖類別;
在步驟S105中,在目標意圖類別對應(yīng)的數(shù)據(jù)庫中查找與當前語音數(shù)據(jù)信息對應(yīng)的應(yīng)答信息。
在該實施例中,在對歷史語音數(shù)據(jù)信息進行分類后,可以獲取意圖分類日志記錄,并從該記錄中獲取每個意圖類別中多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息,進而根據(jù)多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息和預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型和預(yù)設(shè)的轉(zhuǎn)移概率矩陣,確定用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣,并使用用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣確定接收到的當前語音數(shù)據(jù)信息對應(yīng)的當前文本數(shù)據(jù)信息所屬的目標意圖類別,在目標意圖類別對應(yīng)的數(shù)據(jù)庫中查找與語音數(shù)據(jù)信息對應(yīng)的應(yīng)答信息。這樣,不但可以為用戶提供更準確的應(yīng)答信息,還可以減少查找時間,提高查找效率,提升用戶的使用體驗。
其中,歷史語音數(shù)據(jù)信息,可以采用歷史用戶意圖分類模型和歷史目標轉(zhuǎn)移概率矩陣進行分類,這樣,在分類的過程中,不斷根據(jù)歷史分類記錄完善用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣,從而使得分類準確率不斷提高。
圖2是根據(jù)一示例性實施例示出的一種信息分類方法中步驟S103的流程圖。
如圖2所示,在一個實施例中,上述步驟S103包括步驟S201-S203:
在步驟S201中,將每個意圖分類中多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息作為意圖分類訓(xùn)練語料,利用預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到用戶意圖分類模型;
意圖可以分層級的,如歌曲的意圖,下面分搜歌曲、搜歌手、播放等意圖,因此,意圖分類訓(xùn)練語料是有層級的,訓(xùn)練出的用戶意圖分類模型也是有層級的。先訓(xùn)練出最下層的分類,逐層向上抽取,得到上層分類。每層訓(xùn)練時輸入的語料是相同的,但是訓(xùn)練的目標是不同的,訓(xùn)練的參數(shù)和不變的參數(shù)是不同的。
在步驟S202中,獲取每個意圖分類中多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息中任意兩個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息之間的上下文關(guān)系;
在步驟S203中,利用相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息之間的上下文關(guān)系和預(yù)設(shè)的轉(zhuǎn)移概率矩陣進行訓(xùn)練,得到目標轉(zhuǎn)移概率矩陣。
例如,日志中兩個同意圖的文本數(shù)據(jù)信息為query1與query3,兩者之間的文本書數(shù)據(jù)信息為query2,查看query1與query3之間的關(guān)系,可能query1與query3屬于同一分類,那么,根據(jù)query1,query2和query 3的分類對預(yù)設(shè)的轉(zhuǎn)移概率矩陣進行訓(xùn)練得到目標轉(zhuǎn)移概率矩陣,這樣,得到的目標概率矩陣可以根據(jù)上下文確定當前文本數(shù)據(jù)信息對應(yīng)的目標意圖類別。
在該實施例中,利用意圖分類訓(xùn)練語料和預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到用戶意圖分類模型,利用相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息之間的上下文關(guān)系和預(yù)設(shè)的轉(zhuǎn)移概率矩陣進行訓(xùn)練,得到目標轉(zhuǎn)移概率矩陣這樣,根據(jù)用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣進行意圖分類,可以保證分類結(jié)果的準確性。
在一個實施例中,所述文本數(shù)據(jù)信息包括以下至少一項:文本信息和拼音信息;
意圖分類訓(xùn)練語料包括以下至少一種形式:
文本語料和拼音預(yù)料。
在該實施例中,在進行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,不但可以采用訓(xùn)練語料的文本形式進行訓(xùn)練,還可以采用訓(xùn)練語料的拼音形式進行訓(xùn)練,這樣,可以有效的過濾噪音,避免錯誤累積。
圖3是根據(jù)一示例性實施例示出的一種信息分類方法中步驟S104的流程圖。
如圖3所示,在一個實施例中,上述步驟S104包括步驟S301-S304:
在步驟S301中,將當前文本數(shù)據(jù)信息作為用戶意圖分類模型的輸入,得到當前文本數(shù)據(jù)信息對應(yīng)的第一分類結(jié)果;
在步驟S302中,獲取當前文本數(shù)據(jù)信息對應(yīng)的上一句文本數(shù)據(jù)信息所屬的意圖類別;
在步驟S303中,根據(jù)上一句文本數(shù)據(jù)信息所屬的意圖類別和目標轉(zhuǎn)移概率矩陣,確定當前文本數(shù)據(jù)信息對應(yīng)的第二分類結(jié)果;
在步驟S304中,根據(jù)第一分類結(jié)果和第二分類結(jié)果確定當前文本數(shù)據(jù)信息所屬的目標意圖分類。
在一個實施例中,所述根據(jù)所述第一分類結(jié)果和所述第二分類結(jié)果確定所述當前文本數(shù)據(jù)信息所屬的目標意圖分類,包括:
根據(jù)所述第一分類結(jié)果和所述第二分類結(jié)果的乘積,確定所述當前文本數(shù)據(jù)信息所屬的目標意圖分類。
在該實施例中,將當前文本數(shù)據(jù)信息作為用戶意圖分類模型的輸入,得到文本數(shù)據(jù)信息對應(yīng)的第一分類結(jié)果,該第一分類結(jié)果表明當前文本數(shù)據(jù)信息屬于各個意圖分類的概率,其是一個1*N維的特征向量,并根據(jù)上一句文本數(shù)據(jù)信息和目標轉(zhuǎn)移概率矩陣計算出當前文本數(shù)據(jù)信息屬于每個意圖類別的概率矩陣,該矩陣可以是N*N維的,進而根據(jù)兩者的乘積得到文本數(shù)據(jù)信息屬于每個意圖類別的總概率,進而將總概率值最高對應(yīng)的意圖類別確定為目標意圖類別。
下述為本發(fā)明裝置實施例,可以用于執(zhí)行本發(fā)明方法實施例。
圖4是根據(jù)一示例性實施例示出的一種信息分類裝置的框圖,該裝置可以通過軟件、硬件或者兩者的結(jié)合實現(xiàn)成為終端設(shè)備的部分或者全部。如圖4所示,該信息分類裝置包括:
第一獲取模塊41,用于獲取用戶已輸入的歷史語音數(shù)據(jù)信息對應(yīng)的文本數(shù)據(jù)信息的意圖分類日志記錄;
第二獲取模塊42,用于從所述意圖分類日志記錄中獲取多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息;
第一確定模塊43,用于根據(jù)所述多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息、預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型和預(yù)設(shè)的轉(zhuǎn)移概率矩陣,確定用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣;
第二確定模塊44,用于使用所述用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣確定接收到的當前語音數(shù)據(jù)信息對應(yīng)的當前文本數(shù)據(jù)信息所屬的目標意圖類別;
查找模塊45,用于在所述目標意圖類別對應(yīng)的數(shù)據(jù)庫中查找與所述當前語音數(shù)據(jù)信息對應(yīng)的應(yīng)答信息。
在該實施例中,在對歷史語音數(shù)據(jù)信息進行分類后,可以獲取意圖分類日志記錄,并從該記錄中獲取每個意圖類別中的多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息,進而根據(jù)多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息和預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型和預(yù)設(shè)的轉(zhuǎn)移概率矩陣,確定用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣,并使用所述用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣確定接收到的當前語音數(shù)據(jù)信息對應(yīng)的當前文本數(shù)據(jù)信息所屬的目標意圖類別,在所述目標意圖類別對應(yīng)的數(shù)據(jù)庫中查找與所述語音數(shù)據(jù)信息對應(yīng)的應(yīng)答信息。這樣,不但可以為用戶提供更準確的應(yīng)答信息,還可以減少查找時間,提高查找效率,提升用戶的使用體驗。
其中,歷史語音數(shù)據(jù)信息,可以采用歷史用戶意圖分類模型和歷史目標轉(zhuǎn)移概率矩陣進行分類,這樣,在分類的過程中,不斷根據(jù)歷史分類記錄完善用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣,從而使得分類準確率不斷提高。
圖5是根據(jù)一示例性實施例示出的一種信息分類裝置中第一確定模塊的框圖。
如圖5所示,在一個實施例中,所述第一確定模塊43包括:
第一訓(xùn)練子模塊51,用于將所述多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息作為意圖分類訓(xùn)練語料,利用預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到用戶意圖分類模型;
第一獲取子模塊52,用于獲取所述多個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息中任意兩個相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息之間的上下文關(guān)系;
第二訓(xùn)練子模塊53,用于利用所述相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息之間的上下文關(guān)系和所述預(yù)設(shè)的轉(zhuǎn)移概率矩陣進行訓(xùn)練,得到所述目標轉(zhuǎn)移概率矩陣。
例如,日志中兩個同意圖的文本數(shù)據(jù)信息為query1與query3,兩者之間的文本書數(shù)據(jù)信息為query2,查看query1與query3之間的關(guān)系,可能query1與query3屬于同一分類,那么,根據(jù)query1,query2和query 3的分類對預(yù)設(shè)的轉(zhuǎn)移概率矩陣進行訓(xùn)練。
在該實施例中,利用所述意圖分類訓(xùn)練語料和所述預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到所述用戶意圖分類模型,利用相似的查詢請求對應(yīng)的文本數(shù)據(jù)信息之間的上下文關(guān)系和預(yù)設(shè)的轉(zhuǎn)移概率矩陣進行訓(xùn)練,得到目標轉(zhuǎn)移概率矩陣這樣,根據(jù)用戶意圖分類模型和目標轉(zhuǎn)移概率矩陣進行意圖分類,可以保證分類結(jié)果的準確性。
在一個實施例中,所述文本數(shù)據(jù)信息包括以下至少一項:文本信息和拼音信息;
所述意圖分類訓(xùn)練語料包括以下至少一種形式:
文本語料和拼音預(yù)料。
在該實施例中,在進行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,不但可以采用訓(xùn)練語料的文本形式進行訓(xùn)練,還可以采用訓(xùn)練語料的拼音形式進行訓(xùn)練,這樣,可以有效的過濾噪音,避免錯誤累積。
圖6是根據(jù)一示例性實施例示出的一種信息分類裝置中第二確定模塊的框圖。
如圖6所示,在一個實施例中,所述第二確定模塊44包括:
處理子模塊61,用于將所述當前文本數(shù)據(jù)信息作為所述用戶意圖分類模型的輸入,得到所述當前文本數(shù)據(jù)信息對應(yīng)的第一分類結(jié)果;
第二獲取子模塊62,用于獲取所述當前文本數(shù)據(jù)信息對應(yīng)的上一句文本數(shù)據(jù)信息所屬的意圖類別;
第一確定子模塊63,用于根據(jù)所述上一句文本數(shù)據(jù)信息所屬的意圖類別和所述目標轉(zhuǎn)移概率矩陣,確定所述當前文本數(shù)據(jù)信息對應(yīng)的第二分類結(jié)果;
第二確定子模塊64,用于根據(jù)所述第一分類結(jié)果和所述第二分類結(jié)果確定所述當前文本數(shù)據(jù)信息所屬的目標意圖分類。
在一個實施例中,所述第二確定子模塊64用于:
根據(jù)所述第一分類結(jié)果和所述第二分類結(jié)果的乘積,確定所述當前文本數(shù)據(jù)信息所屬的目標意圖分類。
在該實施例中,將當前文本數(shù)據(jù)信息作為用戶意圖分類模型的輸入,得到文本數(shù)據(jù)信息對應(yīng)的第一分類結(jié)果,該第一分類結(jié)果表明當前文本數(shù)據(jù)信息屬于各個意圖分類的概率,其是一個1*N維的特征向量,并根據(jù)上一句文本數(shù)據(jù)信息和目標轉(zhuǎn)移概率矩陣計算出當前文本數(shù)據(jù)信息屬于每個意圖類別的概率矩陣,該矩陣可以是N*N維的,進而根據(jù)兩者的乘積得到文本數(shù)據(jù)信息屬于每個意圖類別的總概率,進而將總概率值最高對應(yīng)的意圖類別確定為目標意圖類別。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。