1.一種自適應(yīng)的識(shí)別方法,其特征在于,包括:
根據(jù)用戶歷史語料構(gòu)建用戶個(gè)性化詞典;
對(duì)所述用戶個(gè)性化詞典中的個(gè)性化詞進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào);
根據(jù)所述個(gè)性化詞所屬類編號(hào)構(gòu)建語言模型;
在對(duì)用戶輸入的信息進(jìn)行識(shí)別時(shí),如果所述信息中的詞存在于所述用戶個(gè)性化詞典中,則根據(jù)該詞對(duì)應(yīng)的個(gè)性化詞所屬類編號(hào)對(duì)解碼路徑進(jìn)行擴(kuò)展,得到擴(kuò)展后的解碼路徑;
根據(jù)擴(kuò)展后的解碼路徑對(duì)所述信息進(jìn)行解碼,得到多個(gè)候選解碼結(jié)果;
根據(jù)所述語言模型計(jì)算各候選解碼結(jié)果的語言模型得分;
選取語言模型得分最高的候選解碼結(jié)果作為所述信息的識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)用戶歷史語料構(gòu)建用戶個(gè)性化詞典包括:
獲取用戶歷史語料,所述用戶歷史語料包括以下任意一種或多種:用戶語音輸入日志、用戶文本輸入日志、用戶瀏覽文本信息;
根據(jù)所述用戶歷史語料進(jìn)行個(gè)性化詞發(fā)現(xiàn),得到個(gè)性化詞;
將所述個(gè)性化詞添加到用戶個(gè)性化詞典中。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述個(gè)性化詞包括:易錯(cuò)個(gè)性化詞和天然個(gè)性化詞;所述易錯(cuò)個(gè)性化詞是指對(duì)用戶輸入信息進(jìn)行識(shí)別時(shí),經(jīng)常出錯(cuò)的詞;所述天然個(gè)性化詞是指對(duì)用戶輸入信息進(jìn)行識(shí)別時(shí),可以通過用戶的本地存儲(chǔ)信息直接找到的詞或根據(jù)該詞擴(kuò)展的詞。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述用戶個(gè)性化詞典中的個(gè)性化詞進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)包括:
確定所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量;
根據(jù)所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量對(duì)所述個(gè)性化詞的詞向量進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述確定所述個(gè)性化詞 及其左右鄰接詞的詞向量包括:
對(duì)所述用戶歷史語料進(jìn)行分詞;
對(duì)分詞得到的各詞進(jìn)行向量初始化,得到各詞的初始詞向量;
利用神經(jīng)網(wǎng)絡(luò)對(duì)各詞的初始詞向量進(jìn)行訓(xùn)練,得到各詞的詞向量;
根據(jù)所有用戶個(gè)性化詞典得到所有個(gè)性化詞,并根據(jù)所述個(gè)性化詞所在用戶歷史語料,得到所述個(gè)性化詞的左右鄰接詞;
提取所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述個(gè)性化詞及其左右鄰接詞的詞向量對(duì)所述個(gè)性化詞的詞向量進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)包括:
根據(jù)各個(gè)性化詞的詞向量、左右鄰接詞的詞向量、以及詞向量的TF_IDF值計(jì)算個(gè)性化詞向量之間的距離;
根據(jù)所述距離進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)。
7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述個(gè)性化詞所屬類編號(hào)構(gòu)建語言模型包括:
采集訓(xùn)練語料;
將所述訓(xùn)練語料中的個(gè)性化詞替換為所述個(gè)性化詞所屬類編號(hào),得到替換后的語料;
將采集的訓(xùn)練語料及替換后的語料作為訓(xùn)練數(shù)據(jù),訓(xùn)練得到語言模型。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
如果所述識(shí)別結(jié)果中包含個(gè)性化詞的類編號(hào),則將該類編號(hào)替換為其對(duì)應(yīng)的個(gè)性化詞。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
對(duì)所述用戶輸入的信息進(jìn)行個(gè)性化詞發(fā)現(xiàn),如果有新的個(gè)性化詞,則將新的個(gè)性化詞添加到所述用戶的個(gè)性化詞典中,以更新所述用戶的個(gè)性化詞典;如果有用戶的個(gè)性化詞典做了更新,則根據(jù)更新后的個(gè)性化詞典,更新所述語言模型;或者
定時(shí)根據(jù)用戶歷史語料對(duì)各用戶個(gè)性化詞典及所述語言模型進(jìn)行更新。
10.一種自適應(yīng)的識(shí)別系統(tǒng),其特征在于,包括:
個(gè)性化詞典構(gòu)建模塊,用于根據(jù)用戶歷史語料構(gòu)建用戶個(gè)性化詞典;
聚類模塊,用于對(duì)所述用戶個(gè)性化詞典中的個(gè)性化詞進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào);
語言模型構(gòu)建模塊,用于根據(jù)所述個(gè)性化詞所屬類編號(hào)構(gòu)建語言模型;
解碼路徑擴(kuò)展模塊,用于在對(duì)用戶輸入的信息進(jìn)行識(shí)別時(shí),如果所述信息中的詞存在于所述用戶個(gè)性化詞典中,則根據(jù)該詞對(duì)應(yīng)的個(gè)性化詞所屬類編號(hào)對(duì)解碼路徑進(jìn)行擴(kuò)展,得到擴(kuò)展后的解碼路徑;
解碼模塊,用于根據(jù)擴(kuò)展后的解碼路徑對(duì)所述信息進(jìn)行解碼,得到多個(gè)候選解碼結(jié)果;
語言模型得分計(jì)算模塊,用于根據(jù)所述語言模型計(jì)算各候選解碼結(jié)果的語言模型得分;
識(shí)別結(jié)果獲取模塊,用于選取語言模型得分最高的候選解碼結(jié)果作為所述信息的識(shí)別結(jié)果。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述個(gè)性化詞典構(gòu)建模塊包括:
歷史語料獲取單元,用于獲取用戶歷史語料,所述用戶歷史語料包括以下任意一種或多種:用戶語音輸入日志、用戶文本輸入日志、用戶瀏覽文本信息;
個(gè)性化詞發(fā)現(xiàn)單元,用于根據(jù)所述用戶歷史語料進(jìn)行個(gè)性化詞發(fā)現(xiàn),得到個(gè)性化詞;
個(gè)性化詞典生成單元,用于將所述個(gè)性化詞添加到用戶個(gè)性化詞典中。
12.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述聚類模塊包括:
詞向量訓(xùn)練單元,用于確定所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量;
詞向量聚類單元,用于根據(jù)所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量對(duì)所述個(gè)性化詞的詞向量進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述詞向量訓(xùn)練單元 包括:
分詞子單元,對(duì)所述用戶歷史語料進(jìn)行分詞;
初始化子單元,用于對(duì)分詞得到的各詞進(jìn)行向量初始化,得到各詞的初始詞向量;
訓(xùn)練子單元,用于利用神經(jīng)網(wǎng)絡(luò)對(duì)各詞的初始詞向量進(jìn)行訓(xùn)練,得到各詞的詞向量;
查找子單元,用于根據(jù)所有用戶個(gè)性化詞典得到所有個(gè)性化詞,并根據(jù)所述個(gè)性化詞所在用戶歷史語料,得到所述個(gè)性化詞的左右鄰接詞;
提取子單元,用于提取所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量。
14.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述詞向量聚類單元包括:
距離計(jì)算子單元,用于根據(jù)各個(gè)性化詞的詞向量、左右鄰接詞的詞向量、以及詞向量的TF_IDF值計(jì)算個(gè)性化詞向量之間的距離;
距離聚類子單元,用于根據(jù)所述距離進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)。
15.根據(jù)權(quán)利要求10至14任一項(xiàng)所述的系統(tǒng),其特征在于,所述語言模型構(gòu)建模塊包括:
語料采集單元,用于采集訓(xùn)練語料;
語料處理單元,用于將所述訓(xùn)練語料中的個(gè)性化詞替換為所述個(gè)性化詞所屬類編號(hào),得到替換后的語料;語言模型訓(xùn)練單元,用于將采集的訓(xùn)練語料及替換后的語料作為訓(xùn)練數(shù)據(jù),訓(xùn)練得到語言模型。
16.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,
所述識(shí)別結(jié)果獲取模塊,還用于在所述識(shí)別結(jié)果中包含個(gè)性化詞的類編號(hào)時(shí),將該類編號(hào)替換為其對(duì)應(yīng)的個(gè)性化詞。