两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種自適應(yīng)的識(shí)別方法及系統(tǒng)與流程

文檔序號(hào):12159467閱讀:來源:國(guó)知局

技術(shù)特征:

1.一種自適應(yīng)的識(shí)別方法,其特征在于,包括:

根據(jù)用戶歷史語料構(gòu)建用戶個(gè)性化詞典;

對(duì)所述用戶個(gè)性化詞典中的個(gè)性化詞進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào);

根據(jù)所述個(gè)性化詞所屬類編號(hào)構(gòu)建語言模型;

在對(duì)用戶輸入的信息進(jìn)行識(shí)別時(shí),如果所述信息中的詞存在于所述用戶個(gè)性化詞典中,則根據(jù)該詞對(duì)應(yīng)的個(gè)性化詞所屬類編號(hào)對(duì)解碼路徑進(jìn)行擴(kuò)展,得到擴(kuò)展后的解碼路徑;

根據(jù)擴(kuò)展后的解碼路徑對(duì)所述信息進(jìn)行解碼,得到多個(gè)候選解碼結(jié)果;

根據(jù)所述語言模型計(jì)算各候選解碼結(jié)果的語言模型得分;

選取語言模型得分最高的候選解碼結(jié)果作為所述信息的識(shí)別結(jié)果。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)用戶歷史語料構(gòu)建用戶個(gè)性化詞典包括:

獲取用戶歷史語料,所述用戶歷史語料包括以下任意一種或多種:用戶語音輸入日志、用戶文本輸入日志、用戶瀏覽文本信息;

根據(jù)所述用戶歷史語料進(jìn)行個(gè)性化詞發(fā)現(xiàn),得到個(gè)性化詞;

將所述個(gè)性化詞添加到用戶個(gè)性化詞典中。

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述個(gè)性化詞包括:易錯(cuò)個(gè)性化詞和天然個(gè)性化詞;所述易錯(cuò)個(gè)性化詞是指對(duì)用戶輸入信息進(jìn)行識(shí)別時(shí),經(jīng)常出錯(cuò)的詞;所述天然個(gè)性化詞是指對(duì)用戶輸入信息進(jìn)行識(shí)別時(shí),可以通過用戶的本地存儲(chǔ)信息直接找到的詞或根據(jù)該詞擴(kuò)展的詞。

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述用戶個(gè)性化詞典中的個(gè)性化詞進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)包括:

確定所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量;

根據(jù)所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量對(duì)所述個(gè)性化詞的詞向量進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)。

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述確定所述個(gè)性化詞 及其左右鄰接詞的詞向量包括:

對(duì)所述用戶歷史語料進(jìn)行分詞;

對(duì)分詞得到的各詞進(jìn)行向量初始化,得到各詞的初始詞向量;

利用神經(jīng)網(wǎng)絡(luò)對(duì)各詞的初始詞向量進(jìn)行訓(xùn)練,得到各詞的詞向量;

根據(jù)所有用戶個(gè)性化詞典得到所有個(gè)性化詞,并根據(jù)所述個(gè)性化詞所在用戶歷史語料,得到所述個(gè)性化詞的左右鄰接詞;

提取所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量。

6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述個(gè)性化詞及其左右鄰接詞的詞向量對(duì)所述個(gè)性化詞的詞向量進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)包括:

根據(jù)各個(gè)性化詞的詞向量、左右鄰接詞的詞向量、以及詞向量的TF_IDF值計(jì)算個(gè)性化詞向量之間的距離;

根據(jù)所述距離進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)。

7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述個(gè)性化詞所屬類編號(hào)構(gòu)建語言模型包括:

采集訓(xùn)練語料;

將所述訓(xùn)練語料中的個(gè)性化詞替換為所述個(gè)性化詞所屬類編號(hào),得到替換后的語料;

將采集的訓(xùn)練語料及替換后的語料作為訓(xùn)練數(shù)據(jù),訓(xùn)練得到語言模型。

8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

如果所述識(shí)別結(jié)果中包含個(gè)性化詞的類編號(hào),則將該類編號(hào)替換為其對(duì)應(yīng)的個(gè)性化詞。

9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

對(duì)所述用戶輸入的信息進(jìn)行個(gè)性化詞發(fā)現(xiàn),如果有新的個(gè)性化詞,則將新的個(gè)性化詞添加到所述用戶的個(gè)性化詞典中,以更新所述用戶的個(gè)性化詞典;如果有用戶的個(gè)性化詞典做了更新,則根據(jù)更新后的個(gè)性化詞典,更新所述語言模型;或者

定時(shí)根據(jù)用戶歷史語料對(duì)各用戶個(gè)性化詞典及所述語言模型進(jìn)行更新。

10.一種自適應(yīng)的識(shí)別系統(tǒng),其特征在于,包括:

個(gè)性化詞典構(gòu)建模塊,用于根據(jù)用戶歷史語料構(gòu)建用戶個(gè)性化詞典;

聚類模塊,用于對(duì)所述用戶個(gè)性化詞典中的個(gè)性化詞進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào);

語言模型構(gòu)建模塊,用于根據(jù)所述個(gè)性化詞所屬類編號(hào)構(gòu)建語言模型;

解碼路徑擴(kuò)展模塊,用于在對(duì)用戶輸入的信息進(jìn)行識(shí)別時(shí),如果所述信息中的詞存在于所述用戶個(gè)性化詞典中,則根據(jù)該詞對(duì)應(yīng)的個(gè)性化詞所屬類編號(hào)對(duì)解碼路徑進(jìn)行擴(kuò)展,得到擴(kuò)展后的解碼路徑;

解碼模塊,用于根據(jù)擴(kuò)展后的解碼路徑對(duì)所述信息進(jìn)行解碼,得到多個(gè)候選解碼結(jié)果;

語言模型得分計(jì)算模塊,用于根據(jù)所述語言模型計(jì)算各候選解碼結(jié)果的語言模型得分;

識(shí)別結(jié)果獲取模塊,用于選取語言模型得分最高的候選解碼結(jié)果作為所述信息的識(shí)別結(jié)果。

11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述個(gè)性化詞典構(gòu)建模塊包括:

歷史語料獲取單元,用于獲取用戶歷史語料,所述用戶歷史語料包括以下任意一種或多種:用戶語音輸入日志、用戶文本輸入日志、用戶瀏覽文本信息;

個(gè)性化詞發(fā)現(xiàn)單元,用于根據(jù)所述用戶歷史語料進(jìn)行個(gè)性化詞發(fā)現(xiàn),得到個(gè)性化詞;

個(gè)性化詞典生成單元,用于將所述個(gè)性化詞添加到用戶個(gè)性化詞典中。

12.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述聚類模塊包括:

詞向量訓(xùn)練單元,用于確定所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量;

詞向量聚類單元,用于根據(jù)所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量對(duì)所述個(gè)性化詞的詞向量進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)。

13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述詞向量訓(xùn)練單元 包括:

分詞子單元,對(duì)所述用戶歷史語料進(jìn)行分詞;

初始化子單元,用于對(duì)分詞得到的各詞進(jìn)行向量初始化,得到各詞的初始詞向量;

訓(xùn)練子單元,用于利用神經(jīng)網(wǎng)絡(luò)對(duì)各詞的初始詞向量進(jìn)行訓(xùn)練,得到各詞的詞向量;

查找子單元,用于根據(jù)所有用戶個(gè)性化詞典得到所有個(gè)性化詞,并根據(jù)所述個(gè)性化詞所在用戶歷史語料,得到所述個(gè)性化詞的左右鄰接詞;

提取子單元,用于提取所述個(gè)性化詞的詞向量及其左右鄰接詞的詞向量。

14.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述詞向量聚類單元包括:

距離計(jì)算子單元,用于根據(jù)各個(gè)性化詞的詞向量、左右鄰接詞的詞向量、以及詞向量的TF_IDF值計(jì)算個(gè)性化詞向量之間的距離;

距離聚類子單元,用于根據(jù)所述距離進(jìn)行聚類,得到每個(gè)個(gè)性化詞所屬類編號(hào)。

15.根據(jù)權(quán)利要求10至14任一項(xiàng)所述的系統(tǒng),其特征在于,所述語言模型構(gòu)建模塊包括:

語料采集單元,用于采集訓(xùn)練語料;

語料處理單元,用于將所述訓(xùn)練語料中的個(gè)性化詞替換為所述個(gè)性化詞所屬類編號(hào),得到替換后的語料;語言模型訓(xùn)練單元,用于將采集的訓(xùn)練語料及替換后的語料作為訓(xùn)練數(shù)據(jù),訓(xùn)練得到語言模型。

16.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,

所述識(shí)別結(jié)果獲取模塊,還用于在所述識(shí)別結(jié)果中包含個(gè)性化詞的類編號(hào)時(shí),將該類編號(hào)替換為其對(duì)應(yīng)的個(gè)性化詞。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
澄城县| 长海县| 肇源县| 岢岚县| 开封市| 淅川县| 饶平县| 定襄县| 普兰县| 三河市| 江源县| 英吉沙县| 麟游县| 广元市| 灵丘县| 汽车| 合肥市| 镇安县| 克山县| 桓台县| 巨野县| 苗栗市| 同江市| 兖州市| 庄浪县| 溆浦县| 湖南省| 安义县| 吉首市| 曲水县| 克拉玛依市| 安图县| 永平县| 巨鹿县| 铜陵市| 漳州市| 吴忠市| 东乡| 广丰县| 甘肃省| 新宁县|