本發(fā)明涉及人工智能技術(shù)、語(yǔ)音處理及醫(yī)療健康,尤其涉及一種醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、現(xiàn)有技術(shù)中,醫(yī)療領(lǐng)域的自動(dòng)語(yǔ)音識(shí)別(automatic?speech?recognition,asr)系統(tǒng)可應(yīng)用于醫(yī)療診斷、遠(yuǎn)程會(huì)診及醫(yī)療數(shù)據(jù)記錄等,醫(yī)療數(shù)據(jù)包括個(gè)人健康檔案、處方、檢查報(bào)告、醫(yī)學(xué)影像等數(shù)據(jù)。但是,在將語(yǔ)音轉(zhuǎn)換為文本時(shí),由于醫(yī)學(xué)術(shù)語(yǔ)的復(fù)雜性和專業(yè)性,常常出現(xiàn)識(shí)別錯(cuò)誤,準(zhǔn)確性受到限制,尤其在面對(duì)噪聲、口音等復(fù)雜語(yǔ)音情況時(shí)識(shí)別效果不佳。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法、裝置、計(jì)算機(jī)設(shè)備及介質(zhì),以解決語(yǔ)音識(shí)別不準(zhǔn)確,識(shí)別效果不佳的技術(shù)問(wèn)題。
2、第一方面,提供了一種醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法,包括:
3、構(gòu)建多模態(tài)醫(yī)療語(yǔ)音模型,根據(jù)視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的視覺(jué)編碼器和文本編碼器的參數(shù)初始化多模態(tài)醫(yī)療語(yǔ)音模型,接收配對(duì)的醫(yī)學(xué)圖像和錯(cuò)誤模擬后的文本報(bào)告訓(xùn)練多模態(tài)醫(yī)療語(yǔ)音模型;
4、根據(jù)語(yǔ)音轉(zhuǎn)文本模型和訓(xùn)練后的多模態(tài)醫(yī)療語(yǔ)音模型構(gòu)建醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型,接收待糾正的語(yǔ)音及其對(duì)應(yīng)的醫(yī)學(xué)圖像訓(xùn)練醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型;
5、采用訓(xùn)練后的醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型對(duì)輸入醫(yī)療語(yǔ)音進(jìn)行醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正。
6、第二方面,提供了一種醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正裝置,包括:
7、多模態(tài)醫(yī)療語(yǔ)音模型構(gòu)建模塊,用于構(gòu)建多模態(tài)醫(yī)療語(yǔ)音模型,根據(jù)視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的視覺(jué)編碼器和文本編碼器的參數(shù)初始化多模態(tài)醫(yī)療語(yǔ)音模型,接收配對(duì)的醫(yī)學(xué)圖像和錯(cuò)誤模擬后的文本報(bào)告訓(xùn)練多模態(tài)醫(yī)療語(yǔ)音模型;
8、醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型構(gòu)建模塊,用于根據(jù)語(yǔ)音轉(zhuǎn)文本模型和訓(xùn)練后的多模態(tài)醫(yī)療語(yǔ)音模型構(gòu)建醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型,接收待糾正的語(yǔ)音及其對(duì)應(yīng)的醫(yī)學(xué)圖像訓(xùn)練醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型;
9、錯(cuò)誤糾正模塊,用于采用訓(xùn)練后的醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型對(duì)輸入醫(yī)療語(yǔ)音進(jìn)行醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正。
10、第三方面,提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法的步驟。
11、第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法的步驟。
12、上述醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)所實(shí)現(xiàn)的方案中,可以通過(guò)構(gòu)建多模態(tài)醫(yī)療語(yǔ)音模型,根據(jù)視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的視覺(jué)編碼器和文本編碼器的參數(shù)初始化多模態(tài)醫(yī)療語(yǔ)音模型,接收配對(duì)的醫(yī)學(xué)圖像和錯(cuò)誤模擬后的文本報(bào)告訓(xùn)練多模態(tài)醫(yī)療語(yǔ)音模型;根據(jù)語(yǔ)音轉(zhuǎn)文本模型和訓(xùn)練后的多模態(tài)醫(yī)療語(yǔ)音模型構(gòu)建醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型,接收待糾正的語(yǔ)音及其對(duì)應(yīng)的醫(yī)學(xué)圖像訓(xùn)練醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型;采用訓(xùn)練后的醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型對(duì)輸入醫(yī)療語(yǔ)音進(jìn)行醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正,在本發(fā)明中,針對(duì)醫(yī)療健康業(yè)務(wù)下的醫(yī)療數(shù)據(jù)記錄,尤其在放射科等需要大量語(yǔ)音轉(zhuǎn)錄的場(chǎng)景中,可利用多模態(tài)醫(yī)療語(yǔ)音模型對(duì)配對(duì)的醫(yī)學(xué)圖像和文本報(bào)告進(jìn)行特征提取并生成相應(yīng)文本,且多模態(tài)醫(yī)療語(yǔ)音模型根據(jù)視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的參數(shù)進(jìn)行初始化,以利用配對(duì)的醫(yī)學(xué)圖像和文本報(bào)告之間的語(yǔ)義關(guān)聯(lián)性,進(jìn)行文本錯(cuò)誤糾正,而且,利用錯(cuò)誤模擬后的文本報(bào)告對(duì)多模態(tài)醫(yī)療語(yǔ)音模型進(jìn)行訓(xùn)練,可提高模型的糾錯(cuò)能力,醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型通過(guò)語(yǔ)音轉(zhuǎn)文本模型對(duì)輸入語(yǔ)音進(jìn)行語(yǔ)音內(nèi)容識(shí)別獲取對(duì)應(yīng)的文本,配合多模態(tài)醫(yī)療語(yǔ)音模型實(shí)現(xiàn)對(duì)輸入醫(yī)療語(yǔ)音進(jìn)行醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正,提高醫(yī)療語(yǔ)音轉(zhuǎn)文本的準(zhǔn)確性,提高醫(yī)療語(yǔ)音轉(zhuǎn)文本的轉(zhuǎn)換效果。
1.一種醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法,其特征在于,包括:
2.如權(quán)利要求1所述的醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法,其特征在于,所述構(gòu)建多模態(tài)醫(yī)療語(yǔ)音模型,根據(jù)視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的視覺(jué)編碼器和文本編碼器的參數(shù)初始化多模態(tài)醫(yī)療語(yǔ)音模型,接收配對(duì)的醫(yī)學(xué)圖像和錯(cuò)誤模擬后的文本報(bào)告訓(xùn)練多模態(tài)醫(yī)療語(yǔ)音模型,包括:
3.如權(quán)利要求2所述的醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法,其特征在于,所述根據(jù)糾正后的文本報(bào)告與錯(cuò)誤模擬前的真實(shí)的文本報(bào)告計(jì)算損失具體為:
4.如權(quán)利要求1所述的醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法,其特征在于,所述根據(jù)語(yǔ)音轉(zhuǎn)文本模型和訓(xùn)練后的多模態(tài)醫(yī)療語(yǔ)音模型構(gòu)建醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型,接收待糾正的語(yǔ)音及其對(duì)應(yīng)的醫(yī)學(xué)圖像訓(xùn)練醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正模型,包括:
5.如權(quán)利要求1所述的醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法,其特征在于,所述構(gòu)建多模態(tài)醫(yī)療語(yǔ)音模型之前,所述方法還包括:
6.如權(quán)利要求1所述的醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法,其特征在于,所述構(gòu)建多模態(tài)醫(yī)療語(yǔ)音模型之前,所述方法還包括:
7.如權(quán)利要求6所述的醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法,其特征在于,所述收集醫(yī)學(xué)圖像及其對(duì)應(yīng)的文本報(bào)告之后,所述方法還包括:
8.一種醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正裝置,其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述醫(yī)療語(yǔ)音轉(zhuǎn)文本錯(cuò)誤糾正方法的步驟。