本公開的實施例涉及計算機,具體涉及視頻會議的語音文字顯示方法和裝置。
背景技術(shù):
1、在現(xiàn)有服務中,視頻會議系統(tǒng)中的參會人在參會期間錄制的語音信息,在會后進行會議文字展示的方法是從錄制的混流后的視頻文件中提取語音文件wav,由會議紀要服務調(diào)用ai的語音轉(zhuǎn)文字系統(tǒng)功能進行識別,并需要ai開啟角色分離功能,才能識別語音文件中的多個說話人,如果需要精準識別每個說話人的身份,還要預先訓練聲紋識別系統(tǒng)。
2、若基于現(xiàn)有的技術(shù)框架來服務會議記錄文字展示,對會議紀要服務中使用的ai系統(tǒng)的角色分離功能要求非常高,同時效果也不好預期。如果參會人數(shù)過多,在中型或者大型視頻會議中,往往參會人有幾十、幾百,發(fā)言人越多需要分離的角色數(shù)量就越大,對后面的ai語音轉(zhuǎn)文字系統(tǒng)的要求越高,通常情況下ai語音轉(zhuǎn)文字系統(tǒng)單個音頻的角色分離的容量是幾十,很容易觸發(fā)其上限。
3、另外,所有可能參會的參會人都需要進行聲紋識別訓練,才有可能在將參會人分離后并識別出參會人是誰,比如需要進行訓練后,才能在將角色分離后的a說話人通過聲紋識別判斷為是某個員工,這種方案的準確性不能達到100%,實施性也比較差。
技術(shù)實現(xiàn)思路
1、本公開的實施例提出了視頻會議的語音文字顯示方法和裝置。
2、第一方面,本公開的實施例提供了一種視頻會議的語音文字顯示方法,包括:根據(jù)與會者的個人音頻數(shù)據(jù)生成哈希值集合,其中,所述個人音頻數(shù)據(jù)中的一個音頻幀生成一個哈希值;對與會者的個人音頻數(shù)據(jù)進行語音識別,得到與會者的語音識別結(jié)果,其中,所述語音識別結(jié)果包括識別出的語句的起始時間和結(jié)束時間;在哈希時間表中查詢所述哈希值集合中的哈希值對應的音頻幀的起始時間和結(jié)束時間,其中,所述哈希時間表是根據(jù)視頻會議數(shù)據(jù)中的多人混合的音頻幀生成的;根據(jù)查詢到的音頻幀的起始時間和結(jié)束時間對所述語音識別結(jié)果中對應的語句的起始時間和結(jié)束時間進行校準,得到會議記錄;將所述視頻會議數(shù)據(jù)與所述會議記錄合并展示。
3、在一些實施例中,所述根據(jù)與會者的個人音頻數(shù)據(jù)生成哈希值集合,包括:對于與會者的個人音頻數(shù)據(jù)中音頻幀通過md5算法生成哈希值,得到哈希值集合。
4、在一些實施例中,所述根據(jù)與會者的個人音頻數(shù)據(jù)生成哈希值集合,包括:響應于檢測到來自多個客戶端的與會者的個人音頻數(shù)據(jù),對于與會者的個人音頻數(shù)據(jù)中音頻幀通過md5算法生成哈希值,得到與客戶端標識對應的與會者的哈希值集合。
5、在一些實施例中,所述方法還包括:根據(jù)視頻會議數(shù)據(jù)中的脈沖編碼調(diào)制音頻幀生成哈希值;對脈沖編碼調(diào)制音頻幀進行多路音頻混合,生成高級音頻編碼音頻幀;根據(jù)高級音頻編碼音頻幀與哈希值的映射關(guān)系、高級音頻編碼音頻幀的起始時間和結(jié)束時間生成哈希時間表。
6、在一些實施例中,所述方法還包括:響應于檢測到所述視頻會議數(shù)據(jù)來自多個客戶端,在所述哈希時間表中添加客戶端標識。
7、在一些實施例中,所述將所述視頻會議數(shù)據(jù)與所述會議記錄合并展示,包括:獲取與會者的參會信息添加到所述會議記錄中;在播放所述視頻會議數(shù)據(jù)的同時輸出所述會議記錄。
8、第二方面,本公開的實施例提供了一種視頻會議的語音文字顯示裝置,包括:生成單元,被配置成根據(jù)與會者的個人音頻數(shù)據(jù)生成哈希值集合,其中,所述個人音頻數(shù)據(jù)中的一個音頻幀生成一個哈希值;識別單元,被配置成對與會者的個人音頻數(shù)據(jù)進行語音識別,得到與會者的語音識別結(jié)果,其中,所述語音識別結(jié)果包括識別出的語句的起始時間和結(jié)束時間;查詢單元,被配置成在哈希時間表中查詢所述哈希值集合中的哈希值對應的音頻幀的起始時間和結(jié)束時間,其中,所述哈希時間表是根據(jù)視頻會議數(shù)據(jù)中的多人混合的音頻幀生成的;校準單元,被配置成根據(jù)查詢到的音頻幀的起始時間和結(jié)束時間對所述語音識別結(jié)果中對應的語句的起始時間和結(jié)束時間進行校準,得到會議記錄;展示單元,被配置成將所述視頻會議數(shù)據(jù)與所述會議記錄合并展示。
9、在一些實施例中,所述生成單元進一步被配置成:對于與會者的個人音頻數(shù)據(jù)中音頻幀通過md5算法生成哈希值,得到哈希值集合。
10、在一些實施例中,所述生成單元進一步被配置成:響應于檢測到來自多個客戶端的與會者的個人音頻數(shù)據(jù),對于與會者的個人音頻數(shù)據(jù)中音頻幀通過md5算法生成哈希值,得到與客戶端標識對應的與會者的哈希值集合。
11、在一些實施例中,所述生成單元進一步被配置成:根據(jù)視頻會議數(shù)據(jù)中的脈沖編碼調(diào)制音頻幀生成哈希值;對脈沖編碼調(diào)制音頻幀進行多路音頻混合,生成高級音頻編碼音頻幀;根據(jù)高級音頻編碼音頻幀與哈希值的映射關(guān)系、高級音頻編碼音頻幀的起始時間和結(jié)束時間生成哈希時間表。
12、在一些實施例中,所述生成單元進一步被配置成:響應于檢測到所述視頻會議數(shù)據(jù)來自多個客戶端,在所述哈希時間表中添加客戶端標識。
13、在一些實施例中,所述展示單元進一步被配置成:獲取與會者的參會信息添加到所述會議記錄中;在播放所述視頻會議數(shù)據(jù)的同時輸出所述會議記錄。
14、第三方面,本公開的實施例提供了一種電子設備,包括:一個或多個處理器;存儲裝置,其上存儲有一個或多個計算機程序,當所述一個或多個計算機程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)如第一方面中任一項所述的方法。
15、第四方面,本公開的實施例提供了一種計算機可讀介質(zhì),其上存儲有計算機程序,其中,所述計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面中任一項所述的方法。
16、第五方面,本公開的實施例提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如第一方面中任一項所述的方法。
17、本公開的實施例提供的視頻會議的語音文字顯示方法和裝置,通過單獨錄制每個參會人音頻流的方式,接收視頻會議中的音頻流以及按參會人peerid(客戶端標識)進行單獨錄制,首先解決語音轉(zhuǎn)文字系統(tǒng)的角色分離的限制瓶頸(從rtc?worker(實時通信線程)中拉取的音頻流帶peerid信息,可以用來區(qū)分參會人);將單獨錄制的參會人peerid通過查詢現(xiàn)有會議控制服務中登記的參會人用戶信息來輸出參會人身份,解決需要聲紋系統(tǒng)訓練和識別參會人用戶信息的難題。由于混流的視頻錄制服務和會議紀要服務是兩個單獨的服務,兩者錄制的音頻數(shù)據(jù)不一致,展示時需要將會議紀要服務產(chǎn)生的文字與混流視頻服務中的時間一一對應,進行時間戳校準,來達到語音轉(zhuǎn)文字系統(tǒng)(asr)轉(zhuǎn)寫的文字時間與混流視頻中的時間一致。
18、應當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種視頻會議的語音文字顯示方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)與會者的個人音頻數(shù)據(jù)生成哈希值集合,包括:
3.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)與會者的個人音頻數(shù)據(jù)生成哈希值集合,包括:
4.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括:
5.根據(jù)權(quán)利要求4所述的方法,其中,所述方法還包括:
6.根據(jù)權(quán)利要求1所述的方法,其中,所述將所述視頻會議數(shù)據(jù)與所述會議記錄合并展示,包括:
7.一種視頻會議的語音文字顯示裝置,包括:
8.一種電子設備,包括:
9.一種計算機可讀介質(zhì),其上存儲有計算機程序,其中,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-6中任一項所述的方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-6中任一項所述的方法。