專利名稱:一種基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于音頻處理技術(shù)領(lǐng)域,具體涉及一種基于語音識別的法庭庭審音頻文件 實時標(biāo)引系統(tǒng)。
背景技術(shù):
法院的法庭審理過程需要進(jìn)行現(xiàn)場錄音,庭審現(xiàn)場錄音對于提高庭審效率和案件 審理質(zhì)量是非常重要的。法庭的審理要求全面、真實、客觀、公正,如果有音像資料作以佐證 的話就更能直觀、有效的印證案件審理的真實過程,從而為后續(xù)的監(jiān)督檢查以及庭審資料 調(diào)用提供方便。而且,音像資料的保存作為一種真實歷史的記錄,可以為未來法庭庭審工作 的發(fā)展提供借鑒和參考。法庭的庭審過程一般都比較長,短則2 3個小時,長的可以花費半天甚至一天的 時間,而庭審的現(xiàn)場錄音是一個連續(xù)的過程,將最終形成一段時間很長的音頻文件法庭的審理都存在著一套比較規(guī)范的程序,我國的法庭審理過程一般包括如下步 驟宣布開庭一核實當(dāng)事人身份并告知權(quán)利義務(wù)一法庭調(diào)查一舉證質(zhì)證一法庭辯論一法庭 調(diào)解一宣判一閉庭。在進(jìn)行庭審音頻的聽取過程中,如果希望針對其中的某個環(huán)節(jié)聽取錄 音,在音頻文件通過音頻播放軟件播放時,可以通過改變播放進(jìn)度的形式來選擇相應(yīng)的音 頻片段,這是目前所有播放軟件都支持的功能。但是,這種改變播放進(jìn)度的形式一般只能以 時間作為參考依據(jù),收聽者首先要估計希望聽取的片段在什么時間點,然后再根據(jù)時間點 進(jìn)行查找,這樣就會比較繁瑣,特別是在音頻文件比較長的情況下查找的效率相對較低。由于法庭審理有著較規(guī)范的程序,因此,目前有一種做法是在庭審過程錄制完成 后,由工作人員再從頭至尾瀏覽一遍整個音頻文件,并對庭審的每一個步驟加入音頻標(biāo)引, 從而為后續(xù)的錄音提取提供方便。但這種方式不僅增加了工作人員的勞動強(qiáng)度,而且,耗時 較長,工作效率比較低下。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術(shù)的缺陷,提供一種基于語音識別的法庭庭審音頻 文件實時標(biāo)引系統(tǒng),按庭審環(huán)節(jié)將長時間的庭審錄音文件進(jìn)行實時標(biāo)引,以方便后續(xù)聽取 錄音片段的快速定位。本發(fā)明的技術(shù)方案如下一種基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng), 包括-數(shù)字化錄音裝置,用于對整個庭審過程進(jìn)行不間斷的連續(xù)錄音,形成音頻文件;-音頻服務(wù)器,與數(shù)字化錄音裝置連接,用于存儲音頻文件,并對音頻文件進(jìn)行處 理;-語音識別裝置,與音頻服務(wù)器連接,用于根據(jù)事先的設(shè)定程序,對法官的特定語句進(jìn)行識別;-實時標(biāo)引模塊,設(shè)置在音頻服務(wù)器內(nèi),用于根據(jù)語音識別裝置的識別結(jié)果觸發(fā)標(biāo)引操作,對音頻文件的對應(yīng)音頻幀進(jìn)行標(biāo)引關(guān)聯(lián)。進(jìn)一步,如上所述的基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),其中,該系 統(tǒng)還包括語音信息檢測模塊,設(shè)置在音頻服務(wù)器內(nèi),用于對語音識別裝置輸入的語音識別 結(jié)果信息進(jìn)行重復(fù)性檢測,避免重復(fù)標(biāo)弓I。進(jìn)一步,如上所述的基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),其中,所述 的語音識別裝置與法官席麥克風(fēng)相連接,直接識別法官的特定語句。進(jìn)一步,如上所述的基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),其中,所述 的語音識別裝置包括用于接收模擬語音信息的語音接收單元,語音接收單元與模數(shù)轉(zhuǎn)換單 元連接,模數(shù)轉(zhuǎn)換單元與特定語音信息識別單元連接,特定語音信息識別單元連接語音信 息輸出單元。進(jìn)一步,如上所述的基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),其中,所述 的實時標(biāo)引模塊中設(shè)有一個XML文件,XML文件的內(nèi)容節(jié)點以庭審的規(guī)定環(huán)節(jié)名稱命名,當(dāng) 實時標(biāo)引模塊收到一個語音識別結(jié)果信號時,便將當(dāng)前音頻幀與XML文件的當(dāng)前節(jié)點內(nèi)容 相對應(yīng),實現(xiàn)標(biāo)引關(guān)聯(lián)。進(jìn)一步,如上所述的基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),其中,該系 統(tǒng)還包括音頻文件打包模塊,用于將起標(biāo)引作用的XML文件與數(shù)字化錄音裝置生成的音頻 文件整體打包。本發(fā)明的有益效果如下本發(fā)明通過語音識別裝置對法官說出的特定語句進(jìn)行識 別,從而了解法庭審理的進(jìn)程,確定每一個規(guī)定環(huán)節(jié)的開始時刻,通過信號觸發(fā)實時標(biāo)引模 塊對庭審錄音進(jìn)行實時標(biāo)引,最終形成一個帶有庭審環(huán)節(jié)標(biāo)簽的音頻文件。通過在音頻播 放器上設(shè)計一個簡單的插件,用于讀取標(biāo)引信息,就可以將庭審的環(huán)節(jié)標(biāo)簽顯示在播放器 的進(jìn)度欄,從而為庭審錄音的后續(xù)收聽定位提供了極大的方便。本發(fā)明原理簡單,易于實 現(xiàn),非常有助于庭審音頻文件的處理,并能夠減輕工作人員勞動強(qiáng)度,提高音頻文件的處理 效率。
圖1為本發(fā)明的系統(tǒng)結(jié)構(gòu)組成示意圖;圖2為語音識別裝置的結(jié)構(gòu)組成示意圖;圖3為實時標(biāo)引模塊的原理圖。
具體實施例方式下面結(jié)合附圖和具體實施例對本發(fā)明進(jìn)行詳細(xì)的描述。本發(fā)明所提供的基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),用于庭審錄音 現(xiàn)場當(dāng)中,其主要功能是對法庭庭審的數(shù)字化音頻文件進(jìn)行實時的環(huán)節(jié)標(biāo)引,以便于后續(xù) 收聽中的快速定位,該系統(tǒng)的結(jié)構(gòu)如圖1所示,包括-數(shù)字化錄音裝置,用于對整個庭審過程進(jìn)行不間斷的連續(xù)錄音,形成音頻文件, 并將文件實時發(fā)送存儲在音頻服務(wù)器的存儲器中;-音頻服務(wù)器,與數(shù)字化錄音裝置連接,用于存儲音頻文件,并對音頻文件進(jìn)行處 理;
-語音識別裝置,與音頻服務(wù)器連接,用于根據(jù)事先的設(shè)定程序,對法官的特定語 句進(jìn)行識別,語音識別裝置直接連接在法官席的麥克風(fēng)上,從而更準(zhǔn)確的獲取法官的語音 信號;-語音信息檢測模塊,設(shè)置在音頻服務(wù)器內(nèi),與語音識別裝置連接,用于對語音識 別裝置輸入的語音識別結(jié)果信息進(jìn)行重復(fù)性檢測,避免重復(fù)標(biāo)引;-實時標(biāo)引模塊,設(shè)置在音頻服務(wù)器內(nèi),與語音信息檢測模塊連接,用于根據(jù)檢測 合格的語音識別裝置的識別結(jié)果觸發(fā)標(biāo)引操作,對音頻文件的對應(yīng)音頻幀進(jìn)行標(biāo)引關(guān)聯(lián)。本發(fā)明的語音識別裝置并不是對法官的所有話語都進(jìn)行識別,而是只針對特定語 音信息進(jìn)行識別。由于庭審一般都有著比較規(guī)范的程序,在每個程序開始的時候,規(guī)定法官 都要用標(biāo)準(zhǔn)語句進(jìn)行宣讀以表明現(xiàn)在進(jìn)入相應(yīng)程序,例如,開庭時法官宣讀“現(xiàn)在開庭”,法 庭辯論環(huán)節(jié)開始時法官宣讀“現(xiàn)在進(jìn)行法庭辯論”。這樣,語音識別裝置可以預(yù)先設(shè)定好需 要識別的特定語音信息是什么,只有當(dāng)捕捉到這些規(guī)定好的特定語音信息之后,才進(jìn)行語 音信息的輸出。結(jié)合以上特點,語音識別裝置的結(jié)構(gòu)如圖2所示,包括用于接收模擬語音 信息的語音接收單元,語音接收單元與將模擬信號轉(zhuǎn)換為數(shù)字信號的模數(shù)轉(zhuǎn)換單元連接, 模數(shù)轉(zhuǎn)換單元與特定語音信息識別單元連接,特定語音信息識別單元連接語音信息輸出單 元。在特定語音信息識別單元中判斷當(dāng)前輸入的語音是否是需要輸出的語音信號,如果是, 再進(jìn)行語音信號的輸出。另外,在具體的庭審過程中,由于某些不太規(guī)范的人為因素,特定語音信息識別單 元很可能會捕捉到多次同一特定語音信息,并將該信息進(jìn)行了多次輸出。因此,有必要在視 頻服務(wù)器內(nèi)設(shè)置一個語音信息檢測模塊,該語音信息檢測模塊對語音識別裝置輸入的語音 識別結(jié)果信息進(jìn)行重復(fù)性檢測,如果發(fā)現(xiàn)有重復(fù)的語音信號又一次被輸入時,將該信號截 斷,不發(fā)送給實時標(biāo)引模塊,這樣就保證了在一次庭審錄制過程中對于一個規(guī)定環(huán)節(jié)只標(biāo) 引一次。實時標(biāo)引模塊根據(jù)語音信息檢測模塊檢測合格的語音識別裝置的識別結(jié)果觸發(fā) 標(biāo)引操作,對音頻文件的對應(yīng)音頻幀進(jìn)行標(biāo)引關(guān)聯(lián)。本發(fā)明中,將特定的語音信息作為標(biāo)引 的觸發(fā)機(jī)制,實時標(biāo)引模塊事先已經(jīng)定義了需要標(biāo)引的具體內(nèi)容,即每個庭審環(huán)節(jié)的名稱, 一種具體的實施方式是,在實時標(biāo)引模塊中設(shè)置一個XML文件,XML即為可擴(kuò)展的標(biāo)記語言 (extensible Markup Language),是一套定義語義標(biāo)記的規(guī)則,這些標(biāo)記可以將文檔分成 許多部件并對這些部件加以標(biāo)識。如圖3所示,本發(fā)明的XML文件的內(nèi)容節(jié)點以庭審的規(guī) 定環(huán)節(jié)名稱命名,當(dāng)實時標(biāo)引模塊收到一個語音識別結(jié)果信號時,即觸發(fā)了相應(yīng)的標(biāo)引操 作,系統(tǒng)便將音頻文件中當(dāng)前音頻幀與XML文件的當(dāng)前節(jié)點內(nèi)容相對應(yīng),實現(xiàn)標(biāo)引關(guān)聯(lián)。下 一個語音識別結(jié)果信號來到時,再將這一時刻的音頻幀與依次排列的另一個節(jié)點內(nèi)容相對 應(yīng),實現(xiàn)下一個環(huán)節(jié)的標(biāo)引關(guān)聯(lián)。這一技術(shù)原理簡單,對于本領(lǐng)域的技術(shù)人員來說非常容易 實現(xiàn)。針對上述標(biāo)引方式,在音頻服務(wù)器中,還設(shè)有一個音頻文件打包模塊,用于將起標(biāo) 引作用的XML文件與數(shù)字化錄音裝置生成的音頻文件整體打包。這樣,就形成了一個可以 實際被媒體播放器讀取播放的完整的音頻文件。對于音頻播放器軟件來說,應(yīng)該針對上述標(biāo)引關(guān)聯(lián)專門設(shè)計一個播放插件,通過 該插件,可以將庭審的環(huán)節(jié)標(biāo)簽顯示在播放器的進(jìn)度欄,這樣,在聽取音頻文件的時候,可
5以非常直觀的找到庭審的某個環(huán)節(jié)的音頻片段,便于觀看的迅速定位。例如,收聽者希望聽 一下法庭辯論環(huán)節(jié)的情況,就可以拖動進(jìn)度欄游標(biāo),將之放于“法庭辯論”的標(biāo)識處,播放軟 件便可以迅速的根據(jù)該標(biāo)引信息,找到對應(yīng)的片段起點音頻幀,從該音頻幀開始播放,非常 方便實用。上述功能插件的設(shè)計對于本領(lǐng)域的技術(shù)人員來說是現(xiàn)有技術(shù),此處不再進(jìn)行過 多的描述。 本發(fā)明所述的系統(tǒng)并不限于具體實施方式
中所述的實施例,本領(lǐng)域技術(shù)人員根據(jù) 本發(fā)明的技術(shù)方案得出其他的實施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
一種基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),包括-數(shù)字化錄音裝置,用于對整個庭審過程進(jìn)行不間斷的連續(xù)錄音,形成音頻文件;-音頻服務(wù)器,與數(shù)字化錄音裝置連接,用于存儲音頻文件,并對音頻文件進(jìn)行處理;-語音識別裝置,與音頻服務(wù)器連接,用于根據(jù)事先的設(shè)定程序,對法官的特定語句進(jìn)行識別;-實時標(biāo)引模塊,設(shè)置在音頻服務(wù)器內(nèi),用于根據(jù)語音識別裝置的識別結(jié)果觸發(fā)標(biāo)引操作,對音頻文件的對應(yīng)音頻幀進(jìn)行標(biāo)引關(guān)聯(lián)。
2.如權(quán)利要求1所述的基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),其特征在 于該系統(tǒng)還包括語音信息檢測模塊,設(shè)置在音頻服務(wù)器內(nèi),用于對語音識別裝置輸入的語 音識別結(jié)果信息進(jìn)行重復(fù)性檢測,避免重復(fù)標(biāo)引。
3.如權(quán)利要求1或2所述的基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),其特征 在于所述的語音識別裝置與法官席麥克風(fēng)相連接,直接識別法官的特定語句。
4.如權(quán)利要求3所述的基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),其特征在 于所述的語音識別裝置包括用于接收模擬語音信息的語音接收單元,語音接收單元與模 數(shù)轉(zhuǎn)換單元連接,模數(shù)轉(zhuǎn)換單元與特定語音信息識別單元連接,特定語音信息識別單元連 接語音信息輸出單元。
5.如權(quán)利要求1所述的基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),其特征在 于所述的實時標(biāo)引模塊中設(shè)有一個XML文件,XML文件的內(nèi)容節(jié)點以庭審的規(guī)定環(huán)節(jié)名稱 命名,當(dāng)實時標(biāo)引模塊收到一個語音識別結(jié)果信號時,便將當(dāng)前音頻幀與XML文件的當(dāng)前 節(jié)點內(nèi)容相對應(yīng),實現(xiàn)標(biāo)引關(guān)聯(lián)。
6.如權(quán)利要求5所述的基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng),其特征在 于該系統(tǒng)還包括音頻文件打包模塊,用于將起標(biāo)引作用的XML文件與數(shù)字化錄音裝置生 成的音頻文件整體打包。
全文摘要
本發(fā)明屬于音頻處理技術(shù)領(lǐng)域,具體涉及一種基于語音識別的法庭庭審音頻文件實時標(biāo)引系統(tǒng)。該系統(tǒng)包括數(shù)字化錄音裝置,用于對整個庭審過程進(jìn)行不間斷的連續(xù)錄音,形成音頻文件;音頻服務(wù)器,與數(shù)字化錄音裝置連接,用于存儲音頻文件,并對音頻文件進(jìn)行處理;語音識別裝置,與音頻服務(wù)器連接,用于根據(jù)事先的設(shè)定程序,對法官的特定語句進(jìn)行識別;實時標(biāo)引模塊,設(shè)置在音頻服務(wù)器內(nèi),用于根據(jù)語音識別裝置的識別結(jié)果觸發(fā)標(biāo)引操作,對音頻文件的對應(yīng)音頻幀進(jìn)行標(biāo)引關(guān)聯(lián)。本發(fā)明能夠按庭審環(huán)節(jié)將長時間的庭審錄音進(jìn)行實時標(biāo)引,以方便后續(xù)聽取錄音片段的快速定位,并能夠減輕工作人員勞動強(qiáng)度,提高音頻文件的處理效率。
文檔編號G11B27/10GK101833980SQ20091007982
公開日2010年9月15日 申請日期2009年3月12日 優(yōu)先權(quán)日2009年3月12日
發(fā)明者商文彬, 羊文廣, 羊美華, 黃瓊 申請人:新奧特硅谷視頻技術(shù)有限責(zé)任公司