數據處理方法、數據處理裝置、電子設備、存儲介質和程序產品與流程

文檔序號：40643233發(fā)布日期：2025-01-10 18:49閱讀：1來源：國知局

本公開涉及計算機，尤其涉及人工智能技術，具體涉及一種數據處理方法、裝置、電子設備、計算機可讀存儲介質和計算機程序產品。

背景技術：

1、人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規(guī)劃等)的學科，既有硬件層面的技術也有軟件層面的技術。人工智能硬件技術一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、大數據處理等技術；人工智能軟件技術主要包括計算機視覺技術、語音識別技術、自然語言處理技術以及機器學習/深度學習、大數據處理技術、知識圖譜技術等幾大方向。

2、近年來，大規(guī)模預訓練模型在自然語言處理領域取得了成功，隨著參數量或者數據量的增加，實現模型性能的不斷提升。

3、在此部分中描述的方法不一定是之前已經設想到或采用的方法。除非另有指明，否則不應假定此部分中描述的任何方法僅因其包括在此部分中就被認為是現有技術。類似地，除非另有指明，否則此部分中提及的問題不應認為在任何現有技術中已被公認。

技術實現思路

1、本公開提供了一種數據處理方法、裝置、電子設備、計算機可讀存儲介質和計算機程序產品。

2、根據本公開的一方面，提供了一種數據處理方法，包括：接收輸入數據，其中，所述輸入數據包括輸入音頻和輸入文本；確定所述輸入音頻的頻譜特征；利用映射層對所述頻譜特征進行映射，以得到用于大語言模型的所述輸入音頻的嵌入表示；確定所述輸入文本的嵌入表示；利用所述大語言模型對所述輸入音頻的嵌入表示和所述輸入文本的嵌入表示進行處理，以得到用于所述輸入數據的預測結果。

3、根據本公開的另一方面，提供了一種數據處理裝置，包括：輸入單元，被配置成接收輸入數據，其中，所述輸入數據包括輸入音頻和輸入文本；音頻特征生成單元，被配置成確定所述輸入音頻的頻譜特征；映射單元，被配置成利用映射層對所述頻譜特征進行映射，以得到用于大語言模型的所述輸入音頻的嵌入表示；文本處理單元，被配置成確定所述輸入文本的嵌入表示；輸出單元，被配置成利用所述大語言模型對所述輸入音頻的嵌入表示和所述輸入文本的嵌入表示進行處理，以得到用于所述輸入數據的預測結果。

4、根據本公開的另一方面，提供了一種電子設備，包括：至少一個處理器；以及與所述至少一個處理器通信連接的存儲器；其中所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行根據本公開的實施例的方法。

5、根據本公開的另一方面，提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，所述計算機指令用于使所述計算機執(zhí)行根據本公開的實施例的方法。

6、根據本公開的另一方面，提供了一種計算機程序產品，包括計算機程序，其中，所述計算機程序在被處理器執(zhí)行時實現根據本公開的實施例的方法。

7、根據本公開的一個或多個實施例，可以能夠簡化音頻-文本聯合處理的模型的訓練過程，提升模型輸出的魯棒性和一致性，并增強模型的跨模態(tài)學習能力。

8、應當理解，本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

技術特征：

1.一種數據處理方法，包括：

2.如權利要求1所述的數據處理方法，其中，所述大語言模型是自回歸模型，

3.如權利要求2所述的數據處理方法，其中，拼接輸入音頻的嵌入表示和所述輸入文本的嵌入表示包括：

4.如權利要求1-3中任一項所述的數據處理方法，其中，確定所述輸入音頻的頻譜特征包括：

5.如權利要求1-3中任一項所述的數據處理方法，其中，所述輸入音頻的嵌入表示和所述輸入文本的嵌入表示具有相同的大小。

6.如權利要求1-3中任一項所述的數據處理方法，其中，所述大語言模型是基于以下方法訓練的：

7.一種數據處理裝置，包括：

8.如權利要求7所述的數據處理裝置，其中，所述大語言模型是自回歸模型，

9.如權利要求8所述的數據處理裝置，其中，拼接輸入音頻的嵌入表示和所述輸入文本的嵌入表示包括：

10.如權利要求7-9中任一項所述的數據處理裝置，其中，確定所述輸入音頻的頻譜特征包括：

11.如權利要求7-9中任一項所述的數據處理裝置，其中，所述輸入音頻的嵌入表示和所述輸入文本的嵌入表示具有相同的大小。

12.如權利要求7-9中任一項所述的數據處理裝置，其中，所述大語言模型是基于以下方法訓練的：

13.一種電子設備，包括：

14.一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，所述計算機指令用于使所述計算機執(zhí)行根據權利要求1-6中任一項所述的方法。

15.一種計算機程序產品，包括計算機程序，其中，所述計算機程序在被處理器執(zhí)行時實現權利要求1-6中任一項所述的方法。

技術總結
本公開提供了一種數據處理方法、數據處理裝置、電子設備、存儲介質和程序產品，計算機技術領域，尤其涉及人工智能技術。實現方案為：接收輸入數據，其中，所述輸入數據包括輸入音頻和輸入文本；確定所述輸入音頻的頻譜特征；利用映射層對所述頻譜特征進行映射，以得到用于大語言模型的所述輸入音頻的嵌入表示；確定所述輸入文本的嵌入表示；利用所述大語言模型對所述輸入音頻的嵌入表示和所述輸入文本的嵌入表示進行處理，以得到用于所述輸入數據的預測結果。

技術研發(fā)人員：楊茵淇,尚駿遠,王碩寰,孫宇
受保護的技術使用者：北京百度網訊科技有限公司
技術研發(fā)日：
技術公布日：2025/1/9

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：楊茵淇,尚駿遠,王碩寰,孫宇
技術所有人：北京百度網訊科技有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

數據處理方法、數據處理裝置、電子設備、存儲介質和程序產品與流程

數據處理方法、數據處理裝置、電子設備、存儲介質和程序產品與流程