本公開涉及計算機,尤其涉及人工智能技術,具體涉及一種數據處理方法、裝置、電子設備、計算機可讀存儲介質和計算機程序產品。
背景技術:
1、人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規(guī)劃等)的學科,既有硬件層面的技術也有軟件層面的技術。人工智能硬件技術一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、大數據處理等技術;人工智能軟件技術主要包括計算機視覺技術、語音識別技術、自然語言處理技術以及機器學習/深度學習、大數據處理技術、知識圖譜技術等幾大方向。
2、近年來,大規(guī)模預訓練模型在自然語言處理領域取得了成功,隨著參數量或者數據量的增加,實現模型性能的不斷提升。
3、在此部分中描述的方法不一定是之前已經設想到或采用的方法。除非另有指明,否則不應假定此部分中描述的任何方法僅因其包括在此部分中就被認為是現有技術。類似地,除非另有指明,否則此部分中提及的問題不應認為在任何現有技術中已被公認。
技術實現思路
1、本公開提供了一種數據處理方法、裝置、電子設備、計算機可讀存儲介質和計算機程序產品。
2、根據本公開的一方面,提供了一種數據處理方法,包括:接收輸入數據,其中,所述輸入數據包括輸入音頻和輸入文本;確定所述輸入音頻的頻譜特征;利用映射層對所述頻譜特征進行映射,以得到用于大語言模型的所述輸入音頻的嵌入表示;確定所述輸入文本的嵌入表示;利用所述大語言模型對所述輸入音頻的嵌入表示和所述輸入文本的嵌入表示進行處理,以得到用于所述輸入數據的預測結果。
3、根據本公開的另一方面,提供了一種數據處理裝置,包括:輸入單元,被配置成接收輸入數據,其中,所述輸入數據包括輸入音頻和輸入文本;音頻特征生成單元,被配置成確定所述輸入音頻的頻譜特征;映射單元,被配置成利用映射層對所述頻譜特征進行映射,以得到用于大語言模型的所述輸入音頻的嵌入表示;文本處理單元,被配置成確定所述輸入文本的嵌入表示;輸出單元,被配置成利用所述大語言模型對所述輸入音頻的嵌入表示和所述輸入文本的嵌入表示進行處理,以得到用于所述輸入數據的預測結果。
4、根據本公開的另一方面,提供了一種電子設備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行根據本公開的實施例的方法。
5、根據本公開的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,所述計算機指令用于使所述計算機執(zhí)行根據本公開的實施例的方法。
6、根據本公開的另一方面,提供了一種計算機程序產品,包括計算機程序,其中,所述計算機程序在被處理器執(zhí)行時實現根據本公開的實施例的方法。
7、根據本公開的一個或多個實施例,可以能夠簡化音頻-文本聯合處理的模型的訓練過程,提升模型輸出的魯棒性和一致性,并增強模型的跨模態(tài)學習能力。
8、應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種數據處理方法,包括:
2.如權利要求1所述的數據處理方法,其中,所述大語言模型是自回歸模型,
3.如權利要求2所述的數據處理方法,其中,拼接輸入音頻的嵌入表示和所述輸入文本的嵌入表示包括:
4.如權利要求1-3中任一項所述的數據處理方法,其中,確定所述輸入音頻的頻譜特征包括:
5.如權利要求1-3中任一項所述的數據處理方法,其中,所述輸入音頻的嵌入表示和所述輸入文本的嵌入表示具有相同的大小。
6.如權利要求1-3中任一項所述的數據處理方法,其中,所述大語言模型是基于以下方法訓練的:
7.一種數據處理裝置,包括:
8.如權利要求7所述的數據處理裝置,其中,所述大語言模型是自回歸模型,
9.如權利要求8所述的數據處理裝置,其中,拼接輸入音頻的嵌入表示和所述輸入文本的嵌入表示包括:
10.如權利要求7-9中任一項所述的數據處理裝置,其中,確定所述輸入音頻的頻譜特征包括:
11.如權利要求7-9中任一項所述的數據處理裝置,其中,所述輸入音頻的嵌入表示和所述輸入文本的嵌入表示具有相同的大小。
12.如權利要求7-9中任一項所述的數據處理裝置,其中,所述大語言模型是基于以下方法訓練的:
13.一種電子設備,包括:
14.一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,所述計算機指令用于使所述計算機執(zhí)行根據權利要求1-6中任一項所述的方法。
15.一種計算機程序產品,包括計算機程序,其中,所述計算機程序在被處理器執(zhí)行時實現權利要求1-6中任一項所述的方法。