本公開大體上涉及機器學(xué)習(xí),并且更具體地,涉及一種用于對機器學(xué)習(xí)(ml)模型加水印的方法。
背景技術(shù):
1、越來越多的功能正經(jīng)由機器學(xué)習(xí)(ml)實施。ml的一些良好特性包括靈活性、處理大量數(shù)據(jù)的能力、易于定制以及解決可能難以用非機器學(xué)習(xí)算法解決的問題的能力。機器學(xué)習(xí)模型可按機器學(xué)習(xí)模型的訓(xùn)練方式進行分類,例如有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。在有監(jiān)督學(xué)習(xí)中,使用給出所要輸出的數(shù)據(jù)來訓(xùn)練ml模型。此訓(xùn)練數(shù)據(jù)包括所述訓(xùn)練數(shù)據(jù)的每個樣本上的標(biāo)簽。對于分類問題,所述標(biāo)簽可以是類別或類。對于回歸問題,標(biāo)簽可以是值。
2、ml模型的有效性由例如其準(zhǔn)確性、執(zhí)行時間、存儲要求以及訓(xùn)練數(shù)據(jù)的質(zhì)量(以及數(shù)量)來確定。對特定訓(xùn)練數(shù)據(jù)的存取可將ml模型與其它ml模型區(qū)分開,并使該ml模型成為有價值的資產(chǎn)。然而,已證明,在ml模型被安全地存儲在例如云中的服務(wù)器中或通過具有平臺安全性而安全地存儲的情況下,ml模型仍可能易受試圖竊取該ml模型的攻擊者的攻擊。例如,已表明,只有經(jīng)由ml模型的應(yīng)用編程接口(api)對ml模型的輸入/輸出行為的黑盒存取才能足以獲得該ml模型的幾乎精確的副本或克隆。一旦以此方式獲取了機器學(xué)習(xí)模型的副本,敵手就可用副本套現(xiàn)。由于敵手不必投資ml模型的開發(fā),因此敵手可以低得多的成本來完成這一點。
3、水印通常用于標(biāo)記和證明文件的所有權(quán)。將水印嵌入ml模型中可能需要用關(guān)于水印的信息來訓(xùn)練模型,這可能改變模型的功能。另外,水印需要對攻擊者隱藏。水印還需要是可檢測的,同時在ml模型被復(fù)制時難以移除或修改。有效地實施這些問題的解決方案可能是困難且昂貴的。
4、因此,需要一種方法來對ml模型加水印而無上文所描述的至少一些問題。
技術(shù)實現(xiàn)思路
1、根據(jù)實施例,提供一種用于對機器學(xué)習(xí)模型(ml)加水印的方法,該方法包括:從訓(xùn)練數(shù)據(jù)集合中選擇多個輸入樣本以用于將水印嵌入到所述ml模型中;產(chǎn)生位序列;將所述位序列劃分成位的分塊集合;將選定多個輸入樣本劃分成輸入樣本子集,其中所述輸入樣本子集中的每個子集中的所有所述輸入樣本標(biāo)記有所述ml模型的問題域中的相同第一標(biāo)簽;將所述分塊集合中的每個分塊與標(biāo)記的輸入樣本子集中的子集組合以產(chǎn)生多個標(biāo)記的觸發(fā)樣本;將多個標(biāo)記的觸發(fā)樣本集合中的每個集合的每個觸發(fā)樣本重新標(biāo)記成具有不同于所述第一標(biāo)簽并處于所述ml模型的所述問題域中的第二標(biāo)簽,以產(chǎn)生重新標(biāo)記的觸發(fā)樣本集合;以及利用標(biāo)記的訓(xùn)練輸入樣本集合和所述重新標(biāo)記的觸發(fā)樣本集合訓(xùn)練所述ml模型以產(chǎn)生加水印的ml模型。所述位序列可根據(jù)文本字符序列而確定。文本字符序列可包括至少100個文本字符。ml模型可包括神經(jīng)網(wǎng)絡(luò)。所述方法還可包括在所述分塊集合中的每個分塊與所述標(biāo)記的輸入樣本子集中的子集的所述組合之前,將從第一向量空間到第二向量空間的可逆仿射映射函數(shù)應(yīng)用于所述標(biāo)記的輸入樣本子集。所述方法還可包括在利用所述標(biāo)記的訓(xùn)練輸入樣本集合和所述重新標(biāo)記的觸發(fā)樣本集合進行所述ml模型的所述訓(xùn)練之前,將所述可逆仿射映射函數(shù)的逆應(yīng)用于所述重新標(biāo)記的觸發(fā)樣本集合。將所述分塊集合中的每個分塊與所述標(biāo)記的輸入樣本子集中的子集組合還可包括創(chuàng)建標(biāo)記的觸發(fā)樣本,其中所述標(biāo)記的觸發(fā)樣本包括第一部分條目和第二部分條目,其中所述第一部分條目可包括所述分塊集合中的分塊,并且其中所述第二部分條目中的至少一個條目可填充有所述標(biāo)記的輸入樣本子集中的一個子集的樣本,并且所述第二部分的所有其它條目可被設(shè)置為零。根據(jù)文本字符序列來確定所述位序列,其中通過建立下限與上限之間的區(qū)間以對字母表的字符進行編碼來創(chuàng)建每個文本字符分塊,并且其中所述區(qū)間的所述下限和上限由所述多個輸入樣本的一系列等間隔值來確定,并且每個字符在所述區(qū)間中具有指派位置。對所述觸發(fā)樣本中的每一者的所述重新標(biāo)記可包括將所述第一標(biāo)簽打亂于所述多個標(biāo)記的觸發(fā)樣本集合中的每個集合之間。標(biāo)記的ml訓(xùn)練樣本集合可包括從多個傳感器收集的傳感器數(shù)據(jù)。
2、在另一實施例中,提供一種存儲在非暫時性介質(zhì)上的計算機程序,所述計算機程序包括可執(zhí)行指令,所述可執(zhí)行指令在由處理器執(zhí)行時為機器學(xué)習(xí)(ml)模型提供加水印,所述指令包括:用于選擇多個輸入樣本以用于訓(xùn)練所述ml模型的指令;用于產(chǎn)生位序列的指令;用于將所述位序列劃分成位的分塊集合的指令;用于將選定多個輸入樣本劃分成輸入樣本子集的指令,其中所述輸入樣本子集中的每個子集中的所有所述輸入樣本標(biāo)記有所述ml模型的問題域中的相同第一標(biāo)簽;用于將所述分塊集合中的每個分塊與標(biāo)記的輸入樣本子集中的子集組合以產(chǎn)生多個標(biāo)記的觸發(fā)樣本的指令;用于將多個標(biāo)記的觸發(fā)樣本集合中的每個集合的每個觸發(fā)樣本重新標(biāo)記成具有不同于所述第一標(biāo)簽并處于所述ml模型的所述問題域中的第二標(biāo)簽以產(chǎn)生重新標(biāo)記的觸發(fā)樣本集合的指令;以及用于利用標(biāo)記的訓(xùn)練輸入樣本集合和所述重新標(biāo)記的觸發(fā)樣本集合訓(xùn)練所述ml模型以產(chǎn)生加水印的ml模型的指令。所述位序列可根據(jù)文本字符序列而確定。所述文本字符序列可包括至少100個字符。所述ml模型可包括用于分析傳感器數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。所述計算機程序還可包括用于在所述分塊集合中的每個分塊與所述標(biāo)記的輸入樣本子集中的子集的所述組合之前應(yīng)用所述標(biāo)記的輸入樣本子集從第一向量空間到第二向量空間的可逆仿射映射的指令。所述計算機程序還可包括用于在利用所述標(biāo)記的訓(xùn)練輸入樣本集合和所述重新標(biāo)記的觸發(fā)樣本集合進行所述ml模型的所述訓(xùn)練之前應(yīng)用所述重新標(biāo)記的觸發(fā)樣本集合的所述可逆仿射映射的逆的指令。用于將所述分塊集合中的每個文本字符分塊與標(biāo)記的輸入樣本子集中的子集組合的所述指令還可包括用于創(chuàng)建標(biāo)記的觸發(fā)樣本的指令,其中所述標(biāo)記的觸發(fā)樣本包括第一部分條目和第二部分條目,其中所述第一部分條目包括所述分塊集合中的文本字符分塊,并且其中所述第二部分條目中的至少一個條目填充有所述標(biāo)記的輸入樣本子集中的一個子集的樣本,并且所述第二部分的所有其它條目被設(shè)置為零。所述ml模型還包括丟棄層??赏ㄟ^建立下限與上限之間的區(qū)間以對字母表的字符進行編碼來創(chuàng)建每個文本字符分塊,其中所述區(qū)間的所述下限和上限由所述多個輸入樣本的一系列等間隔值來確定,并且每個字符在所述區(qū)間中具有指派位置。用于所述觸發(fā)樣本中的每一者的重新標(biāo)記的指令包括將所述第一標(biāo)簽打亂于所述多個標(biāo)記的觸發(fā)樣本集合中的每個集合之間。標(biāo)記的ml訓(xùn)練樣本集合包括從多個傳感器收集的傳感器數(shù)據(jù)。
1.一種用于對機器學(xué)習(xí)模型ml加水印的方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:在所述分塊集合中的每個分塊與所述標(biāo)記的輸入樣本子集中的子集的所述組合之前,將從第一向量空間到第二向量空間的可逆仿射映射函數(shù)應(yīng)用于所述標(biāo)記的輸入樣本子集。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括在利用所述標(biāo)記的訓(xùn)練輸入樣本集合和所述重新標(biāo)記的觸發(fā)樣本集合進行所述ml模型的所述訓(xùn)練之前,將所述可逆仿射映射函數(shù)的逆應(yīng)用于所述重新標(biāo)記的觸發(fā)樣本集合。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述分塊集合中的每個分塊與所述標(biāo)記的輸入樣本子集中的子集組合還包括創(chuàng)建標(biāo)記的觸發(fā)樣本,其中所述標(biāo)記的觸發(fā)樣本包括第一部分條目和第二部分條目,其中所述第一部分條目包括所述分塊集合中的分塊,并且其中所述第二部分條目中的至少一個條目填充有所述標(biāo)記的輸入樣本子集中的一個子集的樣本,并且所述第二部分的所有其它條目被設(shè)置為零。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)文本字符序列來確定所述位序列,其中通過建立下限與上限之間的區(qū)間以對字母表的字符進行編碼來創(chuàng)建每個文本字符分塊,并且其中所述區(qū)間的所述下限和上限由所述多個輸入樣本的一系列等間隔值來確定,并且每個字符在所述區(qū)間中具有指派位置。
6.一種存儲在非暫時性介質(zhì)上的計算機程序,其特征在于,所述計算機程序包括可執(zhí)行指令,所述可執(zhí)行指令在由處理器執(zhí)行時為機器學(xué)習(xí)ml模型提供加水印,所述指令包括:
7.根據(jù)權(quán)利要求6所述的計算機程序,其特征在于,還包括:用于在所述分塊集合中的每個分塊與所述標(biāo)記的輸入樣本子集中的子集的所述組合之前應(yīng)用所述標(biāo)記的輸入樣本子集從第一向量空間到第二向量空間的可逆仿射映射的指令。
8.根據(jù)權(quán)利要求7所述的計算機程序,其特征在于,還包括用于在利用所述標(biāo)記的訓(xùn)練輸入樣本集合和所述重新標(biāo)記的觸發(fā)樣本集合進行所述ml模型的所述訓(xùn)練之前應(yīng)用所述重新標(biāo)記的觸發(fā)樣本集合的所述可逆仿射映射的逆的指令。
9.根據(jù)權(quán)利要求6所述的計算機程序,其特征在于,用于將所述分塊集合中的每個文本字符分塊與標(biāo)記的輸入樣本子集中的子集組合的所述指令還包括用于創(chuàng)建標(biāo)記的觸發(fā)樣本的指令,其中所述標(biāo)記的觸發(fā)樣本包括第一部分條目和第二部分條目,其中所述第一部分條目包括所述分塊集合中的文本字符分塊,并且其中所述第二部分條目中的至少一個條目填充有所述標(biāo)記的輸入樣本子集中的一個子集的樣本,并且所述第二部分的所有其它條目被設(shè)置為零。
10.根據(jù)權(quán)利要求6所述的計算機程序,其特征在于,通過建立下限與上限之間的區(qū)間以對字母表的字符進行編碼來創(chuàng)建每個文本字符分塊,其中所述區(qū)間的所述下限和上限由所述多個輸入樣本的一系列等間隔值來確定,并且每個字符在所述區(qū)間中具有指派位置。