專利名稱:數(shù)據(jù)重排序方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及半監(jiān)督學(xué)習(xí)領(lǐng)域,特別是涉及一種數(shù)據(jù)重排序方法和系統(tǒng)。
背景技術(shù):
在機器學(xué)習(xí)領(lǐng)域中,傳統(tǒng)的學(xué)習(xí)方法有兩種監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí) (Sem1-supervised Learning)是近年來模式識別和機器學(xué)習(xí)領(lǐng)域研究的重點問題,是監(jiān)督 學(xué)習(xí)與無監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。它主要考慮如何利用少量的標(biāo)注樣本和大量的 未標(biāo)注樣本進行訓(xùn)練和分類的問題。半監(jiān)督學(xué)習(xí)對于減少標(biāo)注代價,提高學(xué)習(xí)機器性能具 有非常重大的實際意義。
根據(jù)機器學(xué)習(xí)的普遍觀點,半監(jiān)督學(xué)習(xí)問題解是同時對數(shù)據(jù)平滑和經(jīng)驗風(fēng)險的最 小化。數(shù)據(jù)平滑由數(shù)據(jù)內(nèi)在結(jié)構(gòu)決定,而經(jīng)驗風(fēng)險主要取決于初始標(biāo)定的查詢樣本。這一 框架被廣泛應(yīng)用在如信息檢索、交互式圖像分割等問題。
在現(xiàn)實的應(yīng)用中,數(shù)據(jù)的流型結(jié)構(gòu)會被噪聲破壞,從而導(dǎo)致數(shù)據(jù)平滑傳導(dǎo)和度量 的偏差,降低數(shù)據(jù)檢索精度。另外,由于初始查詢樣本來源于算法自動生成而非人工標(biāo)定, 不準(zhǔn)確的標(biāo)定也會降低數(shù)據(jù)檢索精度。發(fā)明內(nèi)容
基于此,有必要提供一種能提高數(shù)據(jù)檢索精度的數(shù)據(jù)重排序方法和系統(tǒng)。
一種數(shù)據(jù)重排序方法,包括以下步驟
獲取數(shù)據(jù)集合,所述數(shù)據(jù)集合中包含多個標(biāo)定數(shù)據(jù);
根據(jù)數(shù)據(jù)特征建立節(jié)點集合,得到所述數(shù)據(jù)集合中的數(shù)據(jù)與所述節(jié)點集合中節(jié)點 的映射關(guān)系,所述節(jié)點集合包含與所述標(biāo)定數(shù)據(jù)對應(yīng)的標(biāo)定正樣本;
獲取所述節(jié)點集合中各節(jié)點的第一節(jié)點值,所述第一節(jié)點值表示節(jié)點是實際正樣 本的概率,去除所述數(shù)據(jù)集合中對應(yīng)節(jié)點的第一節(jié)點值小于或等于第一預(yù)設(shè)值的數(shù)據(jù),得 到去噪數(shù)據(jù)集合;
提取所述去噪數(shù)據(jù)集合中標(biāo)定數(shù)據(jù)對應(yīng)的標(biāo)定正樣本建立查詢樣本集合;
獲取所述查詢樣本集合中各標(biāo)定正樣本的第二節(jié)點值,所述第二節(jié)點值表示標(biāo)定 正樣本是實際正樣本的概率,提取所述去噪數(shù)據(jù)集合中對應(yīng)標(biāo)定正樣本的第二節(jié)點值大于 或等于第二預(yù)設(shè)值的標(biāo)定數(shù)據(jù),得到主導(dǎo)數(shù)據(jù)類;
根據(jù)所述主導(dǎo)數(shù)據(jù)類對所述去噪數(shù)據(jù)集合進行重排序。
在其中一個實施例中,所述根據(jù)數(shù)據(jù)特征建立節(jié)點集合,得到所述數(shù)據(jù)集合中的 數(shù)據(jù)與所述節(jié)點集合中節(jié)點的映射關(guān)系,所述節(jié)點集合包含與所述標(biāo)定數(shù)據(jù)對應(yīng)的標(biāo)定正 樣本的步驟具體包括
獲取所述數(shù)據(jù)集合中每個數(shù)據(jù)的多個特征值,多個所述特征值構(gòu)成所述數(shù)據(jù)特 征;
構(gòu)建每個數(shù)據(jù)對應(yīng)的節(jié)點,所述節(jié)點為多維向量且所述節(jié)點的一個維度表示一種所述特征值;
根據(jù)所述節(jié)點建立所述節(jié)點集合;
權(quán)利要求
1.一種數(shù)據(jù)重排序方法,其特征在于,包括以下步驟獲取數(shù)據(jù)集合,所述數(shù)據(jù)集合中包含多個標(biāo)定數(shù)據(jù);根據(jù)數(shù)據(jù)特征建立節(jié)點集合,得到所述數(shù)據(jù)集合中的數(shù)據(jù)與所述節(jié)點集合中節(jié)點的映射關(guān)系,所述節(jié)點集合包含與所述標(biāo)定數(shù)據(jù)對應(yīng)的標(biāo)定正樣本;獲取所述節(jié)點集合中各節(jié)點的第一節(jié)點值,所述第一節(jié)點值表示節(jié)點是實際正樣本的概率,去除所述數(shù)據(jù)集合中對應(yīng)節(jié)點的第一節(jié)點值小于或等于第一預(yù)設(shè)值的數(shù)據(jù),得到去噪數(shù)據(jù)集合;提取所述去噪數(shù)據(jù)集合中標(biāo)定數(shù)據(jù)對應(yīng)的標(biāo)定正樣本建立查詢樣本集合;獲取所述查詢樣本集合中各標(biāo)定正樣本的第二節(jié)點值,所述第二節(jié)點值表示標(biāo)定正樣本是實際正樣本的概率,提取所述去噪數(shù)據(jù)集合中對應(yīng)標(biāo)定正樣本的第二節(jié)點值大于或等于第二預(yù)設(shè)值的標(biāo)定數(shù)據(jù),得到主導(dǎo)數(shù)據(jù)類;根據(jù)所述主導(dǎo)數(shù)據(jù)類對所述去噪數(shù)據(jù)集合進行重排序。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)重排序方法,其特征在于,所述根據(jù)數(shù)據(jù)特征建立節(jié)點集合,得到所述數(shù)據(jù)集合中的數(shù)據(jù)與所述節(jié)點集合中節(jié)點的映射關(guān)系,所述節(jié)點集合包含與所述標(biāo)定數(shù)據(jù)對應(yīng)的標(biāo)定正樣本的步驟具體包括獲取所述數(shù)據(jù)集合中每個數(shù)據(jù)的多個特征值,多個所述特征值構(gòu)成所述數(shù)據(jù)特征; 構(gòu)建每個數(shù)據(jù)對應(yīng)的節(jié)點,所述節(jié)點為多維向量且所述節(jié)點的一個維度表示一種所述特征值;根據(jù)所述節(jié)點建立所述節(jié)點集合;具體為
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)重排序方法,其特征在于,所述獲取所述節(jié)點集合中各節(jié)點的第一節(jié)點值,所述第一節(jié)點值表示節(jié)點是實際正樣本的概率,去除所述數(shù)據(jù)集合中對應(yīng)節(jié)點的第一節(jié)點值小于或等于第一預(yù)設(shè)值的數(shù)據(jù),得到去噪數(shù)據(jù)集合的步驟具體包括對所述節(jié)點集合中各節(jié)點兩兩之間建立邊,得到邊權(quán)重矩陣;具體為
4.根據(jù)權(quán)利要求2所述的數(shù)據(jù)重排序方法,其特征在于,所述獲取所述查詢樣本集合中各標(biāo)定正樣本的第二節(jié)點值,所述第二節(jié)點值表示標(biāo)定正樣本是實際正樣本的概率,提取所述去噪數(shù)據(jù)集合中對應(yīng)標(biāo)定正樣本的第二節(jié)點值大于或等于第二預(yù)設(shè)值的標(biāo)定數(shù)據(jù), 得到主導(dǎo)數(shù)據(jù)類的步驟具體包括對所述節(jié)點集合中各節(jié)點兩兩之間建立邊,得到邊權(quán)重矩陣;具體為Wij = exp (-1 I X1-Xj I 12/2 σ 2),i 關(guān) j其中,《U為所述邊權(quán)重矩陣W的表達式,且Wii = 0,σ 2為預(yù)設(shè)參數(shù);根據(jù)所述邊權(quán)重矩陣得到歸一化圖矩陣;具體為S = D-l72WD-172其中,s為所述歸一化圖矩陣,對角矩陣D的對角元素J = Σ"=ιΜν'根據(jù)所述歸一化圖矩陣得到歸一化圖拉普拉斯矩陣;具體為L =1-S其中,L為所述歸一化圖拉普拉斯矩陣,I為單位矩陣;根據(jù)所述歸一化圖拉普拉斯矩陣對所述查詢樣本集合進行第二類扭曲變換,得到第二類數(shù)據(jù)特征和第二類維度權(quán)重對角矩陣;具體為X}^R\Xj^Uk{j^)T ,風(fēng)…,!其中,Rk表示k維向量集合,通過所述第二類扭曲變換,得到第二類數(shù)據(jù)特征W2(Xj)=Uk(j, ·)τ, Uk(j, · )τ表示特征向量矩陣Uk = [V1, v2,…,vk]的逆矩陣的第j行向量,所述特征向量矩陣Uk由所述歸一化圖拉普拉斯矩陣L的前k個特征向量V組成,k為預(yù)設(shè)參數(shù);hn為所述第二類維度權(quán)重對角矩陣H2的表達式,λ i為所述歸一化圖拉普拉斯矩陣L的特征值;對所述查詢樣本集合建立判別函數(shù),所述判別函數(shù)由所述數(shù)據(jù)特征及與所述數(shù)據(jù)特征維度相同的參數(shù)向量內(nèi)積得到;具體為
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)重排序方法,其特征在于,所述根據(jù)所述主導(dǎo)數(shù)據(jù)類對所述去噪數(shù)據(jù)集合進行重排序的步驟具體包括提取所述去噪數(shù)據(jù)集合中各數(shù)據(jù)與所述主導(dǎo)數(shù)據(jù)類中標(biāo)定數(shù)據(jù)的相似度;根據(jù)所述相似度對所述去噪數(shù)據(jù)集合中的數(shù)據(jù)進行重排序。
6.一種數(shù)據(jù)重排序系統(tǒng),其特征在于,包括數(shù)據(jù)集合獲取模塊,用于獲取數(shù)據(jù)集合,所述數(shù)據(jù)集合中包含多個標(biāo)定數(shù)據(jù);節(jié)點集合建立模塊,用于根據(jù)數(shù)據(jù)特征建立節(jié)點集合,得到所述數(shù)據(jù)集合中的數(shù)據(jù)與所述節(jié)點集合中節(jié)點的映射關(guān)系,所述節(jié)點集合包含與所述標(biāo)定數(shù)據(jù)對應(yīng)的標(biāo)定正樣本; 數(shù)據(jù)去噪模塊,用于獲取所述節(jié)點集合中各節(jié)點的第一節(jié)點值,所述第一節(jié)點值表示節(jié)點是實際正樣本的概率,去除所述數(shù)據(jù)集合中對應(yīng)節(jié)點的第一節(jié)點值小于或等于第一預(yù)設(shè)值的數(shù)據(jù),得到去噪數(shù)據(jù)集合;查詢樣本集合建立模塊,用于提取所述去噪數(shù)據(jù)集合中標(biāo)定數(shù)據(jù)對應(yīng)的標(biāo)定正樣本建立查詢樣本集合;主導(dǎo)數(shù)據(jù)類提取模塊,用于獲取所述查詢樣本集合中各標(biāo)定正樣本的第二節(jié)點值,所述第二節(jié)點值表示標(biāo)定正樣本是實際正樣本的概率,提取所述去噪數(shù)據(jù)集合中對應(yīng)標(biāo)定正樣本的第二節(jié)點值大于或等于第二預(yù)設(shè)值的標(biāo)定數(shù)據(jù),得到主導(dǎo)數(shù)據(jù)類;數(shù)據(jù)重排序模塊,用于根據(jù)所述主導(dǎo)數(shù)據(jù)類對所述去噪數(shù)據(jù)集合進行重排序。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)重排序系統(tǒng),其特征在于,所述節(jié)點集合建立模塊包括 特征值獲取模塊,用于獲取所述數(shù)據(jù)集合中每個數(shù)據(jù)的多個特征值,多個所述特征值構(gòu)成所述數(shù)據(jù)特征;節(jié)點構(gòu)建模塊,用于構(gòu)建每個數(shù)據(jù)對應(yīng)的節(jié)點,所述節(jié)點為多維向量且所述節(jié)點的一個維度表示一種所述特征值;集合建立模塊,用于根據(jù)所述節(jié)點建立所述節(jié)點集合;具體為X = (X1, — ,Xm, xm+1,…,xn}其中,X為所述節(jié)點集合,X1,…,Xm為所述標(biāo)定正樣本,與所述標(biāo)定數(shù)據(jù)對應(yīng)。
8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)重排序系統(tǒng),其特征在于,所述數(shù)據(jù)去噪模塊包括 邊權(quán)重矩陣建立模塊,用于對所述節(jié)點集合中各節(jié)點兩兩之間建立邊,得到邊權(quán)重矩陣;具體為
9.根據(jù)權(quán)利要求7所述的數(shù)據(jù)重排序系統(tǒng),其特征在于,所述主導(dǎo)數(shù)據(jù)類提取模塊包括邊權(quán)重矩陣獲取模塊,用于對所述節(jié)點集合中各節(jié)點兩兩之間建立邊,得到邊權(quán)重矩陣;具體為Wij = exp (-1 I X1-Xj I 12/2 σ 2),i 關(guān) j其中,《U為所述邊權(quán)重矩陣W的表達式,且Wii = 0,σ 2為預(yù)設(shè)參數(shù);歸一化圖矩陣獲取模塊,用于根據(jù)所述邊權(quán)重矩陣得到歸一化圖矩陣;具體為S = D-l72WD-172其中,S為所述歸一化圖矩陣,對角矩陣D的對角元素
10.根據(jù)權(quán)利要求6所述的數(shù)據(jù)重排序系統(tǒng),其特征在于,所述數(shù)據(jù)重排序模塊包括 相似度提取模塊,用于提取所述去噪數(shù)據(jù)集合中各數(shù)據(jù)與所述主導(dǎo)數(shù)據(jù)類中標(biāo)定數(shù)據(jù)的相似度;重排序模塊,用于根據(jù)所述相似度對所述去噪數(shù)據(jù)集合中的數(shù)據(jù)進行重排序。
全文摘要
一種數(shù)據(jù)重排序方法,首先根據(jù)數(shù)據(jù)集合建立節(jié)點集合,得到數(shù)據(jù)集合中每個數(shù)據(jù)與節(jié)點集合中節(jié)點的映射關(guān)系,獲取節(jié)點集合中各節(jié)點的第一節(jié)點值,將第一節(jié)點值小于或等于第一預(yù)設(shè)值的節(jié)點對應(yīng)的數(shù)據(jù)作為噪聲去除,對數(shù)據(jù)集合進行全局去噪,提高數(shù)據(jù)檢索精度。提取去噪數(shù)據(jù)集合中標(biāo)定數(shù)據(jù)對應(yīng)的標(biāo)定正樣本作為查詢樣本集合,獲取查詢樣本集合中各標(biāo)定正樣本的第二節(jié)點值,提取去噪數(shù)據(jù)集合中對應(yīng)標(biāo)定正樣本的第二節(jié)點值大于或等于第二預(yù)設(shè)值的標(biāo)定數(shù)據(jù),得到主導(dǎo)數(shù)據(jù)類,將主導(dǎo)數(shù)據(jù)類中的數(shù)據(jù)作為最終的標(biāo)定數(shù)據(jù)對去噪數(shù)據(jù)集合進行重排序,提高了標(biāo)定數(shù)據(jù)的準(zhǔn)確度,進一步提高數(shù)據(jù)的檢索精度。此外,本發(fā)明還提供一種數(shù)據(jù)重排序系統(tǒng)。
文檔編號G06F17/30GK103064939SQ20121057227
公開日2013年4月24日 申請日期2012年12月25日 優(yōu)先權(quán)日2012年12月25日
發(fā)明者陳世峰, 曹琛 申請人:深圳先進技術(shù)研究院