两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種數(shù)據(jù)篩選方法、裝置及設(shè)備與流程

文檔序號(hào):40641968發(fā)布日期:2025-01-10 18:48閱讀:9來(lái)源:國(guó)知局
一種數(shù)據(jù)篩選方法、裝置及設(shè)備與流程

本發(fā)明屬于計(jì)算機(jī),具體涉及一種數(shù)據(jù)篩選方法、裝置及設(shè)備。


背景技術(shù):

1、隨著機(jī)器學(xué)習(xí)的進(jìn)步,數(shù)據(jù)質(zhì)量越來(lái)越受到研究者的關(guān)注。高質(zhì)量的數(shù)據(jù)將節(jié)省大量的資源供模型學(xué)習(xí)。相反,使用低質(zhì)量數(shù)據(jù)進(jìn)行模型訓(xùn)練會(huì)導(dǎo)致性能下降。因此,在舍棄低質(zhì)量數(shù)據(jù)的同時(shí)選擇高質(zhì)量數(shù)據(jù)的過(guò)程是模型能夠有效、高效學(xué)習(xí)的關(guān)鍵步驟。從數(shù)據(jù)集中選擇高質(zhì)量樣本和排除低質(zhì)量樣本的主要方法通常包括兩個(gè)步驟。首先,研究者對(duì)樣本進(jìn)行評(píng)估。其次,研究人員根據(jù)樣本的價(jià)值對(duì)其進(jìn)行排序,篩選出高價(jià)值的樣本。帶有錯(cuò)誤標(biāo)簽或噪聲的樣本通常被視為低質(zhì)量數(shù)據(jù)。然而,噪聲種類(lèi)繁多,這些方法無(wú)法將其全部區(qū)分開(kāi)來(lái),尤其是在醫(yī)學(xué)場(chǎng)景中。臨床醫(yī)生在填寫(xiě)病例報(bào)告時(shí),可能會(huì)不經(jīng)意地記錄不正確的信息。病理學(xué)家在處理標(biāo)本的過(guò)程中可能會(huì)無(wú)意中過(guò)度染色一個(gè)顯微切片。醫(yī)療設(shè)備在技術(shù)人員操作時(shí)可能會(huì)產(chǎn)生模糊圖像,尤其是在違反既定法規(guī)或協(xié)議的情況下。上述這些數(shù)據(jù)被認(rèn)為是帶有噪聲的低質(zhì)量數(shù)據(jù)。此外,由于領(lǐng)域固有的復(fù)雜性,現(xiàn)有的評(píng)估方法很少在醫(yī)學(xué)領(lǐng)域中使用。

2、對(duì)樣本進(jìn)行評(píng)價(jià)的主要方法之一是計(jì)算樣本的夏普利值。這就是傳統(tǒng)上由效用函數(shù)產(chǎn)生的效用值的期望值。效用函數(shù)的核心要義在于量化一個(gè)模型在學(xué)習(xí)了一個(gè)特定的樣本之后,其輸出與學(xué)習(xí)該樣本之前的輸出之間的差異。許多現(xiàn)有的評(píng)估方法,如tmcshapley和gtb?shapley,通過(guò)對(duì)數(shù)據(jù)的效用值進(jìn)行重復(fù)采樣來(lái)估計(jì)特定數(shù)據(jù)的期望值。這些方法需要反復(fù)訓(xùn)練模型。但是,這些模型具有較強(qiáng)的穩(wěn)健性?;谶@些反復(fù)訓(xùn)練的模型的評(píng)估方法可能會(huì)忽略噪聲的細(xì)節(jié)。因此,這些方法在評(píng)估數(shù)據(jù)時(shí)并不具有一般性,尤其是在醫(yī)學(xué)領(lǐng)域。通過(guò)在實(shí)驗(yàn)已經(jīng)驗(yàn)證了模型對(duì)像素間相對(duì)位置的變化比對(duì)像素顏色的變化更敏感。據(jù)此可知造成這種現(xiàn)象的原因是模型利用相關(guān)信息糾正了錯(cuò)誤的信息。這些評(píng)估方法在用于執(zhí)行具有特殊噪聲的異常樣本檢測(cè)任務(wù)時(shí),性能相對(duì)較差。不幸的是,醫(yī)學(xué)中存在著許多特殊的噪聲,模型從它們的相關(guān)信息中學(xué)習(xí),并對(duì)其進(jìn)行修正。在炎癥反應(yīng)或腫瘤微環(huán)境等多種病理生理過(guò)程中,c反應(yīng)蛋白與白細(xì)胞相關(guān)。在顯微切片的背景下,如果它們被過(guò)度染色,切片內(nèi)細(xì)胞的形狀通常保持不變。與從正常染色的顯微切片中提取的特征相比,從過(guò)度染色的顯微切片中通過(guò)模型提取的特征通常表現(xiàn)出很小的差異。此外,重復(fù)訓(xùn)練模型的評(píng)估方法耗費(fèi)大量的資源和時(shí)間。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明要解決的技術(shù)問(wèn)題是提供一種用于對(duì)數(shù)據(jù)進(jìn)行快速有效,且處理負(fù)荷小的篩選操作,得到不同質(zhì)量數(shù)據(jù)的數(shù)據(jù)篩選方法、裝置及設(shè)備。

2、本發(fā)明的內(nèi)容包括提供一種數(shù)據(jù)篩選方法,包括:

3、對(duì)待評(píng)估數(shù)據(jù)中的各個(gè)樣本數(shù)據(jù)進(jìn)行特征提取,所述待評(píng)估數(shù)據(jù)至少包括圖像數(shù)據(jù)和/或文本數(shù)據(jù),所述待評(píng)估數(shù)據(jù)用于針對(duì)指定事件的分析、參考、預(yù)測(cè)評(píng)估,提取得到的特征與所述指定事件相關(guān);

4、基于提取的特征計(jì)算確定所述樣本數(shù)據(jù)的代表性參數(shù),所述代表性參數(shù)與特征的置信度相關(guān);

5、基于先驗(yàn)數(shù)據(jù)計(jì)算確定所述特征的權(quán)重;

6、基于所述代表性參數(shù)、權(quán)重及樣本數(shù)據(jù)中特征之間的關(guān)聯(lián)關(guān)系計(jì)算所述樣本數(shù)據(jù)的夏普利值;

7、基于各個(gè)所述樣本數(shù)據(jù)的夏普利值確定所述樣本數(shù)據(jù)的質(zhì)量評(píng)估結(jié)果;

8、基于各所述樣本數(shù)據(jù)的質(zhì)量評(píng)估結(jié)果對(duì)所述待評(píng)估數(shù)據(jù)進(jìn)行篩選,得到高質(zhì)量數(shù)據(jù)。

9、在一些實(shí)施例中,所述對(duì)待評(píng)估數(shù)據(jù)中的各個(gè)樣本數(shù)據(jù)進(jìn)行特征提取,包括:

10、對(duì)所述待評(píng)估數(shù)據(jù)中的每個(gè)樣本數(shù)據(jù)進(jìn)行編碼索引;

11、對(duì)每個(gè)索引下的樣本數(shù)據(jù)進(jìn)行特征提取。

12、在一些實(shí)施例中,所述方法還包括:

13、分析確定各個(gè)所述特征之間的關(guān)聯(lián)關(guān)系;

14、基于所述關(guān)聯(lián)關(guān)系確定相互之間具有影響的目標(biāo)特征。

15、在一些實(shí)施例中,所述基于提取的特征計(jì)算確定所述樣本數(shù)據(jù)的代表性參數(shù),包括:

16、將每個(gè)樣本中的特征與其他樣本中的特征進(jìn)行對(duì)比,并結(jié)合下式計(jì)算每個(gè)所述樣本數(shù)據(jù)的代表性參數(shù):

17、

18、yi表示索引為i的樣本數(shù)據(jù)的標(biāo)簽,yj表示索引為j的樣本數(shù)據(jù)的標(biāo)簽,vj(i)表示第i個(gè)樣本數(shù)據(jù)對(duì)第j個(gè)樣本數(shù)據(jù)印證其代表性的程度,表示樣本數(shù)據(jù)的異常概率,為指示函數(shù)符號(hào)。

19、在一些實(shí)施例中,所述代表性的程度表示第j個(gè)樣本數(shù)據(jù)的可信水平由第i個(gè)樣本數(shù)據(jù)根據(jù)二者之間的距離確定,其公式表示為:

20、

21、 βj為超參數(shù),表示正常樣本數(shù)據(jù)和異常樣本數(shù)據(jù)之間的平衡點(diǎn),m表示樣本數(shù)據(jù)的特征數(shù)量,di,k表示第i個(gè)樣本數(shù)據(jù)的第k個(gè)特征,dj,k表示第j個(gè)樣本數(shù)據(jù)的第k個(gè)特征。

22、在一些實(shí)施例中,所述方法還包括:

23、對(duì)所有所述樣本數(shù)據(jù)的代表性參數(shù)進(jìn)行歸一化處理,得到對(duì)應(yīng)所述樣本數(shù)據(jù)的代表性參數(shù)pj:

24、

25、所述表示所述樣本數(shù)據(jù)的可信級(jí)別,表示與對(duì)應(yīng)的樣本數(shù)據(jù)的標(biāo)簽,⊙代表哈達(dá)瑪矩陣計(jì)算符。

26、在一些實(shí)施例中,所述基于所述代表性參數(shù)、權(quán)重及樣本數(shù)據(jù)中特征之間的關(guān)聯(lián)關(guān)系計(jì)算所述樣本數(shù)據(jù)的夏普利值,包括:

27、基于所述代表性參數(shù)、權(quán)重及樣本數(shù)據(jù)中特征之間的關(guān)聯(lián)關(guān)系,結(jié)合下式計(jì)算所述樣本的夏普利值:

28、

29、所述為常量,由所有特征的權(quán)重求和得到,q為超參數(shù),表示特征之間的關(guān)聯(lián)程度,ts為具有關(guān)聯(lián)關(guān)系的特征。

30、在一些實(shí)施例中,所述基于各所述樣本數(shù)據(jù)的質(zhì)量評(píng)估結(jié)果對(duì)所述待評(píng)估數(shù)據(jù)進(jìn)行篩選,得到高質(zhì)量數(shù)據(jù),包括:

31、基于各所述樣本數(shù)據(jù)的質(zhì)量評(píng)估結(jié)果對(duì)各個(gè)樣本數(shù)據(jù)進(jìn)行排序;

32、基于所述樣本數(shù)據(jù)的目標(biāo)用途將序列中的所有樣本數(shù)據(jù)進(jìn)行篩選,確定出高質(zhì)量數(shù)據(jù)、可用數(shù)據(jù)及低質(zhì)量數(shù)據(jù);

33、所述方法還包括:

34、在所述目標(biāo)用途為模型訓(xùn)練時(shí),提取部分所述可用數(shù)據(jù)與高質(zhì)量數(shù)據(jù)進(jìn)行融合,得到具有多樣性的融合數(shù)據(jù);

35、利用高質(zhì)量數(shù)據(jù)、融合數(shù)據(jù)對(duì)所述模型進(jìn)行訓(xùn)練。

36、本發(fā)明另一實(shí)施例同時(shí)提供一種數(shù)據(jù)篩選裝置,包括:

37、特征提取模塊,用于對(duì)待評(píng)估數(shù)據(jù)中的各個(gè)樣本數(shù)據(jù)進(jìn)行特征提取,所述待評(píng)估數(shù)據(jù)至少包括圖像數(shù)據(jù)和/或文本數(shù)據(jù),所述待評(píng)估數(shù)據(jù)用于針對(duì)指定事件的分析、參考、預(yù)測(cè)評(píng)估,提取得到的特征與所述指定事件相關(guān);

38、第一計(jì)算模塊,用于根據(jù)提取的特征計(jì)算確定所述樣本數(shù)據(jù)的代表性參數(shù),所述代表性參數(shù)與特征的置信度相關(guān);

39、第二計(jì)算模塊,用于根據(jù)先驗(yàn)數(shù)據(jù)計(jì)算確定所述特征的權(quán)重;

40、第三計(jì)算模塊,用于根據(jù)所述代表性參數(shù)、權(quán)重及樣本數(shù)據(jù)中特征之間的關(guān)聯(lián)關(guān)系計(jì)算所述樣本數(shù)據(jù)的夏普利值;

41、確定模塊,用于根據(jù)各個(gè)所述樣本數(shù)據(jù)的夏普利值確定所述樣本數(shù)據(jù)的質(zhì)量評(píng)估結(jié)果;

42、篩選模塊,用于根據(jù)各所述樣本數(shù)據(jù)的質(zhì)量評(píng)估結(jié)果對(duì)所述待評(píng)估數(shù)據(jù)進(jìn)行篩選,得到高質(zhì)量數(shù)據(jù)。

43、本發(fā)明另一實(shí)施例還提供一種電子設(shè)備,包括

44、一個(gè)或多個(gè)處理器;

45、存儲(chǔ)器,配置為存儲(chǔ)一個(gè)或多個(gè)程序;

46、當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得該一個(gè)或多個(gè)所述處理器實(shí)現(xiàn)如上文中任一項(xiàng)實(shí)施例所述的數(shù)據(jù)篩選方法。

47、本發(fā)明的有益效果在于利用先驗(yàn)數(shù)據(jù)輔助求解樣本數(shù)據(jù)的夏普利值,可以大大節(jié)約資源,減少數(shù)據(jù)處理負(fù)荷及處理時(shí)間,而且通過(guò)引入先驗(yàn)數(shù)據(jù),可以在求解夏普利值時(shí)無(wú)需對(duì)樣本數(shù)據(jù)進(jìn)行復(fù)雜的效用值計(jì)算及重復(fù)抽樣,進(jìn)一步減少了處理負(fù)荷,提升了處理效率,使得在對(duì)數(shù)據(jù)進(jìn)行篩選時(shí),能夠更為快速有效的完成篩選流程。

48、本技術(shù)的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本技術(shù)而了解。本技術(shù)的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫(xiě)的說(shuō)明書(shū)、權(quán)利要求書(shū)、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。

49、下面通過(guò)附圖和實(shí)施例,對(duì)本技術(shù)的技術(shù)方案做進(jìn)一步的詳細(xì)描述。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
通化县| 鹿邑县| 台中县| 普兰店市| 安新县| 高雄市| 巴中市| 福州市| 兴宁市| 寿宁县| 广水市| 龙游县| 哈密市| 泌阳县| 阿勒泰市| 驻马店市| 中西区| 张家港市| 江口县| 兴海县| 宁都县| 民勤县| 临湘市| 大荔县| 通化县| 永年县| 宁阳县| 盐源县| 嵩明县| 昌平区| 荣成市| 永仁县| 阿巴嘎旗| 宣武区| 奉节县| 石棉县| 连南| 巴彦淖尔市| 潞城市| 安远县| 三亚市|