本發(fā)明涉及數(shù)據(jù)處理。更具體地,本發(fā)明涉及一種用于臨床試驗edc系統(tǒng)的數(shù)據(jù)清洗方法。
背景技術(shù):
1、臨床試驗是新藥、新療法和醫(yī)療設(shè)備研發(fā)過程中的關(guān)鍵環(huán)節(jié),為了確保試驗結(jié)果的科學(xué)性,有效性,必須對試驗過程中的數(shù)據(jù)進(jìn)行處理,edc系統(tǒng)是一種電子數(shù)據(jù)采集系統(tǒng),主要用于在線收集、存儲和分析臨床試驗中的數(shù)據(jù),例如:受試者的基本信息,生理指標(biāo),治療數(shù)據(jù)等;但是系統(tǒng)在收集受試者的血壓數(shù)據(jù)時,如果由于設(shè)備故障或者記錄錯誤出現(xiàn)一個極高或極低的異常血壓值時,影響對治療效果的判斷,因此數(shù)據(jù)清洗成為確保臨床試驗數(shù)據(jù)準(zhǔn)確性的關(guān)鍵步驟。
2、目前授權(quán)公開號為cn116608904a的專利申請文件公開了一種儲氫罐安全狀態(tài)實時監(jiān)控方法及系統(tǒng),通過采集儲氫罐內(nèi)監(jiān)測點在初始監(jiān)測周期內(nèi)的溫度數(shù)據(jù)序列和應(yīng)變力數(shù)據(jù)序列;基于監(jiān)測點在初始監(jiān)測周期中的應(yīng)變力數(shù)據(jù)序列確定儲氫罐內(nèi)氫氣開始壓縮的壓縮時刻;基于壓縮時刻之后的溫度數(shù)據(jù)序列對應(yīng)的溫度異常程度計算得到第一區(qū)間劃分?jǐn)?shù)量;基于壓縮時刻之后的應(yīng)變力數(shù)據(jù)序列對應(yīng)的應(yīng)變力異常程度計算得到第二區(qū)間劃分?jǐn)?shù)量;利用hbos異常監(jiān)測算法基于所述第一區(qū)間劃分?jǐn)?shù)量對所述溫度數(shù)據(jù)序列進(jìn)行異常監(jiān)測,以及利用hbos異常監(jiān)測算法基于所述第二區(qū)間劃分?jǐn)?shù)量對所述溫度數(shù)據(jù)序列進(jìn)行異常監(jiān)測。
3、由于臨床試驗edc系統(tǒng)的數(shù)據(jù)類別較多且呈現(xiàn)出不同的分布模式,特別是會存在一些較為偏斜分布的數(shù)據(jù),而傳統(tǒng)的hbos算法通常是假設(shè)數(shù)據(jù)是均勻分布的,且對于分箱數(shù)量這一參數(shù)非常敏感,因此,傳統(tǒng)的hbos算法對采集每個類別的數(shù)據(jù)清洗時所采用的常規(guī)分箱策略可能無法捕捉到存在偏斜分布的數(shù)據(jù)特征,會導(dǎo)致重要的區(qū)間過于寬泛,而不重要的區(qū)間過于稠密,容易將正常數(shù)據(jù)判斷為異常數(shù)據(jù),將異常數(shù)據(jù)識別為正常數(shù)據(jù)。
技術(shù)實現(xiàn)思路
1、為了解決hbos算法對采集每個類別中的數(shù)據(jù)清洗時所采用的常規(guī)分箱策略可能無法捕捉到存在偏斜分布的數(shù)據(jù)特征,會導(dǎo)致重要的區(qū)間過于寬泛,而不重要的區(qū)間過于稠密,容易將正常數(shù)據(jù)判斷為異常數(shù)據(jù)的問題,本發(fā)明提出一種用于臨床試驗edc系統(tǒng)的數(shù)據(jù)清洗方法,該方法包括以下步驟:
2、采集每個類別的各個數(shù)據(jù);獲取每個類別中每個數(shù)據(jù)的最優(yōu)搜素窗口;
3、獲取每個類別中每個數(shù)據(jù)的每個斷開概率;代表第i類別中第j個數(shù)據(jù)的第h個斷開概率;代表第i類別中第j個數(shù)據(jù)的左右兩側(cè)第h個數(shù)據(jù)集的偏度差異;代表第i類別中第j個數(shù)據(jù)的最優(yōu)搜索窗口中的數(shù)據(jù)個數(shù);代表第i類別中第j個數(shù)據(jù)的左側(cè)第h個數(shù)據(jù)集以及右側(cè)第h個數(shù)據(jù)集中的數(shù)據(jù)個數(shù)之和;norm()代表歸一化函數(shù);將每個類別中每個數(shù)據(jù)的所有斷開概率中的最小值,作為每個類別中每個數(shù)據(jù)的最終斷開概率;
4、根據(jù)每個類別中每個數(shù)據(jù)的最終斷開概率,獲取每個類別的各個斷點;基于所述斷點,獲取每個類別的分箱個數(shù);使用hbos算法,根據(jù)每個類別的分箱個數(shù),構(gòu)建每個類別的直方圖;根據(jù)每個類別的直方圖,獲取每個類別中每個數(shù)據(jù)的異常分?jǐn)?shù);基于所述異常分?jǐn)?shù),獲取每個類別中的異常點,并將每個類別中的異常點剔除。
5、本發(fā)明的創(chuàng)新性在于對hbos算法中的固定分箱數(shù)量的策略進(jìn)行改進(jìn),首先結(jié)合每個類別的各個數(shù)據(jù)的局部波動程度,獲得每個類別中每個數(shù)據(jù)的最優(yōu)搜索窗口,確保在該搜索窗口內(nèi)存在具有較大變化的點,能夠有效地捕捉到數(shù)據(jù)的局部特征,接著根據(jù)每個類別的每個數(shù)據(jù)的最優(yōu)搜索窗口中的數(shù)據(jù)的偏斜程度,獲取每個類別的每個數(shù)據(jù)的最終斷開概率,并依據(jù)最終斷開概率獲取每個類別的斷點,進(jìn)而得到最適合的分箱數(shù)量,提高了數(shù)據(jù)的異常分?jǐn)?shù)評估,進(jìn)而提高了對臨床試驗edc系統(tǒng)的數(shù)據(jù)清洗的準(zhǔn)確性。
6、優(yōu)選的,其特征在于,所述獲取每個類別中每個數(shù)據(jù)的最優(yōu)搜素窗口,包括:
7、設(shè)置鄰域數(shù)據(jù)個數(shù)變量u,將u取?[1,]中的每個整數(shù),代表第i類別中的第j個數(shù)據(jù)的左側(cè)數(shù)據(jù)個數(shù)與右側(cè)數(shù)據(jù)個數(shù)中的最小值;對于任意一個u,獲取第i類別中第j個數(shù)據(jù)的局部波動程度;
8、依次將第i類別中第j個數(shù)據(jù)的若干個局部波動程度進(jìn)行排序,得到局部波動程度序列,使用差分法獲取局部波動程度序列中的各局部極大值點,將取值最大的局部極大值點對應(yīng)的u值,記為;獲取第i類別中第j個數(shù)據(jù)之前的個數(shù)據(jù)以及之后的個數(shù)據(jù),作為第i類別中第j個數(shù)據(jù)的最優(yōu)搜素窗口。
9、后續(xù)結(jié)合每個類別的各個數(shù)據(jù)的局部波動程度,獲得每個類別中每個數(shù)據(jù)的最優(yōu)搜索窗口,確保在該搜索窗口內(nèi)存在具有較大變化的點,能夠有效地捕捉到數(shù)據(jù)的局部特征。
10、優(yōu)選的,所述獲取第i類別中第j個數(shù)據(jù)的局部波動程度,包括:
11、對于任意一個u,獲取第i類別中第j個數(shù)據(jù)之前的u個數(shù)據(jù)以及之后的u個數(shù)據(jù),作為第i類別中第j個數(shù)據(jù)的相鄰數(shù)據(jù);
12、;
13、式中,代表第i類別中第j個數(shù)據(jù)的局部波動程度;代表第i類別中第j個數(shù)據(jù)的值;代表第i類別中第j個數(shù)據(jù)的第v個相鄰數(shù)據(jù)的值;代表第i類別中第j個數(shù)據(jù)與其第v個相鄰數(shù)據(jù)之間的距離;代表第i類別中第j個數(shù)據(jù)的相鄰數(shù)據(jù)個數(shù);exp()代表以自然常數(shù)為底數(shù)的指數(shù)函數(shù);norm()代表歸一化函數(shù);代表控制權(quán)重衰減的參數(shù)。
14、優(yōu)選的,所述第i類別中第j個數(shù)據(jù)的左右兩側(cè)第h個數(shù)據(jù)集的偏度差異的獲取包括:
15、將第i類別中第j個數(shù)據(jù)與其最優(yōu)搜素窗口左側(cè)的第h個數(shù)據(jù)之間的所有數(shù)據(jù),記為第i類別中第j個數(shù)據(jù)的左側(cè)第h個數(shù)據(jù)集;獲取第i類別中第j個數(shù)據(jù)的右側(cè)第h個數(shù)據(jù)集;獲取第i類別中第j個數(shù)據(jù)的左側(cè)第h個數(shù)據(jù)集的偏度以及第i類別中第j個數(shù)據(jù)的右側(cè)第h個數(shù)據(jù)集的偏度;將第i類別中第j個數(shù)據(jù)的左側(cè)第h個數(shù)據(jù)集的偏度與右側(cè)第h個數(shù)據(jù)集的偏度的差值絕對值,記為第i類別中第j個數(shù)據(jù)的左右兩側(cè)第h個數(shù)據(jù)集的偏度差異。
16、便于后續(xù)根據(jù)偏度差異,獲取每個類別中每個數(shù)據(jù)的每個斷開概率。
17、優(yōu)選的,所述獲取每個類別的各個斷點,包括:
18、預(yù)設(shè)斷開概率閾值,若第i類別中第j個數(shù)據(jù)的最終斷開概率大于斷開概率,第i類別中第j個數(shù)據(jù)為一個斷點,得到第i類別中的各個斷點。
19、得到的斷點可以將存在偏斜程度的數(shù)據(jù)劃分開。
20、優(yōu)選的,所述獲取每個類別的分箱個數(shù),包括:
21、將第i類別中的斷點數(shù)量加一作為第i類別的分箱個數(shù)。
22、優(yōu)選的,所述獲取每個類別中每個數(shù)據(jù)的異常分?jǐn)?shù),包括:
23、;
24、式中,代表第i個類別中第j個數(shù)據(jù)的異常分?jǐn)?shù);代表第i個類別中第j個數(shù)據(jù)在第i個類別的直方圖中所處箱中的數(shù)據(jù)個數(shù);第i個類別中第j個數(shù)據(jù)的值與其在第i個類別的直方圖中所處箱中的所有數(shù)據(jù)的均值之間的差值絕對值;代表第i個類別中第j個數(shù)據(jù)在第i個類別的直方圖中所處箱中的數(shù)據(jù)最大值與數(shù)據(jù)最小值的差值;norm()代表歸一化函數(shù)。
25、得到數(shù)據(jù)的異常分?jǐn)?shù)更加準(zhǔn)確,提高了后續(xù)異常點識別的準(zhǔn)確性。
26、優(yōu)選的,所述獲取每個類別中的異常點,包括:
27、預(yù)設(shè)異常分?jǐn)?shù)閾值,若第i個類別中第j個數(shù)據(jù)的異常分?jǐn)?shù)大于異常分?jǐn)?shù)閾值,第i類別中第j個數(shù)據(jù)為一個異常點,得到第i類別中的各個異常點。
28、本發(fā)明具有以下有益效果:本發(fā)明的目的在于獲取每個類別的各個數(shù)據(jù)的局部波動程度,基于所述局部波動程度,獲得每個類別中每個數(shù)據(jù)的最優(yōu)搜索窗口,確保在該搜索窗口內(nèi)存在具有較大變化的點,能夠有效地捕捉到數(shù)據(jù)的局部特征,接著根據(jù)每個類別的每個數(shù)據(jù)的最優(yōu)搜索窗口中的數(shù)據(jù)的偏斜程度,獲取每個類別的每個數(shù)據(jù)的最終斷開概率,并依據(jù)最終斷開概率獲取每個類別的斷點,進(jìn)而得到最適合的分箱數(shù)量,提高了數(shù)據(jù)的異常分?jǐn)?shù)評估,進(jìn)而提高了對臨床試驗edc系統(tǒng)的數(shù)據(jù)清洗的準(zhǔn)確性。