本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域。更具體地,本發(fā)明涉及基于大數(shù)據(jù)的補(bǔ)強(qiáng)板生產(chǎn)質(zhì)量數(shù)據(jù)處理方法。
背景技術(shù):
1、在現(xiàn)代制造業(yè)中,補(bǔ)強(qiáng)板應(yīng)用于建筑、交通和機(jī)械等領(lǐng)域,以增強(qiáng)結(jié)構(gòu)的穩(wěn)定性和承載能力。隨著工業(yè)和智能制造的推進(jìn),生產(chǎn)過(guò)程中產(chǎn)生了大量的數(shù)據(jù),包括原材料品質(zhì)、生產(chǎn)環(huán)境參數(shù)、設(shè)備運(yùn)行狀態(tài)、實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)以及質(zhì)量檢測(cè)結(jié)果等。這些數(shù)據(jù)的積累為提升補(bǔ)強(qiáng)板的生產(chǎn)質(zhì)量提供了寶貴的信息源。然而,傳統(tǒng)的質(zhì)量控制手段往往依賴人工檢驗(yàn)和經(jīng)驗(yàn)判斷,存在效率低、響應(yīng)慢和準(zhǔn)確性不足等問(wèn)題。故亟需一種基于大數(shù)據(jù)的補(bǔ)強(qiáng)板生產(chǎn)質(zhì)量數(shù)據(jù)處理方法,使得企業(yè)能夠?qū)崟r(shí)監(jiān)測(cè)生產(chǎn)過(guò)程,及時(shí)識(shí)別異常,預(yù)測(cè)產(chǎn)品質(zhì)量,從而實(shí)現(xiàn)精準(zhǔn)控制和優(yōu)化。
2、現(xiàn)有公開(kāi)號(hào)為cn118643444a的中國(guó)專利申請(qǐng)文件公開(kāi)了一種大數(shù)據(jù)異常檢測(cè)、裝置、設(shè)備、存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品,該方法通過(guò)對(duì)原始的孤立森林算法進(jìn)行改進(jìn),首先,根據(jù)待處理業(yè)務(wù)數(shù)據(jù)創(chuàng)建多顆孤立樹(shù);之后,計(jì)算多顆孤立樹(shù)中每顆孤立樹(shù)的適應(yīng)度值;然后,以孤立樹(shù)的適應(yīng)度值作為篩選指標(biāo),基于禁忌搜索算法從多顆孤立樹(shù)中選出目標(biāo)孤立樹(shù)形成孤立森林,最后,根據(jù)孤立森林對(duì)待處理業(yè)務(wù)數(shù)據(jù)進(jìn)行異常檢測(cè),獲取異常檢測(cè)結(jié)果。以孤立樹(shù)的適應(yīng)度值作為篩選指標(biāo),基于禁忌搜索算法去掉多顆孤立樹(shù)中適應(yīng)度值較低、較冗余的孤立樹(shù),篩選出較為優(yōu)秀的目標(biāo)孤立樹(shù),不僅減小了孤立森林所占用的空間,還降低了異常檢測(cè)的計(jì)算開(kāi)銷(xiāo),提高了異常檢測(cè)的效率。
3、該申請(qǐng)文件通過(guò)禁忌搜索算法去掉多顆孤立樹(shù)中適應(yīng)度值較低、較冗余的孤立樹(shù),解決了構(gòu)建較多顆孤立樹(shù)耗費(fèi)內(nèi)存空間較大、計(jì)算開(kāi)銷(xiāo)較大、異常檢測(cè)效率較低的問(wèn)題,但是孤立森林算法對(duì)補(bǔ)強(qiáng)板生產(chǎn)質(zhì)量數(shù)據(jù)進(jìn)行異常檢測(cè)的過(guò)程中,常規(guī)的通過(guò)隨機(jī)閾值對(duì)數(shù)據(jù)進(jìn)行劃分無(wú)法考慮到補(bǔ)強(qiáng)板生產(chǎn)質(zhì)量數(shù)據(jù)中每項(xiàng)數(shù)據(jù)的可分裂程度,導(dǎo)致對(duì)每項(xiàng)數(shù)據(jù)的閾值劃分不夠準(zhǔn)確,將正常數(shù)據(jù)誤劃分為異常數(shù)據(jù),導(dǎo)致補(bǔ)強(qiáng)板生產(chǎn)質(zhì)量數(shù)據(jù)處理不準(zhǔn)確。
技術(shù)實(shí)現(xiàn)思路
1、為解決孤立森林算法對(duì)補(bǔ)強(qiáng)板生產(chǎn)質(zhì)量數(shù)據(jù)進(jìn)行異常檢測(cè)時(shí),隨機(jī)閾值對(duì)數(shù)據(jù)進(jìn)行劃分無(wú)法考慮到補(bǔ)強(qiáng)板生產(chǎn)質(zhì)量數(shù)據(jù)中每項(xiàng)數(shù)據(jù)的可分裂程度,導(dǎo)致數(shù)據(jù)處理不夠準(zhǔn)確的問(wèn)題,本發(fā)明在如下方面中提供方案。
2、基于大數(shù)據(jù)的補(bǔ)強(qiáng)板生產(chǎn)質(zhì)量數(shù)據(jù)處理方法,包括:獲取補(bǔ)強(qiáng)板的生產(chǎn)質(zhì)量數(shù)據(jù),計(jì)算所述生產(chǎn)質(zhì)量數(shù)據(jù)中各項(xiàng)數(shù)據(jù)的分布均勻程度;以所述生產(chǎn)質(zhì)量數(shù)據(jù)中任一項(xiàng)數(shù)據(jù)為目標(biāo)項(xiàng)數(shù)據(jù),計(jì)算目標(biāo)項(xiàng)數(shù)據(jù)的分布均勻程度和所有項(xiàng)數(shù)據(jù)的分布均勻程度的平均值之間的比值,并乘以初始分割段數(shù),得到目標(biāo)項(xiàng)數(shù)據(jù)的分割段數(shù),基于分割段數(shù)確定最優(yōu)分割比,并計(jì)算偏心優(yōu)選程度,將偏心優(yōu)選程度作為分割優(yōu)選程度;根據(jù)分割優(yōu)選程度對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行孤立樹(shù)劃分,得到劃分結(jié)果,根據(jù)劃分結(jié)果構(gòu)建孤立森林,并對(duì)數(shù)據(jù)點(diǎn)進(jìn)行異常檢測(cè);其中,所述偏心優(yōu)選程度滿足下述關(guān)系式:,式中,表示第個(gè)數(shù)據(jù)點(diǎn)在第項(xiàng)數(shù)據(jù)中進(jìn)行第次分割時(shí)的偏心優(yōu)選程度,表示第個(gè)數(shù)據(jù)點(diǎn)在第項(xiàng)數(shù)據(jù)中與第項(xiàng)數(shù)據(jù)最大值之間差距絕對(duì)值的最大值,表示第項(xiàng)數(shù)據(jù)第次數(shù)據(jù)分割時(shí)的最優(yōu)分割比,表示第個(gè)數(shù)據(jù)點(diǎn)在第項(xiàng)數(shù)據(jù)中與第項(xiàng)數(shù)據(jù)最小值之間差距絕對(duì)值的最小值。
3、其效果在于:計(jì)算每項(xiàng)數(shù)據(jù)的分布均勻程度,可以更準(zhǔn)確地評(píng)估數(shù)據(jù)的離散程度和分布特性,根據(jù)分布均勻程度和平均分布均勻程度的比值來(lái)確定分割段數(shù),使得分割更加適應(yīng)數(shù)據(jù)的實(shí)際分布,從而提高了分割的準(zhǔn)確性,確定最優(yōu)分割比有助于在孤立森林的構(gòu)建過(guò)程中更有效地識(shí)別異常數(shù)據(jù)點(diǎn),通過(guò)自適應(yīng)閾值劃分替代了隨機(jī)閾值劃分,減少了將正常數(shù)據(jù)誤判為異常數(shù)據(jù)的風(fēng)險(xiǎn)。
4、優(yōu)選的,所述生產(chǎn)質(zhì)量數(shù)據(jù)包括:鋼材強(qiáng)度、鋼材厚度、設(shè)備壓力、生產(chǎn)環(huán)境溫度、濕度、劣品率和生產(chǎn)效率。
5、優(yōu)選的,所述各項(xiàng)數(shù)據(jù)的分布均勻程度,包括:
6、對(duì)目標(biāo)項(xiàng)數(shù)據(jù)按照從小到大進(jìn)行排序,將目標(biāo)項(xiàng)數(shù)據(jù)中相鄰兩個(gè)數(shù)據(jù)點(diǎn)之間的絕對(duì)差值與目標(biāo)項(xiàng)數(shù)據(jù)中數(shù)據(jù)點(diǎn)平均極差之間的差值作為波動(dòng)偏差,并進(jìn)行歸一化;
7、將歸一化后的所述波動(dòng)偏差求和的平均值作為目標(biāo)項(xiàng)數(shù)據(jù)的分布均勻程度。
8、其效果在于:通過(guò)歸一化后的波動(dòng)偏差求和的平均值,可以反映數(shù)據(jù)集中的波動(dòng)和離散程度,幫助識(shí)別數(shù)據(jù)的分布特性,如是否偏斜、集中或分散,由于異常數(shù)據(jù)點(diǎn)往往會(huì)在分布均勻性上表現(xiàn)出較大的偏差,可以更準(zhǔn)確地識(shí)別出異常數(shù)據(jù)點(diǎn)。
9、優(yōu)選的,所述各項(xiàng)數(shù)據(jù)的分布均勻程度,還包括:
10、對(duì)目標(biāo)項(xiàng)數(shù)據(jù)按照從小到大進(jìn)行排序,以目標(biāo)項(xiàng)數(shù)據(jù)中任一數(shù)據(jù)點(diǎn)為基準(zhǔn)數(shù)據(jù),計(jì)算基準(zhǔn)數(shù)據(jù)和目標(biāo)項(xiàng)數(shù)據(jù)的平均值的相對(duì)絕對(duì)差求和的平均值,得到目標(biāo)項(xiàng)數(shù)據(jù)的分布均勻程度。
11、其效果在于:通過(guò)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與平均值的相對(duì)絕對(duì)差,可以量化數(shù)據(jù)點(diǎn)相對(duì)于整體數(shù)據(jù)集中心趨勢(shì)的偏離程度,從而評(píng)估數(shù)據(jù)分布的均勻性。
12、優(yōu)選的,所述最優(yōu)分割比,包括:
13、基于分割段數(shù)對(duì)目標(biāo)項(xiàng)數(shù)據(jù)進(jìn)行分割,分別計(jì)算每次分割后,目標(biāo)項(xiàng)數(shù)據(jù)中剩余數(shù)據(jù)的最優(yōu)分割比;
14、其中,將目標(biāo)項(xiàng)數(shù)據(jù)中剩余數(shù)據(jù)作為待分割數(shù)據(jù),將分割段數(shù)與當(dāng)前分割索引之間的差值加1的倒數(shù)作為待分割數(shù)據(jù)的最優(yōu)分割比。
15、其效果在于:隨著每次分割的進(jìn)行,剩余數(shù)據(jù)點(diǎn)數(shù)量減少,最優(yōu)分割比動(dòng)態(tài)調(diào)整以確保每次分割都盡可能均勻地分配數(shù)據(jù),從而提高分割效率和均勻性,根據(jù)數(shù)據(jù)的實(shí)際分布動(dòng)態(tài)調(diào)整,增強(qiáng)了算法對(duì)不同數(shù)據(jù)分布的適應(yīng)性。
16、優(yōu)選的,所述孤立樹(shù)劃分的過(guò)程為:
17、獲取目標(biāo)項(xiàng)數(shù)據(jù)中每個(gè)數(shù)據(jù)點(diǎn)的分割優(yōu)選程度,將最大的分割優(yōu)選程度作為閾值,進(jìn)行第一次數(shù)據(jù)劃分;
18、響應(yīng)于第一次數(shù)據(jù)劃分后,對(duì)劃分的兩部分?jǐn)?shù)據(jù)中極差較大者作為待分割數(shù)據(jù)段,則根據(jù)待分割數(shù)據(jù)段計(jì)算其中每個(gè)數(shù)據(jù)點(diǎn)的分割優(yōu)選程度,繼續(xù)進(jìn)行閾值選取與數(shù)據(jù)劃分,直到目標(biāo)項(xiàng)數(shù)據(jù)被劃分次數(shù)達(dá)到分割段數(shù)減1,根據(jù)劃分結(jié)果構(gòu)建第項(xiàng)數(shù)據(jù)的孤立樹(shù)。
19、其效果在于:通過(guò)選取具有最大分割優(yōu)選程度的數(shù)據(jù)點(diǎn)作為閾值進(jìn)行劃分,可以更精確地識(shí)別出潛在的異常數(shù)據(jù)點(diǎn),因?yàn)檫@些點(diǎn)在數(shù)據(jù)集中具有較高的區(qū)分度,通過(guò)優(yōu)先考慮分割優(yōu)選程度最高的數(shù)據(jù)點(diǎn),可以更快地將數(shù)據(jù)分割成具有代表性的數(shù)據(jù)段,從而提高整體的分割效率。
20、優(yōu)選的,根據(jù)劃分結(jié)果構(gòu)建孤立森林,并對(duì)數(shù)據(jù)點(diǎn)進(jìn)行異常檢測(cè),包括:
21、根據(jù)各項(xiàng)數(shù)據(jù)的孤立樹(shù)構(gòu)成孤立森林,基于數(shù)據(jù)點(diǎn)在每個(gè)孤立樹(shù)上的層深,獲取每個(gè)數(shù)據(jù)點(diǎn)的異常程度,將所述異常程度大于異常程度閾值的數(shù)據(jù)點(diǎn)標(biāo)記為異常數(shù)據(jù)點(diǎn)。
22、優(yōu)選的,所述分割優(yōu)選程度,還包括:
23、以目標(biāo)項(xiàng)數(shù)據(jù)中任一數(shù)據(jù)點(diǎn)為基準(zhǔn)數(shù)據(jù),計(jì)算目標(biāo)項(xiàng)數(shù)據(jù)中大于基準(zhǔn)數(shù)據(jù)的數(shù)據(jù)點(diǎn)的平均值和小于基準(zhǔn)數(shù)據(jù)的數(shù)據(jù)點(diǎn)的平均值之間的差值,并與目標(biāo)項(xiàng)數(shù)據(jù)中待分割數(shù)據(jù)段的極差之間的比值的平方,得到分割差異程度;
24、將所述偏心優(yōu)選程度與所述分割差異程度的乘積作為分割優(yōu)選程度。
25、優(yōu)選的,所述分割優(yōu)選程度,還包括:
26、以目標(biāo)項(xiàng)數(shù)據(jù)中任一數(shù)據(jù)點(diǎn)為基準(zhǔn)數(shù)據(jù),將目標(biāo)項(xiàng)數(shù)據(jù)中待分割數(shù)據(jù)段大于基準(zhǔn)數(shù)據(jù)的數(shù)據(jù)點(diǎn)的中位數(shù)和小于基準(zhǔn)數(shù)據(jù)的數(shù)據(jù)點(diǎn)的中位數(shù)之間的差值,并與目標(biāo)項(xiàng)數(shù)據(jù)中待分割數(shù)據(jù)段的極差之間的比值作為分割差異程度;
27、將所述偏心優(yōu)選程度與所述分割差異程度的乘積作為分割優(yōu)選程度。
28、本發(fā)明具有以下效果:
29、1、本發(fā)明通過(guò)動(dòng)態(tài)計(jì)算最優(yōu)分割比和分割優(yōu)選程度,能夠適應(yīng)不同的數(shù)據(jù)分布和特性,使得數(shù)據(jù)處理更加靈活,不依賴于固定的閾值,而是根據(jù)數(shù)據(jù)的實(shí)際分布來(lái)確定分割策略,增強(qiáng)了算法對(duì)不同數(shù)據(jù)集和不同生產(chǎn)條件的適應(yīng)性,增強(qiáng)了分割的準(zhǔn)確性。
30、2、本發(fā)明通過(guò)計(jì)算每項(xiàng)數(shù)據(jù)的分布均勻程度和偏心優(yōu)選程度,可以更精確地確定數(shù)據(jù)的分割點(diǎn),從而在構(gòu)建孤立樹(shù)時(shí)更有效地識(shí)別出異常數(shù)據(jù)點(diǎn),提高了異常檢測(cè)的效率,能夠有效地區(qū)分正常數(shù)據(jù)和異常數(shù)據(jù),進(jìn)而減少誤報(bào)和漏報(bào),提高異常檢測(cè)的準(zhǔn)確性和敏感性。
31、3、本發(fā)明通過(guò)優(yōu)先處理極差較大的數(shù)據(jù)段和選擇具有最大分割優(yōu)選程度的數(shù)據(jù)點(diǎn)作為閾值,可以更有效地利用計(jì)算資源,減少不必要的計(jì)算,提高數(shù)據(jù)處理的效率。