本發(fā)明屬于機器學習領域,具體涉及一種雞蛋孵化率預測模型構(gòu)建、孵化率特征評估及預測方法。
背景技術(shù):
1、隨著經(jīng)濟的發(fā)展,居民對飲食營養(yǎng)的需求不斷提升。雞蛋是居民飲食中蛋白質(zhì)的重要來源,對于保障身體健康具有重要意義。蛋雞種蛋的孵化對于雞蛋的穩(wěn)定供應至關(guān)重要,而無孵化能力的雞蛋會占用孵化設備空間,造成能源和食物的浪費。因此,在孵化前準確預測出雞蛋的孵化率,對孵化率低的雞蛋進行重點監(jiān)測,并將無孵化能力的雞蛋剔除十分必要。
2、目前對雞蛋孵化的研究主要有孵化率預測方法和基于孵化率影響因素的孵化流程管理方法。傳統(tǒng)的孵化率預測方法為人工目視檢測,使用照蛋器在黑暗條件下對胚蛋進行透視光照,觀察胚胎的發(fā)育情況。根據(jù)雞蛋胚胎血管網(wǎng)的分布和顏色來判斷雞蛋的孵化性能。該方法較為準確但需要大量專業(yè)技術(shù)人員,且費時費力。
3、機器學習方法在一定程度上提升了孵化率預測的效率,因此,大型孵化場逐漸使用機器學習技術(shù)來預測雞蛋孵化率。例如通過超聲波和機器視覺等技術(shù)獲取雞蛋孵化性能相關(guān)信息。等人在雞蛋上打下小孔,使超聲波能夠進入雞蛋內(nèi)部,利用雞蛋的超聲影像對胚胎發(fā)育情況進行推斷,進而預測雞蛋孵化率(e,i?h,gulhan?t,etal.astudy?regarding?the?fertility?discrimination?of?eggs?by?using?ultrasound[j].indian?journal?of?animal?research,2017,51(2):322-326.)。張伏等人發(fā)明的專利使用神經(jīng)網(wǎng)絡模型提取雞蛋光學影像的紋理特征,檢測雞蛋的受精信息,實現(xiàn)了群體種蛋孵化性能的無損檢測(張伏等.基于深度學習的群蛋圖像分割受精信息檢測裝置和方法[p].河南?。篶n114544630a,2022-05-27.)。
4、對于雞蛋孵化流程的管理,前人主要從生物性因素(基因育種)、環(huán)境因素和孵化設備因素三方面出發(fā)進行探索。tona等人通過對照實驗發(fā)現(xiàn)棕色品系種雞所產(chǎn)蛋比白色品系孵化率更高(tona?k,agbo?k,kamers?b,et?al.comparison?of?lohmann?white?andlohmann?brown?strains?in?embryo?physiology[j].international?journal?ofpoultry?science,2010,9(9):907-910.)。tainika等人發(fā)現(xiàn)雞蛋存儲溫度超過21℃對雛雞胚胎發(fā)育有害,進而降低孵化率。因此雞蛋在孵化前需要存儲在相對涼爽的環(huán)境中(tainika?b,abdallah?n,damaziak?k,et?al.egg?storage?conditions?andmanipulations?during?storage:effect?on?egg?quality?traits,embryonicdevelopment,hatchability?and?chick?quality?of?broiler?hatching?eggs[j].world's?poultry?science?journal,2024,80(1):75-107.)。徐青珍和李平發(fā)明了一種能自動消毒的雞蛋孵化設備,提升了雞蛋孵化率(徐青珍,李平.徐青珍和李平:cn108293915b[p].2018-02-24.)。
5、傳統(tǒng)機器學習驅(qū)動的孵化率預測方法忽略了雞蛋孵化率的不平衡分布,即大多數(shù)雞蛋具有較高的孵化率,而不能孵化的雞蛋只占很小一部分。在這種情況下,機器學習模型會偏向多數(shù)類樣本(高孵化率雞蛋),從而產(chǎn)生預測偏差。此外使用單一預測模型的孵化率預測方法容易產(chǎn)生過擬合問題,進而降低預測精確度。而且,機器學習方法雖然具有較高的預測準確率,但屬于“黑箱”模型,可解釋性較差,制約了其在孵化場生產(chǎn)管理中的實際應用。
6、同時,現(xiàn)有的雞蛋孵化管理方法主要關(guān)注與基因育種相關(guān)的生物性因素,而對雞蛋存儲環(huán)境及孵化設備等對雞蛋孵化率有重大影響的其他要素關(guān)注較少,不利于實現(xiàn)雞蛋孵化的全周期精準管理。此外,通過基因改良和研發(fā)新型孵化設備等手段提升孵化率需要較大的資金投入,回報周期長,對專業(yè)人員技術(shù)水平要求較高。
技術(shù)實現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提供了一種雞蛋孵化率預測模型構(gòu)建、孵化率特征評估及預測方法。本發(fā)明要解決的技術(shù)問題通過以下技術(shù)方案實現(xiàn):
2、第一方面,本發(fā)明實施例提供了一種雞蛋孵化率預測模型構(gòu)建方法,所述雞蛋孵化率預測模型構(gòu)建方法包括:
3、針對多個雞蛋批次,分別獲取對應的特征數(shù)據(jù)組和孵化率;其中,每個雞蛋批次含有若干個雞蛋;每個雞蛋批次的特征數(shù)據(jù)組含有生物特征、環(huán)境特征、孵化設備特征對應的多個特征數(shù)據(jù);
4、將每個雞蛋批次的特征數(shù)據(jù)組分別進行數(shù)據(jù)預處理,得到對應雞蛋批次的數(shù)據(jù)樣本,合并所有數(shù)據(jù)樣本得到原始樣本集;
5、對所述原始樣本集中孵化率低于孵化率閾值的數(shù)據(jù)樣本進行增廣處理,得到增廣后樣本集;
6、搭建原始預測模型,所述原始預測模型包括順次連接的第一層學習器和第二層學習器;所述第一層學習器包括并列的多個基學習器,均用于預測雞蛋孵化率,所述第二層學習器連接所述多個基學習器的輸出端,且采用線性回歸模型;
7、基于所述增廣后樣本集以及其中各數(shù)據(jù)樣本的孵化率,對所述原始預測模型進行訓練,得到訓練完成的雞蛋孵化率預測模型。
8、在本發(fā)明的一個實施例中,任一雞蛋批次的特征數(shù)據(jù)組中,
9、生物特征對應的特征數(shù)據(jù)包括:種雞育種等級、種雞品系、種雞來源養(yǎng)殖場、種雞平均年齡、雞蛋平均重量和雞蛋重量均勻度;
10、環(huán)境特征對應的特征數(shù)據(jù)包括:孵化月份、存儲天數(shù)、轉(zhuǎn)換天數(shù)和重量損失;
11、孵化設備特征對應的特征數(shù)據(jù)包括:雞蛋數(shù)量、孵化器編號和出雛器編號。
12、在本發(fā)明的一個實施例中,針對任一特征數(shù)據(jù)組,所述數(shù)據(jù)預處理的過程,包括:
13、對該特征數(shù)據(jù)組中的連續(xù)型特征數(shù)據(jù)進行歸一化處理;其中,所述連續(xù)型特征數(shù)據(jù)包括種雞平均年齡、雞蛋平均重量、雞蛋重量均勻度、存儲天數(shù)、轉(zhuǎn)換天數(shù)、重量損失和雞蛋數(shù)量;
14、對該特征數(shù)據(jù)組中的循環(huán)型特征數(shù)據(jù)進行離散至連續(xù)的轉(zhuǎn)換處理;其中,所述循環(huán)型特征數(shù)據(jù)包括孵化月份;
15、將該特征數(shù)據(jù)組中的分類型特征數(shù)據(jù)轉(zhuǎn)化為獨熱編碼;其中,所述分類型特征數(shù)據(jù)包括種雞育種等級、種雞品系、種雞來源養(yǎng)殖場、孵化器編號和出雛器編號。
16、在本發(fā)明的一個實施例中,對所述原始樣本集中孵化率低于孵化率閾值的數(shù)據(jù)樣本進行增廣處理,得到增廣后樣本集,包括:
17、對所述原始樣本集中孵化率低于孵化率閾值的數(shù)據(jù)樣本,利用條件生成對抗網(wǎng)絡生成相似數(shù)據(jù)樣本,將得到的所有相似數(shù)據(jù)樣本加入所述原始樣本集中得到增廣后樣本集。
18、在本發(fā)明的一個實施例中,所述第一層學習器包括并列的三個基學習器,分別為隨機森林模型、輕量級梯度提升樹模型和支持向量機模型。
19、在本發(fā)明的一個實施例中,基于所述增廣后樣本集以及其中各數(shù)據(jù)樣本的孵化率,對所述原始預測模型進行訓練,得到訓練完成的雞蛋孵化率預測模型,包括:
20、利用所述增廣后樣本集以及其中各數(shù)據(jù)樣本的孵化率,以多折交叉驗證的方式,對所述第一層學習器中的各基學習器進行分別訓練,得到訓練完成的各基學習器;
21、將訓練完成的各基學習器針對數(shù)據(jù)樣本的孵化率預測值的多折均值作為輸入數(shù)據(jù),并利用數(shù)據(jù)樣本的孵化率,對所述第二層學習器進行訓練,由訓練完成的第二層學習器和訓練完成的第一層學習器構(gòu)成雞蛋孵化率預測模型。
22、第二方面,本發(fā)明實施例提供了一種雞蛋孵化率特征評估方法,所述雞蛋孵化率特征評估方法包括:
23、獲取雞蛋孵化率預測模型以及所述雞蛋孵化率預測模型訓練過程中所使用的各雞蛋批次的數(shù)據(jù)樣本;其中,所述雞蛋孵化率預測模型是利用第一方面所述的雞蛋孵化率預測模型構(gòu)建方法得到的;
24、針對每個雞蛋批次,使用shap方法計算該雞蛋批次的特征數(shù)據(jù)組中,各特征數(shù)據(jù)對孵化率的邊際貢獻值,從而進行該雞蛋批次內(nèi)特征數(shù)據(jù)的影響分析;其中,邊際貢獻值表示特征數(shù)據(jù)對該雞蛋批次的孵化率的影響,分為正影響和負影響;
25、針對每一類特征數(shù)據(jù),計算該類特征數(shù)據(jù)在所有雞蛋批次中的平均邊際貢獻值,利用各類特征數(shù)據(jù)計算出的平均邊際貢獻值,進行所有雞蛋批次內(nèi)特征數(shù)據(jù)的影響分析。
26、在本發(fā)明的一個實施例中,所述利用各類特征數(shù)據(jù)計算出的平均邊際貢獻值,進行所有雞蛋批次內(nèi)特征數(shù)據(jù)的影響分析,包括:
27、根據(jù)各類特征數(shù)據(jù)的平均邊際貢獻值繪制散點圖,并分析各類特征數(shù)據(jù)對所有雞蛋批次的孵化率的影響重要性及影響方向。
28、第三方面,本發(fā)明實施例提供了一種雞蛋孵化率預測方法,所述雞蛋孵化率預測方法包括:
29、獲取目標雞蛋批次的特征數(shù)據(jù)組;其中,所述特征數(shù)據(jù)組含有生物特征、環(huán)境特征、孵化設備特征對應的多個特征數(shù)據(jù);
30、將所述目標雞蛋批次的特征數(shù)據(jù)組進行數(shù)據(jù)預處理后,輸入預先訓練完成的雞蛋孵化率預測模型,得到所述目標雞蛋批次的預測孵化率;其中,所述雞蛋孵化率預測模型是根據(jù)第一方面所述的雞蛋孵化率預測模型構(gòu)建方法得到的。
31、在本發(fā)明的一個實施例中,得到所述目標雞蛋批次的預測孵化率之后,所述雞蛋孵化率預測方法還包括:
32、針對所述目標雞蛋批次,使用shap方法計算其特征數(shù)據(jù)組中,各特征數(shù)據(jù)對孵化率的邊際貢獻值,從而進行所述目標雞蛋批次內(nèi)特征數(shù)據(jù)的影響分析;其中,邊際貢獻值表示特征數(shù)據(jù)對所述目標雞蛋批次的孵化率的影響,分為正影響和負影響。
33、本發(fā)明的有益效果:
34、針對雞蛋孵化率預測問題,傳統(tǒng)機器學習算法模型往往只關(guān)注到生物特征(雞蛋本身的屬性),預測結(jié)果會偏向多數(shù)類樣本且容易產(chǎn)生過擬合問題,進而造成預測偏差。而依據(jù)本發(fā)明提供的雞蛋孵化率預測模型構(gòu)建方法所得到的雞蛋孵化率預測模型,綜合考慮了生物特征、環(huán)境特征和孵化設備特征,采集這些影響雞蛋孵化的多階段特征作為輸入數(shù)據(jù),使本方法能更全面的提取影響雞蛋孵化能力的特征分布,從而能夠顯著提高預測的準確性。本發(fā)明的模型可以通過雞蛋的生物特征、環(huán)境特征以及孵化設備特征這些影響孵化率的關(guān)鍵因素,使用特征增強的分層監(jiān)督預測方法估算出整批雞蛋的孵化率,可以防止預測結(jié)果偏向多數(shù)類,并緩解單一預測模型帶來的過擬合問題。
35、本發(fā)明實施例所提供的雞蛋孵化率特征評估方法中,利用提供的雞蛋孵化率預測模型及雞蛋孵化率預測模型訓練過程中所使用的各雞蛋批次的數(shù)據(jù)樣本,使用可解釋的機器學習方法對預測結(jié)果進行分析,可確定影響孵化率的關(guān)鍵特征,從而打破傳統(tǒng)機器學習方法的“黑箱”屬性,實現(xiàn)孵化全周期的精準管理以提高孵化率,為孵化場經(jīng)營管理提供決策支持方法,可以更好的指導孵化場的日常經(jīng)營,降低生產(chǎn)成本和減少資源浪費。
36、本發(fā)明實施例所提供的雞蛋孵化率預測方法,采用的算法框架新穎,準確性高,可解釋性強,能夠有效解決傳統(tǒng)機器學習在樣本不平衡時的預測偏差以及單個模型容易出現(xiàn)的過擬合問題,能夠?qū)崿F(xiàn)雞蛋批次孵化率的準確預測,并能對孵化率的預測結(jié)果進行可解釋性分析以支持孵化全周期精準管理。本發(fā)明針對現(xiàn)代化商業(yè)孵化場的情境運用人工智能算法解決了雞蛋孵化率預測與孵化流程管理等問題,具有較高的實用價值。