專利名稱::用于在包含分子遺傳標(biāo)志物的植物和動(dòng)物數(shù)據(jù)集中挖掘關(guān)聯(lián)規(guī)則,繼而利用由這些關(guān)聯(lián)...的制作方法
技術(shù)領(lǐng)域:
:本公開涉及一種或多種關(guān)聯(lián)規(guī)則挖掘算法(associationruleminingalgorithm)的用途,用于挖掘含有由至少一種基于植物或動(dòng)物的分子遺傳標(biāo)志物創(chuàng)建的特征的數(shù)據(jù)集(dataset),發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,以及利用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征用于分類或預(yù)測。
背景技術(shù):
:植物和動(dòng)物改良的一個(gè)主要目標(biāo)是獲得新的栽培種,該新的栽培種在所期望的目標(biāo)特征方面優(yōu)異,所期望的目標(biāo)特征例如產(chǎn)率、谷物油含量(grainoilcontent)、疾病抗性以及對非生物脅迫的抗性。傳統(tǒng)的植物和動(dòng)物改良的方法是基于動(dòng)物或植物的表型,或它們的后代的表型來選擇單個(gè)的植物或動(dòng)物。隨后,可以對選擇的個(gè)體進(jìn)行,例如進(jìn)一步測試或使其成為未來世代的親本。對于一些育種項(xiàng)目在產(chǎn)生針對特定個(gè)體的表型之前或當(dāng)針對該個(gè)體僅獲得了少量表型記錄時(shí)擁有對其特性的預(yù)測是有益的。僅倚靠表型選擇的植物和動(dòng)物改良方法的一些關(guān)鍵限制在于成本和產(chǎn)生這些數(shù)據(jù)的速度,并且環(huán)境(例如,溫度、管理、土壤條件、日光、灌溉條件)對于目標(biāo)特征的表達(dá)存在強(qiáng)烈影響。近來,分子遺傳標(biāo)志物的發(fā)展開啟了在使用植物或動(dòng)物的表型、環(huán)境信息和其它類型的特征之外,使用植物或動(dòng)物的基于DNA的特征來完成多種任務(wù)的可能性。針對這種類型的數(shù)據(jù)集的數(shù)據(jù)分析方法的一些重要的考慮在于挖掘歷史數(shù)據(jù)的能力,對于多重共線性具有魯棒性(toberobusttomulticollinearity)的能力,以及說明(accountfor)包括在這些數(shù)據(jù)集中的特征之間的相互作用(例如,受環(huán)境相互作用影響的基因型和上位效應(yīng)(印istaticeffect))的能力。挖掘歷史數(shù)據(jù)的能力避免了對用于數(shù)據(jù)分析的高度結(jié)構(gòu)化數(shù)據(jù)(highlystructureddata)的需求。需要來自有計(jì)劃的實(shí)驗(yàn)的高度結(jié)構(gòu)化數(shù)據(jù)的方法通常在人力資源、經(jīng)費(fèi)和時(shí)間方面是資源密集型的。在經(jīng)濟(jì)上重要的植物和動(dòng)物中大量最為重要的性狀的表達(dá)受到強(qiáng)烈的環(huán)境影響,這要求這樣的實(shí)驗(yàn)是大型的、經(jīng)謹(jǐn)慎設(shè)計(jì)并且受到謹(jǐn)慎控制的。多重共線性限制是指如下情況其中兩種或更多種特征(或特征子集(featuresubset))彼此成線性關(guān)系。多重共線性可能會導(dǎo)致精確性較低的評價(jià),該評價(jià)是對于特征(或特征子集)對目標(biāo)特征的影響的評價(jià),并且從而導(dǎo)致有偏向的預(yù)測?;谕诰蜿P(guān)聯(lián)規(guī)則的框架(framework)并利用由這些規(guī)則創(chuàng)建的特征來改善預(yù)測或分類對于解決上述三方面的考慮是適當(dāng)?shù)摹S糜诜诸惢蝾A(yù)測的優(yōu)選方法是機(jī)器學(xué)習(xí)方法(machinelearningmethod)。因此,可以將關(guān)聯(lián)規(guī)則用于對一個(gè)或多個(gè)目標(biāo)特征的分類或預(yù)測。在本公開中描述的方法是倚靠執(zhí)行一種或多種基于機(jī)器學(xué)習(xí)的關(guān)聯(lián)規(guī)則挖掘算法來挖掘含有至少一種植物或動(dòng)物分子遺傳標(biāo)志物的數(shù)據(jù)集,基于所發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則來創(chuàng)建特征,并使用這些特征用于目標(biāo)特征的分類或預(yù)測。
發(fā)明內(nèi)容在實(shí)施方式中,公開如下方法所述方法挖掘含有由至少一種基于植物的分子遺傳標(biāo)志物創(chuàng)建的特征的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,以及隨后使用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征來進(jìn)行分類或預(yù)測。這些方法中的一些適合用于以含有植物和動(dòng)物特征的數(shù)據(jù)集來進(jìn)行的分類或預(yù)測。在實(shí)施方式中,挖掘具有由至少一種基于植物的分子遺傳標(biāo)志物創(chuàng)建的至少一種特征的數(shù)據(jù)集,以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并利用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征來分類或預(yù)測一種或多種目標(biāo)特征的步驟包括(a)探測關(guān)聯(lián)規(guī)則;(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,并將這些特征添加到數(shù)據(jù)集中;(c)使用至少一種利用步驟(b)中創(chuàng)建的特征而創(chuàng)建的特征,針對一種或多種目標(biāo)特征的模型開發(fā)(modeldevelopment);(d)從數(shù)據(jù)集中的特征中選擇特征的子集;以及(e)使用自組織映射(self-organizingmaps)(參見TeuvoKohonen(2000),Self-OrganizingMap,Springer,第三版),從空間和時(shí)間的關(guān)聯(lián)探測關(guān)聯(lián)規(guī)則。在實(shí)施方式中,公開了挖掘具有一種或多種特征的數(shù)據(jù)集的方法,其中所述方法包括使用至少一種基于植物的分子標(biāo)志物以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并利用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征來進(jìn)行分類或預(yù)測,該方法包括以下步驟(a)探測關(guān)聯(lián)規(guī)則,(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,并將這些特征添加到數(shù)據(jù)集中;(c)從數(shù)據(jù)集中的特征中選擇特征的子集。在實(shí)施方式中,將關(guān)聯(lián)規(guī)則挖掘算法用于使用一種或多種機(jī)器學(xué)習(xí)算法的分類或預(yù)測,所述機(jī)器學(xué)習(xí)算法選自特征評估算法(featureevaluationalgorithm)、特征子集選擇算法(featuresubsetselectionalgorithm)、貝葉斯網(wǎng)絡(luò)(Bayesiannetwork)(參見Cheng禾口Greiner(1999),ComparingBayesiannetworkclassifiers.ProceedingsUAI,pp.101-107·)、基于實(shí)例的算法(instance-basedalgorithm)、支持向量機(jī)(supportvectormachine)(參見例如Shevade等人(1999),ImprovementstoSMOAlgorithmforSVMRegression.TechnicalReportCD-99—16,ControlDivisionDeptofMechanicalandProductionEngineering,NationalUniversityofSingapore;Smola等人(1998).ATutorialonSupportVectorRegression.NeuroC0LT2TechnicalReportSeries-NC2-TR-1998-030;SchOlkopf(1998).SVMs-apracticalconsequenceoflearningtheory.IEEEIntelligentSystems.IEEEIntelligentSystems13.418-21;Boser等人(1992),ATrainingAlgorithmforOptimalMarginClassifiersV144-52;以及Burges(1998),Atutorialonsupportvectormachinesforpatternrecognition.DataMiningandKnowledgeDiscovery2(1998):121-67)、投票算法(votealgorithm)、代價(jià)敏感分類器(cost-sensitiveclassifier)、疊力口算法(stackingalgorithm)、分類規(guī)則(classificationrule)和決策樹算法(decisiontreealgorithm)(參見Witten和Frank(2005),DataMining-PracticalmachinelearningToolsandTechniques.MorganKaufmann,SanFrancisco,第二片反)0適合的關(guān)聯(lián)規(guī)則挖掘算法包括但不限于=APriori算法(參見Witten和Frank(2005),DataMining-PracticalmachinelearningToolsandTechniques.MorganKaufmann,SanFrancisco,SecondEdition)、FP_growth算法、可以處理大量特征的關(guān)聯(lián)規(guī)則挖掘算法、巨模式挖掘算法(colossalpatternminingalgorithm)、直接判別模式挖掘算法(directdiscriminativepatternminingalgorithm)、決策豐對(decisiontree)>|糖集(roughset)(參見ZdzislawPawlak(1992),RoughSets:TheoreticalAspectsofReasoningAboutData.KluwerAcademicPrintonDemand)禾口自組織映射(SOM)算法。在實(shí)施方式中,處理大量特征的適合的關(guān)聯(lián)規(guī)則挖掘算法包括但不限于CLOSET+(#JALWang^A(2003),CLOSET+:Searchingforbeststrategiesforminingfrequentcloseditemsets,ACMSIGKDD2003,pp.236-245)、CHARM(參見Zaki等人(2002),CHARM:Anefficientalgorithmforcloseditemsetmining,SIAM2002,pp.457-473)、CARPENTER(參見Pan等人(2003),CARPENTER=FindingClosedPatternsinLongBiologicalDatasets,ACMSIGKDD2003,pp.637-642)和COBBLER(參見Pan等人(2004),COBBLERCombiningColumnandRowEnumerationforClosedPatternDiscovery,SSDBM2004,pp.21)。在實(shí)施方式中,發(fā)現(xiàn)直接判別模式(directdiscriminativepattern)的適合的算法包括但不限于DDPM(參見Cheng等人(2008),DirectDiscriminativePatternMiningforEffectiveClassification,ICDE2008,pp.169-178)、HARM0NY(參見Jiyong等人(2005),HARMONYEfficientlyMiningtheBestRulesforClassification,SIAM2005,pp.205-216)>RCBT(Cong^A(2005),Miningtop-Kcoveringrulegroupsforgeneexpressiondata,ACMSIGMOND2005,pp.670-681)>CAR(#BKianmehr等人(2008,CARSVM:Aclassassociationrule-basedclassificationframeworkanditsapplicationingeneexpressiondata,ArtificialIntelligenceinMedicine2008,pp.7-25)和PATCLASS(參見Cheng等人(2007),DiscriminativeFrequentPatternAnalysisforEffectiveClassification,ICDE2007,pp.716-725)。在實(shí)施方式中,發(fā)現(xiàn)巨模式的適合的算法包括但不限于模式融合算法(PatternFusionalgorithm)(參見Zhu等人(2007),MiningColossalFrequentPatternsbyCorePatternFusion,ICDE2007,pp.706-715)。在實(shí)施方式中,適合的特征評估算法選自下組信息增益算法(informationgainalgorithm)>Relief算法(Reliefalgorithm)(參見例如,Robnik-Sikonja禾口Kononenko(2003),TheoreticalandempiricalanalysisofReliefandReliefF.Machinelearning,53:23-69;以及Kononenko(1995).Onbiasesinestimatingmulti-valuedattributes.InIJCAI95,pages1034-1040)、ReliefF算法(ReliefFalgorithm)(參見例如,Kononenko,(1994),Estimatingattributes:analysisandextensionsofRelief.In:L.DeRaedtandF.Bergadano(eds.):MachinelearningECML-94.171-182,SpringerVerlag.)、RReliefF算法(RReliefFalgorithm)、對稱不確定{¢^(symmetricaluncertaintyalgorithm)、3|$·^^去(gainratioalgorithm)、以及評級算法(rankeralgorithm)。在實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是選自下組的特征子集選擇算法與其它任何機(jī)器學(xué)習(xí)算法聯(lián)合的包裝算法(wrapperalgorithm),以及基于關(guān)聯(lián)性的特征選擇(correlation-basedfeatureselection(CFS))算法(參見Hall,Μ.Α..1999.Corre1ation-basedfeatureselectionforMachineLearning.Ph.D.thesis.DepartmentofComputerScience-TheUniversityofWaikato,NewZealand.)。這些特征子集選擇算法可以與選自下組的搜索方法聯(lián)合貪婪逐步搜索算法(greedystepwisesearchalgorithm)、最好優(yōu)先搜索算法(bestfirstsearchalgorithm)、窮舉搜索算法(exhaustivesearchalgorithm)、Race搜索算法(racesearchalgorithm)、以及評級搜"MM-^ii,(ranksearchalgorithm)。在實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是貝葉斯網(wǎng)絡(luò)算法(Bayesiannetworkalgorithm),包括樸素貝葉斯算法(naiveBayesalgorithm)。在實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是選自下組的基于實(shí)例的算法基于實(shí)例1(instance-based1)(IB1)算法、基于實(shí)例k-近鄰(instance—basedk-nearestneighbor)(IBK)算法、Etar算法、惰式貝葉斯規(guī)則(lazyBayesianrule)(LBR)算法和局部加權(quán)學(xué)習(xí)(locallyweightedlearning)(LffL)算法。在實(shí)施方式中,適合的用于分類或預(yù)測的機(jī)器學(xué)習(xí)算法是支持向量機(jī)算法。在優(yōu)選的實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是使用序列最小優(yōu)化(sequentialminimaloptimization)(SMO)算法的支持向量機(jī)算法。在優(yōu)選的實(shí)施方式中,機(jī)器學(xué)習(xí)算法是使用回歸型序列最小優(yōu)化(sequentialminimaloptimizationforregression)(SMOReg)算法的支持向量機(jī)算法(參見例如,Shevade等人(1999),ImprovementstoSMOAlgorithmforSVMRegression.TechnicalReportCD—99—16,ControlDivisionDeptofMechanicalandProductionEngineering,NationalUniversityofSingapore;Smola禾口Scholkopf(1998),ATutorialonSupportVectorRegression.NeuroC0LT2TechnicalReportSeries-NC2-TR-1998-030)。在實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是自組織映射(klf-orgmizingmaps,TeuvoKohonen,Springer)0在實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是選自下組的決策樹算法邏輯模型樹(logisticmodeltree)(LMT)算法、交互式?jīng)Q策樹(alternatingdecisiontree)(ADTree)算法(參見Freund禾口Mason(1999),Thealternatingdecisiontreelearningalgorithm.Proc.SixteenthInternationalConferenceonmachinelearning,Bled,Slovenia,pp.124—133)、M5P算法(參見Quinlan(1992),Learningwithcontinuousclasses,inProceedingsAI'92,Adams&Sterling(Eds.),WorldScientific,pp.343-348;WangandWitten(1997),InducingModelTreesforContinuousClasses.9thEuropeanConferenceonmachinelearning,pp.128-137)禾口REPTree算法(ffitten和Frank,2005)。在實(shí)施方式中,目標(biāo)特征選自由連續(xù)的目標(biāo)特征和離散的(discrete)目標(biāo)特征組成的組。離散的目標(biāo)特征可以是二元目標(biāo)特征。在實(shí)施方式中,至少一種基于植物的分子遺傳標(biāo)志物來自于植物種群,并且該植物種群可以是未結(jié)構(gòu)化的植物種群(unstructuredplantpopulation)。所述植物種群可以包括近交植物(inbredplant)或雜交植物或它們的組合。在實(shí)施方式中,適合的植物種群選自下組玉米、大豆、高粱、小麥、向日葵、稻、蕓薹(canola)、棉花以及黍(millet)。在實(shí)施方式中,所述植物種群可以包括約2至約1000000個(gè)成員。在實(shí)施方式中,分子遺傳標(biāo)志物的數(shù)量的范圍可以為約1約1000000個(gè)標(biāo)志物。特征可以包括的分子遺傳標(biāo)志物數(shù)據(jù)可以包括但不限于一種或多種簡單序列重復(fù)(simplesequencer印eat(SSR))、切割擴(kuò)增多態(tài)性序列(cleavedamplifiedpolymorphicsequences(CAPS))、簡單序列長度多態(tài)性(simplesequencelengthpolymorphism(SSLP))、限制性片段長度多態(tài)性(restrictionfragmentlengthpolymorphism(RFLP))、隨機(jī)擴(kuò)增多態(tài)性DNA(randomamplifiedpolymorphicDNA(RAPD))標(biāo)志物、單核苷酸多態(tài)性(singlenucleotidepolymorphism(SNP))、任意片段長度多態(tài)性(arbitraryfragmentlengthpolymorphism(AFLP))、插入、缺失、來源于DNA、RNA、蛋白質(zhì)或代謝產(chǎn)物的任何其它類型的分子遺傳標(biāo)記物、由兩種或更多種上述來源于DNA的分子遺傳標(biāo)志物創(chuàng)建的單元型、以及它們的組合。在實(shí)施方式中,所述特征還可以包括一種或多種簡單序列重復(fù)(SSR)、切割擴(kuò)增多態(tài)性序列(CAPS)、簡單序列長度多態(tài)性(SSLP)、限制性片段長度多態(tài)性(RFLP)、隨機(jī)擴(kuò)增多態(tài)性DNA(RAPD)標(biāo)志物、單核苷酸多態(tài)性(SNP)、任意片段長度多態(tài)性(AFLP)、插入、缺失、來源于DNA、RNA、蛋白質(zhì)或代謝產(chǎn)物的任何其它類型的分子遺傳標(biāo)記物、由兩種或更多種上述來源于DNA的分子遺傳標(biāo)志物創(chuàng)建的單元型、以及它們的組合,與一種或多種表型測量、RNA(包括mRNA、微小RNA(miRNA)、非編碼RNA(ncRNA))表達(dá)水平的微陣列數(shù)據(jù)、分析性測量、生化測量或環(huán)境測量或它們的組合結(jié)合作為特征。植物種群中的適合的目標(biāo)特征包括一種或多種可數(shù)字表示的和/或可定量的表型性狀,其包括疾病抗性、產(chǎn)率、谷物產(chǎn)量、紗線強(qiáng)度(yarnstrength)、蛋白質(zhì)組成、蛋白質(zhì)含量、昆蟲抗性、谷物水分含量、谷物油含量、谷物油質(zhì)量、干旱抗性、根倒伏抗性(rootlodgingresistance)、植物高度、穗位高(earheight)、谷物蛋白質(zhì)含量、谷物氨基酸含量、谷物顏色和莖稈倒伏抗性(stalklodgingresistance)。在實(shí)施方式中,樣品植物種群對于一種或多種分子遺傳標(biāo)志物的基因型通過直接DNA測序來實(shí)驗(yàn)確定。在實(shí)施方式中,挖掘具有至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集以發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,并且使用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征對一種或多種目標(biāo)特征進(jìn)行分類或預(yù)測的方法包括如下步驟(a)探測關(guān)聯(lián)規(guī)則;(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,并將這些特征添加到數(shù)據(jù)集中;(c)評估特征;(d)從數(shù)據(jù)集中的特征中選擇特征的子集;和(e)用至少一種在步驟(b)中創(chuàng)建的特征,開發(fā)對一種或多種目標(biāo)特征進(jìn)行預(yù)測或分類的模型。在實(shí)施方式中,使用上述步驟(a)(e)的任何組合來完成選擇近交系、選擇雜種、評級雜種(rankhybrid)、針對特定的地理學(xué)評級雜種、選擇新近交種群的親本、發(fā)現(xiàn)用于滲入到優(yōu)良近交系中的片段,或者它們的任何組合的方法。在實(shí)施方式中,探測關(guān)聯(lián)規(guī)則包括使用自組織映射的空間和時(shí)間的關(guān)聯(lián)。在實(shí)施方式中,用于預(yù)測或分類的模型的至少一種特征是早先使用特征評估算法選擇的特征的子集。在實(shí)施方式中,使用交叉驗(yàn)證來比較算法和參數(shù)值的集合。在實(shí)施方式中,使用受試者操作特征(ROC)曲線來比較算法和參數(shù)值的集合。在實(shí)施方式中,一種或多種特征數(shù)學(xué)地或計(jì)算地來源于其它的特征。在實(shí)施方式中,公開了挖掘包括至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集的方法,以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并且利用來自這些關(guān)聯(lián)規(guī)則的特征對一種或多種目標(biāo)特征進(jìn)行分類或預(yù)測,其中該方法包括如下步驟(a)探測關(guān)聯(lián)規(guī)則;(i)其中利用自組織映射探測關(guān)聯(lián)規(guī)則、空間和時(shí)間的關(guān)聯(lián)。(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,并將這些特征添加到數(shù)據(jù)集中;(c)用至少一種在步驟(b)中創(chuàng)建的特征,開發(fā)對一種或多種目標(biāo)特征進(jìn)行預(yù)測或分類的模型;其中,可以在步驟(a)、(b)和(C)之前進(jìn)行從數(shù)據(jù)集中的特征中選擇特征的子集的步驟。在實(shí)施方式中,公開了挖掘包括至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并使用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征進(jìn)行分類或預(yù)測的方法,其中該方法包括如下步驟(a)探測關(guān)聯(lián)規(guī)則;(b)基于如下發(fā)現(xiàn)創(chuàng)建新的特征,并將這些特征添加到數(shù)據(jù)集中,所述發(fā)現(xiàn)基于步驟(a)中的發(fā)現(xiàn);(c)在數(shù)據(jù)集中選擇特征的子集。在實(shí)施方式中,其中這些方法的結(jié)果包括具有至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集,該數(shù)據(jù)集用來發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并且使用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征進(jìn)行分類或預(yù)測,將這些方法的結(jié)果用于(a)預(yù)測雜種的性能,(b)預(yù)測跨越不同地理位置的雜種的性能;(c)選擇近交系;(d)選擇雜種;(e)針對特定的地理學(xué)評級雜種;(f)選擇新近交種群的親本;(g)發(fā)現(xiàn)用于滲入到優(yōu)良近交系中的DNA片段;(h)或(a)(g)的任何組合。在實(shí)施方式中,使用具有至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并將由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征用于分類或預(yù)測,并且針對一種或多種感興趣的目標(biāo)特征從植物種群中選擇至少一株植物。在實(shí)施方式中,考慮現(xiàn)有知識,現(xiàn)有知識包括初步調(diào)查、植物遺傳學(xué)的數(shù)量研究、基因網(wǎng)絡(luò)、序列分析或它們的任意組合。在實(shí)施方式中,可以對上述方法進(jìn)行改變以包括下述步驟(a)利用包括在所述一種或多種關(guān)聯(lián)規(guī)則中的一種或多種特征的組合來代替原有的特征以減少維度;(b)通過基于模型的搜索樹(searchtree)挖掘區(qū)別性和必要性頻繁模式。圖1添加來自步驟(b)的新特征之前和之后,ROC曲線下的面積。發(fā)明詳述關(guān)聯(lián)規(guī)則挖掘算法提供在非常大的數(shù)據(jù)集上發(fā)現(xiàn)相關(guān)的相互作用所需的框架和規(guī)模可變性(scalability)。本文中公開的方法對于鑒定影響表型的多基因座相互作用(multi-locusinteraction)是有用的。本文中公開的方法對于鑒定分子遺傳標(biāo)志物、單元型和環(huán)境因素之間的相互作用是有用的?;谶@些相互作用創(chuàng)建的新特征對于分類或預(yù)測是有用的。這些方法中的一些對于多重共線性問題和特征的缺失值(missingvalue)的魯棒性,以及這些方法描述特征之間的錯(cuò)綜復(fù)雜的依賴性(cbpendency)的能力,使得這樣的方法適合用于分析包括基于分子遺傳標(biāo)志物的特征的大的、復(fù)雜的數(shù)據(jù)集。WEKA(WaikatoEnvironmentforKnowledgeAnalysisdevelopedatUniversityOfWaikato,新西蘭)是一套機(jī)器學(xué)習(xí)軟件,該軟件是使用Java編程語言編寫的,其實(shí)現(xiàn)眾多來自不同學(xué)習(xí)范型(learningparadigm)的機(jī)器學(xué)習(xí)算法。該機(jī)器學(xué)習(xí)軟件工作站促進(jìn)了機(jī)器學(xué)習(xí)算法的執(zhí)行并支持了算法的開發(fā)或數(shù)據(jù)挖掘和計(jì)算方法的適應(yīng)性(adaptation)0WEKA還提供了通過方法(例如交叉驗(yàn)證和ROC(受試者操作特征)曲線)適當(dāng)?shù)販y試每種算法和參數(shù)值集合的性能的工具。使用WEKA來執(zhí)行供建模(modeling)用的機(jī)器學(xué)習(xí)算法。但是,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)理解其它機(jī)器學(xué)習(xí)軟件也可以用于實(shí)施本發(fā)明。另外,使用本文所描述的方法的數(shù)據(jù)挖掘提供靈活的、規(guī)模可變(scalable)的框架,用于利用包括基于分子遺傳標(biāo)志物的特征的數(shù)據(jù)集進(jìn)行建模。該框架是靈活的,這是因?yàn)槠浒ㄓ糜诖_定哪些算法和具體的參數(shù)設(shè)置(parametersettings)應(yīng)當(dāng)被用于數(shù)據(jù)集分析的測試(即交叉驗(yàn)證和ROC曲線)。該框架是規(guī)??勺兊模@是因?yàn)槠溥m合于非常大的數(shù)據(jù)集。在實(shí)施方式中,公開了挖掘包含由至少一種基于植物的分子遺傳標(biāo)志物創(chuàng)建的特征的數(shù)據(jù)集,以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,然后使用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征來進(jìn)行分類或預(yù)測的方法。這些方法中的一些適合于以含有植物和動(dòng)物特征的數(shù)據(jù)集進(jìn)行的分類或預(yù)測。在實(shí)施方式中,挖掘具有由至少一種基于植物的分子遺傳標(biāo)志物創(chuàng)建的至少一種特征的數(shù)據(jù)集,以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并利用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征對一種或多種目標(biāo)特征進(jìn)行分類或預(yù)測的步驟包括(a)探測關(guān)聯(lián)規(guī)則;(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,并將這些特征添加到數(shù)據(jù)集中;(c)用至少一種利用步驟(b)中創(chuàng)建的特征而創(chuàng)建的特征,針對一種或多種目標(biāo)特征進(jìn)行模型開發(fā);(d)從數(shù)據(jù)集中的特征中選擇特征的子集;和(e)使用自組織映射從空間和時(shí)間的關(guān)聯(lián)中探測關(guān)聯(lián)規(guī)則。在實(shí)施方式中,公開了挖掘具有一種或多種特征的數(shù)據(jù)集的方法,其中所述方法包括使用至少一種基于植物的分子標(biāo)志物以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并利用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征來進(jìn)行分類或預(yù)測,該方法包括以下步驟(a)探測關(guān)聯(lián)規(guī)則,(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,并將這些特征添加到數(shù)據(jù)集中;(c)從數(shù)據(jù)集中的特征中選擇特征的子集。在實(shí)施方式中,將關(guān)聯(lián)規(guī)則挖掘算法用于利用一種或多種機(jī)器學(xué)習(xí)算法進(jìn)行的分類或預(yù)測,所述機(jī)器學(xué)習(xí)算法選自特征評估算法、特征子集選擇算法、貝葉斯網(wǎng)絡(luò)、基于實(shí)例的算法、支持向量機(jī)、投票算法、代價(jià)敏感分類器、疊加算法、分類規(guī)則、以及決策樹算法。適合的關(guān)聯(lián)規(guī)則挖掘算法包括但不限于=APriori算法、FP-growth算法、可以處理大量的特征的關(guān)聯(lián)規(guī)則挖掘算法、巨模式挖掘算法、直接判別模式挖掘算法、決策樹、粗糙集和自組織映射(SOM)算法。在實(shí)施方式中,處理大量特征的適合的關(guān)聯(lián)規(guī)則挖掘算法包括但不限于CLOSET+、CHARM、CARPENTER和COBBLER。在實(shí)施方式中,發(fā)現(xiàn)直接判別模式的適合的算法包括但不限于DDPM、HARMONY、RCBT、CAR禾口PATCLASSo在實(shí)施方式中,發(fā)現(xiàn)巨模式的適合的算法包括但不限于模式融合算法。在實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是選自下組的特征子集選擇算法與其它任何機(jī)器學(xué)習(xí)算法結(jié)合的包裝算法和基于關(guān)聯(lián)性的特征選擇(CFS)算法。這些特征子集選擇算法可以與選自下組的搜索方法聯(lián)合貪婪逐步搜索算法、最好優(yōu)先搜索算法、窮舉搜索算法、Race搜索算法和評級搜索算法。在實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是貝葉斯網(wǎng)絡(luò)算法,包括樸素貝葉斯算法的。在實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是選自下組的基于實(shí)例的算法基于實(shí)例KIB1)算法、基于實(shí)例k-近鄰(IBK)算法、KStar算法、惰式貝葉斯規(guī)則(LBR)算法和局部加權(quán)學(xué)習(xí)(LWL)算法。在實(shí)施方式中,適合的用于分類或預(yù)測的機(jī)器學(xué)習(xí)算法是支持向量機(jī)算法。在優(yōu)選的實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是使用序列最小優(yōu)化(SMO)算法的支持向量機(jī)算法。在優(yōu)選的實(shí)施方式中,機(jī)器學(xué)習(xí)算法是使用回歸型序列最小優(yōu)化(SMOReg)算法的支持向量機(jī)算法。在實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是自組織映射。在實(shí)施方式中,適合的機(jī)器學(xué)習(xí)算法是選自下組的決策樹算法邏輯模型樹(LMT)算法、交互式?jīng)Q策樹(ADTree)算法、M5P算法和REPTree算法。在實(shí)施方式中,目標(biāo)特征選自由連續(xù)的目標(biāo)特征和離散的目標(biāo)特征組成的組。離散的目標(biāo)特征可以是二元目標(biāo)特征。在實(shí)施方式中,至少一種基于植物的分子遺傳標(biāo)志物來自于植物種群,并且該植物種群可以是未結(jié)構(gòu)化的植物種群(unstructuredplantpopulation)。植物種群可以包括近交植物或雜交植物或它們的組合。在實(shí)施方式中,適合的植物種群選自下組玉米、大豆、高粱、小麥、向日葵、稻、蕓薹、棉花以及黍。在實(shí)施方式中,植物種群可以包括約2約100000個(gè)成員。在實(shí)施方式中,分子遺傳標(biāo)志物的數(shù)量的范圍可以為約1約1000000個(gè)標(biāo)志物。特征可以包括的分子遺傳標(biāo)志物數(shù)據(jù)包括但不限于一種或多種簡單序列重復(fù)(SSR)、切割擴(kuò)增多態(tài)性序列(CAPS)、簡單序列長度多態(tài)性(SSLP)、限制性片段長度多態(tài)性(RFLP)、隨機(jī)擴(kuò)增多態(tài)性DNA(RAPD)標(biāo)志物、單核苷酸多態(tài)性(SNP)、任意片段長度多態(tài)性(AFLP)、插入、缺失、來源于DNA、RNA、蛋白質(zhì)或代謝產(chǎn)物的任何其它類型的分子遺傳標(biāo)記物、由兩種或更多種上述來源于DNA的分子遺傳標(biāo)志物創(chuàng)建的單元型和它們的組合。在實(shí)施方式中,特征還可以包括一種或多種簡單序列重復(fù)(SSR)、切割擴(kuò)增多態(tài)性序列(CAPS)、簡單序列長度多態(tài)性(SSLP)、限制性片段長度多態(tài)性(RFLP)、隨機(jī)擴(kuò)增多態(tài)性DNA(RAPD)標(biāo)志物、單核苷酸多態(tài)性(SNP)、任意片段長度多態(tài)性(AFLP)、插入、缺失、來源于DNA、RNA、蛋白質(zhì)或代謝產(chǎn)物的任何其它類型的分子遺傳標(biāo)記物、由兩種或更多種上述來源于DNA的分子遺傳標(biāo)志物創(chuàng)建的單元型和它們的組合,與一種或多種表型測量、微陣列數(shù)據(jù)、分析性測量、生化測量、或環(huán)境測量或它們的組合結(jié)合作為特征。植物種群中的適合的目標(biāo)特征包括一種或多種可數(shù)字表示的表型性狀,包括疾病抗性、產(chǎn)率、谷物產(chǎn)量、紗線強(qiáng)度、蛋白質(zhì)組成、蛋白質(zhì)含量、昆蟲抗性、谷物水分含量、谷物油含量、谷物油質(zhì)量、干旱抗性、根倒伏抗性、植物高度、穗位高、谷物蛋白質(zhì)含量、谷物氨基酸含量、谷物顏色和莖稈倒伏抗性。在實(shí)施方式中,樣品植物種群對于一種或多種分子遺傳標(biāo)志物的基因型通過直接DNA測序來實(shí)驗(yàn)確定。在實(shí)施方式中,挖掘具有至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集以發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,并且使用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征對一種或多種目標(biāo)特征進(jìn)行分類或預(yù)測的方法,其中該方法包括如下步驟(a)探測關(guān)聯(lián)規(guī)則;(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,并將這些特征添加到數(shù)據(jù)集中;(c)評估特征;(d)從數(shù)據(jù)集中的特征中選擇特征的子集;和(e)利用至少一種在步驟(b)中創(chuàng)建的特征,開發(fā)對一種或多種目標(biāo)特征進(jìn)行預(yù)測或分類的模型。在實(shí)施方式中,使用上述步驟(a)(e)的任何組合來完成選擇近交系、選擇雜種、評級雜種、針對特定的地理學(xué)評級雜種、選擇新近交種群的親本、發(fā)現(xiàn)用于滲入到優(yōu)良近交系中的片段,或者它們的任何組合的方法。在實(shí)施方式中,探測關(guān)聯(lián)規(guī)則包括使用自組織映射的空間和時(shí)間的關(guān)聯(lián)。在實(shí)施方式中,用于預(yù)測或分類的模型的至少一個(gè)特征是早先使用特征評估算法選擇的特征的子集。在實(shí)施方式中,使用交叉驗(yàn)證來比較算法和參數(shù)值的集合。在實(shí)施方式中,使用受試者操作特征(ROC)曲線來比較算法和參數(shù)值的集合。在實(shí)施方式中,一種或多種特征數(shù)學(xué)地或計(jì)算地來源于其它的特征。在實(shí)施方式中,公開了挖掘包括至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集,以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并且利用來自這些關(guān)聯(lián)規(guī)則的特征對一種或多種目標(biāo)特征進(jìn)行分類或預(yù)測的方法,其中該方法包括如下步驟(a)探測關(guān)聯(lián)規(guī)則;(i)其中利用自組織映射探測關(guān)聯(lián)規(guī)則、空間和時(shí)間的關(guān)聯(lián)。(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,并將這些特征添加到數(shù)據(jù)集中;(c)利用至少一種在步驟(b)中創(chuàng)建的特征,開發(fā)對一種或多種目標(biāo)特征進(jìn)行預(yù)測或分類的模型;其中可以在上述步驟(a)、(b)和(C)之前進(jìn)行從數(shù)據(jù)集中的特征中選擇特征的子集的步驟。在實(shí)施方式中,公開了挖掘包括至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并使用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征進(jìn)行分類或預(yù)測的方法,其中該方法包括如下步驟(a)探測關(guān)聯(lián)規(guī)則;(b)基于如下發(fā)現(xiàn)創(chuàng)建新的特征,以及將這些特征添加到數(shù)據(jù)集中,所述發(fā)現(xiàn)基于步驟(a)中的發(fā)現(xiàn);(c)在數(shù)據(jù)集中選擇特征的子集。在實(shí)施方式中,其中這些方法的結(jié)果包括具有至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集,該數(shù)據(jù)集用來發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并且使用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征進(jìn)行分類或預(yù)測,將這些方法的結(jié)果用于(a)預(yù)測雜種的性能,(b)預(yù)測跨越不同地理位置的雜種的性能;(c)選擇近交系;(d)選擇雜種;(e)針對特定的地理學(xué)評級雜種;(f)選擇新近交種群的親本;(g)發(fā)現(xiàn)用于滲入到優(yōu)良近交系中的DNA片段;(h)或(a)(g)的任何組合。在實(shí)施方式中,其中使用具有至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并將由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征用于分類或預(yù)測,并且針對一種或多種感興趣的目標(biāo)特征從植物種群中選擇至少一株植物。在實(shí)施方式中,考慮現(xiàn)有知識,現(xiàn)有知識包括初步調(diào)查、植物遺傳學(xué)的定量研究、基因網(wǎng)絡(luò)、序列分析或它們的任意組合。在實(shí)施方式中,可以對上述方法進(jìn)行改變以包括下述步驟(a)利用包括在所述一種或多種關(guān)聯(lián)規(guī)則中的一種或多種特征的組合來代替原有的特征以減少維度;(b)通過基于模型的搜索樹挖掘區(qū)別性和必要性頻繁模式。在實(shí)施方式中,特征評估算法,例如信息增益、對稱不確定性和Relief家族算法是適合的算法。這些算法能夠一起評估所有的特征,而不是一次一個(gè)特征。這些算法中的一些對于偏向、缺失值以及共線性問題具有魯棒性。Relief家族算法提供了能夠說明深度相互作用(de印-levelinteraction)的工具,但是需要減少的數(shù)據(jù)集中的特征之間的共線性。在實(shí)施方式中,通過算法來應(yīng)用子集選擇技術(shù),例如CFS子集評估器(CFSsubsetevaluator)。子集選擇技術(shù)可以用于通過除去冗余、迷惑性特征(distractingfeature)并保持能夠適當(dāng)?shù)亟忉屇繕?biāo)特征的子集來減少復(fù)雜性。當(dāng)使用例如交叉驗(yàn)證和ROC曲線這樣的方法進(jìn)行評估時(shí),這些迷惑性特征的除去通常提高建模算法的性能。已知特定種類的算法,例如基于實(shí)例的算法,對于迷惑性特征是非常敏感的,而其它算法例如支持向量機(jī)受到迷惑性特征的適度影響。通過基于存在的特征產(chǎn)生新特征來減少復(fù)雜性也經(jīng)常使得機(jī)器學(xué)習(xí)算法的預(yù)測性能提高。在實(shí)施方式中,過濾器和包裝器算法(filterandwrapperalgorithm)可以用于特征子集選擇。為了使用過濾器進(jìn)行特征子集選擇,通常將用于發(fā)現(xiàn)特征的最佳子集(即,窮舉搜索在計(jì)算上不是始終可行的)的有效搜索方法(例如貪婪逐步搜索、最好優(yōu)先搜索和Race搜索)與價(jià)值公式(meritformula)(例如CFS子集評估器)關(guān)聯(lián)。CFS子集評估器在子集中適當(dāng)?shù)卣f明冗余的水平,而不會忽視局部預(yù)測性特征。除了降低復(fù)雜性以支持建模,基于機(jī)器學(xué)習(xí)的子集選擇技術(shù)還可以用于選自特征的子集,該特征的子集適當(dāng)?shù)亟忉屇繕?biāo)特征同時(shí)在該子集中包括的特征之間具有低水平的冗余。子集選擇方法的一個(gè)目的在于通過僅關(guān)注于發(fā)現(xiàn)的適當(dāng)解釋目標(biāo)特征的子集來減少在未來的數(shù)據(jù)收集、操作和儲存工作(effort)過程中的損耗??梢允褂美缃徊骝?yàn)證和ROC曲線對在本文中描述的用于減少復(fù)雜性的機(jī)器學(xué)習(xí)方法進(jìn)行比較。然后可以選擇出具有最佳性能的特征子集選擇算法用于最終分析。這種比較通常如下進(jìn)行通過將交叉驗(yàn)證和ROC曲線用于不同的子集選擇算法和建模算法的組合。為了在子集選擇和建模步驟過程中運(yùn)行交叉驗(yàn)證,可以使用多臺運(yùn)行機(jī)器學(xué)習(xí)軟件(例如WEKA)的平行形式的計(jì)算機(jī)。本文所描述的用于特征子集選擇的技術(shù)使用有效的搜索方法以發(fā)現(xiàn)特征的最佳子集(即,窮舉搜索不總是可能的)。本文公開的建模方法的方面是因?yàn)閱我凰惴▽τ诮C糠N數(shù)據(jù)集而言可能不會總是最佳選擇,本文所描述的框架使用交叉驗(yàn)證技術(shù)、ROC曲線和精度(precision)以及重復(fù)調(diào)用(recall),以從機(jī)器學(xué)習(xí)領(lǐng)域中的多種選擇中選擇針對每個(gè)數(shù)據(jù)集的最佳算法。在實(shí)施方式中,在模型開發(fā)過程中,可以使用交叉驗(yàn)證、ROC曲線和精度和重復(fù)調(diào)用對數(shù)種算法和參數(shù)設(shè)置進(jìn)行比較。一些機(jī)器學(xué)習(xí)算法對于多重共線性問題有魯棒性(允許以大量特征建模),對于缺失值有魯棒性,并且可以說明特征之間的深度相互作用而不會過度擬合(over-fitting)數(shù)據(jù)。在實(shí)施方式中,除了貝葉斯網(wǎng)絡(luò)和基于實(shí)例的算法,用于建模的機(jī)器學(xué)習(xí)算法還有支持向量機(jī),例如SMOReg,決策樹,例如M5P、RepTree和ADTree。通過M5P、REPTree和ADTree算法產(chǎn)生的樹的生成著眼于減少分配給每個(gè)新創(chuàng)建的節(jié)點(diǎn)的樣品子集中目標(biāo)特征的變化。M5P通常用于處理連續(xù)的目標(biāo)特征,ADTree通常用于處理二元(或二元化的(binarized))目標(biāo)特征,而REPTree可以用于處理連續(xù)的和離散的目標(biāo)特征兩者。本文公開的機(jī)器學(xué)習(xí)方法的方面是本文所使用的算法可能不需要高度結(jié)構(gòu)化的數(shù)據(jù)集,不像一些嚴(yán)格基于統(tǒng)計(jì)技術(shù)的方法,這些方法通常倚靠高度結(jié)構(gòu)化的數(shù)據(jù)集。結(jié)構(gòu)化的實(shí)驗(yàn)通常在人力、成本和時(shí)間方面是資源密集型的,這是由于環(huán)境強(qiáng)烈地影響在經(jīng)濟(jì)上重要的植物和動(dòng)物中的大量最為重要的數(shù)量遺傳性狀的表達(dá),因此需要這樣的實(shí)驗(yàn)是大型的、經(jīng)謹(jǐn)慎設(shè)計(jì)并且受到謹(jǐn)慎控制的。然而,使用機(jī)器學(xué)習(xí)算法的數(shù)據(jù)挖掘可以有效地利用現(xiàn)有的數(shù)據(jù),這些數(shù)據(jù)不是針對該數(shù)據(jù)挖掘目的而特別生成的。在實(shí)施方式中,本文公開的方法可以用于在第二代目標(biāo)植物種群的一個(gè)或多個(gè)成員中基于其針對一個(gè)或多個(gè)分子遺傳標(biāo)志物的基因型或與性狀相關(guān)的單元型進(jìn)行的對目標(biāo)特征值的預(yù)測。對值進(jìn)行預(yù)測可以在通過實(shí)驗(yàn)得到確定之前或用來代替通過實(shí)驗(yàn)進(jìn)行確定。在實(shí)施方式中,本文公開的方法在與或不與其它統(tǒng)計(jì)方法(例如BLUP(最佳線性無偏預(yù)測(BestLinearUnbiasedPrediction)))聯(lián)合的植物(例如,雜交作物植物)應(yīng)用育種項(xiàng)目中具有多種應(yīng)用。例如,所述方法可以用于預(yù)測雜種后代的表型性能,所述雜種后代是例如通過雜交具有已知分子遺傳標(biāo)志物基因型的一對給定的近交系產(chǎn)生的單一雜交雜種(singlecrosshybrid)(可以是實(shí)際的或者處于假設(shè)狀態(tài))。所述方法還可以用于選擇植物(例如,近交植物、雜交植物等)以用作一個(gè)或多個(gè)雜交中的親本;所述方法允許選擇如下親本植物,該親本植物的后代具有擁有所期望的表型的最高可能性。在實(shí)施方式中,了解了至少一種特征和目標(biāo)特征的關(guān)聯(lián)??梢栽跇悠分参锓N群(例如,育種種群)中對該關(guān)聯(lián)進(jìn)行評估。通過用具有特征的數(shù)據(jù)集訓(xùn)練(train)機(jī)器學(xué)習(xí)算法在第一植物種群中對關(guān)聯(lián)進(jìn)行評估,所述特征并入了關(guān)于至少一種分子遺傳標(biāo)志物的基因型和該植物種群的至少一個(gè)成員中關(guān)于目標(biāo)特征的值。然后可以使用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)算法和關(guān)于至少一個(gè)特征的值對第二種群預(yù)測目標(biāo)特征的值。對值進(jìn)行預(yù)測可以在通過實(shí)驗(yàn)得到確定之前或用來代替通過實(shí)驗(yàn)進(jìn)行確定。在實(shí)施方式中,目標(biāo)特征可以為數(shù)量性狀,例如,針對該性狀提供數(shù)量值。在另外的實(shí)施方式中,目標(biāo)特征可以為定性性狀,例如,針對該性狀提供定性值??梢园ㄔ谝恍┨卣髦械谋硇托誀羁梢杂蓡蝹€(gè)基因或多個(gè)基因決定。在實(shí)施方式中,所述方法還可以包括選擇目標(biāo)植物種群中的至少一個(gè)成員,其具有目標(biāo)特征的期望的預(yù)測值,并且包括將所述目標(biāo)植物種群的至少一個(gè)選擇的成員與至少一個(gè)其它植物進(jìn)行育種(或者自交(selfing)所述至少一種選擇的成員,例如用以創(chuàng)建近交系)。在實(shí)施方式中,樣品植物種群可以包括大量近交、單雜交Fl雜種或它們的組合。近交可以來自彼此之間相關(guān)和/或無關(guān)的近交系,而單雜交Fl雜種可以由近交系和/或一種或多種別的近交系的單雜交產(chǎn)生。在實(shí)施方式中,樣品植物種群的成員包括來自現(xiàn)有的、已建立的育種種群(例如,商用的育種種群)的成員。已建立的育種種群的成員通常是相對少數(shù)建立者(founder)的派生物,并且通常是內(nèi)部相關(guān)的。育種種群可以覆蓋大量世代以及育種周期。例如,已建立的育種種群可以橫跨三、四、五、六、七、八、九或更多個(gè)育種周期。在實(shí)施方式中,樣品植物種群不需要是育種種群。樣品種群可以是基因型和表型數(shù)據(jù)全部或部分可獲得的任何現(xiàn)有的植物種群的亞種群。樣品植物種群可以包括任何數(shù)量的成員。例如,樣品植物種群包括約2約100000個(gè)成員。樣品植物種群可以包括至少約50、100、200、500、1000、2000、3000、4000、5000、或甚至6000或10000或更多成員。樣品植物種群通常在感興趣的目標(biāo)特征方面顯示變異性(例如數(shù)量目標(biāo)特征的數(shù)量變異性)。樣品植物種群可以從一個(gè)或多個(gè)植物細(xì)胞培養(yǎng)物中提取。在實(shí)施方式中,通過評估樣品植物種群的成員之間的目標(biāo)特征(例如,對種群的成員之間的數(shù)量目標(biāo)特征進(jìn)行定量)來獲得樣品植物種群中的目標(biāo)特征的值??梢栽跇?gòu)成第一植物種群的成員(例如近交和/或單雜交Fl雜種)中對表型進(jìn)行評估。目標(biāo)特征可以包括任何數(shù)量或定性的目標(biāo)特征,例如,具有農(nóng)業(yè)或經(jīng)濟(jì)重要性的特征。例如,目標(biāo)特征可以選自產(chǎn)率、谷物水分含量、谷物油含量、紗線強(qiáng)度、植物高度、穗位高、疾病抗性、昆蟲抗性、干旱抗性、谷物蛋白質(zhì)含量、測試重量、視覺或美學(xué)外觀和穗軸顏色(cobcolor)。這些性狀,以及其評估技術(shù)(例如定量)在本領(lǐng)域中是已知的。在實(shí)施方式中,樣品或測試植物種群對于分子遺傳標(biāo)志物的集合的基因型可以通過實(shí)驗(yàn)確定、預(yù)測、或它們的組合。例如,在一類實(shí)施方式中,在植物種群中存在的每個(gè)近交的基因型可以通過實(shí)驗(yàn)確定,并且對存在于第一植物種群中的每個(gè)單雜交Fl雜種的基因型進(jìn)行預(yù)測(例如,根據(jù)通過實(shí)驗(yàn)確定的每種單雜交雜種的兩個(gè)近交親本基因型)??梢酝ㄟ^任何適合的技術(shù)來實(shí)驗(yàn)確定植物的基因型。在實(shí)施方式中,對來自每個(gè)近交的大量DNA片段進(jìn)行測序以實(shí)驗(yàn)地確定每個(gè)近交的基因型。在實(shí)施方式中,譜系樹和概率性方法(probabilisticapproach)可以用于為單雜交雜種的兩個(gè)近交親本計(jì)算在不同的標(biāo)志物基因座的基因型概率。在實(shí)施方式中,本文中公開的方法可以用于針對包括與目標(biāo)特征關(guān)聯(lián)的至少一種分子遺傳標(biāo)志物的選定的基因型選擇植物?!暗任换颉被颉暗任换蜃凅w(allelicvariant)”是指遺傳基因座的可選擇形式。每個(gè)基因座的單個(gè)等位基因分別遺傳自各個(gè)親本。如果相同的等位基因存在兩次(即,在每個(gè)同源染色體上一次),則二倍體個(gè)體是純合的,或者如果存在兩個(gè)不同的等位基因,則二倍體個(gè)體是雜合的。本文中使用的術(shù)語“動(dòng)物”意在包括除了植物之外的非人類生物,包括但不限于陪伴動(dòng)物(即寵物)、食用動(dòng)物、役用動(dòng)物(workanimal)、或動(dòng)物園動(dòng)物。優(yōu)選的動(dòng)物包括但不限于魚、貓類、犬類、馬類、白鼬(ferret)以及其它鼬科動(dòng)物(Mustelid)、牛、綿羊以及豬。更優(yōu)選動(dòng)物包括貓類、犬類、馬類以及其它陪伴動(dòng)物,其中貓類、犬類和馬類甚至更為優(yōu)選。本文中使用的術(shù)語“陪伴動(dòng)物”是指人類視為寵物的任何動(dòng)物。本文中所使用的貓類是指貓科(即貓科(Felidae))的任何成員,包括家貓、野貓和動(dòng)物園貓。貓的例子包括但不限于家貓、獅、虎、美洲豹(leopard)、黑豹(panther)、美洲獅(cougar)、短尾貓(bobcat)、猞猁、美洲虎(jaguar)、印度豹(cheetah)以及藪貓(serval)。優(yōu)選的貓為家貓。本文中所使用的犬類是指犬科(familyCanidae)的任何成員,包括但不限于家犬、野狗、狐貍、狼、豺以及山狗(coyote)以及犬科的其它成員。優(yōu)選的犬類為家犬。本文中所使用的馬是指馬科(familyEquidae)的任何成員。馬科動(dòng)物為有蹄哺乳動(dòng)物包括但不限于家馬(domestichorse)和野馬例如馬、驢(ass)、驢子(donkey)以及斑馬。優(yōu)選的馬包括家馬,包括競賽馬。在機(jī)器學(xué)習(xí)上下文中的術(shù)語“關(guān)聯(lián)”是指特征之間的任何相互關(guān)系,不僅是預(yù)測特定的種類或數(shù)值的相互關(guān)系。關(guān)聯(lián)包括但不限于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則、發(fā)現(xiàn)模式、進(jìn)行特征評估、進(jìn)行特征子集選擇、開發(fā)預(yù)測模型以及理解特征之間的相互作用。在本發(fā)明的上下文中的術(shù)語“關(guān)聯(lián)規(guī)則”是指在數(shù)據(jù)集中經(jīng)常同時(shí)出現(xiàn)的元素。其包括但不限于關(guān)聯(lián)模式(associationpattern)、判另Ij模式(discriminativepattern)、頻繁模式(frequentpattern)、閉合模式(closedpattern)以及巨模式(colossalpattern)。在機(jī)器學(xué)習(xí)上下文中的術(shù)語“二元化的”是指被轉(zhuǎn)變?yōu)槎卣?binaryfeature)的連續(xù)的或分類的(categorical)特征?!坝N種群”通常是指在育種程序中用作親本的植物的集合。通常,在遺傳和表型兩個(gè)方面對育種種群中的個(gè)體植物進(jìn)行表征。術(shù)語“數(shù)據(jù)挖掘,,是指使用減少、建模、理解或分析數(shù)據(jù)的計(jì)算機(jī)算法從數(shù)據(jù)中鑒定或提取關(guān)系和模式。術(shù)語“決策樹”是指任何種類的基于樹的學(xué)習(xí)算法,包括但不限于模型樹、分類樹(classificationtree)禾口回歸樹。在機(jī)器學(xué)習(xí)的上下文中的術(shù)語“特征”或“屬性(attribute)”是指一種或多種原始輸入變量、一種或多種經(jīng)處理的變量、或其它變量(包括原始變量和經(jīng)處理的變量)的一種或多種數(shù)學(xué)組合。特征可以是連續(xù)的或離散的。特征可以經(jīng)由通過任何過濾器算法或任何統(tǒng)計(jì)方法進(jìn)行的處理以產(chǎn)生。特征可以包括但不限于DNA標(biāo)志物數(shù)據(jù)、單元型數(shù)據(jù)、表型數(shù)據(jù)、生化數(shù)據(jù)、微陣列數(shù)據(jù)、環(huán)境數(shù)據(jù)、蛋白質(zhì)組學(xué)數(shù)據(jù)以及代謝數(shù)據(jù)。本發(fā)明上下文中的術(shù)語“特征評估”是指對特征進(jìn)行評級或進(jìn)行評級然后基于它們對于目標(biāo)特征的影響選擇特征。短語“特征子集”是指一種或多種特征的組?!盎蛐汀笔侵讣?xì)胞或單個(gè)植物或生物關(guān)于一個(gè)或多個(gè)分子遺傳標(biāo)志物或等位基因的遺傳組成(geneticmakeup)?!皢卧汀笔侵競€(gè)體遺傳自一個(gè)親本的等位基因的組。術(shù)語單元型還可以指物理連鎖的和/或不連鎖的與目標(biāo)特征關(guān)聯(lián)的分子遺傳標(biāo)志物(例如多態(tài)性序列)。單元型還可以指在染色體上物理連鎖的兩個(gè)或更多個(gè)分子遺傳標(biāo)志物的組。在機(jī)器學(xué)習(xí)的上下文中術(shù)語“實(shí)例”是指來自數(shù)據(jù)集的例子。本發(fā)明上下文中的術(shù)語“相互作用”是指通過一個(gè)特征對另一個(gè)特征的依賴性產(chǎn)生的特征和目標(biāo)特征之間的關(guān)聯(lián)。在機(jī)器學(xué)習(xí)的上下文中術(shù)語“學(xué)習(xí)”是指鑒定和訓(xùn)練用于完成感興趣的任務(wù)的適合的算法。術(shù)語“學(xué)習(xí)”包括但不限于關(guān)聯(lián)學(xué)習(xí)(associationlearning)、分類學(xué)習(xí)(classificationlearning)、聚類(clustering)以及數(shù)值預(yù)測(numericprediction)。術(shù)語“機(jī)器學(xué)習(xí)”涉及研究計(jì)算機(jī)程序的設(shè)計(jì)的計(jì)算機(jī)科學(xué)領(lǐng)域,所述計(jì)算機(jī)程序可以用于根據(jù)過去的經(jīng)驗(yàn)歸納出模式、規(guī)律或規(guī)則以對于未來數(shù)據(jù)產(chǎn)生合適的響應(yīng),或以有意義的方式描述該數(shù)據(jù)。在本發(fā)明的上下文中,“機(jī)器學(xué)習(xí)”算法意指關(guān)聯(lián)規(guī)則算法(例如,Apriori、判別模式挖掘、頻繁模式挖掘(frequentpatternmining)、閉合模式挖掘(closedpatternmining)、巨模式挖掘以及自組織映射)、特征評估算法(例如,信息增益、Relief、ReliefF,RReliefF、對稱不確定性、增益率和評級器)、子集選擇算法(例如,包裝器、一致性(consistency)、分類器(classifier)、基于關(guān)聯(lián)性的特征(CFS))、支持向量機(jī)、貝葉斯網(wǎng)絡(luò)、分類規(guī)則、決策樹、神經(jīng)網(wǎng)絡(luò)、基于實(shí)例的算法、使用在本文中列出的算法的其它算法(例如,投票、疊加、代價(jià)敏感分類器)以及任何其它算法,所述其它算法是在計(jì)算機(jī)科學(xué)領(lǐng)域涉及根據(jù)過去的經(jīng)驗(yàn)歸納出模式、規(guī)律或規(guī)則以產(chǎn)生對于未來數(shù)據(jù)的合適的響應(yīng),或以有意義的方式描述該數(shù)據(jù)的算法。術(shù)語“模型開發(fā)”是指建立一個(gè)或多個(gè)用于數(shù)據(jù)挖掘的模型的過程。術(shù)語“分子遺傳標(biāo)志物”是指下述中的任一簡單序列重復(fù)(SSR)、切割擴(kuò)增多態(tài)性序列(CAPS)、簡單序列長度多態(tài)性(SSLP)、限制性片段長度多態(tài)性(RFLP)、隨機(jī)擴(kuò)增多態(tài)性DNA(RAPD)標(biāo)志物、單核苷酸多態(tài)性(SNP)、任意片段長度多態(tài)性(AFLP)、插入、缺失、來源于DNA、RNA、蛋白質(zhì)或代謝產(chǎn)物的任何其它類型的分子遺傳標(biāo)記物和它們的組合。分子遺傳標(biāo)志物還指用作探針的多核苷酸序列。術(shù)語“表型性狀”或“表型”是指生物的可觀察到的物理的或生化的特征,其由遺傳組成和環(huán)境影響兩者來決定。表型是指特定基因型的可觀察到的表達(dá)。術(shù)語“植物”包括高等和低等植物類別,包括被子植物(單子葉和雙子葉植物)、裸子植物、蕨類植物以及多細(xì)胞藻類。其包括不同倍體水平的植物,包括非整倍體、多倍體、二倍體、單倍體以及半合子植物。術(shù)語“基于植物的分子遺傳標(biāo)志物”是指下述任一簡單序列重復(fù)(SSR)、切割擴(kuò)增多態(tài)性序列(CAPS)、簡單序列長度多態(tài)性(SSLP)、限制性片段長度多態(tài)性(RFLP)、隨機(jī)擴(kuò)增多態(tài)性DNA(RAPD)標(biāo)志物、單核苷酸多態(tài)性(SNP)、任意片段長度多態(tài)性(AFLP)、插入、缺失、來源于植物DNA、RNA、蛋白質(zhì)或代謝產(chǎn)物的任何其它類型的分子遺傳標(biāo)記物和它們的組合。分子遺傳標(biāo)志物還指用作探針的多核苷酸序列。本發(fā)明上下文中的術(shù)語“現(xiàn)有知識”是指可以用于修改機(jī)器學(xué)習(xí)算法性能的任何形式的信息。表明個(gè)體之間的相互關(guān)系(relatedness)的程度的關(guān)系矩陣(relationshipmatrix)是現(xiàn)有知識的例子?!岸ㄐ孕誀睢蓖ǔJ侵溉缦绿卣鳎撎卣饔梢粋€(gè)或少數(shù)幾個(gè)基因調(diào)控并且在性質(zhì)上是離散的。定性性狀的例子包括花的顏色、穗軸顏色和疾病抗性?!皵?shù)量性狀”通常是指可以被量化的特征。數(shù)量性狀通常在種群的個(gè)體之間展現(xiàn)連續(xù)變化。數(shù)量性狀通常是遺傳基因座與環(huán)境相互作用的結(jié)果或是多個(gè)遺傳基因座彼此之間和/或與環(huán)境相互作用的結(jié)果。數(shù)量性狀的例子包括谷物產(chǎn)率、蛋白質(zhì)含量以及紗線強(qiáng)度。與特征相關(guān)的術(shù)語“評級(ranking)”是指對特征進(jìn)行順序排列,例如分子遺傳標(biāo)志物可以通過它們與性狀相關(guān)的預(yù)測能力來進(jìn)行評級。術(shù)語“自組織映射”是指通常用于高維數(shù)據(jù)(high-dimensionaldata)的可視化以及分析的無監(jiān)督的(unsupervised)學(xué)習(xí)技術(shù)。在機(jī)器學(xué)習(xí)的上下文中的術(shù)語“監(jiān)督的”是指在監(jiān)督下操作的方法,其通過提供針對每個(gè)訓(xùn)練實(shí)例的實(shí)際結(jié)果來實(shí)現(xiàn)。在機(jī)器學(xué)習(xí)的上下文中的術(shù)語“支持向量機(jī)”包括但不限于用于分類目的的支持向量分類器(supportvectorclassifier),以及用于數(shù)字預(yù)測的支持向量回歸機(jī)(supportvectorregression)??梢詧?zhí)行其它算法(例如,序列最小優(yōu)化方法(SMO))來訓(xùn)練支持向量機(jī)。本發(fā)明上下文中的術(shù)語“目標(biāo)特征”是指但不限于有興趣進(jìn)行預(yù)測或解釋的特征,或者有興趣使用該特征來開發(fā)關(guān)聯(lián)的特征。數(shù)據(jù)挖掘成果可以包括一個(gè)目標(biāo)特征或多于一個(gè)目標(biāo)特征,以及術(shù)語“目標(biāo)特征”可以指一個(gè)或多于一個(gè)特征?!澳繕?biāo)特征”可以包括但不限于DNA標(biāo)志物數(shù)據(jù)、表型數(shù)據(jù)、生化數(shù)據(jù)、微陣列數(shù)據(jù)、環(huán)境數(shù)據(jù)、蛋白質(zhì)組學(xué)數(shù)據(jù)以及代謝數(shù)據(jù)。在機(jī)器學(xué)習(xí)領(lǐng)域,當(dāng)“目標(biāo)特征”是離散的,通常將其稱為“類(class)”。谷物產(chǎn)率是目標(biāo)特征的例子。在機(jī)器學(xué)習(xí)的上下文中術(shù)語“無監(jiān)督的”是指在沒有監(jiān)督下運(yùn)行的方法,其通過不提供針對每個(gè)訓(xùn)練實(shí)例的實(shí)際結(jié)果來實(shí)現(xiàn)。一些相關(guān)方法的理論概述和實(shí)用方面關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘(ARM)是用于提取特征之間有意義的關(guān)聯(lián)模式的技術(shù)。適合于學(xué)習(xí)關(guān)聯(lián)規(guī)則的機(jī)器學(xué)習(xí)算法之一是APriori算法。ARM算法通常的第一步是在所有的觀察結(jié)果中找出最為頻繁的事項(xiàng)或特征的集合。它們也被稱為頻繁項(xiàng)目集(frequentitemset)。它們的頻率也稱作支持(support)(用戶可以確定最小支持閾值(minimumsupportthreshold)用于將一個(gè)項(xiàng)目集認(rèn)作是頻繁的)。一旦獲得了頻繁項(xiàng)目集,就從它們提取規(guī)則(例如利用用戶指定的最小信心度評估(minimumconfidencemeasure))。后一部分與前部分不一樣,不是計(jì)算密集型的。因此,ARM算法的目標(biāo)集中在發(fā)現(xiàn)頻繁項(xiàng)目集。頻繁項(xiàng)目集不一定是數(shù)據(jù)集的核心(最為相關(guān)的)信息模式,因?yàn)橥ǔT谀J街写嬖诖罅咳哂?。結(jié)果,很多應(yīng)用倚靠于獲得頻繁閉合模式(frequentclosedpattern)0頻繁閉合模式是如下模式該模式滿足用戶指定的最小支持要求(minimalsupportrequirement)并且不具有和其直接的超集(immediatesuperset)相同的支持。如果至少一個(gè)直接的超集具有與其相同的支持計(jì)數(shù)(supportcount),則頻繁模式不是閉合的。找到頻繁閉合模式可以實(shí)現(xiàn)找到在特征之間的相關(guān)相互作用的子集。Apriori算法通過合并具有n_l個(gè)特征的頻繁項(xiàng)目集以形成具有η個(gè)特征的頻繁項(xiàng)目集進(jìn)行迭代運(yùn)算。該過程隨著特征數(shù)量的增加執(zhí)行時(shí)間成指數(shù)增長。因此,針對具有大量特征的數(shù)據(jù)集,利用Apriori算法提取頻繁項(xiàng)目集變成了計(jì)算密集型的??梢酝ㄟ^一些現(xiàn)有的算法來解決發(fā)現(xiàn)頻繁閉合項(xiàng)目集的規(guī)??勺冃詥栴}。CARPENTER,深度優(yōu)先的行枚舉算法(d印th-firstrowenumerationalgorithm)能夠從具有大量特征的大型生物數(shù)據(jù)集中發(fā)現(xiàn)頻繁閉合模式。隨著樣品數(shù)量的增加,CARPENTER不能很好的放大。其它頻繁模式挖掘算法是CHARM、CLOSET。兩者均對于深度優(yōu)先的列枚舉算法(depth-firstcolumnenumerationalgorithm)是有效的。COBBLER是列和行的枚舉算法,其隨著特征和樣品數(shù)量的增加可以很好的放大。出于多個(gè)不同的目的,發(fā)現(xiàn)判別頻繁模式(discriminativefrequentpattern)甚至比發(fā)現(xiàn)頻繁閉合關(guān)聯(lián)模式更為有用的。幾種算法從數(shù)據(jù)集中僅會有效地挖掘判別模式。大多數(shù)現(xiàn)有算法執(zhí)行用于發(fā)現(xiàn)判別模式的兩步方法(twosetapproach)(a)發(fā)現(xiàn)頻繁模式(b)從該頻繁模式中獲得判別模式。步驟(a)是非常耗時(shí)的過程并且會得到大量冗余的頻繁模式。DDPMine(直接判別模式挖掘)、判別模式挖掘算法不是按照上述的兩步方法。代替得出頻繁模式,其產(chǎn)生了描述數(shù)據(jù)的收縮FP-樹。該過程不僅減少了問題的大小,而且還加速了挖掘過程。其使用信息增益作為量度以挖掘判別模式。其它的判別模式挖掘算法為HARM0NY、RCBT和PatClass。HARMONY是實(shí)例中心基于規(guī)則的分類器(instance-centricrule-basedclassifier)。其直接挖掘分類規(guī)則的最終集合。RCBT分類器如下工作通過首先對于每一列確定top-k覆蓋規(guī)則組(top-kcoveringrulegroup)并且使用它們用于分類框架。PatClass利用兩步過程通過首先挖掘頻繁項(xiàng)目集,然后進(jìn)行特征選擇步驟。大多數(shù)現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘算法返回小型頻繁(smallsizedfrequent)或閉合模式。隨著特征數(shù)量的增加,大型(largesized)頻繁或閉合模式的數(shù)量也增加。對于具有大量特征的數(shù)據(jù)集,得出所有長度的所有頻繁模式在計(jì)算方面過于昂貴,甚至是不可能的。模式融合算法試圖通過跳過模式搜索間隔(takeleapsinthepatternsearchspace)將小頻繁模式合并成巨模式來解決上述問題。自組織映射自組織映射(SOM)也稱為Kohonen網(wǎng)絡(luò)保留圖(Kohonennetworkpreservingmap),是無監(jiān)管的學(xué)習(xí)技術(shù),其通常用于高維數(shù)據(jù)的可視化和分析。典型的應(yīng)用集中于可視化圖中數(shù)據(jù)內(nèi)的中心依賴性(centrald印endencies)。其已經(jīng)被應(yīng)用的一些領(lǐng)域包括自動(dòng)語音識別、臨床聲音分析(clinicalvoiceanalysis)、衛(wèi)星圖像的分類、來自腦的電信號的分析和從大量文件集中的組織(organization)和檢索(retrieval)。通過SOM產(chǎn)生的圖已經(jīng)被用來通過使用SOM集群(S0Mcluster)(在SOM訓(xùn)練過程中確定的視覺的集群)加速通過例如Apriori方法進(jìn)行的關(guān)聯(lián)規(guī)則的鑒定。SOM圖包括處理單元,S卩“神經(jīng)元”的網(wǎng)格(grid)。每個(gè)神經(jīng)元與特征向量(觀察結(jié)果(observation))相關(guān)聯(lián)。該圖試圖使用有限的模型集合以最佳精度來表現(xiàn)所有的可用觀察結(jié)果(availableobservation)。在同一時(shí)間,在網(wǎng)格上模型變得有序,從而使得相似的模型彼此靠近,而不相似的模型彼此遠(yuǎn)離。該過程可以實(shí)現(xiàn)數(shù)據(jù)中特征之間的依賴性或關(guān)聯(lián)的鑒定以及可視化。在SOM的訓(xùn)練階段中,使用競爭學(xué)習(xí)算法來將模型向量擬合至神經(jīng)元的網(wǎng)格。其是一個(gè)連續(xù)回歸過程(sequentialregressionprocess),其中t=1,2,...是步驟指數(shù)對于每個(gè)樣品x(t),首先通過下述條件來確定獲勝者指數(shù)c(最佳匹配神經(jīng)元(bestmatchingneuron))V,,Ilx(t)—mc(OIl<Ilx(t)—mit)||然后,將屬于以節(jié)點(diǎn)c=C(X)為中心圍繞的節(jié)點(diǎn)的所有模型向量或它們的子集如下更新Iiii(t+1)=Hii(t)+hc(x)ji(χ(t)-Iiii(t))其中mc是第c(即獲勝者)節(jié)點(diǎn)的平均權(quán)重向量。Hii是第i節(jié)點(diǎn)的平均權(quán)重向量。hc(x)ji是“鄰域函數(shù)(neighborhoodfunction)”,是圖的網(wǎng)格上第i和第c節(jié)點(diǎn)之間距離的遞減函數(shù)。Hii(t+Ι)是第t步之后經(jīng)更新的權(quán)重向量。該回歸通常在可用的觀察結(jié)果上重復(fù)迭代(reiterate)。SOM算法已經(jīng)被頻繁用于探索實(shí)體(entity)之間的空間和時(shí)間的相互關(guān)系。觀察結(jié)果之間的相互關(guān)系和關(guān)聯(lián)是基于這些觀察結(jié)果在圖上的空間聚集得出的。如果神經(jīng)元表示不同的時(shí)間狀態(tài),則該圖顯示出觀察結(jié)果之間的時(shí)間模式。特征評估特征評估算法的一個(gè)主要目的在于理解產(chǎn)生數(shù)據(jù)的基本過程(underlyingprocess)0這些方法還經(jīng)常用于減少“迷惑性”特征數(shù),以實(shí)現(xiàn)提高分類算法的性能的目的(參見Guyon禾口Elisseeff(2003)·AnIntroductiontoVariableandFeatureSelection.JournalofMachinelearningResearch3,1157-1182)。術(shù)語“變量”有時(shí)用于代替較寬的術(shù)語“特征”或“屬性”。特征(或?qū)傩?選擇是指通過方法(例如核方法(kernelmethod))處理的變量的選擇,但是有時(shí)用來指原始輸入變量的選擇。這些特征評估算法的期望的輸出通常是基于它們對于目標(biāo)特征的影響而對特征進(jìn)行的評級或者進(jìn)行評級繼之以特征的選擇??梢酝ㄟ^不同方式來測量這樣的影響。信息增益是適合于特征評估的機(jī)器學(xué)習(xí)方法之一。信息增益的定義需要信息熵(entropy)的定義,其是訓(xùn)練實(shí)例的集合中雜質(zhì)(impurity)的量度。通過知道特定特征的值實(shí)現(xiàn)目標(biāo)特征的信息熵的減少稱作信息增益。信息增益可以用作確定特征在解釋目標(biāo)特征中的效力的參數(shù)。本文描述的基于關(guān)聯(lián)性的特征選擇(CFS)算法利用對稱不確定性,其通過將特征標(biāo)準(zhǔn)化至范圍來補(bǔ)償信息增益針對具有多個(gè)值的特征的偏向(bias)。對稱不確定性始終在01之間。其是用于測量兩個(gè)表觀特征(nominalfeature)之間的相關(guān)性的一種方法。評級算法也可以用于在每一次(eachfold)交叉驗(yàn)證時(shí)通過它們的單獨(dú)評估來對特征評級,并且輸出平均價(jià)值(averagemerit)以及對每個(gè)特征的評級。Relief是屬性評估算法(attributeevaluatoralgorithm)的一類,其可以用于本文所公開的特征評估步驟。該類含有能夠用于處理分類的或連續(xù)的目標(biāo)特征的算法。這樣寬的范圍使得它們可以用于數(shù)種數(shù)據(jù)挖掘用途。原始的Relief算法具有數(shù)種版本和擴(kuò)展。例如,ReliefF是原始Relief算法的擴(kuò)展,其不限于兩類問題且可以處理不完整的數(shù)據(jù)集。ReliefF還比Relief更魯棒,并且能夠處理噪音數(shù)據(jù),。通常,在Relief和ReliefF中,評估的特征重要性是通過對于每一個(gè)實(shí)例分配給該特征的分?jǐn)?shù)的總和來確定的。每個(gè)分?jǐn)?shù)取決于在確定實(shí)例的類別中有多重要。如果特征在確定類別中是決定性的,特征得到最大值。當(dāng)將大量不提供信息的特征加入到分析中時(shí),對于這些算法需要大量實(shí)例以收斂到(convergeto)每個(gè)特征價(jià)值(worth)的正確評估。當(dāng)處理幾個(gè)鄰近的未命中(neighboringmiss)時(shí),重要的特征是那些它們的值的最小變化會導(dǎo)致所評估的實(shí)例的類別中的變化的特征。在ReliefF中,當(dāng)實(shí)例的數(shù)量巨大時(shí),接近的命中(nearhits)發(fā)揮最小的作用而接近的未命中(nearmiss)發(fā)揮巨大的作用,但是對于實(shí)際大小的問題,接近的命中發(fā)揮稍大的作用。RReliefF是ReliefF的擴(kuò)展,其處理連續(xù)目標(biāo)特征。正更新(positiveupdate)形成了特征將具有不同類別值(classvalue)的實(shí)例加以區(qū)別的可能性(probability)。另一方面,負(fù)更新(negativeupdate)形成了特征將具有相同類別值的實(shí)例加以區(qū)別的可能性。在回歸問題中,通常難以推斷兩個(gè)實(shí)例是否屬于同一類或者不屬于同一類,因此該算法引入了概率值(probabilityvalue),該值預(yù)測兩個(gè)實(shí)例的值是否不同。因此,RReliefF算法對沒有分開相似預(yù)測值的特征進(jìn)行獎(jiǎng)勵(lì),而對沒有分開不同預(yù)測值的特征進(jìn)行懲罰。RReliefF與Relief和ReliefF不同,其不使用符號,因此不使用命中(hit)和未命中(miss)的概念。RReliefF認(rèn)為好的特征是如下特征該特征分開具有不同預(yù)測值的實(shí)例,并且不區(qū)分具有接近預(yù)測值的實(shí)例。通過來自Relief算法類的算法產(chǎn)生的評估依賴于所使用的相鄰元素(neighbor)的數(shù)量。如果不使用對相鄰元素?cái)?shù)量的限制,則每個(gè)特征將會受到數(shù)據(jù)集中的所有樣品的影響。對于所使用的樣品數(shù)量的限制通過Relief算法提供評估,該評估是在實(shí)例空間(instancespace)的較小部分中的局部評估的平均值。這些局部預(yù)測使得Relief算法當(dāng)更新每個(gè)特征的權(quán)重時(shí)能夠考慮其它特征,同時(shí)近鄰(nearest-neighbor)通過考慮所有特征的距離量度來確定。因此,Relief算法對于包括在數(shù)據(jù)集中的特征的數(shù)量和有效性敏感。其他特征通過其對于正在更新的特征的條件依賴性(conditionaldependency)考慮到預(yù)測的值來考慮,該預(yù)測值可以在局部的上下文中(inthecontextoflocality)探測。實(shí)例之間的距離通過“相關(guān)的”和“無關(guān)的”特征的值的差異的總和來確定。作為其它k_近鄰算法,這些算法對無關(guān)特征不具魯棒性。因此,在存在大量不相關(guān)特征時(shí),建議使用大k值(即,增加近鄰的數(shù)量)。這樣操作,可以為相關(guān)特征提供更好的條件以對每個(gè)特征“施加”“正確的”更新。但是,已經(jīng)知道當(dāng)在權(quán)重公式(weightformula)中所使用的近鄰的數(shù)量過大時(shí),Relief算法可能會失去功能,經(jīng)常混淆提供信息的特征。當(dāng)考慮所有樣品時(shí)尤為如此,因?yàn)樵诿泻臀疵兄g僅會存在較小的對稱性,當(dāng)僅考慮少量近鄰時(shí),該對稱性則更加顯著。Relief算法的能力來自于利用局部上下文而提供全局觀察的能力。在計(jì)算實(shí)例之間的歐氏距離(Euclidiandistance)或曼哈頓距離(Manhattandistance)以確定近鄰時(shí),與表觀特征相比,RReliefF算法可能會趨于低估重要的數(shù)字特征。RReliefF還高估隨機(jī)(非重要)數(shù)字特征,潛在地降低兩組特征的可分離性(s印arability)??梢允褂眯逼潞瘮?shù)(rampfunction)(參見Hong(1994)Useofcontextualinformationforfeaturerankinganddiscretization.TechnicalReportRC19664,IBM;以及Hong(1997)IEEEtransactionsonknowledgeanddataengineering,9(5)718-730)以克服RReliefF的上述問題。當(dāng)對應(yīng)當(dāng)分配給給定的特征集合中每個(gè)特征的權(quán)重進(jìn)行評估時(shí),與較遠(yuǎn)的實(shí)例相比強(qiáng)調(diào)較近的實(shí)例是標(biāo)準(zhǔn)的實(shí)踐。然而,使用過小數(shù)量具有噪音和復(fù)雜目標(biāo)特征的相鄰元素通常是較為危險(xiǎn)的,因?yàn)檫@可能會導(dǎo)致魯棒性的損失。使用較大數(shù)量的近鄰避免了減少一些特征的重要性,就這些特征而言前10的(例如)近鄰是暫時(shí)相似的。隨著相鄰元素?cái)?shù)量的減少,這樣的特征喪失重要性。如果將所有相鄰元素的影響按相同處理(忽視它們與查詢點(diǎn)(querypoint)的距離),則建議的近鄰的數(shù)量值通常為10。如果考慮距離,則建議值通常為具有指數(shù)遞減影響的70個(gè)近鄰。ReliefF和RReliefF是上下文敏感的(contextsensitive),因此在分析中其對隨機(jī)(非重要)特征的數(shù)量比近視測量(myopicmeasure)(例如增益率和MSE)更為敏感。Relief算法在其它特征的上下文中評估每個(gè)特征并且較好的特征得到更高的分?jǐn)?shù)。當(dāng)在數(shù)據(jù)集中有數(shù)以百計(jì)的重要特征時(shí),Relief算法傾向于低估不太重要的特征,但是重復(fù)的或高度冗余的特征會共享分?jǐn)?shù)(credit)并且看起來比它們實(shí)際上更為重要。能夠出現(xiàn)這樣的情況是因?yàn)樘卣鞯念~外復(fù)本會改變在其中搜索近鄰的問題空間。使用近鄰,僅當(dāng)兩個(gè)鄰近實(shí)例的特征值之間存在差異時(shí)才會發(fā)生更新。因此,如果兩個(gè)近鄰之間的差異為零,在近鄰的給定集合上對于給定的特征不會出現(xiàn)更新。高度冗余的特征的這些差異會總是等于零,其減少了在整個(gè)鄰近實(shí)例和特征中更新的機(jī)會。近視評估器(myopicestimator)例如增益率和MSE對于重復(fù)的特征不敏感。但是,如果在特征之間存在相互作用,則Relief算法會表現(xiàn)得優(yōu)于近視算法(myopicalgorithm)。子集選擇子集選擇算法倚靠評估方法(例如對稱不確定性和信息增益)以及搜索方法(例如評級器、窮舉搜索、最好優(yōu)先以及貪婪爬山(greedyhill-climbing))的結(jié)合。子集選擇算法類似于特征評估算法,對特征的子集進(jìn)行評級。但是,與特征評估算法相對,子集選擇算法的目標(biāo)在于選擇對于目標(biāo)特征具有最大影響的特征的子集,同時(shí)說明子集中包括的特征之間的冗余程度。設(shè)計(jì)子集選擇算法使得其對于多重共線性和缺失值具有魯棒性,從而可以實(shí)現(xiàn)從成百或甚至成千的特征的初始池中進(jìn)行選擇。特征子集選擇的優(yōu)點(diǎn)包括促進(jìn)數(shù)據(jù)的可視化和理解,減少測量和存儲需求,減少訓(xùn)練和使用時(shí)間,并且去除迷惑性特征以改善分類。例如,來自子集選擇方法的結(jié)果對于植物和動(dòng)物遺傳學(xué)者是有用的,因?yàn)檫@些結(jié)果可以用來預(yù)選擇分子遺傳標(biāo)志物,該分子遺傳標(biāo)志物將在以表型性狀作為目標(biāo)特征的標(biāo)志物輔助選擇程序中得到分析。這可以顯著地減少必須被檢測的分子遺傳標(biāo)志物的數(shù)量,從而可以減少該項(xiàng)工作所伴隨的成本。子集選擇算法可以適用于寬范圍的數(shù)據(jù)集。在選擇適合的搜索算法時(shí)一個(gè)重要的考慮在于數(shù)據(jù)集中特征的數(shù)量。隨著特征數(shù)量的增加,特征可能的子集數(shù)量將成指數(shù)增加。出于這個(gè)原因,窮舉搜索算法僅適合用于當(dāng)特征的數(shù)量相對較少時(shí)。但是,具有足夠的計(jì)算能力時(shí),可以使用窮舉搜索以確定特征的最相關(guān)子集。存在數(shù)種算法適合用于具有對于窮舉搜索而言過大(或可用計(jì)算能力不足夠大)的特征集合的數(shù)據(jù)集。子集選擇算法的兩個(gè)基本方法是向工作子集(workingsubset)中增加特征的過程(前向選擇(forwardselection))和從現(xiàn)有的特征子集中刪除特征(后向消除(backwardelimination)).在機(jī)器學(xué)習(xí)中,進(jìn)行前向選擇不同于具有相同名稱的統(tǒng)計(jì)方法。在此,使用交叉驗(yàn)證通過評估增加了一個(gè)新特征的當(dāng)前子集的性能,來發(fā)現(xiàn)待加入到當(dāng)前子集中的特征。在前向選擇中,通過向當(dāng)前子集中按順序加入每個(gè)剩余特征來構(gòu)建子集,并同時(shí)利用交叉驗(yàn)證來評估每個(gè)新子集的預(yù)期性能。保留在加入到當(dāng)前子集中時(shí)產(chǎn)生了最佳性能的特征并且繼續(xù)該過程。當(dāng)剩余可用的特征無一改善當(dāng)前子集的預(yù)測能力時(shí),搜索結(jié)束。該過程找出特征的局部(即不需要是全局)最優(yōu)集合。后向消除通過相似的方式實(shí)現(xiàn)。在后向消除中,當(dāng)在特征集合中的進(jìn)一步減少不會改善子集的預(yù)測能力時(shí),搜索結(jié)束。為了針對較小的子集引入偏向(bias),需要對于待增加(在前向選擇過程中)或刪除的特征(在后向消除過程中)改善一定量的預(yù)測能力。在一方面,通過應(yīng)用利用回溯機(jī)構(gòu)(backtrackingfacility)擴(kuò)充的貪婪爬山,最好優(yōu)先算法可以向前、向后或在兩個(gè)方向搜索(通過考慮在給定的點(diǎn)處所有可能的單特征的加入和刪除)(參見Pearl,J.(1984),HeuristicsJntelligentSearchStrategiesforComputerProblemSolving.Addison-ffesley,p.48;andRussell,S.J.,&Norvig,P.ArtificialIntelligence:AModemApproach.2ndedition.PearsonEducation,Inc.,2003,pp.94and95)。該方法保存具有所有之前訪問的子集的列表,并且一旦對于特定子集,預(yù)測能力不再改善時(shí)重新訪問這些子集。如果時(shí)間允許并且沒有施加終止判據(jù)(stopcriterion),則該方法將會搜索整個(gè)空間(即窮舉搜索),當(dāng)與前向選擇和后向消除相比時(shí),更加難以找到局部最大值。最好優(yōu)先的結(jié)果,如所期待的,與窮舉搜索獲得的結(jié)果非常相似。在一方面,束搜索方法(beamsearchmethod)的運(yùn)轉(zhuǎn)類似于最好優(yōu)先,但是在每一個(gè)階段會截短特征子集的列表,因而將其限制到一個(gè)被稱為束寬(beamwidth)的固定數(shù)量上。在一方面,遺傳算法是使用候選子集當(dāng)前列表的隨機(jī)擾動(dòng)以產(chǎn)生新的好的子集的搜索方法(參見Schmitt,LotharM(2001),TheoryofGeneticAlgorithms,TheoreticalComputerScience(259),pp.1-61)。它們是適應(yīng)性的并且是使用基于生物學(xué)中的自然選擇原理的搜索技術(shù)。建立競爭解決方案(Competingsolution)并隨著搜索解決方案空間的時(shí)間而平行進(jìn)化(其有助于避免局部最大)。將交叉(crossover)和突變施加到當(dāng)前一代的成員以產(chǎn)生下一代。從子集中隨機(jī)增加或刪除特征與自然系統(tǒng)中的突變的作用在概念上是類似的。相似地,交叉合并了來自一對子集的特征以形成新的子集。適合度(fitness)的概念引入起作用,這是因?yàn)樵诮o定的世代,最適合(最佳)子集具有更大的可能被選擇以通過交叉和突變形成新的子集。因此,好的子集隨時(shí)間而進(jìn)化。在一方面,方案特效(Scheme-Specific)(包裝器(wrapper))(Kohavi和John(1997),Wrappersforfeatureselection.ArtificialIntelligence,97(1-2)273-324,December1997.)是適合的搜索方法。此處的思路是選擇特征的子集,當(dāng)其用于構(gòu)建具有特定算法的模型時(shí)該子集會具有最佳的分類性能。通過交叉驗(yàn)證、保留集合(holdoutset)或Bootstrap評估器(bootstrapestimator)來評估精度。對于每個(gè)受到評估的特征子集必須完成模型和一組交叉驗(yàn)證輪次(asetofcross-validationfolds)。例如,具有k個(gè)特征和10次交叉驗(yàn)證的前向選擇或者后向消除會進(jìn)行約k2乘以10次學(xué)習(xí)步驟。窮舉搜索算法將會使事物以2k乘以10次學(xué)習(xí)步驟的階次進(jìn)行。對于方案特效搜索顯示了好的結(jié)果,其中后向消除與前向選擇相比得到了更為精確的模型,以及還有更大的子集。更復(fù)雜的技術(shù)不總是合理的,但是在一些情況下可以得到好得多的結(jié)果。統(tǒng)計(jì)顯著性檢測可以用來確定終止搜索的時(shí)間,其基于受到評估的子集會導(dǎo)致對當(dāng)前最佳子集的改善的幾率。在一方面,Race搜索是合適的,該搜索使用t_檢測至少通過一種用戶指定的小閾值(user-specifiedthreshold)來確定某個(gè)子集優(yōu)于當(dāng)前最佳子集的概率。如果在留一法交叉驗(yàn)證(leave-one-outcross-validation)過程中,該概率變小,則可以放棄子集,因?yàn)椴惶赡艹霈F(xiàn)如下情況即向該子集中添加或刪除特征會導(dǎo)致對當(dāng)前最佳子集的改善。在前向選擇中,例如,同時(shí)評估所有對子集的特征添加,并且將不能很好表現(xiàn)的放棄。因此,不是所有的實(shí)例均用來評估所有的子集(在留一法交叉驗(yàn)證中)。Race搜索算法還阻礙(block)所有幾乎相同的特征子集并且使用貝葉斯統(tǒng)計(jì)以保持在對于每個(gè)競爭子集的平均留一法交叉驗(yàn)證誤差的評估上的概率分布。使用前向選擇,但是代替持續(xù)地嘗試對于最佳子集的所有可能的改變,使這些改變進(jìn)行競賽并且當(dāng)交叉驗(yàn)證結(jié)束或剩下單一子集時(shí),結(jié)束競賽。在一方面,概要搜索(schematasearch)是為了競賽(racing)設(shè)計(jì)的更為復(fù)雜的方法,該方法運(yùn)行一系列重復(fù)的競賽(aniterativeseriesofraces),每個(gè)競賽確定是否應(yīng)該包括某個(gè)特征(參見Moore,Α.W.,和Lee,Μ.S.(1994).Efficientalgorithmsforminimizingcross-validationerror.InCohen,W.W.,andHirsh,H.,eds.,MachinelearningProceedingsoftheEleventhInternationalConference.MorganKaufmarm)。搜索開始于將所有特征標(biāo)注為未知,而非特征的空集或全集。以相等的概率使用未知特征的所有組合。在每一輪,選擇特征并且使具有以及不具有所選擇的特征的子集進(jìn)行競賽。在評估中的每一個(gè)點(diǎn)上,隨機(jī)地包括或排除其它構(gòu)成子集的特征。使用競賽的獲勝者作為下一輪競賽的起始點(diǎn)。考慮概率性框架,好的特征將會包括在最終的子集中,即使其依賴于另外的特征。在加速搜索過程的同時(shí),概要搜索考慮相互作用的特征,且已經(jīng)顯示比Race搜索(其使用前向或后向選擇)更為高效且快速得多。在一方面,例如,評級競賽搜索(rankracesearch)基于它們的信息增益來為特征排序,并且隨后使用基于特征的評級的子集來進(jìn)行競賽。在沒有特征的條件下開始競賽,通過評級最高的特征、最高的兩個(gè)特征、最高的三個(gè)特征等等來繼續(xù)競賽??梢允褂媒徊骝?yàn)證來確定對于具體數(shù)據(jù)集的最佳搜索方法。在一方面,選擇性樸素貝葉斯使用例如前向選擇的搜索算法以避免包括冗余特征以及彼此依賴的特征(參見例如,Domingos,Pedro和MichaelPazzani(1997)〃OntheoptimalityofthesimpleBayesianclassifierunderzero-oneloss".Machinelearning,29:103_137)。通過簡單地使用訓(xùn)練集合來測試子集的性能以找到最佳子集。過濾器方法獨(dú)立于任何學(xué)習(xí)算法運(yùn)行,而包裝器方法(wrappermethod)倚靠于具體的學(xué)習(xí)算法并且利用例如交叉驗(yàn)證的方法來評估特征子集的精度。包裝器通常比過濾器表現(xiàn)更好,但是慢得多,并且只要是使用了不同的學(xué)習(xí)算法或者甚至是當(dāng)使用了一組不同的參數(shù)時(shí),均必須重新運(yùn)行。包裝器方法的性能依賴于使用的是哪一種學(xué)習(xí)算法,用于評估學(xué)習(xí)算法的無樣品(off-sample)精度的程序,以及搜索的組織。對于子集的選擇,過濾器(例如,CFS算法)比包裝器快很多(由于上述指出的原因),所以,過濾器可以用于更大的數(shù)據(jù)集。過濾器還可以通過為包裝算法提供起始特征子集來提高特定算法的精度。由此,該過程加速了包裝器分析(wrapperanalysis)0CFS算法的原始版本僅測量離散特征之間的相互關(guān)系,所以該方法首先會使所有連續(xù)特征離散。較新的版本處理連續(xù)的特征而不需要離散化。CFS考慮到目標(biāo)特征假設(shè)各特征是獨(dú)立的。如果存在強(qiáng)的特征依賴性,CFS的性能可能受到影響并且可能無法選擇所有的相關(guān)特征。CFS對于消除冗余和不相關(guān)的特征是有效的,并且在特征之間不存在強(qiáng)依賴性時(shí)CFS會檢測所有的相關(guān)特征。CFS會接受如下特征,所述特征能夠在尚未通過其它特征預(yù)測的實(shí)例空間區(qū)域中預(yù)測響應(yīng)變量(responsevariable)0存在CFS的變型(variation),其能夠改善局部預(yù)測特征的探測,在強(qiáng)的全局預(yù)測特征遮蔽(overshadow)局部預(yù)測特征的情況下是非常重要的。已經(jīng)證明,在很多時(shí)候CFS優(yōu)于包裝器(Hall,Μ·Α.1999.Correlation-basedfeatureselectionforMachineLearning.Ph.D.thesis.DepartmentofComputerScience-TheUniversityofWaikato,NewZealand.),特別是對小數(shù)據(jù)集,以及在存在小的特征依賴性的情況下。在CFS算法的情況下,評估函數(shù)的分子表明子集具有多大的目標(biāo)特征的預(yù)測性,而分母表明子集中的特征有多少冗余。在原始的CFS算法中,首先利用Fayyad和Irani方法(Fayyad,U.M.禾口Irani,K.B..1993.Multi-intervaldiscretisationofcontinuous-valuedattributesforclassificationlearning.InProceedingsoftheThirteenthInternationalJoinConferenceonArtificialIntelligence.MorganKaufmann,1993.)使目標(biāo)特征離散。然后,該算法計(jì)算所有的特征-目標(biāo)特征的相互關(guān)系(其將會用在評估函數(shù)的分子中)以及所有的特征_特征相互關(guān)系(其將會用在評估函數(shù)的分母中)。然后,算法搜索特征子集空間(利用任何用戶-確定的搜索方法)尋找最佳子集。在CFS算法的變形中,使用對稱不確定性來計(jì)算相互關(guān)系。CFS的最大假設(shè)在于考慮到目標(biāo)特征,各特征是獨(dú)立的(即,不存在相互關(guān)系)。因此,如果存在強(qiáng)相互作用,CFS可能無法探測相關(guān)特征。期望CFS在適當(dāng)(moderate)水平的相互作用條件下可以表現(xiàn)良好。CFS趨于處罰噪音特征。CFS對于小的特征子集是具有嚴(yán)重偏向,在一些情況下會導(dǎo)致精度降低。CFS不高度依賴于所使用的搜索方法??梢栽O(shè)置CFS使其放置更多的值在局部預(yù)測特征上,即使這些特征沒有顯示優(yōu)異的全局預(yù)測能力。如果沒有設(shè)置來解釋局部預(yù)測特征,CFS對于小子集的偏向可能會排除這些特征。在小數(shù)據(jù)集方面CFS可能會優(yōu)于包裝器,這也是因?yàn)槠洳恍枰菢觾Υ娌糠謹(jǐn)?shù)據(jù)集用來檢測。當(dāng)存在相互作用時(shí),包裝器表現(xiàn)優(yōu)于CFS。具有前向選擇的包裝器可以用于探測成對的相互作用,但是需要后向消除來探測較高水平的相互作用。但是,后向搜索(backwardsearch)使包裝器甚至更為緩慢。雙方向搜索可以用于包裝器,以通過CFS算法選擇的子集開始。該種巧妙的方法可以顯著地減少利用包裝器完成搜索所需的時(shí)間的量。模型開發(fā)為了對大數(shù)據(jù)集建模,取決于數(shù)據(jù)的性質(zhì),可以使用數(shù)種算法。在一方面,例如,貝葉斯網(wǎng)絡(luò)方法對于推理提供有用的靈活的概率性方法(probabilisticapproach)0^h^7jM,Bayes(Bayesoptimalclassifieralgorithm)是針對新的記錄應(yīng)用最大后驗(yàn)假設(shè)(maximumaposteriorihypothesis)以預(yù)測其分類的概率(Friedman等人(1997),Bayesiannetworkclassifiers.Machinelearning,29:131-163)。該算法還考慮由每個(gè)通過訓(xùn)練集合獲得的其它假設(shè)的概率(不僅是最大后驗(yàn)假設(shè))并且使用這些概率作為用于未來預(yù)測的權(quán)重因數(shù)(weightingfactor)。因此,利用所有通過它們的后驗(yàn)概率(posteriorprobability)加權(quán)的假設(shè)(即所有可能的模型)來進(jìn)行未來預(yù)測。在一方面,考慮到特征的聯(lián)合概率(jointprobability),樸素貝葉斯分類器向記錄(record)分配最可能的分類。計(jì)算聯(lián)合概率需要大的數(shù)據(jù)集,并且是計(jì)算密集型的。樸素貝葉斯分類器是稱為貝葉斯網(wǎng)絡(luò)的更大算法類別的一部分。這些貝葉斯網(wǎng)絡(luò)中的一些可以放寬(relax)特征之間關(guān)于獨(dú)立性的由樸素貝葉斯算法建立的強(qiáng)假設(shè)。貝葉斯網(wǎng)絡(luò)是對于每個(gè)節(jié)點(diǎn)具有條件概率分布(conditionalprobabilitydistribution)的有向無環(huán)2圖(directacyclicgraph(DAG))。其倚靠于以下假設(shè)考慮到目標(biāo)特征(樸素貝葉斯)或其親本,特征是條件性獨(dú)立的,其可能需要包括目標(biāo)特征(貝葉斯擴(kuò)展網(wǎng)絡(luò)(Bayesianaugmentednetwork))或不需要包括目標(biāo)特征(一般貝葉斯網(wǎng)絡(luò))。將條件獨(dú)立性的假設(shè)限于特征的子集,而這導(dǎo)致條件獨(dú)立性假設(shè)的集合,連同條件概率的集合。輸出反映對于某個(gè)特征集合的聯(lián)合概率的描述。在一方面,不同的搜索算法可以在這些區(qū)域中的每一個(gè)中使用軟件包(package)TOKA來實(shí)現(xiàn),并且可以通過簡單的評估器或通過貝葉斯模型平均(Bayesianmodelaveraging(BMA))來計(jì)算才既率表(probabilitytable)。關(guān)于搜索最佳網(wǎng)絡(luò)結(jié)構(gòu)的方法,一種選擇是使用基于全局評分矩陣的算法(globalscoremetric-basedalgorithm)。這些算法倚靠于利用留一法、k次或累積交叉驗(yàn)證(cumulativecross-validation)進(jìn)行的交叉驗(yàn)證。留一法方法隔離出一個(gè)記錄,訓(xùn)練數(shù)據(jù)集的剩余部分,并且評估該隔離的記錄(重復(fù)地,對于每個(gè)記錄)。k次方法(k-foldmethod)將數(shù)據(jù)分割成k個(gè)部分,隔離這些部分中的一個(gè),訓(xùn)練數(shù)據(jù)集的剩余部分,并且評估該隔離出的記錄集合。累積交叉驗(yàn)證算法以空的數(shù)據(jù)集開始,并且逐漸增加記錄,在每次添加的記錄之后更新網(wǎng)絡(luò)的狀態(tài),并且根據(jù)網(wǎng)絡(luò)的當(dāng)前狀態(tài)來評估待加入的下一個(gè)記錄。在一方面,通過這些過程之一找到的合適的網(wǎng)絡(luò)結(jié)構(gòu)被認(rèn)為是如下結(jié)構(gòu),該結(jié)構(gòu)將數(shù)據(jù)最佳擬合,如通過全局或局部分?jǐn)?shù)決定的。也可以將其認(rèn)為是如下結(jié)構(gòu)該結(jié)構(gòu)最佳編碼特征之間的條件獨(dú)立性;這些獨(dú)立性可以通過卡方檢驗(yàn)或互信息檢驗(yàn)(mutualinformationtest)來測量。特征之間的條件獨(dú)立性可以用于構(gòu)建網(wǎng)絡(luò)。當(dāng)計(jì)算的復(fù)雜性較高時(shí),可以通過特征的子集來進(jìn)行分類,該特征的子集是通過任意子集選擇方法確定的。在構(gòu)建網(wǎng)絡(luò)的可選擇的方法中,在發(fā)現(xiàn)依賴性時(shí),可以將目標(biāo)特征用作任何其它節(jié)點(diǎn)(一般貝葉斯網(wǎng)絡(luò)),然后,通過其馬爾科夫毯(Markovblanket)使其與其它特征隔離。馬爾科夫毯隔離節(jié)點(diǎn)使其不受其邊界外的任何節(jié)點(diǎn)的影響,包括節(jié)點(diǎn)的親本、其子代以及其子代的親本組成。當(dāng)應(yīng)用時(shí),目標(biāo)特征的馬爾科夫毯通常足以進(jìn)行分類而不會損失精度并且可以刪除所有的其它節(jié)點(diǎn)。該方法選擇應(yīng)當(dāng)用于分類的特征(即,包括在馬爾科夫毯中的特征),并且通過刪除所有在目標(biāo)特征的馬爾科夫毯之外的節(jié)點(diǎn)來降低數(shù)據(jù)過度擬合的風(fēng)險(xiǎn)。在一方面,基于實(shí)例的算法也適合用于模型開發(fā)?;趯?shí)例的算法也稱為“懶惰”算法,其特征在于對于每個(gè)實(shí)例生成新的模型,而非將預(yù)測基于由訓(xùn)練集合(一次(once))產(chǎn)生的樹或網(wǎng)絡(luò)。換言之,其不提供可以解釋目標(biāo)特征的通用函數(shù)(generalfunction)0這些算法在內(nèi)存中儲存整個(gè)訓(xùn)練集合并且由與那些被檢驗(yàn)的記錄類似的記錄的集合構(gòu)建模型。通過近鄰或局部加權(quán)方法(locallyweightedmethod),利用歐氏距離來評估相似性。一旦選擇了記錄的集合,就可以利用數(shù)種不同的算法例如樸素貝葉斯來構(gòu)建最終模型。所得模型通常不會為了在應(yīng)用于其他記錄時(shí)也表現(xiàn)良好而進(jìn)行設(shè)計(jì)。由于清楚地儲存了訓(xùn)練觀察結(jié)果,而不是以樹或網(wǎng)絡(luò)的形式,因此在訓(xùn)練基于實(shí)例的算法時(shí),信息從來不會被浪費(fèi)。在一方面,基于實(shí)例的算法對于復(fù)雜的、多維的問題是有用的,對于這類問題樹和網(wǎng)絡(luò)的計(jì)算需求超過了可用的內(nèi)存。該方法避免嘗試通過選擇特征來減少復(fù)雜性以適合樹或網(wǎng)絡(luò)的需求的問題。但是,當(dāng)對新的實(shí)例進(jìn)行分類時(shí),該過程可能表現(xiàn)不佳,因?yàn)樗械挠?jì)算在分類時(shí)進(jìn)行。在同時(shí)對一種或少數(shù)幾種實(shí)例進(jìn)行分類的應(yīng)用中這一點(diǎn)通常不是問題。通常,這些算法對于所有的特征給予相似的重要性,而不是在那些更好解釋目標(biāo)特征的特征上放置更多的權(quán)重。這可能導(dǎo)致選擇如下實(shí)例,這些實(shí)例實(shí)際上并非最接近就其與目標(biāo)特征的關(guān)系受到評估的實(shí)例?;趯?shí)例的算法對于數(shù)據(jù)收集中的噪音有魯棒性,這是因?yàn)閷?shí)例獲得在它們的相鄰元素之間最常見的分配或這些相鄰元素(連續(xù)情況)的平均值,并且這些算法通常對于非常大的訓(xùn)練集合表現(xiàn)良好。在一方面,支持向量機(jī)(SVM)用于建模數(shù)據(jù)集以供數(shù)據(jù)挖掘目的。支持向量機(jī)是統(tǒng)計(jì)學(xué)習(xí)理論(StatisticalLearningTheory)的派生物并且于1992年首次提出。SVM的重要方面在于一旦支持向量(supportvector)被確定,就可以從計(jì)算中除去剩余的觀察結(jié)果,由此大大降低問題的計(jì)算復(fù)雜性。在一方面,決策樹學(xué)習(xí)算法是適合建模的機(jī)器學(xué)習(xí)方法。這些決策樹算法包括ID3,Assistant以及C4.5。這些算法的優(yōu)勢在于在沒有很多限制的條件下搜索大型假設(shè)空間(hypothesisspace)。它們通常偏向于構(gòu)建小樹,是一種在有些情況下理想的屬性。得到的樹通??梢杂伞叭?則(if-then)”規(guī)則的集合來表示;這種不會見于其它算法類型例如基于實(shí)例的算法的屬性能夠改善人的可讀性(readability)。通過從頭到尾掃描樹以及評估樹上每個(gè)節(jié)點(diǎn)處的一些特征來進(jìn)行實(shí)例的分類。不同的決策樹學(xué)習(xí)算法在它們的能力和需求方面有所不同;一些僅對離散特征有效。大部分決策樹算法還需要目標(biāo)特征是二元的,而其它可以處理連續(xù)的目標(biāo)特征。這些算法通常對于為每個(gè)特征確定類別(編碼)中的錯(cuò)誤(error)有魯棒性。另外的相關(guān)特征是這些算法中的一些可以有效地處理缺失值。在一方面,迭代二叉樹3代(ID3)算法是適合的決策樹算法。該算法使用“信息增益”來決定哪個(gè)特征自身最佳地解釋目標(biāo),且該算法將這個(gè)特征放置在樹的頂部(即,在根節(jié)點(diǎn)(rootnode)上)。然后,通過下述方法為每一類根節(jié)點(diǎn)分配子孫(descendant)根據(jù)根節(jié)點(diǎn)的類別來分選訓(xùn)練記錄并在這些類別中的每一種中找出具有最大信息增益的特征。對于每個(gè)新增加的特征重復(fù)該循環(huán),等等。該算法可以不用“回溯(back-track)”以重新考慮其在先的決定,并且這可以導(dǎo)致收斂至局部最大值。存在ID3算法的幾種擴(kuò)展,其進(jìn)行對決策樹的“后剪枝(post-priming)”,這是回溯的一種形式。ID3算法進(jìn)行“爬山搜索(hill-climbingsearch)”經(jīng)過決策樹的空間,以簡單的假設(shè)開始并且通過更為精心的假設(shè)推進(jìn)。因?yàn)槠溥M(jìn)行對假設(shè)空間的完整搜索,所以其避免了選擇不含目標(biāo)特征的假設(shè)空間的問題。ID3算法僅輸出一個(gè)樹,而不是輸出所有合理的樹(reasonabletree)0利用ID3算法可以出現(xiàn)歸納偏向(inductivebias),這是因?yàn)槠涫亲皂斚蛳?top-down)、廣度優(yōu)先(breadth-first)算法。換言之,其在特定的深度考慮所有可能的樹,選擇最佳的一個(gè),然后將其移動(dòng)到下一個(gè)深度。相比于高的樹,其優(yōu)選矮的樹,并且通過在特定的深度選擇最矮的樹,該算法將具有最高信息增益的特征放置到最靠近根部。在決策樹的一個(gè)方面,ID3算法的變形是邏輯模型樹(logisticmodeltree(LMT))(Landwehr等人(2003),LogisticModelTrees.Proceedingsofthe14thEuropeanConferenceonmachinelearning.Cavtat-Dubrovnik,Croatia.Springer-Verlag.)。該分類器在葉子(leaves)部位實(shí)現(xiàn)邏輯回歸函數(shù)(logisticregressionfunction)0該算法處理離散目標(biāo)特征,并且可以處理缺失值。C4.5是基于ID3算法的決策樹生成算法(Quinlan(1993)C4.5=Programsformachinelearning.MorganKaufmannPublishers)。一些改進(jìn)包括,例如,選擇合適的特征評估量度(evaluationmeasure);利用缺失特征值(missingfeaturevalue)來處理訓(xùn)練數(shù)據(jù);處理具有不同成本的特征;以及處理連續(xù)特征。用于評價(jià)二元分類器(binaryclassifier)性能的有用的工具是受試者操作特征(ROC)曲線。ROC曲線是二元分類器系統(tǒng)隨著其判別閾值(discriminationthreshold)變化的敏感度對(I-特異度(1-specificity))的點(diǎn)線圖(T.Fawcett(2OO3)·ROCgraphsNotesandpracticalconsiderationsfordataminingresearchers.TechreportHPL-2003-4.HPLaboratories,PaloAlto,CA,USA)由此,受試者操作特征(ROC)曲線通過對于不同的閾值繪制‘敏感度’對‘1-特異度’來構(gòu)建。這些閾值確定記錄是被分類為正或負(fù),并且影響敏感度和‘1-特異度’。作為例子,考慮如下分析其中評估一系列植物品種對病原體的應(yīng)答,并且期望設(shè)立閾值,在該閾值之上的變體被認(rèn)為是易感的。在數(shù)種這樣的閾值之上來構(gòu)建ROC曲線,其幫助針對給定問題確定最佳閾值(其在真陽性率和假陽性率之間提供最佳的平衡)。較低的閾值導(dǎo)致較高的假陽性率,這是因?yàn)榧訇栃院驼骊幮?一些陰性記錄將會被指定為陽性)比例增加。ROC曲線下的面積是分類器整體性能的量度,但是最佳分類器的選擇可以基于該曲線的特定部分。交叉驗(yàn)證技術(shù)是如下方法通過該方法選擇特定的算法或特定的算法集合以為給定數(shù)據(jù)集的提供最優(yōu)的性能。在本文中使用交叉驗(yàn)證技術(shù)是例如用來在模型開發(fā)過程中選擇特定的機(jī)器學(xué)習(xí)算法。當(dāng)數(shù)種算法可以用來執(zhí)行時(shí),通常感興趣的是選擇預(yù)期在將來具有最佳性能的算法。交叉驗(yàn)證通常是為這項(xiàng)任務(wù)選擇的方法。交叉驗(yàn)證基于訓(xùn)練數(shù)據(jù)(trainingdata)的第一分離部分(firstseparatingpart),然后利用剩余的數(shù)據(jù)進(jìn)行訓(xùn)練,并且最終評估該算法對被分離的數(shù)據(jù)集的性能。與剩余評估(residualevaluation)相比,優(yōu)選交叉驗(yàn)證技術(shù),因?yàn)槭S嘣u估在算法應(yīng)用至新的數(shù)據(jù)集時(shí)會如何表現(xiàn)這方面是不提供信息的。在一方面,交叉驗(yàn)證的一個(gè)變形,即預(yù)留方法(holdoutmethod),是基于將數(shù)據(jù)分成兩部分,訓(xùn)練第一子集,并且檢測第二子集。與殘余方法相比,其花費(fèi)相同量的時(shí)間用來計(jì)算,并且當(dāng)數(shù)據(jù)集足夠大時(shí)其是優(yōu)選的。取決于如何將數(shù)據(jù)集分成子集,該方法的性能可能會變化。在交叉驗(yàn)證方面,k次交叉驗(yàn)證方法是在預(yù)留方法之上的改進(jìn)。將數(shù)據(jù)集分成k個(gè)子集,并且將預(yù)留方法重復(fù)k次。然后計(jì)算k次試驗(yàn)(trial)中的平均誤差。每個(gè)記錄會有一次是測試集合的一部分,且會有k-Ι次是訓(xùn)練集合的一部分。該方法對于將數(shù)據(jù)集分開的方式不太敏感,但是計(jì)算的成本是使用預(yù)留方法的k倍高。在交叉驗(yàn)證的另外的方面,留一法交叉驗(yàn)證方法類似與k次交叉驗(yàn)證。利用N-I個(gè)記錄(其中N是記錄的總數(shù))進(jìn)行訓(xùn)練,并且一次僅利用一個(gè)記錄進(jìn)行測試。局部加權(quán)學(xué)習(xí)者(locallyweightedlearner)減少這些算法的運(yùn)行時(shí)間以使其水平與殘余評估的相似。在交叉驗(yàn)證方面,隨機(jī)樣品技術(shù)(randomsampletechnique)是用于測試的另一選擇,其中使用來自數(shù)據(jù)集的合理大小的樣品(例如,多于30個(gè))來進(jìn)行測試,利用數(shù)據(jù)集的剩余部分進(jìn)行訓(xùn)練。使用隨機(jī)樣品進(jìn)行測試的優(yōu)點(diǎn)在于取樣可以重復(fù)任意多次,這可能會導(dǎo)致預(yù)測的置信區(qū)間(confidenceinterval)減小。但是,交叉驗(yàn)證技術(shù)具有如下優(yōu)點(diǎn)測試集合中的記錄在多個(gè)測試集合之間是彼此獨(dú)立的。本文中描述的關(guān)聯(lián)規(guī)則算法中的一些可以用來探測數(shù)據(jù)集中的特征之間的相互作用,并且還可以用來進(jìn)行模型開發(fā)。M5P算法是適合用于連續(xù)和離散目標(biāo)特征的模型樹算法。其利用回歸函數(shù)來代替終端類代表值(terminalclassvalue)建立決策樹。連續(xù)特征可以直接得到處理,而不用轉(zhuǎn)化為離散特征。其使用條件類概率函數(shù)(conditionalclassprobabilityfunction)處理離散類別。其模型樹生成最近似概率值(greatestapproximateprobabilityvalue)的類別被選擇作為預(yù)測類別。M5P算法表現(xiàn)未知函數(shù)的任何分段線性近似值(piecewiselinearapproximation)。M5P檢查所有可能的測試并且選擇使期望的誤差降低最多的測試。然后M5P通過利用線性回歸模型來代替子樹(sub-tree)來對該樹進(jìn)行剪枝,條件是線性回歸模型具有較低的評估誤差。評估誤差是在節(jié)點(diǎn)上所有實(shí)例的預(yù)測值和實(shí)際值的平均絕對差異(averageabsolutedifference)。在剪枝(priming)過程中,對于未見過的情況的誤差的低估通過(n+V)/(n-V)得到補(bǔ)償,其中η是到達(dá)該節(jié)點(diǎn)的實(shí)例的數(shù)量,而ν是對于該節(jié)點(diǎn)的線性模型中參數(shù)的數(shù)量(參見Witten和Frank,2005)。在每個(gè)回歸中涉及的特征是在該節(jié)點(diǎn)以下的子樹中所測試的特征(參見Wang和Witten,1997)。然后使用平滑過程(smoothingprocess)以避免當(dāng)預(yù)測連續(xù)類代表值時(shí)在葉子處的近鄰線性模型之間的陡峭中斷(ste印discontinuity).在平滑過程中,首先進(jìn)行利用葉模型(leafmodel)的預(yù)測并且通過將其與來自在回溯到根部的路徑中的每個(gè)中間節(jié)點(diǎn)處的線性模型的預(yù)測值結(jié)合來使其平滑。在利用決策樹算法建模的方面,在本文中使用交替決策樹(alternatingdecisiontrees(ADTrees))。該算法是依賴于被稱為AdaBoost(參見Freund和Schapire(1996),Experimentswithanewboostingalgorithm.InL.Saitta,editor,ProceedingsoftheThirteenthInternationalConferenceonmachinelearning,pages148-156,SanMateo,CA,MorganKaufmann.)的強(qiáng)化技術(shù)以提高性能的決策樹的歸納。當(dāng)與其它決策樹算法進(jìn)行比較時(shí),交替決策樹算法趨向構(gòu)建具有較簡單規(guī)則的較小的樹,并且由此可以更容易地進(jìn)行解釋。其也會將真實(shí)值(realvalue)與每個(gè)節(jié)點(diǎn)關(guān)聯(lián),從而使得每個(gè)節(jié)點(diǎn)獨(dú)立于其它節(jié)點(diǎn)得到評估。得到的樹的大小較小,并且在內(nèi)存要求方面相應(yīng)地減少,使得交替決策樹算法成為少數(shù)用于處理非常大且復(fù)雜的數(shù)據(jù)集的選擇之一。在預(yù)測節(jié)點(diǎn)之后,記錄所遵循的多重路徑使得該算法對于缺失值更為魯棒,因?yàn)楸M管有一個(gè)被忽略的路徑(ignoredpath),但是可以遵循所有其它替代性路徑。最后,該算法在每個(gè)分類中提供置信度(measureofconfidence),稱為“分類邊緣(classificationmargin)”,這在一些應(yīng)用中與分類本身一樣重要。與其它決策樹一樣,該算法對于特征之間的多重共線性也是非常魯棒的。通常基于特定的理想特征(例如谷物產(chǎn)率、體脂肪百分比、油的分布(oilprofile),以及疾病抗性)來繁殖植物和動(dòng)物。植物或動(dòng)物改良項(xiàng)目的一個(gè)目標(biāo)在于鑒定用于繁殖的個(gè)體,使得在后續(xù)世代中更為頻繁或更為顯著地表達(dá)所期望的特征。學(xué)習(xí)涉及但不限于改變實(shí)踐、活動(dòng)或行為,所述實(shí)踐、活動(dòng)或行為涉及鑒定用于繁殖的個(gè)體從而使得所期望特征的表達(dá)的增加程度更高或者鑒定用于繁殖的個(gè)體的成本更低。通過完成本文中列出的步驟,可以開發(fā)出模型用以與通過其它方法相比更為有效地選擇用于繁殖的個(gè)體以及用于基于特征值的組合更為準(zhǔn)確地分類或預(yù)測假設(shè)的個(gè)體的性能。除了所期望的特征之外,可以針對一個(gè)或更多個(gè)可能與所期望的特征有或沒有明顯相互關(guān)系的別的特征獲得數(shù)據(jù)。在此,將本公開中提及的所有引用文獻(xiàn)通過參考并入,其程度為它們涉及的在本公開中使用的材料和方法。實(shí)施例下述實(shí)施例僅用于說明的目的而不意在限制本公開的范圍。通過田間和溫室篩選來鑒定對于病原體含有高水平和低水平抗性的優(yōu)良的玉米品系(elitemaizeline)。將對于該病原體顯示高水平抗性的品系用作供體,并與易感的優(yōu)良品系雜交。然后將后代與相同的易感的優(yōu)良品系回交。得到的種群與單倍體誘導(dǎo)系原種雜交,并使用染色體加倍技術(shù)發(fā)展出191個(gè)固定的近交系(fixedinbredline)。利用田間篩選方法(fieldscreeningmethodology)對每個(gè)品系在兩個(gè)復(fù)制品中對病原體的抗性水平進(jìn)行評估。利用田間篩選方法還對易感的優(yōu)良品系的44個(gè)復(fù)制品進(jìn)行了評估。對于所有191個(gè)加倍單倍體品系、易感的優(yōu)良品系和抗性供體使用93個(gè)多態(tài)性SSR標(biāo)志物生成了基因型數(shù)據(jù)。最終的數(shù)據(jù)集含有426個(gè)樣品,基于田間篩選結(jié)果將其分成兩組。田間篩選分?jǐn)?shù)范圍為14的植物構(gòu)成易感組,而田間篩選分?jǐn)?shù)范圍為59的植物構(gòu)成抗性組。為了此分析,將易感組用“0”標(biāo)記而抗性組用“1”標(biāo)記。利用包括以下步驟的三步過程對數(shù)據(jù)集進(jìn)行了分析(a)探測關(guān)聯(lián)規(guī)則;(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,并將這些特征添加到數(shù)據(jù)集中;(c)不用來自步驟(b)的特征針對目標(biāo)特征開發(fā)模型,而另一個(gè)模型利用來自步驟(b)中的特征開發(fā)。對于將這些步驟中的每一步用于該數(shù)據(jù)集的描述如下。步驟(a)探測關(guān)聯(lián)規(guī)則在本實(shí)施例中,利用DDPM(判別模式挖掘算法)和CARPENTER(頻繁模式挖掘算法)對426個(gè)樣品進(jìn)行了評估。將全部94個(gè)特征(包括目標(biāo)特征)用于評估。通過DDPM算法探測關(guān)聯(lián)規(guī)則,包括下述特征1.特征48=5_103.776_umc2013,特征59=7_12.353_lgi2132和特征89=10_43.909_phi050該判別模式具有來自具有支持的所有模式的最佳信息增益(0.068)(在426個(gè)樣品中的出現(xiàn)(occurrence))>=120。通過CARPENTER算法探測的5個(gè)關(guān)聯(lián)規(guī)則包括下述特征1.特征59=7_12.353_lgi2132,特征62=7_47.585_umc1036和響應(yīng)(Response)=12.特征59=7_12.353_lgi2132,特征92=10_48.493_umcl648和響應(yīng)=13.特征35=4_58.965_umcl964,特征59=7_12.353_lgi2132和響應(yīng)=14.特征19=2_41.213_lgi2277,特征20=2_72.142_umcl285和響應(yīng)=05.特征19=2_41.2131_gi2277,特征78=8_95.351_umcl384和響應(yīng)=06.特征88=10_18.018_umcl576,特征89=10_43.909_phi050和響應(yīng)=0具有響應(yīng)=1的關(guān)聯(lián)規(guī)則具有180的支持,具有響應(yīng)=0的規(guī)則具有140的支持。步驟(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,以及將這些特征添加到數(shù)據(jù)集中使用包括在步驟(a)中探測的6個(gè)關(guān)聯(lián)規(guī)則中的原始特征,創(chuàng)建新特征。如表1所示,通過連接原始的特征創(chuàng)建這些新特征。表1由兩個(gè)其它特征創(chuàng)建的新特征的可能的值的表示權(quán)利要求1.一種挖掘包含由至少一種基于植物的分子遺傳標(biāo)志物創(chuàng)建的至少一種特征的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并利用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的一種或多種特征來對一種或多種目標(biāo)特征進(jìn)行分類或預(yù)測的方法。2.根據(jù)權(quán)利要求1所述的方法,其中所述關(guān)聯(lián)規(guī)則包括利用自組織映射確定的空間和時(shí)間的關(guān)聯(lián)規(guī)則。3.根據(jù)權(quán)利要求1所述的方法,其中所述數(shù)據(jù)集選自下組環(huán)境數(shù)據(jù)、表型數(shù)據(jù)、DNA序列數(shù)據(jù)、微陣列數(shù)據(jù)、生化數(shù)據(jù)、代謝數(shù)據(jù)或它們的組合。4.根據(jù)權(quán)利要求1所述的方法,其中將由一種或多種關(guān)聯(lián)規(guī)則挖掘算法確定的所述一種或多種關(guān)聯(lián)規(guī)則用于使用一種或多種機(jī)器學(xué)習(xí)算法的分類或預(yù)測,所述機(jī)器學(xué)習(xí)算法選自下組特征評估算法、特征子集選擇算法、貝葉斯網(wǎng)絡(luò)、基于實(shí)例的算法、支持向量機(jī)、投票算法、代價(jià)敏感分類器、疊加算法、分類規(guī)則和決策樹。5.根據(jù)權(quán)利要求4所述的方法,其中所述一種或多種關(guān)聯(lián)規(guī)則挖掘算法選自下組APriori算法、FP-growth算法、可以處理大量特征的關(guān)聯(lián)規(guī)則挖掘算法、巨模式挖掘算法、直接判別模式挖掘算法、決策樹、粗糙集。6.根據(jù)權(quán)利要求4所述的方法,其中所述關(guān)聯(lián)規(guī)則挖掘算法是自組織映射(SOM)算法。7.根據(jù)權(quán)利要求5所述的方法,其中所述可以處理大量特征的關(guān)聯(lián)規(guī)則挖掘算法包括但不限于CL0SET+、CHARM、CARPENTER和COBBLER。8.根據(jù)權(quán)利要求5所述的方法,其中所述可以發(fā)現(xiàn)直接判別模式的算法包括但不限于DDPM、HARMONY、RCBT,CAR以及PATCLASS。9.根據(jù)權(quán)利要求5所述的方法,其中所述可以發(fā)現(xiàn)巨模式的算法包括但不限于模式融合算法。10.根據(jù)權(quán)利要求4所述的方法,其中所述特征評估算法選自下組信息增益算法、Relief算法、ReliefF算法、RReliefF算法、對稱不確定性算法、增益率算法和評級算法。11.根據(jù)權(quán)利要求4所述的方法,其中所述特征子集選擇算法選自下組與其它任何機(jī)器學(xué)習(xí)算法聯(lián)合的包裝算法和基于關(guān)聯(lián)性的特征選擇(ere)算法。12.根據(jù)權(quán)利要求4所述的方法,其中所述機(jī)器學(xué)習(xí)算法是包括樸素貝葉斯算法的貝葉斯網(wǎng)絡(luò)算法。13.根據(jù)權(quán)利要求4所述的方法,其中所述基于實(shí)例的算法選自下組基于實(shí)例1(IB1)算法、基于實(shí)例k-近鄰(IBK)算法、KMar算法、惰式貝葉斯規(guī)則(LBR)算法、以及局部加權(quán)學(xué)習(xí)(LWL)算法。14.根據(jù)權(quán)利要求4所述的方法,其中所述機(jī)器學(xué)習(xí)算法是支持向量機(jī)算法。15.根據(jù)權(quán)利要求14所述的方法,其中所述支持向量機(jī)算法是支持向量回歸(SVR)算法。16.根據(jù)權(quán)利要求14所述的方法,其中所述支持向量機(jī)算法使用序列最小優(yōu)化方法(SMO)算法。17.根據(jù)權(quán)利要求14所述的方法,其中所述支持向量機(jī)算法使用回歸型序列最小優(yōu)化(SMOReg)算法。18.根據(jù)權(quán)利要求4所述的方法,其中所述決策樹選自下組邏輯模型樹(LMT)算法、交互式?jīng)Q策樹(ADTree)算法、M5P算法和REPTree算法。19.根據(jù)權(quán)利要求1所述的方法,其中所述一種或多種目標(biāo)特征選自由連續(xù)的目標(biāo)特征和離散的目標(biāo)特征構(gòu)成的組。20.根據(jù)權(quán)利要求1所述的方法,其中所述離散的目標(biāo)特征是二元目標(biāo)特征。21.根據(jù)權(quán)利要求1所述的方法,其中所述至少一種基于植物的分子遺傳標(biāo)志物來自于植物種群。22.根據(jù)權(quán)利要求21所述的方法,其中所述植物種群是結(jié)構(gòu)化的或未結(jié)構(gòu)化的植物種群。23.根據(jù)權(quán)利要求21所述的方法,其中所述植物種群包括近交植物。24.根據(jù)權(quán)利要求21所述的方法,其中所述植物種群包括雜交植物。25.根據(jù)權(quán)利要求21所述的方法,其中所述植物種群選自下組玉米、大豆、甘蔗、高粱、小麥、向日葵、稻、蕓薹、棉花以及黍。26.根據(jù)權(quán)利要求21所述的方法,其中所述植物種群包括約2至約1000000個(gè)成員。27.根據(jù)權(quán)利要求1所述的方法,其中所述分子遺傳標(biāo)志物的數(shù)量的范圍為約1至約1000000個(gè)標(biāo)志物。28.根據(jù)權(quán)利要求1所述的方法,其中所述特征包括一種或多種簡單序列重復(fù)(SSR)、切割擴(kuò)增多態(tài)性序列(CAPS)、簡單序列長度多態(tài)性(SSLP)、限制性片段長度多態(tài)性(RFLP)、隨機(jī)擴(kuò)增多態(tài)性DNA(RAPD)標(biāo)志物、單核苷酸多態(tài)性(SNP)、任意片段長度多態(tài)性(AFLP)、插入、缺失、任何其它類型的來源于DNA、RNA、蛋白質(zhì)或代謝產(chǎn)物的分子遺傳標(biāo)記物、由兩種或更多種上述來源于DNA的分子遺傳標(biāo)志物創(chuàng)建的單元型、以及它們的組合。29.根據(jù)權(quán)利要求1所述的方法,其中所述特征包括一種或多種簡單序列重復(fù)(SSR)、切割擴(kuò)增多態(tài)性序列(CAPS)、簡單序列長度多態(tài)性(SSLP)、限制性片段長度多態(tài)性(RFLP)、隨機(jī)擴(kuò)增多態(tài)性DNA(RAPD)標(biāo)志物、單核苷酸多態(tài)性(SNP)、任意片段長度多態(tài)性(AFLP)、插入、缺失、任何其它類型的來源于DNA、RNA、蛋白質(zhì)或代謝產(chǎn)物的分子遺傳標(biāo)記物、由兩種或更多種上述來源于DNA的分子遺傳標(biāo)志物創(chuàng)建的單元型、以及它們的組合,與一種或多種表型測量、微陣列數(shù)據(jù)、分析性測量、生化測量或環(huán)境測量結(jié)合作為特征。30.根據(jù)權(quán)利要求1所述的方法,其中所述一種或多種目標(biāo)特征是可數(shù)字表示的表型性狀,所述表型性狀包括疾病抗性、產(chǎn)率、谷物產(chǎn)量、紗線強(qiáng)度、蛋白質(zhì)組成、蛋白質(zhì)含量、昆蟲抗性、谷物水分含量、谷物油含量、谷物油質(zhì)量、干旱抗性、根倒伏抗性、植物高度、穗位高、谷物蛋白質(zhì)含量、谷物氨基酸含量、谷物顏色和莖稈倒伏抗性。31.根據(jù)權(quán)利要求1所述的方法,其中所述一種或多種目標(biāo)特征是使用統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法或它們的任何組合調(diào)整的可數(shù)字表示的表型性狀,所述表型性狀包括疾病抗性、產(chǎn)率、谷物產(chǎn)量、紗線強(qiáng)度、蛋白質(zhì)組成、蛋白質(zhì)含量、昆蟲抗性、谷物水分含量、谷物油含量、谷物油質(zhì)量、干旱抗性、根倒伏抗性、植物高度、穗位高、谷物蛋白質(zhì)含量、谷物氨基酸含量、谷物顏色和莖稈倒伏抗性。32.根據(jù)權(quán)利要求1所述的方法,其中樣品植物種群對于所述一種或多種分子遺傳標(biāo)志物的基因型通過直接DNA測序來實(shí)驗(yàn)確定。33.一種挖掘具有由至少一種基于植物的分子遺傳標(biāo)志物創(chuàng)建的至少一種特征的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并利用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征來對一種或多種目標(biāo)特征進(jìn)行分類或預(yù)測的方法,所述方法包括以下步驟(a)探測關(guān)聯(lián)規(guī)則;(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,并將新特征添加到所述數(shù)據(jù)集中;(c)進(jìn)行特征評估;(d)從數(shù)據(jù)集中的特征中選擇特征的子集;和(e)用至少一種由步驟(a)中探測的關(guān)聯(lián)規(guī)則創(chuàng)建的特征開發(fā)對一種或多種目標(biāo)特征進(jìn)行預(yù)測或分類的模型。34.根據(jù)權(quán)利要求33所述方法用于選擇近交系、選擇雜種、評級雜種、針對特定的地理學(xué)評級雜種、選擇新近交種群的親本、發(fā)現(xiàn)用于滲入到優(yōu)良近交系中的片段或者它們的任何組合的用途。35.根據(jù)權(quán)利要求33所述的方法,其中所述步驟(a)-(e)中的至少一步利用機(jī)器學(xué)習(xí)算法進(jìn)行。36.根據(jù)權(quán)利要求33所述的方法,其中步驟(a)包括使用自組織映射探測關(guān)聯(lián)規(guī)則,空間和時(shí)間的關(guān)聯(lián)。37.根據(jù)權(quán)利要求33所述的方法,其中步驟(e)的至少一種特征是步驟(d)中選擇的特征的子集。38.根據(jù)權(quán)利要求33所述的方法,其中使用交叉驗(yàn)證來比較算法和參數(shù)值的集合。39.根據(jù)權(quán)利要求33所述的方法,其還包括使用受試者操作特征(ROC)曲線來比較算法和參數(shù)值的集合。40.根據(jù)權(quán)利要求33所述的方法,其中一種或多種特征數(shù)學(xué)地或計(jì)算地來源于其它的特征。41.一種挖掘具有由至少一種基于植物的分子遺傳標(biāo)志物創(chuàng)建的至少一種特征的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并利用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征來對于一種或多種目標(biāo)特征進(jìn)行分類或預(yù)測的方法,所述方法包括以下步驟(a)探測關(guān)聯(lián)規(guī)則;(b)基于步驟(a)創(chuàng)建新的特征,并將這些新特征添加到所述數(shù)據(jù)集中;(c)用至少一種在步驟(b)中創(chuàng)建的特征開發(fā)對一種或多種目標(biāo)特征進(jìn)行預(yù)測或分類的模型。42.根據(jù)權(quán)利要求41所述的方法,其中權(quán)利要求41的步驟之前進(jìn)行如下步驟(a)從數(shù)據(jù)集中的特征中選擇特征的子集。43.一種挖掘具有一種或多種特征的數(shù)據(jù)集的方法,該方法包括挖掘具有至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并利用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征來進(jìn)行分類或預(yù)測,所述方法包括以下步驟(a)探測關(guān)聯(lián)規(guī)則;(b)基于步驟(a)中的發(fā)現(xiàn)創(chuàng)建新的特征,并將這些特征添加到數(shù)據(jù)集中;(c)從數(shù)據(jù)集中的特征選擇特征的子集。44.根據(jù)權(quán)利要求41所述的方法,其中步驟(a)包括使用自組織映射探測空間和時(shí)間的關(guān)聯(lián)。45.根據(jù)權(quán)利要求1、33或41的方法用于預(yù)測雜種性能的用途。46.根據(jù)權(quán)利要求1、33或41的方法用于預(yù)測跨越不同地理位置的雜種性能的用途。47..根據(jù)權(quán)利要求1、33或41的方法,其中在所述步驟中的至少一步中考慮現(xiàn)有知識。48.根據(jù)權(quán)利要求1、33或41的方法用于選擇近交系、選擇雜種、評級雜種、針對特定的地理學(xué)評級雜種、選擇新近交種群的親本、發(fā)現(xiàn)用于滲入到優(yōu)良近交系中的片段或者它們的任何組合的用途。49.一種針對一種或多種感興趣的目標(biāo)特征從植物種群中選擇至少一種植物的方法,所述方法包括以下步驟挖掘具有至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并利用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征對一種或多種目標(biāo)特征進(jìn)行分類或預(yù)測;和基于利用關(guān)聯(lián)規(guī)則的分類或預(yù)測針對一種或多種感興趣的目標(biāo)特征從植物種群中選擇至少一株植物。50.一種選擇新植物種群的親本植物的方法,所述方法包括以下步驟挖掘具有至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并利用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征對一種或多種目標(biāo)特征進(jìn)行分類或預(yù)測;和基于利用關(guān)聯(lián)規(guī)則的分類或預(yù)測從植物種群中選擇至少兩株植物作為新種群的親本。51.一種從植物種群選擇改善植物種群中一個(gè)或多個(gè)個(gè)體的DNA片段的方法,所述方法包括以下步驟挖掘具有至少一種基于植物的分子遺傳標(biāo)志物的數(shù)據(jù)集以發(fā)現(xiàn)至少一種關(guān)聯(lián)規(guī)則,并使用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征對一種或多種目標(biāo)特征進(jìn)行分類或預(yù)測;和基于利用關(guān)聯(lián)規(guī)則的分類或預(yù)測從植物種群選擇改善植物種群中一個(gè)或多個(gè)個(gè)體的DNA片段。52.根據(jù)權(quán)利要求43所述的方法,其中將結(jié)果用于探測一種或多種數(shù)量性狀基因座,向一個(gè)或多個(gè)數(shù)量性狀基因座分配顯著性,定位一個(gè)或多個(gè)數(shù)量性狀基因座,或它們的任何組合。53.根據(jù)權(quán)利要求四所述的方法,其中環(huán)境測量包括但不限于培養(yǎng)植物的農(nóng)田的氣候和土壤特征。54.根據(jù)權(quán)利要求1、33或42所述的方法,其中所述至少一種特征是由至少一種基于動(dòng)物的分子遺傳標(biāo)志物創(chuàng)建的。55.根據(jù)權(quán)利要求1、33或42所述的方法,其中所述現(xiàn)有知識包括初步調(diào)查、植物遺傳學(xué)的數(shù)量研究、基因網(wǎng)絡(luò)、序列分析或它們的任意組合。56.根據(jù)權(quán)利要求1、33或42所述的方法,其還包括以下步驟(a)利用包括在所述一種或多種關(guān)聯(lián)規(guī)則中的一種或多種特征的組合來代替原有的特征以減少維度;(b)通過基于模型的搜索樹挖掘區(qū)別性和必要性頻繁模式。57.根據(jù)權(quán)利要求1、33、41、43、49、50和51所述的方法,其利用計(jì)算機(jī)和軟件來執(zhí)行。全文摘要本公開涉及使用一種或多種關(guān)聯(lián)規(guī)則挖掘算法來挖掘含有由至少一種基于植物或動(dòng)物的分子遺傳標(biāo)志物創(chuàng)建的特征的數(shù)據(jù)集,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則和使用由這些關(guān)聯(lián)規(guī)則創(chuàng)建的特征來分類或預(yù)測。文檔編號G06N5/02GK102473247SQ201080029509公開日2012年5月23日申請日期2010年6月3日優(yōu)先權(quán)日2009年6月30日發(fā)明者D.卡拉維洛,R.佩,R.帕特爾申請人:陶氏益農(nóng)公司