两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于機(jī)器學(xué)習(xí)特征的符號回歸gp算法

文檔序號:6630654閱讀:1671來源:國知局
一種基于機(jī)器學(xué)習(xí)特征的符號回歸gp算法
【專利摘要】本發(fā)明提供一種基于機(jī)器學(xué)習(xí)特征的符號回歸GP算法,Weka的數(shù)據(jù)存儲方式,可以輕易的將表格數(shù)據(jù)或者數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換為ARFF格式的數(shù)據(jù)文件;大多數(shù)的表格數(shù)據(jù)或者數(shù)據(jù)庫數(shù)據(jù)可以導(dǎo)出為CSV格式的數(shù)據(jù),這種數(shù)據(jù)是一系列由冒號分離的數(shù)據(jù)項(xiàng)值;導(dǎo)出完畢后,將文件在文本編輯器中打開,在文件中增加一些屬性:將數(shù)據(jù)集的名字加入到relation標(biāo)簽中,用attribute增加屬性信息,數(shù)據(jù)信息加入到data之后,然后保存。本發(fā)明結(jié)合樹向集合的轉(zhuǎn)換算法、集合相似度算法、最小哈希和局部敏感哈希算法,找出一種新的判斷個體相似度的算法,并將其應(yīng)用到基因規(guī)劃之中。
【專利說明】—種基于機(jī)器學(xué)習(xí)特征的符號回歸GP算法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明具體地說是一種基于機(jī)器學(xué)習(xí)特征的符號回歸GP算法。

【背景技術(shù)】
[0002]回歸(Regress1n)過程主要研究和解決的問題是識別和分析出隱藏在實(shí)驗(yàn)數(shù)據(jù)中的數(shù)學(xué)關(guān)系。工業(yè)工程和科學(xué)研究的工作概括起來就是通過這些實(shí)驗(yàn)數(shù)據(jù)和回歸的方法,獲取某個實(shí)驗(yàn)過程的公式或者模型,再應(yīng)用到實(shí)際中去。
[0003]有很多方法和工具可以幫助科研工作者來獲取這種逆向工程的符號模型,但在大多數(shù)情況,它們都被限制在線性系統(tǒng)之中,或者僅可以使用幾種確定模型的非線性系統(tǒng),像人工神經(jīng)網(wǎng)絡(luò)這種無參數(shù)的方法也可以在不用預(yù)先定義模型的前提下為非線性系統(tǒng)建模,但是它們卻不能清晰的展示目標(biāo)系統(tǒng)的內(nèi)部結(jié)構(gòu)。
[0004]相對于這些方法,符號回歸(Symbolic Regress1n)的優(yōu)點(diǎn)就是可以不用依賴先驗(yàn)的知識或者模型來為非線性系統(tǒng)建立符號模型。符號回歸基于進(jìn)化算法,它的主要目標(biāo)就是利用進(jìn)化方法綜合出盡可能好的解決用戶自定義問題的方法(數(shù)學(xué)公式,計算機(jī)程序,邏輯表達(dá)式等)。
[0005]到目前為止,符號回歸有三種主要的實(shí)現(xiàn)方式:
第一種是基因規(guī)劃(Genetic Programming - GP),符號回歸是基因規(guī)劃眾多應(yīng)用領(lǐng)域中很重要的一種,通過它可以找到令人滿意的函數(shù),這種方法也正是本文重點(diǎn)討論和研究的內(nèi)容。
[0006]第二種是語法進(jìn)化(Grammar Evolut1n),它和基因規(guī)劃思想一致,都是通過判定適應(yīng)度來獲取目標(biāo)函數(shù),不同的是語法進(jìn)化將基因操作符應(yīng)用到整數(shù)的字符串上面,這些字符串通過一定的語法對應(yīng)于一段程序(即基因規(guī)劃中的個體)。語法進(jìn)化的一大優(yōu)點(diǎn)就是通過這種對應(yīng)關(guān)系簡化了不同語言和結(jié)構(gòu)之間的搜索過程。
[0007]第三種是分析式規(guī)劃(Analytic Programming),它的靈感來自于兩個已經(jīng)存在的方法:Hilbert空間和基因規(guī)劃。分析式編程主要采用并結(jié)合了基因規(guī)劃的進(jìn)化式的產(chǎn)生符號系統(tǒng)的思想和Hilbert函數(shù)空間中通過查找過程構(gòu)建結(jié)果函數(shù)的思想。
[0008]機(jī)器學(xué)習(xí)(MachineLearning - ML),按照 Arthur Samuel (1959)給出的定義:機(jī)器學(xué)習(xí)是一個不用特意編程而使計算機(jī)具有學(xué)習(xí)能力的研究方向。它是人工智能的一個重要分支,主要研究和構(gòu)建可以從數(shù)據(jù)中發(fā)現(xiàn)知識模型的系統(tǒng)。例如一個機(jī)器學(xué)習(xí)系統(tǒng)可以通過預(yù)先的電子郵件的訓(xùn)練而成為識別垃圾郵件的工具,在前期的學(xué)習(xí)之后,它可以被用來將接受的電子郵件分類為垃圾郵件或者非垃圾郵件。
[0009]機(jī)器學(xué)習(xí)的核心問題是如何處理表示和泛化。數(shù)據(jù)實(shí)例以及從數(shù)據(jù)實(shí)例中學(xué)習(xí)得到的函數(shù)方程式是所有機(jī)器學(xué)習(xí)系統(tǒng)的重要部分,而泛化指的是學(xué)習(xí)后的系統(tǒng)可以應(yīng)用在以后的數(shù)據(jù)處理之中。一般認(rèn)為機(jī)器學(xué)習(xí)的學(xué)習(xí)類別有三種:有指導(dǎo)的學(xué)習(xí)(SupervisedLearning)、無指導(dǎo)的學(xué)習(xí)(Unsupervised Learning)和半指導(dǎo)的學(xué)習(xí)(Sem1-SupervisedLearning)。機(jī)器學(xué)習(xí)有很廣泛和成功的應(yīng)用,根據(jù)預(yù)先對字符集的識別訓(xùn)練而可以自動識別光學(xué)字符的過程是一種比較典型的應(yīng)用。


【發(fā)明內(nèi)容】

[0010]本發(fā)明的目的是克服現(xiàn)有技術(shù)中存在的不足,提供一種基于機(jī)器學(xué)習(xí)特征的符號回歸GP算法,本發(fā)明結(jié)合樹向集合的轉(zhuǎn)換算法、集合相似度算法、最小哈希和局部敏感哈希算法,找出一種新的判斷個體相似度的算法,并將其應(yīng)用到基因規(guī)劃之中。
[0011]本發(fā)明的技術(shù)方案是按以下方式實(shí)現(xiàn)的,其結(jié)構(gòu)Weka的數(shù)據(jù)存儲方式,本系統(tǒng)的本地數(shù)據(jù)存儲方式是屬性-關(guān)系格式的文件;可以輕易的將表格數(shù)據(jù)或者數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換為ARFF格式的數(shù)據(jù)文件;大多數(shù)的表格數(shù)據(jù)或者數(shù)據(jù)庫數(shù)據(jù)可以導(dǎo)出為CSV格式的數(shù)據(jù),這種數(shù)據(jù)是一系列由冒號分離的數(shù)據(jù)項(xiàng)值;導(dǎo)出完畢后,將文件在文本編輯器中打開,在文件中增加一些屬性:將數(shù)據(jù)集的名字加入到Orelat1n標(biāo)簽中,用Oattribute增加屬性信息,數(shù)據(jù)信息加入到Odata之后,然后保存;除了這樣轉(zhuǎn)換為ARFF文件,預(yù)處理部分也可以直接讀取CSV文件;
現(xiàn)在通過選擇文件按鈕打開一個數(shù)據(jù)文件并加載數(shù)據(jù),數(shù)據(jù)加載完畢后,就可以進(jìn)行后面的工作。
[0012]本發(fā)明的優(yōu)點(diǎn)是:
本發(fā)明的一種基于機(jī)器學(xué)習(xí)特征的符號回歸GP算法和現(xiàn)有技術(shù)相比,在此系統(tǒng)中,首先根據(jù)實(shí)驗(yàn)數(shù)據(jù)集和機(jī)器學(xué)習(xí)的算法回歸出公式來,并運(yùn)用相同的數(shù)據(jù)集和基因規(guī)劃的算法給出其符號回歸出的公式,然后將兩者的共同結(jié)果都呈現(xiàn)給工程人員供其選擇使用。論文以后的工作包括將機(jī)器學(xué)習(xí)中的評估方法加入到系統(tǒng)中,以幫助使用人員進(jìn)行選擇。

【具體實(shí)施方式】
[0013]下面對本發(fā)明的一種基于機(jī)器學(xué)習(xí)特征的符號回歸GP算法作以下詳細(xì)說明。
[0014]本發(fā)明的一種基于機(jī)器學(xué)習(xí)特征的符號回歸GP算法,實(shí)驗(yàn)數(shù)據(jù)可以通過表格文件或者數(shù)據(jù)庫給出。借鑒Weka的數(shù)據(jù)存儲方式,本系統(tǒng)的本地數(shù)據(jù)存儲方式是屬性-關(guān)系格式(Attribute-relat1n file format- ARFF)的文件??梢暂p易的將表格數(shù)據(jù)或者數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換為ARFF格式的數(shù)據(jù)文件。大多數(shù)的表格數(shù)據(jù)或者數(shù)據(jù)庫數(shù)據(jù)可以導(dǎo)出為CSV (Comma-separated value)格式的數(shù)據(jù),這種數(shù)據(jù)是一系列由冒號分離的數(shù)據(jù)項(xiàng)值。導(dǎo)出完畢后,將文件在文本編輯器中打開,在文件中增加一些屬性:將數(shù)據(jù)集的名字加入到@relat1n標(biāo)簽中,用Oattribute增加屬性信息,數(shù)據(jù)信息加入到Odata之后,然后保存。除了這樣轉(zhuǎn)換為ARFF文件,預(yù)處理部分也可以直接讀取CSV文件。
[0015]現(xiàn)在通過選擇文件按鈕打開一個數(shù)據(jù)文件并加載數(shù)據(jù),數(shù)據(jù)加載完畢后,就可以進(jìn)行后面的工作。例如加載test, arff文件,里面是預(yù)先設(shè)計的實(shí)驗(yàn)數(shù)據(jù)。當(dāng)數(shù)據(jù)加載完畢,數(shù)據(jù)集的屬性和對數(shù)據(jù)的簡單統(tǒng)計都會被顯示出來。
[0016]本發(fā)明的一種基于機(jī)器學(xué)習(xí)特征的符號回歸GP算法其加工制作非常簡單方便,按照說明書所示即可。
[0017]除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
【權(quán)利要求】
1.一種基于機(jī)器學(xué)習(xí)特征的符號回歸GP算法,其特征在于Weka的數(shù)據(jù)存儲方式,本系統(tǒng)的本地數(shù)據(jù)存儲方式是屬性-關(guān)系格式的文件;可以輕易的將表格數(shù)據(jù)或者數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換為ARFF格式的數(shù)據(jù)文件;大多數(shù)的表格數(shù)據(jù)或者數(shù)據(jù)庫數(shù)據(jù)可以導(dǎo)出為CSV格式的數(shù)據(jù),這種數(shù)據(jù)是一系列由冒號分離的數(shù)據(jù)項(xiàng)值;導(dǎo)出完畢后,將文件在文本編輯器中打開,在文件中增加一些屬性:將數(shù)據(jù)集的名字加入到Orelat1n標(biāo)簽中,用Oattribute增加屬性信息,數(shù)據(jù)信息加入到Odata之后,然后保存;除了這樣轉(zhuǎn)換為ARFF文件,預(yù)處理部分也可以直接讀取CSV文件; 現(xiàn)在通過選擇文件按鈕打開一個數(shù)據(jù)文件并加載數(shù)據(jù),數(shù)據(jù)加載完畢后,就可以進(jìn)行后面的工作。
【文檔編號】G06F9/44GK104317582SQ201410551116
【公開日】2015年1月28日 申請日期:2014年10月17日 優(yōu)先權(quán)日:2014年10月17日
【發(fā)明者】王斌 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
巴林左旗| 大同市| 交口县| 双辽市| 神池县| 和平区| 从江县| 民勤县| 新野县| 汉寿县| 青阳县| 卢湾区| 武乡县| 灵山县| 长宁区| 栖霞市| 东乌| 胶南市| 汉川市| 墨脱县| 当涂县| 阆中市| 观塘区| 漠河县| 周宁县| 尖扎县| 柳河县| 沙田区| 隆子县| 玛曲县| 桃园市| 桂阳县| 兰州市| 迁西县| 浮山县| 阿拉善左旗| 平舆县| 枣庄市| 东乌| 菏泽市| 敦化市|