两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種數(shù)據(jù)分類方法、系統(tǒng)和實(shí)現(xiàn)分類器的方法

文檔序號:9708337閱讀:285來源:國知局
一種數(shù)據(jù)分類方法、系統(tǒng)和實(shí)現(xiàn)分類器的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘,并且尤其涉及一種數(shù)據(jù)分類方法和系統(tǒng)和實(shí)現(xiàn)分類器的方法。
【背景技術(shù)】
[0002]傳統(tǒng)數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)分類所處理的目標(biāo)數(shù)據(jù)通常是小規(guī)模數(shù)據(jù)集?;谛∫?guī)模數(shù)據(jù)集產(chǎn)生的分類器的分類精度較小。針對大規(guī)模數(shù)據(jù)(大數(shù)據(jù))的分類器在分類方面可以實(shí)現(xiàn)較高的分類精度,但這樣的分類器在現(xiàn)有技術(shù)中未被實(shí)現(xiàn)。
[0003]因此,本發(fā)明的一個目標(biāo)是利用大數(shù)據(jù)的信息資源實(shí)現(xiàn)分類精度較高、分類更合理的分類器、數(shù)據(jù)分類方法、系統(tǒng)。

【發(fā)明內(nèi)容】

[0004]本發(fā)明公開以下技術(shù)方案。
[0005]一種數(shù)據(jù)分類方法,包括:
從數(shù)據(jù)集生成多組數(shù)據(jù)作為訓(xùn)練集合,其中為每組數(shù)據(jù)設(shè)定該組數(shù)據(jù)中各類數(shù)據(jù)的比例,并根據(jù)該比例從數(shù)據(jù)集中抽取相應(yīng)類型的數(shù)據(jù);
針對多組數(shù)據(jù)的每一組數(shù)據(jù)利用相應(yīng)的訓(xùn)練算法產(chǎn)生相應(yīng)的子分類器;
利用測試數(shù)據(jù)評估產(chǎn)生的多個子分類器,得到各子分類器的評估值;
以所述評估值作為權(quán)重值的依據(jù),通過加權(quán)投票的方式將所述多個子分類器組合成分類器來分類數(shù)據(jù)。
[0006]一種數(shù)據(jù)分類系統(tǒng),包括:
第一裝置,用于從數(shù)據(jù)集生成多組數(shù)據(jù)作為訓(xùn)練集合,其中該裝置被配置成為每組數(shù)據(jù)設(shè)定該組數(shù)據(jù)中各類數(shù)據(jù)的比例,并根據(jù)該比例從數(shù)據(jù)集中抽取相應(yīng)類型的數(shù)據(jù);
第二裝置,用于針對多組數(shù)據(jù)的每一組數(shù)據(jù)利用相應(yīng)的訓(xùn)練算法產(chǎn)生相應(yīng)的子分類器;
第三裝置,用于利用測試數(shù)據(jù)評估產(chǎn)生的多個子分類器,得到各子分類器的評估值;
第四裝置,用于以所述評估值作為權(quán)重值的依據(jù),通過加權(quán)投票的方式將所述多個子分類器組合成分類器來分類數(shù)據(jù)。
[0007]—種實(shí)現(xiàn)分類器的方法,該分類器由多個子分類器通過加權(quán)投票的方式組合得至IJ,其中,所述多個子分類器通過以下方式獲得:
從數(shù)據(jù)集生成多組數(shù)據(jù)作為訓(xùn)練集合,其中為每組數(shù)據(jù)設(shè)定該組數(shù)據(jù)中各類數(shù)據(jù)的比例,并根據(jù)該比例從數(shù)據(jù)集中抽取相應(yīng)類型的數(shù)據(jù);針對多組數(shù)據(jù)的每一組數(shù)據(jù)利用相應(yīng)的訓(xùn)練算法產(chǎn)生相應(yīng)的子分類器。
[0008]通過本發(fā)明能夠利用大數(shù)據(jù)資源的豐富信息量,并能夠得到精度良好、分類更合理的分類器。本發(fā)明的技術(shù)方案還提高了數(shù)據(jù)分類效率。
【附圖說明】
[0009]在參照附圖閱讀了本發(fā)明的【具體實(shí)施方式】以后,本領(lǐng)域技術(shù)人員將會更清楚地了解本發(fā)明的各個方面。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,這些附圖僅僅用于配合【具體實(shí)施方式】說明本發(fā)明的技術(shù)方案,而并非意在對本發(fā)明的保護(hù)范圍構(gòu)成限制。
[0010]圖1是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)分類方法步驟示意圖。
【具體實(shí)施方式】
[0011]下面參照附圖,對本發(fā)明的【具體實(shí)施方式】作進(jìn)一步的詳細(xì)描述。在下面的描述中,為了解釋的目的,陳述許多具體細(xì)節(jié)以便提供對實(shí)施例的一個或多個方面的透徹理解。
[0012]圖1是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)分類方法步驟示意圖。
[0013]如圖1所示,根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)分類方法包括:
步驟101:從數(shù)據(jù)集生成多組數(shù)據(jù)作為訓(xùn)練集合,其中為每組數(shù)據(jù)設(shè)定該組數(shù)據(jù)中各類數(shù)據(jù)的比例,并根據(jù)該比例從數(shù)據(jù)集中抽取相應(yīng)類型的數(shù)據(jù)。每組數(shù)據(jù)中各類數(shù)據(jù)的比例可以不同。發(fā)明人注意到訓(xùn)練集合中各類數(shù)據(jù)的比例的選擇會影響分類器精度,然后現(xiàn)有技術(shù)方案往往考慮尋求最佳的各類數(shù)據(jù)比例。本申請相反考慮了訓(xùn)練集合中各類數(shù)據(jù)比例的劃分對要產(chǎn)生的分類器的影響,而枚舉多種比例。在該步驟中,優(yōu)選地,根據(jù)該比例以有放回抽取的方式從數(shù)據(jù)集中抽取相應(yīng)類型的數(shù)據(jù)。有放回抽取是指下一次從數(shù)據(jù)集抽取部分?jǐn)?shù)據(jù)之前,將上一次抽取的部分?jǐn)?shù)據(jù)放回到該數(shù)據(jù)集中。
[0014]步驟102:針對多組數(shù)據(jù)的每一組數(shù)據(jù)利用相應(yīng)的訓(xùn)練算法產(chǎn)生相應(yīng)的子分類器。各組數(shù)據(jù)的訓(xùn)練相互獨(dú)立,并且可以使用不同的訓(xùn)練算法。
[0015]步驟103:利用測試數(shù)據(jù)評估產(chǎn)生的多個子分類器,得到各子分類器的評估值,評估值例如可以是分類精度。測試數(shù)據(jù)可以從數(shù)據(jù)集中隨機(jī)抽取得到。
[0016]步驟104:以所述評估值作為權(quán)重值的依據(jù),通過加權(quán)投票的方式將所述多個子分類器組合成分類器來分類數(shù)據(jù)。
[0017]這樣,為每種數(shù)據(jù)比例訓(xùn)練一個子分類器,再通過加權(quán)投票得到最終的分類器,更好地體現(xiàn)了各個比例的數(shù)據(jù)中所蘊(yùn)含的信息。在實(shí)際的測試與應(yīng)用中,這種多比例的組合分類器的分類效果好于在最佳類別比例下訓(xùn)練得到的分類器。投票的權(quán)重正比于子分類器的權(quán)重值。舉例來說,三個子分類器的精度分別為90%、80%、70%,一項數(shù)據(jù)經(jīng)三個子分類器分類的結(jié)果分別是A類、B類、B類,那么對于A類加權(quán)投票的值可以被計算為90,對于B類加權(quán)投票的值可以被計算為80+70=150,因此,最終的分類結(jié)果可以被確定為B類??梢岳斫?,本領(lǐng)域技術(shù)人員可以使用其它加權(quán)投票算法。
[0018]優(yōu)選地,當(dāng)分類器的數(shù)量超過預(yù)定值時,將子分類器部署在分布式節(jié)點(diǎn),否則將將各個子分類器在本地進(jìn)行部署。
[0019]在另一個實(shí)施例中,在相應(yīng)的分布式節(jié)點(diǎn)上生成所述多組數(shù)據(jù)的每一組,使得產(chǎn)生的所述多個子分類器被部署在多個分布式節(jié)點(diǎn)。還可以為每組數(shù)據(jù)設(shè)定該組數(shù)據(jù)的規(guī)模。在分布式節(jié)點(diǎn)的情況下,可以考慮節(jié)點(diǎn)的計算能力來為一組數(shù)據(jù)設(shè)定該組數(shù)據(jù)的規(guī)模。這里,規(guī)??梢允菙?shù)據(jù)的條目數(shù)量。在該實(shí)施例中,可以實(shí)現(xiàn)本地機(jī)器無法單獨(dú)完成的大規(guī)模數(shù)據(jù)的處理。在實(shí)施過程中,總的數(shù)據(jù)集合可以被集中存放于數(shù)據(jù)倉庫之中,分布式系統(tǒng)中的各個計算節(jié)點(diǎn)分別從總的數(shù)據(jù)集合中抽取數(shù)據(jù),各個計算節(jié)點(diǎn)獨(dú)立地展開訓(xùn)練??梢岳斫?,一個分布式節(jié)點(diǎn)可以生成一組
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
锦屏县| 当雄县| 鹤岗市| 监利县| 襄樊市| 格尔木市| 奉新县| 巴中市| 明光市| 改则县| 许昌县| 道孚县| 闻喜县| 丽水市| 桐柏县| 抚松县| 沾益县| 睢宁县| 松原市| 阜平县| 灌阳县| 巫山县| 鸡西市| 绥棱县| 保山市| 兴和县| 镇赉县| 普陀区| 黔西| 汾西县| 文成县| 新蔡县| 深圳市| 永定县| 容城县| 广水市| 商南县| 辽源市| 新巴尔虎左旗| 嘉善县| 惠州市|