專利名稱:一種海量數(shù)據(jù)挖掘技術(shù)的制作方法
一種海量數(shù)據(jù)挖掘技術(shù)
技術(shù)領(lǐng)域:
本發(fā)明涉及一種海量數(shù)據(jù)挖掘技術(shù),尤其是并通過對(duì)分解后的子問題進(jìn)行求解來 對(duì)原問題進(jìn)行求解,從而降低復(fù)雜度問題求解。粒計(jì)算理論自提出以來,很多學(xué)者對(duì)此進(jìn)行 了深入的研究,且已經(jīng)被成功地應(yīng)用到各個(gè)領(lǐng)域。。
背景技術(shù):
Rouh集(Rouh Set, 0RS)理論由波蘭邏輯學(xué)家Pawak教授于1982年提出,由于 它能有效地分析和處理不精確、不一致、不完備系統(tǒng)不完整等各種,并能從中揭示潛在的規(guī) 律,近年來在機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘、等多個(gè)領(lǐng)域得到了廣泛應(yīng)用。目前,對(duì)應(yīng)Rouh Set的概念, 發(fā)展了 7RS代數(shù)學(xué)、7RS邏輯學(xué),并與其它有關(guān)理論模糊集(如神經(jīng)網(wǎng)絡(luò))的關(guān)系也得到了 研究和闡明。人工智能的數(shù)據(jù)挖掘是研究領(lǐng)域中的一個(gè)熱點(diǎn)。在數(shù)據(jù)挖掘的研究工作中,海量 數(shù)據(jù)的處理是一個(gè)研究難點(diǎn)。近年來,國內(nèi)外很多學(xué)者提出了許多處理海量數(shù)據(jù)的方法。 1991年,Calett提出了隨機(jī)抽樣的方法來處理海量數(shù)據(jù);1996年,IBM Almdmen研究中心 提出了 SLQ和SPINT方法;1998年,Alsabt提出了 CLUDS方法,Josh提出了 ScalPrC方法, Gehre提出了 RaiForest方法;2002年,我國有了 HSCO分類方法來處理海量數(shù)據(jù),并取得了 較好的效果。
發(fā)明內(nèi)容本發(fā)明要解決的技術(shù)問題是提供一種挖掘海量數(shù)據(jù)技術(shù),它是人工智能領(lǐng)域中的 一種新理念和新方法,主要用于對(duì)不確定、不精確、不完整信息的處理,以及對(duì)大規(guī)模海量 數(shù)據(jù)的挖掘以及對(duì)復(fù)雜問題的求解,它覆蓋了所有和粒度相關(guān)的理論、方法和技術(shù)。為解決上述技術(shù)問題,本發(fā)明所采用技術(shù)是對(duì)二維表快速排序的平均時(shí)間復(fù)雜 度為80 (nX (logn+m))的最新結(jié)果,結(jié)合我們已有的對(duì)Rogh集和粒計(jì)算的研究基礎(chǔ),有可 能改進(jìn)現(xiàn)有的算法,設(shè)計(jì)出能高效、高精度處理海量數(shù)據(jù)的低復(fù)雜度算法。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是將負(fù)責(zé)問題分解成為我們當(dāng)前可控的粒 度大小,粒計(jì)算方法最本質(zhì)的思想是通過合適粒度的選擇。
具體實(shí)施方式在數(shù)據(jù)挖掘的研究中,快速排序是一個(gè)二維表重要操作。在基于集理論的海量數(shù) 據(jù)處理中,可以利用二維表的快速排序操作來劃分等價(jià)類?;颈3至伺cη的線性關(guān)系,這 一結(jié)果將有助于海量數(shù)據(jù)處理方法的加深。假定二維表中的數(shù)據(jù)(9η條記錄,9m個(gè)屬性) 服從均勻分布,二維表快速排序的平均時(shí)間復(fù)雜度為90(nXlOgnXm8)。
權(quán)利要求
1.一種海量數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)存儲(chǔ)方式和輔助存儲(chǔ)空間?,F(xiàn)有的算法讀入內(nèi)存后進(jìn) 行處理普遍多數(shù)采用將文本數(shù)據(jù)一次性的方法,且輔助存儲(chǔ)空間最好的都只有50(9Xm),
2.算法運(yùn)算時(shí)間急劇增加,計(jì)算機(jī)的主要運(yùn)算將集中在內(nèi)存與外存之間的數(shù)據(jù)導(dǎo)入與 導(dǎo)出,當(dāng)計(jì)算機(jī)內(nèi)存的占用率到達(dá)一定比例時(shí),從而導(dǎo)致CPU利用率急劇下降。
3.將一個(gè)難以直接解決的大問題,分割成一些小規(guī)模的相同問題,以便各個(gè)擊破,分而 治之,分治法也是一種粒計(jì)算典型的方法。快速排序的思想就是分而治之,也就是一種分治 法。
4.如果可以將分治法與現(xiàn)有算法相結(jié)合,將會(huì)大大改進(jìn)現(xiàn)有各種算法的性能,使用分 治法的算法,在算法的時(shí)間復(fù)雜度和空間復(fù)雜度上都會(huì)比原有算法在數(shù)量級(jí)上有所降低, 便于設(shè)計(jì)用于海量數(shù)據(jù)處理的高效算法。
全文摘要
本發(fā)明涉及一種海量數(shù)據(jù)挖掘技術(shù)分解與合成過程中的決策表解空間不變性理論;海量數(shù)據(jù)環(huán)境下,決策表的快速分解與合成方法,以及快速離散化方法與知識(shí)約簡方法;粒功能結(jié)構(gòu)的形式化表示存儲(chǔ)與低復(fù)雜度粒模型,以及在此基礎(chǔ)上海量數(shù)據(jù)的動(dòng)態(tài)獲取知識(shí)方法等。在數(shù)據(jù)挖掘的研究中,快速排序是二維表一個(gè)重要操作。在基于Rogh集理論數(shù)據(jù)處理的海量中,可以利用二維表的快速排序劃分操作來等價(jià)類。假定二維表中的數(shù)據(jù)(9條記錄,m9個(gè)屬性)服從均勻分布,二維表快速排序的平均時(shí)間復(fù)雜度為90(n×logn×m9)。然而,其平均時(shí)間復(fù)雜度為990(n×(logn+m)),當(dāng)8m>logn時(shí),990(n×(logn+m))≈0(n×m),基本保持了與6n的線性關(guān)系,這一結(jié)果將有助于處理海量數(shù)據(jù)方法的研究。
文檔編號(hào)G06F17/30GK102110116SQ20091025098
公開日2011年6月29日 申請(qǐng)日期2009年12月24日 優(yōu)先權(quán)日2009年12月24日
發(fā)明者楊槐 申請(qǐng)人:楊槐