一種大數(shù)據(jù)比對(duì)碰撞系統(tǒng)的制作方法
【專利摘要】一種大數(shù)據(jù)比對(duì)碰撞系統(tǒng)(BAS),涉及電數(shù)字?jǐn)?shù)據(jù)處理領(lǐng)域,本發(fā)明提供一種以多維度分塊遞歸比對(duì)算法為基礎(chǔ)的比對(duì)碰撞系統(tǒng),以解決數(shù)據(jù)比對(duì)耗時(shí)長(zhǎng)的技術(shù)問題。本系統(tǒng)包括以下四個(gè)模塊:表單管理模塊、模型管理模塊、組織結(jié)構(gòu)模塊、系統(tǒng)管理模塊,本系統(tǒng)核心功能是管理加載不同的數(shù)據(jù)來源的數(shù)據(jù),并對(duì)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行建模,執(zhí)行模型后得到用戶需要的結(jié)果。
【專利說明】一種大數(shù)據(jù)比對(duì)碰撞系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電數(shù)字?jǐn)?shù)據(jù)處理領(lǐng)域,特別涉及一種大數(shù)據(jù)比對(duì)碰撞系統(tǒng)(BAS)。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)云計(jì)算時(shí)代的來臨,傳統(tǒng)的比對(duì)碰撞算法已經(jīng)無法滿足當(dāng)前數(shù)據(jù)形 式下的需要,如何從海量數(shù)據(jù)中分析比對(duì)出有價(jià)值有意義的數(shù)據(jù)成為了計(jì)算機(jī)技術(shù)的瓶 頸。利用傳統(tǒng)的比對(duì)碰撞算法,如果兩個(gè)數(shù)據(jù)集是一萬以內(nèi)數(shù)據(jù)的話,取交集的時(shí)間大約為 ls_5s之間,如果數(shù)據(jù)集到達(dá)一萬以上的話,隨著數(shù)據(jù)的增加,比對(duì)算法將會(huì)驟減。
[0003] 為了解決兩個(gè)大數(shù)據(jù)集合之間進(jìn)行比對(duì)碰撞效率的問題,本系統(tǒng)采用了多維度分 塊遞歸比對(duì)算法進(jìn)行比對(duì)碰撞,即對(duì)兩個(gè)大數(shù)據(jù)集進(jìn)行多維度分塊切分,切分后遞歸進(jìn)行 比對(duì)碰撞。
[0004] 實(shí)驗(yàn)表明,多維度分塊遞歸比對(duì)算法的性能與一般算法相比有了很大提升,對(duì)于 十萬以下的兩個(gè)數(shù)據(jù)集進(jìn)行比對(duì)消耗時(shí)間大概為2S以內(nèi),十萬至一百萬的兩個(gè)數(shù)據(jù)集合 進(jìn)行比對(duì),消耗時(shí)間大概為5s以內(nèi),大大的增加了比對(duì)性能和效率,提高了大數(shù)據(jù)分析的 可靠性和功能的延展性。本系統(tǒng)就是以多維度分塊遞歸比對(duì)算法為技術(shù)依據(jù),對(duì)不同的數(shù) 據(jù)表中的數(shù)據(jù)進(jìn)行選擇和比對(duì)碰撞,最終得到滿足條件的有價(jià)值的結(jié)果。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供一種以多維度分塊遞歸比對(duì)算法為基礎(chǔ)的比對(duì)碰撞系統(tǒng),以解決數(shù)據(jù) 比對(duì)耗時(shí)長(zhǎng)的技術(shù)問題。本系統(tǒng)的核心功能是管理加載不同的數(shù)據(jù)來源的數(shù)據(jù),并對(duì)不同 數(shù)據(jù)源的數(shù)據(jù)進(jìn)行建模,執(zhí)行模型后得到用戶需要的結(jié)果。
[0006] 為達(dá)到上述目的,本發(fā)明提供的大數(shù)據(jù)比對(duì)碰撞系統(tǒng)包括以下四個(gè)模塊:表單管 理模塊、模型管理模塊、組織結(jié)構(gòu)模塊、系統(tǒng)管理模塊。
[0007] 1、表單管理模塊:表單管理模塊包括:添加表單、維護(hù)表單、表單導(dǎo)入和表單導(dǎo) 出。
[0008] I. 1建立表單:添加一個(gè)新的表單,需要填寫表單的中文名稱、表單對(duì)應(yīng)的數(shù)據(jù)庫(kù) (MYSQL/0RACLE/SQLSERVER/DB2....)的名稱,數(shù)據(jù)庫(kù)表的對(duì)應(yīng)IP地址、端口、用戶名、密 碼、數(shù)據(jù)庫(kù)表等相關(guān)信息。如果是文件,則需要填寫文件地址信息等。添加表單中的字段的 信息,如果是文件,則需要填寫文件的各列的數(shù)據(jù)信息,同時(shí)需要設(shè)置每個(gè)字段的屬性、類 型等信息。
[0009] 1. 2維護(hù)表單:對(duì)表單中的相關(guān)信息進(jìn)行維護(hù),包括表單屬性維護(hù)以及表單中的 字段信息進(jìn)行維護(hù)。
[0010] 1.3表單導(dǎo)入:由于表單中的相關(guān)信息填寫比較復(fù)雜,因此為了方便表單的維護(hù), 系統(tǒng)支持對(duì)表單進(jìn)行自動(dòng)導(dǎo)入,即按照系統(tǒng)的模板進(jìn)行導(dǎo)入即可。
[0011] 1.4表單導(dǎo)出:用戶可以將已經(jīng)建好的表單進(jìn)行導(dǎo)出,導(dǎo)出后可以直接在其他系 統(tǒng)中對(duì)表單進(jìn)行那個(gè)導(dǎo)出。
[0012] 2、模型管理模塊:模型管理模塊包括:模型管理、模型任務(wù)配制、模型比對(duì)碰撞、 模型結(jié)果展示和模型導(dǎo)入導(dǎo)出。
[0013] 2. 1模型管理:在現(xiàn)有數(shù)據(jù)源以及數(shù)據(jù)字段的基礎(chǔ)上,建立符合用戶要求的模型 信息,如附圖3所示:
[0014] 2. 11數(shù)據(jù)源:顯示目前系統(tǒng)中所有的已經(jīng)配置的數(shù)據(jù)源的基本信息。
[0015] 2. 12數(shù)據(jù)字段:顯示當(dāng)前數(shù)據(jù)源中的所有的字段信息。
[0016] 2. 13條件構(gòu)造器:選擇某一個(gè)字段后,可以在條件構(gòu)造器中構(gòu)造相應(yīng)的檢索條 件。
[0017] 2. 14邏輯構(gòu)造器:
[0018] 同類別數(shù)據(jù)之間:同一個(gè)數(shù)據(jù)源不同檢索條件之間的處理邏輯。
[0019] 不同類別數(shù)據(jù)之間:同一個(gè)條件組不同數(shù)據(jù)源結(jié)果集之間的數(shù)據(jù)處理邏輯。
[0020] 不同條件組之間:不同條件組的比對(duì)結(jié)果的數(shù)據(jù)源之間的處理邏輯。
[0021] 2. 15條件組顯示區(qū)域:顯示不同條件組之間的比對(duì)碰撞條件信息。
[0022] 2. 2模型任務(wù)配置:模型成功建立后,可以對(duì)模型的執(zhí)行策略進(jìn)行配置,系統(tǒng)支持 兩種策略:定點(diǎn)執(zhí)行和實(shí)時(shí)執(zhí)行。
[0023] 定點(diǎn)執(zhí)行:即一天執(zhí)行一次,需要在系統(tǒng)中配置每天幾點(diǎn)開始執(zhí)行。
[0024] 實(shí)時(shí)執(zhí)行:即一天執(zhí)行多次,需要在系統(tǒng)中配置多長(zhǎng)時(shí)間觸發(fā)一次。
[0025] 2. 3模型比對(duì)碰撞:模型被成功觸發(fā)后,執(zhí)行流程如下:
[0026] 得到當(dāng)前的模型信息;得到模型中的條件組信息;抽取條件組中的相同類型的數(shù) 據(jù)檢索條件、根據(jù)條件組邏輯處理進(jìn)行抽取碰撞;條件組同一類型的數(shù)據(jù)進(jìn)行抽取碰撞后, 將不同的數(shù)據(jù)類型之間的數(shù)據(jù)按照不同類別數(shù)據(jù)之間的處理邏輯進(jìn)行處理。
[0027] 2. 4模型結(jié)果展示:模型執(zhí)行的結(jié)果支持列表的展示形式,即將最終的比對(duì)碰撞 的結(jié)果按照列表的形式進(jìn)行展示。
[0028] 2. 5模型導(dǎo)入導(dǎo)出:模型建立成功后,系統(tǒng)支持用戶批量導(dǎo)出模型信息到xml文 件,系統(tǒng)導(dǎo)出xml文件后,用戶可以將xml文件導(dǎo)入到其他系統(tǒng)中,直接建立模型。
[0029] 3、組織結(jié)構(gòu)模塊:組織結(jié)構(gòu)主要是對(duì)平臺(tái)的用戶角色權(quán)限進(jìn)行管理和維護(hù),包括 如下功能:
[0030] 3. 1用戶管理:用戶管理是對(duì)平臺(tái)的用戶進(jìn)行管理維護(hù),包括如下功能:
[0031] 添加用戶:添加某一個(gè)平臺(tái)用戶;
[0032] 修改用戶:對(duì)用戶的基本信息進(jìn)行修改;
[0033] 注銷用戶:刪除某一個(gè)平臺(tái)用戶。
[0034] 3. 2角色管理:角色管理是對(duì)平臺(tái)的角色進(jìn)行管理維護(hù),包括如下功能:
[0035] 添加角色:添加某一個(gè)平臺(tái)角色;
[0036] 修改角色:對(duì)角色的基本信息進(jìn)行修改;
[0037] 刪除角色:刪除某一個(gè)平臺(tái)角色。
[0038] 3. 3角色分配:角色分配是對(duì)平臺(tái)的用戶進(jìn)行角色分配,平臺(tái)支持同一個(gè)用戶屬 于不同的角色。
[0039] 3. 4權(quán)限分配:權(quán)限分配是對(duì)平臺(tái)的角色進(jìn)行授權(quán),為角色授權(quán)后,平臺(tái)用戶將自 動(dòng)繼承角色的權(quán)限信息
[0040] 4、系統(tǒng)管理模塊:系統(tǒng)管理中包含了與平臺(tái)正常運(yùn)行緊密關(guān)聯(lián)的系統(tǒng)運(yùn)維、運(yùn)行 監(jiān)控、設(shè)置調(diào)優(yōu)、任務(wù)控制等核心操作,其功能如下:
[0041] 4. 1日志管理:日志管理包括如下幾種類型:
[0042] 平臺(tái)用戶操作日志:對(duì)平臺(tái)用戶在登錄平臺(tái)后的主要操作進(jìn)行記錄監(jiān)控
[0043] 平臺(tái)運(yùn)行記錄:對(duì)整個(gè)平臺(tái)的運(yùn)行情況進(jìn)行監(jiān)控,一旦出現(xiàn)異常自動(dòng)報(bào)警。
[0044] 開發(fā)者調(diào)用記錄:平臺(tái)中的開發(fā)者利用平臺(tái)進(jìn)行開發(fā)過程中的相關(guān)操作記錄。
[0045] 4. 2任務(wù)管理:任務(wù)管理是平臺(tái)提供的定時(shí)觸發(fā)調(diào)用相關(guān)任務(wù)的插件,里面包含 系統(tǒng)任務(wù)和定制任務(wù)兩種類型:
[0046] 系統(tǒng)任務(wù):平臺(tái)中的任務(wù),不能進(jìn)行刪除和修改,主要包括一些與平臺(tái)運(yùn)行息息相 關(guān)的任務(wù)調(diào)用,例如緩存清理任務(wù)、數(shù)據(jù)優(yōu)化任務(wù)、圖形插件優(yōu)化任務(wù)等;
[0047] 定制任務(wù):開發(fā)者自己開發(fā)的相關(guān)任務(wù),開發(fā)者只需要實(shí)現(xiàn)平臺(tái)中的相關(guān)接口,并 且在任務(wù)中進(jìn)行相關(guān)配置即可按照相關(guān)規(guī)則進(jìn)行調(diào)用。
[0048] 4. 3接口管理:接口管理是平臺(tái)提供的相關(guān)數(shù)據(jù)集之間獲取交集和并集的接口管 理方法,用戶可以在接口管理里面上傳最新的經(jīng)過優(yōu)化的數(shù)據(jù)碰撞比對(duì)算法以及相關(guān)文檔 信息。
[0049] 4. 4系統(tǒng)配置:系統(tǒng)配置是平臺(tái)參數(shù)配置的入口,系統(tǒng)運(yùn)行的相關(guān)參數(shù)都可以在 系統(tǒng)配置中進(jìn)行修改和維護(hù),系統(tǒng)配置修改后,會(huì)于第二天生效。
[0050] 本系統(tǒng)是通過"多維度分塊遞歸比對(duì)算法"為核心算法的比對(duì)碰撞系統(tǒng),多維度分 塊遞歸比對(duì)算法的原理如下:
[0051] 對(duì)兩個(gè)大數(shù)據(jù)集合COLl、C0L2進(jìn)行多維度拆分后得到
[0052] COLl I,C0L12, C0L13. ... COLlN
[0053] 以及
[0054] C0L21,C0L22, C0L23. . . C0L2N,兩個(gè)數(shù)據(jù)集合塊組,數(shù)據(jù)塊的拆分根據(jù)隨機(jī)拆分的 方式進(jìn)行即可,每個(gè)數(shù)據(jù)塊中分配η個(gè)數(shù)據(jù)。
[0055] 計(jì)算數(shù)據(jù)塊的特征值3,特征值3被稱為數(shù)據(jù)集相似指紋字符串,可以作為當(dāng)前數(shù) 據(jù)塊的標(biāo)志和比對(duì)依據(jù),特征值的計(jì)算方式如下:
【權(quán)利要求】
1. 一種大數(shù)據(jù)比對(duì)碰撞系統(tǒng),其特征在于:包括以下四個(gè)模塊:表單管理模塊、模型管 理模塊、組織結(jié)構(gòu)模塊、系統(tǒng)管理模塊;其中表單管理模塊包括:建立表單、維護(hù)表單、表單 導(dǎo)入和表單導(dǎo)出;模型管理模塊包括:模型管理、模型任務(wù)配制、模型比對(duì)碰撞、模型結(jié)果 展示和模型導(dǎo)入導(dǎo)出;組織結(jié)構(gòu)模塊是對(duì)平臺(tái)的用戶角色權(quán)限進(jìn)行管理和維護(hù),包括用戶 管理、角色管理、角色分配和權(quán)限管理;系統(tǒng)管理模塊包含與平臺(tái)正常運(yùn)行緊密關(guān)聯(lián)的系統(tǒng) 運(yùn)維、運(yùn)行監(jiān)控、設(shè)置調(diào)優(yōu)、任務(wù)控制等核心操作,其功能包括:日志管理、任務(wù)管理、接口管 理、系統(tǒng)配置;大數(shù)據(jù)比對(duì)碰撞系統(tǒng)的核心算法是多維度分塊遞歸比對(duì)算法。
2. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述多維度分塊遞歸比對(duì)算法具體為: 對(duì)兩個(gè)大數(shù)據(jù)集合COLl、C0L2進(jìn)行多維度拆分后得到 COLlI,C0L12,C0L13. ...COLlN 以及 C0L21,C0L22,C0L23. . .C0L2N, 兩個(gè)數(shù)據(jù)集合塊組,數(shù)據(jù)塊的拆分根據(jù)隨機(jī)拆分的方式進(jìn)行,每個(gè)數(shù)據(jù)塊中分配η個(gè) 數(shù)據(jù); 計(jì)算數(shù)據(jù)塊的特征值Θ,特征值的計(jì)算方式如下:
相似度計(jì)算方法如下:
按照相似度的大小重新對(duì)同一個(gè)數(shù)據(jù)集合中的數(shù)據(jù)進(jìn)行重組,得到重組后的兩個(gè)數(shù)據(jù) 結(jié)合塊組: NCOLlI,NC0L12,NC0L13. ...NCOLlN 以及 NC0L21,NC0L22,NC0L23. . .NC0L2N, 重復(fù)上述過程,繼續(xù)比對(duì)不同數(shù)據(jù)塊之間的相似度,重組數(shù)據(jù)得到最后重組后的數(shù)據(jù) 塊組, 當(dāng)兩個(gè)數(shù)據(jù)塊組之間的相似度達(dá)到一個(gè)臨界值的時(shí)候,利用遞歸比對(duì)算法得到最終的 結(jié)果,遞歸比對(duì)算法算法如下:
3. 卯儀利要求1和2所還的糸統(tǒng),具特祉在t,糸統(tǒng)奴用樸境卯卜: 硬件環(huán)境:服務(wù)器端:內(nèi)存:16G以上,硬盤:IOT以上服務(wù)器或?qū)S脙?nèi)存服務(wù)器; 客戶端:普通PC,內(nèi)存4G以上。 軟件環(huán)境:服務(wù)器端:Windows2003、XP或Linux;數(shù)據(jù)庫(kù)采用MySQL、SQLServer、 Oracle;應(yīng)用服務(wù)器采用T0MCAT5以上或WebSphere、WebLogicJDKL6及以上; 客戶端Windows系統(tǒng)操作系統(tǒng);IE7.O以上版本或者其他版本數(shù)據(jù)庫(kù)。
【文檔編號(hào)】G06F17/30GK104462343SQ201410735745
【公開日】2015年3月25日 申請(qǐng)日期:2014年12月8日 優(yōu)先權(quán)日:2014年12月8日
【發(fā)明者】龐艷民 申請(qǐng)人:北京慶世昌明科技有限公司