两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種數(shù)據(jù)離散化方法及系統(tǒng)的制作方法

文檔序號:10687166閱讀:677來源:國知局
一種數(shù)據(jù)離散化方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明實施例提供了一種數(shù)據(jù)離散化方法及系統(tǒng),方法包括:獲得目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定業(yè)務(wù)數(shù)據(jù)的取值范圍,其中取值范圍對應(yīng)有第一最大值和第一最小值;分別對第一最大值和第一最小值取自然對數(shù),以得到第一最大值所對應(yīng)的第二最大值和第一最小值所對應(yīng)的第二最小值;對第二最大值和第二最小值所確定的區(qū)域進行K段等寬分段,并獲取各個分段點所對應(yīng)的第二臨界值;對各個分段所對應(yīng)的第二臨界值取自然指數(shù),以得到第二臨界值所對應(yīng)的第一臨界值;利用第一臨界值對取值范圍進行分段,以得到目標分段區(qū)間;獲得處于目標分段區(qū)間內(nèi)的目標業(yè)務(wù)數(shù)據(jù)。應(yīng)用本發(fā)明實施例,在降低數(shù)據(jù)離散化處理的計算強度的同時,提高所建模型的精度。
【專利說明】
_種數(shù)據(jù)禹散化方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)分析技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)離散化方法及系統(tǒng)。
【背景技術(shù)】
[0002] 在信息化時代,數(shù)據(jù)庫變得越來越大,人們迫切的需要對龐大的數(shù)據(jù)庫進行數(shù)據(jù) 挖掘,以得到有價值的知識,并根據(jù)該有價值的知識制定相應(yīng)的決策。而很大一部分數(shù)據(jù)挖 掘算法只能夠?qū)﹄x散化數(shù)值進行處理。目前常見的無監(jiān)督離散化方法主要有等寬分箱法、 等深分箱法和基于經(jīng)驗的自定義法,但是這三種離散化方法均存在一定的缺陷,從而導(dǎo)致 所構(gòu)建的數(shù)據(jù)挖掘模型并不是很準確。
[0003] 例如,某報社想要得到訂閱刊物兩年的客戶與訂閱刊物一年的客戶的數(shù)量之間的 關(guān)系,并基于這個關(guān)系預(yù)測下一年度訂閱刊物為一年的客戶在第二年持續(xù)訂閱的可能性。 則針對客戶訂閱刊物時間這一連續(xù)屬性,可利用等寬分箱法以一個年度作為一個分箱將訂 閱刊物時間進行離散化,具體將1年以下的客戶劃分成一組,1-2年的客戶為一組,2-3年為 一組等等,進而將刊物訂閱人數(shù)這一觀測數(shù)據(jù)進行離散化,并基于這些離散化數(shù)據(jù)構(gòu)建相 應(yīng)的數(shù)據(jù)挖掘模型,從而預(yù)測得到上述所提到的可能性。但是,通過這種等寬分箱方法得到 的每個分箱中的刊物訂閱數(shù)不一定相同,也就是說,等寬分箱法傾向于把實例不均勻地分 布到各個箱中;另外,在正態(tài)分布呈現(xiàn)左偏化和長尾效應(yīng)的應(yīng)用場景中,將實例按照等寬分 箱法進行離散化后,往往在低值區(qū)分布較多的實例而高值區(qū)分布的實例較少,而該種分布 情況并不符合中值區(qū)實例多,低值區(qū)和高值區(qū)分布的實例少的自然規(guī)律,使得對低值區(qū)的 實例區(qū)分度較低,進而會降低離散化后建模的效果。
[0004] 針對上述例子,假設(shè)在三年內(nèi)報社的刊物訂閱人數(shù)有5萬人,可利用等深分箱法將 訂閱人數(shù)按照訂閱時間升序排列,但是分箱數(shù)難以確定,需要通過實際測試得到較優(yōu)的分 箱數(shù),計算復(fù)雜度較高;若假設(shè)較優(yōu)分箱數(shù)為10,則將每5000訂閱人數(shù)作為一個分箱將5萬 人進行10分箱,能較好地區(qū)分低值區(qū),但可能將同一個訂閱時間的訂閱的人數(shù)的分入不同 的箱中以滿足箱中實例的固定個數(shù),且訂閱時間的分段臨界點也不穩(wěn)定,不適用于實時性 要求較高的場景。
[0005] 而基于經(jīng)驗的自定義法,對專家自身的業(yè)務(wù)經(jīng)驗及判斷能力要求較高,且缺乏理 論指導(dǎo),應(yīng)用面窄,無法應(yīng)用在大規(guī)模數(shù)據(jù)、自動化建模的場景下。
[0006] 因此,亟需提供一種新的數(shù)據(jù)離散化方案,以使數(shù)據(jù)離散化更符合自然規(guī)律,在降 低數(shù)據(jù)離散化處理的計算強度的同時,提高所建模型的精度。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明實施例的目的在于提供一種數(shù)據(jù)離散化方法及系統(tǒng),以使數(shù)據(jù)離散化更符 合自然規(guī)律,在降低數(shù)據(jù)離散化處理的計算強度的同時,提高所建模型的精度。具體技術(shù)方 案如下:
[0008] 第一方面,本發(fā)明實施例提供了 一種數(shù)據(jù)離散化方法,所述方法可以包括:
[0009] 獲得目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍,其中,所述取值范圍 對應(yīng)有第一最大值和第一最小值;
[0010] 分別對所述第一最大值和所述第一最小值取自然對數(shù),得到所述第一最大值所對 應(yīng)的第二最大值和所述第一最小值所對應(yīng)的第二最小值;
[0011] 對所述第二最大值和所述第二最小值所確定的區(qū)域進行K段等寬分段,并獲取各 個分段點所對應(yīng)的第二臨界值;對所述各個分段點所對應(yīng)的第二臨界值取自然指數(shù),得到 所述第二臨界值所對應(yīng)的第一臨界值;
[0012] 利用所述第一臨界值對所述取值范圍進行分段,得到目標分段區(qū)間;
[0013] 獲得處于所述目標分段區(qū)間內(nèi)的目標業(yè)務(wù)數(shù)據(jù),以利用所述目標業(yè)務(wù)數(shù)據(jù)構(gòu)建所 述目標業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0014] 可選地,所述獲得目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍,可以包 括:
[0015] 獲得所述目標業(yè)務(wù)中的目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù)據(jù);
[0016] 確定所述目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范圍。
[0017] 可選地,在所述確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍前,所述方法還可以包括:
[0018] 將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進行排序;
[0019] 基于所述排序,刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù)據(jù),并刪除 所述業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0020] 可選地,在所述獲得處于所述目標分段區(qū)間內(nèi)的目標業(yè)務(wù)數(shù)據(jù)后,所述方法還可 以包括:
[0021 ]為所述目標業(yè)務(wù)數(shù)據(jù)標識目標屬性值。
[0022] 第二方面,本發(fā)明實施例提供了一種數(shù)據(jù)離散化系統(tǒng),所述系統(tǒng)可以包括:業(yè)務(wù)數(shù) 據(jù)確定單元、自然對數(shù)處理單元、自然指數(shù)處理單元、分段區(qū)間獲得單元和目標業(yè)務(wù)數(shù)據(jù)獲 得單元;
[0023] 所述業(yè)務(wù)數(shù)據(jù)確定單元,用于獲得目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所述業(yè)務(wù)數(shù)據(jù)的 取值范圍,其中,所述取值范圍對應(yīng)有第一最大值和第一最小值;
[0024] 所述自然對數(shù)處理單元,用于分別對所述第一最大值和所述第一最小值取自然對 數(shù),得到所述第一最大值所對應(yīng)的第二最大值和所述第一最小值所對應(yīng)的第二最小值;
[0025] 所述自然指數(shù)處理單元,用于對所述第二最大值和所述第二最小值所確定的區(qū)域 進行K段等寬分段,并獲取各個分段點所對應(yīng)的第二臨界值;對所述各個分段點所對應(yīng)的第 二臨界值取自然指數(shù),得到所述第二臨界值所對應(yīng)的第一臨界值;
[0026] 所述分段區(qū)間獲得單元,用于利用所述第一臨界值對所述取值范圍進行分段,得 到目標分段區(qū)間;
[0027] 所述目標業(yè)務(wù)數(shù)據(jù)獲得單元,用于獲得處于所述目標分段區(qū)間內(nèi)的目標業(yè)務(wù)數(shù) 據(jù),以利用所述目標業(yè)務(wù)數(shù)據(jù)構(gòu)建所述目標業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0028] 可選地,所述業(yè)務(wù)數(shù)據(jù)確定單元,可以包括:業(yè)務(wù)數(shù)據(jù)獲取子單元和取值范圍確定 子單元;
[0029] 所述業(yè)務(wù)數(shù)據(jù)獲取子單元,用于獲得所述目標業(yè)務(wù)中的目標連續(xù)屬性所對應(yīng)的業(yè) 務(wù)數(shù)據(jù);
[0030]所述取值范圍確定子單元,用于確定所述目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值 范圍。
[0031 ]可選地,所述系統(tǒng)還可以包括:排序單元和刪除單元;
[0032] 所述排序單元,用于將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進行排序;
[0033] 所述刪除單元,用于基于所述排序,刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍 的最小數(shù)據(jù),并刪除所述業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0034] 可選地,所述系統(tǒng)還可以包括:標識子單元;
[0035] 所述標識子單元,用于為所述目標業(yè)務(wù)數(shù)據(jù)標識目標屬性值。
[0036] 本發(fā)明實施例提供的數(shù)據(jù)離散化方法及系統(tǒng),先確定所要實現(xiàn)的目標業(yè)務(wù),并獲 取該目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù);并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍和該取值范圍所對應(yīng)的第一最大 值和第一最小值;并對該第一最大值和第一最小值取自然對數(shù),得到對應(yīng)的第二最大值和 第二最小值,并且通過該第二最大值和第二最小值確定一個區(qū)域;然后按照等寬分段的方 法對該區(qū)域進行K等分,K等分后獲取各個分段點對應(yīng)的第二臨界值;之后取自然對數(shù)對第 二臨界值進行還原,并將得到第二臨界值所對應(yīng)的第一臨界值映射到原始的取值范圍上, 實現(xiàn)該取值范圍的離散化,得到目標分段區(qū)間,進而可以將業(yè)務(wù)數(shù)據(jù)映射到對應(yīng)的離散化 區(qū)間上,得到目標分段區(qū)間內(nèi)的目標業(yè)務(wù)數(shù)據(jù),并可以根據(jù)獲取得到的目標業(yè)務(wù)數(shù)據(jù)構(gòu)建 數(shù)據(jù)挖掘模型。該種分段方式使得對連續(xù)屬性的離散化更符合自然規(guī)律,可提高所建模型 的精度,且計算簡單,有效的降低了計算資源的開銷。當(dāng)然,實施本發(fā)明的任一產(chǎn)品或方法 并不一定需要同時達到以上所述的所有優(yōu)點。
【附圖說明】
[0037] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0038] 圖1為本發(fā)明實施例提供的數(shù)據(jù)離散化方法流程圖;
[0039] 圖2為本發(fā)明實施例提供的數(shù)據(jù)離散化系統(tǒng)結(jié)構(gòu)示意圖;
[0040] 圖3為現(xiàn)有技術(shù)中基于等寬分段進行數(shù)據(jù)離散化的方法示意圖;
[0041 ]圖4為現(xiàn)有技術(shù)中基于等深分段進行數(shù)據(jù)離散化的方法示意圖;
[0042]圖5為本發(fā)明實施例中基于自然對數(shù)分段進行數(shù)據(jù)離散化的方法示意圖。
【具體實施方式】
[0043]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0044] 為了解決現(xiàn)有技術(shù)問題,本發(fā)明實施例提供了一種數(shù)據(jù)離散化方法及系統(tǒng)。
[0045] 可以理解的是,可通過終端中的硬件設(shè)備或者功能軟件實現(xiàn)本發(fā)明實施例所提供 的數(shù)據(jù)離散化方法,其中,實現(xiàn)本發(fā)明實施例所提供的數(shù)據(jù)離散化方法的功能軟件可以為 設(shè)置于終端中的專門的客戶端軟件,也可以為設(shè)置于終端中的現(xiàn)有客戶端軟件中的功能插 件,這都是合理的。其中,該終端可以為:服務(wù)器、筆記本電腦和平板電腦等設(shè)備。
[0046] 首先,對本發(fā)明實施例提供的數(shù)據(jù)離散化方法進行介紹。
[0047] 如圖1所示,本發(fā)明實施例提供的數(shù)據(jù)離散化方法,可以包括如下步驟:
[0048] S101:獲得目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍,其中,該取值范 圍對應(yīng)有第一最大值和第一最小值;
[0049] 其中,當(dāng)需要對目標業(yè)務(wù)構(gòu)建數(shù)據(jù)挖掘模型且需要獲取該目標業(yè)務(wù)的離散化數(shù)據(jù) 時,可先獲取該目標業(yè)務(wù)所對應(yīng)的業(yè)務(wù)數(shù)據(jù),在得到業(yè)務(wù)數(shù)據(jù)后,確定該業(yè)務(wù)數(shù)據(jù)的取值范 圍,即該業(yè)務(wù)數(shù)據(jù)所對應(yīng)的取值區(qū)間,其中,在該取值區(qū)間對應(yīng)有一個第一最大值和一個第 一最小值。
[0050] S102:分別對該第一最大值和該第一最小值取自然對數(shù),得到該第一最大值所對 應(yīng)的第二最大值和該第一最小值所對應(yīng)的第二最小值;
[0051 ]其中,在獲得第一最大值和第一最小值后,對該第一最大值取自然對數(shù)得到第二 最大值,對該第一最小值取自然對數(shù)得到第二最小值,該種計算方式計算量較小,節(jié)約了計 算資源。其中,可以利用計算機中的CHJ計算得到該第二最大值和第二最小值。
[0052] S103:對該第二最大值和該第二最小值所確定的區(qū)域進行K段等寬分段,并獲取各 個分段點所對應(yīng)的第二臨界值;對該各個分段點所對應(yīng)的第二臨界值取自然指數(shù),得到該 第二臨界值所對應(yīng)的第一臨界值;
[0053]其中,由該第二最小值和該第二最大值確定一個取值區(qū)間,對該區(qū)間進行K段等寬 分段,即在對第一最小值和第一最大值取自然對數(shù)后,應(yīng)用等寬分段方式對第二最小值和 第二最大值所確定的區(qū)間K等寬分段,有效的利用了等寬分段計算量小、不需要大量復(fù)雜的 運算的優(yōu)點;另外,通過引入自然對數(shù),將分段距離自然的分開,增大了低值區(qū)的區(qū)分度,避 免了利用等深分段所產(chǎn)生的分段臨界點不穩(wěn)定,且計算量大的問題;而且通過取自然對數(shù) 且結(jié)合等寬分段的方式,使得分段更符合自然客觀事件的實際分布特征,能較好的完成對 業(yè)務(wù)數(shù)據(jù)進行離散化的目標;并在進行K段等寬分段后得到各個分段點所對應(yīng)的第二臨界 值,然后對該第二臨界值取自然指數(shù)進行還原,得到第一臨界值。
[0054]需要強調(diào)的是,K為大于等于1的整數(shù),并且K值可由技術(shù)人員根據(jù)具體情況進行設(shè) 定,在此不做詳述。
[0055] S104:利用該第一臨界值對該取值范圍進行分段,得到目標分段區(qū)間;
[0056] 其中,將獲得的第一臨界值對該業(yè)務(wù)數(shù)據(jù)所對應(yīng)的取值范圍進行分段,得到至少 一個分段區(qū)間,并可根據(jù)目標業(yè)務(wù)的具體需求將指定分段區(qū)間確定為目標分段區(qū)間。
[0057] S105:獲得處于該目標分段區(qū)間內(nèi)的目標業(yè)務(wù)數(shù)據(jù),以利用該目標業(yè)務(wù)數(shù)據(jù)構(gòu)建 該目標業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0058] 其中,將處于目標分段區(qū)間內(nèi)的業(yè)務(wù)數(shù)據(jù)投映至該目標分段區(qū)間內(nèi),并將映射至 目標分段區(qū)間的業(yè)務(wù)數(shù)據(jù)作為目標業(yè)務(wù)數(shù)據(jù),實現(xiàn)將目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的離散化處理。 其中,在得到離散化的數(shù)據(jù)后,可利用該目標分段區(qū)間內(nèi)所對應(yīng)的目標業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù) 挖掘模型,使得所構(gòu)建的數(shù)據(jù)挖掘模型所采用的數(shù)據(jù)更符合自然規(guī)律,所建立的數(shù)據(jù)挖掘 模型更準確。當(dāng)然,并不局限于利用與構(gòu)建數(shù)據(jù)挖掘模型。
[0059] 在本發(fā)明實施例中,先確定所要實現(xiàn)的目標業(yè)務(wù),并獲取該目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù); 并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍和該取值范圍所對應(yīng)的第一最大值和第一最小值;并對該第 一最大值和第一最小值取自然對數(shù),得到對應(yīng)的第二最大值和第二最小值,并且通過該第 二最大值和第二最小值確定一個區(qū)域;然后按照等寬分段的方法對該區(qū)域進行K等分,K等 分后獲取各個分段點對應(yīng)的第二臨界值;之后取自然對數(shù)對第二臨界值進行還原,并將得 到第二臨界值所對應(yīng)的第一臨界值映射到原始的取值范圍上,實現(xiàn)該取值范圍的離散化, 得到目標分段區(qū)間,進而可以將業(yè)務(wù)數(shù)據(jù)映射到對應(yīng)的離散化區(qū)間上,得到目標分段區(qū)間 內(nèi)的目標業(yè)務(wù)數(shù)據(jù),并可以根據(jù)獲取得到的目標業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù)挖掘模型。該種分段方 式使得對連續(xù)屬性的離散化更符合自然規(guī)律,可提高所建模型的精度,且計算簡單,有效的 降低了計算資源的開銷。
[0060]可選地,該獲得目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍,可以包括: 獲得該目標業(yè)務(wù)中的目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù)據(jù);確定該目標連續(xù)屬性所對應(yīng)的業(yè)務(wù) 數(shù)據(jù)的取值范圍。
[0061 ]可以理解的是,在該種實現(xiàn)方式中,確定目標業(yè)務(wù)的目標連續(xù)屬性,并確定該目標 連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù)據(jù),可以進一步的排除掉不需要的業(yè)務(wù)數(shù)據(jù),進而能夠提高所建 模型的精度,同時也減少了計算量和存儲空間,進而確定該目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù) 據(jù)的取值范圍,進而再執(zhí)行對該取值范圍所對應(yīng)的第一最大值和第一最小值取自然對數(shù)等 步驟,最終實現(xiàn)對數(shù)據(jù)挖掘模型的構(gòu)建。
[0062] 值得強調(diào)的是,該目標連續(xù)屬性包括但不局限于時間屬性。
[0063] 可選地,在該確定該業(yè)務(wù)數(shù)據(jù)的取值范圍前,還可以包括:將該業(yè)務(wù)數(shù)據(jù)按照從小 到大的順序進行排序;基于該排序,刪除該業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù)據(jù), 并刪除該業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0064] 可以理解的是,在該種實現(xiàn)方式中,在確定業(yè)務(wù)數(shù)據(jù)的取值范圍前,可以將該業(yè)務(wù) 數(shù)據(jù)按照從小到大的順序進行排列,并將在第一預(yù)設(shè)比例范圍內(nèi)的最小數(shù)據(jù)和在第二預(yù)設(shè) 比例范圍的最大數(shù)據(jù)刪除,以避免突然出現(xiàn)的較大值的業(yè)務(wù)數(shù)據(jù)和較小值的業(yè)務(wù)數(shù)據(jù)對分 段結(jié)果產(chǎn)生較大影響,進而使得分段結(jié)果更準確。
[0065] 其中,該目標業(yè)務(wù)數(shù)據(jù)可以是目標業(yè)務(wù)所對應(yīng)的所有業(yè)務(wù)數(shù)據(jù),也可以是目標業(yè) 務(wù)中的目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù)據(jù)。
[0066] 需要強調(diào)的是,本領(lǐng)域的技術(shù)人員可根據(jù)實際情況設(shè)定該第一預(yù)設(shè)比例范圍和第 二預(yù)設(shè)比例范圍,在此不做限定。
[0067] 可選地,在該獲得處于該目標分段區(qū)間內(nèi)的目標業(yè)務(wù)數(shù)據(jù)后,還可以包括:為該目 標業(yè)務(wù)數(shù)據(jù)標識目標屬性值。
[0068] 可以理解的是,在該種實現(xiàn)方式中,在得到目標業(yè)務(wù)數(shù)據(jù)后,當(dāng)不需要了解目標業(yè) 務(wù)數(shù)據(jù)的本身值,而只需要了解目標業(yè)務(wù)數(shù)據(jù)的相對屬性(例如相對大?。r,可對該目標 業(yè)務(wù)數(shù)據(jù)標識目標屬性值(例如編號值),以用該目標屬性值代替實際的目標業(yè)務(wù)數(shù)據(jù)的數(shù) 值,并可基于該目標業(yè)務(wù)數(shù)據(jù)和該目標屬性值,構(gòu)建該目標業(yè)務(wù)對應(yīng)的數(shù)據(jù)挖掘模型,可極 大的減少計算量,節(jié)省計算資源和存儲資源。
[0069] 下面,結(jié)合圖3至圖5,以及表一對本發(fā)明實施提供的數(shù)據(jù)離散化方法進行說明。
[0070] 例如,要對某目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)進行數(shù)據(jù)離散化處理,獲取得到目標業(yè)務(wù)所對 應(yīng)的100個實例,其中,該100個實例中最大值為100,最小值為1。表一給出了三種分段方法。 其中,表一如下所示:
[0073]表一
[0074]其中,最大值與最小值的差值為極差。
[0075]其中,由表一可知,三種分段方法得到的結(jié)果并不相同,按照等寬分段方法將實例 x = 50歸入(X2,X3)所對應(yīng)的分段;按照等深分段方法將x = 50歸入(X3,X4)所對應(yīng)的分段;按 照本發(fā)明基于自然對數(shù)的方法將實例x = 50歸入(X4,X5)所對應(yīng)的分段。
[0076] 具體地,圖3示出了由等寬分段方法所得到的離散化區(qū)間,由圖3可見,由[1,100] 所限定的區(qū)間被均分成5段,在高值區(qū)和中值區(qū)取了較少的實例,在低值區(qū)取了較多的實 例,將實例x = 50歸入(x2,X3)所對應(yīng)的分段。
[0077] 圖4示出了由等深分段方法所得的離散化區(qū)間,每個分段內(nèi)的實例數(shù)相等,分段臨 界點難以確定,且分段臨界點不穩(wěn)定,所采集到的數(shù)據(jù)也不穩(wěn)定。
[0078] 圖5示出了本發(fā)明實施例提供的基于自然對數(shù)分段所得到的離散化區(qū)間,該種分 段情況符合中值區(qū)實例多,低值區(qū)和高值區(qū)分布的實例少的自然規(guī)律,進而能提高離散化 的準確度,進而提高所建模型的準確度。
[0079] 其中,當(dāng)存在M維數(shù)據(jù)集,并且任--維數(shù)據(jù)集中有N個實例的業(yè)務(wù)數(shù)據(jù)時,可利用 基于自然對數(shù)分段方法對所輸入的數(shù)據(jù)進行離散化處理,具體方法如下:
[0080] 對任意實例…,XN},比較其與當(dāng)前最大值和最小值的大小關(guān)系;計算 Max{Xi,X2,…,Xn}(簡稱為Max)和Min{Xi,X2,…,Xn}(簡稱為Min);對Max和Min,分別計算 Max' =ln(Max)和Min' = ln(Min);對[Min',Max' ]所限定的區(qū)間,根據(jù)離散化參數(shù)K進行K等 寬分段,所得到的分段點的臨界值所構(gòu)成的集合為:
[0081 ] {Min,,Min,+ (Max,_Min,)/K,…,Min,+ (K_l)(Max,_Min,)/K,Max'}
[0082]再對上述集合中的各個分段臨界值取自然指數(shù),得出原始值域上的分段臨界值集 合為:
[0083] {eMin,,e(Min' + (Max'_Min')/K),…,e(in' + (K_l) (Max'-Min,)/K),eMax'}
[0084] 根據(jù)原始值域上的分段臨界值集合中的各個分段臨界值,將任意實例XGUi, X2,…,Xn}映射到所屬分段,完成尚散化過程。
[0085] 其次,對本發(fā)明實施例提供的一種數(shù)據(jù)離散化系統(tǒng)進行介紹。
[0086] 如圖2所示,本發(fā)明實施例提供的數(shù)據(jù)離散化系統(tǒng)可以包括:業(yè)務(wù)數(shù)據(jù)確定單元 201、自然對數(shù)處理單元202、自然指數(shù)處理單元203、分段區(qū)間獲得單元204和目標業(yè)務(wù)數(shù)據(jù) 獲得單元205;
[0087]該業(yè)務(wù)數(shù)據(jù)確定單元201,用于獲得目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定該業(yè)務(wù)數(shù)據(jù)的取 值范圍,其中,該取值范圍對應(yīng)有第一最大值和第一最小值;
[0088]該自然對數(shù)處理單元202,用于分別對該第一最大值和該第一最小值取自然對數(shù), 得到該第一最大值所對應(yīng)的第二最大值和該第一最小值所對應(yīng)的第二最小值;
[0089]該自然指數(shù)處理單元203,用于對該第二最大值和該第二最小值所確定的區(qū)域進 行K段等寬分段,并獲取各個分段點所對應(yīng)的第二臨界值;對該各個分段所對應(yīng)的第二臨界 值取自然指數(shù),得到該第二臨界值所對應(yīng)的第一臨界值;
[0090] 該分段區(qū)間獲得單元204,用于利用該第一臨界值對該取值范圍進行分段,得到目 標分段區(qū)間;
[0091] 該目標業(yè)務(wù)數(shù)據(jù)獲得單元205,用于獲得處于該目標分段區(qū)間內(nèi)的目標業(yè)務(wù)數(shù)據(jù), 以利用該目標業(yè)務(wù)數(shù)據(jù)構(gòu)建該目標業(yè)務(wù)的數(shù)據(jù)挖掘模型。
[0092]在本發(fā)明實施例中,先確定所要實現(xiàn)的目標業(yè)務(wù),并獲取該目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù); 并確定該業(yè)務(wù)數(shù)據(jù)的取值范圍和該取值范圍所對應(yīng)的第一最大值和第一最小值;并對該第 一最大值和第一最小值取自然對數(shù),得到對應(yīng)的第二最大值和第二最小值,并且通過該第 二最大值和第二最小值確定一個區(qū)域;然后按照等寬分段的方法對該區(qū)域進行K等分,K等 分后獲取各個分段點對應(yīng)的第二臨界值;之后取自然對數(shù)對第二臨界值進行還原,并將得 到第二臨界值所對應(yīng)的第一臨界值映射到原始的取值范圍上,實現(xiàn)該取值范圍的離散化, 得到目標分段區(qū)間,進而可以將業(yè)務(wù)數(shù)據(jù)映射到對應(yīng)的離散化區(qū)間上,得到目標分段區(qū)間 內(nèi)的目標業(yè)務(wù)數(shù)據(jù),并可以根據(jù)獲取得到的目標業(yè)務(wù)數(shù)據(jù)構(gòu)建數(shù)據(jù)挖掘模型。該種分段方 式使得對連續(xù)屬性的離散化更符合自然規(guī)律,可提高所建模型的精度,且計算簡單,有效的 降低了計算資源的開銷。
[0093]可選地,該業(yè)務(wù)數(shù)據(jù)確定單元201,可以包括:業(yè)務(wù)數(shù)據(jù)獲取子單元和取值范圍確 定子單元;
[0094] 該業(yè)務(wù)數(shù)據(jù)獲取子單元,用于獲得該目標業(yè)務(wù)中的目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù) 據(jù);
[0095] 該取值范圍確定子單元,用于確定該目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范 圍。
[0096] 可選地,該系統(tǒng)還可以包括:排序單元和刪除單元;
[0097] 該排序單元,用于將該業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進行排序;
[0098] 該刪除單元,用于基于該排序,刪除該業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小 數(shù)據(jù),并刪除該業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。
[0099] 可選地,該系統(tǒng)還可以包括:標識子單元;
[0100] 該標識子單元,用于為該目標業(yè)務(wù)數(shù)據(jù)標識目標屬性值。
[0101]對于裝置實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān) 之處參見方法實施例的部分說明即可。
[0102] 需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實 體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存 在任何這種實際的關(guān)系或者順序。而且,術(shù)語"包括"、"包含"或者其任何其他變體意在涵蓋 非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要 素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備 所固有的要素。在沒有更多限制的情況下,由語句"包括一個……"限定的要素,并不排除在 包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0103] 本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部 分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實 施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例 的部分說明即可。
[0104] 以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在 本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍 內(nèi)。
【主權(quán)項】
1. 一種數(shù)據(jù)離散化方法,其特征在于,所述方法包括: 獲得目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍,其中,所述取值范圍對應(yīng) 有第一最大值和第一最小值; 分別對所述第一最大值和所述第一最小值取自然對數(shù),得到所述第一最大值所對應(yīng)的 第二最大值和所述第一最小值所對應(yīng)的第二最小值; 對所述第二最大值和所述第二最小值所確定的區(qū)域進行K段等寬分段,并獲取各個分 段點所對應(yīng)的第二臨界值;對所述各個分段點所對應(yīng)的第二臨界值取自然指數(shù),得到所述 第二臨界值所對應(yīng)的第一臨界值; 利用所述第一臨界值對所述取值范圍進行分段,得到目標分段區(qū)間; 獲得處于所述目標分段區(qū)間內(nèi)的目標業(yè)務(wù)數(shù)據(jù),以利用所述目標業(yè)務(wù)數(shù)據(jù)構(gòu)建所述目 標業(yè)務(wù)的數(shù)據(jù)挖掘模型。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲得目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所 述業(yè)務(wù)數(shù)據(jù)的取值范圍,包括: 獲得所述目標業(yè)務(wù)中的目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù)據(jù); 確定所述目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范圍。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍前, 所述方法還包括: 將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進行排序; 基于所述排序,刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù)據(jù),并刪除所述 業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。4. 根據(jù)權(quán)利要求1-3中任一項所述的方法,其特征在于,在所述獲得處于所述目標分段 區(qū)間內(nèi)的目標業(yè)務(wù)數(shù)據(jù)后,所述方法還包括: 為所述目標業(yè)務(wù)數(shù)據(jù)標識目標屬性值。5. -種數(shù)據(jù)離散化系統(tǒng),其特征在于,所述系統(tǒng)包括: 業(yè)務(wù)數(shù)據(jù)確定單元,用于獲得目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),并確定所述業(yè)務(wù)數(shù)據(jù)的取值范圍, 其中,所述取值范圍對應(yīng)有第一最大值和第一最小值; 自然對數(shù)處理單元,用于分別對所述第一最大值和所述第一最小值取自然對數(shù),得到 所述第一最大值所對應(yīng)的第二最大值和所述第一最小值所對應(yīng)的第二最小值; 自然指數(shù)處理單元,用于對所述第二最大值和所述第二最小值所確定的區(qū)域進行K段 等寬分段,并獲取各個分段點所對應(yīng)的第二臨界值;對所述各個分段點所對應(yīng)的第二臨界 值取自然指數(shù),得到所述第二臨界值所對應(yīng)的第一臨界值; 分段區(qū)間獲得單元,用于利用所述第一臨界值對所述取值范圍進行分段,得到目標分 段區(qū)間; 目標業(yè)務(wù)數(shù)據(jù)獲得單元,用于獲得處于所述目標分段區(qū)間內(nèi)的目標業(yè)務(wù)數(shù)據(jù),以利用 所述目標業(yè)務(wù)數(shù)據(jù)構(gòu)建所述目標業(yè)務(wù)的數(shù)據(jù)挖掘模型。6. 根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述業(yè)務(wù)數(shù)據(jù)確定單元,包括: 業(yè)務(wù)數(shù)據(jù)獲取子單元,用于獲得所述目標業(yè)務(wù)中的目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù)據(jù); 取值范圍確定子單元,用于確定所述目標連續(xù)屬性所對應(yīng)的業(yè)務(wù)數(shù)據(jù)的取值范圍。7. 根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 排序單元,用于將所述業(yè)務(wù)數(shù)據(jù)按照從小到大的順序進行排序; 刪除單元,用于基于所述排序,刪除所述業(yè)務(wù)數(shù)據(jù)中的在第一預(yù)設(shè)比例范圍的最小數(shù) 據(jù),并刪除所述業(yè)務(wù)數(shù)據(jù)中的在第二預(yù)設(shè)比例范圍的最大數(shù)據(jù)。8.根據(jù)權(quán)利要求5-7中任一項所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 標識子單元,用于為所述目標業(yè)務(wù)數(shù)據(jù)標識目標屬性值。
【文檔編號】G06F17/30GK106055669SQ201610391085
【公開日】2016年10月26日
【申請日】2016年6月3日
【發(fā)明人】牛琨, 高志鵬
【申請人】北京郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
罗江县| 承德市| 九龙坡区| 阜城县| 城步| 泰宁县| 烟台市| 上蔡县| 武城县| 沿河| 宁远县| 金昌市| 乐亭县| 岚皋县| 称多县| 福鼎市| 乐都县| 南通市| 贵阳市| 普安县| 六枝特区| 聂荣县| 怀集县| 长葛市| 万安县| 宁乡县| 新密市| 青田县| 唐河县| 七台河市| 明星| 江安县| 怀宁县| 东城区| 三原县| 恩施市| 河北省| 平远县| 施秉县| 南木林县| 永丰县|