本發(fā)明涉及數(shù)據(jù)處理
技術(shù)領(lǐng)域:
,尤其涉及一種基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘方法及系統(tǒng)。
背景技術(shù):
:目前,方劑數(shù)據(jù)預(yù)處理方法大多數(shù)是按照詞典或者教科書的內(nèi)容,再人為進行分類處理,例如對癥狀名和藥物別名的處理,缺乏客觀性和統(tǒng)一標(biāo)準(zhǔn)。并且現(xiàn)有配方挖掘系統(tǒng)需要手動輸入藥方或者藥材名稱,然后從數(shù)據(jù)庫里面檢索抓取合適的藥方配伍信息,在這過程中由于常用藥材的藥方組合非常多,大量的信息干擾增加了制定藥方時檢索的用時。技術(shù)實現(xiàn)要素:本發(fā)明的主要目的在于提供一種基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘方法及系統(tǒng),旨在通過對現(xiàn)有數(shù)據(jù)庫的挖掘,提供向用戶提供藥材的功效以及功效與歸經(jīng)的關(guān)聯(lián)關(guān)系,以減少信息干擾,便于用戶快速制定藥方。為實現(xiàn)上述目的,本發(fā)明提供的一種基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘方法包括以下步驟:對錄入的中藥原始數(shù)據(jù)進行預(yù)處理,所述中藥原始數(shù)據(jù)中包含單味藥數(shù)據(jù)庫和藥劑配方數(shù)據(jù)庫;所述單味藥數(shù)據(jù)庫形成以單味藥為事務(wù)、以所述單味藥的一個功效或歸經(jīng)為特征項的第一事務(wù)集;根據(jù)所述單位藥數(shù)據(jù)庫與藥劑配方數(shù)據(jù)庫構(gòu)建以所述第一事務(wù)集所包含的全部特征項為頻繁項的FP-tree數(shù)據(jù)結(jié)構(gòu);將所述第一事務(wù)集中每個事務(wù)所對應(yīng)的特征項按照所述FP-tree數(shù)據(jù)結(jié)構(gòu)中頻繁項的順序重新排列,生成第二事務(wù)集;所述第二事務(wù)集包括多個數(shù)據(jù)集;每個所述數(shù)據(jù)集以其包含的所述特征項為事務(wù),每條所述事務(wù)包括所述數(shù)據(jù)集中排列在所述事務(wù)所對應(yīng)的特征項之前的特征項;對每個所述數(shù)據(jù)集運行FP-growth算法,以生成與所述多個數(shù)據(jù)集一一對應(yīng)的FP-tree子數(shù)據(jù)結(jié)構(gòu);基于不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)中特征項之間的對應(yīng)關(guān)系,挖掘不同功效之間的關(guān)聯(lián)規(guī)則和/或挖掘功效與歸經(jīng)之間的關(guān)聯(lián)規(guī)則。優(yōu)選地,所述藥劑配方數(shù)據(jù)庫包含藥劑配方及其組成和功效;構(gòu)建以所述第一事務(wù)集所包含的全部特征項為頻繁項的FP-tree數(shù)據(jù)結(jié)構(gòu)包括:掃描所述第一事務(wù)集,以所述第一事務(wù)集中所包含的全部特征項生成第一頻繁項集,按照所述特征項在所述藥劑配方中出現(xiàn)的頻次為支持度,降序排列所述第一頻繁項集,以生成項頭表;按照重新排列的順序把每個所述事務(wù)的每個頻繁項插入以null為根的FP-tree中;如果插入時頻繁項節(jié)點已經(jīng)存在了,則把該頻繁項節(jié)點支持度加1;如果插入時頻繁項節(jié)點不存在,則創(chuàng)建支持度為1的節(jié)點,并把該節(jié)點鏈接到所述項頭表中。優(yōu)選地,所述對每個所述數(shù)據(jù)集運行FP-growth算法,以生成與所述多個數(shù)據(jù)集一一對應(yīng)的FP-tree子數(shù)據(jù)結(jié)構(gòu)包括:以所述數(shù)據(jù)集中所包含的全部特征項生成第二頻繁項集,通過FP-growth算法獲得同一頻繁項在所述FP-tree數(shù)據(jù)結(jié)構(gòu)中的所有節(jié)點的祖先路徑的集合,取并集得到支持度大于閾值的所有模式;循環(huán)獲得所述數(shù)據(jù)集中每一頻繁項支持度大于閾值的所有模式;形成所述數(shù)據(jù)集中條件模式基;將所述條件模式基按照FP-tree的數(shù)據(jù)結(jié)構(gòu)形成節(jié)點鏈。優(yōu)選地,所述將所述條件模式基按照FP-tree的數(shù)據(jù)結(jié)構(gòu)形成所述FP-tree子數(shù)據(jù)結(jié)構(gòu)之后還包括:根據(jù)所述FP-tree子數(shù)據(jù)結(jié)構(gòu)獲得每個所述頻繁項的頻繁模式,所述頻繁模式包含所有與所述頻繁項具有關(guān)聯(lián)的特征項及其與所述頻繁項關(guān)聯(lián)的支持度。優(yōu)選地,所述基于不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)中特征項之間的對應(yīng)關(guān)系,挖掘不同功效之間的關(guān)聯(lián)規(guī)則包括:遍歷各所述FP-tree子數(shù)據(jù)結(jié)構(gòu),若兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表中存在相同的特征項,則在該兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表之間建立索引指向;重復(fù)所述遍歷各所述FP-tree子數(shù)據(jù)結(jié)構(gòu),若兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表中存在相同的特征項,則在該兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表之間建立索引指向;直到遍歷完成所有所述FP-tree子數(shù)據(jù)結(jié)構(gòu)。此外,為實現(xiàn)上述目的,本發(fā)明還提供一種基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘系統(tǒng)包括:預(yù)處理模塊,用于對中藥原始數(shù)據(jù)進行預(yù)處理,所述中藥原始數(shù)據(jù)中包含單味藥數(shù)據(jù)庫和藥劑配方數(shù)據(jù)庫;所述單位藥數(shù)據(jù)庫形成以單味藥為事務(wù)、以所述單味藥的一個功效或歸經(jīng)為特征項的第一事務(wù)集;FP-tree模塊,用于以所述第一事務(wù)集所包含的全部特征項為頻繁項構(gòu)建FP-tree數(shù)據(jù)結(jié)構(gòu);數(shù)據(jù)劃分模塊,用于把所述第一事務(wù)集中每個事務(wù)所對應(yīng)的特征項按照所述FP-tree數(shù)據(jù)結(jié)構(gòu)中頻繁項的順序重新排列,生成第二事務(wù)集;所述第二事務(wù)集包括多個數(shù)據(jù)集;每個所述數(shù)據(jù)集以其包含的所述特征項為事務(wù),每條所述事務(wù)包括所述數(shù)據(jù)集中排列在所述事務(wù)所對應(yīng)的特征項之前的特征項;FP-tree子模塊,用于對每個所述數(shù)據(jù)集運行FP-growth算法,以生成與所述多個數(shù)據(jù)集一一對應(yīng)的FP-tree子數(shù)據(jù)結(jié)構(gòu);挖掘模塊,用于基于不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)中特征項之間的對應(yīng)關(guān)系,挖掘不同功效之間的關(guān)聯(lián)規(guī)則和/或挖掘功效與歸經(jīng)之間的關(guān)聯(lián)規(guī)則。優(yōu)選地,所述FP-tree模塊包括:項頭表模塊,用于掃描所述第一事務(wù)集,以所述第一事務(wù)集中所包含的全部特征項生成第一頻繁項集,按照所述特征項在所述藥劑配方中出現(xiàn)的頻次為支持度,降序排列所述第一頻繁項集,以生成項頭表;排序模塊,用于按照重新排列的順序把每個所述事務(wù)的每個頻繁項插入以null為根的FP-tree中;如果插入時頻繁項節(jié)點已經(jīng)存在了,則把該頻繁項節(jié)點支持度加1;如果插入時頻繁項節(jié)點不存在,則創(chuàng)建支持度為1的節(jié)點,并把該節(jié)點鏈接到所述項頭表中。優(yōu)選地,所述FP-tree子模塊包括:路徑模塊,用于以所述數(shù)據(jù)集中所包含的全部特征項生成第二頻繁項集,通過FP-growth算法獲得同一頻繁項在所述FP-tree數(shù)據(jù)結(jié)構(gòu)中的所有節(jié)點的祖先路徑的集合,取并集得到支持度大于閾值的所有模式;循環(huán)獲得所述數(shù)據(jù)集中每一頻繁項支持度大于閾值的所有模式;形成所述數(shù)據(jù)集中條件模式基;節(jié)點鏈模塊,用于將所述條件模式基按照FP-tree的數(shù)據(jù)結(jié)構(gòu)形成節(jié)點鏈。優(yōu)選地,所述系統(tǒng)還包括:頻繁式模塊,用于根據(jù)所述FP-tree子數(shù)據(jù)結(jié)構(gòu)獲得每個所述頻繁項的頻繁模式,所述頻繁模式包含所有與所述頻繁項具有關(guān)聯(lián)的特征項及其與所述頻繁項關(guān)聯(lián)的支持度。優(yōu)選地,所述挖掘模塊包括:索引模塊,用于遍歷各所述FP-tree子數(shù)據(jù)結(jié)構(gòu),若兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表中存在相同的特征項,則在該兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表之間建立索引指向;循環(huán)模塊,用于重復(fù)所述遍歷各所述FP-tree子數(shù)據(jù)結(jié)構(gòu),若兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表中存在相同的特征項,則在該兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表之間建立索引指向;直到遍歷完成所有所述FP-tree子數(shù)據(jù)結(jié)構(gòu)。本發(fā)明的方案,通過與中藥原始數(shù)據(jù)進行預(yù)處理,獲得能夠通過算法規(guī)則進行運算數(shù)據(jù),根據(jù)單味藥數(shù)據(jù)庫與藥劑配方數(shù)據(jù)庫之間的聯(lián)系,構(gòu)建以所有單味中藥的所有功效為頻繁項的FP-tree數(shù)據(jù)結(jié)構(gòu),根據(jù)FP-tree數(shù)據(jù)結(jié)構(gòu)對現(xiàn)有單味藥數(shù)據(jù)庫按照每一味藥重新分為多個數(shù)據(jù)集,每個數(shù)據(jù)集根據(jù)FP-tree數(shù)據(jù)結(jié)構(gòu)的節(jié)點鏈,挖掘單味藥中不同功效之間的關(guān)聯(lián)規(guī)則,以及單味藥中功效與歸經(jīng)之間的關(guān)聯(lián)規(guī)則,從而獲得每一味藥的功效關(guān)聯(lián)置信度,功效歸經(jīng)關(guān)聯(lián)置信度,從而減少檢索過程中的信息干擾。附圖說明圖1a為本發(fā)明基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘方法第一實施例的流程示意圖;圖1b為本發(fā)明基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘方法第一實施例中獲得藥物模糊劑量的流程圖;圖2為FP-tree數(shù)據(jù)結(jié)構(gòu)的示意圖;圖3為本發(fā)明基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘方法第二實施例中構(gòu)建FP-tree數(shù)據(jù)結(jié)構(gòu)步驟的細化流程示意圖;圖4為本發(fā)明基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘方法第三實施例中生成FP-tree子數(shù)據(jù)結(jié)構(gòu)步驟的細化流程示意圖;圖5為圖2中I5的FP-tree的示意圖;圖6為圖2中I3的FP-tree的示意圖;圖7為圖2中I1的FP-tree的示意圖;圖8為本發(fā)明藥配方數(shù)據(jù)挖掘方法第四實施例的流程示意圖;圖9為本發(fā)明基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘方法第五實施例中挖掘關(guān)聯(lián)規(guī)則步驟的細化流程示意圖;圖10為本發(fā)明基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘系統(tǒng)一實施例的功能模塊示意圖;圖11為本發(fā)明基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘系統(tǒng)另一實施例的功能模塊示意圖。本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。具體實施方式應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明提供一種基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘方法,參照圖1a,在一實施例中,該方法包括:步驟S10,對錄入的中藥原始數(shù)據(jù)進行預(yù)處理,所述中藥原始數(shù)據(jù)中包含單味藥數(shù)據(jù)庫和藥劑配方數(shù)據(jù)庫;所述單味藥數(shù)據(jù)庫形成以單味藥為事務(wù)、以所述單味藥的一個功效或歸經(jīng)為特征項的第一事務(wù)集;數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中的一個重要步驟,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)消減。其目的是提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量,并最終達到提高數(shù)據(jù)挖掘所獲模式知識質(zhì)量的目的。原始數(shù)據(jù)中包含單味藥數(shù)據(jù)庫和藥劑配方數(shù)據(jù)庫,單味藥數(shù)據(jù)庫中包含若干味藥材,以及對應(yīng)于每味藥材的若干功效和歸經(jīng);藥劑配方數(shù)據(jù)庫中包含若干藥劑配方,以及對應(yīng)于每個藥劑配方中的藥劑組成、藥劑含量及藥劑功效、歸經(jīng);首先錄入中藥原始數(shù)據(jù)并進行預(yù)處理,提取質(zhì)量高的數(shù)據(jù)作為采樣樣本,并對上述藥材、功效、歸經(jīng)分別進行標(biāo)號,以便后續(xù)的計算和處理。例如錄入的單味藥的原始數(shù)據(jù)內(nèi)容參見表1.1:表1.1藥物基本屬性表示例求功效-功效關(guān)聯(lián)時,將每味藥的功效組合看成一個項集,參見表1.2:表1.2功效-功效關(guān)聯(lián)輸入項集TID功效項集列表T13018130111301193020330259T230181302433026330203……求功效-歸經(jīng)關(guān)聯(lián)時,將每味藥的功效組合和歸經(jīng)組合看成一個項集,如表1.3。其中“3”開頭的數(shù)字代碼表示功效,“5”開頭的數(shù)字代碼表示歸經(jīng)。表1.3功效-歸經(jīng)關(guān)聯(lián)輸入項集TID功效項集列表T1301813011130119302033025930132500025000650005T2301813024330263302035000250005……對方劑(即藥劑配方)原始數(shù)據(jù)處理過程如下:1)方劑原始數(shù)據(jù)錄入處理。在《方劑學(xué)》中對具體方劑的描述包括方劑名、組成、用法、功用等,如表2.1所示:表2.1通過對文檔信息的規(guī)范與提取,將獲得的方劑數(shù)據(jù)按照下表2.2的格式錄入到數(shù)據(jù)庫當(dāng)中。方劑處理后的數(shù)據(jù)表2.22)中藥原始數(shù)據(jù)處理。在中藥的描述中包括藥名、來源、性能、功效等,如表2.3所示。表2.3通過對文檔信息的規(guī)范與提取,將每味藥物的基本屬性和應(yīng)用分別錄入到數(shù)據(jù)庫中。藥物的基本屬性標(biāo)識如表2.4藥物的應(yīng)用標(biāo)識表2.5病案數(shù)據(jù)整理在原始病案數(shù)據(jù)采集完畢后,對每個病案進行處理,每個病例都用癥狀、辯證、治法、處方來藐視,如表2.6所示。并直接按照編號、姓名、年齡、癥狀、辯證等格式錄入數(shù)據(jù)庫。原始病例數(shù)據(jù)示例表2.6對數(shù)據(jù)庫里出現(xiàn)的藥物、功效等詞語進行提取的時候,判斷標(biāo)準(zhǔn)此表中的每個詞條是否在文本中存在,記錄存在的詞條在文本中出現(xiàn)的位置,加到結(jié)果數(shù)組中。最后對所有查找存在的詞條進行篩選,保留長的詞條,并按照在文本中出現(xiàn)的順序進行排序。在文本中藥物用量緊接著藥物名稱,所以如果需要獲得方劑中的藥物用量,則可以從對應(yīng)的藥物名稱所在的位置開始查找數(shù)字,得到的結(jié)果即為藥物的用量。經(jīng)過藥物、功效等提取后的方劑如表2.7所示,結(jié)果用代碼表示,便于后期關(guān)聯(lián)、匹配等算法的處理。表2.7方名麻黃湯組成麻黃9g,桂枝6g,杏仁尖6g,甘草炙3g藥物代碼40113400044009340088劑量9663功效代碼30002300073000430155下面通過對方劑數(shù)據(jù)中的藥劑量信息進行處理,獲得方劑中藥劑量的模糊劑量,用于提示用戶在使用該方劑時每味藥的安全劑量上限。以提高方劑在使用過程中的安全性能。如從系統(tǒng)中已有的藥方中,提取出的每一味藥的劑量表現(xiàn)形式有離散型(9g)和連續(xù)型(4.5g-6g)兩種。要判斷不同的藥方中的同一味藥的用量是否相同,如果僅從藥劑量的絕對數(shù)值判斷是不合理的,例如兩個藥方中的當(dāng)歸分別為9g與10g,我們可以認(rèn)為它們是處于同一個用量等級,用量是相同的。所以系統(tǒng)使用時需要將劑量數(shù)值模糊化至對應(yīng)的低、中、高藥量區(qū)間中,參見圖1b。首先統(tǒng)計每味藥在所有的方劑和病案中出現(xiàn)的劑量和頻次,把這些劑量聚成三類,然后將類中心進行模糊化,通過三角函數(shù)模型計算隸屬度將絕對的藥劑量模糊為藥物用量區(qū)間。具體參見以下步驟:步驟1,統(tǒng)計每味藥在所有方劑中劑量出現(xiàn)的頻次,例如人參5g100次,人參50g5次,……。步驟2,提取每味藥劑量的數(shù)值信息,對其按照公式(2.1)計算。對于劑量單位為kg的,換算成為以g為單位。這里的連續(xù)指的是自然數(shù)的連續(xù),例如2、3、4則認(rèn)為是連續(xù)值,2、5、8則認(rèn)為是離散值。步驟3,對藥劑進行聚類,并判斷聚類結(jié)果中是否有異常數(shù)據(jù),如果有并去除異常數(shù)據(jù)。分析劑量時,我們用“L(低)、M(中)、H(高)”三個模糊區(qū)域來表示藥劑用量。選擇K-均值方法對每味藥的劑量進行聚類分析,取K=3.由于具體到每一味藥的劑量數(shù)據(jù)量較小,并且存在噪聲數(shù)據(jù),所以對初次聚成的聚類中心需要進行合理性判斷,如果判斷不合理則去除干擾數(shù)據(jù)重新聚類。如果樣本最大中心的數(shù)據(jù)比最小中心的數(shù)據(jù)大10倍以上,則視為異常數(shù)據(jù),例如人參5g出現(xiàn)100次,人參50g出現(xiàn)5次,則認(rèn)為人參50g為異常數(shù)據(jù),去除后重新進行聚類。表2.8:聚類結(jié)果藥名當(dāng)歸白芍劑量中心L(g)5.279.68劑量中心M(g)11.5316.64劑量中心H(g)9056步驟4,通過三個模糊集函數(shù)獲得隸屬度函數(shù);模糊集函數(shù)表示如下:模糊集L:模糊集M:模糊集H:綜合以上三式得隸屬度函數(shù)為:步驟5,由各個方劑中的藥劑的絕對劑量,根據(jù)上述隸屬度函數(shù)獲得方劑中藥劑量的模糊劑量。以麻黃湯為例,劑量模糊處理結(jié)果如表2.9:表2.9:麻黃湯劑量模糊處理結(jié)果組成藥物麻黃桂枝杏仁尖甘草炙藥物代碼40113400044009340088絕對劑量(g)9663模糊劑量1.0001.0001.0001.000這個結(jié)果提示用戶,在麻黃湯這個藥劑處方中麻黃的用量最多不得超過10g,最少不能低于8g;桂枝的用量最多不得超過7g,最少不能低于5g;杏仁尖的用量最多不得超過7g,最少不能低于5g;甘草炙的用量最多不得超過4g,最少不能低于2g。步驟S20,根據(jù)所述單位藥數(shù)據(jù)庫與藥劑配方數(shù)據(jù)庫構(gòu)建以所述第一事務(wù)集所包含的全部特征項為頻繁項的FP-tree數(shù)據(jù)結(jié)構(gòu);把單味藥數(shù)據(jù)庫看成一個事務(wù)集,每味藥材為一條事務(wù),每味藥材對應(yīng)的功效和/或歸經(jīng)為事務(wù)的特征(如果挖掘功效-功效之間的關(guān)聯(lián)規(guī)則,需要利用表1.2功效-功效關(guān)聯(lián)輸入項集,如果挖掘功效-歸經(jīng)之間的關(guān)聯(lián)規(guī)則,需要利用表1.3功效-歸經(jīng)關(guān)聯(lián)輸入項集),構(gòu)建FP-tree數(shù)據(jù)結(jié)構(gòu);該數(shù)據(jù)結(jié)構(gòu)中以所有藥材的功效和/或歸經(jīng)為頻繁項,根據(jù)藥材出現(xiàn)在配方中的頻率對頻繁項進行降序排列,構(gòu)件項頭表;由FP-tree算法生成節(jié)點鏈。FP-Tree算法的基本數(shù)據(jù)結(jié)構(gòu),包含一個一棵FP樹和一個項頭表,每個項通過一個結(jié)點鏈指向它在樹中出現(xiàn)的位置?;窘Y(jié)構(gòu)如下所示。需要注意的是項頭表需要按照支持度遞減排序,在FP-Tree中高支持度的節(jié)點只能是低支持度節(jié)點的祖先節(jié)點。參見圖2。步驟S30,把所述第一事務(wù)集中每個事務(wù)所對應(yīng)的特征項按照所述FP-tree數(shù)據(jù)結(jié)構(gòu)中頻繁項的順序重新排列,生成第二事務(wù)集;所述第二事務(wù)集包括多個數(shù)據(jù)集;每個所述數(shù)據(jù)集以其包含的所述特征項為事務(wù),每條所述事務(wù)包括所述數(shù)據(jù)集中排列在所述事務(wù)所對應(yīng)的特征項之前的特征項;將單味藥材庫即上述事務(wù)集(表1.2功效-功效關(guān)聯(lián)輸入項集或表1.3功效-歸經(jīng)關(guān)聯(lián)輸入項集)進行劃分,可分為若干數(shù)據(jù)集,每個數(shù)據(jù)集包含一味藥材,及該味藥材具備的功效和/或歸經(jīng);按照這個排列順序?qū)?shù)據(jù)集中的功效進行重新排列,數(shù)據(jù)集中以每個特征項為事務(wù),每條事務(wù)包括排列在該事務(wù)對應(yīng)的特征項之前的特征項;例如,進行功效關(guān)系規(guī)則挖掘,即每味中藥的數(shù)據(jù)形成一個數(shù)據(jù)集,這個數(shù)據(jù)集中,構(gòu)成的功效作為事務(wù),其他排列在作為事務(wù)的功效的之前的功效作為該事務(wù)的特征項,參見圖2,加入圖2為其中一味中藥的FP-Tree數(shù)據(jù)結(jié)構(gòu),那么它包含四條事務(wù)(I5、I4、I3、I1),功效I5的特征項為:I4、I3、I1、I2;功效I4的特征項為:I3、I1、I2;功效I3的特征項為:I1、I2;功效I1的特征項為:I2。步驟S40,對每個所述數(shù)據(jù)集運行FP-growth算法,以生成與所述多個數(shù)據(jù)集一一對應(yīng)的FP-tree子數(shù)據(jù)結(jié)構(gòu);FP-growth算法的核心在于通過FP-growth函數(shù)的遞歸調(diào)用獲得條件模式基,在此基礎(chǔ)上將條件模式基按照FP-Tree的構(gòu)造原則形成的一個新的FP-Tree,即FP-tree子數(shù)據(jù)結(jié)構(gòu)。這里相當(dāng)于獲得條件模式基,包含F(xiàn)P-Tree中與后綴模式一起出現(xiàn)的前綴路徑的集合。也就是同一個頻繁項在PF樹中的所有節(jié)點的祖先路徑的集合。比如I3在圖2中的FP-Tree中一共出現(xiàn)了3次,其祖先路徑分別是{I2,I1:2(頻度為2)},{I2:2}和{I1:2}。這3個祖先路徑的集合就是頻繁項I3的條件模式基。具體計算過程如下:調(diào)用FP-growth(Tree,null)開始進行挖掘。偽代碼如下:FP-growth函數(shù)的輸入:tree是指原始的FPTree或者是某個模式的條件FPTree,a是指模式的后綴(在第一次調(diào)用時a=NULL,在之后的遞歸調(diào)用中a是模式后綴)。FP-growth函數(shù)的輸出:在遞歸調(diào)用過程中輸出所有的模式及其支持度(比如{I1,I2,I3}的支持度為2)。每一次調(diào)用FP_growth輸出結(jié)果的模式中一定包含F(xiàn)P_growth函數(shù)輸入的模式后綴。模擬一下FP-growth的執(zhí)行過程。1、在FP-growth遞歸調(diào)用的第一層,模式前后a=NULL,得到的其實就是頻繁1項集。2、對每一個頻繁1項集,進行遞歸調(diào)用FP-growth()獲得多元頻繁項集。將條件模式基按照FP-Tree的構(gòu)造原則形成I3的FP-Tree。參照圖3,可以看出,表現(xiàn)的是與I3有關(guān)聯(lián)的功效,及其關(guān)聯(lián)支持度。步驟S50,基于不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)中特征項之間的對應(yīng)關(guān)系,挖掘不同功效之間的關(guān)聯(lián)規(guī)則和/或挖掘功效與歸經(jīng)之間的關(guān)聯(lián)規(guī)則。基于前面步驟S10~S40,能夠獲得所有功效之間的關(guān)聯(lián)關(guān)系,以及功效與歸經(jīng)之間的關(guān)聯(lián)關(guān)系,遍歷各FP-tree子數(shù)據(jù)結(jié)構(gòu),即可獲得不同功效之間的關(guān)聯(lián)規(guī)則和/或挖掘功效與歸經(jīng)之間的關(guān)聯(lián)規(guī)則。本發(fā)明的方案,從海量中藥方數(shù)據(jù)中提取出常用的處方數(shù)據(jù),并結(jié)合國家中藥詞典標(biāo)準(zhǔn)進行規(guī)范化處理;在收集的海量中藥方數(shù)據(jù)中利用數(shù)據(jù)挖掘方法對藥對、藥組進行關(guān)聯(lián)分析、數(shù)據(jù)提取,組成常用藥對藥組,并對頻繁集進行有效梳理,使得用戶在采用該系統(tǒng)下藥方時自動精準(zhǔn)地進行有效藥方配對,減少用戶對藥方數(shù)據(jù)庫查詢檢索時間,并有輔助學(xué)習(xí)功能,對常用的藥方及對應(yīng)癥狀進行歸納分析,加深醫(yī)務(wù)人員在藥方檢索時的印象和藥方學(xué)習(xí)。作為實施例二,在實施例一的基礎(chǔ)上,參見圖3,所述藥劑配方數(shù)據(jù)庫包含藥劑配方及其組成和功效;步驟S20包括:步驟201,掃描所述第一事務(wù)集,以所述第一事務(wù)集中所包含的全部特征項生成第一頻繁項集,按照所述特征項在所述藥劑配方中出現(xiàn)的頻次為支持度,降序排列所述第一頻繁項集,以生成項頭表;例如,第一頻繁項集包含的全部特征均為功效,通過提取配方應(yīng)用數(shù)據(jù)表中各功效的數(shù)量,并按照降序排列,如果功效30002在所有的配方數(shù)據(jù)中出現(xiàn)了10000次,那么它的支持度計為10000,以此類推,按照現(xiàn)有的藥劑配方能獲得目前使用各功效的頻次排列表。項頭表中的TID表示功效的ID號,支持度為代表各功效的使用頻次。步驟202,按照重新排列的順序把每個所述事務(wù)的每個頻繁項插入以null為根的FP-tree中;如果插入時頻繁項節(jié)點已經(jīng)存在了,則把該頻繁項節(jié)點支持度加1;如果插入時頻繁項節(jié)點不存在,則創(chuàng)建支持度為1的節(jié)點,并把該節(jié)點鏈接到所述項頭表中。利用上述算法規(guī)則建立功效之間的節(jié)點鏈即FP-tree,這個節(jié)點鏈表示了所有功效(包含藥劑配方中衍生的功效以及藥物基本屬性中描述的功效)之間的關(guān)聯(lián)關(guān)系,參照圖2。作為實施例三,參見圖4,步驟S40包括:步驟401,以所述數(shù)據(jù)集中所包含的全部特征項生成第二頻繁項集,通過FP-growth算法獲得同一頻繁項在所述FP-tree數(shù)據(jù)結(jié)構(gòu)中的所有節(jié)點的祖先路徑的集合,取并集得到支持度大于閾值的所有模式;循環(huán)獲得所述數(shù)據(jù)集中每一頻繁項支持度大于閾值的所有模式;形成所述數(shù)據(jù)集中條件模式基;下面以圖2表示的數(shù)據(jù)結(jié)構(gòu)為數(shù)據(jù)集,舉兩個例子說明FP-growth的執(zhí)行過程。I5的條件模式基是(I2I1:1),(I2I1I3:1),I5構(gòu)造得到的條件FP-tree如下。然后遞歸調(diào)用FP-growth,模式后綴為I5。這個條件FP-tree是單路徑的,在FP_growth中直接列舉{I2:2,I1:2,I3:1}的所有組合,之后和模式后綴I5取并集得到支持度>2的所有模式:{I2I5:2,I1I5:2,I2I1I5:2}。參見圖5。I5的情況是比較簡單的,因為I5對應(yīng)的條件FP-tree是單路徑的,我們再來看一下稍微復(fù)雜一點的情況I3。I3的條件模式基是(I2I1:2),(I2:2),(I1:2),生成的條件FP-tree如圖6,然后遞歸調(diào)用FP-growth,模式前綴為I3。I3的條件FP-樹仍然是一個多路徑樹,首先把模式后綴I3和條件FP-樹中的項頭表中的每一項取并集,得到一組模式{I2I3:4,I1I3:4},但是這一組模式不是后綴為I3的所有模式。還需要遞歸調(diào)用FP-growth,模式后綴為{I1,I3},{I1,I3}的條件模式基為{I2:2},其生成的條件FP-樹如圖6所示。這是一個單路徑的條件FP-樹,在FP_growth中把I2和模式后綴{I1,I3}取并得到模式{I1I2I3:2}。理論上還應(yīng)該計算一下模式后綴為{I2,I3}的模式集,但是{I2,I3}的條件模式基為空,遞歸調(diào)用結(jié)束。最終模式后綴I3的支持度>2的所有模式為:{I2I3:4,I1I3:4,I1I2I3:2}。I1的條件模式基是(I2:2),在FP-growth遞歸調(diào)用的第一層,模式前后a=NULL,就得到I1的條件模式基。步驟402,將所述條件模式基按照FP-tree的數(shù)據(jù)結(jié)構(gòu)形成節(jié)點鏈。將條件模式基按照FP-Tree的構(gòu)造原則形成的新的FP-Tree,參照圖5~圖7中節(jié)點鏈結(jié)構(gòu)示意圖。作為實施例四,參照圖8,所述步驟S40之后還包括:步驟S40A,根據(jù)所述FP-tree子數(shù)據(jù)結(jié)構(gòu)獲得每個所述頻繁項的頻繁模式,所述頻繁模式包含所有與所述頻繁項具有關(guān)聯(lián)的特征項及其與所述頻繁項關(guān)聯(lián)的支持度。繼續(xù)以上述圖2表示的數(shù)據(jù)集為例,根據(jù)FP-growth算法,最終得到的支持度>2頻繁模式如下:由上述頻繁模式可以看出,數(shù)據(jù)集中各功效之間的關(guān)聯(lián)關(guān)系;重復(fù)上述步驟,能夠獲得每一個數(shù)據(jù)集中各功效之間的關(guān)聯(lián)關(guān)系,為下一步獲得具體的置信度奠定基礎(chǔ)。優(yōu)選地,作為實施例五,參見圖9,所述步驟S50包括:步驟S501,遍歷各所述FP-tree子數(shù)據(jù)結(jié)構(gòu),若兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表中存在相同的特征項,則在該兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表之間建立索引指向;步驟S502,重復(fù)步驟S501;直到遍歷完成所有所述FP-tree子數(shù)據(jù)結(jié)構(gòu)。采用FP-增長算法挖掘癥狀與辨證、癥狀與藥物、辨證與藥物、藥物與藥物之間的關(guān)聯(lián)關(guān)系,包括單維關(guān)聯(lián)和兩維關(guān)聯(lián)關(guān)系的挖掘。使用的方法是將兩維的信息合并成一維,并當(dāng)成一個事務(wù)數(shù)據(jù)庫來處理。在本方劑分析系統(tǒng)中,主要挖掘功效與功效、功效與歸經(jīng)之間的關(guān)聯(lián)關(guān)系,前者屬于單維關(guān)聯(lián)挖掘,后者屬于兩維關(guān)聯(lián)挖掘。在運用FP-增長算法對單維關(guān)聯(lián)規(guī)則進行挖掘后,結(jié)果中是所有滿足最小支持度閾值的頻繁項集,功效-功效關(guān)聯(lián)為挖掘功效之間的對應(yīng)關(guān)系,所有只要對頻繁2項集進行置信度預(yù)算處理。功效-歸經(jīng)關(guān)聯(lián)為挖掘功效與歸經(jīng)的對應(yīng)關(guān)系,所有也只要對頻繁2項集進行處理,但此時的2項集必須是功效與歸經(jīng)兩維信息的組合。運用關(guān)聯(lián)規(guī)則算法求得的功效-功效關(guān)聯(lián)結(jié)果如表3.1和功效-歸經(jīng)關(guān)聯(lián)結(jié)果如3.2所示。表3.1功效-功效雙向關(guān)聯(lián)結(jié)果示例:(min_sup=2,min_conf=0.4)功效1功效2置信度(1=>2)置信度(2=>1)解毒消熱0.630.62消腫利水0.400.83通淋利尿0.820.81通便滑腸0.500.41養(yǎng)陰生津0.500.41平肝定驚0.420.42斂瘡生肌0.730.62解郁疏肝0.440.80滲濕退黃0.430.67平肝潛陽0.430.67固精縮尿0.430.86開竅醒神0.561.00斂肺澀腸0.800.44固表收汗0.750.50發(fā)散同鼻1.000.75表3.2功效-歸經(jīng)關(guān)聯(lián)結(jié)果示例:(min_sup=2,min_conf=0.8)采用上述方案,用戶在輸入藥物名稱時,本方案能夠?qū)σ延信浞綌?shù)據(jù)進行挖掘,獲得上述功效關(guān)聯(lián)結(jié)果或功效與歸經(jīng)的關(guān)聯(lián)結(jié)果,下藥方時自動精準(zhǔn)地進行有效藥方配對,減少用戶對藥方數(shù)據(jù)庫查詢檢索時間,并有輔助學(xué)習(xí)功能,對常用的藥方及對應(yīng)癥狀進行歸納分析,加深醫(yī)務(wù)人員在藥方檢索時的印象和藥方學(xué)習(xí)。本發(fā)明還提供一種基于FP增長算法模型的中藥配方數(shù)據(jù)挖掘系統(tǒng),參照圖10,在一實施例中,該系統(tǒng)包括:預(yù)處理模塊10,用于對中藥原始數(shù)據(jù)進行預(yù)處理,所述中藥原始數(shù)據(jù)中包含單味藥數(shù)據(jù)庫和藥劑配方數(shù)據(jù)庫;所述單位藥數(shù)據(jù)庫形成以單味藥為事務(wù)、以所述單味藥的一個功效或歸經(jīng)為特征項的第一事務(wù)集;數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中的一個重要步驟,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)消減。其目的是提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量,并最終達到提高數(shù)據(jù)挖掘所獲模式知識質(zhì)量的目的。原始數(shù)據(jù)中包含單味藥數(shù)據(jù)庫和藥劑配方數(shù)據(jù)庫,單味藥數(shù)據(jù)庫中包含若干味藥材,以及對應(yīng)于每味藥材的若干功效和歸經(jīng);藥劑配方數(shù)據(jù)庫中包含若干藥劑配方,以及對應(yīng)于每個藥劑配方中的藥劑組成、藥劑含量及藥劑功效、歸經(jīng);首先錄入中藥原始數(shù)據(jù)并進行預(yù)處理,提取質(zhì)量高的數(shù)據(jù)作為采樣樣本,并對上述藥材、功效、歸經(jīng)分別進行標(biāo)號,以便后續(xù)的計算和處理。FP-tree模塊20,用于以所述第一事務(wù)集所包含的全部特征項為頻繁項構(gòu)建FP-tree數(shù)據(jù)結(jié)構(gòu);把單味藥數(shù)據(jù)庫看成一個事務(wù)集,每味藥材為一條事務(wù),每味藥材對應(yīng)的功效和/或歸經(jīng)為事務(wù)的特征(如果挖掘功效-功效之間的關(guān)聯(lián)規(guī)則,需要利用表1.2功效-功效關(guān)聯(lián)輸入項集,如果挖掘功效-歸經(jīng)之間的關(guān)聯(lián)規(guī)則,需要利用表1.3功效-歸經(jīng)關(guān)聯(lián)輸入項集),構(gòu)建FP-tree數(shù)據(jù)結(jié)構(gòu);該數(shù)據(jù)結(jié)構(gòu)中以所有藥材的功效和/或歸經(jīng)為頻繁項,根據(jù)藥材出現(xiàn)在配方中的頻率對頻繁項進行降序排列,構(gòu)件項頭表;由FP-tree算法生成節(jié)點鏈。FP-Tree算法的基本數(shù)據(jù)結(jié)構(gòu),包含一個一棵FP樹和一個項頭表,每個項通過一個結(jié)點鏈指向它在樹中出現(xiàn)的位置?;窘Y(jié)構(gòu)如下所示。需要注意的是項頭表需要按照支持度遞減排序,在FP-Tree中高支持度的節(jié)點只能是低支持度節(jié)點的祖先節(jié)點。參見圖2。數(shù)據(jù)劃分模塊30,用于把所述第一事務(wù)集中每個事務(wù)所對應(yīng)的特征項按照所述FP-tree數(shù)據(jù)結(jié)構(gòu)中頻繁項的順序重新排列,生成第二事務(wù)集;所述第二事務(wù)集包括多個數(shù)據(jù)集;每個所述數(shù)據(jù)集以其包含的所述特征項為事務(wù),每條所述事務(wù)包括所述數(shù)據(jù)集中排列在所述事務(wù)所對應(yīng)的特征項之前的特征項;將單味藥材庫即上述事務(wù)集(表1.2功效-功效關(guān)聯(lián)輸入項集或表1.3功效-歸經(jīng)關(guān)聯(lián)輸入項集)進行劃分,可分為若干數(shù)據(jù)集,每個數(shù)據(jù)集包含一味藥材,及該味藥材具備的功效和/或歸經(jīng);按照這個排列順序?qū)?shù)據(jù)集中的功效進行重新排列,數(shù)據(jù)集中以每個特征項為事務(wù),每條事務(wù)包括排列在該事務(wù)對應(yīng)的特征項之前的特征項;例如,進行功效關(guān)系規(guī)則挖掘,即每味中藥的數(shù)據(jù)形成一個數(shù)據(jù)集,這個數(shù)據(jù)集中,構(gòu)成的功效作為事務(wù),其他排列在作為事務(wù)的功效的之前的功效作為該事務(wù)的特征項,參見圖2,加入圖2為其中一味中藥的FP-Tree數(shù)據(jù)結(jié)構(gòu),那么它包含四條事務(wù)(I5、I4、I3、I1),功效I5的特征項為:I4、I3、I1、I2;功效I4的特征項為:I3、I1、I2;功效I3的特征項為:I1、I2;功效I1的特征項為:I2。FP-tree子模塊40,用于對每個所述數(shù)據(jù)集運行FP-growth算法,以生成與所述多個數(shù)據(jù)集一一對應(yīng)的FP-tree子數(shù)據(jù)結(jié)構(gòu);這里相當(dāng)于獲得條件模式基,包含F(xiàn)P-Tree中與后綴模式一起出現(xiàn)的前綴路徑的集合。也就是同一個頻繁項在PF樹中的所有節(jié)點的祖先路徑的集合。比如I3在圖2中的FP-Tree中一共出現(xiàn)了3次,其祖先路徑分別是{I2,I1:2(頻度為2)},{I2:2}和{I1:2}。這3個祖先路徑的集合就是頻繁項I3的條件模式基。具體計算過程如下:調(diào)用FP-growth(Tree,null)開始進行挖掘。偽代碼如下:FP-growth函數(shù)的輸入:tree是指原始的FPTree或者是某個模式的條件FPTree,a是指模式的后綴(在第一次調(diào)用時a=NULL,在之后的遞歸調(diào)用中a是模式后綴)FP-growth函數(shù)的輸出:在遞歸調(diào)用過程中輸出所有的模式及其支持度(比如{I1,I2,I3}的支持度為2)。每一次調(diào)用FP_growth輸出結(jié)果的模式中一定包含F(xiàn)P_growth函數(shù)輸入的模式后綴。模擬一下FP-growth的執(zhí)行過程。1、在FP-growth遞歸調(diào)用的第一層,模式前后a=NULL,得到的其實就是頻繁1項集。2、對每一個頻繁1項集,進行遞歸調(diào)用FP-growth()獲得多元頻繁項集。將條件模式基按照FP-Tree的構(gòu)造原則形成I3的FP-Tree。參照圖3,可以看出,表現(xiàn)的是與I3有關(guān)聯(lián)的功效,及其關(guān)聯(lián)支持度。挖掘模塊50,用于基于不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)中特征項之間的對應(yīng)關(guān)系,挖掘不同功效之間的關(guān)聯(lián)規(guī)則和/或挖掘功效與歸經(jīng)之間的關(guān)聯(lián)規(guī)則?;谇懊娌襟ES10~S40,能夠獲得所有功效之間的關(guān)聯(lián)關(guān)系,以及功效與歸經(jīng)之間的關(guān)聯(lián)關(guān)系,遍歷各FP-tree子數(shù)據(jù)結(jié)構(gòu),即可獲得不同功效之間的關(guān)聯(lián)規(guī)則和/或挖掘功效與歸經(jīng)之間的關(guān)聯(lián)規(guī)則。本發(fā)明的方案,從醫(yī)案的處方出發(fā),結(jié)合癥狀、辨證等信息,對處方進行基本方劑庫中的基本方劑匹配,對未匹配到的藥物再進行藥物配伍、對癥用藥等藥物應(yīng)用模式的匹配,對仍未匹配到的藥物,根據(jù)藥物屬性表查出每味藥物的功效。統(tǒng)計醫(yī)案處方中所有藥物的歸經(jīng),根據(jù)功效與歸經(jīng)的關(guān)聯(lián)關(guān)系篩選出與歸經(jīng)關(guān)聯(lián)度大的單味藥的功效,獲得處方的功效集合。對匯總后的功效集合根據(jù)功效之間的相似關(guān)系進行功效規(guī)約,從而歸納出處方的功效。優(yōu)選地,作為另一實施例,參見圖11,所述FP-tree模塊20包括:項頭表模塊201,用于掃描所述第一事務(wù)集,以所述第一事務(wù)集中所包含的全部特征項生成第一頻繁項集,按照所述特征項在所述藥劑配方中出現(xiàn)的頻次為支持度,降序排列所述第一頻繁項集,以生成項頭表;例如,第一頻繁項集包含的全部特征均為功效,通過提取配方應(yīng)用數(shù)據(jù)表中各功效的數(shù)量,并按照降序排列,如果功效30002在所有的配方數(shù)據(jù)中出現(xiàn)了10000次,那么它的支持度計為10000,以此類推,按照現(xiàn)有的藥劑配方能獲得目前使用各功效的頻次排列表。項頭表中的TID表示功效的ID號,支持度為代表各功效的使用頻次。排序模塊202,用于按照重新排列的順序把每個所述事務(wù)的每個頻繁項插入以null為根的FP-tree中;如果插入時頻繁項節(jié)點已經(jīng)存在了,則把該頻繁項節(jié)點支持度加1;如果插入時頻繁項節(jié)點不存在,則創(chuàng)建支持度為1的節(jié)點,并把該節(jié)點鏈接到所述項頭表中。利用上述算法規(guī)則建立功效之間的節(jié)點鏈即FP-tree,這個節(jié)點鏈表示了所有功效(包含藥劑配方中衍生的功效以及藥物基本屬性中描述的功效)之間的關(guān)聯(lián)關(guān)系,參照圖2。優(yōu)選地,參見圖11,所述FP-tree子模塊40包括:路徑模塊401,用于以所述數(shù)據(jù)集中所包含的全部特征項生成第二頻繁項集,通過FP-growth算法獲得同一頻繁項在所述FP-tree數(shù)據(jù)結(jié)構(gòu)中的所有節(jié)點的祖先路徑的集合,取并集得到支持度大于閾值的所有模式;循環(huán)獲得所述數(shù)據(jù)集中每一頻繁項支持度大于閾值的所有模式;形成所述數(shù)據(jù)集中條件模式基;節(jié)點鏈模塊402,用于將所述條件模式基按照FP-tree的數(shù)據(jù)結(jié)構(gòu)形成節(jié)點鏈。下面以圖2表示的數(shù)據(jù)結(jié)構(gòu)為數(shù)據(jù)集,舉兩個例子說明FP-growth的執(zhí)行過程。I5的條件模式基是(I2I1:1),(I2I1I3:1),I5構(gòu)造得到的條件FP-tree如下。然后遞歸調(diào)用FP-growth,模式后綴為I5。這個條件FP-tree是單路徑的,在FP_growth中直接列舉{I2:2,I1:2,I3:1}的所有組合,之后和模式后綴I5取并集得到支持度>2的所有模式:{I2I5:2,I1I5:2,I2I1I5:2}。參見圖5。I5的情況是比較簡單的,因為I5對應(yīng)的條件FP-tree是單路徑的,我們再來看一下稍微復(fù)雜一點的情況I3。I3的條件模式基是(I2I1:2),(I2:2),(I1:2),生成的條件FP-tree如圖6所示,然后遞歸調(diào)用FP-growth,模式前綴為I3。I3的條件FP-樹仍然是一個多路徑樹,首先把模式后綴I3和條件FP-樹中的項頭表中的每一項取并集,得到一組模式{I2I3:4,I1I3:4},但是這一組模式不是后綴為I3的所有模式。還需要遞歸調(diào)用FP-growth,模式后綴為{I1,I3},{I1,I3}的條件模式基為{I2:2},其生成的條件FP-樹如圖6所示。這是一個單路徑的條件FP-樹,在FP_growth中把I2和模式后綴{I1,I3}取并得到模式{I1I2I3:2}。理論上還應(yīng)該計算一下模式后綴為{I2,I3}的模式集,但是{I2,I3}的條件模式基為空,遞歸調(diào)用結(jié)束。最終模式后綴I3的支持度>2的所有模式為:{I2I3:4,I1I3:4,I1I2I3:2}。I1的條件模式基是(I2:2),在FP-growth遞歸調(diào)用的第一層,模式前后a=NULL,就得到。優(yōu)選地,作為實施例四,參見圖11,所述系統(tǒng)還包括:頻繁式模塊40A,用于根據(jù)所述FP-tree子數(shù)據(jù)結(jié)構(gòu)獲得每個所述頻繁項的頻繁模式,所述頻繁模式包含所有與所述頻繁項具有關(guān)聯(lián)的特征項及其與所述頻繁項關(guān)聯(lián)的支持度。繼續(xù)以上述圖2表示的數(shù)據(jù)集為例,根據(jù)FP-growth算法,最終得到的支持度>2頻繁模式如下:由上述頻繁模式可以看出,數(shù)據(jù)集中各功效之間的關(guān)聯(lián)關(guān)系;重復(fù)上述步驟,能夠獲得每一個數(shù)據(jù)集中各功效之間的關(guān)聯(lián)關(guān)系,為下一步獲得具體的置信度奠定基礎(chǔ)。優(yōu)選地,參見圖11,所述挖掘模塊50包括:索引模塊501,用于遍歷各所述FP-tree子數(shù)據(jù)結(jié)構(gòu),若兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表中存在相同的特征項,則在該兩個不同所述FP-tree子數(shù)據(jù)結(jié)構(gòu)的子項頭表之間建立索引指向;循環(huán)模塊502,重復(fù)上述過程直到遍歷完成所有所述FP-tree子數(shù)據(jù)結(jié)構(gòu)。采用FP-增長算法挖掘癥狀與辨證、癥狀與藥物、辨證與藥物、藥物與藥物之間的關(guān)聯(lián)關(guān)系,包括單維關(guān)聯(lián)和兩維關(guān)聯(lián)關(guān)系的挖掘。使用的方法是將兩維的信息合并成一維,并當(dāng)成一個事務(wù)數(shù)據(jù)庫來處理。在本方劑分析系統(tǒng)中,主要挖掘功效與功效、功效與歸經(jīng)之間的關(guān)聯(lián)關(guān)系,前者屬于單維關(guān)聯(lián)挖掘,后者屬于兩維關(guān)聯(lián)挖掘。在運用FP-增長算法對單維關(guān)聯(lián)規(guī)則進行挖掘后,結(jié)果中是所有滿足最小支持度閾值的頻繁項集,功效-功效關(guān)聯(lián)為挖掘功效之間的對應(yīng)關(guān)系,所有只要對頻繁2項集進行置信度預(yù)算處理。功效-歸經(jīng)關(guān)聯(lián)為挖掘功效與歸經(jīng)的對應(yīng)關(guān)系,所有也只要對頻繁2項集進行處理,但此時的2項集必須是功效與歸經(jīng)兩維信息的組合。運用關(guān)聯(lián)規(guī)則算法求得的功效-功效關(guān)聯(lián)結(jié)果如表3.1和功效-歸經(jīng)關(guān)聯(lián)結(jié)果如3.2所示。表3.1功效-功效雙向關(guān)聯(lián)結(jié)果示例:(min_sup=2,min_conf=0.4)功效1功效2置信度(1=>2)置信度(2=>1)解毒消熱0.630.62消腫利水0.400.83通淋利尿0.820.81通便滑腸0.500.41養(yǎng)陰生津0.500.41平肝定驚0.420.42斂瘡生肌0.730.62解郁疏肝0.440.80滲濕退黃0.430.67平肝潛陽0.430.67固精縮尿0.430.86開竅醒神0.561.00斂肺澀腸0.800.44固表收汗0.750.50發(fā)散同鼻1.000.75表3.2功效-歸經(jīng)關(guān)聯(lián)結(jié)果示例:(min_sup=2,min_conf=0.8)通過雙向關(guān)聯(lián)規(guī)則算法獲得的功效-功效關(guān)聯(lián)對,以及獲得的功效-歸經(jīng)的關(guān)聯(lián)對,在本系統(tǒng)中進行方劑分析并通過規(guī)律的總結(jié)給配方分析和輸入自動關(guān)聯(lián)提供技術(shù)基礎(chǔ),也是系統(tǒng)對中藥配方進行數(shù)據(jù)挖掘的應(yīng)用。采用上述方案,用戶在輸入藥物名稱時,本方案能夠?qū)σ延信浞綌?shù)據(jù)進行挖掘,獲得上述功效關(guān)聯(lián)結(jié)果或功效與歸經(jīng)的關(guān)聯(lián)結(jié)果,下藥方時自動精準(zhǔn)地進行有效藥方配對,減少用戶對藥方數(shù)據(jù)庫查詢檢索時間,并有輔助學(xué)習(xí)功能,對常用的藥方及對應(yīng)癥狀進行歸納分析,加深醫(yī)務(wù)人員在藥方檢索時的印象和藥方學(xué)習(xí)。以上僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的
技術(shù)領(lǐng)域:
,均同理包括在本發(fā)明的專利保護范圍內(nèi)。當(dāng)前第1頁1 2 3