一種公共衛(wèi)生事件預(yù)警知識庫的構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)挖掘領(lǐng)域,特別設(shè)及一種公共衛(wèi)生事件預(yù)警知識庫的構(gòu)建方法。
【背景技術(shù)】
[0002] 近年來,突發(fā)公共衛(wèi)生事件不斷產(chǎn)生,并且呈現(xiàn)出間隔時間短、傳染病毒多樣的特 點(diǎn)。2003年,我國內(nèi)地24個省區(qū)市先后發(fā)生非典型肺炎疫情(SARS),共波及266個縣和市 (區(qū))。2009年3月,墨西哥在"人感染豬流感"疫情中最初發(fā)現(xiàn)了甲型H1N1流感病毒,并迅速 蔓延。3個月后,WK)宣布將甲型H1N1流感大流行警告級別提升為6級,全球進(jìn)入流感大流行 階段。截至2010年3月31日,全國31個省份累計報告甲型H1N1流感確診病例12.7余萬例,其 中死亡病例800例。2013年3月,H7N9禽流感開始在全國范圍內(nèi)擴(kuò)散,截止2014年1月全國已 累計報告246例,死亡60多例。近10年來,Ξ次大規(guī)模的病毒爆發(fā)與流行,雖然死亡人數(shù)得到 控制,但是,國家、政府和個人每次都投入了大量的人力與財力。
[0003] 突發(fā)衛(wèi)生事件發(fā)生的突然性,發(fā)展的迅速性W及影響的巨大性,決定了事件應(yīng)對 措施必須及時準(zhǔn)確。對于突發(fā)公共衛(wèi)生事件,從醫(yī)學(xué)角度研究疾病的致病因素固然重要,從 事件自身內(nèi)在的角度研究事件也很重要。也就是說,分析突發(fā)公共衛(wèi)生事件,積累其中預(yù)警 預(yù)測,應(yīng)急處理,過程評估和事態(tài)恢復(fù)等方面的知識,將會提高對突發(fā)公共衛(wèi)生事件的處理 能力。
[0004] 如今,互聯(lián)網(wǎng)信息常被作為突發(fā)事件研究的信息載體。由于互聯(lián)網(wǎng)W及移動終端 能夠?qū)崿F(xiàn)信息的發(fā)布,閱讀和轉(zhuǎn)載,從而為突發(fā)事件信息的產(chǎn)生、擴(kuò)散乃至泛濫提供了環(huán) 境,形成了主流新聞媒體和口戶網(wǎng)站為主導(dǎo),博客W及社交網(wǎng)絡(luò)為重要補(bǔ)充和并存的多樣 化信息獲取來源。運(yùn)就造成了突發(fā)公共衛(wèi)生事件信息具有分布廣泛、數(shù)據(jù)量大、快速傳播和 不斷更新的特點(diǎn)。運(yùn)樣的信息分布結(jié)構(gòu)與特點(diǎn)給突發(fā)事件的信息采集獲取帶來了極大困 難。而且,突發(fā)事件的信息形成階段極其隱蔽,發(fā)展階段速度極快,轉(zhuǎn)折點(diǎn)難于捕獲,由此帶 來的問題難W用傳統(tǒng)的數(shù)據(jù)挖掘方法解決。
[0005] -方面,目前傳統(tǒng)的數(shù)據(jù)挖掘方法基于統(tǒng)計學(xué),該類方法只適于不再產(chǎn)生增量的 文本數(shù)據(jù)集進(jìn)行處理,當(dāng)面對增量文本W(wǎng)及大數(shù)據(jù)量的文本時會遇到了很大的問題。在面 對增量文本時,當(dāng)前處理得出的結(jié)果和下一刻有增量文本加入后處理得出的結(jié)果可能有較 大偏差;在面對大數(shù)據(jù)量文本時,計算機(jī)運(yùn)算所需要的時間將達(dá)到一個駭人的程度、為得出 結(jié)果所花費(fèi)的時間代價是我們無法承受的。
[0006] 另一方面,當(dāng)前是大數(shù)據(jù)與云存儲的時代,大量關(guān)于事件的相關(guān)信息存在于互聯(lián) 網(wǎng)中,為事件挖掘提供了豐富的素材,事件挖掘研究開始面向大規(guī)模的實(shí)時動態(tài)事件新聞 信息流。所W,事件挖掘研究不僅僅滿足于傳統(tǒng)研究中對話題與命名實(shí)體的提取,開始向挖 掘事件本身內(nèi)部隱含的信息深入。
[0007] 為此,一種有效的解決方法是W知識庫為基礎(chǔ),規(guī)則與機(jī)器學(xué)習(xí)相結(jié)合,建立網(wǎng)絡(luò) 信息流中新聞文本處理模型,W實(shí)現(xiàn)對特征項(xiàng)集的挖掘、分類、聚類、變化及異常發(fā)現(xiàn)等數(shù) 據(jù)流分析工作,進(jìn)一步能夠追溯突發(fā)公共衛(wèi)生事件發(fā)生前的潛在現(xiàn)象與誘發(fā)因素,探究抽 取突發(fā)公共衛(wèi)生事件的特征,評估突發(fā)公共衛(wèi)生事件的狀態(tài),分析突發(fā)公共衛(wèi)生事件的演 化,W及預(yù)測新事件發(fā)生。
[0008] 然而目前的問題是現(xiàn)有技術(shù)有沒有有效的方法來構(gòu)建公共衛(wèi)生事件預(yù)警知識庫, 人工構(gòu)建知識庫存在工作量大且不能自動擴(kuò)展和完善的問題。
【發(fā)明內(nèi)容】
[0009] 為此,本發(fā)明的目的是提供一種可W自動實(shí)現(xiàn)的公共衛(wèi)生事件預(yù)警知識庫的構(gòu)建 方法,使用該方法可W使得知識庫實(shí)現(xiàn)自擴(kuò)展、自完善。
[0010] 本發(fā)明提供的一種公共衛(wèi)生事件預(yù)警知識庫的構(gòu)建方法,包括W下步驟:
[0011] S100構(gòu)建初始領(lǐng)域知識庫;
[0012] S200文本分類;
[0013] S300詞聚類并擴(kuò)展知識庫。
[0014] 通過本發(fā)明的方法,具有W下優(yōu)點(diǎn):
[0015] (1)由于整個方法大部分可W通過計算機(jī)實(shí)現(xiàn),節(jié)約了人力成本;
[0016] (2)由于計算機(jī)實(shí)現(xiàn)不易出錯,因此可W確保知識庫構(gòu)建的準(zhǔn)確性;
[0017] (3)由于公共衛(wèi)生事件具備突發(fā)性,且其輿情、疫情隨時變化,本方法具有可擴(kuò)展 性,可W隨著事件發(fā)展隨時更新知識庫。
【附圖說明】
[0018] 圖1是突發(fā)公共衛(wèi)生事件知識庫構(gòu)建總體流程圖;
[0019] 圖2是初步構(gòu)建領(lǐng)域知識庫的流程圖;
[0020] 圖3是文本分類的流程圖;
[0021 ]圖4是計算各段落中詞的權(quán)重的流程圖;
[0022] 圖5是詞聚類的流程圖;
[0023] 圖6是聚類算法的流程圖;
【具體實(shí)施方式】
[0024] 下面結(jié)合附圖對本發(fā)明的【具體實(shí)施方式】作進(jìn)一步說明,但不作為對本發(fā)明的限 定。
[0025] 在本實(shí)施例中,WH7N9為目標(biāo)事件為例,先通過Wikipedia W及利用專家知識等建 立一并不完善的領(lǐng)域知識庫。通過分析事件文本的內(nèi)容屬性,實(shí)現(xiàn)知識庫自身結(jié)構(gòu)與內(nèi)容 方面的擴(kuò)展。
[0026] 參見圖1,對H7N9事件的知識庫的構(gòu)建可W劃分為W下幾個步驟:
[0027] S100:構(gòu)建初始領(lǐng)域知識庫;
[0028] S200:文本分類;
[00巧]S300:詞聚類并擴(kuò)展知識庫。
[0030]運(yùn)些步驟的具體實(shí)現(xiàn)將在下文中詳細(xì)給出。需要指出的是:為了敘述嚴(yán)謹(jǐn),在執(zhí)行 某些步驟前我們指明進(jìn)行文本預(yù)處理操作,而絕大部分的文本預(yù)處理結(jié)果(如無特殊說明) 在起初的預(yù)處理中便已得到,在實(shí)驗(yàn)中使用運(yùn)些結(jié)果即可,不需要將原語料文本重新處理。
[0031] 圖2為構(gòu)建初始領(lǐng)域知識庫的流程,從圖中可W看到,首先我們獲取一定數(shù)量的 H7N9事件文本,將其分類并提取出詞組或詞,最后將提取的詞組或詞進(jìn)行結(jié)構(gòu)化處理,得出 知識庫的屬性和值。該步驟具體包括:
[0032] S110:領(lǐng)域分析。從網(wǎng)絡(luò)媒體中,包括新浪網(wǎng),騰訊網(wǎng)與新華網(wǎng)上捜集關(guān)于H7N9病 毒突發(fā)衛(wèi)生事件的事件文本,分析H7N9流感事件生命周期所設(shè)及的各個領(lǐng)域;
[0033] S120:框架建立。包括通過閱讀文獻(xiàn)人工選擇代表性領(lǐng)域術(shù)語作為屬性,構(gòu)建事件 框架;
[0034] S130:根據(jù)文獻(xiàn)中的知識等,填充初始領(lǐng)域知識庫中的屬性和值。
[0035] 在領(lǐng)域知識庫初步構(gòu)建后,接下來對抓取到的文本進(jìn)行分類,具體步驟結(jié)合圖3說 明如下:
[0036] S210:對事件文本進(jìn)行預(yù)處理(包括文本分段、分詞、詞性標(biāo)注W及語法結(jié)構(gòu)分析) 運(yùn)里主要使用分段、分詞的結(jié)果;
[0037] S220:依據(jù)TF-IDF公式計算各段落中詞的權(quán)重;
[0038] S230:對W段落為單位的文本進(jìn)行關(guān)鍵詞標(biāo)記,取出關(guān)鍵詞的TF-IDF權(quán)值;
[0039] S240: W關(guān)鍵詞建立空間向量模型,將段落文本映射到空間中。
[0040] 參見圖4,其中步驟S220依據(jù)TF-IDF公式計算各段落中詞的權(quán)重進(jìn)一步包括:
[0041] S221:新聞文本預(yù)處理。按照文本中的自然段落進(jìn)行分段,并給定唯一段落編號, 建立索引;
[0042] S222:使用語義分析器對每個段落文本進(jìn)行分詞、詞性標(biāo)注、語法結(jié)構(gòu)分析,整理 出段落號與詞構(gòu)成的序偶 <段落號,詞〉;
[0043] S223:按照段落號對序偶進(jìn)行排序、分組,作為任務(wù)組發(fā)布到Reducer;
[0044] S224:統(tǒng)計各個段落中出現(xiàn)詞的詞頻,存儲統(tǒng)計結(jié)果,建立索引與段落相對應(yīng);
[0045] S225:使用數(shù)據(jù)庫操作技術(shù)SQL命令整理得到詞與段落號構(gòu)成的序偶<詞,段落號 〉;
[0046] S226:按照詞進(jìn)行序偶排序與任務(wù)分組,發(fā)布到Reducer;
[0047] S227:計算倒排文檔頻度,并存儲;
[004引S228:再次利用數(shù)據(jù)庫操作技術(shù)S(iL命令,求解各個段落中各個詞的TF-IDF權(quán)重 值,并輸出結(jié)果。
[0049] 對文本進(jìn)行分類后,接下來對分類后的文本中的詞進(jìn)行聚類操作,并擴(kuò)展知識庫。 在聚類過程中,我們需要使用詞與詞之間的關(guān)系,為了使計算機(jī)可W理解運(yùn)些關(guān)系,定義了 文檔詞關(guān)系表示模型。文檔詞關(guān)系表示模型的本質(zhì)是無向連接圖,因此其具有無向連接圖 的屬性,運(yùn)些屬性定義如下:
[0050] 結(jié)點(diǎn)的度(d):若結(jié)點(diǎn)與其他結(jié)點(diǎn)具有聯(lián)系,即結(jié)點(diǎn)之間存在邊。假設(shè)結(jié)點(diǎn)a與N個 結(jié)點(diǎn)具有聯(lián)系,那么該結(jié)點(diǎn)