專利名稱::一種粒度可量化的話題提取方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于文本分析
技術(shù)領(lǐng)域:
,具體涉及一種從文本集中提取話題粒度特征描述的數(shù)據(jù)分析方法。
背景技術(shù):
:目前互聯(lián)網(wǎng)已經(jīng)成為一種信息共享的主要途徑和空間,在互聯(lián)網(wǎng)上每天都有大量的文本信息產(chǎn)生,如各種新聞報(bào)道、產(chǎn)品介紹、各種網(wǎng)絡(luò)評論等等。此外,許多海量信息庫,如專利信息庫、科技論文文獻(xiàn)庫等,都包含了豐富的文本信息,并且可以通過互聯(lián)網(wǎng)實(shí)現(xiàn)快速共享。從這些大量的文本信息源中發(fā)現(xiàn)各種隱藏的話題是許多應(yīng)用的需求,如對網(wǎng)絡(luò)上某種產(chǎn)品評論的自動化分析。而讓計(jì)算機(jī)從文本信息中自動發(fā)現(xiàn)話題則是這個過程的前提,因此,目前有許多相關(guān)的數(shù)學(xué)模型或算法可以幫助人們從文本集中發(fā)現(xiàn)隱藏的話題?;痉椒ㄊ?,首先從文本集中選擇一些合適的詞語,用這些詞語來描述單個文本,類似于將文本離散化表示,最后采用各種數(shù)據(jù)聚類算法對各個文本進(jìn)行類的發(fā)現(xiàn),這些類即對應(yīng)于話題。然而由于人們在理解文本所描述的話題時(shí),是按照一定的話題粗細(xì)層次結(jié)構(gòu)進(jìn)行的。因此,層次話題的提取就成了一種重要的文本分析技術(shù)發(fā)展方向。在話題離散表示的基礎(chǔ)上,采用層次聚類算法逐步生成具有層次結(jié)構(gòu)的話題,或者在假設(shè)上下層次話題結(jié)構(gòu)之間服從某種概率分布的前提下,可以通過參數(shù)學(xué)習(xí)構(gòu)造層次話題結(jié)構(gòu)。雖然人們提出了許多方法和模型來解決層次結(jié)構(gòu)話題的提取問題,但是在面對人們深入理解話題粗細(xì)程度的需求下,這些方法或模型仍存在問題,主要是由于話題層次結(jié)構(gòu)中缺少對層次的數(shù)量化描述,無法為人們提供一種較準(zhǔn)確話題的粗細(xì)程度的方法。具體而言,所存在的問題列舉以下1.話題層次只是一種結(jié)構(gòu)關(guān)系,而無法準(zhǔn)確地提供給用戶可識別的話題粗細(xì)程度描述,人們無法知道上下兩個層次的話題在粗細(xì)程度上的具體差異。2.必須在獲得整個話題層次結(jié)構(gòu)的基礎(chǔ)上,才能從整體上了解話題相對的粗細(xì)程度,而人們通常需要直接獲得某個粗細(xì)程度上的話題信息?,F(xiàn)有方法的計(jì)算復(fù)雜度明顯偏高。由此可見,實(shí)現(xiàn)粒度可量化的話題自動提取是非常重要的,而現(xiàn)有方法在粒度指示、粒度話題提取算法設(shè)計(jì)上存在不足,尚無法滿足粒度話題提取分析的要求。
發(fā)明內(nèi)容本發(fā)明的目的主要是針對現(xiàn)有各種話題提取方法在從文本數(shù)據(jù)集中提取具有層次結(jié)構(gòu)話題時(shí)所存在的不足,提出一種層次粒度可量化的話題提取方法。本發(fā)明提出的方法,通過對文本集的詞頻矩陣進(jìn)行DCT(離散余弦變換)變換[l],轉(zhuǎn)換成代表詞語能量的矩陣,根據(jù)這種矩陣中的能量分布特點(diǎn),進(jìn)行變換矩陣的能量分割,從而將話題粒度與用戶所期望的粒度參數(shù)對應(yīng)起來。在能量分割的基礎(chǔ)上進(jìn)行DCT(離散余弦變換)反變換,從而得到與粒度相對應(yīng)的特征空間,在這個空間中運(yùn)用現(xiàn)有的話題提取方法提取粒度話題,從而完成粒度可量化的話題提取。本發(fā)明的具體步驟如下(1)通過網(wǎng)絡(luò)爬蟲技術(shù),從互聯(lián)網(wǎng)上下載與某個話題相關(guān)的文本記錄[2],從而構(gòu)成一個包含多個文本的文本數(shù)據(jù)集。(2)采用現(xiàn)有的分詞方法[3]將所有文本記錄分割成獨(dú)立的詞序列,同時(shí)去除停用詞,從而將整個文本集中的文本用單個詞語來描述。(3)為文本集構(gòu)造詞語頻率矩陣,矩陣的行表示詞語,列表示文檔,矩陣中的元素表示詞語在該文檔中出現(xiàn)的頻率。矩陣的大小為詞語的總數(shù)x文檔總數(shù)。(4)對詞語頻率矩陣進(jìn)行分割,得到若干個小的矩陣,對每個小的矩陣執(zhí)行如下過程(a)進(jìn)行DCT(離散余弦變換)變換,得到變換矩陣[l]。(b)根據(jù)用戶提供的話題粒度參數(shù)值,對變換后的矩陣進(jìn)行量化,從而得到量化矩陣。(c)對量化矩陣進(jìn)行DCT(離散余弦變換)逆變換[l〗。(5)對這些逆變換結(jié)果所得到的矩陣進(jìn)行組合,得到與原始詞頻矩陣對應(yīng)的詞頻矩陣,從而得到與粒度對應(yīng)的特征詞空間。(6)對變換后的詞頻矩陣,運(yùn)用現(xiàn)有的話題提取算法[4],進(jìn)行話題提取,從而得到與該粒度相對應(yīng)的話題描述。(7)在必要時(shí),根據(jù)用戶不同的粒度分析需求,重復(fù)執(zhí)行步驟(4)-(6),直到用戶粒度話題都提取完成。具體流程見圖1所示。本發(fā)明具有實(shí)質(zhì)性特點(diǎn)和顯著進(jìn)步(l)為傳統(tǒng)層次結(jié)構(gòu)的話題提供一個層次粒度量化值,并且該量化值與用戶所期望的話題粒度一致,能夠較好地實(shí)現(xiàn)用戶對粒度話題是別的要求;(2)充分利用原始詞頻矩陣變換過中所去除的不同能量部分,構(gòu)造粒度話題的描述空間,而不需要在文本集對應(yīng)的整個詞空間中描述話題,從而使得話題更加便于理解和描述;(3)基于粒度量化值可以為用戶提供指定粒度的話題提取與分析,而不必像現(xiàn)有方法在構(gòu)造整個層次話題結(jié)構(gòu)之后才能進(jìn)行話題粗細(xì)的分析。本發(fā)明提出了粒度量化的概念,作為層次話題結(jié)構(gòu)中話題粗細(xì)程度的一種定量度量方法,利用文本集中詞頻矩陣的DCT(離散余弦變換)變換矩陣中所包含的能量高低,采用合適的量化方法,構(gòu)造與用戶需求一致的量化參數(shù),從而為粒度話題量化提供一種便于溝通的途徑,為用戶比較準(zhǔn)確地提取粒度話題提供有效方法,適應(yīng)于各種需要粒度理解的話題提取場合。圖1為本發(fā)明方法流程圖示。圖2為量化的二維坐標(biāo)系。具體實(shí)施例方式(1)從互聯(lián)網(wǎng)上下載需要分析的文本集。根據(jù)事先安排的話題關(guān)鍵詞,從網(wǎng)絡(luò)上査找相關(guān)的話題文本,并通過基于HTTP(超文本傳輸協(xié)議)協(xié)議的數(shù)據(jù)分析得到這些文本記錄,并保存到本地,經(jīng)過正文信息提取,從而得到話題信息的文本集合。(2)文本集的預(yù)處理對各個文本進(jìn)行分詞,去除一些常見的停用詞,從而得到一個與該文本集相對應(yīng)的詞語表T,詞語表的每一行是一個詞,并且詞語表中不存在重復(fù)的記錄行。(3)構(gòu)造詞頻矩陣對文本集中的每一個文檔c/,,構(gòu)造一個行向量v,="i,Cq,c,3,cW,這里X表示詞語表T中的所有詞個數(shù),Cy的計(jì)算方法如下IX戶l其中,rq表示文檔/中詞/出現(xiàn)的次數(shù)。構(gòu)造整個文本集的詞頻矩陣Ml={VlT,V2T,...V/},其中r表示文本集的文檔數(shù)。(4)將矩陣Mi進(jìn)行分割成;t個矩陣,如下M12Ml=—廳-(5)對每個矩陣執(zhí)行如下變換過程首先,進(jìn)行DCT(離散余弦變換)變換,具體方法如下[l]:<formula>formulaseeoriginaldocumentpage7</formula>m=0n=0=其中,A矩陣即為分割后的矩陣Mu,其大小為MxN,Amn為矩陣A的元素,Bpq為變換矩陣B的元素,<formula>formulaseeoriginaldocumentpage7</formula>.接著,對每個變換后的矩陣B,執(zhí)行如下的量化過程將矩陣B的元素放到如圖2所示的二維坐標(biāo)系中,定義量化特征線為/(jc)=;c+6(M+A0其中,6是量化因子,是區(qū)間中的一個數(shù),由用戶提供。量化的原則如下將落入量化特征線下方的矩陣元素設(shè)置為0,而處于量化特征線上方的元素保持不變。最后,對量化后的矩陣進(jìn)行DCT(離散余弦變換)反變換,如下[l]:其中,C為量化后的矩陣,Cpq為矩陣C的元素,A為與矩陣Mu相對應(yīng)的變換詞頻矩陣,乂自為乂的元素,<formula>formulaseeoriginaldocumentpage7</formula>fi/V^,《=o(6)對變換詞頻矩陣X'進(jìn)行組合得到與粒度話題對應(yīng)的詞頻矩陣M2,如下:M2=<formula>formulaseeoriginaldocumentpage7</formula>A'1A:選擇M2中詞頻非0的詞作該粒度話題的描述空間,使用LDA(隱狄利克雷分配)模型在這個空間中對這個文本集進(jìn)行話題提取,從而得到話題描述。(7)如果用戶希望得到其他粒度的話題描述,只要改變b的值,重新執(zhí)行步驟(5),(6)即可。從上述實(shí)施過程可以看出,本發(fā)明采用將DCT(離散余弦變換)變換引入到文本分析領(lǐng)域,將詞頻矩陣變換為與能量相關(guān)的矩陣,從而實(shí)現(xiàn)與用戶需求一致的粒度量化,并可實(shí)現(xiàn)某一個指定粒度的話題提取,而不必對整個文本集建立層次話題結(jié)構(gòu)之后才能分析話題的粗細(xì)程度。本發(fā)明所提出的粒度量化以及粒度話題提取方法能夠較好地為用戶提供一種合適的話題粒度表達(dá)方式,使得粒度話題的提取可以直接進(jìn)行,并且較好地符合用戶對粗細(xì)話題提取的需求。實(shí)施例子從網(wǎng)絡(luò)上下載一個關(guān)于近期金融危機(jī)的綜述分析文本集,該文本集包含29個文本記錄。經(jīng)過分詞、消除停用詞等預(yù)處理步驟,得到2678個詞語,作為描述各種話題的特征空間。設(shè)置3個粒度0.3,0.6,1.0,對每個粒度進(jìn)行話題提取。使用LDA(隱狄利克雷分配)模型,對相應(yīng)粒度特征空間中的文本進(jìn)行模型學(xué)習(xí),得到的話題描述如表1所示。由表可見,第一個粒度的話題描述了全球金融危機(jī)與若干種經(jīng)濟(jì)活動的聯(lián)系,第二個粒度的話題描述了全球金融危機(jī)對一些國家在投資、貸款、保險(xiǎn)等行業(yè)的影響,而第三粒度的話題更加詳細(xì)地描述了金融危機(jī)所產(chǎn)生的各個方面的影響。<table>tableseeoriginaldocumentpage8</column></row><table>參考文獻(xiàn)GregoryK.W.TheJPEGStillPictureCompressionStandard.CommunicationsoftheACM,1991,34(4):30-44.徐遠(yuǎn)超,劉江華,劉麗珍,關(guān)永.基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn).微計(jì)算機(jī)信息,2007,23(21):119-121馬光志,李專.基于特征詞的自動分詞研究.華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,31(3):60-62.[4]BleiD.,NgA.,andJordanM.LatentDirichletAllocation.JournalofMachineLearningResearch,2003:3(5):993—1022.權(quán)利要求1、一種粒度可量化的話題提取方法,其特征在于具體步驟如下(1)通過網(wǎng)絡(luò)爬蟲技術(shù),從互聯(lián)網(wǎng)上下載與某個話題相關(guān)的文本記錄,從而構(gòu)成一個包含多個文本的文本數(shù)據(jù)集;(2)采用現(xiàn)有的分詞方法將所有文本記錄分割成獨(dú)立的詞序列,同時(shí)去除停用詞,從而將整個文本集中的文本用單個詞語來描述;(3)為文本集構(gòu)造詞語頻率矩陣,矩陣的行表示詞語,列表示文檔,矩陣中的元素表示詞語在該文檔中出現(xiàn)的頻率;矩陣的大小為詞語的總數(shù)×文檔總數(shù);(4)對詞語頻率矩陣進(jìn)行分割,得到若干個小的矩陣,對每個小的矩陣執(zhí)行如下過程(a)進(jìn)行離散余弦變換變換,得到變換矩陣;(b)根據(jù)用戶提供的話題粒度參數(shù)值,對變換后的矩陣進(jìn)行量化,從而得到量化矩陣;(c)對量化矩陣進(jìn)行離散余弦變換逆變換;(5)對這些逆變換結(jié)果所得到的矩陣進(jìn)行組合,得到與原始詞頻矩陣對應(yīng)的詞頻矩陣,從而得到與粒度對應(yīng)的特征詞空間;(6)對變換后的詞頻矩陣,運(yùn)用現(xiàn)有的話題提取算法,進(jìn)行話題提取,從而得到與該粒度相對應(yīng)的話題描述;(7)根據(jù)用戶不同的粒度分析需求,重復(fù)執(zhí)行步驟(4)-(6),直到用戶粒度話題都提取完成。2、如權(quán)利要求1所述的粒度可量化的話題提取方法,其特征在于構(gòu)造詞語頻率矩陣的步驟如下(1)對文本集中的每一個文檔《,構(gòu)造一個行向量vHc,bC,2,c,3,...,c"},這里Z表示詞語表T中的所有詞個數(shù),"的計(jì)算方法如下戶l其中,rc々表示文檔/中詞y出現(xiàn)的次數(shù);(2)構(gòu)造整個文本集的詞頻矩陣]^1={^17,1;21",...1^},其中y表示文本集的文檔數(shù)。3、如權(quán)利要求2所述的粒度可量化的話題提取方法,其特征在于步驟(4)中對變換矩陣進(jìn)行量化的步驟為將變換矩陣放在一個二維坐標(biāo)系中處理,并運(yùn)用粒度特征線進(jìn)行量化,采用的量化原則為將落入量化特征線下方的矩陣元素設(shè)置為0,而處于量化特征線上方的元素保持不變;而量化特征線定義為/(jc)=jc+6(M+A0其中,6是由用戶提供的量化因子,是區(qū)間中的一個數(shù)。4、如權(quán)利要求3所述的粒度可量化的話題提取方法,其特征在于步驟(6)中,在變換后的詞頻矩陣中選擇詞頻非O的詞作為該粒度話題的描述空間,使用隱狄利克雷分配模型在這個空間中對這個文本集進(jìn)行話題提取,從而得到話題描述。5、如權(quán)利要求4所述的粒度可量化的話題提取方法,其特征在于用戶直接通過指定粒度參數(shù)b,而得到相應(yīng)的粒度話題描述,而不需要構(gòu)造話題的層次結(jié)構(gòu)再進(jìn)行話題粗細(xì)程度的分析。全文摘要本發(fā)明屬于文本分析
技術(shù)領(lǐng)域:
,具體涉及一種粒度可量化的話題提取方法。本發(fā)明通過對文本集的詞頻矩陣進(jìn)行DCT變換,轉(zhuǎn)換成代表詞語能量的矩陣,根據(jù)這種矩陣中的能量分布特點(diǎn),進(jìn)行變換矩陣的能量分割,從而將話題粒度與用戶所期望的粒度參數(shù)對應(yīng)起來。在能量分割的基礎(chǔ)上進(jìn)行DCT反變換,從而得到與粒度相對應(yīng)的特征空間,在這個空間中運(yùn)用現(xiàn)有的話題提取方法提取粒度話題,從而完成粒度可量化的話題提取。本發(fā)明為用戶比較準(zhǔn)確地提取粒度話題提供有效方法,適應(yīng)于各種需要粒度理解的話題提取場合。文檔編號G06F17/27GK101655838SQ200910195458公開日2010年2月24日申請日期2009年9月10日優(yōu)先權(quán)日2009年9月10日發(fā)明者吳承榮,曾劍平申請人:復(fù)旦大學(xué)