两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法

文檔序號(hào):10512162閱讀:201來(lái)源:國(guó)知局
一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法
【專利摘要】本發(fā)明公開(kāi)了一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法。將樣本多文檔進(jìn)行分詞處理,得到短語(yǔ)及其出現(xiàn)頻率,文檔被表示為短語(yǔ)袋的形式;以LDA主題模型為基礎(chǔ)計(jì)算文檔的聯(lián)合概率分布,轉(zhuǎn)化到短語(yǔ)主題模型中,然后根據(jù)貝葉斯概率使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的隱參數(shù)進(jìn)行參數(shù)估計(jì),最后得到主題在單詞上的概率分布;對(duì)被測(cè)文檔進(jìn)行分詞處理,計(jì)算獲得句子的主題權(quán)重和詞頻權(quán)重,加權(quán)計(jì)算得到句子的最終權(quán)重,根據(jù)最終權(quán)重生成摘要內(nèi)容。本發(fā)明方法更加規(guī)范和精確,考慮了不同單詞之間關(guān)系,引進(jìn)句子的主題權(quán)重,生成結(jié)果更符合人們實(shí)際的撰寫短文摘要的情況,在引進(jìn)句子的主題權(quán)重后。
【專利說(shuō)明】
一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及了一種多文檔自動(dòng)摘要算法,尤其涉及了一種基于短語(yǔ)主題建模的多 文檔自動(dòng)摘要生成方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速普及,人們獲取信息和知識(shí)越來(lái)越方便,同時(shí)由于網(wǎng)絡(luò)信息的 爆炸性增長(zhǎng),導(dǎo)致人們處理大量的文本信息時(shí)需要花費(fèi)大量的精力。那么如何解決人們處 理大量的文本信息自然成了當(dāng)前研究的熱點(diǎn)。
[0003] 多文檔自動(dòng)摘要技術(shù)正是為了解決該問(wèn)題而提出的。目前在新聞文章的自動(dòng)短文 應(yīng)用較為成熟,新聞文章的特點(diǎn)是來(lái)源于不同媒體的新聞文章以同一事件為中心,使用盡 可能相同的單詞來(lái)描述該事件。通過(guò)對(duì)不同媒體的新聞文章提取相同部分作為主要內(nèi)容, 提取不同部分作為可能的補(bǔ)充內(nèi)容,來(lái)完成應(yīng)用于新聞文章的多文檔自動(dòng)摘要技術(shù),大部 分技術(shù)是利用文本聚類的方法實(shí)現(xiàn)的。
[0004] 而我們的目標(biāo)是研究為文獻(xiàn)綜述服務(wù)的多文檔自動(dòng)摘要技術(shù)。相比較新聞文章的 以同一事件為中心而言,文獻(xiàn)文本并不以同一對(duì)象為中心,而是以同一主題為中心。相同單 詞的頻率也不如新聞文章那樣高,使用文本聚類的方法無(wú)法準(zhǔn)確為文獻(xiàn)生成短文文摘。我 們提出利用主題模型來(lái)挖掘出不同單詞的主題,通過(guò)比較不同單詞的主題來(lái)實(shí)現(xiàn)多文檔自 動(dòng)摘要技術(shù)。同樣,相同的高頻單詞對(duì)自動(dòng)文摘的影響無(wú)法忽視。最終,我們決定利用主題 建模計(jì)算句子的主題權(quán)重作為對(duì)以詞頻為特征的SumBasic自動(dòng)摘要算法的補(bǔ)充,實(shí)現(xiàn)應(yīng)用 于文獻(xiàn)綜述的多文檔自動(dòng)摘要算法。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明是為了實(shí)現(xiàn)對(duì)文獻(xiàn)綜述的多文檔自動(dòng)摘要生成,考慮到了不同單詞屬于同 一主題的情況,提出了一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法,利用短語(yǔ)主題 模型挖掘出隱藏在單詞下的主題,對(duì)多文檔自動(dòng)摘要生成有重要的意義。
[0006] 如圖1所示,本發(fā)明解決其技術(shù)問(wèn)題,首先是通過(guò)短語(yǔ)主題建模對(duì)文本進(jìn)行主題挖 掘處理,在該過(guò)程中,文本被分割成滿足一定頻率的短語(yǔ),組成短語(yǔ)袋;在此短語(yǔ)袋的基礎(chǔ) 上利用短語(yǔ)主題模型進(jìn)行建模,在參數(shù)估計(jì)過(guò)程中得到主題在單詞上的概率分布;在 SumBasic自動(dòng)文摘方法的基礎(chǔ)上,分別計(jì)算句子的詞頻權(quán)重和主題權(quán)重,兩種權(quán)重最后通 過(guò)加權(quán)求和得到句子的最終權(quán)重,選擇權(quán)重最大的句子作為自動(dòng)文摘的生成內(nèi)容。
[0007] 采用的具體技術(shù)方案如下:
[0008] 1)預(yù)處理樣本多文檔:利用Mai let自然語(yǔ)言處理工具將樣本多文檔進(jìn)行分詞處 理,得到短語(yǔ)及其出現(xiàn)頻率,文檔被表示為短語(yǔ)袋的形式;
[0009] 所述步驟1)分詞處理后的短語(yǔ)長(zhǎng)度被限制為不超過(guò)3。
[0010] 2)對(duì)樣本多文檔進(jìn)行短語(yǔ)主題建模:
[0011] 以LDA主題模型為基礎(chǔ),用短語(yǔ)代替單詞作為計(jì)算的對(duì)象,計(jì)算文檔的聯(lián)合概率分 布,轉(zhuǎn)化到短語(yǔ)主題模型中,然后根據(jù)貝葉斯概率使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的 隱參數(shù)進(jìn)行參數(shù)估計(jì),最后得到主題在單詞上的概率分布;
[0012] 3)多文檔處理生成摘要:
[0013] 對(duì)被測(cè)文檔進(jìn)行分詞處理,計(jì)算獲得句子的主題權(quán)重和詞頻權(quán)重,加權(quán)計(jì)算得到 句子的最終權(quán)重,根據(jù)最終權(quán)重生成摘要內(nèi)容。
[0014] 所述的步驟2)具體是:
[0015] 2.1)根據(jù)步驟1)中的分詞處理后,文檔以短語(yǔ)袋的形式,在詞空間上用向量表示 文檔,采用以下公式計(jì)算獲得文檔在LDA主題模型下的聯(lián)合概率分布:
[0017] 其中,?_表示為文檔在主題向量Z、單詞向量W、主題的單詞分布向量Φ和文檔的 主題分布向量Θ下的聯(lián)合概率分布,i表示文檔集的第i個(gè)文檔,j表示文檔的第j個(gè)單詞,k 表示第k個(gè)主題,0,表示文檔i的主題分布,Zl>j表示文檔i第j個(gè)單詞的主題,Wl>j表示文檔i 第j個(gè)單詞,爐ft表示主題k的單詞分布;
[0018] 2.2)短語(yǔ)主題模型在LDA主題模型的基礎(chǔ)上,考慮了多次出現(xiàn)的連續(xù)單詞比單個(gè) 單詞的意義更大,通過(guò)引進(jìn)一個(gè)函數(shù)f作為連續(xù)單詞(短語(yǔ))的概率因子。采用以下公式進(jìn)行 轉(zhuǎn)換為文檔在短語(yǔ)主題模型下的聯(lián)合概率分布:
[0020]其中,C表示歸一值,C是一個(gè)常量使得左邊為合理的概率分布,Plda是2.1中的LDA 主題模型計(jì)算的文檔概率分布,C1>g表示第i個(gè)文檔的第g個(gè)短語(yǔ),與下文Wl, g的區(qū)別在于C1>g 還包括了短語(yǔ)中各個(gè)單詞的主題變量,f(C1>g)表示C1>g的概率因子;
[0021 ] 2.3)使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的隱參數(shù)進(jìn)行參數(shù)估計(jì),隱參數(shù)為文 檔在主題上的概率分布α和主題在單詞上的概率分布β,短語(yǔ)C1>g取主題k的概率p(C1>g = k W,Z\Ci,g)為:
[0023]其中,W為單詞向量,Z為主題向量,Z\Ci,g表示去除主題Ci,g的主題向量,Wi, g表示第i 個(gè)文檔的第g個(gè)短語(yǔ),〇k表示文檔選擇主題為k的概率,N1>k表示第i個(gè)文檔中為主題k的單詞 的個(gè)數(shù),表示主題選擇單詞Wi,g,j的概率,Nwi,g,j,k表示主題k中單詞Wi,g,j的個(gè)數(shù),Nk表 示主題k的總單詞個(gè)數(shù),V表示主題的單詞向量,X表示主題的單詞向量V的序數(shù),j表示短語(yǔ) Wi,g中單詞的序數(shù);
[0024] Gibbs采樣算法進(jìn)行迭代計(jì)算使得隱參數(shù)收斂,迭代次數(shù)通常不少于500次,迭代 計(jì)算后獲得主題在單詞上的概率分布β,從而得到單詞在主題的概率分布。
[0025] 所述的單詞Wi,j、單詞分布識(shí)fc、主題Zi,j、主題多項(xiàng)式分布01通過(guò)以下LDA主題模型 進(jìn)行生成,LDA主題模型針對(duì)于主題的單詞分布向量Φ和文檔的主題分布向量Θ分別使用 兩個(gè)狄利克雷分布參數(shù)α與β,α和β分別表示文檔在主題上的概率分布和主題在單詞上的概 率分布:
[0026] 從狄利克雷分布α中取樣生成文檔i的主題多項(xiàng)式分布Θ,,從主題多項(xiàng)式分布0,中 取樣生成文檔i第j個(gè)詞的主題ZU;從狄利克雷分布β中取樣生成主題ZU的單詞多項(xiàng)式分 布供卻,_從單詞多項(xiàng)式分布中取樣生成單詞W i, j ;各個(gè)主題Z i, j的單詞多項(xiàng)式分布臀2i'J'合 并形成主題k的單詞分布識(shí)fc。
[0027]所述步驟2.2)中短語(yǔ)(:1,8的概率因子汽(:1, 8)采用以下公式計(jì)算處理,以減少第1個(gè) 文檔的第g個(gè)短語(yǔ)C1>g的可能狀態(tài)的數(shù)量:
[0029] 其中,Zl,g,s表示第i個(gè)文檔的第g個(gè)短語(yǔ)中的第s個(gè)單詞的主題,s表示C 1>g中包含單 詞的數(shù)量。
[0030] 短語(yǔ)C1>g有Γ個(gè)可能的狀態(tài),K表示主題的個(gè)數(shù),經(jīng)概率因子f(C1>g)處理后C 1>g的可 能狀態(tài)從Γ減少為K個(gè)。
[0031 ]在考慮到短語(yǔ)中的單詞概率差異過(guò)大可能造成計(jì)算不準(zhǔn)確,所述步驟2.3)中的公 式采用以下公式計(jì)算,引進(jìn)標(biāo)準(zhǔn)差來(lái)減少可能的影響;
[0033]其中,p(Wl,g^k)在參數(shù)估計(jì)中單詞Wl,g,j在主題k下的貝葉斯概率,即表示公式中 的連乘項(xiàng),VarianceSqrt是對(duì)短語(yǔ)中的單詞Wi,g,j的貝葉斯概率p(wi,g,j |k)的標(biāo)準(zhǔn)差計(jì)算。 [0034]所述步驟3)具體是:
[0035] 3.1)利用步驟1)的結(jié)果對(duì)被測(cè)文檔進(jìn)行分詞處理,得到短語(yǔ)或單詞,
[0036] 3.2)根據(jù)在步驟2)中得到的主題在單詞上的概率分布得到單詞屬于某一主題的 概率,根據(jù)句子和單詞的關(guān)系計(jì)算得出句子屬于該主題的概率,作為該主題下句子的主題 權(quán)重;
[0037 ] 3.3)采用S u mB a s i c自動(dòng)文摘算法以單詞出現(xiàn)的頻率作為依據(jù)計(jì)算獲得句子的詞 頻權(quán)重;
[0038] 3.4)對(duì)主題權(quán)重和詞頻權(quán)重進(jìn)行加權(quán)計(jì)算得到句子的最終權(quán)重,依次選擇最終權(quán) 重最大的句子作為自動(dòng)文摘的生成內(nèi)容,直至短文文摘長(zhǎng)度達(dá)到要求。
[0039] 所述的句子的主題權(quán)重具體是在經(jīng)過(guò)分詞處理后,利用步驟2)得到的單詞在主題 的概率分布采用以下公式計(jì)算:
[0041 ]其中,G為句子sentence的短語(yǔ)個(gè)數(shù),L(gi)為gi的大小,p(gi,j)為短語(yǔ)gi的第j個(gè)單 詞在主題k下的概率,TopicWeight(sentence | k)表示主題k的主題權(quán)重,sentence | k表示主 題k下的句子;
[0042] 所述的詞頻權(quán)重具體采用以下方式計(jì)算:
[0043] 統(tǒng)計(jì)被測(cè)文檔獲得被測(cè)文檔中每個(gè)單詞的頻率,利用每個(gè)單詞的頻率使用以下公 式計(jì)算獲得句子的詞頻權(quán)重:
[0044] Frequencyffeight(sentence)=Max{p(wi)}
[0045] 其中,Max{p(wi)}表示取句子中單詞頻率最大的作為句子的詞頻權(quán)重,p(wi)表示 句子中單詞出現(xiàn)的頻率。
[0046] 所述句子的最終權(quán)重具體使用以下公式計(jì)算:
[0047] Weight(sentence|k)=ATopicWeight(sentence|k) + ( l-AFrequencyWeight (sentence)
[0048] 其中,λ是用來(lái)控制主題權(quán)重和詞頻權(quán)重的影響因子,一般設(shè)置為0.5。
[0049] 本發(fā)明將句子的主題權(quán)重計(jì)算引入到多文檔自動(dòng)摘要計(jì)算中,利用挖掘出句子的 主題信息,在句子的權(quán)重計(jì)算時(shí)除了考慮詞頻之外還考慮句子與主題的關(guān)系,得到了適用 于文獻(xiàn)的多文檔自動(dòng)摘要。
[0050] 本發(fā)明方法與現(xiàn)有技術(shù)相比具有的有益效果:
[0051] 1、該方法針對(duì)文獻(xiàn)文本通常是以實(shí)際主題為中心,相比較新聞文章用詞更加規(guī)范 和精確,利用短語(yǔ)主題建模挖掘出隱藏在單詞下的主題,然后利用單詞在主題的概率分布 來(lái)計(jì)算句子的主題權(quán)重。
[0052] 2、現(xiàn)有技術(shù)通??紤]相同的單詞對(duì)多文檔自動(dòng)摘要算法的影響,忽略了不同單詞 之間關(guān)系,這并不符合人們實(shí)際的撰寫短文摘要的情況,在引進(jìn)句子的主題權(quán)重后,使得多 文檔自動(dòng)摘要算法更加合理。
【附圖說(shuō)明】
[0053]圖1是本發(fā)明的總體流程圖;
[0054]圖2是步驟2)的短語(yǔ)主題示意圖。
[0055]表1是實(shí)施例結(jié)果短語(yǔ)主題結(jié)果;
[0056]表2是實(shí)施例結(jié)果自動(dòng)文摘內(nèi)容示。
【具體實(shí)施方式】
[0057]為了更好地理解本發(fā)明的技術(shù)方案,以下結(jié)合附圖1對(duì)本發(fā)明作進(jìn)一步的描述。 [0058]本實(shí)例實(shí)施例子的具體步驟,如下:
[0059] 1)預(yù)處理樣本多文檔:利用Mai let自然語(yǔ)言處理工具將文檔分詞處理,得到短語(yǔ) 及其出現(xiàn)頻率(短語(yǔ)長(zhǎng)度被限制為不超過(guò)3),在該過(guò)程中需要去除停詞(如the、this)、無(wú)效 詞(如wepurpose),然后構(gòu)建詞向量空間。
[0060] 2)短語(yǔ)主題建模:以LDA主題模型為基礎(chǔ),用短語(yǔ)代替單詞作為計(jì)算的對(duì)象,計(jì)算 文檔的聯(lián)合概率分布,轉(zhuǎn)化到短語(yǔ)主題模型中,短語(yǔ)主題模型的示意圖如圖2所示,然后根 據(jù)貝葉斯概率使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的隱參數(shù)進(jìn)行參數(shù)估計(jì),在經(jīng)過(guò)500次 數(shù)迭代后,得到主題在單詞上的概率分布,轉(zhuǎn)化得到單詞在主題下的概率分布。根據(jù)貝葉斯 概率模型,單詞w在主題k下的
,在實(shí)際的應(yīng)用中,對(duì)測(cè)試文檔的 自動(dòng)摘要生成所根據(jù)的主題是固定的,即P(k)是個(gè)常量值,所以可通過(guò)記錄單詞w屬于主題 k的個(gè)數(shù)與單詞w的總數(shù)的比例作為其概率。
[0061] 3)被測(cè)多文檔自動(dòng)摘要:對(duì)被測(cè)文檔進(jìn)行分詞處理,計(jì)算獲得句子的主題權(quán)重和 詞頻權(quán)重,如圖1所示,句子的主題權(quán)重利用步驟2)中短語(yǔ)主題建模訓(xùn)練得到的單詞在主題 的概率分布,而句子的詞頻權(quán)重通過(guò)計(jì)算單詞的頻率得到。再加權(quán)計(jì)算得到句子的最終權(quán) 重,λ取0.5,通過(guò)對(duì)句子的權(quán)重排序每次抽取權(quán)重最大的句子直到生成的短文長(zhǎng)度達(dá)到要 求。在實(shí)際的應(yīng)用中,被測(cè)文檔集與訓(xùn)練文檔集不相同,且數(shù)量級(jí)差距很大,導(dǎo)致主題權(quán)重 計(jì)算與詞頻權(quán)重計(jì)算不在同一層面上,需要分別對(duì)主題權(quán)重和詞頻權(quán)重進(jìn)行歸一化處理。 [0062] (1)實(shí)例采用的數(shù)據(jù)集均來(lái)自DBLP的數(shù)據(jù)挖掘、信息檢索、圖象識(shí)別、機(jī)器學(xué)習(xí)等 領(lǐng)域的論文摘要,數(shù)量在8萬(wàn)篇左右,經(jīng)過(guò)步驟1)的預(yù)處理得到詞表大小為26034的詞空間 (去除停詞、無(wú)效詞后)。
[0063] (2)根據(jù)(1)中信息,利用短語(yǔ)主題建模挖掘出的五個(gè)主題結(jié)果如表1所示,從中可 以看出每個(gè)主題中的短語(yǔ)雖然不相同,但是都是屬于同一主題,例如"Database Systems" 與"Concurrency Control",雖然單詞各不相同,但是隱藏在單詞下的主題卻是一致的。
[0064] 表 1
[0065]
[0066] (3)利用(2)中挖掘出的單詞在主題上的概率分布,計(jì)算句子的主題權(quán)重,并將其 與句子的詞頻權(quán)重進(jìn)行加權(quán)求和,得到句子的最終權(quán)重,在實(shí)際應(yīng)用中我們選擇抽取4-5個(gè) 權(quán)重最大的句子。在本實(shí)例中對(duì)"database system"這一主題進(jìn)行自動(dòng)文摘生成得到的結(jié) 果如表2。表中不僅包含被選擇的句子,還顯示了句子在原文中的上下文從結(jié)果??梢钥闯?句子雖然很少包括"database system"關(guān)鍵詞,卻是與"database system"主題密切相關(guān)的 句子。
[0067] 表 2
[0068]
[0069]
[0070] 本實(shí)例的運(yùn)行結(jié)果通過(guò)人工對(duì)自動(dòng)生成的短文摘要進(jìn)行評(píng)測(cè),通過(guò)計(jì)算句子的接 受率作為標(biāo)準(zhǔn),將結(jié)果與SumBasic多文檔自動(dòng)摘要算法進(jìn)行對(duì),結(jié)果如下表3所示:
[0071] 表3
[0073]有實(shí)施例結(jié)果的對(duì)比可看出,本發(fā)明方法在文獻(xiàn)上的自動(dòng)文摘生成的內(nèi)容相比較 SumBasic更容易接受,符合撰寫短文摘要的情況,合理有效,具有其突出顯著的效果和良好 的使用價(jià)值和應(yīng)用前景。
【主權(quán)項(xiàng)】
1. 一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法,其特征在于包括以下步驟: 1) 預(yù)處理樣本多文檔:利用Mallet自然語(yǔ)言處理工具將樣本多文檔進(jìn)行分詞處理,得 到短語(yǔ)及其出現(xiàn)頻率,文檔被表示為短語(yǔ)袋的形式; 2) 對(duì)樣本多文檔進(jìn)行短語(yǔ)主題建模: 以LDA主題模型為基礎(chǔ),用短語(yǔ)代替單詞作為計(jì)算的對(duì)象,計(jì)算文檔的聯(lián)合概率分布, 轉(zhuǎn)化到短語(yǔ)主題模型中,然后根據(jù)貝葉斯概率使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的隱 參數(shù)進(jìn)行參數(shù)估計(jì),最后得到主題在單詞上的概率分布; 3) 多文檔處理生成摘要:對(duì)被測(cè)文檔進(jìn)行分詞處理,計(jì)算獲得句子的主題權(quán)重和詞頻 權(quán)重,加權(quán)計(jì)算得到句子的最終權(quán)重,根據(jù)最終權(quán)重生成摘要內(nèi)容。2. 根據(jù)權(quán)利要求1中所述的一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法,其特 征在于:所述的步驟2)具體是: 2.1) 根據(jù)步驟1)中的分詞處理后,在詞空間上用向量表示文檔,采用以下公式計(jì)算獲 得文檔在LDA主題模型下的聯(lián)合概率分布:其中,Plda表示為文檔在主題向量Z、單詞向量W、主題的單詞分布向量Φ和文檔的主題 分布向量Θ下的聯(lián)合概率分布,i表示文檔集的第i個(gè)文檔,j表示文檔的第j個(gè)單詞,k表示 第k個(gè)主題,0,表示文檔i的主題分布,zu表示文檔i第j個(gè)單詞的主題, Wl>j表示文檔i的第j 個(gè)單詞,物表示主題k的單詞分布,(pUuK))表示主題條件下的后驗(yàn)概率,p(Wl>J I Zi, j,Φ )表示單詞wi,j在zi,j和Φ條件下的后驗(yàn)概率,ρ(θ?)和爐fe〕分別表示文檔i的主 題分布為Θ i的概率和主題k的單詞分布為f fc的概率。 2.2) 采用以下公式進(jìn)行轉(zhuǎn)換為文檔在短語(yǔ)主題模型下的聯(lián)合概率分布:其中,C表示歸一值,PLDA是2.1中的LDA主題模型計(jì)算的文檔概率分布,Ci,g表示第i個(gè)文 檔的第g個(gè)短語(yǔ),f(C1>g)表示C1>g的概率因子;2.3)使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的 隱參數(shù)進(jìn)行參數(shù)估計(jì),隱參數(shù)為文檔在主題上的概率分布α和主題在單詞上的概率分布β, 短語(yǔ)Ci, g取主題k的概率p (Ci, g = k | W,Z\Ci, g)為:其中,W為單詞向量,Z為主題向量,Z\Ci,g表示去除主題Ci,g的主題向量,Wi,g表示第i個(gè) 文檔的第g個(gè)短語(yǔ),〇k表示文檔選擇主題為k的概率,N1>k表示第i個(gè)文檔中為主題k的單詞的 個(gè)數(shù),表示主題選擇單詞的概率,j表示文檔i的第j個(gè)單詞,N wl,^k表示主題k中 單詞w1>gd的個(gè)數(shù),Nk表示主題k的總單詞個(gè)數(shù),V表示主題的單詞向量,X表示主題的單詞向 量V的序數(shù),j表示短語(yǔ)Wi,g中單詞的序數(shù); Gibbs采樣算法進(jìn)行迭代計(jì)算使得隱參數(shù)收斂,迭代計(jì)算后獲得主題在單詞上的概率 分布β,從而得到單詞在主題的概率分布。3. 根據(jù)權(quán)利要求2中所述的一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法,其特 征在于:所述的單詞w^、單詞分布爐fc、主題 Zl,>主題多項(xiàng)式分布01通過(guò)以下LDA主題模型進(jìn) 行生成,LDA主題模型針對(duì)于主題的單詞分布向量Φ和文檔的主題分布向量Θ分別使用兩 個(gè)狄利克雷分布參數(shù)α與β,α和β分別表示文檔在主題上的概率分布和主題在單詞上的概率 分布: 從狄利克雷分布α中取樣生成文檔i的主題多項(xiàng)式分布Θ,,從主題多項(xiàng)式分布Θ,中取樣 生成文檔i第j個(gè)詞的主題從狄利克雷分布β中取樣生成主題的單詞多項(xiàng)式分布 從單詞多項(xiàng)式分布內(nèi)y中取樣生成單詞各個(gè)主題ZU的單詞多項(xiàng)式分布?合并 形成主題k的單詞分布爐fc。4. 根據(jù)權(quán)利要求2中所述的一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法,其特 征在于:所述步驟2.2)中短語(yǔ)C1>g的概率因子f(C 1>g)采用以下公式計(jì)算處理,以減少第i個(gè) 文檔的第g個(gè)短語(yǔ)& "的可能狀杰的教量,其中,z1>g,s表示第i個(gè)文檔的第g個(gè)短語(yǔ)中的第s個(gè)單詞的主題,s表示C1>g中包含單詞的 數(shù)量。5. 根據(jù)權(quán)利要求2中所述的一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法,其特 征在于:所述步驟2.3)中的公式采用以下公式計(jì)算:其中,P(w1>gd|k)在參數(shù)估計(jì)中單詞Wl,g,j在主題k下的貝葉斯概率,即表示公式中的連 乘項(xiàng),VarianceSqrt是對(duì)短語(yǔ)中的單詞Wi,g,j的貝葉斯概率p(wi,g,j |k)的標(biāo)準(zhǔn)差計(jì)算。6. 根據(jù)權(quán)利要求1所述的一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法,其特征 在于:所述步驟3)具體是: 3.1) 利用步驟1)的結(jié)果對(duì)被測(cè)文檔進(jìn)行分詞處理,得到短語(yǔ)或單詞, 3.2) 根據(jù)在步驟2)中得到的主題在單詞上的概率分布得到單詞屬于某一主題的概率, 根據(jù)句子和單詞的關(guān)系計(jì)算得出句子屬于該主題的概率,作為該主題下句子的主題權(quán)重; 3.3) 采用SumBasic自動(dòng)文摘算法以單詞出現(xiàn)的頻率作為依據(jù)計(jì)算獲得句子的詞頻權(quán) 重; 3.4) 對(duì)主題權(quán)重和詞頻權(quán)重進(jìn)行加權(quán)計(jì)算得到句子的最終權(quán)重,依次選擇最終權(quán)重最 大的句子作為自動(dòng)文摘的生成內(nèi)容,直至短文文摘長(zhǎng)度達(dá)到要求。7. 根據(jù)權(quán)利要求1或6中所述的基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成算法,其特征 在于:所述的句子的主題權(quán)重具體是在經(jīng)過(guò)分詞處理后,利用步驟2)得到的單詞在主題的 概率分布采用以下公式計(jì)算:其中,G為句子sentence的短語(yǔ)個(gè)數(shù),L(gi)為gi的大小,p(gi,j)為短語(yǔ)gi的第j個(gè)單詞在 主題k下的概率,TopicWeight( sentence | k)表示主題k的主題權(quán)重,sentence | k表示主題k 下的句子。8. 根據(jù)權(quán)利要求1或6中所述的基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成算法,其特征 在于:所述的詞頻權(quán)重具體采用以下方式計(jì)算: 統(tǒng)計(jì)被測(cè)文檔獲得被測(cè)文檔中每個(gè)單詞的頻率,利用每個(gè)單詞的頻率使用以下公式計(jì) 算獲得句子的詞頻權(quán)重: Frequencyffeight(sentence) =Max{p(wi)} 其中,Max {p(wi)}表示取句子中單詞頻率最大的作為句子的詞頻權(quán)重,p(wi)表示句子 中單詞出現(xiàn)的頻率,sentence表示被測(cè)文檔中的句子。9. 根據(jù)權(quán)利要求1或6中所述的基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成算法,其特征 在于:所述句子的最終權(quán)重具體使用以下公式計(jì)算: Weight(sentence|k)=ATopicWeight(sentence|k)+(l_AFrequencyWeight (sentence) 其中,λ是控制主題權(quán)重和詞頻權(quán)重的影響因子。
【文檔編號(hào)】G06F17/27GK105868178SQ201610183423
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2016年3月28日
【發(fā)明人】魯偉明, 莊越挺, 張占江
【申請(qǐng)人】浙江大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
辽宁省| 洪江市| 瑞安市| 会同县| 城固县| 自贡市| 射阳县| 小金县| 修文县| 东阳市| 宜城市| 离岛区| 辽中县| 灵璧县| 蓬莱市| 徐水县| 辽阳市| 商城县| 无锡市| 汾阳市| 德兴市| 潢川县| 沿河| 枝江市| 宜州市| 图木舒克市| 景洪市| 安丘市| 荥阳市| 井陉县| 阳信县| 金山区| 香格里拉县| 达尔| 洛浦县| 镇赉县| 乐亭县| 桃源县| 渝中区| 措美县| 永春县|