一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法

文檔序號(hào)：10512162閱讀：201來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法
【專利摘要】本發(fā)明公開(kāi)了一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法。將樣本多文檔進(jìn)行分詞處理，得到短語(yǔ)及其出現(xiàn)頻率，文檔被表示為短語(yǔ)袋的形式；以LDA主題模型為基礎(chǔ)計(jì)算文檔的聯(lián)合概率分布，轉(zhuǎn)化到短語(yǔ)主題模型中，然后根據(jù)貝葉斯概率使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的隱參數(shù)進(jìn)行參數(shù)估計(jì)，最后得到主題在單詞上的概率分布；對(duì)被測(cè)文檔進(jìn)行分詞處理，計(jì)算獲得句子的主題權(quán)重和詞頻權(quán)重，加權(quán)計(jì)算得到句子的最終權(quán)重，根據(jù)最終權(quán)重生成摘要內(nèi)容。本發(fā)明方法更加規(guī)范和精確，考慮了不同單詞之間關(guān)系，引進(jìn)句子的主題權(quán)重，生成結(jié)果更符合人們實(shí)際的撰寫短文摘要的情況，在引進(jìn)句子的主題權(quán)重后。
【專利說(shuō)明】
一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及了一種多文檔自動(dòng)摘要算法，尤其涉及了一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速普及，人們獲取信息和知識(shí)越來(lái)越方便，同時(shí)由于網(wǎng)絡(luò)信息的爆炸性增長(zhǎng)，導(dǎo)致人們處理大量的文本信息時(shí)需要花費(fèi)大量的精力。那么如何解決人們處理大量的文本信息自然成了當(dāng)前研究的熱點(diǎn)。
[0003] 多文檔自動(dòng)摘要技術(shù)正是為了解決該問(wèn)題而提出的。目前在新聞文章的自動(dòng)短文應(yīng)用較為成熟，新聞文章的特點(diǎn)是來(lái)源于不同媒體的新聞文章以同一事件為中心，使用盡可能相同的單詞來(lái)描述該事件。通過(guò)對(duì)不同媒體的新聞文章提取相同部分作為主要內(nèi)容，提取不同部分作為可能的補(bǔ)充內(nèi)容，來(lái)完成應(yīng)用于新聞文章的多文檔自動(dòng)摘要技術(shù)，大部分技術(shù)是利用文本聚類的方法實(shí)現(xiàn)的。
[0004] 而我們的目標(biāo)是研究為文獻(xiàn)綜述服務(wù)的多文檔自動(dòng)摘要技術(shù)。相比較新聞文章的以同一事件為中心而言，文獻(xiàn)文本并不以同一對(duì)象為中心，而是以同一主題為中心。相同單詞的頻率也不如新聞文章那樣高，使用文本聚類的方法無(wú)法準(zhǔn)確為文獻(xiàn)生成短文文摘。我們提出利用主題模型來(lái)挖掘出不同單詞的主題，通過(guò)比較不同單詞的主題來(lái)實(shí)現(xiàn)多文檔自動(dòng)摘要技術(shù)。同樣，相同的高頻單詞對(duì)自動(dòng)文摘的影響無(wú)法忽視。最終，我們決定利用主題建模計(jì)算句子的主題權(quán)重作為對(duì)以詞頻為特征的SumBasic自動(dòng)摘要算法的補(bǔ)充，實(shí)現(xiàn)應(yīng)用于文獻(xiàn)綜述的多文檔自動(dòng)摘要算法。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明是為了實(shí)現(xiàn)對(duì)文獻(xiàn)綜述的多文檔自動(dòng)摘要生成，考慮到了不同單詞屬于同一主題的情況，提出了一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法，利用短語(yǔ)主題模型挖掘出隱藏在單詞下的主題，對(duì)多文檔自動(dòng)摘要生成有重要的意義。
[0006] 如圖1所示，本發(fā)明解決其技術(shù)問(wèn)題，首先是通過(guò)短語(yǔ)主題建模對(duì)文本進(jìn)行主題挖掘處理，在該過(guò)程中，文本被分割成滿足一定頻率的短語(yǔ)，組成短語(yǔ)袋;在此短語(yǔ)袋的基礎(chǔ) 上利用短語(yǔ)主題模型進(jìn)行建模，在參數(shù)估計(jì)過(guò)程中得到主題在單詞上的概率分布；在 SumBasic自動(dòng)文摘方法的基礎(chǔ)上，分別計(jì)算句子的詞頻權(quán)重和主題權(quán)重，兩種權(quán)重最后通過(guò)加權(quán)求和得到句子的最終權(quán)重，選擇權(quán)重最大的句子作為自動(dòng)文摘的生成內(nèi)容。
[0007] 采用的具體技術(shù)方案如下：
[0008] 1)預(yù)處理樣本多文檔：利用Mai let自然語(yǔ)言處理工具將樣本多文檔進(jìn)行分詞處理，得到短語(yǔ)及其出現(xiàn)頻率，文檔被表示為短語(yǔ)袋的形式；
[0009] 所述步驟1)分詞處理后的短語(yǔ)長(zhǎng)度被限制為不超過(guò)3。
[0010] 2)對(duì)樣本多文檔進(jìn)行短語(yǔ)主題建模：
[0011] 以LDA主題模型為基礎(chǔ)，用短語(yǔ)代替單詞作為計(jì)算的對(duì)象，計(jì)算文檔的聯(lián)合概率分布，轉(zhuǎn)化到短語(yǔ)主題模型中，然后根據(jù)貝葉斯概率使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的隱參數(shù)進(jìn)行參數(shù)估計(jì)，最后得到主題在單詞上的概率分布；
[0012] 3)多文檔處理生成摘要：
[0013] 對(duì)被測(cè)文檔進(jìn)行分詞處理，計(jì)算獲得句子的主題權(quán)重和詞頻權(quán)重，加權(quán)計(jì)算得到句子的最終權(quán)重，根據(jù)最終權(quán)重生成摘要內(nèi)容。
[0014] 所述的步驟2)具體是：
[0015] 2.1)根據(jù)步驟1)中的分詞處理后，文檔以短語(yǔ)袋的形式，在詞空間上用向量表示文檔，采用以下公式計(jì)算獲得文檔在LDA主題模型下的聯(lián)合概率分布：
[0017] 其中，？_表示為文檔在主題向量Z、單詞向量W、主題的單詞分布向量Φ和文檔的主題分布向量Θ下的聯(lián)合概率分布，i表示文檔集的第i個(gè)文檔，j表示文檔的第j個(gè)單詞，k 表示第k個(gè)主題，0,表示文檔i的主題分布，Zl>j表示文檔i第j個(gè)單詞的主題，Wl>j表示文檔i 第j個(gè)單詞，爐ft表示主題k的單詞分布；
[0018] 2.2)短語(yǔ)主題模型在LDA主題模型的基礎(chǔ)上，考慮了多次出現(xiàn)的連續(xù)單詞比單個(gè) 單詞的意義更大，通過(guò)引進(jìn)一個(gè)函數(shù)f作為連續(xù)單詞(短語(yǔ))的概率因子。采用以下公式進(jìn)行轉(zhuǎn)換為文檔在短語(yǔ)主題模型下的聯(lián)合概率分布：
[0020]其中，C表示歸一值，C是一個(gè)常量使得左邊為合理的概率分布，Plda是2.1中的LDA 主題模型計(jì)算的文檔概率分布，C1>g表示第i個(gè)文檔的第g個(gè)短語(yǔ)，與下文Wl, g的區(qū)別在于C1>g 還包括了短語(yǔ)中各個(gè)單詞的主題變量，f(C1>g)表示C1>g的概率因子；
[0021 ] 2.3)使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的隱參數(shù)進(jìn)行參數(shù)估計(jì)，隱參數(shù)為文檔在主題上的概率分布α和主題在單詞上的概率分布β，短語(yǔ)C1>g取主題k的概率p(C1>g = k W，Z\Ci,g)為：
[0023]其中，W為單詞向量，Z為主題向量，Z\Ci,g表示去除主題Ci,g的主題向量，Wi, g表示第i 個(gè)文檔的第g個(gè)短語(yǔ)，〇k表示文檔選擇主題為k的概率，N1>k表示第i個(gè)文檔中為主題k的單詞的個(gè)數(shù)，表示主題選擇單詞Wi,g,j的概率，Nwi,g,j,k表示主題k中單詞Wi,g,j的個(gè)數(shù)，Nk表示主題k的總單詞個(gè)數(shù)，V表示主題的單詞向量，X表示主題的單詞向量V的序數(shù)，j表示短語(yǔ) Wi,g中單詞的序數(shù)；
[0024] Gibbs采樣算法進(jìn)行迭代計(jì)算使得隱參數(shù)收斂，迭代次數(shù)通常不少于500次，迭代計(jì)算后獲得主題在單詞上的概率分布β，從而得到單詞在主題的概率分布。
[0025] 所述的單詞Wi,j、單詞分布識(shí)fc、主題Zi,j、主題多項(xiàng)式分布01通過(guò)以下LDA主題模型進(jìn)行生成，LDA主題模型針對(duì)于主題的單詞分布向量Φ和文檔的主題分布向量Θ分別使用兩個(gè)狄利克雷分布參數(shù)α與β，α和β分別表示文檔在主題上的概率分布和主題在單詞上的概率分布：
[0026] 從狄利克雷分布α中取樣生成文檔i的主題多項(xiàng)式分布Θ,，從主題多項(xiàng)式分布0,中取樣生成文檔i第j個(gè)詞的主題ZU;從狄利克雷分布β中取樣生成主題ZU的單詞多項(xiàng)式分布供卻，_從單詞多項(xiàng)式分布中取樣生成單詞W i, j ;各個(gè)主題Z i, j的單詞多項(xiàng)式分布臀2i'J'合并形成主題k的單詞分布識(shí)fc。
[0027]所述步驟2.2)中短語(yǔ)(：1,8的概率因子汽(：1, 8)采用以下公式計(jì)算處理，以減少第1個(gè) 文檔的第g個(gè)短語(yǔ)C1>g的可能狀態(tài)的數(shù)量：
[0029] 其中，Zl,g,s表示第i個(gè)文檔的第g個(gè)短語(yǔ)中的第s個(gè)單詞的主題，s表示C 1>g中包含單詞的數(shù)量。
[0030] 短語(yǔ)C1>g有Γ個(gè)可能的狀態(tài)，K表示主題的個(gè)數(shù)，經(jīng)概率因子f(C1>g)處理后C 1>g的可能狀態(tài)從Γ減少為K個(gè)。
[0031 ]在考慮到短語(yǔ)中的單詞概率差異過(guò)大可能造成計(jì)算不準(zhǔn)確，所述步驟2.3)中的公式采用以下公式計(jì)算，引進(jìn)標(biāo)準(zhǔn)差來(lái)減少可能的影響；
[0033]其中，p(Wl,g^k)在參數(shù)估計(jì)中單詞Wl,g,j在主題k下的貝葉斯概率，即表示公式中的連乘項(xiàng)，VarianceSqrt是對(duì)短語(yǔ)中的單詞Wi,g,j的貝葉斯概率p(wi,g,j |k)的標(biāo)準(zhǔn)差計(jì)算。 [0034]所述步驟3)具體是：
[0035] 3.1)利用步驟1)的結(jié)果對(duì)被測(cè)文檔進(jìn)行分詞處理，得到短語(yǔ)或單詞，
[0036] 3.2)根據(jù)在步驟2)中得到的主題在單詞上的概率分布得到單詞屬于某一主題的概率，根據(jù)句子和單詞的關(guān)系計(jì)算得出句子屬于該主題的概率，作為該主題下句子的主題權(quán)重；
[0037 ] 3.3)采用S u mB a s i c自動(dòng)文摘算法以單詞出現(xiàn)的頻率作為依據(jù)計(jì)算獲得句子的詞頻權(quán)重；
[0038] 3.4)對(duì)主題權(quán)重和詞頻權(quán)重進(jìn)行加權(quán)計(jì)算得到句子的最終權(quán)重，依次選擇最終權(quán) 重最大的句子作為自動(dòng)文摘的生成內(nèi)容，直至短文文摘長(zhǎng)度達(dá)到要求。
[0039] 所述的句子的主題權(quán)重具體是在經(jīng)過(guò)分詞處理后，利用步驟2)得到的單詞在主題的概率分布采用以下公式計(jì)算：
[0041 ]其中，G為句子sentence的短語(yǔ)個(gè)數(shù)，L(gi)為gi的大小，p(gi,j)為短語(yǔ)gi的第j個(gè)單詞在主題k下的概率，TopicWeight(sentence | k)表示主題k的主題權(quán)重，sentence | k表示主題k下的句子；
[0042] 所述的詞頻權(quán)重具體采用以下方式計(jì)算：
[0043] 統(tǒng)計(jì)被測(cè)文檔獲得被測(cè)文檔中每個(gè)單詞的頻率，利用每個(gè)單詞的頻率使用以下公式計(jì)算獲得句子的詞頻權(quán)重：
[0044] Frequencyffeight(sentence)=Max{p(wi)}
[0045] 其中，Max{p(wi)}表示取句子中單詞頻率最大的作為句子的詞頻權(quán)重，p(wi)表示句子中單詞出現(xiàn)的頻率。
[0046] 所述句子的最終權(quán)重具體使用以下公式計(jì)算：
[0047] Weight(sentence|k)=ATopicWeight(sentence|k) + ( l-AFrequencyWeight (sentence)
[0048] 其中，λ是用來(lái)控制主題權(quán)重和詞頻權(quán)重的影響因子，一般設(shè)置為0.5。
[0049] 本發(fā)明將句子的主題權(quán)重計(jì)算引入到多文檔自動(dòng)摘要計(jì)算中，利用挖掘出句子的主題信息，在句子的權(quán)重計(jì)算時(shí)除了考慮詞頻之外還考慮句子與主題的關(guān)系，得到了適用于文獻(xiàn)的多文檔自動(dòng)摘要。
[0050] 本發(fā)明方法與現(xiàn)有技術(shù)相比具有的有益效果：
[0051] 1、該方法針對(duì)文獻(xiàn)文本通常是以實(shí)際主題為中心，相比較新聞文章用詞更加規(guī)范和精確，利用短語(yǔ)主題建模挖掘出隱藏在單詞下的主題，然后利用單詞在主題的概率分布來(lái)計(jì)算句子的主題權(quán)重。
[0052] 2、現(xiàn)有技術(shù)通?？紤]相同的單詞對(duì)多文檔自動(dòng)摘要算法的影響，忽略了不同單詞之間關(guān)系，這并不符合人們實(shí)際的撰寫短文摘要的情況，在引進(jìn)句子的主題權(quán)重后，使得多文檔自動(dòng)摘要算法更加合理。
【附圖說(shuō)明】
[0053]圖1是本發(fā)明的總體流程圖；
[0054]圖2是步驟2)的短語(yǔ)主題示意圖。
[0055]表1是實(shí)施例結(jié)果短語(yǔ)主題結(jié)果；
[0056]表2是實(shí)施例結(jié)果自動(dòng)文摘內(nèi)容示。
【具體實(shí)施方式】
[0057]為了更好地理解本發(fā)明的技術(shù)方案，以下結(jié)合附圖1對(duì)本發(fā)明作進(jìn)一步的描述。 [0058]本實(shí)例實(shí)施例子的具體步驟，如下：
[0059] 1)預(yù)處理樣本多文檔：利用Mai let自然語(yǔ)言處理工具將文檔分詞處理，得到短語(yǔ) 及其出現(xiàn)頻率(短語(yǔ)長(zhǎng)度被限制為不超過(guò)3)，在該過(guò)程中需要去除停詞（如the、this)、無(wú)效詞（如wepurpose)，然后構(gòu)建詞向量空間。
[0060] 2)短語(yǔ)主題建模：以LDA主題模型為基礎(chǔ)，用短語(yǔ)代替單詞作為計(jì)算的對(duì)象，計(jì)算文檔的聯(lián)合概率分布，轉(zhuǎn)化到短語(yǔ)主題模型中，短語(yǔ)主題模型的示意圖如圖2所示，然后根據(jù)貝葉斯概率使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的隱參數(shù)進(jìn)行參數(shù)估計(jì)，在經(jīng)過(guò)500次數(shù)迭代后，得到主題在單詞上的概率分布，轉(zhuǎn)化得到單詞在主題下的概率分布。根據(jù)貝葉斯概率模型，單詞w在主題k下的
，在實(shí)際的應(yīng)用中，對(duì)測(cè)試文檔的自動(dòng)摘要生成所根據(jù)的主題是固定的，即P(k)是個(gè)常量值，所以可通過(guò)記錄單詞w屬于主題 k的個(gè)數(shù)與單詞w的總數(shù)的比例作為其概率。
[0061] 3)被測(cè)多文檔自動(dòng)摘要:對(duì)被測(cè)文檔進(jìn)行分詞處理，計(jì)算獲得句子的主題權(quán)重和詞頻權(quán)重，如圖1所示，句子的主題權(quán)重利用步驟2)中短語(yǔ)主題建模訓(xùn)練得到的單詞在主題的概率分布，而句子的詞頻權(quán)重通過(guò)計(jì)算單詞的頻率得到。再加權(quán)計(jì)算得到句子的最終權(quán) 重，λ取0.5,通過(guò)對(duì)句子的權(quán)重排序每次抽取權(quán)重最大的句子直到生成的短文長(zhǎng)度達(dá)到要求。在實(shí)際的應(yīng)用中，被測(cè)文檔集與訓(xùn)練文檔集不相同，且數(shù)量級(jí)差距很大，導(dǎo)致主題權(quán)重計(jì)算與詞頻權(quán)重計(jì)算不在同一層面上，需要分別對(duì)主題權(quán)重和詞頻權(quán)重進(jìn)行歸一化處理。 [0062] (1)實(shí)例采用的數(shù)據(jù)集均來(lái)自DBLP的數(shù)據(jù)挖掘、信息檢索、圖象識(shí)別、機(jī)器學(xué)習(xí)等領(lǐng)域的論文摘要，數(shù)量在8萬(wàn)篇左右，經(jīng)過(guò)步驟1)的預(yù)處理得到詞表大小為26034的詞空間 (去除停詞、無(wú)效詞后）。
[0063] (2)根據(jù)（1)中信息，利用短語(yǔ)主題建模挖掘出的五個(gè)主題結(jié)果如表1所示，從中可以看出每個(gè)主題中的短語(yǔ)雖然不相同，但是都是屬于同一主題，例如"Database Systems" 與"Concurrency Control"，雖然單詞各不相同，但是隱藏在單詞下的主題卻是一致的。
[0064] 表 1
[0065]
[0066] (3)利用（2)中挖掘出的單詞在主題上的概率分布，計(jì)算句子的主題權(quán)重，并將其與句子的詞頻權(quán)重進(jìn)行加權(quán)求和，得到句子的最終權(quán)重，在實(shí)際應(yīng)用中我們選擇抽取4-5個(gè) 權(quán)重最大的句子。在本實(shí)例中對(duì)"database system"這一主題進(jìn)行自動(dòng)文摘生成得到的結(jié) 果如表2。表中不僅包含被選擇的句子，還顯示了句子在原文中的上下文從結(jié)果?？梢钥闯?句子雖然很少包括"database system"關(guān)鍵詞，卻是與"database system"主題密切相關(guān)的句子。
[0067] 表 2
[0068]
[0069]
[0070] 本實(shí)例的運(yùn)行結(jié)果通過(guò)人工對(duì)自動(dòng)生成的短文摘要進(jìn)行評(píng)測(cè)，通過(guò)計(jì)算句子的接受率作為標(biāo)準(zhǔn)，將結(jié)果與SumBasic多文檔自動(dòng)摘要算法進(jìn)行對(duì)，結(jié)果如下表3所示：
[0071] 表3
[0073]有實(shí)施例結(jié)果的對(duì)比可看出，本發(fā)明方法在文獻(xiàn)上的自動(dòng)文摘生成的內(nèi)容相比較 SumBasic更容易接受，符合撰寫短文摘要的情況，合理有效，具有其突出顯著的效果和良好的使用價(jià)值和應(yīng)用前景。
【主權(quán)項(xiàng)】
1. 一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法，其特征在于包括以下步驟： 1) 預(yù)處理樣本多文檔：利用Mallet自然語(yǔ)言處理工具將樣本多文檔進(jìn)行分詞處理，得到短語(yǔ)及其出現(xiàn)頻率，文檔被表示為短語(yǔ)袋的形式； 2) 對(duì)樣本多文檔進(jìn)行短語(yǔ)主題建模：以LDA主題模型為基礎(chǔ)，用短語(yǔ)代替單詞作為計(jì)算的對(duì)象，計(jì)算文檔的聯(lián)合概率分布，轉(zhuǎn)化到短語(yǔ)主題模型中，然后根據(jù)貝葉斯概率使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的隱參數(shù)進(jìn)行參數(shù)估計(jì)，最后得到主題在單詞上的概率分布； 3) 多文檔處理生成摘要:對(duì)被測(cè)文檔進(jìn)行分詞處理，計(jì)算獲得句子的主題權(quán)重和詞頻權(quán)重，加權(quán)計(jì)算得到句子的最終權(quán)重，根據(jù)最終權(quán)重生成摘要內(nèi)容。2. 根據(jù)權(quán)利要求1中所述的一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法，其特征在于:所述的步驟2)具體是： 2.1) 根據(jù)步驟1)中的分詞處理后，在詞空間上用向量表示文檔，采用以下公式計(jì)算獲得文檔在LDA主題模型下的聯(lián)合概率分布：其中，Plda表示為文檔在主題向量Z、單詞向量W、主題的單詞分布向量Φ和文檔的主題分布向量Θ下的聯(lián)合概率分布，i表示文檔集的第i個(gè)文檔，j表示文檔的第j個(gè)單詞，k表示第k個(gè)主題，0,表示文檔i的主題分布，zu表示文檔i第j個(gè)單詞的主題， Wl>j表示文檔i的第j 個(gè)單詞，物表示主題k的單詞分布，（pUuK))表示主題條件下的后驗(yàn)概率，p(Wl>J I Zi, j，Φ )表示單詞wi，j在zi，j和Φ條件下的后驗(yàn)概率，ρ(θ?)和爐fe〕分別表示文檔i的主題分布為Θ i的概率和主題k的單詞分布為f fc的概率。 2.2) 采用以下公式進(jìn)行轉(zhuǎn)換為文檔在短語(yǔ)主題模型下的聯(lián)合概率分布：其中，C表示歸一值，PLDA是2.1中的LDA主題模型計(jì)算的文檔概率分布，Ci,g表示第i個(gè)文檔的第g個(gè)短語(yǔ)，f(C1>g)表示C1>g的概率因子;2.3)使用Gibbs采樣算法對(duì)短語(yǔ)主題模型中的隱參數(shù)進(jìn)行參數(shù)估計(jì)，隱參數(shù)為文檔在主題上的概率分布α和主題在單詞上的概率分布β，短語(yǔ)Ci, g取主題k的概率p (Ci, g = k | W，Z\Ci, g)為：其中，W為單詞向量，Z為主題向量，Z\Ci,g表示去除主題Ci,g的主題向量，Wi，g表示第i個(gè) 文檔的第g個(gè)短語(yǔ)，〇k表示文檔選擇主題為k的概率，N1>k表示第i個(gè)文檔中為主題k的單詞的個(gè)數(shù)，表示主題選擇單詞的概率，j表示文檔i的第j個(gè)單詞，N wl,^k表示主題k中單詞w1>gd的個(gè)數(shù)，Nk表示主題k的總單詞個(gè)數(shù)，V表示主題的單詞向量，X表示主題的單詞向量V的序數(shù)，j表示短語(yǔ)Wi，g中單詞的序數(shù)； Gibbs采樣算法進(jìn)行迭代計(jì)算使得隱參數(shù)收斂，迭代計(jì)算后獲得主題在單詞上的概率分布β，從而得到單詞在主題的概率分布。3. 根據(jù)權(quán)利要求2中所述的一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法，其特征在于:所述的單詞w^、單詞分布爐fc、主題 Zl,>主題多項(xiàng)式分布01通過(guò)以下LDA主題模型進(jìn) 行生成，LDA主題模型針對(duì)于主題的單詞分布向量Φ和文檔的主題分布向量Θ分別使用兩個(gè)狄利克雷分布參數(shù)α與β，α和β分別表示文檔在主題上的概率分布和主題在單詞上的概率分布：從狄利克雷分布α中取樣生成文檔i的主題多項(xiàng)式分布Θ,，從主題多項(xiàng)式分布Θ,中取樣生成文檔i第j個(gè)詞的主題從狄利克雷分布β中取樣生成主題的單詞多項(xiàng)式分布從單詞多項(xiàng)式分布內(nèi)y中取樣生成單詞各個(gè)主題ZU的單詞多項(xiàng)式分布?合并形成主題k的單詞分布爐fc。4. 根據(jù)權(quán)利要求2中所述的一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法，其特征在于:所述步驟2.2)中短語(yǔ)C1>g的概率因子f(C 1>g)采用以下公式計(jì)算處理，以減少第i個(gè) 文檔的第g個(gè)短語(yǔ)& "的可能狀杰的教量，其中，z1>g,s表示第i個(gè)文檔的第g個(gè)短語(yǔ)中的第s個(gè)單詞的主題，s表示C1>g中包含單詞的數(shù)量。5. 根據(jù)權(quán)利要求2中所述的一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法，其特征在于:所述步驟2.3)中的公式采用以下公式計(jì)算：其中，P(w1>gd|k)在參數(shù)估計(jì)中單詞Wl,g,j在主題k下的貝葉斯概率，即表示公式中的連乘項(xiàng)，VarianceSqrt是對(duì)短語(yǔ)中的單詞Wi,g,j的貝葉斯概率p(wi,g,j |k)的標(biāo)準(zhǔn)差計(jì)算。6. 根據(jù)權(quán)利要求1所述的一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法，其特征在于:所述步驟3)具體是： 3.1) 利用步驟1)的結(jié)果對(duì)被測(cè)文檔進(jìn)行分詞處理，得到短語(yǔ)或單詞， 3.2) 根據(jù)在步驟2)中得到的主題在單詞上的概率分布得到單詞屬于某一主題的概率，根據(jù)句子和單詞的關(guān)系計(jì)算得出句子屬于該主題的概率，作為該主題下句子的主題權(quán)重； 3.3) 采用SumBasic自動(dòng)文摘算法以單詞出現(xiàn)的頻率作為依據(jù)計(jì)算獲得句子的詞頻權(quán) 重； 3.4) 對(duì)主題權(quán)重和詞頻權(quán)重進(jìn)行加權(quán)計(jì)算得到句子的最終權(quán)重，依次選擇最終權(quán)重最大的句子作為自動(dòng)文摘的生成內(nèi)容，直至短文文摘長(zhǎng)度達(dá)到要求。7. 根據(jù)權(quán)利要求1或6中所述的基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成算法，其特征在于:所述的句子的主題權(quán)重具體是在經(jīng)過(guò)分詞處理后，利用步驟2)得到的單詞在主題的概率分布采用以下公式計(jì)算：其中，G為句子sentence的短語(yǔ)個(gè)數(shù)，L(gi)為gi的大小，p(gi,j)為短語(yǔ)gi的第j個(gè)單詞在主題k下的概率，TopicWeight( sentence | k)表示主題k的主題權(quán)重，sentence | k表示主題k 下的句子。8. 根據(jù)權(quán)利要求1或6中所述的基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成算法，其特征在于:所述的詞頻權(quán)重具體采用以下方式計(jì)算：統(tǒng)計(jì)被測(cè)文檔獲得被測(cè)文檔中每個(gè)單詞的頻率，利用每個(gè)單詞的頻率使用以下公式計(jì) 算獲得句子的詞頻權(quán)重： Frequencyffeight(sentence) =Max{p(wi)} 其中，Max {p(wi)}表示取句子中單詞頻率最大的作為句子的詞頻權(quán)重，p(wi)表示句子中單詞出現(xiàn)的頻率，sentence表示被測(cè)文檔中的句子。9. 根據(jù)權(quán)利要求1或6中所述的基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成算法，其特征在于:所述句子的最終權(quán)重具體使用以下公式計(jì)算： Weight(sentence|k)=ATopicWeight(sentence|k)+(l_AFrequencyWeight (sentence) 其中，λ是控制主題權(quán)重和詞頻權(quán)重的影響因子。
【文檔編號(hào)】G06F17/27GK105868178SQ201610183423
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2016年3月28日
【發(fā)明人】魯偉明, 莊越挺, 張占江
【申請(qǐng)人】浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：魯偉明;莊越挺;張占江;
技術(shù)所有人：浙江大學(xué);
我是此專利的發(fā)明人

上一篇：一種智能問(wèn)答方法及裝置的制造方法
上一篇：一種通用公式搜索方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于短語(yǔ)主題建模的多文檔自動(dòng)摘要生成方法