两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文檔集摘要獲取方法及裝置的制作方法

文檔序號(hào):6471623閱讀:241來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):文檔集摘要獲取方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)言文字處理領(lǐng)域以及信息檢索技術(shù)領(lǐng)域,尤其涉及一種文檔集摘要
獲取方法及裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的快速推廣和應(yīng)用,文檔集摘要的獲取技術(shù)已經(jīng)被廣泛的應(yīng)用于
文本/網(wǎng)站內(nèi)容的檢索領(lǐng)域。文檔集摘要獲取技術(shù)是指由計(jì)算機(jī)系統(tǒng)自動(dòng)從一個(gè)包含多
篇文檔的文檔集中,獲取反映該文檔集中文檔內(nèi)容要點(diǎn)的信息。該技術(shù)可以為用戶提供文
檔集簡(jiǎn)明扼要的內(nèi)容描述,為用戶查閱大量文檔內(nèi)容提供了便禾U。例如,某互聯(lián)網(wǎng)門(mén)戶網(wǎng)站
所提供的新聞服務(wù)的基本實(shí)現(xiàn)原理為首先收集網(wǎng)絡(luò)上的各種新聞信息,并按照主題和文檔
類(lèi)型,對(duì)收集到的新聞信息進(jìn)行歸類(lèi),形成多個(gè)文檔集,使用上述文檔集摘要的獲取技術(shù)獲
取每個(gè)文檔集的摘要,以便于用戶能夠快捷方便的瀏覽感興趣的新聞。 現(xiàn)有的文檔集摘要獲取方法主要分為兩類(lèi)基于句子抽取(Extraction)的文檔
集摘要獲取方法和基于句子生成(Abstraction)的文檔集摘要獲取方法。其中,基于句子
抽取的文檔集摘要獲取方法的實(shí)現(xiàn)原理為對(duì)文檔集中的每篇文檔,按句進(jìn)行分割,根據(jù)預(yù)
定的句子權(quán)重值衡量指標(biāo),例如句子位置、詞語(yǔ)類(lèi)簇、主題簽名、關(guān)鍵詞頻率/倒序索引頻
率(TF/IDF)等,確定分割得到的每個(gè)句子在文檔集中的重要性權(quán)重值,選擇重要性權(quán)重值
最大的至少一個(gè)句子形成所述文檔集的摘要?;诰渥由傻奈臋n集摘要獲取方法的實(shí)現(xiàn)
原理為根據(jù)自然語(yǔ)言理解技術(shù),對(duì)文檔集中的每個(gè)句子進(jìn)行語(yǔ)法和語(yǔ)義分析,并使用信息
抽取或自然語(yǔ)言生成技術(shù)產(chǎn)生新的句子,從而獲得所述文檔集的摘要。從以上的描述可以
看出,基于句子抽取的文檔集摘要獲取方法所獲取的文檔集的摘要,是由文檔集中文檔所
包含的已有句子組成的,不需要借助復(fù)雜的深層自然語(yǔ)言理解技術(shù)對(duì)文檔集中所包含內(nèi)容
信息進(jìn)行分析,因此基于句子抽取的文檔集摘要獲取方法與基于句子生成的文檔集摘要獲
取方法相比,實(shí)現(xiàn)較為簡(jiǎn)單。 現(xiàn)有的基于句子抽取的文檔集摘要獲取方法在確定文檔集中每個(gè)句子的重要性 權(quán)重值時(shí),除上述介紹的基于預(yù)定的句子權(quán)重值衡量指標(biāo)的方式之外,也可以使用基于圖 模型的方法。例如,文章Summarizing Similarities andDifferences Among Related Documents (作者是I. Mani and E. Bloedorn,發(fā)表于2000年出版的期干lj Information Retrieval)公開(kāi)了一種名為WebSumm的方法,WebSumm方法利用圖連接模型,其中圖連接模 型中的頂點(diǎn)分別代表文檔集中的每個(gè)句子,假設(shè)與其它頂點(diǎn)連接越多的頂點(diǎn)所代表的句子 的重要性越高,以此來(lái)對(duì)確定文檔集中的句子的重要性權(quán)重值,從而獲得文檔集的摘要。
在上述介紹的基于圖模型確定文檔集中每個(gè)句子的重要性權(quán)重值的方法中,只 考慮了文檔集中句子之間的關(guān)系,沒(méi)有考慮句子與文檔的關(guān)系對(duì)句子的重要性的影響,即 假定文檔集中所有文檔的重要性都是相等的,然而通常文檔集中不同文檔的重要性是不同 的,現(xiàn)有的基于圖模型的文檔集摘要獲取方法并不能反映文檔集中不同文檔的重要性差異 對(duì)獲取文檔集摘要結(jié)果的影響,因此文檔集摘要的獲取效果不佳。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種文檔集摘要獲取方法及裝置,用以解決現(xiàn)有基于圖模型獲 取文檔集摘要的方式文檔集摘要獲取效果不佳的問(wèn)題。
本發(fā)明實(shí)施例提供的技術(shù)方案如下
—種文檔集摘要獲取方法,包括 提取文檔集中各個(gè)文檔中包含的各個(gè)句子,組成句子集合; 基于文檔集中的文檔和句子集合中的句子之間的文本相似度,確定句子集合中各 個(gè)句子的重要性權(quán)重值; 根據(jù)確定的重要性權(quán)重值,按照重要性權(quán)重值由高至低的選擇順序,選擇規(guī)定數(shù)
目的句子組成文檔集摘要。 —種文檔集摘要獲取裝置,包括 句子集合提取單元,用于提取文檔集中各個(gè)文檔中包含的各個(gè)句子,組成句子集 合. 句子重要性權(quán)重值確定單元,用于基于文檔集中的文檔和句子集合中的句子之間 的文本相似度,確定句子集合中各個(gè)句子的重要性權(quán)重值; 摘要確定單元,用于根據(jù)句子重要性權(quán)重值確定單元確定的重要性權(quán)重值,按照
重要性權(quán)重值由高至低的選擇順序,選擇規(guī)定數(shù)目的句子組成文檔集摘要。 本發(fā)明實(shí)施例提出的多文檔摘要獲取方法,利用了文檔集中句子和文檔之間的關(guān)
系,考慮了文檔集中不同文檔重要性的差異對(duì)句子重要性權(quán)重值的影響,因此能夠更準(zhǔn)確
的確定文檔集中句子的重要性權(quán)重值,并選擇重要性權(quán)重值高的句子組成文檔集摘要,因
此能夠獲得更佳的文檔集摘要獲取效果。


圖1為本發(fā)明實(shí)施例的主要實(shí)現(xiàn)原理流程圖; 圖2為本發(fā)明實(shí)施例中文檔集二部圖的示意圖; 圖3為本發(fā)明實(shí)施例提供的文檔集摘要獲取裝置的結(jié)構(gòu)示意圖; 圖4為本發(fā)明實(shí)施例中句子重要性權(quán)重值確定單元的結(jié)構(gòu)示意圖; 圖5為本發(fā)明實(shí)施例中句子重要性權(quán)重值確定子單元的結(jié)構(gòu)示意圖; 圖6為本發(fā)明實(shí)施例中摘要確定單元的結(jié)構(gòu)示意圖; 圖7為本發(fā)明實(shí)施例中重要性權(quán)重值調(diào)整子單元的結(jié)構(gòu)示意圖。
具體實(shí)施例方式
由于現(xiàn)有的基于圖模型的文檔集摘要獲取方法并不能反映句子所在文檔的重要 性對(duì)句子重要性權(quán)重值的影響,因此文檔集摘要的獲取效果不佳。本發(fā)明實(shí)施例通過(guò)在建 立圖模型時(shí),構(gòu)建包含句子與文檔關(guān)系信息的二部圖模型,解決了上述問(wèn)題,提供了更佳的 文檔集摘要獲取方案。 下面結(jié)合各個(gè)附圖對(duì)本發(fā)明實(shí)施例技術(shù)方案的主要實(shí)現(xiàn)原理具體實(shí)施方式
及其 對(duì)應(yīng)能夠達(dá)到的有益效果進(jìn)行詳細(xì)的闡述。
如圖1所示,本發(fā)明實(shí)施例的主要實(shí)現(xiàn)原理流程如下 步驟IO,構(gòu)建包含句子和文檔之間的關(guān)系信息的文檔集二部圖模型; 步驟20,確定步驟10所構(gòu)建的文檔集二部圖模型中的句子集合中的每個(gè)句子的
重要性權(quán)重值; 步驟30,選擇重要性權(quán)重值高的句子組成文檔集摘要。 在步驟30中,根據(jù)步驟10所構(gòu)建的文檔集二部圖模型的句子集合中的句子之間 的相似度值,對(duì)步驟20得到的每個(gè)句子的重要性權(quán)重值進(jìn)行調(diào)整,在內(nèi)容相似的句子中, 只保留其中一個(gè)句子的重要性權(quán)重值不變,降低其它句子的重要性權(quán)重值,這樣可以保證 組成文檔集摘要的句子之間冗余度低。 下面將依據(jù)本發(fā)明上述發(fā)明原理,詳細(xì)介紹一個(gè)實(shí)施例來(lái)對(duì)本發(fā)明方法的主要實(shí) 現(xiàn)原理進(jìn)行詳細(xì)的闡述和說(shuō)明。 第一步,構(gòu)建文檔集的二部圖模型,該模型中包含句子和文檔之間的關(guān)系信息,具 體過(guò)程如下 用D = {dj| 1《j《m}代表文檔集,其中dj表示文檔集中的第j個(gè)文檔,m為自 然數(shù),表示文檔集中文檔的數(shù)量。 對(duì)文檔集中的每個(gè)文檔都進(jìn)行分句處理,得到組成文檔集中的所有文檔的句子集 合S = {Si I 1《i《n},其中,Si表示句子集合S中的第i個(gè)句子,n為自然數(shù),表示句子集 合中句子的數(shù)量。 將句子集合和文檔集作為二部圖模型的兩個(gè)頂點(diǎn)集合,請(qǐng)參照附圖2,在二部圖 模型中代表任一句子和代表任一文檔的兩個(gè)頂點(diǎn)之間添加一條邊,得到邊的集合^。= {eij I Si G S, dj G D},其中eij表示連接代表第i個(gè)句子的頂點(diǎn)和代表第j個(gè)文檔的頂點(diǎn)的 邊。邊&具有相似度值Wij,該相似度值用于描述句子Si和文檔dj的文本相似程度,通常 可通過(guò)文本信息處理領(lǐng)域常用的余弦公式(Cosine)來(lái)確定。描述該二部圖模型所有句子 集合和文檔集對(duì)應(yīng)的頂點(diǎn)之間關(guān)系的鄰接矩陣為L(zhǎng) = (Wij)nXm。
經(jīng)上述處理得到的二部圖模型可表示為G = 〈S, D, ESD>。 第二步,根據(jù)第一步所獲取的二部圖模型,確定句子集合中的每個(gè)句子的重要性 權(quán)重值,具體過(guò)程如下 假設(shè)句子集合中任一句子的重要性權(quán)重值初始時(shí)均相同,并假定文檔集中任一 文檔的重要性權(quán)重值初始時(shí)也相同,例如在本實(shí)施例中句子集合中每個(gè)句子的重要性權(quán) 重值初始時(shí)為1,即AuthScore(w(Si) = 1,文檔集中每個(gè)文檔的重要性權(quán)重值初始為l,即 HUbSCOre(°)(dj) = l,其中上標(biāo)表示迭代計(jì)算輪數(shù); 根據(jù)以下迭代計(jì)算公式,確定每輪迭代后句子集合中的每個(gè)句子和文檔集中的 每個(gè)文檔的重要性權(quán)重值,直到句子集合中的每個(gè)句子和文檔集中的每個(gè)文檔的重要性 權(quán)重值分別與上輪迭代后獲得的重要性權(quán)重值相等為止,即直到AuthSCOre(t+1)(Si)= AuthScore(t) (s》,并且HubScore(t+1) (dj) = HubScore") (dj)為止,顛/ S騰('+" = Sx爆S騰(')(《),
7
<formula>formula see original document page 8</formula>
其中,t為自然數(shù),AuthScore(t+D (s》和HubScore(t+1) (d》分別表示句子Si和文檔 dj在第t+1輪迭代運(yùn)算后的重要性權(quán)重值,AuthScore(t) (Si)和HubScore") (dj)分別表示句 子Si和文檔dj在上一輪,即第t輪迭代運(yùn)算后的重要性權(quán)重值。
用矩陣形式表示上述迭代計(jì)算公式,具體為
A(t+1) = LH(t),
H(t+1) = LTA(t), 其中,A = [AuthScore (s》]nX1和H = [HubScore (dj) ]mX1分別表示句子重要性權(quán) 重值向量和文檔重要性權(quán)重值向量。 對(duì)通過(guò)上述步驟得到的每輪迭代運(yùn)算得到的句子重要性權(quán)重值向量和文檔重要 性權(quán)重值向量進(jìn)行規(guī)范化處理,以使句子集合中所有句子的重要性權(quán)重值之和為l,文檔集 中所有文檔的重要性權(quán)重值之和為l,即
A(t+1) = A(t+1)/ II A(t+1) II "
<formula>formula see original document page 8</formula>H(t+1) II工分別表示向量A(t+1)和H(t+1)中所有元素的重要性權(quán) H、
其中,
重值之和。 上述迭代運(yùn)算的基本思想是將句子集合中的句子和文檔集中的文檔之間的關(guān)系
看作類(lèi)似于網(wǎng)絡(luò)信息檢索領(lǐng)域中網(wǎng)頁(yè)之間的Authority-Hub關(guān)系,并利用HITS迭代算法進(jìn)
行求解,HITS迭代算法基于如下兩個(gè)假設(shè) A、一個(gè)重要文檔通常與較多重要句子相關(guān)聯(lián); B、一個(gè)重要句子通常與較多重要文檔相關(guān)聯(lián)。 第三步,根據(jù)各個(gè)句子之間的文本相似度值,對(duì)第二步得到的句子集合中所有句 子的重要性權(quán)重值進(jìn)行調(diào)整,選取重要性權(quán)重值高并且文本冗余性低的句子組成文檔集摘 要。具體的實(shí)現(xiàn)方法可以有多種,在本實(shí)施例中的具體實(shí)現(xiàn)過(guò)程如下 (1)獲取句子關(guān)系矩陣M = (Mij)nxn,并對(duì)該矩陣進(jìn)行規(guī)范化得到矩陣^ ,其中My 表示句子集S中任意兩個(gè)句子Si和Sj之間的文本相似度值,與上述第一步中確定句子Si 和文檔dj的相似度值Wij的方法相類(lèi)似,可以通過(guò)余弦公式來(lái)確定,此后對(duì)M進(jìn)行如下規(guī)范
化,以使每一行之和為l,即句子集合中的任意句子Si與句子集合中的其它句子的相似度值
之和為l,得到矩陣W,
<formula>formula see original document page 8</formula> (2)初始化兩個(gè)集合A二小(空集),B二 {Si|i = 1,2,...nh每個(gè)句子的最終重 要性權(quán)重值RankScore (Si)的初始值為上述第二步中獲得的重要性權(quán)重值A(chǔ)uthScore (Si), 艮卩RankScore (s》=AuthScore (s》; (3)對(duì)集合B中的元素按照最終重要性權(quán)重值進(jìn)行降序排列;
(4)假設(shè)Si是步驟(3)中所獲得的序列中排序最靠前的句子,即序列中的第一個(gè) 句子,將Si從集合B轉(zhuǎn)移到集合A,并對(duì)集合B中的剩余句子,即Sj(j # i)按照如下規(guī)則 進(jìn)行冗余懲罰_/ flw^Score(~) = i 朋^S"core(^)-歡iW力x ^獻(xiàn)core"), 其中,">0,"是懲罰程度因子,"越大表明冗余懲罰越強(qiáng),在本實(shí)施例中,設(shè) "=10 ;^為(1)中獲得的規(guī)范化后的句子關(guān)系矩陣;
(5)循環(huán)執(zhí)行步驟(3)和(4),直到B =小為止; (6)從集合A中選擇句子重要性權(quán)重值最大的n個(gè)句子組成摘要,其中n為自然數(shù)。 本發(fā)明實(shí)施例提出的多文檔摘要獲取方法,利用了文檔集中句子和文檔之間的關(guān) 系,考慮了文檔集中不同文檔重要性的差異對(duì)句子重要性權(quán)重值的影響,因此與現(xiàn)有技術(shù) 在確定句子重要性權(quán)重值時(shí),僅考慮句子之間關(guān)系的技術(shù)方案相比,能夠更準(zhǔn)確的確定文 檔集句子集合中句子的重要性權(quán)重值,并選擇重要性權(quán)重值高的句子組成文檔集摘要,因 此能夠獲得更佳的文檔集摘要獲取效果。 為了驗(yàn)證本發(fā)明實(shí)施例提出的方法的有效性,采用文檔理解會(huì)議(DUC, Document Understanding Conference)的評(píng)測(cè)數(shù)據(jù)和任務(wù)對(duì)本發(fā)明提出的方法進(jìn)行如下測(cè)試。選擇 包含30個(gè)文檔集的DUC2001和包含59個(gè)文檔集的DUC2002數(shù)據(jù),要求不同的摘要獲取方 法得到的文檔集摘要在100字以?xún)?nèi),并將獲取的文檔集摘要與人工獲取的文檔集摘要進(jìn)行 對(duì)比,來(lái)評(píng)價(jià)摘要獲取方法的效果。通常使用ROUGE評(píng)測(cè)系統(tǒng)來(lái)衡量摘要獲取方法的有效 性,包括三個(gè)評(píng)價(jià)指標(biāo)R0UGE-l、R0UGE-2和R0UGE-W,上述三個(gè)指標(biāo)的數(shù)值越大說(shuō)明摘要獲 取方法的效果越好。本發(fā)明提出的方法和現(xiàn)有的基于句子之間關(guān)系的圖模型方法的評(píng)測(cè)結(jié) 果如表1和表2所示。 表1 :在DUC2001評(píng)測(cè)數(shù)據(jù)上的摘要獲取結(jié)果
系統(tǒng)ROUGE-1R0UGE-2R0UGE-W
本發(fā)明提出的方法0.377440.069660.11252
現(xiàn)有方法0.354740.057330.10667 表2 :在DUC2002評(píng)測(cè)數(shù)據(jù)上的摘要獲取結(jié)果
系統(tǒng)ROUGE-1R0UGE-2R0UGE-W
本發(fā)明提出的方法0.385690.085190.12500
現(xiàn)有方法0.375100.079730.12198 相應(yīng)地,本發(fā)明實(shí)施例還提供了一種文檔集摘要獲取裝置,請(qǐng)參照附圖3,該裝置 包括句子集合提取單元310、句子重要性權(quán)重值確定單元320和摘要確定單元330,其中,
9
句子集合提取單元310,用于提取文檔集中各個(gè)文檔中包含的各個(gè)句子,組成句子 集合,在具體實(shí)施時(shí),可以對(duì)文檔集中的文檔進(jìn)行分句處理,來(lái)提取文檔集各個(gè)文檔中包含 的各個(gè)句子; 句子重要性權(quán)重值確定單元320,用于基于文檔集中的文檔和句子集合中的句子 之間的文本相似度,確定句子集合中各個(gè)句子的重要性權(quán)重值; 摘要確定單元330,用于根據(jù)句子重要性權(quán)重值確定單元320確定的重要性權(quán)重 值,按照重要性權(quán)重值由高至低的選擇順序,選擇規(guī)定數(shù)目的句子組成文檔集摘要。
請(qǐng)參照附圖4,句子重要性權(quán)重值確定單元包括文本相似度確定子單元410和句 子重要性權(quán)重值確定子單元420,其中, 文本相似度確定子單元410,用于確定文檔集中各個(gè)文檔和句子集合中各個(gè)句子 之間的文本相似度,在具體實(shí)現(xiàn)時(shí),使用余弦公式來(lái)確定文檔集中各個(gè)文檔和句子集合中 各個(gè)句子之間的文本相似度; 句子重要性權(quán)重值確定子單元420,用于根據(jù)文本相似度確定子單元410確定出 的文本相似度,通過(guò)迭代運(yùn)算方式,確定句子集合中各個(gè)句子的重要性權(quán)重值。
請(qǐng)參照附圖5,句子重要性權(quán)重值確定子單元包括迭代運(yùn)算子單元510、迭代運(yùn)算 結(jié)束判定子單元520和句子重要性權(quán)重值確定子單元530,其中, 迭代運(yùn)算子單元510,用于按照下述計(jì)算方式,確定每次迭代獲得的句子重要性權(quán) 重值 ^M,Mcore('+1) ) = J] wy x /^6&we(')(《)
力eD 扁S函('+"(《)=x ^船騰(')) 其中,t為自然數(shù),t+l表示本次迭代運(yùn)算,t表示上次迭代運(yùn)算; AuthSCOre(t+1) (s》表示在本次迭代運(yùn)算中,句子集合中第i個(gè)句子Si的重要性權(quán)
重值; HubSCOre(t+1) (d》表示在本次迭代運(yùn)算中,文檔集中第j個(gè)文檔dj的重要性權(quán)重 值; AuthScore(t) (s》表示在上次迭代運(yùn)算中,句子集合中第i個(gè)句子Si的重要性權(quán)重 值; HubScore(t) (d》表示在上次迭代運(yùn)算中,分文檔集中第j個(gè)文檔dj的重要性權(quán)重 值; Wij表示句子集合中第i個(gè)句子Si和文檔集中第j個(gè)文檔dj的文本相似程度;
迭代運(yùn)算結(jié)束判定子單元520,用于在確定出迭代運(yùn)算子單元510當(dāng)前次迭代運(yùn) 算后,句子集合中各個(gè)句子的重要性權(quán)重值和文檔集中各個(gè)文檔的重要性權(quán)重值,分別與 上次迭代運(yùn)算后,句子集合中各個(gè)句子的重要性權(quán)重值和文檔集中各個(gè)文檔的重要性權(quán)重 值相等時(shí),終止迭代運(yùn)算子單元510進(jìn)行迭代運(yùn)算處理; 句子重要性權(quán)重值確定子單元530,用于在迭代運(yùn)算結(jié)束判定子單元520終止迭 代運(yùn)算子單元510進(jìn)行的迭代運(yùn)算處理時(shí),將迭代運(yùn)算子單元510最后一次迭代運(yùn)算后得 到的句子集合中各個(gè)句子的重要性權(quán)重值,作為求取到的句子集合中各個(gè)句子的重要性權(quán)重值。 請(qǐng)參照附圖6,摘要確定單元包括重要性權(quán)重值調(diào)整子單元610、文檔集摘要獲取 子單元620,其中, 重要性權(quán)重值調(diào)整子單元610,用于根據(jù)各個(gè)句子之間的文本相似度值,調(diào)整各個(gè) 句子的重要性權(quán)重值; 文檔集摘要獲取子單元620,用于按照重要性權(quán)重值調(diào)整子單元610調(diào)整后的重 要性權(quán)重值由高至低的選擇順序,選擇規(guī)定數(shù)目的句子組成文檔集摘要。
請(qǐng)參照附圖7,重要性權(quán)重值調(diào)整子單元包括排序模塊710、句子重復(fù)選擇模塊 720和重要性權(quán)重值確定模塊730,其中, 排序模塊710,用于按照重要性權(quán)重值由高到低的順序,對(duì)句子集合中的各個(gè)句子 進(jìn)行排序,得到句子序列; 句子重復(fù)選擇模塊720,用于在排序模塊710得到的句子序列中,重復(fù)執(zhí)行以下處 理,直到句子序列中的所有句子都被選擇出為止 選擇出重要性權(quán)重值最高的句子,針對(duì)序列中剩余句子中的每個(gè)句子,分別將該 句子的重要性權(quán)重值調(diào)整為該句子的重要性權(quán)重值與懲罰值的差值,所述懲罰值為懲罰因 子、該句子與所選擇出的句子的文本相似度值和該句子的重要性權(quán)重值三者的乘積,其中 所述懲罰因子大于O; 重要性權(quán)重值確定模塊730,用于將句子重復(fù)選擇模塊720選擇出的所有句子的 重要性權(quán)重值作為調(diào)整后的所有句子的重要性權(quán)重值。 顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍 之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
一種文檔集摘要獲取方法,其特征在于,包括提取文檔集中各個(gè)文檔中包含的各個(gè)句子,組成句子集合;基于文檔集中的文檔和句子集合中的句子之間的文本相似度,確定句子集合中各個(gè)句子的重要性權(quán)重值;根據(jù)確定的重要性權(quán)重值,按照重要性權(quán)重值由高至低的選擇順序,選擇規(guī)定數(shù)目的句子組成文檔集摘要。
2. 如權(quán)利要求1所述的方法,其特征在于,基于文檔集中的各個(gè)文檔和句子集合中的 句子之間的文本相似度,確定句子集合中各個(gè)句子的重要性權(quán)重值,具體包括確定文檔集中的文檔和句子集合中的句子之間的文本相似度;并根據(jù)文檔集中的文檔和句子集合中各個(gè)句子之間的文本相似度,通過(guò)迭代運(yùn)算方式, 確定句子集合中各個(gè)句子的重要性權(quán)重值。
3. 如權(quán)利要求2所述的方法,其特征在于,基于迭代運(yùn)算方式,確定句子集合中各個(gè)句 子的重要性權(quán)重值,具體計(jì)算過(guò)程如下<formula>formula see original document page 2</formula>其中,t為自然數(shù),t+l表示本次迭代運(yùn)算,t表示上次迭代運(yùn)算;AuthSC0re(t+1)(Si)表示在本次迭代運(yùn)算中,句子集合中第i個(gè)句子Si的重要性權(quán)重值;HubSC0re(t+1) (dj)表示在本次迭代運(yùn)算中,文檔集中第j個(gè)文檔dj的重要性權(quán)重值; AuthScore(t) (Si)表示在上次迭代運(yùn)算中,句子集合中第i個(gè)句子Si的重要性權(quán)重值; HubScore(t) (dj)表示在上次迭代運(yùn)算中,分文檔集中第j個(gè)文檔dj的重要性權(quán)重值;表示句子集合中第i個(gè)句子Si和文檔集中第j個(gè)文檔dj的文本相似程度; 重復(fù)上述每次迭代運(yùn)算過(guò)程,直到當(dāng)前次迭代運(yùn)算后,句子集合中各個(gè)句子的重要性權(quán)重值和文檔集中各個(gè)文檔的重要性權(quán)重值,分別與上次迭代運(yùn)算后,句子集合中各個(gè)句子的重要性權(quán)重值和文檔集中各個(gè)文檔的重要性權(quán)重值相等終止;在迭代運(yùn)算終止后,將最后一次迭代運(yùn)算后,句子集合中各個(gè)句子的重要性權(quán)重值作為求取到的句子集合中各個(gè)句子的重要性權(quán)重值。
4. 如權(quán)利要求1所述的方法,其特征在于,根據(jù)確定的各個(gè)句子的重要性權(quán)重值,按照 重要性權(quán)重值由高至低的選擇順序,選擇規(guī)定數(shù)目的句子組成文檔集摘要,具體包括根據(jù)各個(gè)句子之間的文本相似度值,調(diào)整各個(gè)句子的重要性權(quán)重值; 按照上述調(diào)整后的重要性權(quán)重值由高至低的選擇順序,選擇規(guī)定數(shù)目的句子組成文檔 集摘要。
5. 如權(quán)利要求4所述的方法,其特征在于,所述在句子序列中,根據(jù)各個(gè)句子之間的文 本相似度值,調(diào)整各個(gè)句子的重要性權(quán)重值,具體包括按照重要性權(quán)重值由高到低的順序,對(duì)句子集合中的各個(gè)句子進(jìn)行排序,得到句子序列;在句子序列中,重復(fù)執(zhí)行以下處理,直到句子序列中的所有句子都被選擇出為止選擇出重要性權(quán)重值最高的句子,針對(duì)序列中剩余句子中的每個(gè)句子,分別將該句子 的重要性權(quán)重值調(diào)整為該句子的重要性權(quán)重值與懲罰值的差值,所述懲罰值為懲罰因子、 該句子與所選擇出的句子的文本相似度值和該句子的重要性權(quán)重值三者的乘積,其中所述 懲罰因子大于0 ;將選擇出的所有句子的重要性權(quán)重值作為調(diào)整后的所有句子的重要性權(quán)重值。
6. 如權(quán)利要求5所述的方法,其特征在于,所述懲罰因子為10。
7. —種文檔集摘要獲取裝置,其特征在于,包括句子集合提取單元,用于提取文檔集中各個(gè)文檔中包含的各個(gè)句子,組成句子集合; 句子重要性權(quán)重值確定單元,用于基于文檔集中的文檔和句子集合中的句子之間的文本相似度,確定句子集合中各個(gè)句子的重要性權(quán)重值;摘要確定單元,用于根據(jù)句子重要性權(quán)重值確定單元確定的重要性權(quán)重值,按照重要性權(quán)重值由高至低的選擇順序,選擇規(guī)定數(shù)目的句子組成文檔集摘要。
8. 如權(quán)利要求7所述的裝置,其特征在于,所述句子重要性權(quán)重值確定單元具體包括 文本相似度確定子單元,用于確定文檔集中各個(gè)文檔和句子集合中各個(gè)句子之間的文本相似度;句子重要性權(quán)重值確定子單元,用于根據(jù)文本相似度確定子單元確定出的文本相似 度,通過(guò)迭代運(yùn)算方式,確定句子集合中各個(gè)句子的重要性權(quán)重值。
9. 如權(quán)利要求8所述的裝置,其特征在于,所述句子重要性權(quán)重值確定子單元具體包括迭代運(yùn)算子單元,用于按照下述計(jì)算方式,確定每次迭代獲得的句子重要性權(quán)重值<formula>formula see original document page 3</formula>力eD<formula>formula see original document page 3</formula>其中,t為自然數(shù),t+l表示本次迭代運(yùn)算,t表示上次迭代運(yùn)算;AuthSC0re(t+1)(Si)表示在本次迭代運(yùn)算中,句子集合中第i個(gè)句子Si的重要性權(quán)重值;HubSC0re(t+1) (dj)表示在本次迭代運(yùn)算中,文檔集中第j個(gè)文檔dj的重要性權(quán)重值; AuthScore(t) (Si)表示在上次迭代運(yùn)算中,句子集合中第i個(gè)句子Si的重要性權(quán)重值; HubScore(t) (dj)表示在上次迭代運(yùn)算中,分文檔集中第j個(gè)文檔dj的重要性權(quán)重值;表示句子集合中第i個(gè)句子Si和文檔集中第j個(gè)文檔dj的文本相似程度; 迭代運(yùn)算結(jié)束判定子單元,用于在確定出迭代運(yùn)算子單元當(dāng)前次迭代運(yùn)算后,句子集 合中各個(gè)句子的重要性權(quán)重值和文檔集中各個(gè)文檔的重要性權(quán)重值,分別與上次迭代運(yùn)算 后,句子集合中各個(gè)句子的重要性權(quán)重值和文檔集中各個(gè)文檔的重要性權(quán)重值相等時(shí),終 止迭代運(yùn)算子單元進(jìn)行迭代運(yùn)算處理;句子重要性權(quán)重值確定子單元,用于在迭代運(yùn)算結(jié)束判定子單元終止迭代運(yùn)算子單元 進(jìn)行的迭代運(yùn)算處理時(shí),將迭代運(yùn)算子單元最后一次迭代運(yùn)算后得到的句子集合中各個(gè)句 子的重要性權(quán)重值,作為求取到的句子集合中各個(gè)句子的重要性權(quán)重值。
10. 如權(quán)利要求7所述的裝置,其特征在于,所述摘要確定單元具體包括重要性權(quán)重值調(diào)整子單元,用于根據(jù)各個(gè)句子之間的文本相似度值,調(diào)整各個(gè)句子的 重要性權(quán)重值;文檔集摘要獲取子單元,用于按照重要性權(quán)重值調(diào)整子單元調(diào)整后的重要性權(quán)重值由高至低的選擇順序,選擇規(guī)定數(shù)目的句子組成文檔集摘要。
11.如權(quán)利要求10所述的裝置,其特征在于,所述重要性權(quán)重值調(diào)整子單元具體包括 排序模塊,用于按照重要性權(quán)重值由高到低的順序,對(duì)句子集合中的各個(gè)句子進(jìn)行排序,得到句子序列;句子重復(fù)選擇模塊,用于在排序模塊得到的句子序列中,重復(fù)執(zhí)行以下處理,直到句子 序列中的所有句子都被選擇出為止選擇出重要性權(quán)重值最高的句子,針對(duì)序列中剩余句子中的每個(gè)句子,分別將該句子 的重要性權(quán)重值調(diào)整為該句子的重要性權(quán)重值與懲罰值的差值,所述懲罰值為懲罰因子、 該句子與所選擇出的句子的文本相似度值和該句子的重要性權(quán)重值三者的乘積,其中所述 懲罰因子大于0;重要性權(quán)重值確定模塊,用于將句子重復(fù)選擇模塊選擇出的所有句子的重要性權(quán)重值 作為調(diào)整后的所有句子的重要性權(quán)重值。
全文摘要
本發(fā)明公開(kāi)了一種文檔集摘要獲取方法及裝置,以改善文檔集摘要的獲取效果。該方法提取文檔集中各個(gè)文檔中包含的各個(gè)句子,組成句子集合;基于文檔集中的文檔和句子集合中的句子之間的文本相似度,確定句子集合中各個(gè)句子的重要性權(quán)重值;根據(jù)確定的重要性權(quán)重值,按照重要性權(quán)重值由高至低的選擇順序,選擇規(guī)定數(shù)目的句子組成文檔集摘要。
文檔編號(hào)G06F17/30GK101751425SQ20081023934
公開(kāi)日2010年6月23日 申請(qǐng)日期2008年12月10日 優(yōu)先權(quán)日2008年12月10日
發(fā)明者萬(wàn)小軍, 楊建武, 肖建國(guó) 申請(qǐng)人:北京大學(xué);北大方正集團(tuán)有限公司;北京方正電子政務(wù)信息科技有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
平罗县| 朝阳区| 颍上县| 武威市| 兖州市| 郓城县| 盐山县| 中卫市| 固安县| 清涧县| 隆化县| 五家渠市| 江北区| 丰镇市| 临桂县| 沁水县| 平和县| 凯里市| 大英县| 茌平县| 诏安县| 金溪县| 柳林县| 高安市| 涿州市| 金门县| 惠州市| 南丹县| 三穗县| 岳池县| 扎兰屯市| 南投县| 安庆市| 武宁县| 霍州市| 特克斯县| 汝城县| 松桃| 贵南县| 沭阳县| 兴文县|