摘要生成方法及裝置的制造方法

文檔序號(hào)：10512159閱讀：199來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

摘要生成方法及裝置的制造方法
【專(zhuān)利摘要】本公開(kāi)實(shí)施例提供了一種摘要生成方法及裝置，所述方法包括以下步驟：將待處理文檔劃分為多個(gè)語(yǔ)句組合，每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè)數(shù)量個(gè)語(yǔ)句；計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值；針對(duì)每個(gè)語(yǔ)句組合，選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句；將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要。本公開(kāi)提供的該方法能夠通過(guò)自動(dòng)根據(jù)文檔內(nèi)容生成摘要，方便用戶快速通過(guò)閱讀文摘獲取所需信息，幫助人們了解文檔概況，并根據(jù)文檔概況確定是否應(yīng)該詳讀原文。
【專(zhuān)利說(shuō)明】
摘要生成方法及裝置
技術(shù)領(lǐng)域
[0001] 本公開(kāi)涉及計(jì)算機(jī)技術(shù)，尤其涉及摘要生成方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的普及、以及信息獲取途徑的增加，每天都有不短涌現(xiàn)的海量信息。所以目前的新聞一般都設(shè)有新聞標(biāo)題，新聞標(biāo)題是在新聞?wù)膬?nèi)容前面，對(duì)新聞內(nèi)容加以概括或評(píng)價(jià)的簡(jiǎn)短文字，作用是劃分、組織、揭示、評(píng)價(jià)新聞內(nèi)容、吸引讀者閱讀。
[0003] 但是由于目前網(wǎng)絡(luò)上新聞數(shù)據(jù)比較多，某些媒體為吸引用戶眼球，以獲取更大的用戶的瀏覽量，某些新聞標(biāo)題可能會(huì)設(shè)置的過(guò)分夸大，而且與文章內(nèi)容無(wú)多大關(guān)聯(lián)，用戶在讀取完這樣的新聞之后可能并沒(méi)有得到需要的信息，浪費(fèi)用戶時(shí)間及精力。

【發(fā)明內(nèi)容】

[0004] 本公開(kāi)提供一種摘要生成方法及裝置，用以解決現(xiàn)有技術(shù)中新聞標(biāo)題與新聞內(nèi)容不符，用戶通過(guò)讀取這樣的新聞可能無(wú)法獲取到所需內(nèi)容的技術(shù)問(wèn)題。
[0005] 根據(jù)本公開(kāi)實(shí)施例的第一方面，提供一種摘要生成方法，包括：
[0006] 將待處理文檔劃分為多個(gè)語(yǔ)句組合，每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè)數(shù)量個(gè)語(yǔ) 句；
[0007] 計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值；
[0008] 針對(duì)每個(gè)語(yǔ)句組合，選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句；
[0009] 將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要。
[0010] 可選地，所述計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值包括：
[0011] 將文檔中的文字分割為多個(gè)詞語(yǔ)；
[0012] 為每個(gè)詞語(yǔ)標(biāo)注詞性；
[0013] 將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ)，以及，位于預(yù)設(shè)黑名單中的詞語(yǔ)刪除；
[0014] 計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度；
[0015] 利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。
[0016] 可選地，所述將待處理文檔劃分為多個(gè)語(yǔ)句組合包括：
[0017] 將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句；
[0018] 針對(duì)每個(gè)語(yǔ)句，按照語(yǔ)句在所述待處理文檔中的排序，選取所述語(yǔ)句以及所述語(yǔ) 句之后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。
[0019] 可選地，所述將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要包括：
[0020] 將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ)句；
[0021 ]將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。
[0022]可選地，所述將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要包括：
[0023]獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的排序；
[0024]按照所述排序生成所述待處理文檔的摘要。
[0025] 根據(jù)本公開(kāi)實(shí)施例的第二方面，提供一種摘要生成裝置，包括：
[0026] 劃分模塊，用于將待處理文檔劃分為多個(gè)語(yǔ)句組合，每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè)數(shù)量個(gè)語(yǔ)句；
[0027] 計(jì)算模塊，用于計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值；
[0028] 選取模塊，用于針對(duì)每個(gè)語(yǔ)句組合，選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句；
[0029] 組合模塊，用于將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要。
[0030] 可選地，所述計(jì)算模塊，包括：
[0031] 分割子模塊，用于將文檔中的文字分割為多個(gè)詞語(yǔ)；
[0032] 標(biāo)注子模塊，用于為每個(gè)詞語(yǔ)標(biāo)注詞性；
[0033]刪除子模塊，用于將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ)，以及，位于預(yù)設(shè)黑名單中的詞語(yǔ)刪除；
[0034] 相似度計(jì)算子模塊，用于計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度；
[0035] 權(quán)重計(jì)算子模塊，用于利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。
[0036]可選地，所述劃分模塊，包括：
[0037] 劃分子模塊，用于將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句；
[0038] 選取子模塊，用于針對(duì)每個(gè)語(yǔ)句，按照語(yǔ)句在所述待處理文檔中的排序，選取所述語(yǔ)句以及所述語(yǔ)句之后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。
[0039]可選地，所述組合模塊，包括：
[0040]第一確定子模塊，用于將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ) 句；
[0041 ]第二確定子模塊，用于將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。
[0042]可選地，所述組合模塊，包括：
[0043]獲取子模塊，用于獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的排序；
[0044] 生成子模塊，用于按照所述排序生成所述待處理文檔的摘要。
[0045] 本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果：
[0046] 本公開(kāi)通過(guò)將待處理文檔劃分為多個(gè)語(yǔ)句組合，每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè) 數(shù)量個(gè)語(yǔ)句;計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值;針對(duì)每個(gè)語(yǔ)句組合，選取所述語(yǔ) 句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句;可以將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要。
[0047] 本公開(kāi)提供的該方法能夠通過(guò)自動(dòng)根據(jù)文檔內(nèi)容生成摘要，方便用戶快速通過(guò)閱讀文摘獲取所需信息，幫助人們了解文檔概況，并根據(jù)文檔概況確定是否應(yīng)該詳讀原文。
[0048] 應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的，并不能限制本公開(kāi)。
【附圖說(shuō)明】
[0049] 此處的附圖被并入說(shuō)明書(shū)中并構(gòu)成本說(shuō)明書(shū)的一部分，示出了符合本發(fā)明的實(shí)施例，并與說(shuō)明書(shū)一起用于解釋本發(fā)明的原理。
[0050] 圖1是根據(jù)一示例性實(shí)施例示出的一種摘要生成方法的流程圖；
[0051 ]圖2是圖1中步驟S102的流程圖；
[0052]圖3是圖1中步驟S101的流程圖；
[0053]圖4是圖1中步驟S104的流程圖；
[0054]圖5是圖1中步驟S104的流程圖；
[0055] 圖6是根據(jù)一示例性實(shí)施例示出的一種摘要生成裝置的裝置圖。
【具體實(shí)施方式】
[0056] 這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說(shuō)明，其示例表示在附圖中。下面的描述涉及附圖時(shí)，除非另有表示，不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本發(fā)明相一致的所有實(shí)施方式。相反，它們僅是與如所附權(quán)利要求書(shū)中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
[0057] 隨著互聯(lián)網(wǎng)的普、信息獲取途徑的增加，每天都有不短涌現(xiàn)的海量信息。為了從這些海量信息中快速、準(zhǔn)確地獲取有用信息，文檔的自動(dòng)摘要處理變得越來(lái)越重要。為此，如圖1所示，在本公開(kāi)的一個(gè)實(shí)施例中，提供一種摘要生成方法，包括以下步驟。
[0058]在步驟S101中，將待處理文檔劃分為多個(gè)語(yǔ)句組合，每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè)數(shù)量個(gè)語(yǔ)句。
[0059]在該步驟中，可以按照句號(hào)、嘆號(hào)、問(wèn)號(hào)等表示長(zhǎng)停頓的標(biāo)點(diǎn)來(lái)將文檔劃分為多個(gè) 語(yǔ)句，并且可以將預(yù)設(shè)數(shù)量個(gè)語(yǔ)句組合成一個(gè)語(yǔ)句組合，在本公開(kāi)實(shí)施例中每個(gè)語(yǔ)句組合中可以包含五個(gè)語(yǔ)句。
[0060]在步驟S102中，計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。
[0061 ] 在該步驟中，可以利用TextRank公式計(jì)算語(yǔ)句在待處理文檔中的權(quán)重，并且可以利用BM25算法來(lái)計(jì)算兩個(gè)語(yǔ)句之間的相似度。
[0062]在步驟S103中，針對(duì)每個(gè)語(yǔ)句組合，選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句。
[0063] 例如：如果存在一個(gè)語(yǔ)句組合Μ中包含5個(gè)語(yǔ)句A、B、C、D和E的話，在經(jīng)過(guò)TextRank 公式計(jì)算A、B、C、D和E五個(gè)語(yǔ)句在待處理文檔中的權(quán)重之后，得到C語(yǔ)句權(quán)重最大，則可以選取C作為候選語(yǔ)句，同理，如果存在一個(gè)語(yǔ)句組合N中包含5個(gè)語(yǔ)句F、G、H、I和J，則可以選取計(jì)算后權(quán)重最大的F語(yǔ)句作為候選語(yǔ)句，以此類(lèi)推，除了候選語(yǔ)句C和F，還可以得到候選語(yǔ) 句P、Q、R、S等。
[0064] 在步驟S104中，將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要。
[0065]在該步驟中，當(dāng)候選語(yǔ)句為C、F、P、Q、R和S時(shí)，可以從中選取權(quán)重最大的預(yù)設(shè)數(shù)量個(gè)作為待處理文檔的摘要，例如:CPQRS、CFPQS等等。
[0066]本公開(kāi)能夠通過(guò)自動(dòng)根據(jù)文檔內(nèi)容生成摘要，方便用戶快速通過(guò)閱讀文摘獲取所需信息，幫助人們了解文檔概況，并根據(jù)文檔概況確定是否應(yīng)該詳讀原文。
[0067]如圖2所示，在本公開(kāi)的又一實(shí)施例中，所述步驟S102包括以下步驟。
[0068]在步驟S201中，將文檔中的文字分割為多個(gè)詞語(yǔ)。
[0069] 在步驟S202中，為每個(gè)詞語(yǔ)標(biāo)注詞性。
[0070] 在步驟S201和步驟S202中，可以將待處理文檔利用分詞器來(lái)對(duì)文本進(jìn)行分詞，實(shí) 現(xiàn)人名、地名等實(shí)體識(shí)別，得到詞語(yǔ)以及其詞性。
[0071] 在步驟S203中，將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ)，以及，位于預(yù)設(shè)黑名單中的詞語(yǔ)刪除。
[0072] 在該步驟中，可以根據(jù)預(yù)設(shè)詞性和預(yù)設(shè)黑名單，來(lái)過(guò)濾掉屬于預(yù)設(shè)詞性的詞語(yǔ)以及位于預(yù)設(shè)黑名單中的詞語(yǔ)，例如：當(dāng)預(yù)設(shè)詞性包括名字時(shí)，可以將待處理文檔中出現(xiàn)的人名刪除，當(dāng)預(yù)設(shè)黑名單中包括地名時(shí)，可以將待處理文檔中的地名刪除等。
[0073] 在步驟S204中，計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度。
[0074]在該步驟中，可以利用BM25算法計(jì)算兩個(gè)語(yǔ)句之間的相似度，BM25算法如下：
[0076] 在本公開(kāi)實(shí)施例中，Q和d所代表的是兩個(gè)句子，qi是句子中的一個(gè)詞，Wi表示qi的權(quán)重，R(qi，d)表示語(yǔ)素 qi與待處理文檔d的相關(guān)性得分，這樣Sc〇re(Q，d)就是Q和d兩個(gè)句子的相似度。
[0077]在步驟S205中，利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。 [0078] 在該步驟中，可以利用TextRank公式計(jì)算語(yǔ)句的權(quán)重值，TextRank公式如下：
[0080] 其中，等式左邊WS(Vi)表示一個(gè)句子的權(quán)重(WS是weight_sum的縮寫(xiě)），右側(cè)的求和表示每個(gè)相鄰句子對(duì)本句子的貢獻(xiàn)程度，求和的分子wji表示兩個(gè)句子的相似程度，分母又是一個(gè)weight_sum，WS(Vj)代表上次迭代j的權(quán)重。In(vi)表示指向結(jié)點(diǎn)vi的結(jié)點(diǎn)集合， Out(vj)表示結(jié)點(diǎn)vi所指向的結(jié)點(diǎn)的集合，d為阻尼系數(shù)(DampingFac-tor)，一般取值為 0.85，整個(gè)公式是一個(gè)迭代的過(guò)程。
[0081]本公開(kāi)實(shí)施例提供的該方法，能夠把每篇文章作為一個(gè)整體，體現(xiàn)出句子間的關(guān) 聯(lián)性，方便計(jì)算權(quán)重，并且能夠兼顧語(yǔ)句間的相似性，避免提取出的摘要中出現(xiàn)重復(fù)的語(yǔ) 句。
[0082]如圖3所示，在本公開(kāi)的又一實(shí)施例中，所述步驟S101包括以下步驟。
[0083]在步驟S301中，將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句。
[0084]在步驟S302中，針對(duì)每個(gè)語(yǔ)句，按照語(yǔ)句在所述待處理文檔中的排序，選取所述語(yǔ) 句以及所述語(yǔ)句之后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。
[0085] 例如：劃分語(yǔ)句后的文檔包括A語(yǔ)句、B語(yǔ)句、C語(yǔ)句、D語(yǔ)句、E語(yǔ)句、F語(yǔ)句和G語(yǔ)句，則可以將A語(yǔ)句、B語(yǔ)句、C語(yǔ)句、D語(yǔ)句和E語(yǔ)句作為一個(gè)第一語(yǔ)句組合，將B語(yǔ)句、C語(yǔ)句、D語(yǔ) 句、E語(yǔ)句和F語(yǔ)句作為第二語(yǔ)句組合，將C語(yǔ)句、D語(yǔ)句、E語(yǔ)句、F語(yǔ)句和G語(yǔ)句作為第三語(yǔ)句組合。
[0086]本公開(kāi)實(shí)施例提供的該方法，能夠?qū)⒚總€(gè)語(yǔ)句分別與其相鄰的語(yǔ)句構(gòu)成語(yǔ)句組合，這樣計(jì)算的句子之間的相似性及權(quán)重值將更加準(zhǔn)確。
[0087]如圖4所示，在本公開(kāi)的又一個(gè)實(shí)施例中，所述步驟S104包括以下步驟。
[0088]在步驟S401中，在將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ)句。 [0089]在步驟S402中，將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。
[0090]在該步驟中，可以將所有目標(biāo)語(yǔ)句按照權(quán)重值大小進(jìn)行排序后，選取其中權(quán)重值最大的預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句作為候選語(yǔ)句。
[0091 ]本公開(kāi)實(shí)施例能夠?qū)⒚總€(gè)語(yǔ)句組合中"最重要"即權(quán)重值最大的語(yǔ)句確定為目標(biāo) 語(yǔ)句，并將所有目標(biāo)語(yǔ)句進(jìn)行排序后選取"最重要"的語(yǔ)句作為候選語(yǔ)句，能夠準(zhǔn)確的選取出文檔中最重要的候選語(yǔ)句，以便根據(jù)這些候選語(yǔ)句生成摘要，計(jì)算量小，且選取范圍更全面。
[0092]如圖5所示，在本公開(kāi)的又一實(shí)施例中，所述步驟S104包括以下步驟。
[0093]在步驟S501中，獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的排序。
[0094]在該步驟中，可以獲取部分語(yǔ)句組合在文檔中的位置，或者在文檔中的先后順序。 [0095]在步驟S502中，按照所述排序生成所述待處理文檔的摘要。
[0096] 在該步驟中，可以按照部分語(yǔ)句組合在文檔中的先后順序生成文檔的摘要。
[0097] 本公開(kāi)實(shí)施例提供的該方法，能夠?qū)⒆罱K選取的候選語(yǔ)句按照其在文檔中的先后順序進(jìn)行顯示，方便用戶理解。
[0098] 如圖6所不，在本公開(kāi)的又一實(shí)施例中，提供一種摘要生成裝置，包括：劃分模塊 601、計(jì)算模塊602、選取模塊603和組合模塊604。
[0099]劃分模塊601，用于將待處理文檔劃分為多個(gè)語(yǔ)句組合，每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè)數(shù)量個(gè)語(yǔ)句。
[0100] 計(jì)算模塊602,用于計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。
[0101] 選取模塊603,用于針對(duì)每個(gè)語(yǔ)句組合，選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句。
[0102] 組合模塊604,用于將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要。
[0103] 在本公開(kāi)的又一實(shí)施例中，所述計(jì)算模塊602,包括:分割子模塊、標(biāo)注子模塊、刪除子模塊、相似度計(jì)算子模塊和權(quán)重計(jì)算子模塊。
[0104] 分割子模塊，用于將文檔中的文字分割為多個(gè)詞語(yǔ)。
[0105] 標(biāo)注子模塊，用于為每個(gè)詞語(yǔ)標(biāo)注詞性。
[0106] 刪除子模塊，用于將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ)，以及，位于預(yù)設(shè)黑名單中的詞語(yǔ)刪除。
[0107]相似度計(jì)算子模塊，用于計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度。
[0108]權(quán)重計(jì)算子模塊，用于利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。
[0109] 在本公開(kāi)的又一實(shí)施例中，所述劃分模塊601，包括:劃分子模塊和選取子模塊。
[0110] 劃分子模塊，用于將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句。
[0111] 選取子模塊，用于針對(duì)每個(gè)語(yǔ)句，按照語(yǔ)句在所述待處理文檔中的排序，選取所述語(yǔ)句以及所述語(yǔ)句之后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。
[0112] 在本公開(kāi)的又一實(shí)施例中，所述組合模塊604，包括:第一確定子模塊和第二確定子模塊。
[0113] 第一確定子模塊，用于將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ) 句；
[0114] 第二確定子模塊，用于將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。
[0115] 在本公開(kāi)的又一實(shí)施例中，所述組合模塊604,包括:獲取子模塊和生成子模塊。
[0116] 獲取子模塊，用于獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的排序；
[0117] 生成子模塊，用于按照所述排序生成所述待處理文檔的摘要。
[0118] 本領(lǐng)域技術(shù)人員在考慮說(shuō)明書(shū)及實(shí)踐這里公開(kāi)的發(fā)明后，將容易想到本發(fā)明的其它實(shí)施方案。本申請(qǐng)旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化，這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本公開(kāi)未公開(kāi)的本技術(shù)領(lǐng)域中的公知常識(shí) 或慣用技術(shù)手段。說(shuō)明書(shū)和實(shí)施例僅被視為示例性的，本發(fā)明的真正范圍和精神由所附的權(quán)利要求指出。
[0119]應(yīng)當(dāng)理解的是，本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu)，并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來(lái)限制。
【主權(quán)項(xiàng)】
1. 一種摘要生成方法，其特征在于，包括：將待處理文檔劃分為多個(gè)語(yǔ)句組合，每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè)數(shù)量個(gè)語(yǔ)句；計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值；針對(duì)每個(gè)語(yǔ)句組合，選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句；將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要。2. 根據(jù)權(quán)利要求1所述的摘要生成方法，其特征在于，所述計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值包括：將文檔中的文字分割為多個(gè)詞語(yǔ)；為每個(gè)詞語(yǔ)標(biāo)注詞性；將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ)，以及，位于預(yù)設(shè)黑名單中的詞語(yǔ)刪除；計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度；利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。3. 根據(jù)權(quán)利要求1所述的摘要生成方法，其特征在于，所述將待處理文檔劃分為多個(gè)語(yǔ) 句組合包括：將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句；針對(duì)每個(gè)語(yǔ)句，按照語(yǔ)句在所述待處理文檔中的排序，選取所述語(yǔ)句以及所述語(yǔ)句之后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。4. 根據(jù)權(quán)利要求1所述的摘要生成方法，其特征在于，所述將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要包括：將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ)句；將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。5. 根據(jù)權(quán)利要求1所述的摘要生成方法，其特征在于，所述將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要包括：獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的排序；按照所述排序生成所述待處理文檔的摘要。6. -種摘要生成裝置，其特征在于，包括：劃分模塊，用于將待處理文檔劃分為多個(gè)語(yǔ)句組合，每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè) 數(shù)量個(gè)語(yǔ)句；計(jì)算模塊，用于計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值；選取模塊，用于針對(duì)每個(gè)語(yǔ)句組合，選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句；組合模塊，用于將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要。7. 根據(jù)權(quán)利要求6所述的摘要生成裝置，其特征在于，所述計(jì)算模塊，包括：分割子模塊，用于將文檔中的文字分割為多個(gè)詞語(yǔ)；標(biāo)注子模塊，用于為每個(gè)詞語(yǔ)標(biāo)注詞性；刪除子模塊，用于將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ)，以及，位于預(yù)設(shè)黑名單中的詞語(yǔ)刪除；相似度計(jì)算子模塊，用于計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度；權(quán)重計(jì)算子模塊，用于利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。8. 根據(jù)權(quán)利要求6所述的摘要生成裝置，其特征在于，所述劃分模塊，包括：劃分子模塊，用于將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句；選取子模塊，用于針對(duì)每個(gè)語(yǔ)句，按照語(yǔ)句在所述待處理文檔中的排序，選取所述語(yǔ)句以及所述語(yǔ)句之后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。9. 根據(jù)權(quán)利要求6所述的摘要生成裝置，其特征在于，所述組合模塊，包括：第一確定子模塊，用于將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ)句；第二確定子模塊，用于將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。10. 根據(jù)權(quán)利要求6所述的摘要生成裝置，其特征在于，所述組合模塊，包括：獲取子模塊，用于獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的排序；生成子模塊，用于按照所述排序生成所述待處理文檔的摘要。
【文檔編號(hào)】G06F17/27GK105868175SQ201510882825
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2015年12月3日
【發(fā)明人】趙九龍
【申請(qǐng)人】樂(lè)視網(wǎng)信息技術(shù)（北京）股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙九龍;
技術(shù)所有人：樂(lè)視網(wǎng)信息技術(shù)（北京）股份有限公司;
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

生體魔力生成裝置相關(guān)技術(shù)

自動(dòng)生成摘要相關(guān)技術(shù)

wps自動(dòng)生成摘要相關(guān)技術(shù)

摘要生成器相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

摘要生成方法及裝置的制造方法