两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

摘要生成方法及裝置的制造方法

文檔序號(hào):10512159閱讀:199來(lái)源:國(guó)知局
摘要生成方法及裝置的制造方法
【專(zhuān)利摘要】本公開(kāi)實(shí)施例提供了一種摘要生成方法及裝置,所述方法包括以下步驟:將待處理文檔劃分為多個(gè)語(yǔ)句組合,每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè)數(shù)量個(gè)語(yǔ)句;計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值;針對(duì)每個(gè)語(yǔ)句組合,選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句;將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要。本公開(kāi)提供的該方法能夠通過(guò)自動(dòng)根據(jù)文檔內(nèi)容生成摘要,方便用戶快速通過(guò)閱讀文摘獲取所需信息,幫助人們了解文檔概況,并根據(jù)文檔概況確定是否應(yīng)該詳讀原文。
【專(zhuān)利說(shuō)明】
摘要生成方法及裝置
技術(shù)領(lǐng)域
[0001] 本公開(kāi)涉及計(jì)算機(jī)技術(shù),尤其涉及摘要生成方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的普及、以及信息獲取途徑的增加,每天都有不短涌現(xiàn)的海量信息。所 以目前的新聞一般都設(shè)有新聞標(biāo)題,新聞標(biāo)題是在新聞?wù)膬?nèi)容前面,對(duì)新聞內(nèi)容加以概 括或評(píng)價(jià)的簡(jiǎn)短文字,作用是劃分、組織、揭示、評(píng)價(jià)新聞內(nèi)容、吸引讀者閱讀。
[0003] 但是由于目前網(wǎng)絡(luò)上新聞數(shù)據(jù)比較多,某些媒體為吸引用戶眼球,以獲取更大的 用戶的瀏覽量,某些新聞標(biāo)題可能會(huì)設(shè)置的過(guò)分夸大,而且與文章內(nèi)容無(wú)多大關(guān)聯(lián),用戶在 讀取完這樣的新聞之后可能并沒(méi)有得到需要的信息,浪費(fèi)用戶時(shí)間及精力。

【發(fā)明內(nèi)容】

[0004] 本公開(kāi)提供一種摘要生成方法及裝置,用以解決現(xiàn)有技術(shù)中新聞標(biāo)題與新聞內(nèi)容 不符,用戶通過(guò)讀取這樣的新聞可能無(wú)法獲取到所需內(nèi)容的技術(shù)問(wèn)題。
[0005] 根據(jù)本公開(kāi)實(shí)施例的第一方面,提供一種摘要生成方法,包括:
[0006] 將待處理文檔劃分為多個(gè)語(yǔ)句組合,每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè)數(shù)量個(gè)語(yǔ) 句;
[0007] 計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值;
[0008] 針對(duì)每個(gè)語(yǔ)句組合,選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句;
[0009] 將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要。
[0010] 可選地,所述計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值包括:
[0011] 將文檔中的文字分割為多個(gè)詞語(yǔ);
[0012] 為每個(gè)詞語(yǔ)標(biāo)注詞性;
[0013] 將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ),以及,位于預(yù)設(shè)黑 名單中的詞語(yǔ)刪除;
[0014] 計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度;
[0015] 利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。
[0016] 可選地,所述將待處理文檔劃分為多個(gè)語(yǔ)句組合包括:
[0017] 將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句;
[0018] 針對(duì)每個(gè)語(yǔ)句,按照語(yǔ)句在所述待處理文檔中的排序,選取所述語(yǔ)句以及所述語(yǔ) 句之后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。
[0019] 可選地,所述將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的 摘要包括:
[0020] 將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ)句;
[0021 ]將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。
[0022]可選地,所述將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的 摘要包括:
[0023]獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的排序;
[0024]按照所述排序生成所述待處理文檔的摘要。
[0025] 根據(jù)本公開(kāi)實(shí)施例的第二方面,提供一種摘要生成裝置,包括:
[0026] 劃分模塊,用于將待處理文檔劃分為多個(gè)語(yǔ)句組合,每個(gè)所述語(yǔ)句組合中均包含 預(yù)設(shè)數(shù)量個(gè)語(yǔ)句;
[0027] 計(jì)算模塊,用于計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值;
[0028] 選取模塊,用于針對(duì)每個(gè)語(yǔ)句組合,選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為 候選語(yǔ)句;
[0029] 組合模塊,用于將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔 的摘要。
[0030] 可選地,所述計(jì)算模塊,包括:
[0031] 分割子模塊,用于將文檔中的文字分割為多個(gè)詞語(yǔ);
[0032] 標(biāo)注子模塊,用于為每個(gè)詞語(yǔ)標(biāo)注詞性;
[0033]刪除子模塊,用于將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ), 以及,位于預(yù)設(shè)黑名單中的詞語(yǔ)刪除;
[0034] 相似度計(jì)算子模塊,用于計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度;
[0035] 權(quán)重計(jì)算子模塊,用于利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重 值。
[0036]可選地,所述劃分模塊,包括:
[0037] 劃分子模塊,用于將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句;
[0038] 選取子模塊,用于針對(duì)每個(gè)語(yǔ)句,按照語(yǔ)句在所述待處理文檔中的排序,選取所述 語(yǔ)句以及所述語(yǔ)句之后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。
[0039]可選地,所述組合模塊,包括:
[0040]第一確定子模塊,用于將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ) 句;
[0041 ]第二確定子模塊,用于將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。
[0042]可選地,所述組合模塊,包括:
[0043]獲取子模塊,用于獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的 排序;
[0044] 生成子模塊,用于按照所述排序生成所述待處理文檔的摘要。
[0045] 本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
[0046] 本公開(kāi)通過(guò)將待處理文檔劃分為多個(gè)語(yǔ)句組合,每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè) 數(shù)量個(gè)語(yǔ)句;計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值;針對(duì)每個(gè)語(yǔ)句組合,選取所述語(yǔ) 句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句;可以將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句 組合成所述待處理文檔的摘要。
[0047] 本公開(kāi)提供的該方法能夠通過(guò)自動(dòng)根據(jù)文檔內(nèi)容生成摘要,方便用戶快速通過(guò)閱 讀文摘獲取所需信息,幫助人們了解文檔概況,并根據(jù)文檔概況確定是否應(yīng)該詳讀原文。
[0048] 應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不 能限制本公開(kāi)。
【附圖說(shuō)明】
[0049] 此處的附圖被并入說(shuō)明書(shū)中并構(gòu)成本說(shuō)明書(shū)的一部分,示出了符合本發(fā)明的實(shí)施 例,并與說(shuō)明書(shū)一起用于解釋本發(fā)明的原理。
[0050] 圖1是根據(jù)一示例性實(shí)施例示出的一種摘要生成方法的流程圖;
[0051 ]圖2是圖1中步驟S102的流程圖;
[0052]圖3是圖1中步驟S101的流程圖;
[0053]圖4是圖1中步驟S104的流程圖;
[0054]圖5是圖1中步驟S104的流程圖;
[0055] 圖6是根據(jù)一示例性實(shí)施例示出的一種摘要生成裝置的裝置圖。
【具體實(shí)施方式】
[0056] 這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說(shuō)明,其示例表示在附圖中。下面的描述涉及 附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例 中所描述的實(shí)施方式并不代表與本發(fā)明相一致的所有實(shí)施方式。相反,它們僅是與如所附 權(quán)利要求書(shū)中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
[0057] 隨著互聯(lián)網(wǎng)的普、信息獲取途徑的增加,每天都有不短涌現(xiàn)的海量信息。為了從這 些海量信息中快速、準(zhǔn)確地獲取有用信息,文檔的自動(dòng)摘要處理變得越來(lái)越重要。為此,如 圖1所示,在本公開(kāi)的一個(gè)實(shí)施例中,提供一種摘要生成方法,包括以下步驟。
[0058]在步驟S101中,將待處理文檔劃分為多個(gè)語(yǔ)句組合,每個(gè)所述語(yǔ)句組合中均包含 預(yù)設(shè)數(shù)量個(gè)語(yǔ)句。
[0059]在該步驟中,可以按照句號(hào)、嘆號(hào)、問(wèn)號(hào)等表示長(zhǎng)停頓的標(biāo)點(diǎn)來(lái)將文檔劃分為多個(gè) 語(yǔ)句,并且可以將預(yù)設(shè)數(shù)量個(gè)語(yǔ)句組合成一個(gè)語(yǔ)句組合,在本公開(kāi)實(shí)施例中每個(gè)語(yǔ)句組合 中可以包含五個(gè)語(yǔ)句。
[0060]在步驟S102中,計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。
[0061 ] 在該步驟中,可以利用TextRank公式計(jì)算語(yǔ)句在待處理文檔中的權(quán)重,并且可以 利用BM25算法來(lái)計(jì)算兩個(gè)語(yǔ)句之間的相似度。
[0062]在步驟S103中,針對(duì)每個(gè)語(yǔ)句組合,選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為 候選語(yǔ)句。
[0063] 例如:如果存在一個(gè)語(yǔ)句組合Μ中包含5個(gè)語(yǔ)句A、B、C、D和E的話,在經(jīng)過(guò)TextRank 公式計(jì)算A、B、C、D和E五個(gè)語(yǔ)句在待處理文檔中的權(quán)重之后,得到C語(yǔ)句權(quán)重最大,則可以選 取C作為候選語(yǔ)句,同理,如果存在一個(gè)語(yǔ)句組合N中包含5個(gè)語(yǔ)句F、G、H、I和J,則可以選取 計(jì)算后權(quán)重最大的F語(yǔ)句作為候選語(yǔ)句,以此類(lèi)推,除了候選語(yǔ)句C和F,還可以得到候選語(yǔ) 句P、Q、R、S等。
[0064] 在步驟S104中,將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔 的摘要。
[0065]在該步驟中,當(dāng)候選語(yǔ)句為C、F、P、Q、R和S時(shí),可以從中選取權(quán)重最大的預(yù)設(shè)數(shù)量 個(gè)作為待處理文檔的摘要,例如:CPQRS、CFPQS等等。
[0066]本公開(kāi)能夠通過(guò)自動(dòng)根據(jù)文檔內(nèi)容生成摘要,方便用戶快速通過(guò)閱讀文摘獲取所 需信息,幫助人們了解文檔概況,并根據(jù)文檔概況確定是否應(yīng)該詳讀原文。
[0067]如圖2所示,在本公開(kāi)的又一實(shí)施例中,所述步驟S102包括以下步驟。
[0068]在步驟S201中,將文檔中的文字分割為多個(gè)詞語(yǔ)。
[0069] 在步驟S202中,為每個(gè)詞語(yǔ)標(biāo)注詞性。
[0070] 在步驟S201和步驟S202中,可以將待處理文檔利用分詞器來(lái)對(duì)文本進(jìn)行分詞,實(shí) 現(xiàn)人名、地名等實(shí)體識(shí)別,得到詞語(yǔ)以及其詞性。
[0071] 在步驟S203中,將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ),以 及,位于預(yù)設(shè)黑名單中的詞語(yǔ)刪除。
[0072] 在該步驟中,可以根據(jù)預(yù)設(shè)詞性和預(yù)設(shè)黑名單,來(lái)過(guò)濾掉屬于預(yù)設(shè)詞性的詞語(yǔ)以 及位于預(yù)設(shè)黑名單中的詞語(yǔ),例如:當(dāng)預(yù)設(shè)詞性包括名字時(shí),可以將待處理文檔中出現(xiàn)的人 名刪除,當(dāng)預(yù)設(shè)黑名單中包括地名時(shí),可以將待處理文檔中的地名刪除等。
[0073] 在步驟S204中,計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度。
[0074]在該步驟中,可以利用BM25算法計(jì)算兩個(gè)語(yǔ)句之間的相似度,BM25算法如下:
[0076] 在本公開(kāi)實(shí)施例中,Q和d所代表的是兩個(gè)句子,qi是句子中的一個(gè)詞,Wi表示qi的 權(quán)重,R(qi,d)表示語(yǔ)素 qi與待處理文檔d的相關(guān)性得分,這樣Sc〇re(Q,d)就是Q和d兩個(gè)句 子的相似度。
[0077]在步驟S205中,利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。 [0078] 在該步驟中,可以利用TextRank公式計(jì)算語(yǔ)句的權(quán)重值,TextRank公式如下:
[0080] 其中,等式左邊WS(Vi)表示一個(gè)句子的權(quán)重(WS是weight_sum的縮寫(xiě)),右側(cè)的求 和表示每個(gè)相鄰句子對(duì)本句子的貢獻(xiàn)程度,求和的分子wji表示兩個(gè)句子的相似程度,分母 又是一個(gè)weight_sum,WS(Vj)代表上次迭代j的權(quán)重。In(vi)表示指向結(jié)點(diǎn)vi的結(jié)點(diǎn)集合, Out(vj)表示結(jié)點(diǎn)vi所指向的結(jié)點(diǎn)的集合,d為阻尼系數(shù)(DampingFac-tor),一般取值為 0.85,整個(gè)公式是一個(gè)迭代的過(guò)程。
[0081]本公開(kāi)實(shí)施例提供的該方法,能夠把每篇文章作為一個(gè)整體,體現(xiàn)出句子間的關(guān) 聯(lián)性,方便計(jì)算權(quán)重,并且能夠兼顧語(yǔ)句間的相似性,避免提取出的摘要中出現(xiàn)重復(fù)的語(yǔ) 句。
[0082]如圖3所示,在本公開(kāi)的又一實(shí)施例中,所述步驟S101包括以下步驟。
[0083]在步驟S301中,將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句。
[0084]在步驟S302中,針對(duì)每個(gè)語(yǔ)句,按照語(yǔ)句在所述待處理文檔中的排序,選取所述語(yǔ) 句以及所述語(yǔ)句之后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。
[0085] 例如:劃分語(yǔ)句后的文檔包括A語(yǔ)句、B語(yǔ)句、C語(yǔ)句、D語(yǔ)句、E語(yǔ)句、F語(yǔ)句和G語(yǔ)句, 則可以將A語(yǔ)句、B語(yǔ)句、C語(yǔ)句、D語(yǔ)句和E語(yǔ)句作為一個(gè)第一語(yǔ)句組合,將B語(yǔ)句、C語(yǔ)句、D語(yǔ) 句、E語(yǔ)句和F語(yǔ)句作為第二語(yǔ)句組合,將C語(yǔ)句、D語(yǔ)句、E語(yǔ)句、F語(yǔ)句和G語(yǔ)句作為第三語(yǔ)句 組合。
[0086]本公開(kāi)實(shí)施例提供的該方法,能夠?qū)⒚總€(gè)語(yǔ)句分別與其相鄰的語(yǔ)句構(gòu)成語(yǔ)句組 合,這樣計(jì)算的句子之間的相似性及權(quán)重值將更加準(zhǔn)確。
[0087]如圖4所示,在本公開(kāi)的又一個(gè)實(shí)施例中,所述步驟S104包括以下步驟。
[0088]在步驟S401中,在將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ)句。 [0089]在步驟S402中,將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。
[0090]在該步驟中,可以將所有目標(biāo)語(yǔ)句按照權(quán)重值大小進(jìn)行排序后,選取其中權(quán)重值 最大的預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句作為候選語(yǔ)句。
[0091 ]本公開(kāi)實(shí)施例能夠?qū)⒚總€(gè)語(yǔ)句組合中"最重要"即權(quán)重值最大的語(yǔ)句確定為目標(biāo) 語(yǔ)句,并將所有目標(biāo)語(yǔ)句進(jìn)行排序后選取"最重要"的語(yǔ)句作為候選語(yǔ)句,能夠準(zhǔn)確的選取 出文檔中最重要的候選語(yǔ)句,以便根據(jù)這些候選語(yǔ)句生成摘要,計(jì)算量小,且選取范圍更全 面。
[0092]如圖5所示,在本公開(kāi)的又一實(shí)施例中,所述步驟S104包括以下步驟。
[0093]在步驟S501中,獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的排 序。
[0094]在該步驟中,可以獲取部分語(yǔ)句組合在文檔中的位置,或者在文檔中的先后順序。 [0095]在步驟S502中,按照所述排序生成所述待處理文檔的摘要。
[0096] 在該步驟中,可以按照部分語(yǔ)句組合在文檔中的先后順序生成文檔的摘要。
[0097] 本公開(kāi)實(shí)施例提供的該方法,能夠?qū)⒆罱K選取的候選語(yǔ)句按照其在文檔中的先后 順序進(jìn)行顯示,方便用戶理解。
[0098] 如圖6所不,在本公開(kāi)的又一實(shí)施例中,提供一種摘要生成裝置,包括:劃分模塊 601、計(jì)算模塊602、選取模塊603和組合模塊604。
[0099]劃分模塊601,用于將待處理文檔劃分為多個(gè)語(yǔ)句組合,每個(gè)所述語(yǔ)句組合中均包 含預(yù)設(shè)數(shù)量個(gè)語(yǔ)句。
[0100] 計(jì)算模塊602,用于計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。
[0101] 選取模塊603,用于針對(duì)每個(gè)語(yǔ)句組合,選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作 為候選語(yǔ)句。
[0102] 組合模塊604,用于將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理 文檔的摘要。
[0103] 在本公開(kāi)的又一實(shí)施例中,所述計(jì)算模塊602,包括:分割子模塊、標(biāo)注子模塊、刪 除子模塊、相似度計(jì)算子模塊和權(quán)重計(jì)算子模塊。
[0104] 分割子模塊,用于將文檔中的文字分割為多個(gè)詞語(yǔ)。
[0105] 標(biāo)注子模塊,用于為每個(gè)詞語(yǔ)標(biāo)注詞性。
[0106] 刪除子模塊,用于將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ), 以及,位于預(yù)設(shè)黑名單中的詞語(yǔ)刪除。
[0107]相似度計(jì)算子模塊,用于計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度。
[0108]權(quán)重計(jì)算子模塊,用于利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重 值。
[0109] 在本公開(kāi)的又一實(shí)施例中,所述劃分模塊601,包括:劃分子模塊和選取子模塊。
[0110] 劃分子模塊,用于將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句。
[0111] 選取子模塊,用于針對(duì)每個(gè)語(yǔ)句,按照語(yǔ)句在所述待處理文檔中的排序,選取所述 語(yǔ)句以及所述語(yǔ)句之后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。
[0112] 在本公開(kāi)的又一實(shí)施例中,所述組合模塊604,包括:第一確定子模塊和第二確定 子模塊。
[0113] 第一確定子模塊,用于將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ) 句;
[0114] 第二確定子模塊,用于將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。
[0115] 在本公開(kāi)的又一實(shí)施例中,所述組合模塊604,包括:獲取子模塊和生成子模塊。
[0116] 獲取子模塊,用于獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的 排序;
[0117] 生成子模塊,用于按照所述排序生成所述待處理文檔的摘要。
[0118] 本領(lǐng)域技術(shù)人員在考慮說(shuō)明書(shū)及實(shí)踐這里公開(kāi)的發(fā)明后,將容易想到本發(fā)明的其 它實(shí)施方案。本申請(qǐng)旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或 者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本公開(kāi)未公開(kāi)的本技術(shù)領(lǐng)域中的公知常識(shí) 或慣用技術(shù)手段。說(shuō)明書(shū)和實(shí)施例僅被視為示例性的,本發(fā)明的真正范圍和精神由所附的 權(quán)利要求指出。
[0119]應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并 且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來(lái)限制。
【主權(quán)項(xiàng)】
1. 一種摘要生成方法,其特征在于,包括: 將待處理文檔劃分為多個(gè)語(yǔ)句組合,每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè)數(shù)量個(gè)語(yǔ)句; 計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值; 針對(duì)每個(gè)語(yǔ)句組合,選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為候選語(yǔ)句; 將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘要。2. 根據(jù)權(quán)利要求1所述的摘要生成方法,其特征在于,所述計(jì)算每個(gè)所述語(yǔ)句組合中所 有語(yǔ)句的權(quán)重值包括: 將文檔中的文字分割為多個(gè)詞語(yǔ); 為每個(gè)詞語(yǔ)標(biāo)注詞性; 將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ),以及,位于預(yù)設(shè)黑名單 中的詞語(yǔ)刪除; 計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度; 利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。3. 根據(jù)權(quán)利要求1所述的摘要生成方法,其特征在于,所述將待處理文檔劃分為多個(gè)語(yǔ) 句組合包括: 將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句; 針對(duì)每個(gè)語(yǔ)句,按照語(yǔ)句在所述待處理文檔中的排序,選取所述語(yǔ)句以及所述語(yǔ)句之 后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。4. 根據(jù)權(quán)利要求1所述的摘要生成方法,其特征在于,所述將部分所述語(yǔ)句組合對(duì)應(yīng)的 所述候選語(yǔ)句組合成所述待處理文檔的摘要包括: 將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ)句; 將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。5. 根據(jù)權(quán)利要求1所述的摘要生成方法,其特征在于,所述將部分所述語(yǔ)句組合對(duì)應(yīng)的 所述候選語(yǔ)句組合成所述待處理文檔的摘要包括: 獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的排序; 按照所述排序生成所述待處理文檔的摘要。6. -種摘要生成裝置,其特征在于,包括: 劃分模塊,用于將待處理文檔劃分為多個(gè)語(yǔ)句組合,每個(gè)所述語(yǔ)句組合中均包含預(yù)設(shè) 數(shù)量個(gè)語(yǔ)句; 計(jì)算模塊,用于計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值; 選取模塊,用于針對(duì)每個(gè)語(yǔ)句組合,選取所述語(yǔ)句組合中權(quán)重值最大的語(yǔ)句作為候選 語(yǔ)句; 組合模塊,用于將部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句組合成所述待處理文檔的摘 要。7. 根據(jù)權(quán)利要求6所述的摘要生成裝置,其特征在于,所述計(jì)算模塊,包括: 分割子模塊,用于將文檔中的文字分割為多個(gè)詞語(yǔ); 標(biāo)注子模塊,用于為每個(gè)詞語(yǔ)標(biāo)注詞性; 刪除子模塊,用于將每個(gè)語(yǔ)句中分割得到的多個(gè)詞語(yǔ)中詞性為預(yù)設(shè)詞性的詞語(yǔ),以及, 位于預(yù)設(shè)黑名單中的詞語(yǔ)刪除; 相似度計(jì)算子模塊,用于計(jì)算所述語(yǔ)句組合中每?jī)蓚€(gè)語(yǔ)句的相似度; 權(quán)重計(jì)算子模塊,用于利用所述相似度計(jì)算每個(gè)所述語(yǔ)句組合中所有語(yǔ)句的權(quán)重值。8. 根據(jù)權(quán)利要求6所述的摘要生成裝置,其特征在于,所述劃分模塊,包括: 劃分子模塊,用于將待處理文檔的內(nèi)容按照預(yù)設(shè)標(biāo)點(diǎn)劃分為多個(gè)語(yǔ)句; 選取子模塊,用于針對(duì)每個(gè)語(yǔ)句,按照語(yǔ)句在所述待處理文檔中的排序,選取所述語(yǔ)句 以及所述語(yǔ)句之后的預(yù)設(shè)數(shù)量個(gè)連續(xù)的語(yǔ)句作為一個(gè)語(yǔ)句組合。9. 根據(jù)權(quán)利要求6所述的摘要生成裝置,其特征在于,所述組合模塊,包括: 第一確定子模塊,用于將每個(gè)語(yǔ)句組合中最大的權(quán)重值對(duì)應(yīng)的語(yǔ)句確定為目標(biāo)語(yǔ)句; 第二確定子模塊,用于將預(yù)設(shè)數(shù)量個(gè)目標(biāo)語(yǔ)句確定為候選語(yǔ)句。10. 根據(jù)權(quán)利要求6所述的摘要生成裝置,其特征在于,所述組合模塊,包括: 獲取子模塊,用于獲取部分所述語(yǔ)句組合對(duì)應(yīng)的所述候選語(yǔ)句在待處理文檔中的排 序; 生成子模塊,用于按照所述排序生成所述待處理文檔的摘要。
【文檔編號(hào)】G06F17/27GK105868175SQ201510882825
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2015年12月3日
【發(fā)明人】趙九龍
【申請(qǐng)人】樂(lè)視網(wǎng)信息技術(shù)(北京)股份有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
清涧县| 阳城县| 东宁县| 固始县| 彭山县| 木兰县| 理塘县| 扎兰屯市| 漯河市| 吐鲁番市| 池州市| 乐至县| 金塔县| 阳曲县| 信丰县| 汝南县| 巧家县| 镇巴县| 洪洞县| 潍坊市| 贵阳市| 武山县| 马公市| 博湖县| 凤山市| 娱乐| 华亭县| 宜州市| 蓬溪县| 岳池县| 旬邑县| 六枝特区| 绵竹市| 汶上县| 涞源县| 越西县| 鹰潭市| 稷山县| 绥江县| 宜丰县| 平定县|