用于概括文檔的方法
【專利說(shuō)明】用于概括文檔的方法
【背景技術(shù)】
[0001] 隨著信息技術(shù)W及諸如因特網(wǎng)和內(nèi)聯(lián)網(wǎng)的網(wǎng)絡(luò)的發(fā)展,越來(lái)越多的信息在線存 在。海量的在線信息可能使想要找到他可能感興趣的某物的用戶不知所措。因此,已經(jīng)付 出更多的注意來(lái)過濾掉不必要的信息并且僅接收所需要的信息。對(duì)于該樣的目的有用的一 種方法是提供文檔的概括或者概括文檔,使得用戶可W被允許預(yù)覽概括并且決定獲得并閱 讀全文檔是否值得。
【附圖說(shuō)明】
[0002] 附圖圖示了本公開的各種方面的各種示例。應(yīng)理解,在圖中的圖示的元素邊界(例 如,框、框的組或者其他形狀)表示所述邊界的一個(gè)示例。應(yīng)理解,在某些示例中,一個(gè)元素 可W被設(shè)計(jì)為多個(gè)元素,或者多個(gè)元素可W被設(shè)計(jì)為一個(gè)元素。在某些示例中,被示出為另 一元素的內(nèi)部部件的元素可W被實(shí)現(xiàn)為外部部件,并且反之亦然。
[0003] 圖1是根據(jù)本公開的示例的可W概括文檔的系統(tǒng)的框圖; 圖2是根據(jù)本公開的示例的概括文檔的方法的處理流程圖; 圖3是根據(jù)本公開的示例的概括文檔的方法的更詳細(xì)的處理流程圖; 圖4是示出了根據(jù)本公開的示例的、存儲(chǔ)用于概括文檔的代碼的非瞬時(shí)計(jì)算機(jī)可讀介 質(zhì)的框圖。
【具體實(shí)施方式】
[0004] 自動(dòng)概括長(zhǎng)期W來(lái)是用于自然語(yǔ)言處理的重要任務(wù)。文檔的良好概括應(yīng)該是簡(jiǎn)明 并且準(zhǔn)確的,換言之,應(yīng)該能夠捕獲源文檔的重要信息。直至今日,已經(jīng)提出了各種種類的 方法。大致地,存在用于概括生成的兩種方法;提取和抽象(油Straction)。提取方法關(guān)注 從單個(gè)文檔或多個(gè)文檔選擇句子,而抽象方法通過采用釋義的各種技術(shù)生成新的句子。
[0005] 如在本公開中使用的那樣,"文檔"是指自由的、未組織的或半組織的文本的任何 主體。所述文本可W包括文檔在其一般意義上的全部?jī)?nèi)容,諸如書、文章、論文等等,或者傳 統(tǒng)文檔的一部分,諸如摘要、段落、句子或者例如標(biāo)題的短語(yǔ)。理想地,"文檔"描述相干的話 題。因此,貫穿本公開,術(shù)語(yǔ)"文檔"被廣泛使用W表示文本數(shù)據(jù)的單元,其包括文檔的僅一 部分,諸如區(qū)段或者段落。另外,"文檔"可W包含根據(jù)圖像或其他圖形生成的文本,W及從 音頻或視頻格式恢復(fù)的文本。文檔一般可W包括多個(gè)句子。類似地,貫穿本公開,詞語(yǔ)"術(shù) 語(yǔ)"被廣泛使用W表示在話題上設(shè)及文檔或者文檔集合的詞語(yǔ)或者詞語(yǔ)的分組。
[0006] 在下文中,參考附圖詳細(xì)地描述了根據(jù)本公開的某些示例。
[0007] 參考圖1,圖1是根據(jù)本公開的示例的可W概括文檔的系統(tǒng)的框圖。系統(tǒng)一般地由 參考標(biāo)號(hào)100表示。本領(lǐng)域普通技術(shù)人員將理解,在圖1中示出的功能塊和設(shè)備可W包括 包含電路的硬件元件、包含被存儲(chǔ)在有形的計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)代碼的軟件元件或 者硬件和軟件元件兩者的組合。附加地,系統(tǒng)100的功能塊和設(shè)備僅僅是可W被實(shí)現(xiàn)在示 例中的功能塊和設(shè)備的一個(gè)示例。本領(lǐng)域普通技術(shù)人員基于針對(duì)特定電子設(shè)備的設(shè)計(jì)考慮 將能夠容易地定義具體的功能塊。
[000引系統(tǒng)100可W包括服務(wù)器102,W及一個(gè)或多個(gè)客戶端計(jì)算機(jī)104,通過網(wǎng)絡(luò)106 通信。如在圖1中圖示的那樣,服務(wù)器102可W包括一個(gè)或多個(gè)處理器108,其可W通過總 線110連接到顯示器112、鍵盤114、一個(gè)或多個(gè)輸入設(shè)備116W及諸如打印機(jī)118的輸出 設(shè)備。輸入設(shè)備116可W包括諸如鼠標(biāo)或觸摸屏的設(shè)備。處理器108可W包括單個(gè)核、多 個(gè)核,或者在云計(jì)算架構(gòu)中的核的群集。服務(wù)器102還可W通過總線110連接到網(wǎng)絡(luò)接口 卡(NIC) 120。NIC120可W將服務(wù)器102連接到網(wǎng)絡(luò)106。
[0009] 服務(wù)器102可化圍過網(wǎng)絡(luò)106和輸入設(shè)備116訪問各種文檔。例如,用戶可化圍過 輸入設(shè)備116輸入針對(duì)其將生成概括的(一個(gè)或多個(gè))文檔?;蛘?,服務(wù)器102可W通過使 用比如Google的某些捜索引擎從因特網(wǎng)捜索多個(gè)文檔。服務(wù)器102還具有對(duì)概念庫(kù)130的 訪問。概念庫(kù)130可W是但不限于某些公眾可用的概念庫(kù),諸如W化ipedia、Bai化Baike、 B油elNet等等。用戶還可W定義他自己的概念庫(kù)。在W下描述中,W化ipedia將被用作用 于說(shuō)明的示例。然而,本領(lǐng)域技術(shù)人員將理解,W化ipedia僅充當(dāng)示例,并且本發(fā)明在該點(diǎn) 上不被限制。應(yīng)注意,W化ipedia包含多于3. 5億人工編輯的概念,并且W化ipedia的概念 被表示為在Wikipedia中的文章頁(yè)面。
[0010] 網(wǎng)絡(luò)106可W是局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)或者另一網(wǎng)絡(luò)配置。網(wǎng)絡(luò)106可W包 括路由器、交換機(jī)、調(diào)制解調(diào)器或者被用于互連的任何其他種類的接口設(shè)備。網(wǎng)絡(luò)106可W 連接到若干客戶端計(jì)算機(jī)104。通過網(wǎng)絡(luò)106,若干客戶端計(jì)算機(jī)104可W連接到服務(wù)器 102。可W如服務(wù)器102那樣類似地組織客戶端計(jì)算機(jī)104。
[0011] 服務(wù)器102可W具有通過總線110可操作地禪合到處理器108的其他單元。該些 單元可W包括有形的機(jī)器可讀存儲(chǔ)介質(zhì),諸如記憶裝置122。記憶裝置122可W包括硬盤 驅(qū)動(dòng)器、只讀存儲(chǔ)器(ROM)、隨機(jī)訪問存儲(chǔ)器(RAM)、RAM驅(qū)動(dòng)器、閃式驅(qū)動(dòng)器、光驅(qū)、高速緩 存存儲(chǔ)器等等的任何組合。記憶裝置122可W包括概念檢測(cè)單元124、關(guān)聯(lián)性計(jì)算單元126 W及圖構(gòu)造單元128。概念檢測(cè)單元124可W檢測(cè)在文檔的句子中的(一個(gè)或多個(gè))概念。 在句子中的概念被限定為呈現(xiàn)所述句子的某些語(yǔ)義的詞語(yǔ)和短語(yǔ)。概念檢測(cè)單元124可W 檢測(cè)在文檔的每一個(gè)句子中的概念。關(guān)聯(lián)性計(jì)算單元126可W根據(jù)在句子中檢測(cè)到的概念 計(jì)算在該些句子之間的關(guān)聯(lián)性測(cè)量。圖構(gòu)造單元128可W基于所計(jì)算的關(guān)聯(lián)性測(cè)量構(gòu)造概 念意識(shí)(concept-aware)的圖,其中在所述概念意識(shí)圖中的節(jié)點(diǎn)表示在所述文檔中的句子, 并且在兩個(gè)節(jié)點(diǎn)之間的邊表示在該兩個(gè)句子之間的關(guān)聯(lián)性測(cè)量。
[0012] 雖然在圖1中未示出,但是記憶裝置122還可W包括某些其他單元,諸如預(yù)處理單 元、分級(jí)(ranking)單元W及概括生成單元。預(yù)處理單元可W對(duì)目標(biāo)文檔執(zhí)行某個(gè)預(yù)處理。 例如,所述預(yù)處理可W包括從句子移除非法字符,例如在英文文章中的中文字符可能被視 為非法字符并且應(yīng)該被移除。預(yù)處理還可W包括從句子移除比如感嘆詞(interjection)的 詞語(yǔ),因?yàn)樵撔┰~語(yǔ)通常不對(duì)句子的含義有貢獻(xiàn)。當(dāng)然,可W存在某些其他類型的預(yù)處理, 本文將不詳細(xì)描述。分級(jí)單元可W對(duì)由圖構(gòu)造單元128構(gòu)造的概念意識(shí)圖運(yùn)行分級(jí)方法, 并且對(duì)每個(gè)句子給出得分(即,分級(jí))。句子的得分越高,所述句子就越重要。W該種方式, 在文檔中的所有句子可W根據(jù)它們的得分被排序。分級(jí)方法的示例可W包括但不限于HITS 等級(jí)、Google的化geRank和manifol化ank。在由分級(jí)單元對(duì)每個(gè)句子評(píng)分之后,可W W根 據(jù)它們的等級(jí)的次序選擇句子。概括生成單元可W選擇最高等級(jí)(top ranking)的句子作 為針對(duì)文檔的概括。根據(jù)本公開的示例,當(dāng)選擇句子時(shí),可w將該句子與已經(jīng)選擇的句子比 較W檢查該句子是否太接近或類似于已經(jīng)選擇的句子中的一個(gè)。如果它們太相似,則該句 子將不被選擇到概括中(即,選擇不相似但是重要的那些句子)。所生成的概括可W被顯示 在顯示器112上用于由用戶查看,或者被發(fā)送到打印機(jī)118W被打印。
[0013] 現(xiàn)在參考圖2,圖2圖示了根據(jù)本公開的示例的概括文檔的方法的處理流程圖。 方法一般地由參考標(biāo)號(hào)200表示。在框201處,針對(duì)在文檔中的每個(gè)句子檢測(cè)(一個(gè)或多 個(gè))概念。根據(jù)本公開的示例,基于預(yù)定義的概念庫(kù)來(lái)檢測(cè)在句子中的概念,所述預(yù)定義的 概念庫(kù)包