两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文本表示方法和裝置的制造方法

文檔序號(hào):9922003閱讀:468來源:國知局
文本表示方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本分析,更具體地,涉及文本表示方法和裝置。
【背景技術(shù)】
[0002] 文本分析在信息檢索、數(shù)據(jù)挖掘、機(jī)器翻譯等領(lǐng)域有廣泛的應(yīng)用,文本分析是指對 文本的表示及其特征項(xiàng)的選取,將無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可以識(shí)別處理 的信息,即對文本進(jìn)行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本,使計(jì)算機(jī)能 夠通過對這種模型的計(jì)算和操作來實(shí)現(xiàn)對文本的識(shí)別。
[0003] LSA (latent semantic analysis)潛在語義分析,也被稱為 LSI (latent semanticindex),是 Scott Deerwester, Susan T. Dumais 等人在 1990 年提出來的一種新的 索引和檢索方法。該方法和傳統(tǒng)向量空間模型(Vector Space Model) -樣使用向量來表 示詞(terms)和文檔(documents),并通過向量間的關(guān)系(如夾角)來判斷詞及文檔間的 關(guān)系;而不同的是,LSA將詞和文檔映射到潛在語義空間,從而去除了原始向量空間中的一 些"噪音",提高了信息檢索的精確度,然而LSA對一詞多義問題依然沒有解決,僅僅解決了 一義多詞。因?yàn)長SA將每一個(gè)詞表示為潛在語義空間中的一個(gè)點(diǎn),因此一個(gè)詞的多個(gè)意義 在空間中對應(yīng)的是一個(gè)點(diǎn),沒有被區(qū)分。
[0004] ESA (Explicit Semantic Analysis)明確語義分析,ESA的意圖是給定一個(gè)文檔片 段,ESA將產(chǎn)生一個(gè)語義解釋器,它能夠?qū)⑦@個(gè)片段影射到一些相關(guān)的維基概念中,并且根 據(jù)相關(guān)度進(jìn)行排序,ESA的方法只考慮概念上下文和文本的相似度來確定一組概念,并沒有 考慮概念之間的相關(guān)性。
[0005] 因此,需要一種更有效準(zhǔn)確的文本表示方法。

【發(fā)明內(nèi)容】

[0006] 根據(jù)本發(fā)明的一個(gè)方面,提供一種文本表示方法,包括:利用知識(shí)庫識(shí)別文本中的 概念并確定概念之間的關(guān)系;利用所述概念之間的關(guān)系生成概念圖;確定所述概念圖的連 通分量;計(jì)算所述連通分量的權(quán)重;根據(jù)連通分量的權(quán)重確定表示該文本的概念。
[0007] 根據(jù)本發(fā)明的另一個(gè)方面,提供一種文本表示裝置,包括:概念識(shí)別模塊,配置為 利用知識(shí)庫識(shí)別文本中的概念并確定概念之間的關(guān)系;概念圖生成模塊,被配置為利用所 述概念之間的關(guān)系生成概念圖;連通分量確定模塊,被配置為確定所述概念圖的連通分量; 權(quán)重計(jì)算模塊,被配置為計(jì)算所述連通分量的權(quán)重;概念確定模塊,被配置為根據(jù)連通分量 的權(quán)重確定表示該文本的概念。
[0008] 本發(fā)明利用了知識(shí)庫中概念之間的相關(guān)性,根據(jù)圖的連通分量理論,找出最能夠 代表文本主題的一組概念,而將和主題無關(guān)的概念去除掉,提高了文本表達(dá)的準(zhǔn)確度,減少 了噪音。
【附圖說明】
[0009] 通過結(jié)合附圖對本公開示例性實(shí)施方式進(jìn)行更詳細(xì)的描述,本公開的上述以及其 它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實(shí)施方式中,相同的參考標(biāo)號(hào) 通常代表相同部件。
[0010] 圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框 圖。
[0011] 圖2示出根據(jù)本發(fā)明實(shí)施例的一種文本表示方法。
[0012] 圖3示出無向圖M。
[0013] 圖4示出圖3的無向圖Μ的兩個(gè)連通分量氏和H2。
[0014] 圖5示出根據(jù)本發(fā)明實(shí)施例的文本實(shí)例。
[0015] 圖6示出圖5的文本實(shí)例中的概念與知識(shí)庫中其它概念之間的關(guān)聯(lián)圖。
[0016] 圖7示出根據(jù)文本實(shí)例中識(shí)別的概念之間的關(guān)系生成的概念圖。
[0017] 圖8示出根據(jù)本發(fā)明實(shí)施例的文本表示裝置800。
【具體實(shí)施方式】
[0018] 下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實(shí)施方式。雖然附圖中顯示了本公開 的優(yōu)選實(shí)施方式,然而應(yīng)該理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方 式所限制。相反,提供這些實(shí)施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的 范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0019] 圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框 圖。圖1顯示的計(jì)算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個(gè)示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使 用范圍帶來任何限制。
[0020] 如圖1所示,計(jì)算機(jī)系統(tǒng)/服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)系統(tǒng) /服務(wù)器12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器或者處理單元16,系統(tǒng)存儲(chǔ)器 28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器28和處理單元16)的總線18。
[0021] 總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器, 外圍總線,圖形加速端口,處理器或使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例 來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC)總 線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局域總線以及外圍組件互連(PCI)總線。
[0022] 計(jì)算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是 任何能夠被計(jì)算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng) 的和不可移動(dòng)的介質(zhì)。
[0023] 系統(tǒng)存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存 取存儲(chǔ)器(RAM) 30和/或高速緩存存儲(chǔ)器32。計(jì)算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其 它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34 可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖1未顯示,通常稱為"硬盤驅(qū)動(dòng)器")。盡管 圖1中未示出,可以提供用于對可移動(dòng)非易失性磁盤(例如"軟盤")讀寫的磁盤驅(qū)動(dòng)器, 以及對可移動(dòng)非易失性光盤(例如⑶-ROM,DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。 在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28 可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模 塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
[0024] 具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲(chǔ)在例如存儲(chǔ)器 28中,這樣的程序模塊42包括--但不限于--操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它 程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程 序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
[0025] 計(jì)算機(jī)系統(tǒng)/服務(wù)器12也可以與一個(gè)或多個(gè)外部設(shè)備14 (例如鍵盤、指向設(shè)備、 顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)系統(tǒng)/服務(wù)器12交互的 設(shè)備通信,和/或與使得該計(jì)算機(jī)系統(tǒng)/服務(wù)器12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信 的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接 口 22進(jìn)行。并且,計(jì)算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò) (例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適 配器20通過總線18與計(jì)算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示 出,可以結(jié)合計(jì)算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代 碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、RAID系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存 儲(chǔ)系統(tǒng)等。
[0026] 圖2示出根據(jù)本發(fā)明實(shí)施例的一種文本表示方法,包括:在步驟S201,利用知識(shí)庫 識(shí)別文本中的概念并確定概念之間的關(guān)系;在步驟S202,利用所述概念之間的關(guān)系生成概 念圖;在步驟S203,確定所述概念圖的連通分量;在步驟S204,計(jì)算所述連通分量的權(quán)重; 在步驟S205,根據(jù)連通分量的權(quán)重確定表示該文本的概念。
[0027] 根據(jù)本發(fā)明實(shí)施例的知識(shí)庫定義了內(nèi)容廣泛的概念和概念之間的關(guān)系,知識(shí)庫 米用RDF(resource description framework,資源描述框架)來描述,RDF的基本思想 是:(1)將一切可以在Web上標(biāo)識(shí)的事物(具體的或抽象的,存在的或不存的)統(tǒng)稱為"資 源";(2)用URI (Universal Resource Identifier,通用資源標(biāo)識(shí))來標(biāo)識(shí)資源;(3)用屬性 (property)來描述資源的特征以及資源之間的關(guān)系。本發(fā)明實(shí)施例中知識(shí)庫中的概念是具 有可區(qū)別性且獨(dú)立存在的某種事物,對應(yīng)于RDF中
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
南靖县| 抚宁县| 米脂县| 滕州市| 石景山区| 泊头市| 安顺市| 黄骅市| 贵南县| 石屏县| 三都| 德江县| 乌鲁木齐县| 建瓯市| 汽车| 丰宁| 博乐市| 瑞昌市| 安义县| 佛教| 凤冈县| 和平县| 阿鲁科尔沁旗| 浑源县| 阜宁县| 商城县| 洛隆县| 阜平县| 德兴市| 上高县| 海安县| 宝鸡市| 咸丰县| 汝城县| 临泉县| 尚义县| 大同县| 文登市| 兴安县| 兴义市| 娱乐|