一種用于語(yǔ)言理解的層次語(yǔ)義樹構(gòu)建方法及系統(tǒng)的制作方法
【專利摘要】一種用于語(yǔ)言理解的層次語(yǔ)義樹構(gòu)建方法及系統(tǒng),該方法主要包括以下步驟:對(duì)語(yǔ)句進(jìn)行分詞并加載語(yǔ)義知識(shí)庫(kù);根據(jù)LV規(guī)則識(shí)別語(yǔ)句的所有節(jié)點(diǎn),根據(jù)語(yǔ)義知識(shí)和詞語(yǔ)位置及搭配識(shí)別節(jié)點(diǎn)的層次;把句末標(biāo)點(diǎn)生成特殊的節(jié)點(diǎn),作為語(yǔ)義樹的根節(jié)點(diǎn);根據(jù)上述生成的節(jié)點(diǎn)信息對(duì)其進(jìn)行合并,識(shí)別語(yǔ)句的語(yǔ)義邊語(yǔ)塊,把0級(jí)語(yǔ)義邊作為子節(jié)點(diǎn)掛于根節(jié)點(diǎn);循環(huán)遍歷其各個(gè)子節(jié)點(diǎn)直至無(wú)低層次語(yǔ)義邊,作為葉子節(jié)點(diǎn)掛于子節(jié)點(diǎn)。該方案在沒有句法資源的情況下,僅使用語(yǔ)義信息和詞語(yǔ)位置及搭配而得到語(yǔ)義結(jié)構(gòu)樹,使計(jì)算機(jī)能夠進(jìn)入自然語(yǔ)言的語(yǔ)義深層,在理解的基礎(chǔ)上完成對(duì)自然語(yǔ)言的各種處理,實(shí)現(xiàn)了自然語(yǔ)言語(yǔ)義理解的第一步,可用于信息檢索、自動(dòng)文摘、機(jī)器翻譯、文本分類以及信息過濾等。
【專利說明】-種用于語(yǔ)言理解的層次語(yǔ)義樹構(gòu)建方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種自然語(yǔ)言處理領(lǐng)域,具體地說是利用語(yǔ)義知識(shí)和詞語(yǔ)的位置及搭 配而得到的層次語(yǔ)義樹構(gòu)建方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著電子信息技術(shù)的發(fā)展,數(shù)字信息資源被越來越多的廣泛使用。這就需要機(jī)器 也能理解自然語(yǔ)言,在"懂"的基礎(chǔ)上完成對(duì)自然語(yǔ)言的各種處理,如信息檢索、自動(dòng)文摘、 機(jī)器翻譯、文本分類以及信息過濾等等??梢?,使得計(jì)算機(jī)能夠進(jìn)入自然語(yǔ)言的語(yǔ)義深層, 是達(dá)到上述目的一個(gè)條件。要想讓機(jī)器了解自然語(yǔ)言的意義,首先要了解自然語(yǔ)言語(yǔ)句的 結(jié)構(gòu),語(yǔ)句結(jié)構(gòu)是自然語(yǔ)言的一種基本結(jié)構(gòu),一般包括語(yǔ)法結(jié)構(gòu)和語(yǔ)義結(jié)構(gòu)。為了更好的對(duì) 語(yǔ)句的語(yǔ)義進(jìn)行描述,采用語(yǔ)句結(jié)構(gòu)樹是一種簡(jiǎn)單且清晰有效的方式。語(yǔ)句的結(jié)構(gòu)樹類型 主要包括兩種:一種是句法結(jié)構(gòu)樹,一種是語(yǔ)義結(jié)構(gòu)樹。句法結(jié)構(gòu)樹主要包括短語(yǔ)結(jié)構(gòu)樹、 依存樹等,其自動(dòng)構(gòu)建主要在句法標(biāo)注的基礎(chǔ)上,采用基于統(tǒng)計(jì)的方法來實(shí)現(xiàn),此類句法結(jié) 構(gòu)樹的構(gòu)建不使用或較少使用詞語(yǔ)的語(yǔ)義知識(shí)。
[0003] 語(yǔ)義結(jié)構(gòu)樹的構(gòu)建必須使用語(yǔ)義知識(shí),構(gòu)建語(yǔ)義樹是在HNC (概念層次網(wǎng)絡(luò))理論 的指導(dǎo)下,在沒有句法資源的情況下,僅使用語(yǔ)義知識(shí)和語(yǔ)詞語(yǔ)位置及搭配而進(jìn)行的,使得 計(jì)算機(jī)能夠進(jìn)入自然語(yǔ)言的語(yǔ)義深層,在理解的基礎(chǔ)上進(jìn)行自然語(yǔ)言的各種處理,實(shí)現(xiàn)自 然語(yǔ)言語(yǔ)義理解的第一步,為后續(xù)應(yīng)用在信息檢索、機(jī)器翻譯、信息過濾、文本分類等過程 中創(chuàng)造條件。
[0004] 在中國(guó)專利文獻(xiàn)CN1606004A中公開了一種從文本標(biāo)識(shí)語(yǔ)義結(jié)構(gòu)的方法和裝置, 形成至少兩個(gè)候選語(yǔ)義結(jié)構(gòu),基于所述語(yǔ)義結(jié)構(gòu)的似然性對(duì)每一候選語(yǔ)義結(jié)構(gòu)確定語(yǔ)義得 分,也基于單詞在文本中的位置以及從該單詞形成的語(yǔ)義實(shí)體在該語(yǔ)義結(jié)構(gòu)中的位置對(duì)每 一語(yǔ)義結(jié)構(gòu)確定句法得分,將句法得分和語(yǔ)義得分組合來對(duì)該文本的至少一部分選擇語(yǔ)義 結(jié)構(gòu)。該方案中定義實(shí)體的模式,該模式包括語(yǔ)義類型和概率、馬爾科夫概率和語(yǔ)義規(guī)則, 這些語(yǔ)義內(nèi)容的獲取需要訓(xùn)練大規(guī)模的數(shù)據(jù),對(duì)文本的領(lǐng)域依賴性強(qiáng),由于任務(wù)的復(fù)雜性, 取得的效果不一定理想,后續(xù)的所有的操作都依賴這一步的結(jié)果,其效果將大打折扣。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中的標(biāo)識(shí)語(yǔ)義結(jié)構(gòu)的方法需要訓(xùn)練大 規(guī)模的數(shù)據(jù),對(duì)文本的領(lǐng)域依賴性強(qiáng),從而提出一種無(wú)需訓(xùn)練的層次語(yǔ)義樹構(gòu)建方法和系 統(tǒng)。
[0006] 為解決上述技術(shù)問題,本發(fā)明提供一種用于語(yǔ)言理解的層次語(yǔ)義樹構(gòu)建方法及系 統(tǒng),包括如下步驟:
[0007] S1、輸入待處理語(yǔ)句,對(duì)待處理語(yǔ)句進(jìn)行分詞,并加載分詞后詞語(yǔ)的語(yǔ)義知識(shí);
[0008] S2、根據(jù)分詞結(jié)果,識(shí)別出該語(yǔ)句的語(yǔ)義節(jié)點(diǎn);
[0009] S3、利用語(yǔ)義知識(shí)和詞語(yǔ)位置及搭配獲得語(yǔ)義節(jié)點(diǎn)的層次;
[0010] S4、識(shí)別該語(yǔ)句中不同層次的語(yǔ)義邊;
[0011] S5、根據(jù)各層次的語(yǔ)義邊生成層次語(yǔ)義樹。
[0012] 優(yōu)選地,所述步驟S1中,對(duì)待處理語(yǔ)句進(jìn)行分詞時(shí),按照領(lǐng)域詞典和通用詞典對(duì) 待處理語(yǔ)句進(jìn)行分詞。
[0013] 優(yōu)選地,所述語(yǔ)義知識(shí)包括詞語(yǔ)的廣義概念類及其子類,所述詞語(yǔ)的廣義概念類 包括動(dòng)態(tài)、靜態(tài)、物、人、屬性、邏輯。
[0014] 優(yōu)選地,所述步驟S2中"根據(jù)分詞結(jié)果,識(shí)別出該語(yǔ)句的語(yǔ)義節(jié)點(diǎn)"的過程,包括:
[0015] 對(duì)于分詞后的詞語(yǔ),如果詞語(yǔ)的語(yǔ)義知識(shí)中有邏輯概念,對(duì)該詞語(yǔ)標(biāo)記為L(zhǎng),如果 詞語(yǔ)的語(yǔ)義知識(shí)中有動(dòng)態(tài)概念,標(biāo)記為V;
[0016] 對(duì)所有標(biāo)記為L(zhǎng)或V的詞語(yǔ),進(jìn)行LV排除處理;
[0017] 對(duì)所有L標(biāo)記根據(jù)其概念類別進(jìn)行標(biāo)記,并判斷其是否有后標(biāo)記,如果有后標(biāo)記, 對(duì)后標(biāo)記的詞語(yǔ)標(biāo)記為L(zhǎng)1H,根據(jù)上述所有標(biāo)記生成語(yǔ)義節(jié)點(diǎn)。
[0018] 優(yōu)選地,所述步驟S2中"根據(jù)分詞結(jié)果,識(shí)別出該語(yǔ)句的語(yǔ)義節(jié)點(diǎn)"的過程,還包 括:將句末標(biāo)點(diǎn)生成語(yǔ)義節(jié)點(diǎn)作為根節(jié)點(diǎn)。
[0019] 優(yōu)選地,所述步驟S3中"利用語(yǔ)義知識(shí)和詞語(yǔ)位置及搭配獲得語(yǔ)義節(jié)點(diǎn)的層次" 的過程,包括:
[0020] 所有L標(biāo)記和v標(biāo)記的默認(rèn)層次都記為0,當(dāng)出現(xiàn)兩個(gè)上述標(biāo)記相鄰時(shí),第二個(gè)標(biāo) 記的層次減小一層為-1。
[0021] 優(yōu)選地,所述步驟S4中"識(shí)別該語(yǔ)句中不同層次的語(yǔ)義邊"的過程,包括
[0022] 對(duì)所有標(biāo)記為V的語(yǔ)義節(jié)點(diǎn),進(jìn)行核心動(dòng)詞識(shí)別,生成語(yǔ)塊;
[0023] 對(duì)所有標(biāo)記為L(zhǎng)的語(yǔ)義節(jié)點(diǎn),生成語(yǔ)塊;
[0024] 根據(jù)語(yǔ)塊生成語(yǔ)義邊。
[0025] 優(yōu)選地,所述進(jìn)行核心動(dòng)詞識(shí)別的過程包括:
[0026] 排除不能構(gòu)成核心動(dòng)詞的詞語(yǔ);
[0027] 其余的詞語(yǔ)根據(jù)構(gòu)成和詞語(yǔ)本身所具有的特征賦予不同的權(quán)值,根據(jù)權(quán)值的排序 結(jié)果和位置信息選擇核心動(dòng)詞。
[0028] 優(yōu)選地,所述根據(jù)各層次的語(yǔ)義邊生成層次語(yǔ)義樹的過程,包括:
[0029] 選擇根節(jié)點(diǎn);
[0030] 把層次高的語(yǔ)塊,按照該層次中的順序,掛到根節(jié)點(diǎn)上,作為子節(jié)點(diǎn);
[0031] 遍歷所有子節(jié)點(diǎn),將每個(gè)子節(jié)點(diǎn)范圍內(nèi)的所有語(yǔ)塊作為該子節(jié)點(diǎn)的子節(jié)點(diǎn),直到 沒有新的子節(jié)點(diǎn)產(chǎn)生。
[0032] -種所述的層次語(yǔ)義樹構(gòu)建方法對(duì)應(yīng)的層次語(yǔ)義樹構(gòu)建系統(tǒng),包括:
[0033] 預(yù)處理單元:輸入待處理語(yǔ)句,對(duì)待處理語(yǔ)句進(jìn)行分詞,并加載分詞后詞語(yǔ)的語(yǔ)義 知識(shí);
[0034] 第一序列生成單元:根據(jù)分詞結(jié)果,識(shí)別出該語(yǔ)句的語(yǔ)義節(jié)點(diǎn);利用語(yǔ)義知識(shí)和 詞語(yǔ)位置及搭配獲得語(yǔ)義節(jié)點(diǎn)的層次;
[0035] 第二序列生成單元:識(shí)別該語(yǔ)句中不同層次的語(yǔ)義邊;
[0036] 層次語(yǔ)義樹生成單元:根據(jù)各層次的語(yǔ)義邊生成層次語(yǔ)義樹。
[0037] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn),
[0038] (1)本實(shí)施例所述的層次語(yǔ)義樹構(gòu)建方法,主要包括預(yù)處理、節(jié)點(diǎn)識(shí)別、語(yǔ)義邊識(shí) 另IJ、語(yǔ)義樹生成的過程,輸出上述結(jié)構(gòu)樹即可得到層次語(yǔ)義樹。本實(shí)施例中的層次語(yǔ)義樹構(gòu) 建的方案,對(duì)語(yǔ)句的分析都是利用規(guī)則方法進(jìn)行實(shí)現(xiàn)的。本方案中通過節(jié)點(diǎn)及其層次的識(shí) 另IJ、語(yǔ)義邊及其層次的識(shí)別,來控制規(guī)則在不同層次、不同階段的調(diào)度。在此原則指導(dǎo)下,首 先需要對(duì)規(guī)則進(jìn)行層次分類,每一類規(guī)則只在固定分析層次中調(diào)用,且每一條規(guī)則只關(guān)注 對(duì)鄰近語(yǔ)串中語(yǔ)言現(xiàn)象的分析,不需要兼顧對(duì)整體形勢(shì)的判斷,而是通過調(diào)度來解決規(guī)則 的兼容性問題。
[0039] (2)本發(fā)明中的層次語(yǔ)義樹構(gòu)建方法,在沒有句法資源的情況下,僅使用語(yǔ)義信息 和詞語(yǔ)位置及搭配而得到的語(yǔ)義結(jié)構(gòu)樹,使計(jì)算機(jī)能夠進(jìn)入自然語(yǔ)言的語(yǔ)義深層,在理解 的基礎(chǔ)上完成對(duì)自然語(yǔ)言的各種處理,實(shí)現(xiàn)了自然語(yǔ)言語(yǔ)義理解的第一步。構(gòu)建語(yǔ)義樹,可 廣泛應(yīng)用在自然語(yǔ)言處理領(lǐng)域,如信息檢索、自動(dòng)文摘、機(jī)器翻譯、文本分類以及信息過濾 等方便。本實(shí)施例中的語(yǔ)義樹的構(gòu)建方法,已經(jīng)應(yīng)用到專利文獻(xiàn)漢英機(jī)器翻譯上,顯著提高 了專利文獻(xiàn)譯文的可讀性和準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0040] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實(shí)施例并結(jié)合 附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明,其中
[0041] 圖1是本發(fā)明所述的層次語(yǔ)義樹構(gòu)建方法的流程圖;
[0042] 圖2本發(fā)明所述的層次語(yǔ)義樹構(gòu)建方法的節(jié)點(diǎn)生成流程圖;
[0043] 圖3本發(fā)明所述的層次語(yǔ)義樹構(gòu)建方法的語(yǔ)義邊生成流程圖;
[0044] 圖4、圖5本發(fā)明所述的層次語(yǔ)義樹構(gòu)建方法的一個(gè)應(yīng)用實(shí)例的結(jié)果示意圖;
[0045] 圖6是本發(fā)明所述的層次語(yǔ)義樹構(gòu)建系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0046] 實(shí)施例1 :
[0047] 本實(shí)施例中提供一種用于語(yǔ)言理解的層次語(yǔ)義樹構(gòu)建方法及系統(tǒng),語(yǔ)義樹即語(yǔ)義 結(jié)構(gòu)樹,是針對(duì)自然語(yǔ)言中的一個(gè)句子而言,指的是一個(gè)句子中特征語(yǔ)塊(核心動(dòng)詞語(yǔ)塊) 和由其決定的其他語(yǔ)塊之間的語(yǔ)義關(guān)系。如一個(gè)句子中的特征語(yǔ)塊V是表示作用的動(dòng)詞, 該特征語(yǔ)塊決定此句中必有作用者語(yǔ)塊、對(duì)象語(yǔ)塊、內(nèi)容語(yǔ)塊,只有如此句子的語(yǔ)義才完 整。雖然后三者在一定的上下文環(huán)境中可以省略其一,但是這四種語(yǔ)塊是句子成立即語(yǔ)義 完整的必要構(gòu)件,又叫主要語(yǔ)塊。而相比較而言,輔助語(yǔ)塊不是句子成立的必要構(gòu)件,主要 是表示動(dòng)作的方式、手段、途徑、條件、時(shí)間等。主要語(yǔ)塊和輔助語(yǔ)塊都可由一定的邏輯概念 來提示,因此使用LV (邏輯概念和動(dòng)態(tài)概念)準(zhǔn)則來識(shí)別句子的語(yǔ)義結(jié)構(gòu)成為可能。本實(shí) 施例中的層次語(yǔ)義樹構(gòu)建方法,就是利用LV準(zhǔn)則來識(shí)別一個(gè)句子的主要語(yǔ)塊和輔助語(yǔ)塊, 該方案可實(shí)現(xiàn)自動(dòng)對(duì)語(yǔ)句進(jìn)行劃分,用于語(yǔ)言翻譯中,可以大大提高了機(jī)器翻譯的可讀性 和準(zhǔn)確性。
[0048] 本實(shí)施例中的層次語(yǔ)義樹構(gòu)建方法,主要的處理過程包括:待處理語(yǔ)句S110經(jīng)過 預(yù)處理S120、節(jié)點(diǎn)識(shí)別S130、語(yǔ)義邊識(shí)別S140、語(yǔ)義樹生成S150后得到語(yǔ)義樹S160,流程 圖如圖1所示,具體包括如下步驟:
[0049] S1、輸入待處理語(yǔ)句,對(duì)待處理語(yǔ)句進(jìn)行分詞,并加載分詞后詞語(yǔ)的語(yǔ)義知識(shí)。對(duì) 待處理語(yǔ)句進(jìn)行分詞時(shí),按照領(lǐng)域詞典和通用詞典對(duì)待處理語(yǔ)句進(jìn)行分詞。
[0050] S2、根據(jù)分詞結(jié)果,識(shí)別出該語(yǔ)句的語(yǔ)義節(jié)點(diǎn)。主要包括以下過程:對(duì)于分詞后的 詞語(yǔ),如果詞語(yǔ)的語(yǔ)義知識(shí)中有虛詞義項(xiàng),對(duì)該詞語(yǔ)標(biāo)記為L(zhǎng),如果詞語(yǔ)的語(yǔ)義知識(shí)中有動(dòng) 詞義項(xiàng),標(biāo)記為V ;對(duì)所有標(biāo)記為L(zhǎng)或V的詞語(yǔ),進(jìn)行LV排除處理;對(duì)所有L標(biāo)記根據(jù)其概 念類別進(jìn)行標(biāo)記,并判斷其是否有后標(biāo)記,如果有后標(biāo)記,對(duì)后標(biāo)記的詞語(yǔ)也進(jìn)行標(biāo)記,根 據(jù)上述所有標(biāo)記生成語(yǔ)義節(jié)點(diǎn)。
[0051] 上述過程具體的方式如下:
[0052] 對(duì)每個(gè)詞語(yǔ)進(jìn)行LV識(shí)別,如果詞語(yǔ)的語(yǔ)義知識(shí)中有虛詞義項(xiàng),則該詞語(yǔ)標(biāo)記為L(zhǎng), 如果詞語(yǔ)的語(yǔ)義知識(shí)中有動(dòng)詞義項(xiàng),則該詞語(yǔ)標(biāo)記為V。所述語(yǔ)義知識(shí)包括詞語(yǔ)的廣義概念 類及其子類(即概念類別),所述詞語(yǔ)的概念廣義概念類包括動(dòng)態(tài)、靜態(tài)、物、人、屬性和邏 輯。
[0053] 對(duì)所有標(biāo)記為L(zhǎng)或V的詞語(yǔ),進(jìn)行LV排除處理,如果該詞語(yǔ)前面有"的"、"一種" 這樣的詞語(yǔ),則取消其L和V標(biāo)記;如果該詞語(yǔ)后面有"的"這樣的詞語(yǔ),則取消其L和V標(biāo) 記;
[0054] 對(duì)所有L標(biāo)記,如果該節(jié)點(diǎn)的概念類別是11,則其標(biāo)記修改為L(zhǎng)1 ;判斷其是否有后 標(biāo)記,"當(dāng)…時(shí)候"中,"時(shí)候"是"當(dāng)"的后標(biāo)記,對(duì)后標(biāo)記的詞語(yǔ),生成一個(gè)標(biāo)記為L(zhǎng)1H的標(biāo) 記;如果該節(jié)點(diǎn)的概念類別是10,則其標(biāo)記修改為L(zhǎng)0。
[0055] 把所有L標(biāo)記(包括L0、L1和L1H)和V標(biāo)記,帶上位置信息,生成一個(gè)語(yǔ)義節(jié)點(diǎn), 記入一個(gè)隊(duì)列,稱之為第一序列。如果一個(gè)詞語(yǔ)上生成超過1個(gè)語(yǔ)義節(jié)點(diǎn),都記入第一序 列。
[0056] S3、利用語(yǔ)義知識(shí)和詞語(yǔ)位置獲得語(yǔ)義節(jié)點(diǎn)的層次。首先,將所有L標(biāo)記和v標(biāo) 記的默認(rèn)層次都記為〇,當(dāng)出現(xiàn)兩個(gè)上述標(biāo)記相鄰時(shí),第二個(gè)標(biāo)記的層次減小一層。具體如 下:
[0057] 對(duì)第一序列中的所有語(yǔ)義節(jié)點(diǎn),進(jìn)行LV層次識(shí)別,所有L標(biāo)記和V標(biāo)記的默認(rèn)層 次都記為〇 ;
[0058] 當(dāng)兩個(gè)L相鄰時(shí),即出現(xiàn)L1L2時(shí),L2的層次減1 ;
[0059] 當(dāng)L和V相鄰時(shí),即出現(xiàn)L1V2時(shí),V2的層次減1 ;
[0060] 當(dāng)L和V相鄰時(shí),即出現(xiàn)V1L2時(shí),L2的層次減1 ;
[0061] 對(duì)句號(hào)標(biāo)點(diǎn)符號(hào),生成一個(gè)語(yǔ)義節(jié)點(diǎn),其標(biāo)記為SST,記入第一序列。
[0062] S4、識(shí)別該語(yǔ)句中不同層次的語(yǔ)義邊。包括:首先,對(duì)所有標(biāo)記為V的語(yǔ)義節(jié)點(diǎn),進(jìn) 行核心動(dòng)詞識(shí)別,生成語(yǔ)塊;然后,對(duì)所有標(biāo)記為L(zhǎng)的語(yǔ)義節(jié)點(diǎn),生成語(yǔ)塊;從而,根據(jù)語(yǔ)塊 生成語(yǔ)義邊。
[0063] 具體方式如下:
[0064] 生成一個(gè)隊(duì)列,稱之為第二序列;
[0065] 對(duì)第一序列中所有標(biāo)記為V的語(yǔ)義節(jié)點(diǎn),進(jìn)行EG識(shí)別,生成語(yǔ)塊,其標(biāo)記為CHK_ EG,把語(yǔ)塊加入第二序列;
[0066] 對(duì)第一序列中所有標(biāo)記為L(zhǎng)的語(yǔ)義節(jié)點(diǎn),進(jìn)行以下處理:
[0067] 對(duì)所有標(biāo)記為L(zhǎng)1的語(yǔ)義節(jié)點(diǎn),生成一個(gè)語(yǔ)塊,其標(biāo)記是CHK_ABK,其起始位置為L(zhǎng)1 節(jié)點(diǎn)的起始位置;判斷該節(jié)點(diǎn)后是否有L1H,如果有,則語(yǔ)塊結(jié)束位置是L1H的結(jié)束位置;如 果其后沒有L1H,則語(yǔ)塊結(jié)束位置是緊鄰的下一個(gè)標(biāo)記為L(zhǎng)的語(yǔ)義節(jié)點(diǎn)的起始位置pos-1, 語(yǔ)塊層次是語(yǔ)義節(jié)點(diǎn)的層次,把語(yǔ)塊加入第二序列;
[0068] 對(duì)所有標(biāo)記為L(zhǎng)0的語(yǔ)義節(jié)點(diǎn),生成一個(gè)語(yǔ)塊,其標(biāo)記是CHK_L0,其起始位置是L0 的起始位置,其結(jié)束位置是L0的結(jié)束位置,語(yǔ)塊層次是語(yǔ)義節(jié)點(diǎn)的層次,把語(yǔ)塊加入第二 序列;
[0069] 對(duì)所有標(biāo)記為L(zhǎng)0的語(yǔ)義節(jié)點(diǎn),生成一個(gè)語(yǔ)塊,其標(biāo)記是CHK_GBK,其起始位置是L0 的結(jié)束位置P〇s+l,其結(jié)束位置是緊鄰的下一個(gè)語(yǔ)塊(其標(biāo)記是CHK_EG或CHK_ABK或CHK_ L0)的起始位置pos-1,語(yǔ)塊層次是語(yǔ)義節(jié)點(diǎn)的層次,把語(yǔ)塊加入第二序列;
[0070] 對(duì)第一序列中標(biāo)記為SST的語(yǔ)義節(jié)點(diǎn),生成一個(gè)語(yǔ)塊,其標(biāo)記是CHK_SST,加入到 第二序列。該過程中得到的語(yǔ)塊CHK_SST、CHK_ABK、CHK_EG、CHK_L0即為語(yǔ)義邊。
[0071] 上述過程中,EG識(shí)別是指核心動(dòng)詞識(shí)別,主要是通過設(shè)計(jì)一系列有序的權(quán)值來判 斷每一個(gè)動(dòng)態(tài)概念作為EG的權(quán)值大小,該過程包括:首先,排除不能構(gòu)成核心動(dòng)詞的詞語(yǔ), 將語(yǔ)句中有可能構(gòu)成EG的詞語(yǔ)進(jìn)行初步排除,包括動(dòng)態(tài)概念與靜態(tài)概念、邏輯概念、屬性 兼類以及不同動(dòng)態(tài)概念的兼類。然后,其余的詞語(yǔ)根據(jù)搭配和詞語(yǔ)本身所具有的特征賦予 不同的權(quán)值,根據(jù)權(quán)值的排序結(jié)果和位置信息選擇核心動(dòng)詞。也就是把排除后剩下的候選 詞語(yǔ)全部生成EG,并根據(jù)它們構(gòu)成或詞語(yǔ)本身所具有的特征賦予不同的權(quán)值,綜合考慮權(quán) 值排序結(jié)果及位置信息選擇一個(gè)合適的詞語(yǔ)作為語(yǔ)句的EG。
[0072] S5、根據(jù)各層次的語(yǔ)義邊生成層次語(yǔ)義樹。首先,選擇根節(jié)點(diǎn);然后,把層次高的語(yǔ) 塊,按照該層次中的順序,掛到根節(jié)點(diǎn)上,作為子節(jié)點(diǎn);最后,遍歷所有子節(jié)點(diǎn),將每個(gè)子節(jié) 點(diǎn)范圍內(nèi)的所有語(yǔ)塊作為該子節(jié)點(diǎn)的子節(jié)點(diǎn),直到?jīng)]有新的葉子節(jié)點(diǎn)產(chǎn)生。
[0073] 本實(shí)施例所述的層次語(yǔ)義樹構(gòu)建方法,主要包括以下步驟:對(duì)語(yǔ)句進(jìn)行分詞并加 載語(yǔ)義知識(shí)庫(kù);根據(jù)LV規(guī)則和語(yǔ)言規(guī)則,識(shí)別語(yǔ)句的所有節(jié)點(diǎn)及其層次;把句末標(biāo)點(diǎn)符號(hào) 生成特殊的節(jié)點(diǎn),作為語(yǔ)義樹的根節(jié)點(diǎn);根據(jù)上述生成的節(jié)點(diǎn)信息對(duì)其進(jìn)行合并,識(shí)別語(yǔ)句 的語(yǔ)義邊語(yǔ)塊,把〇級(jí)語(yǔ)義邊語(yǔ)塊作為子節(jié)點(diǎn)掛于根節(jié)點(diǎn);遍歷各個(gè)子節(jié)點(diǎn)直至無(wú)低層次 語(yǔ)義邊語(yǔ)塊,作為葉子節(jié)點(diǎn)掛于子節(jié)點(diǎn)。輸出上述結(jié)構(gòu)樹即可得到層次語(yǔ)義樹。本實(shí)施例 中的層次語(yǔ)義樹構(gòu)建的方案,對(duì)語(yǔ)句的分析都是利用規(guī)則方法進(jìn)行實(shí)現(xiàn)的。規(guī)則系統(tǒng)受到 質(zhì)疑的一個(gè)原因在于,若規(guī)則描述過于簡(jiǎn)單,則規(guī)則產(chǎn)生的結(jié)果或者互相矛盾,或者不足以 分析句子。若想完全依賴規(guī)則準(zhǔn)確地給出分析結(jié)果,就需要每一條規(guī)則能夠描寫復(fù)雜的語(yǔ) 言現(xiàn)象,這使得規(guī)則的概括性差,書寫需要大量人工,不具有可行性。為解決這一矛盾,本方 案中通過節(jié)點(diǎn)及其層次的識(shí)別、語(yǔ)義邊及其層次的識(shí)別,來控制規(guī)則在不同層次、不同階段 的調(diào)度。在此原則指導(dǎo)下,首先需要對(duì)規(guī)則進(jìn)行層次分類,每一類規(guī)則只在固定分析層次中 調(diào)用,且每一條規(guī)則只關(guān)注對(duì)鄰近語(yǔ)串中語(yǔ)言現(xiàn)象的分析,不需要兼顧對(duì)整體形勢(shì)的判斷, 而是通過調(diào)度來解決規(guī)則的兼容性問題。本實(shí)施例中解決的策略有兩條:首先避免規(guī)則的 貪婪匹配,使規(guī)則調(diào)用具有層次性,并在每一個(gè)層次上依據(jù)激活信息調(diào)用相應(yīng)規(guī)則;其次, 調(diào)度會(huì)根據(jù)不同處理階段的語(yǔ)句特征對(duì)規(guī)則生成的結(jié)果進(jìn)行選擇合成。這樣,既減少了需 要匹配的規(guī)則,也減少了不同規(guī)則所產(chǎn)生的矛盾對(duì)最終分析的影響,以此加強(qiáng)對(duì)規(guī)則調(diào)用 的控制,也使得基于規(guī)則的層次語(yǔ)義樹的構(gòu)建成為可能。
[0074] 上述構(gòu)建語(yǔ)義樹是在概念層次網(wǎng)絡(luò)理論的指導(dǎo)下,在沒有句法資源的情況下,僅 使用語(yǔ)義信息和語(yǔ)言規(guī)則而得到的語(yǔ)義結(jié)構(gòu)樹,使計(jì)算機(jī)能夠進(jìn)入自然語(yǔ)言的語(yǔ)義深層, 在理解的基礎(chǔ)上完成對(duì)自然語(yǔ)言的各種處理,實(shí)現(xiàn)了自然語(yǔ)言語(yǔ)義理解的第一步。構(gòu)建語(yǔ) 義樹,可廣泛應(yīng)用在自然語(yǔ)言處理領(lǐng)域,如信息檢索、自動(dòng)文摘、機(jī)器翻譯、文本分類以及信 息過濾等方便。本實(shí)施例中的語(yǔ)義樹的構(gòu)建方法,已經(jīng)應(yīng)用到專利文獻(xiàn)漢英機(jī)器翻譯上,顯 著提高了專利文獻(xiàn)譯文的可讀性和準(zhǔn)確性。
[0075] 實(shí)施例2 :
[0076] 本實(shí)施例中給出一個(gè)具體的層次語(yǔ)義樹構(gòu)建方法,該方案的基本流程也是如圖1 所示,本實(shí)施例中層次語(yǔ)義樹構(gòu)建方法100開始于步驟S110即輸入待處理語(yǔ)句,然后在 步驟S120中對(duì)待處理語(yǔ)句進(jìn)行預(yù)處理,即按照領(lǐng)域詞典和通用詞典對(duì)待處理語(yǔ)句進(jìn)行分 詞,并加載詞語(yǔ)的語(yǔ)義知識(shí),語(yǔ)義知識(shí)主要包括詞語(yǔ)的廣義概念類即V(動(dòng)態(tài))、G(靜態(tài))、 W(物)、P (人)、U (屬性)、L (邏輯)六大廣義概念類和其統(tǒng)籌下的若干子類;其次,在步驟 S130中識(shí)別該語(yǔ)句的語(yǔ)義節(jié)點(diǎn)并對(duì)其的層次進(jìn)行區(qū)分,第一步是對(duì)分詞后的結(jié)果,采用LV 規(guī)則識(shí)別所有的語(yǔ)義節(jié)點(diǎn),第二步是利用語(yǔ)義知識(shí)和詞語(yǔ)位置,比較判斷出節(jié)點(diǎn)的層次;再 次,在步驟S140中識(shí)別該語(yǔ)句的不同層次的語(yǔ)義邊,把小句層面的語(yǔ)義節(jié)點(diǎn)的識(shí)別結(jié)果, 識(shí)別為小句層面的語(yǔ)義邊,把語(yǔ)塊層面的語(yǔ)義節(jié)點(diǎn)的識(shí)別結(jié)果,識(shí)別為語(yǔ)塊層面的語(yǔ)義邊; 然后,在步驟S150中生成層次語(yǔ)義樹,根據(jù)語(yǔ)義邊的識(shí)別結(jié)果,根據(jù)調(diào)度分層次生成在樹 結(jié)構(gòu)上;最后,在步驟S160中輸出待處理語(yǔ)句的層次語(yǔ)義樹。
[0077] 圖2是說明節(jié)點(diǎn)識(shí)別300的示意圖。如圖2所示,節(jié)點(diǎn)識(shí)別的入口 S310是待處理 語(yǔ)料的分詞結(jié)果。在步驟S311中對(duì)詞語(yǔ)和標(biāo)點(diǎn)區(qū)別對(duì)待。對(duì)于詞語(yǔ)來說,需要對(duì)每一個(gè)詞 加載概念類別等語(yǔ)義知識(shí)。語(yǔ)義知識(shí)簡(jiǎn)單包括如下兩個(gè)方面:詞語(yǔ)屬性,其包括廣義概念 類GCC、概念類別CC、LV屬性LV、語(yǔ)素 QH、是否是純V動(dòng)詞CHUNV ;句類屬性,其包括廣義作 用句GXGY、主語(yǔ)塊數(shù)量GBK_NUM、是否塊擴(kuò)句EPER、是否GBK2原型句蛻GBK2_YT、被動(dòng)語(yǔ)態(tài) ALL_PASS、是否構(gòu)成雙向關(guān)系句R0、是否構(gòu)成比較判斷句JD0。需要特別說明的是,概念類 別的分類及其說明如下表所示:
[0078]
【權(quán)利要求】
1. 一種用于語(yǔ)言理解的層次語(yǔ)義樹構(gòu)建方法及系統(tǒng),其特征在于,包括如下步驟: 51、 輸入待處理語(yǔ)句,對(duì)待處理語(yǔ)句進(jìn)行分詞,并加載分詞后詞語(yǔ)的語(yǔ)義知識(shí); 52、 根據(jù)分詞結(jié)果,識(shí)別出該語(yǔ)句的語(yǔ)義節(jié)點(diǎn); 53、 利用語(yǔ)義知識(shí)和詞語(yǔ)位置及搭配獲得語(yǔ)義節(jié)點(diǎn)的層次; 54、 識(shí)別該語(yǔ)句中不同層次的語(yǔ)義邊; 55、 根據(jù)各層次的語(yǔ)義邊生成層次語(yǔ)義樹。
2. 根據(jù)權(quán)利要求1所述的層次語(yǔ)義樹構(gòu)建方法,其特征在于,包括:所述步驟S1中,對(duì) 待處理語(yǔ)句進(jìn)行分詞時(shí),按照領(lǐng)域詞典和通用詞典對(duì)待處理語(yǔ)句進(jìn)行分詞。
3. 根據(jù)權(quán)利要求1或2所述的層次語(yǔ)義樹構(gòu)建方法,其特征在于,所述語(yǔ)義知識(shí)包括詞 語(yǔ)的廣義概念類及其子類,所述詞語(yǔ)的廣義概念類包括動(dòng)態(tài)、靜態(tài)、物、人、屬性、邏輯。
4. 根據(jù)權(quán)利要求1-3任一所述的層次語(yǔ)義樹構(gòu)建方法,其特征在于,所述步驟S2中"根 據(jù)分詞結(jié)果,識(shí)別出該語(yǔ)句的語(yǔ)義節(jié)點(diǎn)"的過程,包括: 對(duì)于分詞后的詞語(yǔ),如果詞語(yǔ)的語(yǔ)義知識(shí)中有邏輯概念,對(duì)該詞語(yǔ)標(biāo)記為L(zhǎng),如果詞語(yǔ) 的語(yǔ)義知識(shí)中有動(dòng)態(tài)概念,標(biāo)記為V ; 對(duì)所有標(biāo)記為L(zhǎng)或V的詞語(yǔ),進(jìn)行LV排除處理; 對(duì)所有L標(biāo)記根據(jù)其概念類別進(jìn)行標(biāo)記,并判斷其是否有后標(biāo)記,如果有后標(biāo)記,對(duì)后 標(biāo)記的詞語(yǔ)標(biāo)記為L(zhǎng)1H,根據(jù)上述所有標(biāo)記生成語(yǔ)義節(jié)點(diǎn)。
5. 根據(jù)權(quán)利要求1-4任一所述的層次語(yǔ)義樹構(gòu)建方法,其特征在于,所述步驟S2中"根 據(jù)分詞結(jié)果,識(shí)別出該語(yǔ)句的語(yǔ)義節(jié)點(diǎn)"的過程,還包括:將句末標(biāo)點(diǎn)生成語(yǔ)義節(jié)點(diǎn)作為根 節(jié)點(diǎn)。
6. 根據(jù)權(quán)利要求1-5任一所述的層次語(yǔ)義樹構(gòu)建方法,其特征在于,所述步驟S3中"利 用語(yǔ)義知識(shí)和詞語(yǔ)位置及搭配獲得語(yǔ)義節(jié)點(diǎn)的層次"的過程,包括: 所有L標(biāo)記和v標(biāo)記的默認(rèn)層次都記為0,當(dāng)出現(xiàn)兩個(gè)上述標(biāo)記相鄰時(shí),第二個(gè)標(biāo)記的 層次減小一層為-1。
7. 根據(jù)權(quán)利要求1-6任一所述的層次語(yǔ)義樹構(gòu)建方法,其特征在于,所述步驟S4中"識(shí) 別該語(yǔ)句中不同層次的語(yǔ)義邊"的過程,包括 對(duì)所有標(biāo)記為V的語(yǔ)義節(jié)點(diǎn),進(jìn)行核心動(dòng)詞識(shí)別,生成語(yǔ)塊; 對(duì)所有標(biāo)記為L(zhǎng)的語(yǔ)義節(jié)點(diǎn),生成語(yǔ)塊; 根據(jù)語(yǔ)塊生成語(yǔ)義邊。
8. 根據(jù)權(quán)利要求1-7任一所述的層次語(yǔ)義樹構(gòu)建方法,其特征在于,所述進(jìn)行核心動(dòng) 詞識(shí)別的過程包括: 排除不能構(gòu)成核心動(dòng)詞的詞語(yǔ); 其余的詞語(yǔ)根據(jù)構(gòu)成和詞語(yǔ)本身所具有的特征賦予不同的權(quán)值,根據(jù)權(quán)值的排序結(jié)果 和位置信息選擇核心動(dòng)詞。
9. 根據(jù)權(quán)利要求1-8任一所述的層次語(yǔ)義樹構(gòu)建方法,其特征在于,所述根據(jù)各層次 的語(yǔ)義邊生成層次語(yǔ)義樹的過程,包括: 選擇根節(jié)點(diǎn); 把層次高的語(yǔ)塊,按照該層次中的順序,掛到根節(jié)點(diǎn)上,作為子節(jié)點(diǎn); 遍歷所有子節(jié)點(diǎn),將每個(gè)子節(jié)點(diǎn)范圍內(nèi)的所有語(yǔ)塊作為該子節(jié)點(diǎn)的子節(jié)點(diǎn),直到?jīng)]有 新的子節(jié)點(diǎn)產(chǎn)生。
10. -種權(quán)利要求1-9所述的層次語(yǔ)義樹構(gòu)建方法對(duì)應(yīng)的層次語(yǔ)義樹構(gòu)建系統(tǒng),其特 征在于,包括: 預(yù)處理單元:輸入待處理語(yǔ)句,對(duì)待處理語(yǔ)句進(jìn)行分詞,并加載分詞后詞語(yǔ)的語(yǔ)義知 識(shí); 第一序列生成單元:根據(jù)分詞結(jié)果,識(shí)別出該語(yǔ)句的語(yǔ)義節(jié)點(diǎn);利用語(yǔ)義知識(shí)和詞語(yǔ) 位置及搭配獲得語(yǔ)義節(jié)點(diǎn)的層次; 第二序列生成單元:識(shí)別該語(yǔ)句中不同層次的語(yǔ)義邊; 層次語(yǔ)義樹生成單元:根據(jù)各層次的語(yǔ)義邊生成層次語(yǔ)義樹。
【文檔編號(hào)】G06F17/27GK104142917SQ201410216929
【公開日】2014年11月12日 申請(qǐng)日期:2014年5月21日 優(yōu)先權(quán)日:2014年5月21日
【發(fā)明者】晉耀紅, 朱筠, 劉小蝶 申請(qǐng)人:北京師范大學(xué)