一種基于文法規(guī)則的分類方法
【專利摘要】本發(fā)明公開了一種基于文法規(guī)則的分類方法,通過near關(guān)鍵詞描述一種不區(qū)分順序的臨近關(guān)系,定義兩個(gè)關(guān)鍵詞前后出現(xiàn)要很近;通過after關(guān)鍵字描述一種區(qū)分順序的臨近關(guān)系;通過and/or/not關(guān)鍵字的組合,可定義文法規(guī)則的“與或非”關(guān)系,通過邏輯關(guān)系強(qiáng)化文法規(guī)則的描述能力;將A?/B?關(guān)鍵字在典型的文本分析中應(yīng)用,文本是和角色相關(guān)的,在文法匹配時(shí),角色這一屬性能夠有效增強(qiáng)文法匹配的針對(duì)性,細(xì)化匹配粒度??蓱?yīng)用于海量文本內(nèi)容的快速分類,在千萬級(jí)數(shù)據(jù)可達(dá)到秒級(jí)響應(yīng),能夠有效解決海量數(shù)據(jù)下的文本實(shí)時(shí)分類等應(yīng)用場景。通過定義一種類SQL查詢條件,使得文法規(guī)則的定義具有可讀性強(qiáng)、邏輯結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)奶攸c(diǎn)。
【專利說明】
一種基于文法規(guī)則的分類方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于文本分類技術(shù)領(lǐng)域,尤其涉及一種基于文法規(guī)則的分類方法。
【背景技術(shù)】
[0002]在大數(shù)據(jù)分析中,數(shù)據(jù)量日趨龐大,無論是入庫和查詢,都出現(xiàn)性能瓶頸,用戶的應(yīng)用和分析結(jié)果呈整合趨勢,對(duì)實(shí)時(shí)性和相應(yīng)時(shí)間要求越來越高,現(xiàn)有的數(shù)據(jù)分析已經(jīng)無法滿足海量數(shù)據(jù)下的文本實(shí)時(shí)分類的功能。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的在于提供一種基于文法規(guī)則的分類方法,旨在解決現(xiàn)有的數(shù)據(jù)分析已經(jīng)無法滿足海量數(shù)據(jù)下的文本實(shí)時(shí)分類的功能的問題。
[0004]本發(fā)明是這樣實(shí)現(xiàn)的,該基于文法規(guī)則的分類方法包括以下步驟:
[0005]步驟一、通過near關(guān)鍵詞描述一種不區(qū)分順序的臨近關(guān)系,定義兩個(gè)關(guān)鍵詞前后出現(xiàn)要很近;
[0006]步驟二、通過after關(guān)鍵字描述一種區(qū)分順序的臨近關(guān)系;
[0007]步驟三、通過and/or/not關(guān)鍵字的組合,可定義文法規(guī)則的“與或非”關(guān)系,通過邏輯關(guān)系強(qiáng)化文法規(guī)則的描述能力;
[0008]步驟四、將A-/B-關(guān)鍵字在典型的文本分析中應(yīng)用,文本是和角色相關(guān)的,在文法匹配時(shí),角色這一屬性能夠有效增強(qiáng)文法匹配的針對(duì)性,細(xì)化匹配粒度。
[0009]本發(fā)明還采取如下技術(shù)措施:
[0010]在步驟三中,and描述為“同時(shí)匹配”,等同于數(shù)學(xué)邏輯中的“與”關(guān)系;
[0011]or描述“有一個(gè)匹配”,等同于數(shù)學(xué)邏輯中的“或”關(guān)系;
[0012]not描述“不能匹配”,等同于數(shù)學(xué)邏輯中的“非”關(guān)系。
[0013]本發(fā)明具有的優(yōu)點(diǎn)和積極效果是:該基于文法規(guī)則的分類方法可應(yīng)用于海量文本內(nèi)容的快速分類,在千萬級(jí)數(shù)據(jù)可達(dá)到秒級(jí)響應(yīng),能夠有效解決海量數(shù)據(jù)下的文本實(shí)時(shí)分類等應(yīng)用場景。通過定義一種類SQL查詢條件,使得文法規(guī)則的定義具有可讀性強(qiáng)、邏輯結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)奶攸c(diǎn),同時(shí)便于維護(hù)。
【附圖說明】
[0014]圖1是本發(fā)明實(shí)施例提供的基于文法規(guī)則的分類方法的流程圖。
【具體實(shí)施方式】
[0015]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0016]下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明的應(yīng)用原理作進(jìn)一步描述。
[0017]該基于文法規(guī)則的分類方法包括以下步驟:
[0018]SlOl、通過near關(guān)鍵詞描述一種不區(qū)分順序的臨近關(guān)系,定義兩個(gè)關(guān)鍵詞前后出現(xiàn)要很近;
[0019]在文字上方便定位“關(guān)聯(lián)式”的語義,同時(shí)避免由于口語、書面語表述區(qū)別,語音識(shí)別字錯(cuò)誤帶來的匹配度問題;例如:您好near歡迎;
[0020]S102、通過after關(guān)鍵字描述一種區(qū)分順序的臨近關(guān)系;
[0021 ]在文字上方便定位“問答式”的語義;例如:是否明白after是的;
[0022]S103、通過and/or/not關(guān)鍵字的組合,可定義文法規(guī)則的“與或非”關(guān)系,通過邏輯關(guān)系強(qiáng)化文法規(guī)則的描述能力;
[0023]and描述為“同時(shí)匹配”,等同于數(shù)學(xué)邏輯中的“與”關(guān)系;
[0024]or描述“有一個(gè)匹配”,等同于數(shù)學(xué)邏輯中的“或”關(guān)系;
[0025]not描述“不能匹配”,等同于數(shù)學(xué)邏輯中的“非”關(guān)系;
[0026]通過上述關(guān)鍵字的組合,可定義文法規(guī)則的“與或非”關(guān)系,通過邏輯關(guān)系強(qiáng)化文法規(guī)則的描述能力。在典型的質(zhì)檢類應(yīng)用中,定義“要說什么同時(shí)不能說什么”,就可以通過組合and/not關(guān)鍵字描述,如:歡迎and not不清楚;
[0027]S104、將A-/B-關(guān)鍵字在典型的文本分析中應(yīng)用,文本是和角色相關(guān)的,比如:坐席和客戶、質(zhì)檢員和質(zhì)檢主管等;在文法匹配時(shí),角色這一屬性能夠有效增強(qiáng)文法匹配的針對(duì)性,細(xì)化匹配粒度;例如:A-歡迎您after B-請(qǐng)問,描述角色A說了 “歡迎您”,同時(shí)角色B跟著說了 “請(qǐng)問” O
[0028]應(yīng)用于海量文本內(nèi)容的快速分類,在千萬級(jí)數(shù)據(jù)可達(dá)到秒級(jí)響應(yīng),能夠有效解決海量數(shù)據(jù)下的文本實(shí)時(shí)分類等應(yīng)用場景。通過定義一種類SQL查詢條件,使得文法規(guī)則的定義具有可讀性強(qiáng)、邏輯結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)奶攸c(diǎn),同時(shí)便于維護(hù)。
[0029]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于文法規(guī)則的分類方法,其特征在于,該基于文法規(guī)則的分類方法包括以下步驟: 步驟一、通過near關(guān)鍵詞描述一種不區(qū)分順序的臨近關(guān)系,定義兩個(gè)關(guān)鍵詞前后出現(xiàn)要很近; 步驟二、通過after關(guān)鍵字描述一種區(qū)分順序的臨近關(guān)系; 步驟三、通過and/or/not關(guān)鍵字的組合,可定義文法規(guī)則的“與或非”關(guān)系,通過邏輯關(guān)系強(qiáng)化文法規(guī)則的描述能力; 步驟四、將A-/B-關(guān)鍵字在典型的文本分析中應(yīng)用,文本是和角色相關(guān)的,在文法匹配時(shí),角色這一屬性能夠有效增強(qiáng)文法匹配的針對(duì)性,細(xì)化匹配粒度。2.如權(quán)利要求1所述的基于文法規(guī)則的分類方法,其特征在于,在步驟三中,and描述為“同時(shí)匹配”,等同于數(shù)學(xué)邏輯中的“與”關(guān)系; or描述“有一個(gè)匹配”,等同于數(shù)學(xué)邏輯中的“或”關(guān)系; not描述“不能匹配”,等同于數(shù)學(xué)邏輯中的“非”關(guān)系。
【文檔編號(hào)】G06F17/30GK105912607SQ201610210107
【公開日】2016年8月31日
【申請(qǐng)日】2016年4月6日
【發(fā)明人】劉郁松, 何國濤, 李全忠, 蒲瑤
【申請(qǐng)人】普強(qiáng)信息技術(shù)(北京)有限公司