專利名稱:一種數(shù)字化知識挖掘的方法
技術領域:
本發(fā)明屬于IT領域,它提供一種數(shù)字化知識挖掘的方法,使得數(shù)字化過程中在幾乎 不增加成本的情況下,可以獲取知識,包括詞的分類、認同字及字、詞和句子的意義,如 挖掘出文獻中的所有人名、地名、事件名等及所有字頭字、短語、例句、書名等。數(shù)字加工單位通過本發(fā)明提供的意義標記方法、著重詞標記方法、認同字標記方法,在加工一種文獻之前定義所要挖掘的知識點,在加工完成后先通過知識生成模塊生成格式 規(guī)范的知識,再通過知識獲取模塊挖掘出文獻中的分類知識。
背景技術:
隨著現(xiàn)代計算機通訊、網(wǎng)絡技術的迅猛發(fā)展,以內(nèi)容革命為核心的第二次信息革命正 在世界各國全面鋪開,信息資源數(shù)字化成為當代信息社會的必需。讀者可以通過網(wǎng)絡獲取 大量的知識,但是數(shù)據(jù)量太大,雖然可以通過檢索縮少范圍,但數(shù)據(jù)仍然是海量的,主要 的原因是數(shù)據(jù)沒有被分類,也就是沒有建立知識點供游覽者聚類。目前數(shù)據(jù)內(nèi)容的知識挖掘已經(jīng)被越來越多的專家和讀者重視,但現(xiàn)有的技術知識挖掘 的成本非常的高,它們都是在數(shù)字化后由專家或是專人對原文獻逐字閱讀,然后在相應位 置標記知識點。發(fā)明內(nèi)容本發(fā)明為一種數(shù)字化知識挖掘的方法,包括意義挖掘方法、詞挖掘方法、認同字挖掘 方法。一、知識標記方法1. 意義標記方法(1) 字體添加signification (意義)屬性;(2) 意義屬性值可以是文獻名、標題、圖像標題、表格標題、正文、索引標題、 索引l、索引2、索引3、表格文字、目錄l、目錄2、目錄3、目錄4、目錄5、目錄6、 批注主題、批注、頁腳、頁眉、中縫、參考文獻、例句、句子、短語、諺語、成語、習慣 用語、詞、字、二行小字、三行小字、四行小字、插入字、其它。(3) 有些知識點意義屬性需要通過意義說明加以描述。2. 詞標記方法(1) 創(chuàng)建著重詞標記符,如用XML定義著重符標簽為decoration;(2) 著重詞包括signification (意義)屬性;3(2) 著重詞包括signification (意義)屬性;(3) 意義屬性值可以是人名、地名、事件名、書名、附掩注等。 3.認同字標記方法(1)創(chuàng)建文本認同字屬性,通過認同字在文本中的位置標記對應位置的字被認同。二、 知識生成模塊不同數(shù)字化加工單位加工完成的原始數(shù)據(jù)是離散的,通常是存在數(shù)據(jù)庫和數(shù)據(jù)文件 中,格式不統(tǒng)一,通過本發(fā)明提供的知識生成模塊,將原始數(shù)據(jù)格式化,便于知識獲取。1. 字體意義生成模塊將字體意義原始數(shù)據(jù)生成規(guī)范格式數(shù)據(jù)。2. 著重詞意義生成模塊將著重詞意義原始數(shù)據(jù)生成規(guī)范格式數(shù)據(jù)。3. 認同字生成模塊將認同字原始數(shù)據(jù)生成規(guī)范格式數(shù)據(jù)。三、 知識獲取模塊1. 字體意義獲取模塊通過字體意義屬性及屬性值獲取知識2. 著重詞意義獲取模塊通過著重詞屬性及屬性值獲取分類知識。3. 認同字獲取模塊:通過認同字在文本中的位置獲取認同字:^
圖l:知識標記方法。 圖2:知識生成模塊。 圖3:知識獲取模塊。 圖4:英漢詞典詞目示例。 圖5:著重詞示例。 圖6:認同字示例。
具體實施方式
下面通過示例給出本發(fā)明的應用方法 1.意義挖掘方法如英漢詞典中的詞頭字型、短語字型、例句字型等,生產(chǎn)線Ji:的.輸入員在'正常輸入時, 無需考慮知識挖掘的問題,只需正常確認字型即可。如圖4。其中"ad,a.man'tine"是詞頭;"~c/ a/ns"是例句;丫" spar"是短語。輸入員在輸入它們時,分別輸入為"+1ad'aTnan'tine+" 、 "+2 chains+"和"+3 spar+",其中"+"是字型控制符;字型后的數(shù)字表示的是第幾種字型,在這旱字型1表示的是詞頭字型;字型2表示的是例句字型;字型3表示的是短礙字型。程序在制作XML 文件時,當遇到"+"控制符時,知識生成模塊中的字體意義生成模塊將控制符"+"轉(zhuǎn)換為 對應的標簽,轉(zhuǎn)換結(jié)果如下<font size="48" weight-"bold" signification-"詞頭"〉<text>1ad.a.man-tine</text> </font><font size二"40" style="italic" signification-"伊J句"〉<text> ch3ins</tsxt> </font><font size="40" weight="bold" signification-"短i吾"〉<text> sp3r</text> </font>當一種文獻數(shù)字化完成后,通過知識獲取模塊中的字體意義獲取模塊對XML的解釋 得到所有的知識,如詞典中的所有詞頭、例句、短語等。2. 詞挖掘方法著重詞通常是一種語法屬性,如人名外加框;地名旁加下劃線;事件名旁加波浪線等。 在數(shù)字化加工中,當輸入人員遇到圖5時,輸入"「屯田"!",其中"「V'表示著重詞控 制符,制作XML文件時,知識生成模塊中的著重詞意義生成模塊將"「屯田"!"轉(zhuǎn)換為-<decoration signification-"地名"〉屯田〈/decoration〉當一種文獻數(shù)字化完成后,通過知識獲取模塊中的著重詞意義獲取模塊對XML的解 釋得到所有的分類知識,如文獻中的所有地名、人名、事件名等。3. 認同字挖掘方法在數(shù)字化加工中,當輸入人員遇到圖6時,輸入"元宵l遊",其中"l"表示認同字控 制符,制作XML文件時,知識生成模塊中的認同字生成模塊將"元宵i遊"轉(zhuǎn)換為-<text reverse="reverse" variant-"3"〉元宵遊々text〉當一種文獻數(shù)字化完成后,通過知識獲取模塊中的認同字獲取模塊對XML的解釋得 到所有的認同字,根據(jù)認同字的編碼獲取該編碼正字的所有異體字。當數(shù)字化文獻數(shù)量達到一定規(guī)模時,認同字獲取模塊提供了所有正字的異體字表。
權利要求
1.一種數(shù)字化知識挖掘的方法,包括知識標記方法、知識生成模塊、知識獲取模塊。
2. 如權利要求1所述的知識標記方法,包括意義標記方法、詞標記方法、認同字標記方法。
3. 如權利要求2所述的意義標記方法,包括字體添加意義屬性創(chuàng)建字體意義屬性,通過意義屬性值創(chuàng)建意義,建立知識點,從而使得數(shù)字化文獻中的內(nèi)容被賦予了指定的意義; 字體添加意義說明提供意義補充說明手段,對有可能產(chǎn)生二義性的指定的意義提供說明。
4. 如權利要求2所述的詞標記方法,包括著重詞標記創(chuàng)建著重詞標記符,它不僅標記著重詞類型,還包括詞的內(nèi)容本身; 著重詞意義屬性創(chuàng)建著重詞意義屬性,通過詞類,建立知識點,從而使得數(shù)字化文獻中 的詞條被賦予了指定的意義;
5. 如權利要求2所述的認同字標記方法,包括認同字屬性創(chuàng)建文本認同字屬性,通過認同字在文本中的位置標記對應位置的字被認同。
6. 如權利要求1所述的知識生成模塊,包括 字體意義生成模塊將字體意義原始數(shù)據(jù)生成規(guī)范格式數(shù)據(jù)。 著重詞意義生成模塊將著重詞意義原始數(shù)據(jù)生成規(guī)范格式數(shù)據(jù)。 認同字生成模塊將認同字原始數(shù)據(jù)生成規(guī)范格式數(shù)據(jù)。
7. 如權利要求1所述的知識獲取模塊,包括 字體意義獲取模塊通過字體意義屬性及屬性值獲取知識。 著重詞意義獲取模塊通過著重詞屬性及屬性值獲取分類知識。 認同字獲取模塊通過認同字在文本中的位置獲取認同字。
全文摘要
本發(fā)明提供一種數(shù)字化知識挖掘的方法,使得數(shù)字化過程中在幾乎不增加成本的情況下,可以獲取知識,包括詞的分類、認同字及字、詞和句子的意義,如挖掘出文獻中的所有人名、地名、事件名等及所有字頭字、短語、例句、書名等。本發(fā)明特點數(shù)字化加工單位通過本發(fā)明提供的意義標記方法、詞標記方法、認同字標記方法,在加工一種文獻之前先確定所要挖掘的知識點,在加工完成后先通過知識生成模塊生成格式規(guī)范的知識,再通過知識獲取模塊挖掘出文獻中的分類知識。
文檔編號G06F17/30GK101667203SQ20091016982
公開日2010年3月10日 申請日期2009年9月4日 優(yōu)先權日2009年9月4日
發(fā)明者朱人杰, 蔣賢春, 藍德康, 謝術清, 瓏 鄭 申請人:北京中易中標電子信息技術有限公司