本發(fā)明涉及信息處理領(lǐng)域,更具體地涉及一種提取文本特征的裝置和方法。
背景技術(shù):
:隨著互聯(lián)網(wǎng)信息不斷的增長(zhǎng),文本數(shù)據(jù)越來越多,同時(shí)隨著網(wǎng)絡(luò)的飛速發(fā)展,為人們提供了簡(jiǎn)便的信息獲取途徑,網(wǎng)頁、郵件、電子書籍等電子文檔的數(shù)量越來越多,人們獲得大量信息的同時(shí),也不得不花大量的時(shí)間來閱讀和整理這些信息,因此怎樣簡(jiǎn)便、快捷、準(zhǔn)確地獲取這些文本的關(guān)鍵信息就變得異常重要。由于中文基礎(chǔ)性分詞領(lǐng)域的處理比較復(fù)雜,導(dǎo)致了中文信息抽取技術(shù)相對(duì)落后,因此中文文本的信息提取技術(shù)越來越重要。一類傳統(tǒng)的文本提取方法是計(jì)算文檔詞頻,即在訓(xùn)練文本集中對(duì)每個(gè)特征計(jì)算它的文檔頻數(shù)和詞頻,這樣的計(jì)算方法存在的問題是:(1)沒有考慮詞性對(duì)文本特征的貢獻(xiàn)(2)沒有考慮語義結(jié)構(gòu)對(duì)文本特征的描述。目前,在大部分的文本特征提取方法及其改良方法中,所采用的傳統(tǒng)的詞頻逆向文檔頻率方法只是單一的計(jì)算詞頻,沒有引入詞性和句子結(jié)構(gòu)對(duì)文本特征提取的影響因素。同時(shí),不同的文本語言,其句子結(jié)構(gòu)差距較大,很難將統(tǒng)一的提取方法應(yīng)用于不同文本語言。技術(shù)實(shí)現(xiàn)要素:在下文中給出關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。本發(fā)明的一個(gè)主要目的在于,提供一種提取文本特征的裝置,包括: 分詞單元,被配置為對(duì)輸入文檔進(jìn)行分詞得到多個(gè)詞、每個(gè)詞的詞性和每個(gè)詞與其相鄰詞的詞性組合;重要性計(jì)算單元,被配置為計(jì)算每個(gè)詞的重要程度;詞性權(quán)重計(jì)算單元,被配置為計(jì)算每個(gè)詞的詞性的權(quán)重;詞性組合權(quán)重計(jì)算單元,被配置為計(jì)算每個(gè)詞與其相鄰詞的詞性組合的權(quán)重;以及文本特征提取單元,被配置為對(duì)于每個(gè)詞,根據(jù)其重要程度、詞性的權(quán)重以及詞性組合的權(quán)重來提取該詞的文本特征。根據(jù)本發(fā)明的一個(gè)方面,提供了一種提取文本特征的方法,包括:對(duì)輸入文檔進(jìn)行分詞得到多個(gè)詞、每個(gè)詞的詞性和每個(gè)詞與其相鄰詞的詞性組合;計(jì)算每個(gè)詞的重要程度;計(jì)算每個(gè)詞的詞性的權(quán)重;計(jì)算每個(gè)詞與其相鄰詞的詞性組合的權(quán)重;以及對(duì)于每個(gè)詞,根據(jù)其重要程度、詞性的權(quán)重以及詞性組合的權(quán)重來提取該詞的文本特征。另外,本發(fā)明的實(shí)施例還提供了用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。此外,本發(fā)明的實(shí)施例還提供了至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品,其上記錄有用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序代碼。通過以下結(jié)合附圖對(duì)本發(fā)明的最佳實(shí)施例的詳細(xì)說明,本發(fā)明的這些以及其他優(yōu)點(diǎn)將更加明顯。附圖說明參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的提取文本特征的方法100的示例性過程的流程圖;圖2是示出圖1中的步驟S106的一種示例性過程的流程圖;圖3示出了詞性權(quán)重的計(jì)算過程的一個(gè)具體示例;圖4是示出圖1中的步驟S108的一種示例性過程的流程圖;圖5是示出詞性和詞性組合的層次結(jié)構(gòu)圖;圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的提取文本特征的方法的系統(tǒng)結(jié)構(gòu)圖;圖7是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的提取文本特征的裝置700的示例性配置的框圖;圖8是示出圖7中的詞性權(quán)重計(jì)算單元706的一種示例性配置的框圖;圖9是示出圖7中的詞性組合權(quán)重計(jì)算單元708的一種示例性配置的框圖;以及圖10是示出可以用于實(shí)施本發(fā)明的提取文本特征的裝置和方法的計(jì)算設(shè)備的示例性結(jié)構(gòu)圖。具體實(shí)施方式下面參照附圖來說明本發(fā)明的實(shí)施例。在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。本發(fā)明提出一種基于詞性和詞的相對(duì)位置以及詞的重要程度的文本特征提取方法。本發(fā)明在文本特征提取方法上與傳統(tǒng)方法有本質(zhì)的區(qū)別。傳統(tǒng)的方法只考慮了詞的重要程度,例如詞頻或者逆向詞頻作為文本特征。為了引入詞性和詞的相對(duì)位置對(duì)特征的貢獻(xiàn),本發(fā)明通過計(jì)算詞性的權(quán)重和詞的相對(duì)位置的權(quán)重,再將這兩個(gè)權(quán)重與詞的重要程度結(jié)合來確定最終的文本特征。這樣就將詞性和詞的位置信息對(duì)文本特征的貢獻(xiàn)融入特征提取方法中。下面結(jié)合附圖詳細(xì)說明根據(jù)本發(fā)明的一個(gè)實(shí)施例的提取文本特征的方法和裝置。圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的提取文本特征的方法100的示例性過程的流程圖。首先,在步驟S102中,對(duì)輸入文檔進(jìn)行分詞得到多個(gè)詞、每個(gè)詞的詞性和每個(gè)詞與其相鄰詞的詞性組合。這里,每個(gè)詞與其相鄰詞的詞性組合也即表示以上所述詞的相對(duì)位置的信息。在一個(gè)示例中,可以基于隱馬爾可夫模型進(jìn)行分詞來得到分詞、詞性和每個(gè)詞與其相鄰詞的詞性組合。對(duì)文檔進(jìn)行分詞可采用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知, 在此不再贅述。接下來,在步驟S104中,計(jì)算每個(gè)詞的重要程度。可以用詞頻、詞頻-逆向文件頻率(TF-IDF)等來表示詞的重要程度。在下面的說明中,都以詞頻-逆向文件頻率為例來表示詞的重要程度。接下來,在步驟S106中,計(jì)算每個(gè)詞的詞性的權(quán)重。圖2是示出圖1中的步驟S106的一種示例性過程的流程圖。如圖2所示,在計(jì)算詞性的權(quán)重時(shí),首先在步驟S1062中構(gòu)造詞性比較矩陣。即根據(jù)詞性的重要程度,兩兩比較所給出的所有詞性之間的重要程度,之后給出打分,用所有打分來構(gòu)造詞性比較矩陣。在一個(gè)示例中,可以基于層次分析法來構(gòu)造詞性比較矩陣。在一個(gè)示例中,可以采用下面的表1進(jìn)行打分,來構(gòu)建詞性比較矩陣。表11-9得分表也就是說,當(dāng)兩個(gè)因素同樣重要時(shí),得分為1,當(dāng)因素1比因素2稍微重要?jiǎng)t得分為2,那么因素2與因素1比較時(shí),得分為1/2,以此類推,可兩兩比較所有詞性的重要程度來進(jìn)行打分。用所有打分可以構(gòu)造如下詞性比較矩陣A。接著,在步驟S1064中,計(jì)算詞性比較矩陣的最大特征根所對(duì)應(yīng)的特征向量。然后,在步驟S1066中,對(duì)特征向量進(jìn)行歸一化得到詞性的權(quán)重。在一個(gè)示例中,在計(jì)算詞性比較矩陣的最大特征根所對(duì)應(yīng)的特征向量的步驟之前,還包括確定該詞性比較矩陣的邏輯是否成立的步驟(圖中未示出)。在一個(gè)示例中,通過對(duì)詞性比較矩陣進(jìn)行一致性檢驗(yàn),來確定該詞性比較矩陣的邏輯是否成立。圖3示出了詞性權(quán)重的計(jì)算過程的一個(gè)具體示例。首先,在步驟S301中輸入所構(gòu)造的比較矩陣。在步驟S302中,計(jì)算該矩陣的特征最大根。在步驟S303中,計(jì)算一致性指標(biāo)CI=(λmax-m)/(m-1),查找相應(yīng)的平均隨機(jī)一致性指標(biāo)RI,然后計(jì)算一致性比例CR=CI/RI。在步驟S304中,進(jìn)行判斷,當(dāng)CR<0.1時(shí),認(rèn)為該矩陣的一致性是可接受的,其邏輯可以成立,繼續(xù)執(zhí)行步驟S305;如果不滿足CR<0.1,則通過修改打分來調(diào)整比較矩陣,并重復(fù)執(zhí)行以上步驟S302至步驟S304。在步驟S305中,計(jì)算最大特征根對(duì)應(yīng)的特征向量。最后,在步驟S306中,對(duì)計(jì)算得到的特征向量進(jìn)行歸一化,可以得到詞性的權(quán)重。在計(jì)算每個(gè)詞的詞性的權(quán)重的步驟S106之后,在步驟S108中,計(jì)算每個(gè)詞與其相鄰詞的詞性組合的權(quán)重。計(jì)算每個(gè)詞與其相鄰詞的詞性組合的權(quán)重的方法與計(jì)算詞性的權(quán)重的方法類似。圖4是示出圖1中的步驟S108的一種示例性過程的流程圖。首先,在步驟S1082中構(gòu)造每個(gè)詞性的相對(duì)位置比較矩陣,即比較詞 性組合與詞性組合之間重要程度,給出打分,用所有打分來構(gòu)造詞性組合比較矩陣。這里也采用表1來進(jìn)行打分。接著,在步驟S1084中,計(jì)算詞性組合比較矩陣的最大特征根所對(duì)應(yīng)的特征向量。然后,在步驟S1086中,對(duì)特征向量進(jìn)行歸一化得到詞性組合的權(quán)重。在一個(gè)示例中,在計(jì)算詞性組合比較矩陣的最大特征根所對(duì)應(yīng)的特征向量的步驟之前,還包括確定該詞性組合比較矩陣的邏輯是否成立的步驟(圖中未示出)。在一個(gè)示例中,通過對(duì)詞性組合比較矩陣進(jìn)行一致性檢驗(yàn),來確定該詞性組合比較矩陣的邏輯是否成立。可以采用與圖3示出的詞性權(quán)重的計(jì)算方法相同的方法來計(jì)算詞性組合的權(quán)重。下面結(jié)合圖5來說明利用以上方法來計(jì)算詞性權(quán)重和詞性組合權(quán)重的一個(gè)示例性計(jì)算過程。圖5是示出詞性和詞性組合的層次結(jié)構(gòu)圖。這里,以一個(gè)句子中只有四類詞性,即名詞、動(dòng)詞、形容詞和副詞為例進(jìn)行說明。首先基于層次分析法(AHP)構(gòu)建如圖5所示的層次結(jié)構(gòu),根據(jù)該層次結(jié)構(gòu)以及上述表1可以構(gòu)造詞性比較矩陣A如下。A=11/31/71/3311/517513311/31]]>按照上述方法可以計(jì)算出矩陣A的一致性比例CR=(4.06-4)/(4-1)*(1/0.9)=0.022<0.1,從而計(jì)算得到詞性權(quán)重為[0.0650.1630.5880.183]。同樣道理,可以構(gòu)造名詞與其他詞性組合的比較矩陣B1:B1=131/321/311/51/335121/231/21]]>動(dòng)詞與其他詞性組合的比較矩陣B2:B2=11/51/515115511511/51/51]]>形容詞與其他詞性組合的比較矩陣B3:B3=11/71/51/2712351/31211/31/21]]>副詞與其他詞性組合的比較矩陣B4:B4=131/231/311/5125151/311/51]]>對(duì)于詞性組合比較矩陣B1-B4,可以分別計(jì)算出其一致性比例CR為:CRB1=0.04<0.1,CRB2=0<0.1,CRB3=0.06<0.1,CRB4=0.0015<0.1,從而,分別計(jì)算出其權(quán)重為:WB1=[0.250.0780.480.19],WB2=[0.0830.420.420.083],WB3=[0.0700.510.280.14],WB4=[0.280.0990.520.099]。最后,在步驟S110中,根據(jù)每個(gè)詞的重要程度、詞性的權(quán)重以及詞性組合的權(quán)重來提取該詞的文本特征。在一個(gè)示例中,可以通過將詞的詞頻-逆向文檔頻率乘以詞性的權(quán)重再 乘以詞性組合的權(quán)重來得到最終的文本特征。圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的提取文本特征的方法的系統(tǒng)結(jié)構(gòu)圖。下面結(jié)合圖6說明提取文本特征的一個(gè)示例性方法。首先,使用下面的等式(1)對(duì)輸入文本進(jìn)行分詞:X^=argmaxxP(X)P(Y|X)P(Y)=argmaxxP(X)P(Y|X)=argmaxxP(x1x2...xn)P(y1y2...ym|x1x2...xn)---(1)]]>輸出詞xi以及詞性和它的位置信息。根據(jù)得到的詞xi,使用下面的等式(2)可以計(jì)算詞頻-逆向文檔頻率TfIdfxi=Tfi×Idfi=nxiΣinxilog|D|1+|{j:xi∈dj}|---(2)]]>在等式(2)中,Tfi是詞頻,表示某個(gè)給定的詞在該文檔中出現(xiàn)的頻率,其中,是詞xi在文檔中出現(xiàn)的次數(shù),是在文檔中所有詞的出現(xiàn)次數(shù)之和。Idfi是逆向文檔頻率,是一個(gè)詞普遍重要程度的度量,可以由總文檔數(shù)目除以包含該詞的文檔的數(shù)目,再將得到的商取對(duì)數(shù)得到。在式(2)中,其中,|D|是語料庫中的文件總數(shù),{j:xi∈dj}表示包含該詞的文檔數(shù)目。然后,計(jì)算Tfi與Idfi的乘積來得到詞頻-逆向文檔頻率接著,基于AHP模型,采用上述計(jì)算詞性的權(quán)重和詞性組合的權(quán)重的方法,分別計(jì)算得到詞性的權(quán)重和詞性組合的權(quán)重最后,通過等式(3)可以計(jì)算得到最終的文本特征fxisi=echarcxi×TfIdfxi×wpositionxi---(3)]]>本領(lǐng)域技術(shù)人員可以理解,計(jì)算文本特征的公式不限于上述等式(3),例如,也可以采用下面的等式(4)或(5)進(jìn)行計(jì)算。fxisi=TfIdfxi×12(wcharcxi+wpositionxi)---(4)]]>fxisi=TfIdfxi×(m·wcharcxi+n·wpositionxi)---(5)]]>其中,m和n是任意整數(shù)。圖7是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的提取文本特征的裝置700的示例性配置的框圖。如圖7所示,提取文本特征的裝置700包括分詞單元702、重要性計(jì)算單元704、詞性權(quán)重計(jì)算單元706、詞性組合權(quán)重計(jì)算單元708和文本特征提取單元710。其中,分詞單元702被配置為對(duì)輸入文檔進(jìn)行分詞得到多個(gè)詞、每個(gè)詞的詞性和每個(gè)詞與其相鄰詞的詞性組合。重要性計(jì)算單元704被配置為計(jì)算每個(gè)詞的重要程度。詞性權(quán)重計(jì)算單元706被配置為計(jì)算每個(gè)詞的詞性的權(quán)重。詞性組合權(quán)重計(jì)算單元708被配置為計(jì)算每個(gè)詞與其相鄰詞的詞性組合的權(quán)重。文本特征提取單元710被配置為對(duì)于每個(gè)詞,根據(jù)其重要程度、詞性的權(quán)重以及詞性組合的權(quán)重來提取該詞的文本特征。圖8是示出圖7中的詞性權(quán)重計(jì)算單元706的一種示例性配置的框圖。如圖8所述,詞性權(quán)重計(jì)算單元706包括第一比較矩陣構(gòu)造子單元7062、第一特征向量構(gòu)造子單元7064和詞性權(quán)重計(jì)算子單元7066。第一比較矩陣構(gòu)造子單元7062被配置為對(duì)詞性的重要程度兩兩進(jìn)行比較并打分,構(gòu)造第一比較矩陣。第一特征向量構(gòu)造子單元7064被配置為計(jì)算所述第一比較矩陣的最 大特征根所對(duì)應(yīng)的第一特征向量。詞性權(quán)重計(jì)算子單元7066被配置為對(duì)所述第一特征向量進(jìn)行歸一化得到所述詞性的權(quán)重。圖9是示出圖7中的詞性組合權(quán)重計(jì)算單元708的一種示例性配置的框圖。如圖9所示,詞性組合權(quán)重計(jì)算單元708包括第二比較矩陣構(gòu)造子單元7082、第二特征向量構(gòu)造子單元7084和詞性組合權(quán)重計(jì)算子單元7086。第二比較矩陣構(gòu)造子單元7082被配置為對(duì)詞性組合的重要程度兩兩進(jìn)行比較并打分,構(gòu)造第二比較矩陣。第二特征向量構(gòu)造子單元7084被配置為計(jì)算第二比較矩陣的最大特征根所對(duì)應(yīng)的第二特征向量。詞性組合權(quán)重計(jì)算子單元7086被配置為對(duì)第二特征向量進(jìn)行歸一化得到詞性組合的權(quán)重。在一個(gè)示例中,詞性權(quán)重計(jì)算單元706還包括第一邏輯確定子單元(圖中未示出)。第一邏輯確定子單元被配置為確定第一比較矩陣的邏輯是否成立。在一個(gè)示例中,詞性組合權(quán)重計(jì)算單元708還包括第二邏輯確定子單元(圖中未示出)。第二邏輯確定子單元被配置為確定第二比較矩陣的邏輯是否成立。在一個(gè)示例中,第一邏輯確定子單元進(jìn)一步被配置為通過對(duì)第一比較矩陣進(jìn)行一致性檢驗(yàn),來確定第一比較矩陣的邏輯是否成立。在一個(gè)示例中,第二邏輯確定子單元進(jìn)一步被配置為通過對(duì)第二比較矩陣進(jìn)行一致性檢驗(yàn),來確定第二比較矩陣的邏輯是否成立。在一個(gè)示例中,分詞單元702進(jìn)一步被配置為基于隱馬爾可夫模型來進(jìn)行分詞。在一個(gè)示例中,第一比較矩陣構(gòu)造子單元7062進(jìn)一步被配置為基于層次分析法來構(gòu)造第一比較矩陣。在一個(gè)示例中,第二比較矩陣構(gòu)造子單元7064進(jìn)一步被配置為基于層次分析法來構(gòu)造所述第二比較矩陣。在一個(gè)示例中,重要性計(jì)算單元704進(jìn)一步被配置為計(jì)算詞的詞頻- 逆向文檔頻率。其中,文本特征提取單元710進(jìn)一步被配置為:對(duì)于每個(gè)詞,通過將該詞的詞頻-逆向文檔頻率乘以詞性的權(quán)重再乘以詞性組合的權(quán)重來提取該詞的文本特征。關(guān)于提取文本特征的裝置700的各個(gè)部分的操作和功能的細(xì)節(jié)可以參照結(jié)合圖1-6描述的本發(fā)明的提取文本特征的方法的實(shí)施例,這里不再詳細(xì)描述。在此需要說明的是,圖7-9所示的提取文本特征的裝置700及其組成單元的結(jié)構(gòu)僅僅是示例性的,本領(lǐng)域技術(shù)人員可以根據(jù)需要對(duì)圖7-9所示的結(jié)構(gòu)框圖進(jìn)行修改。本發(fā)明提出一種基于詞性和詞性組合以及詞的重要程度的文本特征提取方法。本發(fā)明具有以下優(yōu)勢(shì):(1)利用詞性和詞的位置(即詞性組合)來反映文本的特征,彌補(bǔ)了單一詞頻和逆向文檔詞頻(TFIDF)特征對(duì)信息提取不充分的缺陷。(2)引入層次分析法,就可以將不同語言,以及不同人對(duì)語言的理解融入特征提取過程中。(3)詞性和詞性組合的權(quán)重是預(yù)先計(jì)算好的,對(duì)處理實(shí)時(shí)的數(shù)據(jù),速度更快。以上結(jié)合具體實(shí)施例描述了本發(fā)明的基本原理,但是,需要指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員而言,能夠理解本發(fā)明的方法和裝置的全部或者任何步驟或者部件,可以在任何計(jì)算裝置(包括處理器、存儲(chǔ)介質(zhì)等)或者計(jì)算裝置的網(wǎng)絡(luò)中,以硬件、固件、軟件或者它們的組合加以實(shí)現(xiàn),這是本領(lǐng)域普通技術(shù)人員在閱讀了本發(fā)明的說明的情況下運(yùn)用他們的基本編程技能就能實(shí)現(xiàn)的。因此,本發(fā)明的目的還可以通過在任何計(jì)算裝置上運(yùn)行一個(gè)程序或者一組程序來實(shí)現(xiàn)。所述計(jì)算裝置可以是公知的通用裝置。因此,本發(fā)明的目的也可以僅僅通過提供包含實(shí)現(xiàn)所述方法或者裝置的程序代碼的程序產(chǎn)品來實(shí)現(xiàn)。也就是說,這樣的程序產(chǎn)品也構(gòu)成本發(fā)明,并且存儲(chǔ)有這樣的程序產(chǎn)品的存儲(chǔ)介質(zhì)也構(gòu)成本發(fā)明。顯然,所述存儲(chǔ)介質(zhì)可以是任何公知的存儲(chǔ)介質(zhì)或者將來所開發(fā)出來的任何存儲(chǔ)介質(zhì)。在通過軟件和/或固件實(shí)現(xiàn)本發(fā)明的實(shí)施例的情況下,從存儲(chǔ)介質(zhì)或網(wǎng) 絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī),例如圖10所示的通用計(jì)算機(jī)1000安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時(shí),能夠執(zhí)行各種功能等等。在圖10中,中央處理單元(CPU)1001根據(jù)只讀存儲(chǔ)器(ROM)1002中存儲(chǔ)的程序或從存儲(chǔ)部分1008加載到隨機(jī)存取存儲(chǔ)器(RAM)1003的程序執(zhí)行各種處理。在RAM1003中,也根據(jù)需要存儲(chǔ)當(dāng)CPU1001執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU1001、ROM1002和RAM1003經(jīng)由總線1004彼此鏈路。輸入/輸出接口1005也鏈路到總線1004。下述部件鏈路到輸入/輸出接口1005:輸入部分1006(包括鍵盤、鼠標(biāo)等等)、輸出部分1007(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚(yáng)聲器等)、存儲(chǔ)部分1008(包括硬盤等)、通信部分1009(包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分1009經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器1010也可鏈路到輸入/輸出接口1005??刹鹦督橘|(zhì)1011比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等根據(jù)需要被安裝在驅(qū)動(dòng)器1010上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分1008中。在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)1011安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖10所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)1011??刹鹦督橘|(zhì)1011的例子包含磁盤(包含軟盤(注冊(cè)商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(CD-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器。或者,存儲(chǔ)介質(zhì)可以是ROM1002、存儲(chǔ)部分1008中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。本發(fā)明還提出一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。指令代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本發(fā)明實(shí)施例的方法。相應(yīng)地,用于承載上述存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包括在本發(fā)明的公開中。存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等。本領(lǐng)域的普通技術(shù)人員應(yīng)理解,在此所例舉的是示例性的,本發(fā)明并不局限于此。在本說明書中,“第一”、“第二”以及“第N個(gè)”等表述是為了將所描述的特征在文字上區(qū)分開,以清楚地描述本發(fā)明。因此,不應(yīng)將其視為具有任何限定性的含義。作為一個(gè)示例,上述方法的各個(gè)步驟以及上述設(shè)備的各個(gè)組成模塊和/或單元可以實(shí)施為軟件、固件、硬件或其組合,并作為相應(yīng)設(shè)備中的一部分。上述裝置中各個(gè)組成模塊、單元通過軟件、固件、硬件或其組合的方式進(jìn)行配置時(shí)可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。作為一個(gè)示例,在通過軟件或固件實(shí)現(xiàn)的情況下,可以從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī)(例如圖10所示的通用計(jì)算機(jī)1000)安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時(shí),能夠執(zhí)行各種功能等。在上面對(duì)本發(fā)明具體實(shí)施例的描述中,針對(duì)一種實(shí)施方式描述和/或示出的特征可以以相同或類似的方式在一個(gè)或更多個(gè)其他實(shí)施方式中使用,與其他實(shí)施方式中的特征相組合,或替代其他實(shí)施方式中的特征。應(yīng)該強(qiáng)調(diào),術(shù)語“包括/包含”在本文使用時(shí)指特征、要素、步驟或組件的存在,但并不排除一個(gè)或更多個(gè)其他特征、要素、步驟或組件的存在或附加。此外,本發(fā)明的方法不限于按照說明書中描述的時(shí)間順序來執(zhí)行,也可以按照其他的時(shí)間順序地、并行地或獨(dú)立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對(duì)本發(fā)明的技術(shù)范圍構(gòu)成限制。本發(fā)明及其優(yōu)點(diǎn),但是應(yīng)當(dāng)理解在不超出由所附的權(quán)利要求所限定的本發(fā)明的精神和范圍的情況下可以進(jìn)行各種改變、替代和變換。而且,本發(fā)明的范圍不僅限于說明書所描述的過程、設(shè)備、手段、方法和步驟的具體實(shí)施例。本領(lǐng)域內(nèi)的普通技術(shù)人員從本發(fā)明的公開內(nèi)容將容易理解,根據(jù)本發(fā)明可以使用執(zhí)行與在此的相應(yīng)實(shí)施例基本相同的功能或者獲得與其基本相同的結(jié)果的、現(xiàn)有和將來要被開發(fā)的過程、設(shè)備、手段、方法或者步驟。因此,所附的權(quán)利要求旨在在它們的范圍內(nèi)包括這樣的過程、設(shè)備、手段、方法或者步驟?;谝陨系恼f明,可知公開至少公開了以下技術(shù)方案:1.一種提取文本特征的裝置,包括:分詞單元,被配置為對(duì)輸入文檔進(jìn)行分詞得到多個(gè)詞、每個(gè)詞的詞性 和每個(gè)詞與其相鄰詞的詞性組合;重要性計(jì)算單元,被配置為計(jì)算每個(gè)詞的重要程度;詞性權(quán)重計(jì)算單元,被配置為計(jì)算每個(gè)詞的詞性的權(quán)重;詞性組合權(quán)重計(jì)算單元,被配置為計(jì)算每個(gè)詞與其相鄰詞的詞性組合的權(quán)重;以及文本特征提取單元,被配置為對(duì)于每個(gè)詞,根據(jù)其重要程度、詞性的權(quán)重以及詞性組合的權(quán)重來提取該詞的文本特征。2.根據(jù)附記1所述的裝置,其中,所述詞性權(quán)重計(jì)算單元包括:第一比較矩陣構(gòu)造子單元,被配置為對(duì)詞性的重要程度兩兩進(jìn)行比較并打分,構(gòu)造第一比較矩陣;第一特征向量構(gòu)造子單元,被配置為計(jì)算所述第一比較矩陣的最大特征根所對(duì)應(yīng)的第一特征向量;以及詞性權(quán)重計(jì)算子單元,被配置為對(duì)所述第一特征向量進(jìn)行歸一化得到所述詞性的權(quán)重。3.根據(jù)附記2所述的裝置,其中,所述詞性組合權(quán)重計(jì)算單元包括:第二比較矩陣構(gòu)造子單元,被配置為對(duì)詞性組合的重要程度兩兩進(jìn)行比較并打分,構(gòu)造第二比較矩陣;第二特征向量構(gòu)造子單元,被配置為計(jì)算所述第二比較矩陣的最大特征根所對(duì)應(yīng)的第二特征向量;以及詞性組合權(quán)重計(jì)算子單元,被配置為對(duì)所述第二特征向量進(jìn)行歸一化得到所述詞性組合的權(quán)重。4.根據(jù)附記3所述的裝置,其中,所述詞性權(quán)重計(jì)算單元還包括第一邏輯確定子單元,被配置為確定所述第一比較矩陣的邏輯是否成立,以及所述詞性組合權(quán)重計(jì)算單元還包括第二邏輯確定子單元,被配置為確定所述第二比較矩陣的邏輯是否成立。5.根據(jù)附記4所述的裝置,其中,所述第一邏輯確定子單元進(jìn)一步被配置為通過對(duì)所述第一比較矩陣進(jìn)行一致性檢驗(yàn),來確定所述第一比較矩陣的邏輯是否成立,以及所述第二邏輯確定子單元進(jìn)一步被配置為通過對(duì)所述第二比較矩陣進(jìn)行一致性檢驗(yàn),來確定所述第二比較矩陣的邏輯是否成立。6.根據(jù)附記1所述的裝置,其中,所述分詞單元進(jìn)一步被配置為基于隱馬爾可夫模型來進(jìn)行所述分詞。7.根據(jù)附記3所述的裝置,其中,所述第一比較矩陣構(gòu)造子單元進(jìn)一步被配置為基于層次分析法來構(gòu)造所述第一比較矩陣,以及所述第二比較矩陣構(gòu)造子單元進(jìn)一步被配置為基于層次分析法來構(gòu)造所述第二比較矩陣。8.根據(jù)附記1所述的裝置,其中,所述重要程度計(jì)算單元進(jìn)一步被配置為計(jì)算該詞的詞頻-逆向文檔頻率。9.根據(jù)附記8所述的裝置,其中,所述文本特征提取單元進(jìn)一步被配置為:對(duì)于每個(gè)詞,通過將該詞的詞頻-逆向文檔頻率乘以詞性的權(quán)重再乘以詞性組合的權(quán)重來提取該詞的文本特征。10.一種提取文本特征的方法,包括:對(duì)輸入文檔進(jìn)行分詞得到多個(gè)詞、每個(gè)詞的詞性和每個(gè)詞與其相鄰詞的詞性組合;計(jì)算每個(gè)詞的重要程度;計(jì)算每個(gè)詞的詞性的權(quán)重;計(jì)算每個(gè)詞與其相鄰詞的詞性組合的權(quán)重;以及對(duì)于每個(gè)詞,根據(jù)其重要程度、詞性的權(quán)重以及詞性組合的權(quán)重來提取該詞的文本特征。11.根據(jù)附記10所述的方法,其中,所述詞性的權(quán)重通過以下方法來計(jì)算:對(duì)詞性的重要程度兩兩進(jìn)行比較并打分,構(gòu)造第一比較矩陣;計(jì)算所述第一比較矩陣的最大特征根所對(duì)應(yīng)的第一特征向量;以及對(duì)所述第一特征向量進(jìn)行歸一化得到所述詞性的權(quán)重。12.根據(jù)附記11所述的方法,其中,所述詞性組合的權(quán)重通過以下方法來計(jì)算:對(duì)詞性組合的重要程度兩兩進(jìn)行比較并打分,構(gòu)造第二比較矩陣;計(jì)算所述第二比較矩陣的最大特征根所對(duì)應(yīng)的第二特征向量;以及對(duì)所述第二特征向量進(jìn)行歸一化得到所述詞性組合的權(quán)重。13.根據(jù)附記12所述的方法,其中,在根據(jù)所述第一比較矩陣計(jì)算所述第一特征向量之前先確定所述第一比較矩陣的邏輯是否成立,并且在根據(jù)所述第二比較矩陣計(jì)算所述第二特征向量之前先確定所述第二比較矩陣的邏輯是否成立。14.根據(jù)附記13所述的方法,其中,通過對(duì)所述第一比較矩陣或所述第二比較矩陣與隨機(jī)矩陣進(jìn)行一致性檢驗(yàn),來確定所述第一比較矩陣或所述第二比較矩陣的邏輯是否成立。15.根據(jù)附記10所述的方法,其中,基于隱馬爾可夫模型來進(jìn)行所述分詞。16.根據(jù)附記12所述的方法,其中,基于層次分析法來構(gòu)造所述第一比較矩陣和所述第二比較矩陣。17.根據(jù)附記10所述的方法,其中,計(jì)算每個(gè)詞的重要程度包括計(jì)算該詞的詞頻-逆向文檔頻率。18.根據(jù)附記17所述的方法,其中,對(duì)于每個(gè)詞,通過將該詞的詞頻-逆向文檔頻率乘以詞性的權(quán)重再乘以詞性組合的權(quán)重來得到該詞的文本特征。當(dāng)前第1頁1 2 3