專利名稱:一種圖書關(guān)鍵字自動(dòng)生成的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)挖掘以及數(shù)字圖書館自動(dòng)處理領(lǐng)域,尤其涉及一種圖書關(guān) 鍵字自動(dòng)生成的方法。
背景技術(shù):
大部分的數(shù)字圖書館主要通過專家來挑選關(guān)鍵字以描繪館藏圖書的主題和內(nèi)容。 為獲得準(zhǔn)確和豐富的關(guān)鍵詞,專家需要首先通過閱讀全書等方法獲得對(duì)圖書的全面理解。 這種方式耗費(fèi)大量的人力和時(shí)間,在面對(duì)不斷增加的數(shù)字圖書時(shí)變得不切實(shí)際。受限于精 力,專家提供的關(guān)鍵詞也存在著數(shù)量有限、內(nèi)容保守和過于主觀等不足。近年來,隨著LibraryThing、豆瓣網(wǎng)等Web2. 0社區(qū)化網(wǎng)站的流行,工業(yè)界提出大 眾標(biāo)簽法和專家_社區(qū)混合標(biāo)注法等系統(tǒng)來為圖書增加內(nèi)容、主題相關(guān)的和自適應(yīng)的關(guān)鍵 字。這些系統(tǒng)主要使用基于社區(qū)的方法,以用戶自發(fā)提供的標(biāo)簽為基礎(chǔ)提供圖書關(guān)鍵字。 但是,2006年全美信息科學(xué)與科技年度會(huì)議(Annual General Meeting of the American Society for Information Science andTechnology, November 2006)禾口信息禾斗學(xué)期干丨J 2006年第二期(Journal of Information Science, 2006)等最近的研究表明,用戶提供的標(biāo) 簽和詞條等通常是不一致、不準(zhǔn)確并且沒有意義的。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種圖書關(guān)鍵字自動(dòng)生成的方法。圖書關(guān)鍵字的自動(dòng)生成方法包括以下步驟(1)確定圖書與作者的對(duì)應(yīng)關(guān)系,從互聯(lián)網(wǎng)網(wǎng)站上抓取對(duì)應(yīng)圖書的對(duì)內(nèi)容、風(fēng)格、 價(jià)值表達(dá)觀點(diǎn)和看法的文學(xué)評(píng)論及其流行度,將圖書評(píng)論分詞,用詞性標(biāo)注器將其中的詞 標(biāo)注詞性,留下其中的名詞作為候補(bǔ)關(guān)鍵詞;(2)使用維基百科衡量器,通過Google檢索候補(bǔ)關(guān)鍵詞在維基百科中出現(xiàn)的文檔 數(shù)目和維基百科文檔總數(shù),利用公式WIKIIDF(i) = log(N/ff)初步評(píng)定候補(bǔ)關(guān)鍵詞的全局重 要性,過濾語氣詞、錯(cuò)別字,其中WIKI_IDF表示通過維基百科衡量器得到的詞的重要性,i 為目標(biāo)候補(bǔ)關(guān)鍵詞,M為查詢得到的文檔數(shù),N為中文維基百科文檔總數(shù);(3)將作者、圖書、評(píng)論和候補(bǔ)關(guān)鍵詞四種類型的個(gè)體作為四種節(jié)點(diǎn),將其互相之 間的關(guān)系作為邊,利用圖書與作者對(duì)應(yīng)關(guān)系、圖書與書評(píng)對(duì)應(yīng)關(guān)系、維基百科衡量器、文本 長(zhǎng)度和流行度構(gòu)建四部圖;(4)基于四部圖,運(yùn)用以圖書為中心的吸收態(tài)隨機(jī)行走算法對(duì)候補(bǔ)關(guān)鍵詞的重要 性進(jìn)行排序,挑出排序最高的幾個(gè)候補(bǔ)關(guān)鍵詞作為圖書的關(guān)鍵字。所述的將作者、圖書、評(píng)論和候補(bǔ)關(guān)鍵詞四種類型的個(gè)體作為四種節(jié)點(diǎn),將其互相 之間的關(guān)系作為邊,利用圖書與作者對(duì)應(yīng)關(guān)系、圖書與書評(píng)對(duì)應(yīng)關(guān)系、維基百科衡量器、文 本長(zhǎng)度和流行度構(gòu)建四部圖步驟包括將作者、圖書、書評(píng)和候補(bǔ)關(guān)鍵詞視為圖模型中不同 類型的四種節(jié)點(diǎn)并用對(duì)應(yīng)的數(shù)字代號(hào)代表,將四種節(jié)點(diǎn)之間的關(guān)系視為邊,其中只將不同類型節(jié)點(diǎn)之間包含的作者與圖書的關(guān)系、圖書與書評(píng)的關(guān)系以及書評(píng)與候補(bǔ)關(guān)鍵詞的關(guān)系 三種直接關(guān)系設(shè)為邊,設(shè)置作者與圖書之間的著作關(guān)系,將圖書和其第一作者之間的關(guān)系 權(quán)重設(shè)為1,和其余作者之間的關(guān)系設(shè)為O ;設(shè)置書評(píng)與圖書之間的關(guān)系,將圖書相對(duì)于其 書評(píng)的關(guān)系權(quán)重設(shè)為1,否則為O ;將書評(píng)相對(duì)于圖書的關(guān)系權(quán)重使用基于流行度和文本質(zhì) 量?jī)蓚€(gè)方面的公式r= (log(RC+l)+l) ·πι η(Τ /100,1)來衡量,其中r表示書評(píng)相對(duì)于 圖書的關(guān)系權(quán)重,RC表示該書評(píng)被用戶推薦的次數(shù),TL表示書評(píng)包含的詞總數(shù),min表示 取TL/100與1之間的最小值;設(shè)置書評(píng)與候補(bǔ)關(guān)鍵詞之間的關(guān)系,將書評(píng)與其文本內(nèi)包含 的候補(bǔ)關(guān)鍵詞的關(guān)系的權(quán)重使用公式W = TF(i,j) ·WIKIidf(i)來衡量,其中w表示關(guān)系權(quán) 重,i表示某候補(bǔ)關(guān)鍵詞,j表示對(duì)應(yīng)的圖書評(píng)論,WIKI_IDF(i)指的是利用維基百科衡量 器候補(bǔ)關(guān)鍵詞i得到的全局權(quán)重,TF的計(jì)算公式如下:TF(i, j) = freq(i)/length(j),其 中,freq表示一個(gè)候補(bǔ)關(guān)鍵詞在該圖書評(píng)論中出現(xiàn)的次數(shù),length表示該圖書評(píng)論包含的 詞語總數(shù)。使用以下相鄰矩陣M表示四部圖 "0 MAB 0 0<formula>formula see original document page 6</formula>
其中,A、B、R和W分別表示作者、圖書、圖書評(píng)論和候補(bǔ)關(guān)鍵詞四種節(jié)點(diǎn)集合,Mab, Mba, Mbe, Meb, Mkw和Mwk分別表示從節(jié)點(diǎn)類型A出發(fā)到節(jié)點(diǎn)類型B、從節(jié)點(diǎn)類型B出發(fā)到節(jié)點(diǎn) 類型A、從節(jié)點(diǎn)類型B出發(fā)到節(jié)點(diǎn)類型R、從節(jié)點(diǎn)類型R出發(fā)到節(jié)點(diǎn)類型B、從節(jié)點(diǎn)類型R出 發(fā)到節(jié)點(diǎn)類型W和從節(jié)點(diǎn)類型W出發(fā)到節(jié)點(diǎn)類型R的有向邊的相鄰小矩陣,如果i和j節(jié) 點(diǎn)在該四部圖不相鄰,Mij值為0,否則為對(duì)應(yīng)的邊的權(quán)重。所述基于四部圖,運(yùn)用以圖書為中心的吸收態(tài)隨機(jī)行走算法對(duì)候補(bǔ)關(guān)鍵詞的重要 性進(jìn)行排序,挑出排序最高的幾個(gè)候補(bǔ)關(guān)鍵詞作為圖書的關(guān)鍵字步驟包括將相鄰矩陣M 歸一化得到轉(zhuǎn)移矩陣W:<formula>formula see original document page 6</formula>
其中W的各個(gè)部分的歸一化公式如下
<formula>formula see original document page 6</formula><formula>formula see original document page 7</formula>其中,α表示圖書類型節(jié)點(diǎn)訪問作者類型節(jié)點(diǎn)的概率,而(l-α )則是圖書類型節(jié) 點(diǎn)訪問書評(píng)類型中的節(jié)點(diǎn)的概率,β表示書評(píng)類型節(jié)點(diǎn)訪問圖書類型節(jié)點(diǎn)的概率,ι-β表 示書評(píng)類型節(jié)點(diǎn)訪問候補(bǔ)關(guān)鍵詞類型節(jié)點(diǎn)的概率;設(shè)置代表作者、圖書、書評(píng)和候補(bǔ)關(guān)鍵詞 的節(jié)點(diǎn)是否與該圖書直接相關(guān)的圖書偏好矢量d,矢量d的結(jié)構(gòu)如下
<formula>formula see original document page 7</formula>其中dA、dB、dK和dw分別表示A、B、R和W類型節(jié)點(diǎn)的矢量,設(shè)置< =1,若X類型的 節(jié)點(diǎn)i與該圖書直接相連,否則< =ο ;使用隨機(jī)行走模型公式S = (1- λ ) WtS+ λ d迭代計(jì) 算全部節(jié)點(diǎn)的靜態(tài)分布概率,其中d表示圖書偏好矢量,λ表示隨機(jī)行走訪問d中的節(jié)點(diǎn) 的概率,l-λ表示訪問其在圖上的相鄰節(jié)點(diǎn)的概率,s表示圖上各個(gè)點(diǎn)的靜態(tài)分布,W表示 歸一化后的轉(zhuǎn)移矩陣;將候補(bǔ)關(guān)鍵詞節(jié)點(diǎn)中靜態(tài)概率最大的節(jié)點(diǎn)轉(zhuǎn)變?yōu)槲諔B(tài),將從該節(jié) 點(diǎn)出發(fā)的所有邊的權(quán)重設(shè)為0,然后繼續(xù)進(jìn)行隨機(jī)行走;將狀態(tài)轉(zhuǎn)移矩陣轉(zhuǎn)變?yōu)橐韵路妒?br>
<formula>formula see original document page 7</formula>其中Q和R代表轉(zhuǎn)移矩陣W中對(duì)應(yīng)的區(qū)域,Ig代表在已經(jīng)轉(zhuǎn)變成吸收態(tài)的節(jié)點(diǎn)集 合G上的單位矩陣;使用以下期望步長(zhǎng)計(jì)算公式迭代計(jì)算各個(gè)節(jié)點(diǎn)的期望步長(zhǎng)tA = λ tDA+(l- λ ) tBffBA+AtB = λ tDB+(l- λ ) (t^m+t\B) +βtE = λ tDE+(l- λ ) (tBWBE+tff (Wwe) q) +e
f = XtDw +(\-X)tR(WRW)Q +1其中,W是一個(gè)矩陣,其值可由對(duì)應(yīng)矢量(c0T復(fù)制IQI行而得,其中IQI表示Q矩 陣大小,(Wm)q和(Wm)t^i應(yīng)于按照范式重新排列后的WK1^nWWK,ti表示隨機(jī)行走從節(jié)點(diǎn)i 開始到被吸收之前總的期望步數(shù),期望步數(shù)在所述四部圖上的表示如下
<formula>formula see original document page 7</formula>
其中tx表示類型節(jié)點(diǎn)X的期望步長(zhǎng),tQw表示未排序的候補(bǔ)關(guān)鍵詞節(jié)點(diǎn)的期望步 數(shù),再定義一個(gè)值全部為1的常量矢量c
<formula>formula see original document page 8</formula>其中Cx表示類型節(jié)點(diǎn)X的常量矢量,C;表示長(zhǎng)度和Q —樣的常量矢量;將期望步 長(zhǎng)最大的候選關(guān)鍵詞節(jié)點(diǎn)挑選出并設(shè)為吸收態(tài),再使用期望步長(zhǎng)計(jì)算公式迭代計(jì)算各個(gè)節(jié) 點(diǎn)的期望步長(zhǎng);重復(fù)以上步驟,一直到轉(zhuǎn)變?yōu)槲諔B(tài)的候補(bǔ)關(guān)鍵詞數(shù)目足夠?yàn)橹?,將這些候 補(bǔ)關(guān)鍵詞作為關(guān)鍵詞。本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果1)該方法綜合考慮了同一作者著作的風(fēng)格和主題一致性、書評(píng)與圖書內(nèi)容的相關(guān) 性以及讀者對(duì)書評(píng)質(zhì)量與圖書主題的反饋,提取的關(guān)鍵詞正確率高;2)該方法充分覆蓋不同讀者對(duì)圖書的不同角度的書評(píng),不僅包含了主流的書評(píng)意 見也考慮進(jìn)少數(shù)讀者的看法,提取的關(guān)鍵詞更加多樣化;3)該方法的數(shù)據(jù)來自于互聯(lián)網(wǎng),書評(píng)數(shù)量龐大、涵蓋面廣,能夠給大量圖書提供關(guān) 鍵詞。
具體實(shí)施例方式圖書關(guān)鍵字的自動(dòng)生成方法包括以下步驟(1)確定圖書與作者的對(duì)應(yīng)關(guān)系,從互聯(lián)網(wǎng)網(wǎng)站上抓取對(duì)應(yīng)圖書的對(duì)內(nèi)容、風(fēng)格、 價(jià)值表達(dá)觀點(diǎn)和看法的文學(xué)評(píng)論及其流行度,將圖書評(píng)論分詞,用詞性標(biāo)注器將其中的詞 標(biāo)注詞性,留下其中的名詞作為候補(bǔ)關(guān)鍵詞;(2)使用維基百科衡量器,通過Google檢索候補(bǔ)關(guān)鍵詞在維基百科中出現(xiàn)的文檔 數(shù)目和維基百科文檔總數(shù),利用公式WIKIIDF(i) = log(N/ff)初步評(píng)定候補(bǔ)關(guān)鍵詞的全局重 要性,過濾語氣詞、錯(cuò)別字,其中WIKI_IDF表示通過維基百科衡量器得到的詞的重要性,i 為目標(biāo)候補(bǔ)關(guān)鍵詞,M為查詢得到的文檔數(shù),N為中文維基百科文檔總數(shù);(3)將作者、圖書、評(píng)論和候補(bǔ)關(guān)鍵詞四種類型的個(gè)體作為四種節(jié)點(diǎn),將其互相之 間的關(guān)系作為邊,利用圖書與作者對(duì)應(yīng)關(guān)系、圖書與書評(píng)對(duì)應(yīng)關(guān)系、維基百科衡量器、文本 長(zhǎng)度和流行度構(gòu)建四部圖;(4)基于四部圖,運(yùn)用以圖書為中心的吸收態(tài)隨機(jī)行走算法對(duì)候補(bǔ)關(guān)鍵詞的重要 性進(jìn)行排序,挑出排序最高的幾個(gè)候補(bǔ)關(guān)鍵詞作為圖書的關(guān)鍵字。所述的將作者、圖書、評(píng)論和候補(bǔ)關(guān)鍵詞四種類型的個(gè)體作為四種節(jié)點(diǎn),將其互相 之間的關(guān)系作為邊,利用圖書與作者對(duì)應(yīng)關(guān)系、圖書與書評(píng)對(duì)應(yīng)關(guān)系、維基百科衡量器、文 本長(zhǎng)度和流行度構(gòu)建四部圖步驟包括將作者、圖書、書評(píng)和候補(bǔ)關(guān)鍵詞視為圖模型中不同 類型的四種節(jié)點(diǎn)并用對(duì)應(yīng)的數(shù)字代號(hào)代表,將四種節(jié)點(diǎn)之間的關(guān)系視為邊,其中只將不同 類型節(jié)點(diǎn)之間包含的作者與圖書的關(guān)系、圖書與書評(píng)的關(guān)系以及書評(píng)與候補(bǔ)關(guān)鍵詞的關(guān)系 三種直接關(guān)系設(shè)為邊,設(shè)置作者與圖書之間的著作關(guān)系,將圖書和其第一作者之間的關(guān)系權(quán)重設(shè)為1,和其余作者之間的關(guān)系設(shè)為O ;設(shè)置書評(píng)與圖書之間的關(guān)系,將圖書相對(duì)于其 書評(píng)的關(guān)系權(quán)重設(shè)為1,否則為O ;將書評(píng)相對(duì)于圖書的關(guān)系權(quán)重使用基于流行度和文本質(zhì) 量?jī)蓚€(gè)方面的公式r= (log(RC+l)+l) ·πι η(Τ /100,1)來衡量,其中r表示書評(píng)相對(duì)于 圖書的關(guān)系權(quán)重,RC表示該書評(píng)被用戶推薦的次數(shù),TL表示書評(píng)包含的詞總數(shù),min表示 取TL/100與1之間的最小值;設(shè)置書評(píng)與候補(bǔ)關(guān)鍵詞之間的關(guān)系,將書評(píng)與其文本內(nèi)包含 的候補(bǔ)關(guān)鍵詞的關(guān)系的權(quán)重使用公式W = TF(i,j) · WIKIidf(i)來衡量,其中w表示關(guān)系權(quán) 重,i表示某候補(bǔ)關(guān)鍵詞,j表示對(duì)應(yīng)的圖書評(píng)論,WIKI_IDF(i)指的是利用維基百科衡量 器候補(bǔ)關(guān)鍵詞i得到的全局權(quán)重,TF的計(jì)算公式如下:TF(i, j) = freq(i)/length(j),其 中,freq表示一個(gè)候補(bǔ)關(guān)鍵詞在該圖書評(píng)論中出現(xiàn)的次數(shù),length表示該圖書評(píng)論包含的 詞語總數(shù)。使用以下相鄰矩陣M表示四部圖
<formula>formula see original document page 9</formula>其中,A、B、R和W分別表示作者、圖書、圖書評(píng)論和候補(bǔ)關(guān)鍵詞四種節(jié)點(diǎn)集合,Mab, Mba, Mbe, Meb, Mkw和Mwk分別表示從節(jié)點(diǎn)類型A出發(fā)到節(jié)點(diǎn)類型B、從節(jié)點(diǎn)類型B出發(fā)到節(jié)點(diǎn) 類型A、從節(jié)點(diǎn)類型B出發(fā)到節(jié)點(diǎn)類型R、從節(jié)點(diǎn)類型R出發(fā)到節(jié)點(diǎn)類型B、從節(jié)點(diǎn)類型R出 發(fā)到節(jié)點(diǎn)類型W和從節(jié)點(diǎn)類型W出發(fā)到節(jié)點(diǎn)類型R的有向邊的相鄰小矩陣,如果i和j節(jié) 點(diǎn)在該四部圖不相鄰,Mij值為0,否則為對(duì)應(yīng)的邊的權(quán)重。所述基于四部圖,運(yùn)用以圖書為中心的吸收態(tài)隨機(jī)行走算法對(duì)候補(bǔ)關(guān)鍵詞的重要 性進(jìn)行排序,挑出排序最高的幾個(gè)候補(bǔ)關(guān)鍵詞作為圖書的關(guān)鍵字步驟包括將相鄰矩陣M 歸一化得到轉(zhuǎn)移矩陣W:
<formula>formula see original document page 9</formula>其中W的各個(gè)部分的歸一化公式如下
0053<formula>formula see original document page 9</formula>
0054<formula>formula see original document page 9</formula>
L0055」 <formula>formula see original document page 9</formula>
<formula>formula see original document page 9</formula><formula>formula see original document page 10</formula>其中,α表示圖書類型節(jié)點(diǎn)訪問作者類型節(jié)點(diǎn)的概率,而(l-α )則是圖書類型節(jié) 點(diǎn)訪問書評(píng)類型中的節(jié)點(diǎn)的概率,β表示書評(píng)類型節(jié)點(diǎn)訪問圖書類型節(jié)點(diǎn)的概率,ι-β表 示書評(píng)類型節(jié)點(diǎn)訪問候補(bǔ)關(guān)鍵詞類型節(jié)點(diǎn)的概率;設(shè)置代表作者、圖書、書評(píng)和候補(bǔ)關(guān)鍵詞 的節(jié)點(diǎn)是否與該圖書直接相關(guān)的圖書偏好矢量d,矢量d的結(jié)構(gòu)如下<formula>formula see original document page 10</formula>其中dA、dB、dK和dw分別表示A、B、R和W類型節(jié)點(diǎn)的矢量,設(shè)置< =1,若X類型的 節(jié)點(diǎn)i與該圖書直接相連,否則< =ο ;使用隨機(jī)行走模型公式S = α- λ ) WtS+ λ d迭代計(jì) 算全部節(jié)點(diǎn)的靜態(tài)分布概率,其中d表示圖書偏好矢量,λ表示隨機(jī)行走訪問d中的節(jié)點(diǎn) 的概率,l-λ表示訪問其在圖上的相鄰節(jié)點(diǎn)的概率,s表示圖上各個(gè)點(diǎn)的靜態(tài)分布,W表示 歸一化后的轉(zhuǎn)移矩陣;將候補(bǔ)關(guān)鍵詞節(jié)點(diǎn)中靜態(tài)概率最大的節(jié)點(diǎn)轉(zhuǎn)變?yōu)槲諔B(tài),將從該節(jié) 點(diǎn)出發(fā)的所有邊的權(quán)重設(shè)為0,然后繼續(xù)進(jìn)行隨機(jī)行走;將狀態(tài)轉(zhuǎn)移矩陣轉(zhuǎn)變?yōu)橐韵路妒?br>
<formula>formula see original document page 10</formula>
其中Q和R代表轉(zhuǎn)移矩陣W中對(duì)應(yīng)的區(qū)域,Ig代表在已經(jīng)轉(zhuǎn)變成吸收態(tài)的節(jié)點(diǎn)集 合G上的單位矩陣;使用以下期望步長(zhǎng)計(jì)算公式迭代計(jì)算各個(gè)節(jié)點(diǎn)的期望步長(zhǎng)tA = AtDA+(l-A)tBffBA+AtB = λ tDB+(l- λ ) (t^m+t\B) +βtE = λ tDE+(l- λ ) (tBWBE+tff (Wwe) q) +etw = XtDw +(\-X)tR (Wrw )q +1其中,W是一個(gè)矩陣,其值可由對(duì)應(yīng)矢量(C0T復(fù)制IQI行而得,其中IQl表示Q矩 陣大小,(Wkw)q* (Wm)t^i應(yīng)于按照范式重新排列后的Wra^nwPti表示隨機(jī)行走從節(jié)點(diǎn)i開 始到被吸收之前總的期望步數(shù),期望步數(shù)在所述四部圖上的表示如下
<formula>formula see original document page 10</formula>其中tx表示類型節(jié)點(diǎn)X的期望步長(zhǎng),tQw表示未排序的候補(bǔ)關(guān)鍵詞節(jié)點(diǎn)的期望步 數(shù),再定義一個(gè)值全部為1的常量矢量C <formula>formula see original document page 11</formula>其中cx表示類型節(jié)點(diǎn)X的常量矢量,C;表示長(zhǎng)度和Q —樣的常量矢量;將期望步 長(zhǎng)最大的候選關(guān)鍵詞節(jié)點(diǎn)挑選出并設(shè)為吸收態(tài),再使用期望步長(zhǎng)計(jì)算公式迭代計(jì)算各個(gè)節(jié) 點(diǎn)的期望步長(zhǎng);重復(fù)以上步驟,一直到轉(zhuǎn)變?yōu)槲諔B(tài)的候補(bǔ)關(guān)鍵詞數(shù)目足夠?yàn)橹?,將這些候 補(bǔ)關(guān)鍵詞作為關(guān)鍵詞。
實(shí)施例以圖書《基地》為例,圖書關(guān)鍵詞自動(dòng)生成方法的具體實(shí)施的技術(shù)方案及步驟如 下1.確定圖書與作者的對(duì)應(yīng)關(guān)系,從互聯(lián)網(wǎng)上抓取對(duì)應(yīng)圖書的評(píng)論,分詞,標(biāo)注詞 性,將其中的名詞作為候補(bǔ)關(guān)鍵詞1)本發(fā)明在確定圖書與作者的對(duì)應(yīng)關(guān)系時(shí)直接利用編目專家為數(shù)字圖書館內(nèi)圖 書編著的著作關(guān)系。如《基地》的作者為阿西莫夫,該作者同時(shí)有《第二基地》等基地系列 和《機(jī)器人》系統(tǒng)等著作。2)利用爬蟲,從豆瓣網(wǎng)(http://WWW. douban. com)等富含書評(píng)的互聯(lián)網(wǎng)上抓取對(duì) 應(yīng)圖書的書評(píng)論網(wǎng)頁(yè)。分析網(wǎng)頁(yè),將其包含的書評(píng)文本抽取并保存。在此例中,將基地系列 和機(jī)器人系統(tǒng)的書評(píng)全部抓取并提取文本。3)利用已有中文分詞器將書評(píng)切分,利用詞性標(biāo)注器對(duì)分詞結(jié)果標(biāo)注詞性,只將 名詞(包括人名、地名、物名和專業(yè)詞匯等名詞)保存下來。2.維基百科衡量器,過濾噪音詞匯對(duì)候補(bǔ)關(guān)鍵詞中詞匯計(jì)算WIKI_IDF,將值過低(< 2)的詞和過高(> 13)的詞直 接過濾,不加入以后的四部圖中。3.將作者、圖書、評(píng)論和詞合并成四部圖如所述四部圖組成,按照不同的權(quán)重設(shè)置賦值相鄰矩陣4.以圖書為中心的吸收態(tài)的隨機(jī)行走,挑選出多樣性的關(guān)鍵詞1)以圖書為中心,賦值屬性矢量d。與該圖書有直接關(guān)系的作者、書評(píng)和詞匯項(xiàng)的 值為1,其余為0。2)對(duì)該四部圖進(jìn)行隨機(jī)行走,將詞匯按照靜態(tài)分布概率從高到低排列,取第一序 位的詞作為候選關(guān)鍵詞。在此例中為科幻。3)將第一序位詞節(jié)點(diǎn)的狀態(tài)轉(zhuǎn)變?yōu)槲諔B(tài),接下來計(jì)算四部圖的各個(gè)節(jié)點(diǎn)的期望步長(zhǎng)。4)將期望步長(zhǎng)最大的節(jié)點(diǎn)挑選為第二候選關(guān)鍵詞,也將其轉(zhuǎn)為吸收態(tài),繼續(xù)計(jì)算 四部圖中各個(gè)節(jié)點(diǎn)的期望步長(zhǎng)。在此例子中為謝頓。5)將期望步長(zhǎng)最大的節(jié)點(diǎn)挑選為第三候選詞,此例中為心靈史學(xué)。按照以上步驟 重復(fù)選擇候選詞。
權(quán)利要求
一種圖書關(guān)鍵字的自動(dòng)生成方法,其特征在于包括以下步驟(1)確定圖書與作者的對(duì)應(yīng)關(guān)系,從互聯(lián)網(wǎng)網(wǎng)站上抓取對(duì)應(yīng)圖書的對(duì)內(nèi)容、風(fēng)格、價(jià)值表達(dá)觀點(diǎn)和看法的文學(xué)評(píng)論及其流行度,將圖書評(píng)論分詞,用詞性標(biāo)注器將其中的詞標(biāo)注詞性,留下其中的名詞作為候補(bǔ)關(guān)鍵詞;(2)使用維基百科衡量器,通過Google檢索候補(bǔ)關(guān)鍵詞在維基百科中出現(xiàn)的文檔數(shù)目和維基百科文檔總數(shù),利用公式WIKIIDF(i)=log(N/W)初步評(píng)定候補(bǔ)關(guān)鍵詞的全局重要性,過濾語氣詞、錯(cuò)別字,其中WIKI_IDF表示通過維基百科衡量器得到的詞的重要性,i為目標(biāo)候補(bǔ)關(guān)鍵詞,M為查詢得到的文檔數(shù),N為中文維基百科文檔總數(shù);(3)將作者、圖書、評(píng)論和候補(bǔ)關(guān)鍵詞四種類型的個(gè)體作為四種節(jié)點(diǎn),將其互相之間的關(guān)系作為邊,利用圖書與作者對(duì)應(yīng)關(guān)系、圖書與書評(píng)對(duì)應(yīng)關(guān)系、維基百科衡量器、文本長(zhǎng)度和流行度構(gòu)建四部圖;(4)基于四部圖,運(yùn)用以圖書為中心的吸收態(tài)隨機(jī)行走算法對(duì)候補(bǔ)關(guān)鍵詞的重要性進(jìn)行排序,挑出排序最高的幾個(gè)候補(bǔ)關(guān)鍵詞作為圖書的關(guān)鍵字。
2.根據(jù)權(quán)利要求1所述的一種圖書關(guān)鍵字的自動(dòng)生成方法,其特征在于所述的將作 者、圖書、評(píng)論和候補(bǔ)關(guān)鍵詞四種類型的個(gè)體作為四種節(jié)點(diǎn),將其互相之間的關(guān)系作為邊, 利用圖書與作者對(duì)應(yīng)關(guān)系、圖書與書評(píng)對(duì)應(yīng)關(guān)系、維基百科衡量器、文本長(zhǎng)度和流行度構(gòu)建 四部圖步驟包括將作者、圖書、書評(píng)和候補(bǔ)關(guān)鍵詞視為圖模型中不同類型的四種節(jié)點(diǎn)并 用對(duì)應(yīng)的數(shù)字代號(hào)代表,將四種節(jié)點(diǎn)之間的關(guān)系視為邊,其中只將不同類型節(jié)點(diǎn)之間包含 的作者與圖書的關(guān)系、圖書與書評(píng)的關(guān)系以及書評(píng)與候補(bǔ)關(guān)鍵詞的關(guān)系三種直接關(guān)系設(shè)為 邊,設(shè)置作者與圖書之間的著作關(guān)系,將圖書和其第一作者之間的關(guān)系權(quán)重設(shè)為1,和其余 作者之間的關(guān)系設(shè)為O ;設(shè)置書評(píng)與圖書之間的關(guān)系,將圖書相對(duì)于其書評(píng)的關(guān)系權(quán)重設(shè) 為1,否則為O ;將書評(píng)相對(duì)于圖書的關(guān)系權(quán)重使用基于流行度和文本質(zhì)量?jī)蓚€(gè)方面的公式 r = (log(RC+l)+) ·πι η(Τ /100,1)來衡量,其中r表示書評(píng)相對(duì)于圖書的關(guān)系權(quán)重,RC表 示該書評(píng)被用戶推薦的次數(shù),TL表示書評(píng)包含的詞總數(shù),min表示取TL/100與1之間的最 小值;設(shè)置書評(píng)與候補(bǔ)關(guān)鍵詞之間的關(guān)系,將書評(píng)與其文本內(nèi)包含的候補(bǔ)關(guān)鍵詞的關(guān)系的 權(quán)重使用公式w = TF(i,j) -WIKIIDF(i)來衡量,其中w表示關(guān)系權(quán)重,i表示某候補(bǔ)關(guān)鍵 詞,j表示對(duì)應(yīng)的圖書評(píng)論,WIKI_IDF(i)指的是利用維基百科衡量器候補(bǔ)關(guān)鍵詞i得到的 全局權(quán)重,TF的計(jì)算公式如下:TF(i, j) = freq(i)/length(i),其中,freq表示一個(gè)候補(bǔ) 關(guān)鍵詞在該圖書評(píng)論中出現(xiàn)的次數(shù),length表示該圖書評(píng)論包含的詞語總數(shù)。使用以下相 鄰矩陣M表示四部圖<formula>formula see original document page 2</formula>其中,A、B、R和W分別表示作者、圖書、圖書評(píng)論和候補(bǔ)關(guān)鍵詞四種節(jié)點(diǎn)集合,Mab, Mba, Mbe, Meb, Mkw和M胃分別表示從節(jié)點(diǎn)類型A出發(fā)到節(jié)點(diǎn)類型B、從節(jié)點(diǎn)類型B出發(fā)到節(jié)點(diǎn)類型 A、從節(jié)點(diǎn)類型B出發(fā)到節(jié)點(diǎn)類型R、從節(jié)點(diǎn)類型R出發(fā)到節(jié)點(diǎn)類型B、從節(jié)點(diǎn)類型R出發(fā)到 節(jié)點(diǎn)類型W和從節(jié)點(diǎn)類型W出發(fā)到節(jié)點(diǎn)類型R的有向邊的相鄰小矩陣,如果i和j節(jié)點(diǎn)在該四部圖不相鄰,Mij值為0,否則為對(duì)應(yīng)的邊的權(quán)重。
3.根據(jù)權(quán)利要求1所述的一種圖書關(guān)鍵字的自動(dòng)生成方法,其特征在于所述基于四 部圖,運(yùn)用以圖書為中心的吸收態(tài)隨機(jī)行走算法對(duì)候補(bǔ)關(guān)鍵詞的重要性進(jìn)行排序,挑出排 序最高的幾個(gè)候補(bǔ)關(guān)鍵詞作為圖書的關(guān)鍵字步驟包括將相鄰矩陣M歸一化得到轉(zhuǎn)移矩陣 W <formula>formula see original document page 3</formula>其中W的各個(gè)部分的歸一化公式如下 (W ) = Uj<formula>formula see original document page 3</formula>其中,α表示圖書類型節(jié)點(diǎn)訪問作者類型節(jié)點(diǎn)的概率,而(l-α)則是圖書類型節(jié)點(diǎn)訪 問書評(píng)類型中的節(jié)點(diǎn)的概率,β表示書評(píng)類型節(jié)點(diǎn)訪問圖書類型節(jié)點(diǎn)的概率,ι-β表示書 評(píng)類型節(jié)點(diǎn)訪問候補(bǔ)關(guān)鍵詞類型節(jié)點(diǎn)的概率;設(shè)置代表作者、圖書、書評(píng)和候補(bǔ)關(guān)鍵詞的節(jié) 點(diǎn)是否與該圖書直接相關(guān)的圖書偏好矢量d,矢量d的結(jié)構(gòu)如下 'dA'<formula>formula see original document page 3</formula>其中dA、dB、dE和dw分別表示A、B、R和W類型節(jié)點(diǎn)的矢量,設(shè)置= 1,若X類型的節(jié) 點(diǎn)i與該圖書直接相連,否則= 0 ;使用隨機(jī)行走模型公式s = (1- λ ) WTs+ λ d迭代計(jì)算 全部節(jié)點(diǎn)的靜態(tài)分布概率,其中d表示圖書偏好矢量,λ表示隨機(jī)行走訪問d中的節(jié)點(diǎn)的 概率,l-λ表示訪問其在圖上的相鄰節(jié)點(diǎn)的概率,s表示圖上各個(gè)點(diǎn)的靜態(tài)分布,W表示歸 一化后的轉(zhuǎn)移矩陣;將候補(bǔ)關(guān)鍵詞節(jié)點(diǎn)中靜態(tài)概率最大的節(jié)點(diǎn)轉(zhuǎn)變?yōu)槲諔B(tài),將從該節(jié)點(diǎn) 出發(fā)的所有邊的權(quán)重設(shè)為0,然后繼續(xù)進(jìn)行隨機(jī)行走;將狀態(tài)轉(zhuǎn)移矩陣轉(zhuǎn)變?yōu)橐韵路妒?lt;formula>formula see original document page 4</formula>其中Q和R代表轉(zhuǎn)移矩陣W中對(duì)應(yīng)的區(qū)域,Ig代表在已經(jīng)轉(zhuǎn)變成吸收態(tài)的節(jié)點(diǎn)集合G 上的單位矩陣;使用以下期望步長(zhǎng)計(jì)算公式迭代計(jì)算各個(gè)節(jié)點(diǎn)的期望步長(zhǎng)<formula>formula see original document page 4</formula>其中,W是一個(gè)矩陣,其值可由對(duì)應(yīng)矢量(dy復(fù)制IQI行而得,其中IQI表示Q矩陣大 小,(w胃)0對(duì)應(yīng)于按照范式重新排列后的Wkw和w胃,、表示隨機(jī)行走從節(jié)點(diǎn)i開始 到被吸收之前總的期望步數(shù),期望步數(shù)在所述四部圖上的表示如下<formula>formula see original document page 4</formula>其中tx表示類型節(jié)點(diǎn)X的期望步長(zhǎng),tQw表示未排序的候補(bǔ)關(guān)鍵詞節(jié)點(diǎn)的期望步數(shù),再 定義一個(gè)值全部為1的常量矢量C <formula>formula see original document page 4</formula>其中Cx表示類型節(jié)點(diǎn)X的常量矢量,C;表示長(zhǎng)度和Q —樣的常量矢量;將期望步長(zhǎng)最 大的候選關(guān)鍵詞節(jié)點(diǎn)挑選出并設(shè)為吸收態(tài),再使用期望步長(zhǎng)計(jì)算公式迭代計(jì)算各個(gè)節(jié)點(diǎn)的 期望步長(zhǎng);重復(fù)以上步驟,一直到轉(zhuǎn)變?yōu)槲諔B(tài)的候補(bǔ)關(guān)鍵詞數(shù)目足夠?yàn)橹梗瑢⑦@些候補(bǔ)關(guān) 鍵詞作為關(guān)鍵詞。
全文摘要
本發(fā)明公開了一種圖書關(guān)鍵字自動(dòng)生成方法。確定圖書與作者的關(guān)系,從互聯(lián)網(wǎng)上抓取書評(píng),將其分詞并標(biāo)注詞性,留下名詞作候補(bǔ)關(guān)鍵詞;通過谷歌檢索候補(bǔ)關(guān)鍵詞在維基百科中出現(xiàn)的文檔數(shù)目以初步評(píng)定重要性,過濾語氣詞、錯(cuò)別字;將作者、圖書、評(píng)論和候補(bǔ)關(guān)鍵詞作為四種節(jié)點(diǎn),將其互相間的關(guān)系作為邊,構(gòu)建四部圖;基于四部圖,運(yùn)用以圖書為中心的吸收態(tài)隨機(jī)行走算法挑選出最重要的候補(bǔ)關(guān)鍵詞作為圖書關(guān)鍵字。本發(fā)明考慮了同一作者著作的主題一致性、內(nèi)容相關(guān)性及讀者反饋,關(guān)鍵詞正確率高;充分覆蓋讀者不同角度的書評(píng),關(guān)鍵詞多樣化;數(shù)據(jù)來自互聯(lián)網(wǎng),書評(píng)數(shù)量龐大、涵蓋面廣,方法覆蓋面廣。
文檔編號(hào)G06F17/30GK101826102SQ20101013315
公開日2010年9月8日 申請(qǐng)日期2010年3月26日 優(yōu)先權(quán)日2010年3月26日
發(fā)明者吳江琴, 莊越挺, 張亮, 張寅 , 魏寶剛 申請(qǐng)人:浙江大學(xué)