本發(fā)明涉及專利主題聚類分析,具體涉及一種基于強化學(xué)習(xí)微調(diào)語義向量模型的專利主題聚類方法。
背景技術(shù):
1、近年來,在巨大的發(fā)明專利數(shù)量增長下,企業(yè)亟需對相關(guān)領(lǐng)域內(nèi)大體量的專利進行主題分類、價值評估等,實現(xiàn)高價值專利挖掘,并進一步引導(dǎo)企業(yè)進行科技創(chuàng)新領(lǐng)域布局,貢獻更強大的科技驅(qū)動力。
2、高價值專利挖掘的第一步就在于如何科學(xué)地從領(lǐng)域內(nèi)巨大體量的專利中進行主題識別和分類。目前,一方面以人工經(jīng)驗為主,形成以專家經(jīng)驗為基礎(chǔ)的技術(shù)譜系或主題類目。另一方面以智能技術(shù)為主,通過文本主題識別和聚類算法,形成以專利數(shù)據(jù)為基礎(chǔ)的主題分類挖掘結(jié)果。對于人工經(jīng)驗的方法,分類結(jié)果較為穩(wěn)定,各主題之間往往具有較強的邏輯關(guān)系,但無法全面覆蓋所有的專利內(nèi)容。而對于智能技術(shù)的方法,分類結(jié)果能夠全面覆蓋歷史海量專利數(shù)據(jù),但基于不同的智能技術(shù)方案,分類結(jié)果的質(zhì)量也有較大差異。傳統(tǒng)的文本主題識別模型主要是lda(latent?dirichlet?allocation)模型,通過對文檔集進行詞匯頻率的統(tǒng)計分析獲得特征詞權(quán)重向量,從而實現(xiàn)文本的主題分類,例如申請?zhí)枮?02210205214.7的中國專利公開了一種基于主題集成聚類的產(chǎn)品典型性特質(zhì)挖掘方法及系統(tǒng),主要通過改進lda模型對特定領(lǐng)域內(nèi)噪聲較大的非結(jié)構(gòu)化文本進行向量化處理,但該方法需要借助分詞軟件工具對非英文語言文本進行詞性還原和詞干提取,分詞結(jié)果影響文本向量化質(zhì)量。此外,常見的聚類算法主要是k-means算法,其核心思想是通過將數(shù)據(jù)點劃分為 k個不同的簇,并將每個數(shù)據(jù)點分配到最近的簇中,實現(xiàn)聚類的目的,但該算法中聚類數(shù) k是一個超參數(shù),依賴領(lǐng)域經(jīng)驗,該參數(shù)的設(shè)定會影響聚類結(jié)果的質(zhì)量。
技術(shù)實現(xiàn)思路
1、發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種基于強化學(xué)習(xí)微調(diào)語義向量模型的專利主題聚類方法。
2、為了解決上述技術(shù)問題,本發(fā)明公開了一種基于強化學(xué)習(xí)微調(diào)語義向量模型的專利主題聚類方法,該方法具體包括以下步驟:
3、步驟1、獲取相關(guān)領(lǐng)域內(nèi)專利文本集,提取結(jié)構(gòu)化文本信息和非結(jié)構(gòu)化文本信息;
4、步驟2、初始化關(guān)鍵參數(shù);
5、步驟3、對結(jié)構(gòu)化文本信息進行向量化處理;
6、步驟4、基于bge語義向量模型對非結(jié)構(gòu)化專利文本信息進行向量化處理;
7、步驟5、特征融合并計算整體專利文本集的特征均值向量;
8、步驟6、基于k-means聚類算法對專利文本集進行專利主題聚類;
9、步驟7、計算聚類結(jié)果的評價指標;
10、步驟8、基于強化學(xué)習(xí)中的pg定理計算關(guān)鍵參數(shù)導(dǎo)數(shù),并更新關(guān)鍵參數(shù),判斷循環(huán)跳出條件,若不滿足,則返回步驟3,否則跳出循環(huán);
11、步驟9、基于最新關(guān)鍵參數(shù),計算并輸出聚類結(jié)果。
12、在步驟1中,所述相關(guān)領(lǐng)域內(nèi)專利文本集是已經(jīng)通過篩選后的某相關(guān)領(lǐng)域內(nèi)待需主題分類的所有專利文本集合,假設(shè)該集合中專利文本總數(shù)為 n;在步驟1中,所述結(jié)構(gòu)化文本信息包括專利文本中的申請人信息和發(fā)明人信息;在步驟1中所述非結(jié)構(gòu)化文本信息包括專利文本中的摘要內(nèi)容。
13、在步驟2中,所述關(guān)鍵參數(shù)包括嵌入矩陣(和)、bge語義向量模型中的神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)向量()、k-means聚類算法中產(chǎn)生參數(shù)的策略神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)向量(和),其中,、、和是通過隨機設(shè)置獲得,是使用已經(jīng)開源的預(yù)訓(xùn)練通用參數(shù)。
14、在步驟3中,所述對結(jié)構(gòu)化文本信息進行向量化處理的具體步驟如下:
15、步驟3-1、將專利文本集合中所有的申請人和發(fā)明人各整合成一個匯總表,統(tǒng)計出申請人總數(shù)為和發(fā)明人總數(shù)為;
16、步驟3-2、為專利文本集合中的每一篇專利進行申請人向量編碼和發(fā)明人向量編碼,假設(shè)第篇專利編碼后的申請人向量為,發(fā)明人向量為,,編碼方式如下:
17、
18、
19、其中,任意元素和取值均為0或1,表示申請人匯總表中第個申請人是第篇專利的申請人,否則并不是該專利的申請人,表示發(fā)明人匯總表中第個發(fā)明人是第篇專利的發(fā)明人,否則并不是該專利的發(fā)明人;j表示索引。
20、步驟3-3、為專利文本集合中的每一篇專利計算申請人嵌入向量和發(fā)明人嵌入向量,假設(shè)第篇專利的申請人嵌入向量為,發(fā)明人嵌入向量為,計算方式如下:
21、
22、
23、其中,為行列的嵌入矩陣,為行列的嵌入矩陣,和兩個矩陣中的參數(shù)會在迭代計算中不斷更新變化,初始化時通過隨機設(shè)置獲得,參數(shù)為人工預(yù)設(shè)。
24、對于上述步驟3,專利文本中申請人和發(fā)明人等結(jié)構(gòu)化信息包含了能夠提高專利主題聚類質(zhì)量的重要信息,如特定申請人會集中攻關(guān)特定主題的技術(shù)方向,同理,發(fā)明人也有各自主要研究的技術(shù)領(lǐng)域,故通過將專利文本中的申請人和發(fā)明人信息進行向量化處理,并作為后續(xù)特征向量的組成部分,有助于學(xué)習(xí)其中規(guī)律,提高聚類質(zhì)量。
25、在步驟4中,所述基于bge語義向量模型對非結(jié)構(gòu)化專利文本信息進行向量化處理的具體方式如下:假設(shè)專利文本集合中第篇專利的非結(jié)構(gòu)化信息(摘要內(nèi)容)記作,將輸入至bge語義向量模型,獲得非結(jié)構(gòu)化信息特征向量,計算過程表示如下:
26、
27、其中,是一個關(guān)于權(quán)重參數(shù)向量的神經(jīng)網(wǎng)絡(luò)模型,通過輸入專利文本的摘要內(nèi)容能夠?qū)崿F(xiàn)輸出特征向量,初始化時使用已經(jīng)開源的預(yù)訓(xùn)練參數(shù),該開源的參數(shù)值是基于通用文本數(shù)據(jù)訓(xùn)練而獲得的,基于該開源的權(quán)重參數(shù)而獲得的文本向量化結(jié)果可能在具體的某專業(yè)領(lǐng)域中表現(xiàn)欠佳,因此該神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)向量會在迭代計算中不斷更新變化。
28、對于上述步驟4,傳統(tǒng)的基于lda模型將非英文文本進行向量化時,需要依賴分詞軟件,如jieba分詞工具等,并且分詞結(jié)果直接影響語義向量化結(jié)果,而利用bge語義向量模型時,可實現(xiàn)非英文文本語義直接向量化,且該結(jié)果在同等基于神經(jīng)網(wǎng)絡(luò)的語義向量化模型中表現(xiàn)最佳,進一步,本發(fā)明通過融入強化學(xué)習(xí)的算法框架,學(xué)習(xí)特定領(lǐng)域的專利樣本,對bge語義向量模型中通用神經(jīng)網(wǎng)絡(luò)參數(shù)進行調(diào)整,實現(xiàn)更加專業(yè)和準確的語義向量轉(zhuǎn)化,這是本技術(shù)領(lǐng)域內(nèi)的一個重要創(chuàng)新點。
29、在步驟5中,所述特征融合并計算整體專利文本集的特征均值向量具體步驟如下:
30、步驟5-1、將專利文本集合中每一篇專利的結(jié)構(gòu)化和非結(jié)構(gòu)化本文信息向量化后的結(jié)果進行向量拼接,假設(shè)專利文本集合中第篇專利拼接后的向量為,拼接方式如下:
31、
32、步驟5-2、以為均值向量,為協(xié)方差(為預(yù)設(shè)參數(shù)),構(gòu)造正態(tài)分布,并進行采樣得到特征向量,同時計算得到采樣該的概率密度;
33、步驟5-3、計算整體專利文本集的特征均值向量,具體方式如下:假設(shè)是行的列向量,第行的元素記作,那么,整體專利文本集的特征均值向量記作,也是行的列向量,第行的元素記作,任意一行元素的計算方式如下:
34、
35、其中,是專利文本集中專利文本的總數(shù)。
36、對于上述步驟5,將結(jié)構(gòu)化和非結(jié)構(gòu)化文本向量化后的結(jié)果進行拼接融合能夠使得特征信息更加豐富,有利于提高聚類質(zhì)量,此外,根據(jù)強化學(xué)習(xí)中pg定理,特征向量及其概率密度需要通過構(gòu)造正態(tài)分布函數(shù)和概率采樣的方式獲得,以此滿足參數(shù)可導(dǎo)及求導(dǎo)的要求,促使參數(shù)正確反饋,實現(xiàn)算法有效收斂。
37、在步驟6中,所述基于k-means聚類算法對專利文本集進行專利主題聚類的具體步驟如下:
38、步驟6-1、根據(jù)策略設(shè)置k-means聚類算法中的參數(shù),該策略表示如下:
39、
40、其中,是一個關(guān)于權(quán)重參數(shù)向量和的策略神經(jīng)網(wǎng)絡(luò)模型,通過輸入所有專利融合后的特征均值向量能夠?qū)崿F(xiàn)輸出一個離散概率分布,再根據(jù)該離散概率分布得到參數(shù)及其對應(yīng)的離散概率,該神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)向量和會在迭代計算中不斷更新變化,初始化時通過隨機設(shè)置獲得;
41、步驟6-2、隨機設(shè)置個中心點,其中,任意中心點都是行的列向量,將第行的元素記作;
42、步驟6-3、計算每個專利的特征向量到每個中心點的歐式距離,計算方法如下:
43、
44、步驟6-4、將每個專利分配到對應(yīng)的類簇中,具體分配方式如下:對任意一個專利的特征向量,根據(jù)計算得到的歐式距離,找到它到個中心點中最近的一個,即,則將專利文本集合中第篇專利劃歸至第類簇中,直至所有專利都分類完成;
45、步驟6-5、重新計算個中心點,對任意一個中心點中任意一行的元素計算方法如下:
46、
47、其中,表示當前最新循環(huán)計算中分類到第類簇的專利文本序號集合,表示中的專利文本總數(shù);
48、步驟6-6、重復(fù)步驟6-3至步驟6-5,直到預(yù)設(shè)的最大迭代次數(shù)為止。
49、對于上述步驟6,通過設(shè)計關(guān)于權(quán)重參數(shù)向量和的策略神經(jīng)網(wǎng)絡(luò)模型,并結(jié)合強化學(xué)習(xí)算法框架,實現(xiàn)對參數(shù)的無監(jiān)督自適應(yīng)學(xué)習(xí),有利于增強聚類結(jié)果的客觀性。
50、進一步地,步驟s7中所述聚類結(jié)果的評價指標采用鄧恩指標,的值越大表明聚類效果越好,計算方式如下:
51、
52、其中,表示任意兩類簇和的遠離程度,計算方式為分別在兩個類簇和中各取一個樣本點和,計算歐式距離,取最小的歐式距離作為這兩個類簇之間的遠離程度;表示任意一個類簇的覆蓋直徑,計算方式為取類簇內(nèi)任意兩個樣本點和,計算歐式距離,取最大的歐式距離作為這個類簇的覆蓋直徑。
53、對于上述步驟7,采用鄧恩指標能較為綜合的評價聚類結(jié)果的質(zhì)量,該指標在整個算法中起到了指引聚類優(yōu)化的方向,也是判斷算法循環(huán)結(jié)束的重要標志。
54、在步驟8中,所述基于強化學(xué)習(xí)中的pg定理計算關(guān)鍵參數(shù)導(dǎo)數(shù)的方式如下:
55、
56、其中,可以為關(guān)鍵參數(shù)、、、和中的任意一個,表示求關(guān)于關(guān)鍵參數(shù)的導(dǎo)數(shù),表示對中括號中的內(nèi)容求期望值,對,是步驟5-2中采樣的概率密度,是步驟6-1中獲得參數(shù)時的離散概率。
57、在步驟8中,所述更新關(guān)鍵參數(shù)具體方式如下:
58、
59、其中,表示更新后的關(guān)鍵參數(shù)值,表示更新前的關(guān)鍵參數(shù)值,可以為關(guān)鍵參數(shù)、、、和中的任意一個,為學(xué)習(xí)率,在循環(huán)迭代計算中以固定模式遞減。
60、在步驟8中,所述循環(huán)跳出條件為,其中,表示最新一輪迭代計算得到的鄧恩指標值,表示前一輪迭代計算得到的鄧恩指標值,為預(yù)設(shè)的閾值。
61、對于上述步驟8,設(shè)置合理的學(xué)習(xí)率能夠平衡強化學(xué)習(xí)算法的收斂速度和學(xué)習(xí)質(zhì)量,特別是以固定模式遞減的方法設(shè)置參數(shù),使得算法在迭代前期加快收斂而在迭代后期精細學(xué)習(xí)規(guī)律,達到收斂速度和學(xué)習(xí)質(zhì)量之間保持良性平衡的目的。
62、有益效果:本發(fā)明采用bge語義向量模型實現(xiàn)將非英文文本的專利內(nèi)容直接向量轉(zhuǎn)換,同時在使用bge語義向量模型時,考慮到相關(guān)領(lǐng)域內(nèi)文本內(nèi)容的專業(yè)性,利用強化學(xué)習(xí)方法對bge語義向量模型中的關(guān)鍵參數(shù)進行微調(diào),提高專利文本信息向量化的準確性和專利主題聚類結(jié)果的準確性。此外,進一步利用強化學(xué)習(xí)對傳統(tǒng)k-means聚類算法中參數(shù)進行迭代調(diào)整,解決了依賴人工經(jīng)驗設(shè)置參數(shù)的問題,增強了專利主題聚類結(jié)果的客觀性。解決了現(xiàn)有技術(shù)無法客觀對主題數(shù)目確認和難以直接對非英文語言文本處理的技術(shù)問題。