本發(fā)明涉及學(xué)習(xí)依賴關(guān)系的方法,具體涉及一種從課件文本自動(dòng)抽取知識(shí)單元間學(xué)習(xí)依賴關(guān)系的方法。
背景技術(shù):
隨著人類科學(xué)技術(shù)的迅猛發(fā)展,人類知識(shí)總量呈現(xiàn)出爆炸式增長(zhǎng)。根據(jù)聯(lián)合國(guó)教科文組織的統(tǒng)計(jì),人類近30年所積累的知識(shí)占有史以來(lái)知識(shí)總量的90%,并且知識(shí)的倍增周期仍在不斷縮短,目前已減至5-7年。知識(shí)總量的快速增長(zhǎng)為知識(shí)的有效獲取和表達(dá)帶來(lái)了嚴(yán)重挑戰(zhàn)。傳統(tǒng)解決方案是通過搜索引擎為用戶反饋出相關(guān)文檔。這種方式不能直接反饋用戶感興趣的知識(shí),需要用戶花費(fèi)很大精力從大量相關(guān)文檔中進(jìn)行篩選。知識(shí)圖譜技術(shù)采用RDF三元組表示的語(yǔ)義網(wǎng)絡(luò),旨在實(shí)現(xiàn)搜索引擎從“機(jī)械羅列”向“網(wǎng)絡(luò)集知”發(fā)展,為用戶提供語(yǔ)義化、關(guān)聯(lián)式信息檢索,在一定程度上緩解了上述問題。但是知識(shí)圖譜不是為了面向主題的認(rèn)知學(xué)習(xí),無(wú)法體現(xiàn)各主題間的認(rèn)知關(guān)系,容易導(dǎo)致學(xué)習(xí)迷航問題。知識(shí)地圖依據(jù)人類認(rèn)知學(xué)習(xí)的特點(diǎn),將知識(shí)與知識(shí)間的關(guān)系組織成圖的形式,形成了一種高效的表示知識(shí)及知識(shí)間組織結(jié)構(gòu)的方式,為緩解學(xué)習(xí)迷航問題提供了有效的方法。
學(xué)習(xí)依賴關(guān)系描述了知識(shí)單元之間在認(rèn)知過程中互相依賴的關(guān)系。判定兩個(gè)知識(shí)單元是否有關(guān)系,是知識(shí)地圖構(gòu)建中的一項(xiàng)基本但非常重要的工作。目前,高質(zhì)量的知識(shí)地圖,仍需要領(lǐng)域?qū)<腋鶕?jù)領(lǐng)域知識(shí)來(lái)標(biāo)注知識(shí)單元之間的學(xué)習(xí)依賴關(guān)系,構(gòu)建過程比較緩慢。因此,設(shè)計(jì)有效的學(xué)習(xí)依賴關(guān)系挖掘算法,將大大提高知識(shí)地圖構(gòu)建速度,減少人力消耗,有助于推動(dòng)以知識(shí)地圖為基礎(chǔ)的導(dǎo)航學(xué)習(xí)的研究與應(yīng)用。
針對(duì)知識(shí)單元之間學(xué)習(xí)依賴關(guān)系挖掘的方法,專利號(hào)為ZL201110312882.1,名稱為一種面向文本的知識(shí)單元關(guān)聯(lián)關(guān)系挖掘方法,提出的方法包括如下步驟:(1)文本關(guān)聯(lián)挖掘:對(duì)文本集合進(jìn)行聚類,找到具有相似主題的文本對(duì),并利用核心術(shù)語(yǔ)分布的不對(duì)稱性,挖掘文本間的線性關(guān)聯(lián)關(guān)系;(2)生成候選知識(shí)單元對(duì):利用知識(shí)單元關(guān)聯(lián)關(guān)系的局部性,產(chǎn)生候選的知識(shí)單元對(duì);(3)特征選擇及知識(shí)單元關(guān)聯(lián)關(guān)系挖掘:基于知識(shí)單元對(duì)的術(shù)語(yǔ)詞頻、距離和語(yǔ)義類型特征,使用SVM分類器將候選的知識(shí)單元對(duì)進(jìn)行二值分類,挖掘知識(shí)單元間的關(guān)聯(lián)關(guān)系。該方法可大大減少候選知識(shí)單元個(gè)數(shù),在保證精度的前提下,有效地降低了關(guān)系挖掘的時(shí)間復(fù)雜度。由于其利用了學(xué)習(xí)依賴關(guān)系的局部性,上述方法難以抽取距離較遠(yuǎn)的知識(shí)單元之間的學(xué)習(xí)依賴關(guān)系。
技術(shù)實(shí)現(xiàn)要素:
為了解決現(xiàn)有技術(shù)中的問題,本發(fā)明提出一種從課件文本自動(dòng)抽取知識(shí)單元間學(xué)習(xí)依賴關(guān)系的方法,能夠?qū)φn件文本進(jìn)行自動(dòng)分析,識(shí)別出文本中的術(shù)語(yǔ)并計(jì)算出術(shù)語(yǔ)對(duì)知識(shí)單元的關(guān)鍵程度,并通過最優(yōu)化術(shù)語(yǔ)之間的關(guān)系得到學(xué)習(xí)依賴關(guān)系挖掘的模型,過程不依賴于學(xué)習(xí)依賴關(guān)系的局部性,能夠用來(lái)挖掘主題關(guān)聯(lián)較遠(yuǎn)的知識(shí)單元之間的學(xué)習(xí)依賴關(guān)系,為學(xué)習(xí)者提供更為完整的知識(shí)導(dǎo)航服務(wù)。
為了實(shí)現(xiàn)以上目的,本發(fā)明所采用的技術(shù)方案為:包括以下步驟:
1)基于互信息的候選術(shù)語(yǔ)生成:首先將課件文檔轉(zhuǎn)換成文本格式,并進(jìn)行分詞處理;然后利用互信息衡量相鄰詞匯結(jié)合的緊密程度,并對(duì)結(jié)合緊密的詞匯進(jìn)行合并處理,從而得到候選術(shù)語(yǔ)集合;
2)基于維基百科的同義術(shù)語(yǔ)約減:爬取術(shù)語(yǔ)對(duì)應(yīng)的維基百科頁(yè)面,利用維基百科頁(yè)面中的重定向標(biāo)志和多語(yǔ)言鏈接,對(duì)同義術(shù)語(yǔ)進(jìn)行約減處理;
3)術(shù)語(yǔ)關(guān)鍵程度度量:首先計(jì)算每個(gè)術(shù)語(yǔ)對(duì)應(yīng)的TF-IDF參數(shù)值,然后利用知識(shí)單元名稱特征和格式特征對(duì)TF-IDF參數(shù)值進(jìn)行加權(quán)處理,以此衡量每個(gè)術(shù)語(yǔ)對(duì)知識(shí)單元的關(guān)鍵程度;
4)最優(yōu)化模型構(gòu)建及求解:建立知識(shí)單元之間學(xué)習(xí)依賴關(guān)系與術(shù)語(yǔ)關(guān)系之間的定量表示,將模型求解問題轉(zhuǎn)化為最優(yōu)化問題,構(gòu)建出最優(yōu)化的目標(biāo)函數(shù),并利用梯度下降算法進(jìn)行模型求解,完成從課件文本自動(dòng)抽取知識(shí)單元間學(xué)習(xí)依賴關(guān)系。
所述步驟1)包括以下步驟:
1.1)使用poi工具包將知識(shí)單元對(duì)應(yīng)課件中的文本抽取出來(lái),并進(jìn)行分詞、去除停用詞處理;
1.2)設(shè)分詞之后,原有的字符串c被分成了兩個(gè)詞a和b,將字符串c在語(yǔ)料中的共現(xiàn)頻率記為f(c),將字符串c在語(yǔ)料中的共現(xiàn)概率記為p(c),依據(jù)最大似然估計(jì)法則,在數(shù)據(jù)量足夠大的情況下,認(rèn)為p(c)等于f(c),將每個(gè)詞視為事件,對(duì)于字符串c=ab,其互信息公式為:利用互信息來(lái)衡量字符串的內(nèi)部結(jié)合緊密程度,得到候選術(shù)語(yǔ)集合。
所述步驟2)包括以下步驟:
2.1)同義詞典擴(kuò)充:以同義詞典為基礎(chǔ),利用維基百科頁(yè)面中的重定向標(biāo)志和多語(yǔ)言鏈接,對(duì)同義詞典進(jìn)行擴(kuò)充;
2.2)同義術(shù)語(yǔ)約減:利用經(jīng)過維基百科擴(kuò)充的同義詞典,對(duì)候選術(shù)語(yǔ)集合中的同義術(shù)語(yǔ)進(jìn)行約減處理。
所述步驟2.2)中約減處理的方式為:對(duì)于含有同義詞項(xiàng)的術(shù)語(yǔ)A,找到與術(shù)語(yǔ)A具有相同含義并且出現(xiàn)頻率最高的術(shù)語(yǔ)B,在候選術(shù)語(yǔ)集合中用術(shù)語(yǔ)B替換術(shù)語(yǔ)A。
所述步驟3)包括以下步驟:
3.1)對(duì)候選術(shù)語(yǔ)集合CT'中的每一個(gè)術(shù)語(yǔ),通過TF-IDF指標(biāo)計(jì)算其對(duì)每個(gè)知識(shí)單元的基本關(guān)鍵程度,TF-IDF指標(biāo)計(jì)算公式為:式中:fij表示術(shù)語(yǔ)i在文檔dj中的詞頻;dfi表示術(shù)語(yǔ)i的文檔詞頻;N表示文檔總數(shù);ni表示文檔中出現(xiàn)術(shù)語(yǔ)i的文檔數(shù);
3.2)基于知識(shí)單元名稱的加權(quán):通過考察術(shù)語(yǔ)是否出現(xiàn)在知識(shí)單元名稱中對(duì)原始的TF-IDF參數(shù)進(jìn)行加權(quán),加權(quán)公式為:Namei,j=wname×bi,j,式中:wname表示知識(shí)單元名稱加權(quán)權(quán)重;bi,j表示術(shù)語(yǔ)i是否出現(xiàn)在知識(shí)單元j的名稱中;
3.3)基于格式特征的加權(quán):通過術(shù)語(yǔ)所在位置的字體大小,對(duì)術(shù)語(yǔ)的關(guān)鍵程度進(jìn)行加權(quán)處理,加權(quán)公式如下:式中:wfont表示字體大小加權(quán)權(quán)重;k表示知識(shí)單元j對(duì)應(yīng)課件中所有不同字體大?。籪i,k表示術(shù)語(yǔ)i是否以字體大小k出現(xiàn);rankk表示所有字體大小逆序排序后,字體大小k的排序值;
3.4)通過知識(shí)單元名稱以及課件字體對(duì)原始TF-IDF參數(shù)進(jìn)行綜合加權(quán),得到術(shù)語(yǔ)關(guān)鍵程度,加權(quán)的公式為:scorei,j=wi,j×(1+Namei,j+Fonti,j),式中:scorei,j表示術(shù)語(yǔ)i對(duì)知識(shí)單元j的關(guān)鍵程度。
所述步驟4)包括以下步驟:
4.1)目標(biāo)函數(shù)構(gòu)建:對(duì)于知識(shí)單元i和知識(shí)單元j,通過下式衡量它們之間存在學(xué)習(xí)依賴關(guān)系的可能性:式中:xi是由所有術(shù)語(yǔ)對(duì)知識(shí)單元i的關(guān)鍵程度構(gòu)成的向量,向量中每一個(gè)元素代表相應(yīng)術(shù)語(yǔ)對(duì)知識(shí)單元i的關(guān)鍵程度;A矩陣代表模型的參數(shù);
對(duì)知識(shí)單元i,設(shè)集合Ωi={(i,j)|yij=1,j=1,2,...,n}是所有與知識(shí)單元i存在學(xué)習(xí)依賴關(guān)系的知識(shí)單元與知識(shí)單元i組成的節(jié)點(diǎn)對(duì),集合為所有與知識(shí)單元i不存在學(xué)習(xí)依賴關(guān)系的知識(shí)單元與知識(shí)單元i組成的節(jié)點(diǎn)對(duì),令定義如下最優(yōu)化問題:
式中:X是一個(gè)矩陣,矩陣中第i行由構(gòu)成;(1-v)+代表hinge損失函數(shù);||A||F代表矩陣A的弗羅貝尼烏斯范數(shù);
4.2)模型求解:對(duì)最優(yōu)化問題,使用加速梯度下降進(jìn)行求解:
令則原目標(biāo)函數(shù)寫成:公式對(duì)A求導(dǎo),得到梯度:
式中:ei、ej、ek都是單位向量;
4.3)學(xué)習(xí)依賴關(guān)系挖掘:通過步驟4.2)得到模型的最優(yōu)化參數(shù)A矩陣,對(duì)于任意兩個(gè)知識(shí)單元,通過最優(yōu)化模型判斷它們之間是否存在學(xué)習(xí)依賴關(guān)系。
與現(xiàn)有技術(shù)相比,本發(fā)明通過處理知識(shí)單元對(duì)應(yīng)課件中的文本,得到候選術(shù)語(yǔ)集合,然后處理候選術(shù)語(yǔ)集合中的同義術(shù)語(yǔ),并計(jì)算每個(gè)術(shù)語(yǔ)對(duì)知識(shí)單元的關(guān)鍵程度,構(gòu)建出最優(yōu)化模型,通過求解得到最優(yōu)化的學(xué)習(xí)依賴關(guān)系抽取模型,能夠?qū)φn件文本進(jìn)行自動(dòng)分析,識(shí)別出文本中的術(shù)語(yǔ)并計(jì)算出術(shù)語(yǔ)對(duì)知識(shí)單元的關(guān)鍵程度,并通過最優(yōu)化術(shù)語(yǔ)之間的關(guān)系得到學(xué)習(xí)依賴關(guān)系挖掘的模型,該過程不依賴于學(xué)習(xí)依賴關(guān)系的局部性,能夠用來(lái)挖掘主題關(guān)聯(lián)較遠(yuǎn)的知識(shí)單元之間的學(xué)習(xí)依賴關(guān)系,為學(xué)習(xí)者提供更為完整的知識(shí)導(dǎo)航服務(wù)。本發(fā)明能夠利用知識(shí)單元對(duì)應(yīng)課件中的文本自動(dòng)抽取知識(shí)單元之間的學(xué)習(xí)依賴關(guān)系,減少了人工構(gòu)建知識(shí)地圖的成本,有助于推動(dòng)以知識(shí)地圖為基礎(chǔ)的導(dǎo)航學(xué)習(xí)的研究與應(yīng)用。
附圖說(shuō)明
圖1為本發(fā)明的方法流程框架圖;
圖2為公式(6)的圖形化示意圖;
圖3為《Java語(yǔ)言》學(xué)習(xí)依賴關(guān)系挖掘部分?jǐn)?shù)據(jù)示例圖。
具體實(shí)施方式
下面結(jié)合具體的實(shí)施例和說(shuō)明書附圖對(duì)本發(fā)明作進(jìn)一步的解釋說(shuō)明。
參見圖1,本發(fā)明具體包括以下步驟:
1)基于互信息的候選術(shù)語(yǔ)生成,主要包括2個(gè)步驟:
1.1)使用poi工具包將知識(shí)單元對(duì)應(yīng)PPT課件中的文本抽取出來(lái),并進(jìn)行分詞、去除停用詞處理;
1.2)設(shè)分詞之后,原來(lái)的字串c被分成了兩個(gè)詞a和b。將字符串c在語(yǔ)料中的共現(xiàn)頻率記為f(c),將字符串c在語(yǔ)料中的共現(xiàn)概率記為p(c),那么,依據(jù)最大似然估計(jì)法則,在數(shù)據(jù)量足夠大的情況下,可以認(rèn)為p(c)等于f(c),如果將每個(gè)詞視為事件,對(duì)于字符串c=ab,其互信息公式為:
利用互信息來(lái)衡量字符串的內(nèi)部結(jié)合緊密程度,從而達(dá)到抽取候選術(shù)語(yǔ)的目的?;诨バ畔⒌暮蜻x術(shù)語(yǔ)生成算法具體步驟如下所示:
輸入:分詞結(jié)果集合Tokens={word1,word2,...,wordn},Tokens中詞匯個(gè)數(shù)n,詞頻統(tǒng)計(jì)信息TF,閾值w
算法流程:
輸出:候選術(shù)語(yǔ)集合CT
2)基于維基百科的同義術(shù)語(yǔ)約減,主要包括2個(gè)步驟:
2.1)同義詞典擴(kuò)充:以《同義詞詞林》為基礎(chǔ),利用維基百科頁(yè)面中的重定向標(biāo)志和多語(yǔ)言鏈接,對(duì)同義詞詞典進(jìn)行擴(kuò)充,同義詞典擴(kuò)充具體算法如下所示:
輸入:候選術(shù)語(yǔ)集合CT={term1,term2,...,termn},CT中詞匯個(gè)數(shù)n,同義詞典D={(term1,...,termi)},其中(term1,...,termi)為i個(gè)具有相同含義的術(shù)語(yǔ)
算法流程:
輸出:經(jīng)過擴(kuò)充的同義詞典D
2.2)基于同義詞典的同義術(shù)語(yǔ)約減:利用經(jīng)過維基百科擴(kuò)充的同義詞典,本文對(duì)候選術(shù)語(yǔ)集合中的同義術(shù)語(yǔ)進(jìn)行了統(tǒng)一處理,處理的基本方式是,對(duì)于含有同義詞項(xiàng)的術(shù)語(yǔ)A,找到與術(shù)語(yǔ)A具有相同含義并且出現(xiàn)頻率最高的術(shù)語(yǔ)B,在候選術(shù)語(yǔ)集中用術(shù)語(yǔ)B替換術(shù)語(yǔ)A,相應(yīng)算法如下所示:
輸入:候選術(shù)語(yǔ)集合CT={term1,term2,...,termn},CT中詞匯個(gè)數(shù)n,同義詞典D={(term1,...,termi)},其中(term1,...,termi)為i個(gè)具有相同含義的術(shù)語(yǔ),詞頻統(tǒng)計(jì)信息TF
算法流程:
輸出:CT'
3)術(shù)語(yǔ)關(guān)鍵程度度量,主要包括4個(gè)步驟:
3.1)對(duì)候選術(shù)語(yǔ)集合CT'中的每一個(gè)術(shù)語(yǔ),通過TF-IDF指標(biāo)計(jì)算其對(duì)每個(gè)知識(shí)單元的基本關(guān)鍵程度,TF-IDF指標(biāo)計(jì)算公式如下:
式中:fij表示術(shù)語(yǔ)i在文檔dj中的詞頻;dfi表示術(shù)語(yǔ)i的文檔詞頻;N表示文檔總數(shù);ni表示文檔中出現(xiàn)術(shù)語(yǔ)i的文檔數(shù);
3.2)基于知識(shí)單元名稱的加權(quán):出現(xiàn)在知識(shí)單元名稱中的術(shù)語(yǔ)很有可能是該知識(shí)單元的關(guān)鍵術(shù)語(yǔ),可以通過考察術(shù)語(yǔ)是否出現(xiàn)在知識(shí)單元名稱中對(duì)原始的TF-IDF參數(shù)進(jìn)行加權(quán),加權(quán)公式如下:
Namei,j=wname×bi,j (3)
式中:wname表示知識(shí)單元名稱加權(quán)權(quán)重;bi,j表示術(shù)語(yǔ)i是否出現(xiàn)在知識(shí)單元j的名稱中;
3.3)基于PPT格式特征的加權(quán):在PPT的分級(jí)展示中,層級(jí)越高,字體一般越大,其所表達(dá)的內(nèi)容越重要,因此,可通過術(shù)語(yǔ)所在位置的字體大小,對(duì)術(shù)語(yǔ)的關(guān)鍵程度進(jìn)行加權(quán)處理,加權(quán)公式如下:
式中:wfont表示字體大小加權(quán)權(quán)重;k表示知識(shí)單元j對(duì)應(yīng)課件中所有不同字體大??;fi,k表示術(shù)語(yǔ)i是否以字體大小k出現(xiàn);rankk表示所有字體大小逆序排序后,字體大小k的排序值;
3.4)通過知識(shí)單元名稱以及課件字體對(duì)原始TF-IDF參數(shù)進(jìn)行綜合加權(quán)的公式為:
scorei,j=wi,j×(1+Namei,j+Fonti,j) (5)
式中:scorei,j表示術(shù)語(yǔ)i對(duì)知識(shí)單元j的關(guān)鍵程度;
4)最優(yōu)化模型構(gòu)建及求解,主要包括3個(gè)步驟:
4.1)目標(biāo)函數(shù)構(gòu)建:首先,對(duì)于知識(shí)單元i和知識(shí)單元j,通過下式衡量它們之間存在學(xué)習(xí)依賴關(guān)系的可能性:
式中:xi是由所有術(shù)語(yǔ)對(duì)知識(shí)單元i的關(guān)鍵程度構(gòu)成的向量,向量中每一個(gè)元素代表相應(yīng)術(shù)語(yǔ)對(duì)知識(shí)單元i的關(guān)鍵程度;A矩陣代表模型的參數(shù),如圖2所示,公式(6)可理解為從知識(shí)單元i到知識(shí)單元j之間所有路徑的權(quán)重之和;
對(duì)知識(shí)單元i,設(shè)集合Ωi={(i,j)|yij=1,j=1,2,...,n},即該集合是所有與知識(shí)單元i存在學(xué)習(xí)依賴關(guān)系的知識(shí)單元與知識(shí)單元i組成的節(jié)點(diǎn)對(duì),集合即該集合是所有與知識(shí)單元i不存在學(xué)習(xí)依賴關(guān)系的知識(shí)單元與知識(shí)單元i組成的節(jié)點(diǎn)對(duì),對(duì)于一個(gè)合理的模型參數(shù)A,希望在集合Ωi中的每對(duì)知識(shí)單元所對(duì)應(yīng)的公式的分值都要大于集合中每對(duì)知識(shí)單元的分值,令定義如下最優(yōu)化問題:
式中:X是一個(gè)矩陣,矩陣中第i行由構(gòu)成;(1-v)+代表hinge損失函數(shù);||A||F代表矩陣A的弗羅貝尼烏斯范數(shù);
4.2)模型求解:對(duì)于公式(7)所示的最優(yōu)化問題,可以使用加速梯度下降(AcceleratedGradient Descent)進(jìn)行求解:
令則原目標(biāo)函數(shù)可以寫成:
公式(8)對(duì)A求導(dǎo),得到梯度:
式中:ei、ej、ek都是單位向量,具體計(jì)算方法如下所示:
輸入:X,T,λ,η,最大迭代次數(shù)N
算法流程:
輸出:A
4.3)學(xué)習(xí)依賴關(guān)系挖掘:通過步驟4.2),可以得到模型的最優(yōu)化參數(shù)A矩陣,此時(shí),對(duì)于任意兩個(gè)知識(shí)單元,都可以通過該最優(yōu)化模型判斷它們之間是否存在學(xué)習(xí)依賴關(guān)系,如圖3展示了《Java語(yǔ)言》課程學(xué)習(xí)依賴關(guān)系挖掘結(jié)果的部分示例,圖中實(shí)線代表已知的學(xué)習(xí)依賴關(guān)系,虛線代表需要判斷的知識(shí)單元對(duì),虛線上的數(shù)字代表該知識(shí)單元對(duì)具有學(xué)習(xí)依賴關(guān)系的可能性。