两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種改進(jìn)的密度文本聚類算法的制作方法

文檔序號(hào):12121263閱讀:632來(lái)源:國(guó)知局
一種改進(jìn)的密度文本聚類算法的制作方法與工藝

本發(fā)明涉及語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種改進(jìn)的密度文本聚類算法。



背景技術(shù):

文本聚類是數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)重要分支,尤其在信息量迅速增長(zhǎng)的當(dāng)今社會(huì),文本聚類能夠在人們?nèi)粘5纳a(chǎn)生活中起到重要作用。國(guó)內(nèi)外圍繞著文本聚類這一課題進(jìn)行了大量的研究,并有了些初步的成果,但是從目前的研究狀況來(lái)看,文本聚類仍有很多地方需要改進(jìn)。在文本聚類數(shù)學(xué)模型方面,基于Markov過(guò)程的n-gram模型和Salton向量空間模型是比較常見和有效的文本數(shù)學(xué)模型。其中VSM模型理論簡(jiǎn)單,效果良好而在文本聚類中被廣為應(yīng)用,但其模型有著高維稀疏的缺點(diǎn),隨著硬件的飛速發(fā)展,文本聚類處理將研究重點(diǎn)相對(duì)的從過(guò)去的如何降低算法時(shí)間和空間復(fù)雜度轉(zhuǎn)向追求聚類結(jié)果的精確度,這促使了文本中語(yǔ)義邏輯的研究。為了滿足上述需求,本發(fā)明提供了一種改進(jìn)的密度文本聚類算法。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)于模型有著高維稀疏的缺點(diǎn)和聚類結(jié)果精度不足的問(wèn)題,本發(fā)明提供了一種改進(jìn)的密度文本聚類算法。

為了解決上述問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:

步驟1:初始化文本庫(kù),對(duì)文本進(jìn)行預(yù)處理過(guò)程;

步驟2:根據(jù)詞匯在文本中的位置得到一系列詞匯位置權(quán)重值(α1,α2,…,αn);

步驟3:根據(jù)詞匯在文本中的詞性得到一系列詞匯詞性權(quán)重值β1、β2、β3、β4;

步驟4:綜合上述位置與詞性,根據(jù)詞匯在文本中信息量,得到詞匯在文本中的權(quán)重wi和詞匯在文本庫(kù)中的權(quán)重Sw,歸一化處理上述因子,得到提取特征詞匯的目標(biāo)函數(shù)f(w)。

步驟5:利用改進(jìn)的基于密度中心算法,對(duì)文本庫(kù)進(jìn)行聚類;

本發(fā)明有益效果是:

1、此方法比傳統(tǒng)的詞頻-反文檔頻率方法得到的特征詞匯集合的準(zhǔn)確度更高。

2、此方法克服了信息增益方法只適合用來(lái)提取一個(gè)類別的文本特征的缺點(diǎn)。

3、此算法具有更大的利用價(jià)值。

4、此方法計(jì)算了特征詞匯中不同詞匯對(duì)文本思想的貢獻(xiàn)度。

5、此方法大大降低噪聲和孤立點(diǎn)對(duì)簇分類的影響。

6、有利于發(fā)現(xiàn)任意形狀的簇。

7、文本聚類結(jié)果更符合經(jīng)驗(yàn)值。

附圖說(shuō)明

圖1一種改進(jìn)的密度文本聚類算法的結(jié)構(gòu)流程圖

圖2 n元語(yǔ)法分詞算法圖解

圖3中文文本預(yù)處理過(guò)程流程圖

圖4改進(jìn)的基于密度中心算法的文本聚類結(jié)構(gòu)流程圖

具體實(shí)施方式

為了解決模型有著高維稀疏和聚類結(jié)果精度不足的問(wèn)題,結(jié)合圖1-圖4對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,其具體實(shí)施步驟如下:

步驟1:初始化文本庫(kù),對(duì)文本進(jìn)行中文預(yù)處理過(guò)程,其具體預(yù)處理技術(shù)如下:

步驟1.1:分詞是文本預(yù)處理的第一個(gè)步驟。在英文文本中,詞語(yǔ)間由空格隔開,因此不需要這一步驟,而中文文本中,詞之間是沒(méi)有空格的,必須進(jìn)行分詞處理,具體分詞技術(shù)如下:

步驟1.1.1:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進(jìn)行查找匹配,遇到字典里有的詞就標(biāo)識(shí)出來(lái);如果詞典中不存在相關(guān)匹配,就簡(jiǎn)單地分割出單字作為詞;直到漢字串為空。

步驟1.1.2:依據(jù)概率統(tǒng)計(jì)學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個(gè)可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為SM1M2M3M4M5E,其結(jié)構(gòu)圖如圖2所示。

步驟1.1.3:基于信息論方法,給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值,其具體計(jì)算過(guò)程如下:

根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個(gè)詞,第i條路徑包含詞的個(gè)數(shù)為ni。即n條路徑詞的個(gè)數(shù)集合為(n1,n2,…,nn)。

得 min()=min(n1,n2,…,nn)

在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權(quán)重大小。

在統(tǒng)計(jì)語(yǔ)料庫(kù)中,計(jì)算每個(gè)詞的信息量X(Ci),再求解路徑相鄰詞的共現(xiàn)信息量X(Ci,Ci+1)。既有下式:

X(Ci)=|x(Ci)1-x(Ci)2|

上式x(Ci)1為文本語(yǔ)料庫(kù)中詞Ci的信息量,x(Ci)2為含詞Ci的文本信息量。

X(Ci)1=-p(Ci)1lnp(Ci)1

上式p(Ci)1為Ci在文本語(yǔ)料庫(kù)中的概率,n為含詞Ci的文本語(yǔ)料庫(kù)的個(gè)數(shù)。

X(Ci)2=-p(Ci)2lnp(Ci)2

上式p(Ci)2為含詞Ci的文本數(shù)概率值,N為統(tǒng)計(jì)語(yǔ)料庫(kù)中文本總數(shù)。

同理 X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|

x(Ci,Ci+1)1為在文本語(yǔ)料庫(kù)中詞(Ci,Ci+1)的共現(xiàn)信息量,x(Ci,Ci+1)2為相鄰詞(Ci,Ci+1)共現(xiàn)的文本信息量。

同理 x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1

上式p(Ci,Ci+1)1為在文本語(yǔ)料庫(kù)中詞(Ci,Ci+1)的共現(xiàn)概率,m為在文本庫(kù)中詞(Ci,Ci+1)共現(xiàn)的文本數(shù)量。

x(Ci,Ci+1)2=-p(Ci,Ci+1)2lnp(Ci,Ci+1)2

p(Ci,Ci+1)2為文本庫(kù)中相鄰詞(Ci,Ci+1)共現(xiàn)的文本數(shù)概率。

綜上可得每條相鄰路徑的權(quán)值為

w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)

步驟1.1.4:找到權(quán)值最大的一條路徑,即為待分詞句子的分詞結(jié)果,其具體計(jì)算過(guò)程如下:

有n條路徑,每條路徑長(zhǎng)度不一樣,假設(shè)路徑長(zhǎng)度集合為(L1,L2,…,Ln)。

假設(shè)經(jīng)過(guò)取路徑中詞的數(shù)量最少操作,排除了m條路徑,m<n。即剩下(n-m)路徑,設(shè)其路徑長(zhǎng)度集合為

則每條路徑權(quán)重為:

上式分別為第1,2到路徑邊的權(quán)重值,根據(jù)步驟1.4可以一一計(jì)算得出,為剩下(n-m)路徑中第Sj條路徑的長(zhǎng)度。

權(quán)值最大的一條路徑:

步驟1.2:去停用詞為中文文本預(yù)處理第二步驟,根據(jù)停用表對(duì)文本詞匯進(jìn)行去停用詞處理,其具體描述如下:

停用詞是指在文本中出現(xiàn)頻率高,但對(duì)于文本標(biāo)識(shí)卻沒(méi)有太大作用的單詞。去停用詞的過(guò)程就是將特征項(xiàng)與停用詞表中的詞進(jìn)行比較,如果匹配就將該特征項(xiàng)刪除。

綜合分詞和刪除停用詞技術(shù),中文文本預(yù)處理過(guò)程流程圖如圖3。

步驟3:根據(jù)詞匯在文本中的位置得到一系列詞匯位置權(quán)重值(α1,α2,…,αn),其具體描述如下:

各個(gè)詞在文本中的分布是不同的,而不同位置的詞對(duì)于表示文本內(nèi)容的能力也是不同的。這個(gè)可以根據(jù)統(tǒng)計(jì)調(diào)查得出一系列的位置權(quán)重值(α1,α2,…,αn)。

步驟4:根據(jù)詞匯在文本中的詞性得到一系列詞匯詞性權(quán)重值β1、β2、β3、β4,其具體描述如下:

現(xiàn)代漢語(yǔ)語(yǔ)法中,一個(gè)句子主要由主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)和狀語(yǔ)等成分構(gòu)成。從詞性的角度看,名詞一般擔(dān)當(dāng)主語(yǔ)和賓語(yǔ)的角色,動(dòng)詞一般擔(dān)當(dāng)謂語(yǔ)的角色,形容詞和副詞一般擔(dān)當(dāng)定語(yǔ)的角色。詞性的不同,造成了它們對(duì)文本或者句子的表示內(nèi)容的能力的不一樣。根據(jù)調(diào)查統(tǒng)計(jì)得出名詞、動(dòng)詞、形容詞、副詞的權(quán)重值依次為β1、β2、β3和β4,且β1>β2>β3>β4

步驟4:綜合上述位置與詞性,根據(jù)詞匯在文本中信息量,得到詞匯在文本中的權(quán)重wi和詞匯在文本庫(kù)中的權(quán)重Siw,歸一化處理上述因子,得到提取特征詞匯的目標(biāo)函數(shù)f(w),其具體計(jì)算過(guò)程如下:

上式h為特征詞匯i在文本中出現(xiàn)的段落數(shù),αij為第j段的位置權(quán)重值,αij∈(α1,α2,…,αn),βiv為詞匯i的詞性權(quán)重值,βiv∈(β1,β2,β3,β4),nij為詞匯i在第j段出現(xiàn)的次數(shù),Niw為詞匯i所在文本中特征詞匯集合的總個(gè)數(shù)。

nw為文本庫(kù)中文本的數(shù)量,piw為詞匯i在第w文本中概率,為詞匯i在文本庫(kù)中的平均概率。

詞匯在文本中的權(quán)重wi和詞匯在文本庫(kù)中的權(quán)重Siw進(jìn)行歸一化處理,得f(w):

r為文本中特征詞匯的個(gè)數(shù)。

設(shè)定一個(gè)合適的目標(biāo)函數(shù)閾值y,提取文本的特征詞匯向量,有下式:

f(w)>y

滿足上式,即為文本的特征詞匯。

步驟5:利用改進(jìn)的基于密度中心算法,對(duì)文本庫(kù)進(jìn)行聚類,其具體子步驟如下:

步驟5.1:對(duì)于數(shù)據(jù)對(duì)象集合中的每一對(duì)象,即文本特征詞匯向量計(jì)算ε領(lǐng)域內(nèi)的對(duì)象數(shù)目;

步驟5.2:如果文本特征詞匯向量的ε鄰域包含的數(shù)據(jù)對(duì)象數(shù)目大于或等于設(shè)定好的閾值N,則建一個(gè)以為核心對(duì)象的簇M,簇中包含的ε鄰域內(nèi)所有對(duì)象。

步驟5.3:利用下式m函數(shù)尋找核心對(duì)象密度可達(dá)的對(duì)象,并將其包含到簇M中,其具體計(jì)算過(guò)程如下:

為當(dāng)前文本特征詞匯向量到中心點(diǎn)的距離,為當(dāng)前文本特征詞匯向量到空間全局中心點(diǎn)的距離。相似度與距離成反比,所以取更小的N個(gè)向量歸為一類分類。

步驟5.4:轉(zhuǎn)到步驟5.3,直到?jīng)]有新的數(shù)據(jù)對(duì)象添加到簇中;

一種改進(jìn)的密度文本聚類算法,其偽代碼計(jì)算過(guò)程如下:

輸入:初始化文本庫(kù)

輸出:文本聚類的結(jié)果。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
乳山市| 开封县| 鄂尔多斯市| 高州市| 衡山县| 哈尔滨市| 林西县| 马鞍山市| 卢龙县| 鸡西市| 辽阳市| 沈阳市| 江阴市| 五大连池市| 平南县| 招远市| 同仁县| 抚宁县| 丰镇市| 凤翔县| 阿鲁科尔沁旗| 仙游县| 云和县| 桂东县| 错那县| 红原县| 海盐县| 冕宁县| 时尚| 容城县| 辽阳县| 泰兴市| 米林县| 隆德县| 嘉荫县| 隆回县| 南京市| 大埔区| 本溪| 永仁县| 伊川县|