两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于信息瓶頸的模糊三維聚類方法

文檔序號(hào):8319310閱讀:190來源:國(guó)知局
一種基于信息瓶頸的模糊三維聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于信息瓶頸的模糊聚類方法,屬于數(shù)據(jù)挖掘領(lǐng)域。
【背景技術(shù)】
[0002] Internet中信息的爆炸式增長(zhǎng)為信息的管理和使用帶來了不便。為了揭示隱藏 在Web數(shù)據(jù)之后具有潛在價(jià)值的信息或結(jié)構(gòu),近年來Web挖掘技術(shù)取得了較快的發(fā)展和廣 泛的應(yīng)用。文檔聚類是Web挖掘領(lǐng)域的關(guān)鍵技術(shù)之一,其目的是將一個(gè)文檔集合分成若干 個(gè)簇,要求同一個(gè)簇內(nèi)的文本內(nèi)容具有較高的相似度,而不同簇之間的相似度盡可能小。
[0003] 聚類研究有較長(zhǎng)的歷史,迄今為止許多優(yōu)秀的聚類方法被提出。根據(jù)數(shù)據(jù)在聚類 中的積聚規(guī)則以及應(yīng)用這些規(guī)則的方法,通??蓪⒕垲惙椒ù笾聞澐譃閷哟位垲惙椒?、 劃分式聚類方法、基于密度和網(wǎng)格的聚類方法和其他聚類方法。在針對(duì)由文檔-特征詞兩 個(gè)維度構(gòu)成的列聯(lián)表進(jìn)行聚類時(shí),傳統(tǒng)的聚類方法表現(xiàn)出兩個(gè)主要特點(diǎn):①硬聚類,即文檔 對(duì)一個(gè)簇的隸屬度要么為0,要么為1 ;②一維聚類,即僅針對(duì)文檔一個(gè)維度進(jìn)行聚類。事實(shí) 上,文檔對(duì)一個(gè)簇的隸屬存在一個(gè)概率,因此隸屬度應(yīng)為區(qū)間[0,1]內(nèi)的任意實(shí)數(shù),而非僅 僅0和1兩個(gè)取值,在這一點(diǎn)上,軟聚類更能反映數(shù)據(jù)分布的真實(shí)特點(diǎn);另一方面,一維聚類 假定特征詞之間相互獨(dú)立,但同義詞、近義詞、反義詞等現(xiàn)象的存在,決定了特征詞之間存 在相關(guān)性,忽略這種相關(guān)性而假設(shè)特征詞間相互獨(dú)立容易對(duì)聚類的準(zhǔn)確率造成影響。
[0004] Internet的飛速發(fā)展,使得數(shù)據(jù)流量突飛猛進(jìn),數(shù)據(jù)形式和結(jié)構(gòu)復(fù)雜多樣。在此背 景下,伴隨用戶需求的不斷提高,聚類分析的難度明顯增加。在許多應(yīng)用場(chǎng)景中,三維列聯(lián) 表形式的數(shù)據(jù)逐漸增多,如用戶在使用搜索引擎時(shí),往往需要考慮用戶-查詢-文檔三維數(shù) 據(jù)信息;又如在建立用戶的興趣模型時(shí),同樣需要考慮用戶-文檔-時(shí)間三維信息。三個(gè)維 度的信息息息相關(guān),因此在聚類分析時(shí)需要對(duì)三個(gè)維度同時(shí)聚類,這對(duì)于包括模糊聯(lián)合聚 類方法在內(nèi)的傳統(tǒng)方法難以實(shí)現(xiàn)。

【發(fā)明內(nèi)容】

[0005] 基于現(xiàn)有技術(shù)存在的問題,本發(fā)明提出一種基于信息瓶頸理論的三維聚類方法, 在進(jìn)行聚類前,準(zhǔn)備用戶使用Web搜索引擎時(shí)的用戶-查詢-文檔三維數(shù)據(jù)信息,然后采用 以下步驟進(jìn)行聚類:
[0006] (1)準(zhǔn)備用戶-查詢-文檔三維數(shù)據(jù)信息,表示為三維矩陣X,X中各維的維度分 別為N、K、M,其中N、K、M為自然數(shù),X的元素表示為x ijk,其中i、j、k為自然數(shù),1彡i彡N, I ^ j ^ K, I ^ k ^ M ;
[0007] (2)定義三個(gè)隸屬度函數(shù)Uc;i,V。」,Wdt,分別表示第i個(gè)用戶對(duì)第C個(gè)簇的隸屬度, 第j個(gè)查詢對(duì)第C個(gè)簇的隸屬度,第k個(gè)文檔對(duì)第c個(gè)簇的隸屬度。設(shè)簇的總數(shù)目為C, I ^ c ^ C ;
[0008] (3)隨機(jī)初始化uci, Wck的值,0彡u ci彡1,且
【主權(quán)項(xiàng)】
1. 一種基于信息瓶頸的模糊三維聚類方法,其特征在于: (1) 準(zhǔn)備用戶-查詢-文檔三維數(shù)據(jù)信息,表示為三維矩陣X,X中各維的維度分別 為N、K、M,其中N、K、M為自然數(shù),X的元素表示為X ijk,其中i、j、k為自然數(shù),1彡i彡N, I ^ j ^ K, I ^ k ^ M ; (2) 定義三個(gè)隸屬度函數(shù)Ucd, Vcu.,Wdt,分別表示第i個(gè)用戶對(duì)第c個(gè)簇的隸屬度,第j個(gè) 查詢對(duì)第c個(gè)簇的隸屬度,第k個(gè)文檔對(duì)第c個(gè)簇的隸屬度,簇的總數(shù)目為C,I < c < C ; (3) 隨機(jī)初始化uci,Wck的值,O彡u 1,且Σμ?.=1,^=1,2,…具遲叫占 1,且
r=l ?Γ表示更新后的Uci值; (7)若maxd^-CK,迭代停止,ξ為規(guī)定的閾值;否則令%=?二,轉(zhuǎn)到步驟(4),繼 續(xù)迭代。
【專利摘要】本發(fā)明提出了一種基于信息瓶頸理論的三維聚類方法,該方法對(duì)用戶-查詢-文檔三維數(shù)據(jù)進(jìn)行聚類。使用該方法后,對(duì)于三維列聯(lián)表可實(shí)現(xiàn)三個(gè)維度的同時(shí)聚類,并基于信息瓶頸理論度量文檔與簇質(zhì)心間的距離,可有效提高聚類準(zhǔn)確率。
【IPC分類】G06F17-30
【公開號(hào)】CN104636498
【申請(qǐng)?zhí)枴緾N201510100423
【發(fā)明人】劉永利, 萬興, 喬應(yīng)旭, 雒芬, 孫江峰
【申請(qǐng)人】河南理工大學(xué)
【公開日】2015年5月20日
【申請(qǐng)日】2015年3月8日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
百色市| 民乐县| 九寨沟县| 睢宁县| 梁平县| 苗栗市| 霍林郭勒市| 亚东县| 旬邑县| 图木舒克市| 墨江| 普安县| 长白| 西充县| 马山县| 竹山县| 海城市| 平凉市| 平度市| 宝应县| 通化县| 隆安县| 昌宁县| 武夷山市| 荥阳市| 文昌市| 乡宁县| 资溪县| 平罗县| 巩留县| 额尔古纳市| 襄汾县| 西藏| 南华县| 洛川县| 贞丰县| 宁海县| 郧西县| 剑川县| 大渡口区| 麻城市|