技術(shù)總結(jié)
一種改進(jìn)的密度文本聚類算法,利用分詞技術(shù)對(duì)文本分詞處理,匹配停用詞表對(duì)詞匯進(jìn)行去停用詞操作,根據(jù)調(diào)研統(tǒng)計(jì),得出一系列詞匯位置和詞性權(quán)重值,根據(jù)詞匯在文本中的權(quán)重和詞匯在文本庫(kù)中的權(quán)重構(gòu)造目標(biāo)函數(shù)提取文本特征詞匯向量,再利用改進(jìn)的基于密度中心算法,對(duì)文本庫(kù)進(jìn)行聚類;本發(fā)明比傳統(tǒng)文本特征詞匯提取方法準(zhǔn)確度更高,具有更好的應(yīng)用價(jià)值,數(shù)據(jù)處理效果好,克服了信息增益方法的缺點(diǎn),結(jié)果更符合經(jīng)驗(yàn)值,解決了文本特征詞匯高維稀疏的問題,大大降低噪聲和孤立點(diǎn)對(duì)簇分類的影響,有利于發(fā)現(xiàn)任意形狀的簇,同時(shí)計(jì)算了不同詞匯對(duì)文本思想的貢獻(xiàn)度。
技術(shù)研發(fā)人員:金平艷
受保護(hù)的技術(shù)使用者:四川用聯(lián)信息技術(shù)有限公司
文檔號(hào)碼:201610875038
技術(shù)研發(fā)日:2016.09.30
技術(shù)公布日:2017.03.22