技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于MPI和Adaboost.MH的中文文本分類方法,用于解決當(dāng)數(shù)據(jù)量較大時(shí),Adaboost.MH訓(xùn)練時(shí)間較長(zhǎng)因而導(dǎo)致總的中文文本分類時(shí)間較長(zhǎng)的問(wèn)題。該方法包括:將經(jīng)過(guò)分詞處理的中文文本保存到訓(xùn)練數(shù)據(jù)集,然后將互信息方法與MPI相結(jié)合,實(shí)現(xiàn)特征詞選擇,然后所有進(jìn)程通過(guò)MPI中的MPI_Reduce函數(shù)進(jìn)行歸約求和進(jìn)而求得相似度,根據(jù)相似度的大小選擇特征詞。接著每個(gè)進(jìn)程根據(jù)其所包含的中文文本中選擇的特征詞是否存在來(lái)給特征詞賦予權(quán)值。然后根據(jù)MPI的通信函數(shù)將進(jìn)程計(jì)算結(jié)果進(jìn)行整合得到文本分類模型,利用分類模型對(duì)待分類的中文文本分類。本發(fā)明極大地縮短了對(duì)中文文本進(jìn)行分類的時(shí)間。
技術(shù)研發(fā)人員:王進(jìn);高延雨;李穎;李航;余薇;高選人;鄧欣;陳喬松;胡峰
受保護(hù)的技術(shù)使用者:重慶郵電大學(xué)
技術(shù)研發(fā)日:2017.03.07
技術(shù)公布日:2017.08.25