两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于半監(jiān)督的主題模型文本分類方法

文檔序號(hào):9911222閱讀:345來(lái)源:國(guó)知局
一種基于半監(jiān)督的主題模型文本分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本分類領(lǐng)域,尤其涉及一種基于半監(jiān)督的主題模型的文本分類方 法。
【背景技術(shù)】
[0002] 文本挖掘是從大量文本數(shù)據(jù)中獲取有效模式的過(guò)程,涵蓋信息技術(shù)、文本分析、模 式識(shí)別等諸多領(lǐng)域。文本分類屬于文本挖掘領(lǐng)域,是指按照預(yù)先設(shè)定的主題類別,為文檔集 合中的每個(gè)文檔確定一個(gè)類別的過(guò)程。對(duì)于中文文本而言,詞與詞之間沒(méi)有明顯的切分標(biāo) 志,因此需要對(duì)中文文本進(jìn)行分詞。在分詞過(guò)程中,針對(duì)文本集合的屬性特征需設(shè)置匹配詞 的專業(yè)詞表。完成分詞后的文本需要進(jìn)行停用詞刪除、建立文本特征矩陣的步驟,將文本數(shù) 據(jù)轉(zhuǎn)化為計(jì)算機(jī)可計(jì)算的數(shù)值矩陣類型。近年來(lái),眾多的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法應(yīng)用于 自動(dòng)文本分類,包括支持向量機(jī)、Boos t ing算法、概率模型等。
[0003] 文本分類的關(guān)鍵是衡量各文本與所需模式間的相似性,概率潛在語(yǔ)義分析是針對(duì) 文本隱含主題的建模方法。主題表現(xiàn)為一系列與主題概念密切相關(guān)的詞,能夠代表這個(gè)主 題。應(yīng)用詞匯表上詞語(yǔ)的條件概率分布,與主題密切相關(guān)的詞,條件概率越大。一般概率潛 在語(yǔ)義分析方法通過(guò)計(jì)算各詞屬于主題的條件概率完成文本分類功能。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是提供一種基于半監(jiān)督的主題模型的文本分類方法,實(shí)現(xiàn)基于領(lǐng)域 本體的大規(guī)模文本數(shù)據(jù)中有效信息的自動(dòng)獲取。為解決上述技術(shù)問(wèn)題,本發(fā)明的主要技術(shù) 內(nèi)容如下:
[0005] -種基于領(lǐng)域本體的潛在語(yǔ)義擴(kuò)展算法。傳統(tǒng)的文本分類算法利用文本中的關(guān)鍵 詞描述文本與類別間距離。而關(guān)鍵詞存在信息量少,難以全面表征類別信息的缺點(diǎn)。由于 表征一篇文檔是否相關(guān)的詞并不全等于關(guān)鍵詞集,因此也需要提取出關(guān)鍵詞集中不包含的 約束。領(lǐng)域本體作為知識(shí)描述方法較好的體現(xiàn)了領(lǐng)域內(nèi)知識(shí)的不同維度。本方法的特征在 于,首先定義描述分類文本的關(guān)鍵詞詞組,該詞組來(lái)源于領(lǐng)域本體的不同屬性類,利用關(guān)鍵 詞詞組將待分類文本中的詞全部初始化為噪聲?;诠?br>[0006]
[0007] 式中,k的取值范圍為{0,1},即代表噪聲或有效信息,m為文檔集內(nèi)文檔數(shù)目,X為 詞條的編號(hào),用于區(qū)分不同的詞。P(x)表示該詞屬于有效信息的概率,nkt代表關(guān)鍵詞X分配 為有效信息的次數(shù),nkt Sum代表有效信息的總詞數(shù),nmk代表文檔m中屬于有效信息的詞的 個(gè)數(shù),nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對(duì)所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔 m中,描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。
[0008] 迭代上述公式,更新各詞屬于有效信息的概率。進(jìn)一步,當(dāng)文檔m中的有效信息頻 率較高時(shí),文檔m中的詞屬于有效信息的概率增大;當(dāng)噪聲詞w被劃分為有效信息的頻率增 大時(shí),該詞整體屬于有效信息的概率增大;對(duì)于關(guān)鍵詞W,若該詞與所分類別間的距離較小 時(shí),該詞屬于有效信息的頻率增大。參數(shù)C越大,文檔中描述領(lǐng)域本體不同維度的數(shù)目越多, 則該文檔對(duì)所分類別的描述越全面,該文檔屬于有效信息的概率越大。該方法基于以下假 設(shè):文本分為相關(guān)文本和不相干文本,相關(guān)文本包括主題相關(guān)的有效信息和主題無(wú)關(guān)的噪 聲,其中噪聲和有效信息服從二項(xiàng)分布,在有效信息中,各關(guān)鍵詞的分布服從多項(xiàng)式分布。 每個(gè)文本通過(guò)對(duì)有效信息和噪聲的抽樣生成。為獲得文檔集中的噪聲和有效信息的分布模 型和有效信息中詞的分布模型,通過(guò)Gibbs Sampling方法采樣并計(jì)算上述分布的最優(yōu)解, 即為所需的噪聲與有效信息的分布。
[0009] 通過(guò)迭代計(jì)算上述二項(xiàng)分布和多項(xiàng)式分布的參數(shù),獲取到穩(wěn)定收斂的噪聲詞集 合和有效信息集合。
[0010] -種基于有效信息集合的文本距離計(jì)算方法。其特征在于,應(yīng)用上述基于領(lǐng)域本 體的潛在語(yǔ)義擴(kuò)展算法,獲取到描述類別信息的關(guān)鍵詞詞組,應(yīng)用如下公式計(jì)算各文本屬 于待分類項(xiàng)的概率。
[0011]
[0012]式中,F(xiàn)(m)表示文章 m屬于有效信息的得分,nmk代表文檔m中屬于有效信息的詞的 個(gè)數(shù),nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對(duì)所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔 m中,描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。
[0013]本發(fā)明的優(yōu)點(diǎn):
[0014] 1、基于領(lǐng)域本體的潛在語(yǔ)義擴(kuò)展算法利用領(lǐng)域本體,自動(dòng)獲取描述信息和分類規(guī) 貝1J,利用領(lǐng)域本體維度信息描述文檔的相關(guān)性,從少量的關(guān)鍵詞中擴(kuò)展出豐富的類別信息, 擴(kuò)展了對(duì)類別的描述,有助于分類規(guī)則的自動(dòng)抽取。
[0015] 2、基于有效信息詞組的文本距離計(jì)算方法較好的量化了文本屬于有效信息的概 率,多方面考慮了文本類別參數(shù),具有較高的準(zhǔn)確性。
【附圖說(shuō)明】
[0016] 圖1為基于概率潛在語(yǔ)義分析的關(guān)鍵詞擴(kuò)展方法中獲取擴(kuò)展詞條隨迭代次數(shù)的更 新曲線。
[0017] 圖2為基于有效信息詞組的文本距離計(jì)算方法的文檔得分排序曲線。
【具體實(shí)施方式】
[0018] 本實(shí)施例描述了應(yīng)用本發(fā)明在文檔集中獲取食品安全領(lǐng)域相關(guān)文檔的過(guò)程?;?食品安全領(lǐng)域本體的屬性特征,設(shè)置關(guān)鍵詞為"牛奶、三聚氰胺",即初始參數(shù)c = 2。首先對(duì) 文本集進(jìn)行預(yù)處理,包括分詞、去標(biāo)點(diǎn)、去停用詞,并將全部詞初始化為噪聲。由于表征一篇 文檔是否相關(guān)的詞并不全等于關(guān)鍵詞集,因此也需要提取出關(guān)鍵詞集中不包含的約束?;?于公#
[0019
[0020] 式中,k的取值范圍為{0,1},即代表噪聲或有效信息,m為文檔集內(nèi)文檔數(shù)目,x為 詞條的編號(hào),用于區(qū)分不同的詞。P(x)表示該詞屬于有效信息的概率,nkt代表關(guān)鍵詞X分配 為有效信息的次數(shù),nkt Sum代表有效信息的總詞數(shù),nmk代表文檔m中屬于有效信息的詞的 個(gè)數(shù),nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對(duì)所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔 m中,描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。
[0021] 迭代上述公式,更新各詞屬于有效信息的概率。進(jìn)一步,當(dāng)文檔m中的有效信息頻 率較高時(shí),文檔m中的詞屬于有效信息的概率增大;當(dāng)噪聲詞w被劃分為有效信息的頻率增 大時(shí),該詞整體屬于有效信息的概率增大;對(duì)于關(guān)鍵詞w,若該詞與所分類別間的距離較小 時(shí),該詞屬于有效信息的頻率增大。參數(shù)C越大,文檔中描述領(lǐng)域本體不同維度的數(shù)目越多, 則該文檔對(duì)所分類別的描述越全面,該文檔屬于有效信息的概率越大。該方法基于以下假 設(shè):文本分為相關(guān)文本和不相干文本,相關(guān)文本包括主題相關(guān)的有效信息和主題無(wú)關(guān)的噪 聲,其中噪聲和有效信息服從二項(xiàng)分布,在有效信息中,各關(guān)鍵詞的分布服從多項(xiàng)式分布。 每個(gè)文本通過(guò)對(duì)有效信息和噪聲的抽樣生成。為獲得文檔集中的噪聲和有效信息的分布模 型和有效信息中詞的分布模型,通過(guò)Gibbs Sampling方法采樣并計(jì)算上述分布的最優(yōu)解, 即為所需的噪聲與有效信息的分布。
[0022] 圖1為基于概率潛在語(yǔ)義分析的關(guān)鍵詞擴(kuò)展方法中獲取擴(kuò)展詞條隨迭代次數(shù)的更 新曲線??梢钥闯鼋?jīng)過(guò)多次迭代,有效信息集合中詞的數(shù)目穩(wěn)定在900個(gè)左右,顯示了該方 法的收斂性。
[0023] 通過(guò)對(duì)關(guān)鍵詞的自動(dòng)擴(kuò)展,獲取到描述地點(diǎn)的"石家莊、甘肅、蘭州、河北"等信息, 描述事件危害的"腎結(jié)石、泌尿、衰竭、死亡、積水、梗阻"等信息,描述涉事產(chǎn)品的"三鹿、奶 糖、雅士利、大白兔、奶制品"等信息。獲得的有效信息詞組更加全面,對(duì)待分類別的描述更 加全面細(xì)致。經(jīng)迭代后描述食品安全領(lǐng)域本體的維度數(shù)目C增至5。
[0024] 基于有效信息詞組的文本距離計(jì)算方法,應(yīng)用上述概率潛在語(yǔ)義分析的關(guān)鍵詞擴(kuò) 展算法,獲取到描述類別信息的關(guān)鍵詞詞組,應(yīng)用如下公式計(jì)算各文本屬于待分類項(xiàng)的概 率。
[0025]
[0026] 式中,F(xiàn)(m)表示文章 m屬于有效信息的得分,nmk代表文檔m中屬于有效信息的詞的 個(gè)數(shù),nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對(duì)所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔 m中,描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。
[0027] 遍歷文檔集獲取每篇文檔的得分,圖2為基于有效信息詞組的文本距離計(jì)算方法 的文檔得分排序曲線。如圖,各文檔根據(jù)相關(guān)性的差異其得分間存在較明顯的差異。最終通 過(guò)設(shè)置的得分閾值獲取到與待分類別相關(guān)的文檔集。
【主權(quán)項(xiàng)】
1. 一種基于領(lǐng)域本體的潛在語(yǔ)義擴(kuò)展算法,其特征在于:首先定義描述分類文本的關(guān) 鍵詞詞組,該詞組來(lái)源于領(lǐng)域本體的不同屬性類,待分類文本中的詞全部初始化為噪聲?;?于公式(1)迭代計(jì)算各詞屬于有效信息的概率。式中,k的取值范圍為{0,1},即代表噪聲或有效信息,m為文檔集內(nèi)文檔數(shù)目,X為詞條 的編號(hào),用于區(qū)分不同的詞。P(x)表示該詞屬于有效信息的概率,nkt代表關(guān)鍵詞X分配為有 效信息的次數(shù),nkt Sum代表有效信息的總詞數(shù),nmk代表文檔m中屬于有效信息的詞的個(gè)數(shù), nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對(duì)所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔m中, 描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。2. 根據(jù)權(quán)利要求1所述基于領(lǐng)域本體的潛在語(yǔ)義擴(kuò)展算法,其特征在于基于如下假設(shè): 文本分為相關(guān)文本和不相干文本,相關(guān)文本包括主題相關(guān)的有效信息和主題無(wú)關(guān)的噪聲, 其中噪聲和有效信息服從二項(xiàng)分布,在有效信息中,各關(guān)鍵詞的分布服從多項(xiàng)式分布。每個(gè) 相關(guān)文本通過(guò)對(duì)有效信息和噪聲的抽樣生成。通過(guò)采樣并計(jì)算上述分布的最優(yōu)解,即為所 需的噪聲與有效信息的分布。3. -種基于有效信息集合的文本距離計(jì)算方法。其特征在于,應(yīng)用上述基于領(lǐng)域本體 的潛在語(yǔ)義擴(kuò)展算法,獲取到描述類別信息的有效信息集合,應(yīng)用公式(2)計(jì)算各文本屬于 待分類項(xiàng)的概率。式中,F(xiàn)(m)表示文章m屬于有效信息的得分,nmk代表文檔m中屬于有效信息的詞的個(gè) 數(shù),nmkSum代表文檔m的總詞數(shù),con代表關(guān)鍵詞X對(duì)所屬分類別的貢獻(xiàn)度。參數(shù)C表示文檔m 中,描述領(lǐng)域本體不同屬性維度的詞的類數(shù)。
【專利摘要】本發(fā)明涉及一種半監(jiān)督的主題模型的文本分類方法。本發(fā)明的方法為:根據(jù)領(lǐng)域本體對(duì)關(guān)鍵詞的描述,定義關(guān)鍵詞對(duì)領(lǐng)域本體的貢獻(xiàn)度,提出基于噪聲和有效信息的詞的二分類方法。對(duì)于每篇文檔初始化其為噪聲,然后迭代計(jì)算各詞屬于有效信息的概率,防止有效信息被噪聲淹沒(méi)。迭代結(jié)束后獲取到描述文本分類的有效信息集合。應(yīng)用有效信息集合可計(jì)算文本屬于有效文本的得分,即可完成文本分類的功能。應(yīng)用該方法可對(duì)領(lǐng)域本體相關(guān)的文本集合進(jìn)行有效的類別劃分,較為準(zhǔn)確的提取出符合約束條件的文本集合。
【IPC分類】G06F17/30
【公開(kāi)號(hào)】CN105677856
【申請(qǐng)?zhí)枴緾N201610008920
【發(fā)明人】楊璐, 王炳蔚, 鄭麗敏, 黃斌
【申請(qǐng)人】中國(guó)農(nóng)業(yè)大學(xué)
【公開(kāi)日】2016年6月15日
【申請(qǐng)日】2016年1月7日
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
昂仁县| 新乐市| 尖扎县| 蒙自县| 黎川县| 克东县| 隆子县| 崇仁县| 平阳县| 弥勒县| 石棉县| 绥宁县| 孙吴县| 中西区| 镇平县| 石嘴山市| 修水县| 色达县| 太仆寺旗| 云安县| 镇原县| 曲沃县| 吉安市| 临夏县| 包头市| 桃江县| 麻栗坡县| 玉屏| 邢台县| 武乡县| 舒城县| 青岛市| 宜春市| 海晏县| 收藏| 呼和浩特市| 龙海市| 石台县| 宿松县| 达拉特旗| 社会|