两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

信息挖掘方法和裝置的制造方法

文檔序號:9810619閱讀:300來源:國知局
信息挖掘方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請涉及計算機技術(shù)領(lǐng)域,具體涉及信息技術(shù)領(lǐng)域,尤其涉及信息挖掘方法和
目.0
【背景技術(shù)】
[0002]隨著信息化技術(shù)突飛猛進的發(fā)展,使得互聯(lián)網(wǎng)中包含了海量的信息內(nèi)容。輿情是“輿論情況”的簡稱,是指在一定的社會空間內(nèi),圍繞中介性社會事件的發(fā)生、發(fā)展和變化,作為主體的民眾對作為客體的社會管理者、企業(yè)、個人及其他各類組織及其政治、社會、道德等方面的取向產(chǎn)生和持有的社會態(tài)度。而信息內(nèi)容中的輿情詞匯搭配對能夠反映信息的核心內(nèi)容,可以用來進行文本分析中的邏輯推導。目前,中文的詞語搭配對主要是基于人工采集,沒有針對具體領(lǐng)域的詞匯搭配對集合和成熟穩(wěn)定的詞匯搭配對挖掘方法。人工采集詞語搭配對工作,對分析人員的領(lǐng)域知識和語言能力要求很高,整理過程也很繁瑣復雜,因此亟需一種自動化的挖掘方法來建立領(lǐng)域內(nèi)詞語搭配對集合。

【發(fā)明內(nèi)容】

[0003]本申請的目的在于提出一種改進的信息挖掘方法和裝置,來解決以上【背景技術(shù)】部分提到的技術(shù)問題。
[0004]第一方面,本申請?zhí)峁┝艘环N信息挖掘方法,所述方法包括:對獲取的文本信息進行句子切分得到分句集合;根據(jù)預先設(shè)定的輿情詞匯集合從所述分句集合中選取至少一個候選分句;基于領(lǐng)域詞典對所述至少一個候選分句進行分詞處理,并對分詞處理后得到的各個詞匯進行依存分析,得到至少一個候選詞匯搭配對;根據(jù)所述輿情詞匯集合從所述至少一個候選詞匯搭配對中選取至少一個詞匯搭配對,作為從所述文本信息中挖掘出的第一詞匯搭配對集合。
[0005]在一些實施例中,所述方法還包括:對所述第一詞匯搭配對集合中的各個詞匯搭配對進行向量化得到各個詞匯搭配對所對應(yīng)的多維向量;基于預先訓練的支持向量機模型對多維向量進行匹配,得出與多維向量相匹配的第二詞匯搭配對集合,其中,所述支持向量機模型用于表征多維向量與詞匯搭配對的對應(yīng)關(guān)系。
[0006]在一些實施例中,所述多維向量的維度信息包括以下至少一種:第一詞匯的頻度、第二詞匯的頻度、第一詞匯與第二詞匯的平均間隔距離、第一詞匯和第二詞匯之間的點互信息、第一詞匯的詞向量、第二詞匯的詞向量,其中,第一詞匯和第二詞匯是組成詞匯搭配對的兩個詞匯,頻度是詞匯出現(xiàn)的次數(shù)與總詞匯量的比值。
[0007]在一些實施例中,所述方法還包括:將詞匯搭配對集合中的各個詞匯搭配對進行泛化處理,得到第三詞匯搭配對集合,其中,所述詞匯搭配對集合為第一詞匯搭配對集合或第二詞匯搭配對集合。
[0008]在一些實施例中,所述對獲取的文本信息進行句子切分得到分句集合,包括:根據(jù)獲取的文本信息中的標點符號,將所述文本信息中的句子進行切分,得到所述文本信息的分句集合。
[0009]在一些實施例中,所述根據(jù)預先設(shè)定的輿情詞匯集合從所述分句集合中選取至少一個候選分句,包括:根據(jù)所述輿情詞匯集合建立單詞查找樹;依據(jù)所述單詞查找樹判斷所述分句集合中的各個分句中是否包含所述輿情詞匯集合中的詞匯,如果包括,則選取該分句為候選分句。
[0010]第二方面,本申請?zhí)峁┝艘环N信息挖掘裝置,所述裝置包括:切分單元,配置用于對獲取的文本信息進行句子切分得到分句集合;選取單元,配置用于根據(jù)預先設(shè)定的輿情詞匯集合從所述分句集合中選取至少一個候選分句;分析單元,配置用于基于領(lǐng)域詞典對所述至少一個候選分句進行分詞處理,并對分詞處理后得到的各個詞匯進行依存分析,得到至少一個候選詞匯搭配對;挖掘單元,配置用于根據(jù)所述輿情詞匯集合從所述至少一個候選詞匯搭配對中選取至少一個詞匯搭配對,作為從所述文本信息中挖掘出的第一詞匯搭配對集合。
[0011]在一些實施例中,所述裝置還包括:向量化單元,配置用于對所述第一詞匯搭配對集合中的各個詞匯搭配對進行向量化得到各個詞匯搭配對所對應(yīng)的多維向量;匹配單元,配置用于基于預先訓練的支持向量機模型對多維向量進行匹配,得出與多維向量相匹配的第二詞匯搭配對集合,其中,所述支持向量機模型用于表征多維向量與詞匯搭配對的對應(yīng)關(guān)系。
[0012]在一些實施例中,所述多維向量的維度信息包括以下至少一種:第一詞匯的頻度、第二詞匯的頻度、第一詞匯與第二詞匯的平均間隔距離、第一詞匯和第二詞匯之間的點互信息、第一詞匯的詞向量、第二詞匯的詞向量,其中,第一詞匯和第二詞匯是組成詞匯搭配對的兩個詞匯,頻度是詞匯出現(xiàn)的次數(shù)與總詞匯量的比值。
[0013]在一些實施例中,所述裝置還包括:處理單元,配置用于將詞匯搭配對集合中的各個詞匯搭配對進行泛化處理,得到第三詞匯搭配對集合,其中,所述詞匯搭配對集合為第一詞匯搭配對集合或第二詞匯搭配對集合。
[0014]在一些實施例中,所述切分單元進一步配置用于:根據(jù)獲取的文本信息中的標點符號,將所述文本信息中的句子進行切分,得到所述文本信息的分句集合。
[0015]在一些實施例中,所述選取單元進一步配置用于:根據(jù)所述輿情詞匯集合建立單詞查找樹;依據(jù)所述單詞查找樹判斷所述分句集合中的各個分句中是否包含所述輿情詞匯集合中的詞匯,如果包括,則選取該分句為候選分句。
[0016]本申請?zhí)峁┑男畔⑼诰蚍椒ê脱b置,通過根據(jù)預先設(shè)定的輿情詞匯集合選取候選分句,而后基于具體領(lǐng)域的領(lǐng)域詞典對候選分句進行分詞,并對分詞得到的各個詞匯進行依存分析得到候選詞匯搭配對,最后再根據(jù)輿情詞匯集合選取詞匯搭配對,從而針對具體領(lǐng)域自動生成詞匯搭配對,實現(xiàn)了快速、精確的信息挖掘。
【附圖說明】
[0017]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
[0018]圖1是本申請可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
[0019]圖2是根據(jù)本申請的信息挖掘方法的一個實施例的流程圖;
[0020]圖3是根據(jù)本申請的信息挖掘方法的又一個實施例的流程圖;
[0021]圖4是根據(jù)本申請的信息挖掘裝置的一個實施例的結(jié)構(gòu)示意圖;
[0022]圖5是適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0023]下面結(jié)合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
[0024]需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本申請。
[0025]圖1示出了可以應(yīng)用本申請的信息挖掘方法或信息挖掘裝置的實施例的示例性系統(tǒng)架構(gòu)100。
[0026]如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務(wù)器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無線通信鏈
當前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
广饶县| 临朐县| 太原市| 枣庄市| 东平县| 郁南县| 景谷| 德江县| 盐池县| 元朗区| 绍兴县| 彭泽县| 闻喜县| 什邡市| 永兴县| 隆林| 花莲市| 南汇区| 肇州县| 武功县| 宝丰县| 高青县| 安义县| 湘乡市| 屯门区| 遂溪县| 惠东县| 永靖县| 土默特左旗| 黔南| 青岛市| 璧山县| 农安县| 大冶市| 安西县| 萝北县| 巴东县| 兴仁县| 安国市| 永定县| 郓城县|