两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

煤礦搜索引擎中檢索結(jié)果聚類系統(tǒng)的制作方法

文檔序號:6541432閱讀:216來源:國知局
煤礦搜索引擎中檢索結(jié)果聚類系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出了一種煤礦搜索引擎中檢索結(jié)果聚類系統(tǒng),包括檢索結(jié)果聚類及類別標簽抽取裝置,該裝置包括搜索引擎服務器、文本檢索結(jié)果聚類模塊和類別標簽抽取模塊,煤礦搜索引擎服務器處理用戶提交的查詢請求,產(chǎn)生的初始檢索結(jié)果經(jīng)文本檢索結(jié)果聚類模塊后返回給用戶。采用該系統(tǒng)后,可有效提高文本集的聚類速度,還可避免在選擇相似度計算方法時的主觀隨意性。在數(shù)據(jù)對象合并成簇時,通過計算合并時產(chǎn)生的互信息損失來度量數(shù)據(jù)對象之間的相似關(guān)系,并在此基礎(chǔ)上,提供檢索結(jié)果文檔的高質(zhì)量分組。
【專利說明】煤礦搜索引擎中檢索結(jié)果聚類系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于煤礦安全領(lǐng)域。
【背景技術(shù)】
[0002]在煤礦領(lǐng)域中,Internet信息總量的爆炸式增長為信息的使用和管理帶來了一定挑戰(zhàn)。準確、快捷的從如此龐雜無序的海量數(shù)據(jù)中發(fā)現(xiàn)用戶需要的煤礦領(lǐng)域信息,成為一種極為迫切的需求。于是,信息檢索技術(shù)在煤礦領(lǐng)域得到了深入的研究和廣泛的應用。
[0003]搜索引擎是煤礦用戶經(jīng)常使用的工具性應用之一。在用戶與Web搜索引擎之間一次典型的交互過程中,用戶將特定的信息需求表達為一個查詢,提交給Web搜索引擎;服務器對檢索請求處理之后,返回一列檢索結(jié)果。在這些結(jié)果中,一部分可能與用戶的檢索意圖相關(guān),一部分則可能完全無關(guān)。通常,用戶希望最相關(guān)的結(jié)果排在檢索結(jié)果的最前面。而事實上,相關(guān)結(jié)果與不相關(guān)結(jié)果往往混雜在一起,甚至是相關(guān)結(jié)果出現(xiàn)在不相關(guān)結(jié)果之后。
[0004]文檔聚類技術(shù)能夠揭示隱藏在Web數(shù)據(jù)之后具有潛在價值的信息或結(jié)構(gòu),是一種非常有效的檢索結(jié)果再組織方法。文檔聚類是Web挖掘領(lǐng)域中最重要的工具之一,其目的是將一個文檔集合分成若干個簇,要求同一個簇內(nèi)的文本內(nèi)容具有較高的相似度,而不同簇之間的相似度盡可能小。每個聚類過程主要包括相似度計算方法和聚類算法兩個部分。目前,研究者已經(jīng)提出多種文檔聚類算法,大致可分為4個類別,即層次化聚類算法、劃分式聚類算法、基于密度和網(wǎng)格的聚類算法和其它聚類算法。
[0005]目前,在搜索引擎引擎的使用過程中,搜索的結(jié)果顯示缺乏清晰的結(jié)構(gòu)。搜索引擎得到的結(jié)果量非常巨大,然而顯示結(jié)果卻是一個線性列表,在這些結(jié)果中,一部分可能與用戶的檢索意圖相關(guān),一部分則可能完全無關(guān)。通常,用戶希望最相關(guān)的結(jié)果排在檢索結(jié)果的最前面。而事實上,相關(guān)結(jié)果與不相關(guān)結(jié)果往往混雜在一起,甚至是相關(guān)結(jié)果出現(xiàn)在不相關(guān)結(jié)果之后。用戶如果想要通過搜索引擎找到需要的信息則必須逐個瀏覽返回的查詢結(jié)果,這樣不僅會浪費很多時間,而且不一定能夠準確地找到相關(guān)的資料。
[0006]針對檢索結(jié)果的聚類與普通的文檔聚類有所不同,主要表現(xiàn)在檢索結(jié)果聚類除了完成聚類過程之外,還需要抽取類別標簽,前者對文本檢索結(jié)果進行分組,后者則生成每個分組的描述信息。
[0007]基于以上分析,對于檢索結(jié)果而言,僅僅提供一個按相關(guān)性排序的文檔列表的傳統(tǒng)顯示方式表現(xiàn)出一定的不足,迫切需要對檢索結(jié)果展開深入分析和加工。

【發(fā)明內(nèi)容】

[0008]基于以上分析,本發(fā)明提出了一種煤礦搜索引擎中檢索結(jié)果聚類系統(tǒng),包括檢索結(jié)果聚類及類別標簽抽取裝置,該裝置包括搜索引擎服務器、文本檢索結(jié)果聚類模塊和類別標簽抽取模塊,煤礦搜索引擎服務器處理用戶提交的查詢請求,產(chǎn)生的初始檢索結(jié)果經(jīng)文本檢索結(jié)果聚類模塊后返回給用戶;其中文本檢索結(jié)果聚類模塊中,采用以下方法進行數(shù)據(jù)分析:(I)初始化:將檢索結(jié)果文檔集合表示成
【權(quán)利要求】
1.煤礦搜索引擎中檢索結(jié)果聚類系統(tǒng),包括檢索結(jié)果聚類及類別標簽抽取裝置,該裝置包括搜索引擎服務器、文本檢索結(jié)果聚類模塊和類別標簽抽取模塊,煤礦搜索引擎服務器處理用戶提交的查詢請求,產(chǎn)生的初始檢索結(jié)果經(jīng)文本檢索結(jié)果聚類模塊后返回給用戶;其中文本檢索結(jié)果聚類模塊中,采用以下方法進行數(shù)據(jù)分析:

(1)初始化:將檢索結(jié)果文檔集合表示成;
【文檔編號】G06F17/30GK103886072SQ201410110171
【公開日】2014年6月25日 申請日期:2014年3月24日 優(yōu)先權(quán)日:2014年3月24日
【發(fā)明者】劉永利, 趙珊, 王建芳, 雒芬, 趙建貴 申請人:河南理工大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
崇州市| 光泽县| 英山县| 新晃| 邹城市| 新巴尔虎右旗| 葵青区| 双柏县| 定远县| 江川县| 易门县| 台前县| 阿城市| 府谷县| 罗田县| 达日县| 旌德县| 清涧县| 元阳县| 项城市| 芮城县| 崇左市| 青阳县| 石台县| 稷山县| 美姑县| 雷山县| 大方县| 浙江省| 醴陵市| 弥渡县| 呼图壁县| 盱眙县| 新干县| 井陉县| 绥中县| 永昌县| 绵竹市| 义马市| 沁源县| 翁源县|