面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別和網(wǎng)頁細(xì)分類的方法

文檔序號(hào)：6591588閱讀：434來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別和網(wǎng)頁細(xì)分類的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù)，特別涉及一種面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別和網(wǎng)頁細(xì)分類的方法。
背景技術(shù)：
通用搜索引擎功能越來越豐富，它給人們提供了很多便利，但是當(dāng)用戶需要某一特定領(lǐng)域的答案時(shí)，搜索結(jié)果常?？此葡嚓P(guān)度高實(shí)際上不能滿足用戶需求。于是垂直搜索引擎應(yīng)運(yùn)而生，相比通用搜索引擎的海量信息，垂直搜索引擎顯得更加專注、具體和深入。不同領(lǐng)域的網(wǎng)頁數(shù)據(jù)是有著千差萬別的，互聯(lián)網(wǎng)中不同領(lǐng)域的數(shù)據(jù)結(jié)構(gòu)存在很大的不同，要針對各個(gè)不同領(lǐng)域的網(wǎng)頁設(shè)計(jì)統(tǒng)一的垂直搜索引擎是很復(fù)雜的。很多用戶需要查詢某些疾病的特征以及治療方法、某些藥物的治療功能以及特性、某些醫(yī)生的名望以及信息等，醫(yī)學(xué)垂直搜索引擎在這些方面返回的結(jié)果應(yīng)該比通用搜索更加合理和深入，為了實(shí)現(xiàn)這個(gè)目標(biāo)，就需要在網(wǎng)頁抓取和建立索引的過程中識(shí)別出醫(yī)學(xué)類的網(wǎng)站，并且能夠進(jìn)一步把網(wǎng)頁分類為醫(yī)生頁面，疾病頁面，藥品頁面等等。本發(fā)明要解決的技術(shù)問題是如何從全網(wǎng)中提取出醫(yī)藥相關(guān)的網(wǎng)頁，并且進(jìn)一步細(xì)分出具體的醫(yī)生、疾病、藥品以及新聞?lì)I(lǐng)域的網(wǎng)頁，這樣可以極大地提高搜索引擎在醫(yī)學(xué)領(lǐng)域方面檢索的精確性與實(shí)用性。
一個(gè)通用的搜索引擎系統(tǒng)一般由網(wǎng)絡(luò)爬蟲、分詞模塊、索引模塊、查詢模塊幾部分組成，它的主要工作流程是:首先從網(wǎng)絡(luò)爬蟲開始抓取URL服務(wù)器指定的網(wǎng)頁，將其存入文檔數(shù)據(jù)庫，并將當(dāng)前頁上的所含超鏈接存入到URL服務(wù)器中。在進(jìn)行抓取的同時(shí)，分詞模塊和索引模塊將已經(jīng)抓取的網(wǎng)頁文檔進(jìn)行分詞處理，計(jì)算詞的權(quán)值，然后將分詞結(jié)果存入索引數(shù)據(jù)庫。用戶提交查詢時(shí)，查詢模塊首先對用戶輸入的信息進(jìn)行分詞處理，并檢索出所有包含檢索詞的記錄，通過計(jì)算網(wǎng)頁權(quán)重和級別對查詢結(jié)果進(jìn)行排序，最后從文檔數(shù)據(jù)庫中提取各網(wǎng)頁的摘要信息反饋給查詢用戶。由于整個(gè)網(wǎng)絡(luò)的規(guī)模太大，通用搜索引擎開始暴露出了一些問題，比如覆蓋率低，時(shí)效性差，結(jié)果不準(zhǔn)確，過于死板等等，于是出現(xiàn)了一些更加智能化、個(gè)性化和專業(yè)化的搜索，垂直搜索引擎就是其中的一種。垂直搜索引擎面向特定領(lǐng)域，專注于自己的特長，保證了對該領(lǐng)域信息的完全收錄與及時(shí)更新。與通用搜索引擎不同，垂直搜索的目標(biāo)是盡可能多的搜集與該主題相關(guān)的網(wǎng)頁。專業(yè)網(wǎng)絡(luò)爬蟲抓取到的網(wǎng)頁如果與預(yù)定義主題相關(guān)，就做進(jìn)一步的處理；如果不相關(guān)，則拋棄該網(wǎng)頁。這樣處理的結(jié)果是，系統(tǒng)最終只索引了 Web上所有網(wǎng)頁中的一部分，也就是與預(yù)定義主題相關(guān)的網(wǎng)頁。這樣處理的好處是可以節(jié)省大量的存儲(chǔ)空間和具有較高的更新頻率，而且對用戶而言，如果用戶對該主題感興趣，那么系統(tǒng)在該領(lǐng)域的信息應(yīng)該是最詳盡、最專業(yè)的。面向醫(yī)學(xué)領(lǐng)域的垂直搜索引擎的主要目標(biāo)是滿足用戶對醫(yī)學(xué)知識(shí)、資訊等方面的檢索，比如查詢疾病癥狀，治療手段，藥品以及具有此方面優(yōu)勢的醫(yī)院等等。為了完成這一功能，我們就需要在網(wǎng)頁采集時(shí)區(qū)分網(wǎng)頁所屬的類別是否屬于醫(yī)學(xué)領(lǐng)域，進(jìn)一步的，屬于醫(yī)學(xué)中的哪個(gè)子領(lǐng)域，在建立索引及顯示時(shí)按照其所屬的醫(yī)院、醫(yī)生、疾病、藥品等等類別進(jìn)行個(gè)性化的操作。所以網(wǎng)頁分類是垂直搜索中的一個(gè)關(guān)鍵性的技術(shù)。目前的網(wǎng)頁分類技術(shù)大多是圍繞詞頻、分析網(wǎng)頁地址、根據(jù)摘要信息等方法做一些變化來進(jìn)行研究的。以詞頻為基礎(chǔ)來進(jìn)行網(wǎng)頁相關(guān)性的判別有很多不足，比如很多普通詞語出現(xiàn)的頻率很高但其實(shí)并不重要，而有一些很少出現(xiàn)的詞語往往是文章內(nèi)容的重點(diǎn)；分析網(wǎng)頁地址的方法更是很有局限性，因?yàn)榫W(wǎng)頁的網(wǎng)址主要用來標(biāo)示網(wǎng)頁的位置，并不直接反應(yīng)網(wǎng)頁的內(nèi)容，雖然存在一些內(nèi)容相似并且網(wǎng)頁網(wǎng)址也很相似的網(wǎng)頁，但互聯(lián)網(wǎng)海量的網(wǎng)頁中，內(nèi)容相近網(wǎng)址不相似的例子太多了；而根據(jù)摘要的方法大多是依靠網(wǎng)頁編輯者在網(wǎng)頁meta信息中填的類別等關(guān)鍵詞信息來網(wǎng)頁分類，這主要依靠良好的網(wǎng)頁，但很多缺乏此類信息的網(wǎng)頁也需要分類，那這類方法就沒有辦法解決了。同時(shí)，現(xiàn)有的技術(shù)雖然很多都是有關(guān)于一般化的網(wǎng)頁分類的，雖然一般化的方法照顧的比較全面，但其實(shí)不同領(lǐng)域的網(wǎng)頁內(nèi)容有很大差距，根據(jù)這些內(nèi)容上的差距我們可以開發(fā)一些啟發(fā)式的方法。比如醫(yī)藥類的網(wǎng)頁可能很多是介紹藥物、醫(yī)生、疾病的，而體育類的網(wǎng)頁大多數(shù) 是新聞，經(jīng)貿(mào)方面的網(wǎng)頁大多數(shù)是廣告，要針對這些不同的領(lǐng)域提取出一個(gè)統(tǒng)一的網(wǎng)頁分類方法略有牽強(qiáng)。所以現(xiàn)有的網(wǎng)頁分類技術(shù)在不同領(lǐng)域下的分類效果不盡相同。就算分類出醫(yī)學(xué)領(lǐng)域相關(guān)的網(wǎng)站，也不能細(xì)分到具體的醫(yī)生、疾病、藥品和新聞的類別。目前關(guān)于網(wǎng)頁分類的研究成果很多，采用的方法也很廣泛。傳統(tǒng)的網(wǎng)頁分類方法有支持向量機(jī) SVM (support vector machine)方法、樸素貝葉斯 NB (Naive Bayesian)方法、神經(jīng)網(wǎng)絡(luò) NN (Neural Network)方法、K 近鄰 KNN (k-Nearest Neighbor algorithm)方法、決策樹(Decision Tree)方法等，這些都是機(jī)器學(xué)習(xí)領(lǐng)域的技術(shù)，廣泛適用于一般的網(wǎng)頁分類。更一般化的分類方法有基于關(guān)鍵詞詞頻的網(wǎng)頁分類算法、根據(jù)網(wǎng)頁摘要分類算法、基于網(wǎng)址進(jìn)行網(wǎng)頁分類算法等。但是要實(shí)現(xiàn)醫(yī)學(xué)類網(wǎng)站中如醫(yī)生，藥品，疾病和新聞的詳細(xì)分類，上述方案均不能很好的完成。與本發(fā)明最相近似的實(shí)現(xiàn)方案有下面幾種，中國發(fā)明專利申請:“基于關(guān)鍵詞頻度分析的中文網(wǎng)頁分類方法”(申請?zhí)?200910031625.3)、中國發(fā)明專利申請“一種基于云語義庫的網(wǎng)頁審計(jì)方法”(201010000496.4)、“基于垂直搜索和聚焦爬蟲的網(wǎng)頁分類計(jì)數(shù)”(200910025724.0)。發(fā)明I (基于關(guān)鍵詞頻度分析的中文網(wǎng)頁分類方法)提出了一種基于關(guān)鍵詞頻度分析的中文網(wǎng)頁分類方法。其特點(diǎn)是根據(jù)所分析出的中文網(wǎng)頁的關(guān)鍵詞，依照中文分類主題詞庫進(jìn)行中文網(wǎng)頁分類模糊匹配。通過提取、過濾和去噪音步驟的網(wǎng)頁中文文本，再通過關(guān)鍵詞頻度分析器對文本關(guān)鍵詞進(jìn)行提取，并按照關(guān)鍵詞權(quán)重對關(guān)鍵詞進(jìn)行排序錄入分類主題詞庫數(shù)據(jù)表。通過對比網(wǎng)頁關(guān)鍵詞表與分類主題詞庫的相關(guān)性，分析出該網(wǎng)頁的分類。如果網(wǎng)頁中出現(xiàn)高頻的非關(guān)鍵詞，比如某個(gè)人名或者某個(gè)地點(diǎn)，將會(huì)大大影響網(wǎng)頁分類的結(jié)果。并且它的初始分類是根據(jù)中圖分類法得到，缺乏靈活性，并不適合醫(yī)學(xué)領(lǐng)域的分類。發(fā)明2 (基于云語義庫的網(wǎng)頁審計(jì)方法)在實(shí)現(xiàn)網(wǎng)頁審計(jì)這一目的的過程中，提出了一種以云語義庫衡量標(biāo)準(zhǔn)的網(wǎng)頁分類方法。其思路首先是按要求分類，建立每一分類的核心詞庫、非核心詞庫、停用詞庫以及出錯(cuò)詞庫，將已分類網(wǎng)頁進(jìn)行語義分析，通過一系列判定將特定比例的詞放入對應(yīng)分類的詞庫里，從而建立云語義庫。在進(jìn)行網(wǎng)頁分類時(shí)，將網(wǎng)頁內(nèi)容進(jìn)行詞頻統(tǒng)計(jì)，取高頻詞以及其詞頻發(fā)送到云平臺(tái)下遍歷分類語義庫，匹配詞頻統(tǒng)計(jì)之和最大的分類語義庫即為對應(yīng)的網(wǎng)頁分類。它的不足同樣在于過分依賴詞頻，如果網(wǎng)頁中出現(xiàn)某些主題不相關(guān)的高頻詞，那么很影響分類結(jié)果。發(fā)明3 (基于垂直搜索和聚焦爬蟲的網(wǎng)頁分類技術(shù))通過研究發(fā)現(xiàn)同一個(gè)導(dǎo)航網(wǎng)站上各個(gè)分類的子目錄頁面有著很相似的結(jié)構(gòu)，可以用正則表達(dá)式來概括頁面的結(jié)構(gòu)化信息，通過模式學(xué)習(xí)找到這些正則表達(dá)式指導(dǎo)聚焦爬蟲抓取與分類相關(guān)的網(wǎng)頁，即實(shí)現(xiàn)網(wǎng)頁與分類的對應(yīng)一網(wǎng)頁分類。它的方法更加不適用于醫(yī)學(xué)領(lǐng)域，首先，它針對網(wǎng)頁結(jié)構(gòu)使用某一類結(jié)構(gòu)的正則表達(dá)式，但是網(wǎng)頁內(nèi)容和網(wǎng)頁結(jié)構(gòu)并不存在一種對應(yīng)關(guān)系，網(wǎng)頁內(nèi)容通常是編輯書寫，網(wǎng)頁結(jié)構(gòu)通常是程序員書寫，并且在網(wǎng)頁設(shè)計(jì)領(lǐng)域并不存在一種什么結(jié)構(gòu)對應(yīng)什么內(nèi)容的約定，網(wǎng)頁結(jié)構(gòu)千差萬別，而每種結(jié)構(gòu)的網(wǎng)頁的正則表達(dá)式都需要人手工去編寫，耗時(shí)耗力，并且這些正則表達(dá)式限制了爬蟲的規(guī)模；其次，它在抽取鏈接的時(shí)候也使用了正則表達(dá)式，但是單從鏈接的角度很難分辨出網(wǎng)頁的內(nèi)容，比如，“ cncn”是旅游網(wǎng)站，可單從字面看“cncn”和“旅游”并無關(guān)系，再比如“baidu”是搜索網(wǎng)站，它在字面上與“ search ”或者“ sousuo ” 也無關(guān)系。上面三個(gè)專利雖然都能在一定程度上對網(wǎng)頁進(jìn)行分類，但是要適用到醫(yī)學(xué)領(lǐng)域，它們存在如下的不足:1、過分依賴詞頻。但在醫(yī)學(xué)領(lǐng)域詞頻不一定起了決定性作用，比如一篇介紹感冒的文章，可能只在標(biāo)題處寫了感冒一詞；介紹醫(yī)生的文章，大量出現(xiàn)的可能是這個(gè)醫(yī)生的名字而不是醫(yī)生領(lǐng)域的描述詞匯；2、依賴于網(wǎng)頁結(jié)構(gòu)。網(wǎng)頁結(jié)構(gòu)和網(wǎng)頁內(nèi)容之間并無明顯的對應(yīng)關(guān)系，并且在醫(yī)學(xué)領(lǐng)域不同的分類主要是內(nèi)容上的不同。比如都是標(biāo)題，內(nèi)容結(jié)構(gòu)的網(wǎng)頁，可能用來介紹疾病，也可能用來介紹醫(yī)生。

發(fā)明內(nèi)容
本發(fā)明要解決的問題是，克服現(xiàn)有技術(shù)中的不足，提一種面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別和網(wǎng)頁細(xì)分類的方法。為解決技術(shù)問題，本發(fā)明的解決方案是:提供一種面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別方法，是從全網(wǎng)提取醫(yī)藥相關(guān)的網(wǎng)站，具體包括以下步驟:(一)獲得綜合類網(wǎng)站的詞語集合(I)從全網(wǎng)中抓取非醫(yī)藥相關(guān)的綜合類網(wǎng)頁；隨機(jī)選取五個(gè)綜合類門戶網(wǎng)站，使用爬蟲抓取每個(gè)網(wǎng)站的網(wǎng)頁；抓取網(wǎng)頁的總個(gè)數(shù)在四十至五十萬，設(shè)定從單個(gè)網(wǎng)站抓取的網(wǎng)頁數(shù)量上限為30萬；(2)對提取到的網(wǎng)頁內(nèi)容進(jìn)行分詞，記錄分詞結(jié)果以及對應(yīng)詞頻，歸納出綜合類網(wǎng)站的詞語集合，記為Tall ；(二)獲得醫(yī)藥類網(wǎng)站的詞語集合(I)從全網(wǎng)中抓取醫(yī)藥相關(guān)的網(wǎng)頁；選取五個(gè)醫(yī)藥類專業(yè)門戶網(wǎng)站，使用爬蟲抓取每個(gè)網(wǎng)站的網(wǎng)頁；抓取網(wǎng)頁的總個(gè)數(shù)在四十至五十萬，設(shè)定從單個(gè)網(wǎng)站抓取的網(wǎng)頁數(shù)量上限為30萬；
(2)對提取到的網(wǎng)頁內(nèi)容進(jìn)行分詞，記錄分詞結(jié)果以及對應(yīng)詞頻，歸納出醫(yī)藥類網(wǎng)站的詞語集合，記為 Tmedical-all (三)獲得醫(yī)藥特征主題詞庫(I)醫(yī)藥類網(wǎng)站的詞語集合里包含醫(yī)藥類特征主題詞和非特征主題詞，即Tmedical_all-Tmedical U Tnot其中Tmedic;al表示醫(yī)藥類的主題詞庫，Tnrt表示在醫(yī)藥類網(wǎng)站詞語集合中的不屬于醫(yī)藥類詞語的集合(2)提取醫(yī)藥類主題詞庫Tmedical詞庫中詞的關(guān)系滿足下面的公式:Tnot — Tall Π Tmedical_allTmedical-Tmedical _all~TnotTmedical-Tmedical_all~Tall Π Tmedical_all根據(jù)上邊的公式，整個(gè)算法首先遍歷醫(yī)藥類網(wǎng)站的詞語集合Tmedic;al_all，然后從中剔除同時(shí)存在于綜合類特征詞庫Tall的詞，剩余的詞匯便是醫(yī)藥特征主題詞庫Tmedical ；(四)根據(jù)特征主題詞集合判定網(wǎng)站是否與醫(yī)藥相關(guān)(I)假定一個(gè)網(wǎng)站，用S表不,其所有頁面表不為(P1, P2, P3,…，Pj ;其中P1表不抓取到的第一個(gè)頁面，P2表示抓取到的第二個(gè)頁面，Pi表示抓取到的第i個(gè)頁面，η是網(wǎng)頁的個(gè)數(shù)；(2)使用下面的公式計(jì)算任意頁面Pi的醫(yī)藥相關(guān)度分值，用Scorepi表示:
權(quán)利要求
1.一種面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別方法，其特征在于，是從全網(wǎng)提取醫(yī)藥相關(guān)的網(wǎng)站，具體包括以下步驟: (一)獲得綜合類網(wǎng)站的詞語集合 (1)從全網(wǎng)中抓取非醫(yī)藥相關(guān)的綜合類網(wǎng)頁；隨機(jī)選取五個(gè)綜合類門戶網(wǎng)站，使用爬蟲抓取每個(gè)網(wǎng)站的網(wǎng)頁；抓取網(wǎng)頁的總個(gè)數(shù)在四十至五十萬，設(shè)定從單個(gè)網(wǎng)站抓取的網(wǎng)頁數(shù)量上限為30萬； (2)對提取到的網(wǎng)頁內(nèi)容進(jìn)行分詞，記錄分詞結(jié)果以及對應(yīng)詞頻，歸納出綜合類網(wǎng)站的詞語集合，記為Tall ； (二)獲得醫(yī)藥類網(wǎng)站的詞語集合 Cl)從全網(wǎng)中抓取醫(yī)藥相關(guān)的網(wǎng)頁；選取五個(gè)醫(yī)藥類專業(yè)門戶網(wǎng)站，使用爬蟲抓取每個(gè)網(wǎng)站的網(wǎng)頁；抓取網(wǎng)頁的總個(gè)數(shù)在四十至五十萬，設(shè)定從單個(gè)網(wǎng)站抓取的網(wǎng)頁數(shù)量上限為30萬； (2)對提取到的網(wǎng)頁內(nèi)容進(jìn)行分詞，記錄分詞結(jié)果以及對應(yīng)詞頻，歸納出醫(yī)藥類網(wǎng)站的詞語集合，記為 ^medical-all(三)獲得醫(yī)藥特征主題詞庫 Cl)醫(yī)藥類網(wǎng)站的詞語集合里包含醫(yī)藥類特征主題詞和非特征主題詞，即 rp_rpI I rp medical-all medical丄 not 其中Tmedical表示醫(yī)藥類的主題詞庫，Tnot表示在醫(yī)藥類網(wǎng)站詞語集合中的不屬于醫(yī)藥類詞語的集合； (2)提取醫(yī)藥類主題詞庫Tmedical 詞庫中詞的關(guān)系滿足下面的公式: Tnot-Tall Π Tmedical_all T =T-T medical medical-all 1 not rp_rprp\ rp medical medical-all 丄 allmedical-all 根據(jù)上邊的公式，整個(gè)算法首先遍歷醫(yī)藥類網(wǎng)站的詞語集合Tmedic;al_all，然后從中剔除同時(shí)存在于綜合類特征詞庫Tall的詞，剩余的詞匯便是醫(yī)藥特征主題詞庫Tmedical ； (四)根據(jù)特征主題詞集合判定網(wǎng)站是否與醫(yī)藥相關(guān) (1)假定一個(gè)網(wǎng)站，用S表示，其所有頁面表示為{PuP2，P3，…，P1J;其中P1表示抓取到的第一個(gè)頁面，P2表示抓取到的第二個(gè)頁面，Pi表示抓取到的第i個(gè)頁面，η是網(wǎng)頁的個(gè)數(shù)； (2)使用下面的公式計(jì)算任意頁面Pi的醫(yī)藥相關(guān)度分值，用Scorepi表示:
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，在獲得綜合類網(wǎng)站詞語集合或醫(yī)藥類網(wǎng)站詞語集合時(shí)，其具體步驟為: a、首先過濾HTML網(wǎng)頁中的代碼，即把網(wǎng)頁中的所有〈script〉標(biāo)簽以及〈style〉標(biāo)簽中的部分刪除；然后過濾HTML標(biāo)簽，即過濾所有能夠匹配正則表達(dá)式<.* >的內(nèi)容； b、過濾所有的非中文字母和符號(hào)，然后使用ICTCLAS分詞器對剩余的部分進(jìn)行分詞，記錄所有詞的詞頻； C、計(jì)算出詞頻的平均值μ和標(biāo)準(zhǔn)差σ，詞頻的分布滿足正態(tài)分布N (μ, O);取詞頻在(μ - ο，μ + 0 )區(qū)間內(nèi)的詞作為網(wǎng)站的詞語集合。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，在從全網(wǎng)中抓取非醫(yī)藥相關(guān)的綜合類網(wǎng)頁時(shí)，其步驟(I)中所選取的五個(gè)綜合類門戶網(wǎng)站為:新浪網(wǎng)www.sina.com.cn、網(wǎng)易www.163.com、騰訊 www.qq.com、搜狐 www.sohu.com 和鳳凰網(wǎng) www.1feng.com。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，在獲得醫(yī)藥類網(wǎng)站的詞語集合時(shí)，其步驟(I)中所選取的五個(gè)醫(yī)藥專業(yè)門戶網(wǎng)站為:丁香園www.dxy.cn、醫(yī)學(xué)論壇網(wǎng)www.cmt.com.cn、中國醫(yī)學(xué)健康網(wǎng)www.sosya0.com、醫(yī)學(xué)教育網(wǎng)www.med66.com和中華醫(yī)學(xué)會(huì)網(wǎng)www.cma.0rg.cn 。
5.基于權(quán)利要求1所述方法的面向醫(yī)學(xué)領(lǐng)域的網(wǎng)頁細(xì)分類的方法，其特征在于，是從醫(yī)藥相關(guān)網(wǎng)站中識(shí)別至少包括醫(yī)生、疾病、藥品、新聞四類網(wǎng)頁，其具體步驟為: (一)獲得各分類網(wǎng)站的詞語集合 (I)列舉出醫(yī)生、疾病、藥品、新聞四種類別的網(wǎng)站集合，其中: 醫(yī)生類包括: http://ysk.39.net/39 健康網(wǎng)好醫(yī)生、http://haodf.health, sohu.com/ 搜狐健康、http://ysk.99.com.cn/99 健康網(wǎng)醫(yī)生、http://www.120.net/yisheng/120 健康網(wǎng)醫(yī)生；疾病類包括: http://dise.health, sohu.com/ 搜狐疾病、http://jbk.39.net/39 健康網(wǎng)查疾病、http://jbk.99.com.cn/99 健康網(wǎng)疾病、http://www.haodf.com/jibing/neike/list, htm好大夫在線疾病庫；藥品類包括: http://ypk.39.net/39 健康網(wǎng)找藥品、http://ypk.familydoctor.com.cn/ 家庭醫(yī)生在線藥品、http://drug, health, sohu.com/ 搜狐藥品、http://yaopin.qqyy.com/ 全球醫(yī)藥網(wǎng)藥品；新聞?lì)惏? http://news.39.net/39 健康網(wǎng)新聞、http://news.99.com.cn/99 健康網(wǎng)新聞、http://news, familydoctor.com.cn/ 家庭醫(yī)生在線新聞、http://health, sohu.com/jiankangxinwen.shtml搜狐健康的新聞?lì)l道； (2)對于不同分類網(wǎng)站，分別提取其中所有網(wǎng)頁的內(nèi)容，并進(jìn)行分詞，整理出各自的詞庫，分別記為Td()C;tOT_all (醫(yī)生類詞庫)、Tdis_all (疾病類詞庫)、Tdrug_all (藥品類詞庫)、TnOTS_an(新聞?lì)愒~庫)；； (二)獲得各分類特征詞集合； (1)各分類網(wǎng)站的詞語集合里包含各分類特征主題詞和非特征主題詞，以醫(yī)生類為例，即醫(yī)生類網(wǎng)站的詞語集合滿足下面的公式約束條件:
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，在獲得各分類網(wǎng)站的詞語集合時(shí)，所述步驟(2)包括: a、首先過濾HTML網(wǎng)頁中的代碼，即把網(wǎng)頁中的所有〈script〉標(biāo)簽以及〈style〉標(biāo)簽中的部分刪除；然后過濾HTML標(biāo)簽，即過濾所有能夠匹配正則表達(dá)式<.* >的內(nèi)容； b、過濾所有的非中文字母和符號(hào)，然后使用ICTCLAS分詞器對剩余的部分進(jìn)行分詞，記錄所有詞的詞頻； C、計(jì)算出詞頻的平均值μ和標(biāo)準(zhǔn)差σ，詞頻的分布滿足正態(tài)分布N (μ, O);取詞頻在(μ - σ，μ + 0 )區(qū)間內(nèi) 的詞作為網(wǎng)站的詞語集合。
全文摘要
本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù)，旨在提供一種面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別和網(wǎng)頁細(xì)分類的方法。該方法是從現(xiàn)有網(wǎng)站中提取醫(yī)學(xué)分類主題詞庫的算法，以及將網(wǎng)站及網(wǎng)頁根據(jù)分類主題詞庫進(jìn)行打分，并根據(jù)打分結(jié)果進(jìn)行分類的算法。打分算法根據(jù)網(wǎng)頁的內(nèi)容特征，不過分依賴詞頻。這種訓(xùn)練醫(yī)學(xué)數(shù)據(jù)得到詞庫、并使用訓(xùn)練好的數(shù)據(jù)打分的分類算法也是關(guān)鍵點(diǎn)。本發(fā)明先從全網(wǎng)中提取醫(yī)藥相關(guān)的網(wǎng)站，然后將這些網(wǎng)站中的網(wǎng)頁進(jìn)行分類，從中提取出包括各類網(wǎng)頁。本發(fā)明能夠快速的判斷醫(yī)藥相關(guān)網(wǎng)站屬于某一個(gè)分類，具有計(jì)算簡單，計(jì)算速度快，準(zhǔn)確度高等優(yōu)點(diǎn)。相較于同類的方明，本發(fā)明的算法不會(huì)受到網(wǎng)頁中高頻詞的影響，也不會(huì)受限于特定的網(wǎng)頁html寫法。
文檔編號(hào)G06F17/30GK103226578SQ20131011345
公開日2013年7月31日申請日期2013年4月2日優(yōu)先權(quán)日2013年4月2日
發(fā)明者陳德人, 林臻, 鄭小林, 郭華, 鄧志豪申請人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳德人;林臻;鄭小林;郭華;鄧志豪
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

上一篇：視頻圖像中運(yùn)動(dòng)目標(biāo)陰影消除方法
上一篇：一種網(wǎng)絡(luò)輿情信息處理方法和裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

面向領(lǐng)域編程相關(guān)技術(shù)

面向領(lǐng)域設(shè)計(jì)相關(guān)技術(shù)

面向領(lǐng)域相關(guān)技術(shù)

crm系統(tǒng)面向的領(lǐng)域相關(guān)技術(shù)

人臉識(shí)別應(yīng)用領(lǐng)域相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別和網(wǎng)頁細(xì)分類的方法