專利名稱:面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別和網(wǎng)頁細(xì)分類的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù),特別涉及一種面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別和網(wǎng)頁細(xì)分類的方法。
背景技術(shù):
通用搜索引擎功能越來越豐富,它給人們提供了很多便利,但是當(dāng)用戶需要某一特定領(lǐng)域的答案時(shí),搜索結(jié)果常??此葡嚓P(guān)度高實(shí)際上不能滿足用戶需求。于是垂直搜索引擎應(yīng)運(yùn)而生,相比通用搜索引擎的海量信息,垂直搜索引擎顯得更加專注、具體和深入。不同領(lǐng)域的網(wǎng)頁數(shù)據(jù)是有著千差萬別的,互聯(lián)網(wǎng)中不同領(lǐng)域的數(shù)據(jù)結(jié)構(gòu)存在很大的不同,要針對各個(gè)不同領(lǐng)域的網(wǎng)頁設(shè)計(jì)統(tǒng)一的垂直搜索引擎是很復(fù)雜的。很多用戶需要查詢某些疾病的特征以及治療方法、某些藥物的治療功能以及特性、某些醫(yī)生的名望以及信息等,醫(yī)學(xué)垂直搜索引擎在這些方面返回的結(jié)果應(yīng)該比通用搜索更加合理和深入,為了實(shí)現(xiàn)這個(gè)目標(biāo),就需要在網(wǎng)頁抓取和建立索引的過程中識(shí)別出醫(yī)學(xué)類的網(wǎng)站,并且能夠進(jìn)一步把網(wǎng)頁分類為醫(yī)生頁面,疾病頁面,藥品頁面等等。本發(fā)明要解決的技術(shù)問題是如何從全網(wǎng)中提取出醫(yī)藥相關(guān)的網(wǎng)頁,并且進(jìn)一步細(xì)分出具體的醫(yī)生、疾病、藥品以及新聞?lì)I(lǐng)域的網(wǎng)頁,這樣可以極大地提高搜索引擎在醫(yī)學(xué)領(lǐng)域方面檢索的精確性與實(shí)用性。
一個(gè)通用的搜索引擎系統(tǒng)一般由網(wǎng)絡(luò)爬蟲、分詞模塊、索引模塊、查詢模塊幾部分組成,它的主要工作流程是:首先從網(wǎng)絡(luò)爬蟲開始抓取URL服務(wù)器指定的網(wǎng)頁,將其存入文檔數(shù)據(jù)庫,并將當(dāng)前頁上的所含超鏈接存入到URL服務(wù)器中。在進(jìn)行抓取的同時(shí),分詞模塊和索引模塊將已經(jīng)抓取的網(wǎng)頁文檔進(jìn)行分詞處理,計(jì)算詞的權(quán)值,然后將分詞結(jié)果存入索引數(shù)據(jù)庫。用戶提交查詢時(shí),查詢模塊首先對用戶輸入的信息進(jìn)行分詞處理,并檢索出所有包含檢索詞的記錄,通過計(jì)算網(wǎng)頁權(quán)重和級別對查詢結(jié)果進(jìn)行排序,最后從文檔數(shù)據(jù)庫中提取各網(wǎng)頁的摘要信息反饋給查詢用戶。由于整個(gè)網(wǎng)絡(luò)的規(guī)模太大,通用搜索引擎開始暴露出了一些問題,比如覆蓋率低,時(shí)效性差,結(jié)果不準(zhǔn)確,過于死板等等,于是出現(xiàn)了一些更加智能化、個(gè)性化和專業(yè)化的搜索,垂直搜索引擎就是其中的一種。垂直搜索引擎面向特定領(lǐng)域,專注于自己的特長,保證了對該領(lǐng)域信息的完全收錄與及時(shí)更新。與通用搜索引擎不同,垂直搜索的目標(biāo)是盡可能多的搜集與該主題相關(guān)的網(wǎng)頁。專業(yè)網(wǎng)絡(luò)爬蟲抓取到的網(wǎng)頁如果與預(yù)定義主題相關(guān),就做進(jìn)一步的處理;如果不相關(guān),則拋棄該網(wǎng)頁。這樣處理的結(jié)果是,系統(tǒng)最終只索引了 Web上所有網(wǎng)頁中的一部分,也就是與預(yù)定義主題相關(guān)的網(wǎng)頁。這樣處理的好處是可以節(jié)省大量的存儲(chǔ)空間和具有較高的更新頻率,而且對用戶而言,如果用戶對該主題感興趣,那么系統(tǒng)在該領(lǐng)域的信息應(yīng)該是最詳盡、最專業(yè)的。面向醫(yī)學(xué)領(lǐng)域的垂直搜索引擎的主要目標(biāo)是滿足用戶對醫(yī)學(xué)知識(shí)、資訊等方面的檢索,比如查詢疾病癥狀,治療手段,藥品以及具有此方面優(yōu)勢的醫(yī)院等等。為了完成這一功能,我們就需要在網(wǎng)頁采集時(shí)區(qū)分網(wǎng)頁所屬的類別是否屬于醫(yī)學(xué)領(lǐng)域,進(jìn)一步的,屬于醫(yī)學(xué)中的哪個(gè)子領(lǐng)域,在建立索引及顯示時(shí)按照其所屬的醫(yī)院、醫(yī)生、疾病、藥品等等類別進(jìn)行個(gè)性化的操作。所以網(wǎng)頁分類是垂直搜索中的一個(gè)關(guān)鍵性的技術(shù)。目前的網(wǎng)頁分類技術(shù)大多是圍繞詞頻、分析網(wǎng)頁地址、根據(jù)摘要信息等方法做一些變化來進(jìn)行研究的。以詞頻為基礎(chǔ)來進(jìn)行網(wǎng)頁相關(guān)性的判別有很多不足,比如很多普通詞語出現(xiàn)的頻率很高但其實(shí)并不重要,而有一些很少出現(xiàn)的詞語往往是文章內(nèi)容的重點(diǎn);分析網(wǎng)頁地址的方法更是很有局限性,因?yàn)榫W(wǎng)頁的網(wǎng)址主要用來標(biāo)示網(wǎng)頁的位置,并不直接反應(yīng)網(wǎng)頁的內(nèi)容,雖然存在一些內(nèi)容相似并且網(wǎng)頁網(wǎng)址也很相似的網(wǎng)頁,但互聯(lián)網(wǎng)海量的網(wǎng)頁中,內(nèi)容相近網(wǎng)址不相似的例子太多了 ;而根據(jù)摘要的方法大多是依靠網(wǎng)頁編輯者在網(wǎng)頁meta信息中填的類別等關(guān)鍵詞信息來網(wǎng)頁分類,這主要依靠良好的網(wǎng)頁,但很多缺乏此類信息的網(wǎng)頁也需要分類,那這類方法就沒有辦法解決了。同時(shí),現(xiàn)有的技術(shù)雖然很多都是有關(guān)于一般化的網(wǎng)頁分類的,雖然一般化的方法照顧的比較全面,但其實(shí)不同領(lǐng)域的網(wǎng)頁內(nèi)容有很大差距,根據(jù)這些內(nèi)容上的差距我們可以開發(fā)一些啟發(fā)式的方法。比如醫(yī)藥類的網(wǎng)頁可能很多是介紹藥物、醫(yī)生、疾病的,而體育類的網(wǎng)頁大多數(shù) 是新聞,經(jīng)貿(mào)方面的網(wǎng)頁大多數(shù)是廣告,要針對這些不同的領(lǐng)域提取出一個(gè)統(tǒng)一的網(wǎng)頁分類方法略有牽強(qiáng)。所以現(xiàn)有的網(wǎng)頁分類技術(shù)在不同領(lǐng)域下的分類效果不盡相同。就算分類出醫(yī)學(xué)領(lǐng)域相關(guān)的網(wǎng)站,也不能細(xì)分到具體的醫(yī)生、疾病、藥品和新聞的類別。目前關(guān)于網(wǎng)頁分類的研究成果很多,采用的方法也很廣泛。傳統(tǒng)的網(wǎng)頁分類方法有支持向量機(jī) SVM (support vector machine)方法、樸素貝葉斯 NB (Naive Bayesian)方法、神經(jīng)網(wǎng)絡(luò) NN (Neural Network)方法、K 近鄰 KNN (k-Nearest Neighbor algorithm)方法、決策樹(Decision Tree)方法等,這些都是機(jī)器學(xué)習(xí)領(lǐng)域的技術(shù),廣泛適用于一般的網(wǎng)頁分類。更一般化的分類方法有基于關(guān)鍵詞詞頻的網(wǎng)頁分類算法、根據(jù)網(wǎng)頁摘要分類算法、基于網(wǎng)址進(jìn)行網(wǎng)頁分類算法等。但是要實(shí)現(xiàn)醫(yī)學(xué)類網(wǎng)站中如醫(yī)生,藥品,疾病和新聞的詳細(xì)分類,上述方案均不能很好的完成。與本發(fā)明最相近似的實(shí)現(xiàn)方案有下面幾種,中國發(fā)明專利申請:“基于關(guān)鍵詞頻度分析的中文網(wǎng)頁分類方法”(申請?zhí)?200910031625.3)、中國發(fā)明專利申請“一種基于云語義庫的網(wǎng)頁審計(jì)方法”(201010000496.4)、“基于垂直搜索和聚焦爬蟲的網(wǎng)頁分類計(jì)數(shù)”(200910025724.0)。發(fā)明I (基于關(guān)鍵詞頻度分析的中文網(wǎng)頁分類方法)提出了一種基于關(guān)鍵詞頻度分析的中文網(wǎng)頁分類方法。其特點(diǎn)是根據(jù)所分析出的中文網(wǎng)頁的關(guān)鍵詞,依照中文分類主題詞庫進(jìn)行中文網(wǎng)頁分類模糊匹配。通過提取、過濾和去噪音步驟的網(wǎng)頁中文文本,再通過關(guān)鍵詞頻度分析器對文本關(guān)鍵詞進(jìn)行提取,并按照關(guān)鍵詞權(quán)重對關(guān)鍵詞進(jìn)行排序錄入分類主題詞庫數(shù)據(jù)表。通過對比網(wǎng)頁關(guān)鍵詞表與分類主題詞庫的相關(guān)性,分析出該網(wǎng)頁的分類。如果網(wǎng)頁中出現(xiàn)高頻的非關(guān)鍵詞,比如某個(gè)人名或者某個(gè)地點(diǎn),將會(huì)大大影響網(wǎng)頁分類的結(jié)果。并且它的初始分類是根據(jù)中圖分類法得到,缺乏靈活性,并不適合醫(yī)學(xué)領(lǐng)域的分類。發(fā)明2 (基于云語義庫的網(wǎng)頁審計(jì)方法)在實(shí)現(xiàn)網(wǎng)頁審計(jì)這一目的的過程中,提出了一種以云語義庫衡量標(biāo)準(zhǔn)的網(wǎng)頁分類方法。其思路首先是按要求分類,建立每一分類的核心詞庫、非核心詞庫、停用詞庫以及出錯(cuò)詞庫,將已分類網(wǎng)頁進(jìn)行語義分析,通過一系列判定將特定比例的詞放入對應(yīng)分類的詞庫里,從而建立云語義庫。在進(jìn)行網(wǎng)頁分類時(shí),將網(wǎng)頁內(nèi)容進(jìn)行詞頻統(tǒng)計(jì),取高頻詞以及其詞頻發(fā)送到云平臺(tái)下遍歷分類語義庫,匹配詞頻統(tǒng)計(jì)之和最大的分類語義庫即為對應(yīng)的網(wǎng)頁分類。它的不足同樣在于過分依賴詞頻,如果網(wǎng)頁中出現(xiàn)某些主題不相關(guān)的高頻詞,那么很影響分類結(jié)果。發(fā)明3 (基于垂直搜索和聚焦爬蟲的網(wǎng)頁分類技術(shù))通過研究發(fā)現(xiàn)同一個(gè)導(dǎo)航網(wǎng)站上各個(gè)分類的子目錄頁面有著很相似的結(jié)構(gòu),可以用正則表達(dá)式來概括頁面的結(jié)構(gòu)化信息,通過模式學(xué)習(xí)找到這些正則表達(dá)式指導(dǎo)聚焦爬蟲抓取與分類相關(guān)的網(wǎng)頁,即實(shí)現(xiàn)網(wǎng)頁與分類的對應(yīng)一網(wǎng)頁分類。它的方法更加不適用于醫(yī)學(xué)領(lǐng)域,首先,它針對網(wǎng)頁結(jié)構(gòu)使用某一類結(jié)構(gòu)的正則表達(dá)式,但是網(wǎng)頁內(nèi)容和網(wǎng)頁結(jié)構(gòu)并不存在一種對應(yīng)關(guān)系,網(wǎng)頁內(nèi)容通常是編輯書寫,網(wǎng)頁結(jié)構(gòu)通常是程序員書寫,并且在網(wǎng)頁設(shè)計(jì)領(lǐng)域并不存在一種什么結(jié)構(gòu)對應(yīng)什么內(nèi)容的約定,網(wǎng)頁結(jié)構(gòu)千差萬別,而每種結(jié)構(gòu)的網(wǎng)頁的正則表達(dá)式都需要人手工去編寫,耗時(shí)耗力,并且這些正則表達(dá)式限制了爬蟲的規(guī)模;其次,它在抽取鏈接的時(shí)候也使用了正則表達(dá)式,但是單從鏈接的角度很難分辨出網(wǎng)頁的內(nèi)容,比如,“ cncn”是旅游網(wǎng)站,可單從字面看“cncn”和“旅游”并無關(guān)系,再比如“baidu”是搜索網(wǎng)站,它在字面上與“ search ”或者“ sousuo ” 也無關(guān)系。上面三個(gè)專利雖然都能在一定程度上對網(wǎng)頁進(jìn)行分類,但是要適用到醫(yī)學(xué)領(lǐng)域,它們存在如下的不足:1、過分依賴詞頻。但在醫(yī)學(xué)領(lǐng)域詞頻不一定起了決定性作用,比如一篇介紹感冒的文章,可能只在標(biāo)題處寫了感冒一詞;介紹醫(yī)生的文章,大量出現(xiàn)的可能是這個(gè)醫(yī)生的名字而不是醫(yī)生領(lǐng)域的描述詞匯;2、依賴于網(wǎng)頁結(jié)構(gòu)。網(wǎng)頁結(jié)構(gòu)和網(wǎng)頁內(nèi)容之間并無明顯的對應(yīng)關(guān)系,并且在醫(yī)學(xué)領(lǐng)域不同的分類主要是內(nèi)容上的不同。比如都是標(biāo)題,內(nèi)容結(jié)構(gòu)的網(wǎng)頁,可能用來介紹疾病,也可能用來介紹醫(yī)生。
發(fā)明內(nèi)容
本發(fā)明要解決的問題是,克服現(xiàn)有技術(shù)中的不足,提一種面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別和網(wǎng)頁細(xì)分類的方法。為解決技術(shù)問題,本發(fā)明的解決方案是:提供一種面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別方法,是從全網(wǎng)提取醫(yī)藥相關(guān)的網(wǎng)站,具體包括以下步驟:(一)獲得綜合類網(wǎng)站的詞語集合(I)從全網(wǎng)中抓取非醫(yī)藥相關(guān)的綜合類網(wǎng)頁;隨機(jī)選取五個(gè)綜合類門戶網(wǎng)站,使用爬蟲抓取每個(gè)網(wǎng)站的網(wǎng)頁;抓取網(wǎng)頁的總個(gè)數(shù)在四十至五十萬,設(shè)定從單個(gè)網(wǎng)站抓取的網(wǎng)頁數(shù)量上限為30萬;(2)對提取到的網(wǎng)頁內(nèi)容進(jìn)行分詞,記錄分詞結(jié)果以及對應(yīng)詞頻,歸納出綜合類網(wǎng)站的詞語集合,記為Tall ;(二)獲得醫(yī)藥類網(wǎng)站的詞語集合(I)從全網(wǎng)中抓取醫(yī)藥相關(guān)的網(wǎng)頁;選取五個(gè)醫(yī)藥類專業(yè)門戶網(wǎng)站,使用爬蟲抓取每個(gè)網(wǎng)站的網(wǎng)頁;抓取網(wǎng)頁的總個(gè)數(shù)在四十至五十萬,設(shè)定從單個(gè)網(wǎng)站抓取的網(wǎng)頁數(shù)量上限為30萬;
(2)對提取到的網(wǎng)頁內(nèi)容進(jìn)行分詞,記錄分詞結(jié)果以及對應(yīng)詞頻,歸納出醫(yī)藥類網(wǎng)站的詞語集合,記為 Tmedical-all (三)獲得醫(yī)藥特征主題詞庫(I)醫(yī)藥類網(wǎng)站的詞語集合里包含醫(yī)藥類特征主題詞和非特征主題詞,即Tmedical_all-Tmedical U Tnot其中Tmedic;al表示醫(yī)藥類的主題詞庫,Tnrt表示在醫(yī)藥類網(wǎng)站詞語集合中的不屬于醫(yī)藥類詞語的集合(2)提取醫(yī)藥類主題詞庫Tmedical詞庫中詞的關(guān)系滿足下面的公式:Tnot — Tall Π Tmedical_allTmedical-Tmedical _all~TnotTmedical-Tmedical_all~Tall Π Tmedical_all根據(jù)上邊的公式,整個(gè)算法首先遍歷醫(yī)藥類網(wǎng)站的詞語集合Tmedic;al_all,然后從中剔除同時(shí)存在于綜合類特征詞庫Tall的詞,剩余的詞匯便是醫(yī)藥特征主題詞庫Tmedical ;(四)根據(jù)特征主題詞集合判定網(wǎng)站是否與醫(yī)藥相關(guān)(I)假定一個(gè)網(wǎng)站,用S表不,其所有頁面表不為(P1, P2, P3,…,Pj ;其中P1表不抓取到的第一個(gè)頁面,P2表示抓取到的第二個(gè)頁面,Pi表示抓取到的第i個(gè)頁面,η是網(wǎng)頁的個(gè)數(shù);(2)使用下面的公式計(jì)算任意頁面Pi的醫(yī)藥相關(guān)度分值,用Scorepi表示:
權(quán)利要求
1.一種面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別方法,其特征在于,是從全網(wǎng)提取醫(yī)藥相關(guān)的網(wǎng)站,具體包括以下步驟: (一)獲得綜合類網(wǎng)站的詞語集合 (1)從全網(wǎng)中抓取非醫(yī)藥相關(guān)的綜合類網(wǎng)頁; 隨機(jī)選取五個(gè)綜合類門戶網(wǎng)站,使用爬蟲抓取每個(gè)網(wǎng)站的網(wǎng)頁;抓取網(wǎng)頁的總個(gè)數(shù)在四十至五十萬,設(shè)定從單個(gè)網(wǎng)站抓取的網(wǎng)頁數(shù)量上限為30萬; (2)對提取到的網(wǎng)頁內(nèi)容進(jìn)行分詞,記錄分詞結(jié)果以及對應(yīng)詞頻,歸納出綜合類網(wǎng)站的詞語集合,記為Tall ; (二)獲得醫(yī)藥類網(wǎng)站的詞語集合 Cl)從全網(wǎng)中抓取醫(yī)藥相關(guān)的網(wǎng)頁; 選取五個(gè)醫(yī)藥類專業(yè)門戶網(wǎng)站,使用爬蟲抓取每個(gè)網(wǎng)站的網(wǎng)頁;抓取網(wǎng)頁的總個(gè)數(shù)在四十至五十萬,設(shè)定從單個(gè)網(wǎng)站抓取的網(wǎng)頁數(shù)量上限為30萬; (2)對提取到的網(wǎng)頁內(nèi)容進(jìn)行分詞,記錄分詞結(jié)果以及對應(yīng)詞頻,歸納出醫(yī)藥類網(wǎng)站的詞語集合,記為 ^medical-all(三)獲得醫(yī)藥特征主題詞庫 Cl)醫(yī)藥類網(wǎng)站的詞語集合里包含醫(yī)藥類特征主題詞和非特征主題詞,即 rp_rpI I rp medical-all medical丄 not 其中Tmedical表示醫(yī)藥類的主題詞庫,Tnot表示在醫(yī)藥類網(wǎng)站詞語集合中的不屬于醫(yī)藥類詞語的集合; (2)提取醫(yī)藥類主題詞庫Tmedical 詞庫中詞的關(guān)系滿足下面的公式: Tnot-Tall Π Tmedical_all T =T-T medical medical-all 1 not rp_rprp\ rp medical medical-all 丄 allmedical-all 根據(jù)上邊的公式,整個(gè)算法首先遍歷醫(yī)藥類網(wǎng)站的詞語集合Tmedic;al_all,然后從中剔除同時(shí)存在于綜合類特征詞庫Tall的詞,剩余的詞匯便是醫(yī)藥特征主題詞庫Tmedical ; (四)根據(jù)特征主題詞集合判定網(wǎng)站是否與醫(yī)藥相關(guān) (1)假定一個(gè)網(wǎng)站,用S表示,其所有頁面表示為{PuP2,P3,…,P1J;其中P1表示抓取到的第一個(gè)頁面,P2表示抓取到的第二個(gè)頁面,Pi表示抓取到的第i個(gè)頁面,η是網(wǎng)頁的個(gè)數(shù); (2)使用下面的公式計(jì)算任意頁面Pi的醫(yī)藥相關(guān)度分值,用Scorepi表示:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在獲得綜合類網(wǎng)站詞語集合或醫(yī)藥類網(wǎng)站詞語集合時(shí),其具體步驟為: a、首先過濾HTML網(wǎng)頁中的代碼,即把網(wǎng)頁中的所有〈script〉標(biāo)簽以及〈style〉標(biāo)簽中的部分刪除;然后 過濾HTML標(biāo)簽,即過濾所有能夠匹配正則表達(dá)式<.* >的內(nèi)容; b、過濾所有的非中文字母和符號(hào),然后使用ICTCLAS分詞器對剩余的部分進(jìn)行分詞,記錄所有詞的詞頻; C、計(jì)算出詞頻的平均值μ和標(biāo)準(zhǔn)差σ,詞頻的分布滿足正態(tài)分布N (μ, O);取詞頻在(μ - ο,μ + 0 )區(qū)間內(nèi)的詞作為網(wǎng)站的詞語集合。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在從全網(wǎng)中抓取非醫(yī)藥相關(guān)的綜合類網(wǎng)頁時(shí),其步驟(I)中所選取的五個(gè)綜合類門戶網(wǎng)站為:新浪網(wǎng)www.sina.com.cn、網(wǎng)易www.163.com、騰訊 www.qq.com、搜狐 www.sohu.com 和鳳凰網(wǎng) www.1feng.com。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在獲得醫(yī)藥類網(wǎng)站的詞語集合時(shí),其步驟(I)中所選取的五個(gè)醫(yī)藥專業(yè)門戶網(wǎng)站為:丁香園www.dxy.cn、醫(yī)學(xué)論壇網(wǎng)www.cmt.com.cn、中國醫(yī)學(xué)健康網(wǎng)www.sosya0.com、醫(yī)學(xué)教育網(wǎng)www.med66.com和中華醫(yī)學(xué)會(huì)網(wǎng)www.cma.0rg.cn 。
5.基于權(quán)利要求1所述方法的面向醫(yī)學(xué)領(lǐng)域的網(wǎng)頁細(xì)分類的方法,其特征在于,是從醫(yī)藥相關(guān)網(wǎng)站中識(shí)別至少包括醫(yī)生、疾病、藥品、新聞四類網(wǎng)頁,其具體步驟為: (一)獲得各分類網(wǎng)站的詞語集合 (I)列舉出醫(yī)生、疾病、藥品、新聞四種類別的網(wǎng)站集合,其中: 醫(yī)生類包括: http://ysk.39.net/39 健康網(wǎng)好醫(yī)生、http://haodf.health, sohu.com/ 搜狐健康、http://ysk.99.com.cn/99 健康網(wǎng)醫(yī)生、http://www.120.net/yisheng/120 健康網(wǎng)醫(yī)生; 疾病類包括: http://dise.health, sohu.com/ 搜狐疾病、http://jbk.39.net/39 健康網(wǎng)查疾病、http://jbk.99.com.cn/99 健康網(wǎng)疾病、http://www.haodf.com/jibing/neike/list, htm好大夫在線疾病庫;藥品類包括: http://ypk.39.net/39 健康網(wǎng)找藥品、http://ypk.familydoctor.com.cn/ 家庭醫(yī)生在線藥品、http://drug, health, sohu.com/ 搜狐藥品、http://yaopin.qqyy.com/ 全球醫(yī)藥網(wǎng)藥品; 新聞?lì)惏? http://news.39.net/39 健康網(wǎng)新聞、http://news.99.com.cn/99 健康網(wǎng)新聞、http://news, familydoctor.com.cn/ 家庭醫(yī)生在線新聞、http://health, sohu.com/jiankangxinwen.shtml搜狐健康的新聞?lì)l道; (2)對于不同分類網(wǎng)站,分別提取其中所有網(wǎng)頁的內(nèi)容,并進(jìn)行分詞,整理出各自的詞庫,分別記為Td()C;tOT_all (醫(yī)生類詞庫)、Tdis_all (疾病類詞庫)、Tdrug_all (藥品類詞庫)、TnOTS_an(新聞?lì)愒~庫);; (二)獲得各分類特征詞集合; (1)各分類網(wǎng)站的詞語集合里包含各分類特征主題詞和非特征主題詞,以醫(yī)生類為例,即醫(yī)生類網(wǎng)站的詞語集合滿足下面的公式約束條件:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在獲得各分類網(wǎng)站的詞語集合時(shí),所述步驟(2)包括: a、首先過濾HTML網(wǎng)頁中的代碼,即把網(wǎng)頁中的所有〈script〉標(biāo)簽以及〈style〉標(biāo)簽中的部分刪除;然后過濾HTML標(biāo)簽,即過濾所有能夠匹配正則表達(dá)式<.* >的內(nèi)容; b、過濾所有的非中文字母和符號(hào),然后使用ICTCLAS分詞器對剩余的部分進(jìn)行分詞,記錄所有詞的詞頻; C、計(jì)算出詞頻的平均值μ和標(biāo)準(zhǔn)差σ,詞頻的分布滿足正態(tài)分布N (μ, O);取詞頻在(μ - σ,μ + 0 )區(qū)間內(nèi) 的詞作為網(wǎng)站的詞語集合。
全文摘要
本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù),旨在提供一種面向醫(yī)學(xué)領(lǐng)域的網(wǎng)站識(shí)別和網(wǎng)頁細(xì)分類的方法。該方法是從現(xiàn)有網(wǎng)站中提取醫(yī)學(xué)分類主題詞庫的算法,以及將網(wǎng)站及網(wǎng)頁根據(jù)分類主題詞庫進(jìn)行打分,并根據(jù)打分結(jié)果進(jìn)行分類的算法。打分算法根據(jù)網(wǎng)頁的內(nèi)容特征,不過分依賴詞頻。這種訓(xùn)練醫(yī)學(xué)數(shù)據(jù)得到詞庫、并使用訓(xùn)練好的數(shù)據(jù)打分的分類算法也是關(guān)鍵點(diǎn)。本發(fā)明先從全網(wǎng)中提取醫(yī)藥相關(guān)的網(wǎng)站,然后將這些網(wǎng)站中的網(wǎng)頁進(jìn)行分類,從中提取出包括各類網(wǎng)頁。本發(fā)明能夠快速的判斷醫(yī)藥相關(guān)網(wǎng)站屬于某一個(gè)分類,具有計(jì)算簡單,計(jì)算速度快,準(zhǔn)確度高等優(yōu)點(diǎn)。相較于同類的方明,本發(fā)明的算法不會(huì)受到網(wǎng)頁中高頻詞的影響,也不會(huì)受限于特定的網(wǎng)頁html寫法。
文檔編號(hào)G06F17/30GK103226578SQ20131011345
公開日2013年7月31日 申請日期2013年4月2日 優(yōu)先權(quán)日2013年4月2日
發(fā)明者陳德人, 林臻, 鄭小林, 郭華, 鄧志豪 申請人:浙江大學(xué)