專利名稱::一種網(wǎng)絡(luò)資源類別的自動(dòng)判定方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及網(wǎng)絡(luò)
技術(shù)領(lǐng)域:
,特別是涉及一種網(wǎng)絡(luò)資源類別的自動(dòng)判定方法。
背景技術(shù):
:分類是機(jī)器學(xué)習(xí)的基本方法,本質(zhì)是將同類或相似內(nèi)容組織為一體,分類的方法需要訓(xùn)練集和事先確定好的類別,通過(guò)學(xué)習(xí)訓(xùn)練集的特征獲得判別知識(shí)。在分類中,分類體系的標(biāo)簽是人定義的,可讀性好,對(duì)檢索訪問(wèn)資源是有利的。而且分類訓(xùn)練出的參數(shù)可以反復(fù)在線使用,適合于增量處理的需要[S.DumaisandH.Chen,〃HierarchicalclassificationofWebcontent,〃inProceedingsofthe23rdannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.Athens,Greece:ACMPress,2000,pp.256-263.]。所述待分類網(wǎng)絡(luò)資源在互聯(lián)網(wǎng)上傳播散布,其原始組織狀態(tài)可能是無(wú)序或按不同分類方式整理的。以統(tǒng)一的分類體系將這些資源組織在一起,使之便于瀏覽訪問(wèn)和管理,是構(gòu)建數(shù)字圖書(shū)館、互聯(lián)網(wǎng)資源庫(kù)藏等多種應(yīng)用的需要。但是,由于網(wǎng)絡(luò)資源原始組織方式的混亂狀態(tài),目前對(duì)于所述網(wǎng)絡(luò)資源都是采用人工的方法進(jìn)行分類整理,相對(duì)于網(wǎng)絡(luò)資源的海量特點(diǎn)而言,工作效率低,勞動(dòng)強(qiáng)度大。
發(fā)明內(nèi)容本發(fā)明要解決的問(wèn)題是提供一種網(wǎng)絡(luò)資源類別的自動(dòng)判定方法,以克服現(xiàn)有技術(shù)中對(duì)于多類別網(wǎng)絡(luò)資源由于采用人工的方法進(jìn)行分類,而造成工作效率低,勞動(dòng)強(qiáng)度大的缺陷。為達(dá)到上述目的,本發(fā)明的技術(shù)方案提供一種網(wǎng)絡(luò)資源類別的自動(dòng)判定方法,所述方法包括以下步驟獲取待分類資源的名字集合中的名字前綴特征和后綴特征;根據(jù)所述前綴特征和后綴特征對(duì)所述待分類資源進(jìn)行分類。其中,在所述獲取待分類資源的前綴特征和后綴特征的步驟中,包括對(duì)前綴特征進(jìn)行切分,具體為按照所述待分類資源名字中出現(xiàn)的分隔符切分。其中,在所述按照待分類資源名字中出現(xiàn)的分隔符切分之后,還包括對(duì)切分后的結(jié)果再按照詞典切分。其中,在所述根據(jù)前綴特征和后綴特征對(duì)待分類資源進(jìn)行分類的步驟中,具體包括采用樸素貝葉斯分類方法和SimpleGood-Turing或Good-Turing平滑估值方法對(duì)所述待分類資源進(jìn)行分類。其中,所述后綴特征為所述待分類資源的名字集合內(nèi)的的文件擴(kuò)展名,所述前綴特征為所述待分類資源的名字集合中除去文件擴(kuò)展名的子串片段。其中,網(wǎng)絡(luò)資源在其存儲(chǔ)的計(jì)算機(jī)文件系統(tǒng)中以目錄名,資源名字集合包括其自身目錄名、其成員子目錄名及成員文件名。其中,網(wǎng)絡(luò)資源在其存儲(chǔ)的計(jì)算機(jī)文件系統(tǒng)中以單個(gè)文件存儲(chǔ),資源的名字集合3包括其自身的文件名與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有如下優(yōu)點(diǎn)本發(fā)明根據(jù)待分類資源的前綴特征和后綴特征對(duì)所述待分類資源進(jìn)行自動(dòng)分類,節(jié)省了大量人工勞動(dòng),提高了工作效率。圖1是本發(fā)明的一種網(wǎng)絡(luò)資源類別的自動(dòng)判定方法的流程圖。具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍?!?、特征的選擇(—)產(chǎn)生特征的屬性在對(duì)待分類資源進(jìn)行分類的過(guò)程中,好的類別判定結(jié)果來(lái)自特征和分類方法兩方面因素。特征是對(duì)實(shí)體的合理抽象,例如在普通文本分類中常用"重要"詞匯做為文檔的特征;在網(wǎng)絡(luò)資源分類中,本發(fā)明從名字、文件大小等屬性中挑選可以用作特征的屬性,并力求獲得對(duì)類別提示作用大的特征來(lái)達(dá)到好的分類效果。資源的內(nèi)部屬性有資源所對(duì)應(yīng)的名字集合、成員文件的大小、數(shù)量、成員子目錄的數(shù)量、層深等。本發(fā)明選擇資源的名字集合,用資源名、成員文件和子目錄名所構(gòu)成的文本集合,切分名字文本串形成特征來(lái)預(yù)測(cè)資源的主題類別。這樣做的理由包括(1)名字是各類資源共有的屬性,容易獲取又是文本型,處理方法成熟。(2)多數(shù)網(wǎng)絡(luò)資源的名字長(zhǎng)度已經(jīng)超出的純粹的"標(biāo)識(shí)"功能所需要的長(zhǎng)度,而是充當(dāng)了"表意"渠道,在互聯(lián)網(wǎng)傳播中被賦予用戶的見(jiàn)解,濃縮資源的概要信息。相對(duì)于網(wǎng)絡(luò)資源的內(nèi)容,名字更容易修改而且一目了然,便于后續(xù)使用者"望文知意"。因此,資源及其成員名字值得利用。(3)文件擴(kuò)展名雖然不能決定所屬資源的主題類別,但對(duì)指示類別有作用,例如一個(gè)后綴為Pdf文件更可能屬于文字類型而不是聲音類型的資源。(二)基本定義資源的名字集合經(jīng)過(guò)適當(dāng)切分形成的名字片段和文件擴(kuò)展名都叫特征,文件擴(kuò)展名就是"后綴特征",名字中其他子串片段叫"前綴特征"。1.資源表示r令ViR代表網(wǎng)絡(luò)資源集合,S代表R對(duì)應(yīng)的名字集合切分得到的片段,這里稱為前綴特征集合,E代表后綴特征集合。|S|=n,|E|二m。S和E都是特征。對(duì)Wei,不考慮資源內(nèi)部結(jié)構(gòu),可以將資源用名字特征表示為r:<Sl,...,Si,...Sn,ei,...ej,...em>,SiGS,ejGE,i<n,j<m。r屬于C中某類別Ck。2.類別集合"CategorySet)從CDAL(ChineseDigitalAssetsLibrary)分類體系中選取概念內(nèi)涵適中的12種類別,包括"音樂(lè)"、"歌曲"、"戲劇曲藝"、"聽(tīng)講聽(tīng)力"、"軟件"、"書(shū)"、"文章"、"學(xué)習(xí)資料"、"電影"、"電視"、"圖片"、"游戲"。CDAL是北京大學(xué)網(wǎng)絡(luò)與信息系統(tǒng)研究所通過(guò)搜集互聯(lián)網(wǎng)資源構(gòu)建的大型數(shù)字資源庫(kù)藏。為便于管理,借鑒不同內(nèi)容領(lǐng)域的國(guó)家分類標(biāo)準(zhǔn)(如圖書(shū)類資源)、行業(yè)標(biāo)準(zhǔn)(如軟件類資源)、流行分類體系(如影視類)等形成CDAL分類體系。3.資源頻度RF(ResourceFrequency)資源頻度RF是借用文檔頻度df的概念,例如資源r的特征出現(xiàn)在q個(gè)資源中,則特征的資源頻度RF二q。4.前綴特征切分為了簡(jiǎn)化問(wèn)題,我們采用兩種策略切分名字得到特征1)按照名字中出現(xiàn)的分隔符切分,記為segl;2)對(duì)上一步的結(jié)果再按照詞典切分,目的是把連寫(xiě)中文字串進(jìn)一步打散,記為seg2。雖然名字按照分隔符或詞典切分,可能導(dǎo)致一部分特征并非完全獨(dú)立,但是本發(fā)明基于"資源命名構(gòu)成松散"這樣的認(rèn)識(shí),假設(shè)上述切分得到的特征可視為條件獨(dú)立。后續(xù)還會(huì)比較上述兩種切分方法對(duì)精度的影響效果。本發(fā)明按照分隔符切分,這是為了獲取更多的特征數(shù)以滿足后續(xù)概率計(jì)算的需要,一個(gè)語(yǔ)義片段包含多個(gè)基本單元,以語(yǔ)義片段為特征雖然更好地保持相互獨(dú)立性,但數(shù)量和頻度過(guò)少,不利于概率計(jì)算準(zhǔn)確度。因此在選用基于概率分類方法的情況下,本發(fā)明采用segl、seg2這樣的切分方式獲得特征。(三)訓(xùn)練集和測(cè)試集按照類別集合C,從CDAL已分類樣本按4:1隨機(jī)采樣得到訓(xùn)練集和測(cè)試集,訓(xùn)練集12,496個(gè)資源,包含426,532個(gè)文件,測(cè)試集3137個(gè)資源,包含99,218個(gè)文件,表1說(shuō)明了各類別的先驗(yàn)概率。表1<table>tableseeoriginaldocumentpage5</column></row><table>(四)特征頻度分布狀況分析本發(fā)明考察稀疏、不均勻的特征分布狀況,為選擇平滑策略打基礎(chǔ)。以seg2切分訓(xùn)練樣本資源名字集合得到的特征為例,前綴特征集不同元素個(gè)數(shù)S|=154,226,其中RF=1的元素個(gè)的占所有前綴特征數(shù)的75.5%,也就是說(shuō)在前綴特征中,只有24.5%的特征在訓(xùn)練集的資源中出現(xiàn)頻度大于1;后綴特征集不同元素?cái)?shù)|E=2,626,RF=1的元素占所有后綴特征的55.2%。由此可以看出,資源名字集合產(chǎn)生的特征的分布統(tǒng)計(jì)規(guī)律是RF=1的特征占絕大多數(shù),雖然它們不一定能對(duì)類別起到什么提示作用,但是在這種RF=1的特征如此占優(yōu)的樣本集中,我們推測(cè)未觀測(cè)到的特征為RF=1的概率很大。因而可以假設(shè)設(shè)未觀測(cè)到特征的總體概率空間為P,有N個(gè)未觀測(cè)到的特征,它們均分特征空間P是合理的,即每個(gè)特征的估計(jì)概率為P/N。由上述分析,我們還得到一種認(rèn)識(shí)——好的平滑方法非常必要,因?yàn)檫M(jìn)行概率計(jì)算常用的最大似然估計(jì)(MLE)是頻度越高估算出的概率越準(zhǔn)確,而這個(gè)分布中的高頻特征不算很高,數(shù)量又極稀少,直接計(jì)算出的概率非常不準(zhǔn),而且會(huì)極大影響分類性能。二、分類方法及平滑策略(—)分類方法的選擇常用的分類方法有KNN(K-近鄰)、NaiveBayes(樸素貝葉斯)、SVM(支持向量機(jī))等。本發(fā)明采用NaiveBayes分類方法。NaiveBayes分類方法是一種基于概率統(tǒng)計(jì)理論的學(xué)習(xí)方法[D.D.LewisandM.Ringuette,〃Comparisonoftwolearningalgorithmfortextcategorization,〃presentedatProceedingsoftheThirdA皿imlSymposi咖onDocumentAnalysisandInformationRetrieval(SDAIR'94).1994.],利用貝葉斯公式預(yù)測(cè)一個(gè)樣本屬于任意類別的概率,并用最大后驗(yàn)概率值對(duì)應(yīng)的類別作為樣本的預(yù)測(cè)類別。NaiveBayes分類在兩種極端情況下效果最好,一是樣本的特征相互獨(dú)立,一是彼此存在函數(shù)依賴關(guān)系[D.D丄ewis,〃Naive(Bayes)atforty:Theind印endenceassumptionininformationretrieval,〃LectureNotesinComputerScience,vol.1398/1998,pp.4-15,1998.]。這種方法有簡(jiǎn)潔的理論基礎(chǔ),當(dāng)滿足特征獨(dú)立條件時(shí),分類精度較高。[C.v.d.WaltandE.Barnard,〃Datacharacteristicsthatdetermineclassifierperformance,〃presentedatSixteenthAnnualSymposiumofthePatternRecognitionAssociationofSouthAfrica,2006.]也比較了不同分類器在數(shù)據(jù)集上的性能,NaiveBayes分類器相對(duì)于KNN、SVM、MLP(多層感知器模型)來(lái)說(shuō),在無(wú)關(guān)數(shù)據(jù)集上錯(cuò)誤率最低。它還有一個(gè)優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單。但樸素貝葉斯在訓(xùn)練樣例較少的情況下,效果不如SVM和KNN這樣的非概率方法。在[Y.YangandX.Liu,〃Are-examinationoftextcategorizationmethods,〃inProceedingsofthe22nda皿imlinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.Berkeley,California,UnitedStates:ACM,1999,pp.42-49.]中提到,對(duì)文本分類而言,"訓(xùn)練樣例少"指少于10個(gè)。在本發(fā)明采集資源樣本集合時(shí),已經(jīng)過(guò)濾了這種樣本數(shù)過(guò)少的類別。NaiveBayes分類中,對(duì)Vre,具有最大后驗(yàn)概率P|r)的類別&GC就是r所屬的類別。P(Cjr)的計(jì)算如(公式1)、(公式2)所示,條件概率P(rlCi)可以由r的特征Sl,...,em出現(xiàn)在類別&中的頻度估算,類別的先驗(yàn)概率P(Ci)通過(guò)訓(xùn)練集中屬于類別Ci的資源數(shù)占總訓(xùn)練樣本的比例估算,見(jiàn)(公式3),資源r的概率P(r)可以通過(guò)資源特征在訓(xùn)練集中的出現(xiàn)頻度估算,不過(guò)P(r)對(duì)各類別都相同,所以計(jì)算中一般忽略。p(c/I。=pic0k尸(co尸(rico(公式dP(r|Ci)=P(sJC)..P(sJC)P(eJC)..P(eJC)P(C)(公式2)尸(③=C,巾陵源j((公式3)、;一訓(xùn)練集中所有資源數(shù)本發(fā)明選用NaiveBayes分類方法時(shí),使用的特征是按照segl、seg2方式對(duì)網(wǎng)絡(luò)資源名字切分產(chǎn)生的片段、以及文件的后綴。本發(fā)明構(gòu)建了不同的特征組,使用上述分類方法獲得結(jié)果,目的是為了比較并找到最適合本問(wèn)題的分類方案。由于前綴特征和后綴特征相對(duì)獨(dú)立,且后綴特征(也就是資源所包含文件的擴(kuò)展名)和其他特征更是互不依賴,滿足獨(dú)立性條件,因而這樣的特征適于NaiveBayes分類器。(二)平滑策略選擇好的平滑方法能使未觀測(cè)到的樣本取合理的概率值,既避免出現(xiàn)零概率導(dǎo)致分類無(wú)結(jié)果,又避免不合理的估值影響分類精度?!闱闆r下,估算概率常用的辦法是最大似然估計(jì)(MLE),它是選擇能使訓(xùn)練樣本取得最大概率值的分布作為總體的分布,當(dāng)樣本頻度越大MLE的估計(jì)越可靠,否則不然。而本問(wèn)題中,特征的分布極不均勻,有少數(shù)高頻出現(xiàn),絕大多數(shù)則是低頻,因此用MLE估算概率很不準(zhǔn)確。尤其是對(duì)于未觀測(cè)到的樣本,MLE估算其概率為O,事實(shí)上它們只是在當(dāng)前采樣集中沒(méi)有觀測(cè)到。以貝葉斯公式為例,要計(jì)算若干特征概率的連乘積,只要一個(gè)特征概率估算為0,整個(gè)結(jié)果為0,影響分類預(yù)測(cè)。因此估算概率通常要采用平滑,其目的是適當(dāng)減小在訓(xùn)練集中出現(xiàn)的特征的概率,分配給未觀測(cè)到的數(shù)據(jù)。本發(fā)明采用SimpleGood-Turing(SGT)平滑方法,Good-Turing平滑方法是I.G.Good和AlanTuring提出的一種概率估值算法,在1995年Gale和Sampson提出簡(jiǎn)化實(shí)現(xiàn)方法,稱為SimpleGood-Turing,并在自然語(yǔ)言處理中廣泛應(yīng)用。本發(fā)明采用Gale提供的工具包計(jì)算平滑結(jié)果。Good-Turing基本思想是用高頻觀測(cè)數(shù)據(jù)的概率估計(jì)低頻數(shù)據(jù)的概率,依次遞推,未觀測(cè)到數(shù)據(jù)(即在訓(xùn)練集中出現(xiàn)頻度為0)的概率空間由出現(xiàn)頻度為1的數(shù)據(jù)的概率空間估算出,見(jiàn)(公式4)4):產(chǎn)=("+1)^(公式4)公式4表示訓(xùn)練集中出現(xiàn)頻度為r+l的詞匯有個(gè),頻度為r的詞有~個(gè),估算在數(shù)據(jù)總體中出現(xiàn)的實(shí)際頻度為r*。用r。代表在訓(xùn)練集中出現(xiàn)0次的詞(即未觀測(cè)到的詞),這樣的詞有n。個(gè),S卩出現(xiàn)在測(cè)試數(shù)據(jù)中的那些未在訓(xùn)練數(shù)據(jù)觀測(cè)到的詞。設(shè)N是所有樣本的所有出現(xiàn)次數(shù),未觀測(cè)數(shù)據(jù)經(jīng)過(guò)平滑也由出現(xiàn)次數(shù)為0變?yōu)閞*,由(公式4)知,未觀測(cè)數(shù)據(jù)的總體概率空間為要進(jìn)一步估計(jì)單個(gè)未觀測(cè)數(shù)據(jù)概率P。,就需要結(jié)合數(shù)據(jù)分布情況。本發(fā)明根據(jù)絕大多數(shù)已觀測(cè)數(shù)據(jù)為RF=1的事實(shí),推斷"未觀測(cè)到的特征為RF=1的概率很大",也就是能認(rèn)為每個(gè)未觀測(cè)特征都同等概率出現(xiàn),可以用均分的方法得到單個(gè)未觀測(cè)值概率。那么,假設(shè)有M個(gè)未觀測(cè)到的特征,它們均分特征空間EP。,每個(gè)特征的估計(jì)概率為(EP。)/M。選擇了SGT或Good-Turing平滑方法,還需要說(shuō)明RF=1特征的作用。一般觀點(diǎn)認(rèn)為,這類稀有特征對(duì)分類沒(méi)有意義。采用了SGT(或Good-Turing)平滑方法之后,RF二1的特征意味著可以用來(lái)估算未觀測(cè)數(shù)據(jù)的概率,需要保留。需要說(shuō)明的是,SGT是在計(jì)算上對(duì)Good-Turing的簡(jiǎn)化,本實(shí)施例采用了SGT的計(jì)算程序,但本發(fā)明所述方法包括對(duì)Good-Turing平滑及其變種計(jì)算形式的使用。(三)評(píng)估指標(biāo)本發(fā)明用正確率AC(Accuracy)見(jiàn)(公式5),和綜合評(píng)價(jià)指標(biāo)Macro-f1見(jiàn)(公式6)。評(píng)估資源分類的效果,計(jì)算Macro-fl需要計(jì)算各類別的精度和召回率,見(jiàn)(公式7)、(公式8)。<formula>formulaseeoriginaldocumentpage8</formula>20^;.-正確預(yù)測(cè)為類別C,的測(cè)試樣本數(shù)卩^'測(cè)試集中類別C,的樣本數(shù)本發(fā)明的一種網(wǎng)絡(luò)資源類別的自動(dòng)判定方法的流程如圖1所示,首先獲取待分類資源的前綴特征和后綴特征,然后根據(jù)所述前綴特征和后綴特征對(duì)所述待分類資源進(jìn)行分類。參照?qǐng)Dl,本實(shí)施例包括以下步驟步驟slOl,對(duì)前綴特征進(jìn)行切分,所述前綴特征為所述待分類資源的名字中除去文件擴(kuò)展名的子串片段。本實(shí)施例首先按照所述待分類資源名字中出現(xiàn)的分隔符切分,然后對(duì)切分后的結(jié)果再按照詞典切分。步驟sl02,根據(jù)前綴特征和后綴特征,采用樸素貝葉斯分類方法和SimpleGood-Turing(或Good-Turing)平滑估值方法對(duì)所述待分類資源進(jìn)行分類,所述后綴特征為所述待分類資源的文件擴(kuò)展名。下面對(duì)本實(shí)施例進(jìn)行具體說(shuō)明1、切分方法、特征數(shù)量對(duì)性能的影響對(duì)資源實(shí)體中的所有名字(包括資源名、子目錄名和文件名)按segl方法,將其中出現(xiàn)的顯式分隔符號(hào)切分為名字文本串,并按seg2在上述基礎(chǔ)上用中科院計(jì)算所研制的漢語(yǔ)切詞軟件ICTCLAS[http:〃ictclas.org/]進(jìn)一步切分。這樣同一訓(xùn)練集產(chǎn)生2組不同的前綴特征集合,能夠統(tǒng)計(jì)出這些前綴特征在訓(xùn)練集中出現(xiàn)的所有資源頻度和Sum(RF),見(jiàn)表2:表2<table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table>首先討論對(duì)上述前綴特征,常用的特征選擇方法(如文檔頻度DF、信息增益IG和CHI統(tǒng)計(jì))是否奏效。特征選擇是指通過(guò)某種策略從特征集合中選出被認(rèn)為與類別有強(qiáng)烈關(guān)系的特征。特征選擇的目的是為了降低計(jì)算維度并提高分類精度。[Y.YangandJ.0.Pedersen,〃AComparativeStudyonFeatureSelectioninTextCategorization,〃presentedatProceedingsoftheFourteenthInternationalConferenceonMachineLearning(ICML'97),1997.]的實(shí)驗(yàn)表明IG、CHI這兩種特征選擇方法和DF為強(qiáng)正相關(guān)。鑒于此,本發(fā)明以DF作為篩選特征的指標(biāo)構(gòu)建不同的特征組訓(xùn)練分類模型,并從分類效果來(lái)評(píng)判特征選擇對(duì)本問(wèn)題分類精度的影響情況。在本問(wèn)題中,由于資源頻度RF與文檔頻度DF具有相同意義,本發(fā)明實(shí)際上按RF選前綴特征。共構(gòu)造7個(gè)特征組ext_only、snip08_seg2、snipl0_seg2、snipl0_ext_segl、snip08_ext_seg2禾口snipl0_ext_seg2、snipl0_ext_seg2_fsize。其中ext表示使用后綴特征,fsize表示使用文件大小特征;seg2表示基于seg2切分方法,snip08表示取前綴特征的數(shù)量為所有前綴累計(jì)頻度和的80%,snip10表示100%前綴特征。在同一種分類方法下,使用不同特征組訓(xùn)練參數(shù),得到的總體正確率AC如表3所示表3<table>tableseeoriginaldocumentpage9</column></row><table>下面的實(shí)驗(yàn)用來(lái)衡量4種情況下分類的總體正確率1)不同數(shù)量的RF=1特征;2)不同切分方法;3)只使用后綴;4)只使用前綴。對(duì)于1):如果snip08和sniplO對(duì)應(yīng)的分類準(zhǔn)確率相近,可以考慮拋棄20%的RF=1特征,以實(shí)現(xiàn)RF特征選擇。理由是根據(jù)前述以seg2切分得到的特征頻度分布實(shí)驗(yàn),發(fā)現(xiàn)RF>1的特征只占前綴特征總數(shù)的24.5%,但它們的頻度和占總的Sum(RF)的70%,而snip08代表80%的總體特征頻度和,也就是說(shuō)從snip08到sniplO所添加的都是RF=1的特征,因而snip08和sniplO對(duì)RF=1特征對(duì)分類效果的作用有對(duì)照意義。對(duì)于2):sniplO_ext_segl和snipl0_ext_seg2中正確率高的那組對(duì)應(yīng)的切分方法更可取。因?yàn)閮烧叩牟顒e僅在于切分方法,因而對(duì)切分方法的選擇有對(duì)照意義。對(duì)于3):對(duì)比ext_only和snip08、sniplO的分類準(zhǔn)確率,如果ext_only低于其他兩組,說(shuō)明擴(kuò)展名對(duì)資源分類的提示能力并不像想象的那么強(qiáng),好的分類結(jié)果是前綴、后綴綜合作用的結(jié)果。對(duì)于4):同樣是對(duì)比ext_only和snip08、sniplO,可以探討為什么僅僅用前綴這種包括大量RF=1低頻特征的數(shù)據(jù),也能獲得較高準(zhǔn)確率。從表3的結(jié)果,結(jié)合上述4個(gè)問(wèn)題我們分析得出如下結(jié)論(1)對(duì)RF=1這樣的稀有特征占優(yōu)勢(shì)的情況下,基于樸素貝葉斯和SGT平滑的分類問(wèn)題不需要進(jìn)行傳統(tǒng)的特征選擇。從snip08_seg2到snipl0_seg2加入的全部是RF=1的特征,分類正確率從69.2%上升至73.2%,同樣的情況也發(fā)生在Snip08_ext_Seg2和snipl0—ext—seg2,正確率分布為79.0%和79.8%。分類效果改善的主要原因可能是前綴數(shù)量對(duì)平滑結(jié)果的影響引起的,而不是因?yàn)檫@些RF=1的特征對(duì)類別有提示作用。(2)不同的切分方法影響分類效果,本問(wèn)題中seg2方法更好。sniplO_ext_segl和SniplO_ext_Seg2的正確率分別為76.1%和79.8%,這種改進(jìn)可能是由于依靠分隔符切分所得的基本單元中,有細(xì)微差異的相似文本串也被認(rèn)為是不同的片段,導(dǎo)致RF=1的特征所占比例被不合理地?cái)U(kuò)大了,而進(jìn)一步切詞之后,隨著詞匯數(shù)量的增多,RF=1和RF>1的特征比例得到改善。(3)僅僅用后綴特征不足以指導(dǎo)資源類別判斷,ext_0nly特征集訓(xùn)練出的分類器效果最差,正確率只有63.8%。這是由于資源中可能包括多種不同文件擴(kuò)展名,且擴(kuò)展名特征數(shù)量少,稀疏性較大,概率估算失真。(4)僅僅使用前綴特征正確率比僅使用后綴特征高,snip08比ext_0nly的正確率高將近9%;但總體還是結(jié)合前后綴特征的分類效果最好。Snip08_seg2到Snipl0_seg2和snip08_ext_seg2到snipl0_ext_seg2之間對(duì)比說(shuō)明了這一結(jié)論。需要說(shuō)明的是本實(shí)施例中按頻度和Sum(RF)選取前綴特征,也可以按單純的RF選取。本實(shí)施例這樣做是為了在實(shí)驗(yàn)中更明顯地比較RF二1的特征數(shù)量相差較多時(shí),分類效果的變化情況。以seg2切分為例,所得到RF>1的前綴特征數(shù)占總前綴數(shù)的24.5%,但是它們能夠貢獻(xiàn)的累計(jì)頻度和約占70%,構(gòu)造特征集合時(shí)(如Snip08_seg2),如果僅僅按照特征數(shù)量選取80%會(huì)引進(jìn)更多的RF=1的特征,從而不利于通過(guò)與sniplO_Seg2的對(duì)比,觀察到RF=1的特征在分類效果中所起的作用。本實(shí)施例表明樸素貝葉斯分類結(jié)合SGT(或Good-Turing)平滑估算概率,且同時(shí)使用所有前綴后綴特征是上述若干情況中對(duì)資源分類的最佳方案,其中前綴是基于seg2方式切分名字得到的。2、不同類別的精度由于先驗(yàn)概率分布不均等因素,各個(gè)類別的精度pi、召回率ri、和由此計(jì)算得到的fli值見(jiàn)表4,結(jié)果是基于特征集sniplO_eXt_Seg2得到的表410<table>tableseeoriginaldocumentpage11</column></row><table>表4中"序號(hào)"是各類別的編號(hào),其"類別"為對(duì)應(yīng)名稱,其余各列是Pi、ri和fli三者的值,fl是通過(guò)單值表現(xiàn)綜合分類性能的指標(biāo),它的計(jì)算見(jiàn)(公式6),不足之處是,該式給精度和召回率相同的權(quán)重,事實(shí)上在資源分類問(wèn)題中,精度比召回率更重要。表4中類別"戲劇曲藝"、"歌曲"、"軟件"、"電影"、"書(shū)籍"、"照片圖片"等類別的判斷精度在80%到87%,這些類的訓(xùn)練樣本資源數(shù)在1000到3000之間。類別"聽(tīng)講聽(tīng)力"、"文章"、"學(xué)習(xí)資料"的精度低于60%,一個(gè)原因是它們的樣本數(shù)少(均小于100),因此能提供的特征數(shù)也少。其他類別接近或高于70%。因此類別精度較低的一個(gè)原因和訓(xùn)練樣本數(shù)有關(guān)。從經(jīng)驗(yàn)上,我們還認(rèn)為和類別本身的特點(diǎn)有關(guān),比如"聽(tīng)講聽(tīng)力"從資源名稱上不容易與其他類別(如"文章"、"書(shū)籍")的資源區(qū)分開(kāi)。即使對(duì)訓(xùn)練樣本少的類別,本發(fā)明方法得到的分類精度也高于基準(zhǔn)值26.12%——由于分布不均勻,分類精度的下限是訓(xùn)練集中的先驗(yàn)概率最大值O.2612(見(jiàn)表1),也即是26.12%。即任給一個(gè)樣本,類別判對(duì)的最大可能為類別先驗(yàn)概率的最大值。比如拋擲重量不均勻的多面體色子,朝下的一面最有可能是重量最大的一面,一次拋擲相當(dāng)于對(duì)一個(gè)樣本的隨機(jī)分類,朝下的面是分類結(jié)果。因此本發(fā)明方法是有效的。"戲劇曲藝"、"歌曲"、"軟件"、"電影"、"書(shū)籍"、"照片圖片"等熱點(diǎn)資源占去了互聯(lián)11網(wǎng)上相當(dāng)大的份額,對(duì)這類資源,本發(fā)明所述方法能以80%到87%的分類判定精度自動(dòng)完成工作,無(wú)疑對(duì)網(wǎng)絡(luò)資源初步篩選和構(gòu)建有重要推動(dòng)作用,并大大減少人工勞動(dòng)。3、平滑對(duì)性能的影響根據(jù)本實(shí)施例的實(shí)驗(yàn),我們討論另一個(gè)影響精度的重要原因?qū)ξ从^測(cè)特征(即RF=0)的概率估算。本方法使用SGT(或Good-Turing)估算未觀測(cè)特征空間的總體概率,并分析大量未觀測(cè)前綴特征以等概率方式分配上述總體空間是合理的。為了驗(yàn)證這樣的想法,本實(shí)施例比較了snip08_seg2和snipl0_seg2兩個(gè)特征組中,各類別RF=0特征和RF=1特征的估算概率P。、P工的均值和標(biāo)準(zhǔn)差,記為Mean。8(PrP。)、Std。8(P「P。),和Me叫。(P「P。)、Std10(P「P。),見(jiàn)表5:表5特征組Mean08(P「P。)Std。8(P「P。)snip08—seg22.50X10—51.62X10—5snipl0_seg21.17X10—50.95X10—5類別i中計(jì)算Vi=(P「P。)i的方法為各類都有RF=1和RF=0的特征,用SGT能給出Pi和RF=0特征的總體概率EP。估算值,在前面實(shí)驗(yàn)中我們已經(jīng)說(shuō)明可通過(guò)均分未觀測(cè)概率空間的方式求出單個(gè)未觀測(cè)特征的概率PO。所以得到snip08—seg2和sniplO_seg2兩個(gè)特征集合所對(duì)應(yīng)的各類別概率差向量Vsnip。8seg2和Vsnipl。seg2,算出兩者的均值和標(biāo)準(zhǔn)差。表5中結(jié)果顯示分類效果較好的sniplO_Seg2組對(duì)應(yīng)的均值和標(biāo)準(zhǔn)差都較小。snip08_seg2和snipl0_seg2的唯一區(qū)別是后者增加了占S咖(RF)20X的稀有(RF=1)特征,是這些特征的引起了分類正確率提高。因此我們分析正確率提高的一個(gè)原因是引入RF=1的特征,對(duì)未觀測(cè)特征概率估算更加合理化。進(jìn)一步講也就是雖然那些特征未觀測(cè)到,但其頻度為RF=1的可能性很大,所以對(duì)P。、P工的概率估計(jì)差異過(guò)大是不合理的。我們?cè)谄渌M中也對(duì)比了這一數(shù)據(jù),表現(xiàn)出的精度提高和未見(jiàn)特征概率估計(jì)趨于合理真實(shí)是有關(guān)的,"合理"體現(xiàn)在P。和RF=1的概率P丄相近。本實(shí)施例的實(shí)驗(yàn)中還計(jì)算了向量Vsnip。8seg2和Vsnipl。seg2的協(xié)方差相關(guān)系數(shù)為0.87,說(shuō)明二者的結(jié)果是強(qiáng)相關(guān)的。在本發(fā)明中資源用其自身和成員的名字片段構(gòu)成的向量抽象表示,依據(jù)特征獨(dú)立性選擇了樸素貝葉斯分類方法,并在樣本稀疏、低頻特征占優(yōu)勢(shì)的情況下,選擇SGT(或Good-Turing)平滑。這種方案適合本問(wèn)題的情況,為構(gòu)建海量網(wǎng)絡(luò)資源庫(kù)藏的初期資源組織提供了快速、便捷的工具,在可接受正確率情況下,節(jié)省了大量人工勞動(dòng)。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。1權(quán)利要求一種網(wǎng)絡(luò)資源類別的自動(dòng)判定方法,其特征在于,所述方法包括以下步驟獲取待分類資源的名字的前綴特征和后綴特征;根據(jù)所述前綴特征和后綴特征對(duì)所述待分類資源進(jìn)行分類。2.如權(quán)利要求l所述的網(wǎng)絡(luò)資源類別的自動(dòng)判定方法,其特征在于,在所述獲取待分類資源的前綴特征和后綴特征的步驟中,包括對(duì)前綴特征進(jìn)行切分,具體為按照所述待分類資源名字中出現(xiàn)的分隔符切分。3.如權(quán)利要求2所述的網(wǎng)絡(luò)資源類別的自動(dòng)判定方法,其特征在于,在所述按照待分類資源名字中出現(xiàn)的分隔符切分之后,還包括對(duì)切分后的結(jié)果再按照詞典切分。4.如權(quán)利要求1至3任一項(xiàng)所述的網(wǎng)絡(luò)資源類別的自動(dòng)判定方法,其特征在于,在所述根據(jù)前綴特征和后綴特征對(duì)待分類資源進(jìn)行分類的步驟中,具體包括采用樸素貝葉斯分類方法和SimpleGood-Turing或Good-Turing平滑估值方法對(duì)所述待分類資源進(jìn)行分類。5.如權(quán)利要求l所述的網(wǎng)絡(luò)資源類別的自動(dòng)判定方法,其特征在于,所述后綴特征為所述待分類資源名字集合中的成員文件名的擴(kuò)展名部分,所述前綴特征為所述待分類資源名字集合內(nèi)的名字中除去文件擴(kuò)展名的子串片段。6.如權(quán)利要求5所述的網(wǎng)絡(luò)資源類別的自動(dòng)判定方法,其特征在于,網(wǎng)絡(luò)資源在其存儲(chǔ)的計(jì)算機(jī)文件系統(tǒng)中以目錄名,資源名字集合包括其自身目錄名、其成員子目錄名及成員文件名。7.如權(quán)利要求5所述的網(wǎng)絡(luò)資源類別的自動(dòng)判定方法,其特征在于,網(wǎng)絡(luò)資源在其存儲(chǔ)的計(jì)算機(jī)文件系統(tǒng)中以單個(gè)文件存儲(chǔ),資源的名字集合包括其自身的文件名。全文摘要本發(fā)明公開(kāi)了一種網(wǎng)絡(luò)資源類別的自動(dòng)判定方法,所述方法包括以下步驟獲取待分類資源的名字的前綴特征和后綴特征;根據(jù)所述前綴特征和后綴特征對(duì)所述待分類資源的主題內(nèi)容進(jìn)行分類。所述待分類資源是指在互聯(lián)網(wǎng)上傳播的各類音視頻、文字、圖片、軟件、游戲、源代碼、數(shù)據(jù)集、學(xué)習(xí)資料等。所述待分類資源通常包括自己的組成成員,并表達(dá)獨(dú)立的主題內(nèi)容,資源的原始組織狀態(tài)可能是無(wú)序或經(jīng)過(guò)分類整理的,但其分類角度并不一致。以統(tǒng)一的分類體系將這些資源組織在一起是構(gòu)建數(shù)字圖書(shū)館、互聯(lián)網(wǎng)資源庫(kù)藏、網(wǎng)絡(luò)教學(xué)素材庫(kù)等多種應(yīng)用的需要。本發(fā)明根據(jù)待分類資源的前綴特征和后綴特征對(duì)所述待分類資源進(jìn)行自動(dòng)分類,節(jié)省了大量人工勞動(dòng),提高了工作效率。文檔編號(hào)G06F17/30GK101788987SQ20091007687公開(kāi)日2010年7月28日申請(qǐng)日期2009年1月23日優(yōu)先權(quán)日2009年1月23日發(fā)明者李曉明,閆宏飛,陳翀申請(qǐng)人:北京大學(xué)