本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及用于分類數(shù)據(jù)的方法和裝置。
背景技術(shù):
在處理上千億的文本數(shù)據(jù),為文本分類模型準(zhǔn)備質(zhì)量較高的訓(xùn)練數(shù)據(jù)時(shí),也即為無(wú)類別信息的用戶搜索query及點(diǎn)擊title這樣的原始數(shù)據(jù)設(shè)計(jì)學(xué)習(xí)方法時(shí),可以為其打上相應(yīng)的類別標(biāo)簽,再通過(guò)設(shè)計(jì)過(guò)濾方法及增補(bǔ)方法來(lái)保證各類樣本的純度及數(shù)量,從而為用戶畫像的興趣屬性分類問(wèn)題,挖掘訓(xùn)練樣本,也即對(duì)用于用戶畫像的數(shù)據(jù)進(jìn)行分類。
目前,對(duì)用于用戶畫像的數(shù)據(jù)進(jìn)行分類的方法,可以采用人工審查的方法,或者采用編制領(lǐng)域?qū)C~匯來(lái)匹配日志的方法,抓取或過(guò)濾出各類別的樣本。
然而,目前的這種對(duì)用于用戶畫像的數(shù)據(jù)進(jìn)行分類的方法,采用人工審查的方法的成本太大,而且不同的人,對(duì)類別的定義標(biāo)準(zhǔn)不穩(wěn)定;采用編制領(lǐng)域?qū)C~匯的方法,雖然由于數(shù)據(jù)量基數(shù)較大,可以在數(shù)量上得以保證,但在類別內(nèi)部的樣本多樣性上欠缺,并且指定專名的個(gè)數(shù)也較少,且不易更新。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)的目的在于提出一種改進(jìn)的用于分類數(shù)據(jù)的方法和裝置,來(lái)解決以上背景技術(shù)部分提到的技術(shù)問(wèn)題。
第一方面,本申請(qǐng)實(shí)施例提供了一種用于分類數(shù)據(jù)的方法,方法包括:采用各預(yù)定類別的初始過(guò)濾詞集合,過(guò)濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合;對(duì)原始樣本集合進(jìn)行分類處理,得到驗(yàn)證的準(zhǔn)確率滿足閾值的更新后的樣本集合;其中,分類處理包括:對(duì)原始樣本集合進(jìn)行過(guò)濾處理,得到更新后的樣本集合,對(duì)更新后的樣本集合進(jìn)行驗(yàn)證,得到驗(yàn)證的準(zhǔn)確率,響應(yīng)于驗(yàn)證的準(zhǔn)確率不滿足閾值,對(duì)原始樣本集合進(jìn)行分類處理直至準(zhǔn)確率滿足閾值。
在一些實(shí)施例中,對(duì)原始樣本集合進(jìn)行過(guò)濾處理,得到更新后的樣本集合包括:提取原始樣本集合的表征詞集合;對(duì)表征詞集合去噪,得到更新后的過(guò)濾詞集合;響應(yīng)于原始數(shù)據(jù)命中更新后的過(guò)濾詞集合的數(shù)量超過(guò)預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過(guò)濾詞集合相對(duì)應(yīng)的更新后的樣本集合。
在一些實(shí)施例中,對(duì)原始樣本集合進(jìn)行過(guò)濾處理,得到更新后的樣本集合包括:提取原始樣本集合的表征詞集合;對(duì)表征詞集合去噪,得到更新后的過(guò)濾詞集合;響應(yīng)于原始數(shù)據(jù)命中更新后的過(guò)濾詞集合的數(shù)量超過(guò)預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過(guò)濾詞集合相對(duì)應(yīng)的更新樣本集合;響應(yīng)于原始數(shù)據(jù)未命中更新后的過(guò)濾詞集合,將原始數(shù)據(jù)添加至其它類別的樣本集合;將更新樣本集合和其它類別的樣本集合,確定為更新后的樣本集合。
在一些實(shí)施例中,提取原始樣本集合的表征詞集合包括:采用以下一項(xiàng)或多項(xiàng)提取原始樣本集合的表征詞集合:文檔主題生成模型、文本關(guān)鍵詞提取算法以及詞頻-逆向文件頻率算法。
在一些實(shí)施例中,對(duì)表征詞集合去噪包括以下一項(xiàng)或多項(xiàng):對(duì)表征詞集合去停用詞;以及對(duì)表征詞集合去與本詞相關(guān)性低于預(yù)定閾值的詞。
在一些實(shí)施例中,對(duì)更新后的樣本集合進(jìn)行驗(yàn)證包括:對(duì)更新后的樣本集合進(jìn)行k折交叉驗(yàn)證;和/或?qū)Ω潞蟮臉颖炯线M(jìn)行隨機(jī)劃分訓(xùn)練集合與測(cè)試集合的驗(yàn)證。
在一些實(shí)施例中,方法還包括:將驗(yàn)證的準(zhǔn)確率滿足閾值的更新后的樣本集合確定為標(biāo)準(zhǔn)樣本集合;輸出標(biāo)準(zhǔn)樣本集合。
在一些實(shí)施例中,原始數(shù)據(jù)包括:用戶搜索查詢數(shù)據(jù)和/或用戶點(diǎn)擊標(biāo)題數(shù)據(jù)。
第二方面,本申請(qǐng)實(shí)施例提供了一種用于分類數(shù)據(jù)的裝置,裝置包括:初始過(guò)濾單元,用于采用各預(yù)定類別的初始過(guò)濾詞集合,過(guò)濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合;分類處理單元,用于對(duì)原始樣本集合進(jìn)行分類處理,得到驗(yàn)證的準(zhǔn)確率滿足閾值的更新后的樣本集合;其中,分類處理包括:對(duì)原始樣本集合進(jìn)行過(guò)濾處理,得到更新后的樣本集合,對(duì)更新后的樣本集合進(jìn)行驗(yàn)證,得到驗(yàn)證的準(zhǔn)確率,響應(yīng)于驗(yàn)證的準(zhǔn)確率不滿足閾值,對(duì)原始樣本集合進(jìn)行分類處理直至準(zhǔn)確率滿足閾值。
在一些實(shí)施例中,分類處理單元包括:第一表征詞提取單元,用于提取原始樣本集合的表征詞集合;第一表征詞去噪單元,用于對(duì)表征詞集合去噪,得到更新后的過(guò)濾詞集合;更新后樣本添加單元,用于響應(yīng)于原始數(shù)據(jù)命中更新后的過(guò)濾詞集合的數(shù)量超過(guò)預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過(guò)濾詞集合相對(duì)應(yīng)的更新后的樣本集合。
在一些實(shí)施例中,分類處理單元包括:第二表征詞提取單元,用于提取原始樣本集合的表征詞集合;第二表征詞去噪單元,用于對(duì)表征詞集合去噪,得到更新后的過(guò)濾詞集合;更新樣本確定單元,用于響應(yīng)于原始數(shù)據(jù)命中更新后的過(guò)濾詞集合的數(shù)量超過(guò)預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過(guò)濾詞集合相對(duì)應(yīng)的更新樣本集合;其它樣本確定單元,用于響應(yīng)于原始數(shù)據(jù)未命中更新后的過(guò)濾詞集合,將原始數(shù)據(jù)添加至其它類別的樣本集合;更新后樣本確定單元,用于將更新樣本集合和其它類別的樣本集合,確定為更新后的樣本集合。
在一些實(shí)施例中,第一表征詞提取單元和第二表征詞提取單元進(jìn)一步用于:采用以下一項(xiàng)或多項(xiàng)提取原始樣本集合的表征詞集合:文檔主題生成模型、文本關(guān)鍵詞提取算法以及詞頻-逆向文件頻率算法。
在一些實(shí)施例中,第一表征詞去噪單元和第二表征詞去噪單元進(jìn)一步用于以下一項(xiàng)或多項(xiàng):對(duì)表征詞集合去停用詞;以及對(duì)表征詞集合去與本詞相關(guān)性低于預(yù)定閾值的詞。
在一些實(shí)施例中,分類處理單元進(jìn)一步用于:對(duì)更新后的樣本集合進(jìn)行k折交叉驗(yàn)證;和/或?qū)Ω潞蟮臉颖炯线M(jìn)行隨機(jī)劃分訓(xùn)練集合與測(cè)試集合的驗(yàn)證。
在一些實(shí)施例中,裝置還包括:標(biāo)準(zhǔn)樣本確定單元,用于將驗(yàn)證的準(zhǔn)確率滿足閾值的更新后的樣本集合確定為標(biāo)準(zhǔn)樣本集合;標(biāo)準(zhǔn)樣本輸出單元,用于輸出標(biāo)準(zhǔn)樣本集合。
在一些實(shí)施例中,初始過(guò)濾單元中的原始數(shù)據(jù)包括:用戶搜索查詢數(shù)據(jù)和/或用戶點(diǎn)擊標(biāo)題數(shù)據(jù)。
第三方面,本申請(qǐng)實(shí)施例提供了一種設(shè)備,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序;當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行,使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上任意一項(xiàng)用于分類數(shù)據(jù)的方法。
第四方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上任意一項(xiàng)用于分類數(shù)據(jù)的方法。
本申請(qǐng)上述實(shí)施例提供的用于分類數(shù)據(jù)的方法和裝置,首先采用各預(yù)定類別的初始過(guò)濾詞集合,過(guò)濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合;對(duì)原始樣本集合進(jìn)行分類處理,得到驗(yàn)證的準(zhǔn)確率滿足閾值的更新后的樣本集合;其中,分類處理包括:對(duì)原始樣本集合進(jìn)行過(guò)濾處理,得到更新后的樣本集合,對(duì)更新后的樣本集合進(jìn)行驗(yàn)證,得到驗(yàn)證的準(zhǔn)確率,響應(yīng)于驗(yàn)證的準(zhǔn)確率不滿足閾值,對(duì)原始樣本集合進(jìn)行分類處理直至準(zhǔn)確率滿足閾值。上述實(shí)施例可以人工干預(yù)初始過(guò)濾詞集合,并對(duì)基于初始過(guò)濾詞集合得到的原始樣本集合提取表征詞,得到更新后的過(guò)濾詞集合,基于更新后的過(guò)濾詞集合得到更新后的樣本集合,并對(duì)驗(yàn)證的準(zhǔn)確率不滿足閾值的更新后的樣本集合進(jìn)行迭代,從而自動(dòng)的學(xué)習(xí)計(jì)算出準(zhǔn)確率滿足閾值的更新后的樣本集合,提高了更新后的樣本集合的準(zhǔn)確率,增強(qiáng)了對(duì)于未知樣本的分類能力,又由于類別內(nèi)部的樣本多樣性好,并且更新后的過(guò)濾詞集合可以迭代更新,因此分類數(shù)據(jù)所采用的過(guò)濾詞的個(gè)數(shù)較多且更新性良好。
附圖說(shuō)明
通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本申請(qǐng)的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
圖1是根據(jù)本申請(qǐng)的用于分類數(shù)據(jù)的方法的一個(gè)實(shí)施例的示意性流程圖;
圖2是根據(jù)本申請(qǐng)實(shí)施例的用于分類數(shù)據(jù)的方法的一個(gè)應(yīng)用場(chǎng)景的示例性流程圖;
圖3是根據(jù)本申請(qǐng)的用于分類數(shù)據(jù)的裝置的一個(gè)實(shí)施例的示例性結(jié)構(gòu)圖;
圖4是適于用來(lái)實(shí)現(xiàn)本申請(qǐng)實(shí)施例的終端設(shè)備或服務(wù)器的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本申請(qǐng)作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖牵颂幩枋龅木唧w實(shí)施例僅僅用于解釋相關(guān)發(fā)明,而非對(duì)該發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)。
圖1示出了根據(jù)本申請(qǐng)的用于分類數(shù)據(jù)的方法的一個(gè)實(shí)施例的流程100。該用于分類數(shù)據(jù)的方法包括:
在步驟110中,采用各預(yù)定類別的初始過(guò)濾詞集合,過(guò)濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合。
在本實(shí)施例中,每一個(gè)預(yù)定類別對(duì)應(yīng)一個(gè)初始過(guò)濾詞集合,該初始過(guò)濾詞集合中包括預(yù)定數(shù)量的初始過(guò)濾詞。原始數(shù)據(jù)是指未經(jīng)處理的用戶交互文檔數(shù)據(jù),例如用戶搜索查詢數(shù)據(jù)和/或用戶點(diǎn)擊標(biāo)題數(shù)據(jù)。在采用各預(yù)定類別的初始過(guò)濾詞集合過(guò)濾原始數(shù)據(jù)時(shí),可以判斷原始數(shù)據(jù)是否命中各預(yù)定類別的初始過(guò)濾詞,若原始數(shù)據(jù)命中某一預(yù)定類別的初始過(guò)濾詞,那么將該原始數(shù)據(jù)分類至這一預(yù)定類別。
示例性的,可以定義用戶的興趣類別作為預(yù)定類別,例如可以定義31個(gè)預(yù)定類別,包括汽車、餐飲美食、旅游出行等。可以為每個(gè)類別指定一定數(shù)量的初始過(guò)濾詞作為本類別區(qū)別于其它類別的標(biāo)識(shí),原始數(shù)據(jù)命中一個(gè)初始過(guò)濾詞,即可判定原始數(shù)據(jù)所屬類別。這里初始過(guò)濾詞的數(shù)量可以根據(jù)用戶需要設(shè)定,數(shù)量越多越好。例如可以設(shè)定為20個(gè),為旅游出行類可指定的初始過(guò)濾詞可以包括:自駕游,一日游,旅游攻略,xx潭,y國(guó)旅游,周邊游等。在采用初始過(guò)濾詞集合過(guò)濾原始數(shù)據(jù)時(shí),可以準(zhǔn)備海量(例如千億數(shù)量級(jí))用戶的搜索查詢(query)及點(diǎn)擊標(biāo)題(title)數(shù)據(jù)。在這批原始數(shù)據(jù)中用準(zhǔn)備好的31個(gè)類別的初始過(guò)濾詞集合過(guò)濾,并判斷為其所屬類別。即可得到帶標(biāo)簽的原始樣本集合。
在步驟120中,對(duì)原始樣本集合進(jìn)行分類處理,得到驗(yàn)證的準(zhǔn)確率滿足閾值的更新后的樣本集合。
在本實(shí)施例中,分類處理可以包括:對(duì)原始樣本集合進(jìn)行過(guò)濾處理,得到更新后的樣本集合,對(duì)更新后的樣本集合進(jìn)行驗(yàn)證,得到驗(yàn)證的準(zhǔn)確率,響應(yīng)于驗(yàn)證的準(zhǔn)確率不滿足閾值,對(duì)原始樣本集合進(jìn)行分類處理直至準(zhǔn)確率滿足閾值。
在對(duì)原始樣本集合進(jìn)行過(guò)濾處理,得到更新后的樣本集合時(shí),可以提取原始樣本集合的表征詞集合,對(duì)表征詞集合去噪,得到預(yù)設(shè)數(shù)量的更新后的過(guò)濾詞集合,并且響應(yīng)于原始數(shù)據(jù)命中更新后的過(guò)濾詞集合的數(shù)量超過(guò)預(yù)定數(shù)量,可以通過(guò)以下任意一種方式得到更新后的樣本集合:第一種,是直接將原始數(shù)據(jù)添加至與更新后的過(guò)濾詞集合相對(duì)應(yīng)的更新后的樣本集合;第二種,是將原始數(shù)據(jù)添加至與更新后的過(guò)濾詞集合相對(duì)應(yīng)的更新樣本集合,并且響應(yīng)于原始數(shù)據(jù)未命中更新后的過(guò)濾詞集合,將原始數(shù)據(jù)添加至其它類別的樣本集合,并將更新樣本集合和其它類別的樣本集合,確定為更新后的樣本集合。
在提取原始樣本集合的表征詞時(shí),可以采用一些提取文檔關(guān)鍵詞的算法來(lái)完成提取,例如,采用文檔主題生成模型(lda)、文本關(guān)鍵詞(textrank)提取算法、詞頻-逆文檔頻率算法(tf-idf)等,來(lái)提取原始樣本集合的表征詞集合。
例如,在原始樣本集合的樣本內(nèi),采用lda和textrank算法來(lái)計(jì)算本類別的帶權(quán)重的表征詞,從而可以用這些表征詞來(lái)代表該類別。對(duì)每個(gè)類別計(jì)算而得的表征詞進(jìn)行一些去噪操作,如去停用詞中及一些與本詞相關(guān)性不是很強(qiáng)的詞,從而得到預(yù)設(shè)數(shù)量的更新后的過(guò)濾詞集合,更新后的過(guò)濾詞集合會(huì)比初始過(guò)濾詞集合的數(shù)量多很多,但缺點(diǎn)在于不像初始過(guò)濾詞集合那樣可通過(guò)是否出現(xiàn)一個(gè)初始過(guò)濾詞集合中的詞即可判定是否原始數(shù)據(jù)所屬類別,這里需要設(shè)定一個(gè)預(yù)定數(shù)量n(n為大于0的整數(shù)),用更新后的過(guò)濾詞集合來(lái)過(guò)濾原始數(shù)據(jù),每條原始數(shù)據(jù)要出現(xiàn)至少n個(gè)更新后的過(guò)濾詞集合中的詞,才算命中,即可選中該原始數(shù)據(jù)作為更新后的過(guò)濾詞集合所代表的類別的所屬樣本,并基于此得到更新后的樣本集合。在這里,若原始數(shù)據(jù)未命中每個(gè)類別的更新后的過(guò)濾詞集合,即可認(rèn)為該原始數(shù)據(jù)為其它類別的樣本,得到其它類別的樣本集合。
在這里,驗(yàn)證的方法可以為對(duì)更新后的樣本集合的準(zhǔn)確率進(jìn)行驗(yàn)證的方法,例如,驗(yàn)證的方法可以為對(duì)更新后的樣本集合進(jìn)行k折交叉驗(yàn)證的方法,備選地或附加地,驗(yàn)證的方法可以為對(duì)更新后的樣本集合進(jìn)行隨機(jī)劃分訓(xùn)練集合與測(cè)試集合的驗(yàn)證的方法。
以k折交叉驗(yàn)證中的5折交叉驗(yàn)證為例,也即對(duì)于更新后的樣本集合,可以將其分為5份(每份包含20%的樣本),每次將其中的4份作為訓(xùn)練樣本,1份作為測(cè)試樣本做一次測(cè)試,直到5種訓(xùn)練樣本與測(cè)試樣本的排列均做了一次測(cè)試,并計(jì)算測(cè)試結(jié)果的平均值作為驗(yàn)證的準(zhǔn)確率。若準(zhǔn)確率達(dá)到要求,可完成無(wú)監(jiān)督的樣本學(xué)習(xí),若不滿足,則需要迭代上述的分類處理步驟至樣本類別收斂為止。
可選地,在步驟130中,可以將驗(yàn)證的準(zhǔn)確率滿足閾值的更新后的樣本集合確定為標(biāo)準(zhǔn)樣本集合。
可選地,對(duì)應(yīng)步驟130,在步驟140中,可以輸出標(biāo)準(zhǔn)樣本集合。
在本實(shí)施例中,在將驗(yàn)證的準(zhǔn)確率滿足閾值的更新后的樣本集合確定為標(biāo)準(zhǔn)樣本集合之后,可以輸出該標(biāo)準(zhǔn)樣本集合,以備后續(xù)的用戶畫像的興趣屬性分類使用。
本申請(qǐng)的上述實(shí)施例提供的用于分類數(shù)據(jù)的方法,可以人工干預(yù)類別初始詞,可以自動(dòng)的學(xué)習(xí)計(jì)算出更新后的過(guò)濾詞集合并且可以迭代進(jìn)行,可以人工設(shè)置各類別需要共現(xiàn)的詞匯的數(shù)量,準(zhǔn)確率滿足閾值的更新后的樣本集合的準(zhǔn)確度高,數(shù)據(jù)分類的準(zhǔn)確度較高,對(duì)于未知樣本的分類能力較好。又由于類別內(nèi)部的樣本多樣性好,并且更新后的過(guò)濾詞集合可以迭代更新,因此分類數(shù)據(jù)所采用的過(guò)濾詞的個(gè)數(shù)較多且更新性良好。
以下結(jié)合圖2,描述本申請(qǐng)實(shí)施例的用于分類數(shù)據(jù)的方法的示例性應(yīng)用場(chǎng)景。
如圖2所示,圖2示出了根據(jù)本申請(qǐng)實(shí)施例的用于分類數(shù)據(jù)的方法的一個(gè)應(yīng)用場(chǎng)景的示例性流程圖。
在圖2所示的流程圖中,包括以下步驟:
首先,對(duì)于原始數(shù)據(jù)201,采用初始過(guò)濾詞集合202進(jìn)行過(guò)濾,可以得到原始樣本集合203;
之后,對(duì)于原始樣本集合203,可以在步驟204中提取表征詞集合;
之后,可以在步驟205中對(duì)表征詞集合去噪,得到更新后的過(guò)濾詞集合206;
之后,可以在步驟207中采用更新后的過(guò)濾詞集合206對(duì)原始數(shù)據(jù)201進(jìn)行過(guò)濾,并判斷每條原始數(shù)據(jù)是否命中某類別的n個(gè)更新后的過(guò)濾詞,若是,則得到更新后的初始樣本集合208;
之后,可以在步驟209中,對(duì)初始樣本集合208中的詞去重,對(duì)于去重后的更新后的初始樣本集合,可以先將其作為更新樣本集合210,并在步驟211中,采用原始數(shù)據(jù)201對(duì)更新后的過(guò)濾詞集合206進(jìn)行反過(guò)濾;
之后,在步驟212中,若反過(guò)濾的結(jié)果為原始數(shù)據(jù)201未命中更新后的過(guò)濾詞集合206,將原始數(shù)據(jù)添加至其它樣本集合,并將更新樣本集合210以及其它樣本集合作為更新后的樣本集合213;
應(yīng)當(dāng)理解,作為經(jīng)由步驟210、211及212確定更新后的樣本集合213的備選方案,還可以直接將步驟209中去重后的更新后的初始樣本集合直接作為更新后的樣本集合213;
之后,在步驟214中,對(duì)更新后的樣本集合213進(jìn)行穩(wěn)定性測(cè)試,若穩(wěn)定性測(cè)試通過(guò),將更新后的樣本集合213作為標(biāo)準(zhǔn)測(cè)試集合,若穩(wěn)定性測(cè)試不通過(guò),則跳轉(zhuǎn)至執(zhí)行步驟204。
本申請(qǐng)的上述應(yīng)用場(chǎng)景中提供的用于分類數(shù)據(jù)的方法,可以基于主體觀點(diǎn)對(duì)提供評(píng)論內(nèi)容以及評(píng)論情感,可以人工干預(yù)初始過(guò)濾詞,并對(duì)準(zhǔn)確率不滿足閾值的更新后的樣本集合進(jìn)行迭代過(guò)濾,并且可以人工設(shè)置迭代過(guò)濾時(shí)各類別需要共現(xiàn)的詞匯的數(shù)量,從而可以自動(dòng)的學(xué)習(xí)計(jì)算出準(zhǔn)確率滿足閾值的更新后的樣本集合,提高了更新后的樣本集合的準(zhǔn)確率,并且增強(qiáng)了對(duì)于未知樣本的分類能力。又由于類別內(nèi)部的樣本多樣性好,并且更新后的過(guò)濾詞集合可以迭代更新,因此分類數(shù)據(jù)所采用的過(guò)濾詞的個(gè)數(shù)較多且更新性良好。
進(jìn)一步參考圖3,作為對(duì)上述方法的實(shí)現(xiàn),本申請(qǐng)實(shí)施例提供了一種用于分類數(shù)據(jù)的裝置的一個(gè)實(shí)施例,該用于分類數(shù)據(jù)的方法的實(shí)施例與圖1至圖2所示的用于分類數(shù)據(jù)的方法的實(shí)施例相對(duì)應(yīng),由此,上文針對(duì)圖1至圖2中用于分類數(shù)據(jù)的方法描述的操作和特征同樣適用于用于分類數(shù)據(jù)的裝置300及其中包含的單元,在此不再贅述。
如圖3所示,該配置用于分類數(shù)據(jù)的裝置300包括:初始過(guò)濾單元310,用于采用各預(yù)定類別的初始過(guò)濾詞集合,過(guò)濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合;分類處理單元320,用于對(duì)原始樣本集合進(jìn)行分類處理,得到驗(yàn)證的準(zhǔn)確率滿足閾值的更新后的樣本集合;其中,分類處理包括:對(duì)原始樣本集合進(jìn)行過(guò)濾處理,得到更新后的樣本集合,對(duì)更新后的樣本集合進(jìn)行驗(yàn)證,得到驗(yàn)證的準(zhǔn)確率,響應(yīng)于驗(yàn)證的準(zhǔn)確率不滿足閾值,對(duì)原始樣本集合進(jìn)行分類處理直至準(zhǔn)確率滿足閾值。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中(圖中未示出),分類處理單元310包括:第一表征詞提取單元,用于提取原始樣本集合的表征詞集合;第一表征詞去噪單元,用于對(duì)表征詞集合去噪,得到更新后的過(guò)濾詞集合;更新后樣本添加單元,用于響應(yīng)于原始數(shù)據(jù)命中更新后的過(guò)濾詞集合的數(shù)量超過(guò)預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過(guò)濾詞集合相對(duì)應(yīng)的更新后的樣本集合。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中(圖中未示出),分類處理單元310包括:第二表征詞提取單元,用于提取原始樣本集合的表征詞集合;第二表征詞去噪單元,用于對(duì)表征詞集合去噪,得到更新后的過(guò)濾詞集合;更新樣本確定單元,用于響應(yīng)于原始數(shù)據(jù)命中更新后的過(guò)濾詞集合的數(shù)量超過(guò)預(yù)定數(shù)量,將原始數(shù)據(jù)添加至與更新后的過(guò)濾詞集合相對(duì)應(yīng)的更新樣本集合;其它樣本確定單元,用于響應(yīng)于原始數(shù)據(jù)未命中更新后的過(guò)濾詞集合,將原始數(shù)據(jù)添加至其它類別的樣本集合;更新后樣本確定單元,用于將更新樣本集合和其它類別的樣本集合,確定為更新后的樣本集合。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,第一表征詞提取單元和第二表征詞提取單元進(jìn)一步用于:采用以下一項(xiàng)或多項(xiàng)提取原始樣本集合的表征詞集合:文檔主題生成模型、文本關(guān)鍵詞提取算法以及詞頻-逆向文件頻率算法。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,第一表征詞去噪單元和第二表征詞去噪單元進(jìn)一步用于以下一項(xiàng)或多項(xiàng):對(duì)表征詞集合去停用詞;以及對(duì)表征詞集合去與本詞相關(guān)性低于預(yù)定閾值的詞。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,分類處理單元進(jìn)一步用于:對(duì)更新后的樣本集合進(jìn)行k折交叉驗(yàn)證;和/或?qū)Ω潞蟮臉颖炯线M(jìn)行隨機(jī)劃分訓(xùn)練集合與測(cè)試集合的驗(yàn)證。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,裝置還包括:標(biāo)準(zhǔn)樣本確定單元330,用于將驗(yàn)證的準(zhǔn)確率滿足閾值的更新后的樣本集合確定為標(biāo)準(zhǔn)樣本集合;標(biāo)準(zhǔn)樣本輸出單元340,用于輸出標(biāo)準(zhǔn)樣本集合。
在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,初始過(guò)濾單元中的原始數(shù)據(jù)包括:用戶搜索查詢數(shù)據(jù)和/或用戶點(diǎn)擊標(biāo)題數(shù)據(jù)。
在本申請(qǐng)的上述實(shí)施例中,第一表征詞提取單元和第二表征詞提取單元僅代表在兩個(gè)不同的實(shí)現(xiàn)方式中的表征詞提取單元,這兩個(gè)表征詞提取單元所作的操作以及提取的內(nèi)容相同。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,其中的第一或第二并不構(gòu)成對(duì)表征詞提取單元的特殊限定。
同理,在在本申請(qǐng)的上述實(shí)施例中,第一表征詞去噪單元和第二表征詞去噪單元僅代表在兩個(gè)不同的實(shí)現(xiàn)方式中的表征詞去噪單元,這兩個(gè)表征詞去噪單元所完成的操作以及得到的更新后的過(guò)濾詞集合相同。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,其中的第一或第二并不構(gòu)成對(duì)表征詞去噪單元的特殊限定。
本申請(qǐng)還提供了一種設(shè)備的實(shí)施例,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序;當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行,使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上任意一項(xiàng)所述的用于分類數(shù)據(jù)的方法。
本申請(qǐng)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的實(shí)施例,其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上任意一項(xiàng)所述的用于分類數(shù)據(jù)的方法。
下面參考圖4,其示出了適于用來(lái)實(shí)現(xiàn)本申請(qǐng)實(shí)施例的終端設(shè)備或服務(wù)器的計(jì)算機(jī)系統(tǒng)400的結(jié)構(gòu)示意圖。圖4示出的終端設(shè)備僅僅是一個(gè)示例,不應(yīng)對(duì)本申請(qǐng)實(shí)施例的功能和使用范圍帶來(lái)任何限制。
如圖4所示,計(jì)算機(jī)系統(tǒng)400包括中央處理單元(cpu)401,其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(rom)402中的程序或者從存儲(chǔ)部分408加載到隨機(jī)訪問(wèn)存儲(chǔ)器(ram)403中的程序而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在ram403中,還存儲(chǔ)有系統(tǒng)400操作所需的各種程序和數(shù)據(jù)。cpu401、rom402以及ram403通過(guò)總線404彼此相連。輸入/輸出(i/o)接口405也連接至總線404。
以下部件連接至i/o接口405:包括鍵盤、鼠標(biāo)等的輸入部分406;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出部分407;包括硬盤等的存儲(chǔ)部分408;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分409。通信部分409經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器410也根據(jù)需要連接至i/o接口405??刹鹦督橘|(zhì)411,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等,根據(jù)需要安裝在驅(qū)動(dòng)器410上,以便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)部分408。
特別地,根據(jù)本公開(kāi)的實(shí)施例,上文參考流程圖描述的過(guò)程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序。例如,本公開(kāi)的實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括承載在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過(guò)通信部分409從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)411被安裝。在該計(jì)算機(jī)程序被中央處理單元(cpu)401執(zhí)行時(shí),執(zhí)行本申請(qǐng)的方法中限定的上述功能。
需要說(shuō)明的是,本申請(qǐng)所述的計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)或者是上述兩者的任意組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子可以包括但不限于:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)訪問(wèn)存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本申請(qǐng)中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請(qǐng)中,計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無(wú)線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本申請(qǐng)各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)單元、程序段、或代碼的一部分,所述單元、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。
描述于本申請(qǐng)實(shí)施例中所涉及到的單元可以通過(guò)軟件的方式實(shí)現(xiàn),也可以通過(guò)硬件的方式來(lái)實(shí)現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括初始過(guò)濾單元和分類處理單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對(duì)該單元本身的限定,例如,初始過(guò)濾單元還可以被描述為“采用各預(yù)定類別的初始過(guò)濾詞集合,過(guò)濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合的單元”。
作為另一方面,本申請(qǐng)還提供了一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì),該非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是上述實(shí)施例中所述裝置中所包含的非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì);也可以是單獨(dú)存在,未裝配入終端中的非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。上述非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,當(dāng)所述一個(gè)或者多個(gè)程序被一個(gè)設(shè)備執(zhí)行時(shí),使得所述設(shè)備:采用各預(yù)定類別的初始過(guò)濾詞集合,過(guò)濾原始數(shù)據(jù),得到各預(yù)定類別的原始樣本集合;對(duì)原始樣本集合進(jìn)行分類處理,得到驗(yàn)證的準(zhǔn)確率滿足閾值的更新后的樣本集合。
以上描述僅為本申請(qǐng)的較佳實(shí)施例以及對(duì)所運(yùn)用技術(shù)原理的說(shuō)明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本申請(qǐng)中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時(shí)也應(yīng)涵蓋在不脫離上述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進(jìn)行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請(qǐng)中公開(kāi)的(但不限于)具有類似功能的技術(shù)特征進(jìn)行互相替換而形成的技術(shù)方案。