技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種爬蟲(chóng)數(shù)據(jù)源的處理方法及裝置,涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,解決了現(xiàn)有技術(shù)中無(wú)法對(duì)爬蟲(chóng)數(shù)據(jù)源準(zhǔn)確標(biāo)注標(biāo)簽的問(wèn)題。本發(fā)明的方法包括:從行業(yè)信息中獲取特征信息集合,所述特征信息集合通過(guò)自然語(yǔ)言處理技術(shù)對(duì)行業(yè)信息進(jìn)行統(tǒng)計(jì)處理后得到;利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源;統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息;根據(jù)統(tǒng)計(jì)結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。本發(fā)明主要使用自然語(yǔ)言處理技術(shù)對(duì)數(shù)據(jù)源標(biāo)注標(biāo)簽,使數(shù)據(jù)源能夠進(jìn)行更準(zhǔn)確的分類(lèi)。
技術(shù)研發(fā)人員:楊杰;袁園
受保護(hù)的技術(shù)使用者:北京國(guó)雙科技有限公司
技術(shù)研發(fā)日:2016.01.28
技術(shù)公布日:2017.08.04