本申請(qǐng)涉及信息技術(shù)領(lǐng)域,尤其涉及一種信息特征提取方法。
背景技術(shù):
微博作為國(guó)內(nèi)最具人氣、影響范圍最廣、影響力度最大的產(chǎn)品,已經(jīng)成為人們?nèi)粘I畹闹匾缃黄脚_(tái)。不同于其他社交平臺(tái),微博還是重要的新聞消息發(fā)布平臺(tái)以及輿論平臺(tái)。隨著微博影響力的增大,一批“網(wǎng)絡(luò)水軍”在微博平臺(tái)上應(yīng)運(yùn)而生,威脅著網(wǎng)絡(luò)社交平臺(tái)的秩序。這類“網(wǎng)絡(luò)水軍”往往是指一批被公關(guān)公司操控的微博賬號(hào),也稱微博水軍,通過轉(zhuǎn)發(fā)、評(píng)論等手段傳播消息,引導(dǎo)社會(huì)輿論,常用于信息推廣、廣告宣傳以及危機(jī)公關(guān)處理等。
微博水軍跟正常水軍賬號(hào)一樣擁有著獨(dú)立的賬號(hào),獨(dú)立的用戶信息,并且跟正常用戶一樣會(huì)在微博平臺(tái)上發(fā)布、轉(zhuǎn)發(fā)、評(píng)論消息。隨著新浪微博加強(qiáng)對(duì)異常賬號(hào)的監(jiān)控,微博水軍為了逃避新浪微博的異常檢測(cè),已經(jīng)進(jìn)化得越來越像一個(gè)正常用戶了,水軍識(shí)別的問題更加艱難。
目前已有的關(guān)于微博水軍識(shí)別的研究中,對(duì)水軍識(shí)別的方法主要包括基于規(guī)則和基于機(jī)器學(xué)習(xí)的方法。早期的基于規(guī)則的方法是通過人工找出水軍賬號(hào)與正常賬號(hào)之間的分界標(biāo)準(zhǔn),但是這種基于規(guī)則的方法其分界的準(zhǔn)則一成不變,不適合用于識(shí)別不斷進(jìn)化的水軍賬號(hào)?;跈C(jī)器學(xué)習(xí)方法的水軍識(shí)別,其效果主要取決于特征的選取以及模型的選擇,其中能獲得較好效果的特征選取主要是從以下兩個(gè)方面進(jìn)行特征選取的:
(1)基于用戶關(guān)系圖的特征選取。這種基于用戶關(guān)系圖的特征選取需要通過用戶的關(guān)注用戶與粉絲用戶,建立起用戶關(guān)系圖來衡量目標(biāo)用戶在微博平臺(tái)上的交際情況。
(2)基于文本內(nèi)容的特性選取。這種基于文本內(nèi)容的特征選取主要是通過文本信息的重復(fù)度、文本情感分析等方面來提取特征。
以往的基于機(jī)器學(xué)習(xí)方法來進(jìn)行微博水軍識(shí)別的特征選取與處理主要有以下幾點(diǎn)不足:
(1)對(duì)于基于用戶關(guān)系的特征選取,需要建立起微博用戶關(guān)系群,從而建立起微博用戶的社交關(guān)系。這種特征獲取雖然能夠提高水軍識(shí)別的準(zhǔn)確率,但是這種需要花費(fèi)較大的空間存儲(chǔ)用戶并且消耗較多的時(shí)間從用戶關(guān)系圖中獲得用戶關(guān)系特征。
(2)對(duì)于文本信息內(nèi)容的獲取,主要是從文本內(nèi)容重復(fù)度以及文本內(nèi)容情感分析這兩個(gè)方面進(jìn)行的。對(duì)于文本重復(fù)度的特征選取需要建立起文本庫或者需要有在線搜索功能,這花費(fèi)的代價(jià)過大;對(duì)于文本內(nèi)容情感分析需要前期的情感學(xué)習(xí)與標(biāo)記,同樣需要花費(fèi)精力在建立詞庫與情感學(xué)習(xí)上,同時(shí)情感分析的準(zhǔn)確性不高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種信息特征提取方法,用以解決現(xiàn)有技術(shù)中用戶特征提取的準(zhǔn)確性不高的問題。
其具體的技術(shù)方案如下:
一種信息特征提取方法,所述方法包括:
根據(jù)用戶標(biāo)識(shí),獲取所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶屬性;
根據(jù)所述用戶標(biāo)識(shí),獲取所述用戶標(biāo)識(shí)對(duì)應(yīng)的微博內(nèi)容,并根據(jù)所述微博內(nèi)容確定對(duì)應(yīng)的用戶行為;
根據(jù)所述用戶屬性以及所述用戶行為,確定所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶屬性特征;
建立并存儲(chǔ)所述用戶屬性特征與類別標(biāo)簽之間的對(duì)應(yīng)關(guān)系。
可選的,根據(jù)用戶標(biāo)識(shí),獲取所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶屬性,具體包括:
根據(jù)所述用戶標(biāo)識(shí),至少獲取所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶等級(jí)、用戶認(rèn)證、粉絲比、簡(jiǎn)介信息;
將所述用戶等級(jí)、所述用戶認(rèn)證、粉絲比、簡(jiǎn)介信息作為所述用戶屬性。
可選的,根據(jù)所述用戶標(biāo)識(shí),獲取所述用戶標(biāo)識(shí)對(duì)應(yīng)的微博內(nèi)容,并根據(jù)所述微博內(nèi)容確定對(duì)應(yīng)的用戶行為,包括:
獲取所述微博內(nèi)容對(duì)應(yīng)的文本制定字符、文本內(nèi)容長(zhǎng)度、微博發(fā)布時(shí)間;
將所述文本制定字符、所述文本內(nèi)容長(zhǎng)度、微博發(fā)布時(shí)間作為所述用戶行為。
可選的,根據(jù)所述用戶屬性以及所述用戶行為,確定所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶屬性特征,包括:
將獲取到的用戶屬性中的各個(gè)參數(shù)于所述用戶行為中的各個(gè)參數(shù)組合,得到組合結(jié)果;
將所述組合結(jié)果作為所述用戶屬性特征。
可選的,在建立并存儲(chǔ)所述用戶屬性特征與類別標(biāo)簽之間的對(duì)應(yīng)關(guān)系之后,所述方法還包括:
獲取指定用戶標(biāo)識(shí),根據(jù)所述指定用戶標(biāo)識(shí)獲取對(duì)應(yīng)的指定用戶屬性特征;
根據(jù)所述用戶屬性特征與類別標(biāo)簽之間的對(duì)應(yīng)關(guān)系,確定所述指定用戶屬性特征對(duì)應(yīng)的類別標(biāo)簽。
上述技術(shù)方案至少具有如下技術(shù)效果:
(1)經(jīng)過采集真實(shí)微博數(shù)據(jù)進(jìn)行驗(yàn)證,結(jié)果表明所提出的特征選取與處理方法在機(jī)器學(xué)習(xí)分類器上獲得很高的水軍識(shí)別的準(zhǔn)確率。
(2)所提出的特征選取與處理方法主要是從用戶主頁上獲取信息,而且所獲取的特征對(duì)其他微博用戶的依賴性很低,因此能夠?qū)崿F(xiàn)實(shí)時(shí)的微博水軍識(shí)別。
附圖說明
圖1為本發(fā)明實(shí)施例中一種信息特征提取方法的流程圖。
具體實(shí)施方式
下面通過附圖以及具體實(shí)施例對(duì)本發(fā)明技術(shù)方案做詳細(xì)的說明,應(yīng)當(dāng)理解,本發(fā)明實(shí)施例以及實(shí)施例中的具體技術(shù)特征只是對(duì)本發(fā)明技術(shù)方案的說明,而不是限定,在不沖突的情況下,本發(fā)明實(shí)施例以及實(shí)施例中的具體技術(shù)特征可以相互組合。
如圖1所示為本發(fā)明實(shí)施例中一種信息特征提取方法的流程圖,該方法包括:
s101,根據(jù)用戶標(biāo)識(shí),獲取所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶屬性;
對(duì)于給定用戶的用戶標(biāo)識(shí),通過網(wǎng)絡(luò)爬蟲抓取微博主頁,并將微博主頁的內(nèi)容進(jìn)行解析,獲得該用戶主頁上用戶的屬性和所發(fā)微博的內(nèi)容。
s102,根據(jù)用戶標(biāo)識(shí),獲取用戶標(biāo)識(shí)對(duì)應(yīng)的微博內(nèi)容,并根據(jù)微博內(nèi)容確定對(duì)應(yīng)的用戶行為;
s103,根據(jù)用戶屬性以及用戶行為,確定用戶標(biāo)識(shí)對(duì)應(yīng)的用戶屬性特征;
s104,建立并存儲(chǔ)用戶屬性特征與類別標(biāo)簽之間的對(duì)應(yīng)關(guān)系。
基于步驟s101中的方法,可以獲取到用戶主頁,基于用戶主頁,獲取微博用戶屬性:用戶等級(jí)、粉絲比、用戶認(rèn)證和是否有簡(jiǎn)介。從微博用戶主頁上可以獲取用戶屬性,具體如下:
1、用戶等級(jí):由于用戶最高的等級(jí)是48級(jí),因此將真是用戶等級(jí)數(shù)除以48進(jìn)行歸一化。
2、粉絲比:在用戶主頁可以看到用戶的“粉絲”和“關(guān)注”,對(duì)應(yīng)的屬性值分別為粉絲數(shù)和關(guān)注數(shù),定義粉絲比為粉絲數(shù)與粉絲數(shù)和關(guān)注數(shù)之和的比。
3、用戶認(rèn)證:微博用戶認(rèn)證一般有“個(gè)人普通用戶”、“個(gè)人加v用戶”、“微博達(dá)人用戶”以及“企業(yè)用戶”。這里使用一個(gè)4維的向量特征來表示用戶認(rèn)證特征。
4、是否有簡(jiǎn)介:在用戶主頁可以看到用戶是否有簡(jiǎn)介,這里使用“1”和“0”分別表示有簡(jiǎn)介和無簡(jiǎn)介。
舉例來講,假設(shè)有1個(gè)微博用戶,其用戶等級(jí)為24級(jí),粉絲數(shù)為200,關(guān)注數(shù)為300,微博認(rèn)證為“個(gè)人普通用戶”,無簡(jiǎn)介,則進(jìn)行特征處理為:
(1)用戶等級(jí):24/48=0.5
(2)粉絲比:200/(200+300)=0.4
(3)用戶認(rèn)證:(1,0,0,0)
(4)是否有簡(jiǎn)介:0
因此對(duì)于該用戶,其用戶屬性的特征向量為(0.5,0.4,1,0,0,0,0)。
進(jìn)一步,除了獲取用戶屬性之外,還需要獲取用戶行為,該用戶行為具體為:用戶互動(dòng)、文本特殊字符、文本內(nèi)容長(zhǎng)度以及微博發(fā)布時(shí)間,該用戶行為處理如下:
1、用戶互動(dòng):獲取微博下轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊信息,使用“1”和“0”分別表示有相應(yīng)的行為和無相應(yīng)的行為。
2、文本特殊字符:獲取微博內(nèi)容包含的指定的特殊字符情況。本發(fā)明使用6種特殊字符,分別是“我”,“@”,“#”,“//@”,“網(wǎng)頁鏈接”,“秒拍視頻”。分別使用“1”和“0”表示有對(duì)應(yīng)的字符和無對(duì)應(yīng)的字符。
3、文本內(nèi)容長(zhǎng)度:對(duì)微博文本內(nèi)容進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)出總詞數(shù)、不重復(fù)詞數(shù)、非停用詞數(shù)以及非停用不重復(fù)詞數(shù)這4個(gè)特征。其中總詞數(shù)是所發(fā)文本內(nèi)容中包含的總詞數(shù),新浪微博平臺(tái)上每條文本微博最大的字?jǐn)?shù)為140個(gè)字,為了進(jìn)行歸一化,總詞數(shù)都除以140。不重復(fù)詞數(shù)則表示文本中不重復(fù)的詞數(shù)占總詞數(shù)的比例,非停用詞數(shù)表示不屬于停用詞的詞數(shù)占總詞數(shù)的比例,不重復(fù)非停用詞數(shù)則表示既不是重復(fù)詞又不是停用詞的詞數(shù)占總詞數(shù)的比例。
4、微博發(fā)布時(shí)間:提取微博發(fā)布時(shí)間包括發(fā)布時(shí)間點(diǎn)和發(fā)布在周幾這兩個(gè)特征,其中發(fā)布時(shí)間點(diǎn)則表示發(fā)布在一天內(nèi)的時(shí)間點(diǎn)。對(duì)這兩個(gè)特征需要先進(jìn)行離散化后進(jìn)行獨(dú)熱編碼,其中時(shí)間點(diǎn)的離散化過程以3個(gè)小時(shí)長(zhǎng)度作為間距。
舉例來講,假設(shè)該用戶發(fā)的最新的一條微博內(nèi)容為“我今天很開心。@朋友”,使用結(jié)巴分詞得到7個(gè)詞,其中沒有重復(fù)的詞,停用詞有兩個(gè)(“很”,“@”),而且這條微博的轉(zhuǎn)發(fā)數(shù)為0,評(píng)論數(shù)為5,點(diǎn)贊數(shù)為8,并且微博發(fā)布時(shí)間為2017年4月17日16時(shí)30分,則進(jìn)行特征處理為:
(1)用戶互動(dòng):(0,1,1)
(2)特殊字符:(1,1,0,0,0,0)
(3)文本長(zhǎng)度:(7/140,0/7,5/7,5/7)
(4)發(fā)布時(shí)間:
對(duì)于發(fā)布時(shí)間點(diǎn),以每3個(gè)小時(shí)為間距進(jìn)行離散化,如用“0”表示0~3時(shí),用“1”表示3~6時(shí),以此類推,16時(shí)30分用“5”表示。而對(duì)于發(fā)布在周幾,2017年4月17日是周一,我們可以用“0”來表示。因此發(fā)布時(shí)間可以表示為(5,0),對(duì)其進(jìn)行獨(dú)熱編碼后得到特征向量為(0,0,0,0,0,1,0,0,1,0,0,0,0,0,0),其中前8位是發(fā)布時(shí)間的獨(dú)熱編碼,后7位是發(fā)布在周幾的獨(dú)熱編碼表示。
因此,對(duì)于這條微博的行為特征向量為(0,1,1,1,1,0,0,0,0,0.05,0,0.714,0.714,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0)。這是一個(gè)28維的特征。
對(duì)于每個(gè)用戶按照以上方法獲取前10條微博的行為特征,因此每個(gè)用戶都能獲得28*10=280維的行為特征。
基于上述的方法,對(duì)每個(gè)微博用戶獲取280+7維的特征向量,作為特征輸入機(jī)械能分類器識(shí)別。
上述技術(shù)方案至少具有如下技術(shù)效果:
(1)經(jīng)過采集真實(shí)微博數(shù)據(jù)進(jìn)行驗(yàn)證,結(jié)果表明所提出的特征選取與處理方法在機(jī)器學(xué)習(xí)分類器上獲得很高的水軍識(shí)別的準(zhǔn)確率。
(2)所提出的特征選取與處理方法主要是從用戶主頁上獲取信息,而且所獲取的特征對(duì)其他微博用戶的依賴性很低,因此能夠?qū)崿F(xiàn)實(shí)時(shí)的微博水軍識(shí)別。
盡管已描述了本申請(qǐng)的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的普通技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本申請(qǐng)范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本申請(qǐng)進(jìn)行各種改動(dòng)和變型而不脫離本申請(qǐng)的精神和范圍。這樣,倘若本申請(qǐng)的這些修改和變型屬于本申請(qǐng)權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請(qǐng)也意圖包含這些改動(dòng)和變型在內(nèi)。