本發(fā)明涉及一種興趣識(shí)別方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的迅猛發(fā)展及普及,互聯(lián)網(wǎng)用戶的使用習(xí)慣已從最初的自己尋找內(nèi)容轉(zhuǎn)變?yōu)橐蕾嚪?wù)方給予的內(nèi)容推送,因此精確地了解每個(gè)用戶興趣點(diǎn),能有效幫助服務(wù)方提供個(gè)性化的服務(wù),提高用戶的使用體驗(yàn)。
現(xiàn)有的用戶興趣識(shí)別主要有以下幾種方式:
1. 通過(guò)用戶及其他用戶的描述;
2. 通過(guò)用戶的瀏覽交互行為,人為定義;
3. 通過(guò)對(duì)用戶訪問(wèn)內(nèi)容預(yù)設(shè)標(biāo)簽,統(tǒng)計(jì)得出。
上述幾種方式存在以下的缺陷:
1. 興趣標(biāo)簽的不規(guī)范,當(dāng)將設(shè)定興趣的權(quán)利給予用戶時(shí),用戶對(duì)于同一件事物的描述往往不盡相同,導(dǎo)致大量相同的標(biāo)簽被異化,加大識(shí)別難度并影響精度;
2. 同語(yǔ)義或相近語(yǔ)義標(biāo)簽無(wú)法歸并,降低了興趣識(shí)別的精準(zhǔn)度;
3. 網(wǎng)絡(luò)爬蟲(chóng)、水軍等非正常訪問(wèn)用戶會(huì)對(duì)識(shí)別造成干擾;
4. 用戶的興趣是變化的,系統(tǒng)對(duì)于陳舊數(shù)據(jù)無(wú)法做到合理濾除,導(dǎo)致識(shí)別精度下降;
5. 隨著各年齡段的用戶涌入,同樣的內(nèi)容對(duì)于不同年齡段的用戶的意義是不同的,系統(tǒng)無(wú)法結(jié)合人口基本屬性進(jìn)行識(shí)別。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種興趣識(shí)別方法及系統(tǒng),能夠幫助提升對(duì)于內(nèi)容的搜索及推薦的精準(zhǔn)度。
為解決上述問(wèn)題,本發(fā)明提供一種興趣識(shí)別方法,包括:
收集文本內(nèi)容和結(jié)構(gòu)化數(shù)據(jù),對(duì)所述文本內(nèi)容進(jìn)行處理,得到非結(jié)構(gòu)化的帶順序的詞組集合;
對(duì)所述非結(jié)構(gòu)化的帶順序的詞組集合和/或結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語(yǔ)義實(shí)體的抽取、文本實(shí)體的抽取、語(yǔ)義實(shí)體間關(guān)系的抽取、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系的抽??;
對(duì)抽取到的語(yǔ)義實(shí)體、語(yǔ)義實(shí)體間關(guān)系、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系進(jìn)行語(yǔ)義實(shí)體的歸并;
將歸并后的抽取到的語(yǔ)義實(shí)體、語(yǔ)義實(shí)體間關(guān)系、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系形成知識(shí)圖譜;
根據(jù)所述知識(shí)圖譜,將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問(wèn)行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體關(guān)聯(lián)到對(duì)應(yīng)的語(yǔ)義實(shí)體,通過(guò)統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問(wèn)時(shí)是否有側(cè)重的語(yǔ)義實(shí)體;
若有,將所述側(cè)重的語(yǔ)義實(shí)體作為該用戶的興趣標(biāo)簽。
進(jìn)一步的,在上述方法中,將所述側(cè)重的語(yǔ)義實(shí)體作為該用戶的興趣標(biāo)簽,包括:
獲取用戶的基本標(biāo)簽,將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類(lèi)別的分組標(biāo)簽;
將所述側(cè)重的語(yǔ)義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。
進(jìn)一步的,在上述方法中,所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi)。
進(jìn)一步的,在上述方法中,通過(guò)統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問(wèn)時(shí)是否有側(cè)重的語(yǔ)義實(shí)體之后,還包括:
若無(wú),判斷用戶是否訪問(wèn)量過(guò)高,若是,判斷該用戶可能是爬蟲(chóng)。
進(jìn)一步的,在上述方法中,通過(guò)統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問(wèn)時(shí)是否有側(cè)重的語(yǔ)義實(shí)體之后,還包括:
判斷用戶訪問(wèn)的語(yǔ)義實(shí)體是否相悖,且互動(dòng)量較高,若是,則判斷該用戶是水軍。
進(jìn)一步的,在上述方法中,將所述側(cè)重的語(yǔ)義實(shí)體作為該用戶的興趣標(biāo)簽之后,還包括根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。
進(jìn)一步的,在上述方法中,對(duì)所述文本內(nèi)容進(jìn)行處理,包括:
對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。
進(jìn)一步的,在上述方法中,對(duì)所述文本內(nèi)容進(jìn)行分詞包括:
對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類(lèi)的隱馬分詞。
進(jìn)一步的,在上述方法中,所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。
進(jìn)一步的,在上述方法中,所述基于類(lèi)的隱馬分詞之后還包括進(jìn)行詞性標(biāo)注。
進(jìn)一步的,在上述方法中,未登錄詞識(shí)別之后,還包括將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。
進(jìn)一步的,在上述方法中,嵌套未登錄詞識(shí)別之后,還包括將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。
根據(jù)本發(fā)明的另一面,提供一種興趣識(shí)別系統(tǒng),包括:
收集處理模塊,用于收集文本內(nèi)容和結(jié)構(gòu)化數(shù)據(jù),對(duì)所述文本內(nèi)容進(jìn)行處理,得到非結(jié)構(gòu)化的帶順序的詞組集合;
抽取模塊,用于對(duì)所述非結(jié)構(gòu)化的帶順序的詞組集合和/或結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語(yǔ)義實(shí)體的抽取、文本實(shí)體的抽取、語(yǔ)義實(shí)體間關(guān)系的抽取、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系的抽?。?/p>
歸并模塊,用于對(duì)抽取到的語(yǔ)義實(shí)體、語(yǔ)義實(shí)體間關(guān)系、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系進(jìn)行語(yǔ)義實(shí)體的歸并;
知識(shí)圖譜形成模塊,用于將歸并后的抽取到的語(yǔ)義實(shí)體、語(yǔ)義實(shí)體間關(guān)系、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系形成知識(shí)圖譜;
第一判斷模塊,用于根據(jù)所述知識(shí)圖譜,將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問(wèn)行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體關(guān)聯(lián)到對(duì)應(yīng)的語(yǔ)義實(shí)體,通過(guò)統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問(wèn)時(shí)是否有側(cè)重的語(yǔ)義實(shí)體;
興趣標(biāo)簽?zāi)K,用于若有所述側(cè)重的語(yǔ)義實(shí)體,將所述側(cè)重的語(yǔ)義實(shí)體作為該用戶的興趣標(biāo)簽。
進(jìn)一步的,在上述系統(tǒng)中,所述興趣標(biāo)簽?zāi)K,用于獲取用戶的基本標(biāo)簽,將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類(lèi)別的分組標(biāo)簽;將所述側(cè)重的語(yǔ)義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。
進(jìn)一步的,在上述系統(tǒng)中,所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi)。
進(jìn)一步的,在上述系統(tǒng)中,還包括:
第二判斷模塊,用于若無(wú)側(cè)重的語(yǔ)義實(shí)體,判斷用戶是否訪問(wèn)量過(guò)高,若是,判斷該用戶可能是爬蟲(chóng)。
進(jìn)一步的,在上述系統(tǒng)中,還包括:
第三判斷模塊,用于若無(wú)側(cè)重的語(yǔ)義實(shí)體,判斷用戶訪問(wèn)的語(yǔ)義實(shí)體是否相悖,且互動(dòng)量較高,若是,則判斷該用戶是水軍。
進(jìn)一步的,在上述系統(tǒng)中,還包括推薦模塊,用于根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。
進(jìn)一步的,在上述系統(tǒng)中,所述收集處理模塊,用于對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。
進(jìn)一步的,在上述系統(tǒng)中,所述收集處理模塊,用于對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類(lèi)的隱馬分詞。
進(jìn)一步的,在上述系統(tǒng)中,所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。
進(jìn)一步的,在上述系統(tǒng)中,所述收集處理模塊,用于在所述基于類(lèi)的隱馬分詞之后進(jìn)行詞性標(biāo)注。
進(jìn)一步的,在上述系統(tǒng)中,所述收集處理模塊,用于在未登錄詞識(shí)別之后,將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。
進(jìn)一步的,在上述系統(tǒng)中,所述收集處理模塊,用于在嵌套未登錄詞識(shí)別之后,將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。
與現(xiàn)有技術(shù)相比,本發(fā)明使用用戶瀏覽的文本內(nèi)容構(gòu)建知識(shí)圖譜,并從中抽取用戶興趣點(diǎn),能夠幫助提升對(duì)于內(nèi)容的搜索及推薦的精準(zhǔn)度。
附圖說(shuō)明
圖1是本發(fā)明一實(shí)施例的興趣識(shí)別方法的原理示意圖;
圖2是本發(fā)明一實(shí)施例的知識(shí)圖譜構(gòu)建的原理圖;
圖3是本發(fā)明一實(shí)施例的對(duì)文本內(nèi)容進(jìn)行分詞的原理圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
實(shí)施例一
如圖1和2所示,本發(fā)明提供一種興趣識(shí)別方法,包括:
步驟S1,收集文本內(nèi)容和結(jié)構(gòu)化數(shù)據(jù),對(duì)所述文本內(nèi)容進(jìn)行處理,得到非結(jié)構(gòu)化的帶順序的詞組集合;具體的,所述文本內(nèi)容為用戶瀏覽的文本內(nèi)容;
步驟S2,對(duì)所述非結(jié)構(gòu)化的帶順序的詞組集合和/或結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語(yǔ)義實(shí)體的抽取、文本實(shí)體的抽取、語(yǔ)義實(shí)體間關(guān)系的抽取、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系的抽取;具體的,名詞、人名、機(jī)構(gòu)名是天然的語(yǔ)義實(shí)體,每一篇新聞、每一個(gè)帖子則是一個(gè)文本實(shí)體,如果對(duì)非結(jié)構(gòu)化的帶順序的詞組集合進(jìn)行語(yǔ)義實(shí)體間的關(guān)系抽取,比如:在大量的文本中,科比/nr 和 瓦妮莎/nr 這兩個(gè)人名同時(shí)出現(xiàn),并且另外兩個(gè)詞 丈夫/n和妻子/n共現(xiàn)的概率也較高,因此可以判斷“科比”這個(gè)實(shí)體和“瓦妮莎”這個(gè)實(shí)體的關(guān)系是夫妻關(guān)系;如果對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語(yǔ)義實(shí)體間的關(guān)系抽取,比如:已知 湖人/nt 這個(gè)實(shí)體在NBA球隊(duì)表中,因此這個(gè)詞的其中一個(gè)屬性為“NBA球隊(duì)”,科比/nr 這個(gè)詞在NBA球員表中,因此這個(gè)詞其中一個(gè)屬性為“NBA球員”。而在業(yè)務(wù)數(shù)據(jù)庫(kù)中兩個(gè)詞在關(guān)系型數(shù)據(jù)庫(kù)中是關(guān)聯(lián)的(“科比”這條記錄的球隊(duì)ID對(duì)應(yīng)是“湖人”),因此可以知道 科比/nr 和 湖人/nt 之前的關(guān)系是“效力于”,即:“科比”->“效力于”->“湖人”;詳細(xì)的,文本實(shí)體與語(yǔ)義實(shí)體間的關(guān)系抽取,具體如下:
先將每個(gè)文本實(shí)體與它內(nèi)容中的每個(gè)語(yǔ)義實(shí)體建立關(guān)系,再根據(jù)每個(gè)語(yǔ)義實(shí)體與文本實(shí)體間的關(guān)系數(shù),確定每個(gè)語(yǔ)義實(shí)體的重要程度;
根據(jù)上一步得到的每個(gè)語(yǔ)義實(shí)體的重要程度,對(duì)每個(gè)文本實(shí)體內(nèi)所包含的文本實(shí)體排序,每個(gè)文本實(shí)體保留3-5個(gè)與最重要的語(yǔ)義實(shí)體間的關(guān)系,將其他關(guān)系剔除;
步驟S3,對(duì)抽取到的語(yǔ)義實(shí)體、語(yǔ)義實(shí)體間關(guān)系、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系進(jìn)行語(yǔ)義實(shí)體的歸并;具體的,在此計(jì)算每個(gè)文本實(shí)體與其他文本實(shí)體以及同屬性語(yǔ)義實(shí)體間關(guān)系的重合度,將重合度高的語(yǔ)義實(shí)體歸并,從而避免了現(xiàn)有技術(shù)中興趣標(biāo)簽的不規(guī)范,當(dāng)將設(shè)定興趣的權(quán)利給予用戶時(shí),用戶對(duì)于同一件事物的描述往往不盡相同,導(dǎo)致大量相同的標(biāo)簽被異化,加大識(shí)別難度并影響精度的問(wèn)題,同時(shí),也解決了現(xiàn)有技術(shù)中同語(yǔ)義或相近語(yǔ)義標(biāo)簽無(wú)法歸并,降低了興趣識(shí)別的精準(zhǔn)度的問(wèn)題;
步驟S4,如圖2所示,將歸并后的抽取到的語(yǔ)義實(shí)體、語(yǔ)義實(shí)體間關(guān)系、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系形成知識(shí)圖譜;具體的,在此形成一個(gè)基于語(yǔ)義實(shí)體、語(yǔ)義實(shí)體間關(guān)系、語(yǔ)義實(shí)體與文本實(shí)體間關(guān)系組成的一個(gè)知識(shí)圖譜;
步驟S5,根據(jù)所述知識(shí)圖譜,將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問(wèn)行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體關(guān)聯(lián)到對(duì)應(yīng)的語(yǔ)義實(shí)體,通過(guò)統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問(wèn)時(shí)是否有側(cè)重的語(yǔ)義實(shí)體;具體的,網(wǎng)頁(yè)端可通過(guò)JS代碼、APP端可通過(guò)采集SDK,收集用戶的瀏覽行為數(shù)據(jù),例如用戶A在時(shí)間x訪問(wèn)了一個(gè)新聞,新聞ID為100,并且點(diǎn)了贊;通過(guò)業(yè)務(wù)數(shù)據(jù)庫(kù)中發(fā)帖、回復(fù)表,來(lái)收集訪問(wèn)行為數(shù)據(jù),例如用戶B在時(shí)間y發(fā)布了一個(gè)帖子,帖子ID是200;
步驟S6, 若有,將所述側(cè)重的語(yǔ)義實(shí)體作為該用戶的興趣標(biāo)簽。
優(yōu)選的,將所述側(cè)重的語(yǔ)義實(shí)體作為該用戶的興趣標(biāo)簽,包括:
獲取用戶的基本標(biāo)簽,將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類(lèi)別的分組標(biāo)簽;
將所述側(cè)重的語(yǔ)義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。具體的,所述基本標(biāo)簽可以來(lái)自一用戶圖譜系統(tǒng)中現(xiàn)有的標(biāo)簽,在此,可對(duì)用戶根據(jù)用戶的基本標(biāo)簽進(jìn)行分組,比如按照年齡段或者性別進(jìn)行分組,以便于后續(xù)分析區(qū)別不同年齡段或者性別的用戶對(duì)于同一語(yǔ)義實(shí)體的不同理解。舉例來(lái)說(shuō)“王朝”這個(gè)名詞的語(yǔ)義實(shí)體,對(duì)于年齡較大的球迷,他們?cè)L問(wèn)和互動(dòng)的新聞、帖子在包含“王朝”這個(gè)語(yǔ)義實(shí)體的同時(shí),大部分還包含“公?!边@個(gè)語(yǔ)義實(shí)體;而對(duì)于年齡稍輕一些的球迷,他們?cè)L問(wèn)和互動(dòng)新聞、帖子在包含“王朝”這個(gè)語(yǔ)義實(shí)體的同時(shí),大部分還包含“湖人”這個(gè)語(yǔ)義實(shí)體。說(shuō)明對(duì)于兩個(gè)不同年齡段的用戶來(lái)說(shuō)“王朝”分別代表了“公牛”“王朝”和“湖人”“王朝”。
優(yōu)選的,所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi),由于每次計(jì)算都是使用最近一定時(shí)間范圍內(nèi)的用戶訪問(wèn)行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù),因此能避免歷史數(shù)據(jù)造成的誤差。
優(yōu)選的,步驟S7,若無(wú),判斷用戶是否訪問(wèn)量過(guò)高,若是,判斷該用戶可能是爬蟲(chóng)。
優(yōu)選的,步驟S8,若無(wú),判斷用戶訪問(wèn)的語(yǔ)義實(shí)體是否相悖,且互動(dòng)量較高,若是,則判斷該用戶是水軍。
優(yōu)選的,將所述側(cè)重的語(yǔ)義實(shí)體作為該用戶的興趣標(biāo)簽之后,還包括根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。具體如:
1.內(nèi)容推薦:一篇新的新聞或者新的帖子,推送給興趣點(diǎn)為與其相關(guān)聯(lián)的語(yǔ)義實(shí)體一致的用戶。
2.商品推薦:如果一個(gè)用戶對(duì)于“籃球鞋”和“科比”這兩個(gè)語(yǔ)義實(shí)體感興趣,那么當(dāng)電商平臺(tái)上出現(xiàn)一件商品同樣與“籃球鞋”和“科比”這兩個(gè)語(yǔ)義實(shí)體存在關(guān)聯(lián)時(shí),將這件商品推薦給這個(gè)用戶。
3.智能搜索:如果用戶搜索“科比的妻子”,則根據(jù)知識(shí)圖譜“科比”語(yǔ)義實(shí)體以及“妻子”這個(gè)關(guān)系實(shí)體,關(guān)聯(lián)到“瓦妮莎”這個(gè)語(yǔ)義實(shí)體,并將于這個(gè)語(yǔ)義實(shí)體相關(guān)的文本實(shí)體作為結(jié)果返回給用戶。
詳細(xì)的,例如將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問(wèn)行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體(如文本實(shí)體ID)關(guān)聯(lián)到對(duì)應(yīng)的語(yǔ)義實(shí)體,通過(guò)統(tǒng)計(jì)學(xué)獲得每個(gè)用戶訪問(wèn)時(shí)側(cè)重的語(yǔ)義實(shí)體,作為其興趣標(biāo)簽。若用戶無(wú)明顯訪問(wèn)重點(diǎn),且訪問(wèn)量較高,則說(shuō)明這個(gè)用戶可能是爬蟲(chóng),若用戶訪問(wèn)重點(diǎn)通常相悖,且互動(dòng)量較高,則說(shuō)明其可能是水軍。
優(yōu)選的,對(duì)所述文本內(nèi)容進(jìn)行處理,包括:
對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。例如,輸入的文本內(nèi)容為“學(xué)校的學(xué)費(fèi)要一次性交一千元”,經(jīng)過(guò)本步驟后,輸出的處理結(jié)果為“學(xué)校/n, 學(xué)費(fèi)/n, 要/v, 一次性/d, 交/v, 一千元/m”。
詳細(xì)的,歧義詞處理如下:
對(duì)于一些特殊的句式比如“林書(shū)豪比薩克雷強(qiáng)”,正向匹配結(jié)果為:林書(shū)豪/比薩/克雷/強(qiáng),逆向匹配結(jié)果為:林書(shū)豪/比/薩克雷/強(qiáng)。
實(shí)際上薩克雷是一個(gè)人名,但是由于正常情況下“比薩”這個(gè)詞比“薩克雷”這個(gè)詞出現(xiàn)的概率大,導(dǎo)致正向分詞結(jié)果從統(tǒng)計(jì)學(xué)上比逆向分詞更好,但實(shí)際這是一個(gè)錯(cuò)誤的分詞結(jié)果。
因此會(huì)通過(guò)歧義詞處理來(lái)糾正這個(gè)錯(cuò)誤,即存在一個(gè)歧義詞詞典,當(dāng)出現(xiàn)“比薩克雷”這樣的組合是系統(tǒng)強(qiáng)制分詞為“比/薩克雷”結(jié)果。
歧義詞由人工在日常對(duì)分詞結(jié)果的隨機(jī)抽檢中發(fā)現(xiàn)分詞錯(cuò)誤后添加進(jìn)詞典。
詳細(xì)的,詞性識(shí)別如下:
中文中同一個(gè)詞會(huì)有不同的詞性,比如“統(tǒng)計(jì)”即是一個(gè)名詞又是一個(gè)動(dòng)詞。
系統(tǒng)在識(shí)別詞性時(shí),會(huì)根據(jù)多詞性詞的前后詞的詞性來(lái)判斷這個(gè)詞屬于什么詞性。
比如:我是一個(gè)學(xué)統(tǒng)計(jì)的學(xué)生。系統(tǒng)發(fā)現(xiàn)“統(tǒng)計(jì)”前面的詞“學(xué)”是一個(gè)動(dòng)詞,因此“統(tǒng)計(jì)”這個(gè)詞再這邊屬于名詞的概率更大。
又如:領(lǐng)導(dǎo)叫我統(tǒng)計(jì)總數(shù)。這邊的“統(tǒng)計(jì)”前面是一個(gè)主語(yǔ),且是一個(gè)人稱(chēng)代詞,后面是一個(gè)名詞,因此這邊的“統(tǒng)計(jì)”是一個(gè)動(dòng)詞的概率更大。
詳細(xì)的,去除停用詞如下:
根據(jù)停用詞典,將分詞結(jié)果中的無(wú)用的停用詞濾除,停用詞如:“的”、“了”、“地”等。
詳細(xì)的,消除臟數(shù)據(jù)如下:
臟數(shù)據(jù)主要是水軍發(fā)布的包含敏感詞的分詞結(jié)果、整個(gè)句子中存在較少詞,較多單字的分詞結(jié)果。
優(yōu)選的,如圖3所示,對(duì)所述文本內(nèi)容進(jìn)行分詞包括:
對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類(lèi)的隱馬分詞。具體的,基于類(lèi)的隱馬科夫分詞是對(duì)于多個(gè)分詞結(jié)果選擇最優(yōu)分詞結(jié)果的一個(gè)過(guò)程,通過(guò)對(duì)每個(gè)分詞結(jié)果,計(jì)算其整個(gè)結(jié)果出現(xiàn)的概率值,取其概率值最大的分詞結(jié)果作為輸出結(jié)果,該模型已被證明在語(yǔ)音識(shí)別、行為識(shí)別等領(lǐng)域非常適用。
較佳的,所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。
詳細(xì)的,正向最大匹配法如下:
例句:中華民族從此站起來(lái)了
算法邏輯:
1.取出第一個(gè)字“中”,去詞典匹配發(fā)現(xiàn)這不是一個(gè)詞,但存在一些詞以“中”字開(kāi)頭,因此需要繼續(xù)匹配;
2.取出前兩個(gè)字“中華”,去詞典匹配發(fā)現(xiàn)這是一個(gè)詞,但同樣存在詞以“中華”開(kāi)頭,因此繼續(xù)匹配;
3.取出前三個(gè)字“中華民”,去詞典匹配發(fā)現(xiàn)這不是一個(gè)詞,但同樣存在詞以“中華民”開(kāi)頭,因此繼續(xù)匹配;
4.取出前四個(gè)字“中華民族”,去詞典匹配發(fā)現(xiàn)是一個(gè)詞,并且沒(méi)有其他詞以“中華民族”開(kāi)頭,因此將“中華民族”切分出來(lái);
5.將整個(gè)句子中去除“中華民族”,繼續(xù)按照邏輯從第1點(diǎn)開(kāi)始同樣的匹配,直至整個(gè)句子匹配完畢。
最后得到結(jié)果:中華民族/從此/站起來(lái)/了
詳細(xì)的,逆向最大匹配法如下:
例句:我們?cè)谝吧鷦?dòng)物園玩
算法邏輯:
1.整個(gè)句子去詞典匹配,發(fā)現(xiàn)不是一個(gè)詞;
2.去掉第一個(gè)字,即用“們?cè)谝吧鷦?dòng)物園玩”去詞典匹配,發(fā)現(xiàn)不是一個(gè)詞;
3.再去掉第一個(gè)字,用“在野生動(dòng)物園玩”去詞典匹配,發(fā)現(xiàn)不是一個(gè)詞;
最后得到第一個(gè)分詞結(jié)果“玩”;
整個(gè)句子去掉“玩”字,繼續(xù)按照邏輯從第1點(diǎn)開(kāi)始匹配,直至整個(gè)句子匹配完畢。
最后得到結(jié)果:我們/在/野生動(dòng)物園/玩
由于字典在匹配時(shí)會(huì)動(dòng)態(tài)的計(jì)數(shù),沒(méi)當(dāng)1個(gè)詞出現(xiàn)1次,就會(huì)在其權(quán)重上加1,當(dāng)文本正向和逆向匹配完成后,計(jì)算哪種分詞結(jié)果出現(xiàn)的概率更大。
兩種分詞結(jié)果中,每個(gè)詞出現(xiàn)的概率相乘,計(jì)算得到的概率更大的分詞結(jié)果作為實(shí)際的輸出結(jié)果。
詳細(xì)的,統(tǒng)計(jì)分詞如下:
將整個(gè)文本以每個(gè)字為單位切分,計(jì)算所有文本中每個(gè)字出現(xiàn)的次數(shù)n,以及整個(gè)文本的總字?jǐn)?shù)N。
每個(gè)字出現(xiàn)的概率為p=n/N。
將整個(gè)文本以2個(gè)字為單位切分,計(jì)算這兩個(gè)字連續(xù)情況下在整個(gè)文本中出現(xiàn)的次數(shù)n1,以及整個(gè)文本中2個(gè)字的總次數(shù)N1,
這兩個(gè)字在整個(gè)文本中出現(xiàn)的概率為p1=n1/N1。
比如一個(gè)詞:“統(tǒng)計(jì)”,如果“統(tǒng)”字出現(xiàn)的概率為1%,“計(jì)”字出現(xiàn)的概率為2%,則如果“統(tǒng)計(jì)”這兩個(gè)字連續(xù)出現(xiàn)的概率為1%*2%。
若實(shí)際在文本中計(jì)算得到“統(tǒng)計(jì)”這個(gè)詞組實(shí)際出現(xiàn)的概率遠(yuǎn)大于1%*2%(一般為50到100倍),則說(shuō)明實(shí)際上“統(tǒng)計(jì)”這是一個(gè)詞,而非是兩個(gè)無(wú)關(guān)的字。
統(tǒng)計(jì)分詞主要用來(lái)發(fā)現(xiàn)新詞,即字典中沒(méi)有的詞,但是通過(guò)統(tǒng)計(jì)后發(fā)現(xiàn)其應(yīng)該是一個(gè)詞,之后在后臺(tái)上列出,由人工審核后決定是否添加入詞典。
較佳的,所述基于類(lèi)的隱馬分詞之后還包括進(jìn)行詞性標(biāo)注。具體的,詞性標(biāo)注主要用以在構(gòu)建知識(shí)圖譜時(shí)能很快找出名詞、人名等語(yǔ)義實(shí)體。
較佳的,未登錄詞識(shí)別之后,還包括將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。相應(yīng)的,嵌套未登錄詞識(shí)別之后,還包括將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。具體的,將未登陸詞及嵌套未登錄詞更新入分詞詞典以及歧義詞詞典,是為了下一次分詞時(shí)能直接識(shí)別出這些詞,而不是再一次去識(shí)別未登錄詞,以提高分詞效率。
實(shí)施例二
本發(fā)明還提供另一種興趣識(shí)別系統(tǒng),包括:
收集處理模塊,用于收集文本內(nèi)容和結(jié)構(gòu)化數(shù)據(jù),對(duì)所述文本內(nèi)容進(jìn)行處理,得到非結(jié)構(gòu)化的帶順序的詞組集合;
抽取模塊,用于對(duì)所述非結(jié)構(gòu)化的帶順序的詞組集合和/或結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語(yǔ)義實(shí)體的抽取、文本實(shí)體的抽取、語(yǔ)義實(shí)體間關(guān)系的抽取、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系的抽?。?/p>
歸并模塊,用于對(duì)抽取到的語(yǔ)義實(shí)體、語(yǔ)義實(shí)體間關(guān)系、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系進(jìn)行語(yǔ)義實(shí)體的歸并;
知識(shí)圖譜形成模塊,用于將歸并后的抽取到的語(yǔ)義實(shí)體、語(yǔ)義實(shí)體間關(guān)系、及文本實(shí)體與語(yǔ)義實(shí)體間關(guān)系形成知識(shí)圖譜;
第一判斷模塊,用于根據(jù)所述知識(shí)圖譜,將每個(gè)用戶的一定時(shí)間范圍內(nèi)的訪問(wèn)行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)中的文本實(shí)體關(guān)聯(lián)到對(duì)應(yīng)的語(yǔ)義實(shí)體,通過(guò)統(tǒng)計(jì)學(xué)判斷每個(gè)用戶訪問(wèn)時(shí)是否有側(cè)重的語(yǔ)義實(shí)體;
興趣標(biāo)簽?zāi)K,用于若有所述側(cè)重的語(yǔ)義實(shí)體,將所述側(cè)重的語(yǔ)義實(shí)體作為該用戶的興趣標(biāo)簽。
優(yōu)選的,所述興趣標(biāo)簽?zāi)K,用于獲取用戶的基本標(biāo)簽,將所述基本標(biāo)簽歸入到對(duì)應(yīng)預(yù)設(shè)類(lèi)別的分組標(biāo)簽;將所述側(cè)重的語(yǔ)義實(shí)體和分組標(biāo)簽進(jìn)行組合作為該用戶的興趣標(biāo)簽。
優(yōu)選的,所述一定時(shí)間范圍內(nèi)為最近一定時(shí)間范圍內(nèi)。
優(yōu)選的,所述系統(tǒng)還包括:
第二判斷模塊,用于若無(wú)側(cè)重的語(yǔ)義實(shí)體,判斷用戶是否訪問(wèn)量過(guò)高,若是,判斷該用戶可能是爬蟲(chóng)。
優(yōu)選的,所述系統(tǒng),還包括:
第三判斷模塊,用于若無(wú)側(cè)重的語(yǔ)義實(shí)體,判斷用戶訪問(wèn)的語(yǔ)義實(shí)體是否相悖,且互動(dòng)量較高,若是,則判斷該用戶是水軍。
優(yōu)選的,所述系統(tǒng)還包括推薦模塊,用于根據(jù)用戶的興趣標(biāo)簽向用戶推薦內(nèi)容。
優(yōu)選的,所述收集處理模塊,用于對(duì)所述文本內(nèi)容依次進(jìn)行分詞、歧義詞處理、詞性識(shí)別、去除停用詞、消除臟數(shù)據(jù)的處理。
優(yōu)選的,所述收集處理模塊,用于對(duì)所述文本內(nèi)容依次進(jìn)行原子切分、根據(jù)分詞詞典和歧義詞詞典并采用預(yù)設(shè)的多種算法進(jìn)行分詞、未登錄詞識(shí)別、嵌套未登錄詞識(shí)別、基于類(lèi)的隱馬分詞。
優(yōu)選的,所述預(yù)設(shè)的多種算法包括正向最大匹配法、逆向最大匹配法和統(tǒng)計(jì)分詞。
優(yōu)選的,所述收集處理模塊,用于在所述基于類(lèi)的隱馬分詞之后進(jìn)行詞性標(biāo)注。
優(yōu)選的,所述收集處理模塊,用于在未登錄詞識(shí)別之后,將識(shí)別到的未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。
優(yōu)選的,所述收集處理模塊,用于在嵌套未登錄詞識(shí)別之后,將識(shí)別到的嵌套未登錄詞更新補(bǔ)充入所述分詞詞典和歧義詞詞典。
實(shí)施例二的其它詳細(xì)內(nèi)容,具體可參見(jiàn)實(shí)施例一的對(duì)應(yīng)部分,在此不再贅述。
綜上所述,本發(fā)明使用用戶瀏覽的文本內(nèi)容構(gòu)建知識(shí)圖譜,并從中抽取用戶興趣點(diǎn),能夠幫助提升對(duì)于內(nèi)容的搜索及推薦的精準(zhǔn)度。
本說(shuō)明書(shū)中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見(jiàn)即可。
專(zhuān)業(yè)人員還可以進(jìn)一步意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專(zhuān)業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
顯然,本領(lǐng)域的技術(shù)人員可以對(duì)發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包括這些改動(dòng)和變型在內(nèi)。