两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種用戶信息挖掘方法和一種用戶信息挖掘系統(tǒng)的制作方法

文檔序號(hào):6462598閱讀:238來(lái)源:國(guó)知局
專利名稱:一種用戶信息挖掘方法和一種用戶信息挖掘系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及知識(shí)挖掘領(lǐng)域,特別是涉及一種信息挖掘的方法及系統(tǒng)。
技術(shù)背景隨著數(shù)據(jù)采集技術(shù)的不斷發(fā)展,人類每天獲取的數(shù)據(jù)劇增,但數(shù)據(jù) 中隱藏的豐富的知識(shí)遠(yuǎn)遠(yuǎn)沒(méi)有得到充分的挖掘與利用,形成了 "數(shù)據(jù)爆炸, 知識(shí)饑餓"的狀況。知識(shí)挖掘就是在這種背景下應(yīng)運(yùn)而生的。知識(shí)挖掘就 是一個(gè)從數(shù)據(jù)集中識(shí)別有效的、潛在有用、最終可理解的模式的過(guò)程。 模式是一個(gè)用語(yǔ)言來(lái)表示的表達(dá)式,它可用來(lái)描述數(shù)據(jù)集的某個(gè)子集。 所謂知識(shí),是對(duì)數(shù)據(jù)包涵的信息更抽象的描述。對(duì)大量數(shù)據(jù)進(jìn)行分析的 過(guò)程,包括數(shù)據(jù)準(zhǔn)備、模式搜索、知識(shí)評(píng)價(jià),以及反復(fù)的修改求精。有效性是指發(fā)現(xiàn)的模式對(duì)于新的數(shù)據(jù)仍保持有一定的可信度;新穎性要求 發(fā)現(xiàn)的模式應(yīng)該是新的;潛在有用性是指發(fā)現(xiàn)的知識(shí)將來(lái)有實(shí)際效用, 如用于決策支持系統(tǒng)里可提高經(jīng)濟(jì)效益;最終可理解性要求發(fā)現(xiàn)的模式 能被用戶理解,目前它主要是體現(xiàn)在筒潔性上。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,知識(shí)挖掘也獲得了在Web上的應(yīng)用,即Web 挖掘,它利用知識(shí)挖掘技術(shù)從與萬(wàn)維網(wǎng)相關(guān)的資源和行為中抽取感興趣 的、有用的模式和隱含信息,涉及Web技術(shù)、知識(shí)挖掘、計(jì)算機(jī)語(yǔ)言學(xué)、 信息學(xué)等多個(gè)領(lǐng)域,是一項(xiàng)綜合技術(shù)。現(xiàn)有的Web挖掘通常包括Web內(nèi) 容挖掘和Web ^f吏用記錄挖掘兩種方法。具體地,Web內(nèi)容挖掘是指對(duì)Web頁(yè)面內(nèi)容及后臺(tái)交易數(shù)據(jù)庫(kù)進(jìn)行 挖掘,從Web文檔內(nèi)容及其描述中的內(nèi)容信息中獲取有用知識(shí)的過(guò)程。 同時(shí)還可以對(duì)Web的組織結(jié)構(gòu)和《連接關(guān)系進(jìn)行挖掘,乂人人為的《連4妄結(jié)構(gòu) 中獲取有用的知識(shí)。由于文檔之間的互連,WWW能夠提供除文檔內(nèi)容 之外的有用信息。利用這些信息,可以對(duì)頁(yè)面進(jìn)行排序,發(fā)現(xiàn)重要的頁(yè) 面。Web上的內(nèi)容挖掘多為基于文本信息的挖掘,它和通常的平面文本 挖掘的功能和方法比較類似。Web使用記錄挖掘是通過(guò)挖掘相應(yīng)站點(diǎn)的日志文件和相關(guān)數(shù)據(jù)來(lái)發(fā)現(xiàn)該站點(diǎn)上的瀏覽者的行為模式,獲取有價(jià)值的信息的過(guò)程。在挖掘Web 用戶使用記錄時(shí)描述用戶訪問(wèn)的數(shù)據(jù)包括IP地址、參考頁(yè)面、訪問(wèn)日 期和時(shí)間、用戶Web站點(diǎn)及配置信息。發(fā)現(xiàn)用戶使用記錄信息的方法有 兩種。 一種方法是通過(guò)對(duì)日志文件進(jìn)行分析,包含兩種方式 一是先進(jìn) 行預(yù)處理,即將日志數(shù)據(jù)映射為關(guān)系表并采用相應(yīng)的知識(shí)挖掘技術(shù)來(lái)訪 問(wèn)日志數(shù)據(jù);二是直接訪問(wèn)日志數(shù)據(jù)以獲取用戶的導(dǎo)航信息。另 一種方 法是通過(guò)對(duì)用戶點(diǎn)擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為?;谏鲜雒枋隹梢岳斫?,用戶信息挖掘就是從用戶的資料、日常行 為中提煉出用戶的各種特征,如年齡層、學(xué)歷層、收入層等,借此掌握 用戶特征,定向精準(zhǔn)地投放廣告、發(fā)布信息和資訊、預(yù)測(cè)用戶行為等。 而現(xiàn)有技術(shù)中,通常只會(huì)采用上述WEB挖掘的方法基于用戶的基本資料、 個(gè)人行為進(jìn)行挖掘,因而導(dǎo)致挖掘過(guò)程嚴(yán)重依賴于單用戶的資料和行為, 然而,由于網(wǎng)絡(luò)上用戶提供的資料和行為存在不真實(shí)、不完整,不準(zhǔn)確 的問(wèn)題,在這種情況下,挖掘到的數(shù)據(jù)也將必須存在不真實(shí)、不完整、 不準(zhǔn)確的問(wèn)題。因此,目前需要本領(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問(wèn)題就是如 何能夠創(chuàng)新的提出一種用戶信息挖掘的機(jī)制,用以獲得真實(shí)、完整、準(zhǔn) 確的用戶信息。發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種用戶信息挖掘方法,用以獲得 更為真實(shí)、完整、準(zhǔn)確的用戶信息。本發(fā)明的另一個(gè)目的是提供了一種用戶信息挖掘系統(tǒng),用以保證上 述方法在實(shí)際中的實(shí)現(xiàn)及應(yīng)用。為了解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例公開(kāi)了 一種用戶信息挖掘方 法,包括獲取用戶的個(gè)體信息,以及,該用戶與其它用戶的關(guān)系信息; 生成屬于相同關(guān)系信息的相應(yīng)用戶的集合,提取集合內(nèi)用戶的滿足 共性的個(gè)體信息,并統(tǒng)計(jì)所述個(gè)體信息的共性參考值。 優(yōu)選的,所述的方法還包括依據(jù)所述共性參考值修正所述集合內(nèi)用戶相應(yīng)的個(gè)體信息。優(yōu)選的,所述用戶集合為多個(gè),所述的方法還包括計(jì)算所述共性參考值的權(quán)重值。優(yōu)選的,所述的方法還包括從多個(gè)用戶集合中提取相應(yīng)的多個(gè)個(gè)體信息的共性參考值及權(quán)重值, 計(jì)算標(biāo)準(zhǔn)共性參考值,用所述標(biāo)準(zhǔn)共性參考值修正集合內(nèi)相應(yīng)個(gè)體信息的共性參考值。優(yōu)選的,所述的方法還包括依據(jù)所述權(quán)重值最大的共性參考值推導(dǎo)關(guān)聯(lián)的個(gè)體信息的共性參考值。優(yōu)選的,所述的方法還包括將所述用戶的個(gè)體信息,以及,該用戶與其它用戶的關(guān)系信息存儲(chǔ) 至文件或數(shù)據(jù)庫(kù)中。優(yōu)選的,所述統(tǒng)計(jì)共性參考值的步驟包括 計(jì)算所述個(gè)體信息的平均值為共性參考值; 或者,計(jì)算符合要求的個(gè)體信息的平均值為共性參考值;或者,統(tǒng)計(jì)分布概率滿足一定閾值的個(gè)體信息為共性參考值。 優(yōu)選的,所述個(gè)體信息包括用戶基本資料信息和用戶行為記錄信息。 優(yōu)選的,所述》務(wù)正步驟為基于所述共性參考值的一定范圍修正所述集合內(nèi)用戶相應(yīng)的個(gè)體信息。本發(fā)明實(shí)施例還公開(kāi)了 一種用戶信息挖掘系統(tǒng),包括 獲取單元,用于獲取用戶的個(gè)體信息,以及,該用戶與其它用戶的 關(guān)系信息;集合單元,用于生成屬于相同關(guān)系信息的相應(yīng)用戶的集合; 共性統(tǒng)計(jì)單元,用于提取集合內(nèi)用戶的滿足共性的個(gè)體信息,并統(tǒng) 計(jì)所述個(gè)體信息的共性參考值。 優(yōu)選的,所述的系統(tǒng)還包括個(gè)性修正單元,用于依據(jù)所述共性參考值修正所述集合內(nèi)用戶相應(yīng) 的個(gè)體信息。優(yōu)選的,所述用戶集合為多個(gè),所述的系統(tǒng)還包括 權(quán)重計(jì)算單元,用于計(jì)算所述共性參考值的權(quán)重值。 優(yōu)選的,所述的系統(tǒng)還包括共性修正單元,用于從多個(gè)用戶集合中提取相應(yīng)的多個(gè)個(gè)體信息的 共性參考值及權(quán)重值,計(jì)算標(biāo)準(zhǔn)共性參考值,用所述標(biāo)準(zhǔn)共性參考值修正 集合內(nèi)相應(yīng)個(gè)體信息的共性參考值。14、如權(quán)利要求13所述的系統(tǒng),其 特征在于,還包括推導(dǎo)單元,用于依據(jù)所述權(quán)重值最大的共性參考值推導(dǎo)關(guān)聯(lián)的個(gè)體 信息的共性參考值。優(yōu)選的,所述的方法還包括存儲(chǔ)單元,用于將所述用戶的個(gè)體信息,以及,該用戶與其它用戶 的關(guān)系信息存儲(chǔ)至文件或數(shù)據(jù)庫(kù)中。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)本發(fā)明通過(guò)基于各種Web應(yīng)用特征由海量的用戶組成一個(gè)大型網(wǎng) 絡(luò),同時(shí)在多維角度上組成多個(gè)網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)包含了多個(gè)用戶,用戶 間存在鏈接關(guān)系。即每個(gè)用戶可以對(duì)應(yīng)網(wǎng)絡(luò)內(nèi)的一個(gè)結(jié)點(diǎn),依據(jù)用戶之 間相應(yīng)的鏈接關(guān)系即可形成結(jié)點(diǎn)與結(jié)點(diǎn)之間的連結(jié)關(guān)系?;诰W(wǎng)絡(luò)內(nèi)多 個(gè)結(jié)點(diǎn)的屬性,推導(dǎo)出該網(wǎng)絡(luò)相應(yīng)屬性的共性值,即挖掘出某個(gè)群體的 共同屬性,用以真實(shí)、完整、準(zhǔn)確地獲取用戶需求,以完成實(shí)際中的各 種需求。本發(fā)明還可以進(jìn)一步將共性反饋到單結(jié)點(diǎn),以修正、推導(dǎo)單個(gè) 用戶(單結(jié)點(diǎn))的相應(yīng)屬性,從而保證單用戶信息的真實(shí)性、完整性和 準(zhǔn)確性。


圖1是本發(fā)明的一種用戶信息挖掘方法實(shí)施例1的流程圖; 圖2是本發(fā)明的一種用戶信息挖掘方法實(shí)施例2的流程圖; 圖3是本發(fā)明的一種用戶信息挖掘系統(tǒng)實(shí)施例1的流程圖; 圖4是本發(fā)明的 一種用戶信息挖掘系統(tǒng)實(shí)施例2的流程圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合 附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明可用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如個(gè) 人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂 盒、可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括 以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的 一般上下文中描 述,例如程序模塊。 一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽 象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布 式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過(guò)通信網(wǎng)絡(luò) 而被連接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊 可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。本發(fā)明實(shí)施例的核心構(gòu)思之一在于,基于各種Web應(yīng)用,如IM(即 時(shí)通訊)、Email (郵件)、Blog (博客)、BBS (論壇)、同學(xué)錄、共享網(wǎng) 站等,獲得它們的一個(gè)特征為由海量的用戶組成一個(gè)大型網(wǎng)絡(luò),同時(shí) 在多維角度上組成多個(gè)小型網(wǎng)絡(luò),譬如,在人際關(guān)系方面形成朋友、同 事、同學(xué)等用戶網(wǎng)絡(luò),同學(xué)網(wǎng)絡(luò)還可進(jìn)一步細(xì)分為小學(xué)同學(xué)、中學(xué)同學(xué)、 大學(xué)同學(xué)等用戶網(wǎng)絡(luò);在興趣愛(ài)好方面形成科技、娛樂(lè)、時(shí)事等用戶網(wǎng)絡(luò)。每個(gè)網(wǎng)絡(luò)包含了多個(gè)用戶,用戶間存在鏈接關(guān)系。即每個(gè)用戶可以 對(duì)應(yīng)網(wǎng)絡(luò)內(nèi)的一個(gè)結(jié)點(diǎn),依據(jù)用戶之間相應(yīng)的鏈4妄關(guān)系即可形成結(jié)點(diǎn)與 結(jié)點(diǎn)之間的連結(jié)關(guān)系?;诰W(wǎng)絡(luò)內(nèi)多個(gè)結(jié)點(diǎn)的屬性,推導(dǎo)出該網(wǎng)絡(luò)相應(yīng) 屬性的共性值,即挖掘出某個(gè)群體的共同屬性。優(yōu)選的,本發(fā)明還可以 進(jìn)一步將共性反饋到單結(jié)點(diǎn),以修正、推導(dǎo)單個(gè)用戶(單結(jié)點(diǎn))的相應(yīng)屬性。從而獲得真實(shí)、完整、準(zhǔn)確的用戶信息。例如,假設(shè)用戶A在人際關(guān)系方面形成了同學(xué)、同事兩個(gè)用戶網(wǎng)絡(luò)。 由于同學(xué)網(wǎng)絡(luò)的基本特征是用戶年齡相仿、學(xué)歷相同,因而基于同學(xué) 網(wǎng)絡(luò)內(nèi)的多個(gè)結(jié)點(diǎn)(用戶)的資料,可以提煉出同學(xué)網(wǎng)絡(luò)的年齡區(qū)間和 學(xué)歷水平的共性參考值。在這種情況下,即便少數(shù)用戶沒(méi)有填寫(xiě)年齡、 沒(méi)有填寫(xiě)真實(shí)年齡、或沒(méi)有及時(shí)更新,這些少量的誤差和偏移也將被其他用戶(同學(xué))的年齡屬性吞噬,從而》務(wù)正該用戶的真實(shí)年齡。可以理 解,如果更細(xì)致的劃分用戶網(wǎng)絡(luò),如"小學(xué)同學(xué)"、"中學(xué)同學(xué)"、"大學(xué) 同學(xué),,等,則可以得到更準(zhǔn)確的信息,并作為杠桿傳遞到另一個(gè)網(wǎng)絡(luò),以挖掘更多的信息。同理而言,基于同事網(wǎng)絡(luò)的基本特征是從事的職 業(yè)、行業(yè)、學(xué)歷相近、所處的地區(qū)、城市相同,獲得相應(yīng)屬性的共性參 考值后,還可以修正用戶的職業(yè)、行業(yè)、學(xué)歷、地區(qū)、城市等屬性,在 實(shí)際中,還可以依據(jù)這些屬性進(jìn)一步挖掘出用戶的收入水平、興趣等特 征。參考圖1 ,示出了本發(fā)明的 一種用戶信息挖掘方法實(shí)施例1的流程圖, 可以包括以下步驟步驟IOI、獲取用戶的個(gè)體信息,以及,該用戶與其它用戶的關(guān)系信自 步驟102、生成屬于相同關(guān)系信息的相應(yīng)用戶的集合,提取集合內(nèi)用 戶的滿足共性的個(gè)體信息,并統(tǒng)計(jì)所述個(gè)體信息的共性參考值。優(yōu)選的,可以將所述用戶的個(gè)體信息,以及,該用戶與其它用戶的 關(guān)系信息存儲(chǔ)至文件或數(shù)據(jù)庫(kù)中,生成用戶信息庫(kù)。其中,所述個(gè)體信 息可以包括用戶基本資料信息(靜態(tài)信息)和用戶行為記錄信息(動(dòng)態(tài) 信息),所述用戶基本資料信息可以諸如,用戶通過(guò)人機(jī)交互模式在網(wǎng)上 填寫(xiě)并發(fā)送一個(gè)表達(dá)其信息需求的表單中所包含的信息,如姓名、性別、 學(xué)歷、所在城市、收入水平等;所述用戶行為記錄信息可以為體現(xiàn)用戶 的需求、興趣和愛(ài)好的,諸如消費(fèi)、體驗(yàn)、訪問(wèn)、投訴等信息。例如, 一種獲取用戶行為記錄信息的方法為依據(jù)用戶的日常交互行為產(chǎn)生的 四類關(guān)鍵數(shù)據(jù)鼠標(biāo)移動(dòng)軌跡、鏈接點(diǎn)擊分布、頁(yè)面瀏覽流、頁(yè)面停留 時(shí)間來(lái)獲取。具體可以包括以下步驟步驟S1、收集數(shù)據(jù)利用Web服務(wù)器的日志(用戶會(huì)話記錄)、Web trends或類似的第三 方共享軟件(客戶端分析,流量分析,可用性分析)、和/或自己開(kāi)發(fā)的第 三方軟件/插件(需求自定義),給進(jìn)入網(wǎng)站的用戶賦予身份識(shí)別,每次產(chǎn) 生交互動(dòng)作就向服務(wù)器發(fā)回請(qǐng)求,通過(guò)時(shí)間和頁(yè)面判斷連接各個(gè)請(qǐng)求點(diǎn) 并且記錄下來(lái)。步驟S2、過(guò)濾數(shù)據(jù)521、 明確目標(biāo),定義核心數(shù)據(jù);522、 界定用戶行為,利用多數(shù)人的行為來(lái)消除個(gè)人行為的主觀性。523、 對(duì)用戶進(jìn)行歸類,確定數(shù)據(jù)類別。 步驟S3、習(xí)慣分析531、 對(duì)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行 聚類;聚類過(guò)程中除了考慮頁(yè)面內(nèi)容相近程度,還應(yīng)該考慮頁(yè)面路徑。532、 把用戶瀏覽行為對(duì)其興趣的作用列入聚類結(jié)果,得到綜合評(píng)估 模型。用戶興趣分偶然和穩(wěn)定兩種情況,其中偶然可以認(rèn)為是隨機(jī)變化的, 穩(wěn)定的挖掘又有基于內(nèi)容和行為兩種方式,在內(nèi)容上表現(xiàn)有重復(fù)度、相 似度等,在行為上表現(xiàn)有停留時(shí)長(zhǎng)、點(diǎn)此次數(shù)、拉動(dòng)滾動(dòng)條次數(shù)等。當(dāng)然,本發(fā)明對(duì)所述個(gè)體信息的獲取方法不作限制,本領(lǐng)域技術(shù)人 員采用任一種方法實(shí)現(xiàn)都是可行的。所述用戶之間的關(guān)系信息為各種WEB應(yīng)用中,當(dāng)前用戶與其它用戶 的鏈接關(guān)系信息。以IM為例,用戶A將其好友列表中的用戶分組為"同 學(xué)',、"同事"、"朋友,,和"家人,,;"同學(xué)"中包含B1、 B2用戶,"同事,, 中包含C用戶;"朋友"中包含D用戶;"家人"中包含E用戶,在這種 情況下,則可記錄用戶A的關(guān)系信息為(A—B1同學(xué))、(A—B2同學(xué))、 (A—C同事)、(A—D朋友)、(A—E家人)。在其它的Web應(yīng)用中, 同樣可以通過(guò)其固有的特征來(lái)獲取用戶之間的關(guān)系信息以構(gòu)成相應(yīng)關(guān)系 信息下的用戶網(wǎng)絡(luò),本發(fā)明對(duì)此不作限制?;谒鲇脩粜畔?kù),則可以依據(jù)所述關(guān)系信息對(duì)相應(yīng)用戶進(jìn)行分 類整合,從而提煉出各個(gè)維度的網(wǎng)絡(luò)(即用戶集合)??梢岳斫?,每個(gè)網(wǎng) 絡(luò)內(nèi)的結(jié)點(diǎn)(用戶)具有與當(dāng)前用戶相同的鏈接關(guān)系,如親戚關(guān)系、同 學(xué)關(guān)系、同事關(guān)系等。由于不同類別的網(wǎng)絡(luò)都具有相應(yīng)的共性,例如,"同學(xué)"網(wǎng)絡(luò)的共性 可以是年齡相仿、學(xué)歷相同,提取網(wǎng)絡(luò)內(nèi)每個(gè)結(jié)點(diǎn)(用戶)的相應(yīng)屬性, 即提取該網(wǎng)絡(luò)內(nèi)每個(gè)用戶的年齡、學(xué)歷兩個(gè)個(gè)體信息即可。或者,"同事"網(wǎng)絡(luò)的共性可以是職業(yè)相同、4亍業(yè)相同、所在Jt成市相同,針對(duì)該網(wǎng)纟各,則只需要提取該網(wǎng)絡(luò)內(nèi)每個(gè)用戶的職業(yè)、行業(yè)、所在城市三個(gè)個(gè)體信息 即可?;谒鎏崛〉膫€(gè)體信息,即可在統(tǒng)計(jì)的基礎(chǔ)上,挖掘出共性的參考值,如對(duì)于上述"同事"網(wǎng)絡(luò),可以獲得其職業(yè)為軟件開(kāi)發(fā),行 業(yè)為互聯(lián)網(wǎng),所在城市為深圳。優(yōu)選的,所述統(tǒng)計(jì)共性參考值可以采用以下方法獲得計(jì)算所述個(gè)體信息的平均值為共性參考值;例如,統(tǒng)計(jì)"同事"網(wǎng)絡(luò)中,"年薪"這項(xiàng)個(gè)體信息的平均值為"20 萬(wàn)",則將這個(gè)"20萬(wàn),,作為共性參考值。從而得到了該網(wǎng)絡(luò)內(nèi)的用戶的 收入信息?;蛘撸?jì)算符合要求的個(gè)體信息的平均值為共性參考值;例如,統(tǒng)計(jì)"同學(xué)"網(wǎng)絡(luò)中"年齡"這項(xiàng)個(gè)性信息的共性參考值時(shí),首先網(wǎng)絡(luò)里的每個(gè)用戶的年齡進(jìn)行分析,去除誤差明顯很大的個(gè)體(如年齡大于或等于80歲,或者小于或等于0歲的值),再通過(guò)求和取平均年齡值,從而得到了該網(wǎng)絡(luò)內(nèi)的用戶年齡層?;蛘?,統(tǒng)計(jì)分布概率滿足一定閾值的個(gè)體信息為共性參考值例如,統(tǒng)計(jì)"同事"網(wǎng)絡(luò)中,"所在城市"這項(xiàng)個(gè)體信息的分布情況為"深圳,,的比例占95%、為"北京,,的比例占2%、為"上海"的比例占3%,假設(shè)預(yù)設(shè)閾值為卯%,則提取"深圳,,為共性參考值。從而得到了該網(wǎng)絡(luò)內(nèi)的用戶所在城市的信息。顯然,上述方法僅僅作為示例,易于得知的是,本領(lǐng)域技術(shù)人員根據(jù)實(shí)際需要采用任一種統(tǒng)計(jì)或計(jì)算方法都是可行的,本發(fā)明對(duì)此不需要進(jìn)行限定。通過(guò)挖掘用戶信息,能夠精準(zhǔn)的根據(jù)用戶的所在地、喜好、特點(diǎn)以 及用戶的最新動(dòng)態(tài)信息,向用戶提供滿足其各種個(gè)性化需求的服務(wù),完 美地為廣告投放商進(jìn)行品牌營(yíng)銷等。優(yōu)選的,在獲得所述共性參考值后,本發(fā)明還可以包括步驟 依據(jù)所述共性參考值修正所述用戶相應(yīng)的個(gè)體信息。 即基于各個(gè)網(wǎng)絡(luò)得到的共性參考值,推導(dǎo)與修正該網(wǎng)絡(luò)中每個(gè)用戶 相應(yīng)的個(gè)性信息。例如,假設(shè)獲得"同學(xué)"網(wǎng)絡(luò)中"學(xué)歷"的共性參考值為"碩士",則對(duì)于網(wǎng)絡(luò)中用戶的學(xué)歷描述為其它信息的,統(tǒng)一》務(wù)正為 "碩士"。更為優(yōu)選的是,所述修正步驟還可以為基于所述共性參考值的一 定范圍修正所述集合內(nèi)用戶相應(yīng)的個(gè)體信息。例如,假設(shè)獲得"同學(xué)" 網(wǎng)絡(luò)中的"年齡"共性參考值為20,允許的范圍為19一22。如果某個(gè)用 戶的年齡是30,差值(為10)較大,則直接修正到20;如果某個(gè)用戶的 年齡是23,差值(為3)較小,則可以允許一定范圍的漂移,即》務(wù)正為 22或19。這種情況在具體實(shí)現(xiàn)時(shí),需要先得到一批經(jīng)驗(yàn)數(shù)據(jù),如漂移參 數(shù)、修正粒度等。當(dāng)然,本發(fā)明對(duì)也無(wú)需對(duì)所述修正的方法作出限制, 本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況采用任一種修正方法都是可行的。本領(lǐng)域技術(shù)人員易于想到的是,本發(fā)明還可以將某個(gè)網(wǎng)絡(luò)中的每個(gè) 用戶作為源結(jié)點(diǎn),進(jìn)一步提取其與其它用戶的關(guān)系信息生成相應(yīng)的用戶 集合,基于所述用戶集合進(jìn)一步挖掘相關(guān)的用戶信息。參考圖2,示出了本發(fā)明的一種用戶信息挖掘方法實(shí)施例2的流程圖, 可以包括以下步驟步驟201、獲取用戶的個(gè)體信息,以及,該用戶與其它用戶的關(guān)系信息;優(yōu)選的,可以將所述用戶的個(gè)體信息,以及,該用戶與其它用戶的 關(guān)系信息存儲(chǔ)至文件或數(shù)據(jù)庫(kù)中,生成用戶信息庫(kù)。其中,所述個(gè)體信 息可以包括用戶基本資料信息(靜態(tài)信息)和用戶行為記錄信息(動(dòng)態(tài) 信息)。所述用戶之間的關(guān)系信息為各種WEB應(yīng)用中,當(dāng)前用戶與其它 用戶的鏈接關(guān)系信息。步驟202、生成屬于相同關(guān)系信息的相應(yīng)用戶的集合,提取集合內(nèi)用 戶的滿足共性的個(gè)體信息;基于所述用戶信息庫(kù),則可以依據(jù)所述關(guān)系信息對(duì)相應(yīng)用戶進(jìn)行分 類整合,從而提煉出各個(gè)維度的網(wǎng)絡(luò)(即用戶集合)。可以理解,每個(gè)網(wǎng) 絡(luò)內(nèi)的結(jié)點(diǎn)(用戶)具有與當(dāng)前用戶相同的鏈接關(guān)系,如親戚關(guān)系、同 學(xué)關(guān)系、同事關(guān)系等。在本實(shí)施例中,所述用戶集合可以為多個(gè),即某個(gè)用戶具有對(duì)應(yīng)的多個(gè)關(guān)系網(wǎng)絡(luò)。由于不同類別的網(wǎng)絡(luò)都具有相應(yīng)的共性,例如,"同學(xué)" 網(wǎng)絡(luò)的共性可以是年齡相仿、學(xué)歷相同,提取網(wǎng)絡(luò)內(nèi)每個(gè)結(jié)點(diǎn)(用戶) 的相應(yīng)屬性,即提取該網(wǎng)絡(luò)內(nèi)每個(gè)用戶的年齡、學(xué)歷兩個(gè)個(gè)體信息即可?;蛘?,"同事,,網(wǎng)絡(luò)的共性可以是學(xué)歷相近、職業(yè)相同、行業(yè)相同、所 在城市相同,針對(duì)該網(wǎng)絡(luò),則只需要提取該網(wǎng)絡(luò)內(nèi)每個(gè)用戶的職業(yè)、學(xué) 歷、所在城市三個(gè)個(gè)體信息即可??梢钥闯?,每個(gè)網(wǎng)絡(luò)可以有多個(gè)滿足 共性的個(gè)體信息,并且不同網(wǎng)絡(luò)的共性可能有交叉,如上述"同學(xué)"、"同 事"網(wǎng)絡(luò)的"學(xué)歷"。步驟203、統(tǒng)計(jì)所述個(gè)體信息的共性參考值,并計(jì)算所述共性參考值 的權(quán)重值?;谒鎏崛〉膫€(gè)體信息,即可在統(tǒng)計(jì)的基礎(chǔ)上,挖掘出共性的參 考值。優(yōu)選的,所述統(tǒng)計(jì)共性參考值可以采用以下方法獲得 計(jì)算所述個(gè)體信息的平均值為共性參考值; 或者,計(jì)算符合要求的個(gè)體信息的平均值為共性參考值; 或者,統(tǒng)計(jì)分布概率滿足一定閾值的個(gè)體信息為共性參考值。 在本實(shí)施例中,對(duì)于各個(gè)網(wǎng)絡(luò)中交叉的個(gè)體信息的共性參考值,可 以通過(guò)計(jì)算得到的權(quán)重值來(lái)確定最恰當(dāng)?shù)墓残詤⒖贾?,以用于后續(xù)的網(wǎng) 絡(luò)間修正和網(wǎng)絡(luò)內(nèi)用戶相應(yīng)個(gè)體信息的修正。例如,從"同學(xué)"網(wǎng)絡(luò)統(tǒng) 計(jì)得到的年齡層,可能會(huì)由于集合的用戶較少(即整個(gè)網(wǎng)絡(luò)結(jié)點(diǎn)較少)、 或者整體出錯(cuò),如大部分都沒(méi)有填寫(xiě)年齡,或填寫(xiě)虛假年齡,那么得到 該網(wǎng)絡(luò)的年齡層的權(quán)重值(可信度或準(zhǔn)確度)較低。而如果通過(guò)另外的 網(wǎng)絡(luò),如"同事,,網(wǎng)絡(luò)統(tǒng)計(jì)得到的年齡層具有較高的權(quán)重值,則可以以 這個(gè)具有較高權(quán)重的年齡完成后續(xù)修正和推導(dǎo)處理。步驟204、從多個(gè)用戶集合中提取相應(yīng)的多個(gè)個(gè)體信息的共性參考值 及權(quán)重值,計(jì)算標(biāo)準(zhǔn)共性參考值,用所述標(biāo)準(zhǔn)共性參考值修正集合內(nèi)相應(yīng) 個(gè)體信息的共性參考值。例如, 一種計(jì)算的方法為標(biāo)準(zhǔn)共性參考值=權(quán)重1*共性參考值1 + 權(quán)重2*共性參考值2+權(quán)重3*共性參考值3 + ...,在這種情況下,假設(shè) 從"同學(xué)"網(wǎng)絡(luò)統(tǒng)計(jì)得到的"年齡"共性參考值為50,可信度為20%; 從"同事,,網(wǎng)絡(luò)統(tǒng)計(jì)得到的"年齡"共性參考值為22,可信度為80%,則可以獲得標(biāo)準(zhǔn)共性參考值=50*20%+22*80%=27.6,則修正"同事,,網(wǎng) 絡(luò)的和"同學(xué)"網(wǎng)絡(luò)的"年齡"共性參考值為27.6。步驟205、依據(jù)所述權(quán)重值最大的共性參考值推導(dǎo)關(guān)聯(lián)的個(gè)體信息的 共性參考值。如果通過(guò)單個(gè)網(wǎng)絡(luò)或多個(gè)網(wǎng)絡(luò)無(wú)法得到權(quán)重值較高的第 一共性參考 值,但可以得到權(quán)重值較高的第二共性參考值,而且,該第一共性參考 值與第二參考值存在關(guān)聯(lián),則可以通過(guò)所述第二共性參考值推導(dǎo)所述第 一共性參考值。例如,"年齡"為10歲左右的用戶,"學(xué)歷" 一般為"小 學(xué)";"年齡,,為20左右的用戶,"學(xué)歷" 一般為"大學(xué)";如果通過(guò)單個(gè) 網(wǎng)絡(luò)或多個(gè)網(wǎng)絡(luò)無(wú)法得到權(quán)重值較高的"年齡",但可以得到權(quán)重值較高 的"學(xué)歷",則可以通過(guò)"學(xué)歷"推導(dǎo)出"年齡",反之亦然。步驟206、依據(jù)所述共性參考值修正所述集合內(nèi)用戶的個(gè)體信息。即基于各個(gè)網(wǎng)絡(luò)得到的共性參考值,推導(dǎo)與修正該網(wǎng)絡(luò)中每個(gè)用戶 相應(yīng)的個(gè)性信息。優(yōu)選的是,所述修正步驟還可以為基于所述共性參 考值的一定范圍修正所述集合內(nèi)用戶相應(yīng)的個(gè)體信息。在實(shí)際中,可以根據(jù)實(shí)際需求任意執(zhí)行所述步驟204和/或步驟205, 以獲得恰當(dāng)?shù)墓残詤⒖贾怠?duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列 的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng) 作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí) 進(jìn)行。其次,本領(lǐng)域:技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均 屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。以下以 一 種具體實(shí)現(xiàn)過(guò)程進(jìn) 一 步"i兌明本發(fā)明。該過(guò)程可以包4舌 步驟A1、獲取某個(gè)WEB應(yīng)用中用戶的個(gè)體信息,以及,該用戶與 其它用戶的關(guān)系信息。生成用戶信息庫(kù)UserDB, UserDB中包括User: 《用戶ID,基本資料信息,行為記錄信息,{聯(lián)系人聯(lián)系人ID,關(guān)系信 息}, {聯(lián)系人聯(lián)系人ID,關(guān)系信息}, {聯(lián)系人聯(lián)系人ID,關(guān)系信息} , ..}。 步驟A2、通過(guò)網(wǎng)絡(luò)分類器對(duì)所述用戶信息庫(kù)進(jìn)行分類。 網(wǎng)絡(luò)分類器是一個(gè)程序,它可以^皮描述為Classify (ClassRule[],UserDB),它的輸入是分類規(guī)則的數(shù)組、用戶信息庫(kù)。ClassRule即是一個(gè) 分類MJ'j,它可以一皮描述為{ClassID, LinkAttr, UserAttrl, UserAttr2, UserAtt3...},即每個(gè)分類規(guī)則定義了 一個(gè)分類ID ( ClassID )、鏈4妄屬性 (LinkAttr )、所轄的用戶個(gè)體信息的集合(UserAttr), ClassRule[]是一個(gè) 數(shù)組,可以包括多個(gè)規(guī)則。盡管不同的Web應(yīng)用的聯(lián)系人的關(guān)系定義不同,但是網(wǎng)絡(luò)分類器可 以按照 一 種通用的流程處理,例如通過(guò)以下子步驟進(jìn)行處理子步驟A21、讀取一條User記錄,根據(jù)每條分類規(guī)則,將用戶ID、 相應(yīng)的用戶屬性(UserAttr )放到 一個(gè)數(shù)據(jù)結(jié)構(gòu)Node: {UserlD, UserAttr 1 , UserAttr2, UserAttr3,}中;子步驟A22、遍歷該用戶的聯(lián)系人列表,根據(jù)ClassRule的LinkAttr, 提取出ClassRule中定義的UserAttr,得到聯(lián)系人的數(shù)據(jù)結(jié)構(gòu)Node: {UserlD, UserAttrl, UserAttr2, UserAttr3...};子步驟A23、某個(gè)用戶的Node和他的聯(lián)系人的Node形成一個(gè)網(wǎng)絡(luò), 它可以被描述為Net: {NetID, Nodel, Node2, Node3...}。由于分類頭見(jiàn)則 是一個(gè)數(shù)組,即可以有多個(gè)規(guī)則,那么就會(huì)有多個(gè)網(wǎng)絡(luò),即用戶和他的 聯(lián)系人會(huì)在每個(gè)規(guī)則上都有一個(gè)網(wǎng)絡(luò),這就是多維的概念,每個(gè)網(wǎng)絡(luò)通 過(guò)NetID來(lái)標(biāo)識(shí),最終是一個(gè)Net的H組Net[]。步驟A3、抽取所述分類后的網(wǎng)絡(luò)的共性;所述共性抽取可以被描述為Extract (Net[]),輸入是網(wǎng)絡(luò)的數(shù)組。 處理流程可以為讀取一個(gè)Net,遍歷Net內(nèi)的每個(gè)Node,得到某個(gè)屬 性(個(gè)體信息)的數(shù)組,進(jìn)行屬性運(yùn)算ComputePublic( UserAttr[]),對(duì) 于不同的UserAttr, ComputePublic被重載(即有不同的實(shí)現(xiàn)),最終得到 該屬性在本數(shù)組內(nèi)的共性值和可信度,描述為AttrPublic: {UserAttr, Value, Reliability},由于有多個(gè)屬性,則輸出可以被描述為NetPublic: {NetID, AttrPublic 1, AttrPublic2, AttrPublic3...};由于輸入是Net數(shù)組, 則最終的輸出為NetPublic []: {NetPublic 1, NetPublic2 , NetPublic3 .,}。步驟A4、依據(jù)共性抽取結(jié)果修正個(gè)性。個(gè)性修正過(guò)程可以被描述為Modify(Net[], NetPublic[]),輸入是網(wǎng) 絡(luò)數(shù)組、共性抽取結(jié)果數(shù)組,處理流程包括以下子步驟子步驟A41、從Net[]中讀取一個(gè)Net,得到NetID、 Node[];子步驟A42、根據(jù)NetID在NetPublic[]中找到對(duì)應(yīng)的NetPublic;子步驟A43、遍歷NetPublic中的每個(gè)AttrPublic,調(diào)用修正程序 ComputePrivate(AttrPublic, Node[]), 乂t于不同的UserAttr, ComputePrivate 被重載(即有不同的實(shí)現(xiàn)),最終修正Net數(shù)組里每個(gè)Node相應(yīng)的 UserAttr 。子步驟A44、建立UserID到NetPublic的倒排索引,遍歷Net[],獲 取NetID和Node[],遍歷Node[],得到UserID,再根據(jù)NetID在NetPublic[] 中找到NetPublic,建立對(duì)應(yīng)關(guān)系UserID—>NetPublic。由于同一個(gè)用戶可能出現(xiàn)在多個(gè)網(wǎng)絡(luò)中(多維網(wǎng)絡(luò))中,那么同一 個(gè)UserID會(huì)出現(xiàn)在不同的Net中,就會(huì)找到多個(gè)NetPublic,這樣最終的 倒排索引應(yīng)該是UserID—>{NetPublic 1, NetPublic2, NetPublic3...},由 于不同的NetPublic可能包含同樣的UserAttr,即存在同一個(gè)屬性在不同 的網(wǎng)絡(luò)里計(jì)算得到的AttrPublic,形成一個(gè)數(shù)組AttrPublic[],經(jīng)過(guò)修正程 序InterCompute(AttrPublic[] , User)^修正用戶的某個(gè)屬性。參考圖3,示出了本發(fā)明的一種用戶信息挖掘系統(tǒng)實(shí)施例1的結(jié)構(gòu)框 圖,可以包括以下單元獲:f又單元301,用于獲取用戶的個(gè)體信息,以及,該用戶與其它用戶 的關(guān)系信息;集合單元302,用于生成屬于相同關(guān)系信息的相應(yīng)用戶的集合; 共性統(tǒng)計(jì)單元303,用于提取集合內(nèi)用戶的滿足共性的個(gè)體信息,并 統(tǒng)計(jì)所述個(gè)體信息的共性參考值。 ' 優(yōu)選的,在本實(shí)施例中,還可以包括個(gè)性修正單元304,用于依據(jù)所述共性參考值修正所述集合內(nèi)用戶相 應(yīng)的個(gè)體信息。優(yōu)選的,還可以將所述用戶的個(gè)體信息,以及,該用戶與其它用戶 的關(guān)系信息通過(guò)存儲(chǔ)單元305存儲(chǔ)至文件或數(shù)據(jù)庫(kù)中。應(yīng)用上述系統(tǒng)實(shí)施例進(jìn)行用戶信息挖掘的過(guò)程可以包括步驟B1、獲取單元獲取用戶的個(gè)體信息,以及,該用戶與其它用戶的關(guān)系信息,并通過(guò)存儲(chǔ)單元將所述個(gè)體信息和關(guān)系信息存儲(chǔ)至文件或數(shù)據(jù)庫(kù)中;步驟B2、集合單元生成屬于相同關(guān)系信息的相應(yīng)用戶的集合; 步驟B3、共性統(tǒng)計(jì)單元提取集合內(nèi)用戶的滿足共性的個(gè)體信息,并統(tǒng)計(jì)所述個(gè)體信息的共性參考值;步驟B4、個(gè)性修正單元依據(jù)所述共性參考值修正所述集合內(nèi)用戶相應(yīng)的個(gè)體信息。參考圖4,示出了本發(fā)明的一種用戶信息挖掘系統(tǒng)實(shí)施例2的結(jié)構(gòu)框 圖,可以包括以下單元獲取單元401,用于獲取用戶的個(gè)體信息,以及,該用戶與其它用戶 的關(guān)系信息;集合單元402,用于生成屬于相同關(guān)系信息的相應(yīng)用戶的集合; 在本實(shí)施例中,生成的用戶集合可以為多個(gè)。共性統(tǒng)計(jì)單元403,用于提取集合內(nèi)用戶的滿足共性的個(gè)體信息,并統(tǒng)計(jì)所述個(gè)體信息的共性參考值;權(quán)重計(jì)算單元404,用于計(jì)算所述共性參考值的權(quán)重值; 共性修正單元405,用于從多個(gè)用戶集合中提取相應(yīng)的多個(gè)個(gè)體信息的共性參考值及權(quán)重值,計(jì)算標(biāo)準(zhǔn)共性參考值,用所述標(biāo)準(zhǔn)共性參考值修正集合內(nèi)相應(yīng)個(gè)體信息的共性參考值;推導(dǎo)單元406,用于依據(jù)所述權(quán)重值最大的共性參考值推導(dǎo)關(guān)聯(lián)的個(gè) 體信息的共性參考值;個(gè)性修正單元407,用于依據(jù)所述共性參考值修正所述集合內(nèi)用戶的 個(gè)體信息。優(yōu)選的,在本實(shí)施中,也可以包括將所述用戶的個(gè)體信息,以及, 該用戶與其它用戶的關(guān)系信息存儲(chǔ)至文件或數(shù)據(jù)庫(kù)中的存儲(chǔ)單元。 應(yīng)用上述系統(tǒng)實(shí)施例進(jìn)行用戶信息挖掘的過(guò)程可以包括 步驟C1、獲取單元獲取用戶的個(gè)體信息,以及,該用戶與其它用戶 的關(guān)系信息;步驟C2、集合單元生成屬于相同關(guān)系信息的相應(yīng)用戶的集合;步驟C3、共性統(tǒng)計(jì)單元提取集合內(nèi)用戶的滿足共性的個(gè)體信息,并統(tǒng)計(jì)所述個(gè)體信息的共性參考值;步驟C4、權(quán)重計(jì)算單元計(jì)算所述共性參考值的權(quán)重值;步驟C5、共性修正單元以所述權(quán)重值最大的共性參考值,修正不同 集合內(nèi)相應(yīng)個(gè)體信息的共性參考值;步驟C6、推導(dǎo)單元依據(jù)所述權(quán)重值最大的共性參考值推導(dǎo)關(guān)聯(lián)的個(gè) 體信息的共性參考值;步驟C7、個(gè)性修正單元依據(jù)所述共性參考值修正所述集合內(nèi)用戶相 應(yīng)的個(gè)體信息。在實(shí)際中,可以根據(jù)實(shí)際需求任意執(zhí)行所述步驟C5和/或步驟C6, 以獲得恰當(dāng)?shù)墓残詤⒖贾怠T谏鲜鰧?shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中 沒(méi)有詳述的部分,可以參見(jiàn)前述部分的相關(guān)描述即可。上述隨意舉出了 本發(fā)明的幾種實(shí)施例,本領(lǐng)域技術(shù)人員根據(jù)具體情況適當(dāng)組合、選擇, 可以充分地發(fā)揮本發(fā)明的技術(shù)功效?;谏鲜鰧?shí)施例的任意組合都是本 發(fā)明的實(shí)施方案,但是由于篇幅限制,本說(shuō)明書(shū)在此就不——詳述了。由于圖3和圖4所示的系統(tǒng)都可以對(duì)應(yīng)適用于前述的各種方法實(shí)施 例中,所以描述較為簡(jiǎn)略,未詳盡之處可以參見(jiàn)本說(shuō)明書(shū)前面相應(yīng)部分 的描述。以上對(duì)本發(fā)明所提供的一種用戶信息挖掘方法和一種用戶信息挖掘 系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方 式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其 核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容 不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1. 一種用戶信息挖掘方法,其特征在于,包括獲取用戶的個(gè)體信息,以及,該用戶與其它用戶的關(guān)系信息;生成屬于相同關(guān)系信息的相應(yīng)用戶的集合,提取集合內(nèi)用戶的滿足共性的個(gè)體信息,并統(tǒng)計(jì)所述個(gè)體信息的共性參考值。
2、 如權(quán)利要求l所述的方法,其特征在于,還包括 依據(jù)所述共性參考值修正所述集合內(nèi)用戶相應(yīng)的個(gè)體信息。
3、 如權(quán)利要求2所述的方法,其特征在于,所述用戶集合為多個(gè), 所述的方法還包括計(jì)算所述共性參考值的權(quán)重值。
4、 如權(quán)利要求3所述的方法,其特征在于,還包括從多個(gè)用戶集合中提取相應(yīng)的多個(gè)個(gè)體信息的共性參考值及權(quán)重值, 計(jì)算標(biāo)準(zhǔn)共性參考值,用所述標(biāo)準(zhǔn)共性參考值修正集合內(nèi)相應(yīng)個(gè)體信息 的共性參考值。
5、 如權(quán)利要求4所述的方法,其特征在于,還包括 依據(jù)所述權(quán)重值最大的共性參考值推導(dǎo)關(guān)聯(lián)的個(gè)體信息的共性參考值。
6、 如上述任一項(xiàng)權(quán)利要求所述的方法,其特征在于,還包括 將所述用戶的個(gè)體信息,以及,該用戶與其它用戶的關(guān)系信息存儲(chǔ)至文件或it據(jù)庫(kù)中。
7、 如權(quán)利要求6所述的方法,其特征在于,所述統(tǒng)計(jì)共性參考值的 步驟包括計(jì)算所述個(gè)體信息的平均值為共性參考值;或者,計(jì)算符合要求的個(gè)體信息的平均值為共性參考值;或者,統(tǒng)計(jì)分布概率滿足一定閾值的個(gè)體信息為共性參考值。
8、 如權(quán)利要求l所述的方法,其特征在于,所述個(gè)體信息包括用戶 基本資料信息和用戶行為記錄信息。
9、 如權(quán)利要求2或4所述的方法,其特征在于,所述修正步驟為 基于所述共性參考值的一定范圍修正所述集合內(nèi)用戶相應(yīng)的個(gè)體信自
10、 一種用戶信息挖掘系統(tǒng),其特征在于,包括獲取單元,用于獲fl用戶的個(gè)體信息,以及,該用戶與其它用戶的 關(guān)系信息;集合單元,用于生成屬于相同關(guān)系信息的相應(yīng)用戶的集合; 共性統(tǒng)計(jì)單元,用于提取集合內(nèi)用戶的滿足共性的個(gè)體信息,并統(tǒng) 計(jì)所述個(gè)體信息的共性參考值。
11、 如權(quán)利要求IO所述的系統(tǒng),其特征在于,還包括 個(gè)性修正單元,用于依據(jù)所述共性參考值修正所述集合內(nèi)用戶相應(yīng)的個(gè)體信息。
12、 如權(quán)利要求11所述的系統(tǒng),其特征在于,所述用戶集合為多個(gè), 所述的系統(tǒng)還包括權(quán)重計(jì)算單元,用于計(jì)算所述共性參考值的權(quán)重值。
13、 如權(quán)利要求12所述的系統(tǒng),其特征在于,還包括 共性修正單元,用于從多個(gè)用戶集合中提取相應(yīng)的多個(gè)個(gè)體信息的共性參考值及權(quán)重值,計(jì)算標(biāo)準(zhǔn)共性參考值,用所述標(biāo)準(zhǔn)共性參考值修正 集合內(nèi)相應(yīng)個(gè)體信息的共性參考值。
14、 如權(quán)利要求13所述的系統(tǒng),其特征在于,還包括 推導(dǎo)單元,用于依據(jù)所述權(quán)重值最大的共性參考值推導(dǎo)關(guān)聯(lián)的個(gè)體信息的共性參考值。
15、 如權(quán)利要求10、 11、 12、 13或14所述的系統(tǒng),其特征在于, 還包括存儲(chǔ)單元,用于將所述用戶的個(gè)體信息,以及,該用戶與其它用戶 的關(guān)系信息存儲(chǔ)至文件或數(shù)據(jù)庫(kù)中。
全文摘要
本發(fā)明公開(kāi)了一種用戶信息挖掘方法,包括獲取用戶的個(gè)體信息,以及,該用戶與其它用戶的關(guān)系信息;生成屬于相同關(guān)系信息的相應(yīng)用戶的集合,提取集合內(nèi)用戶的滿足共性的個(gè)體信息,并統(tǒng)計(jì)所述個(gè)體信息的共性參考值。本發(fā)明通過(guò)將用戶鏈接關(guān)系信息引入到用戶信息挖掘,可以真實(shí)、完整、準(zhǔn)確地挖掘出某個(gè)群體的用戶特征。
文檔編號(hào)G06F17/30GK101266619SQ20081009694
公開(kāi)日2008年9月17日 申請(qǐng)日期2008年5月12日 優(yōu)先權(quán)日2008年5月12日
發(fā)明者禹榮凌 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
乌兰县| 措勤县| 淳安县| 育儿| 三门县| 黎川县| 九龙坡区| 乌苏市| 平昌县| 公安县| 威海市| 东港市| 桐庐县| 西安市| 古交市| 安义县| 阜新市| 筠连县| 西充县| 海门市| 文成县| 怀来县| 泽州县| 柳林县| 黄浦区| 望奎县| 洛阳市| 大姚县| 吴江市| 吴桥县| 宿州市| 栾川县| 通山县| 福泉市| 同江市| 太保市| 犍为县| 区。| 东乌珠穆沁旗| 西乌珠穆沁旗| 嘉鱼县|