两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于高頻刷卡數(shù)據(jù)的朋友關(guān)系識(shí)別方法與流程

文檔序號(hào):11654464閱讀:332來源:國知局
一種基于高頻刷卡數(shù)據(jù)的朋友關(guān)系識(shí)別方法與流程

本發(fā)明屬于信息處理和特征識(shí)別領(lǐng)域,涉及到一種基于高頻刷卡數(shù)據(jù)的朋友關(guān)系識(shí)別方法。



背景技術(shù):

現(xiàn)在如果我們假設(shè)你從一個(gè)集體到了另一個(gè)新的集體中,那么你會(huì)有多大的可能性和你周圍的某個(gè)人成為朋友呢?又從社會(huì)學(xué)的方面而言,在一個(gè)群體中,兩兩之間的朋友關(guān)系又能占到多大比例呢?要回答這些問題,首先就要建立一種穩(wěn)定、高效同時(shí)具有大規(guī)模性質(zhì)的朋友識(shí)別方法。另一方面,從商業(yè)角度來說,個(gè)人社會(huì)朋友關(guān)系的識(shí)別對(duì)一些企業(yè)或公司拓展新用戶,以及對(duì)老用戶開展個(gè)性化服務(wù)都具有十分重要的意義。

近年來,隨著互聯(lián)網(wǎng)的普及和發(fā)展,越來越多的專家學(xué)者樂于用一些社交軟件,網(wǎng)絡(luò)平臺(tái),虛擬游戲設(shè)備來識(shí)別朋友關(guān)系。雖然這些方法對(duì)社會(huì)研究,企業(yè)發(fā)展能產(chǎn)生一定的指導(dǎo)性意義,但是基于這些方法,認(rèn)真分析可發(fā)現(xiàn)三點(diǎn)明顯的不足:一是用戶在填寫注冊(cè)信息時(shí)往往會(huì)存在虛假成分,不能真實(shí)反映自身的信息;二是用戶的網(wǎng)上行為并不能真實(shí)的反映人們現(xiàn)實(shí)世界的朋友關(guān)系,比如銀行、超市、健身房等服務(wù)性場(chǎng)所,卻只有現(xiàn)實(shí)世界的朋友關(guān)系才能幫助它們有效拓展客戶源;三是在網(wǎng)絡(luò)虛擬平臺(tái)上得到的某些朋友關(guān)系及其薄弱,或者地域上相差及遠(yuǎn),很明顯這些所謂的朋友關(guān)系或者不存在,或者不處在一個(gè)特定的群體里,對(duì)我們的研究而言沒有太大的實(shí)際意義。

當(dāng)前的朋友識(shí)別系統(tǒng)通常是基于用戶的注冊(cè)信息,以及用戶的上網(wǎng)行為來挖掘用戶之間的朋友關(guān)系,對(duì)互聯(lián)網(wǎng)技術(shù)有了應(yīng)用卻又恰恰忽略了現(xiàn)實(shí)社會(huì),人們真實(shí)生活記錄的重要性,反倒顯得得不償失。經(jīng)過認(rèn)真分析研究發(fā)現(xiàn)隨著現(xiàn)代信息技術(shù)的快速發(fā)展和網(wǎng)絡(luò)技術(shù)的不斷成熟,以及近些年來大數(shù)據(jù)的分析應(yīng)用技術(shù)已經(jīng)進(jìn)入人們生活的方方面面,記錄人們?nèi)粘U鎸?shí)行為一卡通作為信息技術(shù)的產(chǎn)物,對(duì)于改進(jìn)人們生活的便捷程度和推動(dòng)數(shù)字化管理起到了巨大的作用。由一卡通產(chǎn)生的反映人們行為的高頻數(shù)據(jù)能夠有效識(shí)別人與人之間關(guān)系,那些在大量的數(shù)據(jù)中擁有著相似刷卡行為的個(gè)體親密度更高,更有可能是朋友關(guān)系。由此,產(chǎn)生了一種基于高頻刷卡數(shù)據(jù)的朋友關(guān)系識(shí)別方法。

日常生活中,高頻刷卡數(shù)據(jù)的來源極其廣泛。例如,高校學(xué)生一日三餐的刷卡數(shù)據(jù),以及進(jìn)出校門,宿舍,圖書館借書、自習(xí),超市購物等數(shù)據(jù)都可以作為很好的研究樣本。并且這種大數(shù)據(jù)的特點(diǎn)從一定程度上保證了研究結(jié)果的穩(wěn)定性和可靠性。另一方面,這些大數(shù)據(jù)可以利用先進(jìn)的計(jì)算機(jī)技術(shù)進(jìn)行分析處理,很好的保證了研究的準(zhǔn)確性和高效性。

運(yùn)用這些高頻刷卡數(shù)據(jù)和先進(jìn)的應(yīng)用軟件以及計(jì)算分析技術(shù)真正實(shí)現(xiàn)了從真實(shí)的日常生活中來識(shí)別朋友關(guān)系。從研究者的角度來說,朋友是從各種各樣的生活數(shù)據(jù)中得來,它的真實(shí)性和可靠性無須贅述,對(duì)進(jìn)一步的社會(huì)關(guān)系的發(fā)展和演變的研究,以及其規(guī)律的探尋有著不可代替的重要作用。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)當(dāng)前朋友關(guān)系識(shí)別方法中存在的僅僅依靠用戶注冊(cè)信息和用戶上網(wǎng)行為進(jìn)行朋友關(guān)系識(shí)別的不足,本發(fā)明提出了一種基本高頻刷卡數(shù)據(jù)的朋友關(guān)系識(shí)別方法。以滿足商家有效挖掘新用戶和對(duì)老用戶進(jìn)行個(gè)性化服務(wù)的需求。

本發(fā)明采用的技術(shù)方案是:

一種基于高頻刷卡數(shù)據(jù)的朋友關(guān)系識(shí)別方法,主要包括數(shù)據(jù)預(yù)處理、相似行為矩陣的生成、相似行為閾值的確定和朋友關(guān)系的識(shí)別;

1)數(shù)據(jù)預(yù)處理;獲取當(dāng)前所有用戶的高頻刷卡數(shù)據(jù),提取數(shù)據(jù)中有效信息,包括用戶的id,刷卡的地點(diǎn),刷卡的時(shí)間,刷卡操作的類型,刪除數(shù)據(jù)中所有的標(biāo)點(diǎn),僅保留數(shù)字信息,并對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的命名,存入統(tǒng)一的數(shù)據(jù)倉庫中;

2)相似行為矩陣的生成;

(a)對(duì)于數(shù)據(jù)倉庫中的數(shù)據(jù)而言,當(dāng)任意兩個(gè)用戶的刷卡記錄的地點(diǎn)一致,同時(shí)刷卡時(shí)間間隔不超過t秒時(shí),則稱這兩個(gè)用戶之間存在一次相似行為;

(b)設(shè)定時(shí)間區(qū)間t,提取數(shù)據(jù)倉庫中在時(shí)間區(qū)間t范圍內(nèi)的數(shù)據(jù);在時(shí)間區(qū)間t范圍內(nèi),用戶m和用戶n的相似行為次數(shù)就構(gòu)成了相似行為矩陣的一個(gè)元素am,n;相似行為矩陣為主對(duì)角元素均為0的對(duì)稱矩陣;

3)相似行為閾值的確定;提取相似行為矩陣對(duì)角線上方的所有元素,生成帕累托圖,取累計(jì)百分比首次超過α,0<α<100%所對(duì)應(yīng)的相似行為的次數(shù)作為相似行為閾值,α通常取90%;

4)朋友關(guān)系的識(shí)別;找出所有相似行為超過相似行為閾值的用戶對(duì),將他們確認(rèn)為朋友關(guān)系,同時(shí)輸出所有的朋友對(duì)。

本發(fā)明優(yōu)點(diǎn)是:能夠利用用戶產(chǎn)生的高頻刷卡數(shù)據(jù)有效識(shí)別用戶在現(xiàn)實(shí)生活中的朋友關(guān)系。

附圖說明

圖1是一卡通數(shù)據(jù)樣例圖。

圖2是數(shù)據(jù)清理圖。

圖3是進(jìn)入圖書館數(shù)據(jù)圖。

圖4是離開圖書館數(shù)據(jù)圖。

圖5是圖書館數(shù)據(jù)排序結(jié)果圖。

圖6是相似行為節(jié)點(diǎn)對(duì)圖。

圖7是相似行為矩陣圖。

圖8是帕累托圖。

具體實(shí)施方式

下面結(jié)合說明書附圖1-8及實(shí)施例對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。

一種基于高頻刷卡數(shù)據(jù)的朋友關(guān)系識(shí)別方法,主要包括數(shù)據(jù)預(yù)處理、相似行為矩陣的生成、相似行為閾值的確定和朋友關(guān)系的識(shí)別;

1)數(shù)據(jù)預(yù)處理;獲取當(dāng)前所有用戶的高頻刷卡數(shù)據(jù),提取數(shù)據(jù)中有效信息,包括用戶的id,刷卡的地點(diǎn),刷卡的時(shí)間,刷卡操作的類型,刪除數(shù)據(jù)中所有的標(biāo)點(diǎn),僅保留數(shù)字信息,并對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的命名,存入統(tǒng)一的數(shù)據(jù)倉庫中;

2)相似行為矩陣的生成;

(a)對(duì)于數(shù)據(jù)倉庫中的數(shù)據(jù)而言,當(dāng)任意兩個(gè)用戶的刷卡記錄的地點(diǎn)一致,同時(shí)刷卡時(shí)間間隔不超過t秒時(shí),則稱這兩個(gè)用戶之間存在一次相似行為;

(b)設(shè)定時(shí)間區(qū)間t,提取數(shù)據(jù)倉庫中在時(shí)間區(qū)間t范圍內(nèi)的數(shù)據(jù);在時(shí)間區(qū)間t范圍內(nèi),用戶m和用戶n的相似行為次數(shù)就構(gòu)成了相似行為矩陣的一個(gè)元素am,n;相似行為矩陣為主對(duì)角元素均為0的對(duì)稱矩陣;

3)相似行為閾值的確定;提取相似行為矩陣對(duì)角線上方的所有元素,生成帕累托圖,取累計(jì)百分比首次超過α,0<α<100%所對(duì)應(yīng)的相似行為的次數(shù)作為相似行為閾值,α通常取90%;

4)朋友關(guān)系的識(shí)別;找出所有相似行為超過相似行為閾值的用戶對(duì),將他們確認(rèn)為朋友關(guān)系,同時(shí)輸出所有的朋友對(duì)。

實(shí)施例

1、數(shù)據(jù)預(yù)處理

(1)數(shù)據(jù)清理

從學(xué)校教務(wù)處獲取的一卡通數(shù)據(jù)如圖1所示,每一行代表一個(gè)刷卡記錄,分別為學(xué)生的id,學(xué)生的刷卡操作,學(xué)生刷卡的時(shí)間。以10條數(shù)據(jù)為例,對(duì)數(shù)據(jù)進(jìn)行清理。數(shù)據(jù)清理的內(nèi)容包括刪除不完整的數(shù)據(jù),刪除每一條數(shù)據(jù)中刷卡操作記錄中的引號(hào)、刷卡時(shí)間記錄中的引號(hào)和斜線號(hào),經(jīng)處理后得到結(jié)果如圖2。將處理后的數(shù)據(jù)保存到數(shù)據(jù)倉庫中。

(2)數(shù)據(jù)分類

在每一條數(shù)據(jù)中,不僅記錄了刷卡的時(shí)間,還記錄了刷卡者是進(jìn)入還是離開圖書館。由于兩個(gè)用戶如果存在朋友關(guān)系,通常都是同時(shí)進(jìn)入圖書館或者同時(shí)離開。因此,我們假定只有兩個(gè)用戶同時(shí)進(jìn)入或離開才稱作一次相似行為?;诖朔N假定,我們將進(jìn)入和離開的數(shù)據(jù)進(jìn)行分類,建立兩個(gè)txt文檔,分別命名為“l(fā)ibrary_in”和“l(fā)ibrary_out”?!發(fā)ibrary_in”和“l(fā)ibrary_out”中的數(shù)據(jù)分別如圖3和圖4所示。

(3)數(shù)據(jù)整理

以“l(fā)ibrary_in”為例,使用c++sort排序方法將文本中的數(shù)據(jù)按時(shí)間排序,得到結(jié)果如圖5所示。

2、相似行為矩陣的建立

我們假定當(dāng)兩名用戶刷卡地點(diǎn)一致,并且刷卡時(shí)間間隔不超過30秒時(shí),則稱兩者存在一次相似行為。下面具體闡述相似行為矩陣的生成方法:

首先建立一個(gè)空的隊(duì)列,之后按行遍歷文本。如果隊(duì)列為空,將讀取到的當(dāng)前行的時(shí)間信息排入隊(duì)列;如果隊(duì)列中存在信息,則將該行時(shí)間信息與隊(duì)首的時(shí)間信息進(jìn)行比較。若時(shí)間間隔小于30秒,則視為一次相似性為,輸出到“friend”文本中,并繼續(xù)向下遍歷隊(duì)列;如果時(shí)間間隔都小于30秒,則將該行信息加入到隊(duì)尾中;如果時(shí)間間隔大于30秒,則將隊(duì)列中該點(diǎn)的信息替換為文本中該行的信息,繼續(xù)向下遍歷文本。統(tǒng)計(jì)出兩個(gè)時(shí)間間隔不超過30秒的同學(xué)id,得到朋友對(duì),朋友對(duì)的兩個(gè)id按遞增順序輸出,并且保留朋友對(duì)的年月日信息。按半月為時(shí)間單位生成矩陣,輸出結(jié)果如圖6所示。將“friend”文檔中的數(shù)據(jù)按半月為時(shí)間段分成若干個(gè)小文本,將用戶id按遞增順序?qū)?yīng)生成如圖7所示的相似行為矩陣。

3、相似行為閾值的確定

我們?cè)O(shè)定α的值為90%,獲取相似行為矩陣對(duì)角線上方的數(shù)據(jù),生成帕累托圖,如圖8所示。由圖8可知,相似行為次數(shù)為1的,累積百分比為85.04%。,相似行為次數(shù)為1和2時(shí)的累積百分比為96.38%,此時(shí)已經(jīng)超過了設(shè)定的90%的閾值,因此取2為相似行為閾值。

4.朋友關(guān)系的識(shí)別

我們將相似行為次數(shù)為2的用戶對(duì)認(rèn)定為存在朋友關(guān)系,因此用戶id為9733和9773的學(xué)生被識(shí)別為朋友關(guān)系。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
永吉县| 吉安县| 双辽市| 光山县| 都安| 湖北省| 东港市| 阜宁县| 喀喇沁旗| 江阴市| 五大连池市| 万安县| 江达县| 乐至县| 尉犁县| 岳普湖县| 哈密市| 聂拉木县| 云安县| 东海县| 阳西县| 洞头县| 平南县| 乐陵市| 定南县| 佛学| 临漳县| 资阳市| 仁化县| 沅江市| 怀柔区| 平武县| 乾安县| 白河县| 唐河县| 禄丰县| 彩票| 安福县| 乡宁县| 海阳市| 垫江县|