1.一種基于人際間會話信息的人際關(guān)系自動化畫像方法,其特征在于:包括以下步驟:
步驟一、定義會話雙方之間的會話信息集合:
P={P1,P2,...,Pn},P是指會話雙方之間的會話信息集合;其中,Pi是指會話信息集合中的某一條會話信息;當(dāng)Wi.sup>=min_sup時(shí),將會話信息集合P中的一個(gè)單詞集合Wi稱為一個(gè)頻繁項(xiàng);其中,Wi.sup表示會話信息集合P中一個(gè)單詞集合Wi的支持度,支持度為n表示在會話信息集合P中有n條信息包含單詞集合Wi;min_sup用來表示會話信息集合P中一個(gè)頻繁項(xiàng)的最小支持度;
步驟二、頻繁項(xiàng)集的挖掘:
采用FP-Growth算法在會話信息集合P中挖掘出一個(gè)頻繁項(xiàng)集;設(shè)會話信息集合P大小為size,單位是kb,且會話信息集合P中包含m條會話信息,則該頻繁項(xiàng)的最小支持度的取值按照如下公式計(jì)算可得:
式(1)中,p的取值范圍為0.2-0.5,所述頻繁項(xiàng)集中頻繁項(xiàng)的長度為2到10;
步驟三、提取會話信息中的主題,有下述兩種方法之一:
方法一是將步驟二挖掘出的頻繁項(xiàng)集中的頻繁項(xiàng)按照頻繁項(xiàng)的支持度進(jìn)行降序排列,然后提取前3-5個(gè)頻繁項(xiàng)作為主題,這些主題詞組合后即為會話信息中的主題;
方法二包括以下兩步驟:
步驟2-1、頻繁項(xiàng)集聚類:
首先,進(jìn)行相似頻繁項(xiàng)的過濾,過濾掉所述頻繁項(xiàng)集中的所有子集和頻繁項(xiàng)集中相似度很高的交叉項(xiàng)得到重要頻繁項(xiàng)集;其中,交叉項(xiàng)指的是頻繁項(xiàng)集中有相同單詞的頻繁項(xiàng);F={F1,F2,...,Fm}為過濾前的頻繁項(xiàng)集,將重要頻繁項(xiàng)集初始化為Key_F=Φ,重要頻繁項(xiàng)集記為Key_F;對于進(jìn)行下述處理過程:
對于如果Fi是Fj的一個(gè)子集,將Fi從F移除;如果Fi是Fj的交叉項(xiàng),F(xiàn)i與Fj之間的Jacard相似度J(Fi,Fj)用以下公式計(jì)算:
J(Fi,Fj)=|Fi∩Fj|/|Fi∪Fj|
當(dāng)Fi與Fj之間的相似度大于0.5時(shí),將Fi從F中移除;如果對于J(Fi,Fj)均小于等于0.5時(shí),則將Fi添加至Key_F;
重復(fù)上述處理過程直至F=Key_F;此時(shí)Key_F中的項(xiàng)集即為過濾后的重要頻繁項(xiàng)集;
然后,計(jì)算過濾后的重要頻繁項(xiàng)集Key_F中包含的全部單詞在會話雙方會話信息集合P中的逆向文本頻率即idf值;利用所述idf值計(jì)算重要頻繁項(xiàng)集Key_F中任意兩個(gè)頻繁項(xiàng)之間的相似度,兩個(gè)頻繁項(xiàng)之間的相似度等于兩個(gè)頻繁項(xiàng)的相關(guān)文本集之間的相似度;其中,相關(guān)文本集用以下方法求得:
通過計(jì)算過濾前的頻繁項(xiàng)集中的Fi與會話信息集合P中的某一條會話信息Pi之間的相似度,如果Fi與Pi之間的相似度大于c,c的取值范圍為0.05-0.2;則將Pi添加至Fi的相關(guān)文本集當(dāng)中,最終,F(xiàn)i的相關(guān)文本集用Ri進(jìn)行表示,F(xiàn)i與Pi之間的相似度由如下公式求得:
式(2)中,tfij指的是Fi中的第j個(gè)單詞在Pi中出現(xiàn)的頻率,idfij指的Fi中的第j個(gè)單詞的逆向文本頻率,得到每個(gè)頻繁項(xiàng)的相關(guān)文本集之后,利用相關(guān)文本集計(jì)算任意兩個(gè)頻繁項(xiàng)之間的相似度,計(jì)算公式如下:
得到任意兩個(gè)頻繁項(xiàng)之間的相似度之后,進(jìn)行聚類個(gè)數(shù)的估計(jì);
設(shè)定有一頻繁項(xiàng)集簇,并將該頻繁項(xiàng)集簇初始化為C={C1},C1={F1},F(xiàn)1是從Key_F中隨機(jī)選擇的一個(gè)頻繁項(xiàng);
對于比較Fi和C中當(dāng)前所有的簇之間的相似度,頻繁項(xiàng)Fi和簇Ck之間的相似度計(jì)算如下:
如果Csim是與Fi相似度最高的那個(gè)簇而且sim(Fi,Csim)>b,b=0.2,則將Fi添加至Csim;如果sim(Fi,Csim)<=b,則創(chuàng)建一個(gè)新的簇并把Fi添加至新簇;
然后,把C中的簇按照簇的大小進(jìn)行降序排列,即Csort={C(1),C(2),...,C(n)};依次累加C(i)中的頻繁項(xiàng)個(gè)數(shù)直至累加和超過Key_F中總的頻繁項(xiàng)個(gè)數(shù)的80%;如果k是最后一個(gè)在Csort中累加的下標(biāo),則k就是最終的預(yù)估聚類個(gè)數(shù);得到預(yù)估的聚類個(gè)數(shù),使用K-means算法對Key_F中的所有頻繁項(xiàng)進(jìn)行聚類;
步驟2-2、提取聚類后的主題:
通過抽取聚類之后的每個(gè)類中的主題詞,將這些主題詞組合作為該類的主題,抽取主題詞時(shí),考慮的因素包括詞的tf值、簇內(nèi)支持度和簇間區(qū)分度;
對于每個(gè)類中的所有單詞,按照如下公式計(jì)算每一個(gè)詞的重要程度:
式(5)中,第一項(xiàng)、第二項(xiàng)、第三項(xiàng)分別表示詞的tf值、簇內(nèi)支持度和簇間區(qū)分度;Wki指的是第k個(gè)類中的第i個(gè)單詞,tfki指的是第k個(gè)類中的第i個(gè)單詞的的tf值;|Fki|指的是在第k個(gè)類中包含單詞wki的頻繁項(xiàng)個(gè)數(shù);|Fk|指的是第k個(gè)類中總的頻繁項(xiàng)個(gè)數(shù);|Fi|指的是在Key_F中包含單詞Wki的頻繁項(xiàng)個(gè)數(shù);|F|指的是Key_F中總的頻繁項(xiàng)個(gè)數(shù);|Ci|指的是包含單詞Wki的類的個(gè)數(shù);|C|指的是類的總數(shù);
得到每個(gè)單詞的重要程度之后,把每個(gè)類中的單詞按照其重要程度進(jìn)行降序排列,然后選擇前3~6個(gè)的單詞作為主題詞,這些主題詞的組合即為該類中的主題;
步驟四、確定會話雙方的關(guān)系內(nèi)涵:
根據(jù)步驟三獲得的會話信息中的主題,得出會話雙方的關(guān)系內(nèi)涵。