两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于人際間會話信息的人際關(guān)系自動化畫像方法與流程

文檔序號:12465267閱讀:來源:國知局

技術(shù)特征:

1.一種基于人際間會話信息的人際關(guān)系自動化畫像方法,其特征在于:包括以下步驟:

步驟一、定義會話雙方之間的會話信息集合:

P={P1,P2,...,Pn},P是指會話雙方之間的會話信息集合;其中,Pi是指會話信息集合中的某一條會話信息;當(dāng)Wi.sup>=min_sup時(shí),將會話信息集合P中的一個(gè)單詞集合Wi稱為一個(gè)頻繁項(xiàng);其中,Wi.sup表示會話信息集合P中一個(gè)單詞集合Wi的支持度,支持度為n表示在會話信息集合P中有n條信息包含單詞集合Wi;min_sup用來表示會話信息集合P中一個(gè)頻繁項(xiàng)的最小支持度;

步驟二、頻繁項(xiàng)集的挖掘:

采用FP-Growth算法在會話信息集合P中挖掘出一個(gè)頻繁項(xiàng)集;設(shè)會話信息集合P大小為size,單位是kb,且會話信息集合P中包含m條會話信息,則該頻繁項(xiàng)的最小支持度的取值按照如下公式計(jì)算可得:

式(1)中,p的取值范圍為0.2-0.5,所述頻繁項(xiàng)集中頻繁項(xiàng)的長度為2到10;

步驟三、提取會話信息中的主題,有下述兩種方法之一:

方法一是將步驟二挖掘出的頻繁項(xiàng)集中的頻繁項(xiàng)按照頻繁項(xiàng)的支持度進(jìn)行降序排列,然后提取前3-5個(gè)頻繁項(xiàng)作為主題,這些主題詞組合后即為會話信息中的主題;

方法二包括以下兩步驟:

步驟2-1、頻繁項(xiàng)集聚類:

首先,進(jìn)行相似頻繁項(xiàng)的過濾,過濾掉所述頻繁項(xiàng)集中的所有子集和頻繁項(xiàng)集中相似度很高的交叉項(xiàng)得到重要頻繁項(xiàng)集;其中,交叉項(xiàng)指的是頻繁項(xiàng)集中有相同單詞的頻繁項(xiàng);F={F1,F2,...,Fm}為過濾前的頻繁項(xiàng)集,將重要頻繁項(xiàng)集初始化為Key_F=Φ,重要頻繁項(xiàng)集記為Key_F;對于進(jìn)行下述處理過程:

對于如果Fi是Fj的一個(gè)子集,將Fi從F移除;如果Fi是Fj的交叉項(xiàng),F(xiàn)i與Fj之間的Jacard相似度J(Fi,Fj)用以下公式計(jì)算:

J(Fi,Fj)=|Fi∩Fj|/|Fi∪Fj|

當(dāng)Fi與Fj之間的相似度大于0.5時(shí),將Fi從F中移除;如果對于J(Fi,Fj)均小于等于0.5時(shí),則將Fi添加至Key_F;

重復(fù)上述處理過程直至F=Key_F;此時(shí)Key_F中的項(xiàng)集即為過濾后的重要頻繁項(xiàng)集;

然后,計(jì)算過濾后的重要頻繁項(xiàng)集Key_F中包含的全部單詞在會話雙方會話信息集合P中的逆向文本頻率即idf值;利用所述idf值計(jì)算重要頻繁項(xiàng)集Key_F中任意兩個(gè)頻繁項(xiàng)之間的相似度,兩個(gè)頻繁項(xiàng)之間的相似度等于兩個(gè)頻繁項(xiàng)的相關(guān)文本集之間的相似度;其中,相關(guān)文本集用以下方法求得:

通過計(jì)算過濾前的頻繁項(xiàng)集中的Fi與會話信息集合P中的某一條會話信息Pi之間的相似度,如果Fi與Pi之間的相似度大于c,c的取值范圍為0.05-0.2;則將Pi添加至Fi的相關(guān)文本集當(dāng)中,最終,F(xiàn)i的相關(guān)文本集用Ri進(jìn)行表示,F(xiàn)i與Pi之間的相似度由如下公式求得:

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </munderover> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <msub> <mi>idf</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

式(2)中,tfij指的是Fi中的第j個(gè)單詞在Pi中出現(xiàn)的頻率,idfij指的Fi中的第j個(gè)單詞的逆向文本頻率,得到每個(gè)頻繁項(xiàng)的相關(guān)文本集之后,利用相關(guān)文本集計(jì)算任意兩個(gè)頻繁項(xiàng)之間的相似度,計(jì)算公式如下:

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>R</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>&cap;</mo> <msub> <mi>R</mi> <mi>j</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>&cup;</mo> <msub> <mi>R</mi> <mi>j</mi> </msub> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

得到任意兩個(gè)頻繁項(xiàng)之間的相似度之后,進(jìn)行聚類個(gè)數(shù)的估計(jì);

設(shè)定有一頻繁項(xiàng)集簇,并將該頻繁項(xiàng)集簇初始化為C={C1},C1={F1},F(xiàn)1是從Key_F中隨機(jī)選擇的一個(gè)頻繁項(xiàng);

對于比較Fi和C中當(dāng)前所有的簇之間的相似度,頻繁項(xiàng)Fi和簇Ck之間的相似度計(jì)算如下:

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>|</mo> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>|</mo> </mrow> </munderover> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

如果Csim是與Fi相似度最高的那個(gè)簇而且sim(Fi,Csim)>b,b=0.2,則將Fi添加至Csim;如果sim(Fi,Csim)<=b,則創(chuàng)建一個(gè)新的簇并把Fi添加至新簇;

然后,把C中的簇按照簇的大小進(jìn)行降序排列,即Csort={C(1),C(2),...,C(n)};依次累加C(i)中的頻繁項(xiàng)個(gè)數(shù)直至累加和超過Key_F中總的頻繁項(xiàng)個(gè)數(shù)的80%;如果k是最后一個(gè)在Csort中累加的下標(biāo),則k就是最終的預(yù)估聚類個(gè)數(shù);得到預(yù)估的聚類個(gè)數(shù),使用K-means算法對Key_F中的所有頻繁項(xiàng)進(jìn)行聚類;

步驟2-2、提取聚類后的主題:

通過抽取聚類之后的每個(gè)類中的主題詞,將這些主題詞組合作為該類的主題,抽取主題詞時(shí),考慮的因素包括詞的tf值、簇內(nèi)支持度和簇間區(qū)分度;

對于每個(gè)類中的所有單詞,按照如下公式計(jì)算每一個(gè)詞的重要程度:

<mrow> <mi>Im</mi> <mi> </mi> <mi>p</mi> <mi>o</mi> <mi>r</mi> <mi> </mi> <mi>tan</mi> <mi> </mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>*</mo> <mi>l</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>F</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>F</mi> <mi>k</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>*</mo> <mi>l</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mi>F</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>*</mo> <mfrac> <mrow> <mo>|</mo> <mi>C</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

式(5)中,第一項(xiàng)、第二項(xiàng)、第三項(xiàng)分別表示詞的tf值、簇內(nèi)支持度和簇間區(qū)分度;Wki指的是第k個(gè)類中的第i個(gè)單詞,tfki指的是第k個(gè)類中的第i個(gè)單詞的的tf值;|Fki|指的是在第k個(gè)類中包含單詞wki的頻繁項(xiàng)個(gè)數(shù);|Fk|指的是第k個(gè)類中總的頻繁項(xiàng)個(gè)數(shù);|Fi|指的是在Key_F中包含單詞Wki的頻繁項(xiàng)個(gè)數(shù);|F|指的是Key_F中總的頻繁項(xiàng)個(gè)數(shù);|Ci|指的是包含單詞Wki的類的個(gè)數(shù);|C|指的是類的總數(shù);

得到每個(gè)單詞的重要程度之后,把每個(gè)類中的單詞按照其重要程度進(jìn)行降序排列,然后選擇前3~6個(gè)的單詞作為主題詞,這些主題詞的組合即為該類中的主題;

步驟四、確定會話雙方的關(guān)系內(nèi)涵:

根據(jù)步驟三獲得的會話信息中的主題,得出會話雙方的關(guān)系內(nèi)涵。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
长子县| 河北省| 卓资县| 化德县| 鄯善县| 罗源县| 磐石市| 左贡县| 屏边| 清水县| 濮阳县| 错那县| 龙胜| 本溪市| 湖口县| 龙川县| 牟定县| 常熟市| 榆中县| 黄梅县| 呼伦贝尔市| 湖南省| 新泰市| 图片| 武乡县| 铜陵市| 禹城市| 衡水市| 红安县| 普兰店市| 夹江县| 大荔县| 八宿县| 瓦房店市| 南雄市| 惠安县| 会昌县| 永福县| 清水县| 甘德县| 贵溪市|