基于人際間會話信息的人際關(guān)系自動化畫像方法與流程

文檔序號：12465267閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于人際間會話信息的人際關(guān)系自動化畫像方法與流程

技術(shù)特征：

1.一種基于人際間會話信息的人際關(guān)系自動化畫像方法，其特征在于：包括以下步驟：

步驟一、定義會話雙方之間的會話信息集合：

P＝{P₁,P₂,...,P_n}，P是指會話雙方之間的會話信息集合；其中，P_i是指會話信息集合中的某一條會話信息；當(dāng)W_i.sup>＝min_sup時(shí)，將會話信息集合P中的一個(gè)單詞集合W_i稱為一個(gè)頻繁項(xiàng)；其中，W_i.sup表示會話信息集合P中一個(gè)單詞集合W_i的支持度，支持度為n表示在會話信息集合P中有n條信息包含單詞集合W_i；min_sup用來表示會話信息集合P中一個(gè)頻繁項(xiàng)的最小支持度；

步驟二、頻繁項(xiàng)集的挖掘：

采用FP-Growth算法在會話信息集合P中挖掘出一個(gè)頻繁項(xiàng)集；設(shè)會話信息集合P大小為size，單位是kb，且會話信息集合P中包含m條會話信息，則該頻繁項(xiàng)的最小支持度的取值按照如下公式計(jì)算可得：

式(1)中，p的取值范圍為0.2-0.5，所述頻繁項(xiàng)集中頻繁項(xiàng)的長度為2到10；

步驟三、提取會話信息中的主題，有下述兩種方法之一：

方法一是將步驟二挖掘出的頻繁項(xiàng)集中的頻繁項(xiàng)按照頻繁項(xiàng)的支持度進(jìn)行降序排列，然后提取前3-5個(gè)頻繁項(xiàng)作為主題，這些主題詞組合后即為會話信息中的主題；

方法二包括以下兩步驟：

步驟2-1、頻繁項(xiàng)集聚類：

首先，進(jìn)行相似頻繁項(xiàng)的過濾，過濾掉所述頻繁項(xiàng)集中的所有子集和頻繁項(xiàng)集中相似度很高的交叉項(xiàng)得到重要頻繁項(xiàng)集；其中，交叉項(xiàng)指的是頻繁項(xiàng)集中有相同單詞的頻繁項(xiàng)；F＝{F₁,F₂,...,F_m}為過濾前的頻繁項(xiàng)集，將重要頻繁項(xiàng)集初始化為Key_F＝Φ，重要頻繁項(xiàng)集記為Key_F；對于進(jìn)行下述處理過程：

對于如果F_i是F_j的一個(gè)子集，將F_i從F移除；如果F_i是F_j的交叉項(xiàng)，F(xiàn)_i與F_j之間的Jacard相似度J(F_i,F_j)用以下公式計(jì)算：

J(F_i,F_j)＝|F_i∩F_j|/|F_i∪F_j|

當(dāng)F_i與F_j之間的相似度大于0.5時(shí)，將F_i從F中移除；如果對于J(F_i,F_j)均小于等于0.5時(shí)，則將F_i添加至Key_F；

重復(fù)上述處理過程直至F＝Key_F；此時(shí)Key_F中的項(xiàng)集即為過濾后的重要頻繁項(xiàng)集；

然后，計(jì)算過濾后的重要頻繁項(xiàng)集Key_F中包含的全部單詞在會話雙方會話信息集合P中的逆向文本頻率即idf值；利用所述idf值計(jì)算重要頻繁項(xiàng)集Key_F中任意兩個(gè)頻繁項(xiàng)之間的相似度，兩個(gè)頻繁項(xiàng)之間的相似度等于兩個(gè)頻繁項(xiàng)的相關(guān)文本集之間的相似度；其中，相關(guān)文本集用以下方法求得：

通過計(jì)算過濾前的頻繁項(xiàng)集中的F_i與會話信息集合P中的某一條會話信息P_i之間的相似度，如果F_i與P_i之間的相似度大于c，c的取值范圍為0.05-0.2；則將P_i添加至F_i的相關(guān)文本集當(dāng)中，最終，F(xiàn)_i的相關(guān)文本集用R_i進(jìn)行表示，F(xiàn)_i與P_i之間的相似度由如下公式求得：

$<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </munderover> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <msub> <mi>idf</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

式(2)中，tf_ij指的是F_i中的第j個(gè)單詞在P_i中出現(xiàn)的頻率，idf_ij指的F_i中的第j個(gè)單詞的逆向文本頻率，得到每個(gè)頻繁項(xiàng)的相關(guān)文本集之后，利用相關(guān)文本集計(jì)算任意兩個(gè)頻繁項(xiàng)之間的相似度，計(jì)算公式如下：

$<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>R</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>∩</mo> <msub> <mi>R</mi> <mi>j</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>∪</mo> <msub> <mi>R</mi> <mi>j</mi> </msub> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

得到任意兩個(gè)頻繁項(xiàng)之間的相似度之后，進(jìn)行聚類個(gè)數(shù)的估計(jì)；

設(shè)定有一頻繁項(xiàng)集簇，并將該頻繁項(xiàng)集簇初始化為C＝{C₁}，C₁＝{F₁}，F(xiàn)₁是從Key_F中隨機(jī)選擇的一個(gè)頻繁項(xiàng)；

對于比較F_i和C中當(dāng)前所有的簇之間的相似度，頻繁項(xiàng)F_i和簇C_k之間的相似度計(jì)算如下：

$<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>|</mo> </mrow> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>|</mo> </mrow> </munderover> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

如果C_sim是與F_i相似度最高的那個(gè)簇而且sim(F_i,C_sim)>b，b＝0.2，則將F_i添加至C_sim；如果sim(F_i,C_sim)<＝b，則創(chuàng)建一個(gè)新的簇并把F_i添加至新簇；

然后，把C中的簇按照簇的大小進(jìn)行降序排列，即C_sort＝{C₍₁₎,C₍₂₎,...,C_(n)}；依次累加C_(i)中的頻繁項(xiàng)個(gè)數(shù)直至累加和超過Key_F中總的頻繁項(xiàng)個(gè)數(shù)的80％；如果k是最后一個(gè)在C_sort中累加的下標(biāo)，則k就是最終的預(yù)估聚類個(gè)數(shù)；得到預(yù)估的聚類個(gè)數(shù)，使用K-means算法對Key_F中的所有頻繁項(xiàng)進(jìn)行聚類；

步驟2-2、提取聚類后的主題：

通過抽取聚類之后的每個(gè)類中的主題詞，將這些主題詞組合作為該類的主題，抽取主題詞時(shí)，考慮的因素包括詞的tf值、簇內(nèi)支持度和簇間區(qū)分度；

對于每個(gè)類中的所有單詞，按照如下公式計(jì)算每一個(gè)詞的重要程度：

$<mrow> <mi>Im</mi> <mi> </mi> <mi>p</mi> <mi>o</mi> <mi>r</mi> <mi> </mi> <mi>tan</mi> <mi> </mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>*</mo> <mi>l</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>F</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>F</mi> <mi>k</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>*</mo> <mi>l</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mi>F</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>*</mo> <mfrac> <mrow> <mo>|</mo> <mi>C</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>$

式(5)中，第一項(xiàng)、第二項(xiàng)、第三項(xiàng)分別表示詞的tf值、簇內(nèi)支持度和簇間區(qū)分度；W_ki指的是第k個(gè)類中的第i個(gè)單詞，tf_ki指的是第k個(gè)類中的第i個(gè)單詞的的tf值；|F_ki|指的是在第k個(gè)類中包含單詞w_ki的頻繁項(xiàng)個(gè)數(shù)；|F_k|指的是第k個(gè)類中總的頻繁項(xiàng)個(gè)數(shù)；|F_i|指的是在Key_F中包含單詞W_ki的頻繁項(xiàng)個(gè)數(shù)；|F|指的是Key_F中總的頻繁項(xiàng)個(gè)數(shù)；|C_i|指的是包含單詞W_ki的類的個(gè)數(shù)；|C|指的是類的總數(shù)；

得到每個(gè)單詞的重要程度之后，把每個(gè)類中的單詞按照其重要程度進(jìn)行降序排列，然后選擇前3～6個(gè)的單詞作為主題詞，這些主題詞的組合即為該類中的主題；

步驟四、確定會話雙方的關(guān)系內(nèi)涵：

根據(jù)步驟三獲得的會話信息中的主題，得出會話雙方的關(guān)系內(nèi)涵。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

人際關(guān)系相關(guān)技術(shù)