两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于詞向量的問題路由方法

文檔序號(hào):8319268閱讀:186來源:國(guó)知局
一種基于詞向量的問題路由方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種問題路由方法,更具體地說,涉及一種基于詞向量的問題路由方 法。
【背景技術(shù)】
[0002] 近年來的問答社區(qū),如Yahoo ! Answers、百度知道和Stackoverflow等已經(jīng)變得 越來越流行,大眾在社區(qū)分享知識(shí),每天都有海量的用戶提問問題,社區(qū)里面的問題回答內(nèi) 容為用戶提供了可選的答案。一般社區(qū)問答網(wǎng)站會(huì)按照問題類別對(duì)問題進(jìn)行劃分,當(dāng)用戶 提問問題時(shí)會(huì)選擇一個(gè)合適的類別,即問題標(biāo)簽,等待其他用戶回答。提問者必須等待其他 用戶瀏覽了該社區(qū),閱讀了該問題才有可能提供答案,并且可能很多用戶回答以后方可得 到最佳答案,這個(gè)過程一般需要數(shù)小時(shí)或者數(shù)天,這樣滯后獲得的最佳答案對(duì)于提問者可 能已經(jīng)沒有實(shí)際意義了。另外一方面,如果用戶是專家往往可以提供比較優(yōu)質(zhì)的答案,但是 專家用戶可能并沒有訪問該社區(qū),或者在社區(qū)中未發(fā)現(xiàn)自己感興趣的問題,所以沒有給出 最佳答案。為了改善這種狀況,一種比較好的方法是采用問題路由(Question Routing)方 法,把新問題推送給社區(qū)中最適合回答這個(gè)問題的人。問題路由如何選擇合適的專家,需要 考慮用戶的歷史信息,即用戶之前回答過什么問題或者回答過什么內(nèi)容,為每個(gè)在社區(qū)中 回答過問題的用戶建立用戶檔案。本發(fā)明對(duì)用戶提出的問題預(yù)測(cè)最佳回答者,即針對(duì)用戶 所提的新問題,找到能給予最佳答案的回答者。目前關(guān)于問題路由的方法主要可以分為以 下兩類:
[0003] 一類是基于詞共現(xiàn)的方法,該方法是在用戶給定問題之前,為每個(gè)在社區(qū)中注冊(cè) 過的用戶構(gòu)建用戶檔案,檔案中是用戶回答過的問題或者提問過的問題,當(dāng)有其他用戶提 出問題時(shí),根據(jù)用戶檔案預(yù)測(cè)最佳回答者,對(duì)問題中的詞與出現(xiàn)過該詞的用戶檔案進(jìn)行檢 索并打分。這種方法需要包含用戶的查詢?cè)~,常見的有VSM、Language Model、BM25和布爾 模型等方法。這些方法比較經(jīng)典,但它們忽略了那些沒有共現(xiàn)詞或共現(xiàn)詞很少,卻語義相關(guān) 的用戶,因而在預(yù)測(cè)最佳回答者方面尚存在欠缺。
[0004] 另一類是基于語義關(guān)聯(lián)方法,這類方法能夠利用用戶所提問題的語義信息檢 索用戶檔案,豐富查詢結(jié)果,常見的主要有潛在語義模型(LSA)、概率潛在語義分析模型 (PLSA),以及文檔生成模型(LDA)等。這類方法在一定程度上提高了檢索的召回率,但是往 往會(huì)因引入大量噪音信息而降低準(zhǔn)確度。
[0005] 故此,如何準(zhǔn)確、高效地預(yù)測(cè)最佳回答者成為社區(qū)問答亟待解決的問題。

【發(fā)明內(nèi)容】

[0006] 為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明目的是提供一種基于詞向量的問題路由 方法。該方法利用詞向量滿足疊加性這一優(yōu)點(diǎn),運(yùn)用word2 vec訓(xùn)練數(shù)據(jù)獲得詞向量,采用 詞向量來表示文檔向量。對(duì)于每一篇文檔,抽取能代表該文檔特征的詞作為主題詞,將主題 詞向量疊加代表文檔向量,然后計(jì)算用戶檔案向量和問題向量之間的相似度,同時(shí)融入權(quán) 威度和活躍度計(jì)算用戶的先驗(yàn)概率,最終綜合得出用戶是最佳回答者的概率,依此排序來 預(yù)測(cè)最佳回答者,從而提高了預(yù)測(cè)準(zhǔn)確度。
[0007] 為了實(shí)現(xiàn)上述發(fā)明目的,解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明采取的技術(shù)方案是: 一種基于詞向量的問題路由方法,包括以下步驟:
[0008] 步驟1、用戶檔案的構(gòu)建:根據(jù)用戶的回答歷史為用戶構(gòu)建檔案,社區(qū)問答中回答 過問題的用戶都是一個(gè)新問題的候選回答者,對(duì)于每個(gè)用戶檔案的構(gòu)建,具體包括以下子 步驟:
[0009] 步驟(a)、從Stackoverflow網(wǎng)站提供的網(wǎng)址下載從網(wǎng)站建立之初2008年7月到 目前2014年3月為止的所有數(shù)據(jù),數(shù)據(jù)為XML格式,讀取XML文件格式抽取所有問題,其中 包括問題的標(biāo)簽tag域、標(biāo)題title域和內(nèi)容body域;
[0010] 步驟(b)、收集用戶回答過的問題中被選為最佳答案的那些問題組成用戶的檔 案;
[0011] 步驟(c)、忽略用戶回答的問題中被選為最佳答案的數(shù)量比較少的用戶,只選擇回 答的問題中至少包含10個(gè)被選為最佳答案的用戶作為候選回答者;
[0012] 步驟2、數(shù)據(jù)預(yù)處理,具體包括以下子步驟:
[0013] 步驟(a)、由于該問答社區(qū)中的問題都與計(jì)算機(jī)編程相關(guān),所以用戶提出的問題中 body域往往會(huì)包含許多代碼,而代碼中不含有語義信息,對(duì)訓(xùn)練結(jié)果沒有幫助,甚至對(duì)訓(xùn)練 結(jié)果產(chǎn)生不良影響,因而把XML格式文件中<codeX/code>之間的代碼信息去除;
[0014] 步驟(b)、用戶檔案和測(cè)試集中的問題去除停用詞及標(biāo)點(diǎn)符號(hào);
[0015] 步驟3、詞向量的訓(xùn)練,具體包括以下子步驟:
[0016] 步驟(a)、根據(jù)處理好的數(shù)據(jù),對(duì)特征詞進(jìn)行Huffman編碼;
[0017] 步驟(b)、為了把每個(gè)詞都用矢量表示,對(duì)每個(gè)詞定義一個(gè)一定維度的實(shí)數(shù)向量, 通過邏輯回歸二元分類方法預(yù)測(cè)Huffman樹中詞語word路徑邊值的概率;
[0018] 步驟(C)、邏輯回歸模型輸入變量未知,通過損失函數(shù)和求導(dǎo)公式對(duì)系數(shù)和輸入 變量進(jìn)行更新,更新后的輸入變量作為特征詞的向量,詞向量的維度可以指定,本發(fā)明設(shè)置 400維來測(cè)試詞向量維度對(duì)結(jié)果的影響,訓(xùn)練模型包括CBOW模型和skip-gram模型,本發(fā)明 采用CBOW模型;
[0019] 步驟4、文檔向量的表示,具體包括以下子步驟:
[0020] 步驟(a)、問題標(biāo)簽是問題所屬的類別,能代表一個(gè)問題的主題,用戶檔案中出現(xiàn) 次數(shù)最多的兩個(gè)標(biāo)簽詞代表用戶主題,基于詞向量的疊加性,標(biāo)簽詞向量相加代表用戶的 主題向量;
[0021] 步驟(b)、計(jì)算文檔中每個(gè)特征詞和標(biāo)簽詞向量的相似度,根據(jù)相似度大小對(duì)特征 詞進(jìn)彳T排序;
[0022] 步驟(c)、抽取主題詞,根據(jù)已經(jīng)排好序的特征詞,取前1/2的詞作為用戶的主題 詞,特征詞向量疊加代表用戶的文檔向量,采用公式(1)表示,
[0023]
【主權(quán)項(xiàng)】
1. 一種基于詞向量的問題路由方法,其特征在于包括以下步驟: 步驟1、用戶檔案的構(gòu)建:根據(jù)用戶的回答歷史為用戶構(gòu)建檔案,社區(qū)問答中回答過 問題的用戶都是一個(gè)新問題的候選回答者,對(duì)于每個(gè)用戶檔案的構(gòu)建,具體包括以下子步 驟: 步驟(a)、從Stackoverflow網(wǎng)站提供的網(wǎng)址下載從網(wǎng)站建立之初2008年7月到目前 2014年3月為止的所有數(shù)據(jù),數(shù)據(jù)為XML格式,讀取XML文件格式抽取所有問題,其中包括 問題的標(biāo)簽tag域、標(biāo)題title域和內(nèi)容body域; 步驟(b)、收集用戶回答過的問題中被選為最佳答案的那些問題組成用戶的檔案; 步驟(c)、忽略用戶回答的問題中被選為最佳答案的數(shù)量比較少的用戶,只選擇回答的 問題中至少包含10個(gè)被選為最佳答案的用戶作為候選回答者; 步驟2、數(shù)據(jù)預(yù)處理,具體包括以下子步驟: 步驟(a)、由于該問答社區(qū)中的問題都與計(jì)算機(jī)編程相關(guān),所以用戶提出的問題中 body域往往會(huì)包含許多代碼,而代碼中不含有語義信息,對(duì)訓(xùn)練結(jié)果沒有幫助,甚至可能對(duì) 訓(xùn)練結(jié)果產(chǎn)生不良影響,因而把XML格式文件中〈codeX/code〉之間的代碼信息去除; 步驟(b)、用戶檔案和測(cè)試集中的問題去除停用詞及標(biāo)點(diǎn)符號(hào); 步驟3、詞向量的訓(xùn)練,具體包括以下子步驟: 步驟(a)、根據(jù)處理好的數(shù)據(jù),對(duì)特征詞進(jìn)行Huffman編碼; 步驟(b)、為了把每個(gè)詞都用矢量表示,對(duì)每個(gè)詞定義一個(gè)一定維度的實(shí)數(shù)向量,通過 邏輯回歸二元分類方法預(yù)測(cè)Huffman樹中詞語word路徑邊值的概率; 步驟(c)、邏輯回歸模型輸入變量未知,通過損失函數(shù)和求導(dǎo)公式對(duì)系數(shù)和輸入變量進(jìn) 行更新,更新后的輸入變量作為特征詞的向量,詞向量的維度可以指定,本發(fā)明設(shè)置400維 來測(cè)試詞向量維度對(duì)結(jié)果的影響,訓(xùn)練模型包括CBOW模型和skip-gram模型,本發(fā)明使用 CBOW模型; 步驟4、文檔向量的表示,具體包括以下子步驟: 步驟(a)、問題標(biāo)簽是問題所屬的類別,能代表一個(gè)問題的主題,用戶檔案中出現(xiàn)次數(shù) 最多的兩個(gè)標(biāo)簽詞代表用戶主題,基于詞向量的疊加性,標(biāo)簽詞向量相加代表用戶的主題 向量; 步驟(b)、計(jì)算文檔中每個(gè)特征詞和標(biāo)簽詞向量的相似度,根據(jù)相似度大小對(duì)特征詞進(jìn) 行排序; 步驟(c)、抽取主題詞,根據(jù)已經(jīng)排好序的特征詞,取前1/2的詞作為用戶的主題詞,特 征詞向量疊加代表用戶的文檔向量,采用公式(1)表示, u = ?Γ=〇2^ι π) 式中,丈為用戶的文檔向量,nu為用戶的文檔中特征詞數(shù)量,為第i個(gè)特征詞向量; 步驟(d)、測(cè)試集中的問題向量,根據(jù)標(biāo)簽詞進(jìn)行抽取,采用公式(2)表示, q = Σ-li2 W1 (2) 式中,療:為測(cè)試問題的文檔向量,η,為測(cè)試問題中特征詞數(shù)量,為第i個(gè)特征詞向 量; 步驟(e)、計(jì)算測(cè)試集中的問題跟每個(gè)用戶檔案的相似度,采用公式(3)表示, cosi^ ^ im\ ⑶ 式中,COS(療,?:為問題向量與用戶檔案向量的相似度; 步驟5、用戶權(quán)威度的計(jì)算:用戶回答的問題中,被選為最佳答案的數(shù)量越多,代表該 用戶的權(quán)威度越大,使用log進(jìn)行平滑,用戶u的權(quán)威度采用公式(4)表示, authority (u) = log (l+numansu) (4) 式中,authority (u)為用戶u的權(quán)威度,numansu為用戶回答的問題中被選為最佳答案 的數(shù)量; 步驟6、用戶活躍度的計(jì)算:在社區(qū)中每個(gè)用戶活躍時(shí)間不同,并且某個(gè)問題被提出 時(shí),一些用戶已經(jīng)很久沒有回答任何問題或者即使之前回答過很多問題,但該用戶的活躍 度仍然比較低,本發(fā)明采用問題被提出的時(shí)間與提出問題之前用戶最近一次回答問題的時(shí) 間間隔衡量用戶的活躍度,時(shí)間相隔越近,代表用戶越活躍,用戶u的活躍度采用公式(5) 表不, activity (u) = exp' ^ti?" (5) 式中,activity(u)為用戶u的活躍度,tq為提問問題的時(shí)間,tu為用戶回答的所有問 題中,距離提問問題最近的時(shí)間,其中和t u單位是天數(shù),如果用秒、分鐘或者小時(shí)表示, 會(huì)造成用戶的活躍度非常低、評(píng)價(jià)用戶的活躍度不合理; 步驟7、候選回答者排序:用戶權(quán)威度和用戶活躍度代表用戶的先驗(yàn)概率,用戶的先驗(yàn) 概率采用公式(6)表示, P(u) = authority(u)^activity(u) (6) 式中,P(u)為用戶u的先驗(yàn)概率,authority (u)為用戶u的權(quán)威度,activity (u)為用 戶u的活躍度,最佳回答者的概率,采用公式(7)表示, P(u|q) °cP(u)P(q|u) (J) 式中,P (q I u)為相似度,表示從用戶u檔案中生成問題q的概率,P (u I q)代表用戶u是 問題q的最佳回答者的概率,再將該概率從大到小排序,即為回答者推薦順序。
【專利摘要】本發(fā)明涉及一種問題路由方法,一種基于詞向量的問題路由方法,包括以下步驟:步驟1、用戶檔案的構(gòu)建;步驟2、數(shù)據(jù)預(yù)處理;步驟3、詞向量的訓(xùn)練;步驟4、文檔向量的表示;步驟5、用戶權(quán)威度的計(jì)算;步驟6、用戶活躍度的計(jì)算;步驟7、候選回答者排序;本發(fā)明利用word2vec訓(xùn)練數(shù)據(jù)效率高,詞向量具有疊加性,克服了文檔之間沒有共現(xiàn)詞相似度為0的缺點(diǎn);同時(shí)抽取文檔主題詞,用詞向量表示文檔向量,綜合計(jì)算權(quán)威度和活躍度,以及文檔向量之間的相似度,既考慮了文檔之間的語義信息,又減少了噪音。分別與經(jīng)典的TF_IDF和Language Model進(jìn)行了對(duì)比實(shí)驗(yàn),本發(fā)明方法的SN均高于其他兩種方法。
【IPC分類】G06F17-30
【公開號(hào)】CN104636456
【申請(qǐng)?zhí)枴緾N201510057352
【發(fā)明人】王健, 董華磊, 林鴻飛
【申請(qǐng)人】大連理工大學(xué)
【公開日】2015年5月20日
【申請(qǐng)日】2015年2月3日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
自贡市| 陆川县| 新乡县| 垣曲县| 松桃| 乌兰察布市| 凌海市| 泗洪县| 郸城县| 内黄县| 墨江| 南皮县| 嵊泗县| 灌阳县| 桐城市| 鹿泉市| 宿州市| 綦江县| 盘山县| 井陉县| 天台县| 襄垣县| 久治县| 中山市| 菏泽市| 江北区| 开平市| 济南市| 小金县| 无为县| 兴海县| 八宿县| 永吉县| 黄平县| 同心县| 大连市| 滨海县| 尚志市| 石棉县| 嘉禾县| 武功县|