基于疑問詞擴(kuò)展的信息檢索方法

文檔序號(hào)：6544181閱讀：472來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于疑問詞擴(kuò)展的信息檢索方法
【專利摘要】本發(fā)明涉及一種信息檢索方法，尤其是涉及一種基于疑問詞擴(kuò)展的軟件信息檢索方法。包括：統(tǒng)計(jì)步驟：對(duì)問答網(wǎng)站已有的問題答案對(duì)進(jìn)行分類，然后提取各類型答案對(duì)的特征，再利用機(jī)器學(xué)習(xí)得出各類型答案對(duì)間的區(qū)分性特征；分析步驟：利用自然語言對(duì)檢索問題進(jìn)行處理以得到疑問詞，再將檢索向量與區(qū)分性特征合并組成新的檢索向量；檢索步驟：利用檢索向量在軟件知識(shí)庫中進(jìn)行檢索。因此，本發(fā)明具有如下優(yōu)點(diǎn)：1.能夠利用問答中疑問詞和答案之間的聯(lián)系提高軟件信息檢索精度；2.能夠利用問答中疑問詞和答案之間的聯(lián)系來對(duì)檢索結(jié)果進(jìn)行過濾和重排序，加快用戶篩選速率。
【專利說明】基于疑問詞擴(kuò)展的信息檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種信息檢索方法，尤其是涉及一種基于疑問詞擴(kuò)展的軟件信息檢索方法。
【背景技術(shù)】
[0002]軟件知識(shí)庫是用于軟件知識(shí)管理的一種特殊的數(shù)據(jù)庫，其存儲(chǔ)了和軟件相關(guān)的代碼、文檔，以及問答等信息，以便于有關(guān)軟件知識(shí)的采集、整理以及提取。
[0003]檢索是軟件知識(shí)庫提供的一項(xiàng)重要的功能。針對(duì)用戶輸入的一個(gè)查詢語句，檢索系統(tǒng)進(jìn)行提取查詢?cè)~并進(jìn)行相似度匹配，將檢索結(jié)果排序以后返回給用戶。
[0004]目前的軟件信息檢索工具主要采用關(guān)鍵詞匹配，詞頻統(tǒng)計(jì)(TF-1DF)等技術(shù)，這些簡單的關(guān)鍵詞組合忽略了人們提問時(shí)的潛在語義信息，而且人們很難通過簡單的關(guān)鍵詞組合來準(zhǔn)確定義自己的搜索意圖，導(dǎo)致人們經(jīng)常花大量的時(shí)間對(duì)結(jié)果列表進(jìn)行人工辨識(shí)來尋找理想的答案。

【發(fā)明內(nèi)容】

[0005]本發(fā)明主要是解決現(xiàn)有技術(shù)所存在的檢索效率低，檢索結(jié)果與檢索意圖不匹配的問題，提供了一種基于疑問詞擴(kuò)展的軟件信息檢索方法。該方法在檢索時(shí)綜合考慮了代碼特征、鏈接特征，以及不同疑問詞提問類別的文本特征等，在對(duì)軟件問答網(wǎng)站的問題答案對(duì)進(jìn)行學(xué)習(xí)的基礎(chǔ)上進(jìn)行檢索，使系統(tǒng)能夠返回更高準(zhǔn)確度的回答，優(yōu)化用戶的檢索體驗(yàn)。
[0006]本發(fā)明的上述技術(shù)問題主要是通過下述技術(shù)方案得以解決的:
[0007]一種基于疑問詞擴(kuò)展的信息檢索方法，其特征在于，包括:
[0008]統(tǒng)計(jì)步驟:對(duì)問答網(wǎng)站已有的問題答案對(duì)進(jìn)行分類，然后提取各類型答案對(duì)的特征，再利用機(jī)器學(xué)習(xí)得出各類型答案對(duì)間的區(qū)分性特征；
[0009]分析步驟:利用自然語言對(duì)檢索問題進(jìn)行處理以得到疑問詞，再將檢索向量與統(tǒng)計(jì)步驟中得到的區(qū)分性特征合并組成新的檢索向量；
[0010]檢索步驟:利用分析步驟中得到的檢索向量在軟件知識(shí)庫中進(jìn)行檢索，得到候選結(jié)果列表；
[0011]優(yōu)化的，上述的一種基于疑問詞擴(kuò)展的信息檢索方法，所述統(tǒng)計(jì)步驟進(jìn)一步包括以下子步驟:
[0012]步驟2.1:利用爬蟲程序抓取真實(shí)問答網(wǎng)站的問題答案對(duì)；
[0013]步驟2.2:將步驟2.1中所抓取的答案對(duì)進(jìn)行詞性標(biāo)注，然后根據(jù)詞性標(biāo)注得到的疑問詞將問題答案對(duì)進(jìn)行分類；
[0014]步驟2.3:通過機(jī)器學(xué)習(xí)提取步驟2.2中同一類別答案對(duì)的各個(gè)答案特征；
[0015]步驟2.4:通過主要成分分析從步驟2.3得到答案特征中提取能區(qū)別不同類別答案對(duì)的答案特征作為該類別答案對(duì)的區(qū)分性特征，將區(qū)分特征以外的答案特征作為非區(qū)分性特征。[0016]優(yōu)化的，上述的一種基于疑問詞擴(kuò)展的信息檢索方法，步驟2.3中所述的答案特征是文本特征、代碼特征，以及鏈接特征中的一種或幾種的組合。
[0017]優(yōu)化的，上述的一種基于疑問詞擴(kuò)展的信息檢索方法，所述分析步驟進(jìn)一步包括以下子步驟:
[0018]步驟4.1:通過對(duì)檢索問題的詞性標(biāo)注分析，取得用戶檢索問題的疑問詞；
[0019]步驟4.2:查找在統(tǒng)計(jì)步驟中得到的與步驟4.1中的疑問詞相對(duì)應(yīng)的區(qū)分性特征；
[0020]步驟4.3:去除檢索問題中的停用詞和詞根，將得到的詞向量與步驟2中得到的區(qū)分性特征合并組成新的檢索向量；
[0021]優(yōu)化的，上述的一種基于疑問詞擴(kuò)展的軟件信息檢索方法，所述檢索步驟中在得到候選結(jié)果列表后，還包括對(duì)候選結(jié)果進(jìn)行過濾和重排序的步驟，該步驟進(jìn)一步包括以下子步驟:
[0022]步驟5.1:用檢索向量在軟件知識(shí)庫中進(jìn)行檢索，得到候選結(jié)果列表；
[0023]步驟5.2:分析候選結(jié)果列表中的每個(gè)備選答案特征，并將備選答案特征與非區(qū)分性特征進(jìn)行模式匹配，按照匹配度排序，并返回最終結(jié)果。
[0024]因此，本發(fā)明具有如下優(yōu)點(diǎn):1.能夠利用問答中疑問詞和答案之間的聯(lián)系提高軟件信息檢索精度；2.能夠利用問答中疑問詞和答案之間的聯(lián)系來對(duì)檢索結(jié)果進(jìn)行過濾和重排序，加快用戶篩選速率。
【專利附圖】

【附圖說明】
[0025]附圖1是實(shí)施例1的統(tǒng)計(jì)步驟流程圖。
[0026]附圖2是實(shí)施例1的分析步驟流程圖。
【具體實(shí)施方式】
[0027]實(shí)施例1:
[0028]在統(tǒng)計(jì)步驟之前,先在特定于編程的問答網(wǎng)站stackoverflow上爬取了所有的問題答案對(duì)，隨機(jī)選取了部分問題答案對(duì)作為統(tǒng)計(jì)對(duì)象。
[0029]首先對(duì)根據(jù)問題答案對(duì)中問題的詞性標(biāo)注進(jìn)行分類，根據(jù)問題的疑問詞分為how, where, why, what, which等類別，經(jīng)分析發(fā)現(xiàn)who, when的問題在本領(lǐng)域不存在,所以不考慮who, when類別。
[0030]再將將答案中的文本看成由一個(gè)個(gè)詞組成，對(duì)這些詞作詞根化處理，并提取文本的詞性特征。將答案中的代碼看成由一句句的代碼語句組成的代碼片段，判斷答案中是否存在代碼，若存在，則考慮是否有判斷語句，循環(huán)語句，函數(shù)調(diào)用語句等特征。此外，還考慮答案中是否存在鏈接，答案文本長度等特征。對(duì)每一種類別問題的答案，我們將其作為正樣本，其他類別問題的答案作為負(fù)樣本。通過主要成分分析提取能區(qū)別該類別與其他類別答案的特征作為區(qū)分特征，將區(qū)分特征以外的答案特征作為非區(qū)分特征。
[0031]其中對(duì)文本使用了如下特征:
[0032]Wl……Wn:每一個(gè)特征都代表答案里每一個(gè)詞根化后的單詞。每個(gè)特征都有個(gè)表示詞頻的值。[0033]Pl……Pm:每一個(gè)特征都代碼一個(gè)POS特性。每個(gè)特征都有個(gè)關(guān)于答案里出現(xiàn)該P(yáng)OS標(biāo)簽的次數(shù)的值。
[0034]VNl……VNk:答案中的動(dòng)詞+名詞結(jié)構(gòu)
[0035]NVl......NVx:答案中的名詞+動(dòng)詞結(jié)構(gòu)
[0036]對(duì)于代碼使用如下特征:
[0037]
【權(quán)利要求】
1.一種基于疑問詞擴(kuò)展的信息檢索方法，其特征在于，包括: 統(tǒng)計(jì)步驟:對(duì)問答網(wǎng)站已有的問題答案對(duì)進(jìn)行分類，然后提取各類型答案對(duì)的特征，再利用機(jī)器學(xué)習(xí)得出各類型答案對(duì)間的區(qū)分性特征；分析步驟:利用自然語言對(duì)檢索問題進(jìn)行處理以得到疑問詞，再將檢索向量與統(tǒng)計(jì)步驟中得到的區(qū)分性特征合并組成新的檢索向量；檢索步驟:利用分析步驟中得到的檢索向量在軟件知識(shí)庫中進(jìn)行檢索，得到候選結(jié)果列表。
2.根據(jù)權(quán)利要求1所述的一種基于疑問詞擴(kuò)展的信息檢索方法，其特征在于，所述統(tǒng)計(jì)步驟進(jìn)一步包括以下子步驟: 步驟2.1:利用爬蟲程序抓取真實(shí)問答網(wǎng)站的問題答案對(duì)；步驟2.2:將步驟2.1中所抓取的答案對(duì)進(jìn)行詞性標(biāo)注，然后根據(jù)詞性標(biāo)注得到的疑問詞將問題答案對(duì)進(jìn)行分類；步驟2.3:通過機(jī)器學(xué)習(xí)提取步驟2.2中同一類別答案對(duì)的各個(gè)答案特征；步驟2.4:通過主要成分分析從步驟2.3得到答案特征中提取能區(qū)別不同類別答案對(duì)的答案特征作為該類別答案對(duì)的區(qū)分性特征，將區(qū)分特征以外的答案特征作為非區(qū)分性特征。
3.根據(jù)權(quán)利要求2所述的一種基于疑問詞擴(kuò)展的信息檢索方法，其特征在于，步驟2.3中所述的答案特征是文本特征、代碼特征，以及鏈接特征中的一種或幾種的組合。
4.根據(jù)權(quán)利要求1所述的一種基于疑問詞擴(kuò)展的信息檢索方法，其特征在于，所述分析步驟進(jìn)一步包括以下子步驟: 步驟4.1:通過對(duì)檢索問題的詞性標(biāo)注分析，取得用戶檢索問題的疑問詞；步驟4.2:查找在統(tǒng)計(jì)步驟中得到的與步驟4.1中的疑問詞相對(duì)應(yīng)的區(qū)分性特征；步驟4.3:去除檢索問題中的停用詞和詞根，將得到的詞向量與步驟2中得到的區(qū)分性特征合并組成新的檢索向量。
5.根據(jù)權(quán)利要求1所述的一種基于疑問詞擴(kuò)展的軟件信息檢索方法，其特征在于，所述檢索步驟中在得到候選結(jié)果列表后，還包括對(duì)候選結(jié)果進(jìn)行過濾和重排序的步驟，該步驟進(jìn)一步包括以下子步驟: 步驟5.1:用檢索向量在軟件知識(shí)庫中進(jìn)行檢索，得到候選結(jié)果列表；步驟5.2:分析候選結(jié)果列表中的每個(gè)備選答案特征，并將備選答案特征與非區(qū)分性特征進(jìn)行模式匹配，按照匹配度排序，并返回最終結(jié)果。
【文檔編號(hào)】G06F17/27GK103902733SQ201410156424
【公開日】2014年7月2日申請(qǐng)日期:2014年4月18日優(yōu)先權(quán)日:2014年4月18日
【發(fā)明者】鄒艷珍, 張靈簫申請(qǐng)人:北京大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄒艷珍;張靈簫
技術(shù)所有人：北京大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

信息檢索方法相關(guān)技術(shù)

信息檢索常用的方法有相關(guān)技術(shù)

信息檢索的方法相關(guān)技術(shù)

網(wǎng)絡(luò)信息檢索的方法相關(guān)技術(shù)

信息檢索常用方法相關(guān)技術(shù)

信息檢索方法有哪些相關(guān)技術(shù)

計(jì)算機(jī)信息檢索的方法相關(guān)技術(shù)

因特網(wǎng)信息檢索方法相關(guān)技術(shù)

信息檢索的基本方法相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于疑問詞擴(kuò)展的信息檢索方法