两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于疑問詞擴(kuò)展的信息檢索方法

文檔序號(hào):6544181閱讀:472來源:國知局
基于疑問詞擴(kuò)展的信息檢索方法
【專利摘要】本發(fā)明涉及一種信息檢索方法,尤其是涉及一種基于疑問詞擴(kuò)展的軟件信息檢索方法。包括:統(tǒng)計(jì)步驟:對(duì)問答網(wǎng)站已有的問題答案對(duì)進(jìn)行分類,然后提取各類型答案對(duì)的特征,再利用機(jī)器學(xué)習(xí)得出各類型答案對(duì)間的區(qū)分性特征;分析步驟:利用自然語言對(duì)檢索問題進(jìn)行處理以得到疑問詞,再將檢索向量與區(qū)分性特征合并組成新的檢索向量;檢索步驟:利用檢索向量在軟件知識(shí)庫中進(jìn)行檢索。因此,本發(fā)明具有如下優(yōu)點(diǎn):1.能夠利用問答中疑問詞和答案之間的聯(lián)系提高軟件信息檢索精度;2.能夠利用問答中疑問詞和答案之間的聯(lián)系來對(duì)檢索結(jié)果進(jìn)行過濾和重排序,加快用戶篩選速率。
【專利說明】基于疑問詞擴(kuò)展的信息檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種信息檢索方法,尤其是涉及一種基于疑問詞擴(kuò)展的軟件信息檢索方法。
【背景技術(shù)】
[0002]軟件知識(shí)庫是用于軟件知識(shí)管理的一種特殊的數(shù)據(jù)庫,其存儲(chǔ)了和軟件相關(guān)的代碼、文檔,以及問答等信息,以便于有關(guān)軟件知識(shí)的采集、整理以及提取。
[0003]檢索是軟件知識(shí)庫提供的一項(xiàng)重要的功能。針對(duì)用戶輸入的一個(gè)查詢語句,檢索系統(tǒng)進(jìn)行提取查詢?cè)~并進(jìn)行相似度匹配,將檢索結(jié)果排序以后返回給用戶。
[0004]目前的軟件信息檢索工具主要采用關(guān)鍵詞匹配,詞頻統(tǒng)計(jì)(TF-1DF)等技術(shù),這些簡單的關(guān)鍵詞組合忽略了人們提問時(shí)的潛在語義信息,而且人們很難通過簡單的關(guān)鍵詞組合來準(zhǔn)確定義自己的搜索意圖,導(dǎo)致人們經(jīng)常花大量的時(shí)間對(duì)結(jié)果列表進(jìn)行人工辨識(shí)來尋找理想的答案。

【發(fā)明內(nèi)容】

[0005]本發(fā)明主要是解決現(xiàn)有技術(shù)所存在的檢索效率低,檢索結(jié)果與檢索意圖不匹配的問題,提供了一種基于疑問詞擴(kuò)展的軟件信息檢索方法。該方法在檢索時(shí)綜合考慮了代碼特征、鏈接特征,以及不同疑問詞提問類別的文本特征等,在對(duì)軟件問答網(wǎng)站的問題答案對(duì)進(jìn)行學(xué)習(xí)的基礎(chǔ)上進(jìn)行檢索,使系統(tǒng)能夠返回更高準(zhǔn)確度的回答,優(yōu)化用戶的檢索體驗(yàn)。
[0006]本發(fā)明的上述技術(shù)問題主要是通過下述技術(shù)方案得以解決的:
[0007]一種基于疑問詞擴(kuò)展的信息檢索方法,其特征在于,包括:
[0008]統(tǒng)計(jì)步驟:對(duì)問答網(wǎng)站已有的問題答案對(duì)進(jìn)行分類,然后提取各類型答案對(duì)的特征,再利用機(jī)器學(xué)習(xí)得出各類型答案對(duì)間的區(qū)分性特征;
[0009]分析步驟:利用自然語言對(duì)檢索問題進(jìn)行處理以得到疑問詞,再將檢索向量與統(tǒng)計(jì)步驟中得到的區(qū)分性特征合并組成新的檢索向量;
[0010]檢索步驟:利用分析步驟中得到的檢索向量在軟件知識(shí)庫中進(jìn)行檢索,得到候選結(jié)果列表;
[0011]優(yōu)化的,上述的一種基于疑問詞擴(kuò)展的信息檢索方法,所述統(tǒng)計(jì)步驟進(jìn)一步包括以下子步驟:
[0012]步驟2.1:利用爬蟲程序抓取真實(shí)問答網(wǎng)站的問題答案對(duì);
[0013]步驟2.2:將步驟2.1中所抓取的答案對(duì)進(jìn)行詞性標(biāo)注,然后根據(jù)詞性標(biāo)注得到的疑問詞將問題答案對(duì)進(jìn)行分類;
[0014]步驟2.3:通過機(jī)器學(xué)習(xí)提取步驟2.2中同一類別答案對(duì)的各個(gè)答案特征;
[0015]步驟2.4:通過主要成分分析從步驟2.3得到答案特征中提取能區(qū)別不同類別答案對(duì)的答案特征作為該類別答案對(duì)的區(qū)分性特征,將區(qū)分特征以外的答案特征作為非區(qū)分性特征。[0016]優(yōu)化的,上述的一種基于疑問詞擴(kuò)展的信息檢索方法,步驟2.3中所述的答案特征是文本特征、代碼特征,以及鏈接特征中的一種或幾種的組合。
[0017]優(yōu)化的,上述的一種基于疑問詞擴(kuò)展的信息檢索方法,所述分析步驟進(jìn)一步包括以下子步驟:
[0018]步驟4.1:通過對(duì)檢索問題的詞性標(biāo)注分析,取得用戶檢索問題的疑問詞;
[0019]步驟4.2:查找在統(tǒng)計(jì)步驟中得到的與步驟4.1中的疑問詞相對(duì)應(yīng)的區(qū)分性特征;
[0020]步驟4.3:去除檢索問題中的停用詞和詞根,將得到的詞向量與步驟2中得到的區(qū)分性特征合并組成新的檢索向量;
[0021]優(yōu)化的,上述的一種基于疑問詞擴(kuò)展的軟件信息檢索方法,所述檢索步驟中在得到候選結(jié)果列表后,還包括對(duì)候選結(jié)果進(jìn)行過濾和重排序的步驟,該步驟進(jìn)一步包括以下子步驟:
[0022]步驟5.1:用檢索向量在軟件知識(shí)庫中進(jìn)行檢索,得到候選結(jié)果列表;
[0023]步驟5.2:分析候選結(jié)果列表中的每個(gè)備選答案特征,并將備選答案特征與非區(qū)分性特征進(jìn)行模式匹配,按照匹配度排序,并返回最終結(jié)果。
[0024]因此,本 發(fā)明具有如下優(yōu)點(diǎn):1.能夠利用問答中疑問詞和答案之間的聯(lián)系提高軟件信息檢索精度;2.能夠利用問答中疑問詞和答案之間的聯(lián)系來對(duì)檢索結(jié)果進(jìn)行過濾和重排序,加快用戶篩選速率。
【專利附圖】

【附圖說明】
[0025]附圖1是實(shí)施例1的統(tǒng)計(jì)步驟流程圖。
[0026]附圖2是實(shí)施例1的分析步驟流程圖。
【具體實(shí)施方式】
[0027]實(shí)施例1:
[0028]在統(tǒng)計(jì)步驟之前,先在特定于編程的問答網(wǎng)站stackoverflow上爬取了所有的問題答案對(duì),隨機(jī)選取了部分問題答案對(duì)作為統(tǒng)計(jì)對(duì)象。
[0029]首先對(duì)根據(jù)問題答案對(duì)中問題的詞性標(biāo)注進(jìn)行分類,根據(jù)問題的疑問詞分為how, where, why, what, which等類別,經(jīng)分析發(fā)現(xiàn)who, when的問題在本領(lǐng)域不存在,所以不考慮who, when類別。
[0030]再將將答案中的文本看成由一個(gè)個(gè)詞組成,對(duì)這些詞作詞根化處理,并提取文本的詞性特征。將答案中的代碼看成由一句句的代碼語句組成的代碼片段,判斷答案中是否存在代碼,若存在,則考慮是否有判斷語句,循環(huán)語句,函數(shù)調(diào)用語句等特征。此外,還考慮答案中是否存在鏈接,答案文本長度等特征。對(duì)每一種類別問題的答案,我們將其作為正樣本,其他類別問題的答案作為負(fù)樣本。通過主要成分分析提取能區(qū)別該類別與其他類別答案的特征作為區(qū)分特征,將區(qū)分特征以外的答案特征作為非區(qū)分特征。
[0031]其中對(duì)文本使用了如下特征:
[0032]Wl……Wn:每一個(gè)特征都代表答案里每一個(gè)詞根化后的單詞。每個(gè)特征都有個(gè)表示詞頻的值。[0033]Pl……Pm:每一個(gè)特征都代碼一個(gè)POS特性。每個(gè)特征都有個(gè)關(guān)于答案里出現(xiàn)該P(yáng)OS標(biāo)簽的次數(shù)的值。
[0034]VNl……VNk:答案中的動(dòng)詞+名詞結(jié)構(gòu)
[0035]NVl......NVx:答案中的名詞+動(dòng)詞結(jié)構(gòu)
[0036]對(duì)于代碼使用如下特征:
[0037]
【權(quán)利要求】
1.一種基于疑問詞擴(kuò)展的信息檢索方法,其特征在于,包括: 統(tǒng)計(jì)步驟:對(duì)問答網(wǎng)站已有的問題答案對(duì)進(jìn)行分類,然后提取各類型答案對(duì)的特征,再利用機(jī)器學(xué)習(xí)得出各類型答案對(duì)間的區(qū)分性特征; 分析步驟:利用自然語言對(duì)檢索問題進(jìn)行處理以得到疑問詞,再將檢索向量與統(tǒng)計(jì)步驟中得到的區(qū)分性特征合并組成新的檢索向量; 檢索步驟:利用分析步驟中得到的檢索向量在軟件知識(shí)庫中進(jìn)行檢索,得到候選結(jié)果列表。
2.根據(jù)權(quán)利要求1所述的一種基于疑問詞擴(kuò)展的信息檢索方法,其特征在于,所述統(tǒng)計(jì)步驟進(jìn)一步包括以下子步驟: 步驟2.1:利用爬蟲程序抓取真實(shí)問答網(wǎng)站的問題答案對(duì); 步驟2.2:將步驟2.1中所抓取的答案對(duì)進(jìn)行詞性標(biāo)注,然后根據(jù)詞性標(biāo)注得到的疑問詞將問題答案對(duì)進(jìn)行分類; 步驟2.3:通過機(jī)器學(xué)習(xí)提取步驟2.2中同一類別答案對(duì)的各個(gè)答案特征; 步驟2.4:通過主要成分分析從步驟2.3得到答案特征中提取能區(qū)別不同類別答案對(duì)的答案特征作為該類別答案對(duì)的區(qū)分性特征,將區(qū)分特征以外的答案特征作為非區(qū)分性特征。
3.根據(jù)權(quán)利要求2所述的一種基于疑問詞擴(kuò)展的信息檢索方法,其特征在于,步驟2.3中所述的答案特征是文本特征、代碼特征,以及鏈接特征中的一種或幾種的組合。
4.根據(jù)權(quán)利要求1所述的一種基于疑問詞擴(kuò)展的信息檢索方法,其特征在于,所述分析步驟進(jìn)一步包括以下子步驟: 步驟4.1:通過對(duì)檢索問題的詞性標(biāo)注分析,取得用戶檢索問題的疑問詞; 步驟4.2:查找在統(tǒng)計(jì)步驟中得到的與步驟4.1中的疑問詞相對(duì)應(yīng)的區(qū)分性特征;步驟4.3:去除檢索問題中的停用詞和詞根,將得到的詞向量與步驟2中得到的區(qū)分性特征合并組成新的檢索向量。
5.根據(jù)權(quán)利要求1所述的一種基于疑問詞擴(kuò)展的軟件信息檢索方法,其特征在于,所述檢索步驟中在得到候選 結(jié)果列表后,還包括對(duì)候選結(jié)果進(jìn)行過濾和重排序的步驟,該步驟進(jìn)一步包括以下子步驟: 步驟5.1:用檢索向量在軟件知識(shí)庫中進(jìn)行檢索,得到候選結(jié)果列表; 步驟5.2:分析候選結(jié)果列表中的每個(gè)備選答案特征,并將備選答案特征與非區(qū)分性特征進(jìn)行模式匹配,按照匹配度排序,并返回最終結(jié)果。
【文檔編號(hào)】G06F17/27GK103902733SQ201410156424
【公開日】2014年7月2日 申請(qǐng)日期:2014年4月18日 優(yōu)先權(quán)日:2014年4月18日
【發(fā)明者】鄒艷珍, 張靈簫 申請(qǐng)人:北京大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
正定县| 京山县| 北京市| 眉山市| 阿荣旗| 八宿县| 余姚市| 胶州市| 清涧县| 扶余县| 绍兴市| 廉江市| 泽州县| 平定县| 建德市| 闵行区| 南丰县| 昌黎县| 开封县| 玉田县| 铜鼓县| 永康市| 肥城市| 五台县| 大同县| 海伦市| 扶绥县| 安国市| 体育| 四川省| 萍乡市| 太原市| 桐梓县| 满城县| 景泰县| 怀宁县| 湘阴县| 通许县| 日照市| 阳春市| 林周县|