專(zhuān)利名稱(chēng):信息檢索處理裝置和方法,記錄信息檢索程序的記錄媒體的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索處理裝置、信息檢索處理方法以及記錄信息檢索處理程序的記錄媒體,更具體地來(lái)說(shuō),涉及這樣的信息檢索處理裝置、信息檢索處理方法和記錄信息檢索處理程序的記錄媒體,其中信息檢索處理裝置能夠以簡(jiǎn)單的方式在用于萬(wàn)維網(wǎng)中的電子信息和電子百科全書(shū)等的訪問(wèn)或檢索系統(tǒng)中實(shí)現(xiàn)信息檢索處理方法。
例如,有下列參考文檔(1)參考文檔1Ken Aratani,Tatsuhiko Tunoda,Takumi Oishi,Makoto Nagao,“利用詞的頻率和位置檢索報(bào)紙的相關(guān)文章的技術(shù)”,Information Processing Society of Japan,Treatise Journal 1997年,Vol.38,No.4,pp 855-862;以及(2)參考文檔2Hitoshi Isahara,Hiromi Kosaku,KiyotakaUchimoto,Masaki Murata,Hiroshi Kabuta,Masahiro Mikami,NoriyukiNishimata,Makoto Takahashi,“利用基于主題相關(guān)性的信息檢索方法發(fā)展新聞讀者”Information Technology Promotion Agency,Japan the19-th technology releese treatises 2000年10月11-12日。
隨著電子文檔和信息社會(huì)的發(fā)展,利用計(jì)算機(jī)檢索電子文檔的信息檢索技術(shù)已非常重要。
大多數(shù)信息檢索系統(tǒng)要求用戶輸入關(guān)鍵字。但是,在關(guān)鍵字檢索中,要花費(fèi)很多時(shí)間來(lái)輸入關(guān)鍵字,且所輸入的關(guān)鍵字局限于用戶可以想到的關(guān)鍵字范圍內(nèi)。因此,在某些情況下所輸入關(guān)鍵字的重要性可能會(huì)出現(xiàn)誤差,其中如果選擇和輸入了不重要的關(guān)鍵字,則可能會(huì)增加檢索噪聲,導(dǎo)致檢索精度降低的問(wèn)題。
還有,在相似主題檢索技術(shù)中,檢索僅適用于文檔級(jí),因此存在這樣的限制無(wú)法檢索與文檔的一部分所表示的內(nèi)容相似的文檔。因此,如果存在整個(gè)文檔和文檔的一部分所表示的內(nèi)容之間的相似性沖突,則該問(wèn)題會(huì)導(dǎo)致檢索精度降低。
再者,本發(fā)明的目的在于提供一種信息檢索處理方法,用于僅通過(guò)對(duì)屏幕上顯示的、用戶希望更詳細(xì)地進(jìn)行了解的一部分電子信息進(jìn)行單擊或拖動(dòng)來(lái)實(shí)現(xiàn)關(guān)鍵字檢索,檢索電子信息時(shí)只需使用單觸式操作。
再者,本發(fā)明的目的在于提供一種記錄用于操作信息檢索處理裝置的信息檢索處理程序的記錄媒體,所述信息檢索處理裝置用于僅通過(guò)對(duì)屏幕上顯示的、用戶希望更詳細(xì)地進(jìn)行了解的一部分電子信息進(jìn)行單擊或拖動(dòng)來(lái)實(shí)現(xiàn)關(guān)鍵字檢索,檢索電子信息時(shí),只需使用單觸式操作。
本發(fā)明的信息檢索處理裝置可以基于電子字符信息來(lái)檢索信息。所述裝置包括輸出裝置;接收裝置,在輸入用于在輸出裝置所顯示的電子字符信息中指定提取檢索關(guān)鍵字的范圍的位置信息的情況下接收位置信息;指定裝置,用于根據(jù)所述位置信息從輸出裝置所顯示的電子字符信息中指定檢索關(guān)鍵字提取范圍;以及執(zhí)行和輸出裝置,用于根據(jù)所指定的檢索關(guān)鍵字提取范圍執(zhí)行信息檢索并輸出信息檢索的結(jié)果。
再者,本發(fā)明的信息檢索處理方法可以根據(jù)電子字符信息檢索信息。所述方法包括在輸入用于在輸出裝置所顯示的電子字符信息中指定提取檢索關(guān)鍵字的范圍的位置信息的情況下接收位置信息;根據(jù)所述位置信息從輸出裝置所顯示的電子字符信息中指定檢索關(guān)鍵字提取范圍;以及根據(jù)所指定的檢索關(guān)鍵字提取范圍執(zhí)行信息檢索以輸出信息檢索的結(jié)果。
再者,本發(fā)明的記錄媒體記錄基于電子字符信息來(lái)檢索信息的程序。所述程序使計(jì)算機(jī)執(zhí)行以下操作在輸入用于在輸出裝置所顯示的電子字符信息中指定提取檢索關(guān)鍵字的范圍的位置信息的情況下接收位置信息;根據(jù)所述位置信息從輸出裝置所顯示的電子字符信息中指定檢索關(guān)鍵字提取范圍;以及根據(jù)所指定的檢索關(guān)鍵字提取范圍執(zhí)行信息檢索以輸出信息檢索的結(jié)果。
即,本發(fā)明涉及從電子字符信息中提取檢索關(guān)鍵字,并根據(jù)所提取的檢索關(guān)鍵字檢索信息,它是以如下方式來(lái)實(shí)現(xiàn)的在輸入用于在輸出裝置所顯示的電子字符信息中指定提取檢索關(guān)鍵字的范圍的位置信息的情況下接收位置信息;指定預(yù)定的檢索關(guān)鍵字提取范圍;以及根據(jù)所指定的檢索關(guān)鍵字提取范圍執(zhí)行信息檢索并輸出信息檢索的結(jié)果。在這些處理步驟中,檢索關(guān)鍵字提取范圍被定義為這樣的范圍,它包含用戶輸入的位置信息的字符之前、之后或者前后的預(yù)定數(shù)目的字符、詞或行。在用戶所輸入的位置信息指定了檢索關(guān)鍵字提取范圍的起始位置或結(jié)束位置的情況下,檢索關(guān)鍵字提取范圍被定義為從所述起始位置到所述結(jié)束位置的輸入范圍。
在常規(guī)技術(shù)的情況下,當(dāng)根據(jù)檢索關(guān)鍵字來(lái)進(jìn)行信息檢索時(shí),用戶必須從鍵盤(pán)輸入一個(gè)或多個(gè)關(guān)鍵字。但是,在本發(fā)明中,用戶只需要簡(jiǎn)單地使用指示裝置(如鼠標(biāo))對(duì)當(dāng)前查閱電子文檔中感興趣的詞或主題的部分進(jìn)行單擊或拖動(dòng),由此即可檢索或查閱僅與所述部分相關(guān)的其他電子信息。
用于在計(jì)算機(jī)上實(shí)現(xiàn)各處理裝置的程序可以存儲(chǔ)在適當(dāng)?shù)挠涗浢襟w中、諸如可供計(jì)算機(jī)讀取的便攜式媒體存儲(chǔ)器、半導(dǎo)體存儲(chǔ)器或硬盤(pán)。
圖2是根據(jù)本發(fā)明實(shí)施例的信息檢索處理方法的處理流程圖。
圖3是顯示輸入范例和檢索結(jié)果的顯示范例的視圖。
圖4是顯示輸入范例和檢索結(jié)果的顯示范例的視圖。
圖5是顯示設(shè)定檢索關(guān)鍵字的提取條件的用戶設(shè)置屏面的范例的視圖。
圖6A至圖6D是顯示檢索關(guān)鍵字提取范圍的范例的視圖,其中圖6A顯示通過(guò)拖動(dòng)設(shè)定范圍(字符串的列表)的范例,圖6B顯示通過(guò)拖動(dòng)設(shè)定范圍(矩形范圍)的范例,圖6C顯示設(shè)定被單擊的部分前后20個(gè)字符的范圍的范例,以及圖6D顯示設(shè)定被單擊的部分之前三行的范圍的范例。
本實(shí)施例中的信息檢索處理裝置10具有作為輸出裝置的顯示器20和指示裝置21、例如作為輸入裝置的鼠標(biāo)。指示裝置21可以是任何形式的,只要它可以在顯示屏上指定位置。
檢索關(guān)鍵字提取范圍識(shí)別部分(或裝置)11接收用于指定顯示器20上顯示的電子字符信息的檢索關(guān)鍵字提取范圍的位置信息,然后根據(jù)所接收的位置信息從顯示器20上顯示的字符信息指定檢索關(guān)鍵字提取范圍。檢索關(guān)鍵字提取部分(或裝置)12從檢索關(guān)鍵字提取范圍識(shí)別部分11中指定的檢索關(guān)鍵字提取范圍提取一個(gè)或多個(gè)檢索關(guān)鍵字。信息檢索執(zhí)行部分(或裝置)13利用檢索關(guān)鍵字執(zhí)行部分12提取的檢索關(guān)鍵字檢索信息檢索數(shù)據(jù)庫(kù)14,并且輸出檢索結(jié)果。檢索關(guān)鍵字提取條件設(shè)置部分(或裝置)15根據(jù)用戶預(yù)先提供的輸入設(shè)置用于從顯示屏幕上的位置信息指定檢索關(guān)鍵字提取范圍的提取條件。
圖2說(shuō)明
圖1所示的信息檢索處理裝置10的處理流程。首先,檢索關(guān)鍵字提取范圍識(shí)別部分11接收位置信息的輸入以便指定在電子文檔中提取檢索關(guān)鍵字的范圍(步驟S1),并且根據(jù)所接收的位置信息在電子文檔中指定檢索關(guān)鍵字提取范圍。
利用指示裝置21(如鼠標(biāo))對(duì)所顯示的電子文檔上、例如用戶希望進(jìn)行更詳細(xì)了解的部分進(jìn)行單擊或拖動(dòng)來(lái)指定位置信息。指定該范圍的方式有如下幾種。其中X是正整數(shù)。
(1)該范圍被指定為被單擊的部分之前、之后或者前后X個(gè)字符。
(2)該范圍被指定為被單擊的部分之前、之后或者前后X行。
(3)該范圍被指定為被單擊的部分之前、之后或者前后X個(gè)主導(dǎo)詞。
(4)該范圍被指定為包含被單擊部分的段落前后且以空行相隔的段落。
(5)該范圍被指定為被單擊部分前后且以句點(diǎn)或標(biāo)點(diǎn)符號(hào)相隔的部分。
(6)該范圍被指定為被拖動(dòng)的部分。
例如,在該范圍被定義為用戶單擊的部分前后40個(gè)字符的情況下,用戶先接受所單擊部分(位置信息)的輸入,然后指定包括所單擊字符且位于所單擊字符前后的總共81個(gè)字符作為檢索關(guān)鍵字提取范圍。另外,在該范圍被定義為用戶單擊的部分前后20個(gè)字符的情況下,用戶先接受所單擊部分(位置信息)的輸入,然后通過(guò)詞法分析(morphological analysis)提取所輸入部分前后20個(gè)字符,并將它們定義為檢索關(guān)鍵字提取范圍。
接下來(lái),檢索關(guān)鍵字執(zhí)行部分12從指定的檢索關(guān)鍵字提取范圍提取檢索關(guān)鍵字。首先,利用詞法分析從檢索關(guān)鍵字提取范圍將從屬詞或獨(dú)立詞歸類(lèi),并從所歸類(lèi)的獨(dú)立詞中提取名詞(如果需要,可以是動(dòng)詞),以利用所提取的名詞作為檢索關(guān)鍵字。再者,可以從這些名詞中僅提取重要的名詞(如技術(shù)術(shù)語(yǔ))作為檢索關(guān)鍵字。重要的詞是否是檢索關(guān)鍵字可以通過(guò)如下方式判斷與該類(lèi)文檔無(wú)關(guān)而常在任何文檔中出現(xiàn)的詞則為不重要的,而有偏向地在指定文檔出現(xiàn)的詞則是重要的。這可以利用存儲(chǔ)有關(guān)典型文檔中詞出現(xiàn)頻率的統(tǒng)計(jì)信息的詞典來(lái)判斷。檢索關(guān)鍵字的重要性可以參照存儲(chǔ)表示專(zhuān)有名詞或技術(shù)術(shù)語(yǔ)的詞屬性的詞典來(lái)判斷。還可以利用其他常見(jiàn)的詞提取處理過(guò)程來(lái)提取檢索關(guān)鍵字。
接下來(lái),根據(jù)信息檢索執(zhí)行部分13所提取的檢索關(guān)鍵字從信息檢索數(shù)據(jù)庫(kù)14檢索信息(步驟S4),并輸出檢索結(jié)果(步驟S5)。還可以利用基于網(wǎng)絡(luò)的現(xiàn)存檢索服務(wù)器來(lái)實(shí)現(xiàn)信息的檢索。
再者,可以利用如下Rebertson表達(dá)式來(lái)執(zhí)行檢索處理過(guò)程,其中利用檢索關(guān)鍵字執(zhí)行部分12所提取的所有名詞作為檢索關(guān)鍵字,因此提供了較高精度的解決方法S(d)=∑TF(d,t)/(TF(d,t)+1)*IDF(t)(∑表示關(guān)鍵字t的總和)其中S(d)是文章d的得分值,TF(d,t)是關(guān)鍵字t在文章d中的出現(xiàn)頻率,而IDF(t)是出現(xiàn)關(guān)鍵字t的文章數(shù)目的倒數(shù)。
下面提供參考文檔3。從此參考文檔3可以追溯到Robertson的文檔,且將其包括在本說(shuō)明書(shū)中作為參考(3)參考文檔3;MasakiMurata,Sei Ba,Kiyotaka Uchimoto,Hiromi Kosaku,Masao Uchiyama,Hitoshi Isahara,“利用位置信息和場(chǎng)信息進(jìn)行的信息檢索”,NaturalLanguage Processing(Natural Language Association Journal),2000年4月,Vol.7,No.2,第141頁(yè)到第160頁(yè)。
在各種文檔中出現(xiàn)的關(guān)鍵字被認(rèn)為是不重要的,而具有較小的IDF(t)值,即文章數(shù)目的倒數(shù),可以通過(guò)乘以小加權(quán)值而在上述表達(dá)式中使用。上述表達(dá)式中S(d)的值是以t作為關(guān)鍵字計(jì)算出來(lái)的,結(jié)果則按照具有高S(d)值的文章的順序呈現(xiàn)給用戶。
下面將描述一個(gè)特定范例,其中電子文章中的文本的一部分是從已登記的文章書(shū)籍信息的數(shù)據(jù)庫(kù)中檢索來(lái)的。圖3顯示檢索源的輸入范例和從該輸入范例中提取的檢索結(jié)果的顯示范例。
圖3所示的輸入范例是顯示器20上顯示的電子技術(shù)文章的一部分。假定用戶查看所顯示的文章,且對(duì)“??狈治觥备信d趣。于是,用戶將光標(biāo)移動(dòng)到所顯示的文檔中“校勘分析”附近,然后單擊它。
此處,例如,假定將被單擊部分前后20個(gè)字符的指定范圍(總共41個(gè)字符)設(shè)定為檢索關(guān)鍵字提取條件。然后,檢索關(guān)鍵字提取范圍識(shí)別部分11檢測(cè)到光標(biāo)位于“??薄辈糠痔?,接收其位置信息,并指定“校勘”前后20個(gè)字符(總共41個(gè)字符)作為檢索關(guān)鍵字提取范圍。所指定的范圍就是“對(duì)處理的研究是句子結(jié)構(gòu)分析,用于捕捉處理名詞短語(yǔ)的表示現(xiàn)象和句子結(jié)構(gòu)的??狈治觥?。
檢索關(guān)鍵字執(zhí)行部分12對(duì)檢索關(guān)鍵字提取范圍執(zhí)行詞法分析以便單獨(dú)提取名詞。所提取的詞包括“處理、研究、名詞、短語(yǔ)、表示、現(xiàn)象、校勘、分析、句子、結(jié)構(gòu)、句子、結(jié)構(gòu)、分析”,以此類(lèi)的一組詞作為檢索關(guān)鍵字。根據(jù)已準(zhǔn)備好的檢索關(guān)鍵字提取詞典,“名詞”、“表示”、“現(xiàn)象”、“校勘”和“分析”被指定為所提取的一組詞中的重要檢索關(guān)鍵字,“名詞短語(yǔ)”和“表示現(xiàn)象”可以作為組合詞來(lái)用。
信息檢索執(zhí)行部分13利用從檢索關(guān)鍵字執(zhí)行部分12接收的檢索關(guān)鍵字對(duì)文章圖書(shū)信息數(shù)據(jù)庫(kù)(信息檢索數(shù)據(jù)庫(kù)14)執(zhí)行檢索處理,并輸出檢索結(jié)果。檢索結(jié)果的顯示范例如圖3所示。作為檢索處理結(jié)果,顯示相應(yīng)文章的圖書(shū)信息清單。在本范例中,檢索源的數(shù)據(jù)是該文章,檢索源是圖書(shū)信息。但是,即使提取檢索關(guān)鍵字的檢索源數(shù)據(jù)和檢索對(duì)象的數(shù)據(jù)屬于不同格式,也可以象本范例中那樣進(jìn)行檢索。
還可以通過(guò)萬(wàn)維網(wǎng)(WWW)檢索信息,而非其中檢索對(duì)象位于特定位置的信息檢索數(shù)據(jù)庫(kù)14。在通過(guò)WWW檢索信息的情況下,檢索結(jié)果以圖3所示的清單格式或更簡(jiǎn)單的格式顯示,可以單擊檢索結(jié)果以通過(guò)超鏈接來(lái)訪問(wèn)文章的內(nèi)容。
下面將參考圖4的范例闡述利用Rebertson表達(dá)式的檢索范例。假定輸入范例同圖3所示的范例。在特定的檢索關(guān)鍵字提取范圍“對(duì)處理的研究是句子結(jié)構(gòu)分析,用于捕捉處理名詞短語(yǔ)的表示現(xiàn)象和句子結(jié)構(gòu)的??狈治觥薄ⅰ懊~”、“表示”和“校勘”并不頻繁地出現(xiàn)在各種文檔中,因此在Rebertson表達(dá)式中,IDF(t)的值很高。因此,包含這些詞的圖書(shū)信息得到高的得分,而呈現(xiàn)給用戶。檢索結(jié)果的顯示范例如圖4所示。
在某些情況中,也采用短語(yǔ)級(jí),如“句子結(jié)構(gòu)”作為關(guān)鍵字。在這種情況下,“句子結(jié)構(gòu)”不可能出現(xiàn)在各種文章中,IDF(t)也就變得更大,存在大量的包含“句子結(jié)構(gòu)”的圖書(shū)信息被錯(cuò)誤地輸出的可能性。但是,當(dāng)利用此關(guān)鍵字來(lái)檢索用戶閱讀的所有文檔時(shí),可能包含其他關(guān)鍵字,如詞法詞態(tài)和語(yǔ)法,則存在得到很多不需要的文章的可能性,因此一般認(rèn)為,在得到稍與“句子結(jié)構(gòu)”有關(guān)的文章的范疇內(nèi)檢索有關(guān)“校勘”的項(xiàng)目即可獲得足夠的精度。
另一方面,還考慮到用戶希望更準(zhǔn)確地查詢?cè)~典的情況。此時(shí),可以采用拖動(dòng)來(lái)指定。例如,如果拖動(dòng)感興趣的部分,則所拖動(dòng)的范圍僅為“處理名詞短語(yǔ)表示現(xiàn)象的??狈治觥薄T诖饲闆r中,如果進(jìn)行詞法分析以提取名詞,則得到“名詞、短語(yǔ)、表示、現(xiàn)象、???、分析”的結(jié)果,而沒(méi)有象“句子結(jié)構(gòu)”這樣的關(guān)鍵字,如果執(zhí)行檢索,則更為準(zhǔn)確地檢索到有關(guān)“校勘”的文章。
圖5顯示設(shè)定檢索關(guān)鍵字條件的用戶設(shè)置屏面的范例,圖6顯示檢索關(guān)鍵字提取范圍的范例。在本實(shí)施例中,用戶可以預(yù)先在圖1的檢索關(guān)鍵字提取條件設(shè)置部分15所顯示的圖5中所示的用戶設(shè)置屏面上設(shè)定檢索關(guān)鍵字提取條件。首先,可以通過(guò)單擊校驗(yàn)框來(lái)選定通過(guò)拖動(dòng),還是通過(guò)單擊來(lái)指定范圍。
再者,當(dāng)通過(guò)拖動(dòng)來(lái)指定范圍時(shí),可以選擇是指定字符串陣列還是指定矩形范圍。例如,在通過(guò)拖動(dòng)指定范圍和選擇字符串陣列的情況下,假定拖動(dòng)了從“詞法分析”到“大體上分類(lèi)”的范圍,如圖6A所示。于是,檢索關(guān)鍵字提取范圍就是“大體上分為詞法分析、語(yǔ)法分析、涵義分析和上下文語(yǔ)境分析”。另外,在通過(guò)拖動(dòng)指定范圍和選擇矩形范圍的情況下,拖動(dòng)了從“上下文語(yǔ)境分析”到“??狈治觥钡姆秶瑱z索關(guān)鍵字提取范圍則是包含在左上角的“上下文語(yǔ)境分析”和右下角的“??狈治觥钡木匦畏秶?。
在通過(guò)單擊指定范圍時(shí)選擇了“被單擊部分前后20個(gè)字符”(用戶設(shè)定數(shù)字20)的情況下,用戶單擊檢索源數(shù)據(jù)中的字符“??薄保鐖D6C所示,由此包含被單擊部分前后20個(gè)字符的總共41個(gè)字符被識(shí)別為檢索關(guān)鍵字提取范圍(虛線包圍的范圍)。圖6D顯示通過(guò)單擊指定范圍,選擇被單擊部分前后三行時(shí)的檢索關(guān)鍵字提取范圍(虛線包圍的范圍)的范例。其他設(shè)置的情況雷同。
用戶需要時(shí),可以從菜單中調(diào)用檢索關(guān)鍵字提取條件設(shè)置部分15。從而,檢索關(guān)鍵字提取條件設(shè)置部分15會(huì)顯示圖5所示的用戶設(shè)置屏面,并且把用戶設(shè)置的檢索關(guān)鍵字提取條件的設(shè)置信息告知檢索關(guān)鍵字提取范圍識(shí)別部分11。由于此設(shè)置信息會(huì)被保留,所以用戶可以根據(jù)需要在圖5所示的用戶設(shè)置屏面上更改該設(shè)置信息。
傳統(tǒng)技術(shù)和本實(shí)施例的方法之間的差異將利用通過(guò)瀏覽器訪問(wèn)互聯(lián)網(wǎng)信息、如WWW的范例予以闡述。當(dāng)用戶閱讀某個(gè)主頁(yè)時(shí),假定用戶要搜索更詳細(xì)描述當(dāng)前閱讀的頁(yè)面的某個(gè)部分的頁(yè)面。
此時(shí),在利用關(guān)鍵字檢索的傳統(tǒng)技術(shù)的情況下,要求用戶從正在閱讀和搜索的頁(yè)面的該部分拾取主導(dǎo)詞(實(shí)義詞),并將它輸入到用于關(guān)鍵字檢索的現(xiàn)存檢索引擎中來(lái)執(zhí)行檢索。另外,在檢索相似主題的傳統(tǒng)技術(shù)的情況下,檢索是僅以文檔為單位(此處以主頁(yè)中頁(yè)面為單位)啟用的,由此取出主導(dǎo)詞(實(shí)義詞)并從正在閱讀的整個(gè)頁(yè)面進(jìn)行檢索。相應(yīng)地,較之從正在閱讀的頁(yè)面的一部分提取,包含不需要的關(guān)鍵字的概率比較高。
相反,在本實(shí)施例的檢索方法的情況下,使用指示裝置僅單擊正在閱讀的頁(yè)面的想要詳細(xì)了解的部分,從該部分附近預(yù)定范圍內(nèi)的自然語(yǔ)言句子中提取主導(dǎo)詞(實(shí)義詞);或者使用指示裝置僅拖動(dòng)正在閱讀的頁(yè)面且想要詳細(xì)了解的部分,從被拖動(dòng)的部分中的自然語(yǔ)言句子中提取主導(dǎo)詞(實(shí)義詞),從而通過(guò)WWW檢索信息。因此,不象傳統(tǒng)關(guān)鍵字檢索那樣,這里無(wú)需用戶每次指定關(guān)鍵字,而且此設(shè)計(jì)對(duì)于用戶很友好。另外,不象相似主題的傳統(tǒng)檢索那樣,這里不是從整個(gè)文檔中提取關(guān)鍵字,而是自動(dòng)從頁(yè)面的預(yù)先通知的一部分提取的,因此可以高精度地執(zhí)行檢索。
當(dāng)采用傳統(tǒng)關(guān)鍵字檢索執(zhí)行檢索時(shí),如圖3所示,字符串、如“??薄被颉靶?狈治觥笨杀蛔鳛闄z索關(guān)鍵字輸入,但是僅以“校勘”或“??狈治觥弊鳛闄z索關(guān)鍵字,不能夠充分地拾取用戶希望了解的檢索結(jié)果。此時(shí),即使用戶想要添加其他檢索關(guān)鍵字,在不知道相關(guān)詞匯的情況下,也難以指定和添加合適的詞作為檢索關(guān)鍵字。
相反,在本實(shí)施例的檢索方法的情況下,僅通過(guò)單擊字符“??薄备浇牟糠?,即可自動(dòng)提取符“??薄备浇脑~匯,如“名詞短語(yǔ)”或“表示現(xiàn)象”。一般,在語(yǔ)義上相關(guān)的詞組在文檔都靠得較近,因此選擇詞、如“??薄薄ⅰ懊~短語(yǔ)”或“表示現(xiàn)象”會(huì)被選為檢索關(guān)鍵字,由此可以實(shí)現(xiàn)精確的檢索。由此,用戶可以容易地獲得檢索結(jié)果,而無(wú)需知道詞、如“??薄?、“名詞短語(yǔ)”或“表示現(xiàn)象”是否在語(yǔ)義上相關(guān),且不會(huì)遺漏想要的信息。
如上所述,利用本發(fā)明,通過(guò)以下方法檢索信息接收用戶從檢索源的電子字符信息指定的位置信息、指定用于從它的位置信息提取檢索關(guān)鍵字的范圍、然后從檢索源的指定范圍自動(dòng)提取檢索關(guān)鍵字。因此,用戶只需在顯示屏上的電子文檔中指示要檢索的信息部分,其效果是可以免除用戶輸入檢索關(guān)鍵字的操作負(fù)擔(dān)。
另外,不是從整個(gè)文檔的相似性,而是從文檔的部分范圍提取檢索關(guān)鍵字,因此即使該文檔的檢索源部分與整個(gè)文檔的內(nèi)容有不同的傾向,也可以輸出高精度的檢索結(jié)果。
權(quán)利要求
1.一種基于電子字符信息來(lái)檢索信息的信息檢索處理裝置,所述裝置包括輸出裝置;接收裝置,在輸入用于在所述輸出裝置所顯示的所述電子字符信息中指定提取檢索關(guān)鍵字的范圍的位置信息的情況下接收所述位置信息;指定裝置,用于根據(jù)所述位置信息從所述輸出裝置上顯示的所述電子字符信息指定檢索關(guān)鍵字提取范圍;以及執(zhí)行和輸出裝置,用于根據(jù)所指定的檢索關(guān)鍵字提取范圍執(zhí)行所述信息檢索并輸出所述信息檢索的結(jié)果。
2.如權(quán)利要求1所述的信息檢索處理裝置,其特征在于所述指定裝置將以下各種范圍定義為所述檢索關(guān)鍵字提取范圍包含所述位置信息之前、之后或前后預(yù)定數(shù)目的字符、詞或行的范圍;所述位置信息表示的段落的范圍;或者包含所述位置信息的字符的由標(biāo)點(diǎn)符號(hào)限定的范圍。
3.如權(quán)利要求1所述的信息檢索處理裝置,其特征在于在所述位置信息指定所述檢索關(guān)鍵字的提取范圍的起始位置和結(jié)束位置的情況下,所述指定裝置將從所述起始位置到所述結(jié)束位置的輸入范圍定義為所述檢索關(guān)鍵字提取范圍。
4.如權(quán)利要求1所述的信息檢索處理裝置,其特征在于所述執(zhí)行和輸出裝置還包括提取裝置,用于從所述檢索關(guān)鍵字提取范圍提取一個(gè)或多個(gè)檢索關(guān)鍵字;信息檢索數(shù)據(jù)庫(kù);以及檢索和輸出裝置,它利用所述一個(gè)或多個(gè)檢索關(guān)鍵字檢索所述信息檢索數(shù)據(jù)庫(kù)并輸出所述信息檢索的結(jié)果。
5.如權(quán)利要求1至3中任何一個(gè)所述的信息檢索處理裝置,其特征在于還包括條件設(shè)置裝置,用于設(shè)定從所述位置信息指定所述檢索關(guān)鍵字提取范圍的提取條件,所述提取條件由用戶輸入。
6.如權(quán)利要求1所述的信息檢索處理裝置,其特征在于還包括輸入裝置,用于輸入在所述輸出裝置所顯示的所述電子字符信息中指定提取檢索關(guān)鍵字的范圍的所述位置信息,所述輸入裝置是指示裝置。
7.一種基于電子字符信息來(lái)檢索信息的信息檢索處理方法,所述方法包括在輸入用于在所述輸出裝置所顯示的所述電子字符信息中指定提取檢索關(guān)鍵字的范圍的位置信息的情況下接收所述位置信息;根據(jù)所述位置信息從所述輸出裝置上顯示的所述電子字符信息指定所述檢索關(guān)鍵字提取范圍;以及根據(jù)所述指定的檢索關(guān)鍵字提取范圍執(zhí)行所述信息檢索以輸出所述信息檢索的結(jié)果。
8.如權(quán)利要求7所述的信息檢索處理方法,其特征在于所述指定步驟把以下各種范圍定義為所述檢索關(guān)鍵字提取范圍包含所述位置信息之前、之后或前后預(yù)定數(shù)目的字符、詞或行的范圍;所述位置信息表示的段落的范圍;或者包含所述位置信息的字符的由標(biāo)點(diǎn)符號(hào)限定的范圍。
9.如權(quán)利要求7所述的信息檢索處理方法,其特征在于在所述位置信息指定所述檢索關(guān)鍵字的提取范圍的起始位置和結(jié)束位置的情況下,所述指定裝置將從所述起始位置到所述結(jié)束位置的輸入范圍定義為所述檢索關(guān)鍵字提取范圍。
10.如權(quán)利要求7所述的信息檢索處理方法,其特征在于所述執(zhí)行步驟還包括從所述檢索關(guān)鍵字提取范圍提取一個(gè)或多個(gè)檢索關(guān)鍵字;以及利用所述一個(gè)或多個(gè)檢索關(guān)鍵字檢索所述信息檢索數(shù)據(jù)庫(kù),以輸出所述信息檢索的結(jié)果。
11.如權(quán)利要求7至9中任何一個(gè)所述的信息檢索處理方法,其特征在于還包括條件設(shè)置步驟,用來(lái)設(shè)定從所述位置信息指定所述檢索關(guān)鍵字提取范圍的提取條件,所述提取條件由用戶輸入。
12.一種記錄基于電子字符信息來(lái)檢索信息的信息檢索處理程序的記錄媒體,其特征在于所述程序使計(jì)算機(jī)執(zhí)行以下步驟在輸入用于在所述輸出裝置所顯示的所述電子字符信息中指定提取檢索關(guān)鍵字的范圍的位置信息的情況下接收所述位置信息。根據(jù)所述位置信息從所述輸出裝置上顯示的所述電子字符信息指定檢索關(guān)鍵字提取范圍;以及根據(jù)所述指定的檢索關(guān)鍵字提取范圍執(zhí)行所述信息檢索并輸出所述信息檢索的結(jié)果。
全文摘要
一種信息檢索處理裝置具有:在輸入用于在所述輸出裝置所顯示的所述電子字符信息中指定提取檢索關(guān)鍵字的范圍的位置信息的情況下接收位置信息的裝置;根據(jù)所述位置信息從輸出裝置顯示的電子字符信息中指定預(yù)定的檢索關(guān)鍵字提取范圍的裝置;以及根據(jù)所述指定的檢索關(guān)鍵字提取范圍執(zhí)行信息檢索并輸出檢索結(jié)果的裝置。
文檔編號(hào)G06F3/00GK1362681SQ0114518
公開(kāi)日2002年8月7日 申請(qǐng)日期2001年12月27日 優(yōu)先權(quán)日2000年12月27日
發(fā)明者內(nèi)山將夫, 村田真樹(shù), 井佐原均 申請(qǐng)人:獨(dú)立行政法人通訊綜合研究所