两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種投入驅(qū)動(dòng)的容錯(cuò)的基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜架構(gòu)的智能語義搜索方法與流程

文檔序號(hào):11432339閱讀:349來源:國知局
一種投入驅(qū)動(dòng)的容錯(cuò)的基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜架構(gòu)的智能語義搜索方法與流程

本發(fā)明是一種投入驅(qū)動(dòng)的容錯(cuò)的基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜架構(gòu)的智能語義搜索方法,主要用于解決使用搜索引擎過程中面對(duì)非確定不保真信息情況下的決策問題。根據(jù)用戶提出的檢索需求,評(píng)估用戶投入,對(duì)應(yīng)不同投入制訂不同搜索策略,并對(duì)搜索出的答案進(jìn)行主動(dòng)要素建模,正反傾向雙向遞進(jìn)搜索,提高搜索的查準(zhǔn)率和查全率以及搜索答案的可信度,屬于分布式計(jì)算和軟件工程學(xué)技術(shù)交叉領(lǐng)域。



背景技術(shù):

搜索引擎(searchengine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等。隨著互聯(lián)網(wǎng)數(shù)據(jù)的增長,網(wǎng)絡(luò)上資源變得十分龐雜,用戶對(duì)搜索結(jié)果的精確性要求大大增加。目前,主流的搜索引擎普遍存在由于對(duì)數(shù)據(jù)篩選的低精確度標(biāo)準(zhǔn)等客觀或主觀的因素導(dǎo)致搜索結(jié)果不準(zhǔn)確,從而無法解決實(shí)際問題的情況。當(dāng)在搜索引擎輸入問題后通過搜索引擎工作機(jī)制獲取到大量的資源,資源中涵蓋了舊的信息、新的信息以及利益相關(guān)者傳播的帶有明顯傾向性的虛假信息,導(dǎo)致搜索出的結(jié)果不能令用戶滿意。網(wǎng)絡(luò)上資源存在時(shí)效性,在為特定用戶搜索答案時(shí)以前的資源在當(dāng)下可能失效或者不適用。同時(shí),資源的來源也是衡量資源可信度的一個(gè)指標(biāo),存在個(gè)人或機(jī)構(gòu)為了自身利益?zhèn)鞑A向于自身利益的虛假信息,正確的答案便會(huì)因?yàn)樘摷傩畔⒌南鄬?duì)高頻度出現(xiàn)而被淹沒。在整合互聯(lián)網(wǎng)上海量資源的基礎(chǔ)上,分別基于顯式和隱式的知識(shí)資源中匹配用戶搜索需求,有針對(duì)性地找出解決方案,并將可信度高的答案和更加豐富的語義關(guān)聯(lián)資源返回給用戶。



技術(shù)實(shí)現(xiàn)要素:

技術(shù)問題:本發(fā)明是一種投入驅(qū)動(dòng)的容錯(cuò)的基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜架構(gòu)的智能語義搜索方法的整個(gè)方法流程,用于解決搜索出的資源失效、可信度低、資源不完整等問題。本發(fā)明可顯著地提高搜索結(jié)果的準(zhǔn)確率和完整率,提高用戶滿意度。

技術(shù)方案:本發(fā)明是一種策略性方法,可以應(yīng)用于各種搜索引擎。本發(fā)明通過引入數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜三層架構(gòu),將網(wǎng)絡(luò)上資源進(jìn)行組織,對(duì)應(yīng)于用戶的投入等級(jí),制訂不同的搜索粒度。對(duì)用戶的檢索需求提取關(guān)鍵詞,通過語義理解用戶的查詢意圖,對(duì)搜索出的資源通過關(guān)聯(lián)要素建模得出的可信度由高到低進(jìn)行排序,最終將有序的資源返回給用戶。

方法流程:

一種投入驅(qū)動(dòng)的容錯(cuò)的基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜架構(gòu)的智能語義搜索方法的整個(gè)方法流程具體如下:

步驟1)根據(jù)已有資源,建立處理資源框架;

步驟2)獲取用戶投入的金額(m)和預(yù)等待時(shí)間(t),建立用戶投入模型。預(yù)等待時(shí)間決定搜索的次數(shù)(s_times)、每次搜索的項(xiàng)數(shù)(s_items)和每項(xiàng)要搜索的時(shí)間(pert_item),本發(fā)明設(shè)定每次搜索的項(xiàng)數(shù)和每項(xiàng)要搜索的時(shí)間是固定的:

(1)

步驟3)獲取用戶搜索需求。允許用戶以自然語言文本描述的形式輸入其信息需求;

步驟4)提取用戶搜索需求關(guān)鍵詞;

步驟5)遍歷處理資源架構(gòu),搜索相關(guān)資源。根據(jù)步驟4提取出的關(guān)鍵詞,遍歷處理資源架構(gòu),尋找相關(guān)資源;

步驟6)判斷能否找到相關(guān)資源。若不能找到,在知識(shí)圖譜上通過關(guān)系推理挖掘新的實(shí)體和關(guān)聯(lián)關(guān)系,增強(qiáng)圖譜結(jié)點(diǎn)密度和邊密度,更新處理資源架構(gòu),然后重新遍歷處理資源架構(gòu),尋找資源;

步驟7)構(gòu)建模糊傾向性詞匯表。模糊傾向性詞匯指的是“可能”、“或許”這種傾向性不確定的詞語;

步驟8)對(duì)找到的資源根據(jù)傾向性按照正向和反向進(jìn)行分類,答案中包括模糊傾向詞匯表中詞匯的資源視為無用資源;

步驟9)根據(jù)步驟(8)得到的兩種傾向性資源,統(tǒng)計(jì)正向資源和反向資源在資源總數(shù)所占的比重(weight),其中resource正表示正向資源數(shù),resource反表示反向資源數(shù),resource總表示資源總數(shù):

(2)

(3)

步驟10)根據(jù)步驟9得到的正反雙向資源所占權(quán)重分配用戶投入,確定正向和反向搜索分別要花費(fèi)的時(shí)間和金額,進(jìn)而確定正反雙向搜索分別要遞進(jìn)搜索的次數(shù):

(4)

(5)

步驟11)根據(jù)步驟8得到的資源按照資源中的關(guān)鍵詞進(jìn)行關(guān)聯(lián)因素遞進(jìn)搜索,并計(jì)算得到信息的熵值,熵值范圍是0到1,熵值越大,信息傾向越分散,可信度越低。資源是有時(shí)效性的,是按照某一關(guān)聯(lián)因素進(jìn)行遞進(jìn)搜索時(shí),在tk時(shí)間下得到的資源的熵值,pi是每類答案出現(xiàn)的概率,entropy表示按照某一關(guān)聯(lián)因素進(jìn)行遞進(jìn)搜索時(shí),在不同時(shí)效下得到資源的加權(quán)平均熵值,timeliness是tk時(shí)間資源的時(shí)效性,ts是資源開始出現(xiàn)的時(shí)間,tt是資源終止傳播的時(shí)間,tc是當(dāng)前搜索者搜索資源的時(shí)間:

(6)

(7)

(8)

步驟12)根據(jù)步驟9得到的遞進(jìn)搜索項(xiàng)的熵,計(jì)算資源可信度confidence,本發(fā)明設(shè)定在搜索前正反傾向的資源可信度都為1,n是搜索的次數(shù),m是每次搜索的條目總數(shù),itemi表示條目i,是按條目i遞進(jìn)搜索得到的資源的熵:

(9)

步驟13)根據(jù)步驟10得到的資源的可信度,判斷正向資源可信度和反向資源可信度的比值是否大于閾值t或小于1/t,該閾值可根據(jù)學(xué)習(xí)算法得到。若可信度比值滿足閾值條件,返回可信度大的資源給搜索者;否則步驟11遍歷處理資源架構(gòu)繼續(xù)遞進(jìn)搜索;

步驟14)獲取用戶反饋,若用戶對(duì)答案不滿意,提示用戶是否增加投入重新檢索。若用戶增加了投入,返回步驟10重新分配正向和反向投入比例,繼續(xù)遞進(jìn)搜索。

體系結(jié)構(gòu):

與傳統(tǒng)的搜索策略相比較,該體系結(jié)構(gòu)具有基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜三層架構(gòu)的優(yōu)勢(shì),數(shù)據(jù)圖譜允許資源出現(xiàn)冗余不一致等情況,對(duì)數(shù)據(jù)圖譜上資源進(jìn)行去冗處理,集成相關(guān)資源得到信息圖譜,信息圖譜允許資源缺失現(xiàn)象存在,在知識(shí)圖譜上通過關(guān)系推理可以構(gòu)建出新的實(shí)體或關(guān)系,挖掘隱式存在的資源,增加圖譜的點(diǎn)密度和邊密度。經(jīng)過數(shù)據(jù)的采集和清洗、信息的描述和集成、知識(shí)的描述和推理,最終構(gòu)建出資源處理架構(gòu)。下面給出數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜的具體說明。

數(shù)據(jù)圖譜

數(shù)據(jù)是通過觀察獲得的數(shù)字或其他類型信息的基本個(gè)體項(xiàng)目,但是在沒有上下文語境的情況下,它們本身沒有意義。數(shù)據(jù)圖譜可以通過數(shù)組、鏈表、隊(duì)列、樹、棧、圖等數(shù)據(jù)結(jié)構(gòu)來表達(dá)。在數(shù)據(jù)圖譜上,通過計(jì)算數(shù)據(jù)的頻度,得出數(shù)據(jù)在數(shù)據(jù)圖譜上的支持度和置信度來刪除錯(cuò)誤或無用數(shù)據(jù),刪除的條件是必須同時(shí)滿足支持度和置信度的閾值要求,閾值過大不利于圖譜表達(dá)的準(zhǔn)確性,過小會(huì)不利于表達(dá)的完整性,可以根據(jù)計(jì)算圖譜反饋的結(jié)果信息動(dòng)態(tài)調(diào)整。數(shù)據(jù)圖譜能記錄關(guān)鍵詞出現(xiàn)的頻度,包括結(jié)構(gòu)、時(shí)間和空間三個(gè)層次的頻度。但數(shù)據(jù)圖譜上未對(duì)數(shù)據(jù)的準(zhǔn)確性進(jìn)行分析,可能出現(xiàn)不同名稱的數(shù)據(jù)但表示同一含義,即數(shù)據(jù)冗余。綜上,數(shù)據(jù)圖譜只能對(duì)數(shù)據(jù)進(jìn)行靜態(tài)分析,無法分析和預(yù)測(cè)數(shù)據(jù)的動(dòng)態(tài)變化。結(jié)構(gòu)頻度、空間頻度和時(shí)間頻度的定義如下:

結(jié)構(gòu)頻度:表示數(shù)據(jù)出現(xiàn)在不同數(shù)據(jù)結(jié)構(gòu)中的次數(shù)。請(qǐng)注意,數(shù)據(jù)的結(jié)構(gòu)頻度應(yīng)根據(jù)數(shù)據(jù)出現(xiàn)的最大數(shù)據(jù)結(jié)構(gòu)進(jìn)行計(jì)算。例如,如果在圖形結(jié)構(gòu)的分支中以樹結(jié)構(gòu)出現(xiàn)的數(shù)據(jù),將按圖結(jié)構(gòu)來計(jì)算數(shù)據(jù)的結(jié)構(gòu)頻度為1,不重復(fù)計(jì)算數(shù)據(jù)在樹結(jié)構(gòu)中出現(xiàn)的頻度;

空間頻度:我們將空間頻率定義為在不同空間位置出現(xiàn)的數(shù)據(jù)時(shí)間,描述多個(gè)對(duì)象的相對(duì)位置。我們利用空間頻率來識(shí)別物體之間的空間關(guān)系,一旦它們被下層識(shí)別并用邊界框標(biāo)記;

時(shí)間頻度:我們將時(shí)間頻率定義為在不同時(shí)間段內(nèi)出現(xiàn)的數(shù)據(jù)時(shí)間。初始獲取到的數(shù)據(jù)集合可能不完整,對(duì)于具有時(shí)間性的流式數(shù)??據(jù),一旦我們觀察到這些數(shù)據(jù),應(yīng)該及時(shí)做出響應(yīng),因?yàn)檫^期的數(shù)據(jù)將是無意義的。

信息圖譜

信息是通過數(shù)據(jù)和數(shù)據(jù)經(jīng)過組合之后的上下文傳達(dá)的,經(jīng)過概念映射和相關(guān)關(guān)系連接之后的適合分析和解釋的信息。信息圖譜可以通過關(guān)系數(shù)據(jù)庫來表達(dá)。信息圖譜上的頻度指的是實(shí)體與實(shí)體之間的交互的頻度,信息圖譜可以表達(dá)實(shí)體之間的交互關(guān)系,根據(jù)數(shù)據(jù)圖譜上記錄的數(shù)據(jù)頻度和信息圖譜上記錄的交互頻度計(jì)算多個(gè)交互實(shí)體的綜合頻度,篩選綜合頻度低于閾值的結(jié)點(diǎn),并把交互頻度高的實(shí)體進(jìn)行集成從而提高模塊的內(nèi)聚性。在信息圖譜上可以進(jìn)行數(shù)據(jù)清洗,消除冗余數(shù)據(jù),根據(jù)實(shí)體之間的交互度進(jìn)行初步抽象,提高設(shè)計(jì)的內(nèi)聚性,降低耦合度。通過圈定特定數(shù)量的實(shí)體,計(jì)算內(nèi)部交互度和外部交互度,內(nèi)聚性等于內(nèi)部交互度和外部交互度的比值,我們?cè)O(shè)定所圈定的實(shí)體之間必須是相互連通的。

知識(shí)圖譜

知識(shí)是從積累的信息中獲得的總體理解和意識(shí),將信息進(jìn)行進(jìn)一步的抽象和歸類可以形成知識(shí)。知識(shí)圖譜可以通過包含結(jié)點(diǎn)和結(jié)點(diǎn)之間關(guān)系的有向圖來表達(dá)。知識(shí)圖譜可以表達(dá)各種語義關(guān)系,在知識(shí)圖譜上能通過信息推理和實(shí)體鏈接提高知識(shí)圖譜的邊密度和結(jié)點(diǎn)密度,知識(shí)圖譜的無結(jié)構(gòu)特性使得其自身可以無縫鏈接。信息推理需要有相關(guān)關(guān)系規(guī)則的支持,這些規(guī)則可以由人手動(dòng)構(gòu)建,但往往耗時(shí)費(fèi)力,得到復(fù)雜關(guān)系中的所有推理規(guī)則更加困難。使用路徑排序算法將每個(gè)不同的關(guān)系路徑作為一維特征,通過在知識(shí)圖譜中構(gòu)建大量的關(guān)系路徑來構(gòu)建關(guān)系分類的特征向量和關(guān)系分類器來提取關(guān)系,關(guān)系的正確度超過某一閾值后認(rèn)為新關(guān)系成立。關(guān)系的正確度cr可以通過以下公式衡量,q表示實(shí)體e1到實(shí)體e2的所有關(guān)系,π表示一類關(guān)系,θ(π)表示關(guān)系的權(quán)重,可由訓(xùn)練得出,最后正確度超過某一閾值后認(rèn)為該關(guān)系成立。

有益效果:一種投入驅(qū)動(dòng)的容錯(cuò)的基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜架構(gòu)的智能語義搜索方法,具有如下一些顯著優(yōu)點(diǎn):

(1)用戶投入驅(qū)動(dòng):根據(jù)用戶投入為用戶提供搜索服務(wù),用戶投入的多少?zèng)Q定正反雙向搜索的搜索次數(shù)、時(shí)間和內(nèi)容的精度;

(2)提高搜索資源的可抽象性:面對(duì)海量結(jié)構(gòu)復(fù)雜的資源,通過數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜三層架構(gòu)建立資源處理框架,通過關(guān)系抽象規(guī)則和信息推理挖掘出隱式出現(xiàn)的資源,減少無法找到答案的情況;

(3)面對(duì)具有高時(shí)效性的流式數(shù)據(jù),能有效的衡量出資源的時(shí)效性,避免失效信息影響資源的準(zhǔn)確度;

(4)通過關(guān)聯(lián)要素遞進(jìn)搜索,提高搜索答案的準(zhǔn)確率和可信度。本發(fā)明通過關(guān)聯(lián)要素計(jì)算出資源的可信度,避免用戶收到非確信不保真的答案。

附圖說明

圖1是用戶投入模型示意圖。

圖2是一種投入驅(qū)動(dòng)的容錯(cuò)的基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜架構(gòu)的智能語義搜索方法的流程示意圖。

具體實(shí)施方式

一種投入驅(qū)動(dòng)的容錯(cuò)的基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜架構(gòu)的智能語義搜索方法為:

(1)對(duì)應(yīng)于圖2步驟001根據(jù)已有資源體系,基于數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜三層架構(gòu)建立處理資源框架;

(2)002獲取用戶投入,003建立用戶投入模型;

(3)對(duì)應(yīng)圖2步驟004獲取用戶搜索需求,假定用戶輸入的問題是“專利變更聯(lián)系人地址要不要付費(fèi)”;

(4)根據(jù)步驟(3)中用戶的需求,005遍歷處理資源架構(gòu),尋找相關(guān)資源;

(5)006判斷能否找到相關(guān)資源。若不能找到,007在知識(shí)圖譜上通過關(guān)系推理挖掘新的實(shí)體和關(guān)聯(lián)關(guān)系,增強(qiáng)圖譜結(jié)點(diǎn)密度和邊密度,008更新處理資源架構(gòu),然后重新009遍歷處理資源架構(gòu),尋找資源;

(6)007構(gòu)建模糊傾向性詞匯表。模糊傾向性詞匯指的是“可能”、“或許”這種傾向性不確定的詞語;

(7)008對(duì)找到的資源根據(jù)傾向性按照正向和反向進(jìn)行分類,答案中包括模糊傾向詞匯表中詞匯的資源視為無用資源;

(8)根據(jù)步驟(8)得到的兩種傾向性資源,009統(tǒng)計(jì)正向資源和反向資源在資源總數(shù)所占的比重(weight),其中resource正表示正向資源數(shù),resource反表示反向資源數(shù),resource總表示資源總數(shù):

(1)

(2)

(10)根據(jù)步驟9得到的正反雙向資源所占權(quán)重010分配用戶投入,011確定正向和反向搜索分別要花費(fèi)的時(shí)間和金額,進(jìn)而確定正反雙向搜索分別要遞進(jìn)搜索的次數(shù):

(4)

(5)

(11)012根據(jù)步驟8得到的資源按照資源中的關(guān)鍵詞進(jìn)行關(guān)聯(lián)因素遞進(jìn)搜索,013并計(jì)算得到信息的熵值,熵值范圍是0到1,熵值越大,信息傾向越分散,可信度越低。資源是有時(shí)效性的,是按照某一關(guān)聯(lián)因素進(jìn)行遞進(jìn)搜索時(shí),在tk時(shí)間下得到的資源的熵值,pi是每類答案出現(xiàn)的概率,entropy表示按照某一關(guān)聯(lián)因素進(jìn)行遞進(jìn)搜索時(shí),在不同時(shí)效下得到資源的加權(quán)平均熵值,timeliness是tk時(shí)間資源的時(shí)效性,ts是資源開始出現(xiàn)的時(shí)間,tt是資源終止傳播的時(shí)間,tc是當(dāng)前搜索者搜索資源的時(shí)間:

(6)

(7)

(8)

(12)根據(jù)步驟9得到的遞進(jìn)搜索項(xiàng)的熵,014計(jì)算資源可信度confidence,本發(fā)明設(shè)定在搜索前正反傾向的資源可信度都為1,n是搜索的次數(shù),m是每次搜索的條目總數(shù),itemi表示條目i,是按條目i遞進(jìn)搜索得到的資源的熵:

(9)

(13)根據(jù)步驟10得到的資源的可信度,判斷正向資源可信度和反向資源可信度的比值是否大于閾值t或小于1/t,該閾值可根據(jù)學(xué)習(xí)算法得到。若可信度比值滿足閾值條件,015返回可信度大的資源給搜索者;否則返回步驟11(對(duì)應(yīng)圖2步驟012)遍歷處理資源架構(gòu)繼續(xù)遞進(jìn)搜索;

(14)016獲取用戶反饋,若用戶對(duì)答案不滿意,提示用戶是否增加投入重新檢索。若用戶增加了投入,返回步驟10重新分配正向和反向投入比例,繼續(xù)遞進(jìn)搜索。若用戶不增加投入,020搜索結(jié)束。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
金塔县| 涟水县| 皮山县| 岐山县| 烟台市| 六盘水市| 甘南县| 隆昌县| 玉环县| 方山县| 磴口县| 文登市| 西宁市| 华亭县| 临汾市| 新沂市| 鲁山县| 普宁市| 敦煌市| 阳山县| 徐闻县| 万源市| 汕头市| 永川市| 尼木县| 庄浪县| 郧西县| 虞城县| 南宫市| 伊宁市| 九寨沟县| 大关县| 泗水县| 建昌县| 邯郸市| 思南县| 长汀县| 鄂托克前旗| 汝城县| 五河县| 台东县|