两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種面向事務計算效率的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜的搜索優(yōu)化方法與流程

文檔序號:11583027閱讀:433來源:國知局
本發(fā)明是一種面向事務計算效率的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜的搜索優(yōu)化方法,并給出了數(shù)據(jù)圖譜、信息圖譜和知識圖譜的概念表示。主要用于通過數(shù)據(jù)圖譜、信息圖譜和知識圖譜對以數(shù)據(jù)、信息和知識形態(tài)存儲的資源進行建模和搜索,提高搜索效率,屬于分布式計算和軟件工程學技術交叉領域。
背景技術
:傳統(tǒng)的搜索引擎技術根據(jù)用戶的查詢要求快速檢索和排序網(wǎng)頁資源,對于搜索引擎反饋的大量資源需要用戶進行人工排查和篩選,難以滿足用戶全面掌控資源的需求?,F(xiàn)有的技術包括基于機器學習的方法和基于本體的方法為應對這一挑戰(zhàn)做出了許多貢獻,然而,基于機器學習的方法缺乏有效的機制來明確地將經(jīng)驗知識與訓練模型結(jié)合在一起,基于本體的方法受到人類專家方面沉重負擔的限制。知識圖譜容納資源規(guī)模較大,涵蓋的知識領域廣泛,并且能為用戶提供智能搜索和問答服務。基于知識圖譜的搜索側(cè)重于圖結(jié)構(gòu)的邏輯推理計算,基于語義網(wǎng)三元組進行推理補充資源信息,實現(xiàn)web從網(wǎng)頁鏈接向概念鏈接的轉(zhuǎn)變,支持用戶按照語句進行檢索,以圖形化的方式向用戶反饋結(jié)構(gòu)化知識,準確定位用戶所需資源,使用戶從人工過濾網(wǎng)頁尋找答案的模式中解脫出來。一種面向事務計算效率的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜的搜索優(yōu)化方法的關鍵技術包括對在不同層次圖譜上搜索資源時效率和代價的計算。通過對搜索過程進行參數(shù)化,衡量在數(shù)據(jù)圖譜、信息圖譜和知識圖譜上搜索資源的效率和每一步搜索的代價,使用戶花費最少代價而能獲得相對有效和準確的資源。技術實現(xiàn)要素:技術問題:本發(fā)明的目的是提供一種對數(shù)據(jù)、信息和知識等形態(tài)的資源的原始表述的自然語言的機器理解、自動處理、自動綜合和自動分析方法,用于解決搜索范圍難以確定、搜索資源難以找到等問題。本發(fā)明將數(shù)據(jù)標識為datadik,信息標識為informationdik,知識標識為knowledgedik,dik是數(shù)據(jù)、信息和知識三者的簡寫,本發(fā)明可顯著地提高搜索效率,并降低搜索過程中所要耗費的代價。技術方案:本發(fā)明是一種面向事務計算效率的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜的搜索優(yōu)化方法,從應對自動增量式結(jié)合經(jīng)驗知識和減少人工專家交互負擔等兩個方面考慮,從資源建模、資源處理、處理優(yōu)化和資源管理等角度進行研究,基于對現(xiàn)有知識圖譜(knowledgegraph)概念的拓展提出了一種三層可自動抽象調(diào)整的解決架構(gòu)。這個架構(gòu)包括:數(shù)據(jù)圖譜、信息圖譜和知識圖譜(將數(shù)據(jù)圖譜標識為datagraphdik,信息圖譜標識為informationgraphdik,知識圖譜標識為knowledgegraphdik)等三個層面。基于不同層次的圖譜架構(gòu)查找和匹配用戶的資源需求,提高搜索效率。體系結(jié)構(gòu)圖1給出了在datagraphdik,informationgraphdik和knowledgegraphdik上查找資源的體系結(jié)構(gòu),獲取到用戶的資源查找需求后,計算在不同圖譜層次上搜索的代價和效率,將效率由高到底進行排序,從而確定優(yōu)先查找的圖譜。表1所示為對datadik、intormationdik和knowledgedik等形態(tài)的資源以及對應圖譜層次的介紹。表2所示為分別在datagraphdik、informationgraphdik和knoweldgegraphdik上查找datadik、intormationdik和knowledgedik等資源的效率。下面我們給出datagraphdik,informationgraphdik和knowledgegraphdik的具體說明:datagraphdik:datagraphdik:=collection{array,list,stack,queue,tree,graph}.datagraphdik是各種數(shù)據(jù)結(jié)構(gòu)包括數(shù)組(array)、鏈表(list)、棧(stack)、隊列(queue)、樹(tree)和圖(graph)等的集合(collection)。datagraphdik只能對圖譜上表示的datadik進行靜態(tài)分析,無法分析和預測datadik的動態(tài)變化。informationgraphdik:informationgraphdik:=combination{relateddatadik}。informationgraphdik是相互關聯(lián)(related)的datadik組合(combination),informationdik是通過datadik和datadik組合之后的上下文傳達的,經(jīng)過概念映射和相關關系組合之后的適合分析和解釋的信息。在informationgraphdik上進行數(shù)據(jù)清洗,消除冗余數(shù)據(jù),根據(jù)結(jié)點之間的交互度進行初步抽象,提高設計的內(nèi)聚性。knowledgegraphdik:knowledgegraphdik:=collection{statisticrules}。knowledgegraphdik實質(zhì)是語義網(wǎng)絡和由informationdik總結(jié)出的統(tǒng)計規(guī)則(statisticrules)的集合(collection)。knowledgegraphdik蘊含豐富的語義關系,在knowledgegraphdik上能通過信息推理和實體鏈接提高knowledgegraphdik的邊密度和結(jié)點密度,knowledgegraphdik的無結(jié)構(gòu)特性使得其自身可以無縫鏈接。信息推理需要有相關關系規(guī)則的支持,這些規(guī)則可以由人手動構(gòu)建,但往往耗時費力,得到復雜關系中的所有推理規(guī)則更加困難。使用路徑排序算法將每個不同的關系路徑作為一維特征,通過在knowledgegraphdik中構(gòu)建大量的關系路徑來構(gòu)建關系分類的特征向量和關系分類器來提取關系。表1.資源類型的漸進形式表2.資源分層查找效率datagraphdikinformationgraphdikknowledgegraphdikdatadiko(scale)o(scale)|resource|/searchcostinformationdik人工抽象o(scale)|resource|/searchcostknowledgedik人工抽象人工抽象|resource|/searchcost標注:scale:圖譜規(guī)模|resource|:搜索得到的資源量searchcost:搜索代價o(scale)表示搜索效率與圖譜規(guī)模成正比有益效果:本發(fā)明提出了一種面向事務計算效率的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜的搜索優(yōu)化方法,主要用于解決對于以datadik,informaitiondik和knowledgedik形態(tài)存在的資源查找問題。通過使用本發(fā)明提出的方法可以提高對資源的查找效率,假定資源已按照三層圖譜架構(gòu)存儲完畢,以整個事物性資源為搜索目標,滿足用戶的查找需求。該方法具有如下優(yōu)點:1)允許跨層搜索資源在資源量較大的情況下,在與資源類型一致的圖譜上搜索效率會低于在更高抽象層次圖譜上進行查詢的效率,本發(fā)明允許跨層搜索資源,從而提高搜索效率;2)搜索效率驅(qū)動面向事務計算效率的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜的搜索優(yōu)化方法,通過參數(shù)化搜索過程,確定最匹配的資源搜索框架,提高了搜索效率;3)能夠解決無法找到答案的情況對于在資源對應層次查找不到答案的情況,允許到高層次圖譜上進行查詢,在knowledgegraphdik上通過關系抽象和信息推理挖掘出隱式出現(xiàn)的資源,減少無法找到答案的情況。附圖說明圖1是一種面向事務計算效率的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜的搜索優(yōu)化方法流程圖。具體實施方式一種面向事務計算效率的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜的搜索優(yōu)化方法,其特征對于搜索事件性資源的搜索效率和搜索代價的計算,根據(jù)搜索效率和搜索代價綜合考慮在哪一層次的圖譜上進行遍歷。本發(fā)明假定資源已按照datagraphdik、informationgraphdik和knoweldgegraphdik架構(gòu)存儲完畢,以整個事物性資源為搜索目標,允許搜索目標為一批資源的集合,知道用戶的搜索目標屬于哪種資源類型,通過計算在不同層次圖譜上的搜索代價和搜索效率,將搜索效率由高到低進行排序,確定在三層圖譜上查找用戶所需資源的優(yōu)先順序。具體實現(xiàn)方式為:步驟1)對應于圖1中的操作001,獲取用戶搜索資源需求;步驟2)對應于圖1中的操作002,匹配資源類型,003計算資源需求量(|initial_res|);步驟3)對應于圖1中操作004,根據(jù)公式1和公式2計算在不同圖譜上查找資源所要花費的代價(searchcost):(1)(2)其中scale表示圖譜的規(guī)模,即結(jié)點數(shù)和邊的個數(shù),reasoningcost表示知識推理要花費的代價,λ表示能在圖譜上直接找到答案,無需推理的概率,α和β分別表示圖譜規(guī)模和推理代價占搜索代價的權重,均可通過數(shù)據(jù)訓練得出,ncost和ecost分別表示通過結(jié)點鏈接和關系推理得到新的結(jié)點和邊的代價;步驟4)對應于圖1中操作005,根據(jù)公式3計算在不同圖譜上查找資源的效率(searchefficiency):(3)其中|resource|表示在該層圖譜上搜索到的資源量;步驟5)對應于圖1中操作006,比較在不同圖譜上搜索資源的效率。對應于圖1中操作007和008繼續(xù)比較在不同圖譜上的查找效率。根據(jù)查找效率由高到底進行排序,確定要優(yōu)先遍歷的資源處理架構(gòu);步驟6)對應于圖1中操作009遍歷圖譜,010將搜索到的與用戶搜索目標集合最匹配的資源返回給用戶。當前第1頁12
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
大同市| 砀山县| 楚雄市| 本溪| 高陵县| 常熟市| 筠连县| 望都县| 罗山县| 泰安市| 揭阳市| 丹寨县| 嘉峪关市| 丰县| 海淀区| 灵宝市| 西充县| 南江县| 关岭| 盖州市| 农安县| 枣强县| 陵水| 大厂| 朝阳县| 突泉县| 娱乐| 隆子县| 天峨县| 登封市| 永德县| 出国| 松江区| 常州市| 应城市| 武功县| 宁海县| 鲁甸县| 桃园市| 苏尼特左旗| 凤庆县|