两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于wdb特征和用戶查詢請求的web數(shù)據(jù)庫選擇方法

文檔序號:6597977閱讀:266來源:國知局

專利名稱::基于wdb特征和用戶查詢請求的web數(shù)據(jù)庫選擇方法
技術(shù)領(lǐng)域
:本發(fā)明涉及一種計(jì)算機(jī)應(yīng)用技術(shù)或Web數(shù)據(jù)管理及DeepWeb等研究領(lǐng)域,具體地說是一種基于WDB特征和用戶查詢請求的WEB數(shù)據(jù)庫選擇方法。
背景技術(shù)
:隨著Web數(shù)據(jù)庫的廣泛應(yīng)用,Web正在加速地“深化”。DeepWeb中蘊(yùn)藏了更加豐富、“專業(yè)”(專注于某一領(lǐng)域)的信息,其數(shù)據(jù)量也在成倍增長。因此,實(shí)現(xiàn)對De印Web中信息的檢索和利用已成為當(dāng)前數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)之一。為了使用戶能夠有效地利用DeepWeb中的海量信息,研究者們展開了對De印Web數(shù)據(jù)集成的研究,即建立一個De印Web數(shù)據(jù)集成系統(tǒng)。該系統(tǒng)可以為用戶提供一個集成查詢接口,并把各個Web數(shù)據(jù)庫返回的結(jié)果合并到一個統(tǒng)一的模式下。至今,在該研究領(lǐng)域已經(jīng)取得了若干成果,比如查詢接口集成、Web數(shù)據(jù)庫的分類、Web數(shù)據(jù)的抽取等。由于De印Web的規(guī)模巨大,使得DeepWeb數(shù)據(jù)集成系統(tǒng)中會集成上百甚至上千個Web數(shù)據(jù)庫,極大地超過了傳統(tǒng)數(shù)據(jù)集成系統(tǒng)中數(shù)據(jù)源的數(shù)量。同時,由于對Web數(shù)據(jù)庫的訪問只能通過其提供的查詢接口,如果對數(shù)據(jù)集成系統(tǒng)中的所有Web數(shù)據(jù)庫進(jìn)行逐個檢索,不僅會產(chǎn)生很多無效的檢索,降低系統(tǒng)的效率,同時也可能會返回大量重復(fù)數(shù)據(jù),為后期的數(shù)據(jù)處理增加了復(fù)雜度。例如針對用戶的某個查詢請求(1)有些Web數(shù)據(jù)庫并不滿足該查詢,無須對其查詢;(2)有些Web數(shù)據(jù)庫之間存在著較大的冗余,只需選擇其中1個或幾個查詢。因此,為了提高系統(tǒng)的工作效率,需要針對用戶的查詢請求選擇合適的數(shù)據(jù)庫進(jìn)行查詢,即選擇滿足如下條件的Web數(shù)據(jù)庫進(jìn)行查詢(1)與用戶查詢請求相關(guān)。為滿足該條件,可以借鑒傳統(tǒng)搜索引擎的做法,生成Web數(shù)據(jù)庫的特征。由于用戶查詢是基于Web數(shù)據(jù)庫提供的查詢接口進(jìn)行的,因此該特征庫的建立需要結(jié)合查詢接口的相關(guān)特征。獲取Web數(shù)據(jù)庫特征后,通過構(gòu)造基于用戶查詢請求與Web數(shù)據(jù)庫特征的相關(guān)度算法計(jì)算當(dāng)前查詢請求與Web數(shù)據(jù)庫的相關(guān)度;(2)返回的有效數(shù)據(jù)盡可能多。為滿足該條件,最好的方案是針對每一個Web數(shù)據(jù)庫和用戶的每個查詢請求,都能得到一個反映數(shù)據(jù)庫可能返回的數(shù)據(jù)量大小的數(shù)據(jù),以便獲取各Web數(shù)據(jù)庫針對本次查詢返回的數(shù)據(jù)量對比;與此相對應(yīng),理想情況下,需要在Web數(shù)據(jù)庫的特征中添加能夠反映針對每個查詢請求可能返回的數(shù)據(jù)量(或數(shù)據(jù)百分比)的特征;(3)選擇的各數(shù)據(jù)庫之間的冗余盡可能小。為滿足該條件,需要能夠基于Web數(shù)據(jù)庫的特征建立同類數(shù)據(jù)庫之間冗余度矩陣。綜合以上分析,需要建立一個基于Web數(shù)據(jù)庫查詢接口的Web數(shù)據(jù)庫特征表示機(jī)制;并且基于該特征,可以方便地計(jì)算當(dāng)前用戶查詢請求與該數(shù)據(jù)庫之間的相關(guān)度、可能返回的數(shù)據(jù)量以及針對當(dāng)前請求的不同數(shù)據(jù)庫之間的冗余度。然而,要獲取Web數(shù)據(jù)庫的特征,必然要基于該數(shù)據(jù)庫的真實(shí)數(shù)據(jù)或提取一定的數(shù)據(jù)樣本,Web存在大量的數(shù)據(jù)源,信息冗余問題非常嚴(yán)重,如何解決信息冗余、做好記錄去重成為信息集成成敗的關(guān)鍵。若可以通過較少的數(shù)據(jù)源,找到領(lǐng)域全集,則可以有效減輕信息冗余問題的困擾。選擇一個好的數(shù)據(jù)源選擇算法顯得尤為重要,過去十年間,已經(jīng)出現(xiàn)了很多數(shù)據(jù)源選擇算法,包括GLOSS、gGlOSS/vGLOSS.CORI等。其中CORI算法中,數(shù)據(jù)源的特征表示包括term及其對應(yīng)的詞頻。同時Ipeirotis等提出了基于主題分類的數(shù)據(jù)源選擇算法,該方法將所有的待選數(shù)據(jù)源依照已有的主題層次進(jìn)行分類,相同分類主題的數(shù)據(jù)源所對應(yīng)的近似內(nèi)容摘要描述通常很相似,但是同一個術(shù)語很可能在一個數(shù)據(jù)源中是低頻術(shù)語,而在另一個數(shù)據(jù)源中是高頻的。因此,可以使用具有相同分類主題的數(shù)據(jù)源的近似內(nèi)容摘要來互相補(bǔ)充,獲得術(shù)語的覆蓋度更好的近似內(nèi)容摘要描述。以上工作為web數(shù)據(jù)庫的選擇奠定了基礎(chǔ),通過應(yīng)用合適的數(shù)據(jù)源選擇算法找到冗余度低的數(shù)據(jù)源。但是近年來,用戶個性化研究是信息檢索領(lǐng)域的熱點(diǎn)問題,同樣數(shù)據(jù)庫提供的信息應(yīng)盡可能滿足用戶的需求,且不同的數(shù)據(jù)類型有不同的特征表示與抽取方法。Web數(shù)據(jù)庫查詢接口一般是用HTML表示的網(wǎng)頁表單,其中包含Web數(shù)據(jù)庫查詢接口的重要屬性信息。一般來說,常用的查詢接口輸入形式一般有如下兩類(1)用戶直接在表單輸入框中輸入關(guān)鍵字或日期、數(shù)字等值,如Text,TextArea;(2)用戶在下拉列表中選擇一個值,如Select、Checkbox、Radiobutton。同時,用戶通過網(wǎng)頁表單提交的數(shù)據(jù)類型一般可歸納為文本、數(shù)字和日期三種類型。綜合以上兩種情況,將WDB查詢接口提交的數(shù)據(jù)類型分為文本型數(shù)據(jù)、數(shù)值型數(shù)據(jù)、日期型數(shù)據(jù)和分類型數(shù)據(jù)。由于日期型數(shù)據(jù)和數(shù)值型數(shù)據(jù)都具有連續(xù)性特點(diǎn),因此統(tǒng)一歸并為數(shù)值數(shù)據(jù);其它離散型數(shù)據(jù)按分類屬性處理。
發(fā)明內(nèi)容本發(fā)明給出了一種針對Web數(shù)據(jù)庫查詢接口中各種數(shù)據(jù)類型的、較全面的WDB特征表示與抽取方法,并基于該特征,給出了結(jié)合用戶查詢請求的相似度、返回數(shù)據(jù)量及冗余度計(jì)算方法,并最終提出一種基于WDB特征和用戶查詢的數(shù)據(jù)源選擇方法。本發(fā)明的目的是按以下方式實(shí)現(xiàn)的,包括1)WDB查詢接口特征抽取方法;2)基于WDB特征的WDB和用戶查詢的相關(guān)度計(jì)算;3)滿足用戶查詢的數(shù)據(jù)量估計(jì);4)基于WDB特征的冗余度估計(jì);5)基于WDB特征和用戶查詢的數(shù)據(jù)源的選擇方法,具體步驟如下步驟如下1)基于詞頻的文本型屬性的特征表示方法在各種Web數(shù)據(jù)庫查詢接口中,包含文本屬性的輸入字段占有絕對多數(shù),比如圖書搜索中的書名、出版社名稱、作者,職位搜索中的職位名稱、公司名稱、職位說明等。這些屬性不僅是文本屬性,而且由于Web數(shù)據(jù)庫多數(shù)都是關(guān)系數(shù)據(jù)庫,其中描述的內(nèi)容多為各種實(shí)體,因此這種數(shù)據(jù)庫中的文本屬性與普通文檔相比,具有自己的特點(diǎn)(I)Web數(shù)據(jù)庫中的文本具有極強(qiáng)的領(lǐng)域相關(guān)性,且多為各種實(shí)體的名稱、屬性等,與普通語料庫中的文檔具有的一般性、普適性相比,更具有自身的領(lǐng)域的特點(diǎn);(2)Web數(shù)據(jù)庫中的文本多以自然語言中的實(shí)體(Entity)為主,大多不屬于中文普通詞匯的范疇。比如,圖書數(shù)據(jù)庫中的“軟件工程”一詞,雖然“軟件”和“工程”是兩個普通中文詞匯,但他們在語料庫中統(tǒng)計(jì)出來的詞頻遠(yuǎn)遠(yuǎn)低于計(jì)算機(jī)類型圖書數(shù)據(jù)庫中的詞頻。因此,借鑒中文文本分類中的文檔特征表示方法,給出Web數(shù)據(jù)庫文本特征的表示方法,如(17)式所示。<formula>formulaseeoriginaldocumentpage8</formula>其中,Attrtrart表示一個文本屬性,tfjl^i^n)表示第i個詞的詞頻,η為針對文本屬性的所有文本分詞并去掉停用詞后的關(guān)鍵詞個數(shù)。2)基于正態(tài)分布的數(shù)值型屬性的特征表示方法在Web數(shù)據(jù)庫的查詢接口中,數(shù)值型屬性雖然不多,但也有一定的數(shù)量,比如圖書搜索的價格、人才網(wǎng)站中的招聘人數(shù)等。鑒于數(shù)值屬性具有的連續(xù)性特點(diǎn),且正態(tài)分布具有強(qiáng)大的普適性,采用正態(tài)分布的期望和偏差表示數(shù)值屬性的特征,若查詢接口中的某屬性對應(yīng)WDB中的一個字段是數(shù)值屬性,則可通過其樣本數(shù)據(jù)獲取其均值μ和方差O,進(jìn)而得到數(shù)值屬性的特征表示如下Attrdata=Ν(μ,σ2)(18)3)基于統(tǒng)計(jì)的分類型屬性的特征表示方法對于分類屬性,采用根據(jù)查詢接口屬性的分類統(tǒng)計(jì)樣本中同類屬性的記錄數(shù)與總記錄數(shù)的比值來表示,如(19)式所示。,樣本中屬于同類別的記錄個數(shù)dass=樣本記朵總數(shù)4)Web數(shù)據(jù)庫特征的形式化表示方法基于以上三類屬性的表示方法,Web數(shù)據(jù)庫特征的形式化表示方法如(20)式所示,即一個Web數(shù)據(jù)庫的特征Character·是一個特征向量,該向量的每個分量為這個數(shù)據(jù)庫的查詢接口的η個屬性所對應(yīng)的WDB字段的特征。Characterwoi3=<Attr1Attr2,...,Attrn>(20)5)基于WDB特征的WDB與用戶查詢的相關(guān)度計(jì)算首先確定WDB與用戶查詢的相關(guān)度,其中,Web數(shù)據(jù)庫與用戶查詢的相關(guān)度是指當(dāng)前用戶查詢請求與當(dāng)前Web數(shù)據(jù)庫的相互關(guān)聯(lián)的程度,其取值是0到1之間的值。其值越大,說明當(dāng)前查詢請求與當(dāng)前數(shù)據(jù)庫越相關(guān)。對于用戶通過Web查詢接口發(fā)出的查詢請求,給出如(21)式的形式化表示request=(Attr1=key”Attr2=key2,...,Attrn=keyj(21)其中,Attri代表查詢接口上的某個屬性,key,代表針對當(dāng)前屬性的查詢關(guān)鍵字,keyi可能是文本、數(shù)字或用戶選擇的某個類別。針對以上給出的三類屬性,分別給出相關(guān)度計(jì)算的方法。1.文本屬性的相關(guān)度計(jì)算若當(dāng)前用戶對Attri屬性所輸入的關(guān)鍵字keyi屬于文本屬性,則首先按照樣本數(shù)據(jù)庫的分詞方法對keyi進(jìn)行分詞,然后按照(22)式計(jì)算該文本屬性的相關(guān)度。rela<^'^sJz^ords)(22)J其中,relatext表示當(dāng)前文本屬性關(guān)鍵字與Web數(shù)據(jù)庫對應(yīng)字段的相關(guān)度;'f—表示對keyi分詞后所得到的某個詞的詞頻;sumfellwords)表示對樣本數(shù)據(jù)中當(dāng)前字段所有記錄分詞后的所有詞的詞頻。2.數(shù)值屬性的相關(guān)度計(jì)算若當(dāng)前用戶對Attri屬性所輸入的關(guān)鍵字keyi屬于數(shù)值屬性,由于(18)式中已經(jīng)得到當(dāng)前屬性的正態(tài)分布,則只需將當(dāng)前數(shù)值keyi作為參數(shù)代入正態(tài)分布函數(shù)中,即可獲取當(dāng)前數(shù)值keyi相對該正態(tài)分布的概率,將該概率定義為數(shù)值屬性與Web數(shù)據(jù)庫的相關(guān)度,如(23)式所示。<formula>formulaseeoriginaldocumentpage9</formula>3.分類屬性的相關(guān)度計(jì)算由于分類屬性在執(zhí)行查詢時是按照嚴(yán)格相等的方式執(zhí)行的,因此定義分類屬性的相關(guān)度等價于該屬性的特征,如(24)式所示。relaclass=Attrclass(24)綜上,給出當(dāng)前查詢請求與Web數(shù)據(jù)庫的相關(guān)度定義,如(25)式所示。<formula>formulaseeoriginaldocumentpage9</formula>relaKequest=^i^relaam.(其中=1)(25)其中,αi表示第i個查詢接口屬性的權(quán)值,表示第i個屬性與Web數(shù)據(jù)庫的相關(guān)度。6)滿足用戶查詢的數(shù)據(jù)量估計(jì)理想情況下,如果當(dāng)前查詢請求只有一個查詢條件,且能夠得到Web數(shù)據(jù)庫的大小size·以及當(dāng)前查詢請求所能夠返回數(shù)據(jù)的百分比Percentatte,則可以很容易得到該查詢可能返回的數(shù)據(jù)量(如26式中的第一個等式所示)。Web數(shù)據(jù)庫大小的估計(jì)已有相關(guān)的研究工作,對于返回數(shù)據(jù)的百分比,以當(dāng)前查詢請求與Web數(shù)據(jù)庫特征的相關(guān)度作為其近似值,其原因是對數(shù)據(jù)量估計(jì)的目的僅用于對各數(shù)據(jù)源進(jìn)行排序。<formula>formulaseeoriginaldocumentpage9</formula>一般情況下,當(dāng)用戶輸入多個查詢條件時,多個查詢條件之間一般是and的關(guān)系。但如果以and連接查詢返回的數(shù)據(jù)量較少時,多數(shù)數(shù)據(jù)庫將減弱查詢條件以返回更多數(shù)據(jù)。因此,不失一般性,定義滿足用戶查詢的數(shù)據(jù)量為所有查詢條件中,返回數(shù)據(jù)最多的單個查詢條件所返回的數(shù)據(jù)量,如(27)式所示。Sizerequest=^^WDBx^^{perCentattr.)(27)=sizeWDBx^x(simattr,)7)基于WDB特征的冗余度估計(jì)針對用戶查詢的Web數(shù)據(jù)庫之間的冗余度是指當(dāng)前用戶請求提交后,兩個數(shù)據(jù)庫返回的重復(fù)數(shù)據(jù)的數(shù)量或百分比。例如,某個查詢針對WDB1返回的查詢結(jié)果中包含Ii1條數(shù)據(jù),針對WDB2返回的結(jié)果中包含H2條數(shù)據(jù),如果其中包含的重復(fù)數(shù)據(jù)個數(shù)為H12,則nl2為兩個數(shù)據(jù)庫之間的冗余度,或表示為<formula>formulaseeoriginaldocumentpage9</formula>從(28)式看,redundantTOB的值越大,說明當(dāng)前數(shù)據(jù)庫的冗余度越大,其利用價值越低。而要獲得兩個數(shù)據(jù)庫之間的冗余度,就要獲取當(dāng)前Web數(shù)據(jù)庫滿足當(dāng)前查詢的數(shù)據(jù)量以及兩個數(shù)據(jù)庫返回的重復(fù)數(shù)據(jù)的個數(shù)。滿足當(dāng)前查詢的數(shù)據(jù)量已在前文說明,而重復(fù)數(shù)據(jù)的數(shù)量雖然可以針對真實(shí)數(shù)據(jù)庫或樣本數(shù)據(jù)進(jìn)行預(yù)查詢,分別統(tǒng)計(jì)返回的數(shù)據(jù)個數(shù)與重復(fù)數(shù)據(jù)個數(shù),但這么做顯然工作量太大。比如要判斷3個數(shù)據(jù)庫之間的冗余度,每個數(shù)據(jù)庫返回的數(shù)據(jù)個數(shù)平均500個,則要完全判斷兩兩數(shù)據(jù)庫之間的重復(fù)數(shù)據(jù)個數(shù)至少要比對3次,每次比對500*500條數(shù)據(jù),最壞情況下需比對500*500*3次;而在查詢更多數(shù)據(jù)庫、返回更多數(shù)據(jù)時,將消耗更多的計(jì)算機(jī)時間。因此,采用基于WDB特征的整體重復(fù)度近似表示其數(shù)據(jù)的冗余度。1.文本屬性的冗余度計(jì)算對于文本屬性,采用Web數(shù)據(jù)庫相同屬性中相同關(guān)鍵詞的詞頻總和與該屬性所有關(guān)鍵詞的詞頻總和的比值來表示,如(29)式所示。redundanttext(WDBl,WDB2)=∑sameKeys/∑WDB1,text(29)(29)式中,redundanttext(WDBijWDB2)表示W(wǎng)DB1相對WDB2在相同文本屬性上的冗余度;sameKeys是指WDB1和WDB2兩個數(shù)據(jù)庫中同一文本屬性中的相同關(guān)鍵字;WDBJext是WDB1數(shù)據(jù)庫中,當(dāng)前文本屬性的所有關(guān)鍵字;tfi是指關(guān)鍵字i的詞頻。2.數(shù)值屬性的冗余度計(jì)算在Web數(shù)據(jù)庫的特征表示中,數(shù)值型數(shù)據(jù)被表示成一個正態(tài)分布。假設(shè)兩個WDB的數(shù)值屬性所對應(yīng)的正態(tài)分布分別是Ν(μαJ和Ν(μ2,σ2),且樣本空間中的最小值和最大值分別是mini、maXl、min2和Hiax2,兩個正態(tài)分布的交叉部分的值為X,則定義兩個數(shù)值屬性的冗余度為兩個正態(tài)分布的重疊部分所占整體的比例,即min2和maxl之間部分所占各自屬性的比例。由于正態(tài)分布通過變量替換可以變成標(biāo)準(zhǔn)正態(tài)分布,因此直接給出(30)式所示的數(shù)值屬性的冗余度計(jì)算公式。兩個數(shù)值屬性的正態(tài)分布如圖1所示。redundantdma(WDBhWDB2)刑,廣)-尸I(^i)(30)+F2(x-u2/o2)-F2(min2-u2/o2)3.分類屬性的冗余度計(jì)算基于WDB的特征表示分類屬性的冗余度,以兩個數(shù)據(jù)庫中當(dāng)前分類屬性中相同類別的個數(shù)與當(dāng)前數(shù)據(jù)庫中的分類總數(shù)的比值表示,即redundantclass(WDBl,WDB2)=countofrecordsinsameclass/countofallrecordsinallClassValues(31)綜上,給出基于Web數(shù)據(jù)庫特征的冗余度計(jì)算公式redundant{WDBx,WDB2)=∑redundantattri(其中^約=丄)(β2)其中,redundant(WDB1,WDB2)表示W(wǎng)DB1相對WDB2的冗余度;βj表示第i個查詢接口屬性的權(quán)值,—r康示第i個屬性的冗余度度。8)基于WDB特征和用戶查詢的數(shù)據(jù)源選擇方法在獲取查詢相關(guān)度、返回的數(shù)據(jù)量以及冗余度三項(xiàng)數(shù)據(jù)的基礎(chǔ)上,給出基于Web數(shù)據(jù)庫特征和用戶查詢的數(shù)據(jù)源選擇方法(1)根據(jù)獲取的Web數(shù)據(jù)庫的樣本數(shù)據(jù),獲取Web數(shù)據(jù)庫的特征,并表示成(20)式的形式;(2)根據(jù)用戶輸入的查詢請求,結(jié)合Web數(shù)據(jù)庫的特征,計(jì)算該請求與所有Web數(shù)據(jù)庫的相關(guān)度sInirequesl-;(3)根據(jù)相關(guān)Simraiuest對所有數(shù)據(jù)庫進(jìn)行排序,并選擇TOPK個數(shù)據(jù)庫作為備選查詢數(shù)據(jù)庫,這里記為ChoicedDB1;(4)估計(jì)針對當(dāng)前選擇的備選數(shù)據(jù)庫執(zhí)行查詢后的返回結(jié)果sizere_st,并去除返回數(shù)據(jù)量小于N的數(shù)據(jù)庫,并將剩余的數(shù)據(jù)庫記為ChoicedDB2;(5)對ChoicedDB2中的數(shù)據(jù)庫,基于其特征計(jì)算兩兩之間的冗余度,并刪除其中冗余度值大于R的數(shù)據(jù)庫。至此,剩下的數(shù)據(jù)庫為針對當(dāng)前用戶查詢請求的數(shù)據(jù)源。本發(fā)明的優(yōu)異效果是從理論分析和實(shí)踐證明,基于以上過程,最終選擇的數(shù)據(jù)庫是與當(dāng)前查詢請求相關(guān)、相互之間的冗余盡可能低且每個查詢返回的數(shù)據(jù)量都比較多的數(shù)據(jù)庫。在Web數(shù)據(jù)集成領(lǐng)域中,能夠很好地減少檢索的目標(biāo)數(shù)據(jù)庫的數(shù)量,同時并不減少返回的數(shù)據(jù)量,因此,能夠在保證Web數(shù)據(jù)集成系統(tǒng)返回的數(shù)據(jù)質(zhì)量的同時,大大提高系統(tǒng)運(yùn)行的效率,實(shí)現(xiàn)以更小的代價返回更多的數(shù)據(jù)。圖1是兩個數(shù)值屬性的正態(tài)分布圖。具體實(shí)施例方式針對以上描述過程,針對現(xiàn)有網(wǎng)絡(luò)進(jìn)行了實(shí)際測試和驗(yàn)證,具體步驟如下1.數(shù)據(jù)準(zhǔn)備利用Watir工具按行業(yè)屬性(分類屬性)從互聯(lián)網(wǎng)上抓取了全國性人才招聘網(wǎng)站智聯(lián)招聘(www.zhilian.com)、前程無憂(www.51job.com)以及地方性招聘網(wǎng)站大眾人才網(wǎng)(www.dazhonghr.com)、齊魯人才網(wǎng)(www.qlrc.com)等4個網(wǎng)站的包含職位信息(職位名稱、招聘人數(shù)、工作地區(qū))的樣本數(shù)據(jù)各5000余條(2009年12月份采集),作為方法驗(yàn)證的測試數(shù)據(jù)。為陳述方便,下文以ZL、QC,DZ和QL四組符號分別代表四個網(wǎng)站。2.抽取Web數(shù)據(jù)庫特征首先針對各網(wǎng)站的文本數(shù)據(jù)(職位名稱)、數(shù)值數(shù)據(jù)(公司規(guī)模)和分類數(shù)據(jù)(工作地區(qū))提取其特征,其結(jié)果如表1所示,由于關(guān)鍵詞和工作地區(qū)較多,只列出數(shù)量較多的前5個。從中基本可以看出各網(wǎng)站的主要職位分布、公司規(guī)模和工作地區(qū)分布。各網(wǎng)站的數(shù)據(jù)量估計(jì)方法采用基于分類屬性的估計(jì)方法,因?yàn)樵谌瞬艛?shù)據(jù)庫中,一個職位很少會屬于兩個以上行業(yè)。另外,基于以上特征,獲得各網(wǎng)站兩兩之間的冗余度矩陣如表2所示。該表中,第i行、第j列的數(shù)據(jù)表示第i個數(shù)據(jù)庫相對第j個數(shù)據(jù)庫的冗余度向量,每個分量分別表示文本、數(shù)值和分類屬性的冗余度。從表2可以看出,各數(shù)據(jù)庫的職位重復(fù)較大,結(jié)合表1可知職位在分布上的差別;在公司規(guī)模上,結(jié)合表1容易發(fā)現(xiàn)智聯(lián)的大公司較多、前程無憂與齊魯人才的中等公司較多、而大眾的公司分布較廣,各庫之間的重復(fù)度中等;而在地區(qū)分布上,智聯(lián)和前程的重復(fù)度較大、大眾和齊魯?shù)闹貜?fù)度較大。3.基于用戶查詢的數(shù)據(jù)庫選擇獲取各數(shù)據(jù)庫特征后,設(shè)計(jì)了表3所示的4個查詢,分別針對本地的樣本數(shù)據(jù)和實(shí)際數(shù)據(jù)庫進(jìn)行查詢,并從4個數(shù)據(jù)庫中選擇2個最優(yōu)數(shù)據(jù)庫,以對比本發(fā)明方法對數(shù)據(jù)源的選擇結(jié)果與人工查詢實(shí)際數(shù)據(jù)庫的選擇結(jié)果是否一致。這四個查詢條件中,基本覆蓋了三類數(shù)據(jù)屬性,且查詢3和查詢4分別側(cè)重全國性招聘和地方性(山東)招聘。同時,“參數(shù)設(shè)置”欄對不同α取值情況進(jìn)行了驗(yàn)證,尤其針對查詢3和查詢4,各取2組α值進(jìn)行測試;由于數(shù)據(jù)庫冗余度計(jì)算中,并未考慮查詢請求,因此對參數(shù)β的取值僅取一組值進(jìn)行驗(yàn)證。根據(jù)以上查詢條件,分別計(jì)算該查詢條件與各網(wǎng)站之間的相似度、返回的數(shù)據(jù)量與冗余度,其計(jì)算和執(zhí)行結(jié)果如表4和表5所示。通過實(shí)驗(yàn)結(jié)果可以看出,本發(fā)明提出的數(shù)據(jù)源選擇方法基本符合實(shí)際需求。雖然表5中個別數(shù)據(jù)(第四行)存在不一致,但通過計(jì)算得到的結(jié)果可以發(fā)現(xiàn),綜合指標(biāo)比較中,QC比DZ具有微弱的優(yōu)勢排名靠前,這也是精確定量比較與人工定性比較的差別,但總體來看,結(jié)果基本滿足要求。從表5中也可以看出,參數(shù)α的不同取值對數(shù)據(jù)源選擇結(jié)果的影響,例如針對查詢3和查詢4的選擇結(jié)果。其原因從(9)式可以明顯看出,不同、取值查詢相似度計(jì)算結(jié)果的影響;同樣可以進(jìn)一步驗(yàn)證參數(shù)β對數(shù)據(jù)源選擇的作用。表1各網(wǎng)站的特征抽取結(jié)果職位名稱公司規(guī)模丄作地區(qū)~~(有限公司’5883),(銷售,2067),(經(jīng)~(深圳,247),(濟(jì)南,269),(廣州,理,1974),(北京,1922),(科技,1212)’333),(上海,樹1),(北京’21恥)(軟件,7240),(工程師,6554),(有限公η力(上海,1863),(北京,1300),(深圳,司,6306),(科技,2697),(上海,1709),799),(廣州,493),(杭州,355)(有限公司,5162),(濟(jì)南,1929),(山(、(濟(jì)南,4032),(濱州,308),(青島,東,1632),(經(jīng)理,1121),(科技,1016)U’270),(泰安,211),(東營’147)(有限公司,4923),(濟(jì)南,1469),(科(32)(濟(jì)南,2124),(青島,647),(山東,技,1233),(山東,968),(經(jīng)理,803)_‘551),(煙臺,450),(濰坊,375)表2各網(wǎng)站之間的冗余度分量矩陣<table>tableseeoriginaldocumentpage12</column></row><table>表3實(shí)驗(yàn)所用查詢條件<table>tableseeoriginaldocumentpage13</column></row><table>表4WDB與用戶查詢的相似度<table>tableseeoriginaldocumentpage13</column></row><table>表5實(shí)驗(yàn)結(jié)果<table>tableseeoriginaldocumentpage13</column></row><table>權(quán)利要求基于WDB特征和用戶查詢請求的WEB數(shù)據(jù)庫選擇方法,其特征在于,包括1)WDB查詢接口特征抽取方法;2)基于WDB特征的WDB和用戶查詢的相關(guān)度計(jì)算;3)滿足用戶查詢的數(shù)據(jù)量估計(jì);4)基于WDB特征的冗余度估計(jì);5)基于WDB特征和用戶查詢的數(shù)據(jù)源的選擇方法,具體步驟如下1)WDB查詢接口特征表示和抽取方法將WDB查詢接口提交的數(shù)據(jù)類型分為文本型數(shù)據(jù)、數(shù)值型數(shù)據(jù)、日期型數(shù)據(jù)和分類型數(shù)據(jù),其中由于日期型數(shù)據(jù)和數(shù)值型數(shù)據(jù)都具有連續(xù)性特點(diǎn),因此統(tǒng)一歸并為數(shù)值數(shù)據(jù);其它離散型數(shù)據(jù)按分類屬性處理。(1)基于詞頻的文本型屬性的特征表示在各種Web數(shù)據(jù)庫查詢接口中,包含文本屬性的輸入字段占有絕對多數(shù),包括圖書搜索中的書名、出版社名稱、作者,職位搜索中的職位名稱、公司名稱、職位說明,這些屬性不僅是文本屬性,而且由于Web數(shù)據(jù)庫多數(shù)都是關(guān)系數(shù)據(jù)庫,其中描述的內(nèi)容多為各種實(shí)體,因此這種數(shù)據(jù)庫中的文本屬性具有以下特點(diǎn)①Web數(shù)據(jù)庫中的文本具有極強(qiáng)的領(lǐng)域相關(guān)性,且多為各種實(shí)體的名稱、屬性,具有自身的領(lǐng)域的特點(diǎn);②Web數(shù)據(jù)庫中的文本多以自然語言中的實(shí)體Entity為主,大多不屬于中文普通詞匯的范疇,但他們在語料庫中統(tǒng)計(jì)出來的詞頻遠(yuǎn)遠(yuǎn)低于計(jì)算機(jī)類型圖書數(shù)據(jù)庫中的詞頻;因此,借鑒中文文本分類中的文檔特征表示方法,給出Web數(shù)據(jù)庫文本特征的表示方法,如以下公式所示Attrtext=<tf1,tf2,...tfn>(1)其中,Attrtext表示一個文本屬性,tfi(1≤i≤n)表示第i個詞的詞頻,n為針對文本屬性的所有文本分詞并去掉停用詞后的關(guān)鍵詞個數(shù);(2)基于正態(tài)分布的數(shù)值型屬性的特征表示在Web數(shù)據(jù)庫的查詢接口中,數(shù)值型屬性雖然不多,但也有一定的數(shù)量,包括圖書搜索的價格、人才網(wǎng)站中的招聘人數(shù),鑒于數(shù)值屬性具有的連續(xù)性特點(diǎn),且正態(tài)分布具有強(qiáng)大的普適性,采用正態(tài)分布的期望和偏差表示數(shù)值屬性的特征,即查詢接口中的某屬性對應(yīng)WDB中的一個字段是數(shù)值屬性,則通過其樣本數(shù)據(jù)獲取其均值μ和方差σ,進(jìn)而得到數(shù)值屬性的特征表示,(2)式如下Attrdata=N(μ,σ2)(2)(3)基于統(tǒng)計(jì)的分類型屬性的特征表示對于分類屬性,采用根據(jù)查詢接口屬性的分類統(tǒng)計(jì)樣本中同類屬性的記錄數(shù)與總記錄數(shù)的比值來表示,如以下公式所示(4)Web數(shù)據(jù)庫特征的形式化表示基于以上三類屬性的表示方法,即一個Web數(shù)據(jù)庫的特征CharacterWDB是一個特征向量,該向量的每個分量為這個數(shù)據(jù)庫的查詢接口的n個屬性所對應(yīng)的WDB字段的特征,Web數(shù)據(jù)庫特征的形式化表示方法,如以下公式所示CharacterWDB=<Attr1,Attr2,...,Attrn>(4)2)基于WDB特征的WDB和用戶查詢的相關(guān)度計(jì)算首先確定WDB與用戶查詢的相關(guān)度,Web數(shù)據(jù)庫與用戶查詢的相關(guān)度是指當(dāng)前用戶查詢請求與當(dāng)前Web數(shù)據(jù)庫的相互關(guān)聯(lián)的程度,其取值是0到1之間的值,其值越大,說明當(dāng)前查詢請求與當(dāng)前數(shù)據(jù)庫越相關(guān);對于用戶通過Web查詢接口發(fā)出的查詢請求,如以下公式所示request={Attr1=key1,Attr2=key2,...,Attrn=keyn}(5)其中,Attri代表查詢接口上的某個屬性,keyi代表針對當(dāng)前屬性的查詢關(guān)鍵字,1≤i≤n。keyi是文本、數(shù)字或用戶選擇的某個類別,針對以上給出的三類屬性,分別給出相關(guān)度計(jì)算的方法;其中(1)文本屬性的相關(guān)度計(jì)算若當(dāng)前用戶對Attri屬性所輸入的關(guān)鍵字keyi屬于文本屬性,則首先按照樣本數(shù)據(jù)庫的分詞方法對keyi進(jìn)行分詞,然后按照公式(6)計(jì)算該文本屬性的相關(guān)度;<mrow><msub><mi>rela</mi><mi>text</mi></msub><mo>=</mo><munder><mi>&Sigma;</mi><mi>j</mi></munder><mfrac><msub><mi>tf</mi><msub><mi>word</mi><mi>j</mi></msub></msub><mrow><mi>sum</mi><mrow><mo>(</mo><mi>allwords</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>其中,relatext表示當(dāng)前文本屬性關(guān)鍵字與Web數(shù)據(jù)庫對應(yīng)字段的相關(guān)度;表示對keyi分詞后所得到的某個詞的詞頻;sum(allwords)表示對樣本數(shù)據(jù)中當(dāng)前字段所有記錄分詞后的所有詞的詞頻;(2)數(shù)值屬性的相關(guān)度計(jì)算當(dāng)前用戶對Attri屬性所輸入的關(guān)鍵字keyi屬于數(shù)值屬性,由于公式(2)中已經(jīng)得到當(dāng)前屬性的正態(tài)分布,則只需將當(dāng)前數(shù)值keyi作為參數(shù)代入正態(tài)分布函數(shù)中,即獲取當(dāng)前數(shù)值keyi相對該正態(tài)分布的概率,將該概率定義為數(shù)值屬性與Web數(shù)據(jù)庫的相關(guān)度,如以下公式所示;<mrow><msub><mi>sim</mi><mi>data</mi></msub><mo>=</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>key</mi><mi>i</mi></msub><mo>;</mo><mi>&mu;</mi><mo>,</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mi>&sigma;</mi><msqrt><mn>2</mn><mi>&pi;</mi></msqrt></mrow></mfrac><msup><mi>exp</mi><mrow><mo>-</mo><mfrac><msup><mrow><mo>(</mo><msub><mi>key</mi><mi>i</mi></msub><mo>-</mo><mi>&mu;</mi><mo>)</mo></mrow><mn>2</mn></msup><mrow><mn>2</mn><msup><mi>&sigma;</mi><mn>2</mn></msup></mrow></mfrac></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>(3)分類屬性的相關(guān)度計(jì)算由于分類屬性在執(zhí)行查詢時是按照嚴(yán)格相等的方式執(zhí)行的,因此定義分類屬性的相關(guān)度等價于該屬性的特征,如以下公式所示;relaclass=Attrclass(8)綜上,給出當(dāng)前查詢請求與Web數(shù)據(jù)庫的相關(guān)度定義,如以下公式所示;<mrow><msub><mi>rela</mi><mi>request</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>&times;</mo><msub><mi>rela</mi><msub><mi>attr</mi><mi>i</mi></msub></msub></mrow>(其中)(9)其中,αi表示第i個查詢接口屬性的權(quán)值,表示第i個屬性與Web數(shù)據(jù)庫的相關(guān)度;3)滿足用戶查詢的數(shù)據(jù)量估計(jì)理想情況下,當(dāng)前查詢請求只有一個查詢條件,且能夠得到Web數(shù)據(jù)庫的大小sizeWDB以及當(dāng)前查詢請求所能夠返回數(shù)據(jù)的百分比percentattr,則得到該查詢可能返回的數(shù)據(jù)量,如10式中的第一個等式所示,web數(shù)據(jù)庫大小的估計(jì)已有相關(guān)的研究工作,對于返回數(shù)據(jù)的百分比,以當(dāng)前查詢請求與Web數(shù)據(jù)庫特征的相關(guān)度作為其近似值,其原因是對數(shù)據(jù)量估計(jì)的目的僅用于對各數(shù)據(jù)源進(jìn)行排序;如(10)式所示;sizeattr=sizeWDB×percentattr(10)=sizeWDB×simattr一般情況下,當(dāng)用戶輸入多個查詢條件時,多個查詢條件之間一般是and的關(guān)系,但以and連接查詢返回的數(shù)據(jù)量較少時,多數(shù)數(shù)據(jù)庫將減弱查詢條件以返回更多數(shù)據(jù),因此,不失一般性,定義滿足用戶查詢的數(shù)據(jù)量為所有查詢條件中,返回數(shù)據(jù)最多的單個查詢條件所返回的數(shù)據(jù)量,如以下公式所示;<mrow><msub><mi>size</mi><mi>request</mi></msub><mo>=</mo><msub><mi>size</mi><mi>WDB</mi></msub><mo>&times;</mo><munder><mi>max</mi><mi>i</mi></munder><mrow><mo>(</mo><msub><mi>percent</mi><msub><mi>attr</mi><mi>i</mi></msub></msub><mo>)</mo></mrow></mrow>(11)<mrow><mo>=</mo><msub><mi>size</mi><mi>WDB</mi></msub><mo>&times;</mo><munder><mi>max</mi><mi>i</mi></munder><mrow><mo>(</mo><msub><mi>sim</mi><msub><mi>attr</mi><mi>i</mi></msub></msub><mo>)</mo></mrow></mrow>4)基于WDB特征的冗余度估計(jì)針對用戶查詢的Web數(shù)據(jù)庫之間的冗余度是指當(dāng)前用戶請求提交后,兩個數(shù)據(jù)庫返回的重復(fù)數(shù)據(jù)的數(shù)量或百分比,某個查詢針對WDB1返回的查詢結(jié)果中包含n1條數(shù)據(jù),針對WDB2返回的結(jié)果中包含n2條數(shù)據(jù),其中包含的重復(fù)數(shù)據(jù)個數(shù)為n12,則n12為兩個數(shù)據(jù)庫之間的冗余度,由以下公式表示為<mrow><msub><mi>redundant</mi><msub><mi>WDB</mi><mn>1</mn></msub></msub><mo>=</mo><msub><mi>n</mi><mn>12</mn></msub><mo>/</mo><msub><mi>n</mi><mn>1</mn></msub><mo>&times;</mo><mn>100</mn><mo>%</mo></mrow>(12)<mrow><msub><mi>redundant</mi><msub><mi>WDB</mi><mn>2</mn></msub></msub><mo>=</mo><msub><mi>n</mi><mn>12</mn></msub><mo>/</mo><msub><mi>n</mi><mn>2</mn></msub><mo>&times;</mo><mn>100</mn><mo>%</mo></mrow>通過以上公式看出,redundantWDB的值越大,說明當(dāng)前數(shù)據(jù)庫的冗余度越大,其利用價值越低,而要獲得兩個數(shù)據(jù)庫之間的冗余度,就要獲取當(dāng)前Web數(shù)據(jù)庫滿足當(dāng)前查詢的數(shù)據(jù)量以及兩個數(shù)據(jù)庫返回的重復(fù)數(shù)據(jù)的個數(shù),滿足當(dāng)前查詢的數(shù)據(jù)量已在前文說明,而重復(fù)數(shù)據(jù)的數(shù)量雖然針對真實(shí)數(shù)據(jù)庫或樣本數(shù)據(jù)進(jìn)行預(yù)查詢,分別統(tǒng)計(jì)返回的數(shù)據(jù)個數(shù)與重復(fù)數(shù)據(jù)個數(shù),但這么做顯然工作量太大,而在查詢更多數(shù)據(jù)庫、返回更多數(shù)據(jù)時,將消耗更多的計(jì)算機(jī)時間,因此,采用基于WDB特征的整體重復(fù)度近似表示其數(shù)據(jù)的冗余度;計(jì)算公式如下(1)文本屬性的冗余度計(jì)算對于文本屬性,采用Web數(shù)據(jù)庫相同屬性中相同關(guān)鍵詞的詞頻總和與該屬性所有關(guān)鍵詞的詞頻總和的比值來表示,如以下公式所示;<mrow><msub><mi>redundant</mi><mi>text</mi></msub><mrow><mo>(</mo><msub><mi>WDB</mi><mn>1</mn></msub><mo>,</mo><msub><mi>WDB</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mrow><mi>i</mi><mo>&Element;</mo><mo>{</mo><mi>sameKdys</mi><mo>}</mo></mrow></munder><msub><mi>tf</mi><mi>i</mi></msub></mrow><mrow><munder><mi>&Sigma;</mi><mrow><mi>j</mi><mo>&Element;</mo><mo>{</mo><msub><mi>WDB</mi><mn>1</mn></msub><mo>,</mo><mi>text</mi><mo>}</mo></mrow></munder><msub><mi>tf</mi><mi>j</mi></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>公(29)式中,redundantext(WDB1,WDB2)表示W(wǎng)DB1相對WDB2在相同文本屬性上的冗余度;sameKeys是指WDB1和WDB2兩個數(shù)據(jù)庫中同一文本屬性中的相同關(guān)鍵字;WDB1.text是WDB1數(shù)據(jù)庫中,當(dāng)前文本屬性的所有關(guān)鍵字;tfi是指關(guān)鍵字i的詞頻。(2)數(shù)值屬性的冗余度計(jì)算在Web數(shù)據(jù)庫的特征表示中,數(shù)值型數(shù)據(jù)被表示成一個正態(tài)分布,兩個WDB的數(shù)值屬性所對應(yīng)的正態(tài)分布分別是N(μ1,σ1)和N(μ2,σ2),且樣本空間中的最小值和最大值分別是min1、max1、min2和max2,兩個正態(tài)分布的交叉部分的值為x,則定義兩個數(shù)值屬性的冗余度為兩個正態(tài)分布的重疊部分所占整體的比例,即min2和max1之間部分所占各自屬性的比例,由于正態(tài)分布通過變量替換變成標(biāo)準(zhǔn)正態(tài)分布,因此直接給出數(shù)值屬性的冗余度計(jì)算公式;如以下公式所示;<mrow><msub><mi>redundant</mi><mi>data</mi></msub><mrow><mo>(</mo><msub><mi>WDB</mi><mn>1</mn></msub><mo>,</mo><msub><mi>WDB</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>F</mi><mn>1</mn></msub><mrow><mo>(</mo><mfrac><mrow><msub><mi>max</mi><mn>1</mn></msub><mo>-</mo><msub><mi>&mu;</mi><mn>1</mn></msub></mrow><msub><mi>&sigma;</mi><mn>1</mn></msub></mfrac><mo>)</mo></mrow><mo>-</mo><msub><mi>F</mi><mn>1</mn></msub><mrow><mo>(</mo><mfrac><mrow><mi>x</mi><mo>-</mo><msub><mi>&mu;</mi><mn>1</mn></msub></mrow><msub><mi>&sigma;</mi><mn>1</mn></msub></mfrac><mo>)</mo></mrow></mrow>(14)<mrow><mo>+</mo><msub><mi>F</mi><mn>2</mn></msub><mrow><mo>(</mo><mfrac><mrow><mi>x</mi><mo>-</mo><msub><mi>&mu;</mi><mn>2</mn></msub></mrow><msub><mi>&sigma;</mi><mn>2</mn></msub></mfrac><mo>)</mo></mrow><mo>-</mo><msub><mi>F</mi><mn>2</mn></msub><mrow><mo>(</mo><mfrac><mrow><msub><mi>min</mi><mn>2</mn></msub><mo>-</mo><msub><mi>&mu;</mi><mn>2</mn></msub></mrow><msub><mi>&sigma;</mi><mn>2</mn></msub></mfrac><mo>)</mo></mrow></mrow>(3)分類屬性的冗余度計(jì)算基于WDB的特征表示分類屬性的冗余度,以兩個數(shù)據(jù)庫中當(dāng)前分類屬性中相同類別的個數(shù)與當(dāng)前數(shù)據(jù)庫中的分類總數(shù)的比值表示,如以下公式所示;<mrow><msub><mi>redundant</mi><mi>class</mi></msub><mrow><mo>(</mo><msub><mi>WDB</mi><mn>1</mn></msub><mo>,</mo><msub><mi>WDB</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mi>countofrecordsinsameClass</mi><mi>countofallrecordsinallClassValues</mi></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>15</mn><mo>)</mo></mrow></mrow>綜上,給出基于Web數(shù)據(jù)庫特征的冗余度計(jì)算公式如(16)式所示;<mrow><mi>redundant</mi><mrow><mo>(</mo><msub><mi>WDB</mi><mn>1</mn></msub><mo>,</mo><msub><mi>WDB</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mi>i</mi></munder><msub><mi>&beta;</mi><mi>i</mi></msub><mo>&times;</mo><msub><mi>redundant</mi><msub><mi>attr</mi><mi>i</mi></msub></msub></mrow>(其中)(16)其中,redundant(WDB1,WDB2)表示W(wǎng)DB1相對WDB2的冗余度;βi表示第i個查詢接口屬性的權(quán)值,表示第i個屬性的冗余度度;5)基于WDB特征和用戶查詢的數(shù)據(jù)源選擇方法在獲取查詢相關(guān)度、返回的數(shù)據(jù)量以及冗余度三項(xiàng)數(shù)據(jù)的基礎(chǔ)上,給出基于Web數(shù)據(jù)庫特征和用戶查詢的數(shù)據(jù)源選擇方法如下(1)根據(jù)獲取的Web數(shù)據(jù)庫的樣本數(shù)據(jù),獲取Web數(shù)據(jù)庫的特征,并表示成公式(4)的形式;(2)根據(jù)用戶輸入的查詢請求,結(jié)合Web數(shù)據(jù)庫的特征,計(jì)算該請求與所有Web數(shù)據(jù)庫的相關(guān)度simrequest;(3)根據(jù)相關(guān)simrequest對所有數(shù)據(jù)庫進(jìn)行排序,并選擇TOPK個數(shù)據(jù)庫作為備選查詢數(shù)據(jù)庫,這里記為ChoicedDB1;(4)估計(jì)針對當(dāng)前選擇的備選數(shù)據(jù)庫執(zhí)行查詢后的返回結(jié)果婦sizerequest,并去除返回數(shù)據(jù)量小于N的數(shù)據(jù)庫,并將剩余的數(shù)據(jù)庫記為ChoicedDB2;(5)對ChoicedDB2中的數(shù)據(jù)庫,基于其特征計(jì)算兩兩之間的冗余度,并刪除其中冗余度值大于R的數(shù)據(jù)庫。至此,剩下的數(shù)據(jù)庫為針對當(dāng)前用戶查詢請求的數(shù)據(jù)源。FSA00000038299800011.tif,FSA00000038299800022.tif,FSA00000038299800025.tif,FSA00000038299800026.tif,FSA00000038299800045.tif,FSA00000038299800046.tif全文摘要本發(fā)明提供一種基于WDB特征和用戶查詢請求的WEB數(shù)據(jù)庫選擇方法,包括1)WDB查詢接口特征抽取方法;2)基于WDB特征的WDB和用戶查詢的相關(guān)度計(jì)算;3)滿足用戶查詢的數(shù)據(jù)量估計(jì);4)基于WDB特征的冗余度估計(jì);5)基于WDB特征和用戶查詢的數(shù)據(jù)源的選擇方法,通過上述方法實(shí)現(xiàn)了DeepWeb領(lǐng)域中的數(shù)據(jù)集成和提供一個高效的數(shù)據(jù)檢索策略所要解決的首要問題。面對眾多的Web數(shù)據(jù)庫,選擇最恰當(dāng)?shù)臄?shù)據(jù)庫進(jìn)行查詢,實(shí)現(xiàn)以更小的代價返回更多的數(shù)據(jù)是本發(fā)明的目的,針對此目的提出基于Web數(shù)據(jù)庫獨(dú)立樣本的Web數(shù)據(jù)庫特征表示和抽取方法,結(jié)合綜合考慮查詢相關(guān)度、返回數(shù)據(jù)量和數(shù)據(jù)冗余度三個要素的數(shù)據(jù)源選擇方法,實(shí)現(xiàn)基于WDB特征和用戶查詢請求的WEB數(shù)據(jù)庫選擇,較好地滿足集成系統(tǒng)的需求。文檔編號G06F17/30GK101814085SQ20101010598公開日2010年8月25日申請日期2010年2月4日優(yōu)先權(quán)日2010年2月4日發(fā)明者林培光申請人:林培光
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
上高县| 金塔县| 黄骅市| 阆中市| 唐山市| 洛阳市| 仁寿县| 三门县| 宣汉县| 永安市| 高青县| 东明县| 武穴市| 布拖县| 安阳县| 云阳县| 老河口市| 天峨县| 耒阳市| 高雄市| 兴城市| 泽普县| 永修县| 扎兰屯市| 北京市| 库车县| 静安区| 高陵县| 高阳县| 泉州市| 墨脱县| 淅川县| 花莲市| 广汉市| 盱眙县| 金昌市| 上高县| 新邵县| 西城区| 探索| 尚义县|