專利名稱:基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字圖書(shū)館、信息檢索和Web使用挖掘領(lǐng)域,尤其涉及一種基 于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法。
背景技術(shù):
21世紀(jì)是數(shù)字化的時(shí)代,隨著計(jì)算機(jī)技術(shù)、海量存儲(chǔ)技術(shù)和網(wǎng)絡(luò)技術(shù)的飛 速發(fā)展,信息載體的數(shù)字化和信息傳播的網(wǎng)絡(luò)化得到了空前的深化,圖書(shū)館的 數(shù)字化成為一個(gè)必然趨勢(shì)。數(shù)字圖書(shū)館在世界很多國(guó)家受到了高度關(guān)注,并取 得了迅猛發(fā)展,已經(jīng)成為人們獲取信息與知識(shí)的重要途徑。
數(shù)字圖書(shū)館中通常擁有海量的數(shù)字圖書(shū)資源,如何有效的利用這些豐富而 寶貴的資源,讓數(shù)字圖書(shū)館讀者能夠更充分的利用他們就顯得非常重要。數(shù)字 圖書(shū)搜索是數(shù)字圖書(shū)館必須提供的支撐性服務(wù)本,它是數(shù)字圖書(shū)館中最為重要 的一個(gè)功能模塊,它使得讀者能夠很好地找到需要的圖書(shū)資源,是數(shù)字圖書(shū)館 服務(wù)平臺(tái)的"第一線"。
傳統(tǒng)的圖書(shū)資源搜索系統(tǒng)是基于關(guān)系數(shù)據(jù)庫(kù)的簡(jiǎn)單匹配査找,只能過(guò)濾出 與讀者所輸入的關(guān)鍵字相匹配的相關(guān)圖書(shū)條目,并沒(méi)有使用有效的圖書(shū)排序機(jī) 制以提高讀者檢索的滿意度,而且性能和用戶體驗(yàn)不佳。
發(fā)明內(nèi)容
本發(fā)明為克服數(shù)字圖書(shū)館中傳統(tǒng)圖書(shū)搜索系統(tǒng)質(zhì)量差的缺點(diǎn),提供了一種 高質(zhì)量的圖書(shū)搜索結(jié)果排序方法。
基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法包括以下步驟
(1) 提取日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖,使用關(guān)聯(lián)圖計(jì)算 圖書(shū)的相關(guān)性排序得分;
(2) 提取日志中的檢索閱讀記錄,利用讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢 詞進(jìn)行聚類;
(3) 抓取互聯(lián)網(wǎng)上的圖書(shū)評(píng)分?jǐn)?shù)據(jù),整合形成圖書(shū)評(píng)分排序得分;
(4) 在查詢?cè)~聚類的基礎(chǔ)之上,針對(duì)每類查詢?cè)~,利用讀者對(duì)檢索結(jié)果的 隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分以及文 本相似度這三種排序信息源,形成最終的圖書(shū)搜索結(jié)果排序。
所述的提取日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖,使用關(guān)聯(lián)圖計(jì) 算圖書(shū)的相關(guān)性排序得分步驟分析數(shù)字圖書(shū)館的Web使用日志數(shù)據(jù),提取Web使用日志數(shù)據(jù)中的讀者圖書(shū)閱讀記錄,構(gòu)建共同閱讀過(guò)圖書(shū)i和圖書(shū)j的讀 者的數(shù)量矩陣^,用[/ = {",:0^'<; }表示讀者的集合,5 = {~:0"'<"}表示圖書(shū) 的集合,然后對(duì)6"進(jìn)行歸一化處理
W乂
得到圖書(shū)關(guān)聯(lián)矩陣C",使用向量朋=[ &,..., |—/表示圖書(shū)的相關(guān)性排序 得分,向量"[《,《,《,…,+卜/表示圖書(shū)的已知質(zhì)量信息,最后使用下面的迭代 方法來(lái)計(jì)算最終的圖書(shū)相關(guān)性排序得分-
朋(o卜jifVi 。
朋("+1) = aC朋(")+ (1 - +
所述的提取日志中的檢索閱讀記錄,利用讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查 詢?cè)~進(jìn)行聚類步驟分析數(shù)字圖書(shū)館的Web使用日志數(shù)據(jù),提取Web使用日志 數(shù)據(jù)中的圖書(shū)檢索閱讀記錄,得到與每個(gè)查詢?cè)~相關(guān)的數(shù)字圖書(shū),使用 0 = {&:0^<^表示査詢?cè)~的集合,集合5,GB表示與査詢?cè)~&相關(guān)的圖書(shū),集合 G,v定義為
G ,nB, ifi-j 構(gòu)建表示與査詢?cè)~A和力都相關(guān)的圖書(shū)的數(shù)量的矩陣,定義為
s..=
、■/
歸一化后即得到査詢?cè)~相似性矩陣:
S,,^其中w;=
然后使用類似上述的圖書(shū)相關(guān)性排序的迭代計(jì)算方式來(lái)對(duì)査詢?cè)~進(jìn)行聚類。
所述的抓取互聯(lián)網(wǎng)上的圖書(shū)評(píng)分?jǐn)?shù)據(jù),整合形成圖書(shū)評(píng)分排序得分步驟 設(shè)計(jì)爬蟲(chóng)程序抓取互聯(lián)網(wǎng)上著名圖書(shū)網(wǎng)站上的圖書(shū)評(píng)分頁(yè)面,分析提取圖書(shū)的 元數(shù)據(jù)和圖書(shū)評(píng)分,如果提取出來(lái)的圖書(shū)在數(shù)字圖書(shū)館中存在,則整合不同網(wǎng) 站上的相同圖書(shū)的評(píng)分?jǐn)?shù)據(jù),設(shè)整合的站點(diǎn)為S,其中0&、W,圖書(shū)&在站點(diǎn)S,上 的歸一化后的評(píng)分?jǐn)?shù)據(jù)為 ,評(píng)分人數(shù)為&,若該圖書(shū)該站點(diǎn)上不存在或存在 但是沒(méi)有評(píng)分記錄,那么 或/^為零,使用如下公式來(lái)整合圖書(shū)評(píng)分+ 。
所述的在查詢?cè)~聚類的基礎(chǔ)之上,針對(duì)每類査詢?cè)~,利用讀者對(duì)檢索結(jié)果 的隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分以及
文本相似度這三種排序信息源,形成最終的圖書(shū)搜索結(jié)果排序步驟將基于數(shù) 字圖書(shū)訪問(wèn)關(guān)聯(lián)圖的圖書(shū)排序值表示為/ = [^^,^..,^_/,將從互聯(lián)網(wǎng)上整合得 到的圖書(shū)排序值表示為5 = [^^1^2,..., |_/ ,將基于元數(shù)據(jù)文本相似度的檢索得
分表示為r^^^,…,d:r,其中B為圖書(shū)的集合,三個(gè)排序值都是介于o到i 之間的浮點(diǎn)值,得分最高的圖書(shū)的分值為i,對(duì)于一次圖書(shū)搜索,使用基于文本
相似度的元數(shù)據(jù)檢索獲得匹配的圖書(shū)列表^ = [6。,61,62,...,6 —J, 、0《""為圖書(shū) 的編號(hào),圖書(shū)列表文本相似度得分為r-[f。,",...,1/, n為匹配當(dāng)前搜索關(guān)鍵
詞的圖書(shū)數(shù)目,然后使用如下公式來(lái)計(jì)算最終的圖書(shū)得分-
其中",A^按照如下方式確定從讀者的圖書(shū)檢索閱讀的序列數(shù)據(jù)中提取出一系 列的有序?qū)Α匆?^W〉,進(jìn)而將有序?qū)D(zhuǎn)化為仏w,ww〉, score表示讀者對(duì)圖書(shū)的 評(píng)分,得到的一系列有序?qū)Α?t^,^^〉,按照查詢?cè)~的聚類結(jié)果來(lái)將前面得到的 有序?qū)Ψ譃閙個(gè)組,第i組中的所有有序?qū)M足fej^e,,對(duì)于第i組中的每一個(gè) 有序?qū),計(jì)算出以它的key值作為査詢?cè)~的檢索結(jié)果中它對(duì)應(yīng)的圖書(shū)的三個(gè)排 序分值,以有序?qū)的score分子作為最終的圖書(shū)得分f,這樣第i組中的所有有 序?qū)?gòu)成一個(gè)多元線性回歸分析模型
使用每一組中的所有有序?qū)?lái)進(jìn)行最小二乘估計(jì)可以得到針對(duì)每一個(gè)查詢?cè)~類 的",,/U。
本發(fā)明所述的基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法具有如下特點(diǎn)
(1) 充分挖掘和使用了數(shù)字圖書(shū)館Web使用日志中的用戶點(diǎn)擊行為數(shù)據(jù), 可以獲得客觀的圖書(shū)相關(guān)性排序和很好的査詢?cè)~聚類效果;
(2) 將互聯(lián)網(wǎng)上豐富的圖書(shū)評(píng)分?jǐn)?shù)據(jù)融入到相對(duì)封閉和靜態(tài)的數(shù)字圖書(shū)館 中,有效提高圖書(shū)搜索質(zhì)量;
(3) 綜合考慮了三種排序信息源,并使用讀者的隱式反饋來(lái)進(jìn)行集成,可 以得到高質(zhì)量的排序結(jié)果。
圖1是整合圖書(shū)評(píng)分?jǐn)?shù)據(jù)基本框架圖;
具體實(shí)施例方式
基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法包括如下步驟
1.提取日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖,使用關(guān)聯(lián)圖計(jì)算圖 書(shū)的相關(guān)性排序得分
設(shè)讀者的集合為[/ = { ,:0^<附},其中m為讀者的數(shù)量;圖書(shū)的集合為 5 = ^:0sy<4,其中n為圖書(shū)的數(shù)量。讀者與圖書(shū)的閱讀關(guān)系表示為 r"^.:",et/A、e5,0^〈w,0S其中L為一個(gè)bool值,如果讀者",.閱讀 了圖書(shū)^的20%以上的頁(yè)數(shù),則視為一次有效的閱讀行為,^等于True,否則 視為沒(méi)有發(fā)生過(guò)該閱讀行為,、,等于False:
圖書(shū)與圖書(shū)之間存在著關(guān)聯(lián)關(guān)系,本發(fā)明通過(guò)同時(shí)閱讀過(guò)兩本圖書(shū)的讀者 把這兩本書(shū)關(guān)聯(lián)起來(lái)。定義t/,,,sC7,為U的一個(gè)子集,表示同時(shí)閱讀過(guò)圖書(shū)&,.和 圖書(shū)6」的讀者的集合
這樣就可以構(gòu)建一個(gè)|5|*間的矩陣£",表示每一對(duì)圖書(shū)之間共同閱讀過(guò)它 們的讀者的數(shù)量
這里H表示一個(gè)集合的勢(shì)。很明顯V!',= 0而且£是一個(gè)對(duì)稱矩陣。
對(duì)矩陣G做規(guī)格化處理:
稱C為圖書(shū)關(guān)聯(lián)矩陣,矩陣中的每一項(xiàng)代表了圖書(shū)對(duì)的關(guān)聯(lián)系數(shù),圖書(shū)關(guān) 聯(lián)矩陣也可以被看作是一個(gè)圖書(shū)關(guān)聯(lián)圖Ge的加權(quán)關(guān)聯(lián)矩陣。Ge中的節(jié)點(diǎn)表示集 合B中圖書(shū),圖書(shū)6i和圖書(shū)6j之間有邊鏈接當(dāng)且僅當(dāng)C。X), C".為邊的權(quán)重。
有一點(diǎn)需要注意,雖然e;是一個(gè)對(duì)稱矩陣,但是C并不是一個(gè)對(duì)稱矩陣,所以
邊^(qū)A)和邊(^A)的權(quán)重并不是一致的,Ge是一個(gè)有向加權(quán)圖。
圖書(shū)相關(guān)性排序算法最基本的思想就是通過(guò)從用戶使用日志中提取出來(lái)的
8圖書(shū)關(guān)聯(lián)圖來(lái)傳播圖書(shū)的質(zhì)量信息,進(jìn)而估算出圖書(shū)的相關(guān)性排序。使用向量 朋-[^,^,^,…, 卜/表示圖書(shū)的相關(guān)性排序得分,向量d-W^,4,…, J表示 圖書(shū)的已知質(zhì)量信息,最后使用下面的迭代方法來(lái)計(jì)算最終的圖書(shū)相關(guān)性排序 得分
間
朋("+1) = orC順")+ (1 - or) d
收斂后得到的BR即為圖書(shū)rank值,在最終排序檢索結(jié)果中它是一個(gè) 的組成部分。最后對(duì)得到的結(jié)果進(jìn)行處理使得其中rank值最高的項(xiàng)值為1:
^ = ~~max(朋)為BR中值最高的項(xiàng)。
2.提取日志中的檢索閱讀記錄,利用讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢?cè)~進(jìn) 行聚類
分析數(shù)字圖書(shū)館的Web使用日志數(shù)據(jù),提取其中的圖書(shū)檢索閱讀記錄,得 到與每個(gè)査詢?cè)~相關(guān)的數(shù)字圖書(shū),使用2 = ^,:0^<附}表示查詢?cè)~的集合,集合 5^B表示與査詢?cè)~《相關(guān)的圖書(shū),集合fi^S表示與查詢?cè)~《,相關(guān)的圖書(shū),集合
(^定義為
「5,.nB, ifi-j
《,;
wl0 ifi=j
構(gòu)建表示與查詢?cè)~&和g,都相關(guān)的圖書(shū)的數(shù)量的矩陣,定義為
歸一化后即得到査詢?cè)~相似性矩陣:
然后使用類似上述的圖書(shū)相關(guān)性排序的迭代計(jì)算方式來(lái)對(duì)查詢?cè)~進(jìn)行聚類。 3.抓取互聯(lián)網(wǎng)上的圖書(shū)評(píng)分?jǐn)?shù)據(jù),整合形成圖書(shū)評(píng)分排序得分 設(shè)計(jì)爬蟲(chóng)程序抓取互聯(lián)網(wǎng)上著名圖書(shū)網(wǎng)站上的圖書(shū)評(píng)分頁(yè)面,分析提取圖 書(shū)的元數(shù)據(jù)和圖書(shū)評(píng)分,如果提取出來(lái)的圖書(shū)在數(shù)字圖書(shū)館中存在,則整合不 同網(wǎng)站上的相同圖書(shū)的評(píng)分?jǐn)?shù)據(jù),設(shè)整合的站點(diǎn)為S,其中0&、AS圖書(shū)&在站 點(diǎn)S,上的歸一化后的評(píng)分?jǐn)?shù)據(jù)為^,評(píng)分人數(shù)為&,若該圖書(shū)該站點(diǎn)上不存在或存在但是沒(méi)有評(píng)分記錄,那么^或A為零,使用如下公式來(lái)整合圖書(shū)評(píng)分
<formula>formula see original document page 10</formula>
4.在査詢?cè)~聚類的基礎(chǔ)之上,針對(duì)每類查詢?cè)~,利用讀者對(duì)檢索結(jié)果的隱式 反饋,綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分以及文本相 似度這三種排序信息源,形成最終的圖書(shū)搜索結(jié)果排序
將基于數(shù)字圖書(shū)訪問(wèn)關(guān)聯(lián)圖的圖書(shū)排序值表示為i^[r。,A1, ...,^]、將從互
聯(lián)網(wǎng)上整合得到的圖書(shū)排序值表示為r[^^A,…,^J,將基于元數(shù)據(jù)文本相
似度的檢索得分表示為7^[f。,w,…U、其中B為圖書(shū)的集合,三個(gè)排序值都 是介于0到1之間的浮點(diǎn)值,得分最高的圖書(shū)的分值為l,對(duì)于一次圖書(shū)搜索,
使用基于文本相似度的元數(shù)據(jù)檢索獲得匹配的圖書(shū)列表^^6。AA,…A-,;r, ~,0"<"為圖書(shū)的編號(hào),圖書(shū)列表文本相似度得分為r^。,w,…,^f , n為匹
配當(dāng)前搜索關(guān)鍵詞的圖書(shū)數(shù)目,然后使用如下公式來(lái)計(jì)算最終的圖書(shū)得分 其中",Ay按照如下方式確定從讀者的圖書(shū)檢索閱讀的序列數(shù)據(jù)中提取出一系
列的有序?qū)Α匆?gt;"〉,進(jìn)而將有序?qū)D(zhuǎn)化為〈^v,"ow〉, score表示讀者對(duì)圖書(shū)的 評(píng)分,得到的一系列有序?qū)Α匆?,^w^,按照查詢?cè)~的聚類結(jié)果來(lái)將前面得到的 有序?qū)Ψ譃閙個(gè)組,第i組中的所有有序?qū)M足fe;^2,,對(duì)于第i組中的每一個(gè) 有序?qū),計(jì)算出以它的key值作為査詢?cè)~的檢索結(jié)果中它對(duì)應(yīng)的圖書(shū)的三個(gè)排 序分值,以有序?qū)的score分子作為最終的圖書(shū)得分f,這樣第i組中的所有有 序?qū)?gòu)成一個(gè)多元線性回歸分析模型
使用每一組中的所有有序?qū)?lái)進(jìn)行最小二乘估計(jì)可以得到針對(duì)每一個(gè)査詢 詞類的"',"^。
權(quán)利要求
1、一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法,其特征在于包括以下步驟(1)提取日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖,使用關(guān)聯(lián)圖計(jì)算圖書(shū)的相關(guān)性排序得分;(2)提取日志中的檢索閱讀記錄,利用讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢?cè)~進(jìn)行聚類;(3)抓取互聯(lián)網(wǎng)上的圖書(shū)評(píng)分?jǐn)?shù)據(jù),整合形成圖書(shū)評(píng)分排序得分;(4)在查詢?cè)~聚類的基礎(chǔ)之上,針對(duì)每類查詢?cè)~,利用讀者對(duì)檢索結(jié)果的隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分以及文本相似度這三種排序信息源,形成最終的圖書(shū)搜索結(jié)果排序。
2、 根據(jù)權(quán)利要求l所述的一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法,其 特征在于所述的提取日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖,使用關(guān)聯(lián) 圖計(jì)算圖書(shū)的相關(guān)性排序得分步驟分析數(shù)字圖書(shū)館的Web使用日志數(shù)據(jù),提 取Web使用日志數(shù)據(jù)中的讀者圖書(shū)閱讀記錄,構(gòu)建共同閱讀過(guò)圖書(shū)i和圖書(shū)j 的讀者的數(shù)量矩陣e^.,用"=^:0^'<朋}表示讀者的集合,萬(wàn)=化0^<"}表示 圖書(shū)的集合,然后對(duì)《」進(jìn)行歸一化處理c'々其中,i:^.得到圖書(shū)關(guān)聯(lián)矩陣C^.,使用向量朋-[K》r一2,…, ^表示圖書(shū)的相關(guān)性排序 得分,向量^ = [^"1,《,..., _/表示圖書(shū)的已知質(zhì)量信息,最后使用下面的迭代 方法來(lái)計(jì)算最終的圖書(shū)相關(guān)性排序得分,(0)=由1間 。朋(w +1) = "C朋(")+ (1 - +
3、 根據(jù)權(quán)利要求l所述的一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法,其 特征在于所述的提取日志中的檢索閱讀記錄,利用讀者對(duì)檢索結(jié)果的隱式反饋 對(duì)查詢?cè)~進(jìn)行聚類步驟分析數(shù)字圖書(shū)館的Web使用日志數(shù)據(jù),提取Web使用 日志數(shù)據(jù)中的圖書(shū)檢索閱讀記錄,得到與每個(gè)査詢?cè)~相關(guān)的數(shù)字圖書(shū),使用 2 = ^:0《/<附}表示查詢?cè)~的集合,集合B,;S表示與查詢?cè)~9,相關(guān)的圖書(shū),集合 G"定義為<formula>formula see original document page 3</formula>構(gòu)建表示與查詢?cè)~&和力都相關(guān)的圖書(shū)的數(shù)量的矩陣,定義為:<formula>formula see original document page 3</formula>歸一化后即得到查詢?cè)~相似性矩陣:<formula>formula see original document page 3</formula>其中<formula>formula see original document page 3</formula>然后使用類似上述的圖書(shū)相關(guān)性排序的迭代計(jì)算方式來(lái)對(duì)查詢?cè)~進(jìn)行聚類。
4、根據(jù)權(quán)利要求l所述的一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法,其特征在于所述的抓取互聯(lián)網(wǎng)上的圖書(shū)評(píng)分?jǐn)?shù)據(jù),整合形成圖書(shū)評(píng)分排序得分步驟設(shè)計(jì)爬蟲(chóng)程序抓取互聯(lián)網(wǎng)上著名圖書(shū)網(wǎng)站上的圖書(shū)評(píng)分頁(yè)面,分析提取圖 書(shū)的元數(shù)據(jù)和圖書(shū)評(píng)分,如果提取出來(lái)的圖書(shū)在數(shù)字圖書(shū)館中存在,則整合不 同網(wǎng)站上的相同圖書(shū)的評(píng)分?jǐn)?shù)據(jù),設(shè)整合的站點(diǎn)為S其中(^"7V,圖書(shū)^在站 點(diǎn)S上的歸一化后的評(píng)分?jǐn)?shù)據(jù)為 ,評(píng)分人數(shù)為&,若該圖書(shū)該站點(diǎn)上不存在 或存在但是沒(méi)有評(píng)分記錄,那么 或^為零,使用如下公式來(lái)整合圖書(shū)評(píng)分<formula>formula see original document page 3</formula>.
5、根據(jù)權(quán)利要求l所述的一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法,其 特征在于所述的在查詢?cè)~聚類的基礎(chǔ)之上,針對(duì)每類查詢?cè)~,利用讀者對(duì)檢索 結(jié)果的隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分 以及文本相似度這三種排序信息源,形成最終的圖書(shū)搜索結(jié)果排序步驟將基 于數(shù)字圖書(shū)訪問(wèn)關(guān)聯(lián)圖的圖書(shū)排序值表示為及=[^。 2,..將從互聯(lián)網(wǎng)上整 合得到的圖書(shū)排序值表示為5 = ^^^2,...,^一/ ,將基于元數(shù)據(jù)文本相似度的檢 索得分表示為r^f。,^,…U、其中B為圖書(shū)的集合,三個(gè)排序值都是介于0 到l之間的浮點(diǎn)值,得分最高的圖書(shū)的分值為1,對(duì)于一次圖書(shū)搜索,使用基于 文本相似度的元數(shù)據(jù)檢索獲得匹配的圖書(shū)列表S^6。AA,…,U, &0^<"為 圖書(shū)的編號(hào),圖書(shū)列表文本相似度得分為『=[/。,^2,...,^]、 n為匹配當(dāng)前搜索 關(guān)鍵詞的圖書(shū)數(shù)目,然后使用如下公式來(lái)計(jì)算最終的圖書(shū)得分其中cr,A/按照如下方式確定從讀者的圖書(shū)檢索閱讀的序列數(shù)據(jù)中提取出一系列的有序?qū)Α匆?6。W〉,進(jìn)而將有序?qū)D(zhuǎn)化為〈fe;^cw^, score表示讀者對(duì)圖書(shū)的 評(píng)分,得到的一系列有序?qū)Α?fe^,"ow〉,按照查詢?cè)~的聚類結(jié)果來(lái)將前面得到的 有序?qū)Ψ譃閙個(gè)組,第i組中的所有有序?qū)M足/t^e2,,對(duì)于第i組中的每一個(gè) 有序?qū),計(jì)算出以它的key值作為查詢?cè)~的檢索結(jié)果中它對(duì)應(yīng)的圖書(shū)的三個(gè)排 序分值,以有序?qū)的score分子作為最終的圖書(shū)得分f,這樣第i組中的所有有 序?qū)?gòu)成一個(gè)多元線性回歸分析模型使用每一組中的所有有序?qū)?lái)進(jìn)行最小二乘估計(jì)可以得到針對(duì)每一個(gè)查詢?cè)~類 的",,A,r,。
全文摘要
本發(fā)明公開(kāi)了一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索的方法。首先,提取Web日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖,使用該關(guān)聯(lián)圖來(lái)計(jì)算圖書(shū)的相關(guān)性排序;其次,提取日志中的檢索閱讀記錄,利用其中讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢?cè)~進(jìn)行聚類;最后,在查詢?cè)~聚類的基礎(chǔ)之上,針對(duì)每類查詢?cè)~,利用讀者對(duì)檢索結(jié)果的隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分以及文本相似度這三種信息源,形成最終的圖書(shū)搜索結(jié)果排序。本發(fā)明可以獲得客觀的圖書(shū)相關(guān)性排序和很好的查詢?cè)~聚類效果;將互聯(lián)網(wǎng)上豐富的圖書(shū)評(píng)分?jǐn)?shù)據(jù)融入到相對(duì)封閉和靜態(tài)的數(shù)字圖書(shū)館中,有效提高圖書(shū)搜索質(zhì)量。
文檔編號(hào)G06F17/30GK101320375SQ200810063010
公開(kāi)日2008年12月10日 申請(qǐng)日期2008年7月4日 優(yōu)先權(quán)日2008年7月4日
發(fā)明者吳江琴, 莊越挺, 寅 張, 川 袁 申請(qǐng)人:浙江大學(xué)