基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法

文檔序號(hào)：6460519閱讀：180來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)字圖書(shū)館、信息檢索和Web使用挖掘領(lǐng)域，尤其涉及一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法。
背景技術(shù)：
21世紀(jì)是數(shù)字化的時(shí)代，隨著計(jì)算機(jī)技術(shù)、海量存儲(chǔ)技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展，信息載體的數(shù)字化和信息傳播的網(wǎng)絡(luò)化得到了空前的深化，圖書(shū)館的數(shù)字化成為一個(gè)必然趨勢(shì)。數(shù)字圖書(shū)館在世界很多國(guó)家受到了高度關(guān)注，并取得了迅猛發(fā)展，已經(jīng)成為人們獲取信息與知識(shí)的重要途徑。
數(shù)字圖書(shū)館中通常擁有海量的數(shù)字圖書(shū)資源，如何有效的利用這些豐富而寶貴的資源，讓數(shù)字圖書(shū)館讀者能夠更充分的利用他們就顯得非常重要。數(shù)字圖書(shū)搜索是數(shù)字圖書(shū)館必須提供的支撐性服務(wù)本，它是數(shù)字圖書(shū)館中最為重要的一個(gè)功能模塊，它使得讀者能夠很好地找到需要的圖書(shū)資源，是數(shù)字圖書(shū)館服務(wù)平臺(tái)的"第一線"。
傳統(tǒng)的圖書(shū)資源搜索系統(tǒng)是基于關(guān)系數(shù)據(jù)庫(kù)的簡(jiǎn)單匹配査找，只能過(guò)濾出與讀者所輸入的關(guān)鍵字相匹配的相關(guān)圖書(shū)條目，并沒(méi)有使用有效的圖書(shū)排序機(jī) 制以提高讀者檢索的滿意度，而且性能和用戶體驗(yàn)不佳。

發(fā)明內(nèi)容
本發(fā)明為克服數(shù)字圖書(shū)館中傳統(tǒng)圖書(shū)搜索系統(tǒng)質(zhì)量差的缺點(diǎn)，提供了一種高質(zhì)量的圖書(shū)搜索結(jié)果排序方法。
基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法包括以下步驟
(1) 提取日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖，使用關(guān)聯(lián)圖計(jì)算圖書(shū)的相關(guān)性排序得分；
(2) 提取日志中的檢索閱讀記錄，利用讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢詞進(jìn)行聚類；
(3) 抓取互聯(lián)網(wǎng)上的圖書(shū)評(píng)分?jǐn)?shù)據(jù)，整合形成圖書(shū)評(píng)分排序得分；
(4) 在查詢?cè)~聚類的基礎(chǔ)之上，針對(duì)每類查詢?cè)~，利用讀者對(duì)檢索結(jié)果的隱式反饋，綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分以及文本相似度這三種排序信息源，形成最終的圖書(shū)搜索結(jié)果排序。
所述的提取日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖，使用關(guān)聯(lián)圖計(jì) 算圖書(shū)的相關(guān)性排序得分步驟分析數(shù)字圖書(shū)館的Web使用日志數(shù)據(jù)，提取Web使用日志數(shù)據(jù)中的讀者圖書(shū)閱讀記錄，構(gòu)建共同閱讀過(guò)圖書(shū)i和圖書(shū)j的讀者的數(shù)量矩陣^，用[/ = {",:0^'<; }表示讀者的集合，5 = {~:0"'<"}表示圖書(shū) 的集合，然后對(duì)6"進(jìn)行歸一化處理
W乂
得到圖書(shū)關(guān)聯(lián)矩陣C",使用向量朋=[ &,..., |—/表示圖書(shū)的相關(guān)性排序得分，向量"[《,《，《，…,+卜/表示圖書(shū)的已知質(zhì)量信息，最后使用下面的迭代方法來(lái)計(jì)算最終的圖書(shū)相關(guān)性排序得分-
朋(o卜jifVi 。
朋("+1) = aC朋(")+ (1 - +
所述的提取日志中的檢索閱讀記錄，利用讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢?cè)~進(jìn)行聚類步驟分析數(shù)字圖書(shū)館的Web使用日志數(shù)據(jù)，提取Web使用日志數(shù)據(jù)中的圖書(shū)檢索閱讀記錄，得到與每個(gè)查詢?cè)~相關(guān)的數(shù)字圖書(shū)，使用 0 = {&:0^<^表示査詢?cè)~的集合，集合5,GB表示與査詢?cè)~&相關(guān)的圖書(shū)，集合 G,v定義為
G ,nB, ifi-j 構(gòu)建表示與査詢?cè)~A和力都相關(guān)的圖書(shū)的數(shù)量的矩陣，定義為
s..=
、■/
歸一化后即得到査詢?cè)~相似性矩陣:
S,,^其中w;=
然后使用類似上述的圖書(shū)相關(guān)性排序的迭代計(jì)算方式來(lái)對(duì)査詢?cè)~進(jìn)行聚類。
所述的抓取互聯(lián)網(wǎng)上的圖書(shū)評(píng)分?jǐn)?shù)據(jù)，整合形成圖書(shū)評(píng)分排序得分步驟設(shè)計(jì)爬蟲(chóng)程序抓取互聯(lián)網(wǎng)上著名圖書(shū)網(wǎng)站上的圖書(shū)評(píng)分頁(yè)面，分析提取圖書(shū)的元數(shù)據(jù)和圖書(shū)評(píng)分，如果提取出來(lái)的圖書(shū)在數(shù)字圖書(shū)館中存在，則整合不同網(wǎng) 站上的相同圖書(shū)的評(píng)分?jǐn)?shù)據(jù)，設(shè)整合的站點(diǎn)為S,其中0&、W，圖書(shū)&在站點(diǎn)S,上的歸一化后的評(píng)分?jǐn)?shù)據(jù)為，評(píng)分人數(shù)為&，若該圖書(shū)該站點(diǎn)上不存在或存在但是沒(méi)有評(píng)分記錄，那么或/^為零，使用如下公式來(lái)整合圖書(shū)評(píng)分+ 。
所述的在查詢?cè)~聚類的基礎(chǔ)之上，針對(duì)每類査詢?cè)~，利用讀者對(duì)檢索結(jié)果的隱式反饋，綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分以及
文本相似度這三種排序信息源，形成最終的圖書(shū)搜索結(jié)果排序步驟將基于數(shù) 字圖書(shū)訪問(wèn)關(guān)聯(lián)圖的圖書(shū)排序值表示為/ = [^^,^..,^_/，將從互聯(lián)網(wǎng)上整合得到的圖書(shū)排序值表示為5 = [^^1^2,...， |_/ ，將基于元數(shù)據(jù)文本相似度的檢索得
分表示為r^^^,…,d:r，其中B為圖書(shū)的集合，三個(gè)排序值都是介于o到i 之間的浮點(diǎn)值，得分最高的圖書(shū)的分值為i，對(duì)于一次圖書(shū)搜索，使用基于文本
相似度的元數(shù)據(jù)檢索獲得匹配的圖書(shū)列表^ = [6。，61，62,...，6 —J，、0《""為圖書(shū) 的編號(hào)，圖書(shū)列表文本相似度得分為r-[f。，",...，1/， n為匹配當(dāng)前搜索關(guān)鍵
詞的圖書(shū)數(shù)目，然后使用如下公式來(lái)計(jì)算最終的圖書(shū)得分-
其中",A^按照如下方式確定從讀者的圖書(shū)檢索閱讀的序列數(shù)據(jù)中提取出一系列的有序?qū)Α匆?^W〉，進(jìn)而將有序?qū)D(zhuǎn)化為仏w，ww〉， score表示讀者對(duì)圖書(shū)的評(píng)分，得到的一系列有序?qū)Α?t^，^^〉，按照查詢?cè)~的聚類結(jié)果來(lái)將前面得到的有序?qū)Ψ譃閙個(gè)組，第i組中的所有有序?qū)M足fej^e,，對(duì)于第i組中的每一個(gè) 有序?qū)，計(jì)算出以它的key值作為査詢?cè)~的檢索結(jié)果中它對(duì)應(yīng)的圖書(shū)的三個(gè)排序分值，以有序?qū)的score分子作為最終的圖書(shū)得分f，這樣第i組中的所有有序?qū)?gòu)成一個(gè)多元線性回歸分析模型
使用每一組中的所有有序?qū)?lái)進(jìn)行最小二乘估計(jì)可以得到針對(duì)每一個(gè)查詢?cè)~類的",，/U。
本發(fā)明所述的基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法具有如下特點(diǎn)
(1) 充分挖掘和使用了數(shù)字圖書(shū)館Web使用日志中的用戶點(diǎn)擊行為數(shù)據(jù)，可以獲得客觀的圖書(shū)相關(guān)性排序和很好的査詢?cè)~聚類效果；
(2) 將互聯(lián)網(wǎng)上豐富的圖書(shū)評(píng)分?jǐn)?shù)據(jù)融入到相對(duì)封閉和靜態(tài)的數(shù)字圖書(shū)館中，有效提高圖書(shū)搜索質(zhì)量；
(3) 綜合考慮了三種排序信息源，并使用讀者的隱式反饋來(lái)進(jìn)行集成，可以得到高質(zhì)量的排序結(jié)果。

圖1是整合圖書(shū)評(píng)分?jǐn)?shù)據(jù)基本框架圖；
具體實(shí)施例方式
基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法包括如下步驟
1.提取日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖，使用關(guān)聯(lián)圖計(jì)算圖書(shū)的相關(guān)性排序得分
設(shè)讀者的集合為[/ = { ,:0^<附}，其中m為讀者的數(shù)量；圖書(shū)的集合為 5 = ^:0sy<4，其中n為圖書(shū)的數(shù)量。讀者與圖書(shū)的閱讀關(guān)系表示為 r"^.:",et/A、e5,0^〈w，0S其中L為一個(gè)bool值，如果讀者",.閱讀了圖書(shū)^的20%以上的頁(yè)數(shù)，則視為一次有效的閱讀行為，^等于True，否則視為沒(méi)有發(fā)生過(guò)該閱讀行為，、,等于False:
圖書(shū)與圖書(shū)之間存在著關(guān)聯(lián)關(guān)系，本發(fā)明通過(guò)同時(shí)閱讀過(guò)兩本圖書(shū)的讀者把這兩本書(shū)關(guān)聯(lián)起來(lái)。定義t/,，,sC7，為U的一個(gè)子集，表示同時(shí)閱讀過(guò)圖書(shū)&,.和圖書(shū)6」的讀者的集合
這樣就可以構(gòu)建一個(gè)|5|*間的矩陣￡"，表示每一對(duì)圖書(shū)之間共同閱讀過(guò)它們的讀者的數(shù)量
這里H表示一個(gè)集合的勢(shì)。很明顯V!'，= 0而且￡是一個(gè)對(duì)稱矩陣。
對(duì)矩陣G做規(guī)格化處理:
稱C為圖書(shū)關(guān)聯(lián)矩陣，矩陣中的每一項(xiàng)代表了圖書(shū)對(duì)的關(guān)聯(lián)系數(shù)，圖書(shū)關(guān) 聯(lián)矩陣也可以被看作是一個(gè)圖書(shū)關(guān)聯(lián)圖Ge的加權(quán)關(guān)聯(lián)矩陣。Ge中的節(jié)點(diǎn)表示集合B中圖書(shū)，圖書(shū)6i和圖書(shū)6j之間有邊鏈接當(dāng)且僅當(dāng)C。X)， C".為邊的權(quán)重。
有一點(diǎn)需要注意，雖然e;是一個(gè)對(duì)稱矩陣，但是C并不是一個(gè)對(duì)稱矩陣，所以
邊^(qū)A)和邊(^A)的權(quán)重并不是一致的，Ge是一個(gè)有向加權(quán)圖。
圖書(shū)相關(guān)性排序算法最基本的思想就是通過(guò)從用戶使用日志中提取出來(lái)的
8圖書(shū)關(guān)聯(lián)圖來(lái)傳播圖書(shū)的質(zhì)量信息，進(jìn)而估算出圖書(shū)的相關(guān)性排序。使用向量朋-[^,^,^,…, 卜/表示圖書(shū)的相關(guān)性排序得分，向量d-W^，4,…, J表示圖書(shū)的已知質(zhì)量信息，最后使用下面的迭代方法來(lái)計(jì)算最終的圖書(shū)相關(guān)性排序得分
間
朋("+1) = orC順")+ (1 - or) d
收斂后得到的BR即為圖書(shū)rank值，在最終排序檢索結(jié)果中它是一個(gè) 的組成部分。最后對(duì)得到的結(jié)果進(jìn)行處理使得其中rank值最高的項(xiàng)值為1:
^ = ~~max(朋)為BR中值最高的項(xiàng)。
2.提取日志中的檢索閱讀記錄，利用讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢?cè)~進(jìn) 行聚類
分析數(shù)字圖書(shū)館的Web使用日志數(shù)據(jù)，提取其中的圖書(shū)檢索閱讀記錄，得到與每個(gè)査詢?cè)~相關(guān)的數(shù)字圖書(shū)，使用2 = ^,:0^<附}表示查詢?cè)~的集合，集合 5^B表示與査詢?cè)~《相關(guān)的圖書(shū)，集合fi^S表示與查詢?cè)~《,相關(guān)的圖書(shū)，集合
(^定義為
「5,.nB, ifi-j
《,；
wl0 ifi=j
構(gòu)建表示與查詢?cè)~&和g,都相關(guān)的圖書(shū)的數(shù)量的矩陣，定義為
歸一化后即得到査詢?cè)~相似性矩陣:
然后使用類似上述的圖書(shū)相關(guān)性排序的迭代計(jì)算方式來(lái)對(duì)查詢?cè)~進(jìn)行聚類。 3.抓取互聯(lián)網(wǎng)上的圖書(shū)評(píng)分?jǐn)?shù)據(jù)，整合形成圖書(shū)評(píng)分排序得分設(shè)計(jì)爬蟲(chóng)程序抓取互聯(lián)網(wǎng)上著名圖書(shū)網(wǎng)站上的圖書(shū)評(píng)分頁(yè)面，分析提取圖書(shū)的元數(shù)據(jù)和圖書(shū)評(píng)分，如果提取出來(lái)的圖書(shū)在數(shù)字圖書(shū)館中存在，則整合不同網(wǎng)站上的相同圖書(shū)的評(píng)分?jǐn)?shù)據(jù)，設(shè)整合的站點(diǎn)為S,其中0&、AS圖書(shū)&在站點(diǎn)S,上的歸一化后的評(píng)分?jǐn)?shù)據(jù)為^，評(píng)分人數(shù)為&，若該圖書(shū)該站點(diǎn)上不存在或存在但是沒(méi)有評(píng)分記錄，那么^或A為零，使用如下公式來(lái)整合圖書(shū)評(píng)分
<formula>formula see original document page 10</formula>
4.在査詢?cè)~聚類的基礎(chǔ)之上，針對(duì)每類查詢?cè)~，利用讀者對(duì)檢索結(jié)果的隱式反饋，綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分以及文本相似度這三種排序信息源，形成最終的圖書(shū)搜索結(jié)果排序
將基于數(shù)字圖書(shū)訪問(wèn)關(guān)聯(lián)圖的圖書(shū)排序值表示為i^[r。，A1, ...,^]、將從互
聯(lián)網(wǎng)上整合得到的圖書(shū)排序值表示為r[^^A,…,^J，將基于元數(shù)據(jù)文本相
似度的檢索得分表示為7^[f。,w,…U、其中B為圖書(shū)的集合，三個(gè)排序值都是介于0到1之間的浮點(diǎn)值，得分最高的圖書(shū)的分值為l，對(duì)于一次圖書(shū)搜索，
使用基于文本相似度的元數(shù)據(jù)檢索獲得匹配的圖書(shū)列表^^6。AA,…A-,;r， ~,0"<"為圖書(shū)的編號(hào)，圖書(shū)列表文本相似度得分為r^。,w,…，^f ， n為匹
配當(dāng)前搜索關(guān)鍵詞的圖書(shū)數(shù)目，然后使用如下公式來(lái)計(jì)算最終的圖書(shū)得分其中"，Ay按照如下方式確定從讀者的圖書(shū)檢索閱讀的序列數(shù)據(jù)中提取出一系
列的有序?qū)Α匆?gt;"〉，進(jìn)而將有序?qū)D(zhuǎn)化為〈^v,"ow〉， score表示讀者對(duì)圖書(shū)的評(píng)分，得到的一系列有序?qū)Α匆?，^w^，按照查詢?cè)~的聚類結(jié)果來(lái)將前面得到的有序?qū)Ψ譃閙個(gè)組，第i組中的所有有序?qū)M足fe;^2,，對(duì)于第i組中的每一個(gè) 有序?qū)，計(jì)算出以它的key值作為査詢?cè)~的檢索結(jié)果中它對(duì)應(yīng)的圖書(shū)的三個(gè)排序分值，以有序?qū)的score分子作為最終的圖書(shū)得分f，這樣第i組中的所有有序?qū)?gòu)成一個(gè)多元線性回歸分析模型
使用每一組中的所有有序?qū)?lái)進(jìn)行最小二乘估計(jì)可以得到針對(duì)每一個(gè)査詢詞類的"'，"^。
權(quán)利要求
1、一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法，其特征在于包括以下步驟(1)提取日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖，使用關(guān)聯(lián)圖計(jì)算圖書(shū)的相關(guān)性排序得分；(2)提取日志中的檢索閱讀記錄，利用讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢?cè)~進(jìn)行聚類；(3)抓取互聯(lián)網(wǎng)上的圖書(shū)評(píng)分?jǐn)?shù)據(jù)，整合形成圖書(shū)評(píng)分排序得分；(4)在查詢?cè)~聚類的基礎(chǔ)之上，針對(duì)每類查詢?cè)~，利用讀者對(duì)檢索結(jié)果的隱式反饋，綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分以及文本相似度這三種排序信息源，形成最終的圖書(shū)搜索結(jié)果排序。
2、根據(jù)權(quán)利要求l所述的一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法，其特征在于所述的提取日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖，使用關(guān)聯(lián) 圖計(jì)算圖書(shū)的相關(guān)性排序得分步驟分析數(shù)字圖書(shū)館的Web使用日志數(shù)據(jù)，提取Web使用日志數(shù)據(jù)中的讀者圖書(shū)閱讀記錄，構(gòu)建共同閱讀過(guò)圖書(shū)i和圖書(shū)j 的讀者的數(shù)量矩陣e^.，用"=^:0^'<朋}表示讀者的集合，萬(wàn)=化0^<"}表示圖書(shū)的集合，然后對(duì)《」進(jìn)行歸一化處理c'々其中，i:^.得到圖書(shū)關(guān)聯(lián)矩陣C^.，使用向量朋-[K》r一2,…, ^表示圖書(shū)的相關(guān)性排序得分，向量^ = [^"1，《,...， _/表示圖書(shū)的已知質(zhì)量信息，最后使用下面的迭代方法來(lái)計(jì)算最終的圖書(shū)相關(guān)性排序得分，(0)=由1間。朋(w +1) = "C朋(")+ (1 - +
3、根據(jù)權(quán)利要求l所述的一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法，其特征在于所述的提取日志中的檢索閱讀記錄，利用讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢?cè)~進(jìn)行聚類步驟分析數(shù)字圖書(shū)館的Web使用日志數(shù)據(jù)，提取Web使用日志數(shù)據(jù)中的圖書(shū)檢索閱讀記錄，得到與每個(gè)査詢?cè)~相關(guān)的數(shù)字圖書(shū)，使用 2 = ^:0《/<附}表示查詢?cè)~的集合，集合B,;S表示與查詢?cè)~9,相關(guān)的圖書(shū)，集合 G"定義為<formula>formula see original document page 3</formula>構(gòu)建表示與查詢?cè)~&和力都相關(guān)的圖書(shū)的數(shù)量的矩陣，定義為:<formula>formula see original document page 3</formula>歸一化后即得到查詢?cè)~相似性矩陣:<formula>formula see original document page 3</formula>其中<formula>formula see original document page 3</formula>然后使用類似上述的圖書(shū)相關(guān)性排序的迭代計(jì)算方式來(lái)對(duì)查詢?cè)~進(jìn)行聚類。
4、根據(jù)權(quán)利要求l所述的一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法，其特征在于所述的抓取互聯(lián)網(wǎng)上的圖書(shū)評(píng)分?jǐn)?shù)據(jù)，整合形成圖書(shū)評(píng)分排序得分步驟設(shè)計(jì)爬蟲(chóng)程序抓取互聯(lián)網(wǎng)上著名圖書(shū)網(wǎng)站上的圖書(shū)評(píng)分頁(yè)面，分析提取圖書(shū)的元數(shù)據(jù)和圖書(shū)評(píng)分，如果提取出來(lái)的圖書(shū)在數(shù)字圖書(shū)館中存在，則整合不同網(wǎng)站上的相同圖書(shū)的評(píng)分?jǐn)?shù)據(jù)，設(shè)整合的站點(diǎn)為S其中(^"7V，圖書(shū)^在站點(diǎn)S上的歸一化后的評(píng)分?jǐn)?shù)據(jù)為，評(píng)分人數(shù)為&，若該圖書(shū)該站點(diǎn)上不存在或存在但是沒(méi)有評(píng)分記錄，那么或^為零，使用如下公式來(lái)整合圖書(shū)評(píng)分<formula>formula see original document page 3</formula>.
5、根據(jù)權(quán)利要求l所述的一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法，其特征在于所述的在查詢?cè)~聚類的基礎(chǔ)之上，針對(duì)每類查詢?cè)~，利用讀者對(duì)檢索結(jié)果的隱式反饋，綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分以及文本相似度這三種排序信息源，形成最終的圖書(shū)搜索結(jié)果排序步驟將基于數(shù)字圖書(shū)訪問(wèn)關(guān)聯(lián)圖的圖書(shū)排序值表示為及=[^。 2,..將從互聯(lián)網(wǎng)上整合得到的圖書(shū)排序值表示為5 = ^^^2,...,^一/ ，將基于元數(shù)據(jù)文本相似度的檢索得分表示為r^f。,^,…U、其中B為圖書(shū)的集合，三個(gè)排序值都是介于0 到l之間的浮點(diǎn)值，得分最高的圖書(shū)的分值為1，對(duì)于一次圖書(shū)搜索，使用基于文本相似度的元數(shù)據(jù)檢索獲得匹配的圖書(shū)列表S^6。AA,…，U， &0^<"為圖書(shū)的編號(hào)，圖書(shū)列表文本相似度得分為『=[/。，^2，...，^]、 n為匹配當(dāng)前搜索關(guān)鍵詞的圖書(shū)數(shù)目，然后使用如下公式來(lái)計(jì)算最終的圖書(shū)得分其中cr,A/按照如下方式確定從讀者的圖書(shū)檢索閱讀的序列數(shù)據(jù)中提取出一系列的有序?qū)Α匆?6。W〉，進(jìn)而將有序?qū)D(zhuǎn)化為〈fe;^cw^， score表示讀者對(duì)圖書(shū)的評(píng)分，得到的一系列有序?qū)Α?fe^,"ow〉，按照查詢?cè)~的聚類結(jié)果來(lái)將前面得到的有序?qū)Ψ譃閙個(gè)組，第i組中的所有有序?qū)M足/t^e2,,對(duì)于第i組中的每一個(gè) 有序?qū)，計(jì)算出以它的key值作為查詢?cè)~的檢索結(jié)果中它對(duì)應(yīng)的圖書(shū)的三個(gè)排序分值，以有序?qū)的score分子作為最終的圖書(shū)得分f，這樣第i組中的所有有序?qū)?gòu)成一個(gè)多元線性回歸分析模型使用每一組中的所有有序?qū)?lái)進(jìn)行最小二乘估計(jì)可以得到針對(duì)每一個(gè)查詢?cè)~類的",，A,r,。
全文摘要
本發(fā)明公開(kāi)了一種基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索的方法。首先，提取Web日志中的圖書(shū)閱讀記錄構(gòu)建圖書(shū)之間的關(guān)聯(lián)圖，使用該關(guān)聯(lián)圖來(lái)計(jì)算圖書(shū)的相關(guān)性排序；其次，提取日志中的檢索閱讀記錄，利用其中讀者對(duì)檢索結(jié)果的隱式反饋對(duì)查詢?cè)~進(jìn)行聚類；最后，在查詢?cè)~聚類的基礎(chǔ)之上，針對(duì)每類查詢?cè)~，利用讀者對(duì)檢索結(jié)果的隱式反饋，綜合從關(guān)聯(lián)圖得出的圖書(shū)相關(guān)性排序、互聯(lián)網(wǎng)上的圖書(shū)評(píng)分以及文本相似度這三種信息源，形成最終的圖書(shū)搜索結(jié)果排序。本發(fā)明可以獲得客觀的圖書(shū)相關(guān)性排序和很好的查詢?cè)~聚類效果；將互聯(lián)網(wǎng)上豐富的圖書(shū)評(píng)分?jǐn)?shù)據(jù)融入到相對(duì)封閉和靜態(tài)的數(shù)字圖書(shū)館中，有效提高圖書(shū)搜索質(zhì)量。
文檔編號(hào)G06F17/30GK101320375SQ200810063010
公開(kāi)日2008年12月10日申請(qǐng)日期2008年7月4日優(yōu)先權(quán)日2008年7月4日
發(fā)明者吳江琴, 莊越挺, 寅張, 川袁申請(qǐng)人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳江琴;莊越挺;袁川;張寅
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

上一篇：一種交互式的視頻運(yùn)動(dòng)物體消除方法
上一篇：基于三角形約束的誤差控制的圖像匹配傳播方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

搜索引擎用戶行為分析相關(guān)技術(shù)

用戶行為分析相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于用戶點(diǎn)擊行為的數(shù)字圖書(shū)搜索方法