專利名稱:訪問標(biāo)識(shí)索引系統(tǒng)及訪問標(biāo)識(shí)索引庫生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種訪問標(biāo)識(shí)索引系統(tǒng)以及基于此訪問標(biāo)識(shí)索引系統(tǒng)的訪問標(biāo)識(shí)索引庫生成方法。
背景技術(shù):
在互連網(wǎng)中,當(dāng)用戶訪問一個(gè)Web網(wǎng)站時(shí),該網(wǎng)站會(huì)為用戶生成一個(gè)訪問標(biāo)識(shí),以記錄用戶曾經(jīng)訪問過該網(wǎng)站。
在現(xiàn)有技術(shù)中,用戶標(biāo)識(shí)通過cookie技術(shù)實(shí)現(xiàn)。cookie是Web服務(wù)器保存在用戶硬盤上的一段文本。cookie允許一個(gè)Web站網(wǎng)在用戶的機(jī)器上保存信息并且隨后再取回它。一個(gè)Web網(wǎng)站為每一個(gè)訪問者產(chǎn)生一個(gè)唯一的ID,然后以Cookie文件的形式保存在每個(gè)用戶的機(jī)器上。cookie允許一個(gè)網(wǎng)站在用戶的機(jī)器上保存網(wǎng)站相關(guān)信息,從而網(wǎng)站可以記住瀏覽器上一次所處的狀態(tài)。用戶ID是一種簡單的狀態(tài)信息--如果用戶的機(jī)器上有ID存在,網(wǎng)站會(huì)知道用戶此前訪問過它。
網(wǎng)站可以通過各種不相同的方式利用cookie實(shí)現(xiàn)多種功能。最為常見的有網(wǎng)站通過cookie較為精確的統(tǒng)計(jì)瀏覽人數(shù)、保存用戶的設(shè)置、定制用戶個(gè)性化空間、記錄用戶網(wǎng)站軌跡以顯示用戶訪問該網(wǎng)頁的次數(shù)、顯示用戶上一次的訪問時(shí)間、記錄用戶以前在本頁中所做的選擇等等。
在現(xiàn)有技術(shù)中,網(wǎng)站對(duì)其網(wǎng)站服務(wù)器上所保存的訪問標(biāo)識(shí)信息(特別是cookie信息)和用戶行為信息的分析利用,一般僅限于基于訪問標(biāo)識(shí)信息(特別是cookie信息)的一些簡單統(tǒng)計(jì)以及以數(shù)據(jù)分析挖掘方式生成的用戶簡檔(user profile)。對(duì)于一個(gè)用戶,用戶簡檔保存了一些事實(shí)性或推測性的個(gè)人身份信息(如性別,年齡、籍貫、職業(yè)、地址等)和主要個(gè)人行為傾向信息(如某些方面的興趣、愛好和習(xí)慣等);用戶簡檔的特點(diǎn)是,數(shù)據(jù)具有總結(jié)性,存儲(chǔ)的數(shù)據(jù)量相對(duì)較小,格式一般為結(jié)構(gòu)化數(shù)據(jù)。用戶簡檔中的每一種信息,一般是對(duì)用戶在某一方面的歸類信息。由于用戶簡檔是總結(jié)性信息,用戶原始行為記錄中的大量具體信息可能在用戶簡檔中沒有體現(xiàn),限制了網(wǎng)站在用戶行為和用戶需求了解上的準(zhǔn)確性,使網(wǎng)站難以針對(duì)用戶具體需求提供更有效的服務(wù)。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)存在的缺陷提供訪問標(biāo)識(shí)索引系統(tǒng)及基于此系統(tǒng)的訪問標(biāo)識(shí)索引庫生成方法,收集和分析互聯(lián)網(wǎng)網(wǎng)站的查詢和點(diǎn)擊日志,對(duì)訪問標(biāo)識(shí)所對(duì)應(yīng)的用戶在一段時(shí)間內(nèi)的搜索點(diǎn)擊瀏覽行為記錄建立索引,提供查詢,實(shí)現(xiàn)Web網(wǎng)站對(duì)訪問標(biāo)識(shí)的管理利用,特別是對(duì)cookie的管理利用。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種訪問標(biāo)識(shí)索引系統(tǒng)以及基于此系統(tǒng)的訪問標(biāo)識(shí)索引庫生成方法,進(jìn)一步的,還提供了利用所述訪問標(biāo)識(shí)索引庫生成方法生成的訪問索引庫建立展現(xiàn)內(nèi)容索引庫的方法。
訪問標(biāo)識(shí)索引系統(tǒng),包括連接設(shè)置在網(wǎng)絡(luò)的服務(wù)器模塊、日志分析模塊及索引模塊;日志分析模塊用于處理來自所述服務(wù)器模塊的訪問日志文件,生成增量索引數(shù)據(jù),并將增量索引數(shù)據(jù)傳送至索引模塊;索引模塊用于處理來自日志分析模塊的增量索引數(shù)據(jù),生成并存儲(chǔ)索引數(shù)據(jù);所述索引數(shù)據(jù)可以是訪問標(biāo)識(shí)索引數(shù)據(jù)或/和關(guān)鍵詞索引數(shù)據(jù);所述訪問標(biāo)識(shí)索引數(shù)據(jù)是訪問標(biāo)識(shí)到關(guān)鍵詞的索引數(shù)據(jù);所述關(guān)鍵詞索引數(shù)據(jù)是關(guān)鍵詞到訪問標(biāo)識(shí)的索引數(shù)據(jù)。
訪問標(biāo)識(shí)索引庫生成方法,包括以下步驟步驟1、日志分析模塊從服務(wù)器模塊獲取訪問日志文件;步驟2、日志分析模塊生成增量索引數(shù)據(jù);步驟3、日志分析模塊將所述增量索引數(shù)據(jù)傳送至索引模塊;步驟4、索引模塊處理來自所述日志分析模塊的所述增量索引數(shù)據(jù),生成并更新索引數(shù)據(jù)。
進(jìn)一步的,步驟4之后還可以包括步驟5、生成展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引數(shù)據(jù)。
同樣,步驟5之后還可以包括步驟6、生成訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引數(shù)據(jù)。
本發(fā)明實(shí)現(xiàn)了收集和分析互聯(lián)網(wǎng)網(wǎng)站的查詢和點(diǎn)擊日志,使得網(wǎng)站(特別是提供網(wǎng)上信息服務(wù)的網(wǎng)站,如搜索引擎)可以以訪問標(biāo)識(shí)(特別是cookie中的用戶ID)為單位,利用記錄在日志中用戶與網(wǎng)站的互動(dòng)情況,分析每個(gè)用戶在一段時(shí)間內(nèi)的網(wǎng)上行為,以進(jìn)一步深入地研究用戶行為特征,了解用戶需求,針對(duì)用戶需求實(shí)現(xiàn)更多的個(gè)性化功能,從而達(dá)到為用戶提供更令人滿意服務(wù)的目的。下面通過附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
圖1為本發(fā)明訪問標(biāo)識(shí)索引系統(tǒng)結(jié)構(gòu)示意圖。
圖2為本發(fā)明訪問標(biāo)識(shí)索引系統(tǒng)實(shí)施例二日志分析模塊結(jié)構(gòu)示意圖。
圖3為本發(fā)明訪問標(biāo)識(shí)索引系統(tǒng)實(shí)施例二檢索模塊結(jié)構(gòu)示意圖。
圖4為本發(fā)明訪問標(biāo)識(shí)索引系統(tǒng)實(shí)施例二訪問標(biāo)識(shí)索引數(shù)據(jù)庫模塊結(jié)構(gòu)示意圖。
圖5為本發(fā)明訪問標(biāo)識(shí)索引系統(tǒng)實(shí)施例三日志分析模塊結(jié)構(gòu)示意圖;
圖6為本發(fā)明訪問標(biāo)識(shí)索引系統(tǒng)實(shí)施例四展現(xiàn)內(nèi)容索引模塊結(jié)構(gòu)示意圖;圖7為本發(fā)明訪問標(biāo)識(shí)索引庫生成方法流程圖;圖8為圖7所示方法中增量訪問標(biāo)識(shí)索引生成方法流程圖;圖9為圖7所示方法中生成并存儲(chǔ)索引數(shù)據(jù)的流程圖;圖10為圖8所示方法中生成并儲(chǔ)存分時(shí)段增量索引數(shù)據(jù)、歷史索引數(shù)據(jù)的流程圖;圖11為圖10所示方法中生成并更新訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)流程圖;圖12為圖10所示方法中生成并更新訪問標(biāo)識(shí)歷史索引數(shù)據(jù)流程圖;圖13為圖10所示方法中生成并更新關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)流程圖;圖14為圖10所示方法中生成并更新關(guān)鍵詞歷史索引數(shù)據(jù)流程圖;圖15為生成展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引數(shù)據(jù)流程圖;圖16為生成訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引數(shù)據(jù)流程圖。
具體實(shí)施例方式
為實(shí)現(xiàn)本發(fā)明,首先需要建立一個(gè)訪問標(biāo)識(shí)索引系統(tǒng),如圖1所示,包括連接設(shè)置在網(wǎng)絡(luò)的服務(wù)器模塊、日志分析模塊及索引模塊。下面是該系統(tǒng)的具體實(shí)施例實(shí)施例一如圖1所示,包括連接設(shè)置在網(wǎng)絡(luò)的服務(wù)器模塊、日志分析模塊及索引模塊。其中服務(wù)器模塊可以通過標(biāo)準(zhǔn)的開源模塊如apache模塊實(shí)現(xiàn),也可以通過其它服務(wù)器模塊實(shí)現(xiàn)。
日志分析模塊用于處理來自所述服務(wù)器模塊的訪問日志文件,用于處理來自服務(wù)器模塊的訪問日志文件,生成增量索引數(shù)據(jù),并將增量索引數(shù)據(jù)傳送至索引模塊。索引模塊用于處理來自日志分析模塊的增量索引數(shù)據(jù),生成并存儲(chǔ)索引數(shù)據(jù)。所述索引數(shù)據(jù)可以是訪問標(biāo)識(shí)索引數(shù)據(jù)或/和關(guān)鍵詞索引數(shù)據(jù);所述訪問標(biāo)識(shí)索引數(shù)據(jù)是訪問標(biāo)識(shí)到關(guān)鍵詞的索引數(shù)據(jù);所述關(guān)鍵詞索引數(shù)據(jù)是關(guān)鍵詞到訪問標(biāo)識(shí)的索引數(shù)據(jù)。
進(jìn)一步的,可以選擇將日志分析模塊和索引模塊分布不同的機(jī)器和/或不同機(jī)器組上,借由多臺(tái)機(jī)器的處理能力和存儲(chǔ)能力完成對(duì)大規(guī)模數(shù)據(jù)的處理和存儲(chǔ)。在本實(shí)施例中,所述日志分析模塊和索引模塊設(shè)置在不同組機(jī)器上,通過網(wǎng)絡(luò)通信聯(lián)系。
實(shí)施例二由于來自服務(wù)器模塊的日志文件數(shù)據(jù)十分龐大,數(shù)據(jù)處理工作負(fù)荷也相應(yīng)的較重。因此,在實(shí)施例一的基礎(chǔ)上,如圖2所示,日志分析模塊可以進(jìn)一步包括日志預(yù)處理模塊、增量訪問標(biāo)識(shí)索引生成模塊,以實(shí)現(xiàn)對(duì)數(shù)據(jù)的分步處理,降低單次處理的工作量。日志分析模塊中還設(shè)置增量索引傳送模塊,用于向索引模塊送數(shù)據(jù)。
日志預(yù)處理模塊用于處理來自所述服務(wù)器模塊的訪問日志文件,生成查詢預(yù)處理數(shù)據(jù);增量索引生成模塊用于處理所述查詢預(yù)處理數(shù)據(jù),生成增量索引數(shù)據(jù);增量索引傳送模塊用于將所述增量索引數(shù)據(jù)傳送至索引模塊。
所述日志預(yù)處理模塊以及增量索引生成模塊可以設(shè)置在同一機(jī)器或機(jī)器組中。通常,特別是大型網(wǎng)站中,訪問數(shù)據(jù)十分龐大,更新速度也較快,將所述日志分析模塊和增量索引生成模塊設(shè)置在同一機(jī)器上,通過文件共享的方式共享所需數(shù)據(jù),可減少不必要文件傳送時(shí)間。
索引模塊,如圖3所示,包括增量索引接收模塊、分時(shí)段增量索引合并模塊、索引庫模塊。增量索引接收模塊用于接收來自日志分析模塊的增量索引數(shù)據(jù);分時(shí)段增量索引合并模塊用于處理來自增量索引接收模塊的增量索引數(shù)據(jù)生成分時(shí)段增量索引數(shù)據(jù);索引庫模塊與分時(shí)段增量索引模塊連接,用于更新、存儲(chǔ)索引數(shù)據(jù)。
由于索引數(shù)據(jù)具有一個(gè)時(shí)效問題,通常,最新的索引記錄通常更能反映相應(yīng)用戶的行為、需求等,所以,如圖4所示,索引庫模塊包括分時(shí)段增量索引庫模塊、歷史索引庫模塊以及歷史索引合并模塊。
分時(shí)段增量索引庫模塊用于儲(chǔ)存來自分時(shí)段增量索引合并模塊的分時(shí)段增量索引數(shù)據(jù);歷史索引庫模塊與歷史索引合并模塊連接,用于存儲(chǔ)歷史索引數(shù)據(jù);歷史索引合并模塊用于根據(jù)分時(shí)段增量索引數(shù)據(jù)庫模塊中存儲(chǔ)的分時(shí)段增量索引數(shù)據(jù)更新歷史索引庫模塊。
在本實(shí)施例中,分時(shí)段增量索引數(shù)據(jù)以天為單位記錄增量索引數(shù)據(jù),即分時(shí)段增量索引數(shù)據(jù)只保留當(dāng)天增量索引數(shù)據(jù)。
另外,索引模塊具有保存某段時(shí)間內(nèi)生成的分時(shí)段增量索引的能力,以備在歷史訪問標(biāo)識(shí)索引庫崩潰、數(shù)據(jù)破壞的情況下,還可以通過索引模塊中備份的分時(shí)段增量索引恢復(fù)歷史索引庫。
實(shí)施例三進(jìn)一步的,如圖5所示,在實(shí)施例二的基礎(chǔ)上,日志分析模塊還可以包括一個(gè)訪問標(biāo)識(shí)查詢串庫生成模塊,用于處理來自所述增量索引模塊的所述查詢預(yù)處理數(shù)據(jù),并存儲(chǔ)處理后的數(shù)據(jù)。
為了提高訪問標(biāo)識(shí)索引系統(tǒng)的反映速度,訪問標(biāo)識(shí)索引系統(tǒng)對(duì)訪問日志可能只是進(jìn)行相對(duì)較簡單的處理,如切詞處理,即生成訪問標(biāo)識(shí)索引,并保存至訪問標(biāo)識(shí)索引庫。通過訪問標(biāo)識(shí)查詢串庫可以保存所提取的原始的用戶請(qǐng)求串,以進(jìn)行離線的自然語言處理,如同義擴(kuò)展、句子結(jié)構(gòu)的語法分析、語義分析等,以分析得到更多精確的深層語義信息來反映用戶的興趣點(diǎn)。
另外,由于服務(wù)其訪問日志數(shù)據(jù)量比較大,訪問標(biāo)識(shí)查詢串庫相對(duì)較小,可用來保存多天的數(shù)據(jù),在系統(tǒng)崩潰、數(shù)據(jù)破壞情況下可提供原始數(shù)據(jù)源。
實(shí)施例四在實(shí)施例二的基礎(chǔ)上,索引模塊還包括展現(xiàn)內(nèi)容索引模塊,用于根據(jù)索引庫模塊存儲(chǔ)的所述索引數(shù)據(jù)生成、存儲(chǔ)展現(xiàn)內(nèi)容索引數(shù)據(jù)。如圖6所示,展現(xiàn)內(nèi)容索引模塊包括相互連接的展現(xiàn)內(nèi)容關(guān)鍵詞索引庫模塊、展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引庫模塊和訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引庫模塊。展所述展現(xiàn)內(nèi)容關(guān)鍵詞索引庫模塊用于儲(chǔ)存展現(xiàn)內(nèi)容關(guān)鍵詞索引數(shù)據(jù);展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引庫模塊連接展現(xiàn)內(nèi)容關(guān)鍵詞索引庫模塊,用于生成并儲(chǔ)存展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引數(shù)據(jù);訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引庫模塊連接展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引庫模塊,用于生成、儲(chǔ)存訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引數(shù)據(jù)。
通過添加展現(xiàn)內(nèi)容索引模塊,可以使訪問標(biāo)識(shí)索引系統(tǒng)生成并保存網(wǎng)頁展現(xiàn)內(nèi)容(比如廣告,圖片等)與訪問標(biāo)識(shí)之間的關(guān)聯(lián)關(guān)系。即,訪問標(biāo)識(shí)索引系統(tǒng)通過訪問標(biāo)識(shí)確定用戶身份,由用戶點(diǎn)擊查詢的關(guān)鍵詞分析用戶需求,并通過展現(xiàn)內(nèi)容索引模塊將這種需求與展現(xiàn)內(nèi)容一一對(duì)應(yīng)起來。具體的,展現(xiàn)內(nèi)容關(guān)鍵詞索引庫,用來儲(chǔ)存展現(xiàn)內(nèi)容的關(guān)鍵詞信息;展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引庫模塊用于儲(chǔ)存每一個(gè)展現(xiàn)內(nèi)容所關(guān)聯(lián)的用戶群信息;訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引庫用于儲(chǔ)存每一個(gè)用戶感興趣的展現(xiàn)內(nèi)容集信息。
訪問標(biāo)識(shí)索引庫生成方法,如圖7所示,主要包括以下過程步驟1、日志分析模塊從服務(wù)器模塊獲取訪問日志文件;具體的,日志分析模塊向服務(wù)器模塊請(qǐng)求發(fā)送訪問日志文件,服務(wù)器模塊將用戶的訪問日志文件,發(fā)送到日志分析模塊。
步驟2、日志分析模塊生成增量索引數(shù)據(jù);具體的,日志分析模塊從訪問日志文件中提取每個(gè)訪問標(biāo)識(shí)對(duì)應(yīng)的用戶的IP信息,創(chuàng)建時(shí)間,ID信息,最近訪問時(shí)間,關(guān)鍵詞列表等,生成包括上述信息的增量索引數(shù)據(jù)。增量索引數(shù)據(jù)可以是訪問標(biāo)識(shí)增量索引數(shù)據(jù)或/關(guān)鍵詞增量索引數(shù)據(jù)。其中,訪問標(biāo)識(shí)增量索引數(shù)據(jù)為訪問標(biāo)識(shí)到關(guān)鍵詞的增量索引數(shù)據(jù),關(guān)鍵詞索引數(shù)據(jù)為關(guān)鍵詞到訪問標(biāo)識(shí)的增量索引數(shù)據(jù)。
步驟3、日志分析模塊將所述增量索引數(shù)據(jù)傳送至索引模塊;步驟4、索引模塊處理來自所述日志分析模塊的增量索引數(shù)據(jù),生成并更新索引數(shù)據(jù)。
其中,索引數(shù)據(jù)可以是訪問標(biāo)識(shí)索引數(shù)據(jù)或/關(guān)鍵詞索引數(shù)據(jù)。訪問標(biāo)識(shí)索引數(shù)據(jù)為訪問標(biāo)識(shí)到關(guān)鍵詞的索引數(shù)據(jù),關(guān)鍵詞索引數(shù)據(jù)為關(guān)鍵詞到訪問標(biāo)識(shí)的索引數(shù)據(jù)。
在步驟4中,索引子系統(tǒng)根據(jù)日志分析模塊提供的增量索引數(shù)據(jù),結(jié)合其存儲(chǔ)的索引數(shù)據(jù)生成新的索引數(shù)據(jù)。
通常,特別是對(duì)于大型網(wǎng)站來說,來自服務(wù)器模塊的日志文件數(shù)據(jù)十分龐大,數(shù)據(jù)處理工作負(fù)荷也相應(yīng)較重。因此,步驟2中日志分析子模塊生成增量索引數(shù)據(jù)可以分為兩個(gè)步驟執(zhí)行,如圖8所示步驟21、分析來自服務(wù)器模塊的所述訪問日志文件,提取所需字符串,生成查詢預(yù)處理數(shù)據(jù);步驟22、根據(jù)查詢預(yù)處理數(shù)據(jù)生成增量索引數(shù)據(jù)。
首先,日志分析模塊對(duì)訪問日志文件進(jìn)行格式分析,從中提取所述的字符串,如訪問標(biāo)識(shí)信息,IP信息,用戶輸入的查詢串,用戶訪問的網(wǎng)站產(chǎn)品、頻道或網(wǎng)頁,用戶的訪問的時(shí)間等,生成包括上述信息的查詢預(yù)處理數(shù)據(jù)。
再次,日志分析模塊根據(jù)所述查詢預(yù)處理數(shù)據(jù)進(jìn)一步得到用戶的IP信息,訪問標(biāo)識(shí)創(chuàng)建時(shí)間,ID信息,最近訪問時(shí)間,并通過對(duì)用戶查詢串進(jìn)行切詞處理獲得的用戶關(guān)鍵詞列表,生成包括上述信息的增量索引數(shù)據(jù)。
另外,上述兩個(gè)步驟可以由日志分析模塊的不同模塊來分別實(shí)現(xiàn)查詢預(yù)處理數(shù)據(jù)通過日志預(yù)處理模塊生成,增量索引數(shù)據(jù)通過增量索引生成模塊生成。
生成的增量索引數(shù)據(jù)通過增量傳送模塊傳送至索引模塊。
索引模塊生成并存儲(chǔ)索引數(shù)據(jù)的步驟,如圖9所示,具體為步驟41、判斷是否到達(dá)索引數(shù)據(jù)生成時(shí)刻,是則執(zhí)行步驟42,否則繼續(xù)執(zhí)行步驟41;步驟42、讀取來自日志分析模塊的增量索引數(shù)據(jù);步驟43、判斷是否有新的增量索引數(shù)據(jù)到達(dá),是則執(zhí)行步驟44,否則執(zhí)行步驟41;
步驟44、從上次讀取的位置點(diǎn)之后讀取增量索引數(shù)據(jù);步驟45、生成新的索引數(shù)據(jù)并更新索引數(shù)據(jù)。
其中,索引模塊通過增量索引接收模塊執(zhí)行步驟41、42,通過分時(shí)段增量索引合并模塊執(zhí)行步驟43、44。
由于索引數(shù)據(jù)具有一個(gè)時(shí)效問題,通常說來,新的索引記錄更能反映相應(yīng)用戶的行為、需求等。所以,對(duì)不同時(shí)段的索引進(jìn)行分別存儲(chǔ)管理,以便利用訪問標(biāo)識(shí)索引時(shí)可以根據(jù)索引生成時(shí)間進(jìn)行加權(quán)的綜合分析,步驟45進(jìn)一步包括生成并儲(chǔ)存分時(shí)段增量索引數(shù)據(jù)、歷史索引數(shù)據(jù)的步驟。分時(shí)段增量索引數(shù)據(jù)可以是訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)或/關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)。訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)為訪問標(biāo)識(shí)到關(guān)鍵詞的分時(shí)段增量索引數(shù)據(jù),關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)為關(guān)鍵詞到訪問標(biāo)識(shí)的分時(shí)段增量索引數(shù)據(jù)。同樣,歷史索引數(shù)據(jù)可以是訪問標(biāo)識(shí)歷史索引數(shù)據(jù)或/關(guān)鍵詞歷史索引數(shù)據(jù)。訪問標(biāo)識(shí)歷史索引數(shù)據(jù)為訪問標(biāo)識(shí)到關(guān)鍵詞的歷史索引數(shù)據(jù),關(guān)鍵詞歷史索引數(shù)據(jù)為關(guān)鍵詞到訪問標(biāo)識(shí)的歷史索引數(shù)據(jù)。
如圖10所示,具體過程如下步驟451、生成并更新分時(shí)段增量索引數(shù)據(jù);步驟452、判斷是否到達(dá)合并時(shí)刻,是則執(zhí)行步驟453,否則繼續(xù)執(zhí)行步驟452;步驟453、將分時(shí)段增量索引數(shù)據(jù)復(fù)制到合并數(shù)據(jù)目錄;步驟454、生成并更新歷史索引數(shù)據(jù)。
索引模塊通過分時(shí)段增量索引合并模塊執(zhí)行步驟451,通過歷史索引合并模塊執(zhí)行步驟452、453、454。
本發(fā)明的訪問標(biāo)識(shí)索引庫生成方法可以將索引數(shù)據(jù)組織為訪問標(biāo)識(shí)索引數(shù)據(jù)。即,按訪問標(biāo)識(shí)排序。索引數(shù)據(jù)格式包括IP信息,創(chuàng)建時(shí)間,ID信息,最近訪問時(shí)間,關(guān)鍵詞列表等。其中,關(guān)鍵詞還可以帶有一個(gè)權(quán)值,這個(gè)權(quán)值取決于詞頻、詞屬性、訪問時(shí)間等。
因此,相應(yīng)的,在生成訪問標(biāo)識(shí)索引數(shù)據(jù)的過程中,增量索引數(shù)據(jù)為訪問標(biāo)識(shí)增量索引數(shù)據(jù)、分時(shí)段增量索引數(shù)據(jù)為訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)、歷史索引數(shù)據(jù)為訪問標(biāo)識(shí)歷史索引數(shù)據(jù)。
如圖11所示,步驟451具體為步驟4511a、判斷是否已經(jīng)存在此訪問標(biāo)識(shí)的訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù),是,則執(zhí)行步驟4512a,否則,執(zhí)行步驟4513a;步驟4512a、將該訪問標(biāo)識(shí)的訪問標(biāo)識(shí)增量索引數(shù)據(jù)與訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)進(jìn)行加權(quán)合并生成該訪問標(biāo)識(shí)新的訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù),保存至分時(shí)段增量索引庫,執(zhí)行步驟4514a;步驟4513a、直接將該訪問標(biāo)識(shí)的訪問標(biāo)識(shí)增量索引數(shù)據(jù)插入分時(shí)段增量索引庫,執(zhí)行步驟4514a;步驟4514a、判斷是否還有未處理的訪問標(biāo)識(shí)增量索引數(shù)據(jù),是,則執(zhí)行步驟4511a,否則,結(jié)束。
具體的,在生成訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)時(shí),先將訪問標(biāo)識(shí)增量索引數(shù)據(jù)讀入內(nèi)存,在內(nèi)存進(jìn)行內(nèi)排序(按訪問標(biāo)識(shí)中包含的ID簽名有序),再與外存的分時(shí)段增量訪問標(biāo)識(shí)索引庫(按訪問標(biāo)識(shí)中包含的ID簽名有序)進(jìn)行多路歸并,新的訪問標(biāo)識(shí)插入進(jìn)新生成的分時(shí)段增量訪問標(biāo)識(shí)索引庫,已有的訪問標(biāo)識(shí)需要將關(guān)鍵詞列表進(jìn)行合并,相同的關(guān)鍵詞權(quán)重累加。
類似于訪問標(biāo)識(shí)分時(shí)段增量索引生成,歷史訪問標(biāo)識(shí)索引生成時(shí)也采用加權(quán)合并的方法,不同的是,歷史訪問標(biāo)識(shí)索引庫中關(guān)鍵詞的權(quán)值還隨時(shí)間改變,以反映關(guān)鍵詞最近的受關(guān)注度。
因此,如圖12所示,步驟454進(jìn)一步包括步驟4541a、判斷歷史索引庫中是否有訪問標(biāo)識(shí)未在訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)中出現(xiàn),是,則執(zhí)行步驟4542a,否則,執(zhí)行步驟4543a;步驟4542a、更新歷史索引庫中此類訪問標(biāo)識(shí)的所有關(guān)鍵詞權(quán)值;步驟4543a、對(duì)每一個(gè)訪問標(biāo)識(shí)判斷是否已經(jīng)存在此訪問標(biāo)識(shí)的訪問標(biāo)識(shí)歷史索引數(shù)據(jù),是,則執(zhí)行步驟4544a,否則,執(zhí)行步驟4545a;步驟4544a、將該訪問標(biāo)識(shí)的訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)與訪問標(biāo)識(shí)歷史索引數(shù)據(jù)進(jìn)行加權(quán)合并生成該訪問標(biāo)識(shí)的新的訪問標(biāo)識(shí)歷史索引數(shù)據(jù),保存至歷史索引數(shù)據(jù)庫,執(zhí)行步驟4546a;步驟4545a、直接將該訪問標(biāo)識(shí)的訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)插入歷史索引數(shù)據(jù)庫,執(zhí)行步驟4546a;步驟4546a、判斷是否還有未處理的訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù),是,則執(zhí)行步驟4541a,否則,結(jié)束。
具體技術(shù)手段如下判斷訪問標(biāo)識(shí)歷史索引庫中是否有訪問標(biāo)識(shí)未在訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)中出現(xiàn),是,則在訪問標(biāo)識(shí)歷史索引庫中,將此類訪問標(biāo)識(shí)的所有關(guān)鍵詞的權(quán)值乘上一個(gè)時(shí)間衰減因子,得到新的權(quán)值,并更新此類訪問標(biāo)識(shí)的所有關(guān)鍵詞權(quán)值;如果訪問標(biāo)識(shí)分時(shí)段增量索引中的訪問標(biāo)識(shí)是原來訪問標(biāo)識(shí)歷史索引庫中沒有的,將直接將該訪問標(biāo)識(shí)的訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)插入訪問標(biāo)識(shí)歷史索引庫;對(duì)于訪問標(biāo)識(shí)分時(shí)段增量索引和訪問標(biāo)識(shí)歷史索引庫中都有的訪問標(biāo)識(shí),將該訪問標(biāo)識(shí)的關(guān)鍵詞列表加權(quán)合并,其中,訪問標(biāo)識(shí)歷史索引庫的關(guān)鍵詞權(quán)值乘上一個(gè)時(shí)間衰減因子。
本發(fā)明的訪問標(biāo)識(shí)索引庫生成方法也可以將索引數(shù)據(jù)組織為關(guān)鍵詞索引數(shù)據(jù)。即,索引數(shù)據(jù)按關(guān)鍵詞排序。索引數(shù)據(jù)格式包括關(guān)鍵詞權(quán)值、訪問標(biāo)識(shí)的屬性信息(如訪問標(biāo)識(shí)的hash值、用戶最近活動(dòng)時(shí)間、訪問標(biāo)識(shí)權(quán)值等)等等。
因此,相應(yīng)的,在生成訪問標(biāo)識(shí)索引數(shù)據(jù)的過程中,增量索引數(shù)據(jù)為關(guān)鍵詞增量索引數(shù)據(jù)、分時(shí)段增量索引數(shù)據(jù)為關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)、歷史索引數(shù)據(jù)為關(guān)鍵詞歷史索引數(shù)據(jù)。
如圖13所示,步驟451具體為步驟4511b、判斷是否已經(jīng)存在關(guān)鍵詞的關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù),是,則執(zhí)行步驟4512b,否則,執(zhí)行步驟4513b;步驟4512b、將該關(guān)鍵詞的關(guān)鍵詞增量索引數(shù)據(jù)與關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)進(jìn)行加權(quán)合并生成該關(guān)鍵詞新的關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù),保存至分時(shí)段增量索引庫,執(zhí)行步驟4514b;步驟4513b、直接將該關(guān)鍵詞的關(guān)鍵詞增量索引數(shù)據(jù)插入分時(shí)段增量索引庫,執(zhí)行步驟4514b;步驟4514b、判斷是否還有未處理的關(guān)鍵詞增量索引數(shù)據(jù),是,則執(zhí)行步驟4511b,否則,結(jié)束。
利用關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)生成關(guān)鍵詞歷史索引數(shù)據(jù)的實(shí)現(xiàn)方式與據(jù)生成訪問標(biāo)識(shí)歷史索引數(shù)據(jù)的方法類似,具體如下首先遍歷讀入的關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)的每個(gè)關(guān)鍵詞結(jié)點(diǎn),在關(guān)鍵詞增量索引數(shù)據(jù)中查找,如果查找成功,則根據(jù)訪問標(biāo)識(shí)順序歸并兩者之后的訪問標(biāo)識(shí)索引拉鏈,否則直接輸出其索引拉鏈到新的關(guān)鍵詞分時(shí)段增量索引拉鏈文件中,直至遍歷完成。關(guān)鍵詞增量索引數(shù)據(jù)中遍歷剩下的關(guān)鍵詞,將其每個(gè)結(jié)點(diǎn)插入到關(guān)鍵詞分時(shí)段增量索引庫,并直接輸出其索引拉鏈到新的關(guān)鍵詞分時(shí)段增量索引拉鏈文件中。保存最終結(jié)果。
如圖14所示,步驟454具體為步驟4541b、對(duì)關(guān)鍵詞判斷是否已經(jīng)存在此關(guān)鍵詞的關(guān)鍵詞歷史索引數(shù)據(jù),是,則執(zhí)行步驟4542b,否則,執(zhí)行步驟4543b;步驟4542b、將該關(guān)鍵詞的關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)與關(guān)鍵詞歷史索引數(shù)據(jù)進(jìn)行加權(quán)合并生成該關(guān)鍵詞的新的關(guān)鍵詞歷史索引數(shù)據(jù),保存至歷史索引庫,執(zhí)行步驟4544b;步驟4543b、直接將該關(guān)鍵詞的關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)插入歷史索引庫,執(zhí)行步驟4544b;步驟4544b、判斷是否還有未處理的關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù),是,則執(zhí)行步驟4541b,否則,結(jié)束。
利用關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)生成關(guān)鍵詞歷史索引數(shù)據(jù)的實(shí)現(xiàn)方式與前述利用關(guān)鍵詞增量索引數(shù)據(jù)生成關(guān)鍵詞分時(shí)段索引數(shù)據(jù)的方法類似。另外,在關(guān)鍵詞歷史索引庫中,最近活動(dòng)時(shí)刻距今到達(dá)某個(gè)設(shè)定時(shí)間長度的訪問標(biāo)識(shí)將被刪除。通過上述手段可以清理過久沒有活動(dòng)的訪問標(biāo)識(shí),以節(jié)約存儲(chǔ)空間。此外,訪問標(biāo)識(shí)的權(quán)值也會(huì)隨時(shí)間而衰減(采用在加權(quán)合并過程中,將權(quán)值乘以某一個(gè)衰減因子的手段實(shí)現(xiàn),在本實(shí)施例中,衰減因子為0.9)如果權(quán)值衰減為零,該訪問標(biāo)識(shí)也會(huì)被刪除。即,如果某訪問標(biāo)識(shí)較長時(shí)間沒有查詢某關(guān)鍵詞,則該訪問標(biāo)識(shí)將被從該關(guān)鍵詞的索引拉鏈中清除,以反映該用戶興趣的變化。
由于對(duì)用戶的興趣分析最終目的是為了針對(duì)用戶提供更符合用戶需求的內(nèi)容,因此,在步驟4之后還可以進(jìn)一步包括生成展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引數(shù)據(jù)的步驟5。
步驟5、生成展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引數(shù)據(jù)。
如圖15所示,具體為步驟51、對(duì)每一個(gè)展現(xiàn)內(nèi)容,從展現(xiàn)內(nèi)容關(guān)鍵詞索引庫中取出該展現(xiàn)內(nèi)容對(duì)應(yīng)的所有關(guān)鍵詞;步驟52、對(duì)每一個(gè)關(guān)鍵詞去查找索引數(shù)據(jù)庫,得到一組與該關(guān)鍵詞關(guān)聯(lián)的訪問標(biāo)識(shí)列;步驟53、將多組訪問標(biāo)識(shí)列表加權(quán)合并,得到該展現(xiàn)內(nèi)容的關(guān)聯(lián)訪問標(biāo)識(shí)集合,生成并保存的展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引數(shù)據(jù)。
通過上述技術(shù)手段,可以生成并保存網(wǎng)頁展現(xiàn)內(nèi)容(比如廣告,圖片等)與訪問標(biāo)識(shí)之間的關(guān)聯(lián)關(guān)系,特別是生成并保存每一個(gè)展現(xiàn)內(nèi)容所關(guān)聯(lián)的用戶群信息。達(dá)到可以由展現(xiàn)內(nèi)容檢索該展現(xiàn)內(nèi)容的興趣用戶群的效果。
除了由展現(xiàn)內(nèi)容檢索用戶群之外,在實(shí)際中,往往需要對(duì)某個(gè)用戶投放其感興趣的一批展現(xiàn)內(nèi)容,以實(shí)現(xiàn)對(duì)用戶的個(gè)性化服務(wù),因此,在步驟5后還可以包括一個(gè)步驟6。
步驟6、生成訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引數(shù)據(jù)。
如圖16所示,步驟6具體包括步驟61、建立一個(gè)訪問標(biāo)識(shí)列表;步驟62、對(duì)于展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引庫中展現(xiàn)內(nèi)容關(guān)聯(lián)的每一個(gè)訪問標(biāo)識(shí)判斷是否存在訪問標(biāo)識(shí)列表中,是則執(zhí)行步驟63,否則執(zhí)行步驟64;步驟63、將所述展現(xiàn)內(nèi)容加入到所述訪問標(biāo)識(shí)的關(guān)聯(lián)展現(xiàn)內(nèi)容列表尾,執(zhí)行步驟65;步驟64、在所述訪問標(biāo)識(shí)列表中加入所述訪問標(biāo)識(shí),將所述訪問的初始關(guān)聯(lián)展示內(nèi)容列表位置所述展示內(nèi)容,執(zhí)行步驟65;步驟65、判斷展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引庫模塊中是否還有未處理的展現(xiàn)內(nèi)容的,是則執(zhí)行步驟61,否則儲(chǔ)存所述訪問標(biāo)識(shí)列表為訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引數(shù)據(jù)。
通過上述技術(shù)手段,可以實(shí)現(xiàn)生成并保存網(wǎng)頁展現(xiàn)內(nèi)容(比如廣告,圖片等)與訪問標(biāo)識(shí)之間的關(guān)聯(lián)關(guān)系,特別是生成并保存每一個(gè)用戶所關(guān)聯(lián)的展現(xiàn)內(nèi)容信息。即,最終達(dá)到通過訪問標(biāo)識(shí)確定用戶身份,由用戶點(diǎn)擊查詢的關(guān)鍵詞分析用戶興趣需求,將用戶興趣需求與網(wǎng)頁展現(xiàn)內(nèi)容對(duì)應(yīng)起來,為用戶提供一組個(gè)性化展現(xiàn)內(nèi)容的目的。
此外,在日志分析子系統(tǒng)生成查詢預(yù)處理的步驟21之后還可以進(jìn)一步包括步驟21a、日志分析模塊根據(jù)查詢預(yù)處理數(shù)據(jù)提取的查詢串生成分時(shí)段增量查詢串并儲(chǔ)存。
通過訪問標(biāo)識(shí)查詢串庫儲(chǔ)存的原始的用戶請(qǐng)求串,網(wǎng)站可以進(jìn)行離線的自然語言處理,如同義擴(kuò)展、句子結(jié)構(gòu)的語法分析、語義分析等,以分析得到更多精確的深層語義信息來反映用戶的興趣點(diǎn)。另外,在系統(tǒng)崩潰、數(shù)據(jù)破壞情況下,訪問標(biāo)識(shí)查詢串庫可提供原始數(shù)據(jù)源。
最后所應(yīng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍。
權(quán)利要求
1.一種訪問標(biāo)識(shí)索引系統(tǒng),包括連接設(shè)置在網(wǎng)絡(luò)的服務(wù)器模塊,其特征在于,還包括日志分析模塊及索引模塊;所述日志分析模塊用于處理來自所述服務(wù)器模塊的訪問日志文件,生成增量索引數(shù)據(jù),并將所述增量索引數(shù)據(jù)傳送至所述索引模塊;所述索引模塊用于處理來自所述日志分析模塊的所述增量索引數(shù)據(jù),生成并存儲(chǔ)索引數(shù)據(jù);所述索引數(shù)據(jù)可以是訪問標(biāo)識(shí)索引數(shù)據(jù)或/和關(guān)鍵詞索引數(shù)據(jù);所述訪問標(biāo)識(shí)索引數(shù)據(jù)是訪問標(biāo)識(shí)到關(guān)鍵詞的索引數(shù)據(jù);所述關(guān)鍵詞索引數(shù)據(jù)是關(guān)鍵詞到訪問標(biāo)識(shí)的索引數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的訪問標(biāo)識(shí)索引系統(tǒng),其特征在于,所述日志分析模塊包括日志預(yù)處理模塊、增量索引生成模塊、以及增量索引傳送模塊;所述日志預(yù)處理模塊用于處理來自所述服務(wù)器模塊的訪問日志文件,生成查詢預(yù)處理數(shù)據(jù);所述增量索引生成模塊用于處理所述查詢預(yù)處理數(shù)據(jù),生成增量索引數(shù)據(jù);所述增量索引傳送模塊用于將所述增量索引數(shù)據(jù)傳送至所述索引模塊。
3.根據(jù)權(quán)利要求2所述的訪問標(biāo)識(shí)索引系統(tǒng),其特征在于,所述日志分析模塊還包括一個(gè)訪問標(biāo)識(shí)查詢串庫生成模塊;所述訪問標(biāo)識(shí)查詢串庫生成模塊用于處理來自所述增量索引模塊的所述查詢預(yù)處理數(shù)據(jù),并存儲(chǔ)處理后的數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的訪問標(biāo)識(shí)索引系統(tǒng),其特征在于,所述索引模塊包括增量索引接收模塊、分時(shí)段增量索引合并模塊、索引庫模塊;所述增量索引接收模塊用于接收來自所述日志分析模塊的所述增量索引數(shù)據(jù);所述分時(shí)段增量索引合并模塊用于處理來自所述增量索引接收模塊的所述增量索引數(shù)據(jù)生成分時(shí)段增量索引數(shù)據(jù);所述索引庫模塊與分時(shí)段增量索引模塊連接,用于更新、存儲(chǔ)所述索引數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的訪問標(biāo)識(shí)索引系統(tǒng),其特征在于,所述索引庫模塊包括分時(shí)段增量索引庫模塊、歷史索引庫模塊以及歷史索引合并模塊;所述分時(shí)段增量索引庫模塊用于儲(chǔ)存來所述自分時(shí)段增量索引合并模塊的所述分時(shí)段增量索引數(shù)據(jù);所述歷史索引庫模塊與所述歷史索引合并模塊連接,用于存儲(chǔ)歷史索引數(shù)據(jù);所述歷史索引合并模塊用于根據(jù)所述分時(shí)段增量索引數(shù)據(jù)庫模塊中存儲(chǔ)的分時(shí)段增量索引數(shù)據(jù)更新所述歷史索引庫模塊。
6.根據(jù)權(quán)利要求4所述的訪問標(biāo)識(shí)索引系統(tǒng),其特征在于,所述索引模塊還包括展現(xiàn)內(nèi)容索引模塊;所述展現(xiàn)內(nèi)容索引模塊用于根據(jù)所述索引庫模塊存儲(chǔ)的所述索引數(shù)據(jù)生成并存儲(chǔ)展現(xiàn)內(nèi)容索引數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的訪問標(biāo)識(shí)索引系統(tǒng),其特征在于,展現(xiàn)內(nèi)容索引模塊包括相互連接的展現(xiàn)內(nèi)容關(guān)鍵詞索引庫模塊、展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引庫模塊和訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引庫模塊;所述展現(xiàn)內(nèi)容關(guān)鍵詞索引庫模塊用于儲(chǔ)存展現(xiàn)內(nèi)容關(guān)鍵詞索引數(shù)據(jù);所述展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引庫模塊連接所述展現(xiàn)內(nèi)容關(guān)鍵詞索引庫模塊,用于生成并儲(chǔ)存展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引數(shù)據(jù);所述訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引庫模塊連接所述展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引庫模塊,用于生成、儲(chǔ)存訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引數(shù)據(jù)。
8.一種訪問標(biāo)識(shí)索引庫生成方法,其特征在于,包括以下步驟步驟1、日志分析模塊從服務(wù)器模塊獲取訪問日志文件;步驟2、日志分析模塊生成增量索引數(shù)據(jù);步驟3、日志分析模塊將所述增量索引數(shù)據(jù)傳送至索引模塊;步驟4、索引模塊處理來自所述日志分析模塊的所述增量索引數(shù)據(jù),生成并更新索引數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,步驟2具體為步驟21、分析來自服務(wù)器模塊的所述訪問日志文件,提取所需字符串,生成查詢預(yù)處理數(shù)據(jù);步驟22、根據(jù)查詢預(yù)處理數(shù)據(jù)生成增量索引數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,步驟21之后進(jìn)一步包括步驟21a、日志分析模塊根據(jù)查詢預(yù)處理數(shù)據(jù)提取的查詢串生成分時(shí)段增量查詢串并儲(chǔ)存。
11.根據(jù)權(quán)利要求8所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,步驟4具體包括以下步驟步驟41、判斷是否到達(dá)索引數(shù)據(jù)生成時(shí)刻,是則執(zhí)行步驟42,否則繼續(xù)執(zhí)行步驟41;步驟42、讀取來自日志分析模塊的增量索引數(shù)據(jù);步驟43、判斷是否有新的增量索引數(shù)據(jù)到達(dá),是則執(zhí)行步驟44,否則執(zhí)行步驟41;步驟44、從上次讀取的位置點(diǎn)之后讀取增量索引數(shù)據(jù);步驟45、生成新的索引數(shù)據(jù)并更新索引數(shù)據(jù)。
12.根據(jù)權(quán)利要求11所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,步驟45具體為步驟451、生成并更新分時(shí)段增量索引數(shù)據(jù);步驟452、判斷是否到達(dá)合并時(shí)刻,是則執(zhí)行步驟453,否則繼續(xù)執(zhí)行步驟452;步驟453、將分時(shí)段增量索引數(shù)據(jù)復(fù)制到合并數(shù)據(jù)目錄;步驟454、生成并更新歷史索引數(shù)據(jù)。
13.根據(jù)權(quán)利要求12所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,當(dāng)所述增量索引數(shù)據(jù)為訪問標(biāo)識(shí)增量索引數(shù)據(jù)、分時(shí)段增量索引數(shù)據(jù)為訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)時(shí),步驟451具體為步驟4511a、判斷是否已經(jīng)存在此訪問標(biāo)識(shí)的訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù),是,則執(zhí)行步驟4512a,否則,執(zhí)行步驟4513a;步驟4512a、將該訪問標(biāo)識(shí)的訪問標(biāo)識(shí)增量索引數(shù)據(jù)與訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)進(jìn)行加權(quán)合并生成該訪問標(biāo)識(shí)新的訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù),保存至分時(shí)段增量索引庫,執(zhí)行步驟4514a;步驟4513a、直接將該訪問標(biāo)識(shí)的訪問標(biāo)識(shí)增量索引數(shù)據(jù)插入分時(shí)段增量索引庫,執(zhí)行步驟4514a;步驟4514a、判斷是否還有未處理的訪問標(biāo)識(shí)增量索引數(shù)據(jù),是,則執(zhí)行步驟4511a,否則,結(jié)束。
14.根據(jù)權(quán)利要求12所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,當(dāng)所述分時(shí)段增量索引數(shù)據(jù)為訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)、歷史索引數(shù)據(jù)為訪問標(biāo)識(shí)歷史索引數(shù)據(jù)時(shí)步驟454具體為步驟4541a、判斷歷史索引庫中是否有訪問標(biāo)識(shí)未在訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)中出現(xiàn),是,則執(zhí)行步驟4542a,否則,執(zhí)行步驟4543a;步驟4542a、更新歷史索引庫中此類訪問標(biāo)識(shí)的所有關(guān)鍵詞權(quán)值;步驟4543a、對(duì)每一個(gè)訪問標(biāo)識(shí)判斷是否已經(jīng)存在此訪問標(biāo)識(shí)的訪問標(biāo)識(shí)歷史索引數(shù)據(jù),是,則執(zhí)行步驟4544a,否則,執(zhí)行步驟4545a;步驟4544a、將該訪問標(biāo)識(shí)的訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)與訪問標(biāo)識(shí)歷史索引數(shù)據(jù)進(jìn)行加權(quán)合并生成該訪問標(biāo)識(shí)的新的訪問標(biāo)識(shí)歷史索引數(shù)據(jù),保存至歷史索引數(shù)據(jù)庫,執(zhí)行步驟4546a;步驟4545a、直接將該訪問標(biāo)識(shí)的訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)插入歷史索引數(shù)據(jù)庫,執(zhí)行步驟4546a;步驟4546a、判斷是否還有未處理的訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù),是,則執(zhí)行步驟4541a,否則,結(jié)束。
15.根據(jù)權(quán)利要求14所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,步驟4544a中,訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)與訪問標(biāo)識(shí)歷史索引數(shù)據(jù)時(shí)加權(quán)合并時(shí),訪問標(biāo)識(shí)歷史索引數(shù)據(jù)的關(guān)鍵詞權(quán)值乘上一個(gè)時(shí)間衰減因子后再與訪問標(biāo)識(shí)分時(shí)段增量索引數(shù)據(jù)加權(quán)合并。
16.根據(jù)權(quán)利要求12所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,當(dāng)所述增量索引數(shù)據(jù)為關(guān)鍵詞增量索引數(shù)據(jù)、分時(shí)段增量索引數(shù)據(jù)為關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)時(shí),步驟451具體為步驟4511b、判斷是否已經(jīng)存在關(guān)鍵詞的關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù),是,則執(zhí)行步驟4512b,否則,執(zhí)行步驟4513b;步驟4512b、將該關(guān)鍵詞的關(guān)鍵詞增量索引數(shù)據(jù)與關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)進(jìn)行加權(quán)合并生成該關(guān)鍵詞新的關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù),保存至分時(shí)段增量索引庫,執(zhí)行步驟4514b;步驟4513b、直接將該關(guān)鍵詞的關(guān)鍵詞增量索引數(shù)據(jù)插入分時(shí)段增量索引庫,執(zhí)行步驟4514b;步驟4514b、判斷是否還有未處理的關(guān)鍵詞增量索引數(shù)據(jù),是,則執(zhí)行步驟4511b,否則,結(jié)束。
17.根據(jù)權(quán)利要求12所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,當(dāng)所述分時(shí)段增量索引數(shù)據(jù)為關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)、歷史索引數(shù)據(jù)為關(guān)鍵詞歷史索引數(shù)據(jù)時(shí)步驟454具體為步驟4541b、對(duì)關(guān)鍵詞判斷是否已經(jīng)存在此關(guān)鍵詞的關(guān)鍵詞歷史索引數(shù)據(jù),是,則執(zhí)行步驟4542b,否則,執(zhí)行步驟4543b;步驟4542b、將該關(guān)鍵詞的關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)與關(guān)鍵詞歷史索引數(shù)據(jù)進(jìn)行加權(quán)合并生成該關(guān)鍵詞的新的關(guān)鍵詞歷史索引數(shù)據(jù),保存至歷史索引庫,執(zhí)行步驟4544b;步驟4543b、直接將該關(guān)鍵詞的關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)插入歷史索引庫,執(zhí)行步驟4544b;步驟4544b、判斷是否還有未處理的關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù),是,則執(zhí)行步驟4541b,否則,結(jié)束。
18.根據(jù)權(quán)利要求17所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,步驟4542b中,關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)與關(guān)鍵詞歷史索引數(shù)據(jù)時(shí)加權(quán)合并時(shí),關(guān)鍵詞歷史索引數(shù)據(jù)的訪問標(biāo)識(shí)權(quán)值乘上一個(gè)時(shí)間衰減因子后再與關(guān)鍵詞分時(shí)段增量索引數(shù)據(jù)加權(quán)合并。
19.根據(jù)權(quán)利要18所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,當(dāng)訪問標(biāo)識(shí)權(quán)值衰減為零時(shí),刪除該訪問標(biāo)識(shí)。
20.根據(jù)權(quán)利要求8所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,步驟4之后進(jìn)一步包括步驟5、生成展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引數(shù)據(jù)。
21.根據(jù)權(quán)利要求20所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,步驟5之后進(jìn)一步包括步驟6、生成訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引數(shù)據(jù)。
22.根據(jù)權(quán)利要求20所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,步驟5具體包括步驟51、對(duì)每一個(gè)展現(xiàn)內(nèi)容,從展現(xiàn)內(nèi)容關(guān)鍵詞索引庫中取出該展現(xiàn)內(nèi)容對(duì)應(yīng)的所有關(guān)鍵詞;步驟52、對(duì)每一個(gè)關(guān)鍵詞去查找索引數(shù)據(jù)庫,得到一組與該關(guān)鍵詞關(guān)聯(lián)的訪問標(biāo)識(shí)列;步驟53、將多組訪問標(biāo)識(shí)列表加權(quán)合并,得到該展現(xiàn)內(nèi)容的關(guān)聯(lián)訪問標(biāo)識(shí)集合,生成并保存的展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引數(shù)據(jù)。
23.根據(jù)權(quán)利要求21所述的訪問標(biāo)識(shí)索引庫生成方法,其特征在于,步驟6具體包括步驟61、建立一個(gè)訪問標(biāo)識(shí)列表;步驟62、對(duì)于展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引庫中展現(xiàn)內(nèi)容關(guān)聯(lián)的每一個(gè)訪問標(biāo)識(shí)判斷是否存在訪問標(biāo)識(shí)列表中,是則執(zhí)行步驟63,否則執(zhí)行步驟64;步驟63、將所述展現(xiàn)內(nèi)容加入到所述訪問標(biāo)識(shí)的關(guān)聯(lián)展現(xiàn)內(nèi)容列表尾,執(zhí)行步驟65;步驟64、在所述訪問標(biāo)識(shí)列表中加入所述訪問標(biāo)識(shí),將所述訪問的初始關(guān)聯(lián)展示內(nèi)容列表位置所述展示內(nèi)容,執(zhí)行步驟65;步驟65、判斷展現(xiàn)內(nèi)容訪問標(biāo)識(shí)索引庫模塊中是否還有未處理的展現(xiàn)內(nèi)容的,是則執(zhí)行步驟61,否則儲(chǔ)存所述訪問標(biāo)識(shí)列表為訪問標(biāo)識(shí)展現(xiàn)內(nèi)容索引數(shù)據(jù)。
全文摘要
本發(fā)明涉及一種訪問標(biāo)識(shí)索引系統(tǒng)包括包括連接設(shè)置在網(wǎng)絡(luò)的服務(wù)器模塊、日志分析模塊及索引模塊;日志分析模塊用于處理來自所述服務(wù)器模塊的訪問日志文件,生成增量索引數(shù)據(jù),并將增量索引數(shù)據(jù)傳送至所述索引模塊;索引模塊用于處理來自所述日志分析模塊的所述增量索引數(shù)據(jù),生成并存儲(chǔ)索引數(shù)據(jù)。本發(fā)明還涉及一種基于此訪問標(biāo)識(shí)索引系統(tǒng)的訪問標(biāo)識(shí)索引庫生成方法,收集和分析互聯(lián)網(wǎng)網(wǎng)站的查詢和點(diǎn)擊日志,對(duì)訪問標(biāo)識(shí)所對(duì)應(yīng)的用戶在一段時(shí)間內(nèi)的搜索點(diǎn)擊瀏覽行為記錄建立索引,提供查詢,使得網(wǎng)站可以進(jìn)一步深入的研究用戶行為,了解用戶需求,針對(duì)用戶需求實(shí)現(xiàn)更多的個(gè)性化功能。
文檔編號(hào)G06F17/30GK1877583SQ20061009859
公開日2006年12月13日 申請(qǐng)日期2006年7月12日 優(yōu)先權(quán)日2006年7月12日
發(fā)明者李彥宏, 朱洪波, 劉建國, 郭眈, 周利民, 王湛, 劉子正, 袁杰, 王闖, 楊文凱 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司