基于分布式的b2b平臺的個性化推薦方法與系統(tǒng)的制作方法
【專利摘要】本專利公開了一種基于分布式技術的Hadoop平臺上的B2B平臺的個性化推薦方法及系統(tǒng)。首先,發(fā)明基于Hadoop的分布式存儲技術,對各種數(shù)據(jù)如網(wǎng)站日志文件、產(chǎn)品信息、用戶信息等進行集中放置、存儲和查詢,快速高效的處理數(shù)據(jù)。其次,使用Hadoop平臺下的Hive服務對數(shù)據(jù)進行預處理,使用Map/Reduce實現(xiàn)高效、快速的實現(xiàn)推薦算法。之后,使用Map/Reduce實現(xiàn)對文本信息進行信息檢索、文本挖掘工作,匹配用戶對詢盤、采購所需要的產(chǎn)品信息,獲得個性化推薦信息。最后,使用Hadoop平臺下的HBase服務提供大數(shù)據(jù)存儲、查詢,提升網(wǎng)站推薦用戶響應。
【專利說明】基于分布式的B2B平臺的個性化推薦方法與系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及電子商務和數(shù)據(jù)挖掘領域,具體地說是面向B2B電子商務環(huán)境的一種基于分布式的個性化推薦方法,針對B2B電子商務承載海量數(shù)據(jù)的特點,利用Hadoop分布式架構存儲記錄用戶行為和產(chǎn)品信息,并使用其實現(xiàn)快速、高效的B2B電子商務個性化推薦服務。
【背景技術】
[0002]隨著Internet的迅猛發(fā)展,電子商務對企業(yè)與個人的生產(chǎn)與生活都帶來了深遠的影響,伴隨著互聯(lián)網(wǎng)電子商務時代到來的是快速增長的數(shù)據(jù),大量的信息發(fā)布,琳瑯滿目的信息、繁雜的商品類別,使用戶在對自己需求相對不明確時,很難在搜索引擎中搜索自己需要的信息,進一步,用戶需要更加符合個人興趣與愛好的搜索結果就更加困難。
[0003]此時推薦引擎應運而生,用戶獲得信息結果的方式從單一的目標關鍵詞搜索,轉換到更符合個人使用習慣、更符合個人興趣喜好的信息發(fā)現(xiàn)過程。根據(jù)推薦引擎是否為不同用戶推薦不同產(chǎn)品,可以將推薦引擎分為大眾行為推薦與個性化推薦,這里所提到的推薦更多的是個性化的推薦。
[0004]專利“一種網(wǎng)絡商品個性化推薦方法及系統(tǒng)”(專利申請?zhí)朇N201310310951.4),使用用戶歷史購買商品行為,利用協(xié)同過濾方法進行個性化推薦,用戶偏好主要使用用戶的購買商品的行為獲得。但對于大多數(shù)B2B網(wǎng)站是沒有用戶交易數(shù)據(jù)的;B2C因用戶需要購買商品,用戶會經(jīng)常性的登錄網(wǎng)站,使得對用戶的身份識別較容易,用戶的身份明確后才可獲得他的歷史網(wǎng)站行為情況,B2B網(wǎng)站用戶可以在不登錄網(wǎng)站的情況下完成所有的采購行為,身份的識別卻成為難點。
[0005]個性化推薦被廣泛應用于各大B2C電子商務網(wǎng)站,Amazon、eBay、當當網(wǎng)、淘寶等,但是B2B平臺的個性化推薦面臨著更多,更大的難題,如買家身份難以識別,買家行為數(shù)據(jù)時間跨度長,總量大等,使用主流的基于B2C平臺的推薦策略已經(jīng)無法滿足B2B個性化推薦性能需要。
[0006]面對以上提出的推薦性能、推薦策略的不足,本專利利用Hadoop分布式架構在處理海量數(shù)據(jù)方面具有顯著優(yōu)勢,使用分布式技術來有效解決推薦中的大數(shù)據(jù)存儲、大運算量等多種大數(shù)據(jù)問題,包括提高服務質量的同時降低運維、設備成本,分布式存儲技術以及并行處理框架技術能夠有效彌補現(xiàn)有推薦系統(tǒng)中數(shù)據(jù)預處理、算法運行、查詢檢索過慢的缺陷,從而極大地提高推薦系統(tǒng)的效率。
[0007]針對B2B電子商務平臺服務特點,針對不同類型的大數(shù)據(jù)采用不同處理技術,最大程度識別買家的身份,為個性化推薦提供數(shù)據(jù)的保證,并提出混合的推薦算法,使其更好的應用于B2B不同的應用場景,提高網(wǎng)站用戶體驗。
[0008]綜上所訴,本專利設計了一種基于分布式技術的Hadoop平臺上的B2B平臺的個性化推薦方法及系統(tǒng)。
【發(fā)明內(nèi)容】
[0009]本發(fā)明在Hadoop框架的基礎上實現(xiàn)了高效的B2B電子商務個性化推薦系統(tǒng)。首先,發(fā)明基于Hadoop的分布式存儲技術,對各種數(shù)據(jù)如網(wǎng)站日志文件、產(chǎn)品信息、用戶信息等進行集中放置、存儲和查詢,快速高效的處理數(shù)據(jù)。其次,使用Hadoop平臺下的Hive服務對數(shù)據(jù)進行預處理,使用Map/Reduce實現(xiàn)高效、快速的實現(xiàn)推薦算法。之后,使用Map/Reduce實現(xiàn)對文本信息進行信息檢索、文本挖掘工作,匹配用戶對詢盤、采購所需要的產(chǎn)品信息,獲得個性化推薦信息。最后,使用Hadoop平臺下的HBase服務提供大數(shù)據(jù)存儲、查詢,提升網(wǎng)站推薦用戶響應。
[0010]本發(fā)明是一種B2B電子商務環(huán)境下基于分布式處理的個性化推薦方法,包括:
[0011]步驟1:形成買家身份知識庫以及買家偏好知識庫,存儲在分布式數(shù)據(jù)倉庫Hive中。針對B2B平臺的特點,采集買家在電子商務平臺各類型行為數(shù)據(jù),數(shù)據(jù)來源大致有以下二種:
[0012]1)網(wǎng)絡日志;
[0013]2)買家客服運營數(shù)據(jù);
[0014]3)線下交易會買家身份數(shù)據(jù)及偏好。
[0015]對不同數(shù)據(jù)源的數(shù)據(jù),包括文本數(shù)據(jù)網(wǎng)絡日志,買家客服維護操作的運營數(shù)據(jù),以及人工錄入或移動端采集的線下酒會、展會等獲得的買家信息及其采購需求數(shù)據(jù),根據(jù)其特點進行不同方式的處理。
[0016]步驟I包括以下幾個環(huán)節(jié):
[0017]a)對業(yè)務系統(tǒng)數(shù)據(jù)中的買家客服運營信息,包含郵件、電話回訪記錄、郵件營銷反饋結果、用戶調研問卷等,清洗關聯(lián)這些相關信息,并將處理結果存入Oracle關系型數(shù)據(jù)倉庫中。
[0018]b)對網(wǎng)站日志使用分布式技術Map/Reduce進行解析和計算,獲得用戶行為數(shù)據(jù),包括用戶點擊了哪些產(chǎn)品,用戶詢盤了哪些產(chǎn)品等信息,匯總統(tǒng)計,為后面推薦算法的計算提供數(shù)據(jù)準備,存入分布式數(shù)據(jù)倉庫Hive中。
[0019]c)對于線下活動產(chǎn)生的移動端數(shù)據(jù)(通過平板電腦和手機收集的信息數(shù)據(jù))、名片等數(shù)據(jù),采用ETL工具將數(shù)據(jù)清洗、整合后,存儲到Oracle關系型數(shù)據(jù)庫中。
[0020]d)采用Hadoop平臺的Sqoop工具,將Oracle的數(shù)據(jù)加載到Hive數(shù)據(jù)庫中,通過ETL把用戶的身份信息(Email、電話、公司ID、訪問IP、訪問Cookie)進行關聯(lián),形成網(wǎng)站買家身份知識庫。
[0021]e)在Hive中整合買家的多種信息,最后形成網(wǎng)站買家偏好知識庫。其數(shù)據(jù)來源包括:
[0022]●在網(wǎng)站上的瀏覽、搜索、詢盤記錄;
[0023]●客服與買家溝通形成的買家偏好信息記錄;
[0024]●買家在展會現(xiàn)場移動端留下的包含偏好信息的記錄。
[0025]網(wǎng)站買家身份知識庫和網(wǎng)站買家偏好知識庫都存在分布式數(shù)據(jù)倉庫Hive中。這兩個知識庫為后續(xù)的推薦算法提供所需要的計算數(shù)據(jù)。
[0026]步驟2:利用獲得的買家身份知識庫與買家偏好知識庫中的數(shù)據(jù),通過Map/Reduce實現(xiàn)推薦算法的處理,進行個性化推薦方法的實施,本方法實現(xiàn)了在多個場景下的個性化推薦,其中場景包括首頁、目錄頁、詢盤完成頁、產(chǎn)品頁。
[0027]a)當用戶訪問首頁階段,在確定用戶身份信息后,根據(jù)買家偏好知識庫中的用戶歷史行為數(shù)據(jù),使用協(xié)同過濾與基于內(nèi)容算法相結合的推薦方法,推薦相關產(chǎn)品。
[0028]b)在用戶訪問目錄頁階段,在目錄頁依據(jù)統(tǒng)計分析方法獲得行業(yè)的熱門產(chǎn)品推薦,其中,熱門產(chǎn)品根據(jù)統(tǒng)計每個行業(yè)內(nèi)被買家最多點擊與詢盤的產(chǎn)品獲得;
[0029]c)在用戶完成詢盤階段,使用協(xié)同過濾與基于內(nèi)容算法相結合的推薦方法,推薦相關廣品;
[0030]d)在用戶訪問產(chǎn)品頁階段,使用協(xié)同過濾與基于內(nèi)容的推薦方法,推薦用戶相關
口
廣BH ο
[0031]最終實現(xiàn)網(wǎng)站各頁面不同的并行化的推薦,滿足用戶在各瀏覽詢價階段對產(chǎn)品的不同需求,推薦方法計算所得結果存入到分布式數(shù)據(jù)倉庫Hive中;
[0032]步驟3:將Hive數(shù)據(jù)倉庫中的用戶身份知識庫、用戶偏好知識庫,以及推薦結果,通過ETL進行數(shù)據(jù)模型的重構,轉變?yōu)镠Base面向列的分布式存儲,然后加載到Hadoop平臺中的NoSQL數(shù)據(jù)庫HBase中,HBase在海量數(shù)據(jù)的情況下,提供給B2B電子商務訪問者在線高效的數(shù)據(jù)檢索性能。
[0033]步驟4:用戶推薦結果的顯示策略可分為以下幾個步驟:
[0034]a)用戶在網(wǎng)站進行活動時,系統(tǒng)獲取用戶的Cookie、IP、Email等信息,利用HBase分布式高寫入的特性,將數(shù)據(jù)寫入到HBase中,通過不同場景的特點,關聯(lián)到用戶身份。
[0035]b)根據(jù)識別后的用戶身份,如果此用戶是具有歷史行為的老用戶,推薦系統(tǒng)中已經(jīng)計算好此用戶的推薦產(chǎn)品,將計算好的用戶推薦產(chǎn)品列表反饋到網(wǎng)頁的推薦位置即可。
[0036]c)如果用戶為新用戶時,由于缺少其歷史行為數(shù)據(jù),這時系統(tǒng)反饋無用戶信息,將返回某些行業(yè)的熱門產(chǎn)品。
[0037]基于分布式的B2B平臺個性化推薦系統(tǒng)包含了如下模塊:數(shù)據(jù)源模塊;分布式計算模塊;分布式數(shù)據(jù)倉庫模塊;數(shù)據(jù)轉換加載模塊;分布式列式存儲模塊;推薦顯示模塊。
[0038]其中,數(shù)據(jù)源模塊之后連接分布式計算模塊;將分布式計算模塊獲得的數(shù)據(jù)存入分布式數(shù)據(jù)倉庫模塊;之后進入數(shù)據(jù)轉換加載模塊;將變換后的數(shù)據(jù)存入分布式列式存儲模塊;最后形成的推薦列表在推薦顯示模塊中進行展現(xiàn)。
[0039]所述數(shù)據(jù)源模塊,用于記錄用戶訪問網(wǎng)站時留下的行為身份數(shù)據(jù),作為整個推薦系統(tǒng)的數(shù)據(jù)來源,來自于業(yè)務系統(tǒng)、文本文件或其它獲取途徑。
[0040]所述分布式計算模塊,對數(shù)據(jù)源中基礎數(shù)據(jù)進行清洗、關聯(lián)等處理,最終存放到Hive中。其中包括2個子模塊:身份識別計算子模塊、數(shù)據(jù)挖掘計算子模塊。對各數(shù)據(jù)源獲得的用戶數(shù)據(jù),包括網(wǎng)絡日志、運營數(shù)據(jù)、線下推廣數(shù)據(jù),作為輸入數(shù)據(jù),輸入到身份識別計算子模塊和數(shù)據(jù)挖掘計算子模塊,獲得買家身份知識庫、買家偏好知識庫、用戶產(chǎn)品推薦列表。其中,身份識別子模塊,用于將用戶在網(wǎng)站、運營、線下產(chǎn)生的身份相關信息進行識另O,將不同來源的身份信息進行合并,關聯(lián),定位用戶身份,從而更精確的了解用戶的歷史行為。所述數(shù)據(jù)挖掘計算子模塊,使用各數(shù)據(jù)源獲得的數(shù)據(jù),形成買家偏好庫,通過分布式挖掘計算技術,實現(xiàn)設計的數(shù)據(jù)挖掘算法,提供推薦產(chǎn)品。
[0041]所述分布式數(shù)據(jù)倉庫模塊,用于把業(yè)務系統(tǒng)、文本文件或其它獲取途徑獲取的數(shù)據(jù)預處理后,獲得的包含有存儲身份識別信息、買家偏好信息和推薦結果信息,利用分布式技術將這些處理后的數(shù)據(jù)進行存儲。
[0042]所述數(shù)據(jù)轉換加載模塊,此模塊可以將不同數(shù)據(jù)結構的數(shù)據(jù)庫里的數(shù)據(jù)進行數(shù)據(jù)的交換,此模塊實現(xiàn)了數(shù)據(jù)結構的重構,數(shù)據(jù)的整理等。
[0043]所述分布式列式存儲模塊,此模塊利用分布式技術,實現(xiàn)了列式存儲的數(shù)據(jù)庫功能,此模塊對于在線情況發(fā)生的高速讀和高速寫有著很好的支持,提高了系統(tǒng)對用戶操作的推薦響應性能。
[0044]所述推薦顯示模塊,此模塊根據(jù)不同的場景提供給用戶不用的推薦產(chǎn)品,并把每次用戶對于推薦產(chǎn)品的反應反饋到數(shù)據(jù)倉庫中。
[0045]有益效果:本發(fā)明與現(xiàn)有個性化推薦方法相比,具有以下優(yōu)點:
[0046]1.針對B2B平臺買家行為的特性,利用各類型數(shù)據(jù),通過關聯(lián)方式識別買家身份,并分析買家的偏好,極大的提高了 B2B平臺中個性化推薦的準確性;
[0047]2.針對電子商務交易流程的不同階段,設計符合各階段特點的個性化推薦方法,滿足用戶在各交易階段對產(chǎn)品的不同需求,使推薦結果更具針對性;
[0048]3.采用分布式平臺Hadoop提供的各類工具的組合應用,獲得分布式的高性能的同時,更能與數(shù)據(jù)挖掘的深度計算相結合,使此推薦系統(tǒng)在性能與準確度上都獲得提升;
[0049]4、在離線環(huán)境中,存儲在Hive中的用戶身份信息和推薦結構,通過存儲模式轉換,加載到在線環(huán)境中的HBase中,解決離線環(huán)境中的復雜數(shù)據(jù)計算和在線環(huán)境中的高速讀與高速寫的需求。
【專利附圖】
【附圖說明】
[0050]圖1為本發(fā)明實施例推薦系統(tǒng)流程示意圖。
[0051]圖2為本發(fā)明實施例推薦系統(tǒng)結構示意圖。
[0052]圖3為本發(fā)明實施例身份識別示意圖。
[0053]圖4為本發(fā)明實施例數(shù)據(jù)挖掘結構示意圖。
【具體實施方式】
[0054]以下結合附圖和具體實施例對本發(fā)明作進一步詳細說明。
[0055]參閱圖1,基于分布式的B2B電子商務平臺的個性化推薦系統(tǒng)流程,包括:
[0056]步驟100,主要采集網(wǎng)絡日志、買家客服運營數(shù)據(jù)、線下交易買家身份數(shù)據(jù)。網(wǎng)絡日志主要為用戶在網(wǎng)站上的行為記錄;買家客服運營信息主要包括郵件、電話回訪記錄、郵件營銷反饋結果、用戶調研問卷等;線下交易買家身份數(shù)據(jù)主要包括線下活動產(chǎn)生的移動端數(shù)據(jù)(通過平板電腦和手機收集的信息數(shù)據(jù))、名片數(shù)據(jù)等。
[0057]步驟101,將不同的數(shù)據(jù)源,通過數(shù)據(jù)清洗、轉換、關聯(lián)等過程后,分別加載到對應的數(shù)據(jù)倉庫中。
[0058]a)將業(yè)務系統(tǒng)數(shù)據(jù)中的買家客服運營信息,包含郵件、電話回訪記錄、郵件營銷反饋結果、用戶調研問卷等,清洗后,關聯(lián)這些相關信息,將處理結果存入Oracle關系型數(shù)據(jù)倉庫中。
[0059]b)對網(wǎng)站日志使用分布式技術Map/Reduce進行解析和計算,獲得用戶行為數(shù)據(jù),進行匯總統(tǒng)計,為后面推薦算法的計算提供數(shù)據(jù)準備,存入分布式數(shù)據(jù)倉庫Hive中。[0060]c)對于線下活動產(chǎn)生的移動端數(shù)據(jù)、名片數(shù)據(jù)等數(shù)據(jù),采用ETL工具將數(shù)據(jù)清洗整合到Oracle關系型數(shù)據(jù)庫中。
[0061]步驟102,身份識別利用Hadoop的分布式計算技術,將用戶在B2B網(wǎng)站、運營、線下等場景產(chǎn)生的身份信息進行匯總、關聯(lián),從而得到在不同場景下的用戶的身份信息,通過不同的用戶身份識別強度,可以將用戶身份信息與用戶歷史行為進行關聯(lián)。從而解決了在B2B環(huán)境中,買家無注冊,無登陸行為所帶來的無法檢索買家歷史行為的問題。
[0062]步驟103,推薦算法集成了主流的協(xié)同過濾算法、基于內(nèi)容的推薦算法、統(tǒng)計分析推薦算法,并根據(jù)B2B平臺獨有的特點,引入了 B2B電子商務平臺中的產(chǎn)品屬性、供應商信用等指標參數(shù)。在在線模式下,根據(jù)用戶的身份信息,和場景下的身份關聯(lián)強度要求,采用上述算法混合得到推薦結果,并根據(jù)用戶的被推薦行為效果,動態(tài)的調整混合算法的權重。
[0063]步驟104,本系統(tǒng)在Hadoop平臺中使用了兩種數(shù)據(jù)庫產(chǎn)品,Hive和Hbase, Hive是一種基于分布式技術實現(xiàn)的數(shù)據(jù)倉庫產(chǎn)品,它的數(shù)據(jù)結構與傳統(tǒng)的關系型數(shù)據(jù)庫(比如Oracle)是一致的。HBase是一種基于分布式技術實現(xiàn)的一種列式存儲的NoSQL數(shù)據(jù)庫產(chǎn)品,所以在離線環(huán)境中,存儲在Hive中的用戶身份信息和推薦結構,需要加載到在線環(huán)境中的HBase中,存儲模式轉換模塊的作用就是將兩種不同存儲結構的數(shù)據(jù)進行相互的轉化,以應對離線環(huán)境中的復雜數(shù)據(jù)計算和在線環(huán)境中的高速讀與高速寫的需求。
[0064]步驟105,通過在線環(huán)境下用戶身份與訪問場景的不同,根據(jù)預先設定好的推薦策略(詳細策略參考步驟407),系統(tǒng)調整不同推薦算法的權重,把身份信息與算法權重寫入HBase中。根據(jù)這些參數(shù),動態(tài)的將離線狀態(tài)下推薦算法計算好的推薦結果推送到顯示模塊。
[0065]參閱圖2,本發(fā)明是一種B2B電子商務環(huán)境下基于分布式處理的個性化推薦方法及系統(tǒng),包括以下模塊:數(shù)據(jù)源模塊、分布式計算模塊、分布式數(shù)據(jù)倉庫模塊、數(shù)據(jù)轉換加載模塊、分布式列式存儲模塊、推薦顯示模塊。其中,數(shù)據(jù)源模塊之后連接分布式計算模塊;將分布式計算模塊獲得的數(shù)據(jù)存入分布式數(shù)據(jù)倉庫模塊;之后進入數(shù)據(jù)轉換加載模塊;將變換后的數(shù)據(jù)存入分布式列式存儲模塊;最后形成的推薦列表在推薦顯示模塊中進行展現(xiàn)。
[0066]數(shù)據(jù)源模塊,集成了用戶在進行B2B商務活動的所有的信息數(shù)據(jù),作為整個推薦系統(tǒng)的數(shù)據(jù)來源以及推薦依據(jù),數(shù)據(jù)源模塊的數(shù)據(jù)來自于業(yè)務系統(tǒng)、文本文件,網(wǎng)絡日志或其它途徑采集的數(shù)據(jù)。
[0067]分布式計算模塊,采用主流的Map/Reduce來對數(shù)據(jù)源中基礎數(shù)據(jù)進行分布式的處理,包含清洗、重構、匹配、關聯(lián)等處理,最終將結果存放到Hive中。對于不用的算法需求,分為2個子模塊:身份識別計算子模塊、數(shù)據(jù)挖掘計算子模塊。所述身份識別子模塊,將用戶在網(wǎng)站,運營,線下產(chǎn)生的身份相關信息進行識別,將不同來源的身份信息進行合并,關聯(lián),定位用戶身份,從而更精確的了解用戶的歷史行為。所述數(shù)據(jù)挖掘計算子模塊,使用各數(shù)據(jù)源獲得的數(shù)據(jù),形成買家偏好知識庫,利用分布式挖掘計算技術,實現(xiàn)設計的數(shù)據(jù)挖掘算法,提供用戶產(chǎn)品推薦,解決了傳統(tǒng)數(shù)據(jù)挖掘中,算法的復雜性和數(shù)據(jù)的規(guī)模之間的矛盾,可以在保證數(shù)據(jù)挖掘算法的完整情況下,實現(xiàn)大數(shù)據(jù)的分析。
[0068]分布式數(shù)據(jù)倉庫模塊,存儲離線狀態(tài)下的所有數(shù)據(jù),用于把業(yè)務系統(tǒng)、文本文件或其它獲取途徑獲取的數(shù)據(jù)預處理后,獲得的包含有存儲身份識別信息、買家偏好信息和推薦結果信息,利用分布式技術將這些處理后的數(shù)據(jù)進行存儲。此模塊提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行ETL的操作,此模塊解決了大數(shù)據(jù)情況下,數(shù)據(jù)的存儲成本和計算效率的問題。
[0069]數(shù)據(jù)轉換加載模塊,可以將不同數(shù)據(jù)結構的數(shù)據(jù)庫里的數(shù)據(jù)進行數(shù)據(jù)的交換,此模塊實現(xiàn)了大數(shù)據(jù)情況下的數(shù)據(jù)的重構,數(shù)據(jù)的加載等數(shù)據(jù)轉換功能。
[0070]分布式列式存儲模塊,利用分布式技術,實現(xiàn)了列式存儲的數(shù)據(jù)庫功能,此模塊對于在線情況發(fā)生的聞速讀和聞速與有著很好的支持,提聞了用戶體驗。
[0071]推薦顯示模塊,根據(jù)不同的場景提供給用戶不用的推薦產(chǎn)品,并把每次用戶對于推薦產(chǎn)品的反應反饋到數(shù)據(jù)倉庫中。
[0072]參閱圖3,本發(fā)明實施例的買家身份識別及行為關聯(lián)的流程,利用分布式計算技術,形成買家身份知識庫,具體步驟為:
[0073]步驟300:從各個數(shù)據(jù)源獲取數(shù)據(jù),一部分結構化數(shù)據(jù)通過各個業(yè)務系統(tǒng)收集,通過ETL進行初步匯總,存儲在關系型數(shù)據(jù)庫中。包括登陸行為、詢盤行為、服務買家行為、移動端數(shù)據(jù)、名片錄入信息。
[0074]步驟301:從網(wǎng)絡日志中提取買家的網(wǎng)站行為以及買家的身份信息,存入到分布式數(shù)據(jù)倉庫Hive中。
[0075]步驟302:從詢盤信息表中提取詢盤內(nèi)容信息,包括需要采購產(chǎn)品的行業(yè),產(chǎn)品關鍵詞,產(chǎn)品名稱等相關產(chǎn)品屬性進行統(tǒng)計,記錄為買家的偏好,聯(lián)合Email信息存入到Hive中。
[0076]步驟303:將關系型數(shù)據(jù)倉庫的數(shù)據(jù)通過Hadoop的Sqoop加載到Hive中,然后將以上三個步驟的用戶身份、行為數(shù) 據(jù)進行關聯(lián)整合,形成用戶的身份、行為數(shù)據(jù)寬表。
[0077]步驟304:在B2B在線情況下,訪問用戶現(xiàn)有的身份信息,如Cookie、IP或Email等,可以快速的從身份知識庫中關聯(lián)到完整的用戶身份信息,關聯(lián)步驟303中獲得的用戶身份、行為數(shù)據(jù)寬表,可獲得用戶歷史的行為數(shù)據(jù)及偏好。
[0078]參閱圖4,本發(fā)明實施例的分布式挖掘流程,基于形成的買家身份知識庫與買家偏好知識庫,利用協(xié)同過濾與基于內(nèi)容算法相結合的推薦方法,推薦相關產(chǎn)品,具體步驟:
[0079]步驟401:從數(shù)據(jù)源獲取的網(wǎng)站產(chǎn)品信息數(shù)據(jù)加載到Hive中與買家偏好知識庫中偏好信息進行關聯(lián),形成用戶產(chǎn)品寬表,內(nèi)容包括用戶信息、產(chǎn)品信息、詢盤信息、采購信息、用戶行為等,表結構詳細為如下字段:產(chǎn)品編號、產(chǎn)品賣家、產(chǎn)品名稱、產(chǎn)品關鍵字、產(chǎn)品狀態(tài)、產(chǎn)品目錄、生產(chǎn)地區(qū)、產(chǎn)品賣家等級、產(chǎn)品點擊量、產(chǎn)品詢盤量、產(chǎn)品采購量、瀏覽產(chǎn)品頭豕編號。
[0080]步驟402:在用戶產(chǎn)品寬表的基礎上,獲得用戶產(chǎn)品評分矩陣。用戶對產(chǎn)品的評分是用戶對產(chǎn)品喜好的量化處理。用戶喜好分顯性興趣度與隱性興趣度兩種興趣度加權累加獲得用戶對產(chǎn)品的評分,顯性興趣度使用用戶詢盤量獲得,隱性興趣度使用用戶對產(chǎn)品的瀏覽量獲得。
[0081]之后使用Jaccard度量兩個用戶行為相似度action_sim(u, V)的基礎上加入每個
產(chǎn)品i賦予的懲罰處理因子一
【權利要求】
1.一種B2B電子商務環(huán)境下基于分布式處理的個性化推薦方法,其特征在于,具體包括步驟:步驟一、形成買家身份知識庫以及買家偏好知識庫,存儲在分布式數(shù)據(jù)倉庫Hive中;步驟二、利用獲得的買家身份知識庫與買家偏好知識庫中的數(shù)據(jù),通過Map/Reduce實現(xiàn)推薦算法的處理,進行個性化推薦方法的實施,實現(xiàn)在多個場景下的個性化推薦;最終實現(xiàn)網(wǎng)站各頁面不同的并行化的推薦,滿足用戶在各瀏覽詢價階段對產(chǎn)品的不同需求,推薦方法計算所得結果存入到分布式數(shù)據(jù)倉庫Hive中; 步驟三、將Hive數(shù)據(jù)倉庫中的用戶身份知識庫、用戶偏好知識庫,以及推薦結果,通過ETL進行數(shù)據(jù)模型的重構,轉變?yōu)镠Base面向列的分布式存儲,然后加載到Hadoop平臺中的NoSQL數(shù)據(jù)庫HBase中,HBase在海量數(shù)據(jù)的情況下,提供給B2B電子商務訪問者在線高效的數(shù)據(jù)檢索性能; 步驟四、用戶推薦結果的顯示步驟。
2.根據(jù)權利要求1所述的個性化推薦方法,其特征在于:步驟一中,針對B2B平臺的特點,采集買家在電子商務平臺各類型行為數(shù)據(jù),數(shù)據(jù)來源大致三種:(I)網(wǎng)絡日志;(2)買家客服運營數(shù)據(jù);(3)線下交易會買家身份數(shù)據(jù)及偏好; 對不同數(shù)據(jù)源的數(shù)據(jù),包括文本數(shù)據(jù)網(wǎng)絡日志,買家客服維護操作的運營數(shù)據(jù),以及人工錄入或移動端采集的線下酒會、展會獲得的買家信息及其采購需求數(shù)據(jù),根據(jù)其特點進行不同方式的處理; a)對業(yè)務系統(tǒng)數(shù)據(jù)中的買家客服運營信息,包含郵件、電話回訪記錄、郵件營銷反饋結果、用戶調研問卷,清洗關聯(lián)這些相關信息,并將處理結果存入Oracle關系型數(shù)據(jù)倉庫中; b)對網(wǎng)站日志使用分布式技術Map/Reduce進行解析和計算,獲得用戶行為數(shù)據(jù),包括用戶點擊了哪些產(chǎn)品,用戶詢盤了哪些產(chǎn)品信息,匯總統(tǒng)計,為推薦算法的計算提供數(shù)據(jù)準備,存入分布式數(shù)據(jù)倉庫Hive中; c)對于線下活動產(chǎn)生的移動端數(shù)據(jù)、名片數(shù)據(jù),采用ETL工具將數(shù)據(jù)清洗、整合后,存儲到Oracle關系型數(shù)據(jù)庫中; d)采用Hadoop平臺的Sqoop工具,將Oracle的數(shù)據(jù)加載到Hive數(shù)據(jù)庫中, 通過ETL把用戶的身份信息進行關聯(lián),形成網(wǎng)站買家身份知識庫; e)在Hive中整合買家的多種信息,最后形成網(wǎng)站買家偏好知識庫;其數(shù)據(jù)來源包括: ?在網(wǎng)站上的瀏覽、搜索、詢盤記錄; ?客服與買家溝通形成的買家偏好信息記錄; ?買家在展會現(xiàn)場移動端留下的包含偏好信息的記錄; 網(wǎng)站買家身份知識庫和網(wǎng)站買家偏好知識庫都存在分布式數(shù)據(jù)倉庫Hive中;這兩個知識庫為推薦算法提供所需要的計算數(shù)據(jù)。
3.根據(jù)權利要求1所述的個性化推薦方法,其特征在于:步驟二中,所述進行個性化推薦方法的實施,具體步驟: 步驟2.1:從數(shù)據(jù)源獲取的網(wǎng)站產(chǎn)品信息數(shù)據(jù)加載到Hive中與買家偏好知識庫中偏好信息進行關聯(lián),形成用戶產(chǎn)品寬表; 步驟2.2:在用戶產(chǎn)品 寬表的基礎上,獲得用戶產(chǎn)品評分矩陣; 步驟2.3:計算產(chǎn)品相似度,已知兩個用戶內(nèi)容數(shù)據(jù)u (Content (keywordl, keyword2,keyword3,...keywordk,..)),v (Content (keyword I, keywor d2, keyword3,…keywordk,..)),考慮到標簽的熱度,相似性公式為:
4.根據(jù)權利要求3所述的個性化推薦方法,其特征在于:用戶對產(chǎn)品的評分是用戶對產(chǎn)品喜好的量化處理;用戶喜好分顯性興趣度與隱性興趣度兩種興趣度加權累加獲得用戶對產(chǎn)品的評分,顯性興趣度使用用戶詢盤量獲得,隱性興趣度使用用戶對產(chǎn)品的瀏覽量獲得; 使用Jaccard度量兩個用戶行為相似度action_sim(u, V)的基礎上加入每個產(chǎn)品i賦予的懲罰處理因子
5.根據(jù)權利要求1所述的個性化推薦方法,其特征在于:步驟二中,所述場景包括首頁、目錄頁、詢盤完成頁、產(chǎn)品頁; a)當用戶訪問首頁階段,在確定用戶身份信息后,根據(jù)買家偏好知識庫中的用戶歷史行為數(shù)據(jù),使用協(xié)同過濾與基于內(nèi)容算法相結合的推薦方法,推薦相關產(chǎn)品; b)在用戶訪問目錄頁階段,在目錄頁依據(jù)統(tǒng)計分析方法獲得行業(yè)的熱門產(chǎn)品推薦,其中,熱門產(chǎn)品根據(jù)統(tǒng)計每個行業(yè)內(nèi)被買家最多點擊與詢盤的產(chǎn)品獲得;c)在用戶完成詢盤階段,使用協(xié)同過濾與基于內(nèi)容算法相結合的推薦方法,推薦相關女口廣叩;d)在用戶訪問產(chǎn)品頁階段,使用協(xié)同過濾與基于內(nèi)容的推薦方法,推薦用戶相關產(chǎn)品。
6.根據(jù)權利要求1所述的個性化推薦方法,其特征在于:步驟四中,用戶推薦結果的顯示策略步驟為: a)用戶在網(wǎng)站進行活動時,系統(tǒng)獲取用戶的Cookie、IP、Email信息,利用HBase分布式高寫入的特性,將數(shù)據(jù)寫入到HBase中,通過不同場景的特點,關聯(lián)到用戶身份; b)根據(jù)識別后的用戶身份,如果此用戶是具有歷史行為的老用戶,推薦系統(tǒng)中已經(jīng)計算好此用戶的推薦產(chǎn)品,將計算好的用戶推薦產(chǎn)品列表反饋到網(wǎng)頁的推薦位置即可; c)如果用戶為新用戶時,由于缺少其歷史行為數(shù)據(jù),這時系統(tǒng)反饋無用戶信息,將返回某些行業(yè)的熱門產(chǎn)品。
7.根據(jù)權利要求6所述的個性化推薦方法,其特征在于:在線推薦情景下,分別根據(jù)用戶在網(wǎng)站的不同行為所能獲取的用戶身份,把用戶分為以下幾個身份等級: ?O級,用戶沒有登錄、詢盤,身份信息為:C00kie、IP ; ?I級,用戶發(fā)送詢盤或者用戶注冊,身份信息為=Email或者公司標識號com_id ; ?2級,用戶登錄狀態(tài)下發(fā)送詢盤,身份信息為:公司標識號com_id和Email ; ?3級,網(wǎng)站運營覆蓋用戶,身份信息為:公司名稱、地址、業(yè)務范圍、意向賣家; 等級越高,身份信息越豐富,偏好越明確,相對的推薦就越簡單,推薦的結果就更加準確;獲取用戶身份信息,根據(jù)用戶身份知識庫關聯(lián)獲取用戶的所有身份,確定用戶的身份等級,根據(jù)不用的等級,將用 戶偏好的數(shù)據(jù)進行權重的調整,并加載到HBase中進行數(shù)據(jù)的檢索、排序。
8.一種基于分布式的B2B平臺個性化推薦系統(tǒng),包含數(shù)據(jù)源模塊、分布式計算模塊、分布式數(shù)據(jù)倉庫模塊、數(shù)據(jù)轉換加載模塊、分布式列式存儲模塊、推薦顯示模塊,其特征在于:數(shù)據(jù)源模塊之后連接分布式計算模塊,將分布式計算模塊獲得的數(shù)據(jù)存入分布式數(shù)據(jù)倉庫模塊,之后進入數(shù)據(jù)轉換加載模塊,將變換后的數(shù)據(jù)存入分布式列式存儲模塊,最后形成的推薦列表在推薦顯示模塊中進行展現(xiàn); 所述數(shù)據(jù)源模塊,用于記錄用戶訪問網(wǎng)站時留下的行為身份數(shù)據(jù),作為整個推薦系統(tǒng)的數(shù)據(jù)來源,來自于業(yè)務系統(tǒng)、文本文件或其它獲取途徑; 所述分布式計算模塊,對數(shù)據(jù)源中基礎數(shù)據(jù)進行清洗、關聯(lián)處理,最終存放到Hive中;其中包括2個子模塊:身份識別計算子模塊、數(shù)據(jù)挖掘計算子模塊;對各數(shù)據(jù)源獲得的用戶數(shù)據(jù),包括網(wǎng)絡日志、運營數(shù)據(jù)、線下推廣數(shù)據(jù),作為輸入數(shù)據(jù),輸入到身份識別計算子模塊和數(shù)據(jù)挖掘計算子模塊,獲得買家身份知識庫、買家偏好知識庫、用戶產(chǎn)品推薦列表;所述身份識別計算子模塊,用于將用戶在網(wǎng)站、運營、線下產(chǎn)生的身份相關信息進行識別,將不同來源的身份信息進行合并,關聯(lián),定位用戶身份,從而更精確的了解用戶的歷史行為;所述數(shù)據(jù)挖掘計算子模塊,使用各數(shù)據(jù)源獲得的數(shù)據(jù),形成買家偏好庫,通過分布式挖掘計算技術,實現(xiàn)設計的數(shù)據(jù)挖掘算法,提供推薦產(chǎn)品; 所述分布式數(shù)據(jù)倉庫模塊,用于把業(yè)務系統(tǒng)、文本文件或其它獲取途徑獲取的數(shù)據(jù)預處理后,獲得的包含有存儲身份識別信息、買家偏好信息和推薦結果信息,利用分布式技術將這些處理后的數(shù)據(jù)進行存儲; 所述數(shù)據(jù)轉換加載模塊,將不同數(shù)據(jù)結構的數(shù)據(jù)庫里的數(shù)據(jù)進行數(shù)據(jù)的交換,實現(xiàn)數(shù)據(jù)結構的重構,數(shù)據(jù)的整理;所述分布式列式存儲模塊,利用分布式技術,實現(xiàn)列式存儲的數(shù)據(jù)庫功能,對于在線情況發(fā)生的高速讀和高速寫進行支持,提高系統(tǒng)對用戶操作的推薦響應性能; 所述推薦顯示模塊,根據(jù)不同的場景提供給用戶不用的推薦產(chǎn)品,并把每次用戶對于推薦產(chǎn)品的反應反饋到數(shù)據(jù)倉庫中。
【文檔編號】G06F17/30GK103886487SQ201410122599
【公開日】2014年6月25日 申請日期:2014年3月28日 優(yōu)先權日:2014年3月28日
【發(fā)明者】肖潔芩, 徐曉冬, 房鵬展 申請人:焦點科技股份有限公司