两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于分類算法的電視購物商品推薦方法與流程

文檔序號(hào):11865680閱讀:382來源:國知局
一種基于分類算法的電視購物商品推薦方法與流程

本發(fā)明屬于電子商務(wù)技術(shù)領(lǐng)域,具體涉及一種基于分類算法的電視購物商品推薦方法。



背景技術(shù):

推薦系統(tǒng)作為大數(shù)據(jù)技術(shù)的重要研究方向,在互聯(lián)網(wǎng)各個(gè)領(lǐng)域得到廣泛地應(yīng)用。傳統(tǒng)的電視購物行業(yè)的主要業(yè)務(wù)模式是:以電視為主要推廣渠道在電視上不間斷地人工展示商品,用戶如果有購買意愿可以撥打電話購買(呼入),接電話的坐席也可以撥打進(jìn)行一對(duì)一的商品推銷(外呼)。隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多得用戶傾向于通過網(wǎng)絡(luò)進(jìn)行購物,但電視購物對(duì)中老年群體依然具有較高的吸引力。

隨著商品以及會(huì)員數(shù)量的增加,對(duì)于坐席來說,選擇什么樣商品推薦給什么樣的用戶的難度也越來越大,尤其是對(duì)于缺乏經(jīng)驗(yàn)的初級(jí)坐席。而且,在當(dāng)今信息過載時(shí)代,通過純?nèi)斯さ姆绞浇o用戶推薦滿意的商品未免效率偏低。因此,考慮引入推薦引擎,通過對(duì)以往用戶購買行為的分析和建模,預(yù)測(cè)用戶是否會(huì)喜歡某個(gè)商品,并且給出可能喜歡的原因作為推薦的解釋,方便坐席與用戶溝通。

目前,己經(jīng)有很多商業(yè)應(yīng)用系統(tǒng)和電子商務(wù)平臺(tái)都不同程度地集成了推薦算法,如:亞馬遜、淘寶、京東、豆瓣以及各大視頻和音樂應(yīng)用等。從相關(guān)公布數(shù)據(jù)得知,這些推薦算法取得了不錯(cuò)的效果,其中亞馬遜將近20%~30%的銷售來自于推薦系統(tǒng),因此成功的推薦算法給公司帶來的利益是可觀的。然而,在電視購物上應(yīng)用推薦算法的例子幾乎沒有,主要還是因?yàn)閳鼍暗奶厥庑?。而推薦算法的本質(zhì)是通過一定的方式將用戶和物品聯(lián)系起來,所以我們?nèi)匀豢梢試L試在電視購物上,依據(jù)電視購物不同于網(wǎng)絡(luò)購物的特點(diǎn)設(shè)計(jì)適合的推薦算法。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明根據(jù)電視購物外呼業(yè)務(wù)場景,提供了一種基于分類算法的電視購物商品推薦方法,在顧客關(guān)系管理系統(tǒng)中引入推薦引擎,對(duì)顧客過去的購買行為進(jìn)行數(shù)據(jù)分析,對(duì)用戶、商品以及用戶和商品的交互行為進(jìn)行特征提取,構(gòu)建模型,預(yù)測(cè)用戶對(duì)于商品的未來行為,并且給出推薦解釋,改善原來純?nèi)斯さ耐扑]方式,幫助坐席挖掘潛在的客戶,提高商品的銷量和顧客的滿意度。

一種基于分類算法的電視購物商品推薦方法,包括如下步驟:

(1)收集所有注冊(cè)的用戶信息、所有上架的商品信息以及所有注冊(cè)用戶的歷史購買行為信息;

(2)對(duì)所有用戶信息、商品信息以及購買行為信息進(jìn)行預(yù)處理;

(3)根據(jù)預(yù)處理后的所有信息進(jìn)行特征提取,以得到多組正樣本和負(fù)樣本并組成訓(xùn)練集,且訓(xùn)練集中正樣本與負(fù)樣本的比例為1:1;

對(duì)于任一正樣本或負(fù)樣本,其包含有某一注冊(cè)用戶的用戶特征(如性別、年齡、歷史消費(fèi)金額、歷史消費(fèi)次數(shù)等)、當(dāng)天某一主推商品的商品特征(如價(jià)格、類別、歷史銷量等)、該注冊(cè)用戶對(duì)于該主推商品的交互特征(如是否購買過、購買過幾次等)以及該主推商品在當(dāng)天所有主推商品中的排序特征;其中正樣本中注冊(cè)用戶與主推商品存在購買關(guān)系,負(fù)樣本中注冊(cè)用戶與主推商品不存在購買關(guān)系;

(4)以訓(xùn)練集作為輸入進(jìn)行模型訓(xùn)練,以得到注冊(cè)用戶對(duì)于當(dāng)天各主推商品的購買預(yù)測(cè)模型;

(5)對(duì)于任一注冊(cè)用戶,根據(jù)步驟(3)提取該注冊(cè)用戶對(duì)于當(dāng)天各主推商品對(duì)應(yīng)的特征信息并逐個(gè)輸入至所述的購買預(yù)測(cè)模型中,對(duì)應(yīng)得到該注冊(cè)用戶對(duì)于當(dāng)天各主推商品的購買預(yù)測(cè)評(píng)分,進(jìn)而根據(jù)購買預(yù)測(cè)評(píng)分進(jìn)行排序使得當(dāng)天各主推商品按次序展現(xiàn)推薦給該注冊(cè)用戶。

所述的步驟(2)中對(duì)所有用戶信息、商品信息以及購買行為信息進(jìn)行預(yù)處理,具體實(shí)現(xiàn)包括對(duì)缺失值通過統(tǒng)計(jì)模擬進(jìn)行填充以及對(duì)異常值進(jìn)行篩選去除。

所述的步驟(3)中提取某一主推商品在當(dāng)天所有主推商品中的排序特征,具體實(shí)現(xiàn)方法為:首先,統(tǒng)計(jì)該主推商品的商品特征以及注冊(cè)用戶對(duì)于該主推商品的交互特征中每一條特征明細(xì)在當(dāng)天所有主推商品中的排名,從而組成n+m維的排名向量,其中n為商品特征的維度,m為交互特征的維度;然后,對(duì)所述的排名向量分別進(jìn)行線性歸一化以及非線性歸一化,并將線性歸一化后的排名向量與非線性歸一化后的排名向量合并成2(n+m)維的排序向量,即為該主推商品在當(dāng)天所有主推商品中的排序特征。

所述的步驟(4)中以訓(xùn)練集作為輸入,采用機(jī)器學(xué)習(xí)領(lǐng)域中邏輯回歸或隨機(jī)森林分類算法進(jìn)行模型訓(xùn)練,以得到注冊(cè)用戶對(duì)于當(dāng)天各主推商品的購買預(yù)測(cè)模型。

本發(fā)明利用邏輯回歸和隨機(jī)森林將預(yù)測(cè)問題轉(zhuǎn)換為分類問題,即預(yù)測(cè)用戶對(duì)于某商品的購買行為分為兩類:購買和不購買;從物品信息、用戶信息以及用戶行為記錄中提取各個(gè)特征作為輸入,用戶的預(yù)測(cè)評(píng)分作為輸出,這樣構(gòu)成一個(gè)函數(shù),使用線性回歸的方法來訓(xùn)練模型,轉(zhuǎn)換為訓(xùn)練分類器問題;本發(fā)明方法不是基于啟發(fā)式的規(guī)則來進(jìn)行預(yù)測(cè)計(jì)算,而是基于數(shù)據(jù)分析和統(tǒng)計(jì)以及機(jī)器學(xué)習(xí)訓(xùn)練模型來進(jìn)行預(yù)測(cè);只要訓(xùn)練出模型,就可以對(duì)新用戶和新物品進(jìn)行快速計(jì)算和預(yù)測(cè)。由此,本發(fā)明具有如下有益技術(shù)效果:

(1)本發(fā)明從用戶、商品和用戶商品交互三個(gè)角度提取特征,并進(jìn)一步將大類特征分為若干小類,最后定義并計(jì)算每個(gè)小類下的各個(gè)特征,特征工作全面并且有業(yè)務(wù)領(lǐng)域針對(duì)性。

(2)本發(fā)明除了給出推薦列表以外,還根據(jù)選取的特征給出推薦理由,提高可操作性。

(3)本發(fā)明通過特征工程進(jìn)行推薦較好地緩解了冷啟動(dòng)問題。

附圖說明

圖1為本發(fā)明商品推薦方法的整體流程示意圖。

圖2為特征工程模塊的流程示意圖。

圖3為特征擴(kuò)展定義示意圖。

圖4為模型訓(xùn)練模塊的流程示意圖。

圖5為預(yù)測(cè)模塊的流程示意圖。

具體實(shí)施方式

為了更為具體地描述本發(fā)明,下面結(jié)合附圖及具體實(shí)施方式對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明。

本實(shí)施例中,我們將一個(gè)基于分類算法的商品推薦系統(tǒng)拆解為三個(gè)相互聯(lián)系的模塊:特征工程模塊、模型訓(xùn)練模塊、預(yù)測(cè)模塊,最終實(shí)現(xiàn)基于用戶興趣的個(gè)性化商品推薦;其中:

特征工程模塊涉及的內(nèi)容包括數(shù)據(jù)預(yù)處理、特征抽取和特征變換三個(gè)部分。數(shù)據(jù)預(yù)處理主要對(duì)缺失值通過統(tǒng)計(jì)模擬進(jìn)行填充,對(duì)異常值進(jìn)行篩選去除;在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,對(duì)預(yù)定好的特征進(jìn)行抽?。惶卣髯儞Q主要對(duì)標(biāo)簽數(shù)據(jù)進(jìn)行拓展,對(duì)某些連續(xù)數(shù)據(jù)進(jìn)行離散化。

模型訓(xùn)練模塊利用機(jī)器學(xué)習(xí)領(lǐng)域中邏輯回歸、隨機(jī)森林分類算法訓(xùn)練模型預(yù)測(cè)用戶可能會(huì)購買某商品,推薦最有可能購買的若干個(gè)商品。

預(yù)測(cè)模塊的功能分為兩部分,即預(yù)測(cè)值計(jì)算和結(jié)果解釋。預(yù)測(cè)值計(jì)算通過調(diào)用訓(xùn)練好的模型進(jìn)行預(yù)測(cè),并根據(jù)選取的特征值進(jìn)行結(jié)果解釋。

下面將結(jié)合圖來說明整個(gè)系統(tǒng)推薦商品的過程:

從圖1中可以看到整個(gè)系統(tǒng)的工作流程:首先根據(jù)已有的訂單信息、用戶信息和以及商品信息、主推和電視列表信息進(jìn)行預(yù)處理,過濾和去除空值和異常值之后進(jìn)行特征計(jì)算。不同于普通的購物網(wǎng)站,電視購物業(yè)務(wù)中沒有很明確的信息告知我們用戶不喜歡哪些商品,因此,我們從訂單表中抽取用戶的購買記錄作為用戶購買的正例,相應(yīng)的,等量地從用戶購買當(dāng)天的主推和電視節(jié)目播出的商品表中隨機(jī)抽取用戶沒有購買的任一商品作為用戶購買的負(fù)例,共同作為訓(xùn)練集訓(xùn)練選擇的算法得到模型;最后,利用訓(xùn)練好的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),得到不同用戶的商品推薦列表以及不同商品的推薦理由。

結(jié)合圖2~圖5分別說明本發(fā)明中各個(gè)模塊的工作流程。

圖2所示了特征工程模塊的流程,對(duì)輸入信息進(jìn)行預(yù)處理之后,進(jìn)行特征抽取?;趯?duì)業(yè)務(wù)的理解,從用戶、商品和用戶商品交互三個(gè)角度提取特征,如圖3所示。之后又進(jìn)一步擴(kuò)展為多個(gè)小類的特征,如下式:

<mrow> <mi>U</mi> <mo>+</mo> <mi>I</mi> <mo>+</mo> <mi>U</mi> <mi>I</mi> <mo>+</mo> <mi>&Sigma;</mi> <mi>U</mi> <mo>+</mo> <mi>&Sigma;</mi> <mi>I</mi> <mo>+</mo> <mi>&Sigma;</mi> <mi>U</mi> <mi>I</mi> <mo>+</mo> <mfrac> <mi>U</mi> <mrow> <mi>&Sigma;</mi> <mi>U</mi> </mrow> </mfrac> <mo>+</mo> <mfrac> <mi>I</mi> <mrow> <mi>&Sigma;</mi> <mi>I</mi> </mrow> </mfrac> <mo>+</mo> <mfrac> <mrow> <mi>U</mi> <mi>I</mi> </mrow> <mrow> <mi>&Sigma;</mi> <mi>U</mi> <mi>I</mi> </mrow> </mfrac> </mrow>

其中:U為用戶的特征,I為商品的特征,UI為用戶商品交互特征。公式后邊的部分為擴(kuò)展特征。例如,在抽取的特征中有“物品價(jià)格”、“物品歷史被購買次數(shù)”和“物品最近5天被購買次數(shù)占總的被購買次數(shù)的比值”。其中,第一個(gè)為I特征,第二個(gè)為∑I特征,第三個(gè)屬于特征?;谝陨咸卣鳎覀冇?jì)算涉及到物品信息的特征值在當(dāng)天電視播出和主推商品列表中的排序值r,并用兩種不同的方式對(duì)排序值進(jìn)行規(guī)范化。例:假設(shè)排序值為r(0<r≤R),R為當(dāng)天電視播出和主推商品列表中物品數(shù)量,規(guī)范化后排序值分別為1/r和1-(r-1)/(R-1)。前一種更加關(guān)注前部排序而后一種則考慮全局排序情況。

圖4所示了模型訓(xùn)練模塊的流程,預(yù)測(cè)算法池主要包括邏輯回歸、隨機(jī)森林兩種算法,每一種算法運(yùn)行時(shí)可以指定所用的特征。根據(jù)上一步驟處理好的數(shù)據(jù)集進(jìn)行算法離線分析,將數(shù)據(jù)集按照時(shí)間順序劃分為訓(xùn)練集和測(cè)試集,在訓(xùn)練集上訓(xùn)練模型,在測(cè)試集上進(jìn)行測(cè)試。在測(cè)試階段,為每一個(gè)測(cè)試用戶從當(dāng)天的電視播放和主推的商品列表中選出最有可能購買的K個(gè)商品,按照購買的可能性進(jìn)行排序,即Top-K推薦,計(jì)算評(píng)測(cè)用戶最后一次購買的商品出現(xiàn)在推薦列表中的比例(precision,如下式)以及最后一次購買出現(xiàn)在推薦列表中的平均位置(mrr)。

<mrow> <mi>Pr</mi> <mi>e</mi> <mi>c</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mo>=</mo> <mfrac> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>&Element;</mo> <mi>U</mi> </mrow> </msub> <mo>|</mo> <mi>R</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>T</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>&Element;</mo> <mi>U</mi> </mrow> </msub> <mo>|</mo> <mi>R</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> </mrow>

其中:R(u)表示推薦算法展示給用戶的推薦列表,T(u)表示用戶在測(cè)試集上實(shí)際的行為列表。通過precision和mrr這兩個(gè)離線指標(biāo)評(píng)測(cè)算法在測(cè)試集上的預(yù)測(cè)結(jié)果,進(jìn)而不斷調(diào)節(jié)模型的參數(shù),得到最優(yōu)的模型。

圖5所示了預(yù)測(cè)模塊的流程,利用已經(jīng)訓(xùn)練過的模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行結(jié)果預(yù)測(cè)?;趯?shí)際的情況,我們抽取出相對(duì)活躍的用戶,用模型預(yù)測(cè)出其個(gè)性化商品推薦列表,并根據(jù)特征值的選擇對(duì)不同的商品給出推薦理由。列表交給坐席,由其呼出,并給予及時(shí)的反饋,進(jìn)行算法的調(diào)整。

上述的對(duì)實(shí)施例的描述是為便于本技術(shù)領(lǐng)域的普通技術(shù)人員能理解和應(yīng)用本發(fā)明。熟悉本領(lǐng)域技術(shù)的人員顯然可以容易地對(duì)上述實(shí)施例做出各種修改,并把在此說明的一般原理應(yīng)用到其他實(shí)施例中而不必經(jīng)過創(chuàng)造性的勞動(dòng)。因此,本發(fā)明不限于上述實(shí)施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的揭示,對(duì)于本發(fā)明做出的改進(jìn)和修改都應(yīng)該在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
温泉县| 荆州市| 禹州市| 永康市| 蒙阴县| 鄂伦春自治旗| 隆尧县| 台中县| 腾冲县| 达拉特旗| 徐闻县| 班玛县| 天镇县| 北宁市| 万荣县| 登封市| 长治县| 墨玉县| 芮城县| 新巴尔虎右旗| 韶山市| 朝阳区| 东辽县| 咸阳市| 治县。| 六盘水市| 新竹县| 许昌市| 杭锦后旗| 肇庆市| 教育| 板桥市| 深圳市| 凤山县| 上饶市| 连城县| 麻城市| 潜山县| 安新县| 钟山县| 巫山县|