本發(fā)明涉及新茶飲行業(yè)銷量預測領域,特別涉及一種基于圖神經網絡的新茶飲銷量預測方法及系統(tǒng)。
背景技術:
1、新茶飲行業(yè)發(fā)展愈發(fā)迅猛,供應鏈的銷量預測技術與采購補貨管理,成為企業(yè)運營管理的核心競爭力之一。新茶飲銷量預測技術所用到的數據具有多樣性和高復雜度的特點,提高銷量預測的準確性變得尤為重要。如果銷量預測值過高,會造成商品的補貨過多,則會形成庫存積壓、周轉過慢、流動資金不足等問題,對企業(yè)運轉造成很大的影響;如果銷量預測值過低,則會造成商品缺貨、利潤損失、以及降低客戶服務水平等問題。
2、現(xiàn)有銷量預測的方法,主要有以下三種方式:
3、一、直接利用歷史的銷量數據進行移動均值、指數平滑的預測方法。
4、二、利用時間序列、機器學習對銷量特征數據進行回歸擬合的預測方法,如arima、xgboost、lightgbm。
5、三、利用深度神經網絡自動構造特征進行建模預測的方法,如rnn、lstm、deepar。
6、服務行業(yè)的高速發(fā)展,以及客戶個性化的飲品需求,形成了新茶飲商品生命周期短、新品頻出、節(jié)假日活動繁多和商圈效應明顯等特點,基于以上建模預測方法,無法同時考慮生命周期短、新品多、節(jié)假日活動多和商圈poi信息等因素的影響,從而無法提高準確率。
技術實現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術的缺點與不足,提供一種基于圖神經網絡的新茶飲銷量預測方法,能夠很好地解決因新茶飲商品生命周期短,節(jié)假日與促銷活動多,新品上市頻繁,商圈效應明顯等行業(yè)特點,帶來預測效果不好的問題。
2、本發(fā)明的另一目的在于提供一種基于圖神經網絡的新茶飲銷量預測系統(tǒng)。
3、本發(fā)明的目的通過以下的技術方案實現(xiàn):
4、一種基于圖神經網絡的新茶飲銷量預測方法,包括以下步驟:
5、s1、數據收集階段,收集歷史不同時間點的門店商品銷量數據和門店基礎特征層數據;
6、所述門店的基礎特征層數據包括數值類型數據和枚舉類型數據兩大類;
7、數值類型數據包括消費人群的年齡信息、消費人群的收入信息、poi商圈消費水平信息和poi商圈經緯度信息等;
8、枚舉類型數據包括消費人群的學歷信息、消費人群的消費習慣信息、poi商圈信息、品類結構信息、優(yōu)惠券信息、促銷活動信息、天氣狀況信息和節(jié)假日信息等;
9、s2、門店商品銷量數據的預處理階段,使用箱線圖技術與變異系數結合的方式對商品銷量異常數據進行檢測,商品銷量異常數據包括異常高的銷量數據、異常低的銷量數據和銷量數據缺失的情況;
10、所述異常高的銷量數據是指超過其95%的銷量數據,所述異常低的銷量數據是指低于其5%的銷量數據,對異常高的銷量數據、異常低的銷量數據分別進行平滑處理,同時保留銷量序列本身的時序規(guī)律;
11、對于銷量數據缺失的情況,使用相似門店、相似類別、相似商品、相似年、相似季度、相似月、相似星期的方式,對歷史銷量數據進行缺失值填補;
12、s3、門店基礎特征層數據的預處理階段,對于數值類型數據,根據數據分布進行分桶處理,將其轉換成枚舉型特征,如消費人群收入轉化為高中低三個層級;對于枚舉類型數據,如天氣包含晴、陰、雨等,輸出到embedding嵌入層,得到預處理后所有特征數據;另外取出上述所有特征數據對應的歷史銷售量數據,建立起特征數據和銷量之間的學習樣本;
13、s4、預測模型訓練階段,利用圖神經網絡,將embedding嵌入層輸出的特征經過池化層、融合層、全連接層,訓練預測模型;
14、s5、預測階段,利用已訓練好的模型,預測未來時間節(jié)點的銷售量。
15、所述預測模型,為訓練好的圖神經網絡模型,以門店歷史銷售量、節(jié)假日、促銷活動、天氣狀況為基礎特征層數據,利用長短期記憶網絡lstm提取時序特征;以門店所在城市、商圈類型、消費人群、新品屬性等作為基礎特征層數據,利用圖卷積網絡gcn提取空間特征;結合時序特征與空間特征,輸出未來時間點門店銷量的預測結果。這是整個圖神經網絡模型中的兩個主要組成部分。除此之外,還包含激活函數relu與全連接層。激活函數relu的作用是增加神經網絡各層之間的非線性關系,提高復雜任務擬合準確率。全連接層的作用是將高維特征映射到低維空間,提高模型的學習能力。
16、所述預測模型,其構建的方法如下:
17、對所有門店定義為一個網絡g,使用無向有權圖g=(v,e)來描述門店網絡的拓撲結構,每個門店作為一個節(jié)點,v是門店節(jié)點的集合,v={v1,v2,...,vn},n是節(jié)點的數量,e代表邊的集合;
18、構建特征矩陣,xt用于表示門店在時間節(jié)點t的特征矩陣;
19、門店商品的銷售量預測問題,建模為在拓撲網絡g和特征矩陣x的約束下,學習映射函數f,預測未來時間節(jié)點的門店的銷售量,定義為yt+1;
20、得到:
21、[yt+1]=f(g;(xt,));
22、映射函數f是利用歷史數據訓練好的圖神經網絡模型,包括依次連接的圖卷積神經網絡gcn、激活函數relu層、長短期記憶網絡lstm和全連接層,輸出未來門店的銷量預測結果。
23、步驟s2中,所述使用箱線圖技術與變異系數結合的方式對異常銷量數據進行檢測,具體如下:
24、在箱線圖技術中,第一四分位數q1、第二四分位數q2和第三四分位數q3分別等于該銷量數據中所有數值由小到大排列后第25%、第50%和第75%對應的數值;第三四分位數與第一四分位數的差距又稱四分位距iqr;定義異常值條件一:小于q1-3*iqr或大于q3+3*iqr的值;
25、引入變異系數cv,所述變異系數cv等于門店銷量的標準差除以門店銷量的均值,定義異常值條件二:變異系數cv大于1.5為異常銷量數據;
26、綜合箱線圖技術與變異系數,同時滿足異常值條件一和異常值條件二的銷量數據為異常值。即銷量數據同時滿足:銷量數據小于q1-3*iqr或大于q3+3*iqr,且其變異系數cv大于1.5。
27、步驟s2中,所述對歷史銷量的時序數據進行缺失值填補,具體如下:
28、當商品某時間點的銷量數據缺失,使用相似門店,相似類別,相似商品,相似年,相似季度,相似月,相似星期的方式,使用平均值進行填補;
29、例如門店a商品001在2022年7月29日(周五)銷量數據缺失,根據新茶飲行業(yè)周期性銷售的特點,用此門店此商品2022年7月的所有星期五的銷量平均值進行填補。如果此商品2022年7月所有銷量數據依然缺失,則使用相似月2022年6月所有周期五銷量的平均值填補。
30、以此類推,對于多個月數據缺失的情況,使用上一個季度同期或者上一年同期數據平均值進行填補;對于大量數據缺失的商品,使用同類別商品進行平均值填補。
31、步驟s4中,所述門店商圈的空間特征抽取方式如下:
32、利用經緯度進行歐氏距離計算,其中,將目標門店作為中心節(jié)點,將其他門店與中心節(jié)點的歐氏距離作為第一距離特征;
33、依據國家統(tǒng)計局中各個城市gdp,將其他門店所在城市的gdp與中心節(jié)點所在城市gdp相減并取絕對值進行歸一化,作為第二距離特征;
34、將其他門店所在商圈的gdp與中心節(jié)點所在商圈gdp相減并取絕對值進行歸一化,作為第三距離特征;
35、將第一、二、三距離特征賦予一定的權重,分別將第一、二、三距離特征相乘權重并且累加得到第四距離特征。
36、步驟s3中,所述分桶處理,具體為:將待處理特征做多種不同的分桶操作,分桶后數據與銷量數據做方差分析,根據方差分析的統(tǒng)計量f與p值確定最佳分桶方式。
37、本發(fā)明的另一目的通過以下的技術方案實現(xiàn):
38、一種基于圖神經網絡的新茶飲銷量預測系統(tǒng),包括數據獲取模塊、數據預處理模塊、預測模型訓練模塊和預測模塊;其中,
39、數據獲取模塊,用于收集門店的特征數據;所述門店的特征數據包括商品歷史銷量、消費人群、poi商圈、新品屬性、品類結構、優(yōu)惠券信息、促銷活動信息、天氣狀況信息、時間屬性和節(jié)假日信息等;
40、數據預處理模塊,使用箱線圖技術與變異系數結合的方式對異常銷量數據進行檢測,并對異常銷量數據進行平滑處理,去除異常點,同時保留銷量本身的時序規(guī)律;所述異常數據包括異常高的銷量數據和異常低的銷量數據,異常高的銷量數據是指超過其95%的銷量數據,異常低的銷量數據是指低于其5%的銷量數據;根據數據缺失情況,使用相似門店、相似類別、相似商品、相似年、相似季度、相似月、相似星期的方式,對歷史銷量數據進行缺失值填補;
41、數值類型數據和枚舉類型數據,對于數值類型數據,如消費人群收入、優(yōu)惠券面額等,該類型數據需要根據數據分布進行分桶處理,將其轉換成枚舉型特征,如消費人群收入轉化為高中低三個層級;對于枚舉類型數據,如天氣包含晴、陰、雨等,將枚舉數據轉換為embedding嵌入向量,得到預處理后所有特征數據;另外取出上述所有特征數據對應的歷史商品銷售量數據,建立起特征數據和銷量之間的學習樣本;
42、預測模型訓練模塊,利用圖神經網絡,從embedding嵌入層輸出的數據中,抽取門店的空間特征與時序特征,然后經過池化層、融合層、全連接層,訓練預測模型;所述門店的空間特征包括門店城市、門店區(qū)域和門店商圈等空間特征;所述門店的時序特征包括門店歷史銷售量、節(jié)假日、促銷活動和天氣數據等時序特征;
43、預測模塊,利用已訓練好的模型,預測未來時間節(jié)點的門店銷售量;
44、同時,本發(fā)明提供:
45、一種服務器,所述服務器包括處理器和存儲器,所述存儲器中存儲有至少一段程序,所述程序由所述處理器加載并執(zhí)行以實現(xiàn)所述基于圖神經網絡的新茶飲銷量預測方法。
46、一種計算機可讀存儲介質,所述存儲介質中存儲有至少一段程序,所述程序由處理器加載并執(zhí)行以實現(xiàn)所述基于圖神經網絡的新茶飲銷量預測方法。
47、本發(fā)明與現(xiàn)有技術相比,具有如下優(yōu)點和有益效果:
48、1、本發(fā)明利用圖神經網絡搭建空間特征與時序特征的算法模型,可以對節(jié)假日、促銷活動、天氣狀況、不同門店商圈、不同消費人群這些場景下進行門店銷售量的預測,解決了新茶飲商品生命周期短、老品退化、商品上新速度快等問題,同時構建基于門店的圖網絡拓撲結構,采用無向有權圖對門店信息數據進行建模,充分參考周邊節(jié)點與當前節(jié)點的圖向量特征,可以精準地預測出每個門店的銷售量,降低商品的缺貨和庫存成本,提高門店收益。
49、2、考慮到新茶飲行業(yè)活動的獨特性和突發(fā)性等其他行業(yè)所沒有的復雜特點,本發(fā)明提供的技術方案,能夠預測出突發(fā)事件與對應的銷量。例如“秋天第一杯奶茶”、“開學日”等事件,這是其他銷量預測方法不具備的能力。
50、3、本發(fā)明所構建的圖神經網絡結構,在多節(jié)點之間,進行空間特征的拓展學習,可提高預測的準確度。