本發(fā)明涉及流量預(yù)測,尤其涉及一種流量預(yù)測方法及系統(tǒng)。
背景技術(shù):
1、隨著移動(dòng)通信技術(shù)的迅猛發(fā)展以及智能移動(dòng)設(shè)備(如智能手機(jī))的快速普及,用戶越來越頻繁地使用移動(dòng)設(shè)備,從而產(chǎn)生大量無線網(wǎng)絡(luò)流量。由于用戶通信套餐內(nèi)數(shù)據(jù)流量消費(fèi)的即時(shí)性和動(dòng)態(tài)性,對用戶流量需求洞察的時(shí)效性產(chǎn)生了較高的要求。通過預(yù)測用戶流量使用情況,提前預(yù)警即將溢出群體,提前做好用戶流量提醒服務(wù)關(guān)懷,也為移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)流量的運(yùn)營策略以及數(shù)據(jù)流量包的銷售帶來可觀的收益。
2、目前,對于流量數(shù)據(jù)的預(yù)測多采用時(shí)間序列分析方法,如自回歸積分滑動(dòng)平均模型(arima)等。arima模型在處理平穩(wěn)或弱平穩(wěn)時(shí)間序列時(shí)表現(xiàn)出色,能夠有效捕捉數(shù)據(jù)的線性趨勢和季節(jié)性變化。然而,面對現(xiàn)代通信網(wǎng)絡(luò)中海量、高頻且波動(dòng)性大的流量數(shù)據(jù),arima模型僅適用于捕捉線性關(guān)系,對于非線性、復(fù)雜多變的流量數(shù)據(jù)預(yù)測精度有限,且模型訓(xùn)練及預(yù)測過程效率較低,難以滿足大規(guī)模、實(shí)時(shí)性要求高的運(yùn)營場景。
3、為了克服arima等傳統(tǒng)流量預(yù)測方法的不足,近年來深度學(xué)習(xí)技術(shù),特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)及其變體如長短期記憶網(wǎng)絡(luò)(lstm),被廣泛應(yīng)用于流量預(yù)測領(lǐng)域。lstm通過其獨(dú)特的門控機(jī)制,能夠有效處理長序列數(shù)據(jù)中的依賴關(guān)系,捕捉復(fù)雜的非線性模式,從而實(shí)現(xiàn)高精度的流量預(yù)測。然而,深度學(xué)習(xí)模型的訓(xùn)練和應(yīng)用對算力平臺(tái)的資源配置和投入成本,如gpu資源的要求相對較高。
技術(shù)實(shí)現(xiàn)思路
1、為了解決以上技術(shù)問題,本發(fā)明提供了一種流量預(yù)測方法及系統(tǒng)。
2、本發(fā)明所解決的技術(shù)問題可以采用以下技術(shù)方案實(shí)現(xiàn):
3、一種流量預(yù)測方法,包括:
4、步驟s1,收集待預(yù)測用戶的歷史流量數(shù)據(jù);
5、步驟s2,對所述歷史流量數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,得到離散型特征信息以及預(yù)設(shè)周期內(nèi)的預(yù)測時(shí)間段之前的連續(xù)型特征信息;
6、步驟s3,將所述離散型特征信息輸入至預(yù)先構(gòu)建的第一流量預(yù)測模型進(jìn)行流量預(yù)測,得到對應(yīng)于所述預(yù)設(shè)周期內(nèi)的預(yù)測時(shí)間段的第一流量預(yù)測結(jié)果;
7、步驟s4,將所述預(yù)設(shè)周期內(nèi)的預(yù)測時(shí)間段之前的連續(xù)型特征信息和所述第一流量預(yù)測結(jié)果輸入至預(yù)先構(gòu)建的第二流量預(yù)測模型進(jìn)行流量預(yù)測,得到所述預(yù)測時(shí)間段對應(yīng)的最終的流量預(yù)測結(jié)果。
8、優(yōu)選地,所述歷史流量數(shù)據(jù)包括用戶基礎(chǔ)信息、流量使用偏好行為信息和歷史流量使用信息中的一種或多種組合。
9、優(yōu)選地,所述步驟s2包括:
10、步驟s21,對所述歷史流量數(shù)據(jù)進(jìn)行預(yù)處理,得到樣本數(shù)據(jù);
11、步驟s22,對所述樣本數(shù)據(jù)進(jìn)行特征工程,并篩選得到所述離散型特征信息和所述連續(xù)型特征信息。
12、優(yōu)選地,所述步驟s21中,所述預(yù)處理包括數(shù)據(jù)缺失處理、異常值處理、數(shù)據(jù)標(biāo)準(zhǔn)化處理中的一種或多種組合。
13、優(yōu)選地,所述第一流量預(yù)測模型為堆疊融合樹模型;
14、所述堆疊融合樹模型包括隨機(jī)森林模型、極限梯度提升模型和輕量級梯度提升模型;其中,所述隨機(jī)森林模型和極限梯度提升模型作為所述堆疊融合樹模型的基模型,所述輕量級梯度提升模型作為所述堆疊融合樹模型的次基模型。
15、優(yōu)選地,所述第二流量預(yù)測模型為線性回歸模型。
16、優(yōu)選地,所述離散型特征信息包括游戲偏好標(biāo)簽、視頻偏好標(biāo)簽、當(dāng)前預(yù)設(shè)周期內(nèi)流量免費(fèi)量、當(dāng)前預(yù)設(shè)周期內(nèi)流量使用量、近n個(gè)預(yù)設(shè)周期的賬單消費(fèi)、近n個(gè)預(yù)設(shè)周期的流量使用量、上一預(yù)設(shè)周期是否發(fā)生流量溢出、上一預(yù)設(shè)周期是否流量抑制中的一種或多種組合,n為大于0的正整數(shù)。
17、優(yōu)選地,所述連續(xù)型特征信息為流量時(shí)間序列信息。
18、本發(fā)明還提供一種流量預(yù)測系統(tǒng),用于實(shí)施如上述的流量預(yù)測方法,所述流量預(yù)測系統(tǒng)包括:
19、數(shù)據(jù)收集模塊,用于收集待預(yù)測用戶的歷史流量數(shù)據(jù);
20、數(shù)據(jù)處理模塊,連接所述數(shù)據(jù)收集模塊,用于對所述歷史流量數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,得到離散型特征信息以及預(yù)設(shè)周期內(nèi)的預(yù)測時(shí)間段之前的連續(xù)型特征信息;
21、第一流量預(yù)測模塊,連接所述數(shù)據(jù)處理模塊,用于將所述離散型特征信息輸入至預(yù)先構(gòu)建的第一流量預(yù)測模型進(jìn)行流量預(yù)測,得到對應(yīng)于預(yù)設(shè)周期內(nèi)的預(yù)測時(shí)間段的第一流量預(yù)測結(jié)果;
22、第二流量預(yù)測模塊,分別連接所述數(shù)據(jù)處理模塊和所述第一流量預(yù)測模塊,用于將所述預(yù)設(shè)周期內(nèi)的預(yù)測時(shí)間段之前的連續(xù)型特征信息和所述第一流量預(yù)測結(jié)果輸入至預(yù)先構(gòu)建的第二流量預(yù)測模型進(jìn)行流量預(yù)測,得到所述預(yù)測時(shí)間段對應(yīng)的最終的流量預(yù)測結(jié)果。
23、優(yōu)選地,所述第一流量預(yù)測模型為堆疊融合樹模型;
24、所述堆疊融合樹模型包括隨機(jī)森林模型、極限梯度提升模型和輕量級梯度提升模型;其中,所述隨機(jī)森林模型和極限梯度提升模型作為所述堆疊融合樹模型的基模型,所述輕量級梯度提升模型作為所述堆疊融合樹模型的次基模型;
25、所述第二流量預(yù)測模型為線性回歸模型。
26、本發(fā)明技術(shù)方案的優(yōu)點(diǎn)或有益效果在于:
27、本發(fā)明采用機(jī)器學(xué)習(xí)融合模型對流量時(shí)序性數(shù)據(jù)場景進(jìn)行預(yù)測,第一流量預(yù)測模型基于離散型特征信息進(jìn)行初步預(yù)測,快速捕捉用戶流量使用的大致趨勢;第二流量預(yù)測模型進(jìn)一步利用連續(xù)型特征信息及初步預(yù)測結(jié)果,進(jìn)行深度挖掘和修正,以實(shí)現(xiàn)對流量時(shí)序性數(shù)據(jù)場景的更全面、更精準(zhǔn)的預(yù)測,克服了單一模型在復(fù)雜數(shù)據(jù)場景下的局限性,顯著提升了預(yù)測的準(zhǔn)確性和魯棒性。
1.一種流量預(yù)測方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的流量預(yù)測方法,其特征在于,所述歷史流量數(shù)據(jù)包括用戶基礎(chǔ)信息、流量使用偏好行為信息和歷史流量使用信息中的一種或多種組合。
3.根據(jù)權(quán)利要求1所述的流量預(yù)測方法,其特征在于,所述步驟s2包括:
4.根據(jù)權(quán)利要求3所述的流量預(yù)測方法,其特征在于,所述步驟s21中,所述預(yù)處理包括數(shù)據(jù)缺失處理、異常值處理、數(shù)據(jù)標(biāo)準(zhǔn)化處理中的一種或多種組合。
5.根據(jù)權(quán)利要求1所述的流量預(yù)測方法,其特征在于,所述第一流量預(yù)測模型為堆疊融合樹模型;
6.根據(jù)權(quán)利要求1所述的流量預(yù)測方法,其特征在于,所述第二流量預(yù)測模型為線性回歸模型。
7.根據(jù)權(quán)利要求1所述的流量預(yù)測方法,其特征在于,所述離散型特征信息包括游戲偏好標(biāo)簽、視頻偏好標(biāo)簽、當(dāng)前預(yù)設(shè)周期內(nèi)流量免費(fèi)量、當(dāng)前預(yù)設(shè)周期內(nèi)流量使用量、近n個(gè)預(yù)設(shè)周期的賬單消費(fèi)、近n個(gè)預(yù)設(shè)周期的流量使用量、上一預(yù)設(shè)周期是否發(fā)生流量溢出、上一預(yù)設(shè)周期是否流量抑制中的一種或多種組合,n為大于0的正整數(shù)。
8.根據(jù)權(quán)利要求1所述的流量預(yù)測方法,其特征在于,所述連續(xù)型特征信息為流量時(shí)間序列信息。
9.一種流量預(yù)測系統(tǒng),其特征在于,用于實(shí)施如權(quán)利要求1-9任意一項(xiàng)所述的流量預(yù)測方法,所述流量預(yù)測系統(tǒng)包括:
10.根據(jù)權(quán)利要求9所述的流量預(yù)測系統(tǒng),其特征在于,所述第一流量預(yù)測模型為堆疊融合樹模型;