本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,尤其涉及一種結(jié)合lstm與多圖卷積神經(jīng)網(wǎng)絡(luò)的選股方法及系統(tǒng)。
背景技術(shù):
1、隨著經(jīng)濟(jì)發(fā)展水平提高,金融市場日漸擴(kuò)大,股票因其潛在的高額回報率而備受投資者親睞,已經(jīng)成為最具吸引力的投資選擇之一。股票投資者能否獲得利潤本質(zhì)上取決于所選股票價格在未來會上升,因此,能否有效預(yù)測股票的未來價格和走勢至關(guān)重要。
2、量化投資通過建模方式使這一過程變得更加科學(xué),后來隨著信息化時代的到來和人工智能技術(shù)發(fā)展,更多算法被用于股票預(yù)測。通過大量數(shù)據(jù)捕獲各種股票特征,如歷史價格數(shù)據(jù)、交易量等,與收益回報之間的關(guān)系,進(jìn)而實現(xiàn)有效的股票收益率預(yù)測,并根據(jù)預(yù)測結(jié)果選擇股票,最終獲得超額投資回報。
3、目前用于股票預(yù)測的深度學(xué)習(xí)模型仍存在著一些問題,首先在進(jìn)行股票預(yù)測時只考慮到股票價格與其歷史數(shù)據(jù)序列的關(guān)系。可是在現(xiàn)實市場中,股票并非獨立存在,它們之間存在大量關(guān)聯(lián),例如,處于競爭關(guān)系的兩家公司,股票價格呈現(xiàn)此消彼長的狀態(tài),而具有供應(yīng)關(guān)系的公司,股價很可能呈現(xiàn)同樣的變化趨勢。其次,基于股票關(guān)系圖的方法,通常都以靜態(tài)關(guān)系圖為基礎(chǔ),根據(jù)先驗知識構(gòu)建股票關(guān)系圖,無法準(zhǔn)確反映股票關(guān)系的變化。并且,生成的關(guān)系圖只從某個單一角度出發(fā)(比如行業(yè)關(guān)系,wiki關(guān)系,投資關(guān)系),不能充分包含股票間的所有關(guān)系。
4、lstm是rnn的一種變體,最初被提出是為了解決rnn在反向傳播過程中容易產(chǎn)生梯度消失或梯度爆炸的問題,能夠很好地捕捉和利用長期的時間序列依賴關(guān)系。它通過輸入門、輸出門和遺忘門,可以自動對信息進(jìn)行篩選,忽略無效部分,保留重要信息。股票價格被看作為一種典型的時間序列。而lstm模型能夠很好地捕獲序列長期依賴關(guān)系,在保留原始數(shù)據(jù)趨勢特征的情況下,降低數(shù)據(jù)復(fù)雜度。因此在金融領(lǐng)域被廣泛應(yīng)用。
5、有效市場假說證明,股票價格可以完全反映市場信息?;诖擞^點,通過計算股票歷史價格序列間的關(guān)系,可以動態(tài)反應(yīng)股票間的關(guān)系。attention可以自適應(yīng)地關(guān)注輸入信息的重要性,可以更加有效整合根據(jù)不同角度出發(fā)所計算得到的關(guān)系圖對不同股票的重要程度,獲得一張更加完成的股票關(guān)系圖。圖上頂點表示股票節(jié)點,而邊值表示每對股票間相關(guān)性的強(qiáng)度。gcn是一種廣泛應(yīng)用于圖上的深度學(xué)習(xí)方法,它通過對圖中相鄰節(jié)點進(jìn)行聚合,捕獲節(jié)點間的關(guān)系,并為每個節(jié)點生成新的特征表示,從而實現(xiàn)節(jié)點間的交叉信息影響,得到股票相互作用后的結(jié)果。
6、在進(jìn)行股票預(yù)測的過程中,股票價格不僅與其自身的歷史序列有關(guān),還會受到其他相關(guān)股票的影響。因此,借助lstm對于時間序列長期依賴關(guān)系的處理能力和多圖卷積神經(jīng)網(wǎng)絡(luò)對于相鄰節(jié)點關(guān)系的捕獲能力,可以更加全面地獲取市場信息,從而實現(xiàn)準(zhǔn)確且高效地股票數(shù)據(jù)分析和預(yù)測,得到一種新的量化選股方法。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于解決現(xiàn)有技術(shù)中存在的問題,并提供一種結(jié)合lstm與多圖卷積神經(jīng)網(wǎng)絡(luò)的選股方法及系統(tǒng),本發(fā)明的方法可以有效提高預(yù)測準(zhǔn)確率,并提高投資收益率。
2、為了實現(xiàn)上述發(fā)明目的,本發(fā)明具體采用如下技術(shù)方案:
3、第一方面,本發(fā)明提供了一種結(jié)合lstm與多圖卷積神經(jīng)網(wǎng)絡(luò)的選股方法,包括以下步驟:
4、s1:獲取原始的股票特征數(shù)據(jù),并按照股票代碼對原始的股票特征數(shù)據(jù)進(jìn)行分類;
5、s2:對分類后的股票特征數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到預(yù)處理后的股票特征數(shù)據(jù),并由預(yù)處理后的股票特征數(shù)據(jù)構(gòu)建數(shù)據(jù)集;
6、s3:在所述數(shù)據(jù)集上訓(xùn)練選股模型,所述選股模型包含lstm模型、圖卷積網(wǎng)絡(luò)、attention機(jī)制以及全連接層;
7、s4:獲取經(jīng)過數(shù)據(jù)預(yù)處理的待檢測股票的股票特征數(shù)據(jù),將待檢測股票的股票特征數(shù)據(jù)輸入到訓(xùn)練好的選股模型中,由選股模型預(yù)測每支待檢測股票的未來收益率,按照未來收益率的大小對待檢測股票的股票特征數(shù)據(jù)進(jìn)行排序,選取收益率最高的前k支待檢測股票進(jìn)行投資。
8、在上述方案基礎(chǔ)上,各步驟可以采用如下優(yōu)選的具體方式實現(xiàn)。
9、作為上述第一方面的優(yōu)選,步驟s2中,所述數(shù)據(jù)預(yù)處理具體過程為:依次對分類后的股票特征數(shù)據(jù)進(jìn)行中心化以及歸一化后,利用中心化以及歸一化后的股票特征數(shù)據(jù)計算股票價格移動平均線。
10、作為上述第一方面的優(yōu)選,步驟s3中,選股模型中的具體處理流程如下:
11、s31:將預(yù)處理后的股票特征數(shù)據(jù)輸入到所述lstm模型中提取各支股票的股票趨勢特征;
12、s32:從原始的股票特征數(shù)據(jù)中獲取股票的歷史收盤價序列,基于股票的歷史收盤價序列計算每對股票間的皮爾遜相關(guān)系數(shù),得到皮爾遜關(guān)系矩陣,基于股票的歷史收盤價序列計算每對股票間的斯皮爾曼秩相關(guān)系數(shù),得到斯皮爾曼秩關(guān)系矩陣,并通過fastdtw算法獲得股票的歷史收盤價序列之間的相似度,得到相似關(guān)系矩陣;
13、s33:將皮爾遜關(guān)系矩陣、斯皮爾曼秩關(guān)系矩陣以及相似關(guān)系矩陣通過attention機(jī)制整合為一個注意力關(guān)系矩陣,所述注意力關(guān)系矩陣中的每個元素代表對應(yīng)索引的兩支股票之間的關(guān)系強(qiáng)度;
14、s34:將注意力關(guān)系矩陣中的每個元素作為股票關(guān)系圖的邊值,將各支股票的股票趨勢特征作為股票關(guān)系圖中的股票節(jié)點,以構(gòu)建股票關(guān)系圖;
15、s35:將股票關(guān)系圖輸入到圖卷積網(wǎng)絡(luò)中,進(jìn)行兩層圖卷積過程后獲得各支股票的關(guān)系嵌入;
16、s36:將各支股票的股票趨勢特征以及各支股票的關(guān)系嵌入拼接在一起,將拼接后的結(jié)果通過一個全連接層進(jìn)行預(yù)測結(jié)果處理,得到各支股票收益率的預(yù)測結(jié)果。
17、作為上述第一方面的優(yōu)選,步驟s3中,在訓(xùn)練選股模型時,采用的損失函數(shù)具體為:
18、
19、
20、
21、式中:l1代表預(yù)測損失,l2表示每對股票間相對排名的損失;表示在t+1時間所有股票收益率的預(yù)測結(jié)果;yt+1表示在t+1時間所有股票收益率的真實值;α表示權(quán)重超參數(shù);分別表示在t+1時間第i支股票、第j支股票收益率的預(yù)測結(jié)果;分別表示在t+1時間第i支股票、第j支股票收益率的真實值。
22、第二方面,本發(fā)明提供了一種結(jié)合lstm與多圖卷積神經(jīng)網(wǎng)絡(luò)的選股系統(tǒng),包括:
23、數(shù)據(jù)獲取模塊,用于獲取原始的股票特征數(shù)據(jù),并按照股票代碼對原始的股票特征數(shù)據(jù)進(jìn)行分類;
24、預(yù)處理模塊,用于對分類后的股票特征數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到預(yù)處理后的股票特征數(shù)據(jù),并由預(yù)處理后的股票特征數(shù)據(jù)構(gòu)建數(shù)據(jù)集;
25、模型訓(xùn)練模塊,用于在所述數(shù)據(jù)集上訓(xùn)練選股模型,所述選股模型包含lstm模型、圖卷積網(wǎng)絡(luò)、attention機(jī)制以及全連接層;
26、結(jié)果獲取模塊,用于獲取經(jīng)過數(shù)據(jù)預(yù)處理的待檢測股票的股票特征數(shù)據(jù),將待檢測股票的股票特征數(shù)據(jù)輸入到訓(xùn)練好的選股模型中,由選股模型預(yù)測每支待檢測股票的未來收益率,按照未來收益率的大小對待檢測股票的股票特征數(shù)據(jù)進(jìn)行排序,選取收益率最高的前k支待檢測股票進(jìn)行投資。
27、第三方面,本發(fā)明提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序/指令,該計算機(jī)程序/指令被處理器執(zhí)行時,能實現(xiàn)如上述第一方面任一項方案所述的一種結(jié)合lstm與多圖卷積神經(jīng)網(wǎng)絡(luò)的選股方法。
28、第四方面,本發(fā)明提供了一種計算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機(jī)程序,當(dāng)所述計算機(jī)程序被處理器執(zhí)行時,實現(xiàn)如上述第一方面任一項方案所述的一種結(jié)合lstm與多圖卷積神經(jīng)網(wǎng)絡(luò)的選股方法。
29、第五方面,本發(fā)明提供了一種計算機(jī)電子設(shè)備,包括存儲器和處理器;
30、所述存儲器,用于存儲計算機(jī)程序;
31、所述處理器,用于當(dāng)執(zhí)行所述計算機(jī)程序時,實現(xiàn)如上述第一方面任一項方案所述的一種結(jié)合lstm與多圖卷積神經(jīng)網(wǎng)絡(luò)的選股方法。
32、本發(fā)明相對于現(xiàn)有技術(shù)而言,具有以下有益效果:
33、本發(fā)明為量化選股提供了新的方法思路,與傳統(tǒng)統(tǒng)計回歸模型和機(jī)器學(xué)習(xí)方法相比,使用lstm模型和多圖卷積神經(jīng)網(wǎng)絡(luò)可以同時捕獲股票價格數(shù)據(jù)的事件依賴性和不同股票間的關(guān)系影響,提高股票收益率預(yù)測結(jié)果的準(zhǔn)確性。此外,將股票相對排名加入損失函數(shù)中,可以更加準(zhǔn)確地選擇排名靠前的股票,使投資者能夠獲得更高的投資回報。