本申請(qǐng)涉及數(shù)據(jù)提取,尤其涉及一種文本提取方法、裝置、計(jì)算機(jī)、存儲(chǔ)介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、隨著電網(wǎng)業(yè)務(wù)量的不斷增加,電力設(shè)備、施工人員、文本記錄數(shù)量也不斷加大,給現(xiàn)場(chǎng)施工作業(yè)安全管理帶來(lái)很大的難題。如何有效的對(duì)大量文本數(shù)據(jù)進(jìn)行關(guān)鍵數(shù)據(jù)提取,是當(dāng)下電力現(xiàn)場(chǎng)作業(yè)亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供一種文本提取方法、裝置、計(jì)算機(jī)、存儲(chǔ)介質(zhì)及程序產(chǎn)品,通過(guò)對(duì)基礎(chǔ)文本數(shù)據(jù)進(jìn)行特征提取和標(biāo)簽處理,然后輸入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)模型,提取模型輸出概率最高的文本數(shù)據(jù),有利于提高對(duì)大量文本數(shù)據(jù)進(jìn)行關(guān)鍵數(shù)據(jù)提取的效率。
2、第一方面,本申請(qǐng)實(shí)施例提供了一種文本提取方法,所述方法包括:
3、對(duì)基礎(chǔ)樣本數(shù)據(jù)進(jìn)行特征提取,得到多個(gè)樣本特征數(shù)據(jù);
4、對(duì)所述多個(gè)樣本特征數(shù)據(jù)中不同類別的樣本特征數(shù)據(jù)進(jìn)行標(biāo)簽處理,得到多個(gè)樣本特征數(shù)據(jù)標(biāo)簽;
5、根據(jù)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)模型確定所述多個(gè)樣本特征數(shù)據(jù)標(biāo)簽中不同樣本特征數(shù)據(jù)標(biāo)簽的輸出概率;
6、提取所述基礎(chǔ)樣本數(shù)據(jù)中與所述輸出概率最大的樣本特征數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的文本。
7、第二方面,本申請(qǐng)實(shí)施例提供了一種文本提取裝置,所述裝置包括:
8、特征提取模塊,用于對(duì)基礎(chǔ)樣本數(shù)據(jù)進(jìn)行特征提取,得到多個(gè)樣本特征數(shù)據(jù);
9、標(biāo)簽處理模塊,用于對(duì)所述多個(gè)樣本特征數(shù)據(jù)中不同類別的樣本特征數(shù)據(jù)進(jìn)行標(biāo)簽處理,得到多個(gè)樣本特征數(shù)據(jù)標(biāo)簽;
10、確定模塊,用于根據(jù)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)模型確定所述多個(gè)樣本特征數(shù)據(jù)標(biāo)簽中不同樣本特征數(shù)據(jù)標(biāo)簽的輸出概率;
11、文本提取模塊,用于提取所述基礎(chǔ)樣本數(shù)據(jù)中與所述輸出概率最大的樣本特征數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的文本。
12、第三方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī),包括:
13、存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的文本提取程序,文本提取程序配置為實(shí)現(xiàn)如第一方面中任一方法中所描述的部分或全部步驟。
14、第四方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有文本提取程序,文本提取程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一方法中所描述的部分或全部步驟。
15、第五方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,其中,計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,計(jì)算機(jī)程序可操作來(lái)使計(jì)算機(jī)執(zhí)行如本申請(qǐng)實(shí)施例第一方面任一方法中所描述的部分或全部步驟。該計(jì)算機(jī)程序產(chǎn)品可以為一個(gè)軟件安裝包。
16、通過(guò)實(shí)施本申請(qǐng)實(shí)施例,文本提取系統(tǒng)的服務(wù)器首先對(duì)基礎(chǔ)樣本數(shù)據(jù)進(jìn)行特征提取,得到多個(gè)樣本特征數(shù)據(jù);然后對(duì)多個(gè)樣本特征數(shù)據(jù)中不同類別的樣本特征數(shù)據(jù)進(jìn)行標(biāo)簽處理,得到多個(gè)樣本特征數(shù)據(jù)標(biāo)簽;然后根據(jù)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)模型確定多個(gè)樣本特征數(shù)據(jù)標(biāo)簽中不同樣本特征數(shù)據(jù)標(biāo)簽的輸出概率;最后提取基礎(chǔ)樣本數(shù)據(jù)中與輸出概率最大的樣本特征數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的文本。通過(guò)對(duì)基礎(chǔ)文本數(shù)據(jù)進(jìn)行特征提取和標(biāo)簽處理,然后輸入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)模型,提取模型輸出概率最高的文本數(shù)據(jù),有利于提高對(duì)大量文本數(shù)據(jù)進(jìn)行關(guān)鍵數(shù)據(jù)提取的效率。
1.一種文本提取方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述多個(gè)樣本特征數(shù)據(jù)中不同類別的樣本特征數(shù)據(jù)進(jìn)行標(biāo)簽處理,得到多個(gè)樣本特征數(shù)據(jù)標(biāo)簽,包括:
3.如權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)模型確定所述多個(gè)樣本特征數(shù)據(jù)標(biāo)簽中不同樣本特征數(shù)據(jù)標(biāo)簽的輸出概率之前,所述方法還包括:
4.如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)模型確定所述多個(gè)樣本特征數(shù)據(jù)標(biāo)簽中不同樣本特征數(shù)據(jù)標(biāo)簽的輸出概率,包括:
5.如權(quán)利要求4所述的方法,其特征在于,所述雙向長(zhǎng)短期記憶網(wǎng)絡(luò)層包括詞嵌入層、前向長(zhǎng)短期記憶網(wǎng)絡(luò)層、后向長(zhǎng)短期記憶網(wǎng)絡(luò)層以及全連接線性層,所述根據(jù)所述多個(gè)樣本特征數(shù)據(jù)標(biāo)簽和所述雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)模型中的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)層得到第一輸出,包括:
6.如權(quán)利要求4所述的方法,其特征在于,所述條件隨機(jī)場(chǎng)層包括發(fā)射概率函數(shù)和特征轉(zhuǎn)移函數(shù),所述將所述第一輸出作為所述雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)模型中的條件隨機(jī)場(chǎng)層的輸入,得到第二輸出,包括:
7.如權(quán)利要求1-6任一項(xiàng)所述的方法,其特征在于,在對(duì)基礎(chǔ)樣本數(shù)據(jù)進(jìn)行特征提取之前,所述方法還包括:
8.一種文本提取裝置,其特征在于,所述裝置包括:
9.一種計(jì)算機(jī),其特征在于,所述計(jì)算機(jī)包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有文本提取程序,所述文本提取程序包括執(zhí)行指令,所述執(zhí)行指令用于執(zhí)行如權(quán)利要求1-7任一項(xiàng)所述文本提取方法的步驟。