本技術(shù)涉及大數(shù)據(jù),特別是涉及一種文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品。
背景技術(shù):
1、隨著大數(shù)據(jù)技術(shù)的迅猛發(fā)展,各行各業(yè)出現(xiàn)了大量的文本信息。在處理大量文本信息時(shí),通常需要對(duì)這些文本信息進(jìn)行段落識(shí)別,然后再進(jìn)行分類處理。段落識(shí)別是指識(shí)別出文本信息中的各個(gè)段落的過程。
2、傳統(tǒng)的段落識(shí)別通常采用段落標(biāo)注的方式實(shí)現(xiàn),即預(yù)先會(huì)在文本中添加段落標(biāo)注,以此來區(qū)分各個(gè)文本段落。然而,段落標(biāo)注存在標(biāo)注形式不統(tǒng)一的問題,且段落標(biāo)注普遍是由人工進(jìn)行的,容易出現(xiàn)錯(cuò)標(biāo)注、漏標(biāo)注的情況,這些現(xiàn)象均會(huì)導(dǎo)致目前文本段落識(shí)別的準(zhǔn)確性不高。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對(duì)上述技術(shù)問題,提供一種能夠提高文本段落識(shí)別準(zhǔn)確性的文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
2、第一方面,本技術(shù)提供了一種文本段落識(shí)別方法,包括:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息;通過語義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語義關(guān)聯(lián)性;語義分析模型是預(yù)先基于長短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型;通過詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果;詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型;在語義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,將目標(biāo)文本行與上一文本行歸為同一段落。
3、在其中一個(gè)實(shí)施例中,通過語義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語義關(guān)聯(lián)性,包括:通過語義分析模型,分別對(duì)第一文本信息和第二文本信息進(jìn)行語義特征提取,得到第一文本信息的第一語義特征、以及第二文本信息的第二語義特征;對(duì)第一語義特征和第二語義特征進(jìn)行相似度分析,得到第一語義特征和第二語義特征之間的特征相似度;基于特征相似度,確定第一文本信息和第二文本信息之間的語義關(guān)聯(lián)性。
4、在其中一個(gè)實(shí)施例中,方法還包括:獲取包含多個(gè)段落標(biāo)識(shí)的初始樣本文本,對(duì)初始樣本文本,進(jìn)行段落標(biāo)識(shí)剔除,得到第一樣本文本;對(duì)初始樣本文本,進(jìn)行段落標(biāo)識(shí)替換,得到第二樣本文本;對(duì)初始樣本文本,進(jìn)行段落順序調(diào)整,得到第三樣本文本;將第一樣本文本、第二樣本文本和第三樣本文本共同作為訓(xùn)練樣本,基于訓(xùn)練樣本,對(duì)預(yù)訓(xùn)練語義分析模型進(jìn)行模型訓(xùn)練,直至預(yù)訓(xùn)練語義分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值,得到語義分析模型;基于訓(xùn)練樣本,對(duì)預(yù)訓(xùn)練詞組分析模型進(jìn)行模型訓(xùn)練,直至預(yù)訓(xùn)練詞組分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值,得到詞組分析模型。
5、在其中一個(gè)實(shí)施例中,響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息,包括:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,對(duì)目標(biāo)文本進(jìn)行安全性檢測(cè),得到目標(biāo)文本的安全性檢測(cè)結(jié)果;在安全性檢測(cè)結(jié)果表示目標(biāo)文本屬于安全文本的情況下,獲取目標(biāo)文本的文本內(nèi)容;對(duì)文本內(nèi)容進(jìn)行完整性檢測(cè),得到文本內(nèi)容的完整性檢測(cè)結(jié)果;在完整性檢測(cè)結(jié)果表示文本內(nèi)容完整的情況下,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息。
6、在其中一個(gè)實(shí)施例中,方法還包括:分別對(duì)第一文本信息和第二文本信息進(jìn)行分詞處理,得到第一文本信息的各第一文本分詞、以及第二文本信息的各第二文本分詞;分別對(duì)各第一文本分詞和各第二文本分詞進(jìn)行詞嵌入,得到每一第一文本分詞的第一詞向量、以及每一第二文本分詞的第二詞向量;第一詞向量和第二詞向量均作為語義分析模型和詞組分析模型的輸入。
7、在其中一個(gè)實(shí)施例中,第一文本信息的關(guān)鍵詞組的獲取過程包括:分別對(duì)各第一文本分詞進(jìn)行詞頻統(tǒng)計(jì),得到每一第一文本分詞各自的出現(xiàn)頻率;在各第一文本分詞中,篩選出出現(xiàn)頻率超過頻率閾值的目標(biāo)文本分詞;將目標(biāo)文本分詞和第一文本信息中指定文本位置處的文本詞組共同作為關(guān)鍵詞組。
8、第二方面,本技術(shù)還提供了一種文本段落識(shí)別裝置,包括:文本信息獲取模塊,用于響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息;語義分析模塊,用于通過語義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語義關(guān)聯(lián)性;語義分析模型是預(yù)先基于長短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型;詞組分析模塊,用于通過詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果;詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型;段落識(shí)別模塊,用于在語義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,將目標(biāo)文本行與上一文本行歸為同一段落。
9、在其中一個(gè)實(shí)施例中,語義分析模塊還用于:通過語義分析模型,分別對(duì)第一文本信息和第二文本信息進(jìn)行語義特征提取,得到第一文本信息的第一語義特征、以及第二文本信息的第二語義特征;對(duì)第一語義特征和第二語義特征進(jìn)行相似度分析,得到第一語義特征和第二語義特征之間的特征相似度;基于特征相似度,確定第一文本信息和第二文本信息之間的語義關(guān)聯(lián)性。
10、在其中一個(gè)實(shí)施例中,裝置還用于:獲取包含多個(gè)段落標(biāo)識(shí)的初始樣本文本,對(duì)初始樣本文本,進(jìn)行段落標(biāo)識(shí)剔除,得到第一樣本文本;對(duì)初始樣本文本,進(jìn)行段落標(biāo)識(shí)替換,得到第二樣本文本;對(duì)初始樣本文本,進(jìn)行段落順序調(diào)整,得到第三樣本文本;將第一樣本文本、第二樣本文本和第三樣本文本共同作為訓(xùn)練樣本,基于訓(xùn)練樣本,對(duì)預(yù)訓(xùn)練語義分析模型進(jìn)行模型訓(xùn)練,直至預(yù)訓(xùn)練語義分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值,得到語義分析模型;基于訓(xùn)練樣本,對(duì)預(yù)訓(xùn)練詞組分析模型進(jìn)行模型訓(xùn)練,直至預(yù)訓(xùn)練詞組分析模型的訓(xùn)練次數(shù)達(dá)到次數(shù)閾值,得到詞組分析模型。
11、在其中一個(gè)實(shí)施例中,文本信息獲取模塊還用于:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,對(duì)目標(biāo)文本進(jìn)行安全性檢測(cè),得到目標(biāo)文本的安全性檢測(cè)結(jié)果;在安全性檢測(cè)結(jié)果表示目標(biāo)文本屬于安全文本的情況下,獲取目標(biāo)文本的文本內(nèi)容;對(duì)文本內(nèi)容進(jìn)行完整性檢測(cè),得到文本內(nèi)容的完整性檢測(cè)結(jié)果;在完整性檢測(cè)結(jié)果表示文本內(nèi)容完整的情況下,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息。
12、在其中一個(gè)實(shí)施例中,裝置還用于:分別對(duì)第一文本信息和第二文本信息進(jìn)行分詞處理,得到第一文本信息的各第一文本分詞、以及第二文本信息的各第二文本分詞;分別對(duì)各第一文本分詞和各第二文本分詞進(jìn)行詞嵌入,得到每一第一文本分詞的第一詞向量、以及每一第二文本分詞的第二詞向量;第一詞向量和第二詞向量均作為語義分析模型和詞組分析模型的輸入。
13、在其中一個(gè)實(shí)施例中,裝置還用于:分別對(duì)各第一文本分詞進(jìn)行詞頻統(tǒng)計(jì),得到每一第一文本分詞各自的出現(xiàn)頻率;在各第一文本分詞中,篩選出出現(xiàn)頻率超過頻率閾值的目標(biāo)文本分詞;將目標(biāo)文本分詞和第一文本信息中指定文本位置處的文本詞組共同作為關(guān)鍵詞組。
14、第三方面,本技術(shù)還提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息;通過語義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語義關(guān)聯(lián)性;語義分析模型是預(yù)先基于長短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型;通過詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果;詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型;在語義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,將目標(biāo)文本行與上一文本行歸為同一段落。
15、第四方面,本技術(shù)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息;通過語義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語義關(guān)聯(lián)性;語義分析模型是預(yù)先基于長短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型;通過詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果;詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型;在語義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,將目標(biāo)文本行與上一文本行歸為同一段落。
16、第五方面,本技術(shù)還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息;通過語義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語義關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的語義關(guān)聯(lián)性;語義分析模型是預(yù)先基于長短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型;通過詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果;詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型;在語義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,將目標(biāo)文本行與上一文本行歸為同一段落。
17、上述文本段落識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品,響應(yīng)于針對(duì)目標(biāo)文本的段落識(shí)別指令,首先獲取目標(biāo)文本中的目標(biāo)文本行的第一文本信息、以及目標(biāo)文本行的上一文本行的第二文本信息。并通過語義分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行語義關(guān)聯(lián)分析,從而得到第一文本信息和第二文本信息之間的語義關(guān)聯(lián)性。以及通過詞組分析模型,對(duì)第一文本信息和第二文本信息之間進(jìn)行詞組關(guān)聯(lián)分析,得到第一文本信息和第二文本信息之間的詞組關(guān)聯(lián)分析結(jié)果。在語義關(guān)聯(lián)性達(dá)到關(guān)聯(lián)性閾值、以及詞組關(guān)聯(lián)分析結(jié)果表示第一文本信息包含第二文本信息的關(guān)鍵詞組的情況下,認(rèn)為目標(biāo)文本行與上一文本行屬于同一段落。因此,本技術(shù)從語義層面和詞組層面,分析相鄰文本行之間的關(guān)聯(lián)性,以此來判斷兩個(gè)文本行是否屬于同一段落,提高了文本段落識(shí)別的準(zhǔn)確性。另外,本技術(shù)中的語義分析模型是預(yù)先基于長短期記憶網(wǎng)絡(luò)訓(xùn)練得到的模型,能夠捕捉到文本信息中的長期依賴關(guān)系,提高了文本語義關(guān)聯(lián)分析的準(zhǔn)確性。而詞組分析模型是預(yù)先基于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型,卷積神經(jīng)網(wǎng)絡(luò)通過卷積層可以捕捉文本信息中的局部特征,這種局部感知能力使得卷積神經(jīng)網(wǎng)絡(luò)能夠高效地處理文本數(shù)據(jù),尤其是在檢測(cè)當(dāng)前文本行是否包含上一文本行的關(guān)鍵詞組時(shí),能夠準(zhǔn)確高效地識(shí)別出詞組的存在。所以,本技術(shù)能夠克服目前文本段落識(shí)別的準(zhǔn)確性不高的技術(shù)缺陷,有效提高文本段落識(shí)別的準(zhǔn)確性。