本發(fā)明涉及信息處理,具體來(lái)說(shuō)是一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法。
背景技術(shù):
::1、當(dāng)前行業(yè)在采集公告結(jié)構(gòu)化數(shù)據(jù)時(shí),主要依賴于基于gpu的大模型技術(shù)或基于x86架構(gòu)的office工具包,但這些技術(shù)與國(guó)產(chǎn)信創(chuàng)環(huán)境的兼容性尚未實(shí)現(xiàn)。此外,人工智能技術(shù)的應(yīng)用導(dǎo)致了軟硬件成本的增加,以及在處理長(zhǎng)篇公告時(shí)效率不高。上市公司公告的結(jié)構(gòu)復(fù)雜多變,對(duì)數(shù)據(jù)的需求更新迅速,而現(xiàn)有的定制化word提取工具的可擴(kuò)展性不足,每次增加新的提取需求都需要大量的開發(fā)資源。同時(shí),現(xiàn)有技術(shù)在解析公告中的跨頁(yè)表格和無(wú)框表格等復(fù)雜情況時(shí),效果并不理想,導(dǎo)致數(shù)據(jù)質(zhì)量參差不齊,需要人工逐篇公告逐個(gè)內(nèi)容進(jìn)行核對(duì)和修正。2、因此,現(xiàn)在亟需開發(fā)一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法,用于解決上述問(wèn)題。技術(shù)實(shí)現(xiàn)思路1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法,用以適配信創(chuàng)環(huán)境實(shí)現(xiàn)兼容、降低軟硬件成本、提升處理長(zhǎng)篇公告時(shí)效、提升word數(shù)據(jù)提取工具的擴(kuò)展性、減少對(duì)于人工校對(duì)修正的需求。2、為了實(shí)現(xiàn)上述目的,設(shè)計(jì)一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法,所述方法如下:s1.構(gòu)建提取內(nèi)容模版及查詢定位規(guī)則:提取內(nèi)容分為文本和表格兩種類型,用戶預(yù)先填寫提取內(nèi)容所在段落的正則表達(dá)式,若要提取句子中的某個(gè)關(guān)鍵字,編寫相應(yīng)正則表達(dá)式,若要提取表格內(nèi)容,選擇表格類型,包括寬表、窄表或信息點(diǎn)表,表格表頭支持別名功能,用戶通過(guò)維護(hù)同義詞字典,標(biāo)準(zhǔn)化提取的表頭內(nèi)容;s2.構(gòu)建目標(biāo)段落集:遍歷文檔元素,設(shè)第h個(gè)段落關(guān)鍵字命中,記為為,通過(guò)poi內(nèi)置方法計(jì)算出樣式級(jí)別,記為,繼續(xù)計(jì)算后續(xù)段落元素的樣式級(jí)別,當(dāng)字符編碼小于時(shí),該段落為的子章節(jié),將子章節(jié)加入結(jié)果集,直到遍歷到的同級(jí)段落,即計(jì)算第j個(gè)段落的樣式級(jí)別字符編碼等于時(shí),停止遍歷,最終目標(biāo)段落集合ω表示為,其中;s3.文本及表格解析處理:s31.文本類型字段:根據(jù)預(yù)先設(shè)置的正則表達(dá)式列表在段落集中進(jìn)行匹配,命中后停止遍歷返回匹配結(jié)果;s32.表格提?。簊321.根據(jù)段落集中的table元素,創(chuàng)建表格實(shí)體,并用list<linkedhashmap<>>數(shù)據(jù)結(jié)構(gòu)存放提取內(nèi)容,使得json結(jié)構(gòu)化后仍保留原表格條目的順序;s322.創(chuàng)建新的一維表頭數(shù)組來(lái)存儲(chǔ)表頭信息,根據(jù)cttcpr樣式判斷單元格是水平合并還是垂直合并;s323.查找配置的表頭同義詞字典,若有同義詞,將表頭列名進(jìn)行替換;s324.根據(jù)配置的表格類型進(jìn)行數(shù)據(jù)組裝:若為寬表,則表格第一行作為固定key,同列下方單元格內(nèi)容為value,組成r個(gè)大小為c的linkedhashmap;若為窄表,按列組成linkedhashmap,即每行第一列的值作為固定的key,同行右側(cè)單元格內(nèi)容作為value,組成c個(gè)大小為r的linkedhashmap;信息點(diǎn)表適用于披露科目較多的長(zhǎng)表格,預(yù)先輸入科目關(guān)鍵字,匹配上包含關(guān)鍵字的單元格后,生成一個(gè)包含行名和列表的linkedhashmap,并根據(jù)多級(jí)編號(hào)及樣式縮進(jìn)判斷是否存在子科目,按上述操作將子條目的map也添加進(jìn)結(jié)果列表中,解析到同級(jí)科目后,停止表格遍歷。3、優(yōu)選地,本發(fā)明所述的方法還包括其他技術(shù)特征,其中所述s322具體如下:cttcpr樣式判斷單元格若為垂直合并,數(shù)組索引不變,表格索引加1,若為水平合并,數(shù)組填充相同值索引加1,表格索引加上水平合并的格數(shù)。4、優(yōu)選地,本發(fā)明所述的方法還包括其他技術(shù)特征,其中所述方法還包括s4.提取結(jié)果后處理:對(duì)提取的數(shù)值及日期做格式上標(biāo)準(zhǔn)化處理;s5.提取結(jié)果輸出:提取完畢后會(huì)將提取結(jié)果關(guān)聯(lián)文檔信息,組裝成json,以kafka消息推送的形式推送至下游系統(tǒng)。5、本發(fā)明同現(xiàn)有技術(shù)相比,其優(yōu)點(diǎn)在于:6、本發(fā)明采用openjdk?poi技術(shù)來(lái)解析word文檔,通過(guò)高度的配置化和靈活性,允許用戶根據(jù)需要定制提取規(guī)則,并通過(guò)正則表達(dá)式和同義詞字典來(lái)精確定位和處理文檔中的數(shù)據(jù)。同時(shí),還考慮了表格數(shù)據(jù)的復(fù)雜性,通過(guò)不同的處理邏輯來(lái)適應(yīng)不同類型的表格結(jié)構(gòu)。最后,通過(guò)json和kafka的集成,實(shí)現(xiàn)了數(shù)據(jù)的標(biāo)準(zhǔn)化輸出和高效的數(shù)據(jù)流處理。本發(fā)明的技術(shù)方案在信創(chuàng)環(huán)境下的適配性體現(xiàn)在通過(guò)對(duì)底層xml進(jìn)行定制開發(fā)完成word的解析,僅使用cpu就有良好的執(zhí)行性能且支持多平臺(tái)運(yùn)行,解決對(duì)現(xiàn)有微軟office集成工具、windows系統(tǒng)及gpu的依賴,使其能夠與國(guó)產(chǎn)操作系統(tǒng)和軟件環(huán)境兼容,滿足國(guó)內(nèi)用戶對(duì)數(shù)據(jù)處理和信息安全的需求。經(jīng)過(guò)廣泛的文檔測(cè)試,與常規(guī)的公告抽取系統(tǒng)相比,我們?cè)O(shè)計(jì)的word提取流程和方法能夠更高效、更精確地自動(dòng)提取公告的關(guān)鍵要素,并迅速識(shí)別抽取失敗的模型,從而減輕人工審核的工作負(fù)擔(dān)。此外,系統(tǒng)的擴(kuò)展性良好,對(duì)于新要素的提取需求,可以通過(guò)簡(jiǎn)單地創(chuàng)建新的模型配置來(lái)實(shí)現(xiàn),顯著降低了數(shù)據(jù)開發(fā)的工作量。技術(shù)特征:1.一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法,其特征在于所述方法如下:2.如權(quán)利要求1所述的一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法,其特征在于所述s322具體如下:cttcpr樣式判斷單元格若為垂直合并,數(shù)組索引不變,表格索引加1,若為水平合并,數(shù)組填充相同值索引加1,表格索引加上水平合并的格數(shù)。3.如權(quán)利要求1所述的一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法,其特征在于所述方法還包括技術(shù)總結(jié)本發(fā)明涉及信息處理
技術(shù)領(lǐng)域:
:,具體來(lái)說(shuō)是一種基于信創(chuàng)環(huán)境的配置化word數(shù)據(jù)提取方法,所述方法如下:S1.構(gòu)建提取內(nèi)容模版及查詢定位規(guī)則;S2.構(gòu)建目標(biāo)段落集;S3.文本及表格解析處理;S4.提取結(jié)果后處理;S5.提取結(jié)果輸出。本發(fā)明同現(xiàn)有技術(shù)相比,其優(yōu)點(diǎn)在于:采用openjdk?poi技術(shù)來(lái)解析Word文檔,通過(guò)高度的配置化和靈活性,允許用戶根據(jù)需要定制提取規(guī)則,并通過(guò)正則表達(dá)式和同義詞字典來(lái)精確定位和處理文檔中的數(shù)據(jù)。通過(guò)JSON和Kafka的集成,實(shí)現(xiàn)了數(shù)據(jù)的標(biāo)準(zhǔn)化輸出和高效的數(shù)據(jù)流處理。本發(fā)明的技術(shù)方案在信創(chuàng)麒麟環(huán)境下的適配性體現(xiàn)在其能夠與國(guó)產(chǎn)操作系統(tǒng)和軟件環(huán)境兼容,滿足國(guó)內(nèi)用戶對(duì)數(shù)據(jù)處理和信息安全的需求。技術(shù)研發(fā)人員:張菁,趙洋明,包韶平,韓國(guó)棟,王輝,李小明,陸旸受保護(hù)的技術(shù)使用者:上證所信息網(wǎng)絡(luò)有限公司技術(shù)研發(fā)日:技術(shù)公布日:2025/1/9