針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)與流程

文檔序號：40647266發(fā)布日期：2025-01-10 18:53閱讀：1來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)與流程

本發(fā)明涉及自然語言處理和信息抽取，具體是一種針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)。

背景技術(shù)：

1、隨著電子商務(wù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，拍賣作為一種重要的商品交易方式日益普及，其交易數(shù)據(jù)在網(wǎng)絡(luò)平臺上大量涌現(xiàn)。在拍賣領(lǐng)域，拍賣標(biāo)的物屬性詳情表通常包含大量的商品信息、價格數(shù)據(jù)、競拍者信息等關(guān)鍵內(nèi)容。傳統(tǒng)的手工抽取方式不僅耗時耗力，而且難以保證數(shù)據(jù)的準(zhǔn)確性和完整性。因此，開發(fā)一種高效、準(zhǔn)確的拍賣表格信息抽取技術(shù)，對于提高拍賣活動的效率和準(zhǔn)確性具有重要意義。

2、盡管信息抽取技術(shù)已經(jīng)取得了一定的進(jìn)展，但在拍賣表格信息抽取方面仍面臨一些問題和挑戰(zhàn)。例如，表格的格式和內(nèi)容往往因拍賣活動的不同而有所差異，這使得通用的信息抽取算法難以適應(yīng)所有的情況。對于不同平臺的標(biāo)的物屬性詳情表表格，專有名詞的命名較為不同，往往很難通過簡單統(tǒng)一的規(guī)律進(jìn)行區(qū)分，從而限制了表格信息抽取的精確性和通用性，因此亟待解決。

技術(shù)實現(xiàn)思路

1、為解決現(xiàn)有技術(shù)中存在表格信息抽取的精確性和通用性有待提高的技術(shù)問題，本發(fā)明提供了一種針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)。

2、為實現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：

3、本發(fā)明公開一種針對標(biāo)的物屬性詳情表的表格信息抽取方法，包括：

4、獲取目標(biāo)表格的html文檔，對html文檔進(jìn)行預(yù)處理以得到目標(biāo)表格的文本字符串；

5、提取所述文本字符串中的多種特征以構(gòu)建特征矩陣；所述多種特征包括文本特征、位置特征和標(biāo)簽特征；

6、將所述特征矩陣輸入經(jīng)過訓(xùn)練的單元格分類模型，輸出目標(biāo)表格的所有單元格類別判別結(jié)果；

7、基于單元格類別判別結(jié)果在目標(biāo)表格的所有單元格中進(jìn)行路徑查詢，從而得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息。

8、作為上述方案的進(jìn)一步改進(jìn)，在構(gòu)建特征矩陣之前，所述表格信息抽取方法還包括：

9、將文本字符串分割成若干個token，形成token序列；

10、使用預(yù)定義的詞匯表，將token序列中的每個token映射到一個唯一的身份標(biāo)識碼；

11、將token序列填充至最大固定長度；

12、為填充后的token序列創(chuàng)建注意力掩碼，以區(qū)分實際token和填充token。

13、作為上述方案的進(jìn)一步改進(jìn)，所述提取所述文本字符串中的多種特征包括：

14、利用bert模型對文本字符串進(jìn)行編碼，提取第一文本特征、第二文本特征和第三文本特征，所述文本特征作為卷積神經(jīng)網(wǎng)絡(luò)和全局指針網(wǎng)絡(luò)的輸入；其中，第一文本特征用于表示文本內(nèi)容的數(shù)值序列；第二文本特征用于指示token序列中的實際token；第三文本特征用于指示token序列中與行開始單元格和列開始單元格對應(yīng)的token；

15、提取目標(biāo)表格中的非填充單元格對應(yīng)的token在token序列中的索引位置，以形成位置特征；

16、提取每個單元格所屬的一個或多個標(biāo)簽，從而構(gòu)成標(biāo)簽特征；其中，標(biāo)簽分為指標(biāo)名稱標(biāo)簽或值標(biāo)簽，所述指標(biāo)名稱標(biāo)簽設(shè)有至少一級。

17、作為上述方案的進(jìn)一步改進(jìn)，所述單元格分類模型的訓(xùn)練方法包括：

18、初始化預(yù)訓(xùn)練的bert模型；

19、基于卷積神經(jīng)網(wǎng)絡(luò)和全局指針網(wǎng)絡(luò)進(jìn)行單元格類別判別；其中，卷積神經(jīng)網(wǎng)絡(luò)用于捕捉局部特征和模式；全局指針網(wǎng)絡(luò)用于確定表格中不同元素之間的全局關(guān)系；

20、選擇adam優(yōu)化器更新單元格分類模型的參數(shù)；

21、使用訓(xùn)練數(shù)據(jù)集對單元格分類模型進(jìn)行訓(xùn)練，并定期在驗證數(shù)據(jù)集上評估模型性能，以監(jiān)控過擬合；

22、根據(jù)單元格分類模型在驗證集上的表現(xiàn)調(diào)整超參數(shù)；所述超參數(shù)包括學(xué)習(xí)率、批大小和層數(shù)；

23、采用pgd的迭代式擾動添加對抗訓(xùn)練；

24、在獨立的測試數(shù)據(jù)集上利用預(yù)設(shè)指標(biāo)評估單元格分類模型的最終性能，評估合格后得到訓(xùn)練完成的單元格分類模型；所述預(yù)設(shè)指標(biāo)包括準(zhǔn)確率、召回率和f1分?jǐn)?shù)。

25、作為上述方案的進(jìn)一步改進(jìn)，每個單元格的類別判別結(jié)果包括四個參數(shù)，依次為：標(biāo)簽類別、單元格所在行、單元格所在列、標(biāo)簽置信度。

26、作為上述方案的進(jìn)一步改進(jìn)，所述基于單元格類別判別結(jié)果在目標(biāo)表格的所有單元格中進(jìn)行路徑查詢，從而得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息包括：

27、s41.定位到任意一個具有第一級指標(biāo)名稱標(biāo)簽的初始單元格，并向所述初始單元格的右側(cè)搜尋下一個單元格；

28、s42.若下一個單元格為具有值標(biāo)簽的單元格，則以所述初始單元格和具有值標(biāo)簽的單元格構(gòu)成一組，在橫向獲取該組數(shù)據(jù)信息；

29、s43.若下一個單元格為具有次級指標(biāo)名稱標(biāo)簽的單元格，則繼續(xù)向右尋找，并滿足單元格之間的指標(biāo)名稱標(biāo)簽級別遞減，直至出現(xiàn)具有值標(biāo)簽的單元格，以各個指標(biāo)名稱標(biāo)簽級別遞減的單元格和具有值標(biāo)簽的單元格構(gòu)成一組，在橫向獲取該組數(shù)據(jù)信息；

30、s44.若下一個單元格仍為具有第一級指標(biāo)名稱標(biāo)簽的單元格，則判定當(dāng)前以初始單元格向右的路徑查詢失敗，隨后執(zhí)行步驟s45；

31、s45.向所述初始單元格的下方搜尋下一個單元格，并參照步驟s42至s43的方式，判斷沿豎向的單元格中是否能構(gòu)成一組，是則在豎向獲取該組數(shù)據(jù)信息；

32、s46.參照步驟s41～s45的方式，遍歷目標(biāo)表格中所有具有第一級指標(biāo)名稱標(biāo)簽的單元格，得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息。

33、作為上述方案的進(jìn)一步改進(jìn)，所述對html文檔進(jìn)行預(yù)處理以得到目標(biāo)表格的文本字符串包括：

34、剔除html文檔中的亂碼，對標(biāo)點符號進(jìn)行統(tǒng)一轉(zhuǎn)換；

35、使用正則表達(dá)式的方法得到完整目標(biāo)表格的文本字符串；

36、剔除html文檔中的非必要標(biāo)簽；

37、對目標(biāo)表格中的空白單元格進(jìn)行填充，形成填充單元格和非填充單元格。

38、本發(fā)明還公開一種針對標(biāo)的物屬性詳情表的表格信息抽取系統(tǒng)，包括：數(shù)據(jù)采集模塊和數(shù)據(jù)處理模塊。

39、數(shù)據(jù)采集模塊用于獲取目標(biāo)表格的html文檔，對html文檔進(jìn)行預(yù)處理以得到目標(biāo)表格的文本字符串。

40、數(shù)據(jù)處理模塊用于提取所述文本字符串中的多種特征以構(gòu)建特征矩陣；所述多種特征包括文本特征、位置特征和標(biāo)簽特征；所述數(shù)據(jù)處理模塊還用于將所述特征矩陣輸入經(jīng)過訓(xùn)練的單元格分類模型，輸出目標(biāo)表格的所有單元格類別判別結(jié)果；所述數(shù)據(jù)處理模塊還用于基于單元格類別判別結(jié)果在目標(biāo)表格的所有單元格中進(jìn)行路徑查詢，從而得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息。

41、本發(fā)明還公開一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述程序被處理器執(zhí)行時，實現(xiàn)如上所述的針對標(biāo)的物屬性詳情表的表格信息抽取方法的步驟。

42、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

43、1、本發(fā)明以模型+路徑查詢的信息抽取方式，信息的準(zhǔn)確率優(yōu)于純模型抽取。通過路徑查詢，能夠理解表格的邏輯結(jié)構(gòu)，例如當(dāng)一個指標(biāo)名稱下面有多個子指標(biāo)時，路徑查詢能夠按照層級順序抽取完整的數(shù)據(jù)組。這種方法提高了信息抽取的準(zhǔn)確性和完整性，能夠處理具有復(fù)雜結(jié)構(gòu)的表格，尤其適用于拍賣領(lǐng)域的表格數(shù)據(jù)抽取任務(wù)，從而提高表格信息抽取的通用性。

44、2、本發(fā)明利用bert模型對表格的文本字符串進(jìn)行自動編碼和特征提取，減少了手工特征工程的工作量，通過對抗訓(xùn)練增強了模型的泛化能力和魯棒性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮衛(wèi)強,張友豪,侯忠斌,吳筱巧
技術(shù)所有人：合肥大智慧財匯數(shù)據(jù)科技有限公司
我是此專利的發(fā)明人

上一篇：一種雙工位六面鉆的制作方法
上一篇：一種防止感應(yīng)卡掉落的感應(yīng)識別設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)與流程

針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)與流程