两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)與流程

文檔序號:40647266發(fā)布日期:2025-01-10 18:53閱讀:1來源:國知局
針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)與流程

本發(fā)明涉及自然語言處理和信息抽取,具體是一種針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)。


背景技術(shù):

1、隨著電子商務(wù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,拍賣作為一種重要的商品交易方式日益普及,其交易數(shù)據(jù)在網(wǎng)絡(luò)平臺上大量涌現(xiàn)。在拍賣領(lǐng)域,拍賣標(biāo)的物屬性詳情表通常包含大量的商品信息、價格數(shù)據(jù)、競拍者信息等關(guān)鍵內(nèi)容。傳統(tǒng)的手工抽取方式不僅耗時耗力,而且難以保證數(shù)據(jù)的準(zhǔn)確性和完整性。因此,開發(fā)一種高效、準(zhǔn)確的拍賣表格信息抽取技術(shù),對于提高拍賣活動的效率和準(zhǔn)確性具有重要意義。

2、盡管信息抽取技術(shù)已經(jīng)取得了一定的進(jìn)展,但在拍賣表格信息抽取方面仍面臨一些問題和挑戰(zhàn)。例如,表格的格式和內(nèi)容往往因拍賣活動的不同而有所差異,這使得通用的信息抽取算法難以適應(yīng)所有的情況。對于不同平臺的標(biāo)的物屬性詳情表表格,專有名詞的命名較為不同,往往很難通過簡單統(tǒng)一的規(guī)律進(jìn)行區(qū)分,從而限制了表格信息抽取的精確性和通用性,因此亟待解決。


技術(shù)實現(xiàn)思路

1、為解決現(xiàn)有技術(shù)中存在表格信息抽取的精確性和通用性有待提高的技術(shù)問題,本發(fā)明提供了一種針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)。

2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:

3、本發(fā)明公開一種針對標(biāo)的物屬性詳情表的表格信息抽取方法,包括:

4、獲取目標(biāo)表格的html文檔,對html文檔進(jìn)行預(yù)處理以得到目標(biāo)表格的文本字符串;

5、提取所述文本字符串中的多種特征以構(gòu)建特征矩陣;所述多種特征包括文本特征、位置特征和標(biāo)簽特征;

6、將所述特征矩陣輸入經(jīng)過訓(xùn)練的單元格分類模型,輸出目標(biāo)表格的所有單元格類別判別結(jié)果;

7、基于單元格類別判別結(jié)果在目標(biāo)表格的所有單元格中進(jìn)行路徑查詢,從而得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息。

8、作為上述方案的進(jìn)一步改進(jìn),在構(gòu)建特征矩陣之前,所述表格信息抽取方法還包括:

9、將文本字符串分割成若干個token,形成token序列;

10、使用預(yù)定義的詞匯表,將token序列中的每個token映射到一個唯一的身份標(biāo)識碼;

11、將token序列填充至最大固定長度;

12、為填充后的token序列創(chuàng)建注意力掩碼,以區(qū)分實際token和填充token。

13、作為上述方案的進(jìn)一步改進(jìn),所述提取所述文本字符串中的多種特征包括:

14、利用bert模型對文本字符串進(jìn)行編碼,提取第一文本特征、第二文本特征和第三文本特征,所述文本特征作為卷積神經(jīng)網(wǎng)絡(luò)和全局指針網(wǎng)絡(luò)的輸入;其中,第一文本特征用于表示文本內(nèi)容的數(shù)值序列;第二文本特征用于指示token序列中的實際token;第三文本特征用于指示token序列中與行開始單元格和列開始單元格對應(yīng)的token;

15、提取目標(biāo)表格中的非填充單元格對應(yīng)的token在token序列中的索引位置,以形成位置特征;

16、提取每個單元格所屬的一個或多個標(biāo)簽,從而構(gòu)成標(biāo)簽特征;其中,標(biāo)簽分為指標(biāo)名稱標(biāo)簽或值標(biāo)簽,所述指標(biāo)名稱標(biāo)簽設(shè)有至少一級。

17、作為上述方案的進(jìn)一步改進(jìn),所述單元格分類模型的訓(xùn)練方法包括:

18、初始化預(yù)訓(xùn)練的bert模型;

19、基于卷積神經(jīng)網(wǎng)絡(luò)和全局指針網(wǎng)絡(luò)進(jìn)行單元格類別判別;其中,卷積神經(jīng)網(wǎng)絡(luò)用于捕捉局部特征和模式;全局指針網(wǎng)絡(luò)用于確定表格中不同元素之間的全局關(guān)系;

20、選擇adam優(yōu)化器更新單元格分類模型的參數(shù);

21、使用訓(xùn)練數(shù)據(jù)集對單元格分類模型進(jìn)行訓(xùn)練,并定期在驗證數(shù)據(jù)集上評估模型性能,以監(jiān)控過擬合;

22、根據(jù)單元格分類模型在驗證集上的表現(xiàn)調(diào)整超參數(shù);所述超參數(shù)包括學(xué)習(xí)率、批大小和層數(shù);

23、采用pgd的迭代式擾動添加對抗訓(xùn)練;

24、在獨立的測試數(shù)據(jù)集上利用預(yù)設(shè)指標(biāo)評估單元格分類模型的最終性能,評估合格后得到訓(xùn)練完成的單元格分類模型;所述預(yù)設(shè)指標(biāo)包括準(zhǔn)確率、召回率和f1分?jǐn)?shù)。

25、作為上述方案的進(jìn)一步改進(jìn),每個單元格的類別判別結(jié)果包括四個參數(shù),依次為:標(biāo)簽類別、單元格所在行、單元格所在列、標(biāo)簽置信度。

26、作為上述方案的進(jìn)一步改進(jìn),所述基于單元格類別判別結(jié)果在目標(biāo)表格的所有單元格中進(jìn)行路徑查詢,從而得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息包括:

27、s41.定位到任意一個具有第一級指標(biāo)名稱標(biāo)簽的初始單元格,并向所述初始單元格的右側(cè)搜尋下一個單元格;

28、s42.若下一個單元格為具有值標(biāo)簽的單元格,則以所述初始單元格和具有值標(biāo)簽的單元格構(gòu)成一組,在橫向獲取該組數(shù)據(jù)信息;

29、s43.若下一個單元格為具有次級指標(biāo)名稱標(biāo)簽的單元格,則繼續(xù)向右尋找,并滿足單元格之間的指標(biāo)名稱標(biāo)簽級別遞減,直至出現(xiàn)具有值標(biāo)簽的單元格,以各個指標(biāo)名稱標(biāo)簽級別遞減的單元格和具有值標(biāo)簽的單元格構(gòu)成一組,在橫向獲取該組數(shù)據(jù)信息;

30、s44.若下一個單元格仍為具有第一級指標(biāo)名稱標(biāo)簽的單元格,則判定當(dāng)前以初始單元格向右的路徑查詢失敗,隨后執(zhí)行步驟s45;

31、s45.向所述初始單元格的下方搜尋下一個單元格,并參照步驟s42至s43的方式,判斷沿豎向的單元格中是否能構(gòu)成一組,是則在豎向獲取該組數(shù)據(jù)信息;

32、s46.參照步驟s41~s45的方式,遍歷目標(biāo)表格中所有具有第一級指標(biāo)名稱標(biāo)簽的單元格,得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息。

33、作為上述方案的進(jìn)一步改進(jìn),所述對html文檔進(jìn)行預(yù)處理以得到目標(biāo)表格的文本字符串包括:

34、剔除html文檔中的亂碼,對標(biāo)點符號進(jìn)行統(tǒng)一轉(zhuǎn)換;

35、使用正則表達(dá)式的方法得到完整目標(biāo)表格的文本字符串;

36、剔除html文檔中的非必要標(biāo)簽;

37、對目標(biāo)表格中的空白單元格進(jìn)行填充,形成填充單元格和非填充單元格。

38、本發(fā)明還公開一種針對標(biāo)的物屬性詳情表的表格信息抽取系統(tǒng),包括:數(shù)據(jù)采集模塊和數(shù)據(jù)處理模塊。

39、數(shù)據(jù)采集模塊用于獲取目標(biāo)表格的html文檔,對html文檔進(jìn)行預(yù)處理以得到目標(biāo)表格的文本字符串。

40、數(shù)據(jù)處理模塊用于提取所述文本字符串中的多種特征以構(gòu)建特征矩陣;所述多種特征包括文本特征、位置特征和標(biāo)簽特征;所述數(shù)據(jù)處理模塊還用于將所述特征矩陣輸入經(jīng)過訓(xùn)練的單元格分類模型,輸出目標(biāo)表格的所有單元格類別判別結(jié)果;所述數(shù)據(jù)處理模塊還用于基于單元格類別判別結(jié)果在目標(biāo)表格的所有單元格中進(jìn)行路徑查詢,從而得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息。

41、本發(fā)明還公開一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時,實現(xiàn)如上所述的針對標(biāo)的物屬性詳情表的表格信息抽取方法的步驟。

42、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:

43、1、本發(fā)明以模型+路徑查詢的信息抽取方式,信息的準(zhǔn)確率優(yōu)于純模型抽取。通過路徑查詢,能夠理解表格的邏輯結(jié)構(gòu),例如當(dāng)一個指標(biāo)名稱下面有多個子指標(biāo)時,路徑查詢能夠按照層級順序抽取完整的數(shù)據(jù)組。這種方法提高了信息抽取的準(zhǔn)確性和完整性,能夠處理具有復(fù)雜結(jié)構(gòu)的表格,尤其適用于拍賣領(lǐng)域的表格數(shù)據(jù)抽取任務(wù),從而提高表格信息抽取的通用性。

44、2、本發(fā)明利用bert模型對表格的文本字符串進(jìn)行自動編碼和特征提取,減少了手工特征工程的工作量,通過對抗訓(xùn)練增強了模型的泛化能力和魯棒性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
扎鲁特旗| 紫阳县| 临邑县| 渝中区| 巴彦淖尔市| 湘潭县| 东源县| 阜阳市| 卓尼县| 黄山市| 大竹县| 荔浦县| 清苑县| 泗水县| 溧水县| 满洲里市| 格尔木市| 布尔津县| 紫云| 博湖县| 临漳县| 嘉善县| 永修县| 郸城县| 台中县| 陇川县| 突泉县| 博野县| 肥西县| 大名县| 玉田县| 昌江| 临沭县| 榆林市| 临澧县| 当雄县| 武强县| 郴州市| 同江市| 交城县| 天祝|