本發(fā)明涉及自然語言處理和信息抽取,具體是一種針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)。
背景技術(shù):
1、隨著電子商務(wù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,拍賣作為一種重要的商品交易方式日益普及,其交易數(shù)據(jù)在網(wǎng)絡(luò)平臺上大量涌現(xiàn)。在拍賣領(lǐng)域,拍賣標(biāo)的物屬性詳情表通常包含大量的商品信息、價格數(shù)據(jù)、競拍者信息等關(guān)鍵內(nèi)容。傳統(tǒng)的手工抽取方式不僅耗時耗力,而且難以保證數(shù)據(jù)的準(zhǔn)確性和完整性。因此,開發(fā)一種高效、準(zhǔn)確的拍賣表格信息抽取技術(shù),對于提高拍賣活動的效率和準(zhǔn)確性具有重要意義。
2、盡管信息抽取技術(shù)已經(jīng)取得了一定的進(jìn)展,但在拍賣表格信息抽取方面仍面臨一些問題和挑戰(zhàn)。例如,表格的格式和內(nèi)容往往因拍賣活動的不同而有所差異,這使得通用的信息抽取算法難以適應(yīng)所有的情況。對于不同平臺的標(biāo)的物屬性詳情表表格,專有名詞的命名較為不同,往往很難通過簡單統(tǒng)一的規(guī)律進(jìn)行區(qū)分,從而限制了表格信息抽取的精確性和通用性,因此亟待解決。
技術(shù)實現(xiàn)思路
1、為解決現(xiàn)有技術(shù)中存在表格信息抽取的精確性和通用性有待提高的技術(shù)問題,本發(fā)明提供了一種針對標(biāo)的物屬性詳情表的表格信息抽取方法、系統(tǒng)及介質(zhì)。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、本發(fā)明公開一種針對標(biāo)的物屬性詳情表的表格信息抽取方法,包括:
4、獲取目標(biāo)表格的html文檔,對html文檔進(jìn)行預(yù)處理以得到目標(biāo)表格的文本字符串;
5、提取所述文本字符串中的多種特征以構(gòu)建特征矩陣;所述多種特征包括文本特征、位置特征和標(biāo)簽特征;
6、將所述特征矩陣輸入經(jīng)過訓(xùn)練的單元格分類模型,輸出目標(biāo)表格的所有單元格類別判別結(jié)果;
7、基于單元格類別判別結(jié)果在目標(biāo)表格的所有單元格中進(jìn)行路徑查詢,從而得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息。
8、作為上述方案的進(jìn)一步改進(jìn),在構(gòu)建特征矩陣之前,所述表格信息抽取方法還包括:
9、將文本字符串分割成若干個token,形成token序列;
10、使用預(yù)定義的詞匯表,將token序列中的每個token映射到一個唯一的身份標(biāo)識碼;
11、將token序列填充至最大固定長度;
12、為填充后的token序列創(chuàng)建注意力掩碼,以區(qū)分實際token和填充token。
13、作為上述方案的進(jìn)一步改進(jìn),所述提取所述文本字符串中的多種特征包括:
14、利用bert模型對文本字符串進(jìn)行編碼,提取第一文本特征、第二文本特征和第三文本特征,所述文本特征作為卷積神經(jīng)網(wǎng)絡(luò)和全局指針網(wǎng)絡(luò)的輸入;其中,第一文本特征用于表示文本內(nèi)容的數(shù)值序列;第二文本特征用于指示token序列中的實際token;第三文本特征用于指示token序列中與行開始單元格和列開始單元格對應(yīng)的token;
15、提取目標(biāo)表格中的非填充單元格對應(yīng)的token在token序列中的索引位置,以形成位置特征;
16、提取每個單元格所屬的一個或多個標(biāo)簽,從而構(gòu)成標(biāo)簽特征;其中,標(biāo)簽分為指標(biāo)名稱標(biāo)簽或值標(biāo)簽,所述指標(biāo)名稱標(biāo)簽設(shè)有至少一級。
17、作為上述方案的進(jìn)一步改進(jìn),所述單元格分類模型的訓(xùn)練方法包括:
18、初始化預(yù)訓(xùn)練的bert模型;
19、基于卷積神經(jīng)網(wǎng)絡(luò)和全局指針網(wǎng)絡(luò)進(jìn)行單元格類別判別;其中,卷積神經(jīng)網(wǎng)絡(luò)用于捕捉局部特征和模式;全局指針網(wǎng)絡(luò)用于確定表格中不同元素之間的全局關(guān)系;
20、選擇adam優(yōu)化器更新單元格分類模型的參數(shù);
21、使用訓(xùn)練數(shù)據(jù)集對單元格分類模型進(jìn)行訓(xùn)練,并定期在驗證數(shù)據(jù)集上評估模型性能,以監(jiān)控過擬合;
22、根據(jù)單元格分類模型在驗證集上的表現(xiàn)調(diào)整超參數(shù);所述超參數(shù)包括學(xué)習(xí)率、批大小和層數(shù);
23、采用pgd的迭代式擾動添加對抗訓(xùn)練;
24、在獨立的測試數(shù)據(jù)集上利用預(yù)設(shè)指標(biāo)評估單元格分類模型的最終性能,評估合格后得到訓(xùn)練完成的單元格分類模型;所述預(yù)設(shè)指標(biāo)包括準(zhǔn)確率、召回率和f1分?jǐn)?shù)。
25、作為上述方案的進(jìn)一步改進(jìn),每個單元格的類別判別結(jié)果包括四個參數(shù),依次為:標(biāo)簽類別、單元格所在行、單元格所在列、標(biāo)簽置信度。
26、作為上述方案的進(jìn)一步改進(jìn),所述基于單元格類別判別結(jié)果在目標(biāo)表格的所有單元格中進(jìn)行路徑查詢,從而得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息包括:
27、s41.定位到任意一個具有第一級指標(biāo)名稱標(biāo)簽的初始單元格,并向所述初始單元格的右側(cè)搜尋下一個單元格;
28、s42.若下一個單元格為具有值標(biāo)簽的單元格,則以所述初始單元格和具有值標(biāo)簽的單元格構(gòu)成一組,在橫向獲取該組數(shù)據(jù)信息;
29、s43.若下一個單元格為具有次級指標(biāo)名稱標(biāo)簽的單元格,則繼續(xù)向右尋找,并滿足單元格之間的指標(biāo)名稱標(biāo)簽級別遞減,直至出現(xiàn)具有值標(biāo)簽的單元格,以各個指標(biāo)名稱標(biāo)簽級別遞減的單元格和具有值標(biāo)簽的單元格構(gòu)成一組,在橫向獲取該組數(shù)據(jù)信息;
30、s44.若下一個單元格仍為具有第一級指標(biāo)名稱標(biāo)簽的單元格,則判定當(dāng)前以初始單元格向右的路徑查詢失敗,隨后執(zhí)行步驟s45;
31、s45.向所述初始單元格的下方搜尋下一個單元格,并參照步驟s42至s43的方式,判斷沿豎向的單元格中是否能構(gòu)成一組,是則在豎向獲取該組數(shù)據(jù)信息;
32、s46.參照步驟s41~s45的方式,遍歷目標(biāo)表格中所有具有第一級指標(biāo)名稱標(biāo)簽的單元格,得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息。
33、作為上述方案的進(jìn)一步改進(jìn),所述對html文檔進(jìn)行預(yù)處理以得到目標(biāo)表格的文本字符串包括:
34、剔除html文檔中的亂碼,對標(biāo)點符號進(jìn)行統(tǒng)一轉(zhuǎn)換;
35、使用正則表達(dá)式的方法得到完整目標(biāo)表格的文本字符串;
36、剔除html文檔中的非必要標(biāo)簽;
37、對目標(biāo)表格中的空白單元格進(jìn)行填充,形成填充單元格和非填充單元格。
38、本發(fā)明還公開一種針對標(biāo)的物屬性詳情表的表格信息抽取系統(tǒng),包括:數(shù)據(jù)采集模塊和數(shù)據(jù)處理模塊。
39、數(shù)據(jù)采集模塊用于獲取目標(biāo)表格的html文檔,對html文檔進(jìn)行預(yù)處理以得到目標(biāo)表格的文本字符串。
40、數(shù)據(jù)處理模塊用于提取所述文本字符串中的多種特征以構(gòu)建特征矩陣;所述多種特征包括文本特征、位置特征和標(biāo)簽特征;所述數(shù)據(jù)處理模塊還用于將所述特征矩陣輸入經(jīng)過訓(xùn)練的單元格分類模型,輸出目標(biāo)表格的所有單元格類別判別結(jié)果;所述數(shù)據(jù)處理模塊還用于基于單元格類別判別結(jié)果在目標(biāo)表格的所有單元格中進(jìn)行路徑查詢,從而得到目標(biāo)表格中所有能形成組的數(shù)據(jù)信息。
41、本發(fā)明還公開一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時,實現(xiàn)如上所述的針對標(biāo)的物屬性詳情表的表格信息抽取方法的步驟。
42、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
43、1、本發(fā)明以模型+路徑查詢的信息抽取方式,信息的準(zhǔn)確率優(yōu)于純模型抽取。通過路徑查詢,能夠理解表格的邏輯結(jié)構(gòu),例如當(dāng)一個指標(biāo)名稱下面有多個子指標(biāo)時,路徑查詢能夠按照層級順序抽取完整的數(shù)據(jù)組。這種方法提高了信息抽取的準(zhǔn)確性和完整性,能夠處理具有復(fù)雜結(jié)構(gòu)的表格,尤其適用于拍賣領(lǐng)域的表格數(shù)據(jù)抽取任務(wù),從而提高表格信息抽取的通用性。
44、2、本發(fā)明利用bert模型對表格的文本字符串進(jìn)行自動編碼和特征提取,減少了手工特征工程的工作量,通過對抗訓(xùn)練增強了模型的泛化能力和魯棒性。