背景技術:
1、信息提取是創(chuàng)建可搜索知識庫或數(shù)據(jù)庫的重要方面。此外,信息提取和知識庫創(chuàng)建是理解文件中的數(shù)據(jù)并從其提取信息的能力。信息可以從諸如文檔、圖像、圖表、圖形等文件中提取。文件可以呈各種格式并且具有各種布局。因此,可能難以準確地提取數(shù)據(jù)文件。此外,大規(guī)模挖掘文件中可以自動處理的信息可能具有挑戰(zhàn)性。此外,常規(guī)系統(tǒng)無法以類似于人類如何閱讀文件的方式從文件提取數(shù)據(jù)。
技術實現(xiàn)思路
1、本文提供了用于從文件提取信息的系統(tǒng)、裝置、設備、方法、和/或計算機程序產(chǎn)品實施方案、和/或其組合和子組合。
2、給出的實施方案包括一種用于提取信息的方法。所述方法包括:接收包括信息和多個感興趣區(qū)域(roi)的第一格式的文件;以及將所述文件轉換成圖像。所述方法進一步包括使用第一模型生成第一輸出,所述第一輸出包括從所述圖像提取的第一信息集和所述圖像中的所述第一信息集的第一坐標集。所述方法包括使用第二模型生成第二輸出,所述第二輸出包括所述圖像中的對于所述多個roi中的每個roi的第二坐標集。所述方法包括使用第三模型生成第三輸出,所述第三輸出包括在所述圖像中提取的第二信息集和所述圖像中的所述第二信息集的第三坐標集。所述方法進一步包括合并所述第一輸出和所述第三輸出以生成所述文件中包括的信息和多個坐標。所述多個坐標包括所述圖像中的對于所述信息的坐標。所述方法包括生成包括多個區(qū)段的第二格式的輸出文件。所述多個區(qū)段中的每個區(qū)段對應于所述多個roi中的一個roi,并且所述多個區(qū)段中的每個區(qū)段基于所述第二坐標集中的roi對應于相應區(qū)段的坐標而被包括在所述輸出文件中。所述方法進一步包括向所述輸出文件中的所述多個區(qū)段中的每個區(qū)段填充所述信息的一部分,所述部分基于與所述信息的所述部分對應的坐標以及相應區(qū)段的坐標而被確定成與相應區(qū)段對應。所述第二格式允許所述輸出文件中的信息在其被呈現(xiàn)在圖形用戶界面(gui)上或被存儲在數(shù)據(jù)存儲設備中時是可搜索的。
3、在一些實施方案中,所述信息包括一個或多個詞,并且生成所述第一輸出或所述第三輸出包括圍繞所述圖像中的所述一個或多個詞中的每個詞生成邊界框。
4、在一些實施方案中,所述第三坐標集圍繞所述多個roi中的每個roi形成邊界框。
5、在一些實施方案中,所述第一輸出是使用光學字符識別(ocr)來生成的。
6、在一些實施方案中,所述第三輸出是使用神經(jīng)網(wǎng)絡來生成的。
7、在一些實施方案中,所述輸出文件被一個或多個機器學習模型使用以生成知識庫。
8、在一些實施方案中,所述信息在所述輸出文件中是可選擇的。
9、在一些實施方案中,所述方法進一步包括使所述輸出文件和所述圖像顯示。
10、在一些實施方案中,其中,所述信息包括詞和/或圖像。合并所述第一輸出與所述第三輸出以生成所述信息可以包括保留被包括在所述第一輸出中的圖像。所述方法可以進一步包括:識別所述第一輸出中的與所述第三輸出中的一個或多個詞共享相同坐標的一個或多個詞;以及確定所述第一輸出中的所述一個或多個詞與所述第三輸出中的所述一個或多個詞之間的相似度水平。
11、所述方法可以進一步包括將第一優(yōu)先級值分配給所述第一輸出并且將第二優(yōu)先級值分配給所述第三輸出。所述方法可以進一步包括基于所述第三輸出的所述第二優(yōu)先級值并基于所述相似度水平大于預定閾值來在所述多個詞中包括來自所述第三輸出的所述一個或多個詞。所述方法可以進一步包括基于所述第一輸出的所述第一優(yōu)先級值并基于所述相似度水平大于所述預定閾值來在所述多個詞中排除來自所述第一輸出的所述一個或多個詞。所述方法可以進一步包括識別所述第一輸出中的所述一個或多個詞的第一數(shù)據(jù)類型和所述第二輸出中的所述一個或多個詞的第二數(shù)據(jù)類型。所述方法可以進一步包括基于所述第一輸出中的所述一個或多個詞的第一數(shù)據(jù)類型來在所述多個詞中包括來自所述第一輸出的所述一個或多個詞。所述方法可以進一步包括基于所述第三輸出中的所述一個或多個詞的第二數(shù)據(jù)類型來在所述多個詞中排除來自所述第三輸出的所述一個或多個詞。
12、另一給出的實施方案是一種用于提取信息的系統(tǒng)。所述系統(tǒng)包括存儲器和耦接到所述存儲器的處理器,所述存儲器包括指令。所述處理器被配置成執(zhí)行所述指令,并且所述指令在被執(zhí)行時致使所述處理器:接收包括信息和多個感興趣區(qū)域(roi)的第一格式的文件;并且將所述文件轉換成圖像。所述指令在被執(zhí)行時致使所述處理器:使用第一模型生成第一輸出,所述第一輸出包括從所述圖像提取的第一信息集和所述圖像中的所述第一信息集的第一坐標集。所述指令在被執(zhí)行時進一步致使所述處理器:使用第二模型生成第二輸出,所述第二輸出包括所述圖像中的對于所述多個roi中的每個roi的第二坐標集。所述指令在被執(zhí)行時進一步致使所述處理器:使用第三模型生成第三輸出,所述第三輸出包括在所述圖像中提取的第二信息集和所述圖像中的所述第二信息集的第三坐標集。所述指令在被執(zhí)行時進一步致使所述處理器:合并所述第一輸出和所述第三輸出以生成所述文件中包括的信息和多個坐標。所述多個坐標包括所述圖像中的對于所述信息的坐標。所述指令在被執(zhí)行時進一步致使所述處理器:使用所述第二輸出生成包括多個區(qū)段的第二格式的輸出文件。所述多個區(qū)段中的每個區(qū)段對應于所述多個roi中的一個roi,并且所述多個區(qū)段中的每個區(qū)段基于所述第二坐標集中的roi對應于相應區(qū)段的坐標而被包括在所述輸出文件中。所述指令在被執(zhí)行時進一步致使所述處理器:向所述輸出文件中的所述多個區(qū)段中的每個區(qū)段填充所述信息的一部分,所述部分基于與所述信息的所述部分對應的坐標以及相應區(qū)段的坐標而被確定成與相應區(qū)段對應。所述第二格式允許所述輸出文件中的信息在其被呈現(xiàn)在圖形用戶界面(gui)上或被存儲在數(shù)據(jù)存儲設備中時是可搜索的。
13、在一些實施方案中,所述信息包括一個或多個詞,并且生成所述第一輸出或所述第三輸出包括圍繞所述圖像中的所述一個或多個詞中的每個詞生成邊界框。
14、在一些實施方案中,所述第三坐標集圍繞所述多個roi中的每個roi形成邊界框。
15、在一些實施方案中,所述第一輸出是使用光學字符識別(ocr)來生成的。
16、在一些實施方案中,所述第三輸出是使用神經(jīng)網(wǎng)絡來生成的。
17、在一些實施方案中,所述輸出文件被一個或多個機器學習模型使用以生成知識庫。
18、在一些實施方案中,所述信息在所述輸出文件中是可選擇的。
19、在一些實施方案中,所述指令在被執(zhí)行時進一步致使所述處理器使所述輸出文件和所述圖像顯示。
20、在一些實施方案中,其中,所述信息包括詞和/或圖像。合并所述第一輸出與所述第三輸出以生成所述信息可以包括保留被包括在所述第一輸出中的圖像。所述指令在被執(zhí)行時可以進一步致使所述處理器:識別所述第一輸出中的與所述第三輸出中的一個或多個詞共享相同坐標的一個或多個詞;并且確定所述第一輸出中的所述一個或多個詞與所述第三輸出中的所述一個或多個詞之間的相似度水平。
21、在一些實施方案中,所述指令在被執(zhí)行時可以進一步致使所述處理器:將第一優(yōu)先級值分配給所述第一輸出并且將第二優(yōu)先級值分配給所述第三輸出。所述指令在被執(zhí)行時可以進一步致使所述處理器:基于所述第三輸出的所述第二優(yōu)先級值并基于所述相似度水平大于預定閾值來在所述多個詞中包括來自所述第三輸出的所述一個或多個詞。所述指令在被執(zhí)行時可以進一步致使所述處理器:基于所述第一輸出的所述第一優(yōu)先級值并基于所述相似度水平大于所述預定閾值來在所述多個詞中排除來自所述第一輸出的所述一個或多個詞。所述指令在被執(zhí)行時可以進一步致使所述處理器:識別所述第一輸出中的所述一個或多個詞的第一數(shù)據(jù)類型和所述第二輸出中的所述一個或多個詞的第二數(shù)據(jù)類型。所述指令在被執(zhí)行時可以進一步致使所述處理器:基于所述第一輸出中的所述一個或多個詞的第一數(shù)據(jù)類型來在所述多個詞中包括來自所述第一輸出的所述一個或多個詞。所述指令在被執(zhí)行時可以進一步致使所述處理器:基于所述第三輸出中的所述一個或多個詞的第二數(shù)據(jù)類型來在所述多個詞中排除來自所述第三輸出的所述一個或多個詞。
22、另一給出的實施方案包括一種非暫時性機器可讀介質,其上存儲有指令,所述指令在被至少一個計算設備執(zhí)行時致使所述至少一個計算設備執(zhí)行操作,所述操作包括。所述操作包括:接收包括信息和多個感興趣區(qū)域(roi)的第一格式的文件;以及將所述文件轉換成圖像。所述操作進一步包括使用第一模型生成第一輸出,所述第一輸出包括從所述圖像提取的第一信息集和所述圖像中的所述第一信息集的第一坐標集。所述操作進一步包括使用第二模型生成第二輸出,所述第二輸出包括所述圖像中的對于所述多個roi中的每個roi的第二坐標集。所述操作進一步包括使用第三模型生成第三輸出,所述第三輸出包括在所述圖像中提取的第二信息集和所述圖像中的所述第二信息集的第三坐標集。所述操作進一步包括合并所述第一輸出和所述第三輸出以生成所述文件中包括的信息和多個坐標。所述多個坐標包括所述圖像中的對于所述信息的坐標。所述操作進一步包括使用所述第二輸出生成包括多個區(qū)段的第二格式的輸出文件。所述多個區(qū)段中的每個區(qū)段對應于所述多個roi中的一個roi,并且所述多個區(qū)段中的每個區(qū)段基于所述第二坐標集中的roi對應于相應區(qū)段的坐標而被包括在所述輸出文件中。所述操作進一步包括向所述輸出文件中的所述多個區(qū)段中的每個區(qū)段填充所述信息的一部分,所述部分基于與所述信息的所述部分對應的坐標以及相應區(qū)段的坐標而被確定成與相應區(qū)段對應。所述第二格式允許所述輸出文件中的信息在其被呈現(xiàn)在圖形用戶界面(gui)上或被存儲在數(shù)據(jù)存儲設備中時是可搜索的。
23、在一些實施方案中,所述信息包括一個或多個詞,并且生成所述第一輸出或所述第三輸出包括圍繞所述圖像中的所述一個或多個詞中的每個詞生成邊界框。
24、在一些實施方案中,所述第三坐標集圍繞所述多個roi中的每個roi形成邊界框。
25、在一些實施方案中,所述第一輸出是使用光學字符識別(ocr)來生成的。
26、在一些實施方案中,所述第三輸出是使用神經(jīng)網(wǎng)絡來生成的。
27、在一些實施方案中,所述輸出文件被一個或多個機器學習模型使用以生成知識庫。
28、在一些實施方案中,所述信息在所述輸出文件中是可選擇的。
29、在一些實施方案中,所述操作進一步包括使所述輸出文件顯示。
30、在一些實施方案中,所述信息包括詞和/或圖像。合并所述第一輸出與所述第三輸出以生成所述信息包括保留被包括在所述第一輸出中的圖像。所述操作可以進一步包括:識別所述第一輸出中的與所述第三輸出中的一個或多個詞共享相同坐標的一個或多個詞;以及確定所述第一輸出中的所述一個或多個詞與所述第三輸出中的所述一個或多個詞之間的相似度水平。
31、在一些實施方案中,所述操作可以進一步包括將第一優(yōu)先級值分配給所述第一輸出并且將第二優(yōu)先級值分配給所述第三輸出。所述操作可以進一步包括基于所述第三輸出的所述第二優(yōu)先級值并基于所述相似度水平大于預定閾值來在所述多個詞中包括來自所述第三輸出的所述一個或多個詞。所述操作可以進一步包括基于所述第一輸出的所述第一優(yōu)先級值并基于所述相似度水平大于所述預定閾值來在所述多個詞中排除來自所述第一輸出的所述一個或多個詞。所述操作可以進一步包括識別所述第一輸出中的所述一個或多個詞的第一數(shù)據(jù)類型和所述第二輸出中的所述一個或多個詞的第二數(shù)據(jù)類型。所述操作可以進一步包括基于所述第一輸出中的所述一個或多個詞的第一數(shù)據(jù)類型來在所述多個詞中包括來自所述第一輸出的所述一個或多個詞。所述操作可以進一步包括基于所述第三輸出中的所述一個或多個詞的第二數(shù)據(jù)類型來在所述多個詞中排除來自所述第三輸出的所述一個或多個詞。