基于pdf文件的表格提取方法和裝置的制造方法

文檔序號(hào)：10624752閱讀：217來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于pdf文件的表格提取方法和裝置的制造方法
【專利摘要】本發(fā)明提供一種基于PDF文件的表格提取方法和裝置，通過解析獲得PDF文件中的各文字的文字信息和各線條的線條信息之后，根據(jù)線條位置信息對從該P(yáng)DF文件的同一頁中所提取的橫向線條進(jìn)行排序，并判斷兩相鄰橫向線條是否處于該頁的同一表格中，根據(jù)線條信息對處于該頁的同一表格中的各橫向線條進(jìn)行表格繪制，以及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充，最后在繪制的表格中，根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。由于考慮了表格的橫向線條和縱向線條的信息，從而提高了從PDF文件中提取表格的準(zhǔn)確度。
【專利說明】
基于PDF文件的表格提取方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及信息技術(shù)，尤其設(shè)及一種基于PDF文件的表格提取方法和裝置。
【背景技術(shù)】
[0002] 可移植文檔格式（Port油le Document化rmatiPD巧文件由于其跨平臺(tái)特性，已廣泛運(yùn)用于當(dāng)前主流的操作系統(tǒng)中，越來越多的電子書籍、產(chǎn)品使用說明書、公司公告財(cái)報(bào)、網(wǎng)絡(luò)資料、科學(xué)文獻(xiàn)、電子郵件等都開始使用PDF文件形式，并已經(jīng)成為電子文檔發(fā)行和數(shù) 字化信息傳播的理想文檔形式。
[0003] 由于PDF文件自身的格式并未對表格進(jìn)行結(jié)構(gòu)化，因此表格線條的檢測W及表格的還原都有不小的挑戰(zhàn)。目前，可采用基于文字流的表格識(shí)別算法，對PDF文件中的表格進(jìn) 行提取。但是，在實(shí)際應(yīng)用中，往往發(fā)現(xiàn)提取表格的準(zhǔn)確度不高。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明提供一種基于PDF文件的表格提取方法和裝置，用于提高從PDF文件中提取表格的準(zhǔn)確度。陽0化]本發(fā)明的一個(gè)方面是提供一種基于PDF文件的表格提取方法，包括：
[0006] 對PDF文件進(jìn)行解析，獲得所述PDF文件中的各文字的文字信息和各線條的線條信息；所述文字信息包括文字字符信息和文字位置信息；所述線條信息包括線條位置信息、線條寬度和線條長度；所述線條位置信息包括線條橫軸位置和線條縱軸位置；
[0007] 根據(jù)所述線條信息中的線條寬度和線條長度，從各線條中確定橫向線條和縱向線條；
[000引根據(jù)所述線條位置信息，對從所述PDF文件的同一頁中所提取的橫向線條進(jìn)行排序；
[0009] 針對在所述頁中排序后獲得的兩相鄰橫向線條，在從所述頁中所提取的各縱向線條中，確定滿足線條位置信息中線條縱軸位置與所述兩相鄰橫向線條中最小線條縱軸位置相同的目標(biāo)縱向線條；
[0010] 根據(jù)所述兩相鄰橫向線條的線條縱軸位置之差和所述目標(biāo)縱向線條的線條縱軸位置，判斷所述兩相鄰橫向線條是否處于所述頁的同一表格中；
[0011] 根據(jù)線條信息對處于所述頁的所述表格中的各橫向線條進(jìn)行表格繪制，W及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充；
[0012] 在所述繪制的表格中，根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。
[0013] 本發(fā)明的另一個(gè)方面是提供一種基于PDF文件的表格提取裝置，包括：
[0014] 解析模塊，用于對PDF文件進(jìn)行解析，獲得所述PDF文件中的各文字的文字信息和各線條的線條信息；所述文字信息包括文字字符信息和文字位置信息；所述線條信息包括線條位置信息、線條寬度和線條長度；所述線條位置信息包括線條橫軸位置和線條縱軸位置；
[0015] 確定模塊，用于根據(jù)所述線條信息中的線條寬度和線條長度，從各線條中確定橫向線條和縱向線條；
[0016] 繪制模塊，用于根據(jù)所述線條位置信息，對從所述PDF文件的同一頁中所提取的橫向線條進(jìn)行排序；針對在所述頁中排序后獲得的兩相鄰橫向線條，在從所述頁中所提取的各縱向線條中，確定滿足線條位置信息中線條縱軸位置與所述兩相鄰橫向線條中最小線條縱軸位置相同的目標(biāo)縱向線條；根據(jù)所述兩相鄰橫向線條的線條縱軸位置之差和所述目標(biāo)縱向線條的線條縱軸位置，判斷所述兩相鄰橫向線條是否處于所述頁的同一表格中；根據(jù)線條信息對處于所述頁的所述表格中的各橫向線條進(jìn)行表格繪制，W及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充；在所述繪制的表格中，根據(jù) 各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。
[0017] 本發(fā)明提供的基于PDF文件的表格提取方法和裝置，通過解析獲得PDF文件中的各文字的文字信息和各線條的線條信息之后，根據(jù)線條位置信息對從該P(yáng)DF文件的同一頁中所提取的橫向線條進(jìn)行排序，并判斷兩相鄰橫向線條是否處于該頁的同一表格中，根據(jù)線條信息對處于該頁的同一表格中的各橫向線條進(jìn)行表格繪制，W及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充，最后在繪制的表格中，根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。由于考慮了表格的橫向線條和縱向線條的信息，從而提高了從PDF文件中提取表格的準(zhǔn)確度。
【附圖說明】
[0018] 圖1為本發(fā)明實(shí)施例提供的一種基于PDF文件的表格提取方法的流程示意圖；
[0019] 圖2為包含兩張表格的PDF頁的示意圖；
[0020] 圖3為本發(fā)明實(shí)施例提供的另一種基于PDF文件的表格提取方法的流程示意圖；
[0021] 圖4為本發(fā)明實(shí)施例提供的另一種基于PDF文件的表格提取方法的流程示意圖；陽022] 圖5A為表頭簡化前的表頭示意圖；
[0023] 圖5B為表頭簡化后的表頭示意圖；
[0024] 圖5C為簡化前的表頭所轉(zhuǎn)化的樹形結(jié)構(gòu)；
[0025] 圖6為本發(fā)明實(shí)施例提供的一種基于PDF文件的表格提取裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[00%] 圖1為本發(fā)明實(shí)施例提供的一種基于PDF文件的表格提取方法的流程示意圖，如圖1所示，包括：
[0027] 101、對PDF文件進(jìn)行解析，獲得PDF文件中的各文字的文字信息和各線條的線條信息。
[0028] 其中，文字信息包括文字字符信息和文字位置信息；所述線條信息包括線條位置信息、線條寬度和線條長度；所述線條位置信息包括線條橫軸位置和線條縱軸位置。
[0029] 具體的，利用PDFBox軟件對PDF文件進(jìn)行解析，獲得所述PDF文件中的文字信息；根據(jù)所述PDF文件中用于標(biāo)識(shí)線條結(jié)束的操作符，提取所述PDF文件中的線條信息。
[0030] 例如：在PDF盒子（PDFBox)軟件中，對于PDF文件內(nèi)的文字和線條都經(jīng)過了重新的處理和封裝。文字和線條在PDFBox軟件中都存儲(chǔ)在"CosStream"對象中。該對象繼承自 "CosDictionary"類。運(yùn)些對象均處于PDFBox軟件的"CosModel"層，即PDFBox軟件的最低層，該層負(fù)責(zé)完成對PDF文件基本結(jié)構(gòu)的封裝。PDFBox軟件利用"processSubStream"函數(shù)完成底層各個(gè)對象的個(gè)性處理。在函數(shù)內(nèi)，"PDFStreamParser"負(fù)責(zé)解析"CosStream"下對應(yīng)的各個(gè)對象，并利用"process化erator"函數(shù)完成不同類型操作符的個(gè)性化處理。由于 PDFBox軟件并未對線條類對象進(jìn)行處理，因此可通過修改該部分的代碼實(shí)現(xiàn)PDFBox軟件對線條類對象進(jìn)行處理。依據(jù)PDF文件中線條的特殊格式，通過識(shí)別操作符"q"，"Q"，"re" 等標(biāo)識(shí)線條結(jié)束的操作符對線條信息進(jìn)行提取。"argument"對象用于存儲(chǔ)線條的線條信息。當(dāng)碰到標(biāo)識(shí)符"re"則將"argument"中的線條信息封裝存儲(chǔ)。當(dāng)碰到"cos化ject"結(jié) 構(gòu)表明是位置信息應(yīng)該保存到"argument"的可變數(shù)組中。當(dāng)碰到"PDK)perato;r"結(jié)構(gòu)時(shí) 檢查是否是"re",如果是則提取前一個(gè)"argument"信息，即為該線條的線條位置信息，反之則舍棄不處理。最終線條信息成"Line In化rmation"格式，包含線條橫軸位置（xpos)，線條縱軸位置（ypos)，線條寬度（width)，線條長度化ei曲t)。因此每條線段的特征向量為 <xpos, ypos, wi化h, hei曲t〉。由于PDFBox軟件已經(jīng)對文字的信息進(jìn)行了較好的封裝，可針對表格還原的需求對該部分的文字信息進(jìn)行了進(jìn)一步的過濾和再封裝。只保留對表格還原有效的特征量，即文字的字符信息和文字的位置信息。
[0031] 102、根據(jù)線條信息中的線條寬度和線條長度，從各線條中確定橫向線條和縱向線條。
[0032] 具體的，若所述線條信息中的線條寬度大于線條長度，則確定所述線條為橫向線條；若所述線條信息中的線條寬度不大于線條長度，則確定所述線條為縱向線條。
[0033] 103、根據(jù)所述線條位置信息，對從所述PDF文件的同一頁中所提取的橫向線條進(jìn)行排序。
[0034] 104、針對在所述頁中排序后獲得的兩相鄰橫向線條，在從所述頁中所提取的各縱向線條中，確定滿足線條位置信息中線條縱軸位置與所述兩相鄰橫向線條中最小線條縱軸位置相同的目標(biāo)縱向線條。
[0035] 105、根據(jù)所述兩相鄰橫向線條的線條縱軸位置之差和所述目標(biāo)縱向線條的線條縱軸位置，判斷所述兩相鄰橫向線條是否處于所述頁的同一表格中。
[0036] 具體的，計(jì)算所述兩相鄰橫向線條的線條縱軸位置之差（yl-yO);其中，yl為所述兩相鄰橫向線條中最大線條縱軸位置，yO所述兩相鄰橫向線條中最小線條縱軸位置；根據(jù) 公式|yl-y〇-h〇|進(jìn)行計(jì)算，若滿足|yl-yO-h〇| <Δ1ι，則確定所述兩相鄰橫向線條處于所述頁的同一表格中，其中，hO為所述目標(biāo)縱向線條的線條縱軸位置，Δ h為預(yù)設(shè)偏差闊值。
[0037] 例如：單頁P(yáng)DF可能包含多張表格。要利用橫縱線條還原基本的表格形態(tài)需要特別注意線條間的交錯(cuò)情況，避免將不同表格的線條錯(cuò)判為同一表格。因此在設(shè)計(jì)表格還原算法時(shí)，優(yōu)先處理縱向的橫線信息。圖2為包含兩張表格的PDF頁的示意圖，如圖2所示，共有表格1和表格2,虛線條1，2和3中，虛線條1和虛線條3屬于表格1而虛線條2屬于表格2。為了防止線條錯(cuò)位，本算法優(yōu)先處理橫向線條。如圖2所示，在表格1中yO和yl 表示橫向線條的線條縱軸位置。hO是對應(yīng)的目標(biāo)縱向線條的線條長度。在判斷yO和yl 對應(yīng)的橫向線條是否屬于同一表格的充分條件是lyl-yO-hOl <Ah。其中Ah是預(yù)設(shè)偏差闊值。對于y3和y4對應(yīng)的橫向線條，由于不存在相應(yīng)的目標(biāo)縱向線條使得|yl-y〇-hO <Δ h成立，因此y3和y4對應(yīng)的橫向線條應(yīng)該屬于不同的表格，即y3和y4對應(yīng)的橫向線條是兩個(gè)表格的分離線條。
[0038] 具體上述過程可通過如下算法偽代碼實(shí)現(xiàn)：
[0039]
[0041] 106、根據(jù)線條信息對處于所述頁的所述表格中的各橫向線條進(jìn)行表格繪制，W及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充。
[0042] 107、在所述繪制的表格中，根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。
[0043] 具體的，根據(jù)文字的文字位置信息，確定文字所在的單元格；對處于同一單元格中的文字，根據(jù)文字位置信息中的文字縱軸位置進(jìn)行排序，獲得文字在二維數(shù)組中的縱向順序；若至少兩文字根據(jù)文字縱軸位置進(jìn)行排序的順序相同，則根據(jù)至少兩文字的文字橫軸位置進(jìn)行排序，獲得文字在二維數(shù)組中的橫向順序；W二維數(shù)組形式，將文字對應(yīng)的文字字符信息填充在所述單元格中。
[0044] 文字信息包括文字字符信息（character)和文字位置信息，文字位置信息包含文字橫軸位置（xpos)和文字縱軸位置（ypos)。單個(gè)文字的文字信息用特征向量〈character, xpos, ypos〉表示。通過比較文字位置信息<xpos, ypos〉W及橫向線條的線條位置信息"PageT油lelpos"和縱向線條的線條位置信息"PageT油le化OS"判定單個(gè)文字所處單元格。對于同一單元格中的文字，仍然需要根據(jù)文字位置信息 <邱〇3, ypos〉加 W排序。為了便于在單元格內(nèi)排序，此處定義二維數(shù)組的類型為"TreeSet"類型，由于 "TreeSet"類型元素是有序的，因此只需要將文字填充到對應(yīng)單元格內(nèi)，單元格內(nèi)的文字將根據(jù)"TreeSet"制定的排序規(guī)則自動(dòng)實(shí)現(xiàn)排序。
[0045] 具體上述過程可通過如下算法偽代碼實(shí)現(xiàn)：
[0046]
[0047] 本實(shí)施例中，通過對PDF文件進(jìn)行解析，獲得PDF文件中的各文字的文字信息和各線條的線條信息之后，根據(jù)線條信息中的線條寬度和線條長度，從各線條中確定橫向線條和縱向線條，進(jìn)而根據(jù)線條位置信息，對從該P(yáng)DF文件的同一頁中所提取的橫向線條進(jìn)行排序，并針對在該頁中排序后獲得的兩相鄰橫向線條，在從該頁中所提取的各縱向線條中，確定滿足線條位置信息中線條縱軸位置與所述兩相鄰橫向線條中最小線條縱軸位置相同的目標(biāo)縱向線條，根據(jù)兩相鄰橫向線條的線條縱軸位置之差和目標(biāo)縱向線條的線條縱軸位置，判斷兩相鄰橫向線條是否處于該頁的同一表格中，根據(jù)線條信息對處于該頁的同一表格中的各橫向線條進(jìn)行表格繪制，W及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充，最后在繪制的表格中，根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。由于考慮了表格的橫向線條和縱向線條的信息，從而提高了從PDF文件中提取表格的準(zhǔn)確度。
[0048] 圖3為本發(fā)明實(shí)施例提供的另一種基于PDF文件的表格提取方法的流程示意圖，如圖3所示，在如圖1所示的基于PDF文件的表格提取方法中步驟107之后，還包括：
[0049] 201、若處于相鄰頁的所填充的表格滿足表格合并規(guī)則，則確定所述處于相鄰頁的填充的表格為處于相鄰頁的同一表格。
[0050] 其中，表格合并規(guī)則包括：所述處于相鄰頁的所填充的表格的列數(shù)相同，且在前一頁所填充的表格中橫向線條的最大縱軸位置大于預(yù)設(shè)最大值，且在后一頁所填充的表格中橫向線條的最小縱軸位置小于預(yù)設(shè)最小值。
[0051] 具體的，由于PDF單頁大小是固定的，因此存在單個(gè)表格分布在不同PDF頁面的復(fù) 雜情況，因此需要對各頁進(jìn)行判斷，對于可能的跨頁表格進(jìn)行合并。處理思路如下：獲取指定頁面的所有表格；利用is化eForm函數(shù)判斷兩張表是否是一張，false則結(jié)束循環(huán)，True 則合并兩張表格，is化eForm函數(shù)用于判定兩張表是否是同一張表，判斷依據(jù)包括兩張表的列數(shù)、第一張表的最后線條的絕對位置、第二張表的第一條線條的絕對位置。
[0052] 具體上述過程可通過如下算法偽代碼實(shí)現(xiàn)：
[0053] 1 Public ArrayList<Form> MergeForras(int page){ 2 ArrayList<Forrn> curForm二GetFormsByPage (pa徑e): 3 If (curForm 二=null I I curFom. size 0 二=0) 4： rolurn curForm; 邑 int ·; = 1: 6 //合并巧能的表格 7 while(true) { 沒 ArrayList<Form> tera=GetFormsByPa呂e (page+i)
[0054]
陽化引
[0056] 202、對滿足表格合并規(guī)則的所述處于相鄰頁的所填充的表格進(jìn)行合并。
[0057] 本實(shí)施例中，通過對PDF文件進(jìn)行解析，獲得PDF文件中的各文字的文字信息和各線條的線條信息之后，根據(jù)線條信息中的線條寬度和線條長度，從各線條中確定橫向線條和縱向線條，進(jìn)而根據(jù)線條位置信息，對從該P(yáng)DF文件的同一頁中所提取的橫向線條進(jìn)行排序，并針對在該頁中排序后獲得的兩相鄰橫向線條，在從該頁中所提取的各縱向線條中，確定滿足線條位置信息中線條縱軸位置與所述兩相鄰橫向線條中最小線條縱軸位置相同的目標(biāo)縱向線條，根據(jù)兩相鄰橫向線條的線條縱軸位置之差和目標(biāo)縱向線條的線條縱軸位置，判斷兩相鄰橫向線條是否處于該頁的同一表格中，根據(jù)線條信息對處于該頁的同一表格中的各橫向線條進(jìn)行表格繪制，W及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充，最后在繪制的表格中，根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。由于考慮了表格的橫向線條和縱向線條的信息，從而提高了從PDF文件中提取表格的準(zhǔn)確度。
[0058] 圖4為本發(fā)明實(shí)施例提供的另一種基于PDF文件的表格提取方法的流程示意圖，如圖4所示，在圖1所示實(shí)施例的基礎(chǔ)上，本實(shí)施例中步驟107之后還可進(jìn)一步包括：
[0059] 401、將所填充的表格中的表頭部分轉(zhuǎn)化為樹形結(jié)構(gòu)。
[0060] 其中，所述樹形結(jié)構(gòu)中的各節(jié)點(diǎn)分別與所述表頭部分中各單元格所填充的文字字符信息對應(yīng)，子節(jié)點(diǎn)對應(yīng)的文字字符信息為所述子節(jié)點(diǎn)的父節(jié)點(diǎn)對應(yīng)的文字字符信息的子類。
[0061] 需要說明的是，子類是指在語義上，存在父節(jié)點(diǎn)對應(yīng)的文字字符信息包括子節(jié)點(diǎn) 對應(yīng)的文字字符信息的關(guān)系，即父節(jié)點(diǎn)和子節(jié)點(diǎn)對應(yīng)的文字字符信息所表示的含義為上下位關(guān)系。
[0062] 402、采用遍歷所述樹形結(jié)構(gòu)的每一分支的方式對所述表頭部分進(jìn)行簡化。
[0063] 其中，簡化后的表頭部分中單元格個(gè)數(shù)等于所述樹形結(jié)構(gòu)中分支的個(gè)數(shù)，所述簡化后的表頭部分中每一個(gè)單元格中所填充的文字字符信息包括對應(yīng)的一分支中從根節(jié)點(diǎn) 至葉子節(jié)點(diǎn)所對應(yīng)的各文字字符信息。
[0064]具體的，表格的表頭由于需要表示每個(gè)單元格的具體含義有時(shí)候會(huì)比較復(fù)雜，由于圖形結(jié)構(gòu)的表在實(shí)際應(yīng)用中并不常見，因此實(shí)施例只針對樹形結(jié)構(gòu)的表進(jìn)行了處理。處理思路是先根據(jù)將表格轉(zhuǎn)換為一個(gè)樹形結(jié)構(gòu)，然后從樹的根節(jié)點(diǎn)開始深度遍歷樹直到葉子節(jié)點(diǎn)，所生成的路徑即為簡單表格的一個(gè)單元格。圖5A為表頭簡化前的表頭示意圖，圖5B 為表頭簡化后的表頭示意圖，圖5C為簡化前的表頭所轉(zhuǎn)化的樹形結(jié)構(gòu)，如圖5A至圖5C所示，數(shù)字1至6代表表頭單元格中所填充的字符。
[00化]進(jìn)一步，在步驟107之后還可W對表格的展開方式進(jìn)行識(shí)別。
[0066] 具體的，為了識(shí)別表格的展開特征，即表格結(jié)構(gòu)，首先考慮表格的物理特征，表1 為表格物理特征與表格結(jié)構(gòu)關(guān)系表，如表1所不：
[0067]
[0068] 表1表格物理特征與表格結(jié)構(gòu)關(guān)系表陽069] 通過判定跨行或跨列的情況可W對表格的基本結(jié)構(gòu)進(jìn)行初步的判定，對于情況1 已經(jīng)可W確定其類型，則無需進(jìn)行后續(xù)的判定。對于情況2和3已經(jīng)可W確定其橫向或縱向的特征，需要進(jìn)一步確定其縱向或橫向特征。情況4的表格屬于簡單表，則需要從內(nèi)容上對其橫向和縱向特征進(jìn)行判定。具體可進(jìn)一步根據(jù)表格內(nèi)容特征確定表格結(jié)構(gòu)，表2為表格內(nèi)容特征與表格結(jié)構(gòu)關(guān)系表，如表2所示：
[0070]
[0071] 表2表格內(nèi)容特征與表格結(jié)構(gòu)關(guān)系表
[0072] 采用打分判決思想，從內(nèi)容和行列相似度上分別進(jìn)行打分，最后總分的計(jì)算按如下公式：陽07；3] Tra?= P*Araw+a-e)*Sra?
[0074] Tc"i= 0*Ac"i+(l-e)^c〇i
[0075] 其中A表示基于文字內(nèi)容的得分，S表示行列相似度上的得分，Τ表示總得分情況。 raw和col表示打分的兩個(gè)維度，β是可調(diào)節(jié)的權(quán)重值。Traw表示在raw維度上的總得分，T。?？凳驹赾ol維度上的總得分，A raw表示在raw維度上基于文字內(nèi)容的得分，A。?？凳?在col維度上基于文字內(nèi)容的得分，Sf。。表示在raw維度上行列相似度上的得分，8。。1表示在col維度上行列相似度上的得分。當(dāng)待分析的表格屬于某個(gè)特定領(lǐng)域時(shí)，則提高A的權(quán) 重有助于提高結(jié)果的準(zhǔn)確性，反之則將表格當(dāng)作普通情況處理，加大文字長度的影響權(quán)重。表格的最終類型與表格在raw和col兩個(gè)維度上總得分最高的維度保持一致。如果表格在 raw和col兩個(gè)維度上總得分情況差異不大，則歸為混合展開型表格。下面分別介紹A和S 的計(jì)算方法。
[0076] 基于單元格內(nèi)容的打分規(guī)則，計(jì)算獲得A :此規(guī)則主要適用于表格所屬領(lǐng)域已知的情況，對于該類表格，其屬性值往往是固定。因此可W通過首行，首列中特定屬性值的占比來判定表格的類型。例如：財(cái)務(wù)Ξ大報(bào)表中固有屬性值往往包括：流動(dòng)資產(chǎn)、非流動(dòng)資產(chǎn)、資產(chǎn)總計(jì)、應(yīng)付票據(jù)、流動(dòng)負(fù)債和所有者權(quán)益等關(guān)鍵屬性。因此可W根據(jù)該類屬性詞建立屬性詞典。然后對表格首行和首列的內(nèi)容進(jìn)行分詞，統(tǒng)計(jì)關(guān)鍵屬性詞占比從而最終確定表格的展開類型。
[0077] 基于行列相似度的打分規(guī)則，計(jì)算獲得S:除了從單元格內(nèi)容進(jìn)行判定W外更普遍的方式是根據(jù)表格行列方向單元格內(nèi)文字的數(shù)量進(jìn)行判定。通常情況下橫向展開型表格各個(gè)列具有較強(qiáng)的相似度。而縱向展開型表格各個(gè)行具有較強(qiáng)的相似度。根據(jù)本規(guī)律，可通過計(jì)算表格行列展開下表格均值和方差加 W判定。行列均值和方差的計(jì)算公式如下：
陽0間其中，6。。1(;〇表示列i中的平均單元格字?jǐn)?shù)。r表示除去首行的表格行數(shù)。Mj,康示第i列第j行的單元格內(nèi)的文字?jǐn)?shù)目。Efg"(i)表示行i中的平均單元格字?jǐn)?shù)。S表示除去首列的表格列數(shù)。Ml,i表示第i行第j列的單元格內(nèi)的文字?jǐn)?shù)目。8。。1(1)表示列i中的方差，S,g"a)表示行i中的方差，分別依據(jù)6。。1扣）和E,g"a)得到。
[0083] 可將本方法應(yīng)用到滬深兩市的財(cái)務(wù)報(bào)表上，并基于軟件系統(tǒng)對前述實(shí)施例中所提供的方法進(jìn)行實(shí)現(xiàn)，該軟件系統(tǒng)的設(shè)計(jì)框圖可W包含：文檔解析層、表格還原層和數(shù)據(jù)封裝層Ξ部分。最底層是文檔解析層，主要完成PDF文件中的文字和線條信息的提取和封裝；中間是表格還原層，該層是整個(gè)解析系統(tǒng)的核屯、層，用于實(shí)現(xiàn)了表格提取的核屯、算法，主要包括表格輪廓柵格化，復(fù)雜表頭的識(shí)別與轉(zhuǎn)換，表格內(nèi)容歸位等內(nèi)容。頂層是數(shù)據(jù)封裝層，用于對已提取的表格數(shù)據(jù)的進(jìn)一步封裝。
[0084] 文檔解析層：主要借助PDFBox完成基本的PDF文檔解析。通過修改PDFBox底層代碼完成對PDF字符流中文字流與線條流的識(shí)別，并將其封裝成上層能夠識(shí)別和使用的格式。
[00化]表格還原層：主要的PDF表格還原算法都在該層實(shí)現(xiàn)。表格輪廓還原算法主要通過對線條位置信息的排序和歸類完成。復(fù)雜表頭的識(shí)別和轉(zhuǎn)化通過將表頭轉(zhuǎn)化成樹形結(jié)構(gòu) 完成。轉(zhuǎn)化完成后整個(gè)表格被整理成二維數(shù)組的形式，再通過對比表格中的文字信息與表格的位置將文字歸位。最終完成從文字線條信息到二維數(shù)組的轉(zhuǎn)換。
[0086] 數(shù)據(jù)封裝層：有了中間層的數(shù)據(jù)處理，在數(shù)據(jù)封裝層可W將二維數(shù)組形式的表格數(shù)據(jù)封裝成各種需要的形式。本系統(tǒng)目前支持HTML、JS0N格式的封裝。HTML形式的表格能夠很好的支持網(wǎng)頁瀏覽，而JS0N格式則利于信息的交換和存儲(chǔ)。
[0087] 利用該軟件系統(tǒng)完成滬深兩市的財(cái)務(wù)報(bào)表中表格的提取之后進(jìn)行了基本的測試，包括：召回率測試，召回率等于系統(tǒng)正確解析的結(jié)果占總樣本的比例。實(shí)驗(yàn)表明解析召回率達(dá)到70% ;準(zhǔn)確率測試，準(zhǔn)確率則表示系統(tǒng)正確解析的結(jié)果占總的解析結(jié)果的比例，實(shí)驗(yàn)表明準(zhǔn)確率達(dá)到87% ;F值測試，通常情況下召回率和準(zhǔn)確率是個(gè)矛盾體，增加召回率可能對準(zhǔn)確率會(huì)有一定的影響，反之，增加準(zhǔn)確率同樣對召回率會(huì)產(chǎn)生影響，因此為了綜合反映一個(gè)抽取系統(tǒng)的性能，往往還會(huì)考慮召回率和準(zhǔn)確率的加權(quán)幾何平均值，實(shí)驗(yàn)表明F值達(dá)到 77%。
[0088] 本實(shí)施例中，通過對PDF文件進(jìn)行解析，獲得PDF文件中的各文字的文字信息和各線條的線條信息之后，根據(jù)線條信息中的線條寬度和線條長度，從各線條中確定橫向線條和縱向線條，進(jìn)而根據(jù)線條位置信息，對從該P(yáng)DF文件的同一頁中所提取的橫向線條進(jìn)行排序，并針對在該頁中排序后獲得的兩相鄰橫向線條，在從該頁中所提取的各縱向線條中，確定滿足線條位置信息中線條縱軸位置與所述兩相鄰橫向線條中最小線條縱軸位置相同的目標(biāo)縱向線條，根據(jù)兩相鄰橫向線條的線條縱軸位置之差和目標(biāo)縱向線條的線條縱軸位置，判斷兩相鄰橫向線條是否處于該頁的同一表格中，根據(jù)線條信息對處于該頁的同一表格中的各橫向線條進(jìn)行表格繪制，W及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充，最后在繪制的表格中，根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。由于考慮了表格的橫向線條和縱向線條的信息，從而提高了從PDF文件中提取表格的準(zhǔn)確度。
[0089] 圖6為本發(fā)明實(shí)施例提供的一種基于PDF文件的表格提取裝置的結(jié)構(gòu)示意圖，如圖6所示，包括：解析模塊61、確定模塊62和繪制模塊63。
[0090] 解析模塊61，用于對PDF文件進(jìn)行解析，獲得所述PDF文件中的各文字的文字信息和各線條的線條信息。
[0091] 其中，文字信息包括文字字符信息和文字位置信息；所述線條信息包括線條位置信息、線條寬度和線條長度；所述線條位置信息包括線條橫軸位置和線條縱軸位置。
[0092] 解析模塊61，具體用于利用PDFBox軟件對PDF文件進(jìn)行解析，獲得所述PDF文件中的文字信息；根據(jù)所述PDF文件中用于標(biāo)識(shí)線條結(jié)束的操作符，提取所述PDF文件中的線條信息。
[0093] 確定模塊62,與解析模塊61連接，用于根據(jù)所述線條信息中的線條寬度和線條長度，從各線條中確定橫向線條和縱向線條。
[0094] 確定模塊62,具體用于若所述線條信息中的線條寬度大于線條長度，則確定所述線條為橫向線條；若所述線條信息中的線條寬度不大于線條長度，則確定所述線條為縱向線條。
[00巧]繪制模塊63,與確定模塊62連接，用于根據(jù)所述線條位置信息，對從所述PDF文件的同一頁中所提取的橫向線條進(jìn)行排序；針對在所述頁中排序后獲得的兩相鄰橫向線條，在從所述頁中所提取的各縱向線條中，確定滿足線條位置信息中線條縱軸位置與所述兩相鄰橫向線條中最小線條縱軸位置相同的目標(biāo)縱向線條；根據(jù)所述兩相鄰橫向線條的線條縱軸位置之差和所述目標(biāo)縱向線條的線條縱軸位置，判斷所述兩相鄰橫向線條是否處于所述頁的同一表格中；根據(jù)線條信息對處于所述頁的所述表格中的各橫向線條進(jìn)行表格繪制， W及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充；在所述繪制的表格中，根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。
[0096] 進(jìn)一步，繪制模塊63跟據(jù)所述兩相鄰橫向線條的線條縱軸位置之差和所述目標(biāo) 縱向線條的線條縱軸位置，判斷所述兩相鄰橫向線條是否處于所述頁的同一表格中，具體為繪制模塊63計(jì)算所述兩相鄰橫向線條的線條縱軸位置之差（yl-yO);其中，yl為所述兩相鄰橫向線條中最大線條縱軸位置，yO所述兩相鄰橫向線條中最小線條縱軸位置；根據(jù)公式|yl-y〇-h〇|進(jìn)行計(jì)算，若滿足|yl-y〇-h〇| <Δ1ι，則確定所述兩相鄰橫向線條處于所述頁的同一表格中，其中，hO為所述目標(biāo)縱向線條的線條縱軸位置，Δ h為預(yù)設(shè)偏差闊值。
[0097] 進(jìn)一步，文字位置信息包括文字橫軸位置和文字縱軸位置，繪制模塊63根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置，具體為，繪制模塊63根據(jù)文字的文字位置信息，確定文字所在的單元格；對處于同一單元格中的文字，根據(jù)文字位置信息中的文字縱軸位置進(jìn)行排序，獲得文字在二維數(shù)組中的縱向順序；若至少兩文字根據(jù)文字縱軸位置進(jìn)行排序的順序相同，則根據(jù)至少兩文字的文字橫軸位置進(jìn)行排序，獲得文字在二維數(shù)組中的橫向順序； W二維數(shù)組形式，將文字對應(yīng)的文字字符信息填充在所述單元格中。
[0098] 進(jìn)一步，繪制模塊63還用于若處于相鄰頁的所填充的表格滿足表格合并規(guī)則，貝U 確定所述處于相鄰頁的填充的表格為處于相鄰頁的同一表格；所述表格合并規(guī)則包括：所述處于相鄰頁的所填充的表格的列數(shù)相同，且在前一頁所填充的表格中橫向線條的最大縱軸位置大于預(yù)設(shè)最大值，且在后一頁所填充的表格中橫向線條的最小縱軸位置小于預(yù)設(shè)最小值；對滿足所述表格合并規(guī)則的所述處于相鄰頁的所填充的表格進(jìn)行合并。
[0099] 更進(jìn)一步，繪制模塊63還用于將所填充的表格中的表頭部分轉(zhuǎn)化為樹形結(jié)構(gòu)；其中，所述樹形結(jié)構(gòu)中的各節(jié)點(diǎn)分別與所述表頭部分中各單元格所填充的文字字符信息對應(yīng)，子節(jié)點(diǎn)對應(yīng)的文字字符信息為所述子節(jié)點(diǎn)的父節(jié)點(diǎn)對應(yīng)的文字字符信息的子類；采用遍歷所述樹形結(jié)構(gòu)的每一分支的方式對所述表頭部分進(jìn)行簡化；其中，簡化后的表頭部分中單元格個(gè)數(shù)等于所述樹形結(jié)構(gòu)中分支的個(gè)數(shù)，所述簡化后的表頭部分中每一個(gè)單元格中所填充的文字字符信息包括對應(yīng)的一分支中從根節(jié)點(diǎn)至葉子節(jié)點(diǎn)所對應(yīng)的各文字字符信息。
[0100] 本實(shí)施例中，通過對PDF文件進(jìn)行解析，獲得PDF文件中的各文字的文字信息和各線條的線條信息之后，根據(jù)線條信息中的線條寬度和線條長度，從各線條中確定橫向線條和縱向線條，進(jìn)而根據(jù)線條位置信息，對從該P(yáng)DF文件的同一頁中所提取的橫向線條進(jìn) 行排序，并針對在該頁中排序后獲得的兩相鄰橫向線條，在從該頁中所提取的各縱向線條中，確定滿足線條位置信息中線條縱軸位置與所述兩相鄰橫向線條中最小線條縱軸位置相同的目標(biāo)縱向線條，根據(jù)兩相鄰橫向線條的線條縱軸位置之差和目標(biāo)縱向線條的線條縱軸位置，判斷兩相鄰橫向線條是否處于該頁的同一表格中，根據(jù)線條信息對處于該頁的同一表格中的各橫向線條進(jìn)行表格繪制，W及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充，最后在繪制的表格中，根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。由于考慮了表格的橫向線條和縱向線條的信息，從而提高了從PDF文件中提取表格的準(zhǔn)確度。陽101 ] 本領(lǐng)域普通技術(shù)人員可W理解：實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可W通過程序指令相關(guān)的硬件來完成。前述的程序可W存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。該程序在執(zhí)行時(shí)，執(zhí)行包括上述各方法實(shí)施例的步驟；而前述的存儲(chǔ)介質(zhì)包括：ROM、RAM、磁碟或者光盤等各種可W存儲(chǔ)程序代碼的介質(zhì)。
[0102] 最后應(yīng)說明的是：W上各實(shí)施例僅用W說明本發(fā)明的技術(shù)方案，而非對其限制；盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解：其依然可W對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改，或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換；而運(yùn)些修改或者替換，并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。
【主權(quán)項(xiàng)】
1. 一種基于PDF文件的表格提取方法，其特征在于，包括：對PDF文件進(jìn)行解析，獲得所述PDF文件中的各文字的文字信息和各線條的線條信息；所述文字信息包括文字字符信息和文字位置信息；所述線條信息包括線條位置信息、線條寬度和線條長度；所述線條位置信息包括線條橫軸位置和線條縱軸位置；根據(jù)所述線條信息中的線條寬度和線條長度，從各線條中確定橫向線條和縱向線條；根據(jù)所述線條位置信息，對從所述PDF文件的同一頁中所提取的橫向線條進(jìn)行排序；針對在所述頁中排序后獲得的兩相鄰橫向線條，在從所述頁中所提取的各縱向線條中，確定滿足線條位置信息中線條縱軸位置與所述兩相鄰橫向線條中最小線條縱軸位置相同的目標(biāo)縱向線條；根據(jù)所述兩相鄰橫向線條的線條縱軸位置之差和所述目標(biāo)縱向線條的線條縱軸位置，判斷所述兩相鄰橫向線條是否處于所述頁的同一表格中；根據(jù)線條信息對處于所述頁的所述表格中的各橫向線條進(jìn)行表格繪制，以及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充；在所述繪制的表格中，根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對PDF文件進(jìn)行解析，獲得所述TOF 文件中的文字信息和線條信息，包括：利用TOFBox軟件對PDF文件進(jìn)行解析，獲得所述PDF文件中的文字信息；根據(jù)所述PDF文件中用于標(biāo)識(shí)線條結(jié)束的操作符，提取所述PDF文件中的線條信息。3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述線條信息中的線條寬度和線條長度，從各線條中確定橫向線條和縱向線條，包括：若所述線條信息中的線條寬度大于線條長度，則確定所述線條為橫向線條；若所述線條信息中的線條寬度不大于線條長度，則確定所述線條為縱向線條。4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述兩相鄰橫向線條的線條縱軸位置之差和所述目標(biāo)縱向線條的線條縱軸位置，判斷所述兩相鄰橫向線條是否處于所述頁的同一表格中，包括：計(jì)算所述兩相鄰橫向線條的線條縱軸位置之差（yl-y〇);其中，yl為所述兩相鄰橫向線條中最大線條縱軸位置，y〇所述兩相鄰橫向線條中最小線條縱軸位置；根據(jù)公式|yl-y〇-h〇|進(jìn)行計(jì)算，若滿足|yl-y〇-h〇| <Ah，則確定所述兩相鄰橫向線條處于所述頁的同一表格中，其中，hO為所述目標(biāo)縱向線條的線條縱軸位置，Λ h為預(yù)設(shè)偏差閾值。5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述文字位置信息包括文字橫軸位置和文字縱軸位置；所述根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置，包括：根據(jù)文字的文字位置信息，確定文字所在的單元格；對處于同一單元格中的文字，根據(jù)文字位置信息中的文字縱軸位置進(jìn)行排序，獲得文字在二維數(shù)組中的縱向順序；若至少兩文字根據(jù)文字縱軸位置進(jìn)行排序的順序相同，則根據(jù)至少兩文字的文字橫軸位置進(jìn)行排序，獲得文字在二維數(shù)組中的橫向順序；以二維數(shù)組形式，將文字對應(yīng)的文字字符信息填充在所述單元格中。6. 根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法，其特征在于，所述在所述繪制的表格中，根據(jù) 各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置之后，還包括：若處于相鄰頁的所填充的表格滿足表格合并規(guī)則，則確定所述處于相鄰頁的所填充的表格為處于相鄰頁的同一表格；所述表格合并規(guī)則包括：所述處于相鄰頁的所填充的表格的列數(shù)相同，且在前一頁所填充的表格中橫向線條的最大縱軸位置大于預(yù)設(shè)最大值，且在后一頁所填充的表格中橫向線條的最小縱軸位置小于預(yù)設(shè)最小值；對滿足所述表格合并規(guī)則的所述處于相鄰頁的所填充的表格進(jìn)行合并。7. 根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法，其特征在于，所述在所述繪制的表格中，根據(jù) 各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置之后，還包括：將所填充的表格中的表頭部分轉(zhuǎn)化為樹形結(jié)構(gòu)；其中，所述樹形結(jié)構(gòu)中的各節(jié)點(diǎn)分別與所述表頭部分中各單元格所填充的文字字符信息對應(yīng)，子節(jié)點(diǎn)對應(yīng)的文字字符信息為所述子節(jié)點(diǎn)的父節(jié)點(diǎn)對應(yīng)的文字字符信息的子類；采用遍歷所述樹形結(jié)構(gòu)的每一分支的方式對所述表頭部分進(jìn)行簡化；其中，簡化后的表頭部分中單元格個(gè)數(shù)等于所述樹形結(jié)構(gòu)中分支的個(gè)數(shù)，所述簡化后的表頭部分中每一個(gè) 單元格中所填充的文字字符信息包括對應(yīng)的一分支中從根節(jié)點(diǎn)至葉子節(jié)點(diǎn)所對應(yīng)的各文字字符信息。8. -種基于PDF文件的表格提取裝置，其特征在于，包括：解析模塊，用于對PDF文件進(jìn)行解析，獲得所述PDF文件中的各文字的文字信息和各線條的線條信息；所述文字信息包括文字字符信息和文字位置信息；所述線條信息包括線條位置信息、線條寬度和線條長度；所述線條位置信息包括線條橫軸位置和線條縱軸位置；確定模塊，用于根據(jù)所述線條信息中的線條寬度和線條長度，從各線條中確定橫向線條和縱向線條；繪制模塊，用于根據(jù)所述線條位置信息，對從所述PDF文件的同一頁中所提取的橫向線條進(jìn)行排序；針對在所述頁中排序后獲得的兩相鄰橫向線條，在從所述頁中所提取的各縱向線條中，確定滿足線條位置信息中線條縱軸位置與所述兩相鄰橫向線條中最小線條縱軸位置相同的目標(biāo)縱向線條；根據(jù)所述兩相鄰橫向線條的線條縱軸位置之差和所述目標(biāo)縱向線條的線條縱軸位置，判斷所述兩相鄰橫向線條是否處于所述頁的同一表格中；根據(jù)線條信息對處于所述頁的所述表格中的各橫向線條進(jìn)行表格繪制，以及在繪制的表格中，根據(jù)線條信息對從所述頁中所提取的各縱向線條進(jìn)行填充；在所述繪制的表格中，根據(jù)各文字的文字信息，將文字信息中的文字字符信息填充在橫向線條和縱向線條所構(gòu)成的單元格中與文字位置信息相對應(yīng)的位置。9. 根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述解析模塊，具體用于利用TOFBox軟件對PDF文件進(jìn)行解析，獲得所述PDF文件中的文字信息；根據(jù)所述TOF文件中用于標(biāo)識(shí)線條結(jié)束的操作符，提取所述PDF文件中的線條信息。10.根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述確定模塊，具體用于若所述線條信息中的線條寬度大于線條長度，則確定所述線條為橫向線條；若所述線條信息中的線條寬度不大于線條長度，則確定所述線條為縱向線條。
【文檔編號(hào)】G06F17/22GK105988979SQ201510083646
【公開日】2016年10月5日
【申請日】2015年2月16日
【發(fā)明人】閆丹鳳, 錢直儒, 唐皓瑾, 侯賓, 王家鑫
【申請人】北京郵電大學(xué), 北京中軟萬維網(wǎng)絡(luò)技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：閆丹鳳;錢直儒;唐皓瑾;侯賓;王家鑫;
技術(shù)所有人：北京郵電大學(xué);北京中軟萬維網(wǎng)絡(luò)技術(shù)有限公司;
我是此專利的發(fā)明人

上一篇：信息處理設(shè)備和數(shù)據(jù)管理方法
上一篇：確定文本焦點(diǎn)的方法及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于pdf文件的表格提取方法和裝置的制造方法