两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于模板的工程圖紙材料信息提取方法

文檔序號(hào):6585290閱讀:216來源:國知局
專利名稱:基于模板的工程圖紙材料信息提取方法
技術(shù)領(lǐng)域
本發(fā)明涉及含有材料表表單的工程圖紙材料信息提取技術(shù)領(lǐng)域,特別涉及一種基 于模板的工程圖紙材料信息提取方法。
背景技術(shù)
表格作為一種高度精煉、集中的信息表達(dá)形式,是工程圖紙的主要設(shè)計(jì)信息載體, 是工程造價(jià)概預(yù)算的依據(jù)、工程材料采購的依據(jù),也是施工組織的依據(jù)。從上世紀(jì)90年代 起,我國在工程設(shè)計(jì)領(lǐng)域內(nèi)推動(dòng)的“甩圖板”工程取得了巨大得成功,但“甩圖板”工程只是 實(shí)現(xiàn)了計(jì)算機(jī)繪圖。為了從大量的歷史電子圖紙的材料表表單中獲取材料信息,進(jìn)行工程 造價(jià)分析或者歷史設(shè)計(jì)數(shù)據(jù)復(fù)用等工作,設(shè)計(jì)人員通常要人工地逐張查閱。由于一張工程 設(shè)計(jì)圖紙通常包含多種表單或者多張同一種樣式的表單,并且并不是每張CAD設(shè)計(jì)圖紙都 包含對設(shè)計(jì)人員有用的材料表表單,導(dǎo)致工作量大,工作效率低。因此,從電子CAD設(shè)計(jì)圖 紙中工程材料表表單自動(dòng)識(shí)別和信息提取,成為提高設(shè)計(jì)效率和辦公自動(dòng)化程度的必須。表格自動(dòng)識(shí)別和信息提取技術(shù),是OCR (Optical CharacterRecognition)技術(shù)一 個(gè)重要組成。目前公開發(fā)表的相關(guān)方法,主要用于受限表單自動(dòng)識(shí)別技術(shù)。這些方法通常從 表格結(jié)構(gòu)上進(jìn)行分析,建立以表格結(jié)構(gòu)特征為基礎(chǔ)的識(shí)別算法,以表格的特殊標(biāo)記、主要要 表格線的數(shù)量及交叉方式等結(jié)構(gòu)為依據(jù)進(jìn)行識(shí)別。據(jù)統(tǒng)計(jì),受限表格填入信息量不到全部 信息量的1/10,每種表格樣式相對固定,所以這些方法通常借助訓(xùn)練大量空表樣本來提取 表格特征,利用定位算法和模式識(shí)別算法等完成單張表格識(shí)別和信息提取。從而導(dǎo)致這些 算法自適應(yīng)差,每增加一個(gè)表格樣式,就需要進(jìn)行大量的樣本訓(xùn)練,并且僅適應(yīng)于單張、樣 式相對固定的受限表格識(shí)別和信息提取。CAD設(shè)計(jì)圖紙和材料表表單具有以下五方面特點(diǎn) 一是動(dòng)態(tài)性,表單尺寸隨設(shè)計(jì)內(nèi)容動(dòng)態(tài)變化,且填入信息通常占到全部信息量的90%以上; 二是表格樣式多、差異顯著,同一種表格,由于設(shè)計(jì)人員的不同,通常會(huì)存在結(jié)構(gòu)相似但每 個(gè)表格單元的尺寸不同;三是噪聲大,CAD設(shè)計(jì)圖紙大量存在的是設(shè)計(jì)圖形和文字信息,材 料表單一般占的比重不足5% ;四是版面結(jié)構(gòu)復(fù)雜,一張CAD設(shè)計(jì)圖紙通常包含多種樣式相 似的表單或者多張同一種樣式的表單;五是語義關(guān)聯(lián)性,同一種材料表在同一張圖紙中,有 些表格雖然樣式不相同但是由于具有相同結(jié)構(gòu)和相鄰,所以屬于同一類表格,如圖2(a)和 圖2 (b),如果在一張圖紙中且具有上下文關(guān)系則認(rèn)為是同一張表格。顯然,現(xiàn)有公開的表格識(shí)別和信息提取方法不適合具有動(dòng)態(tài)性、差異顯著、噪聲 大、版面結(jié)構(gòu)復(fù)雜和語義關(guān)聯(lián)性的CAD設(shè)計(jì)圖紙的材料表表單識(shí)別和提取,需要一種高效 地、自適應(yīng)的表格識(shí)別和信息提取方法。

發(fā)明內(nèi)容
(一)發(fā)明目的本發(fā)明的目的是提供一種基于模板的工程圖紙材料信息提取方法,以解決上述的 表格識(shí)別和信息提取方法自適應(yīng)差、通用性差,不適合具有動(dòng)態(tài)性、差異顯著、噪聲大、版面結(jié)構(gòu)復(fù)雜和語義關(guān)聯(lián)性的CAD設(shè)計(jì)圖紙的材料表表單識(shí)別和提取的問題。
發(fā)明內(nèi)容
一種基于模板的工程圖紙材料信息提取方法,包括以下步驟Sl :由圖形軟件根據(jù)圖紙的圖形內(nèi)容生成表格圖形、表格文字和表格單元填充規(guī) 則,從而生成表格提取模板,標(biāo)注所述模板中的材料信息及材料信息類型,所述表格提取模 板還描述了表格中可變部分和固定部分之間的拓?fù)浣Y(jié)構(gòu),所述表格圖形包括構(gòu)成表格的線 段位置、邊框位置、文字信息和線段形狀特征,所述拓?fù)浣Y(jié)構(gòu)包括表格固定部分和可變化部 分交點(diǎn)坐標(biāo),位置關(guān)系,延展方向;S2 讀入和識(shí)別表格提取模板中所包含的基本圖形元素類型信息、圖形屬性參數(shù) 信息、規(guī)則描述信息和拓?fù)浣Y(jié)構(gòu)信息,所述基本圖形元素為直線段、文字或字符,圖形屬性 參數(shù)信息為所述基本圖形元素繪制時(shí)的起始點(diǎn)坐標(biāo)和終止點(diǎn)坐標(biāo),所述規(guī)則描述信息為表 格單元格的填充規(guī)則;S3:識(shí)別所述表格提取模板的特征,按照拓?fù)浣Y(jié)構(gòu)信息形成表格特征描述,所述表 格特征主要包括主線條的數(shù)目、連通性、標(biāo)志性文字和表格的動(dòng)態(tài)延展特性;S4 循環(huán)地讀入和識(shí)別CAD設(shè)計(jì)圖紙中基本圖形元素類型和圖形屬性參數(shù)信息, 根據(jù)S3形成的表格特征識(shí)別表格框架,形成表格框架集合,在形成識(shí)別出第一個(gè)表格框架 后,將根據(jù)構(gòu)成表格的線段的空間分布,修正原來從S3獲取到的表格特征。S5 循環(huán)地識(shí)別S4中形成的每個(gè)表格框架,讀入和識(shí)別基本圖形元素類型和圖形 屬性參數(shù)信息;S6 根據(jù)S5中的圖形元素類型和圖形屬性參數(shù)信息和步驟S2從表格提取模板中 得到填充規(guī)則信息和表格拓?fù)浣Y(jié)構(gòu),提取材料信息,并將這些材料信息按照填充規(guī)格約定 存儲(chǔ)到數(shù)據(jù)庫中。其中,所述步驟S3中識(shí)別表格特征包括識(shí)別表格固定部分的線段數(shù)量;線段之間 的距離和連通性;可變化部分的單元格個(gè)數(shù)和平面空間位置關(guān)系。其中,所述識(shí)別識(shí)別線段之間連通性時(shí)按照構(gòu)成表格單元的四個(gè)頂點(diǎn)的位置分為 左上、中上、右上、左中、中中、右中、坐下、中下和右下分別識(shí)別,決定相鄰單元格和構(gòu)成單 元的直線段之間連通關(guān)系及平面空間構(gòu)成。其中,所述步驟S4中識(shí)別表格框架包括步驟S41 根據(jù)表格中主線條的數(shù)目、連通性及表格動(dòng)態(tài)延展性判斷能夠構(gòu)成表格的基 本圖形元素,并分別形成初步表格框架集合;S42 若S41產(chǎn)生的初步表格框架集合為空,結(jié)束本次表格框架識(shí)別,執(zhí)行步驟S4, 若不為空,執(zhí)行步驟S43;S43 根據(jù)標(biāo)志性文字和表格拓?fù)浣Y(jié)構(gòu),從步驟S41產(chǎn)生的初步表格框架集合中識(shí) 別出相匹配的表格框架并形成匹配表格框架集合。其中,所述步驟S4之前還包括設(shè)置用于識(shí)別表格框架時(shí)匹配判定的閾值。其中,所述步驟S41中所述判斷方式為計(jì)算一條直線段和表格其它直線段的交 點(diǎn),所述交點(diǎn)個(gè)數(shù)大于等于模版中最小交點(diǎn)個(gè)數(shù)則為構(gòu)成表格框架的直線段要素。其中,所述步驟S4中在識(shí)別出第一個(gè)表格框架前采用步驟S3形成的表格描述特 征進(jìn)行匹配判斷,以后的表格框架匹配判定可根據(jù)已經(jīng)得到表格特征對S3中的表格特征進(jìn)行修訂。其中,所述步驟S6包括S61 根據(jù)表格延展方向循環(huán)地逐行識(shí)別表格的每個(gè)單元格中的基本圖形元素類 型和圖形屬性,生成文字描述信息;S62 根據(jù)填充規(guī)則判斷所述文字描述信息是否為材料信息,若是材料信息則執(zhí)行 S63,若不是材料信息則刪除;S63 用戶利用人機(jī)界面判斷材料信息在CAD設(shè)計(jì)圖紙中的平面位置和圖形表達(dá), 以確定材料信息提取的準(zhǔn)確性,并將確認(rèn)后的材料信息存入數(shù)據(jù)庫。其中,所述S61具體包括若基本圖形元素類型是文字則直接生成文字描述;若基本圖形元素類型不是文字類型,按照填充規(guī)則和表格的拓?fù)潢P(guān)系,將所述基 本圖形元素上下文語義轉(zhuǎn)換為文字描述。其中,所述步驟S6之后還包括判斷所述表格框架集合是否為空,若不為空執(zhí)行 S4,否則識(shí)別結(jié)束。一種基于模板的工程圖紙材料信息提取系統(tǒng),包括表格提取模板生成模塊,用于由圖形軟件根據(jù)圖紙的圖形內(nèi)容生成表格圖形、表 格文字和表格單元填充規(guī)則,從而生成表格提取模板,標(biāo)注所述模板中的材料信息,并將所 述表格提取模板存儲(chǔ)中數(shù)據(jù)庫中,所述表格提取模板還描述了表格中可變部分和固定部分 之間的拓?fù)浣Y(jié)構(gòu);表格提取模板識(shí)別模塊,用于讀入和識(shí)別表格提取模板中所包含的基本圖形元素 類型信息、圖形屬性參數(shù)信息、規(guī)則描述信息和拓?fù)浣Y(jié)構(gòu)信息;表格提取模板特征分析模塊,分析所述表格提取模板的特征,按照拓?fù)浣Y(jié)構(gòu)信息 形成表格特征描述;表格框架集合生成模塊,用于循環(huán)地讀入和識(shí)別CAD設(shè)計(jì)圖紙中基本圖形元素類 型和圖形屬性參數(shù)信息,根據(jù)表格提取模板特征分析模塊形成的表格特征識(shí)別表格框架, 形成表格框架集合;表格框架集合元素識(shí)別模塊,用于循環(huán)地識(shí)別每個(gè)所述表格框架集合的元素,讀 入和識(shí)別基本圖形元素類型和圖形屬性參數(shù)信息,所述基本圖形元素為直線段、文字或字 符,圖形屬性參數(shù)信息為所述基本圖形元素繪制時(shí)的起始點(diǎn)和終止點(diǎn);材料信息提取模塊,用于根據(jù)所述圖形元素類型和圖形屬性參數(shù)信息和表格提取 模板識(shí)別模塊中得到填充規(guī)則信息和表格拓?fù)浣Y(jié)構(gòu),提取材料信息,并將這些材料信息存 儲(chǔ)到數(shù)據(jù)庫中。其中,所述表格框架集合生成模塊包括初步表格框架集合生成模塊,用于根據(jù)表格中主線條的數(shù)目、連通性及表格動(dòng)態(tài) 延展性判斷能夠構(gòu)成表格的基本圖形元素,并分別形成初步表格框架集合;判斷模塊用于判斷初步表格框架集合生成模塊產(chǎn)生的初步表格框架集合是否為 空,結(jié)束本次表格框架識(shí)別,執(zhí)行步驟初步表格框架集合生成模塊,若不為空,執(zhí)行表格框 架集合生成模塊;表格框架集合生成模塊,用于根據(jù)標(biāo)志性文字和表格拓?fù)浣Y(jié)構(gòu),從初步表格框架集合中識(shí)別出相匹配的表格框架并形成匹配表格框架集合。其中,所述材料信息提取模塊包括文字描述信息生成模塊,用于根據(jù)表格延展方向循環(huán)地逐行識(shí)別表格的每個(gè)單元 格中的基本圖形元素類型和圖形屬性,生成文字描述信息;材料信息判斷模塊,用于根據(jù)填充規(guī)則判斷所述文字描述信息是否為材料信息, 若是材料信息則保留,若不是材料信息則刪除;材料信息確認(rèn)模塊,用于用戶判斷材料信息在CAD設(shè)計(jì)圖紙中的平面位置和圖形 表達(dá),以確定材料信息提取的準(zhǔn)確性,并將確認(rèn)后的材料信息存入數(shù)據(jù)庫。(三)有益效果本發(fā)明的基于模板的工程圖紙材料信息提取方法具有以下有益效果(1)降低了表格識(shí)別方法的復(fù)雜性,提高了表格特征的提取精度,進(jìn)而保證了識(shí)別 和提取結(jié)果的準(zhǔn)確性;(2)表格特征可配置方法,具有靈活性,允許人工介入,使用者可以定制需要的任 何樣式的表格提取模板實(shí)現(xiàn)表格識(shí)別和信息提取,因此既能夠滿足具有動(dòng)態(tài)延展性的表格 識(shí)別和信息提取,也適應(yīng)與普通受限表格識(shí)別和信息提取,提高表格識(shí)別和信息提取方法 的通用性;(3)在表格識(shí)別過程中根據(jù)識(shí)別的結(jié)果實(shí)時(shí)地對表格特征實(shí)施修訂,保證了同一 張CAD設(shè)計(jì)圖紙中具有語義關(guān)聯(lián)的同一類表格被正確識(shí)別;(4)根據(jù)表格提取模板的填充規(guī)則描述和表格拓?fù)潢P(guān)系,不僅可以將表格中圖形 語義能用精確的文本信息描述,而且也決定了哪些信息是材料信息需要存儲(chǔ)到數(shù)據(jù)庫中, 保證了材料信息提取的準(zhǔn)確性。


圖1是本發(fā)明的基于模板的工程圖紙材料信息提取方法的流程圖;圖2是本發(fā)明步驟S4的流程圖;圖3是本發(fā)明步驟S6的流程圖;圖4(a)是一種帶有固定部分的材料表表格,(b)是一種不帶固定部分的材料表表 格;圖5 (a)是一種帶有材料表表單的CAD設(shè)計(jì)圖紙,(b)是(a)所示CAD設(shè)計(jì)圖紙中 材料表表單局部放大圖;圖6 (a)是一種帶有3張具有關(guān)聯(lián)關(guān)系性的材料表表單的CAD設(shè)計(jì)圖紙,(b)、(c) 和(d)是(a)所示CAD設(shè)計(jì)圖紙中材料表表單自右到左局部放大圖;圖7是圖5 (a)和圖6 (a)所示CAD設(shè)計(jì)圖紙中材料表表單的識(shí)別和提取的表格提 取模板;圖8是圖5 (a)所示CAD設(shè)計(jì)圖紙的材料表表格材料信息提取結(jié)果;圖9 (a)和(b)是圖6 (a)所示CAD設(shè)計(jì)圖紙的材料表表格的材料信息提取結(jié)果。
具體實(shí)施例方式本發(fā)明提出的基于模板的工程圖紙材料信息提取方法,在對AutoCAD軟件進(jìn)行二
8次開發(fā)的基礎(chǔ)上,利用Object ARX為AutoCAD提供添加了提取模板制作、材料表提取、提取 結(jié)果編輯和提取等計(jì)算機(jī)可執(zhí)行命令,從而實(shí)現(xiàn)了提取模板制作、CAD工程圖紙材料信息提 ??;材料提取后,提供了材料信息編輯界面;處理修改后的材料信息利用ODBC技術(shù)逐一存 儲(chǔ)到Microsoft Access數(shù)據(jù)庫中,在后續(xù)進(jìn)行匯總統(tǒng)計(jì)及工程造價(jià)分析、歷史設(shè)計(jì)數(shù)據(jù)復(fù) 用時(shí),將數(shù)據(jù)信息讀入到數(shù)組中以供使用。結(jié)合附圖和實(shí)施例說明如下。一般CAD設(shè)計(jì)圖的材料表表單可以看成是單元格的集合組成的,從表格生成的變 遷性可以將材料表看成由固定部分和可變化部分等兩部分組成,其中可變化部分通常按照 某個(gè)特定方向延展生成;并且雖然同一種材料表表格由于設(shè)計(jì)者的不同,表格單元的高度 或者寬度可能會(huì)不同,但是在同一張CAD設(shè)計(jì)圖上,同一種材料表表格通常是相同的。因 此,基于模板的、自適應(yīng)的材料表格識(shí)別和材料信息提取是可行的。如圖1所示,為本發(fā)明的基于模板的工程圖紙材料信息提取方法的流程圖。步驟 Sl為由圖形軟件生成表格提取模板,即由圖形軟件(常用autoCAD)生成表格圖形、文字及 表格單元填充規(guī)則描述信息,從而生成表格提取模板,該提取模板還描述了表格中可變部 分和固定部分之間的拓?fù)浣Y(jié)構(gòu),可變化部分通常按照某個(gè)特定方向延展生成,如圖4(a)可 以看作是圖7沿正y方向向上延展生成。該步驟具體為主要借助圖形繪制軟件,人機(jī)交 互地完成構(gòu)成表格提取模板的線段、文字、符號(hào)繪制,設(shè)置可變單元格(本例可變單元格是 指[標(biāo)號(hào)]、[標(biāo)準(zhǔn)圖號(hào)]、[名稱]、[規(guī)格]、[數(shù)量]、[材料]、[單重]、[總重]和[備 注])的填充規(guī)則,這些填充規(guī)則描述了單元格之間的語義關(guān)聯(lián)性(例如本例中允許[名 稱]的填充規(guī)則設(shè)置為不允許為空,即如果某一行的[名稱]所在的單元格為空,則取上 一行對應(yīng)單元格的文字作為當(dāng)前的材料信息),并設(shè)置哪些數(shù)據(jù)是材料信息及其數(shù)據(jù)類型 (通常是字符串或者數(shù)字,例如本例中[數(shù)量]、[單重]和[總重]為數(shù)字,對應(yīng)于數(shù)據(jù)庫 中的DB01、DB02和DB03字段),將提取后的表格提取模板存儲(chǔ)在數(shù)據(jù)庫中,如圖7所示為 圖5(a)和圖6(a)所示CAD設(shè)計(jì)圖紙中材料表表單的識(shí)別和提取后的表格提取模板。步驟S2中讀入和識(shí)別表格提取模板中所包含的基本圖形元素類型信息、圖形屬 性參數(shù)信息、規(guī)則描述信息和拓?fù)浣Y(jié)構(gòu)信息,其中,圖形屬性參數(shù)信息,如直線段的起始點(diǎn) 和終止點(diǎn),文字的插入點(diǎn)和內(nèi)容等;規(guī)則描述信息主要是讀入每個(gè)單元格的填充規(guī)則;拓 撲結(jié)構(gòu)信息主要是指表格固定部分和可變化部分交點(diǎn)坐標(biāo),位置關(guān)系(本例表格固定部分 在表格可變部分的下方),延展方向(本例的表格延展方向?yàn)檠貀軸正方向向上)等。步驟S3中表格提取模板特征識(shí)別,按照步驟S2中的拓?fù)浣Y(jié)構(gòu)信息識(shí)別構(gòu)成表格 提取模板的線條、邊框的位置及形狀特征,主要包括主線條的數(shù)目連通性、標(biāo)志性文字和表 格的動(dòng)態(tài)延展特性,如表格固定部分的線段數(shù)量(本例圖7中表格固定部分由直線段101、 102和103構(gòu)成);線段之間的距離和連通性;可變化部分的單元格個(gè)數(shù)和平面空間位置關(guān) 系等。著重的,直線段連通性可以按照構(gòu)成表格單元的四個(gè)頂點(diǎn)的位置分為左上、中上、右 上、左中、中中、右中等分別識(shí)別,然后賦予不同的權(quán)重標(biāo)識(shí),分別為1、2、3、4、5和6等,決定 相鄰單元格和構(gòu)成單元的直線段之間連通關(guān)系及平面空間構(gòu)成。步驟S4中讀入CAD設(shè)計(jì)圖紙,識(shí)別圖紙中基本圖形元素類型和圖形屬性參數(shù)信 息,例如直線段的起始點(diǎn)和終止點(diǎn),文字的插入點(diǎn)和內(nèi)容等,并根據(jù)S3形成的表格特征識(shí) 別表格框架,從而形成表格框架集合。其核心思想是識(shí)別判斷哪些直線段和文字是材料表 表格的組成要素,例如識(shí)別判斷的原則可以是計(jì)算并求取一條直線段和其它直線段的交點(diǎn),如果一條直線段上的交點(diǎn)個(gè)數(shù)大于等于模板中最小交點(diǎn)個(gè)數(shù)才有可能是構(gòu)成表格框架 的線段要素;只有一條線段上的交點(diǎn)順序滿足表格提取模板對應(yīng)直線段上的交點(diǎn)排列順序 或滿足計(jì)算規(guī)則才有可能是構(gòu)成表格框架的直線段等。具體步驟包括(如圖2所示)(1)根據(jù)表格中主線條的數(shù)目、連通性及表格動(dòng)態(tài)延展性判斷能夠構(gòu)成表格的基 本圖形元素,并分別形成初步表格框架集合;(2)若(1)產(chǎn)生的初步表格框架集合為空,結(jié)束本次表格框架識(shí)別,執(zhí)行步驟S4, 若不為空,執(zhí)行步驟(3);(3)根據(jù)標(biāo)志性文字(本例中的標(biāo)志性文字包括“標(biāo)號(hào)”、“標(biāo)準(zhǔn)圖號(hào)(或所屬圖 號(hào))”、“名稱”、“規(guī)格”、“數(shù)量”、“材料代號(hào)”等)和表格拓?fù)浣Y(jié)構(gòu),從步驟⑴產(chǎn)生的初步表 格框架集合中識(shí)別出相匹配的表格框架并形成匹配表格框架集合??紤]到匹配判斷時(shí)的誤差,在進(jìn)行上述匹配表格框架時(shí)還需預(yù)先設(shè)定一個(gè)匹配判 斷的閾值。在識(shí)別出第一個(gè)表格框架前可采用步驟S3形成的表格描述特征進(jìn)行匹配判斷, 在得到第一個(gè)表格框架后,重新計(jì)算表格構(gòu)成元素的距離特征,例如圖7中直線段101和 102沿y軸正方向的垂直距離,然后據(jù)此對S3中的表格特征進(jìn)行修訂,以后的表格框架匹配 判定可根據(jù)已經(jīng)得到新表格特征進(jìn)行,這保證了同一張CAD設(shè)計(jì)圖紙中具有語義關(guān)聯(lián)的同 一類表格被正確識(shí)別。步驟S5循環(huán)地識(shí)別S4中形成的每個(gè)表格框架,讀入和識(shí)別基本圖形元素類型和 圖形屬性參數(shù)信息。步驟S6根據(jù)S5中的圖形元素類型和圖形屬性參數(shù)信息和步驟S2從表格提取模 板中得到填充規(guī)則信息和表格拓?fù)浣Y(jié)構(gòu),提取材料信息,并將這些材料信息存儲(chǔ)到數(shù)據(jù)庫 中。具體包括(如圖3所示)(1)根據(jù)表格延展方向循環(huán)地逐行識(shí)別表格的每個(gè)單元格中的基本圖形元素類型 和圖形屬性,生成文字描述信息,具體來說,對于基本圖形元素類型是文字按照特定順序組 合生成直接生成文字描述,對于其它類型的基本圖形元素,按照填充規(guī)則和表格的拓?fù)潢P(guān) 系,將其上下文語義轉(zhuǎn)換為文字描述;(2)將文字描述信息轉(zhuǎn)換成材料信息,即根據(jù)填充規(guī)則判斷所述文字描述信息是 否為材料信息,如對于單元格中圖形,如果是直線段按照表格語義應(yīng)轉(zhuǎn)換為空文字串;又 如,如果單元本身就為空,則需要根據(jù)表格提取模板設(shè)定的填充規(guī)則約束以及本行的數(shù)據(jù) 特征,決定本單元格所描述的材料信息為空,還是取上一行或者下一行同一列單元格的數(shù) 值。將是材料信息的文字信息保留,不是材料信息的文字信息刪除,如在本例圖6(b)中行 601的數(shù)量所在信息不是數(shù)值,同時(shí)該列的填充規(guī)則對應(yīng)于數(shù)據(jù)庫中的DBOl字段,所以本 行數(shù)據(jù)不是材料信息,需要?jiǎng)h除。(3)用戶判斷材料信息在CAD設(shè)計(jì)圖紙中的平面位置和圖形表達(dá),以確定材料信 息提取的準(zhǔn)確性,特別地,對于在識(shí)別過程中存在不準(zhǔn)確的單元格材料信息用特定的圖形 表達(dá)出來,比如提取材料文字反色顯示等(例如圖6(c)中單元格602是由圖形和文本信息 構(gòu)成,所以提取的結(jié)果“1 2” 1””會(huì)反色顯示),提醒用戶確認(rèn)提取結(jié)果。用戶完成提取材 料信息確認(rèn)后,還需要將提取后的材料信息,按照其數(shù)值類型和表格提取模板中的填充規(guī) 則約定存儲(chǔ)到對應(yīng)的數(shù)據(jù)庫中。如圖8所示,為圖5(a)所示CAD設(shè)計(jì)圖紙的材料表表格材 料信息提取結(jié)果,圖9(a)和(b)是圖6(a)所示CAD設(shè)計(jì)圖紙的材料表表格的材料信息提取結(jié)果。經(jīng)過一次識(shí)別和提取材料信息后還需判斷所述表格框架集合是否為空,若不為空 執(zhí)行步驟S4,否則識(shí)別結(jié)束?!N基于模板的工程圖紙材料信息提取系統(tǒng),該系統(tǒng)是基于的上述工程圖紙材料 信息提取方法的系統(tǒng),該系統(tǒng)包括表格提取模板生成模塊,用于由圖形軟件根據(jù)圖紙的圖 形內(nèi)容生成表格圖形、表格文字和表格單元填充規(guī)則,從而生成表格提取模板,標(biāo)注所述模 板中的材料信息,并將所述表格提取模板存儲(chǔ)中數(shù)據(jù)庫中,所述表格提取模板還描述了表 格中可變部分和固定部分之間的拓?fù)浣Y(jié)構(gòu);表格提取模板識(shí)別模塊,用于讀入和識(shí)別表格 提取模板中所包含的基本圖形元素類型信息、圖形屬性參數(shù)信息、規(guī)則描述信息和拓?fù)浣Y(jié) 構(gòu)信息;表格提取模板特征分析模塊,分析所述表格提取模板的特征,按照拓?fù)浣Y(jié)構(gòu)信息形 成表格特征描述;表格框架集合生成模塊,用于循環(huán)地讀入和識(shí)別CAD設(shè)計(jì)圖紙中基本圖 形元素類型和圖形屬性參數(shù)信息,根據(jù)表格提取模板特征分析模塊形成的表格特征識(shí)別表 格框架,形成表格框架集合;表格框架集合元素識(shí)別模塊,用于循環(huán)地識(shí)別每個(gè)所述表格框 架集合的元素,讀入和識(shí)別基本圖形元素類型和圖形屬性參數(shù)信息,所述基本圖形元素為 直線段、文字或字符,圖形屬性參數(shù)信息為所述基本圖形元素繪制時(shí)的起始點(diǎn)和終止點(diǎn);材 料信息提取模塊,用于根據(jù)所述圖形元素類型和圖形屬性參數(shù)信息和表格提取模板識(shí)別模 塊中得到填充規(guī)則信息和表格拓?fù)浣Y(jié)構(gòu),提取材料信息,并將這些材料信息存儲(chǔ)到數(shù)據(jù)庫 中。其中,表格框架集合生成模塊包括初步表格框架集合生成模塊,用于根據(jù)表格中主線條的數(shù)目、連通性及表格動(dòng)態(tài) 延展性判斷能夠構(gòu)成表格的基本圖形元素,并分別形成初步表格框架集合;判斷模塊用 于判斷初步表格框架集合生成模塊產(chǎn)生的初步表格框架集合是否為空,結(jié)束本次表格框架 識(shí)別,執(zhí)行步驟初步表格框架集合生成模塊,若不為空,執(zhí)行表格框架集合生成模塊;表格 框架集合生成模塊,用于根據(jù)標(biāo)志性文字和表格拓?fù)浣Y(jié)構(gòu),從初步表格框架集合中識(shí)別出 相匹配的表格框架并形成匹配表格框架集合。其中,材料信息提取模塊包括文字描述信息生成模塊,用于根據(jù)表格延展方向循 環(huán)地逐行識(shí)別表格的每個(gè)單元格中的基本圖形元素類型和圖形屬性,生成文字描述信息; 材料信息判斷模塊,用于根據(jù)填充規(guī)則判斷所述文字描述信息是否為材料信息,若是材料 信息則保留,若不是材料信息則刪除;材料信息確認(rèn)模塊,用于用戶判斷材料信息在CAD設(shè) 計(jì)圖紙中的平面位置和圖形表達(dá),以確定材料信息提取的準(zhǔn)確性,并將確認(rèn)后的材料信息 存入數(shù)據(jù)庫。以上實(shí)施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通 技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有 等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
1權(quán)利要求
一種基于模板的工程圖紙材料信息提取方法,其特征在于,包括以下步驟S1由圖形軟件根據(jù)圖紙的圖形內(nèi)容生成表格圖形、表格文字和表格單元填充規(guī)則,從而生成表格提取模板,標(biāo)注所述模板中的材料信息及材料信息類型,所述表格提取模板還描述了表格中可變部分和固定部分之間的拓?fù)浣Y(jié)構(gòu),所述表格圖形包括構(gòu)成表格的線段位置、邊框位置、文字信息和線段形狀特征,所述拓?fù)浣Y(jié)構(gòu)包括表格固定部分和可變化部分交點(diǎn)坐標(biāo),位置關(guān)系,延展方向;S2讀入和識(shí)別表格提取模板中所包含的基本圖形元素類型信息、圖形屬性參數(shù)信息、規(guī)則描述信息和拓?fù)浣Y(jié)構(gòu)信息,所述基本圖形元素為直線段、文字或字符,圖形屬性參數(shù)信息為所述基本圖形元素繪制時(shí)的起始點(diǎn)坐標(biāo)和終止點(diǎn)坐標(biāo),所述規(guī)則描述信息為表格單元格的填充規(guī)則和單元格變量名稱;S3識(shí)別所述表格提取模板的特征,按照拓?fù)浣Y(jié)構(gòu)信息形成表格特征描述,所述表格特征主要包括主線條的數(shù)目、連通性、標(biāo)志性文字和表格的動(dòng)態(tài)延展特性;S4循環(huán)地讀入和識(shí)別CAD設(shè)計(jì)圖紙中基本圖形元素類型和圖形屬性參數(shù)信息,根據(jù)S3形成的表格特征識(shí)別表格框架,形成表格框架集合,在形成識(shí)別出第一個(gè)表格框架后,將根據(jù)構(gòu)成表格的線段的空間分布,修正原來從S3獲取到的表格特征;S5循環(huán)地識(shí)別S4中形成的每個(gè)表格框架,讀入和識(shí)別基本圖形元素類型和圖形屬性參數(shù)信息;S6根據(jù)S5中的圖形元素類型和圖形屬性參數(shù)信息和步驟S2從表格提取模板中得到填充規(guī)則信息和表格拓?fù)浣Y(jié)構(gòu),提取材料信息,并將這些材料信息按照填充規(guī)則約定存儲(chǔ)到數(shù)據(jù)庫中。
2.如權(quán)利要求1所述的基于模板的工程圖紙材料信息提取方法,其特征在于,所述步 驟S3中識(shí)別表格特征包括識(shí)別表格固定部分的線段數(shù)量;線段之間的距離和連通性;可變 化部分的單元格個(gè)數(shù)和平面空間位置關(guān)系。
3.如權(quán)利要求2所述的基于模板的工程圖紙材料信息提取方法,其特征在于,所述識(shí) 別線段之間連通性時(shí)按照構(gòu)成表格單元的四個(gè)頂點(diǎn)的位置分為左上、中上、右上、左中、中 中、右中、坐下、中下和右下分別識(shí)別,決定相鄰單元格和構(gòu)成單元的直線段之間連通關(guān)系 及平面空間構(gòu)成。
4.如權(quán)利要求1所述的基于模板的工程圖紙材料信息提取方法,其特征在于,所述步 驟S4中識(shí)別表格框架包括步驟541根據(jù)表格中主線條的數(shù)目、連通性及表格動(dòng)態(tài)延展性判斷能夠構(gòu)成表格的基本圖 形元素,并分別形成初步表格框架集合;542若S41產(chǎn)生的初步表格框架集合為空,結(jié)束本次表格框架識(shí)別,執(zhí)行步驟S4,若不 為空,執(zhí)行步驟S43 ;543根據(jù)標(biāo)志性文字和表格拓?fù)浣Y(jié)構(gòu),從步驟S41產(chǎn)生的初步表格框架集合中識(shí)別出 相匹配的表格框架并形成匹配表格框架集合。
5.如權(quán)利要求4所述的基于模板的工程圖紙材料信息提取方法,其特征在于,所述步 驟S4之前還包括設(shè)置用于識(shí)別表格框架時(shí)匹配判定的閾值。
6.如權(quán)利要求5所述的基于模板的工程圖紙材料信息提取方法,其特征在于,所述步 驟S41中所述判斷方式為計(jì)算一條直線段和表格其它直線段的交點(diǎn),所述交點(diǎn)個(gè)數(shù)大于等于模版中最小交點(diǎn)個(gè)數(shù)則為構(gòu)成表格框架的直線段要素。
7.如權(quán)利要求4所述的基于模板的工程圖紙材料信息提取方法,其特征在于,所述步 驟S4中在識(shí)別出第一個(gè)表格框架前采用步驟S3形成的表格描述特征進(jìn)行匹配判斷,以后 的表格框架匹配判定可根據(jù)已經(jīng)得到表格特征對S3中的表格特征進(jìn)行修訂。
8.如權(quán)利要求1所述的基于模板的工程圖紙材料信息提取方法,其特征在于,所述步 驟S6包括S61 根據(jù)表格延展方向循環(huán)地逐行識(shí)別表格的每個(gè)單元格中的基本圖形元素類型和 圖形屬性,生成文字描述信息;S62:根據(jù)填充規(guī)則判斷所述文字描述信息是否為材料信息,若是材料信息則執(zhí)行 S63,若不是材料信息則刪除;S63 用戶利用人機(jī)界面判斷材料信息在CAD設(shè)計(jì)圖紙中的平面位置和圖形表達(dá),以確 定材料信息提取的準(zhǔn)確性,并將確認(rèn)后的材料信息存入數(shù)據(jù)庫。
9.如權(quán)利要求8所述的基于模板的工程圖紙材料信息提取方法,其特征在于,所述S61 具體包括若基本圖形元素類型是文字則直接生成文字描述;若基本圖形元素類型不是文字類型,按照填充規(guī)則和表格的拓?fù)潢P(guān)系,將所述基本圖 形元素上下文語義轉(zhuǎn)換為文字描述。
10.如權(quán)利要求8所述的基于模板的工程圖紙材料信息提取方法,其特征在于,所述步 驟S6之后還包括判斷所述表格框架集合是否為空,若不為空執(zhí)行S4,否則識(shí)別結(jié)束。
11.一種基于模板的工程圖紙材料信息提取系統(tǒng),其特征在于,包括表格提取模板生成模塊,用于由圖形軟件根據(jù)圖紙的圖形內(nèi)容生成表格圖形、表格文 字和表格單元填充規(guī)則,從而生成表格提取模板,標(biāo)注所述模板中的材料信息,并將所述表 格提取模板存儲(chǔ)中數(shù)據(jù)庫中,所述表格提取模板還描述了表格中可變部分和固定部分之間 的拓?fù)浣Y(jié)構(gòu);表格提取模板識(shí)別模塊,用于讀入和識(shí)別表格提取模板中所包含的基本圖形元素類型 信息、圖形屬性參數(shù)信息、規(guī)則描述信息和拓?fù)浣Y(jié)構(gòu)信息;表格提取模板特征分析模塊,分析所述表格提取模板的特征,按照拓?fù)浣Y(jié)構(gòu)信息形成 表格特征描述;表格框架集合生成模塊,用于循環(huán)地讀入和識(shí)別CAD設(shè)計(jì)圖紙中基本圖形元素類型和 圖形屬性參數(shù)信息,根據(jù)表格提取模板特征分析模塊形成的表格特征識(shí)別表格框架,形成 表格框架集合;表格框架集合元素識(shí)別模塊,用于循環(huán)地識(shí)別每個(gè)所述表格框架集合的元素,讀入和 識(shí)別基本圖形元素類型和圖形屬性參數(shù)信息,所述基本圖形元素為直線段、文字或字符,圖 形屬性參數(shù)信息為所述基本圖形元素繪制時(shí)的起始點(diǎn)和終止點(diǎn);材料信息提取模塊,用于根據(jù)所述圖形元素類型和圖形屬性參數(shù)信息和表格提取模板 識(shí)別模塊中得到填充規(guī)則信息和表格拓?fù)浣Y(jié)構(gòu),提取材料信息,并將這些材料信息存儲(chǔ)到 數(shù)據(jù)庫中。
12.如權(quán)利要求11所述的基于模板的工程圖紙材料信息提取系統(tǒng),其特征在于,所述 表格框架集合生成模塊包括初步表格框架集合生成模塊,用于根據(jù)表格中主線條的數(shù)目、連通性及表格動(dòng)態(tài)延展 性判斷能夠構(gòu)成表格的基本圖形元素,并分別形成初步表格框架集合;判斷模塊用于判斷初步表格框架集合生成模塊產(chǎn)生的初步表格框架集合是否為空, 結(jié)束本次表格框架識(shí)別,執(zhí)行步驟初步表格框架集合生成模塊,若不為空,執(zhí)行表格框架集 合生成模塊;表格框架集合生成模塊,用于根據(jù)標(biāo)志性文字和表格拓?fù)浣Y(jié)構(gòu),從初步表格框架集合 中識(shí)別出相匹配的表格框架并形成匹配表格框架集合。
13.如權(quán)利要求11所述的基于模板的工程圖紙材料信息提取系統(tǒng),其特征在于,所述 材料信息提取模塊包括文字描述信息生成模塊,用于根據(jù)表格延展方向循環(huán)地逐行識(shí)別表格的每個(gè)單元格中 的基本圖形元素類型和圖形屬性,生成文字描述信息;材料信息判斷模塊,用于根據(jù)填充規(guī)則判斷所述文字描述信息是否為材料信息,若是 材料信息則保留,若不是材料信息則刪除;材料信息確認(rèn)模塊,用于用戶判斷材料信息在CAD設(shè)計(jì)圖紙中的平面位置和圖形表 達(dá),以確定材料信息提取的準(zhǔn)確性,并將確認(rèn)后的材料信息存入數(shù)據(jù)庫。
全文摘要
本發(fā)明公開了一種基于模板的工程圖紙材料信息提取方法,包括由圖形軟件生成表格圖形、文字及表格單元填充規(guī)則描述信息,從而生成表格提取模板;讀入和識(shí)別提取模板中所包含的基本圖形元素類型信息、圖形屬性參數(shù)信息、規(guī)則描述信息和拓?fù)浣Y(jié)構(gòu)信息;分析所述提取模板的特征,按照拓?fù)浣Y(jié)構(gòu)信息形成表格特征描述;循環(huán)地讀入和識(shí)別CAD設(shè)計(jì)圖紙中基本圖形元素類型和圖形屬性參數(shù)信息,根據(jù)表格特征識(shí)別表格框架,形成表格框架集合;循環(huán)地識(shí)別每個(gè)表格框架集合的元素,讀入和識(shí)別基本圖形元素類型和圖形屬性參數(shù)信息;提取材料信息,并將材料信息存儲(chǔ)到數(shù)據(jù)庫中。本發(fā)明提高了表格特征的提取精度,保證了材料信息提取的語義關(guān)聯(lián)性和準(zhǔn)確性。
文檔編號(hào)G06K9/62GK101882225SQ20091024325
公開日2010年11月10日 申請日期2009年12月29日 優(yōu)先權(quán)日2009年12月29日
發(fā)明者何濤, 唐衛(wèi)清, 李士才, 石念峰 申請人:北京中科輔龍計(jì)算機(jī)技術(shù)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
汝南县| 浦东新区| 江油市| 滦平县| 镇沅| 天镇县| 潍坊市| 民丰县| 奉化市| 郴州市| 汉阴县| 京山县| 青龙| 佛教| 峨山| 大同县| 阿拉尔市| 黑龙江省| 始兴县| 宜宾市| 乐至县| 石屏县| 镇安县| 化州市| 大竹县| 白玉县| 田林县| 始兴县| 宣武区| 石柱| 云南省| 卢氏县| 建湖县| 股票| 射阳县| 定安县| 石台县| 阳原县| 高碑店市| 景泰县| 林州市|