本發(fā)明屬于建設行業(yè)工程項目文件處理領域,具體涉及一種建設行業(yè)工程項目excel文件數(shù)據格式化存儲方法及系統(tǒng)
背景技術:
excel文件作為數(shù)據格式化存儲已經在許多行業(yè)得到使用,但是建設行業(yè)還沒有一個通用、標準的數(shù)據格式化存儲方案,因此建設行業(yè)的各企業(yè)主要按照各自的意愿設置存儲格式進行存儲。這些存儲格式不統(tǒng)一的excel文件數(shù)據上傳到大數(shù)據分析平臺后,系統(tǒng)難以自動進行識別及分析,因此對分析工作帶來了很大困難?,F(xiàn)有的解決方案主要仍是通過人工進行識別及分析,效率很低且成本過高。
故而,現(xiàn)有技術需要進一步發(fā)展及改進。
技術實現(xiàn)要素:
本發(fā)明的目的在于解決建設行業(yè)中缺少excel文件數(shù)據的通用格式化存儲方案的問題,由此公開一種建設行業(yè)工程項目excel文件數(shù)據格式化存儲方法。同時,本發(fā)明還相應公開一種建設行業(yè)工程項目excel文件數(shù)據格式化存儲系統(tǒng)。
為了實現(xiàn)以上目的,本發(fā)明公開的一種建設行業(yè)工程項目excel文件數(shù)據格式化存儲方法,包括以下步驟:
a、基于分布式和高并發(fā)的計算機技術,在各客戶端上采集建設行業(yè)工程項目excel文件,并提取excel文件中的字段屬性信息;
b、根據提取的字段屬性信息進行坐標定位并提取有效的關鍵特征字段;
c、將有效的關鍵特征字段加入kafka消息隊列,并利用反垃圾大數(shù)據算法對導入的excel文件進行自動識別,識別出垃圾文件數(shù)據和標準格式數(shù)據;
d、將標準格式數(shù)據進行規(guī)約,并按照工程項目標準結構自動統(tǒng)計、匯總及存儲。
本發(fā)明的進一步方案中,步驟a中字段屬性信息包括行名稱和列名稱。
本發(fā)明的進一步方案中,步驟b中具體包括:將包含有關鍵特征字段的文本信息進行分詞處理,并與關鍵詞庫進行匹配,得到有效的關鍵特征字段。
本發(fā)明的進一步方案中,步驟c中的反垃圾大數(shù)據算法具體為simhash算法,通過simhash算法對關鍵特征字段相似對度進行計算及統(tǒng)計,識別出垃圾文件數(shù)據和標準格式數(shù)據。
本發(fā)明的進一步方案中,步驟d包括對標準格式數(shù)據按照工程項目數(shù)據層級進行統(tǒng)一編碼,以便于數(shù)據橫向及縱向對比分析。
本發(fā)明的進一步方案中,工程項目數(shù)據層級包括:建設項目、單項工程、單位工程、分部分項、清單、定額、消耗量、工料機數(shù)據。
本發(fā)明相應公開的一種建設行業(yè)工程項目excel文件數(shù)據格式化存儲系統(tǒng),包括字段屬性信息提取模塊、關鍵特征字段提取模塊、標準格式數(shù)據識別模塊、數(shù)據規(guī)約存儲模塊;其中,
字段屬性信息提取模塊用于在各客戶端上采集建設行業(yè)工程項目excel文件,并提取excel文件中的字段屬性信息;關鍵特征字段提取模塊用于根據提取的字段屬性信息進行坐標定位并提取有效的關鍵特征字段;標準格式數(shù)據識別模塊用于將有效的關鍵特征字段加入kafka消息隊列,并利用反垃圾大數(shù)據算法對導入的excel文件進行自動識別,識別出垃圾文件數(shù)據和標準格式數(shù)據;數(shù)據規(guī)約存儲模塊用于將標準格式數(shù)據進行規(guī)約,并按照工程項目標準結構自動統(tǒng)計、匯總及存儲。
有益效果:本發(fā)明通過提取excel文件數(shù)據的字段屬性信息以及關鍵特征字段,結合kafka消息隊列及反垃圾大數(shù)據算法識別出標準格式數(shù)據,以及對標準格式數(shù)據進行規(guī)約,并按照工程項目標準結構自動統(tǒng)計、匯總及存儲,從而實現(xiàn)了一種高效的建設行業(yè)工程項目excel文件數(shù)據格式化存儲方案,為建設行業(yè)excel文件數(shù)據的通用格式化存儲提供了參考案例。此外,本發(fā)明還具有識別效率更高、更準確等有益效果。
附圖說明
圖1是實施例一公開的建設行業(yè)工程項目excel文件數(shù)據格式化存儲方法整體流程示意圖。
圖2是實施例二公開的建設行業(yè)工程項目excel文件數(shù)據格式化存儲系統(tǒng)結構框圖。
具體實施方式
為了便于本領域技術人員理解,下面將結合附圖以及實施例對本發(fā)明進行進一步描述。
實施例一
請參閱圖1,實施例一公開的一種建設行業(yè)工程項目excel文件數(shù)據格式化存儲方法,主要包括以下步驟s100至s400:
s100、基于分布式和高并發(fā)的計算機技術,在各客戶端上采集建設行業(yè)工程項目excel文件,并提取excel文件中的字段屬性信息。
步驟s100中的字段屬性信息包括行名稱和列名稱。譬如某工程項目excel文件中的字段屬性信息有以下行名稱或列名稱:序號、定額編號、項目名稱、單位、數(shù)量、儀表名稱、單位定額值、合計值等。
s200、根據提取的字段屬性信息進行坐標定位并提取有效的關鍵特征字段。
譬如在以上工程項目excel文件中字段屬性信息的行名稱“項目名稱”進行坐標定位并提取到以下關鍵特征字段:保護倒換測試、敷設管道光纜、光纜割接、光纖連接、光纜中繼段雙窗口測試等。
步驟s200中具體包括:將包含有關鍵特征字段的文本信息進行分詞處理,并與關鍵詞庫進行匹配,得到有效的關鍵特征字段。
s300、將有效的關鍵特征字段加入kafka消息隊列,并利用反垃圾大數(shù)據算法對導入的excel文件進行自動識別,識別出垃圾文件數(shù)據和標準格式數(shù)據。
步驟s300中的反垃圾大數(shù)據算法具體為simhash算法,通過simhash算法對關鍵特征字段相似對度進行計算及統(tǒng)計,識別出垃圾文件數(shù)據和標準格式數(shù)據。
s400、將標準格式數(shù)據進行規(guī)約,并按照工程項目標準結構自動統(tǒng)計、匯總及存儲。
步驟s400包括對標準格式數(shù)據按照工程項目數(shù)據層級進行統(tǒng)一編碼,以便于數(shù)據橫向及縱向對比分析。
本實施例的工程項目數(shù)據層級包括:建設項目、單項工程、單位工程、分部分項、清單、定額、消耗量、工料機數(shù)據。
本實施例通過提取excel文件數(shù)據的字段屬性信息以及關鍵特征字段,結合kafka消息隊列及反垃圾大數(shù)據算法識別出標準格式數(shù)據,以及對標準格式數(shù)據進行規(guī)約,并按照工程項目標準結構自動統(tǒng)計、匯總及存儲,從而實現(xiàn)了一種高效的建設行業(yè)工程項目excel文件數(shù)據格式化存儲方案,為建設行業(yè)excel文件數(shù)據的通用格式化存儲提供了參考案例。
實施例二
請參閱圖2,實施例二相應公開的一種建設行業(yè)工程項目excel文件數(shù)據格式化存儲系統(tǒng),包括字段屬性信息提取模塊10、關鍵特征字段提取模塊20、標準格式數(shù)據識別模塊30、數(shù)據規(guī)約存儲模塊40。
其中,字段屬性信息提取模塊10用于在各客戶端上采集建設行業(yè)工程項目excel文件,并提取excel文件中的字段屬性信息;關鍵特征字段提取模塊20用于根據提取的字段屬性信息進行坐標定位并提取有效的關鍵特征字段;標準格式數(shù)據識別模塊30用于將有效的關鍵特征字段加入kafka消息隊列,并利用反垃圾大數(shù)據算法對導入的excel文件進行自動識別,識別出垃圾文件數(shù)據和標準格式數(shù)據;數(shù)據規(guī)約存儲模塊40用于將標準格式數(shù)據進行規(guī)約,并按照工程項目標準結構自動統(tǒng)計、匯總及存儲。
實施例二與實施例一相對,其工作原理及有益效果與實施例一相同,這里不再贅述。
以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權利要求為準。