一種基于ocr識別和任務(wù)碎片化的單證數(shù)據(jù)錄入方法
【專利摘要】本發(fā)明涉及一種基于OCR識別和任務(wù)碎片化的單證數(shù)據(jù)錄入方法,其步驟包括:1)讀取單證的影像數(shù)據(jù),并根據(jù)單證的標(biāo)本信息數(shù)據(jù)將影像數(shù)據(jù)分成各類單證;2)采用OCR技術(shù)對單證的影像數(shù)據(jù)進行識別,得到各字段的內(nèi)容;3)根據(jù)OCR識別的字段內(nèi)容和各字段間的關(guān)系設(shè)置,判斷各字段是否需要錄入;4)根據(jù)OCR坐標(biāo)定位對需要錄入的字段進行切分,將其分切成若干碎片并分配成多個任務(wù),通過互聯(lián)網(wǎng)進行碎片式錄入。之后還可包括數(shù)據(jù)核對、字段值整合、字段邏輯檢查等步驟。本發(fā)明結(jié)合OCR識別技術(shù)與互聯(lián)網(wǎng)資源,解決了影像模糊、不能精準(zhǔn)定位等問題,減少了大量錄入字段,能夠大大提高數(shù)據(jù)處理的產(chǎn)能、質(zhì)量和效率。
【專利說明】—種基于OCR識別和任務(wù)碎片化的單證數(shù)據(jù)錄入方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于影像數(shù)據(jù)識別與處理【技術(shù)領(lǐng)域】,具體涉及一種基于OCR識別和任務(wù)碎片化的單證數(shù)據(jù)錄入方法。
【背景技術(shù)】
[0002]通常情況下,現(xiàn)有的數(shù)據(jù)處理系統(tǒng)的處理流程大都是:影像入庫一單證分類一一設(shè)置默認(rèn)坐標(biāo)——數(shù)據(jù)錄入——數(shù)據(jù)核對——輸出成品。在這種業(yè)務(wù)流程下處理數(shù)據(jù)錄入業(yè)務(wù),需要定義項目處理規(guī)則,對作業(yè)人員進行數(shù)據(jù)錄入、核對作業(yè)的一系列培訓(xùn),項目才可以正式上線。
[0003]傳統(tǒng)數(shù)據(jù)處理公司的系統(tǒng)業(yè)務(wù)流程過于粗化,影像入庫、單證分類后直接獲取默認(rèn)坐標(biāo)定位,中間未對影像進行糾偏、去噪點等使影像清晰化的處理。這樣生成的錄入任務(wù)就會出現(xiàn)影像坐標(biāo)與錄入字段偏離、影像字段內(nèi)容模糊等問題,影響錄入任務(wù)的準(zhǔn)確性及錄入速度。而且由于以整張單證作為處理單元,不利于多人協(xié)同作業(yè)。另外,項目質(zhì)量完全由作業(yè)人員把關(guān),系統(tǒng)沒有一套全面的邏輯檢查規(guī)則,對客戶來講項目質(zhì)量無法得到較大保障。
[0004]現(xiàn)有的這種業(yè)務(wù)流程在獲取到字段坐標(biāo)后直接全部生成錄入任務(wù),中間未對影像各字段坐標(biāo)內(nèi)容進行識別判斷是否為有填寫,因數(shù)據(jù)處理業(yè)務(wù)經(jīng)常會有很多影像字段內(nèi)容為空,不進行空白判斷直接生成任務(wù),就會導(dǎo)致出現(xiàn)大量空白的錄入任務(wù),這些沒有內(nèi)容的錄入任務(wù)會直接影響到我們作業(yè)人員的業(yè)務(wù)處理速度從而增加業(yè)務(wù)交付延時的風(fēng)險。
[0005]同時,采用目前這種傳統(tǒng)業(yè)務(wù)處理流程,公司需配備大量機器設(shè)備、招募大量作業(yè)人員,還需要根據(jù)業(yè)務(wù)規(guī)則進行強規(guī)則培訓(xùn)等一系列事宜,無疑大大增加了公司的運營成本。
【發(fā)明內(nèi)容】
[0006]本發(fā)明提供一種基于OCR識別、任務(wù)碎片化的單證數(shù)據(jù)錄入方法,對數(shù)據(jù)處理流程進行深度細(xì)化,并結(jié)合互聯(lián)網(wǎng)資源,解決了影像模糊、不能精準(zhǔn)定位和難以大規(guī)模生產(chǎn)等問題。精準(zhǔn)的OCR識別減少了大量錄入字段,結(jié)合業(yè)務(wù)規(guī)則的有效性驗證,使得在保證質(zhì)量的同時充分結(jié)合互聯(lián)網(wǎng)資源進行大規(guī)模生產(chǎn)成為可能,能夠大大提高數(shù)據(jù)處理的產(chǎn)能、質(zhì)量和效率。
[0007]為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0008]一種基于OCR識別和任務(wù)碎片化的單證數(shù)據(jù)錄入方法,其步驟包括:
[0009]I)單證分類:讀取單證的影像數(shù)據(jù),并根據(jù)單證的標(biāo)本信息數(shù)據(jù)將影像數(shù)據(jù)分成各類單證模板;
[0010]2)0CR識別:采用OCR技術(shù)對單證的影像數(shù)據(jù)進行識別,得到各字段的內(nèi)容;
[0011]3)錄入策略優(yōu)化:根據(jù)OCR識別的字段內(nèi)容和各字段間的關(guān)系設(shè)置,判斷各字段是否需要錄入;
[0012]4)數(shù)據(jù)錄入:根據(jù)OCR坐標(biāo)定位對需要錄入的字段進行切分,根據(jù)規(guī)則將其分切成若干碎片并分配成多個錄入任務(wù),通過互聯(lián)網(wǎng)進行碎片式錄入。
[0013]進一步地,步驟2)所述采用OCR技術(shù)對單證進行識別,包括影像處理、字段坐標(biāo)定位和字段值識別,得到各字段的內(nèi)容以及精準(zhǔn)坐標(biāo),同時剔除無內(nèi)容字段。
[0014]進一步地,步驟4)將錄入字段按切片內(nèi)容的難宜、重要程度、系統(tǒng)的邏輯配置和驗證強度,可動態(tài)生成需要執(zhí)行的錄入次數(shù),通過一次或數(shù)次完成錄入任務(wù)。
[0015]進一步地,步驟4)之后進行數(shù)據(jù)核對,并將數(shù)據(jù)字段值整合。如同一個字段進行多次錄入的結(jié)果不一致時,核對人員可以根據(jù)之前錄入的結(jié)果進行比較、修改,填寫正確的字段值。
[0016]進一步地,在字段值整合后還包括邏輯檢查步驟。邏輯檢查是將各字段的最終錄入值根據(jù)配置好的各自的邏輯檢查規(guī)則,進行邏輯校驗與轉(zhuǎn)換,生成字段成品值。邏輯檢查分為:單字段邏輯檢查和字段間的邏輯檢查。
[0017]進一步地,在邏輯檢查后進行成品檢查及輸出步驟。
[0018]與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)相比,本發(fā)明的有益效果如下:
[0019]I)本發(fā)明對數(shù)據(jù)處理流程進行深度細(xì)化,結(jié)合互聯(lián)網(wǎng)資源可更加快速、大量交付客戶成品。系統(tǒng)增加精準(zhǔn)定位(OCR識別技術(shù))、策略優(yōu)化、邏輯檢查、互聯(lián)網(wǎng)錄入等特性,大大提高了數(shù)據(jù)處理的產(chǎn)能、質(zhì)量和效率,解決了影像模糊、不能精準(zhǔn)定位等問題,減少了大量錄入字段,同時通過大量的業(yè)務(wù)規(guī)則進行邏輯檢查保證數(shù)據(jù)的正確性。
[0020]2)本發(fā)明的整個業(yè)務(wù)處理流程通過配置完成,各流程模塊獨立,可根據(jù)業(yè)務(wù)需要靈活地配置運行流程,足以滿足現(xiàn)代客戶的多樣化需求。業(yè)務(wù)規(guī)則需求基本都可以通過配置直接完成,不需要額外編寫大量代碼,系統(tǒng)的易用、實用性強。與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)相t匕,可以更快速的上線項目,且系統(tǒng)可以非常穩(wěn)定的7*24小時順利運行。
[0021]3)本發(fā)明的數(shù)據(jù)處理流程打破傳統(tǒng)數(shù)據(jù)處理業(yè)務(wù)模式,將針對錄入人員的大量復(fù)雜的業(yè)務(wù)規(guī)則通過系統(tǒng)后臺的業(yè)務(wù)規(guī)則引擎來完成,滿足了互聯(lián)網(wǎng)對錄入碎片化、無規(guī)則的需求,企業(yè)不需要準(zhǔn)備較大場地、招聘大量作業(yè)人員、采購大量設(shè)備、進行大量繁雜規(guī)則培訓(xùn),運營成本可實現(xiàn)大幅度降低、業(yè)務(wù)處理效率可得以大幅度提高。
[0022]4)本發(fā)明的業(yè)務(wù)流程系統(tǒng)采用互聯(lián)網(wǎng)化作業(yè)錄入模式,通過互聯(lián)網(wǎng)平臺為大眾提供了利用閑暇時間兼職就業(yè)的機會,能夠加速促進服務(wù)流程外包產(chǎn)業(yè)的轉(zhuǎn)型升級和發(fā)展,滿足客戶多樣化需求,降低自身企業(yè)運營成本的同時又能按時、按質(zhì)向客戶提供更好的服務(wù)。
【專利附圖】
【附圖說明】
[0023]圖1是實施例中基于OCR識別和任務(wù)碎片化的單證數(shù)據(jù)錄入方法的步驟流程圖。
[0024]圖2是實施例中進行碎片式互聯(lián)網(wǎng)錄入的步驟流程圖。
【具體實施方式】
[0025]下面通過具體實施例和附圖,對本發(fā)明做進一步說明。
[0026]圖1是本發(fā)明的基于OCR識別和任務(wù)碎片化的單證數(shù)據(jù)錄入方法的步驟流程圖,如該圖所示,其運作流程為:
[0027]影像入庫——單證分類——OCR識別——錄入策略優(yōu)化——數(shù)據(jù)錄入——數(shù)據(jù)核對——字段值整合——字段邏輯檢查——成品檢查——輸出(定制化客戶成品)。
[0028]上述流程中的各個步驟具體介紹如下:
[0029]1.影像入庫
[0030]程序自動讀取下載客戶傳輸?shù)挠跋駭?shù)據(jù)包并導(dǎo)入系統(tǒng)。影像數(shù)據(jù)包是指客戶對外包項目影像通過一定的規(guī)則和格式掃描后壓縮形成的圖片文件壓縮包。
[0031]2.單證分類
[0032]根據(jù)寫入系統(tǒng)的各項目單證規(guī)則,自動識別讀取入庫影像相關(guān)信息,將其分成與系統(tǒng)模板相對應(yīng)的各類單證。系統(tǒng)模板是運用建模程序生成的各類單證的標(biāo)本信息數(shù)據(jù)。此分類過程由程序自動完成。
[0033]3.0CR 識別
[0034]OCR識別節(jié)點對單證進行三步處理:影像處理、字段坐標(biāo)定位、字段值識別。
[0035]影像處理是對原始影像進行糾偏、清晰化處理,使影像字段內(nèi)容更清晰,獲取的字段位置更精準(zhǔn),方便快速錄入作業(yè)。
[0036]字段坐標(biāo)定位是根據(jù)模板坐標(biāo)配置,通過OCR識別技術(shù)對需要錄入的字段進行坐標(biāo)定位。
[0037]字段值識別是根據(jù)字段坐標(biāo)位置,通過OCR技術(shù)識別字段的填寫內(nèi)容。
[0038]4.錄入策略優(yōu)化
[0039]錄入策略優(yōu)化是根據(jù)OCR識別的字段內(nèi)容和各字段間的關(guān)系設(shè)置,來判斷及決定各字段是否需要錄入。
[0040]例如:通過被保人姓名和證件號碼這兩個字段的識別內(nèi)容,來判斷整個被保人信息(包括性別、生日、住址、電話等)是否為空。根據(jù)各單證規(guī)則,一般情況下如果客戶資料的姓名和證件號碼沒有填寫,其他信息也都為空。故此例可根據(jù)被保人姓名和證件號碼兩個字段的OCR識別內(nèi)容是否為空,來判斷整個被保人信息是否需要錄入。
[0041]此外其它一些單個字段也可以根據(jù)OCR的字段識別內(nèi)容判斷是否需要錄入,如基本資料、單位信息、健康信息、財務(wù)信息等的單個的勾選類和錄入類字段,都可根據(jù)此字段的OCR識別內(nèi)容來確定是否需要錄入:識別為空時字段判定為空,不需要錄入;識別有內(nèi)容且內(nèi)容完整時,可直接取識別內(nèi)容作為字段值,也不需要進行錄入;當(dāng)識別內(nèi)容不完整或無法識別出內(nèi)容時,則字段需要生成人工錄入任務(wù)。
[0042]5.數(shù)據(jù)錄入
[0043]將錄入字段按設(shè)定好的規(guī)則分配成多個錄入任務(wù),采用碎片式互聯(lián)網(wǎng)錄入。碎片式互聯(lián)網(wǎng)錄入是指將字段分切成若干碎片,打亂順序后分別放到網(wǎng)上錄入系統(tǒng)進行處理。生成的碎片是根據(jù)錄入字段的OCR坐標(biāo)定位精準(zhǔn)切分的,字段切片完整,內(nèi)容清晰。圖2是進行碎片式互聯(lián)網(wǎng)錄入的流程圖。
[0044]采用碎片式互聯(lián)網(wǎng)錄入可以較好的保護客戶信息資料的安全,另外碎片式錄入切片精細(xì)簡短,錄入人員只需照圖錄入即可,不需要去記大量錄入相關(guān)規(guī)則,每個切片內(nèi)容簡短也有利于提高錄入內(nèi)容的準(zhǔn)確性,利用互聯(lián)網(wǎng)資源可以更快速的完成交付,縮短任務(wù)處理時間。
[0045]例如:證件號碼字段。中文單證證件號碼基本都是身份證號碼,針對身份證號碼字段,為做好資料保密工作,系統(tǒng)將其拆分切成3個碎片(也可以是其它數(shù)量,可根據(jù)業(yè)務(wù)和字段情況靈活配置)打亂順序后分別放到網(wǎng)上錄入系統(tǒng)進行處理,分兩次完成。具體做法如下:
[0046]I)證件號碼的前兩個切片字段(比如前6位和中間8位)直接獲取之前的OCR識別值,暫不分配任務(wù),證件號碼最后一個字段(最后4位)分配到網(wǎng)上一錄(即互聯(lián)網(wǎng)的第一次錄入);
[0047]2)在分配出去的所有第一次網(wǎng)上錄入整字段和拆分字段的錄入數(shù)據(jù)全部回來之后,將各字段的錄入值以整字段為單位整合到一起,并將證件號碼前兩個字段的OCR值和最后一個字段的網(wǎng)上錄入值合在一起;
[0048]3)對整合后的數(shù)據(jù)進行身份證系統(tǒng)校驗,看是否合法(身份證的驗證可以采用現(xiàn)有算法),合法的直接進入下一步流程,不合法時將證件號碼的前兩個字段通過二次生成任務(wù)分配到網(wǎng)上進行再次錄入(即互聯(lián)網(wǎng)的第二次錄入);
[0049]4)以最終錄入值再進行身份證合法驗證,合法則直接通過,不合法時將整個字段值回收到內(nèi)部程序由質(zhì)檢人員進行審查。
[0050]6.數(shù)據(jù)核對
[0051]數(shù)據(jù)核對是在同一錄入字段的兩錄處理結(jié)果不一致時,生成的由人工判斷錄入結(jié)果有效性的任務(wù)。兩錄處理結(jié)果均無效時,核對人員可以自行修改或填寫字段的正確值。
[0052]7.字段值整合
[0053]字段值整合是將字段的錄入值與核對值,通過配置的規(guī)則整合到一起,生成整份單證各字段的最終錄入值。整合過程由程序自動完成。
[0054]8.邏輯檢查
[0055]邏輯檢查是將各字段的最終錄入值根據(jù)配置好的各自的邏輯檢查規(guī)則,進行邏輯校驗與轉(zhuǎn)換,生成字段成品值。邏輯檢查分為單字段邏輯檢查和字段間的邏輯檢查。
[0056]單字段檢查就是對于單個字段根據(jù)配置規(guī)則進行邏輯驗證。例如電子郵箱字段,一般電子郵箱都會有固定的字符和格式,比如:電子郵箱里一定有一個@符號等。據(jù)此先配置好電子郵箱的邏輯檢查規(guī)則。當(dāng)錄入值與規(guī)則不符合時,經(jīng)過邏輯檢查流程時就會被提取出來。
[0057]字段間檢查就是根據(jù)各字段之間的關(guān)系規(guī)則將相關(guān)字段相連一起檢查,當(dāng)邏輯驗證不通過時,系統(tǒng)會根據(jù)配置將相關(guān)字段的某個字段或全部字段提取出來。例如:國籍和證件號碼字段,證件號碼填寫的是身份證號碼時國籍肯定是中國。當(dāng)國籍錄入值不是中國時,系統(tǒng)就會把國籍字段或證件號碼字段單獨或全部提取出來,再次進行錄入值的審查。
[0058]部分字段可以設(shè)置單字段檢查和字段間檢查雙重邏輯驗證。例如:區(qū)號和郵編字段,即可以根據(jù)自身規(guī)則進行單字段的檢查驗證,也可以和地址字段結(jié)合起來,驗證填寫的區(qū)號和郵編與地址信息是否對應(yīng),加強字段錄入值準(zhǔn)確性的把關(guān)。
[0059]9.成品檢查
[0060]成品檢查是將邏輯檢查驗證失敗提取出來的字段生成人工成品檢查任務(wù),由專業(yè)人員檢查、判斷及修改。成品檢查完成后生成的就是最終的單證字段成品值。
[0061]10.輸出
[0062]輸出就是提取單證字段最終成品值,按照客戶需求轉(zhuǎn)換輸出到相應(yīng)格式的成品文件中。通過網(wǎng)絡(luò)服務(wù)上傳到客戶指定成品接收目錄。
[0063]以上實施例僅用以說明本發(fā)明的技術(shù)方案而非對其進行限制,本領(lǐng)域的普通技術(shù)人員可以對本發(fā)明的技術(shù)方案進行修改或者等同替換,而不脫離本發(fā)明的精神和范圍,本發(fā)明的保護范圍應(yīng)以權(quán)利要求所述為準(zhǔn)。
【權(quán)利要求】
1.一種基于OCR識別和任務(wù)碎片化的單證數(shù)據(jù)錄入方法,其步驟包括: 1)讀取單證的影像數(shù)據(jù),并根據(jù)單證的標(biāo)本信息數(shù)據(jù)將影像數(shù)據(jù)分成各類單證; 2)采用OCR技術(shù)對單證的影像數(shù)據(jù)進行識別,得到各字段的內(nèi)容; 3)根據(jù)OCR識別的字段內(nèi)容和各字段間的關(guān)系設(shè)置,判斷各字段是否需要錄入; 4)根據(jù)OCR坐標(biāo)定位對需要錄入的字段進行切分,將其分切成若干碎片并分配成多個任務(wù),通過互聯(lián)網(wǎng)進行碎片式錄入。
2.如權(quán)利要求1所述的方法,其特征在于:步驟2)所述采用OCR技術(shù)對單證進行識別,包括影像處理、字段坐標(biāo)定位和字段值識別。
3.如權(quán)利要求1所述的方法,其特征在于:步驟3)根據(jù)姓名和證件號碼兩個字段的OCR識別內(nèi)容是否為空來判斷各字段是否需要錄入。
4.如權(quán)利要求1所述的方法,其特征在于:步驟3)根據(jù)單個字段的OCR識別內(nèi)容判斷是否需要錄入:識別為空時字段判定為空,不需要錄入;識別有內(nèi)容且內(nèi)容完整時,直接取識別內(nèi)容做為字段值,也不需要進行錄入;當(dāng)識別內(nèi)容不完整或無法識別出內(nèi)容時,則生成人工錄入任務(wù)。
5.如權(quán)利要求1所述的方法,其特征在于:步驟4)將錄入字段按切片內(nèi)容的難宜、重要程度、系統(tǒng)的邏輯配置和驗證強度動態(tài)生成需要執(zhí)行的錄入次數(shù),通過一次或數(shù)次完成錄入任務(wù)。
6.如權(quán)利要求5所述的方法,其特征在于:姓名、性別、生日、地址和電話字段直接一次完成錄入任務(wù)生成;證件號碼字段分兩次完成錄入任務(wù)生成,如果第一次回歸值驗證正確則不需要進行二次任務(wù)生成;單位名稱字段不進行第一次的任務(wù)生成,等第一次生成任務(wù)的字段錄入值回歸后直接在二次生成時進行單位名稱字段的任務(wù)分配。
7.如權(quán)利要求1至6中任一項所述的方法,其特征在于,步驟4)之后還包括數(shù)據(jù)核對和字段值整合步驟,其中:數(shù)據(jù)核對是在同一錄入字段的兩錄處理結(jié)果不一致時,生成的由人工判斷錄入結(jié)果有效性的任務(wù),兩錄處理結(jié)果均無效時,核對人員可以自行修改或填寫字段的正確值;字段值整合是將字段的錄入值與核對值,整合到一起生成整份單證各字段的最終錄入值。
8.如權(quán)利要求7所述的方法,其特征在于:在字段值整合后還包括邏輯檢查步驟,將各字段的最終錄入值根據(jù)配置好的各自的邏輯檢查規(guī)則,進行邏輯校驗與轉(zhuǎn)換,生成字段成品值。
9.如權(quán)利要求8所述的方法,其特征在于:所述邏輯檢查分為單字段邏輯檢查和字段間的邏輯檢查。
10.如權(quán)利要求8所述的方法,其特征在于,在邏輯檢查后進行成品檢查及輸出步驟,其中:成品檢查是將邏輯檢查驗證失敗提取出來的字段生成人工成品檢查任務(wù),由專業(yè)人員檢查、判斷及修改,從而得到最終的單證字段成品值;輸出是提取單證字段最終成品值,按照客戶需求轉(zhuǎn)換輸出到相應(yīng)格式的成品文件中,通過網(wǎng)絡(luò)服務(wù)上傳到客戶指定的成品接收目錄。
【文檔編號】G06K9/20GK104077682SQ201410307381
【公開日】2014年10月1日 申請日期:2014年6月30日 優(yōu)先權(quán)日:2014年6月30日
【發(fā)明者】金東旭, 刁維臻 申請人:昆山云景網(wǎng)絡(luò)科技有限公司