本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,具體而言,涉及一種二維數(shù)據(jù)清洗方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,計(jì)算機(jī)技術(shù)對(duì)人們的生活和工作產(chǎn)生了日益深入的影響,越來(lái)越多的領(lǐng)域使用計(jì)算機(jī)技術(shù)來(lái)幫助處理二維數(shù)據(jù),這與人工處理相比大大提高了效率和準(zhǔn)確性。
二維數(shù)據(jù)通常承載在二維表格形式中。二維表格以“行”為主要單位,每行內(nèi)有很多“單元格”;不同行但同一列的“單元格”通常存儲(chǔ)的是同一用途的數(shù)據(jù)。在計(jì)算機(jī)系統(tǒng)中,常用的二維表格形式的文件類型包括,例如,后綴名為“.xls”或“.xlsx”的excel文件、后綴名為“.csv”的文本文件等。這些文件類型之間的區(qū)別僅僅在于數(shù)據(jù)存儲(chǔ)的形式不同或者數(shù)據(jù)是否經(jīng)過(guò)壓縮。數(shù)據(jù)和承載其的文件之間是相互獨(dú)立的。通過(guò)一些計(jì)算機(jī)軟件,可以從不同文件類型中讀取二維數(shù)據(jù),也可以將二維數(shù)據(jù)寫入不同的文件類型中。
在數(shù)據(jù)的定量研究和輕量級(jí)數(shù)據(jù)處理中,均需要對(duì)數(shù)據(jù)進(jìn)行清洗處理,以剔除異常數(shù)據(jù),保證數(shù)據(jù)結(jié)果的信度和效度。數(shù)據(jù)清洗是指,對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)的一致性。
目前,excel軟件自身可提供一些數(shù)據(jù)清洗功能,但需要使用者熟悉excel的操作,這對(duì)于初學(xué)者來(lái)說(shuō)可能是相當(dāng)復(fù)雜的。在使用者只希望對(duì)二維數(shù)據(jù)表格進(jìn)行清洗處理而不會(huì)用到excel的其它功能的情況下,為此學(xué)習(xí)excel的復(fù)雜操作對(duì)于使用者來(lái)說(shuō)無(wú)疑是耗時(shí)而且低效的。
另外,excel自身提供的功能存在一定的局限性。常見(jiàn)的excel數(shù)據(jù)篩選方式主要有3種:自動(dòng)篩選命令、函數(shù)公式和vba(visualbasicforapplications)。其中,自動(dòng)篩選命令和函數(shù)公式是excel軟件中提供的兩種數(shù)據(jù)篩選功能;vba是visualbasic的一種宏語(yǔ)言,是由微軟公司開(kāi)發(fā)的、在其桌面應(yīng)用程序中執(zhí)行通用的自動(dòng)化(ole)任務(wù)的編程語(yǔ)言,主要用來(lái)擴(kuò)展windows的應(yīng)用的功能,特別是microsoftoffice軟件。
通過(guò)excel自身的篩選命令和函數(shù)公式或用戶自己編寫的vba程序?qū)?shù)據(jù)進(jìn)行清洗,對(duì)于使用者來(lái)說(shuō)也存在著一定的門檻或局限性,學(xué)習(xí)成本較高。首先,對(duì)于篩選命令,需要使用者熟練掌握excel軟件的使用方法,存在一定的操作門檻。其次,excel自帶的函數(shù)公式,只提供部分功能,存在一定的局限性。最后,編寫vba程序則進(jìn)一步要求使用者具備編程能力。
因此,對(duì)于不具備編程能力或不熟悉excel使用方法的廣大普通使用者來(lái)說(shuō),迫切需要一種更加用戶友好的、容易操作、直觀的數(shù)據(jù)清洗方法和系統(tǒng)。
技術(shù)實(shí)現(xiàn)要素:
為了解決現(xiàn)有技術(shù)中存在的一個(gè)或多個(gè)問(wèn)題,本發(fā)明提供一種用于二維數(shù)據(jù)清洗的方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
根據(jù)本發(fā)明的一方面,提供了一種用于二維數(shù)據(jù)清洗的方法,其特征在于,包括:以可視化方式將用于二維數(shù)據(jù)進(jìn)行清洗的篩選條件提供給用戶,其中,所述篩選條件包括單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯中的一個(gè)或多個(gè)的組合;響應(yīng)于用戶輸入,接收用戶選擇的篩選條件;以及根據(jù)所述篩選條件對(duì)所述二維數(shù)據(jù)進(jìn)行清洗。
在一個(gè)實(shí)施例中,在以可視化方式將篩選條件提供給用戶之前,還包括:接收承載二維數(shù)據(jù)的文件,并將所接收的文件解析為預(yù)定格式的二維數(shù)據(jù);在根據(jù)所述篩選條件對(duì)所述二維數(shù)據(jù)進(jìn)行清洗之后,還包括:將清洗后的二維數(shù)據(jù)轉(zhuǎn)換為承載二維數(shù)據(jù)的所述文件所需的格式,生成并輸出二維數(shù)據(jù)清洗后的文件。
在一個(gè)實(shí)施例中,以可視化方式將用于二維數(shù)據(jù)進(jìn)行清洗的篩選條件提供給用戶還包括:以可視化方式將與/或運(yùn)算符選項(xiàng)提供給用戶;篩選條件包括:?jiǎn)瘟羞\(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯,響應(yīng)于用戶輸入,通過(guò)與/或運(yùn)算符的組合;根據(jù)篩選條件對(duì)所述二維數(shù)據(jù)進(jìn)行清洗包括:對(duì)單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯的計(jì)算結(jié)果執(zhí)行相應(yīng)的與/或運(yùn)算。
在一個(gè)實(shí)施例中,以可視化方式將用于二維數(shù)據(jù)進(jìn)行清洗的篩選條件提供給用戶還包括:以可視化方式將優(yōu)先級(jí)選項(xiàng)提供給用戶;所述篩選條件包括:響應(yīng)于用戶輸入,在所述單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯間,通過(guò)與/或運(yùn)算符的組合中設(shè)置優(yōu)先級(jí)順序;所述根據(jù)所述篩選條件對(duì)所述二維數(shù)據(jù)進(jìn)行清洗包括:按照所設(shè)置的優(yōu)先級(jí)順序,對(duì)所述單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯的計(jì)算結(jié)果執(zhí)行相應(yīng)的與/或運(yùn)算。
在一個(gè)實(shí)施例中,該數(shù)據(jù)清洗方法還包括以可視化方式將保留和剔除選項(xiàng)提供給用戶,響應(yīng)于用戶輸入,在用戶選擇保留時(shí),將滿足所述篩選條件的數(shù)據(jù)保留;并且在用戶選擇剔除時(shí),將滿足所述篩選條件的數(shù)據(jù)剔除。
根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)以上所述的方法。
根據(jù)本發(fā)明的又一方面,提供了一種用于二維數(shù)據(jù)清洗的設(shè)備,其特征在于,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,其用于存儲(chǔ)一個(gè)或多個(gè)程序,其中,當(dāng)一個(gè)或多個(gè)程序被該一個(gè)或多個(gè)處理器執(zhí)行,使得該一個(gè)或多個(gè)處理器實(shí)現(xiàn)以上所述的方法。
根據(jù)本發(fā)明的再一方面,提供了一種用于二維數(shù)據(jù)清洗的系統(tǒng),其特征在于,包括:篩選條件顯示單元,用于以可視化方式將篩選條件提供給用戶,其中,所述篩選條件包括單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯中的一個(gè)或多個(gè)的組合;用戶接口單元,用于響應(yīng)于用戶輸入,接收用戶選擇的篩選條件;以及數(shù)據(jù)清洗單元,用于根據(jù)所述篩選條件對(duì)所述二維數(shù)據(jù)進(jìn)行清洗。
在一個(gè)實(shí)施例中,該系統(tǒng)還包括:文件接收單元,用于接收承載二維數(shù)據(jù)的文件數(shù)據(jù);文件解析單元,用于將所接收的文件解析為預(yù)定格式的二維數(shù)據(jù);數(shù)據(jù)導(dǎo)出單元,用于將清洗后的二維數(shù)據(jù)轉(zhuǎn)換為承載二維數(shù)據(jù)的所述文件所需的格式,并生成完成數(shù)據(jù)清洗后的文件。
在一個(gè)實(shí)施例中,篩選條件顯示單元還用于以可視化方式將與/或運(yùn)算符選項(xiàng)提供給用戶;用戶接口單元還用于響應(yīng)于用戶輸入,接收用戶選擇的與/或運(yùn)算符選項(xiàng);數(shù)據(jù)清洗單元還用于根據(jù)接收的與/或運(yùn)算符選項(xiàng),將所述單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯通過(guò)與/或運(yùn)算符的組合,并對(duì)所述單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯的計(jì)算結(jié)果執(zhí)行相應(yīng)的與/或運(yùn)算。
在一個(gè)實(shí)施例中,篩選條件顯示單元還用于以可視化方式將優(yōu)先級(jí)選項(xiàng)提供給用戶;用戶接口單元還用于響應(yīng)于用戶輸入,接收用戶選擇的優(yōu)先級(jí)選項(xiàng);數(shù)據(jù)清洗單元還用于根據(jù)接收的優(yōu)先級(jí)選項(xiàng),在單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯通過(guò)與/或運(yùn)算符的組合中設(shè)置優(yōu)先級(jí)順序,并按照所設(shè)置的優(yōu)先級(jí)順序,對(duì)單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯的計(jì)算結(jié)果執(zhí)行相應(yīng)的與/或運(yùn)算。
通過(guò)本發(fā)明提供的方法和系統(tǒng),能夠通過(guò)完全可視化的方式使用戶能夠輕松地對(duì)二維數(shù)據(jù)進(jìn)行清洗,提高了效率。
應(yīng)當(dāng)理解的是,以上的一般性描述和后文的詳細(xì)描述僅是示例性的,并不能限制本發(fā)明。
附圖說(shuō)明
下面將參照附圖詳細(xì)描述本發(fā)明的示例實(shí)施例,本發(fā)明的上述和其它目標(biāo)、特征和優(yōu)點(diǎn)將變得更加顯而易見(jiàn)。
圖1是根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例的二維數(shù)據(jù)清洗方法的流程圖。
圖2具體示出了圖1所示的實(shí)施例中的接收并解析承載二維數(shù)據(jù)的文件的流程圖。
圖3具體示出了圖1所示的實(shí)施例中的數(shù)據(jù)清洗部分的示意性框圖。
圖4具體示出了圖1所示的實(shí)施例中的導(dǎo)出文件的流程圖。
圖5-圖9示出了本發(fā)明的示例性實(shí)施例中的使用可視化用戶界面選擇篩選條件和篩選方式的例子。
圖10示出了適于用來(lái)實(shí)現(xiàn)本發(fā)明的一個(gè)示例性實(shí)施例的數(shù)據(jù)清洗設(shè)備的計(jì)算機(jī)設(shè)備100的結(jié)構(gòu)示意圖。
圖11示出了根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例的系統(tǒng)框圖。
圖12示出了根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例的原始數(shù)據(jù)的一個(gè)例子。
圖13示出了根據(jù)本發(fā)明的刪除重復(fù)數(shù)據(jù)的一個(gè)例子。
圖14示出了根據(jù)本發(fā)明的單列運(yùn)算邏輯清洗數(shù)據(jù)的一個(gè)例子。
圖15示出了根據(jù)本發(fā)明的多列運(yùn)算邏輯清洗數(shù)據(jù)的一個(gè)例子。
圖16示出了根據(jù)本發(fā)明的雙列范圍邏輯清洗數(shù)據(jù)的一個(gè)例子。
圖17示出了本發(fā)明的另一個(gè)實(shí)例的數(shù)據(jù)清洗結(jié)果。
具體實(shí)施方式
現(xiàn)將參考附圖更全面地描述本發(fā)明的示例性實(shí)施例。應(yīng)理解,本文中的示例性實(shí)施例僅是提供用來(lái)幫助理解本發(fā)明,而不應(yīng)以任何形式限制本發(fā)明。提供這些實(shí)施例是為了使本發(fā)明的描述更加全面和完整,并將示例性實(shí)施例的構(gòu)思全面地傳達(dá)給本領(lǐng)域的技術(shù)人員。附圖僅為本發(fā)明的示意性圖解,并非一定是按比例繪制。圖中相同的附圖標(biāo)記表示相同或類似的部分,因而將省略對(duì)它們的重復(fù)描述。
此外,本文描述的特征、結(jié)構(gòu)或優(yōu)點(diǎn)可以以任何合適的方式結(jié)合在一個(gè)或更多實(shí)施例中。在下面的描述中,提供許多具體細(xì)節(jié)從而給出對(duì)本發(fā)明的實(shí)施方式的充分理解。然而,本領(lǐng)域技術(shù)人員將意識(shí)到,可以實(shí)踐本發(fā)明的技術(shù)方案而省略特定細(xì)節(jié)中的一個(gè)或多個(gè),或者可以采用其它等效的方法、方式、裝置、步驟等來(lái)代替。為了簡(jiǎn)明起見(jiàn),對(duì)于本領(lǐng)域中公知的結(jié)構(gòu)、方法、裝置、實(shí)現(xiàn)或者操作,將不再贅述。
在以下對(duì)示例性實(shí)施例的詳細(xì)描述中,將使用excel文件作為承載二維數(shù)據(jù)的文件格式作為例子進(jìn)行說(shuō)明。但應(yīng)理解,本發(fā)明的技術(shù)方案不僅適用于excel文件,而是根據(jù)實(shí)際應(yīng)用需要,可應(yīng)用于可承載或者包含有二維數(shù)據(jù)的任何文件格式。常用的二維表格形式的文件類型包括但不限于后綴名為例如,“.xls”或“.xlsx”的excel文件,后綴名為例如“.csv”等的文本文件。另外,在以下示例性實(shí)施例中,由計(jì)算機(jī)處理器來(lái)執(zhí)行本發(fā)明的方法,但應(yīng)理解,該方法同樣可以由操作系統(tǒng)為windows7+、macos、linux的平板電腦、膝上型電腦、個(gè)人數(shù)字助理、智能手機(jī)或任何具有處理器或微處理器的電子設(shè)備來(lái)執(zhí)行。
下面將結(jié)合附圖詳細(xì)解釋本發(fā)明的示例性實(shí)施例。圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的二維數(shù)據(jù)清洗方法的流程圖。
如圖1所示,在步驟s101,處理器接收用戶輸入的文件,該文件承載著需要進(jìn)行數(shù)據(jù)清洗的二維數(shù)據(jù),并將該文件中的二維數(shù)據(jù)解析為所需的格式。在下文中,將結(jié)合圖2對(duì)該步驟進(jìn)行詳細(xì)解釋。
在步驟s102,處理器接收用戶選擇的篩選條件;并且在步驟s103,接收用戶選擇的篩選方式。
在步驟s104,處理器根據(jù)用戶選擇的篩選條件和篩選方式來(lái)執(zhí)行數(shù)據(jù)清洗。在下文中將會(huì)參照?qǐng)D3更加詳細(xì)地解釋。
在步驟s105,將執(zhí)行數(shù)據(jù)清洗后的二維數(shù)據(jù)轉(zhuǎn)換為承載數(shù)據(jù)的文件所需的格式,最后,生成并導(dǎo)出文件,導(dǎo)出的文件中承載著完成數(shù)據(jù)清洗后的二維數(shù)據(jù)。以下將結(jié)合圖4對(duì)該步驟做出更加詳細(xì)的說(shuō)明。
根據(jù)以上所描述的示例性的本發(fā)明的數(shù)據(jù)清洗方法,通過(guò)以可視化的方式將供選擇的篩選條件和篩選方式提供給用戶,并響應(yīng)于用戶輸入,接收用戶選擇的篩選條件和篩選方式,處理器或數(shù)據(jù)清洗系統(tǒng)能夠自動(dòng)地根據(jù)所選的篩選條件和篩選方式對(duì)二維數(shù)據(jù)進(jìn)行清洗;并將清洗后的二維數(shù)據(jù)轉(zhuǎn)換為承載數(shù)據(jù)的文件所需的格式,從而生成并輸出文件。由此,以上實(shí)施例提供了一種以可視化的方式執(zhí)行用戶清洗的方法,其具有容易操作、功能多樣、效率高等特點(diǎn)。
為了便于理解,下面將結(jié)合實(shí)例對(duì)圖1所示的示例性方法展開(kāi)詳細(xì)說(shuō)明。圖2具體示出了實(shí)現(xiàn)圖1中接收并解析承載二維數(shù)據(jù)的文件的步驟s101的處理流程圖。在圖2所示的處理中,使用excel文件作為承載二維數(shù)據(jù)的文件格式作為例子。應(yīng)理解,本發(fā)明的技術(shù)方案不僅適用于excel文件,而是根據(jù)實(shí)際應(yīng)用需要,可應(yīng)用于可承載或者包含有二維數(shù)據(jù)的任何文件格式。
如圖2所示,在接收到用戶導(dǎo)入的文件時(shí),在步驟s202,判斷該文件是否是excel文件;如果是,則處理繼續(xù)前進(jìn)到步驟s203,判斷excel數(shù)據(jù)是否符合要求,例如,首行為字段名且無(wú)合并單元格;如果否,則返回步驟s201,重新接收導(dǎo)入的文件。在步驟s203,如果判斷為是,則處理繼續(xù)進(jìn)行到步驟s204,將文件中的二維數(shù)據(jù)解析為json數(shù)據(jù),并且該接收和解析文件的處理結(jié)束;如果否,則處理返回步驟s201。在該實(shí)例中,通過(guò)js-xlsx庫(kù)將用戶輸入的excel文件解析為工具可用的json數(shù)據(jù)。應(yīng)理解,根據(jù)需要,可使用其它解析庫(kù),并且二維數(shù)據(jù)可以被解析為其它格式。
現(xiàn)返回圖1,在完成步驟s101后,該方法前進(jìn)到步驟s102,處理器接收用戶選擇的篩選條件;并且在步驟s103,接收用戶選擇的篩選方式。
圖5-9示出了本發(fā)明的示例性實(shí)施例中的以可視化方式提供篩選條件和篩選方式選項(xiàng)給用戶的例子。如圖5-9所示,提供給用戶的篩選條件包括單列運(yùn)算邏輯、多列運(yùn)算邏輯、雙列范圍邏輯等,用戶通過(guò)為每一項(xiàng)邏輯提供的選項(xiàng)來(lái)選擇該邏輯執(zhí)行的列、滿足的條件(例如,大于、小于等)以及數(shù)值。用戶可以選擇單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯之間的組合方式,例如,通過(guò)“與”運(yùn)算符(圖5-9中的“且”選項(xiàng)),或者,“或”運(yùn)算符(圖中未示出)來(lái)進(jìn)行組合,并且可以對(duì)邏輯之間的運(yùn)算進(jìn)行編組以指定優(yōu)先級(jí)順序(圖5-9中的“編組”選項(xiàng))。用戶可以通過(guò)點(diǎn)擊屏幕右上角的保留和剔除選項(xiàng)來(lái)選擇篩選方式。當(dāng)用戶選擇的篩選方式為保留時(shí),意味著清洗數(shù)據(jù)時(shí)將會(huì)保留滿足篩選條件的數(shù)據(jù),而在用戶選擇的篩選方式為剔除時(shí),則將會(huì)剔除滿足篩選條件的數(shù)據(jù)。
接下來(lái),將參考圖3描述圖1中根據(jù)選擇的篩選條件和篩選方式進(jìn)行數(shù)據(jù)清洗的示意性框圖。
如圖3所示,如301處所示,響應(yīng)于用戶輸入,接收解析后的數(shù)據(jù)、用戶輸入的篩選條件和篩選方式。在301中,根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供給用戶的可選的篩選條件包括單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯、與/或運(yùn)算符,以及優(yōu)先級(jí)選項(xiàng);可供用戶選擇的篩選方式包括“剔除”和“保留”。
下面首先對(duì)各種篩選條件選項(xiàng)進(jìn)行解釋。
單列運(yùn)算邏輯通過(guò)判斷單列的數(shù)據(jù)是否滿足篩選條件來(lái)清洗數(shù)據(jù)。例如,在圖5所示的實(shí)施例中,以可視化方式提供給用戶的單列運(yùn)算邏輯篩選條件包括以下組中的至少一項(xiàng):小于、小于或等于、大于、大于或等于、等于、不等于、包含、不包含、開(kāi)頭字符、結(jié)束字符、正則表達(dá)式、為空、不為空等。例如,單列運(yùn)算邏輯可以是判斷某列成員的年齡是否大于18歲。
多列運(yùn)算邏輯通過(guò)對(duì)多列數(shù)據(jù)進(jìn)行指定的運(yùn)算,然后判斷運(yùn)算后的結(jié)果是否滿足篩選條件來(lái)清洗數(shù)據(jù)。在圖6所示的實(shí)施例中,以可視化方式提供給用戶的多列運(yùn)算邏輯篩選條件包括以下組中的至少一項(xiàng):相加、相減、相乘、相除、求余、時(shí)間相減、字符串拼接等。多列運(yùn)算邏輯,是對(duì)多列執(zhí)行指定的運(yùn)算,如,字符串相加(拼接),相乘等后,再進(jìn)行判斷。例如,判斷某列的字段a(姓)和字段b(名)拼接后是否為“張三”。
雙列范圍邏輯是對(duì)用戶選擇的兩列之間的范圍內(nèi)的多列數(shù)據(jù),同時(shí)判斷每列數(shù)據(jù)是否滿足篩選條件來(lái)清洗數(shù)據(jù)。例如,判斷第3至第10列的數(shù)值是否存在有n列(n由用戶指定)大于18。圖7和圖8示出了可視化界面的一個(gè)例子。如圖7所示,用戶可以首先選擇兩列的范圍,例如,jm列,則意味著以下操作在j和m兩列之間的多列數(shù)據(jù)中展開(kāi)。接著,用戶選擇以可視化方式提供的選項(xiàng):滿足1列、滿足2列……滿足全部列中的一項(xiàng),然后在圖8所示的屏幕上選擇以下組中的至少一項(xiàng):小于、小于或等于、大于、大于或等于、等于、不等于、包含、不包含、開(kāi)頭字符、結(jié)束字符、正則表達(dá)式、為空、不為空等。這樣,可以完成對(duì)雙列范圍邏輯的設(shè)置。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,用戶在輸入篩選條件時(shí),可以通過(guò)在下拉菜單中點(diǎn)擊可選項(xiàng)來(lái)選擇篩選條件,并對(duì)每個(gè)篩選條件及各篩選條件之間的組合方式進(jìn)行編輯。在本發(fā)明的一個(gè)實(shí)施例中,單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯通過(guò)與/或運(yùn)算符,或者優(yōu)先級(jí)選項(xiàng)來(lái)任意組合。用戶通過(guò)點(diǎn)擊“添加”功能按鈕,可以增加單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯中的一個(gè)或多個(gè),從而實(shí)現(xiàn)對(duì)篩選條件的進(jìn)一步編輯。
圖9示出了對(duì)單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯指定與運(yùn)算符(即,“且”選項(xiàng))和優(yōu)先級(jí)選項(xiàng)的一個(gè)例子。如本領(lǐng)域技術(shù)人員公知的,與運(yùn)算的優(yōu)先級(jí)比或運(yùn)算要高。如果用戶希望使或運(yùn)算的優(yōu)先級(jí)更高,則可以將執(zhí)行或運(yùn)算的兩個(gè)篩選條件添加到同一個(gè)組別中。例如,在如圖9所示的例子中,a組別的優(yōu)先級(jí)被定義為最高,其次是b、c、d、e。舉例來(lái)說(shuō),在單列運(yùn)算邏輯和多列運(yùn)算邏輯之間為“或”的關(guān)系(圖中未示出),然后與雙列范圍邏輯之間為與(“且”選項(xiàng))的關(guān)系的情況下,需要先執(zhí)行單列運(yùn)算邏輯和多列運(yùn)算邏輯之間的或運(yùn)算,用戶可以通過(guò)圖9所示的“組別”下拉菜單,分別將單列運(yùn)算邏輯和多列運(yùn)算邏輯的“組別”選擇為“a”,這樣,這兩個(gè)邏輯之間的運(yùn)算將會(huì)以最高優(yōu)先級(jí)被執(zhí)行,然后才執(zhí)行下一優(yōu)先級(jí)(例如,組別b)的運(yùn)算。
現(xiàn)返回圖3,在302處,根據(jù)用戶選擇的篩選條件和篩選方式來(lái)執(zhí)行數(shù)據(jù)清洗。在用戶選擇了單列運(yùn)算邏輯時(shí),計(jì)算機(jī)或處理器判斷單列的數(shù)據(jù)是否滿足篩選條件;當(dāng)選擇了多列運(yùn)算邏輯時(shí),通過(guò)對(duì)多列數(shù)據(jù)進(jìn)行指定的運(yùn)算,然后判斷運(yùn)算后的結(jié)果是否滿足篩選條件;當(dāng)選擇了雙列范圍邏輯時(shí),對(duì)用戶選擇的兩列之間的范圍內(nèi)的多列數(shù)據(jù),同時(shí)判斷每列數(shù)據(jù)是否滿足篩選條件。然后,計(jì)算機(jī)或處理器依用戶指定的優(yōu)先級(jí)順序,根據(jù)用戶選擇的單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯之間的與/或運(yùn)算符,對(duì)單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯中每項(xiàng)的計(jì)算結(jié)果進(jìn)行運(yùn)算。最后,根據(jù)用戶選擇的“保留”還是“剔除”,相應(yīng)地將滿足運(yùn)算結(jié)果的數(shù)據(jù)進(jìn)行保留或者剔除。
現(xiàn)返回圖1,在如上所述地執(zhí)行了根據(jù)選擇的篩選條件和篩選方式進(jìn)行數(shù)據(jù)清洗之后,圖1的方法前進(jìn)到步驟s105,基于清洗后的數(shù)據(jù)生成并導(dǎo)出數(shù)據(jù)清洗后的文件。下面將參考圖4具體描述圖1中的步驟s105。
在圖4中,仍然以excel文件格式為例進(jìn)行說(shuō)明。如圖4所示,在步驟s401,將清洗后的數(shù)據(jù)轉(zhuǎn)換成excel所需的數(shù)據(jù)格式,并生成excel文件。然后,處理前進(jìn)到步驟s402,導(dǎo)出excel文件。
應(yīng)理解,以上參照?qǐng)D1-4所描述的方法僅是示例性的,其中的方法步驟的順序可以改變,并且其中某些步驟可以根據(jù)實(shí)際需要而省略,或添加額外的步驟。
本發(fā)明還提供一種數(shù)據(jù)清洗設(shè)備。下面參考圖10,其示出了適于用來(lái)實(shí)現(xiàn)本發(fā)明的一個(gè)示例性實(shí)施例的數(shù)據(jù)清洗設(shè)備的計(jì)算機(jī)設(shè)備100的結(jié)構(gòu)示意圖。圖10示出的設(shè)備僅僅是一個(gè)示例,不應(yīng)對(duì)本申請(qǐng)實(shí)施例的功能和使用范圍帶來(lái)任何限制。
如圖10所示,計(jì)算機(jī)設(shè)備100包括中央處理單元(cpu)101,其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(rom)102中的程序或者從存儲(chǔ)部分108加載到隨機(jī)訪問(wèn)存儲(chǔ)器(ram)103中的程序而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在ram103中,還存儲(chǔ)有系統(tǒng)100操作所需的各種程序和數(shù)據(jù)。cpu101、rom102以及ram103通過(guò)總線104彼此相連。輸入/輸出(i/o)接口105也連接至總線104。
以下部件連接至i/o接口105:包括鍵盤、鼠標(biāo)等的輸入部分106;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出部分107;包括硬盤等的存儲(chǔ)部分108;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分109。通信部分109經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器110根據(jù)需要連接至i/o接口105??刹鹦督橘|(zhì)111,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等,根據(jù)需要安裝在驅(qū)動(dòng)器110上,以便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)部分108。
特別地,根據(jù)本公開(kāi)的實(shí)施例,上文參考圖1-4的流程圖描述的過(guò)程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序。例如,本公開(kāi)的實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括承載在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過(guò)通信部分109從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)111被安裝。在該計(jì)算機(jī)程序被中央處理單元(cpu)101執(zhí)行時(shí),執(zhí)行本申請(qǐng)的系統(tǒng)中限定的上述功能。
需要說(shuō)明的是,本申請(qǐng)所示的計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)或者是上述兩者的任意組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子可以包括但不限于:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)訪問(wèn)存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本申請(qǐng)中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請(qǐng)中,計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無(wú)線、電線、光纜、rf等等,或者上述的任意合適的組合。
根據(jù)本發(fā)明的另一方面,提供了一種二維數(shù)據(jù)清洗系統(tǒng),包括:文件接收單元,其接收承載二維數(shù)據(jù)的文件;數(shù)據(jù)解析單元,其將所接收的文件解析為預(yù)定格式的二維數(shù)據(jù);用戶接口單元,其以可視化方式將篩選條件和篩選方式提供給用戶,并響應(yīng)于用戶輸入,接收用戶選擇的篩選條件和篩選方式;數(shù)據(jù)清洗單元,其根據(jù)篩選條件和篩選方式對(duì)二維數(shù)據(jù)進(jìn)行清洗;以及文件導(dǎo)出單元,其將清洗后的二維數(shù)據(jù)轉(zhuǎn)換為承載二維數(shù)據(jù)的文件所需的格式,并生成完成數(shù)據(jù)清洗后的文件。以上單元可以通過(guò)軟件或硬件實(shí)現(xiàn),其中某些單元可以集成在一起。
圖11示出了根據(jù)本發(fā)明的一個(gè)示例性實(shí)施例的系統(tǒng)框圖。在圖11所示的實(shí)施例中,文件接收單元、文件導(dǎo)出單元可以由用戶接口單元來(lái)實(shí)現(xiàn),也就是說(shuō),用戶通過(guò)用戶接口單元來(lái)導(dǎo)入文件、輸入篩選條件和篩選方式,并輸出數(shù)據(jù)清洗后的文件。
在圖11所示的實(shí)施例中,該二維數(shù)據(jù)清洗系統(tǒng)包括用戶接口單元、文件解析單元、數(shù)據(jù)清洗單元和文件生成單元。該系統(tǒng)的用戶界面,例如,可以實(shí)現(xiàn)成如圖5-9所示。在運(yùn)行該系統(tǒng)時(shí),首先,用戶通過(guò)用戶接口單元導(dǎo)入承載二維數(shù)據(jù)的文件,該文件在文件解析單元處被解析成預(yù)定的格式的二維數(shù)據(jù),例如,json數(shù)據(jù)。用戶可通過(guò)用戶接口單元輸入或選擇篩選條件和篩選方式,根據(jù)用戶輸入的篩選條件和篩選方式,解析后的數(shù)據(jù)在數(shù)據(jù)清洗單元被處理。處理后的數(shù)據(jù),即,完成了數(shù)據(jù)清洗的數(shù)據(jù)在文件生成單元處按照所需文件格式生成要輸出的文件,并通過(guò)用戶接口單元輸出生成的文件。
用戶通過(guò)用戶接口單元輸入篩選條件時(shí),例如,通過(guò)圖5-9所示的界面,以可視化方式提供給用戶篩選條件和篩選條件組合方式的可選項(xiàng)。篩選條件可包括單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯。單列運(yùn)算邏輯篩選條件包括以下組中的至少一項(xiàng):小于、小于或等于、大于、大于或等于、等于、不等于、包含、不包含、開(kāi)頭字符、結(jié)束字符、正則表達(dá)式、為空、不為空等。例如,單列運(yùn)算邏輯可以是判斷某列成員的年齡是否大于18歲。多列運(yùn)算邏輯通過(guò)對(duì)多列數(shù)據(jù)進(jìn)行指定的運(yùn)算,然后判斷運(yùn)算后的結(jié)果是否滿足篩選條件來(lái)清洗數(shù)據(jù)。在圖5所示的實(shí)施例中,以可視化方式提供給用戶的多列運(yùn)算邏輯篩選條件包括以下組中的至少一項(xiàng):相加、相減、相乘、相除、求余、時(shí)間相減、字符串拼接等。例如,判斷某列的字段a(姓)和字段b(名)拼接后是否為“張三”。雙列范圍邏輯是對(duì)用戶選擇的兩列之間的范圍內(nèi)的多列數(shù)據(jù),同時(shí)判斷每列數(shù)據(jù)是否滿足篩選條件來(lái)清洗數(shù)據(jù)。例如,判斷第3至第10列的數(shù)值是否存在有n列(n由用戶指定)大于18。
用戶可通過(guò)可視化的用戶界面選擇篩選方式。例如,參考圖5的實(shí)例,用戶在輸入篩選條件時(shí),可以通過(guò)在下拉菜單中點(diǎn)擊可選項(xiàng)來(lái)選擇篩選條件,并對(duì)每個(gè)篩選條件及各篩選條件之間的組合方式進(jìn)行編輯。在本發(fā)明的一個(gè)實(shí)施例中,單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯中的兩個(gè)或三個(gè)篩選條件在組合時(shí),可以通過(guò)與/或運(yùn)算符,或指定優(yōu)先級(jí)選項(xiàng)來(lái)任意組合。并且,在該實(shí)施例中,如圖5所示,通過(guò)用戶交互,例如,用戶通過(guò)點(diǎn)擊“添加”按鈕,可以增加或減少單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯中的一個(gè)或多個(gè),從而實(shí)現(xiàn)對(duì)篩選條件的編輯。
在本發(fā)明的一個(gè)實(shí)施例中,該方法還包括以可視化方式將篩選方式提供給用戶,并接收用戶選擇的篩選方式。篩選方式可包括保留和剔除。當(dāng)用戶選擇的篩選方式為保留時(shí),將滿足篩選條件的數(shù)據(jù)保留;并且在用戶選擇的篩選方式為剔除時(shí),將滿足篩選條件的數(shù)據(jù)剔除。
數(shù)據(jù)清洗單元根據(jù)用戶指定的篩選條件及其組合方式,并根據(jù)用戶選擇的篩選方式,生成清洗后的數(shù)據(jù)。
接下來(lái),將參考圖12-17,通過(guò)實(shí)例的方式來(lái)說(shuō)明根據(jù)本發(fā)明的數(shù)據(jù)清洗方法、設(shè)備和系統(tǒng)的操作。
圖12示出了原始數(shù)據(jù)的一個(gè)例子。在該圖中,可以看到,作為例子的二維數(shù)據(jù)表格共14行,包含13條數(shù)據(jù)。該13條數(shù)據(jù)包括編號(hào)為1-10的數(shù)據(jù),其中的重復(fù)項(xiàng)分別是編號(hào)為2、3、8的數(shù)據(jù)。該表格每一列(編號(hào)為a、b、c、d……m)存儲(chǔ)著每行數(shù)據(jù)的各種信息,例如,編號(hào)、開(kāi)始時(shí)間、結(jié)束時(shí)間、客戶端信息、姓名、年齡、性別、最近一個(gè)月的網(wǎng)購(gòu)消費(fèi)金額、你最常去的網(wǎng)站是、配送時(shí)間可靈活選擇、物流查詢方便、貨物包裝完整、快遞員態(tài)度好等等。
根據(jù)一個(gè)實(shí)施例,可選地,可以執(zhí)行刪除重復(fù)數(shù)據(jù)的操作。當(dāng)刪除重復(fù)數(shù)據(jù)時(shí),需要用戶指定哪些列,如,“身份證”列。刪除重復(fù)數(shù)據(jù)后的結(jié)果如圖13所示,可以看到,其中編號(hào)為2、3、8的重復(fù)數(shù)據(jù)被去除了。根據(jù)另一個(gè)實(shí)施例,刪除重復(fù)數(shù)據(jù)的操作在數(shù)據(jù)篩選的最后執(zhí)行,以避免誤刪除滿足篩選條件的數(shù)據(jù)。
圖14示出了使用本發(fā)明的數(shù)據(jù)清洗系統(tǒng)來(lái)執(zhí)行單列運(yùn)算邏輯清洗數(shù)據(jù)的一個(gè)例子。例如,根據(jù)用戶在交互界面上的選擇,剔除(即,用戶選擇的篩選方式為剔除)第i列(“你最常去的電商網(wǎng)站是?”)為空的數(shù)據(jù),得到的結(jié)果如圖14所示。從圖13中可以看到,第i列為空的數(shù)據(jù)為編號(hào)為6和9的數(shù)據(jù);在圖14中,這兩行數(shù)據(jù)已經(jīng)被剔除,剩下編號(hào)為1-5、7-8和10的數(shù)據(jù)。
圖15示出了根據(jù)本發(fā)明的多列運(yùn)算邏輯清洗數(shù)據(jù)的一個(gè)例子。例如,從圖13所示的數(shù)據(jù)中,剔除第i列(“你最常去的電商網(wǎng)站是?”)為空,且保留第j、k、l、m列的總分大于或等于36的數(shù)據(jù),其結(jié)果如圖14所示??梢钥吹?,第i列為空的編號(hào)為6和9的數(shù)據(jù)被剔除后,剩余的編號(hào)為1-5、7-8和10的數(shù)據(jù)的第j、k、l、m列總分大于等于36的數(shù)據(jù)包括編號(hào)為5和10的數(shù)據(jù)。因此,在圖15中,可以看到,數(shù)據(jù)清洗后的結(jié)果僅保留了編號(hào)為5和10的數(shù)據(jù)。
下面結(jié)合圖16的實(shí)例來(lái)說(shuō)明本發(fā)明的雙列范圍邏輯。例如,用戶要求在圖13所示的去除重復(fù)數(shù)據(jù)之后的數(shù)據(jù)中,剔除第i列(你最常去的電商網(wǎng)站是?)“為空”,且保留第j至m列范圍內(nèi),至少有2列大于7分的數(shù)據(jù),其數(shù)據(jù)清洗結(jié)果如圖16所示。首先,從圖13的數(shù)據(jù)中剔除第i列為空的編號(hào)為6和9的數(shù)據(jù)后,剩余的編號(hào)為1-5、7-8和10的數(shù)據(jù)的第j、k、l、m列的分?jǐn)?shù)滿足至少2列大于7分的數(shù)據(jù)包括編號(hào)為3、8、5和10的數(shù)據(jù),如圖16中所示,這些列被保留下來(lái),生成了數(shù)據(jù)清洗后的結(jié)果數(shù)據(jù)。
圖17示出了本發(fā)明的另一個(gè)實(shí)例的數(shù)據(jù)清洗結(jié)果,例如,在對(duì)圖12所示的原始數(shù)據(jù)去除重復(fù)數(shù)據(jù)之后,保留第i列不為空,且值為“京東”或“天貓”的數(shù)據(jù)。應(yīng)理解,以上實(shí)例的描述是為了幫助理解本發(fā)明,而以任何方式構(gòu)成對(duì)本發(fā)明的限制。
本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以上所描述的方法??梢岳斫猓陨厦枋龅南到y(tǒng)、模塊、單元或裝置可以通過(guò)硬件、軟件或者軟硬件結(jié)合的方式來(lái)實(shí)現(xiàn),這里不再贅述。該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是上述實(shí)施例中描述的設(shè)備中所包含的;也可以是單獨(dú)存在,而未裝配入該設(shè)備中。上述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)承載有一個(gè)或者多個(gè)程序,當(dāng)上述一個(gè)或者多個(gè)程序被一個(gè)該設(shè)備執(zhí)行時(shí),使得該設(shè)備:接收承載二維數(shù)據(jù)的文件;將所接收的文件解析為預(yù)定格式的二維數(shù)據(jù);以可視化方式將篩選條件提供給用戶,響應(yīng)于用戶輸入,接收用戶選擇的篩選條件;根據(jù)所選擇的篩選條件對(duì)二維數(shù)據(jù)進(jìn)行清洗;以及將清洗后的二維數(shù)據(jù)轉(zhuǎn)換為承載二維數(shù)據(jù)的文件所需的格式,并生成完成二維數(shù)據(jù)清洗后的文件。
以上描述的實(shí)施例,能夠通過(guò)完全可視化的方式使用戶能夠輕松地對(duì)二維數(shù)據(jù)進(jìn)行清洗,從而大大降低了數(shù)據(jù)清洗的門檻,提高了效率。使用者既不需要掌握excel自帶的篩選命令和函數(shù)公式,也不需要具備自己編寫vba程序的能力,就可以通過(guò)直觀的方式完成二維數(shù)據(jù)清洗的操作。以上描述的實(shí)施例還提供了單列運(yùn)算邏輯、多列運(yùn)算邏輯和雙列范圍邏輯三種篩選方式,和多種組合方式,例如,與/或運(yùn)算符和優(yōu)先級(jí)選項(xiàng),通過(guò)多種方式來(lái)任意組合以上三種邏輯,能夠?qū)崿F(xiàn)多種數(shù)據(jù)清洗功能,滿足用戶的多種需求。根據(jù)本發(fā)明的方法和系統(tǒng)適用于多種桌面端操作系統(tǒng),包括但不限于:windows7及以上、macos和linux等,并能夠在這些操作系統(tǒng)上提供一致的操作體驗(yàn)。
以上描述的附圖中的流程圖和框圖,圖示了按照本申請(qǐng)各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)按順序示出的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖或流程圖中的每個(gè)方框、以及框圖或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。
描述于本申請(qǐng)實(shí)施例中所涉及到的模塊或單元可以通過(guò)軟件的方式實(shí)現(xiàn),也可以通過(guò)硬件的方式來(lái)實(shí)現(xiàn)。所描述的模塊或單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括文件接收模塊/單元、數(shù)據(jù)解析模塊/單元、用戶接口模塊/單元、數(shù)據(jù)清洗模塊/單元和數(shù)據(jù)導(dǎo)出模塊/單元。其中,這些模塊或單元的名稱在某種情況下并不構(gòu)成對(duì)該單元本身的限定,例如,文件接收單元還可以被描述為“接收承載二維數(shù)據(jù)的文件的單元”。
本領(lǐng)域技術(shù)人員可以理解,上述實(shí)施方式的全部或部分步驟可以被實(shí)現(xiàn)為由cpu執(zhí)行的計(jì)算機(jī)程序或者指令。在該計(jì)算機(jī)程序被cpu執(zhí)行時(shí),執(zhí)行本發(fā)明提供的上述方法所限定的上述功能。所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,該存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。
此外,需要注意的是,上述附圖僅是根據(jù)本發(fā)明示例性實(shí)施方式的方法所包括的處理的示意性說(shuō)明,而不是限制目的,上述附圖所示的處理并不表明或限制這些處理的時(shí)間順序。另外,可以理解,這些處理可以是,例如,在多個(gè)單元中同步或異步執(zhí)行的。
以上具體地示出和描述了本發(fā)明的示例性實(shí)施方式。應(yīng)理解,本發(fā)明不限于本文描述的詳細(xì)結(jié)構(gòu)、設(shè)置方式或?qū)崿F(xiàn)方法;本發(fā)明的保護(hù)范圍僅由所附權(quán)利要求來(lái)定義,涵蓋權(quán)利要求保護(hù)范圍內(nèi)的各種修改和變形。