多類型數(shù)據(jù)的一致性預處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)處理的技術(shù)領(lǐng)域,具體說是一種多類型數(shù)據(jù)的一致性預處理方法。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)的數(shù)據(jù)五花八門,資訊、微博、論壇等等,這些數(shù)據(jù)包含著各種各樣的雜質(zhì),同時也有很多重要的信息隱藏其中。數(shù)據(jù)在具體使用處理的時候如果不能去除雜質(zhì),提取精華,會給數(shù)據(jù)的處理帶來很多不便和麻煩,甚至會影響整個數(shù)據(jù)處理的效果。同時當數(shù)據(jù)在處理的時候會發(fā)現(xiàn)有很多處理是相同的,如果在最終處理的時候分別處理是一種浪費,如何能夠節(jié)省這部分資源也是課題之一。
【發(fā)明內(nèi)容】
[0003]本發(fā)明要解決的技術(shù)問題是提供一種多類型數(shù)據(jù)的一致性預處理方法。
[0004]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
本發(fā)明的多類型數(shù)據(jù)的一致性預處理方法,包括以下步驟:
A、對時間類型字段進行處理,將時間類型字段數(shù)據(jù)根據(jù)時間歸一化算法進行歸一化,得到格式統(tǒng)一的時間字段;
B、對文本類型字段數(shù)據(jù)進行漢字的繁簡轉(zhuǎn)換;
C、對文本類型字段數(shù)據(jù)進行HTML標簽的過濾,將數(shù)據(jù)變?yōu)槿斯た砷喿x的形式;
D、對文本類型字段數(shù)據(jù)進行分詞;
E、基于分詞結(jié)果提取數(shù)據(jù)中的關(guān)鍵詞;
F、基于分詞結(jié)果提取數(shù)據(jù)中的摘要,通過摘要預覽數(shù)據(jù)內(nèi)容;
G、基于分詞結(jié)果提取數(shù)據(jù)中的時間,將數(shù)據(jù)中行文的時間提取出來,并加以歸一化;
H、對文本類型字段數(shù)據(jù)進行聯(lián)系方式的提?。?br> 1、提取文本類型字段數(shù)據(jù)中的微博要素;
J、對數(shù)據(jù)本身的類型錯誤進行修正;
K、對數(shù)據(jù)本身的來源進行修正;
L、為數(shù)據(jù)本身提供唯一語義指紋。
[0005]本發(fā)明還可以采用以下技術(shù)措施:
步驟G中,對相對時間進行處理,或?qū)θ笔r間進行補齊。
[0006]步驟Η中,聯(lián)系方式提取的對象包括下列任--種類型:QQ,Email, Cellphone,
Tel, URL、MSN、微信ID和地址。
[0007]步驟I中,提取的微博要素包括微博話題、轉(zhuǎn)發(fā)人、內(nèi)容中提到的人和轉(zhuǎn)發(fā)對象中任種Ο
[0008]本發(fā)明具有的優(yōu)點和積極效果是:
本發(fā)明的多類型數(shù)據(jù)的一致性預處理方法中,將數(shù)據(jù)類型分為文本類型字段、日期類型字段和數(shù)據(jù)本身三種類型,實現(xiàn)了將不同來源不同類型的數(shù)據(jù)進行統(tǒng)一的處理,清除數(shù)據(jù)中的雜質(zhì),并從中提取出有價值的內(nèi)容供后續(xù)處理使用,統(tǒng)一的處理使得后續(xù)處理方便而快捷,不需要再做重復的勞動,節(jié)省了整個系統(tǒng)的資源,同時靈活的配置可以使不同的系統(tǒng)在這里獲得不同的效果,實現(xiàn)了一份數(shù)據(jù)在同一個服務(wù)下面向不同系統(tǒng)進行有針對性的處理。
【具體實施方式】
[0009]以下通過具體實施例對本發(fā)明進行詳細說明。
[0010]本發(fā)明的多類型數(shù)據(jù)的一致性預處理方法,包括以下步驟:
A、對時間類型字段進行處理,將時間類型字段數(shù)據(jù)根據(jù)時間歸一化算法進行歸一化,得到格式統(tǒng)一的時間字段;
B、對文本類型字段數(shù)據(jù)進行漢字的繁簡轉(zhuǎn)換;
C、對文本類型字段數(shù)據(jù)進行HTML標簽的過濾,將數(shù)據(jù)變?yōu)槿斯た砷喿x的形式;
D、對文本類型字段數(shù)據(jù)進行分詞;
E、基于分詞結(jié)果提取數(shù)據(jù)中的關(guān)鍵詞;
F、基于分詞結(jié)果提取數(shù)據(jù)中的摘要,通過摘要預覽數(shù)據(jù)內(nèi)容;
G、基于分詞結(jié)果提取數(shù)據(jù)中的時間,將數(shù)據(jù)中行文的時間提取出來,并加以歸一化;
H、對文本類型字段數(shù)據(jù)進行聯(lián)系方式的提??;
1、提取文本類型字段數(shù)據(jù)中的微博要素;
J、對數(shù)據(jù)本身的類型錯誤進行修正,例如論壇的數(shù)據(jù)被當成了微博就會被修正為論壇;
K、對數(shù)據(jù)本身的來源進行修正;
L、為數(shù)據(jù)本身提供唯一語義指紋。
[0011]步驟G中,對相對時間進行處理,或?qū)θ笔r間進行補齊。
[0012]步驟Η中,聯(lián)系方式提取的對象包括下列任--種類型:QQ,Email, Cellphone,
Tel, URL、MSN、微信ID和地址。
[0013]步驟I中,提取的微博要素包括微博話題、轉(zhuǎn)發(fā)人、內(nèi)容中提到的人和轉(zhuǎn)發(fā)對象中任種Ο
[0014]以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實施例公開如上,然而,并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當然會利用揭示的技術(shù)內(nèi)容作出些許更動或修飾,成為等同變化的等效實施例,但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾,均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項】
1.一種多類型數(shù)據(jù)的一致性預處理方法,包括以下步驟: A、對時間類型字段進行處理,將時間類型字段數(shù)據(jù)根據(jù)時間歸一化算法進行歸一化,得到格式統(tǒng)一的時間字段; B、對文本類型字段數(shù)據(jù)進行漢字的繁簡轉(zhuǎn)換; C、對文本類型字段數(shù)據(jù)進行HTML標簽的過濾,將數(shù)據(jù)變?yōu)槿斯た砷喿x的形式; D、對文本類型字段數(shù)據(jù)進行分詞; E、基于分詞結(jié)果提取數(shù)據(jù)中的關(guān)鍵詞; F、基于分詞結(jié)果提取數(shù)據(jù)中的摘要,通過摘要預覽數(shù)據(jù)內(nèi)容; G、基于分詞結(jié)果提取數(shù)據(jù)中的時間,將數(shù)據(jù)中行文的時間提取出來,并加以歸一化; H、對文本類型字段數(shù)據(jù)進行聯(lián)系方式的提取; 1、提取文本類型字段數(shù)據(jù)中的微博要素; J、對數(shù)據(jù)本身的類型錯誤進行修正; K、對數(shù)據(jù)本身的來源進行修正; L、為數(shù)據(jù)本身提供唯一語義指紋。2.根據(jù)權(quán)利要求1所述的多類型數(shù)據(jù)的一致性預處理方法,其特征在于:步驟G中,對相對時間進行處理,或?qū)θ笔r間進行補齊。3.根據(jù)權(quán)利要求1或2所述的多類型數(shù)據(jù)的一致性預處理方法,其特征在于:步驟H中,聯(lián)系方式提取的對象包括下列任——種類型:QQ,Email,Cellphone,Tel,URL、MSN、微信ID和地址。4.根據(jù)權(quán)利要求3所述的多類型數(shù)據(jù)的一致性預處理方法,其特征在于:步驟I中,提取的微博要素包括微博話題、轉(zhuǎn)發(fā)人、內(nèi)容中提到的人和轉(zhuǎn)發(fā)對象中任一一種。
【專利摘要】一種多類型數(shù)據(jù)的一致性預處理方法中,將數(shù)據(jù)類型分為文本類型字段、日期類型字段和數(shù)據(jù)本身三種類型,實現(xiàn)了將不同來源不同類型的數(shù)據(jù)進行統(tǒng)一的處理,清除了數(shù)據(jù)中的雜質(zhì),并從中提取出有價值的內(nèi)容供后續(xù)處理使用,統(tǒng)一的處理使得后續(xù)處理方便而快捷,不需要再做重復的勞動,節(jié)省了整個系統(tǒng)的資源,同時靈活的配置可以使不同的系統(tǒng)在這里獲得不同的效果,實現(xiàn)了一份數(shù)據(jù)在同一個服務(wù)下面向不同系統(tǒng)進行有針對性的處理。
【IPC分類】G06F17/30
【公開號】CN105335529
【申請?zhí)枴緾N201510910437
【發(fā)明人】史墨軒, 張作職
【申請人】天津海量信息技術(shù)有限公司
【公開日】2016年2月17日
【申請日】2015年12月10日