多類型數(shù)據(jù)的一致性預處理方法

文檔序號：9579417閱讀：545來源：國知局

多類型數(shù)據(jù)的一致性預處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)處理的技術(shù)領(lǐng)域，具體說是一種多類型數(shù)據(jù)的一致性預處理方法。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)的數(shù)據(jù)五花八門，資訊、微博、論壇等等，這些數(shù)據(jù)包含著各種各樣的雜質(zhì)，同時也有很多重要的信息隱藏其中。數(shù)據(jù)在具體使用處理的時候如果不能去除雜質(zhì)，提取精華，會給數(shù)據(jù)的處理帶來很多不便和麻煩，甚至會影響整個數(shù)據(jù)處理的效果。同時當數(shù)據(jù)在處理的時候會發(fā)現(xiàn)有很多處理是相同的，如果在最終處理的時候分別處理是一種浪費，如何能夠節(jié)省這部分資源也是課題之一。

【發(fā)明內(nèi)容】

[0003]本發(fā)明要解決的技術(shù)問題是提供一種多類型數(shù)據(jù)的一致性預處理方法。
[0004]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
本發(fā)明的多類型數(shù)據(jù)的一致性預處理方法，包括以下步驟:
A、對時間類型字段進行處理，將時間類型字段數(shù)據(jù)根據(jù)時間歸一化算法進行歸一化，得到格式統(tǒng)一的時間字段；
B、對文本類型字段數(shù)據(jù)進行漢字的繁簡轉(zhuǎn)換；
C、對文本類型字段數(shù)據(jù)進行HTML標簽的過濾，將數(shù)據(jù)變?yōu)槿斯た砷喿x的形式；
D、對文本類型字段數(shù)據(jù)進行分詞；
E、基于分詞結(jié)果提取數(shù)據(jù)中的關(guān)鍵詞；
F、基于分詞結(jié)果提取數(shù)據(jù)中的摘要，通過摘要預覽數(shù)據(jù)內(nèi)容；
G、基于分詞結(jié)果提取數(shù)據(jù)中的時間，將數(shù)據(jù)中行文的時間提取出來，并加以歸一化；
H、對文本類型字段數(shù)據(jù)進行聯(lián)系方式的提?。?br> 1、提取文本類型字段數(shù)據(jù)中的微博要素；
J、對數(shù)據(jù)本身的類型錯誤進行修正；
K、對數(shù)據(jù)本身的來源進行修正；
L、為數(shù)據(jù)本身提供唯一語義指紋。
[0005]本發(fā)明還可以采用以下技術(shù)措施:
步驟G中，對相對時間進行處理，或?qū)θ笔r間進行補齊。
[0006]步驟Η中，聯(lián)系方式提取的對象包括下列任--種類型:QQ，Email, Cellphone，
Tel, URL、MSN、微信ID和地址。
[0007]步驟I中，提取的微博要素包括微博話題、轉(zhuǎn)發(fā)人、內(nèi)容中提到的人和轉(zhuǎn)發(fā)對象中任種Ο
[0008]本發(fā)明具有的優(yōu)點和積極效果是:
本發(fā)明的多類型數(shù)據(jù)的一致性預處理方法中，將數(shù)據(jù)類型分為文本類型字段、日期類型字段和數(shù)據(jù)本身三種類型，實現(xiàn)了將不同來源不同類型的數(shù)據(jù)進行統(tǒng)一的處理，清除數(shù)據(jù)中的雜質(zhì)，并從中提取出有價值的內(nèi)容供后續(xù)處理使用，統(tǒng)一的處理使得后續(xù)處理方便而快捷，不需要再做重復的勞動，節(jié)省了整個系統(tǒng)的資源，同時靈活的配置可以使不同的系統(tǒng)在這里獲得不同的效果，實現(xiàn)了一份數(shù)據(jù)在同一個服務(wù)下面向不同系統(tǒng)進行有針對性的處理。
【具體實施方式】
[0009]以下通過具體實施例對本發(fā)明進行詳細說明。
[0010]本發(fā)明的多類型數(shù)據(jù)的一致性預處理方法，包括以下步驟:
A、對時間類型字段進行處理，將時間類型字段數(shù)據(jù)根據(jù)時間歸一化算法進行歸一化，得到格式統(tǒng)一的時間字段；
B、對文本類型字段數(shù)據(jù)進行漢字的繁簡轉(zhuǎn)換；
C、對文本類型字段數(shù)據(jù)進行HTML標簽的過濾，將數(shù)據(jù)變?yōu)槿斯た砷喿x的形式；
D、對文本類型字段數(shù)據(jù)進行分詞；
E、基于分詞結(jié)果提取數(shù)據(jù)中的關(guān)鍵詞；
F、基于分詞結(jié)果提取數(shù)據(jù)中的摘要，通過摘要預覽數(shù)據(jù)內(nèi)容；
G、基于分詞結(jié)果提取數(shù)據(jù)中的時間，將數(shù)據(jù)中行文的時間提取出來，并加以歸一化；
H、對文本類型字段數(shù)據(jù)進行聯(lián)系方式的提??；
1、提取文本類型字段數(shù)據(jù)中的微博要素；
J、對數(shù)據(jù)本身的類型錯誤進行修正，例如論壇的數(shù)據(jù)被當成了微博就會被修正為論壇;
K、對數(shù)據(jù)本身的來源進行修正；
L、為數(shù)據(jù)本身提供唯一語義指紋。
[0011]步驟G中，對相對時間進行處理，或?qū)θ笔r間進行補齊。
[0012]步驟Η中，聯(lián)系方式提取的對象包括下列任--種類型:QQ，Email, Cellphone，
Tel, URL、MSN、微信ID和地址。
[0013]步驟I中，提取的微博要素包括微博話題、轉(zhuǎn)發(fā)人、內(nèi)容中提到的人和轉(zhuǎn)發(fā)對象中任種Ο
[0014]以上所述，僅是本發(fā)明的較佳實施例而已，并非對本發(fā)明作任何形式上的限制，雖然本發(fā)明已以較佳實施例公開如上，然而，并非用以限定本發(fā)明，任何熟悉本專業(yè)的技術(shù)人員，在不脫離本發(fā)明技術(shù)方案范圍內(nèi)，當然會利用揭示的技術(shù)內(nèi)容作出些許更動或修飾，成為等同變化的等效實施例，但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容，依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾，均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項】
1.一種多類型數(shù)據(jù)的一致性預處理方法，包括以下步驟: A、對時間類型字段進行處理，將時間類型字段數(shù)據(jù)根據(jù)時間歸一化算法進行歸一化，得到格式統(tǒng)一的時間字段； B、對文本類型字段數(shù)據(jù)進行漢字的繁簡轉(zhuǎn)換； C、對文本類型字段數(shù)據(jù)進行HTML標簽的過濾，將數(shù)據(jù)變?yōu)槿斯た砷喿x的形式； D、對文本類型字段數(shù)據(jù)進行分詞； E、基于分詞結(jié)果提取數(shù)據(jù)中的關(guān)鍵詞； F、基于分詞結(jié)果提取數(shù)據(jù)中的摘要，通過摘要預覽數(shù)據(jù)內(nèi)容； G、基于分詞結(jié)果提取數(shù)據(jù)中的時間，將數(shù)據(jù)中行文的時間提取出來，并加以歸一化； H、對文本類型字段數(shù)據(jù)進行聯(lián)系方式的提取； 1、提取文本類型字段數(shù)據(jù)中的微博要素； J、對數(shù)據(jù)本身的類型錯誤進行修正； K、對數(shù)據(jù)本身的來源進行修正； L、為數(shù)據(jù)本身提供唯一語義指紋。2.根據(jù)權(quán)利要求1所述的多類型數(shù)據(jù)的一致性預處理方法，其特征在于:步驟G中，對相對時間進行處理，或?qū)θ笔r間進行補齊。3.根據(jù)權(quán)利要求1或2所述的多類型數(shù)據(jù)的一致性預處理方法，其特征在于:步驟H中，聯(lián)系方式提取的對象包括下列任——種類型:QQ，Email，Cellphone，Tel，URL、MSN、微信ID和地址。4.根據(jù)權(quán)利要求3所述的多類型數(shù)據(jù)的一致性預處理方法，其特征在于:步驟I中，提取的微博要素包括微博話題、轉(zhuǎn)發(fā)人、內(nèi)容中提到的人和轉(zhuǎn)發(fā)對象中任一一種。
【專利摘要】一種多類型數(shù)據(jù)的一致性預處理方法中，將數(shù)據(jù)類型分為文本類型字段、日期類型字段和數(shù)據(jù)本身三種類型，實現(xiàn)了將不同來源不同類型的數(shù)據(jù)進行統(tǒng)一的處理，清除了數(shù)據(jù)中的雜質(zhì)，并從中提取出有價值的內(nèi)容供后續(xù)處理使用，統(tǒng)一的處理使得后續(xù)處理方便而快捷，不需要再做重復的勞動，節(jié)省了整個系統(tǒng)的資源，同時靈活的配置可以使不同的系統(tǒng)在這里獲得不同的效果，實現(xiàn)了一份數(shù)據(jù)在同一個服務(wù)下面向不同系統(tǒng)進行有針對性的處理。
【IPC分類】G06F17/30
【公開號】CN105335529
【申請?zhí)枴緾N201510910437
【發(fā)明人】史墨軒, 張作職
【申請人】天津海量信息技術(shù)有限公司
【公開日】2016年2月17日
【申請日】2015年12月10日

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：史墨軒;張作職;
技術(shù)所有人：天津海量信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)一致性檢驗方法相關(guān)技術(shù)

數(shù)據(jù)預處理方法相關(guān)技術(shù)

數(shù)據(jù)預處理的方法相關(guān)技術(shù)

數(shù)據(jù)預處理方法和內(nèi)容相關(guān)技術(shù)

spss數(shù)據(jù)預處理方法相關(guān)技術(shù)

圖像數(shù)據(jù)預處理方法相關(guān)技術(shù)

大數(shù)據(jù)預處理方法相關(guān)技術(shù)

數(shù)據(jù)清洗與預處理方法相關(guān)技術(shù)

大數(shù)據(jù)的預處理方法相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

多類型數(shù)據(jù)的一致性預處理方法