两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

時(shí)空地理空間可視化的分析方法與流程

文檔序號(hào):11545221閱讀:2926來源:國知局
時(shí)空地理空間可視化的分析方法與流程

本發(fā)明涉及時(shí)空數(shù)據(jù)處理領(lǐng)域,特別涉及一種時(shí)空地理空間可視化的分析方法,其主要用于面向開放事件。



背景技術(shù):

隨著大數(shù)據(jù)時(shí)代的到來,每天都有大量的文本時(shí)空數(shù)據(jù)產(chǎn)生,數(shù)據(jù)量大,雜亂零散、且多數(shù)為非結(jié)構(gòu)化數(shù)據(jù),人們淹沒在數(shù)據(jù)的海洋之中。如何從這些文本數(shù)據(jù)中提取出用戶感興趣的信息,并充分利用其時(shí)空屬性,對(duì)事件進(jìn)行分析是急需解決的問題。

事件抽取是從非結(jié)構(gòu)化文本中抽取出事件信息,以結(jié)構(gòu)化的形式呈現(xiàn),是一種有效的數(shù)據(jù)組織方式。傳統(tǒng)的事件抽取采用兩步策略,包括事件類別的識(shí)別與分類以及事件元素的識(shí)別,但其往往局限于特定領(lǐng)域,且依賴于已標(biāo)注文本。隨著twitter和微博等開放領(lǐng)域文本的異軍突起,ritter等人提出了開放領(lǐng)域的事件抽取方法,采用鏈?zhǔn)浇Y(jié)構(gòu),容易產(chǎn)生層疊錯(cuò)誤的問題。weifeng等在twitter數(shù)據(jù)流中,采用hashtag聚類的方法,從不用的時(shí)空粒度抽取出事件信息,這種方法考慮了事件的時(shí)間屬性和空間屬性,但未綜合考慮事件的時(shí)空屬性,且依賴于監(jiān)督學(xué)習(xí)框架,難以應(yīng)用到大規(guī)模未標(biāo)注的文本中。



技術(shù)實(shí)現(xiàn)要素:

鑒于現(xiàn)有方案存在的問題,為了克服上述現(xiàn)有技術(shù)方案的不足,本發(fā)明提出了一種時(shí)空地理空間可視化分析方法。

根據(jù)本發(fā)明的一個(gè)方面,提供了一種時(shí)空地理空間可視化的分析方法,包括以下步驟:對(duì)未標(biāo)注的源數(shù)據(jù)進(jìn)行預(yù)處理,獲得時(shí)間實(shí)體、地點(diǎn)實(shí)體及事件詞;將時(shí)間、地理經(jīng)度、地理緯度作為三個(gè)維度構(gòu)建數(shù)據(jù)立方體;將選定時(shí)空粒度下的事件詞聚類為至少一個(gè)事件;以及構(gòu)建時(shí)空地理信息可視化系統(tǒng)。

從上述技術(shù)方案可以看出,本發(fā)明具有以下有益效果:

本發(fā)明針對(duì)非結(jié)構(gòu)化未標(biāo)注大規(guī)模文本,不局限于專門領(lǐng)域,不依賴于監(jiān)督學(xué)習(xí)框架,能夠高效率地提取出高質(zhì)量的某一時(shí)間某一地點(diǎn)事件聚類結(jié)果,可以提取不同時(shí)、空粒度下的事件,建立交互性良好的時(shí)空地理信息可視化系統(tǒng);

對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,獲得事件詞,用于表征描述事件;

建立數(shù)據(jù)立方體,用于方便提取不同時(shí)空粒度下的事件詞,充分利用事件的時(shí)空屬性;

對(duì)事件詞進(jìn)行近鄰聚類,分成多個(gè)事件,提高事件抽取的效率及準(zhǔn)確性;

構(gòu)建可視化系統(tǒng),實(shí)現(xiàn)了事件可視化在時(shí)空粒度上的可視化。

附圖說明

圖1是本發(fā)明實(shí)施例時(shí)空地理空間可視化分析方法的流程圖;

圖2是圖1中源數(shù)據(jù)預(yù)處理的流程圖;

圖3是圖1中構(gòu)建數(shù)據(jù)立方體的流程圖;

圖4是圖3中數(shù)據(jù)立方體構(gòu)建的示意圖;

圖5是圖3中數(shù)據(jù)立方體時(shí)空緯度上的處理示意圖;

圖6是是圖1中對(duì)事件詞進(jìn)行聚類的流程圖;

圖7為可視化事件抽取結(jié)構(gòu)的示例圖。

具體實(shí)施方式

本發(fā)明某些實(shí)施例于后方將參照所附附圖做更全面性地描述,其中一些但并非全部的實(shí)施例將被示出。實(shí)際上,本發(fā)明的各種實(shí)施例可以許多不同形式實(shí)現(xiàn),而不應(yīng)被解釋為限于此數(shù)所闡述的實(shí)施例;相對(duì)地,提供這些實(shí)施例使得本發(fā)明滿足適用的法律要求。

在本說明書中,下述用于描述本發(fā)明原理的各種實(shí)施例只是說明,不應(yīng)該以任何方式解釋為限制發(fā)明的范圍。參照附圖的下述描述用于幫助全面理解由權(quán)利要求及其等同物限定的本發(fā)明的示例性實(shí)施例。下述描述包括多種具體細(xì)節(jié)來幫助理解,但這些細(xì)節(jié)應(yīng)認(rèn)為僅僅是示例性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)認(rèn)識(shí)到,在不悖離本發(fā)明的范圍和精神的情況下,可以對(duì)本文中描述的實(shí)施例進(jìn)行多種改變和修改。此外,為了清楚和簡潔起見,省略了公知功能和結(jié)構(gòu)的描述。此外,貫穿附圖,相同附圖標(biāo)記用于相似功能和操作。

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。

本發(fā)明實(shí)施例提供了一種時(shí)空地理空間可視化分析方法,其主要用于面向開放事件,充分利用事件的時(shí)空屬性,提高事件抽取的效率和準(zhǔn)確性,進(jìn)而能夠進(jìn)行更為有效的可視分析。

圖1示出了本發(fā)明實(shí)施例時(shí)空地理空間可視化分析方法的流程圖,請(qǐng)參照?qǐng)D1,本方法實(shí)施例中的時(shí)空地理空間可視化分析方法具體包括:

s1、獲取源數(shù)據(jù);

具體的,本實(shí)例針對(duì)開放事件數(shù)據(jù),采用網(wǎng)絡(luò)爬蟲在網(wǎng)絡(luò)上抓取開放領(lǐng)域的文件,例如選取了6個(gè)月,12萬條的文本數(shù)據(jù),每個(gè)文件中包含大量數(shù)據(jù),形成未標(biāo)注的文件集;

s2、對(duì)未標(biāo)注的源數(shù)據(jù)進(jìn)行預(yù)處理,具體包括以下步驟,如圖2所示:

s21、對(duì)未標(biāo)注文件中的數(shù)據(jù)進(jìn)行分詞;

具體的,對(duì)未標(biāo)注的文件中的數(shù)據(jù)進(jìn)行分詞,例如,采用自然語言處理工具ictclas對(duì)未標(biāo)注的文件進(jìn)行中文分詞。

s22、對(duì)分詞結(jié)果進(jìn)行詞性標(biāo)注;

具體地,對(duì)各個(gè)分詞進(jìn)行詞性標(biāo)注,區(qū)分名詞、動(dòng)詞、形容詞等;

s23、命名實(shí)體識(shí)別;

具體地,針對(duì)名詞進(jìn)行命名實(shí)體識(shí)別,獲得時(shí)間實(shí)體、地點(diǎn)實(shí)體及人名實(shí)體;

s24、獲取事件詞。

具體的,將人名實(shí)體和事件觸發(fā)詞作為事件詞,其中事件觸發(fā)詞包括動(dòng)詞和/或動(dòng)名詞,本實(shí)施例中,根據(jù)timebank數(shù)據(jù)集的標(biāo)注指南對(duì)n篇新聞文本的事件觸發(fā)詞進(jìn)行標(biāo)注,將其作為訓(xùn)練集訓(xùn)練條件隨機(jī)場(chǎng)模型,用于提取事件觸發(fā)詞,n大于等于500。

s3、構(gòu)建數(shù)據(jù)立方體,在不同時(shí)、空層級(jí)下儲(chǔ)存事件詞,對(duì)數(shù)據(jù)立方體進(jìn)行上卷、下鉆、分塊、切片操作,可以提取不同時(shí)、空粒度下的事件詞;具體包括以下步驟,如圖3所示:

s31、構(gòu)建數(shù)據(jù)立方體的坐標(biāo)系;

具體地,數(shù)據(jù)立方體具有三個(gè)緯度,包括與時(shí)間對(duì)應(yīng)的時(shí)間軸,以及與地理位置對(duì)應(yīng)的地點(diǎn)的經(jīng)緯度對(duì)應(yīng)的經(jīng)度軸和緯度軸;

s32、將事件詞置入數(shù)據(jù)立方體中;

具體地,如圖4所示,取事件詞所在文件日期作為事件詞對(duì)應(yīng)的時(shí)間,對(duì)事件詞所在文件中多個(gè)地點(diǎn)實(shí)體進(jìn)行消歧、合并,例如采用最近鄰的方法,取與事件詞最相近的地名作為事件詞的發(fā)生位置,將其映射到地理數(shù)據(jù)庫,得到地點(diǎn)對(duì)應(yīng)的經(jīng)緯度,將某一時(shí)間,某一地點(diǎn)的事件詞儲(chǔ)存在數(shù)據(jù)立方體對(duì)應(yīng)的位置。

圖5示出了數(shù)據(jù)立方體時(shí)空緯度上的處理示意圖,如圖5所示,可以對(duì)數(shù)據(jù)立方體進(jìn)行上卷、下鉆、分塊、切片操作,可以提取不同時(shí)、空粒度下的事件詞。

s4、對(duì)選定時(shí)空粒度下的事件詞進(jìn)行聚類;具體包括以下步驟,如圖6所示:

s41、獲取事件詞的詞向量;

首先,統(tǒng)計(jì)數(shù)據(jù)立方體中所有事件詞的共現(xiàn)信息,生成共現(xiàn)矩陣;

具體地,事件詞之間的關(guān)聯(lián)度可由詞語之間共現(xiàn)概率表示,如果事件詞i和事件詞j共同出現(xiàn)于同一文件,則稱事件詞i和事件詞j共現(xiàn),兩事件詞之間的共現(xiàn)概率反比于出現(xiàn)距離,根據(jù)如下公式計(jì)算事件詞i和事件詞j的共現(xiàn)概率:

其中l(wèi)di表示事件詞i在文件d中的出現(xiàn)位置,ldj表示事件詞j在文件d中的出現(xiàn)位置,d表示整個(gè)源數(shù)據(jù)的文件數(shù)量。根據(jù)如下公式計(jì)算事件詞j出現(xiàn)于事件詞i的上下文的頻率:

其中,k表示事件詞i上下文中出現(xiàn)的事件詞。

所有事件詞之間的頻率pij組成共現(xiàn)矩陣。

然后,將共現(xiàn)矩陣放入glove模型中訓(xùn)練,采用梯度下降法,得到每個(gè)事件詞的詞向量w,每一事件詞與其詞向量一一對(duì)應(yīng),事件詞可以用其詞向量來表征。

s42:從數(shù)據(jù)立方體中在選定的時(shí)空粒度下提取事件詞;

對(duì)數(shù)據(jù)立方體進(jìn)行上卷、下鉆、分塊、切片操作,可以提取不同時(shí)、空粒度下的事件詞,例如提取某日某省or某月某市or某年某國的事件詞;其中,上卷為沿著維的層次向上聚集匯總數(shù)據(jù),例如沿著時(shí)間維上卷,求出月度、季度、年度的數(shù)據(jù),下鉆為上卷的逆操作,即沿著維的層次向下,獲得更詳細(xì)的數(shù)據(jù),分塊為選擇維中特定區(qū)間的數(shù)據(jù),比如選擇2015年第一季度到2016年第二季度的數(shù)據(jù),切片為選擇維中特定的值進(jìn)行分析,比如只選擇2016年第二季度的數(shù)據(jù)。上述上卷、下鉆、分塊、切片操作操作都是改變維的層次,變換分析粒度的操作。

s43、對(duì)提取的事件詞進(jìn)行實(shí)時(shí)聚類;

具體地,對(duì)于事件集e={e1,e2,…,ek},根據(jù)如下公式計(jì)算事件ei={w1,w2,…wn,…wn}的均值向量作為每個(gè)事件ei的聚類中心:

其中,wn表示事件ei中包含的第n個(gè)事件詞的詞向量,用于表征n個(gè)事件詞,n表示事件ei包含的總事件詞數(shù)目。

對(duì)于新出現(xiàn)的事件詞w’,根據(jù)如下公式計(jì)算事件詞w’與事件集中每一事件ei的余弦相似度si:

獲得最大余弦相似度的smax,若smax大于等于閾值,則將事件詞w’歸為事件emax類;否則將事件詞w’單獨(dú)聚為一個(gè)事件類。

其中,閾值s為選定時(shí)空粒度下所有事件詞的平均余弦相似度,由下式獲得:

其中n為選定時(shí)空粒度下事件詞的個(gè)數(shù),wi為選定時(shí)空粒度下第i個(gè)事件詞的詞向量,wj為選定時(shí)空粒度下第j個(gè)事件詞的詞向量。

步驟5、構(gòu)建時(shí)空地理信息可視化系統(tǒng)。

具體地,利用d3.js將空間可視化模型與時(shí)間概念相結(jié)合,實(shí)現(xiàn)時(shí)空可視化模型,基于不同的時(shí)間粒度和空間粒度,展現(xiàn)出事件抽取結(jié)果,d3.js是一個(gè)javascript庫,它利用現(xiàn)有的web標(biāo)準(zhǔn),讓使用者以更簡單的方式(數(shù)據(jù)驅(qū)動(dòng))制作炫目的可視化效果,把數(shù)據(jù)更鮮活形象地展示出來。

以2015年4月上海市的事件抽取結(jié)果為例,如圖7所示,清晰明了的展示了2015年4月上海市的經(jīng)過聚類的事件抽取結(jié)果。

前面的附圖中所描繪的進(jìn)程或方法可通過包括硬件(例如,電路、專用邏輯等)、固件、軟件(例如,被承載在非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)上的軟件),或兩者的組合的處理邏輯來執(zhí)行。雖然上文按照某些順序操作描述了進(jìn)程或方法,但是,應(yīng)該理解,所描述的某些操作能以不同順序來執(zhí)行。此外,可并行地而非順序地執(zhí)行一些操作。

需要說明的是,在附圖或說明書正文中,未繪示或描述的實(shí)現(xiàn)方式,均為所屬技術(shù)領(lǐng)域中普通技術(shù)人員所知的形式,并未進(jìn)行詳細(xì)說明。此外,上述對(duì)各元件和方法的定義并不僅限于實(shí)施例中提到的各種具體結(jié)構(gòu)、形狀或方式,本領(lǐng)域普通技術(shù)人員可對(duì)其進(jìn)行簡單地更改或替換。

以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
许昌市| 本溪| 土默特右旗| 沂源县| 阿拉善右旗| 长宁县| 台北市| 沈阳市| 德州市| 县级市| 鹤庆县| 八宿县| 固安县| 嘉定区| 海安县| 上栗县| 海盐县| 荔波县| 衡阳市| 重庆市| 齐齐哈尔市| 沁水县| 南宫市| 台北县| 巴东县| 徐州市| 白山市| 庆城县| 嘉祥县| 乌鲁木齐市| 大邑县| 滨州市| 乌兰浩特市| 通州市| 彩票| 霞浦县| 中西区| 固阳县| 塔城市| 罗山县| 响水县|