地址結(jié)構(gòu)化方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種地址結(jié)構(gòu)化方法及裝置。
【背景技術(shù)】
[0002] 以可靠、高效、通用、自動(dòng)處理復(fù)雜數(shù)據(jù)和分布數(shù)據(jù)為目標(biāo)的新一代量質(zhì)融合數(shù)據(jù) 管理基礎(chǔ)軟件的系統(tǒng)設(shè)計(jì)研宄中,包含了圖查詢中如何捕捉有意義的匹配、如何應(yīng)對(duì)圖數(shù) 據(jù)的動(dòng)態(tài)特性和查詢的復(fù)雜性、如何查詢分布式的圖數(shù)據(jù)的研宄。
[0003] 截至2012年,技術(shù)上可在合理時(shí)間內(nèi)分析處理的數(shù)據(jù)集大小單位為艾字節(jié) (exabytes)。在許多領(lǐng)域,由于數(shù)據(jù)集過(guò)度龐大,科學(xué)家經(jīng)常在分析處理上遭遇限制和阻 礙。對(duì)于普通人來(lái)說(shuō),面對(duì)大量數(shù)據(jù)如何篩選出所需的知識(shí)也變的越來(lái)越困難。因此在 2012年Google搜索中加入了知識(shí)圖譜技術(shù)(GoogleKnowledgeGraph),它是Google的 一個(gè)知識(shí)庫(kù),其使用語(yǔ)義檢索從多種來(lái)源收集信息,以提高Google搜索的質(zhì)量。知識(shí)圖譜 除了顯示其他網(wǎng)站的鏈接列表,還提供結(jié)構(gòu)化及詳細(xì)的關(guān)于主題的信息。其目標(biāo)是,用戶將 能夠使用此功能提供的信息來(lái)解決他們查詢的問(wèn)題,而不必導(dǎo)航到其他網(wǎng)站并自己匯總信 息。
[0004] 知識(shí)圖譜(KnowledgeGraph)是一張龐大的語(yǔ)義網(wǎng)絡(luò),其節(jié)點(diǎn)代表實(shí)體(entity) 或者概念(cone印t),邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系。"圖譜"是指經(jīng)過(guò)系統(tǒng)編輯 并根據(jù)實(shí)物描述的圖。該技術(shù)是自動(dòng)構(gòu)建地址知識(shí)庫(kù)系統(tǒng)的重要環(huán)節(jié)甚至是關(guān)鍵環(huán)節(jié)。其 基本任務(wù)是確定句子的句法結(jié)構(gòu)或者句子中詞匯之間的關(guān)系。但是,一般來(lái)說(shuō),地址的結(jié) 構(gòu)化并不是一個(gè)地址知識(shí)庫(kù)處理任務(wù)的最終目標(biāo)。在該技術(shù)中包括但不限于以下技術(shù):自 動(dòng)分詞,詞性標(biāo)注,句法分析和實(shí)體關(guān)系提取等。
[0005] 語(yǔ)言學(xué)上,詞是最小的能夠獨(dú)立運(yùn)用的語(yǔ)言單位。中文作為一種孤立語(yǔ)系語(yǔ)言, 協(xié)同很多黏著語(yǔ)系的語(yǔ)言(例如日語(yǔ)),在文本中不像西方屈折語(yǔ)系如英語(yǔ)的文本那樣有 顯式的詞邊界,因此,自動(dòng)分詞問(wèn)題就成了計(jì)算機(jī)處理孤立語(yǔ)和黏著語(yǔ)文本時(shí)面臨的首要 基礎(chǔ)性工作,是諸多應(yīng)用系統(tǒng)不可或缺的一個(gè)重要環(huán)節(jié)。自中文自動(dòng)分詞問(wèn)題被提出以 來(lái),眾多專家提出了很多分詞方法,包括最大正向匹配法(FMM),逆向最大匹配法(BMM), 雙向掃描法,逐詞遍歷法等,這些方法基本上都是在20世紀(jì)80年代或者更早的時(shí)候提出 來(lái)的。由于這些方法大多數(shù)都是基于詞表進(jìn)行的,因此,一般統(tǒng)稱為基于詞表的分詞方法。 隨著統(tǒng)計(jì)方法的迅速發(fā)展,人們又提出了若干基于統(tǒng)計(jì)模型的分詞方法,以及規(guī)則方法與 統(tǒng)計(jì)方法相結(jié)合的分詞技術(shù),使?jié)h語(yǔ)分詞問(wèn)題得到了更加深入的研宄。其中,基于隱馬爾 可夫模型(HMM)的分詞技術(shù)正是一種典型的基于統(tǒng)計(jì)模型的分詞方法。
[0006] 在語(yǔ)言學(xué)中,詞性(part-of-speech)是詞匯基本的語(yǔ)法屬性。詞性標(biāo)注就是在給 定的句子中判定每個(gè)詞的語(yǔ)法范疇,確定其詞性并加以標(biāo)注的過(guò)程。詞性標(biāo)注是自然語(yǔ)言 處理中一個(gè)具有重要意義的研宄方向,詞性標(biāo)注的方法有很多,大體上可以歸為兩類,基于 規(guī)則的方法和基于統(tǒng)計(jì)的方法,而基于隱馬爾可夫模型(HMM)的詞性標(biāo)注技術(shù)正是統(tǒng)計(jì)方 法的典型例子。
[0007] 具體到地址的切分與標(biāo)注,現(xiàn)有技術(shù)中基于詞表的分詞方法可參見(jiàn)中國(guó)專利申請(qǐng) CN103440311A以及CN102298585A。
[0008] 另一方面,用詞與詞之間的依存關(guān)系來(lái)描述語(yǔ)言結(jié)構(gòu)的框架稱為依存句法 (DependencyGrammar),是由法國(guó)語(yǔ)言學(xué)家L.Tesniere最先提出,將句子分析成一顆依存 樹(shù)(DependencyTree)來(lái)描述出各個(gè)詞語(yǔ)之間的依存關(guān)系?,F(xiàn)有依存句法分析算法大致歸 為生成式的分析方法、判別式的分析方法、確定性的(決策式的)分析方法以及基于約束滿 足的分析方法。
[0009] 當(dāng)前,基于依存句法的自然語(yǔ)言處理技術(shù)不斷得到發(fā)展和完善。但是,現(xiàn)有技術(shù)中 基于依存句法對(duì)自然語(yǔ)言做分析時(shí)一般采用依存樹(shù)來(lái)表示依存關(guān)系,而且主要按照主語(yǔ)、 謂語(yǔ)、賓語(yǔ)等語(yǔ)言學(xué)語(yǔ)法特性來(lái)分析自然語(yǔ)言的析依存關(guān)系,并沒(méi)有針對(duì)地址的數(shù)據(jù)結(jié)構(gòu) 特點(diǎn)進(jìn)行專門的地址結(jié)構(gòu)化研宄,同時(shí)單純的樹(shù)狀結(jié)構(gòu)也不能表示地址中的復(fù)雜關(guān)系。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明的目的在于提供一種地址結(jié)構(gòu)化方法,生成依存句法圖結(jié)構(gòu)表示地址文本 中詞之間的依存關(guān)系。
[0011] 本發(fā)明的另一目的在于提供一種地址結(jié)構(gòu)化裝置,用于生成依存句法圖結(jié)構(gòu)表示 地址文本中詞之間的依存關(guān)系。
[0012] 為實(shí)現(xiàn)上述目的,本發(fā)明提供一種地址結(jié)構(gòu)化方法,包括:
[0013] 步驟10、將地址文本切分為地址詞序列;
[0014] 步驟20、根據(jù)預(yù)定義的反映地址詞特性的詞性標(biāo)注集對(duì)地址詞序列中每個(gè)地址詞 進(jìn)行詞性標(biāo)注;
[0015] 步驟30、按照預(yù)定義的地址詞依存關(guān)系規(guī)則,對(duì)標(biāo)注后的地址詞序列進(jìn)行依存句 法分析,以實(shí)體地址詞作為節(jié)點(diǎn),以實(shí)體地址詞之間的依存關(guān)系作為邊,生成反映地址結(jié)構(gòu) 的依存句法圖結(jié)構(gòu)。
[0016] 其中,所述地址為中文地址。
[0017] 其中,步驟10中基于隱馬爾可夫模型進(jìn)行地址文本切分。
[0018] 其中,步驟20中基于隱馬爾可夫模型進(jìn)行詞性標(biāo)注。
[0019] 其中,步驟20中還使用預(yù)定義的標(biāo)注規(guī)則對(duì)詞性標(biāo)注結(jié)果進(jìn)行修正。
[0020] 其中,所述詞性標(biāo)注集包括代表實(shí)體地址詞所占據(jù)空間的標(biāo)簽。
[0021] 其中,所述代表實(shí)體地址詞所占據(jù)空間的標(biāo)簽為國(guó)家、省、市、區(qū)、街道、社區(qū)、片 區(qū)、道路、門牌號(hào)、樓棟、房間、交匯處或地鐵線。
[0022] 其中,所述預(yù)定義的依存關(guān)系規(guī)則為包含關(guān)系、門牌號(hào)指向關(guān)系、鄰接關(guān)系或同名 關(guān)系。
[0023] 本發(fā)明還提供了一種地址結(jié)構(gòu)化裝置,包括:
[0024] 地址文本切分模塊,用于將地址文本切分為地址詞序列;
[0025] 地址詞標(biāo)注模塊,用于根據(jù)預(yù)定義的反映地址詞特性的詞性標(biāo)注集對(duì)地址詞序列 中每個(gè)地址詞進(jìn)行詞性標(biāo)注;
[0026] 依存句法分析模塊,用于按照預(yù)定義的地址詞依存關(guān)系規(guī)則,對(duì)標(biāo)注后的地址詞 序列進(jìn)行依存句法分析,以實(shí)體地址詞作為節(jié)點(diǎn),以實(shí)體地址詞之間的依存關(guān)系作為邊,生 成反映地址結(jié)構(gòu)的依存句法圖結(jié)構(gòu)。
[0027] 其中,所述地址為中文地址。
[0028] 綜上所述,本發(fā)明地址結(jié)構(gòu)化方法及裝置能夠高效的自動(dòng)化的生成依存句法圖結(jié) 構(gòu)來(lái)表示地址文本中詞之間的依存關(guān)系;人工干預(yù)的策略簡(jiǎn)單,不需要了解大量的背景知 識(shí);本發(fā)明擴(kuò)展了依存樹(shù)的結(jié)構(gòu),使之能夠以圖的形式表達(dá)地址詞間的關(guān)系;有效的輔助 了人工操作,簡(jiǎn)化了地址知識(shí)獲取的難度。
【附圖說(shuō)明】
[0029] 圖1為本發(fā)明地址結(jié)構(gòu)化方法一較佳實(shí)施例的流程圖;
當(dāng)前第1頁(yè)
1 
2