專利名稱:地址數(shù)據(jù)庫的建構(gòu)方法及裝置的制作方法
地址數(shù)據(jù)庫的建構(gòu)方法及裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及一種地址數(shù)據(jù)庫的建構(gòu)方法以及裝置,尤其是指一種基于學(xué)習(xí)模型 的地址數(shù)據(jù)庫建構(gòu)方法及裝置。
背景技術(shù):
過去十幾年以來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們越來越依賴于互聯(lián)網(wǎng)提供的豐 富、快捷、及時的信息。但是如何在浩如煙海的信息中找到待搜尋的信息,成為一項迫 切需要解決的問題,相應(yīng)地,眾多的互聯(lián)網(wǎng)搜索引擎及對應(yīng)的網(wǎng)站應(yīng)運(yùn)而生,這中間的 佼佼者包括百度公司的百度搜索(www.baidu.com)和谷歌公司的谷歌搜索(www.google. cn)。在眾多需要搜尋的信息中,一類重要的信息是搜尋地址信息,這類的需求在搜 尋在線電子地圖信息時特別得到重視。所謂的在線電子地圖相對于傳統(tǒng)的紙質(zhì)地圖或單 機(jī)的電子地圖,其具有更新及時、便于查詢、使用直觀簡潔、以及提供的信息豐富等諸 多優(yōu)點(diǎn),目前在中國的在線電子地圖提供者中比較被廣泛推薦的包括百度公司的百度地 圖(map.baidu.com)和谷歌公司的google地圖(ditu.google.cn),其中尤其以百度公司的百 度地圖更加滿足中國使用者的使用習(xí)慣而得到了廣泛應(yīng)用。其中,當(dāng)在線電子地圖的使用者將某個待查詢地址輸入在線電子地圖的地址搜 索框進(jìn)行查詢時,該待查詢地址會在已建構(gòu)的地址數(shù)據(jù)庫中進(jìn)行查詢。然而,現(xiàn)有的構(gòu)建地址數(shù)據(jù)庫技術(shù)存在若干缺陷。現(xiàn)有的地址數(shù)據(jù)庫在建構(gòu)時 只是利用詞典、詞表、后綴關(guān)鍵字列表和人工總結(jié)的方式將接收到的地址數(shù)據(jù)分詞后分 類入地址數(shù)據(jù)庫,其往往是通過人工來適應(yīng)接收到的地址數(shù)據(jù),舉例說明若接收到的 地址為“中關(guān)村大街南100號”時,其首先通過詞典、詞表、后綴關(guān)鍵字列表,進(jìn)行分 詞,如,后綴關(guān)鍵字列表可能是“街”、“道”、“路”、“號”等,那么在遇到如
“街”、“道”、“路”、“號”等關(guān)鍵字時,即在關(guān)鍵字后進(jìn)行分詞,舉例說明若接 收到的地址為“中關(guān)村大街南100號”,則通過后綴關(guān)鍵字列表,將該地址分詞為“中 關(guān)村大街”、“南”、“100號”;在分詞結(jié)束后,再通過人工適應(yīng)的方式,為分詞后 的地址信息加入屬性,其屬性標(biāo)注順序為道路名-方位名-門牌名,如在“中關(guān)村大 街”中加入屬性為道路名、“南”加入方位名、“100號”中加入屬性為門牌名。然 而,若接收到的地址為“中關(guān)村大街100號南”,除通過上述分詞將其分為“中關(guān)村大 街”、“100號”、“ 南”后,還要為該分詞后的地址信息添加新的屬性標(biāo)注順序為道 路名-門牌名-方位名,并對該分詞后的地址加入屬性,如在“中關(guān)村大街”中加入屬 性為道路名、“100號”中加入屬性為門牌名、“南”加入方位名。上述的地址數(shù)據(jù)建構(gòu)方法,因要不斷的加入新的屬性標(biāo)注順序,從而導(dǎo)致處理 過程較為復(fù)雜,效率較低,另外,只是通過詞典、詞表、后綴關(guān)鍵詞的方式進(jìn)行分詞, 會導(dǎo)致分詞準(zhǔn)確率較低。因此,需要提供一種改進(jìn)的地址數(shù)據(jù)庫建構(gòu)方法及裝置。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種經(jīng)過改進(jìn)的地址數(shù)據(jù)庫的建構(gòu)方法,所述的方法基于輸入的大量原始地址數(shù)據(jù)建立范式地址數(shù)據(jù)庫。本發(fā)明的另一目的在于提供一種經(jīng)過改進(jìn)的地址數(shù)據(jù)庫的建構(gòu)裝置,所述的裝 置基于輸入的大量原始地址數(shù)據(jù)建立范式地址數(shù)據(jù)庫。相應(yīng)地,本發(fā)明的一種實(shí)施方式的地址數(shù)據(jù)庫的建構(gòu)方法包括一種范式地址數(shù)據(jù)庫的建構(gòu)方法,包括Si、獲取原始地址數(shù)據(jù);S2、分詞模型對所述原始地址數(shù)據(jù)分類并產(chǎn)生范式地址;S3、將所述范式地址歸類入范式地址數(shù)據(jù)庫。作為本發(fā)明的進(jìn)一步改進(jìn),所述S2包括以下步驟所述分詞模型對所述原始地址進(jìn)行分詞;通過所述分詞產(chǎn)生所述范式地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述的Sl包括判斷所述的原始地址數(shù)據(jù)是否與范式地址的格式匹配;若匹配,則直接輸出所述原始地址數(shù)據(jù)作為范式地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述的Sl包括判斷所述的原始地址數(shù)據(jù)是否與范式地址的格式匹配;若不匹配,則進(jìn)入S2。作為本發(fā)明的進(jìn)一步改進(jìn),在所述Sl后還包括地址統(tǒng)計分析步驟所述的地址 統(tǒng)計分析步驟對原始地址數(shù)據(jù)進(jìn)行統(tǒng)計分析,產(chǎn)生范式地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述Sl包括判斷所述的原始地址數(shù)據(jù)是否與范式地址的格式匹配;若不匹配,則進(jìn)入地址統(tǒng)計分析步驟。作為本發(fā)明的進(jìn)一步改進(jìn),所述的地址統(tǒng)計分析步驟包括識別未知地址信息前的第一地址信息;識別未知地址信息后的第二地址信息;在地址數(shù)據(jù)資源庫中統(tǒng)計所述第一地址信息和第二地址信息中間的地址類型信 息,并計算所述地址類型信息出現(xiàn)的概率;將概率最高的地址類型信息與設(shè)定的閾值比較,若高于所述閾值,則將所述地 址類型信息結(jié)合第一地址信息和第二地址信息產(chǎn)生范式地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述的地址統(tǒng)計分析步驟包括若低于所述閾值,則進(jìn)入S2步驟。作為本發(fā)明的進(jìn)一步改進(jìn),在所述S2前,還包括以下步驟地址數(shù)據(jù)獲取獲取原始地址數(shù)據(jù);生成語料將若干條所述原始地址數(shù)據(jù)依據(jù)制定的范式標(biāo)準(zhǔn)分詞成語料;學(xué)習(xí)語料基于所述語料,通過機(jī)器學(xué)習(xí)方式構(gòu)建所述分詞模型。作為本發(fā)明的進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為條件隨機(jī)場方式。
作為本發(fā)明的進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為支持向量機(jī)方式。作為本發(fā)明的 進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為隱馬爾可夫模型。作為本發(fā)明的進(jìn)一步改進(jìn),所述S3具體包括以下步驟地址庫設(shè)立步驟建立一個樹狀結(jié)構(gòu)的范式地址庫;地址輸入步驟接收所述范式地址;地址分類步驟分析所述范式地址,并將所述范式地址按照所述樹狀結(jié)構(gòu)歸類 至所述范式地址庫中。作為本發(fā)明的進(jìn)一步改進(jìn),所述范式地址庫具有若干分支,每個分支的末端具 有至少一個葉節(jié)點(diǎn)。作為本發(fā)明的進(jìn)一步改進(jìn),所述地址分類步驟還包括將所述范式地址分類到所 述標(biāo)準(zhǔn)范式地址庫中至少一個葉節(jié)點(diǎn)上。作為本發(fā)明的進(jìn)一步改進(jìn),所述范式地址庫的樹狀結(jié)構(gòu)包括基于地址邏輯層次 的行政區(qū)域?qū)雍妥拥刂穼?。作為本發(fā)明的進(jìn)一步改進(jìn),所述的行政區(qū)域?qū)影ㄋ膫€層級第一層級為省/ 自治區(qū)/直轄市;第二層級為市/自治州;第三層級為區(qū)/縣;第四個層級為鄉(xiāng)/鎮(zhèn)/街 道。作為本發(fā)明的進(jìn)一步改進(jìn),所述的子地址層至少包括道路類地址、區(qū)域類地址 與地標(biāo)類地址的其中之一。作為本發(fā)明的進(jìn)一步改進(jìn),所述的道路類地址用于定義以道路為首的具體地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述的區(qū)域類地址用于定義以小區(qū)為首的具體地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述的地標(biāo)類地址用于定義一個具體的位置點(diǎn)。本發(fā)明的另一種實(shí)施方式的地址數(shù)據(jù)庫的建構(gòu)方法包括Si、獲取原始地址數(shù)據(jù);S2、分詞模型對所述原始地址數(shù)據(jù)分類并產(chǎn)生候選范式地址;S3、將所述候選范式地址歸類入范式地址數(shù)據(jù)庫。作為本發(fā)明的進(jìn)一步改進(jìn),所述S2包括以下步驟所述分詞模型對所述原始地址進(jìn)行分詞;通過所述分詞產(chǎn)生候選范式地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述S3包括以下步驟將所述候選范式地址處理為范式地址;將所述范式地址歸類入范式地址數(shù)據(jù)庫。作為本發(fā)明的進(jìn)一步改進(jìn),所述的Sl包括判斷所述的原始地址數(shù)據(jù)是否與候選范式地址的格式匹配;若匹配,則直接輸出所述原始地址數(shù)據(jù)作為候選范式地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述的Sl包括判斷所述的原始地址數(shù)據(jù)是否與候選范式地址的格式匹配;若不匹配,則進(jìn)入S2。
作為本發(fā)明的進(jìn)一步改進(jìn),在所述Sl后還包括地址統(tǒng)計分析步驟所述的地址 統(tǒng)計分析步驟對原始地址數(shù)據(jù)進(jìn)行統(tǒng)計分析,產(chǎn)生范式地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述Sl包括判斷所述的原始地址數(shù)據(jù)是否與候選范式地址的格式匹配;若不匹配,則進(jìn)入所述地址統(tǒng)計分析步驟。作為本發(fā)明的進(jìn)一步改進(jìn),所述的地址統(tǒng)計分析步驟包括識別未知地址信息前的第一地址信息;識別未知地址信息后的第二地址信息;在地址數(shù)據(jù)資源庫中統(tǒng)計所述第一地址信息和第二地址信息中間的地址類型信息,并計算所述地址類型信息出現(xiàn)的概率;將概率最高的地址類型信息與設(shè)定的閾值比較,若高于所述閾值,則將所述地 址類型信息結(jié)合第一地址信息和第二地址信息產(chǎn)生候選范式地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述的地址統(tǒng)計分析步驟包括若低于所述閾值,則進(jìn)入S2步驟。作為本發(fā)明的進(jìn)一步改進(jìn),在所述S2前,還包括以下步驟地址數(shù)據(jù)獲取獲取原始地址數(shù)據(jù);生成語料將若干條所述原始地址數(shù)據(jù)依據(jù)制定的范式標(biāo)準(zhǔn)分詞成語料;學(xué)習(xí)語料基于所述語料,通過機(jī)器學(xué)習(xí)方式構(gòu)建所述分詞模型。作為本發(fā)明的進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為條件隨機(jī)場方式。作為本發(fā)明的進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為支持向量機(jī)方式。作為本發(fā)明的進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為隱馬爾可夫模型。作為本發(fā)明的進(jìn)一步改進(jìn),所述S3前還包括以下步驟地址庫設(shè)立步驟建立一個樹狀結(jié)構(gòu)的范式地址庫;地址輸入步驟接收所述范式地址;地址分類步驟分析所述范式地址,并將所述范式地址按照所述樹狀結(jié)構(gòu)歸類 至所述范式地址庫中。作為本發(fā)明的進(jìn)一步改進(jìn),所述范式地址庫具有若干分支,每個分支的末端具 有至少一個葉節(jié)點(diǎn)。作為本發(fā)明的進(jìn)一步改進(jìn),所述地址分類步驟還包括將所述范式地址分類到所 述標(biāo)準(zhǔn)范式地址庫中至少一個葉節(jié)點(diǎn)上。作為本發(fā)明的進(jìn)一步改進(jìn),所述范式地址庫的樹狀結(jié)構(gòu)包括基于地址邏輯層次 的行政區(qū)域?qū)雍妥拥刂穼?。作為本發(fā)明的進(jìn)一步改進(jìn),所述的行政區(qū)域?qū)影ㄋ膫€層級第一層級為省/ 自治區(qū)/直轄市;第二層級為市/自治州;第三層級為區(qū)/縣;第四個層級為鄉(xiāng)/鎮(zhèn)/街 道。作為本發(fā)明的進(jìn)一步改進(jìn),所述的子地址層至少包括道路類地址、區(qū)域類地址 與地標(biāo)類地址的其中之一。作為本發(fā)明的進(jìn)一步改進(jìn),所述的道路類地址用于定義以道路為首的具體地址。
作為本發(fā)明的進(jìn)一步改進(jìn),所述的區(qū)域類地址用于定義以小區(qū)為首的具體地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述的地標(biāo)類地址用于定義一個具體的位置點(diǎn)。相應(yīng)地,本發(fā)明的一種實(shí)施方式的地址數(shù)據(jù)庫建構(gòu)裝置包括原始數(shù)據(jù)獲取模塊,用于獲取原始地址數(shù)據(jù);分詞模型模塊,用于對所述原始地址數(shù)據(jù)分類并產(chǎn)生范式地址;范式地址生成模塊,用于將所述范式地址歸類入范式地址數(shù)據(jù)庫。作為本發(fā)明的進(jìn)一步改進(jìn),所述的原始數(shù)據(jù)獲取模塊中的原始地址信息包括文本信息和坐標(biāo)信息。作為本發(fā)明的進(jìn)一步改進(jìn),所述地址數(shù)據(jù)庫建構(gòu)裝置還包括地址統(tǒng)計分析模 塊,用于對原始地址數(shù)據(jù)進(jìn)行統(tǒng)計分析,產(chǎn)生范式地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述地址數(shù)據(jù)庫建構(gòu)裝置還包括生成語料模塊用于將若干條所述原始地址數(shù)據(jù)依據(jù)制定的范式標(biāo)準(zhǔn)分詞成語 料;學(xué)習(xí)語料模塊用于基于所述語料,通過機(jī)器學(xué)習(xí)方式構(gòu)建所述分詞模型。作為本發(fā)明的進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為條件隨機(jī)場方式。作為本發(fā)明的進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為支持向量機(jī)方式。作為本發(fā)明的進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為隱馬爾可夫模型。作為本發(fā)明的進(jìn)一步改進(jìn),所述范式地址生成模塊還包括地址庫設(shè)立單元,用于建立一個樹狀結(jié)構(gòu)的范式地址庫;地址輸入單元,用于接收所述候選范式地址;地址分類單元,用于分析所述候選范式地址,并將所述候選范式地址按照所述 樹狀結(jié)構(gòu)歸類至所述范式地址庫中。作為本發(fā)明的進(jìn)一步改進(jìn),所述范式地址庫具有若干分支,每個分支的末端具 有至少一個葉節(jié)點(diǎn)。作為本發(fā)明的進(jìn)一步改進(jìn),所述范式地址庫的樹狀結(jié)構(gòu)包括基于地址邏輯層次 的行政區(qū)域?qū)雍妥拥刂穼?。作為本發(fā)明的進(jìn)一步改進(jìn),所述的行政區(qū)域?qū)影ㄋ膫€層級第一層級為省/ 自治區(qū)/直轄市;第二層級為市/自治州;第三層級為區(qū)/縣;第四個層級為鄉(xiāng)/鎮(zhèn)/街 道。作為本發(fā)明的進(jìn)一步改進(jìn),所述的子地址層至少包括道路類地址、區(qū)域類地址 與地標(biāo)類地址的其中之一。本發(fā)明的另一種實(shí)施方式的地址數(shù)據(jù)庫建構(gòu)裝置包括原始數(shù)據(jù)獲取模塊,用于獲取原始地址數(shù)據(jù);分詞模型模塊,分詞模型對所述原始地址數(shù)據(jù)分類并產(chǎn)生候選范式地址范式地址生成模塊,用于將所述候選范式地址歸類入范式地址數(shù)據(jù)庫。作為本發(fā)明的進(jìn)一步改進(jìn),所述的原始數(shù)據(jù)獲取模塊中的原始地址信息包括文 本信息和坐標(biāo)信息。作為本發(fā)明的進(jìn)一步改進(jìn),所述地址數(shù)據(jù)庫建構(gòu)裝置還包括地址統(tǒng)計分析模塊,用于對原始地址數(shù)據(jù)進(jìn)行統(tǒng)計分析,產(chǎn)生候選范式地址。作為本發(fā)明的進(jìn)一步改進(jìn),所述地址數(shù)據(jù)庫建構(gòu)裝置還包括生成語料模塊用于將若干條所述原始地址數(shù)據(jù)依據(jù)制定的范式標(biāo)準(zhǔn)分詞成語 料;學(xué)習(xí)語料模塊用于基于所述語料,通過機(jī)器學(xué)習(xí)方式構(gòu)建所述分詞模型。作為本發(fā)明的進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為條件隨機(jī)場方式。作為本發(fā)明的進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為支持向量機(jī)方式。作為本發(fā)明的進(jìn)一步改進(jìn),所述機(jī)器學(xué)習(xí)方式為隱馬爾可夫模型。作為本發(fā)明的進(jìn)一步改進(jìn),所述范式地址生成模塊還包括地址庫設(shè)立單元,用于建立一個樹狀結(jié)構(gòu)的范式地址庫;地址輸入單元,用于接收所述范式地址;地址分類單元,用于分析所述范式地址,并將所述范式地址按照所述樹狀結(jié)構(gòu) 歸類至所述范式地址庫中。作為本發(fā)明的進(jìn)一步改進(jìn),所述范式地址庫具有若干分支,每個分支的末端具 有至少一個葉節(jié)點(diǎn)。作為本發(fā)明的進(jìn)一步改進(jìn),所述范式地址庫的樹狀結(jié)構(gòu)包括基于地址邏輯層次 的行政區(qū)域?qū)雍妥拥刂穼?。作為本發(fā)明的進(jìn)一步改進(jìn),所述的行政區(qū)域?qū)影ㄋ膫€層級第一層級為省/ 自治區(qū)/直轄市;第二層級為市/自治州;第三層級為區(qū)/縣;第四個層級為鄉(xiāng)/鎮(zhèn)/街 道。作為本發(fā)明的進(jìn)一步改進(jìn),所述的子地址層至少包括道路類地址、區(qū)域類地址 與地標(biāo)類地址的其中之一。本發(fā)明的有益效果是運(yùn)用 分詞模型通過地址屬性對待分類地址進(jìn)行切詞分 類,并存儲至范式地址數(shù)據(jù)庫,使得本發(fā)明的地址數(shù)據(jù)庫建構(gòu)效率較高,且準(zhǔn)確率也較
尚ο
圖1是本發(fā)明一種實(shí)施方式的地址數(shù)據(jù)庫建構(gòu)方法的流程圖。圖2是本發(fā)明另一種實(shí)施方式的地址數(shù)據(jù)庫建構(gòu)方法的流程圖。圖3是本發(fā)明一種實(shí)施方式的地址數(shù)據(jù)庫建構(gòu)裝置的結(jié)構(gòu)示意圖。圖4是本發(fā)明一種實(shí)施方式的地址數(shù)據(jù)庫建構(gòu)方法的流程圖。圖5是本發(fā)明另一種實(shí)施方式的地址數(shù)據(jù)庫建構(gòu)方法的流程圖。圖6是本發(fā)明另一種實(shí)施方式的地址數(shù)據(jù)庫建構(gòu)裝置的結(jié)構(gòu)示意圖。圖7是本發(fā)明的范式地址生成模塊的結(jié)構(gòu)示意圖。圖8是本發(fā)明的范式地址生成方法的流程圖。圖9是本發(fā)明的地址庫設(shè)定單元的范式地址庫架構(gòu)示意圖。圖10是本發(fā)明建構(gòu)分詞模型的流程圖。圖11是本發(fā)明建構(gòu)分詞模型的模塊結(jié)構(gòu)示意圖。
具體實(shí)施方式為了對發(fā) 明的技術(shù)特征、發(fā)明目的和技術(shù)效果有更加清楚的理解,現(xiàn)對照附圖 說明本發(fā)明的具體實(shí)施方式
,在各圖中相同的標(biāo)號表示步驟相同的部分。在本文中,
“示意性”表示“充當(dāng)實(shí)例、例子或說明”,不應(yīng)將在本文中被描述為“示意性”的任 何圖示、實(shí)施方式解釋為一種更優(yōu)選的或更具優(yōu)點(diǎn)的技術(shù)方案。首先參考圖1,本發(fā)明的一種實(shí)施方式的地址數(shù)據(jù)庫建構(gòu)方法包括以下步驟Si、獲取原始地址數(shù)據(jù)。其中,該原始地址數(shù)據(jù)包括地址的文本信息和坐標(biāo)信 息,所述的文本信息所指的是任何可以表示道路類地址、區(qū)域類地址、地標(biāo)類地址的至 少其中之一的具體地址,所述坐標(biāo)信息所指的是該原始地址數(shù)據(jù)的具體坐標(biāo)點(diǎn)。例如 原始地址數(shù)據(jù)為“北京市海淀區(qū)上地十街10號百度大廈+(X,y)”,其中,“北京市海 淀區(qū)上地十街10號百度大廈”為該原始地址數(shù)據(jù)的文本信息,(X,y)為該原始地址數(shù)據(jù) 的坐標(biāo)信息。S2、分詞模型對所述原始地址數(shù)據(jù)進(jìn)行分詞并產(chǎn)生范式地址。其中,該分詞模 型是怎樣建立的,其是學(xué)習(xí)怎樣的分詞規(guī)則的,將在后續(xù)的說明書進(jìn)行揭示。S3、將所述范式地址歸類入范式地址數(shù)據(jù)庫。值得一提的是同一個原始地址 數(shù)據(jù),在存入范式地址數(shù)據(jù)庫時,可能為多個存儲地址,例如,原始地址數(shù)據(jù)為“北京 市海淀區(qū)上地十街10號百度大廈+(X,y)”,其經(jīng)過分詞后得到“北京海淀區(qū)”、“上 地十街10號”、“百度大廈”,則在存入該數(shù)據(jù)庫時,該存儲地址則可能為兩個一是
“北京市海淀區(qū)上地十街10號” ;二是“北京市海淀區(qū)百度大廈”,其是根據(jù)行政區(qū)域 +道路類地址、行政區(qū)域+地標(biāo)類地址的規(guī)則進(jìn)行分類存儲。如上述例子中,行政區(qū)域 為北京市海淀區(qū)、道路類地址為上地十街10號、地標(biāo)類地址為百度大廈。所述存儲方式 將在后續(xù)說明書中進(jìn)行詳細(xì)揭示。首先參考圖2,本發(fā)明的另一種實(shí)施方式的地址數(shù)據(jù)庫建構(gòu)方法包括以下步 驟Si’、獲取原始地址數(shù)據(jù)。其中,該原始地址數(shù)據(jù)包括地址的文本信息和坐 標(biāo)信息,所述的文本信息所指的是任何可以表示道路類地址、區(qū)域類地址、地標(biāo)類地址 的至少其中之一的具體地址,所述坐標(biāo)信息所指的是該原始地址數(shù)據(jù)的具體坐標(biāo)點(diǎn)。例 如原始地址數(shù)據(jù)為“北京市海淀區(qū)上地十街10號百度大廈+(X,y)”,其中,“北京 市海淀區(qū)上地十街10號百度大廈”為該原始地址數(shù)據(jù)的文本信息,(X,y)為該原始地址 數(shù)據(jù)的坐標(biāo)信息。S2’、分詞模型對所述原始地址數(shù)據(jù)進(jìn)行分詞并產(chǎn)生候選范式地址。該候選范 式地址在其后的S3’步驟,將對其進(jìn)行處理,并分類存入至范式地址數(shù)據(jù)庫中。其中, 該分詞模型是怎樣建立的,其是學(xué)習(xí)怎樣的分詞規(guī)則的,將在后續(xù)的說明書進(jìn)行揭示。S3’、將所述候選范式地址處理并歸類入范式地址數(shù)據(jù)庫。所述的處理,指的 是將該候選范式地址對應(yīng)范式地址數(shù)據(jù)庫的樹形圖,將其格式調(diào)整為完全符合該范式地 址樹形圖中的分支或葉節(jié)點(diǎn)。值得一提的是同一個原始地址數(shù)據(jù),在存入范式地址數(shù) 據(jù)庫時,可能為多個存儲地址,例如,原始地址數(shù)據(jù)為“北京市海淀區(qū)上地十街10號百 度大廈+ (X,y)”,其經(jīng)過分詞后得到“北京海淀區(qū)”、“上地十街10號”、“百度大 廈”,則在存入該數(shù)據(jù)庫時,該存儲地址則可能為兩個一是“北京市海淀區(qū)上地十街10號” ;二是“北京市海淀區(qū)百度大廈”,其是根據(jù)行政區(qū)域+道路類地址、行政區(qū)域 +地標(biāo)類地址的規(guī)則進(jìn)行分類存儲。如上述例子中,行政區(qū)域為北京市海淀區(qū)、道路類 地址為上地十街10號、地標(biāo)類地址為百度大廈。所述存儲方式將在后續(xù)說明書中進(jìn)行詳 細(xì)揭示。相應(yīng)地,請參考圖3,為本發(fā)明一種實(shí)施方式的地址數(shù)據(jù)庫建構(gòu)裝置,其包括原 始數(shù)據(jù)獲取模塊1,分詞模型模塊2,以及范式地址生成模塊4。其中,原始數(shù)據(jù)獲取模塊1用于獲取包含大量地址信息的原始地址數(shù)據(jù)。其 中,該原始地址數(shù)據(jù)包括地址的文本信息和坐標(biāo)信息,所述的文本信息所指的是任何可 以表示道路類地址、區(qū)域類地址、地標(biāo)類地址的至少其中之一的具體地址,所述坐標(biāo)信 息所指的是該原始地址數(shù)據(jù)的具體坐標(biāo)點(diǎn)。例如原始地址數(shù)據(jù)為“北京市海淀區(qū)上地 十街10號百度大廈+(X,y)”,其中,“北京市海淀區(qū)上地十街10號百度大廈”為該原 始地址數(shù)據(jù)的文本信息,(X,y)為該原始地址數(shù)據(jù)的坐標(biāo)信息。分詞模型模塊2用于對所述原始地址數(shù)據(jù)進(jìn)行分詞并產(chǎn)生范式地址或候選范式 地址。其中,該分詞模型是怎樣建立的,其是學(xué)習(xí)怎樣的分詞規(guī)則的,將在后續(xù)的說明 書進(jìn)行揭示。范式地址生成模塊4用于將所述范式地址歸類入范式地址數(shù)據(jù)庫。需要指出的 是,在本發(fā)明另一實(shí)施方式中,該步驟接收到的是候選范式地址,該步驟需要將該候選 范式地址進(jìn)行處理,再存入至范式地址數(shù)據(jù)庫。所述的處理,指的是將該候選范式地址 對應(yīng)范式地址數(shù)據(jù)庫的樹形圖,將其格式調(diào)整為完全符合該范式地址樹形圖中的分支或 葉節(jié)點(diǎn)。所述的“范式地址”所指的是通過原始數(shù)據(jù)獲取模塊1、分詞模型模塊2、范 式地址生成模塊4獲得的符合范式數(shù)據(jù)庫格式的地址信息。這些地址信息將按照本發(fā)明 的圖9所描述的格式要求分類至對應(yīng)的子地址層下面的地址類型中去,此部分將在后段 文字描述圖9時有詳細(xì)介紹。值得一提的是同一個原始地址數(shù)據(jù),在存入地址數(shù)據(jù)庫 時,可能為多個存儲地址,例如,原始地址數(shù)據(jù)為“北京市海淀區(qū)上地十街10號百度 大廈+(X,y)”,其經(jīng)過分詞后得到“北京海淀區(qū)”、“上地十街10號”、“百度大 廈”,則在存入該數(shù)據(jù)庫時,該存儲地址則可能為兩個一是“北京市海淀區(qū)上地十街 10號” ;二是“北京市海淀區(qū)百度大廈”,其是根據(jù)行政區(qū)域+道路類地址、行政區(qū)域 +地標(biāo)類地址的規(guī)則進(jìn)行分類存儲。如上述例子中,行政區(qū)域為北京市海淀區(qū)、道路類 地址為上地十街10號、地標(biāo)類地址為百度大廈。再參考圖4,作為本發(fā)明的一種實(shí)施方式,該地址數(shù)據(jù)庫的建構(gòu)方法還可由上述 步驟進(jìn)行擴(kuò)展,變形為下述詳細(xì)工作流程步驟S10:獲取原始地址數(shù)據(jù)。該原始地址數(shù)據(jù)包括地址的文本信息和坐標(biāo)信 息,所述的文本信息所指的是任何可以表示道路類地址、區(qū)域類地址、地標(biāo)類地址的至 少其中之一的具體地址,所述坐標(biāo)信息所指的是該原始地址數(shù)據(jù)的具體坐標(biāo)點(diǎn)。例如 原始地址數(shù)據(jù)為“北京市海淀區(qū)上地十街10號百度大廈+(X,y)”,其中,“北京市海 淀區(qū)上地十街10號百度大廈”為該原始地址數(shù)據(jù)的文本信息,(X,y)為該原始地址數(shù)據(jù) 的坐標(biāo)信息。步驟Sll:針對某個具體的地址信息,判斷所述的地址信息是否符合范式地址 的要求,若符合要求,則直接進(jìn)入步驟S16,若不符合要求則進(jìn)入步驟S12。
步驟S12:即地址統(tǒng)計分析步驟,用于所述的大量地址信息基于已有的地址數(shù) 據(jù)資源庫進(jìn)行統(tǒng)計分析,并基于某個地址信息在所有地址信息中出現(xiàn)的頻率,產(chǎn)生范式 地址。需要此步驟的原因在于,所述的原始地址信息并不一定都是完整的可以直接適用 于步驟S16的范式地址。非常常見的可能是,通過諸多途徑(例如互聯(lián)網(wǎng)數(shù)據(jù)收集途徑) 獲取到的原始地址信息并不完整,所述的不完整地址信息并不符合步驟S16范式地址的 格式要求,需要基于統(tǒng)計分析的方法進(jìn)行進(jìn)一步處理,所述的統(tǒng)計分析方法是識別未 知地址信息前的第一地址信息;識別未知地址信息后的第二地址信息;在地址數(shù)據(jù)資源 庫中統(tǒng)計所述第一地址信息和第二地址信息中 間的地址類型信息,并計算所述地址類型 信息出現(xiàn)的概率;將概率最高的地址類型信息與設(shè)定的閾值比較。舉例說明若原始地 址信息為“北京市海淀區(qū)中關(guān)村大街西施胡同13號”,則對該地址從前向后進(jìn)行識別, 當(dāng)“北京市海淀區(qū)”、“中關(guān)村大街”均可通過地址數(shù)據(jù)資源庫識別出其是行政區(qū)域地 址和道路類地址,而“西施胡同”不能識別時,則進(jìn)行反向識別,即從后向前識別,當(dāng)
“13號”被識別出為“門牌地址時”,則在所述地址數(shù)據(jù)資源庫中進(jìn)行統(tǒng)計,統(tǒng)計道路 類地址到門牌類地址中間插入的地址應(yīng)該為何種地址類型信息,若經(jīng)過統(tǒng)計后,發(fā)現(xiàn)胡 同類地址的概率最高,并比較該概率與預(yù)先設(shè)定的閾值,進(jìn)入S13步驟。步驟S13:若所述概率高于設(shè)定的閾值,則所述地址信息作為范式地址使用, 并直接進(jìn)入步驟S16;若所述概率低于設(shè)定的閾值,則該地址信息不可作為范式地址使 用,并進(jìn)入步驟S14。步驟S14:分詞模型分詞步驟,用于對所述的經(jīng)過步驟S13仍然無法處理的地址 信息進(jìn)行分析,并基于預(yù)先設(shè)定的分詞模型,產(chǎn)生范式地址。在本發(fā)明的一個實(shí)施方式 中,是基于條件隨機(jī)場(conditional random field,CRF)學(xué)習(xí)預(yù)料的方法產(chǎn)生所述的“分 詞模型”,通過該分詞模型進(jìn)行分詞并并產(chǎn)生范式地址,可同時輸出所述范式地址的分 詞和屬性標(biāo)注信息。步驟S16:范式地址生成步驟,用于對所述范式地址進(jìn)行分類處理,并歸類到 對應(yīng)的范式地址數(shù)據(jù)庫中。所述的“范式地址”所指的是通過步驟S11、步驟S13、步 驟S14獲得的符合范式數(shù)據(jù)庫格式的地址信息。這些地址信息將按照本發(fā)明的圖9所描 述的格式要求分類至對應(yīng)的子地址層下面的地址類型中去,此部分將在后段文字描述圖9 時有詳細(xì)介紹。值得一提的是在本發(fā)明的又一種實(shí)施方式中,若在Sll步驟中不符合要求, 也可直接進(jìn)入S14步驟,其具體判斷或處理過程于上述步驟一致,在此不再贅述。再參考圖5,作為本發(fā)明的另一種實(shí)施方式,該地址數(shù)據(jù)庫的建構(gòu)方法還可由上 述步驟進(jìn)行擴(kuò)展,變形為下述詳細(xì)工作流程步驟S10’ 獲取原始地址數(shù)據(jù)。該原始地址數(shù)據(jù)包括地址的文本信息和坐標(biāo)信 息,所述的文本信息所指的是任何可以表示道路類地址、區(qū)域類地址、地標(biāo)類地址的至 少其中之一的具體地址,所述坐標(biāo)信息所指的是該原始地址數(shù)據(jù)的具體坐標(biāo)點(diǎn)。例如 原始地址數(shù)據(jù)為“北京市海淀區(qū)上地十街10號百度大廈+(X,y)”,其中,“北京市海 淀區(qū)上地十街10號百度大廈”為該原始地址數(shù)據(jù)的文本信息,(X,y)為該原始地址數(shù)據(jù) 的坐標(biāo)信息。步驟SIT 針對某個具體的地址信息,判斷所述的地址信息是否符合候選范式地址的要求,若符合要求,則直接進(jìn)入步驟S15’,若不符合要求則進(jìn)入步驟S12’。步驟S12’ 即地址統(tǒng)計分析步驟,用于所述的大量地址信息基于已有的地址 數(shù)據(jù)資源庫進(jìn)行統(tǒng)計分析,并基于某個地址信息在所有地址信息中出現(xiàn)的頻率,產(chǎn)生候 選范式地址。需要此步驟的原因在于,所述的原始地址信息并不一定都是完整的可以直 接適用于步驟S15’的候選范式地址。非常常見的可能是,通過諸多途徑(例如互聯(lián)網(wǎng) 數(shù)據(jù)收集途徑)獲取到的原始地址信息并不完整,所述的不完整地址信息并不符合步驟 S15’的候選范式地址的格式要求,需要基于統(tǒng)計分析的方法進(jìn)行進(jìn)一步處理,所述的 統(tǒng)計分析方法是識別未知地址信息前的第一地址信息;識別未知地址信息后的第二地 址信息;在地址數(shù)據(jù)資源庫中統(tǒng)計所述第一地址信息和第二地址信息中間的地址類型信 息,并計算所述地址類型信息出現(xiàn)的概率;將概率最高的地址類型信息與設(shè)定的閾值比 較。舉例說明若原始地址信息為“北京市海淀區(qū)中關(guān)村大街西施胡同13號”,則對 該地址從前向后進(jìn)行識別,當(dāng)“北京市海淀區(qū)”、“中關(guān)村大街”均可通過地址數(shù)據(jù)資 源庫識別出其是行政區(qū)域地址和道路類地址,而“西施胡同”不能識別時,則進(jìn)行反向 識別,即從后向前識別,當(dāng)“13號”被識別出為“門牌地址時”,則在所述地址數(shù)據(jù)資 源庫中進(jìn)行統(tǒng)計,統(tǒng)計道路類地址到門牌類地址中間插入的地址應(yīng)該為何種地址類型信 息,若經(jīng)過統(tǒng)計后,發(fā)現(xiàn)胡同類地址的概率最高,并比較該概率與預(yù)先設(shè)定的閾值,進(jìn) 入S13,步驟。步驟S13’ 若所述概率高于設(shè)定的閾值,則所述地址信息作為候選范式地址使 用,并直接進(jìn)入步驟S15’ ;若所述概率低于設(shè)定的閾值,則該地址信息不可作為候選范 式地址使用,并進(jìn)入步驟S14’。步驟S14’ 分詞模型分詞步驟,用于對所述的經(jīng)過步驟S13’仍然無法處理的 地址信息進(jìn)行分析,并基于預(yù)先設(shè)定的分詞模型,產(chǎn)生候選范式地址。在本發(fā)明的一個 實(shí)施方式中,是基于條件隨機(jī)場(conditional random field,CRF)學(xué)習(xí)預(yù)料的方法產(chǎn)生所 述的“分詞模型”,通過該分詞模型進(jìn)行分詞并并產(chǎn)生候選范式地址,可同時輸出所述 候選范式地址的分詞和屬性標(biāo)注信息。步驟S15’ 收集通過步驟SIT、步驟S13’、步驟S14’產(chǎn)生的候選范式地 址信息。值得一提的是同一個原始地址數(shù)據(jù),產(chǎn)生的候選范式地址可能是多個,所述 的候選范式地址的格式包括文本信息和坐標(biāo)信息,例如一個完整的原始地址數(shù)據(jù)“北 京市海淀區(qū)中關(guān)村大街3號海龍大廈B座213-406 (X,y) ”經(jīng)過處理后輸出的候選范式 地址可能包括兩個其一,道路類候選范式地址,包括文本信息“北京市海淀區(qū)中關(guān)村 大街3號”和坐標(biāo)信息(X,y);其二,地標(biāo)類候選范式地址,包括文本信息“北京市海 淀區(qū)海龍大廈”和坐標(biāo)信息(X,y),其中(X,y)是不變的,代表著上述的道路類候選范 式地址和地標(biāo)類候選范式地址實(shí)質(zhì)上是同一具體地址。步驟S16’ 范式地址生成步驟,用于對所述的候選范式地址進(jìn)行分類處理,并 歸類到對應(yīng)的范式地址數(shù)據(jù)庫中。所述的“候選范式地址”所指的是通過步驟sir、 步驟S13’、步驟S14’獲得的符合范式數(shù)據(jù)庫格式的地址信息。這些地址信息將按照 本發(fā)明的圖9所描述的格式要求分類至對應(yīng)的子地址層下面的地址類型中去,此部分將 在后段文字描述圖9時有詳細(xì)介紹。值得一提的是在本發(fā)明的又一種實(shí)施方式中,若在SIT步驟中不符合要
16求,也可直接進(jìn)入S14’步驟,其具體判斷或處理過程于上述步驟一致,在此不再贅述。相應(yīng)地,參考圖6,本發(fā)明的地址數(shù)據(jù)庫的建構(gòu)裝置可地擴(kuò)展包括原始數(shù)據(jù) 獲取模塊10,地址統(tǒng)計分析模塊11,分詞模型模塊12,以及范式地址生成模塊13。原始數(shù)據(jù)獲取模塊10用于獲取包含大量地址信息的原始地址數(shù)據(jù)。其中,該原 始地址數(shù)據(jù)包括地址的文本信息和坐標(biāo)信息,所述的文本信息所指的是任何可以表示道 路類地址、區(qū)域類地址、地標(biāo)類地址的至少其中之一的具體地址,所述坐標(biāo)信息所指的 是該原始地址數(shù)據(jù)的具體坐標(biāo)點(diǎn)。例如原始地址數(shù)據(jù)為“北京市海淀區(qū)上地十街10號 百度大廈+ (X,y)”,其中,“北京市海淀區(qū)上地十街10號百度大廈”為該原始地址數(shù) 據(jù)的文本信息,(χ,y)為該原始地址數(shù)據(jù)的坐標(biāo)信息。地址統(tǒng)計分析模塊11其包括統(tǒng)計分析單元和地址數(shù)據(jù)資料庫單元(圖中未示 出)。并用于對所述的大量地址信息基于已有的地址數(shù)據(jù)資源庫進(jìn)行統(tǒng)計分析,并基于某 個地址信息在所有地址信息中出現(xiàn)的頻率,產(chǎn)生范式地址或候選范式地址。需要此模塊 的原因在于,所述的原始地址信息并不一定都是完整的可以直接適用的候選范式地址或 范式地址。非常常見的可能是,通過諸多途徑(例如互聯(lián)網(wǎng)數(shù)據(jù)收集途徑)獲取到的原 始地址信息并不完整,所述的不完整地址信息并不符合候選范式地址或范式地址的格式 要求,需要基于統(tǒng)計分析模塊進(jìn)行進(jìn)一步處理識別未知地址信息前的第一地址信息; 識別未知地址信息后的第二地址信息;在地址數(shù)據(jù)資源庫中統(tǒng)計所述第一地址信息和第 二地址信息中間的地址類型信息,并計算所述地址類型信息出現(xiàn)的概率;將概率最高的 地址類型信息與設(shè)定的閾值比較。舉例說明若原始地址信息為“北京市海淀區(qū)中關(guān) 村大街西施胡同13號”,則對該地址從前向后進(jìn)行識別,當(dāng)“北京市海淀區(qū)”、“中關(guān) 村大街”均可通過地址數(shù)據(jù)資源庫識別出其是行政區(qū)域地址和道路類地址,而“西施胡 同”不能識別時,則進(jìn)行反向識別,即從后向前識別,當(dāng)“13號”被識別出為“門牌地 址時”,則在所述地址數(shù)據(jù)資源庫中進(jìn)行統(tǒng)計,統(tǒng)計道路類地址到門牌類地址中間插入 的地址應(yīng)該為何種地址類型信息,若經(jīng)過統(tǒng)計后,發(fā)現(xiàn)胡同類地址的概率最高,并比較 該概率與預(yù)先設(shè)定的閾值,判斷是否將該地址信息作為候選范式地址或范式地址。分詞模型模塊12用于對所述的經(jīng)過地址統(tǒng)計分析模塊11仍然無法處理的地址信 息進(jìn)行分析,并基于預(yù)先設(shè)定的分詞模型,產(chǎn)生候選范式地址或范式地址。此處所稱的
“無法處理的地址信息”指的是經(jīng)過所述的地址統(tǒng)計分析模塊11處理過的地址信息基于 統(tǒng)計分析的方法進(jìn)行進(jìn)一步處理后該概率低于設(shè)定閾值的地址信息。在本發(fā)明的一個實(shí) 施方式中,是基于條件隨機(jī)場(conditional random field,CRF)學(xué)習(xí)預(yù)料的方法產(chǎn)生所述 的“預(yù)先設(shè)定的分詞模型”,通過該分詞模型進(jìn)行分詞,可同時輸出所述范式地址或候 選范式地址的分詞和屬性標(biāo)注信息。關(guān)于CRF的工作原理請參考百度百科(http://baike. baidu.com/view/2510459.htm)中的介紹,在此不再贅述。需要注意的是,在本發(fā)明的 其他實(shí)施方式中,所述的地址學(xué)習(xí)模型也可以通過支持向量機(jī)(Support Vector Machine, SVM)或者隱馬爾可夫模型(HiddenMarkov Model,HMM)的方法建立,這些方法的原理 都已經(jīng)在業(yè)界得到應(yīng)用,在此不再贅述。
范式地址生成模塊13用于將所述分詞結(jié)果組成候選范式地址或范式地址并存入 地址數(shù)據(jù)庫。所述的“候選范式地址”或“范式地址”所指的是通過原始數(shù)據(jù)獲取模塊 10、地址統(tǒng)計分析模塊11、分詞模型模塊12、范式地址生成模塊13獲得的符合范式數(shù)據(jù)庫格式的地址信息。這些地址信息將按照本發(fā)明的圖9所描述的格式要求本分類至對應(yīng) 的子地址層下面的地址類型中去,此部分將在后段文字描述圖9時有詳細(xì)介紹。參考圖7,本發(fā)明的范式地址生成模塊包括地址庫設(shè)立單元100,地址接收單元 101,以及地址分類單元102。地址庫設(shè)立單元100用于建立一個樹狀結(jié)構(gòu)的標(biāo)準(zhǔn)范式地址庫,該樹狀的標(biāo)準(zhǔn) 范式地址庫具有若干分支,每個分支的末端具有至少一個葉節(jié)點(diǎn)。關(guān)于所述的標(biāo)準(zhǔn)范式 地址庫的具體結(jié)構(gòu)在后續(xù)段落中會結(jié)合圖9再做詳細(xì)的描述。地址接收單元101用于接收范式地址或候選范式地址。在地址庫設(shè)立單元100 中已經(jīng)建立標(biāo)準(zhǔn)范式地址的分類標(biāo)準(zhǔn)之后,理論上任何一個經(jīng)過地址接收單元101接收 并輸入到所述的標(biāo)準(zhǔn)范式地址庫中的候選范式地址或范式地址都可以找到對應(yīng)的位置存 放,判斷所述的存放位置通過所述地址分類單元102來完成。地址分類單元102用于分析所述范式地址或候選范式地址,并將其分類到所述 標(biāo)準(zhǔn)范式地址庫的某個分支。相應(yīng)地,參考圖8,范式地址生成模塊對應(yīng)的范式地址生成方法可分解為地 址庫設(shè)立步驟S100,地址輸入步驟S101,以及地址分類步驟S102。地址庫設(shè)立步驟SlOO建立一個樹狀結(jié)構(gòu)的標(biāo)準(zhǔn)范式地址庫,該樹狀的標(biāo)準(zhǔn)范式 地址庫具有若干分支,每個分支的末端具有至少一個葉節(jié)點(diǎn)。關(guān)于所述的標(biāo)準(zhǔn)范式地址 庫的具體結(jié)構(gòu)在后續(xù)段落中會結(jié)合圖9再做詳細(xì)的描述。在此不再贅述。地址輸入步驟SlOl接收范式地址或候選范式地址。在地址庫設(shè)立單元100中已 經(jīng)建立標(biāo)準(zhǔn)范式地址的分類標(biāo)準(zhǔn)之后,理論上任何一個經(jīng)過地址接收單元101接收并輸 入到所述的標(biāo)準(zhǔn)范式地址庫中的候選范式地址或范式地址都可以找到對應(yīng)的位置存放, 判斷所述的存放位置通過所述地址分類單元102來完成。地址分類步驟S102分析所述范式地址或候選范式地址,并將其分類到所述標(biāo)準(zhǔn) 范式地址庫的某個分支。參考圖9,為更清晰地說明地址庫設(shè)立單元100中的范式標(biāo)準(zhǔn)地址庫的具體結(jié) 構(gòu),以下以建立中華任命共和國行政區(qū)域內(nèi)的電子地圖的范式標(biāo)準(zhǔn)地址庫為例做詳細(xì)描 述。一般說來,中國的行政區(qū)域劃分包括四個層級第一層級為省/自治區(qū)/直轄市; 第二層級為市/自治州;第三層級為區(qū)/縣;第四個層級為鄉(xiāng)/鎮(zhèn)/街道。這四個層級是 相對固定的,而且其數(shù)量和名稱是可以對應(yīng)于各地的地域名稱而容易統(tǒng)計得到。因此, 在標(biāo)準(zhǔn)范式地址庫中,將這個四個層級合并起來總稱為標(biāo)準(zhǔn)范式地址庫的樹狀結(jié)構(gòu)的第 一層,即行政區(qū)域?qū)?0,在圖9中相應(yīng)地標(biāo)識為第一層級為省/自治區(qū)/直轄市91;第 二層級為市/自治州92;第三層級為區(qū)/縣93;第四個層級為鄉(xiāng)/鎮(zhèn)/街道94。而在 第四層級以下的具體地址名稱則紛繁復(fù)雜、浩如煙海,然而,這諸多的具體地址名稱可 以歸結(jié)為三種地址類型即道路類地址81、區(qū)域類地址82、以及地標(biāo)類地址83,這三類 地址總稱為標(biāo)準(zhǔn)范式地址庫的樹狀結(jié)構(gòu)的第二層,即子地址層80。當(dāng)然,該子地址層80 也可只包括上述三種地址的其中之一或其中之二。所述的道路類地址81用于定義以道路 為首的具體地址,例如a路b號、a路b弄等。所述的區(qū)域類地址82用于定義以小區(qū) 為首的具體地址,例如a小區(qū)b棟、a小區(qū)b期。所述的地標(biāo)類地址83用于定義一個 具體的位置點(diǎn),例如a大廈、b公園等。值得一提的是上述的層級劃分只是基于本發(fā)明的一個實(shí)施方式,即對中華人民共和國行政區(qū)域內(nèi)地址的層次劃分,當(dāng)然,對于其他 國家或地區(qū)的層次劃分,可與上述劃分不同,其只要是基于地址邏輯層次的劃分即可, 所述的地址邏輯層次可理解為,從一個較大的地址范圍逐級縮小至較小的地址范圍。參照圖10所示,為本發(fā)明的分詞模型是通過以下方法得到的S1000、獲取原始地址數(shù)據(jù);S100U將若干條原始地址數(shù)據(jù)依據(jù)制定的范式標(biāo)準(zhǔn)分詞成語料,其中,所謂的 “范式標(biāo)準(zhǔn)”為上述圖9中所述。S1002、基于所述語料,通過機(jī)器學(xué)習(xí)的方式構(gòu)建分詞模型。其中,機(jī)器學(xué)習(xí)的 方式可為條件隨機(jī)場(conditional random field,CRF)學(xué)習(xí)語料的方法產(chǎn)生所述的“預(yù)先 設(shè)定的分詞模型”,通過該分詞模型進(jìn)行分詞,可同時輸出所述范式地址或候選范式地 址的分詞和屬性標(biāo)注信息。關(guān)于CRF的工作原理請參考百度百科(http://baike.baidu.com/ view/2510459.htm)中的介紹,在此不再贅述。需要注意的是,在本發(fā)明的其他實(shí)施方式 中,所述的地址學(xué)習(xí)模型也可以通過支持向量機(jī)(Support Vector Machine,SVM)或者隱 馬爾可夫模型(Hidden Markov Model,HMM)的方法建立,這些方法的原理都已經(jīng)在業(yè) 界得到應(yīng)用,在此不再贅述。相應(yīng)地,參照圖11所示,為本發(fā)明的建構(gòu)分詞模型包括以下模塊地址數(shù)據(jù)獲取模塊1000 用于獲取原始地址數(shù)據(jù);生成語料模塊1001 用于將若干條原始地址數(shù)據(jù)依據(jù)制定的范式標(biāo)準(zhǔn)分詞成語 料,其中,所謂的“范式標(biāo)準(zhǔn)”為上述圖9中所述。學(xué)習(xí)語料模塊1002:基于所述語料,通過機(jī)器學(xué)習(xí)的方式構(gòu)建該分詞模型。 其中,機(jī)器學(xué)習(xí)的方式可為條件隨機(jī)場(conditional random field,CRF)學(xué)習(xí)語料的方 法產(chǎn)生所述的“預(yù)先設(shè)定的分詞模型”,通過該分詞模型進(jìn)行分詞,可同時輸出所述范 式地址或候選范式地址的分詞和屬性標(biāo)注信息。關(guān)于CRF的工作原理請參考百度百科 (http://baike.baidu.com/view/2510459.htm)中的介紹,在此不再贅述。需要注意的是, 在本發(fā)明的其他實(shí)施方式中,所述的地址學(xué)習(xí)模型也可以通過支持向量機(jī)(SupportVector Machine, SVM)或者隱馬爾可夫模型(Hidden Markov Model,HMM)的方法建立,這些 方法的原理都已經(jīng)在業(yè)界得到應(yīng)用,在此不再贅述。通過以上描述,可以得出,運(yùn)用分詞模型通過地址屬性對待分類地址進(jìn)行切 詞,并存儲至標(biāo)準(zhǔn)范式地址數(shù)據(jù)庫,使得本發(fā)明的地址數(shù)據(jù)庫建構(gòu)效率較高,且準(zhǔn)確率 也較高。應(yīng)當(dāng)理解,雖然本說明書按照實(shí)施例加以描述,但并非每個實(shí)施例僅包含一個 獨(dú)立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說 明書作為一個整體,各實(shí)施例中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可 以理解的其他實(shí)施方式。上文所列出的一系列的詳細(xì)說明僅僅是針對本發(fā)明的可行性實(shí)施例的具體說 明,它們并非用以限制本發(fā)明的保護(hù)范圍,凡未脫離本發(fā)明技藝精神所作的等效實(shí)施例 或變更均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種范式地址數(shù)據(jù)庫的建構(gòu)方法,其特征在于,該方法包括51、獲取原始地址數(shù)據(jù);52、分詞模型對所述原始地址數(shù)據(jù)分類并產(chǎn)生范式地址;53、將所述范式地址歸類入范式地址數(shù)據(jù)庫。
2.如權(quán)利要求1所述的方法,其特征在于,所述S2包括以下步驟 所述分詞模型對所述原始地址進(jìn)行分詞;通過所述分詞產(chǎn)生所述范式地址。
3.如權(quán)利要求1所述的方法,其特征在于,所述的Sl包括 判斷所述的原始地址數(shù)據(jù)是否與范式地址的格式匹配;若匹配,則直接輸出所述原始地址數(shù)據(jù)作為范式地址。
4.如權(quán)利要求1所述的方法,其特征在于,所述的Sl包括 判斷所述的原始地址數(shù)據(jù)是否與范式地址的格式匹配; 若不匹配,則進(jìn)入S2。
5.如權(quán)利要求1所述的方法,其特征在于,在所述Sl后還包括地址統(tǒng)計分析步驟 所述的地址統(tǒng)計分析步驟對原始地址數(shù)據(jù)進(jìn)行統(tǒng)計分析,產(chǎn)生范式地址。
6.如權(quán)利要求5所述的方法,其特征在于,所述Sl包括 判斷所述的原始地址數(shù)據(jù)是否與范式地址的格式匹配; 若不匹配,則進(jìn)入地址統(tǒng)計分析步驟。
7.如權(quán)利要求5所述的方法,其特征在于,所述的地址統(tǒng)計分析步驟包括 識別未知地址信息前的第一地址信息;識別未知地址信息后的第二地址信息;在地址數(shù)據(jù)資源庫中統(tǒng)計所述第一地址信息和第二地址信息中間的地址類型信息, 并計算所述地址類型信息出現(xiàn)的概率;將概率最高的地址類型信息與設(shè)定的閾值比較,若高于所述閾值,則將所述地址類 型信息結(jié)合第一地址信息和第二地址信息產(chǎn)生范式地址。
8.如權(quán)利要求7所述的方法,其特征在于,所述的地址統(tǒng)計分析步驟包括 若低于所述閾值,則進(jìn)入S2步驟。
9.如權(quán)利要求1所述的方法,其特征在于,在所述S2前,還包括以下步驟 地址數(shù)據(jù)獲取獲取原始地址數(shù)據(jù);生成語料將若干條所述原始地址數(shù)據(jù)依據(jù)制定的范式標(biāo)準(zhǔn)分詞成語料; 學(xué)習(xí)語料基于所述語料,通過機(jī)器學(xué)習(xí)方式構(gòu)建所述分詞模型。
10.如權(quán)利要求9所述的方法,其特征在于,所述機(jī)器學(xué)習(xí)方式為條件隨機(jī)場方式。
11.如權(quán)利要求9所述的方法,其特征在于,所述機(jī)器學(xué)習(xí)方式為支持向量機(jī)方式。
12.如權(quán)利要求9所述的方法,其特征在于,所述機(jī)器學(xué)習(xí)方式為隱馬爾可夫模型。
13.如權(quán)利要求1所述的方法,其特征在于,所述S3具體包括以下步驟 地址庫設(shè)立步驟建立一個樹狀結(jié)構(gòu)的范式地址庫;地址輸入步驟接收所述范式地址;地址分類步驟分析所述范式地址,并將所述范式地址按照所述樹狀結(jié)構(gòu)歸類至所 述范式地址庫中。
14.如權(quán)利要求13所述的方法,其特征在于,所述范式地址庫具有若干分支,每個分 支的末端具有至少一個葉節(jié)點(diǎn)。
15.如權(quán)利要求14所述的方法,其特征在于,所述地址分類步驟還包括將所述范式地 址分類到所述標(biāo)準(zhǔn)范式地址庫中至少一個葉節(jié)點(diǎn)上。
16.如權(quán)利要求13所述的方法,其特征在于,所述范式地址庫的樹狀結(jié)構(gòu)包括基于地 址邏輯層次的行政區(qū)域?qū)雍妥拥刂穼印?br>
17.如權(quán)利要求16所述的方法,其特征在于,所述的行政區(qū)域?qū)影ㄋ膫€層級第 一層級為省/自治區(qū)/直轄市;第二層級為市/自治州;第三層級為區(qū)/縣;第四個層 級為鄉(xiāng)/鎮(zhèn)/街道。
18.如權(quán)利要求16所述的方法,其特征在于,所述的子地址層至少包括道路類地址、 區(qū)域類地址與地標(biāo)類地址的其中之一。
19.如權(quán)利要求18所述的方法,其特征在于,所述的道路類地址用于定義以道路為首 的具體地址。
20.如權(quán)利要求18所述的方法,其特征在于,所述的區(qū)域類地址用于定義以小區(qū)為首 的具體地址。
21.如權(quán)利要求18所述的方法,其特征在于,所述的地標(biāo)類地址用于定義一個具體的位置點(diǎn)。
22.—種范式地址數(shù)據(jù)庫的建構(gòu)方法,其特征在于,該方法包括51、獲取原始地址數(shù)據(jù);52、分詞模型對所述原始地址數(shù)據(jù)分類并產(chǎn)生候選范式地址;53、將所述候選范式地址歸類入范式地址數(shù)據(jù)庫。
23.如權(quán)利要求22所述的方法,其特征在于,所述S2包括以下步驟 所述分詞模型對所述原始地址進(jìn)行分詞;通過所述分詞產(chǎn)生候選范式地址。
24.如權(quán)利要求22或23所述的方法,其特征在于,所述S3包括以下步驟 將所述候選范式地址處理為范式地址;將所述范式地址歸類入范式地址數(shù)據(jù)庫。
25.如權(quán)利要求22所述的方法,其特征在于,所述的Sl包括 判斷所述的原始地址數(shù)據(jù)是否與候選范式地址的格式匹配;若匹配,則直接輸出所述原始地址數(shù)據(jù)作為候選范式地址。
26.如權(quán)利要求22所述的方法,其特征在于,所述的Sl包括 判斷所述的原始地址數(shù)據(jù)是否與候選范式地址的格式匹配; 若不匹配,則進(jìn)入S2。
27.如權(quán)利要求22所述的方法,其特征在于,在所述Sl后還包括地址統(tǒng)計分析步 驟所述的地址統(tǒng)計分析步驟對原始地址數(shù)據(jù)進(jìn)行統(tǒng)計分析,產(chǎn)生范式地址。
28.如權(quán)利要求27所述的方法,其特征在于,所述Sl包括 判斷所述的原始地址數(shù)據(jù)是否與候選范式地址的格式匹配; 若不匹配,則進(jìn)入所述地址統(tǒng)計分析步驟。
29.如權(quán)利要求27所述的方法,其特征在于,所述的地址統(tǒng)計分析步驟包括識別未知地址信息前的第一地址信息; 識別未知地址信息后的第二地址信息;在地址數(shù)據(jù)資源庫中統(tǒng)計所述第一地址信息和第二地址信息中間的地址類型信息, 并計算所述地址類型信息出現(xiàn)的概率;將概率最高的地址類型信息與設(shè)定的閾值比較,若高于所述閾值,則將所述地址類 型信息結(jié)合第一地址信息和第二地址信息產(chǎn)生候選范式地址。
30.如權(quán)利要求29所述的方法,其特征在于,所述的地址統(tǒng)計分析步驟包括 若低于所述閾值,則進(jìn)入S2步驟。
31.如權(quán)利要求22所述的方法,其特征在于,在所述S2前,還包括以下步驟 地址數(shù)據(jù)獲取獲取原始地址數(shù)據(jù);生成語料將若干條所述原始地址數(shù)據(jù)依據(jù)制定的范式標(biāo)準(zhǔn)分詞成語料; 學(xué)習(xí)語料基于所述語料,通過機(jī)器學(xué)習(xí)方式構(gòu)建所述分詞模型。
32.如權(quán)利要求31所述的方法,其特征在于,所述機(jī)器學(xué)習(xí)方式為條件隨機(jī)場方式。
33.如權(quán)利要求31所述的方法,其特征在于,所述機(jī)器學(xué)習(xí)方式為支持向量機(jī)方式。
34.如權(quán)利要求31所述的方法,其特征在于,所述機(jī)器學(xué)習(xí)方式為隱馬爾可夫模型。
35.如權(quán)利要求22所述的方法,其特征在于,所述S3前還包括以下步驟 地址庫設(shè)立步驟建立一個樹狀結(jié)構(gòu)的范式地址庫;地址輸入步驟接收所述范式地址;地址分類步驟分析所述范式地址,并將所述范式地址按照所述樹狀結(jié)構(gòu)歸類至所 述范式地址庫中。
36.如權(quán)利要求35所述的方法,其特征在于,所述范式地址庫具有若干分支,每個分 支的末端具有至少一個葉節(jié)點(diǎn)。
37.如權(quán)利要求36所述的方法,其特征在于,所述地址分類步驟還包括將所述范式地 址分類到所述標(biāo)準(zhǔn)范式地址庫中至少一個葉節(jié)點(diǎn)上。
38.如權(quán)利要求35所述的方法,其特征在于,所述范式地址庫的樹狀結(jié)構(gòu)包括基于地 址邏輯層次的行政區(qū)域?qū)雍妥拥刂穼印?br>
39.如權(quán)利要求38所述的方法,其特征在于,所述的行政區(qū)域?qū)影ㄋ膫€層級第 一層級為省/自治區(qū)/直轄市;第二層級為市/自治州;第三層級為區(qū)/縣;第四個層 級為鄉(xiāng)/鎮(zhèn)/街道。
40.如權(quán)利要求38所述的方法,其特征在于,所述的子地址層至少包括道路類地址、 區(qū)域類地址與地標(biāo)類地址的其中之一。
41.如權(quán)利要求40所述的方法,其特征在于,所述的道路類地址用于定義以道路為首 的具體地址。
42.如權(quán)利要求40所述的方法,其特征在于,所述的區(qū)域類地址用于定義以小區(qū)為首 的具體地址。
43.如權(quán)利要求40所述的方法,其特征在于,所述的地標(biāo)類地址用于定義一個具體的位置點(diǎn)。
44.一種地址數(shù)據(jù)庫建構(gòu)裝置,其特征在于,該裝置包括 原始數(shù)據(jù)獲取模塊,用于獲取原始地址數(shù)據(jù);分詞模型模塊,用于對所述原始地址數(shù)據(jù)分類并產(chǎn)生范式地址; 范式地址生成模塊,用于將所述范式地址歸類入范式地址數(shù)據(jù)庫。
45.如權(quán)利要求44所述的裝置,其特征在于,所述的原始數(shù)據(jù)獲取模塊中的原始地址 信息包括文本信息和坐標(biāo)信息。
46.如權(quán)利要求44所述的裝置,其特征在于,所述地址數(shù)據(jù)庫建構(gòu)裝置還包括地址統(tǒng) 計分析模塊,用于對原始地址數(shù)據(jù)進(jìn)行統(tǒng)計分析,產(chǎn)生范式地址。
47.如權(quán)利要求44所述的裝置,其特征在于,所述地址數(shù)據(jù)庫建構(gòu)裝置還包括 生成語料模塊用于將若干條所述原始地址數(shù)據(jù)依據(jù)制定的范式標(biāo)準(zhǔn)分詞成語料; 學(xué)習(xí)語料模塊用于基于所述語料,通過機(jī)器學(xué)習(xí)方式構(gòu)建所述分詞模型。
48.如權(quán)利要求47所述的裝置,其特征在于,所述機(jī)器學(xué)習(xí)方式為條件隨機(jī)場方式。
49.如權(quán)利要求47所述的裝置,其特征在于,所述機(jī)器學(xué)習(xí)方式為支持向量機(jī)方式。
50.如權(quán)利要求47所述的裝置,其特征在于,所述機(jī)器學(xué)習(xí)方式為隱馬爾可夫模型。
51.如權(quán)利要求44所述的裝置,其特征在于,所述范式地址生成模塊包括 地址庫設(shè)立單元,用于建立一個樹狀結(jié)構(gòu)的范式地址庫;地址輸入單元,用于接收所述范式地址;地址分類單元,用于分析所述范式地址,并將所述范式地址按照所述樹狀結(jié)構(gòu)歸類 至所述范式地址庫中。
52.如權(quán)利要求51所述的裝置,其特征在于,所述范式地址庫具有若干分支,每個分 支的末端具有至少一個葉節(jié)點(diǎn)。
53.如權(quán)利要求51所述的裝置,其特征在于,所述范式地址庫的樹狀結(jié)構(gòu)包括基于地 址邏輯層次的行政區(qū)域?qū)雍妥拥刂穼印?br>
54.如權(quán)利要求53所述的裝置,其特征在于,所述的行政區(qū)域?qū)影ㄋ膫€層級第 一層級為省/自治區(qū)/直轄市;第二層級為市/自治州;第三層級為區(qū)/縣;第四個層 級為鄉(xiāng)/鎮(zhèn)/街道。
55.如權(quán)利要求53所述的裝置,其特征在于,所述的子地址層至少包括道路類地址、 區(qū)域類地址與地標(biāo)類地址的其中之一。
56.—種地址數(shù)據(jù)庫建構(gòu)裝置,其特征在于,該裝置包括 原始數(shù)據(jù)獲取模塊,用于獲取原始地址數(shù)據(jù);分詞模型模塊,分詞模型對所述原始地址數(shù)據(jù)分類并產(chǎn)生候選范式地址; 范式地址生成模塊,用于將所述候選范式地址歸類入范式地址數(shù)據(jù)庫。
57.如權(quán)利要求56所述的裝置,其特征在于,所述的原始數(shù)據(jù)獲取模塊中的原始地址 信息包括文本信息和坐標(biāo)信息。
58.如權(quán)利要求56所述的裝置,其特征在于,所述地址數(shù)據(jù)庫建構(gòu)裝置還包括地址統(tǒng) 計分析模塊,用于對原始地址數(shù)據(jù)進(jìn)行統(tǒng)計分析,產(chǎn)生候選范式地址。
59.如權(quán)利要求56所述的裝置,其特征在于,所述地址數(shù)據(jù)庫建構(gòu)裝置還包括 生成語料模塊用于將若干條所述原始地址數(shù)據(jù)依據(jù)制定的范式標(biāo)準(zhǔn)分詞成語料; 學(xué)習(xí)語料模塊用于基于所述語料,通過機(jī)器學(xué)習(xí)方式構(gòu)建所述分詞模型。
60.如權(quán)利要求59所述的裝置,其特征在于,所述機(jī)器學(xué)習(xí)方式為條件隨機(jī)場方式。
61.如權(quán)利要求59所述的裝置,其特征在于,所述機(jī)器學(xué)習(xí)方式為支持向量機(jī)方式。
62.如權(quán)利要求59所述的裝置,其特征在于,所述機(jī)器學(xué)習(xí)方式為隱馬爾可夫模型。
63.如權(quán)利要求56所述的裝置,其特征在于,所述范式地址生成模塊包括地址庫設(shè)立單元,用于建立一個樹狀結(jié)構(gòu)的范式地址庫;地址輸入單元,用于接收所述候選范式地址;地址分類單元,用于分析所述候選范式地址,并將所述候選范式地址按照所述樹狀 結(jié)構(gòu)歸類至所述范式地址庫中。
64.如權(quán)利要求63所述的裝置,其特征在于,所述范式地址庫具有若干分支,每個分 支的末端具有至少一個葉節(jié)點(diǎn)。
65.如權(quán)利要求63所述的裝置,其特征在于,所述范式地址庫的樹狀結(jié)構(gòu)包括基于 地址邏輯層次的行政區(qū)域?qū)雍妥拥刂穼印?br>
66.如權(quán)利要求65所述的裝置,其特征在于,所述的行政區(qū)域?qū)影ㄋ膫€層級第 一層級為省/自治區(qū)/直轄市;第二層級為市/自治州;第三層級為區(qū)/縣;第四個層 級為鄉(xiāng)/鎮(zhèn)/街道。
67.如權(quán)利要求65所述的裝置,其特征在于,所述的子地址層至少包括道路類地址、 區(qū)域類地址與地標(biāo)類地址的其中之一。
全文摘要
本發(fā)明揭示了一種地址數(shù)據(jù)庫的建構(gòu)方法。該方法包括獲取原始地址數(shù)據(jù);分詞模型對所述原始地址數(shù)據(jù)分類并產(chǎn)生范式地址;將所述范式地址歸類入范式地址數(shù)據(jù)庫。本發(fā)明還揭示了一種地址數(shù)據(jù)庫的建構(gòu)裝置。本發(fā)明的有益效果是運(yùn)用分詞模型通過地址屬性對待分類地址進(jìn)行切詞分類,并存儲至范式地址數(shù)據(jù)庫,使得本發(fā)明的地址數(shù)據(jù)庫建構(gòu)效率較高,且準(zhǔn)確率也較高。
文檔編號G06F17/30GK102024024SQ201010540110
公開日2011年4月20日 申請日期2010年11月10日 優(yōu)先權(quán)日2010年11月10日
發(fā)明者萬鑫, 張傳明, 時金 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司