两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于k-近鄰的水利普查行業(yè)能力數(shù)據(jù)融合方法_2

文檔序號:8339688閱讀:來源:國知局
一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價(jià) 形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0023] 本發(fā)明針對水利普查數(shù)據(jù)融合問題,即實(shí)現(xiàn)水利普查中行業(yè)能力單位和水利工程 的管理單位的匹配融合。采用帶權(quán)重編輯距離作為相似度量,以水利工程的管理單位的單 位名稱作為查詢集,以行業(yè)能力單位的單位名稱作為數(shù)據(jù)集,進(jìn)行k_近鄰查詢,在k_近鄰 中人工判斷匹配項(xiàng),對匹配失敗的項(xiàng)進(jìn)行人工搜索,最終實(shí)現(xiàn)行業(yè)能力單位和水利工程管 理單位的匹配。
[0024] 如圖1所示,首先對行業(yè)能力普查單位名稱和水利工程管理單位名稱進(jìn)行分級處 理,提取單位名稱中的行政區(qū)劃信息,建立分級的單位名稱;從水利普查總體數(shù)據(jù)中選擇部 分?jǐn)?shù)據(jù)作為樣本,通過人工等方式建立樣本數(shù)據(jù)中行業(yè)能力單位和水利工程管理單位的匹 配,基于已匹配的數(shù)據(jù),利用1-近鄰的啟發(fā)式權(quán)重學(xué)習(xí)得到編輯距離最優(yōu)的權(quán)重向量;利 用帶權(quán)重的編輯距離實(shí)現(xiàn)水利單位名稱k_近鄰查詢,并結(jié)合人工識別,實(shí)現(xiàn)單位匹配。下 面首先介紹利用帶權(quán)重編輯距離進(jìn)行水利普查行業(yè)能力數(shù)據(jù)融合的可行性,然后介紹具體 的實(shí)施步驟。
[0025] 首先說明帶權(quán)重編輯距離在水利普查行業(yè)能力單位匹配中的可行性。假設(shè)有S1, S2兩個(gè)字符串,編輯距離定義為:把Sl轉(zhuǎn)換成S2需要的最少刪除(即刪除Sl中1個(gè)字 符)、插入(即在Sl中插入1個(gè)字符)或替換(即把A中的某個(gè)字符替換成另一個(gè)字符) 的次數(shù)。這兩個(gè)字符串互相轉(zhuǎn)換需要經(jīng)過的步驟越多,編輯距離就越遠(yuǎn)。在原始編輯距離 計(jì)算中,刪除、插入和替換3種操作的權(quán)重完全相同,然而,由于中文表述的特殊性,在單位 名稱中插入或者刪除字詞,有時(shí)候不會對名稱的含義產(chǎn)生影響,而替換字詞則可能會完全 改變原字符串的含義。因此,可以對不同操作設(shè)定不同權(quán)重,以更加準(zhǔn)確地度量字符串間的 距離。
[0026] 而重新設(shè)定操作的權(quán)重可以在很大程度上提高編輯距離對水利單位匹配處理的 適應(yīng)性。表1和表2顯示了在權(quán)重向量〈wdelete, winsert, wreplace〉分別取〈1,1,1>和 〈0. 1,0. 1,1>下計(jì)算"X鎮(zhèn)水利管理站"與"X鎮(zhèn)水利管理工作站"和"YY鎮(zhèn)水利管理站" 2 個(gè)水利單位名稱的編輯距離。權(quán)重向量〈1,1,1>下,"X鎮(zhèn)水利管理站"與"X鎮(zhèn)鎮(zhèn)水利管 理工作站"之間的編輯距離3大于其與"YY鎮(zhèn)水利管理站"之間的編輯距離2 ;權(quán)重向量 〈0. 1,0. 1,1>下,"X鎮(zhèn)水利管理站"與"X鎮(zhèn)鎮(zhèn)水利管理工作站"之間的編輯距離0. 3遠(yuǎn)遠(yuǎn) 小于其與"YY鎮(zhèn)水利管理站"之間的編輯距離1. 1,判斷出"X鎮(zhèn)水利管理站"與"X鎮(zhèn)鎮(zhèn)水 利管理工作站"更為相近,因此可以看出,對編輯操作的權(quán)重進(jìn)行有方向的調(diào)整可以提高相 似性判斷的正確率。
[0027] 表1.傳統(tǒng)編輯距離計(jì)算示例
[0028]
【主權(quán)項(xiàng)】
1. 一種基于k-近鄰的水利普查行業(yè)能力數(shù)據(jù)融合方法,其特征在于,包括以下步驟: (1) 對水利普查行業(yè)能力數(shù)據(jù)以及水利工程數(shù)據(jù)中的單位名稱進(jìn)行逐級分解; (2) 選擇水利普查中行業(yè)能力數(shù)據(jù)和水利工程數(shù)據(jù)樣本,并建立樣本中水利工程管理 單位和行業(yè)能力單位的匹配; (3) 基于步驟(2)中的樣本訓(xùn)練編緝距離權(quán)重; (4) 將步驟(1)中分解出的單位名稱信息以帶權(quán)重的編緝距離作為相似性度量距離, 以行業(yè)能力單位名稱為數(shù)據(jù)集,以水利工程管理單位名稱為查詢集,進(jìn)行k-近鄰相似搜 索,并結(jié)合人工對數(shù)據(jù)進(jìn)行匹配。
2. 根據(jù)權(quán)利要求1所述的基于k-近鄰的水利普查行業(yè)能力數(shù)據(jù)融合方法,其特征在 于:所述步驟(1)中的行業(yè)能力數(shù)據(jù)以及水利工程數(shù)據(jù)中的單位名稱被逐級分解成行政地 名信息和精簡的單位名稱;且對不包含行政區(qū)劃名的單位名稱直接分解成非精簡單位名。
3. 根據(jù)權(quán)利要求1所述的基于k-近鄰的水利普查行業(yè)能力數(shù)據(jù)融合方法,其特征在 于:所述步驟(2)中選擇水利普查中行業(yè)能力數(shù)據(jù)和水利工程數(shù)據(jù)樣本,并通過組織機(jī)構(gòu) 代碼、普通的編輯距離以及人工匹配等方式,建立樣本中水利工程管理單位名稱和行業(yè)能 力單位名稱之間的匹配,作為編輯距離權(quán)重學(xué)習(xí)的數(shù)據(jù)集。
4. 根據(jù)權(quán)利要求1所述的基于k-近鄰的水利普查行業(yè)能力數(shù)據(jù)融合方法,其特征在 于:所述步驟(3)中采用1-近鄰方法來訓(xùn)練最優(yōu)的編緝距離權(quán)重,進(jìn)而獲得最優(yōu)編緝距離 中的刪除、插入和替換操作的最優(yōu)權(quán)重。
5. 根據(jù)權(quán)利要求1所述的基于k-近鄰的水利普查行業(yè)能力數(shù)據(jù)融合方法,其特征在 于:所述步驟(4)中對單位名稱進(jìn)行k-近鄰相似搜索時(shí),對精確單位名稱按照水利普查的 "在地原則",在分解出的單位所在級別的縣或市或省或全國匹配;對非精簡單位名稱按照 縣、市、省以及國家逐級匹配即對一個(gè)非精簡的水利工程管理單位查詢k-近鄰時(shí),優(yōu)先在 其所在縣級的行業(yè)能力單位數(shù)據(jù)中匹配,然后到市、省以及全國范圍的行業(yè)能力單位數(shù)據(jù) 中匹配。
6. 根據(jù)權(quán)利要求3所述的基于k-近鄰的水利普查行業(yè)能力數(shù)據(jù)融合方法,其特征在 于,所述樣本選擇的過程中,以縣級數(shù)據(jù)為基本單位來選擇用于訓(xùn)練最優(yōu)權(quán)重向量的樣本 數(shù)據(jù),即從總體數(shù)據(jù)涉及的所有縣中,首先選擇樣本縣,然后將每個(gè)樣本縣的所有行業(yè)能力 和水利工程數(shù)據(jù)作為樣本數(shù)據(jù)。
【專利摘要】本發(fā)明公開一種基于k-近鄰的水利普查行業(yè)能力數(shù)據(jù)融合方法,包括以下步驟:對水利普查中行業(yè)能力單位名稱以及水利工程數(shù)據(jù)中的管理單位名稱進(jìn)行逐級分解,建立精簡和非精簡單位名稱;選擇水利普查行業(yè)能力和水利工程數(shù)據(jù)樣本,建立樣本中行業(yè)能力單位和水利工程管理單位的匹配,基于樣本訓(xùn)練適合水利普查數(shù)據(jù)的最優(yōu)編緝距離權(quán)重;以帶權(quán)重的編緝距離作為相似性度量距離,通過組織機(jī)構(gòu)代碼精確匹配、單位名稱的k-近鄰相似搜索匹配,最后進(jìn)行人工搜索匹配。本發(fā)明能夠?qū)崿F(xiàn)水利普查中行業(yè)能力單位與水利工程管理單位的一致匹配,從而完成水利工程和行業(yè)能力普查數(shù)據(jù)的有效銜接,為分析水利發(fā)展現(xiàn)狀、制定水利及經(jīng)濟(jì)社會發(fā)展規(guī)劃提供支撐。
【IPC分類】G06F17-30
【公開號】CN104657441
【申請?zhí)枴緾N201510056780
【發(fā)明人】王繼民, 張新華
【申請人】河海大學(xué)
【公開日】2015年5月27日
【申請日】2015年2月3日
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
邛崃市| 兴和县| 北碚区| 鹤峰县| 会泽县| 沾化县| 托克托县| 遵义市| 惠安县| 隆子县| 梅河口市| 大同市| 鹿泉市| 南皮县| 武陟县| 民乐县| 益阳市| 吉木萨尔县| 新宁县| 辽中县| 奉节县| 甘德县| 赤壁市| 古交市| 崇义县| 平远县| 高阳县| 万盛区| 长丰县| 新郑市| 贵州省| 康定县| 永州市| 乌拉特后旗| 淮阳县| 西安市| 个旧市| 阳西县| 永德县| 老河口市| 广宗县|