两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于k-近鄰的水利普查行業(yè)能力數據融合方法

文檔序號:8339688閱讀:421來源:國知局
基于k-近鄰的水利普查行業(yè)能力數據融合方法
【技術領域】
[0001] 本發(fā)明涉及信息處理技術,具體涉及一種基于k-近鄰的水利普查行業(yè)能力數據 融合方法。
【背景技術】
[0002] 第一次全國水利普查主要查清了中華人民共和國境內(未含香港、澳門特別行政 區(qū)和臺灣地區(qū))的河流湖泊、水利工程、經濟社會用水、河流湖泊治理保護、水土保持、水利 行業(yè)能力建設、灌區(qū)及地下水等8大項基礎信息,為加強水利基礎設施建設與管理、實行最 嚴格的水資源管理制度等提供了科學權威的數據支撐。
[0003] 水利單位是結合水利工程設施特性與行業(yè)發(fā)展規(guī)模等各類管理信息,分析水利單 位與水利工程設施、資產、從業(yè)人員等發(fā)展狀況的關鍵節(jié)點。因此,厘清水利單位,通過建立 水利工程對象的工程管理單位與行業(yè)能力的水利單位之間的匹配關系,實現普查水利工程 數據與行業(yè)能力數據融合,對科學研判水利管理能力和水平具有重要的意義。
[0004] 由于不同專業(yè)普查的填報范圍規(guī)定不同、規(guī)范性要求存在差異,因此部分水利單 位普查數據存在組織機構代碼不完整、重復,以及不同專業(yè)填報的水利單位名稱不能完全 一致等問題,同時由于水利普查數據量大,直接完全通過人工方式建立匹配關系費時費 力。

【發(fā)明內容】

[0005] 發(fā)明目的:本發(fā)明的目的在于解決現有技術中存在的不足,提供一種基于k-近鄰 的水利普查行業(yè)能力數據融合方法。實現水利普查中行業(yè)能力單位與水利工程管理單位信 息的一致匹配,實現水利工程和行業(yè)能力普查數據的有效銜接,為分析水利發(fā)展現狀,制定 水利及經濟社會發(fā)展規(guī)劃等提供支撐。所謂數據融合就是利用計算機技術將來自多個傳感 器或多源的觀測信息進行分析、綜合處理,從而得出決策和估計任務所需的信息的處理過 程。
[0006] 其中,數據融合包含三個層次,即,數據層融合、特征層融合以及決策層融合。數據 層融合是低層次的融合,直接在采集到的原始數據層上進行的融合,在各種傳感器的原始 測報未經預處理之前就進行數據的綜合與分析。特征層融合屬于中間層次的融合,它先對 來自傳感器的原始信息進行特征提?。ㄌ卣骺梢允悄繕说倪吘?、方向、速度等),然后對特 征信息進行綜合分析和處理;特征層融合的優(yōu)點在于實現了可觀的信息壓縮,有利于實時 處理,并且由于所提取的特征直接與決策分析有關,因而融合結果能最大限度的給出決策 分析所需要的特征信息。決策層融合通過不同類型的傳感器觀測同一個目標,每個傳感器 在本地完成基本的處理,其中包括預處理、特征抽取、識別或判決,以建立對所觀察目標的 初步結論。然后通過關聯處理進行決策層融合判決,最終獲得聯合推斷結果。
[0007] 本發(fā)明基于數據挖掘中的k_近鄰搜索完成數據融合。所謂k_近鄰搜索是指在對 象數據集S中查詢與指定查詢對象q最相似的k個對象。k_近鄰是相似性搜索的一種,相 似性搜索就是在對象數據集S中查詢與指定查詢對象q相似的對象。相似性搜索一般包括 兩類任務:一是k_近鄰查詢(k Nearest Neighbor Query, kNN);另一種是范圍查詢(Range Query),即在對象數據集S中查詢與指定查詢對象q相似距離小于等于ε的所有對象。在 相似性查詢中,通常使用相似距離度量D來計算兩個對象的距離,即對象s與查詢對象q的 距離被描述為D(s,q)。對于范圍查詢即是查詢所有滿足D(s,q)< ε的對象s。在k-近 鄰查詢過程中,對對象s按照D (s,q)排序,前k個即為q的k_近鄰。目前常見的相似距離 度量有歐式距離,最長公共子串,編輯距離等。
[0008] 技術方案:本發(fā)明的一種基于k_近鄰的水利普查行業(yè)能力數據融合方法,包括以 下步驟:
[0009] (1)對水利普查行業(yè)能力數據以及水利工程數據中的單位名稱進行逐級分解;
[0010] ⑵選擇水利普查中行業(yè)能力數據和水利工程數據樣本,并建立樣本中水利工程 管理單位和行業(yè)能力單位的匹配;
[0011] (3)基于步驟⑵中的樣本訓練編緝距離權重;
[0012] (4)對步驟⑴中分解出的單位名稱信息以帶權重的編緝距離作為相似性度量距 離,以行業(yè)能力單位名稱為數據集,以水利工程管理單位名稱為查詢集,進行k_近鄰相似 搜索,并結合人工對數據進行匹配。
[0013] 進一步的,所述步驟(1)中的行業(yè)能力數據以及水利工程數據中的單位名稱被逐 級分解成行政地名信息和精簡的單位名稱;且對不包含行政區(qū)劃名的單位名稱直接分解成 非精簡單位名。
[0014] 進一步的,所述步驟(2)中選擇水利普查中行業(yè)能力數據和水利工程數據樣本 (例如可以選擇10%的水利普查數據作為樣本),并通過組織機構代碼、普通的編輯距離以 及人工匹配等方式,建立樣本中水利工程管理單位名稱和行業(yè)能力單位名稱之間的匹配, 作為編輯距離權重學習的數據集。
[0015] 而在上述樣本選擇的過程中,以縣級數據為基本單位來選擇用于訓練最優(yōu)權重向 量的樣本數據,即從總體數據涉及的所有縣中,首先選擇樣本縣,然后每個樣本縣的所有行 業(yè)能力和水利工程數據作為樣本數據,且選擇樣本縣時需要考慮水利發(fā)展現狀上的代表 性。
[0016] 進一步的,所述步驟(3)中采用1-近鄰方法訓練最優(yōu)的編緝距離權重,進而獲得 最優(yōu)編緝距離中的刪除、插入和替換操作的最優(yōu)權重。
[0017] 進一步的,所述步驟(4)中對單位名稱進行k_近鄰相似搜索時,對精確單位名 稱按照水利普查的"在地原則",在分解出的單位所在級別的縣或市或省或全國匹配;對非 精簡單位名稱按照縣、市、省以及國家逐級匹配即對一個非精簡的水利工程管理單位查詢 k_近鄰時,優(yōu)先在其所在縣級的行業(yè)能力單位數據中匹配,然后到市、省以及全國范圍的行 業(yè)能力單位數據中匹配。
[0018] 有益效果:本發(fā)明通過相似性搜索建立行業(yè)能力普查單位與水利工程管理單位的 一致匹配,實現水利工程和行業(yè)能力普查數據的有效銜接,為分析水利發(fā)展現狀,制定水利 及經濟社會發(fā)展規(guī)劃等提供支撐。
【附圖說明】
[0019] 圖1為本發(fā)明實施例中能夠行業(yè)能力單位名稱匹配框架圖;
[0020] 圖2為實施例中省1的樣本數據的匹配準確率對比圖;
[0021] 圖3為實施例中省2的樣本數據的匹配準確率對比圖。
【具體實施方式】
[0022] 下面結合具體實施例,進
當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
堆龙德庆县| 萝北县| 荆州市| 蕲春县| 珠海市| 广丰县| 麦盖提县| 麟游县| 民丰县| 西昌市| 云浮市| 马鞍山市| 南皮县| 北票市| 横山县| 沈阳市| 成武县| 南乐县| 上饶县| 明水县| 茂名市| 龙南县| 平度市| 泗阳县| 肃南| 大厂| 五家渠市| 怀安县| 新闻| 清原| 德昌县| 石林| 慈利县| 平湖市| 温泉县| 漯河市| 德江县| 和平区| 兴化市| 门头沟区| 泰兴市|