两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于poi數(shù)據(jù)的連鎖品牌采集方法及裝置的制造方法

文檔序號(hào):9375776閱讀:823來源:國知局
基于poi數(shù)據(jù)的連鎖品牌采集方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種基于POI數(shù)據(jù)的連鎖品牌采集方法及
目.0
【背景技術(shù)】
[0002]POI是“Point of Interest”的縮寫,中文可以翻譯為“興趣點(diǎn)”,一個(gè)POI可以是一棟房子、一個(gè)商鋪、一個(gè)郵筒、一個(gè)公交站等。
[0003]連鎖品牌是非常有價(jià)值的數(shù)據(jù),應(yīng)用比較廣泛。比如商業(yè)上做定向推廣需要用到這個(gè)數(shù)據(jù),又比如在地圖POI數(shù)據(jù)處理中也需要用到這個(gè)數(shù)據(jù),現(xiàn)有技術(shù)中,通常會(huì)通過人工標(biāo)注樣本,再根據(jù)標(biāo)注后的樣本采用訓(xùn)練器來采集連鎖品牌,但該方式非常繁瑣,采集效率較低。

【發(fā)明內(nèi)容】

[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種基于POI數(shù)據(jù)的連鎖品牌采集方法及裝置。
[0005]依據(jù)本發(fā)明的一個(gè)方面,提供了一種基于POI數(shù)據(jù)的連鎖品牌采集方法,所述方法包括:
[0006]獲取若干POI數(shù)據(jù),從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù);
[0007]將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,并根據(jù)分割結(jié)果對(duì)所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù);
[0008]獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量;
[0009]在所述數(shù)量超過預(yù)設(shè)閾值時(shí),將該類二元組數(shù)據(jù)的分割結(jié)果作為連鎖品牌。
[0010]可選地,所述將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,進(jìn)一步包括:
[0011]將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)符號(hào)進(jìn)行分割,并將所述預(yù)設(shè)符號(hào)前的部分作為分割結(jié)果。
[0012]可選地,所述根據(jù)分割結(jié)果對(duì)所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù),進(jìn)一步包括:
[0013]將具有相同分割結(jié)果的二元組數(shù)據(jù)聚為一類,以獲得各類二元組數(shù)據(jù)。
[0014]可選地,所述獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量,進(jìn)一步包括:
[0015]遍歷各類二元組數(shù)據(jù),并將遍歷到的當(dāng)前類二元組數(shù)據(jù)按照地址進(jìn)行去重處理,并統(tǒng)計(jì)去重處理后的當(dāng)前類二元組數(shù)據(jù)的數(shù)量。
[0016]可選地,所述將遍歷到的當(dāng)前類二元組數(shù)據(jù)中的地址進(jìn)行去重處理之前,所述方法還包括:
[0017]將遍歷到的當(dāng)前類二元組數(shù)據(jù)中的地址進(jìn)行格式統(tǒng)一處理。
[0018]依據(jù)本發(fā)明的另一個(gè)方面,提供了一種基于POI數(shù)據(jù)的連鎖品牌采集裝置,所述裝置包括:
[0019]數(shù)據(jù)提取器,適于獲取若干POI數(shù)據(jù),從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù);
[0020]分割聚類器,適于將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,并根據(jù)分割結(jié)果對(duì)所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù);
[0021]數(shù)量獲取器,適于獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量;
[0022]品牌獲取器,適于在所述數(shù)量超過預(yù)設(shè)閾值時(shí),將該類二元組數(shù)據(jù)的分割結(jié)果作為連鎖品牌。
[0023]可選地,所述分割聚類器,進(jìn)一步適于將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)符號(hào)進(jìn)行分割,并將所述預(yù)設(shè)符號(hào)前的部分作為分割結(jié)果。
[0024]可選地,所述分割聚類器,進(jìn)一步適于將具有相同分割結(jié)果的二元組數(shù)據(jù)聚為一類,以獲得各類二元組數(shù)據(jù)。
[0025]可選地,所述數(shù)量獲取器,進(jìn)一步適于遍歷各類二元組數(shù)據(jù),并將遍歷到的當(dāng)前類二元組數(shù)據(jù)按照地址進(jìn)行去重處理,并統(tǒng)計(jì)去重處理后的當(dāng)前類二元組數(shù)據(jù)的數(shù)量。
[0026]可選地,所述數(shù)量獲取器,還適于將遍歷到的當(dāng)前類二元組數(shù)據(jù)中的地址進(jìn)行格式統(tǒng)一處理。
[0027]本發(fā)明通過從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù),將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,并根據(jù)分割結(jié)果對(duì)所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù),獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量,在所述數(shù)量超過預(yù)設(shè)閾值時(shí),將該類二元組數(shù)據(jù)的分割結(jié)果作為連鎖品牌,采集連鎖品牌的方式非常簡(jiǎn)便,大幅提高了采集效率,并且準(zhǔn)確率和召回率均較高。
【附圖說明】
[0028]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0029]圖1是本發(fā)明一種實(shí)施方式的基于POI數(shù)據(jù)的連鎖品牌采集方法的流程圖;
[0030]圖2是本發(fā)明一種實(shí)施方式的基于POI數(shù)據(jù)的連鎖品牌采集方法的流程圖;
[0031]圖3是本發(fā)明一種實(shí)施方式的基于POI數(shù)據(jù)的連鎖品牌采集裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0032]下面結(jié)合附圖和實(shí)施方式,對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)描述。以下實(shí)施方式用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0033]圖1是本發(fā)明一種實(shí)施方式的基于POI數(shù)據(jù)的連鎖品牌采集方法的流程圖;參照?qǐng)D1,所述方法包括:
[0034]SlOl:獲取若干POI數(shù)據(jù),從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù);
[0035]需要說明的是,POI數(shù)據(jù)一般包含名稱、類別、地址、經(jīng)度、瑋度、附近的酒店飯店商鋪等信息,故而,在各POI數(shù)據(jù)中均包括有一個(gè)二元組數(shù)據(jù)。
[0036]S102:將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,并根據(jù)分割結(jié)果對(duì)所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù);
[0037]可理解的是,二元組數(shù)據(jù)中存在很多未設(shè)置分店的店鋪,當(dāng)然,也存在大量的關(guān)于某一品牌名的多家分店,這些分店的名稱通常采用“品牌名(XXX店)”或“品牌名-XXX店”等形式,比如“慶豐包子鋪(昌平沙河店)”、“慶豐包子鋪-昌平高教園店”等,其中“慶豐包子鋪”則是品牌名。
[0038]為獲取各二元組數(shù)據(jù)中的品牌名,需要將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,在具體實(shí)現(xiàn)中,可采用多種方式來進(jìn)行分割,為提高分割效率,本實(shí)施方式中將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)符號(hào)進(jìn)行分割,并將所述預(yù)設(shè)符號(hào)前的部分作為分割結(jié)果(即品牌名);
[0039]也就是說,根據(jù)分店的名稱所采用的形式確定預(yù)設(shè)符號(hào),例如,為了針對(duì)“品牌名(XXX店)”這種分店形式,可將符號(hào)“(”添加至所述預(yù)設(shè)符號(hào)中,或者,為了針對(duì)“品牌名-XXX店”這種分店形式,也可將符號(hào)添加至所述預(yù)設(shè)符號(hào)中。
[0040]當(dāng)然,還可采用其他方式來進(jìn)行分割,本實(shí)施方式對(duì)此不加以限制。
[0041]需要說明的是,根據(jù)分割結(jié)果可采用多種方式對(duì)所述二元組數(shù)據(jù)進(jìn)行聚類,例如:可根據(jù)分割結(jié)果的相似程度來進(jìn)行聚類,即計(jì)算分割結(jié)果之間的相似度,當(dāng)相似度超過一定閾值時(shí),將其聚為一類,但考慮到本身會(huì)存在一些相似的品牌名,為提高聚類的精確度,本實(shí)施方式中,將具有相同分割結(jié)果的二元組數(shù)據(jù)聚為一類,以獲得各類二元組數(shù)據(jù),當(dāng)然,還可采用其他方式對(duì)所述二元組數(shù)據(jù)進(jìn)行聚類,本實(shí)施方式對(duì)此不加以限制。
[0042]S103:獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量;
[0043]在具體實(shí)現(xiàn)中,由于一類二元組數(shù)據(jù)中可能具有存在相同地址的不同二元組數(shù)據(jù),該情況通常是這些相同地址的不同二元組數(shù)據(jù)均表征同一家分店,但分店是需要達(dá)到一定數(shù)量才能稱其為連鎖品牌的,若僅以各類二元組數(shù)據(jù)的數(shù)量來確定連鎖品牌,則必然出現(xiàn)錯(cuò)誤,故而,本步驟中需要獲取各類二元組數(shù)據(jù)中不同地址的數(shù)據(jù)。
[0044]下面以一個(gè)具體的例子來說明本步驟,但不限定本發(fā)明的保護(hù)范圍。
[0045]假設(shè)一類二元組數(shù)據(jù)中包括九個(gè)二元組數(shù)據(jù),且地址分別為:A、A’、A”、B、B’、C、C’、C”和C”’,但地址A、A’和A”相同,B和B’相同,C、C’、C”和C”’相同,則可獲取該類二元組數(shù)據(jù)中不同地址的數(shù)量為3。
[0046]S104:在所述數(shù)量超過預(yù)設(shè)閾值時(shí),將該類二元組數(shù)據(jù)的分割結(jié)果作為連鎖品牌。
[0047]在具體實(shí)現(xiàn)中,所述預(yù)設(shè)閾值可根據(jù)需要進(jìn)行調(diào)整,通常設(shè)置為3或大于3的數(shù)值。
[0048]本實(shí)施方式通過從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù),將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,并根據(jù)分割結(jié)果對(duì)所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù),獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量,在所述數(shù)量超過預(yù)設(shè)閾值時(shí),將該類二元組數(shù)據(jù)的分割結(jié)果作為連鎖品牌,采集連鎖品牌的方式非常簡(jiǎn)便,大幅提高了采集效率,并且準(zhǔn)確率和召回率均較高。
[0049]圖2是本發(fā)明一種實(shí)施方式的基于POI數(shù)據(jù)的連鎖品牌采集方法的流程圖;參照?qǐng)D2,所述方法包括:
[0050]S201:獲取若干POI數(shù)據(jù),從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù);
[0051]S202:將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,并根據(jù)分割結(jié)果對(duì)所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù);
[0052]需要說明的是,步驟S201?S202與圖1所示的實(shí)施方式的步驟SlOl?S102相同,在此不再贅述。
[0053]S203:遍歷各類二元組數(shù)據(jù),并
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
建德市| 新巴尔虎右旗| 绥滨县| 平湖市| 齐齐哈尔市| 宜兰县| 大冶市| 吉首市| 瓮安县| 涡阳县| 剑阁县| 武城县| 庆安县| 隆化县| 台前县| 澄城县| 沂南县| 商城县| 汶川县| 神农架林区| 犍为县| 汶川县| 习水县| 察哈| 新昌县| 历史| 呈贡县| 岗巴县| 宾阳县| 三江| 辉县市| 阿瓦提县| 阿荣旗| 南京市| 东安县| 钦州市| 诸城市| 泾阳县| 清河县| 万山特区| 四会市|