两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法

文檔序號(hào):9200277閱讀:1058來(lái)源:國(guó)知局
一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,具體地說(shuō)是一種實(shí)用性強(qiáng)、應(yīng)用于分布式采集系統(tǒng) 的任務(wù)調(diào)度方法。
【背景技術(shù)】
[0002] 隨者互聯(lián)網(wǎng)的飛速發(fā)展,大數(shù)據(jù)這個(gè)概念越來(lái)越受到人們的關(guān)注。企業(yè)通過(guò)采集 互聯(lián)網(wǎng)中的數(shù)據(jù),可以從大量數(shù)據(jù)中找出有價(jià)值數(shù)據(jù)進(jìn)行分析,并通過(guò)分析結(jié)果提供決策 支持,驅(qū)動(dòng)企業(yè)的加速發(fā)展。數(shù)據(jù)的價(jià)值越來(lái)越受到人們的關(guān)注。
[0003] 但互聯(lián)網(wǎng)中的信息各種各樣,互聯(lián)網(wǎng)的規(guī)模也越來(lái)越龐大,傳統(tǒng)的采集方式需要 在大量服務(wù)器中部署采集系統(tǒng),采集時(shí)需要逐個(gè)服務(wù)器進(jìn)行管理和配置。各采集系統(tǒng)之間 沒(méi)有關(guān)聯(lián),也非常容易出現(xiàn)重復(fù)采集或者少采集的情況,導(dǎo)致采集的效率不高,維護(hù)起來(lái)也 十分不便。
[0004] 任務(wù)調(diào)度管理作為基礎(chǔ)架構(gòu)通常會(huì)出現(xiàn)于我們的業(yè)務(wù)系統(tǒng)中,目的是讓各種任務(wù) 能夠按計(jì)劃有序執(zhí)行。在數(shù)據(jù)采集系統(tǒng)中,我們需要對(duì)不同網(wǎng)站的多個(gè)種類(lèi)進(jìn)行采集,采集 時(shí)需要針對(duì)網(wǎng)站地址、采集分類(lèi)進(jìn)行大量配置,然后在多個(gè)服務(wù)器上分別進(jìn)行采集,這些相 對(duì)耗時(shí)的操作通過(guò)任務(wù)調(diào)度系統(tǒng)來(lái)異步并行執(zhí)行,既能提高任務(wù)的執(zhí)行效率又能保障任務(wù) 執(zhí)行的可靠性?;诖?,現(xiàn)提供一種可解決上述問(wèn)題、應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方 法。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的技術(shù)任務(wù)是針對(duì)以上不足之處,提供一種實(shí)用性強(qiáng)、應(yīng)用于分布式采集 系統(tǒng)的任務(wù)調(diào)度方法。
[0006] -種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法,其具體實(shí)現(xiàn)過(guò)程為:將采集任務(wù)動(dòng) 態(tài)分配到集群的若干服務(wù)器中,每臺(tái)服務(wù)器都配備采集程序且執(zhí)行不同的采集任務(wù),從而 完成動(dòng)態(tài)采集監(jiān)控。
[0007] 所述任務(wù)調(diào)度過(guò)程的詳細(xì)步驟為: 部署服務(wù)器集群和控制該集群的控制臺(tái),在集群內(nèi)的每臺(tái)服務(wù)器上均配置采集程序; 在控制臺(tái)上設(shè)置任務(wù)調(diào)度策略,即確定任務(wù)名稱、最大線程數(shù)、執(zhí)行任務(wù)的所有采集程 序服務(wù)器地址信息; 通過(guò)控制臺(tái)配置采集任務(wù)信息,該信息包括任務(wù)名稱、任務(wù)執(zhí)行類(lèi)、任務(wù)執(zhí)行的開(kāi)始時(shí) 間和結(jié)束時(shí)間、數(shù)據(jù)任務(wù)項(xiàng); 將上述信息配置完成后保存,由控制臺(tái)系統(tǒng)自動(dòng)分發(fā)任務(wù)給集群并執(zhí)行采集任務(wù),完 成米集過(guò)程。
[0008] 所述采集用的集群為ZooKe印er服務(wù)器集群,該集群內(nèi)的服務(wù)器實(shí)現(xiàn)對(duì)各個(gè)采集 節(jié)點(diǎn)的監(jiān)控,在采集程序中集成ZooKeeper,配置ZooKeeper集群相關(guān)信息;采集程序中集 成分布試調(diào)試管理框架,以實(shí)現(xiàn)任務(wù)的動(dòng)態(tài)分發(fā)調(diào)度。
[0009] 所述分布試調(diào)試管理框架是指TbSchedule開(kāi)源框架,并實(shí)現(xiàn)IScheduleTaskDealMulti 批量任務(wù)接口。
[0010] 所述IScheduleTaskDealMulti接口實(shí)現(xiàn)類(lèi)的selectTasks,獲取要采集的網(wǎng)站及 采集類(lèi)型信息,獲取參數(shù)由調(diào)度器自行分配,該selectTasks參數(shù)為采集網(wǎng)站、網(wǎng)站類(lèi)別的 數(shù)據(jù)集合,集合信息存儲(chǔ)在數(shù)據(jù)庫(kù)中。
[0011] 所述采集任務(wù)的分配通過(guò)調(diào)度程序完成,該調(diào)度程序自動(dòng)查詢出selectTasks參 數(shù),并根據(jù)配置信息,對(duì)數(shù)據(jù)ID的哈希值取模,將任務(wù)均分,使得系統(tǒng)按任務(wù)項(xiàng)將任務(wù)均分 給采集服務(wù)器。
[0012] 本發(fā)明的一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法,具有以下優(yōu)點(diǎn): 該發(fā)明的一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法可以讓讓一種批量采集任務(wù)或 者不斷變化的采集任務(wù),能夠被動(dòng)態(tài)的分配到多個(gè)服務(wù)區(qū)的應(yīng)用中并行執(zhí)行。所有的任務(wù) 能夠被不重復(fù),不遺漏的快速處理;可以指定調(diào)度的時(shí)間區(qū)間,靈活性強(qiáng),實(shí)用性強(qiáng),適用范 圍廣泛,易于推廣。
【附圖說(shuō)明】
[0013] 附圖1為本發(fā)明的系統(tǒng)架構(gòu)示意圖。
【具體實(shí)施方式】
[0014] 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
[0015] 本發(fā)明的提供一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法,讓多個(gè)采集任務(wù)動(dòng)態(tài) 的分配到多臺(tái)服務(wù)器的采集程序中并行執(zhí)行,所有的任務(wù)能夠被不重復(fù),不遺漏的快速處 理,并且能動(dòng)態(tài)的監(jiān)控、管理采集任務(wù)的執(zhí)行。
[0016] 如附圖1所示,其具體實(shí)現(xiàn)過(guò)程為:將采集任務(wù)動(dòng)態(tài)分配到集群的若干服務(wù)器中, 每臺(tái)服務(wù)器都配備采集程序且執(zhí)行不同的采集任務(wù),從而完成動(dòng)態(tài)采集監(jiān)控。
[0017] 所述任務(wù)調(diào)度過(guò)程的詳細(xì)步驟為: 部署服務(wù)器集群和控制該集群的控制臺(tái),在集群內(nèi)的每臺(tái)服務(wù)器上均配置采集程序; 在控制臺(tái)上設(shè)置任務(wù)調(diào)度策略,即確定任務(wù)名稱、最大線程數(shù)、執(zhí)行任務(wù)的所有采集程 序服務(wù)器地址信息; 通過(guò)控制臺(tái)配置采集任務(wù)信息,該信息包括任務(wù)名稱、任務(wù)執(zhí)行類(lèi)、任務(wù)執(zhí)行的開(kāi)始時(shí) 間和結(jié)束時(shí)間、數(shù)據(jù)任務(wù)項(xiàng); 將上述信息配置完成后保存,由控制臺(tái)系統(tǒng)自動(dòng)分發(fā)任務(wù)給集群并執(zhí)行采集任務(wù),完 成米集過(guò)程。
[0018] 所述采集用的集群為ZooKe印er服務(wù)器集群,該集群內(nèi)的服務(wù)器實(shí)現(xiàn)對(duì)各個(gè)采集 節(jié)點(diǎn)的監(jiān)控,在采集程序中集成ZooKeeper,配置ZooKeeper集群相關(guān)信息;采集程序中集 成分布試調(diào)試管理框架,以實(shí)現(xiàn)任務(wù)的動(dòng)態(tài)分發(fā)調(diào)度。
[0019] 所述分布試調(diào)試管理框架是指TbSchedule開(kāi)源框架,并實(shí)現(xiàn)IScheduleTaskDealMulti 批量任務(wù)接口。
[0020] 所述IScheduleTaskDealMulti接口實(shí)現(xiàn)類(lèi)的selectTasks,獲取要采集的網(wǎng)站及 采集類(lèi)型信息,獲取參數(shù)由調(diào)度器自行分配,該selectTasks參數(shù)為采集網(wǎng)站、網(wǎng)站類(lèi)別的 數(shù)據(jù)集合,集合信息存儲(chǔ)在數(shù)據(jù)庫(kù)中。
[0021] 所述采集任務(wù)的分配通過(guò)調(diào)度程序完成,該調(diào)度程序會(huì)自動(dòng)查詢出集合,并根據(jù) 配置信息,對(duì)數(shù)據(jù)ID的哈希值取模,將任務(wù)均分,比如將一個(gè)網(wǎng)站類(lèi)別數(shù)據(jù)表的數(shù)據(jù)ID哈 希后按1000取模,即可得到最多1000個(gè)任務(wù)項(xiàng),系統(tǒng)可以按任務(wù)項(xiàng)將任務(wù)均分給指定的采 集服務(wù)器。
[0022] 具體實(shí)施例:在實(shí)際操作中,通過(guò)以下步驟實(shí)現(xiàn)任務(wù)調(diào)度過(guò)程。
[0023] 步驟一,本方法依賴于Hadoop ZooKeeper組件,首先要配好ZooKeeper集群,以便 實(shí)現(xiàn)任務(wù)的分布式配置及各服務(wù)間的交互通信。
[0024] 步驟二,在各ZooKe印er服務(wù)器上部署采集程序。
[0025] 步驟三,部署TbSchedule的TbScheduleConsole程序,這個(gè)是對(duì)調(diào)度任務(wù)配置、部 署、監(jiān)控的終端。
[0026] 步驟四,在TbScheduleConsole控制臺(tái)中配置ZooKeeper服務(wù)器的連接。
[0027] 步驟四,在任務(wù)管理頁(yè)面配置調(diào)度策略,填寫(xiě)任務(wù)名稱、最大線程數(shù)、執(zhí)行任務(wù)的 所有采集程序服務(wù)器地址等信息(多個(gè)服務(wù)器以逗號(hào)分隔)。
[0028] 步驟五,配置任務(wù),配置信息包含任務(wù)名稱、任務(wù)執(zhí)行類(lèi)、任務(wù)執(zhí)行的開(kāi)始結(jié)束時(shí) 間、數(shù)據(jù)任務(wù)項(xiàng)等信息,其中任務(wù)名稱要和策略中的任務(wù)名稱對(duì)應(yīng);任務(wù)執(zhí)行類(lèi)和采集程序 中配置的執(zhí)行類(lèi)對(duì)應(yīng);開(kāi)始結(jié)束時(shí)間為Crontab格式,見(jiàn)下表:
數(shù)據(jù)任務(wù)項(xiàng)對(duì)應(yīng)采集資源的分組信息,控制臺(tái)調(diào)度器將數(shù)據(jù)任務(wù)項(xiàng)均分給各采集服務(wù) 器。
[0029] 步驟六,將以上設(shè)置配置完并保存后,系統(tǒng)自動(dòng)分發(fā)執(zhí)行采集任務(wù),可以在管理頁(yè) 面看到各服務(wù)器節(jié)點(diǎn)的任務(wù)執(zhí)行情況。
[0030] 在上述技術(shù)方案中,相類(lèi)似的采集任務(wù)可以統(tǒng)一維護(hù),根據(jù)網(wǎng)站、資源類(lèi)型等參數(shù) 信息通過(guò)調(diào)度程序自動(dòng)分類(lèi),并分發(fā)給各個(gè)采集服務(wù)器進(jìn)行自動(dòng)采集;少數(shù)特殊任務(wù)也可 以進(jìn)行單個(gè)維護(hù)配置,從而對(duì)所有任務(wù)進(jìn)行統(tǒng)一管理。避免了在多個(gè)采集服務(wù)器中進(jìn)行大 量而重復(fù)的配置維護(hù)工作。
[0031] 上述【具體實(shí)施方式】?jī)H是本發(fā)明的具體個(gè)案,本發(fā)明的專利保護(hù)范圍包括但不限于 上述【具體實(shí)施方式】,任何符合本發(fā)明的一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法的權(quán)利 要求書(shū)的且任何所屬技術(shù)領(lǐng)域的普通技術(shù)人員對(duì)其所做的適當(dāng)變化或替換,皆應(yīng)落入本發(fā) 明的專利保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法,其特征在于,其具體實(shí)現(xiàn)過(guò)程為:將 采集任務(wù)動(dòng)態(tài)分配到集群的若干服務(wù)器中,每臺(tái)服務(wù)器都配備采集程序且執(zhí)行不同的采集 任務(wù),從而完成動(dòng)態(tài)采集監(jiān)控。2. 根據(jù)權(quán)利要求1所述的一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法,其特征在于, 所述任務(wù)調(diào)度過(guò)程的詳細(xì)步驟為: 部署服務(wù)器集群和控制該集群的控制臺(tái),在集群內(nèi)的每臺(tái)服務(wù)器上均配置采集程序; 在控制臺(tái)上設(shè)置任務(wù)調(diào)度策略,即確定任務(wù)名稱、最大線程數(shù)、執(zhí)行任務(wù)的所有采集程 序服務(wù)器地址信息; 通過(guò)控制臺(tái)配置采集任務(wù)信息,該信息包括任務(wù)名稱、任務(wù)執(zhí)行類(lèi)、任務(wù)執(zhí)行的開(kāi)始時(shí) 間和結(jié)束時(shí)間、數(shù)據(jù)任務(wù)項(xiàng); 將上述信息配置完成后保存,由控制臺(tái)系統(tǒng)自動(dòng)分發(fā)任務(wù)給集群并執(zhí)行采集任務(wù),完 成米集過(guò)程。3. 根據(jù)權(quán)利要求2所述的一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法,其特征在于, 所述采集用的集群為ZooKeeper服務(wù)器集群,該集群內(nèi)的服務(wù)器實(shí)現(xiàn)對(duì)各個(gè)采集節(jié)點(diǎn)的監(jiān) 控,在采集程序中集成ZooKeeper,配置ZooKeeper集群相關(guān)信息;采集程序中集成分布試 調(diào)試管理框架,以實(shí)現(xiàn)任務(wù)的動(dòng)態(tài)分發(fā)調(diào)度。4. 根據(jù)權(quán)利要求3所述的一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法,其特征在于, 所述分布試調(diào)試管理框架是指TbSchedule開(kāi)源框架,并實(shí)現(xiàn)IScheduleTaskDealMulti批 量任務(wù)接口。5. 根據(jù)權(quán)利要求4所述的一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法,其特征在于, 所述IScheduleTaskDealMulti接口實(shí)現(xiàn)類(lèi)的selectTasks,獲取要采集的網(wǎng)站及采集類(lèi) 型信息,獲取參數(shù)由調(diào)度器自行分配,該selectTasks參數(shù)為采集網(wǎng)站、網(wǎng)站類(lèi)別的數(shù)據(jù)集 合,集合信息存儲(chǔ)在數(shù)據(jù)庫(kù)中。6. 根據(jù)權(quán)利要求5所述的一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法,其特征在于, 所述采集任務(wù)的分配通過(guò)調(diào)度程序完成,該調(diào)度程序自動(dòng)查詢出selectTasks參數(shù),并根 據(jù)配置信息,對(duì)數(shù)據(jù)ID的哈希值取模,將任務(wù)均分,使得系統(tǒng)按任務(wù)項(xiàng)將任務(wù)均分給采集 服務(wù)器。
【專利摘要】本發(fā)明公開(kāi)了一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法,其具體實(shí)現(xiàn)過(guò)程為:將采集任務(wù)動(dòng)態(tài)分配到集群的若干服務(wù)器中,每臺(tái)服務(wù)器都配備采集程序且執(zhí)行不同的采集任務(wù),從而完成動(dòng)態(tài)采集監(jiān)控。該一種應(yīng)用于分布式采集系統(tǒng)的任務(wù)調(diào)度方法與現(xiàn)有技術(shù)相比,讓批量采集任務(wù)或者不斷變化的采集任務(wù),能夠被動(dòng)態(tài)的分配到多個(gè)服務(wù)區(qū)的應(yīng)用中并行執(zhí)行。所有的任務(wù)能夠被不重復(fù),不遺漏的快速處理。
【IPC分類(lèi)】G06F9/48
【公開(kāi)號(hào)】CN104915259
【申請(qǐng)?zhí)枴緾N201510327473
【發(fā)明人】張?jiān)3? 孫海峰, 王傳超
【申請(qǐng)人】浪潮軟件集團(tuán)有限公司
【公開(kāi)日】2015年9月16日
【申請(qǐng)日】2015年6月15日
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
博湖县| 察哈| 新昌县| 滨州市| 临西县| 新建县| 喀喇| 射洪县| 兰坪| 讷河市| 廉江市| 敦化市| 秭归县| 台南县| 萍乡市| 托里县| 大冶市| 阳朔县| 垫江县| 水富县| 阿合奇县| 增城市| 德庆县| 许昌市| 北碚区| 开江县| 额尔古纳市| 海南省| 怀仁县| 丰原市| 邵阳县| 望谟县| 永春县| 克东县| 许昌市| 泽库县| 大新县| 行唐县| 雷州市| 蕉岭县| 尚志市|