两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種面向用戶生成內(nèi)容的分布式采集方法與系統(tǒng)的制作方法

文檔序號:8415682閱讀:469來源:國知局
一種面向用戶生成內(nèi)容的分布式采集方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息采集技術(shù)領(lǐng)域,具體地說,本發(fā)明涉及一種面向用戶生成內(nèi)容的分布式采集方法與系統(tǒng)。
【背景技術(shù)】
[0002]用戶生成內(nèi)容簡稱為UGC(User Generated Content)。UGC新聞是在社會媒體(例如微博、博客、社交網(wǎng)絡(luò)等)中用戶們自發(fā)上傳或分享的新聞事件信息。UGC內(nèi)容由于其具有反應(yīng)及時(shí)、傳播快等特點(diǎn),也成為傳統(tǒng)媒體的一個(gè)主要信息來源。目前,隨著互聯(lián)網(wǎng)技術(shù)的深入人心和WEB2.0技術(shù)的蓬勃發(fā)展,普通用戶成為互聯(lián)網(wǎng)上的內(nèi)容的主要生產(chǎn)者。然而,由于UGC新聞的門檻低,任何用戶都可以向互聯(lián)網(wǎng)上傳內(nèi)容,UGC新聞缺乏有效監(jiān)管,其中存在著大量的虛假新聞。
[0003]基于UGC的新聞?wù)J證預(yù)警是基于互聯(lián)網(wǎng)中的海量數(shù)據(jù)進(jìn)行分析并對新聞信息進(jìn)行真實(shí)程度預(yù)警的自動化認(rèn)證方案。其基礎(chǔ)就是對海量數(shù)據(jù)的深度采集和結(jié)構(gòu)化組織。由于新聞?wù)J證預(yù)警是一項(xiàng)實(shí)時(shí)性任務(wù)并且需要針對特定但多樣的信息頁面,因而對數(shù)據(jù)采集系統(tǒng)的高效性、復(fù)雜性和分析能力都有很高的要求。
[0004]從國內(nèi)外技術(shù)進(jìn)展來看,一方面,已有的分布式采集方案并不注重效率,而是注重持續(xù)性和穩(wěn)定性,因而已有的分布式采集方案并不能滿足新聞?wù)J證預(yù)警對系統(tǒng)實(shí)時(shí)性的要求;另一方面,目前的采集任務(wù)需求集中于面向單一頁面采集,每個(gè)子節(jié)點(diǎn)通常采集一個(gè)頁面,這種方案不能滿足新聞?wù)J證預(yù)警中特定但多樣的頁面采集需求。總之,新聞?wù)J證預(yù)警需要收集的UGC信息類型復(fù)雜、實(shí)時(shí)性要求高,目前還沒有相應(yīng)的數(shù)據(jù)解決方案。

【發(fā)明內(nèi)容】

[0005]因此,本發(fā)明的任務(wù)是克服現(xiàn)有技術(shù)的不足,提供一種具有高實(shí)時(shí)性的UGC新聞分布式采集解決方案。
[0006]本發(fā)明提供了一種面向用戶生成內(nèi)容的分布式采集方法,包括下列步驟:
[0007]I)根據(jù)采集頁面的采集量和采集難度劃分頁面類型,基于頁面類型構(gòu)建采集任務(wù)并將其加入采集隊(duì)列;其中,所述采集任務(wù)包括復(fù)合采集任務(wù),所述復(fù)合采集任務(wù)是根據(jù)采集量和采集難度將多個(gè)同類型的采集頁面劃入同一采集任務(wù)所形成的采集任務(wù);
[0008]2)并發(fā)地從所述采集任務(wù)隊(duì)列取出采集任務(wù),執(zhí)行該采集任務(wù)并返回所采集的信息。
[0009]其中,所述步驟I)還包括:根據(jù)采集量和采集難度將部分采集任務(wù)進(jìn)一步劃分為多個(gè)子任務(wù)并將子任務(wù)加入所述采集隊(duì)列;
[0010]所述步驟2)還包括:并發(fā)地從所述采集任務(wù)隊(duì)列取出所述子任務(wù),執(zhí)行該子任務(wù)并返回所采集的信息。
[0011]其中,所述步驟I)中,所述采集難度包括頁面對采集頻率的限制,以及是否需要身份認(rèn)證確定。
[0012]本發(fā)明還提供了一種面向用戶生成內(nèi)容的分布式采集系統(tǒng),包括采集集群,所述采集集群包括主控節(jié)點(diǎn)和多個(gè)子節(jié)點(diǎn),所述主控節(jié)點(diǎn)用于構(gòu)建并維護(hù)采集任務(wù)隊(duì)列,根據(jù)所接收的采集頁面的采集量和采集難度劃分頁面類型,然后基于頁面類型構(gòu)建采集任務(wù)并加入所述采集隊(duì)列,其中采集任務(wù)包括所述復(fù)合采集任務(wù);各個(gè)所述子節(jié)點(diǎn)用于并發(fā)地從所述采集任務(wù)隊(duì)列取出采集任務(wù),執(zhí)行該采集任務(wù)并返回所采集的信息。
[0013]其中,所述主控節(jié)點(diǎn)還用于根據(jù)采集量和采集難度將所述采集任務(wù)隊(duì)列中部分采集任務(wù)劃分為多個(gè)子任務(wù),所述子節(jié)點(diǎn)還用于并發(fā)地從所述采集任務(wù)隊(duì)列取出所述子任務(wù),執(zhí)行該子任務(wù)并返回所采集的信息。
[0014]其中,所述分布式采集系統(tǒng)還包括登陸管理模塊,所述登陸管理模塊用于管理并向各個(gè)所述子節(jié)點(diǎn)提供各常用新聞采集網(wǎng)站的登陸信息。
[0015]其中,登錄管理模塊還用于維護(hù)可用賬號池,完成賬號的分配,回收,異常處理和新添;所述采集子節(jié)點(diǎn)還用于向登錄管理模塊申請可用賬號,完成賬號的模擬登錄,將登錄異常的賬號和使用過程中出現(xiàn)異常的賬號匯報(bào)給登錄管理模塊,向登錄管理模塊申請?zhí)砑淤~號等功能。
[0016]其中,其特征在于還包括反監(jiān)控模塊,所述反監(jiān)控模塊用于通過預(yù)設(shè)的采集策略來實(shí)現(xiàn)反監(jiān)控,所述預(yù)設(shè)的采集策略包括:將任務(wù)分配至多個(gè)采集子節(jié)點(diǎn)上采集,單個(gè)采集子節(jié)點(diǎn)采用多個(gè)賬號輪循采集,根據(jù)不同的采集頁面設(shè)定相應(yīng)的采集間隔和并發(fā)采集量中一項(xiàng)或多項(xiàng)。
[0017]本發(fā)明還提供了一種基于前述的分布式采集系統(tǒng)的分布式采集方法,其特征在于,包括下列步驟:
[0018]I)主控節(jié)點(diǎn)根據(jù)所接收的采集頁面的采集量和采集難度劃分頁面類型,然后構(gòu)建相應(yīng)的米集任務(wù);
[0019]2)主控節(jié)點(diǎn)根據(jù)頁面類型和采集難度,將所構(gòu)建的采集任務(wù)加入任務(wù)隊(duì)列,所述采集任務(wù)包括所述復(fù)合采集任務(wù),主控節(jié)點(diǎn)還根據(jù)根據(jù)頁面類型和采集難度將所構(gòu)建的采集任務(wù)細(xì)分,將細(xì)分后的子任務(wù)加入任務(wù)隊(duì)列;
[0020]3)各子節(jié)點(diǎn)并發(fā)地從任務(wù)隊(duì)列獲取采集任務(wù)或者子任務(wù),執(zhí)行該采集任務(wù)后者子任務(wù)并返回所采集的信息。
[0021]其中,所述步驟3)還包括:各子節(jié)點(diǎn)一旦空閑就去競爭獲得分布式鎖,如果獲得分布式鎖,則立即去任務(wù)隊(duì)列取任務(wù),任務(wù)完成后采集子節(jié)點(diǎn)將采集結(jié)果放入約定好的臨時(shí)存儲空間,并通知主控節(jié)點(diǎn)。
[0022]其中,其特征在于還包括步驟:
[0023]4)當(dāng)同批次的子任務(wù)完成后,主控節(jié)點(diǎn)完成采集結(jié)果的合并;如果在約定時(shí)間內(nèi),所有同批次采集任務(wù)還未完全返回,采集主節(jié)點(diǎn)則丟棄返回的部分結(jié)果,對本次任務(wù)做超時(shí)處理。
[0024]其中,所述步驟3)還包括,在子節(jié)點(diǎn)執(zhí)行采集任務(wù)時(shí),所述子節(jié)點(diǎn)還從所采集的頁面中抽取出表征頁面監(jiān)控措施的狀態(tài)信息,所述分布式采集系統(tǒng)根據(jù)所述表征頁面監(jiān)控措施的狀態(tài)信息調(diào)整用于反監(jiān)控的采集策略,所述用于反監(jiān)控的采集策略包括:將任務(wù)分配至多個(gè)采集子節(jié)點(diǎn)上采集,單個(gè)采集子節(jié)點(diǎn)采用多個(gè)賬號輪循采集,根據(jù)不同的采集頁面設(shè)定相應(yīng)的采集間隔和并發(fā)采集量中的一項(xiàng)或多項(xiàng)。
[0025]與現(xiàn)有技術(shù)相比,本發(fā)明具有下列技術(shù)效果:
[0026]1、本發(fā)明的采集速度快,顯著地提高了 UGC新聞采集的實(shí)時(shí)性。
[0027]2、本發(fā)明可以適用于各種不同類型頁面的采集,可執(zhí)行多樣化的采集任務(wù)。
[0028]3、對于采取了監(jiān)控措施的采集對象,本發(fā)明能夠進(jìn)行規(guī)避并順利完成相應(yīng)的新聞米集任務(wù)。
[0029]4、本發(fā)明可應(yīng)用于多種對信息采集實(shí)時(shí)性要求較高的領(lǐng)域,例如新聞?wù)J證預(yù)警,多層次的輿情信息挖掘服務(wù),以及熱點(diǎn)事件分析服務(wù)等。
【附圖說明】
[0030]以下,結(jié)合附圖來詳細(xì)說明本發(fā)明的實(shí)施例,其中:
[0031]圖1示出了本發(fā)明一個(gè)實(shí)施例的UGC新聞分布式采集系統(tǒng)的框架圖。
【具體實(shí)施方式】
[0032]圖1示出了本發(fā)明一個(gè)實(shí)施例的UGC新聞分布式采集系統(tǒng)的框架圖,包括:線索預(yù)處理模塊,采集實(shí)體選取模塊,采集集群,存儲管理模塊,登陸管理模塊以及反封堵管理模塊。下面分別介紹這些模塊。
[0033]1、線索預(yù)處理模塊
[0034]線索預(yù)處理模塊用于對采集線索進(jìn)行預(yù)處理。采集線索包括新聞的簡短描述或短語、新聞可能發(fā)生的起始時(shí)間、終止時(shí)間等。它包含各種新聞要素,但往往不適合直接作為后續(xù)數(shù)據(jù)處理的輸入。所以線索預(yù)處理模塊對采集線索進(jìn)行分詞、關(guān)鍵詞提取、無效詞過濾、語義實(shí)體識別等預(yù)處理,提取其中的新聞要素。這些新聞要素將為采集任務(wù)的分配和定向米集提供參考。
[0035]2、采集實(shí)體選取模塊
[0036]采集實(shí)體選取模塊用于根據(jù)輸入的新聞要素得到相應(yīng)的采集頁面。該模塊根據(jù)線索預(yù)處理的結(jié)果,獲取相關(guān)關(guān)鍵詞、相關(guān)新聞內(nèi)容地址(例如與采集線索相關(guān)的微博、博客、社交網(wǎng)絡(luò)等UGC新聞地址)、相關(guān)用戶地址等信息構(gòu)成采集目標(biāo)候選集合。進(jìn)一步地,還可以通過對目標(biāo)候選集合中目標(biāo)的重要性對各類采集目標(biāo)(即采集實(shí)體)進(jìn)行排序,選取排序前η個(gè)對象作為最終的采集目標(biāo),如關(guān)鍵微博、關(guān)鍵用戶等
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
策勒县| 犍为县| 郎溪县| 当雄县| 商都县| 呈贡县| 台南市| 四会市| 云和县| 定陶县| 河曲县| 锡林浩特市| 安仁县| 湘潭县| 卓资县| 师宗县| 砚山县| 云阳县| 隆回县| 玉环县| 藁城市| 剑川县| 儋州市| 寿宁县| 普兰店市| 景东| 深水埗区| 寻甸| 高陵县| 临朐县| 铁岭县| 延川县| 龙山县| 西乌珠穆沁旗| 芷江| 安塞县| 长丰县| 华阴市| 阿拉善盟| 乡城县| 巨鹿县|