一種互聯(lián)網(wǎng)輿情數(shù)據(jù)的獲取方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及輿情監(jiān)控技術(shù)領(lǐng)域,更具體地說(shuō),涉及一種互聯(lián)網(wǎng)輿情數(shù)據(jù)的獲取方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著因特網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)媒體已成為第四媒體。社會(huì)輿情也越來(lái)越多在網(wǎng)絡(luò)里集中爆發(fā),成為反映民間輿論的主要形式之一。網(wǎng)絡(luò)輿情與生倶來(lái)有偏差性(即缺乏規(guī)限和監(jiān)督)、突發(fā)性(熱點(diǎn)事件加上情緒化意見(jiàn)會(huì)成為導(dǎo)火索迅速點(diǎn)燃一片輿論,難以掌控)、直接性(微博、微信、qq群已經(jīng)成為網(wǎng)民立即發(fā)表意見(jiàn)的平臺(tái))。但是目前市場(chǎng)上的公共輿情監(jiān)測(cè)系統(tǒng)普遍存在爬蟲(chóng)抓取范圍不廣、海量數(shù)據(jù)查詢檢索效率低下等問(wèn)題。
[0003]因此,如何高效率的檢測(cè)范圍更廣的互聯(lián)網(wǎng)輿情數(shù)據(jù),是本領(lǐng)域技術(shù)人員需要解決的問(wèn)題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種互聯(lián)網(wǎng)輿情數(shù)據(jù)的獲取方法及系統(tǒng),以實(shí)現(xiàn)高效率的檢測(cè)范圍更廣的互聯(lián)網(wǎng)輿情數(shù)據(jù)。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供了如下技術(shù)方案:
[0006]—種互聯(lián)網(wǎng)輿情數(shù)據(jù)的獲取方法,包括:
[0007]利用爬蟲(chóng)技術(shù),確定輿情相關(guān)度大于預(yù)設(shè)值的URL隊(duì)列;
[0008]對(duì)所述URL隊(duì)列中的每一 URL地址進(jìn)行解析,得到與每一 URL地址對(duì)應(yīng)的頁(yè)面信息;
[0009]利用Lucene技術(shù),為每一URL地址對(duì)應(yīng)的頁(yè)面信息創(chuàng)建與輿情索引關(guān)鍵詞信息對(duì)應(yīng)的索引文件。
[0010]其中,所述利用爬蟲(chóng)技術(shù),確定輿情相關(guān)度大于預(yù)設(shè)值的URL隊(duì)列,包括:
[0011]確定與目標(biāo)主題的輿情相關(guān)度大于預(yù)設(shè)值的種子URL地址,并將所述種子URL地址存入所述URL隊(duì)列;
[0012]獲取所述URL隊(duì)列中的每個(gè)種子URL地址的源代碼,并提取每個(gè)源代碼中的所有URL地址,形成URL地址集,并將所述URL地址集存入所述URL隊(duì)列。
[0013]其中,將所述URL地址集存入所述URL隊(duì)列之前,還包括:
[0014]判斷所述URL地址集中的每個(gè)URL地址是否符合預(yù)定網(wǎng)頁(yè)提取規(guī)則;
[0015]若符合,則保留;若不符合,則從所述URL地址集中刪除。
[0016]其中,所述利用Lucene技術(shù),為每一URL地址對(duì)應(yīng)的頁(yè)面信息創(chuàng)建與輿情索引關(guān)鍵詞信息對(duì)應(yīng)的索引文件,包括:
[0017]從每個(gè)URL地址對(duì)應(yīng)的頁(yè)面信息中提取與預(yù)設(shè)輿情參數(shù)相對(duì)應(yīng)的輿情索引關(guān)鍵詞信息;其中,所述預(yù)設(shè)輿情參數(shù)至少包括:標(biāo)題、發(fā)布時(shí)間、發(fā)布者、正文等;
[0018]將所述輿情索引關(guān)鍵詞信息整理成規(guī)范的結(jié)構(gòu)化數(shù)據(jù)保存至本地?cái)?shù)據(jù)庫(kù);
[0019]通過(guò)Lucene技術(shù),為每個(gè)URL地址對(duì)應(yīng)輿情索引關(guān)鍵詞信息創(chuàng)建索引文件。
[0020]其中,所述為每一URL地址對(duì)應(yīng)的頁(yè)面信息創(chuàng)建與輿情索引關(guān)鍵詞信息對(duì)應(yīng)的索引文件之后,還包括:
[0021]接收用戶發(fā)送的索引請(qǐng)求;
[0022]利用Lucene技術(shù),解析所述索引請(qǐng)求中的關(guān)鍵詞,查找與所述關(guān)鍵詞相對(duì)應(yīng)的索引文件,并將查找到的索引文件所對(duì)應(yīng)的URL地址返回給用戶。
[0023]一種互聯(lián)網(wǎng)輿情數(shù)據(jù)的獲取系統(tǒng),包括:
[0024]URL隊(duì)列確定模塊,用于利用爬蟲(chóng)技術(shù),確定輿情相關(guān)度大于預(yù)設(shè)值的URL隊(duì)列;
[0025]頁(yè)面信息解析模塊,用于對(duì)所述URL隊(duì)列中的每一URL地址進(jìn)行解析,得到與每一URL地址對(duì)應(yīng)的頁(yè)面信息;
[0026]索引文件創(chuàng)建模塊,用于利用Lucene技術(shù),為每一URL地址對(duì)應(yīng)的頁(yè)面信息創(chuàng)建與輿情索引關(guān)鍵詞信息對(duì)應(yīng)的索引文件。
[0027]其中,所述URL隊(duì)列確定模塊,包括:
[0028]種子URL地址確定單元,用于確定與目標(biāo)主題的輿情相關(guān)度大于預(yù)設(shè)值的種子URL地址,并將所述種子URL地址存入所述URL隊(duì)列;
[0029]URL地址集提取單元,用于獲取所述URL隊(duì)列中的每個(gè)種子URL地址的源代碼,并提取每個(gè)源代碼中的所有URL地址,形成URL地址集;
[0030]URL地址集添加單元,用于將所述URL地址集存入所述URL隊(duì)列。
[0031]其中,所述URL隊(duì)列確定模塊,還包括:
[0032]判斷單元,用于判斷所述URL地址集中的每個(gè)URL地址是否符合預(yù)定網(wǎng)頁(yè)提取規(guī)則;
[0033]若符合,則保留;若不符合,則從所述URL地址集中刪除。
[0034]其中,所述索弓I文件創(chuàng)建模塊,包括:
[0035]輿情索引關(guān)鍵詞信息提取單元,用于從每個(gè)URL地址對(duì)應(yīng)的頁(yè)面信息中提取與預(yù)設(shè)輿情參數(shù)相對(duì)應(yīng)的輿情索引關(guān)鍵詞信息;其中,所述預(yù)設(shè)輿情參數(shù)至少包括:標(biāo)題、發(fā)布時(shí)間、發(fā)布者、正文等;
[0036]保存單元,用于將所述輿情索引關(guān)鍵詞信息整理成規(guī)范的結(jié)構(gòu)化數(shù)據(jù)保存至本地?cái)?shù)據(jù)庫(kù);
[0037]索引文件創(chuàng)建單元,用于通過(guò)Lucene技術(shù),為每個(gè)URL地址對(duì)應(yīng)輿情索引關(guān)鍵詞信息創(chuàng)建索引文件。
[0038]其中,所述獲取系統(tǒng)還包括:
[0039]接收模塊,用于接收用戶發(fā)送的索引請(qǐng)求;
[0040]解析模塊,用于利用Lucene技術(shù),解析所述索引請(qǐng)求中的關(guān)鍵詞,查找與所述關(guān)鍵詞相對(duì)應(yīng)的索引文件,并將查找到的索引文件所對(duì)應(yīng)的URL地址返回給用戶。
[0041]通過(guò)以上方案可知,本發(fā)明實(shí)施例提供的一種互聯(lián)網(wǎng)輿情數(shù)據(jù)的獲取方法及系統(tǒng),包括:利用爬蟲(chóng)技術(shù),確定輿情相關(guān)度大于預(yù)設(shè)值的URL隊(duì)列;對(duì)所述URL隊(duì)列中的每一URL地址進(jìn)行解析,得到與每一URL地址對(duì)應(yīng)的頁(yè)面信息;利用Lucene技術(shù),為每一URL地址對(duì)應(yīng)的頁(yè)面信息創(chuàng)建與輿情索引關(guān)鍵詞信息對(duì)應(yīng)的索引文件;可見(jiàn),在本實(shí)施例中,利用爬蟲(chóng)技術(shù)能夠獲取更多的輿情相關(guān)度大于預(yù)設(shè)值的URL地址,從而剔除了無(wú)關(guān)網(wǎng)站的URL地址,提高了抓取相關(guān)度,縮小網(wǎng)絡(luò)資源和硬件資源的消耗,并且通過(guò)Lucene給每條輿情索引關(guān)鍵詞信息自動(dòng)創(chuàng)建反向索引,增加了檢索效率。
【附圖說(shuō)明】
[0042]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0043]圖1為本發(fā)明實(shí)施例公開(kāi)的一種互聯(lián)網(wǎng)輿情數(shù)據(jù)的獲取方法;
[0044]圖2為本發(fā)明實(shí)施例公開(kāi)的一種互聯(lián)網(wǎng)輿情數(shù)據(jù)的獲取系統(tǒng)。
【具體實(shí)施方式】
[0045]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0046]本發(fā)明實(shí)施例公開(kāi)了一種互聯(lián)網(wǎng)輿情數(shù)據(jù)的獲取方法及系統(tǒng),以實(shí)現(xiàn)高效率的檢測(cè)范圍更廣的互聯(lián)網(wǎng)輿情數(shù)據(jù)。
[0047]參見(jiàn)圖1,本發(fā)明實(shí)施例提供的一種互聯(lián)網(wǎng)輿情數(shù)據(jù)的獲取方法,包括:
[0048]S101、利用爬蟲(chóng)技術(shù),確定輿情相關(guān)度大于預(yù)設(shè)值的URL隊(duì)列;
[0049]其中,所述利用爬蟲(chóng)技術(shù),確定輿情相關(guān)度大于預(yù)設(shè)值的URL隊(duì)列,包括:
[0050]確定與目標(biāo)主題的輿情相關(guān)度大于預(yù)設(shè)值的種子URL地址,并將所述種子URL地址存入所述URL隊(duì)列;