两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計方法及裝置與流程

文檔序號:12464734閱讀:588來源:國知局
網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計方法及裝置與流程

本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計方法及裝置。



背景技術(shù):

網(wǎng)站轉(zhuǎn)載情況是指網(wǎng)站上的原創(chuàng)文章被其他網(wǎng)站轉(zhuǎn)載到自己網(wǎng)站上以新的頁面展示出來的情況,包括網(wǎng)站轉(zhuǎn)載量等信息,它是衡量網(wǎng)站的傳播影響力的重要指標之一,既能說明網(wǎng)站的權(quán)威性,也能根據(jù)每篇原創(chuàng)文章的轉(zhuǎn)載情況分析出網(wǎng)民的關(guān)注熱點。因此,統(tǒng)計網(wǎng)站的轉(zhuǎn)載情況是對網(wǎng)站內(nèi)容進行評估的前提條件,特別是隨著某些政策性文件的出臺,網(wǎng)站的轉(zhuǎn)載情況被明確的列為考核政府網(wǎng)站內(nèi)容的互聯(lián)網(wǎng)影響力的核心指標之一。

目前,市面上很少有能提供計算網(wǎng)站轉(zhuǎn)載情況功能或者服務(wù)的供應(yīng)商,主要原因是:首先,確定轉(zhuǎn)載需要使用自然語言處理技術(shù),判斷兩個頁面主要內(nèi)容的一致性;其次,需要提取轉(zhuǎn)載來源和時間。這兩項技術(shù)就目前而言都是比較高端的技術(shù)。即使一些高新技術(shù)機構(gòu)能夠分析出兩篇文章是否為轉(zhuǎn)載關(guān)系,但他們對文章的獲取都是通過爬蟲對互聯(lián)網(wǎng)各網(wǎng)站的爬取來實現(xiàn)的。這樣網(wǎng)站轉(zhuǎn)載情況的計算范圍就受到很大限制。

目前,能夠提供計算網(wǎng)站轉(zhuǎn)載情況的系統(tǒng)都采用爬蟲對互聯(lián)網(wǎng)網(wǎng)頁進行逐個爬取的方式來確定檢測網(wǎng)站轉(zhuǎn)載的范圍,所以必然存在轉(zhuǎn)載遺漏的問題。其中,轉(zhuǎn)載遺漏是指實際是網(wǎng)站中原創(chuàng)文章的轉(zhuǎn)載文章,但在計算網(wǎng)站轉(zhuǎn)載情況時并沒有被計算在內(nèi)。發(fā)明人發(fā)現(xiàn),引起轉(zhuǎn)載遺漏的原因大概有兩種,即檢測范圍不足和轉(zhuǎn)載不規(guī)范(如轉(zhuǎn)載時沒有明示轉(zhuǎn)載來源)。轉(zhuǎn)載遺漏將直接導(dǎo)致了以下兩個嚴重問題:得到的網(wǎng)站轉(zhuǎn)載數(shù)量明顯偏少;得到的網(wǎng)站中被轉(zhuǎn)載的文章是錯誤的,并不能體現(xiàn)網(wǎng)民的關(guān)注熱點。

針對上述的問題,目前尚未提出有效的解決方案。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例提供了一種網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計方法及裝置,以至少解決相關(guān)技術(shù)中由于轉(zhuǎn)載遺漏造成的網(wǎng)站轉(zhuǎn)載情況統(tǒng)計不準確的技術(shù)問題。

根據(jù)本發(fā)明實施例的一個方面,提供了一種網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計方法,包括:利用爬蟲爬取原創(chuàng)文章的轉(zhuǎn)載體,得到上述原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果,其中,上述原創(chuàng)文章為在目標網(wǎng)站上首發(fā)的文章;獲取上述原創(chuàng)文章的屬性信息,其中,上述屬性信息包括標題信息和/或關(guān)鍵詞信息;根據(jù)獲取的上述屬性信息利用搜索引擎搜索上述原創(chuàng)文章的轉(zhuǎn)載體,得到上述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果;合并上述原創(chuàng)文章的上述第一網(wǎng)站轉(zhuǎn)載結(jié)果及上述第二網(wǎng)站轉(zhuǎn)載結(jié)果。

進一步地,合并上述原創(chuàng)文章的上述第一網(wǎng)站轉(zhuǎn)載結(jié)果及上述第二網(wǎng)站轉(zhuǎn)載結(jié)果包括:刪除上述原創(chuàng)文章的上述第二網(wǎng)站轉(zhuǎn)載結(jié)果中與上述第一網(wǎng)站轉(zhuǎn)載結(jié)果中的重復(fù)部分;將刪除了上述重復(fù)部分的第二網(wǎng)站轉(zhuǎn)載結(jié)果疊加到上述第一網(wǎng)站轉(zhuǎn)載結(jié)果中。

進一步地,根據(jù)獲取的上述屬性信息利用搜索引擎搜索上述原創(chuàng)文章的轉(zhuǎn)載體,得到上述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果包括:根據(jù)獲取的上述屬性信息利用搜索引擎搜索上述原創(chuàng)文章的轉(zhuǎn)載體;對上述原創(chuàng)文章與其轉(zhuǎn)載體進行相似度分析;根據(jù)相似度分析結(jié)果確定上述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。

進一步地,根據(jù)相似度分析結(jié)果確定上述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果包括:根據(jù)上述相似度分析結(jié)果確定出與上述原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體;判斷與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于上述原創(chuàng)文章的首發(fā)時間;在判斷結(jié)果為與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體的發(fā)布時間晚于上述原創(chuàng)文章的首發(fā)時間的情況下,確定該轉(zhuǎn)載體屬于上述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。

進一步地,在判斷與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于上述原創(chuàng)文章的首發(fā)時間之前,上述方法還包括:檢測與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體是否有文章來源標識,其中,在檢測結(jié)果為與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體沒有上述文章來源標識的情況下,判斷與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于上述原創(chuàng)文章的首發(fā)時間。

根據(jù)本發(fā)明實施例的另一方面,還提供了一種網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計裝置,包括:爬取單元,用于利用爬蟲爬取原創(chuàng)文章的轉(zhuǎn)載體,得到上述原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果,其中,上述原創(chuàng)文章為在目標網(wǎng)站上首發(fā)的文章;獲取單元,用于獲取上述原創(chuàng)文章的屬性信息,其中,上述屬性信息包括標題信息和/或關(guān)鍵詞信息;搜索單元,用于根據(jù)獲取的上述屬性信息利用搜索引擎搜索上述原創(chuàng)文章的轉(zhuǎn)載體,得到上述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果;合并單元,用于合并上述原創(chuàng)文章的上述第一網(wǎng)站轉(zhuǎn)載結(jié)果及上述第二網(wǎng)站轉(zhuǎn)載結(jié)果。

進一步地,上述合并單元包括:刪除模塊,用于刪除上述原創(chuàng)文章的上述第二網(wǎng)站轉(zhuǎn)載結(jié)果中與上述第一網(wǎng)站轉(zhuǎn)載結(jié)果中的重復(fù)部分;疊加模塊,用于將刪除了上述重復(fù)部分的第二網(wǎng)站轉(zhuǎn)載結(jié)果疊加到上述第一網(wǎng)站轉(zhuǎn)載結(jié)果中。

進一步地,上述搜索單元包括:搜索模塊,用于根據(jù)獲取的上述屬性信息利用搜索引擎搜索上述原創(chuàng)文章的轉(zhuǎn)載體;分析模塊,用于對上述原創(chuàng)文章與其轉(zhuǎn)載體進行相似度分析;確定模塊,用于根據(jù)相似度分析結(jié)果確定上述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。

進一步地,上述確定模塊包括:第一確定子模塊,用于根據(jù)上述相似度分析結(jié)果確定出與上述原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體;判斷子模塊,用于判斷與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于上述原創(chuàng)文章的首發(fā)時間;第二確定子模塊,用于在判斷結(jié)果為與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體的發(fā)布時間晚于上述原創(chuàng)文章的首發(fā)時間的情況下,確定該轉(zhuǎn)載體屬于上述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。

進一步地,上述確定模塊還包括:檢測子模塊,用于在判斷與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于上述原創(chuàng)文章的首發(fā)時間之前,檢測與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體是否有文章來源標識,其中,上述判斷子模塊還用于在檢測結(jié)果為與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體沒有上述文章來源標識的情況下,判斷與上述原創(chuàng)文章的相似度大于上述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于上述原創(chuàng)文章的首發(fā)時間。

在本發(fā)明實施例中,采用利用搜索引擎深度搜索以修正爬蟲爬取的網(wǎng)站轉(zhuǎn)載結(jié)果的方式,通過利用爬蟲爬取原創(chuàng)文章的轉(zhuǎn)載體,得到原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果,其中,原創(chuàng)文章為在目標網(wǎng)站上首發(fā)的文章;獲取原創(chuàng)文章的屬性信息,其中,屬性信息包括標題信息和/或關(guān)鍵詞信息;根據(jù)獲取的屬性信息利用搜索引擎搜索原創(chuàng)文章的轉(zhuǎn)載體,得到原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果;合并原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果及第二網(wǎng)站轉(zhuǎn)載結(jié)果,達到了深度搜索減少轉(zhuǎn)載遺漏的目的,從而實現(xiàn)了提高網(wǎng)站轉(zhuǎn)載情況統(tǒng)計的準確性的技術(shù)效果,進而解決了相關(guān)技術(shù)中由于轉(zhuǎn)載遺漏造成的網(wǎng)站轉(zhuǎn)載情況統(tǒng)計不準確的技術(shù)問題。

附圖說明

此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中:

圖1是根據(jù)本發(fā)明實施例的一種可選的網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計方法的流程圖;

圖2是根據(jù)本發(fā)明實施例的另一種可選的網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計方法的流程圖;

圖3是根據(jù)本發(fā)明實施例的一種可選的網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計裝置的示意圖。

具體實施方式

為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當屬于本發(fā)明保護的范圍。

需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。

實施例1

根據(jù)本發(fā)明實施例,提供了一種網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計方法的方法實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

圖1是根據(jù)本發(fā)明實施例的一種可選的網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計方法的流程圖,如圖1所示,該方法包括如下步驟:

步驟S102,利用爬蟲爬取原創(chuàng)文章的轉(zhuǎn)載體,得到原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果,其中,原創(chuàng)文章為在目標網(wǎng)站上首發(fā)的文章;

步驟S104,獲取原創(chuàng)文章的屬性信息,其中,屬性信息包括標題信息和/或關(guān)鍵詞信息;

步驟S106,根據(jù)獲取的屬性信息利用搜索引擎搜索原創(chuàng)文章的轉(zhuǎn)載體,得到原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果;

步驟S108,合并原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果及第二網(wǎng)站轉(zhuǎn)載結(jié)果。

其中,原創(chuàng)文章是指本網(wǎng)站首發(fā)的文章,是被其他網(wǎng)站進行轉(zhuǎn)載的原文章。轉(zhuǎn)載文章是指將其他網(wǎng)站的原創(chuàng)文章轉(zhuǎn)載到本網(wǎng)站形成的新文章,是原創(chuàng)文章的轉(zhuǎn)載體,是轉(zhuǎn)載的結(jié)果文章。轉(zhuǎn)載遺漏是指實際對原創(chuàng)文章進行了轉(zhuǎn)載的轉(zhuǎn)載文章,但在計算網(wǎng)站轉(zhuǎn)載情況時并沒有統(tǒng)計在內(nèi)。

實施時,首先需要通過爬蟲對各種網(wǎng)站頁面進行爬取,并逐個對頁面爬取結(jié)果進行網(wǎng)站轉(zhuǎn)載分析,即分析頁面爬取結(jié)果是否轉(zhuǎn)載了某篇指定的原創(chuàng)文章,得到該原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果。由于利用爬蟲爬取頁面時,一般會設(shè)置爬取深度,并且為了提高爬取效率,該爬取深度一般會較低,這樣得到的第一網(wǎng)站轉(zhuǎn)載結(jié)果肯定存在轉(zhuǎn)載遺漏的問題。

由于搜索引擎具有較高的搜索深度,因此,為了克服第一網(wǎng)站轉(zhuǎn)載結(jié)果中存在轉(zhuǎn)載遺漏的缺陷,可以使用搜索引擎深度搜索的結(jié)果來修正該第一網(wǎng)站轉(zhuǎn)載結(jié)果。其中,原創(chuàng)文章的屬性信息可以包括主標題和/或副標題,實施時,可以使用原創(chuàng)文章的主標題和/或副標題和/或關(guān)鍵詞信息在各大搜索引擎進行檢索,比如使用原創(chuàng)文章的標題、副標題和文章關(guān)鍵詞作為搜索關(guān)鍵詞在百度、搜狐和360等各大搜索引擎上進行搜索,并將搜索結(jié)果與上一步得到的第一網(wǎng)站轉(zhuǎn)載結(jié)果進行比較,將上一步的轉(zhuǎn)載結(jié)果中不包含的頁面搜索結(jié)果全部保存下來,得到最終的網(wǎng)站轉(zhuǎn)載結(jié)果。

通過上述實施例,可以實現(xiàn)通過在各大搜索引擎對原創(chuàng)文章進行搜索來擴大檢測范圍、加大檢索力度的目的,這樣就從根本上解決了轉(zhuǎn)載遺漏的問題,保障了計算得到的網(wǎng)站轉(zhuǎn)載情況盡可能準確,既能準確地體現(xiàn)真實的網(wǎng)站傳播影響力,也能反映出網(wǎng)民真正關(guān)注的熱點所在。

合并原創(chuàng)文章第一網(wǎng)站轉(zhuǎn)載結(jié)果及第二網(wǎng)站轉(zhuǎn)載結(jié)果的方法可以包括多種,在此不作限定,比如可以對上述兩個結(jié)果進行簡單的疊加,但是該方式又會存在重復(fù)統(tǒng)計的情況,導(dǎo)致統(tǒng)計結(jié)果不準確。優(yōu)選地,合并原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果及第二網(wǎng)站轉(zhuǎn)載結(jié)果可以是取兩者的并集,其具體步驟包括:

S2,刪除原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果中與第一網(wǎng)站轉(zhuǎn)載結(jié)果中的重復(fù)部分;

S4,將刪除了重復(fù)部分的第二網(wǎng)站轉(zhuǎn)載結(jié)果疊加到第一網(wǎng)站轉(zhuǎn)載結(jié)果中。

實施時,可以將第二網(wǎng)站轉(zhuǎn)載結(jié)果中的轉(zhuǎn)載頁面逐一與第一網(wǎng)站轉(zhuǎn)載結(jié)果中的轉(zhuǎn)載頁面進行比較,如果相同,則認為兩者是重復(fù)的,需要將重復(fù)的轉(zhuǎn)載頁面從第二網(wǎng)站轉(zhuǎn)載結(jié)果中刪除,最終將刪除了重復(fù)部分的第二網(wǎng)站轉(zhuǎn)載結(jié)果疊加到第一網(wǎng)站轉(zhuǎn)載結(jié)果中,得到準確的網(wǎng)站轉(zhuǎn)載結(jié)果。

通過本發(fā)明實施例,將通過搜索引擎搜索得到的網(wǎng)站轉(zhuǎn)載情況和通過爬蟲爬取得到的網(wǎng)站轉(zhuǎn)載情況進行合并處理,可以將重復(fù)的轉(zhuǎn)載頁面去掉,將遺漏的轉(zhuǎn)載頁面添加上,從而組成最終的較為準確的網(wǎng)站轉(zhuǎn)載情況。

可選地,根據(jù)獲取的屬性信息利用搜索引擎搜索原創(chuàng)文章的轉(zhuǎn)載體,得到原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果包括:

S6,根據(jù)獲取的屬性信息利用搜索引擎搜索原創(chuàng)文章的轉(zhuǎn)載體;

S8,對原創(chuàng)文章與其轉(zhuǎn)載體進行相似度分析;

S10,根據(jù)相似度分析結(jié)果確定原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。

例如,可以同時使用原創(chuàng)文章的主標題和副標題及其關(guān)鍵詞(或關(guān)鍵句,如文章的第一句和最后一句等)在各大搜索引擎搜索上進行搜索,并將搜索結(jié)果與原創(chuàng)文章進行相似度分析。具體地,可以預(yù)先設(shè)定相似度閾值,如果搜索結(jié)果與原創(chuàng)文章相似度大于該相似度閾值,則認為該搜索結(jié)果是原創(chuàng)文章的轉(zhuǎn)載文章,否則認為其不是原創(chuàng)文章的轉(zhuǎn)載文章。進一步地,在該搜索結(jié)果是原創(chuàng)文章的轉(zhuǎn)載文章時將其統(tǒng)計在原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果中,否則不對其做統(tǒng)計處理。

由于確定是否是某一原創(chuàng)文章的轉(zhuǎn)載文章的依據(jù)至少可以包括兩個,分別是:兩者在內(nèi)容上是否相似;后者在發(fā)布時間上是否晚于前者。因此,僅僅基于相似度這一依據(jù)來判斷,難以排除發(fā)布時間上不符合條件的轉(zhuǎn)載文章,為了克服該缺陷,可選地,根據(jù)相似度分析結(jié)果確定原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果可以包括:

S12,根據(jù)相似度分析結(jié)果確定出與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體;

S14,判斷與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于原創(chuàng)文章的首發(fā)時間;

S16,在判斷結(jié)果為與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體的發(fā)布時間晚于原創(chuàng)文章的首發(fā)時間的情況下,確定該轉(zhuǎn)載體屬于原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。

也即,在相似度分析過程中,如果轉(zhuǎn)載體與對應(yīng)的原創(chuàng)文章相比,相似度高于相似度閾值時,則可以進一步分析兩者的發(fā)布時間,如果前者的發(fā)布時間晚于后者的發(fā)布時間,才會認為該轉(zhuǎn)載體屬于原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果,如果前者的發(fā)布時間早于后者的發(fā)布時間,則認為該轉(zhuǎn)載體不屬于原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。

另外,雖然轉(zhuǎn)載體與對應(yīng)的原創(chuàng)文章的相似度大于相似度閾值,但其發(fā)布時間早于或者等于原創(chuàng)文章的首發(fā)時間時,確定該轉(zhuǎn)載體實際上并不屬于原創(chuàng)文章的第二網(wǎng) 站轉(zhuǎn)載結(jié)果,統(tǒng)計時需要將該轉(zhuǎn)載體剔除。

可選地,在判斷與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于原創(chuàng)文章的首發(fā)時間之前,上述方法還包括:

S18,檢測與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體是否有文章來源標識,其中,在檢測結(jié)果為與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體沒有文章來源標識的情況下,判斷與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于原創(chuàng)文章的首發(fā)時間。

另外,在檢測結(jié)果為與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體有文章來源標識的情況下,無需判斷該轉(zhuǎn)載體的發(fā)布時間是否晚于原創(chuàng)文章的首發(fā)時間,直接對其進行文章相似度分析即可。換言之,對于檢索結(jié)果中明確標記了文章來源的轉(zhuǎn)載體,在進行轉(zhuǎn)載分析時,可以僅僅分析文章的相似度;對于檢索結(jié)果中沒有明確標記文章來源的轉(zhuǎn)載體,在進行轉(zhuǎn)載分析時,除了分析文章的相似度之外,還需要進一步分析文章的發(fā)布時間。

通過本發(fā)明實施例,對于沒有明確標記文章來源的搜索結(jié)果,可以根據(jù)內(nèi)容相似度和發(fā)布時間進行分析,過濾掉不規(guī)范的轉(zhuǎn)載體,提高確定網(wǎng)站轉(zhuǎn)載情況的準確性。

以下以一個具體實施例詳細闡述本發(fā)明:

步驟S202,開始;

步驟S204,使用爬蟲爬取互聯(lián)網(wǎng)網(wǎng)頁;

步驟S206,對需要分析轉(zhuǎn)載情況的原創(chuàng)文章和爬取結(jié)果進行轉(zhuǎn)載分析;

步驟S208,獲取當前原創(chuàng)文章的主標題、副標題和文章關(guān)鍵詞等屬性信息;

步驟S210,將前述屬性信息作為搜索詞在所有搜索引擎中進行檢索;

步驟S212,判斷檢索結(jié)果頁面中是否有明確的轉(zhuǎn)載來源,若是,則執(zhí)行步驟S214,若否,則執(zhí)行步驟S216;

步驟S214,先對檢索結(jié)果文章進行轉(zhuǎn)載分析,再跳轉(zhuǎn)至步驟S226;

步驟S216,確定檢索結(jié)果文章與原創(chuàng)文章的相似度;

步驟S218,判斷相似度是否滿足要求,若是,則執(zhí)行步驟S220;

步驟S220,比較原創(chuàng)文章的首發(fā)時間與轉(zhuǎn)載文章的發(fā)布時間;

步驟S222,判斷原創(chuàng)文章的首發(fā)時間是否在先,若是,則執(zhí)行步驟S224;

步驟S224,確定搜索結(jié)果頁面為原創(chuàng)文章的轉(zhuǎn)載頁面;

步驟S226,將所有轉(zhuǎn)載分析結(jié)果進行合并處理;

步驟S228,結(jié)束。

實施例2

根據(jù)本發(fā)明實施例,提供了一種網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計裝置的裝置實施例。

圖3是根據(jù)本發(fā)明實施例的一種可選的網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計裝置的示意圖,如圖3所示,該裝置包括:爬取單元302,用于利用爬蟲爬取原創(chuàng)文章的轉(zhuǎn)載體,得到原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果,其中,原創(chuàng)文章為在目標網(wǎng)站上首發(fā)的文章;獲取單元304,用于獲取原創(chuàng)文章的屬性信息,其中,屬性信息包括標題信息和/或關(guān)鍵詞信息;搜索單元306,用于根據(jù)獲取的屬性信息利用搜索引擎搜索原創(chuàng)文章的轉(zhuǎn)載體,得到原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果;合并單元308,用于合并原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果及第二網(wǎng)站轉(zhuǎn)載結(jié)果。

其中,原創(chuàng)文章是指本網(wǎng)站首發(fā)的文章,是被其他網(wǎng)站進行轉(zhuǎn)載的原文章。轉(zhuǎn)載文章是指將其他網(wǎng)站的原創(chuàng)文章轉(zhuǎn)載到本網(wǎng)站形成的新文章,是原創(chuàng)文章的轉(zhuǎn)載體,是轉(zhuǎn)載的結(jié)果文章。轉(zhuǎn)載遺漏是指實際對原創(chuàng)文章進行了轉(zhuǎn)載的轉(zhuǎn)載文章,但在計算網(wǎng)站轉(zhuǎn)載情況時并沒有統(tǒng)計在內(nèi)。

實施時,首先需要通過爬蟲對各種網(wǎng)站頁面進行爬取,并逐個對頁面爬取結(jié)果進行網(wǎng)站轉(zhuǎn)載分析,即分析頁面爬取結(jié)果是否轉(zhuǎn)載了某篇指定的原創(chuàng)文章,得到該原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果。由于利用爬蟲爬取頁面時,一般會設(shè)置爬取深度,并且為了提高爬取效率,該爬取深度一般會較低,這樣得到的第一網(wǎng)站轉(zhuǎn)載結(jié)果肯定存在轉(zhuǎn)載遺漏的問題。

由于搜索引擎具有較高的搜索深度,因此,為了克服第一網(wǎng)站轉(zhuǎn)載結(jié)果中存在轉(zhuǎn)載遺漏的缺陷,可以使用搜索引擎深度搜索的結(jié)果來修正該第一網(wǎng)站轉(zhuǎn)載結(jié)果。其中,原創(chuàng)文章的屬性信息可以包括主標題和/或副標題,實施時,可以使用原創(chuàng)文章的主標題和/或副標題和/或關(guān)鍵詞信息在各大搜索引擎進行檢索,比如使用原創(chuàng)文章的標題、副標題和文章關(guān)鍵詞作為搜索關(guān)鍵詞在百度、搜狐和360等各大搜索引擎上進行搜索,并將搜索結(jié)果與上一步得到的第一網(wǎng)站轉(zhuǎn)載結(jié)果進行比較,將上一步的轉(zhuǎn)載結(jié)果中不包含的頁面搜索結(jié)果全部保存下來,得到最終的網(wǎng)站轉(zhuǎn)載結(jié)果。

通過上述實施例,可以實現(xiàn)通過在各大搜索引擎對原創(chuàng)文章進行搜索來擴大檢測范圍、加大檢索力度的目的,這樣就從根本上解決了轉(zhuǎn)載遺漏的問題,保障了計算得 到的網(wǎng)站轉(zhuǎn)載情況盡可能準確,既能準確地體現(xiàn)真實的網(wǎng)站傳播影響力,也能反映出網(wǎng)民真正關(guān)注的熱點所在。

合并原創(chuàng)文章第一網(wǎng)站轉(zhuǎn)載結(jié)果及第二網(wǎng)站轉(zhuǎn)載結(jié)果的方法可以包括多種,在此不作限定,比如可以對上述兩個結(jié)果進行簡單的疊加,但是該方式又會存在重復(fù)統(tǒng)計的情況,導(dǎo)致統(tǒng)計結(jié)果不準確。優(yōu)選地,上述合并單元可以用于取原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果及第二網(wǎng)站轉(zhuǎn)載結(jié)果的并集,包括:刪除模塊,用于刪除原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果中與第一網(wǎng)站轉(zhuǎn)載結(jié)果中的重復(fù)部分;疊加模塊,用于將刪除了重復(fù)部分的第二網(wǎng)站轉(zhuǎn)載結(jié)果疊加到第一網(wǎng)站轉(zhuǎn)載結(jié)果中。

實施時,可以將第二網(wǎng)站轉(zhuǎn)載結(jié)果中的轉(zhuǎn)載頁面逐一與第一網(wǎng)站轉(zhuǎn)載結(jié)果中的轉(zhuǎn)載頁面進行比較,如果相同,則認為兩者是重復(fù)的,需要將重復(fù)的轉(zhuǎn)載頁面從第二網(wǎng)站轉(zhuǎn)載結(jié)果中刪除,最終將刪除了重復(fù)部分的第二網(wǎng)站轉(zhuǎn)載結(jié)果疊加到第一網(wǎng)站轉(zhuǎn)載結(jié)果中,得到準確的網(wǎng)站轉(zhuǎn)載結(jié)果。

通過本發(fā)明實施例,將通過搜索引擎搜索得到的網(wǎng)站轉(zhuǎn)載情況和通過爬蟲爬取得到的網(wǎng)站轉(zhuǎn)載情況進行合并處理,可以將重復(fù)的轉(zhuǎn)載頁面去掉,將遺漏的轉(zhuǎn)載頁面添加上,從而組成最終的較為準確的網(wǎng)站轉(zhuǎn)載情況。

可選地,上述搜索單元包括:搜索模塊,用于根據(jù)獲取的屬性信息利用搜索引擎搜索原創(chuàng)文章的轉(zhuǎn)載體;分析模塊,用于對原創(chuàng)文章與其轉(zhuǎn)載體進行相似度分析;確定模塊,用于根據(jù)相似度分析結(jié)果確定原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。

例如,可以同時使用原創(chuàng)文章的主標題和副標題及其關(guān)鍵詞(或關(guān)鍵句,如文章的第一句和最后一句等)在各大搜索引擎搜索上進行搜索,并將搜索結(jié)果與原創(chuàng)文章進行相似度分析。具體地,可以預(yù)先設(shè)定相似度閾值,如果搜索結(jié)果與原創(chuàng)文章相似度大于該相似度閾值,則認為該搜索結(jié)果是原創(chuàng)文章的轉(zhuǎn)載文章,否則認為其不是原創(chuàng)文章的轉(zhuǎn)載文章。進一步地,在該搜索結(jié)果是原創(chuàng)文章的轉(zhuǎn)載文章時將其統(tǒng)計在原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果中,否則不對其做統(tǒng)計處理。

由于確定是否是某一原創(chuàng)文章的轉(zhuǎn)載文章的依據(jù)至少可以包括兩個,分別是:兩者在內(nèi)容上是否相似;后者在發(fā)布時間上是否晚于前者。因此,僅僅基于相似度這一依據(jù)來判斷,難以排除發(fā)布時間上不符合條件的轉(zhuǎn)載文章,為了克服該缺陷,可選地,上述確定模塊包括:第一確定子模塊,用于根據(jù)相似度分析結(jié)果確定出與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體;判斷子模塊,用于判斷與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于原創(chuàng)文章的首發(fā)時間;第二確定子模塊,用于在判斷結(jié)果為與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體的發(fā)布時間晚于原創(chuàng)文章 的首發(fā)時間的情況下,確定該轉(zhuǎn)載體屬于原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。

也即,在相似度分析過程中,如果轉(zhuǎn)載體與對應(yīng)的原創(chuàng)文章相比,相似度高于相似度閾值時,則可以進一步分析兩者的發(fā)布時間,如果前者的發(fā)布時間晚于后者的發(fā)布時間,才會認為該轉(zhuǎn)載體屬于原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果,如果前者的發(fā)布時間早于后者的發(fā)布時間,則認為該轉(zhuǎn)載體不屬于原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。

另外,雖然轉(zhuǎn)載體與對應(yīng)的原創(chuàng)文章的相似度大于相似度閾值,但其發(fā)布時間早于或者等于原創(chuàng)文章的首發(fā)時間時,確定該轉(zhuǎn)載體實際上并不屬于原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果,統(tǒng)計時需要將該轉(zhuǎn)載體剔除。

可選地,上述確定模塊還包括:檢測子模塊,用于在判斷與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于原創(chuàng)文章的首發(fā)時間之前,檢測與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體是否有文章來源標識,其中,判斷子模塊還用于在檢測結(jié)果為與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體沒有文章來源標識的情況下,判斷與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于原創(chuàng)文章的首發(fā)時間。

另外,在檢測結(jié)果為與原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體有文章來源標識的情況下,無需判斷該轉(zhuǎn)載體的發(fā)布時間是否晚于原創(chuàng)文章的首發(fā)時間,直接對其進行文章相似度分析即可。換言之,對于檢索結(jié)果中明確標記了文章來源的轉(zhuǎn)載體,在進行轉(zhuǎn)載分析時,可以僅僅分析文章的相似度;對于檢索結(jié)果中沒有明確標記文章來源的轉(zhuǎn)載體,在進行轉(zhuǎn)載分析時,除了分析文章的相似度之外,還需要進一步分析文章的發(fā)布時間。

通過本發(fā)明實施例,對于沒有明確標記文章來源的搜索結(jié)果,可以根據(jù)內(nèi)容相似度和發(fā)布時間進行分析,過濾掉不規(guī)范的轉(zhuǎn)載體,提高確定網(wǎng)站轉(zhuǎn)載情況的準確性。

上述網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計裝置包括處理器和存儲器,上述爬取單元、獲取單元等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元。

處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上,通過調(diào)整內(nèi)核參數(shù)解析文本內(nèi)容。

存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個存儲芯片。

本申請還提供了一種計算機程序產(chǎn)品的實施例,當在數(shù)據(jù)處理設(shè)備上執(zhí)行時,適 于執(zhí)行初始化有如下方法步驟的程序代碼:利用爬蟲爬取原創(chuàng)文章的轉(zhuǎn)載體,得到原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果,其中,原創(chuàng)文章為在目標網(wǎng)站上首發(fā)的文章;獲取原創(chuàng)文章的屬性信息,其中,屬性信息包括標題信息和/或關(guān)鍵詞信息;根據(jù)獲取的屬性信息利用搜索引擎搜索原創(chuàng)文章的轉(zhuǎn)載體,得到原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果;合并原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果及第二網(wǎng)站轉(zhuǎn)載結(jié)果。

上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。

在本發(fā)明的上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。

在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。

所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可為個人計算機、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤 飾也應(yīng)視為本發(fā)明的保護范圍。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宣汉县| 巨鹿县| 同仁县| 枝江市| 三台县| 稷山县| 永顺县| 行唐县| 丰顺县| 定兴县| 乐山市| 桓仁| 虎林市| 彰化市| 宝应县| 绵阳市| 桂东县| 海晏县| 凤阳县| 宜良县| 保亭| 手游| 辽阳县| 沙洋县| 铜梁县| 金沙县| 仁寿县| 饶平县| 南充市| 宝山区| 和顺县| 江华| 安福县| 大同市| 出国| 泸水县| 平乐县| 长垣县| 祁门县| 保德县| 凯里市|