一種基于網(wǎng)絡數(shù)據(jù)的電視劇點播量預測方法
【專利摘要】本發(fā)明公開了一種基于網(wǎng)絡數(shù)據(jù)的電視劇點播量預測方法,其特點是將抓取的微博數(shù)量和搜索次數(shù)以及與電視劇相關數(shù)據(jù)運用相關性分析和單變量線性回歸計算得到初始特征集,然后對初始特征集采用逐步回歸法得到X和Xb特征集,將X和Xb特征集采用多元線性回歸法分別得到電視劇首播前、后的兩個預測模型,然后按預測值的大小進行電視劇的排名預測。本發(fā)明與現(xiàn)有技術相比具有提前預測點播系統(tǒng)中電視劇未來一段時間內(nèi)的集均點播量,預測結果有效的反映出電視劇的熱門程度,方法簡便,準確性好,能為視頻運營商在電視劇播出版權購買決策上提供依據(jù),對在線點播系統(tǒng)的吸引用戶和增加廣告點擊量提供強有力的支持。
【專利說明】—種基于網(wǎng)絡數(shù)據(jù)的電視劇點播量預測方法
【技術領域】
[0001]本發(fā)明涉互聯(lián)網(wǎng)信息搜索【技術領域】,具體地說是一種基于新浪微博及百度搜索網(wǎng)絡數(shù)據(jù)的電視劇點播量預測方法。
【背景技術】
[0002]視頻點播量預測在網(wǎng)絡數(shù)據(jù)挖掘領域中有著重要的應用,點播量高的電視劇能夠提高廣告的播放量,提前預測出電視劇的點播量已在廣告業(yè)務擴展方面有著廣泛的應用。利用新浪微博和百度搜索指數(shù)對點播系統(tǒng)中電視劇上線后未來一段時間內(nèi)的點播量進行預測,以及電視劇與社交網(wǎng)絡的聯(lián)系成為研究的熱點。尤其通過網(wǎng)絡數(shù)據(jù)對在線點播系統(tǒng)中電視劇點播量的預測,對視頻運營商購買電視劇播出版權已起到一定的決策作用,降低版權購買的盲目投入。此外,通過新浪微博和百度搜索指數(shù)數(shù)據(jù)能夠較為全面的反應出用戶對電視劇喜好程度。
[0003]目前,對視頻類資源點播量的預測一般都采用基于歷史點播數(shù)據(jù)預測方法和網(wǎng)絡數(shù)據(jù)的預測方法。基于歷史點播數(shù)據(jù)的預測需要在電視劇播出一定時間段之后才能進行預測。而基于網(wǎng)絡數(shù)據(jù)的預測方法中,傳統(tǒng)的方法則主要是對電影的票房進行了預測,與電影票房預測相比,電視劇點播量受影響的因素更多,沒有考慮社交網(wǎng)絡和搜索數(shù)據(jù)在不同時間點對電視劇點播量反映程度的差異。
[0004]現(xiàn)有技術不能在電視劇上線之前對點播量進行預測,而且沒有通過社交網(wǎng)絡和搜索引擎數(shù)據(jù)同時進行預測,不能準確的預測點播量,無法幫助視頻運營商在購買電視劇播出版權的決策。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是針對現(xiàn)有技術的不足而設計的一種基于網(wǎng)絡數(shù)據(jù)的電視劇點播量預測方法,采用SPSS計算工具對抓取的電視劇首播前后與電視劇名相關的微博數(shù)量和搜索次數(shù)以及與電視劇相關數(shù)據(jù)建立初始特征集,然后對初始特征集采用逐步回歸和多元線性回歸得到集均點播量的預測以及排名預測,方法簡便,準確性好,預測結果有效的反映出電視劇的熱門程度,能為視頻運營商在電視劇播出版權購買決策上提供依據(jù),對在線點播系統(tǒng)的吸引用戶和增加廣告點擊量提供強有力的支持。
[0006]本發(fā)明的目的是這樣實現(xiàn)的:一種基于網(wǎng)絡數(shù)據(jù)的電視劇點播量預測方法,其特點是以網(wǎng)絡爬蟲抓取電視劇首播前后與電視劇名相關的微博數(shù)量和搜索次數(shù)以及與電視劇相關數(shù)據(jù),將抓取的數(shù)據(jù)運用相關性分析和單變量線性回歸計算后建立初始特征集,然后對初始特征集采用逐步回歸法得到X特征集和Xb特征集,將X特征集和Xb特征集采用多元線性回歸法得到預測集均點播量,然后按預測值的大小進行電視劇的排名預測,具體預測按下述步驟進行:
(一)、數(shù)據(jù)的抓取
a、通過網(wǎng)絡爬蟲抓取已經(jīng)結束熱播的若干部電視劇以及與電視劇對應的基本數(shù)據(jù); b、獲取微博排行榜中娛樂領域排名前100的用戶,然后根據(jù)關注關系,擴展用戶數(shù),并補全電視劇演員和各大衛(wèi)視的官方微博,并抓取這批用戶的微博數(shù)據(jù);
(二 )、統(tǒng)計樣本
a、分析娛樂領域用戶的數(shù)據(jù),統(tǒng)計可能與電視劇相關因素為A微博數(shù)據(jù)樣本;
b、統(tǒng)計若干部電視劇首播前一個月內(nèi)每周的電視劇名相關總微博數(shù)和首播后15天中每天的微博數(shù)為B微博數(shù)據(jù)樣本;
C、統(tǒng)計百度指數(shù)中電視劇首播前一個月內(nèi)每周電視劇名被搜索的次數(shù)和首播后15天中每天搜索次數(shù)為搜索數(shù)據(jù)樣本;
(三)、初始特征集的建立
a、使用SPSS分析工具對統(tǒng)計樣本中a步驟的相關因素與電視劇集均點播量分別進行皮爾遜相關系數(shù)和斯皮爾曼相關系數(shù)的計算,在置信度為5%條件下,只要滿足其中一個相關性即為顯著相關因素;
b、使用SPSS分析工具分別對電視劇首播前一個月內(nèi)每周的微博數(shù)量和首播后15天中每天的微博數(shù)量與電視劇首播前一個月內(nèi)每周被搜索的次數(shù)與首播后15天中每天被搜索的次數(shù)進行單變量線性回歸計算,得到每個變量對電視劇集均點播量的R2值,將每個時間點微博與搜索數(shù)據(jù)中較大的R2值作為特征因素,其中因變量為電視劇集均點播量,自變量為每個時間點的單變量;
C、將上述a步驟中的顯著相關因素與b步驟中較大的R2值組成初始特征集;
(四)、X和Xb特征集的建立
運用SPSS分析工具對初始特征集進行逐步回歸計算得到X特征集,從X特征集中抽取電視劇首播前就能獲取的特征得到Xb特征集;
(五)、電視劇的排名預測
運用SPSS分析工具對X特征集和Xb特征集進行多元回歸計算得到兩個預測模型,并對預測模型加入了偏執(zhí)項和是否建立特定微博帳號,如果有建立特定微博帳號,則在SPSS分析工具計算的結果上加上有無特定微博帳號電視劇集均的差值;由Xb特征集經(jīng)加入偏執(zhí)項的多元回歸計算得到能在電視劇首播前預測集均點播量的預測模型
I;由X特征集經(jīng)加入偏執(zhí)項的多元回歸計算得到能在電視劇首播后預測集均點播量的預
測模型II,然后根據(jù)預測值的大小進行電視劇的排名預測;所述預測模型II為電視劇首播后進行逐步修正的預測結果。
[0007]本發(fā)明與現(xiàn)有技術相比具有提前預測出點播系統(tǒng)中電視劇未來一段時間內(nèi)的集均點播量,預測結果有效的反映出電視劇的熱門程度,方法簡便,準確性好,為視頻運營商在電視劇播出版權購買的決策上提供依據(jù),對在線點播系統(tǒng)的吸引用戶和增加廣告點擊量提供強有力的支持。
【專利附圖】
【附圖說明】
[0008]圖1為本發(fā)明的流程示意圖。
【具體實施方式】[0009]參閱附圖1,本發(fā)明利用新浪微博和百度搜索指數(shù)抓取電視劇首播前后與電視劇名相關的微博數(shù)量和搜索次數(shù)以及與電視劇相關數(shù)據(jù),將抓取的數(shù)據(jù)運用相關性分析和單變量線性回歸計算后建立初始特征集,然后對初始特征集采用逐步回歸法得到X特征集和Xb特征集,將X特征集和Xb特征集采用多元線性回歸法得到預測集均點播量,然后按預測值的大小進行電視劇的排名預測,具體預測按下述步驟進行:
(一)、數(shù)據(jù)的抓取
a、通過網(wǎng)絡爬蟲抓取已經(jīng)結束熱播的電視劇,并在豆瓣中抓取電視劇對應的演員和集數(shù)等基本信息,獲取η部電視劇的基本數(shù)據(jù)。
[0010]b、使用新浪微博提供的API,獲取微博排行榜中娛樂領域排名前100的用戶,然后根據(jù)關注關系,擴展用戶數(shù),并補全電視劇演員和各大衛(wèi)視的官方微博,并抓取這批用戶的微博數(shù)據(jù)。
[0011](二 )、統(tǒng)計樣本
a、分析娛樂領域用戶的數(shù)據(jù),統(tǒng)計可能與電視劇相關的因素形成A微博數(shù)據(jù)樣本。
[0012]b、統(tǒng)計若干部電視劇首播前一個月內(nèi)每周的電視劇名相關總微博數(shù)和首播后15天中每天的微博數(shù)為B微博數(shù)據(jù)樣本。
[0013]C、統(tǒng)計百度指數(shù)中電視劇首播前一個月內(nèi)每周電視劇名被搜索的次數(shù)和首播后15天中每天搜索次數(shù)為搜索數(shù)據(jù)樣本。
[0014](三)、初始特征集的建立
a、使用SPSS分析工具對統(tǒng)計樣本中a步驟的相關因素與電視劇集均點播量分別進行皮爾遜相關系數(shù)和斯皮爾曼相關系數(shù)的計算,在置信度為5%條件下,只要滿足其中一個相關性即為顯著相關因素,然后將該顯著相關因素加入到初始特征集中。
[0015]b、將電視劇首播前一個月內(nèi)每周的微博數(shù)量和首播后15天中每天的微博數(shù)量與電視劇首播前一個月內(nèi)每周被搜索的次數(shù)與首播后15天中每天被搜索的次數(shù)分別作為單變量,使用SPSS分析工具中的線性回歸進行計算,其中因變量為抓取的電視劇集均點播量,自變量為每個時間點的單變量,獲得每個變量對抓取電視劇集均點播量的解釋程度R2值,對比每個時間點微博和搜索數(shù)據(jù)的預測差異,由于每個時間點會計算出2個R2值,選出兩者之中R2值較大者加入到初始特征集。
[0016](四)、X和Xb特征集的建立
運用SPSS分析工具中的逐步回歸方法對初始特征集進一步選擇得到X特征集,其中使用F的概率為進入0.05,刪除0.1,然后在X特征集中抽取電視劇首播前就能獲取的特征作為Xb特征集。
[0017](五)、電視劇的排名預測
運用SPSS分析工具對X特征集和Xb特征集進行多元回歸計算得到兩個預測模型,并對預測模型加入了偏執(zhí)項和是否建立特定微博帳號,如果有建立特定微博帳號,則在SPSS分析工具計算的結果上加上有無特定微博帳號電視劇集均的差值。
[0018]在加入偏執(zhí)項的多元回歸計算中,由Xb特征集計算得到能在電視劇首播前預測集均點播量的預測模型I由X特征集計算得到能在電視劇首播后預測集均點播量的預測模
型II,預測模型II可以在電視劇首播后進行逐步的修正。預測模型I和預測模型II得到的預測集均點播量,然后根據(jù)預測集均點播量的大小進行電視劇的排名預測。實驗顯示:在測試數(shù)據(jù)集中最好的結果能達到R2=0.65,運用SPSS分析工具對電視劇點播量的真實排名與預測排名進行斯皮爾曼相關系數(shù)的計算,斯皮爾曼系數(shù)的大小及顯著性能說明預測的準確性,系數(shù)在(Tl之間,值越大預測的越準確。
[0019]以上只是對本發(fā)明作進一步的說明,并非用以限制本專利,凡為本發(fā)明等效實施,均應包含于本專利的權利要求范圍之內(nèi)。
【權利要求】
1.一種基于網(wǎng)絡數(shù)據(jù)的電視劇點播量預測方法,其特征在于以網(wǎng)絡爬蟲抓取電視劇首播前后與電視劇名相關的微博數(shù)量和搜索次數(shù)以及與電視劇相關數(shù)據(jù),將抓取的數(shù)據(jù)運用相關性分析和單變量線性回歸計算后建立初始特征集,然后對初始特征集采用逐步回歸法得到X特征集和Xb特征集,將X特征集和Xb特征集采用多元線性回歸法得到預測集均點播量,然后按預測值的大小進行電視劇的排名預測,具體預測按下述步驟進行: (一)、數(shù)據(jù)的抓取 a、通過網(wǎng)絡爬蟲抓取已經(jīng)結束熱播的若干部電視劇以及與電視劇對應的基本數(shù)據(jù); b、獲取微博排行榜中娛樂領域排名前100的用戶,然后根據(jù)關注關系,擴展用戶數(shù),并補全電視劇演員和各大衛(wèi)視的官方微博,并抓取這批用戶的微博數(shù)據(jù); (二 )、統(tǒng)計樣本 a、分析娛樂領域用戶的數(shù)據(jù),統(tǒng)計可能與電視劇相關因素為A微博數(shù)據(jù)樣本; b、統(tǒng)計若干部電視劇首播前一個月內(nèi)每周的電視劇名相關總微博數(shù)和首播后15天中每天的微博數(shù)為B微博數(shù)據(jù)樣本; C、統(tǒng)計百度指數(shù)中電視劇首播前一個月內(nèi)每周電視劇名被搜索的次數(shù)和首播后15天中每天搜索次數(shù)為搜索數(shù)據(jù)樣本; (三)、初始特征集的建立 a、使用SPSS分析工具對統(tǒng)計樣本中a步驟的相關因素與電視劇集均點播量分別進行皮爾遜相關系數(shù)和斯皮爾曼相關系數(shù)的計算,在置信度為5%條件下,只要滿足其中一個相關性即為顯著相關因素; b、使用SPSS分析工具分別對電視劇首播前一個月內(nèi)每周的微博數(shù)量和首播后15天中每天的微博數(shù)量與電視劇首播前一個月內(nèi)每周被搜索的次數(shù)與首播后15天中每天被搜索的次數(shù)進行單變量線性回歸計算,得到每個變量對電視劇集均點播量的R2值,將每個時間點微博與搜索數(shù)據(jù)中較大的R2值作為特征因素,其中因變量為電視劇集均點播量,自變量為每個時間點的單變量; C、將上述a步驟中的顯著相關因素與b步驟中較大的R2值組成初始特征集; (四)、X和Xb特征集的建立 運用SPSS分析工具對初始特征集進行逐步回歸計算得到X特征集,從X特征集中抽取電視劇首播前就能獲取的特征得到Xb特征集; (五)、電視劇的排名預測 運用SPSS分析工具對X特征集和Xb特征集進行多元回歸計算得到兩個預測模型,并對預測模型加入了偏執(zhí)項和是否建立特定微博帳號,如果有建立特定微博帳號,則在SPSS分析工具計算的結果上加上有無特定微博帳號電視劇集均的差值;由Xb特征集經(jīng)加入偏執(zhí)項的多元回歸計算得到能在電視劇首播前預測集均點播量的預測模型;由X特征集經(jīng)加入偏執(zhí)項的多元回歸計算得到能在電視劇首播后預測集均點播量的預測模型II,然后根據(jù)預測值的大小進行電視劇的排名預測;所述預測模型Π為電視劇首播后進行逐步修正的預測結果。
【文檔編號】G06F17/30GK104035994SQ201410255632
【公開日】2014年9月10日 申請日期:2014年6月11日 優(yōu)先權日:2014年6月11日
【發(fā)明者】胡琴敏, 徐曉楓, 陳國梁, 杜澤宇, 羅念, 鐘哲凡 申請人:華東師范大學