微博首頁(yè)數(shù)據(jù)自動(dòng)推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種推薦方法,具體講涉及一種微博首頁(yè)數(shù)據(jù)自動(dòng)推薦方法。
【背景技術(shù)】
[0002]微博(Mic1blog)是近年來(lái)新興的一種網(wǎng)絡(luò)服務(wù),它是一個(gè)基于用戶關(guān)系的信息分享、傳播以及獲取平臺(tái)。用戶可以通過(guò)網(wǎng)絡(luò)、手機(jī)以及各種智能聯(lián)網(wǎng)的客戶端發(fā)送文字,并實(shí)現(xiàn)即時(shí)分享。微博具有使用簡(jiǎn)單便捷、支持開(kāi)放多平臺(tái)接入方式、消息更新傳播速度快等特點(diǎn),短短5年內(nèi)吸引了全球上億用戶,截止2011年上半年,中國(guó)的微博用戶已經(jīng)達(dá)到1.95億。微博比傳統(tǒng)的社交網(wǎng)絡(luò)具有更強(qiáng)的信息傳播能力和成員組織能力,這一獨(dú)特優(yōu)勢(shì)使其迅速成為當(dāng)前主要社會(huì)媒體之一,作為一種非常重要的消息來(lái)源和傳播途徑,在越來(lái)越多的社會(huì)事件中起到關(guān)鍵作用。
[0003]各式各樣的整合微博內(nèi)容的垂直服務(wù)如雨后春筍般冒起來(lái)。首頁(yè)的好壞取決于首頁(yè)數(shù)據(jù)的質(zhì)量。一個(gè)好的首頁(yè),可以提升整個(gè)服務(wù)的品質(zhì),展示整個(gè)微博直垂服務(wù)的內(nèi)容取向,引導(dǎo)、激發(fā)用戶興趣,提高網(wǎng)頁(yè)點(diǎn)擊率,因此一個(gè)好的首頁(yè)必不可少。目前的首頁(yè)數(shù)據(jù)推薦方法,主要依靠人工推薦,通過(guò)人工閱讀來(lái)發(fā)現(xiàn)最新最熱點(diǎn)的數(shù)據(jù),手工挑選或制作符合首頁(yè)設(shè)計(jì)的圖片和文字。
[0004]人工推薦的方法,不足之處就是成本高,時(shí)效性差,更新速度慢,內(nèi)容范疇窄。通過(guò)人工發(fā)現(xiàn)最新最熱數(shù)據(jù),投入人工的數(shù)量、閱讀的廣度和速度,決定了發(fā)現(xiàn)的速度和質(zhì)量,因此要最新、更好、縮短更新周期的首頁(yè)數(shù)據(jù),就要投入大量的人力,這便增加了成本。
【發(fā)明內(nèi)容】
[0005]針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出一種自動(dòng)推薦微博首頁(yè)數(shù)據(jù)的方法。根據(jù)微博特點(diǎn)以及用戶需求,分析統(tǒng)計(jì)數(shù)據(jù),自動(dòng)輪番推薦給首頁(yè)不同尺寸不同頻道的圖片和微博概要。節(jié)省人力和維護(hù)成本。
[0006]本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:
[0007]一種微博首頁(yè)數(shù)據(jù)自動(dòng)推薦方法,其改進(jìn)之處在于,所述方法包括
[0008](I)從海量微博中篩選出微博榜;
[0009](2)提取微博主題句,根據(jù)圖片大小提取相應(yīng)長(zhǎng)度的博文主題句;
[0010](3)對(duì)選出的與目標(biāo)圖片尺寸最接近的圖片進(jìn)行自動(dòng)裁剪。
[0011]優(yōu)選的,所述步驟(I)包括根據(jù)配置模板,按照數(shù)據(jù)量的顆粒度和外徑,從數(shù)據(jù)庫(kù)中讀取每個(gè)頻道帶圖片的微博數(shù)據(jù),得到每個(gè)頻道的數(shù)據(jù)集;依據(jù)微博發(fā)布時(shí)間和轉(zhuǎn)發(fā)數(shù),對(duì)數(shù)據(jù)集進(jìn)行倒排序,取最新最熱的前N名,得到各個(gè)頻道的微博榜ΤορΝ。
[0012]進(jìn)一步地,每篇微博包括一個(gè)節(jié)點(diǎn)存儲(chǔ),其節(jié)點(diǎn)內(nèi)容包括博文、圖片、博文發(fā)布時(shí)間和博文轉(zhuǎn)發(fā)數(shù)。
[0013]優(yōu)選的,所述步驟(2)包括從微博榜中依次循環(huán),取出節(jié)點(diǎn)中的博文,提取博文的主題句。
[0014]優(yōu)選的,所述步驟(2)包括
[0015](2.1)對(duì)博文進(jìn)行預(yù)處理;
[0016](2.2)切句,根據(jù)不同頻道的博文特征,對(duì)句子排序,選取排序第一的句子,記為s ;
[0017](2.3)計(jì)算句子長(zhǎng)度,記為len,len>wordi,則對(duì)s截句;wordi為主題i的長(zhǎng)度;
[0018](2.4)判斷的主題句是否有意義;
[0019](2.5)選取下一個(gè)節(jié)點(diǎn),重復(fù)步驟(2.1)-(2.4);
[0020](2.6)結(jié)束。
[0021]進(jìn)一步地,所述步驟(2.3)包括根據(jù)標(biāo)點(diǎn)符號(hào)的斷句進(jìn)行截取,標(biāo)點(diǎn)符號(hào)的優(yōu)先等級(jí)為:
[0022](a) “ο”
[0023](b) ‘‘!,,、“?,,
[0024](c) “ ; ”
[0025](d) “:,,
[0026](e) “, ”
[0027]保證成對(duì)出現(xiàn)的符號(hào)的完整性,出現(xiàn)半邊符號(hào),則截去。
[0028]進(jìn)一步地,所述步驟(2.4)包括所述判斷的主題句是否有意義,采取的方法為字?jǐn)?shù)判斷、中英文判斷和語(yǔ)氣詞判斷,無(wú)意義,則丟棄。
[0029]優(yōu)選的,所述步驟(3)包括根據(jù)步驟(2)得到的數(shù)據(jù)集,取出節(jié)點(diǎn)中的圖片,放入自動(dòng)篩選器,符合要求,則按照模板中的尺寸進(jìn)行自動(dòng)裁剪,否則取下一張圖片繼續(xù)篩選。
[0030]優(yōu)選的,所述步驟(3)包括
[0031](3.1)計(jì)算圖片的尺寸,記為size ;
[0032](3.2)判斷符合模板圖片i的數(shù)量是否已經(jīng)達(dá)到最大數(shù)量maxNumi,沒(méi)有達(dá)到,進(jìn)行步驟(3.3),達(dá)到,遍歷下一個(gè)模板圖片,循環(huán)步驟(3.2);若所有模板圖片的最大數(shù)量都已滿足,則跳到步驟(3.6);
[0033](3.3)計(jì)算size與模板圖片i的尺寸的匹配度,記為d ;
[0034](3.4)判斷匹配度d是否符合要求;iTl〈d〈T2,則進(jìn)行自動(dòng)裁剪,對(duì)符合模板圖片i的數(shù)量加1,跳到步驟(3.6);否則不符合要求,重復(fù)步驟(3.2)和(3.3),直到與模板中的所有種類的圖片都比較完畢;不符合要求,則繼續(xù)步驟(3.5),其中,T1、T2為閾值;
[0035](3.5)取下一張圖片,進(jìn)行步驟(3.1)到(3.4)。
[0036](3.6)結(jié)束。
[0037]與現(xiàn)有技術(shù)比,本發(fā)明的有益效果為:
[0038]本發(fā)明自動(dòng)向首頁(yè)推薦最新最熱的博文圖片和概要,來(lái)滿足用戶需求。采用自動(dòng)統(tǒng)計(jì)篩選的方法填充首頁(yè)數(shù)據(jù),提高了數(shù)據(jù)的新鮮度、廣度和更新周期,節(jié)省了人力和成本。經(jīng)人工檢測(cè),圖片篩選裁剪的質(zhì)量達(dá)到99.9%,微博概要的推薦的準(zhǔn)確率達(dá)到98%以上。具體體現(xiàn)在以下幾點(diǎn)
[0039]1、設(shè)計(jì)幾種不同的尺寸,以適應(yīng)各式各樣長(zhǎng)寬不一致的圖片規(guī)格;
[0040]2、靈活配置數(shù)據(jù)量顆粒和外徑的,提高了每個(gè)頻道都有圖片和概要推薦的概率。
[0041]3、綜合多種策略提取博文概要,配合圖片,自動(dòng)推薦給首頁(yè)。
[0042]4、設(shè)計(jì)圖片自動(dòng)篩選器,壓縮裁剪出重點(diǎn)突出、圖像清晰的高質(zhì)量圖片;
【附圖說(shuō)明】
[0043]圖1為本發(fā)明提供的一種微博首頁(yè)數(shù)據(jù)自動(dòng)推薦方法流程圖。
[0044]圖2為本發(fā)明提供的本發(fā)明單條數(shù)據(jù)操作流程圖。
【具體實(shí)施方式】
[0045]下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步的詳細(xì)說(shuō)明。(
【發(fā)明內(nèi)容】
盡量多補(bǔ)充詳細(xì)些,技術(shù)手段,技術(shù)方案,流程,達(dá)到公開(kāi)充分)
[0046]本發(fā)明的結(jié)構(gòu)圖如圖1所示,主要分三大模塊。第一個(gè)模塊,從海量微博中篩選出前幾名,得到最新最熱的微博榜(TopN);第二個(gè)模塊,提取微博主題句,根據(jù)圖片大小提取相應(yīng)長(zhǎng)度的博文主題句(因?yàn)橹黝}句是鑲嵌在圖片里顯示,所以圖片的大小決定了主題句的長(zhǎng)短);第三個(gè)模塊,圖片自動(dòng)篩選器,選出與目標(biāo)圖片尺寸最接近的圖片進(jìn)行自動(dòng)裁剪。單條數(shù)據(jù)操作流程圖如圖2所示。實(shí)施步驟如下:
[0047]配置模板:
[0048]ZdpCfg下載器初始化文件的路徑
[0049]Haarcascades---圖片自動(dòng)裁剪類初始化文件路徑
[0050]IntervalSec---系統(tǒng)輪番推薦間隔時(shí)間
[0051]DisRptH不重復(fù)數(shù)據(jù)的時(shí)間窗
[0052]urlbak---url 的索引文件
[0053]tweetbak博文的索引文件
[0054]DBLoop數(shù)據(jù)量的外徑
[0055]DBCount數(shù)據(jù)量的顆粒度
[0056]OutPath生成首頁(yè)靜態(tài)頁(yè)的存放路徑
[0057]PicType---圖片種類個(gè)數(shù)
[0058]Widthi某種圖片i的寬