两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于視頻網(wǎng)站的主題類視頻自動采集方法

文檔序號:6376623閱讀:190來源:國知局
專利名稱:基于視頻網(wǎng)站的主題類視頻自動采集方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種主題類視頻自動采集方法,具體是一種基于視頻網(wǎng)站的主題類視頻自動采集方法。
背景技術(shù)
現(xiàn)行的搜索引擎都是基于用戶輸入的關(guān)鍵字進行信息查詢的文本搜索引擎。隨著多媒體技術(shù)的飛速發(fā)展、網(wǎng)絡(luò)通信能力的極大提高和計算機處理速度的不斷增長,Internet上的信息除了文本之外,還有大量的圖像、視頻、音頻、動畫和圖形等,對這些媒體類型的信息進行快速準確的檢索已經(jīng)成為人們的迫切需要。尤其是在Blog、TAG、SNS、RSS、 Wiki等社會軟件應用為代表的Web2. O出現(xiàn)以后,網(wǎng)絡(luò)視頻大量出現(xiàn),各大新聞網(wǎng)站紛紛建立在線新聞頻道,如CNTV ;大量視頻網(wǎng)站的出現(xiàn),如優(yōu)酷、酷6等。每天大量的視頻被網(wǎng)友、新聞媒體上傳,用戶只能從視頻網(wǎng)站中去搜索查看,但是如果想要收藏某一類的視頻,那么如果只是人為的去操作下載,就會有很大的阻礙。

發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)的不足,提供一種基于文本分析的面向視頻網(wǎng)站的互聯(lián)網(wǎng)視頻搜索方法。本發(fā)明方法具體包括以下步驟
(I)提取視頻網(wǎng)站主題框架。(2)選定主題及采集相應主題的視頻播放URL。(3)視頻播放URL轉(zhuǎn)化為視頻下載URL,普通頁面URL分析獲取URL,將其放入隊列。(4)根據(jù)視頻下載URL下載視頻并存儲。所述的提取視頻網(wǎng)站主題框架,包括如下步驟
A)在數(shù)據(jù)庫中建立一張表 WebsiteTree,包含 Id、Url> WebsiteName> ParentIcU Level這5個字段,其中Id為主鍵。B)分析視頻網(wǎng)站首頁源代碼,利用正則表達式獲取導航欄,包括URL、主題名;記錄該主題屬于哪一類別,屬于第幾級主題,并將信息存儲于數(shù)據(jù)庫表WebsiteTree。C)對于提取的主題相應頁面的源碼進行分析,如果還有小類,則跳轉(zhuǎn)至步驟B),若沒有,則執(zhí)行步驟D)。D)根據(jù)WebsiteTree表中的信息構(gòu)建視頻網(wǎng)站主題框架。所述的選定主題及采集相應主題的視頻播放URL,包括如下步驟
E)用戶從主題框架中選擇主題。F)分析該主題的頁面源代碼,利用正則表達式獲取視頻播放URL和普通頁面URL,放入URL隊列;隊列的特點是先進先出,對于先放入隊列的URL先進行分析。所述的視頻播放URL轉(zhuǎn)化為視頻下載URL,普通頁面URL分析獲取URL,將其放入隊列,包括如下步驟
G)設(shè)置一個最大分析頁面線程并發(fā)數(shù),開啟線程,線程依次訪問URL隊列中的信息。H)線程從URL隊列中獲取一個URL,若該URL是視頻播放URL,則將其與“http: //WWW. flvcd. com/parse. php kw=”字符串連接,并獲取該地址的源代碼;利用正則表達式從該源代碼中獲取該播放URL的下載地址。I)若是普通頁面URL,則獲取該頁面源代碼,分析并提取URL,如果該URL沒有被提取過,則放入URL隊列,否則將其丟棄。J)當H)中所獲取的URL頁面分析完成,線程自動釋放,并再次從URL隊列中獲取一個URL進行重復H)、I)操作,直到URL隊列分析完成停止。所述的根據(jù)視頻下載URL下載視頻并存儲,包括如下步驟
K)在數(shù)據(jù)庫中建立一張表 VideoInf,包含 Id、Url、Title、Tag、Comments、UploadUser、UploadTime> Clickrate、CommentCount> FileSize 這 10 個字段,其中 Id 為主鍵。L)設(shè)置一個最大下載線程并發(fā)數(shù),開啟線程,線程依次等待視頻下載的命令。M)線程接受視頻下載URL,截取下載URL字符串中最后一個’ /’之后的字符串作為文件名,并新建下載,將視頻存儲于磁盤。N)將視頻的詳細信息存儲于數(shù)據(jù)庫表VideoInf表中。O)當視頻下載完成,線程釋放,等待下一個視頻下載的命令。本發(fā)明的有益效果
第一,由于本發(fā)明設(shè)計了視頻網(wǎng)站的主題類提取及框架顯示,所以能更容易解決用戶需要下載的類別,提高下載的準確性。第二,由于本發(fā)明設(shè)計了多線程分析視頻播放URL轉(zhuǎn)化為視頻下載URL并將視頻進行下載,所以能更容易解決多個視頻同時下載的問題。第三,由于本發(fā)明設(shè)計了獲取視頻下載URL后自動新建下載,不需要調(diào)用其他下載器進行人為的干預,所以能更容易解決自動下載視頻的技術(shù)問題。


圖1為視頻米集流程 圖2為多線程視頻下載流程 圖3為視頻信息數(shù)據(jù)庫記錄 圖4為優(yōu)酷網(wǎng)站中一部分主題框架圖。
具體實施例方式以下結(jié)合附圖對本發(fā)明作進一步說明。下面結(jié)合附圖,對本發(fā)明實現(xiàn)用戶按所選主題下載視頻所采取的技術(shù)方案做進一步說明
1、在數(shù)據(jù)庫中建立一張表 WebsiteTree,包含 Id、Url、WebsiteName、ParentIcULevel這5個字段,用于保存視頻網(wǎng)站的主題框架。其中Id(int)代表主題的編號并且是該表的主鍵,Url(varchar)代表主題的Url地址,WebsiteName (varchar)代表主題名,ParentId(int)代表該主題上一級主題的編號,Level (tinyint)代表該主題是哪一級主題。在數(shù)據(jù)庫中建立一張新表 VideoInf,包含 Id、Url、Title、Tag、Comments、UploadUser、UpIoadTime>Clickrate>CommentCount>FileSize 這 10 個 字段,用于保存視頻的詳細信息。其中Id (int)代表下載視頻的編號并且是該表的主鍵,Url (varchar)代表視頻的Url地址,Title (varchar)代表視頻的標題,Tag (varchar)代表視頻的標簽,Comments (varchar)代表視頻的評論、UploadUser (varchar)代表視頻的上傳用戶、UploadTime (datetime)代表視頻的上傳時間、Clickrate (int)代表視頻的點擊量、CommentCount (int)代表視頻的評論數(shù)、FileSize (int)代表視頻的文件大小。2、下面以優(yōu)酷為例,獲取優(yōu)酷視頻網(wǎng)站的一部分主題框架(如表I和圖4所示)。根據(jù)首頁URL頁面源碼,通過正則表達式可以獲取導航欄信息,并將導航欄中的主題名、對應的URL,以及ParentId設(shè)為I, Level設(shè)為I,存儲到WebsiteTree表中。再將這些Level為I的主題Url的頁面重新分析,獲取他們相應的子導航欄信息,并將Level進行加I操作,分析頁面的URL的Id作為ParentId,存儲到WebsiteTree表中。分析每一個主題URL頁面,直到該URL頁面是最后一級主題結(jié)束。表I優(yōu)酷網(wǎng)站一部分主題信息表
權(quán)利要求
1.基于視頻網(wǎng)站的主題類視頻自動采集方法,通過對視頻網(wǎng)站主題類的選取,并進行準確下載該主題視頻,其特征在于包括如下步驟 (1)提取視頻網(wǎng)站主題框架; (2)選定主題及采集相應主題的視頻播放URL; (3)視頻播放URL轉(zhuǎn)化為視頻下載URL,普通頁面URL分析獲取URL,將其放入隊列; (4)根據(jù)視頻下載URL下載視頻并存儲。
2.根據(jù)權(quán)利要求I所述的基于視頻網(wǎng)站的主題類視頻自動采集方法,其特征是提取視頻網(wǎng)站主題框架,包括如下步驟 A)在數(shù)據(jù)庫中建立一張表WebsiteTree,包含 Id、Url> WebsiteName> ParentIcU Level這5個字段,其中Id為主鍵; B)分析視頻網(wǎng)站首頁源代碼,利用正則表達式獲取導航欄,包括URL、主題名;記錄該主題屬于哪一類別,屬于第幾級主題,并將信息存儲于數(shù)據(jù)庫表WebsiteTree ; C)對于提取的主題相應頁面的源碼進行分析,如果還有小類,則跳轉(zhuǎn)至步驟B),若沒有,則執(zhí)行步驟D ); D)根據(jù)WebsiteTree表中的信息構(gòu)建視頻網(wǎng)站主題框架。
3.根據(jù)權(quán)利要求I所述的基于視頻網(wǎng)站的主題類視頻自動采集方法,其特征是選定主題及采集相應主題的視頻播放URL,包括如下步驟 E)用戶從主題框架中選擇主題; F)分析該主題的頁面源代碼,利用正則表達式獲取視頻播放URL和普通頁面URL,放入URL隊列;隊列的特點是先進先出,對于先放入隊列的URL先進行分析。
4.根據(jù)權(quán)利要求I所述的基于視頻網(wǎng)站的主題類視頻自動采集方法,其特征是視頻播放URL轉(zhuǎn)化為視頻下載URL,普通頁面URL分析獲取URL,將其放入隊列,包括如下步驟 G)設(shè)置一個最大分析頁面線程并發(fā)數(shù),開啟線程,線程依次訪問URL隊列中的信息; H)線程從URL隊列中獲取一個URL,若該URL是視頻播放URL,則將其與“http://www.flvcd. com/parse. php kw=”字符串連接,并獲取該地址的源代碼;利用正則表達式從該源代碼中獲取該播放URL的下載地址; I)若是普通頁面URL,則獲取該頁面源代碼,分析并提取URL,如果該URL沒有被提取過,則放入URL隊列,否則將其丟棄; J)當H)中所獲取的URL頁面分析完成,線程自動釋放,并再次從URL隊列中獲取一個URL進行重復H)、I)操作,直到URL隊列分析完成停止。
5.根據(jù)權(quán)利要求I所述的基于視頻網(wǎng)站的主題類視頻自動采集方法,其特征是根據(jù)視頻下載URL下載視頻并存儲,包括如下步驟 K)在數(shù)據(jù)庫中建立一張表 VideoInf,包含 Id、Url、Title、Tag、Comments、UploadUser、UploadTime、Clickrate、CommentCount> FileSize 這 10 個字段,其中 Id 為主鍵; L)設(shè)置一個最大下載線程并發(fā)數(shù),開啟線程,線程依次等待視頻下載的命令; M)線程接受視頻下載URL,截取下載URL字符串中最后一個’ Γ之后的字符串作為文件名,并新建下載,將視頻存儲于磁盤; N)將視頻的詳細信息存儲于數(shù)據(jù)庫表VideoInf表中; O)當視頻下載完成,線程釋放,等待下一個視頻下載的命令。
全文摘要
本發(fā)明涉及一種基于視頻網(wǎng)站的主題類視頻自動采集方法。現(xiàn)行的搜索引擎都是基于用戶輸入的關(guān)鍵字進行信息查詢的文本搜索引擎。本發(fā)明首先提取視頻網(wǎng)站主題框架。然后選定主題及采集相應主題的視頻播放URL。其次視頻播放URL轉(zhuǎn)化為視頻下載URL,普通頁面URL分析獲取URL,將其放入隊列。最后根據(jù)視頻下載URL下載視頻并存儲。由于本發(fā)明設(shè)計了視頻網(wǎng)站的主題類提取及框架顯示,所以能更容易解決用戶需要下載的類別,提高下載的準確性。
文檔編號G06F17/30GK102880674SQ20121033252
公開日2013年1月16日 申請日期2012年9月10日 優(yōu)先權(quán)日2012年9月10日
發(fā)明者姜明, 陳嬋, 沈幸峰, 王興起, 張旻, 湯景凡, 胡宏宇 申請人:杭州電子科技大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宿州市| 巧家县| 拉孜县| 许昌县| 元阳县| 山丹县| 宜城市| 长汀县| 云林县| 道孚县| 克山县| 驻马店市| 天门市| 肥乡县| 上高县| 西充县| 扶余县| 阿巴嘎旗| 沅陵县| 南乐县| 广西| 平顺县| 基隆市| 邳州市| 漳浦县| 乌兰察布市| 瑞金市| 宝清县| 顺平县| 仁化县| 马边| 新龙县| 全南县| 柳河县| 钦州市| 库尔勒市| 屏南县| 密云县| 株洲县| 衡阳县| 井陉县|