两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種音樂資源聚合搜索的方法

文檔序號:9524266閱讀:1120來源:國知局
一種音樂資源聚合搜索的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計算機(jī)信息檢索領(lǐng)域,具體是一種音樂資源聚合捜索的方法。
【背景技術(shù)】
[0002] 傳統(tǒng)捜索引擎的技術(shù)雖然在日趨完善,并作為一個強(qiáng)大的功能模塊也被應(yīng)用在了 多種類型的網(wǎng)站中,如音樂網(wǎng)站的檢索功能等,但由于用戶的需求的不斷發(fā)展和細(xì)化,傳統(tǒng) 的捜索引擎不足W滿足特定用戶群體,如音樂信息捜索類用戶的捜索需求,因此在音樂信 息采集和捜索運(yùn)一特定領(lǐng)域,傳統(tǒng)捜索引擎凸顯出了許多不足之處:
[0003] (1)傳統(tǒng)的捜索引擎由于只是單方面的從互聯(lián)網(wǎng)上爬取信息,所有信息均來自于 互聯(lián)網(wǎng);而主流的音樂網(wǎng)站對音樂的檢索資源均來自于網(wǎng)站本地數(shù)據(jù)庫的資源,不包含任 何互聯(lián)網(wǎng)的信息,包含信息量相對較少,而且信息更新速度較低。二者均未實(shí)現(xiàn)對于音樂資 源的聚合式捜索,即本地媒體資源與互聯(lián)網(wǎng)信息的聚合捜索,導(dǎo)致捜索的信息淺表片面,無 法同時滿足音樂用戶對于信息的專業(yè)性和實(shí)時性的需求。
[0004] (2)在用戶需求特性方面,捜索引擎的用戶群體基數(shù)較大,個體之間的需求層次差 異也比較明顯,因此對于捜索結(jié)果的側(cè)重點(diǎn)也不盡相同。比如,一個藝人既是音樂人又是作 家,用戶想要側(cè)重捜索運(yùn)個藝人作為音樂人身份的相關(guān)信息,但傳統(tǒng)捜索引擎的捜索結(jié)果 W廣度捜索為主,呈現(xiàn)出的結(jié)果既有該藝人作為音樂人身份的信息,又有作為作家身份的 信息,運(yùn)就導(dǎo)致捜索結(jié)果部分無法滿足用戶深度垂直捜索的需求。 陽0化](3)由于各國的語言差異,分詞也成為了一個重要的障礙。例如,中文句子是由多 個單字組成,單字之間沒有英文中的空格標(biāo)識,并且中文用戶在輸入捜索關(guān)鍵詞時,也很少 有輸入空格將關(guān)鍵詞進(jìn)行劃分的習(xí)慣。因此,中文分詞及語義識別成為中文捜索引擎開發(fā) 改進(jìn)的重要課題,運(yùn)不僅關(guān)系到關(guān)鍵詞的提取,還會影響整個捜索結(jié)果的查準(zhǔn)率。
[0006] (4)在信息源與目標(biāo)頁面特性方面,互聯(lián)網(wǎng)上目前存在大量的僵尸網(wǎng)絡(luò)、重復(fù)信 息、廣告信息,隨著自助建站成本的降低,有不少網(wǎng)站往往采用采集別人站點(diǎn)的內(nèi)容加上廣 告,直接投入到了互聯(lián)網(wǎng)使用的情況,運(yùn)些網(wǎng)頁中充斥著大量冗余信息干擾著捜索引擎的 工作,例如網(wǎng)頁的U化超鏈接、編輯人員的注釋、版權(quán)聲明、廣告信息等。同時,運(yùn)些冗余信 息也會影響捜索結(jié)果內(nèi)容的呈現(xiàn),譬如用戶目標(biāo)捜索某一關(guān)鍵字,在關(guān)鍵字出現(xiàn)的地方周 圍可能存在冗余信息,運(yùn)就會導(dǎo)致冗余信息和關(guān)鍵字一并呈現(xiàn)給用戶,致使捜索結(jié)果的查 準(zhǔn)率大幅降低。
[0007] (5)傳統(tǒng)的捜索引擎由于信息量過大,對于關(guān)鍵詞設(shè)及的各個領(lǐng)域的側(cè)重點(diǎn)無法 有效權(quán)衡,比如一個關(guān)鍵詞可能設(shè)及音樂、政治、經(jīng)濟(jì)等領(lǐng)域,相對于音樂捜索類用戶,排在 最前面的不一定是音樂領(lǐng)域的結(jié)果,運(yùn)就導(dǎo)致了捜索結(jié)果無法滿足特定用戶的排序需要; 此外,有些商業(yè)捜索引擎可能出于利益需要,將自己本網(wǎng)站的結(jié)果強(qiáng)制至于靠前位置或采 取競價排序等方式,運(yùn)些排序方式都極大地降低了用戶捜索的查準(zhǔn)率和公平性。
[0008] (6)由于某些網(wǎng)站存在動態(tài)的U化,傳統(tǒng)的捜索引擎中在捜索時可能誤W為不同 的U化隸屬于不同的網(wǎng)頁,因而導(dǎo)致捜索的結(jié)果中出現(xiàn)雷同重復(fù)的網(wǎng)頁,內(nèi)容大致相同, u化不同,運(yùn)也會降低捜索引擎查準(zhǔn)率,使得捜索引擎性能降低。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明的目的在于提供一種專業(yè)性強(qiáng)、查準(zhǔn)率高的音樂資源聚合捜索的方法,W 解決上述【背景技術(shù)】中提出的問題。
[0010] 為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
[0011] 一種音樂資源聚合捜索的方法,具體步驟如下:
[0012] (1)將互聯(lián)網(wǎng)中的音樂信息進(jìn)行爬??;
[0013] (2)在爬取過程中進(jìn)行U化過濾、中文分詞處理,并分別對互聯(lián)網(wǎng)中的音樂信息及 本地庫的音樂資源建立全文索引;
[0014] 做在檢索時W改進(jìn)后BM25算法進(jìn)行聚合捜索,將互聯(lián)網(wǎng)中的音樂資源與本地庫 中的音樂資源聚合后呈現(xiàn)給用戶。
[0015] 作為本發(fā)明進(jìn)一步的方案:所述互聯(lián)網(wǎng)中的音樂資源來自于互聯(lián)網(wǎng)音樂信息模 塊,所述本地庫中的音樂資源來自于本地庫音樂資源模塊,所述互聯(lián)網(wǎng)音樂信息模塊和本 地庫音樂資源模塊均包括聚合捜索模塊,所述互聯(lián)網(wǎng)音樂信息模塊還包括互聯(lián)網(wǎng)信息爬取 模塊、中文分詞模塊、網(wǎng)頁U化過濾模塊、網(wǎng)頁去重模塊和改進(jìn)的BM25捜索結(jié)果排序算法模 塊,所述本地庫音樂資源模塊還包括全文索引模塊。
[0016] 作為本發(fā)明進(jìn)一步的方案:所述步驟(1)中進(jìn)行音樂信息爬取的具體步驟如下:
[0017] 1)首先注入初始的U化地址并建立爬取信息列表,讓網(wǎng)頁爬取模塊有根地址做起 占.
[0018] 2)W初始的U化為依據(jù),對每個網(wǎng)頁的外連接進(jìn)行篩選,選取鏈入數(shù)高的網(wǎng)頁作 為有限爬取對象進(jìn)行爬?。?br>[0019] 3)在爬取時對U化進(jìn)行解析,并進(jìn)行U化過濾、中文分詞處理;
[0020] 4)將處理之后的網(wǎng)頁數(shù)據(jù)存入互聯(lián)網(wǎng)音樂信息模塊,并檢查是否為爬取的最后一 層,若不是繼續(xù)執(zhí)行步驟2),若是則執(zhí)行步驟5);
[0021] 5)對所有存入互聯(lián)網(wǎng)音樂信息模塊的數(shù)據(jù)統(tǒng)一建立全文倒排索引。
[0022] 作為本發(fā)明再進(jìn)一步的方案:所述改進(jìn)的BM25捜索結(jié)果排序算法模塊的公式模 型如下:
[0023]
[0024] 其中,
[00巧]fieldNo;rm(t,d) =doc.ge1:Boost0 ·lengthNorm·nf.ge1:Boost0 (公式 2), 陽0%] 其中
(公式3),
[0027] numTerms表示每個文檔中詞項的數(shù)量。
[0028] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0029] 本發(fā)明能夠針對音樂捜索類的用戶運(yùn)一特定捜索群體,將互聯(lián)網(wǎng)上的音樂方面的 相關(guān)信息W及本地媒體數(shù)據(jù)庫的資源進(jìn)行聚合,并且對捜索結(jié)果進(jìn)行捜索結(jié)果排序優(yōu)化、 捜索結(jié)果冗余信息過濾和對關(guān)鍵字進(jìn)行中文分詞等處理,W-種更加專業(yè)、更加全面、更加 清晰、更加優(yōu)化的捜索結(jié)果呈獻(xiàn)給用戶,能夠極大地提高音樂捜索類運(yùn)一特定類型用戶捜 索結(jié)果的專業(yè)性、查準(zhǔn)率W及滿意度。
【附圖說明】
[0030] 圖1為本發(fā)明的模塊示意圖。
[0031] 圖2為本發(fā)明進(jìn)行音樂信息爬取的流程示意圖。
[0032] 圖3為本發(fā)明中i壯改進(jìn)前后的實(shí)驗對比圖。
[0033] 圖4為本發(fā)明中tf改進(jìn)前后的實(shí)驗對比圖。
[0034] 圖5為本發(fā)明中l(wèi)engthNorm改進(jìn)前后的實(shí)驗對比圖。
【具體實(shí)施方式】
[0035] 下面結(jié)合【具體實(shí)施方式】對本專利的技術(shù)方案作進(jìn)一步詳細(xì)地說明。
[0036] 請參閱圖1-5,一種音樂資源聚合捜索的方法,具體步驟如下:
[0037] (1)將互聯(lián)網(wǎng)中的音樂信息進(jìn)行爬?。?br>[00測 似在爬取過程中進(jìn)行U化過濾、中文分詞處理,并分別對互聯(lián)網(wǎng)中的音樂信息及 本地庫的音樂資源建立全文索引;
[0039] (3)在檢索時W改進(jìn)后BM25算法進(jìn)行聚合捜索,將互聯(lián)網(wǎng)中的音樂資源與本地庫 中的音樂資源聚合后呈現(xiàn)給用戶。
[0040] 所述互聯(lián)網(wǎng)中的音樂資源來自于互聯(lián)網(wǎng)音樂信息模塊,所述本地庫中的音樂資源 來自于本地庫音樂資源模塊,所述互聯(lián)網(wǎng)音樂信息模塊和本地庫音樂資源模塊均包括聚合 捜索模塊,所述互聯(lián)網(wǎng)音樂信息模塊還包括互聯(lián)網(wǎng)信息爬取模塊、中文分詞模塊、網(wǎng)頁U化 過濾模塊、網(wǎng)頁去重模塊和改進(jìn)的BM25捜索結(jié)果排序算法模塊,所述本地庫音樂資源模塊 還包括全文索引模塊。
[0041] 所述步驟(1)中進(jìn)行音樂信息爬取的具體步驟如下:
[0042] 1)首先注
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
福贡县| 遵义市| 安西县| 阳东县| 庆阳市| 中牟县| 汽车| 日土县| 略阳县| 如皋市| 高雄市| 花垣县| 延津县| 东乡| 乐安县| 宝丰县| 荔波县| 庆阳市| 仪陇县| 吐鲁番市| 新巴尔虎右旗| 重庆市| 盐津县| 博湖县| 红桥区| 古蔺县| 常宁市| 衡阳市| 班戈县| 枣阳市| 邹平县| 伊宁市| 上林县| 金门县| 镇远县| 沅江市| 沈丘县| 芦山县| 基隆市| 酒泉市| 洪雅县|