用戶興趣標簽分類的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種用戶興趣標簽分類的方法及裝置。
【背景技術(shù)】
[0002] 隨著Twitter、微博、QQ等網(wǎng)絡社區(qū)的興起,開放平臺已經(jīng)成為互聯(lián)網(wǎng)應用的核 心組成部分。開放平臺擁有海量的用戶和豐富的用戶信息,應用開發(fā)者或第三方網(wǎng)站(后 續(xù)統(tǒng)稱為第三方)可以在開放協(xié)議許可的條件下,通過平臺的應用程序接口(Application ProgramInterface,簡稱API)從開放平臺獲取這些用戶信息,分析用戶興趣、好友關(guān)系等 價值信息,實現(xiàn)開放平臺與第三方之間的信息共享。
[0003] 開放平臺從起始到現(xiàn)在只有數(shù)年的時間,因此目前第三方引入開放平臺用戶信息 輔方式還相對簡單。對于用戶性別、用戶年齡等信息,各個網(wǎng)站的表達方式基本一致,第三 方可以直接從開放平臺引入,而對于用戶興趣這類信息,由于各個網(wǎng)站的興趣分類體系互 不相同(包括分類方式和分類粒度),因此第三方往往不能對開放平臺的用戶興趣信息直接 進行引入。例如在開放平臺中的用戶興趣分類為電影、美食、足球、互聯(lián)網(wǎng),而某電影類第三 方垂直網(wǎng)站中的用戶興趣則分類為驚悚、搞笑、科幻,對于開放平臺中的用戶興趣信息,該 垂直網(wǎng)站無法直接進行引入。
[0004] 對于第三方無法直接引入開放平臺中用戶興趣信息的問題,目前主要存在下述三 種解決方案:1)通過人工分類的方式實現(xiàn)興趣分類過渡;2)強制引入開放平臺的用戶興趣 信息,進行模糊匹配;3)丟棄無法直接引入的用戶興趣信息。
[0005] 在上述引入用戶興趣信息的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題: 第一,對于人工分類的方式,由于開放平臺的用戶信息量極大,對于第三方而言數(shù)據(jù)處理的 人工成本過高并且效率低下,不適應大數(shù)據(jù)時代的發(fā)展趨勢。第二、對于強制引入的方式, 通常同一個用戶的興趣愛好是多方面的,如果開放平臺中的興趣分類與第三方中的興趣分 類不同,則強制引入用戶興趣信息會導致興趣分類的準確性下降。例如在QQ空間這類強關(guān) 系社區(qū)的開放平臺中,用戶展現(xiàn)出的興趣通常為日常生活類的興趣,如美食、電影等,而在 某戶外類第三方垂直網(wǎng)站中興趣分類為登山、徒步、野營等。開放平臺中的用戶興趣信息對 于第三方而言顯然缺少參考價值,容易使第三方錯誤的對用戶進行興趣分類,同時會引入 大量毫無意義的用戶興趣信息。第三、丟棄用戶興趣信息的方式會使開放平臺中的用戶興 趣信息無法被充分利用,導致資源利用率過低。通常開放平臺能夠提供豐富全面的用戶興 趣信息,開放平臺與第三方之間存在的分類體系差異使得開放平臺中有價值的用戶興趣信 息被第三方忽略。例如,在微博開放平臺中用戶興趣會被分類為電影、戶外、美食等,在某攝 影類第三方垂直網(wǎng)站中用戶興趣會被分類為器材、人像、風景等。按照一般常識,喜歡戶外 運動的用戶大都喜愛攝影,并且通常涉及風景類攝影,開放平臺中戶外類的用戶興趣信息 可以被分類到第三方中的風景類標簽中,而這部分有價值的用戶興趣信息則被第三方丟棄 掉了。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實施例提供一種用戶興趣標簽分類的方法及裝置,能夠解決開放平臺與第 三方分類體系不一致時,開放平臺的用戶信息無法被第三方充分且準確利用的問題。
[0007] -方面,本發(fā)明實施例提供了一種用戶興趣標簽分類的方法,包括:
[0008] 獲取活躍用戶的訓練數(shù)據(jù),所述訓練數(shù)據(jù)包括所述活躍用戶的第一站點數(shù)據(jù)以及 所述活躍用戶在第二站點中選擇的用戶興趣標簽;
[0009] 對第二站點中的第二站點興趣標簽進行二元標簽轉(zhuǎn)換,得到二分類器;
[0010] 根據(jù)所述用戶興趣標簽以及所述二分類器,建立所述第一站點數(shù)據(jù)與所述第二站 點興趣標簽之間的關(guān)聯(lián)關(guān)系;
[0011] 通過二元分解算法以及所述第一站點數(shù)據(jù)與所述第二站點興趣標簽之間的關(guān)聯(lián) 關(guān)系,訓練得到用戶興趣標簽分類模型;
[0012] 獲取新用戶的第一站點數(shù)據(jù);
[0013] 根據(jù)所述新用戶的第一站點數(shù)據(jù)以及所述用戶興趣標簽分類模型,計算獲得所述 新用戶在所述第二站點中的用戶興趣標簽。
[0014] 另一方面,本發(fā)明實施例還提供了一種用戶興趣標簽分類的裝置,包括:
[0015] 數(shù)據(jù)獲取單元,用于獲取活躍用戶的訓練數(shù)據(jù),所述訓練數(shù)據(jù)包括所述活躍用戶 的第一站點數(shù)據(jù)以及所述活躍用戶在第二站點中選擇的用戶興趣標簽;
[0016] 標簽轉(zhuǎn)換單元,用于對所述數(shù)據(jù)獲取單元獲取的第二站點中的第二站點興趣標簽 進行二元標簽轉(zhuǎn)換,得到二分類器;
[0017] 關(guān)系建立單元,用于根據(jù)所述數(shù)據(jù)獲取單元獲取的所述用戶興趣標簽以及所述標 簽轉(zhuǎn)換單元得到的所述二分類器,建立所述第一站點數(shù)據(jù)與所述第二站點興趣標簽之間的 關(guān)聯(lián)關(guān)系;
[0018] 模型建立單元,用于通過二元分解算法以及所述關(guān)系建立單元建立的所述第一站 點數(shù)據(jù)與所述第二站點興趣標簽之間的關(guān)聯(lián)關(guān)系,訓練得到用戶興趣標簽分類模型;
[0019] 所述數(shù)據(jù)獲取單元還用于獲取新用戶的第一站點數(shù)據(jù);
[0020] 標簽分類單元,用于根據(jù)所述數(shù)據(jù)獲取單元獲取的所述新用戶的第一站點數(shù)據(jù)以 及所述模型建立單元訓練得到的所述用戶興趣標簽分類模型,計算獲得所述新用戶在所述 第二站點中的用戶興趣標簽。
[0021] 本發(fā)明實施例提供的用戶興趣標簽分類的方法及裝置,能夠以在第二站點(例如 第三方站點)中選擇了用戶興趣標簽的活躍用戶數(shù)據(jù)作為訓練數(shù)據(jù),訓練得到由第一站點 數(shù)據(jù)(例如開放平臺站點數(shù)據(jù))到第二站點中用戶興趣標簽的分類模型,然后對沒有在第二 站點中選擇用戶興趣標簽的新用戶進行第二站點的興趣預測。在訓練用戶興趣標簽分類模 型時,通過對第二站點興趣標簽進行二元標簽轉(zhuǎn)換的方式,將多標簽分類問題轉(zhuǎn)化為單標 簽分類問題,然后根據(jù)活躍用戶在第二站點中選擇的用戶興趣標簽以及二元標簽轉(zhuǎn)換得到 的二分類器,建立第一站點數(shù)據(jù)與第二站點興趣標簽之間的關(guān)聯(lián)關(guān)系。最后通過基于單標 簽分類的二元分解算法,訓練得到用戶興趣標簽分類模型。在對用戶進行興趣預測時,根據(jù) 新用戶的第一站點數(shù)據(jù)以及訓練得到的用戶興趣標簽分類模型,在第二站點中為新用戶進 行興趣標簽分類,從而實現(xiàn)第二站點中的用戶興趣標簽分類。本發(fā)明實施例提供的用戶興 趣標簽分類的方法及裝置,能夠解決開放平臺信息引入的準確性問題和適用性問題,與現(xiàn) 有技術(shù)中強制引入開放平臺的用戶興趣信息相比,可以在開放平臺與第三方兩者分類機制 不同的情況下,以活躍用戶的訓練信息作為關(guān)系參考,通過建立和使用用戶興趣標簽分類 模型,提高興趣標簽分類的準確性。此外與丟棄無法直接引入的用戶興趣信息相比,能夠更 加充分有效的利用開放平臺的數(shù)據(jù)信息。最后與人工分類的方式相比,可以極大提高興趣 標簽分類的效率和準確性,降低人工成本。與此同時,本發(fā)明實施例提供的用戶興趣標簽分 類的方法及裝置,使用二元分解法進行模型訓練,在保證訓練準確率的前提下,還可以保證 訓練和興趣標簽分類的速度,減少分類耗時,提高分類系統(tǒng)性能。
【附圖說明】
[0022] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0023] 圖1為本發(fā)明實施例中用戶興趣標簽分類的方法流程圖;
[0024] 圖2為本發(fā)明實施例中另一個用戶興趣標簽分類的方法流程圖;
[0025] 圖3為本發(fā)明實施例中第一站點數(shù)據(jù)的示意圖;
[002