两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于社交網(wǎng)絡(luò)的對(duì)象分類方法及裝置的制造方法

文檔序號(hào):9304560閱讀:248來(lái)源:國(guó)知局
基于社交網(wǎng)絡(luò)的對(duì)象分類方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種基于社交網(wǎng)絡(luò)的對(duì)象分類方法及裝 置。
【背景技術(shù)】
[0002] 社交網(wǎng)絡(luò)通常具有龐大的用戶群,這些用戶相互交流分享形成很多群組。由于用 戶有不同的興趣,因此他們相互形成的群組也有不同的偏好,譬如〃籃球〃類群,"小區(qū)〃類 群,"瑜伽"類群等。用戶要從這海量的數(shù)據(jù)中找到與自己有類似興趣的用戶或者相似偏 好的群組是相當(dāng)困難的。因此急需一種能夠自動(dòng)地把興趣相同的用戶或者話題相似的群組 進(jìn)行整理歸類的聚類方法。
[0003] 在傳統(tǒng)的對(duì)用戶或者群組進(jìn)行整理歸類的聚類方法中,首先把每一個(gè)用戶信息或 每一個(gè)群組信息用0/1表示方法(即對(duì)于每條用戶信息或群組信息所對(duì)應(yīng)的特征信息,如 果某些分詞在該特征信息中出現(xiàn),則將對(duì)應(yīng)的用于表示該分詞的向量值設(shè)置為1,否則將用 于表示該分詞的向量值設(shè)置為〇)表示成空間向量,該空間向量的維度為全部特征的總詞 數(shù);然后基于特征信息的空間向量利用分類器VSM(VectorSpaceModel,向量空間模型) 進(jìn)行聚類分析。
[0004] 在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問(wèn)題:由于用戶信息 和群組信息有數(shù)億的規(guī)模,空間向量的維度非常大,導(dǎo)致計(jì)算的時(shí)間復(fù)雜度與空間復(fù)雜度 都非常大,甚至還會(huì)嚴(yán)重?fù)p害到向量空間模型的處理效率以及性能。

【發(fā)明內(nèi)容】

[0005] 為了解決現(xiàn)有技術(shù)中由于用戶信息和群組信息有數(shù)億的規(guī)模,空間向量的維度非 常大,導(dǎo)致計(jì)算的時(shí)間復(fù)雜度與空間復(fù)雜度都非常大,甚至還會(huì)嚴(yán)重?fù)p害到向量空間模型 的處理效率以及性能的問(wèn)題,本發(fā)明實(shí)施例提供了一種基于社交網(wǎng)絡(luò)的對(duì)象分類方法及裝 置。所述技術(shù)方案如下:
[0006] 第一方面,提供了一種基于社交網(wǎng)絡(luò)的對(duì)象分類方法,所述方法包括:
[0007] 獲取對(duì)象的特征信息;
[0008] 將所述特征信息表示成語(yǔ)義向量,所述語(yǔ)義向量用于反映各個(gè)分詞在所述特征信 息中同時(shí)出現(xiàn)時(shí)的相關(guān)性特征;
[0009] 將所述對(duì)象的特征信息的語(yǔ)義向量輸入預(yù)定分類器,得到所述對(duì)象被分類后的初 始類別。
[0010] 第二方面,提供了一種基于社交網(wǎng)絡(luò)的對(duì)象分類裝置,所述裝置包括:
[0011] 第一獲取模塊,用于獲取對(duì)象的特征信息;
[0012] 表示模塊,用于將所述特征信息表示成語(yǔ)義向量,所述語(yǔ)義向量用于反映各個(gè)分 詞在所述特征信息中同時(shí)出現(xiàn)時(shí)的相關(guān)性特征;
[0013] 分類模塊,用于將所述對(duì)象的特征信息的語(yǔ)義向量輸入預(yù)定分類器,得到所述對(duì) 象被分類后的初始類別。
[0014] 本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是:
[0015] 通過(guò)將對(duì)象的特征信息表示成語(yǔ)義向量,將該語(yǔ)義向量輸入預(yù)定分類器,得到對(duì) 象被分類后的初始類別;解決了現(xiàn)有技術(shù)中由于用戶信息和群組信息有數(shù)億的規(guī)模,空間 向量的維度非常大,導(dǎo)致計(jì)算的時(shí)間復(fù)雜度與空間復(fù)雜度都非常大,甚至還會(huì)嚴(yán)重?fù)p害到 向量空間模型的處理效率以及性能的問(wèn)題;由于語(yǔ)義向量是用于反映各個(gè)分詞在特征信息 中同時(shí)出現(xiàn)時(shí)的相關(guān)性特征的向量,因此語(yǔ)義向量的維度遠(yuǎn)小于空間向量的維度,達(dá)到了 可以大大降低計(jì)算的復(fù)雜度,提高向量空間模型的處理效率以及性能的效果。
【附圖說(shuō)明】
[0016] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0017] 圖1是本發(fā)明一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對(duì)象分類方法的方法流程圖;
[0018] 圖2A是本發(fā)明另一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對(duì)象分類方法的方法流程 圖;
[0019] 圖2B是本發(fā)明一個(gè)實(shí)施例中提供的將特征信息表示成語(yǔ)義向量的方法的流程示 意圖;
[0020] 圖2C是本發(fā)明一個(gè)實(shí)施例中提供的確定與對(duì)象對(duì)應(yīng)的預(yù)定個(gè)數(shù)相似對(duì)象的方法 的流程示意圖;
[0021] 圖2D是本發(fā)明一個(gè)實(shí)施例中提供的二分圖的示意圖;
[0022] 圖3是本發(fā)明一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對(duì)象分類裝置的結(jié)構(gòu)示意圖;
[0023] 圖4是本發(fā)明另一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對(duì)象分類裝置的結(jié)構(gòu)示意 圖。
【具體實(shí)施方式】
[0024] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述。
[0025] 請(qǐng)參見(jiàn)圖1所示,其示出了本發(fā)明一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對(duì)象分類 方法的方法流程圖。該基于社交網(wǎng)絡(luò)的對(duì)象分類方法可以應(yīng)用于服務(wù)器或其他需要進(jìn)行分 類的設(shè)備中。該基于社交網(wǎng)絡(luò)的對(duì)象分類方法可以包括:
[0026] 101,獲取對(duì)象的特征信息;
[0027] 102,將特征信息表示成語(yǔ)義向量,語(yǔ)義向量用于反映各個(gè)分詞在特征信息中同時(shí) 出現(xiàn)時(shí)的相關(guān)性特征;
[0028] 103,將對(duì)象的特征信息的語(yǔ)義向量輸入預(yù)定分類器,得到對(duì)象被分類后的初始類 別。
[0029] 綜上所述,本發(fā)明實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對(duì)象分類方法,通過(guò)將對(duì)象的 特征信息表示成語(yǔ)義向量,將該語(yǔ)義向量輸入預(yù)定分類器,得到對(duì)象被分類后的初始類別; 解決了現(xiàn)有技術(shù)中由于用戶信息和群組信息有數(shù)億的規(guī)模,空間向量的維度非常大,導(dǎo)致 計(jì)算的時(shí)間復(fù)雜度與空間復(fù)雜度都非常大,甚至還會(huì)嚴(yán)重?fù)p害到向量空間模型的處理效率 以及性能的問(wèn)題;由于語(yǔ)義向量是用于反映各個(gè)分詞在特征信息中同時(shí)出現(xiàn)時(shí)的相關(guān)性特 征的向量,因此語(yǔ)義向量的維度遠(yuǎn)小于空間向量的維度,達(dá)到了可以大大降低計(jì)算的復(fù)雜 度,提高向量空間模型的處理效率以及性能的效果。
[0030] 請(qǐng)參見(jiàn)圖2A所示,其示出了本發(fā)明另一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對(duì)象 分類方法的方法流程圖。該基于社交網(wǎng)絡(luò)的對(duì)象分類方法可以應(yīng)用于服務(wù)器或其他需要進(jìn) 行分類的設(shè)備中。該基于社交網(wǎng)絡(luò)的對(duì)象分類方法可以包括:
[0031] 201,獲取對(duì)象的特征信息;
[0032] 這里所講的對(duì)象可以包括用戶和/或群組。通常群組中可以包含多個(gè)用戶,一個(gè) 用戶可以同時(shí)加入在多個(gè)群組中,也可以不存在于任何一個(gè)群組中。
[0033] 當(dāng)對(duì)象為用戶時(shí),對(duì)象的特征信息則可以為用戶信息,比如可以包括用戶名、用戶 的興趣信息、用戶發(fā)表的心情或說(shuō)說(shuō)內(nèi)容、用戶發(fā)表的日志等。特性信息可以包括文本信息 和/或非文本信息。
[0034] 當(dāng)對(duì)象為群組時(shí),對(duì)象的特征信息則可以為群組信息,比如可以包括群名稱等。
[0035] 202,將特征信息表示成語(yǔ)義向量;
[0036] 這里所講的語(yǔ)義向量可以用于反映各個(gè)分詞在特征信息中同時(shí)出現(xiàn)時(shí)的相關(guān)性 特征。通常來(lái)講,語(yǔ)義向量是利用預(yù)定數(shù)學(xué)模型為每個(gè)分詞尋找一個(gè)連續(xù)向量空間中的表 示,考慮到上下文語(yǔ)境,利用分詞之間在同一個(gè)語(yǔ)境中出現(xiàn)的頻率來(lái)刻畫分詞的相關(guān)性特 征。也就是說(shuō),一個(gè)特征信息的語(yǔ)音向量可以涵蓋該特征信息的上下文語(yǔ)境信息。
[0037] 也正因?yàn)檎Z(yǔ)義向量可以涵蓋該特征信息的上下文語(yǔ)境信息,因此可以將語(yǔ)義向量 的維度降低到非常小的維度,比如可以為200維。
[0038] 請(qǐng)參見(jiàn)圖2B所示,其示出了本發(fā)明一個(gè)實(shí)施例中提供的將特征信息表示成語(yǔ)義 向量的方法的流程示意圖,將特征信息表示成語(yǔ)義向量,可以包括:
[0039] 202a,利用預(yù)存的語(yǔ)料庫(kù),統(tǒng)計(jì)出分詞在預(yù)定個(gè)數(shù)指定分詞后出現(xiàn)的概率,分詞以 及預(yù)定個(gè)數(shù)指定分詞構(gòu)成特征信息;
[0040] 語(yǔ)料庫(kù)中包含有各種特征信息,語(yǔ)料庫(kù)中的特征信息的來(lái)源比較多,比如,服務(wù)器 可以從其他服務(wù)器中獲取各種特征信息,用戶也可以向服務(wù)器上傳特征信息。
[0041] 舉例來(lái)講,在語(yǔ)料庫(kù)中的各種特征信息中,當(dāng)一個(gè)分詞為"大學(xué)"時(shí),統(tǒng)計(jì)該分詞在 "北京" + "科技"之后出現(xiàn)的概率,其中特征信息為"北京科技大學(xué)"。
[0042] 202b,利用反向傳播算法求解預(yù)定數(shù)學(xué)模型,得到特征信息中各個(gè)分詞的語(yǔ)義向 量;
[0043] 這里所講的預(yù)定數(shù)學(xué)模型的公式如下:
[0044]y=softmax(U?tanh(Hx+d)+ffx+b),
[0045] 其中,y為分詞在各個(gè)特征信息中出現(xiàn)的概率所組成的矩陣,x是各個(gè)特征信息中 的預(yù)定個(gè)數(shù)指定分詞的語(yǔ)義向量首尾相接得到的向量,d和b為偏置項(xiàng),tanh和softmax均 為激活函數(shù),U是預(yù)定數(shù)學(xué)模型的隱含層到輸出層的參數(shù),W是從預(yù)定數(shù)學(xué)模型的輸入層直 接到輸出層的線性變換。
[0046] 在實(shí)際應(yīng)用中,語(yǔ)義向量需要能涵蓋詞的上下文語(yǔ)境信息,這樣語(yǔ)義相似的分詞, 其對(duì)應(yīng)的語(yǔ)義向量的余弦?jiàn)A角值會(huì)比較大,因此在確定相似度的特征信息時(shí)具有很好的識(shí) 別效果。這里通??梢杂脳l件概率來(lái)刻畫詞的上下文語(yǔ)境,也就是每個(gè)分詞的概率只受前 面出現(xiàn)過(guò)的分詞的影響,條件概率即為P(W1IW1,...,W1i)。為了簡(jiǎn)化計(jì)算,一般只考慮每個(gè) 分詞受其前11
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
象山县| 潜山县| 汝阳县| 灌南县| 秦皇岛市| 科技| 漳平市| 新疆| 茌平县| 吴忠市| 浮梁县| 永胜县| 封开县| 清徐县| 崇信县| 阿尔山市| 南江县| 民勤县| 大丰市| 德江县| 新巴尔虎左旗| 田林县| 玛沁县| 邯郸县| 甘南县| 徐闻县| 息烽县| 伊宁县| 大名县| 乐昌市| 平塘县| 荃湾区| 太谷县| 大宁县| 海宁市| 青阳县| 密山市| 通城县| 聊城市| 政和县| 扶绥县|