本發(fā)明涉及計(jì)算機(jī)處理領(lǐng)域,特別是涉及一種話題預(yù)警的方法和裝置。
背景技術(shù):
隨著社交媒體的發(fā)展,社交網(wǎng)站、在線社區(qū)、微博等已逐漸成為人們生活中不可或缺的一部分,也是當(dāng)今時(shí)代信息傳播的主要渠道,與此同時(shí),社交媒體也是輿情傳播的重要途徑。通過(guò)對(duì)社交媒體的話題監(jiān)聽(tīng)預(yù)警,能夠?yàn)闆Q策者提供科學(xué)化的信息支持。傳統(tǒng)的對(duì)社交媒體話題監(jiān)聽(tīng)預(yù)警是通過(guò)對(duì)獲取到的歷史數(shù)據(jù)進(jìn)行分析,然后針對(duì)不同的話題進(jìn)行標(biāo)簽分級(jí)。由于話題更新速度非???,僅僅針對(duì)歷史數(shù)據(jù)進(jìn)行分析得出的結(jié)果顯然不夠準(zhǔn)確,且傳統(tǒng)的話題監(jiān)聽(tīng)是針對(duì)所有的話題進(jìn)行監(jiān)聽(tīng),沒(méi)有考慮到用戶的個(gè)性化需求。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要針對(duì)上述問(wèn)題,提出一種可以實(shí)現(xiàn)實(shí)時(shí)監(jiān)聽(tīng)且能夠滿足用戶個(gè)性化需求的話題預(yù)警的方法和裝置。
一種話題預(yù)警的方法,所述方法包括:獲取自定義關(guān)鍵詞;計(jì)算所述自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度,根據(jù)所述相似度從語(yǔ)料庫(kù)中獲取與所述自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞;根據(jù)所述擴(kuò)展關(guān)鍵詞的類型和所述擴(kuò)展關(guān)鍵詞與所述自定義關(guān)鍵詞之間的相似度從所述擴(kuò)展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表;根據(jù)所述目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng);當(dāng)監(jiān)聽(tīng)到目標(biāo)關(guān)鍵詞所對(duì)應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時(shí),進(jìn)行話題預(yù)警。
在其中一個(gè)實(shí)施例中,所述根據(jù)所述擴(kuò)展關(guān)鍵詞的類型和所述擴(kuò)展關(guān)鍵詞與所述自定義關(guān)鍵詞之間的相似度從所述擴(kuò)展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表的步驟包括:將所述擴(kuò)展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類;從每一類的擴(kuò)展關(guān)鍵詞中篩選出與所述自定義關(guān)鍵詞相似度最高的前h個(gè)擴(kuò)展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,h為大于0的正整數(shù);將每一類篩選出來(lái)的目標(biāo)關(guān)鍵詞進(jìn)行聚合,生成用于監(jiān)聽(tīng)的目標(biāo)關(guān)鍵詞列表。
在其中一個(gè)實(shí)施例中,在獲取自定義關(guān)鍵詞的步驟之后還包括:計(jì)算所述自定義關(guān)鍵詞對(duì)應(yīng)的詞向量;所述計(jì)算所述自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度,根據(jù)所述相似度從語(yǔ)料庫(kù)中獲取與所述自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞的步驟包括:計(jì)算自定義關(guān)鍵詞的詞向量與所述語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)的詞向量之間的相似度;根據(jù)詞向量之間的相似度從語(yǔ)料庫(kù)中獲取與所述自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞。
在其中一個(gè)實(shí)施例中,所述計(jì)算所述自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度,根據(jù)相似度從語(yǔ)料庫(kù)中獲取與所述自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞的步驟包括:采用皮爾森相關(guān)系數(shù)方法計(jì)算所述自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度;獲取與所述自定義關(guān)鍵詞相似度最高的前k個(gè)詞語(yǔ)作為所述自定義關(guān)鍵詞的擴(kuò)展關(guān)鍵詞,其中,k為大于0的正整數(shù)。
在其中一個(gè)實(shí)施例中,所述根據(jù)所述目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)的步驟包括:采用滑動(dòng)窗口的形式對(duì)所述目標(biāo)關(guān)鍵詞列表中的每一個(gè)目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)。
一種話題預(yù)警的裝置,所述裝置包括:自定義關(guān)鍵詞獲取模塊,用于獲取自定義關(guān)鍵詞;擴(kuò)展關(guān)鍵詞獲取模塊,用于計(jì)算所述自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度,根據(jù)所述相似度從語(yǔ)料庫(kù)中獲取與所述自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞;目標(biāo)關(guān)鍵詞篩選模塊,用于根據(jù)所述擴(kuò)展關(guān)鍵詞的類型和所述擴(kuò)展關(guān)鍵詞與所述自定義關(guān)鍵詞之間的相似度從所述擴(kuò)展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表;監(jiān)聽(tīng)模塊,用于根據(jù)所述目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng);預(yù)警模塊,用于當(dāng)監(jiān)聽(tīng)所述目標(biāo)關(guān)鍵詞所對(duì)應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時(shí),進(jìn)行話題預(yù)警。
在其中一個(gè)實(shí)施例中,所述目標(biāo)關(guān)鍵詞篩選模塊包括:分類模塊,用于將所述擴(kuò)展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類;篩選模塊,用于從每一類的擴(kuò)展關(guān)鍵詞中篩選出與所述自定義關(guān)鍵詞相似度最高的前h個(gè)擴(kuò)展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,h為大于0的正整數(shù);聚合模塊,用于將每一類篩選出來(lái)的目標(biāo)關(guān)鍵詞進(jìn)行聚合,生成用于監(jiān)聽(tīng)的目標(biāo)關(guān)鍵詞列表。
在其中一個(gè)實(shí)施例中,所述裝置還包括:計(jì)算模塊,用于計(jì)算所述自定義關(guān)鍵詞對(duì)應(yīng)的詞向量;擴(kuò)展關(guān)鍵詞獲取模塊還用于計(jì)算自定義關(guān)鍵詞的詞向量與所述語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)的詞向量之間的相似度,根據(jù)詞向量之間的相似度從語(yǔ)料庫(kù)中獲取與所述自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞。
在其中一個(gè)實(shí)施例中,所述擴(kuò)展詞獲取模塊還用于采用皮爾森相關(guān)系數(shù)方法計(jì)算所述自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度,獲取與所述自定義關(guān)鍵詞相似度最高的前k個(gè)詞語(yǔ)作為所述自定義關(guān)鍵詞的擴(kuò)展關(guān)鍵詞,其中,k為大于0的正整數(shù)。
在其中一個(gè)實(shí)施例中,所述預(yù)警模塊還用于采用滑動(dòng)窗口的形式對(duì)所述目標(biāo)關(guān)鍵詞列表中的每一個(gè)目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)。
上述話題預(yù)警的方法和裝置,通過(guò)獲取用戶自定義關(guān)鍵詞,然后在語(yǔ)料庫(kù)中根據(jù)相似度對(duì)該自定義關(guān)鍵詞進(jìn)行擴(kuò)展,獲取相關(guān)的擴(kuò)展關(guān)鍵詞,再根據(jù)擴(kuò)展關(guān)鍵詞的類型和相似度進(jìn)行篩選,篩選出最終用于監(jiān)聽(tīng)的目標(biāo)關(guān)鍵詞,之后在社交媒體上根據(jù)該目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng),當(dāng)監(jiān)聽(tīng)到目標(biāo)關(guān)鍵詞的話題量達(dá)到預(yù)設(shè)閾值時(shí),進(jìn)行話題預(yù)警。該方法和裝置不僅能夠?qū)崟r(shí)對(duì)話題進(jìn)行監(jiān)聽(tīng),而且可以基于用戶自定義的關(guān)鍵詞有針對(duì)性的進(jìn)行監(jiān)控,滿足了用戶的個(gè)性化監(jiān)聽(tīng)預(yù)警的需求。通過(guò)對(duì)用戶所要監(jiān)控的自定義關(guān)鍵詞進(jìn)行擴(kuò)展和篩選,保證了監(jiān)聽(tīng)的多樣性和全面性。
附圖說(shuō)明
圖1為一個(gè)實(shí)施例中終端的內(nèi)部結(jié)構(gòu)框圖;
圖2為一個(gè)實(shí)施例中服務(wù)器的內(nèi)部結(jié)構(gòu)框圖;
圖3為一個(gè)實(shí)施例中話題預(yù)警的方法流程圖;
圖4為一個(gè)實(shí)施例中根據(jù)擴(kuò)展關(guān)鍵詞的類型和擴(kuò)展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴(kuò)展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞的方法流程圖;
圖5為另一個(gè)實(shí)施例中話題預(yù)警的方法流程圖;
圖6為一個(gè)實(shí)施例中計(jì)算自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度,根據(jù)相似度從語(yǔ)料庫(kù)中獲取擴(kuò)展關(guān)鍵詞的方法流程圖;
圖7為一個(gè)實(shí)施例中話題預(yù)警的裝置結(jié)構(gòu)框圖;
圖8為一個(gè)實(shí)施例中目標(biāo)關(guān)鍵詞篩選模塊的結(jié)構(gòu)框圖;
圖9為另一個(gè)實(shí)施例中話題預(yù)警的裝置結(jié)構(gòu)框圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,在一個(gè)實(shí)施例中,終端102的內(nèi)部結(jié)構(gòu)如圖1所示,包括通過(guò)系統(tǒng)總線連接的處理器、非易失性存儲(chǔ)介質(zhì)、內(nèi)存儲(chǔ)器、網(wǎng)絡(luò)接口、顯示屏和輸入裝置。其中,終端102的處理器用于提供計(jì)算和控制能力,支撐整個(gè)終端102的運(yùn)行。非易失性存儲(chǔ)介質(zhì)存儲(chǔ)有操作系統(tǒng),還包括一種話題預(yù)警的裝置,該話題預(yù)警的裝置用于實(shí)現(xiàn)一種話題預(yù)警的方法。終端102中的內(nèi)存儲(chǔ)器為非易失性存儲(chǔ)介質(zhì)中的話題預(yù)警的裝置的運(yùn)行提供環(huán)境,該內(nèi)存儲(chǔ)器中存有計(jì)算機(jī)可讀指令,該計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí),可使得處理器執(zhí)行一種話題預(yù)警的方法。網(wǎng)絡(luò)接口用于連接到網(wǎng)絡(luò)進(jìn)行通信。終端102的顯示屏可以是液晶顯示屏或者電子墨水顯示屏等,輸入裝置可以是顯示屏上覆蓋的觸摸層,也可以是電子設(shè)備外殼上設(shè)置的按鍵、軌跡球或觸控板,也可以是外接的鍵盤、觸控板或鼠標(biāo)等。該終端102可以是平板電腦、筆記本電腦、臺(tái)式計(jì)算機(jī)等。本領(lǐng)域技術(shù)人員可以理解,圖1中示出的結(jié)構(gòu),僅僅是與本申請(qǐng)方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對(duì)本申請(qǐng)方案所應(yīng)用于其上的終端的限定,具體的終端可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
如圖2所示,在一個(gè)實(shí)施例中,服務(wù)器104的內(nèi)部結(jié)構(gòu)如圖2所示,包括通過(guò)系統(tǒng)總線連接的處理器、非易失性存儲(chǔ)介質(zhì)、內(nèi)存儲(chǔ)器和網(wǎng)絡(luò)接口。其中,該服務(wù)器104的處理器用于提供計(jì)算和控制能力,支撐整個(gè)服務(wù)器的運(yùn)行。該非易失存儲(chǔ)介質(zhì)包括操作系統(tǒng)和話題預(yù)警的裝置。該話題預(yù)警的裝置用于實(shí)現(xiàn)一種話題預(yù)警的方法,該服務(wù)器104的內(nèi)存儲(chǔ)器為非易失性存儲(chǔ)介質(zhì)中的話題預(yù)警的裝置的運(yùn)行提供環(huán)境,該內(nèi)存儲(chǔ)器中可儲(chǔ)存有計(jì)算機(jī)可讀指令,該計(jì)算機(jī)可讀指令被所述處理器執(zhí)行時(shí),可使得所述處理器執(zhí)行一種話題預(yù)警的方法。該服務(wù)器的網(wǎng)絡(luò)接口用于與外部的服務(wù)器和終端通過(guò)網(wǎng)絡(luò)連接通信。本領(lǐng)域技術(shù)人員可以理解,圖2中示出的結(jié)構(gòu),僅僅是與本申請(qǐng)方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對(duì)本申請(qǐng)方案所應(yīng)用于其上的服務(wù)器的限定,具體的服務(wù)器可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
如圖3所示,在一個(gè)實(shí)施例中,提出了一種話題預(yù)警的方法,該方法可應(yīng)用于終端或服務(wù)器中,具體包括以下步驟:
步驟302,獲取自定義關(guān)鍵詞。
在本實(shí)施例中,自定義關(guān)鍵詞是指用戶給出的符合用戶監(jiān)聽(tīng)需求的關(guān)鍵詞。為了能夠滿足用戶的個(gè)性化的監(jiān)聽(tīng)需求,監(jiān)聽(tīng)關(guān)鍵詞的設(shè)定是根據(jù)用戶自定義關(guān)鍵詞來(lái)設(shè)定的。由于大數(shù)據(jù)時(shí)代的社交媒體信息錯(cuò)綜復(fù)雜,主體多種多樣,而不同的用戶所關(guān)注的話題不盡相同,自定義關(guān)鍵詞不僅能帶來(lái)友好的用戶交互,更多的是能夠?qū)崿F(xiàn)用戶監(jiān)聽(tīng)需求的個(gè)性化以及多元化。
步驟304,計(jì)算自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度,根據(jù)相似度從語(yǔ)料庫(kù)中獲取與自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞。
在本實(shí)施例中,由于用戶給定的自定義關(guān)鍵詞往往不夠完整和全面,因此有必要對(duì)該自定義關(guān)鍵詞進(jìn)行一定的擴(kuò)展。獲取與該自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞,有利于保證用戶對(duì)所需要監(jiān)聽(tīng)的話題更加全面和完整,從而保證監(jiān)聽(tīng)結(jié)果的完整性和多樣性。通過(guò)計(jì)算自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度,從語(yǔ)料庫(kù)中選取與自定義關(guān)鍵詞相似度比較大的詞語(yǔ)作為擴(kuò)展關(guān)鍵詞。相似度越大,說(shuō)明該詞語(yǔ)與自定義關(guān)鍵詞的語(yǔ)義越相近。詞語(yǔ)相似度的計(jì)算方法有多種,比如,可以采用同義詞詞林的方式計(jì)算詞語(yǔ)之間的相似度,也采用皮爾森相關(guān)系數(shù)來(lái)計(jì)算詞語(yǔ)之間的相似度。這里并不對(duì)詞語(yǔ)相似度的計(jì)算方法進(jìn)行限定。
在一個(gè)實(shí)施例中,相似度的計(jì)算是通過(guò)計(jì)算詞向量之間的相似度得到的。首先,采用word2vec模型計(jì)算自定義關(guān)鍵詞對(duì)應(yīng)的詞向量,其中,word2vec是一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過(guò)訓(xùn)練,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為k維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度。具體地,將自定義關(guān)鍵詞作為word2vec模型的輸入,輸出該自定義關(guān)鍵詞的詞向量表示。獲取到自定義關(guān)鍵詞的詞向量表示之后,通過(guò)計(jì)算詞向量之間的相似度從語(yǔ)料庫(kù)中篩選出自定義關(guān)鍵詞的擴(kuò)展關(guān)鍵詞。為了能夠更快的獲取到與自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞,可以將語(yǔ)料庫(kù)中的詞語(yǔ)均以詞向量的形式存儲(chǔ)。在一個(gè)實(shí)施例中,采用皮爾森相關(guān)系數(shù)(pearsoncorrelationcoefficient)來(lái)計(jì)算詞向量之間的相似度。假設(shè)自定義關(guān)鍵詞的向量表示為w=(w1,w2,…,wn),語(yǔ)料庫(kù)中任一詞語(yǔ)的向量表示為x=(x1,x2,…,xn),那么它們之間的相似度s(w,x)為:
其中,n表示詞向量的第n個(gè)詞向量特征,i表示詞向量中的第i個(gè)詞向量特征。通過(guò)計(jì)算自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)的相似度篩選出與自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞。具體地,可以將相似度按照從高到低的順序進(jìn)行排列,選出出相似度最高的前k個(gè)詞語(yǔ)作為自定義關(guān)鍵詞的擴(kuò)展關(guān)鍵詞。將自定義關(guān)鍵詞進(jìn)行擴(kuò)展,使得關(guān)鍵詞更具多樣性,保證了話題監(jiān)聽(tīng)結(jié)果具有與相似關(guān)鍵詞的對(duì)比性,便于為決策者提供更豐富的信息。
步驟306,根據(jù)擴(kuò)展關(guān)鍵詞的類型和擴(kuò)展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴(kuò)展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表。
在本實(shí)施例中,如果對(duì)步驟204得到的擴(kuò)展關(guān)鍵詞全部監(jiān)聽(tīng),將會(huì)使得信息錯(cuò)雜冗亂。所以為了保證信息的清楚,需要對(duì)獲取到的擴(kuò)展關(guān)鍵詞進(jìn)行進(jìn)一步的篩選。根據(jù)擴(kuò)展關(guān)鍵詞的類型和擴(kuò)展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴(kuò)展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞的方法有多種。在一個(gè)實(shí)施例中,首先,將獲取到的全部擴(kuò)展關(guān)鍵詞進(jìn)行分類,然后從每一類中選取出與自定義關(guān)鍵詞相似度最高的前h個(gè)擴(kuò)展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,h為大于0的正整數(shù),將每一類篩選出來(lái)的目標(biāo)關(guān)鍵詞進(jìn)行聚合,生成用于監(jiān)聽(tīng)的目標(biāo)關(guān)鍵詞列表。在另一個(gè)實(shí)施例中,首先,獲取全部擴(kuò)展詞對(duì)應(yīng)的類型,然后將相同類型的關(guān)鍵詞分為一組。分別獲取每一類擴(kuò)展關(guān)鍵詞對(duì)應(yīng)的擴(kuò)展詞數(shù)目,以擴(kuò)展詞數(shù)目最少的類型為基準(zhǔn),假設(shè)擴(kuò)展詞數(shù)目最少的類型對(duì)應(yīng)的數(shù)目為x個(gè),那么分別從其他每一類型中也篩選出x個(gè)擴(kuò)展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,從其他每一類型中篩選出x個(gè)擴(kuò)展關(guān)鍵詞是根據(jù)相似度的大小進(jìn)行篩選的,分別篩選出其他每一類擴(kuò)展關(guān)鍵詞中相似度最高的前x個(gè)擴(kuò)展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表。
步驟308,根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)。
在本實(shí)施例中,當(dāng)確定了目標(biāo)關(guān)鍵詞列表后,根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)。由于社交媒體數(shù)據(jù)每時(shí)每刻都在產(chǎn)生,迅速而規(guī)模龐大,形成了龐大的網(wǎng)絡(luò)數(shù)據(jù)流。為了更好的對(duì)話題進(jìn)行監(jiān)聽(tīng),可以采用基于滑動(dòng)窗口的時(shí)序管理框架?;诨瑒?dòng)窗口的時(shí)序管理框架的主要思想是:對(duì)于目標(biāo)監(jiān)聽(tīng)列表中的每一個(gè)目標(biāo)關(guān)鍵詞,以滑動(dòng)窗口的形式對(duì)話題數(shù)據(jù)流進(jìn)行管理,每個(gè)目標(biāo)關(guān)鍵詞維護(hù)一個(gè)一定大小的緩存,每過(guò)一個(gè)時(shí)間片(為了實(shí)時(shí)監(jiān)聽(tīng),時(shí)間片的設(shè)置通常很小,比如5分鐘),數(shù)據(jù)窗口進(jìn)行滑動(dòng),然后對(duì)緩存中的數(shù)據(jù)進(jìn)行處理。
步驟310,當(dāng)監(jiān)聽(tīng)到目標(biāo)關(guān)鍵詞所對(duì)應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時(shí),進(jìn)行話題預(yù)警。
在本實(shí)施例中,良好的監(jiān)聽(tīng)必定需要預(yù)警,通過(guò)監(jiān)聽(tīng)目標(biāo)關(guān)鍵詞所對(duì)應(yīng)的話題量是否達(dá)到預(yù)設(shè)閾值,對(duì)話題進(jìn)行預(yù)警。預(yù)警可以從兩個(gè)方面來(lái)進(jìn)行考慮,第一,對(duì)預(yù)設(shè)的時(shí)間片內(nèi)的話題量進(jìn)行監(jiān)聽(tīng)預(yù)警。由于時(shí)間片是一個(gè)較短的時(shí)間,所以通過(guò)對(duì)短時(shí)間內(nèi)的話題監(jiān)聽(tīng),能夠?qū)Χ虝r(shí)間內(nèi)的突發(fā)事件進(jìn)行預(yù)警。第二,對(duì)于一段時(shí)間段的話題進(jìn)行預(yù)警,很多時(shí)候事件的發(fā)生或輿情的走勢(shì)并不一定是急劇的,因此,考察一段時(shí)間內(nèi)話題的熱點(diǎn)能夠幫助決策者發(fā)現(xiàn)事件的興起或輿情的逐漸走勢(shì)。具體地,采用兩種評(píng)價(jià)策略進(jìn)行關(guān)鍵詞的實(shí)時(shí)預(yù)警,一種是采用話題熱度進(jìn)行預(yù)警,通過(guò)分析大量的關(guān)鍵詞的熱度變化趨勢(shì)及其生命周期,以經(jīng)驗(yàn)的方式確定熱度臨界閾值,當(dāng)監(jiān)聽(tīng)的目標(biāo)關(guān)鍵詞在一個(gè)滑動(dòng)窗口的時(shí)間片內(nèi)出現(xiàn)的頻率大于該熱度臨界閾值時(shí),進(jìn)行預(yù)警響應(yīng)。一種是采用情感極性比率進(jìn)行預(yù)警,對(duì)監(jiān)聽(tīng)的目標(biāo)關(guān)鍵詞列表相關(guān)的社會(huì)網(wǎng)絡(luò)文本進(jìn)行情感極性分析,主要包括正面、中性和負(fù)面三個(gè)方面的情感極性,當(dāng)負(fù)面情感在所有該目標(biāo)關(guān)鍵詞對(duì)應(yīng)的話題量中占的比率大于情感極性閾值時(shí),進(jìn)行預(yù)警。該話題預(yù)警的方法可以應(yīng)用于很多領(lǐng)域,尤其是可以應(yīng)用于金融領(lǐng)域。以應(yīng)用于金融產(chǎn)品為例,說(shuō)明一下該話題預(yù)警的益處。首先,互聯(lián)網(wǎng)與金融產(chǎn)業(yè)息息相關(guān),根據(jù)對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的監(jiān)控可以為金融產(chǎn)品避免諸多損失。其次,與金融相關(guān)的關(guān)鍵詞比較有規(guī)律,而且相對(duì)比較固定,通過(guò)對(duì)金融產(chǎn)品相關(guān)的話題進(jìn)行監(jiān)聽(tīng)預(yù)警,可以實(shí)現(xiàn)快速響應(yīng)而不失準(zhǔn)確率。
在本實(shí)施例中,通過(guò)獲取用戶自定義關(guān)鍵詞,然后在語(yǔ)料庫(kù)中根據(jù)相似度對(duì)該自定義關(guān)鍵詞進(jìn)行擴(kuò)展,獲取相關(guān)的擴(kuò)展關(guān)鍵詞,再根據(jù)擴(kuò)展關(guān)鍵詞的類型和相似度進(jìn)行篩選,篩選出最終用于監(jiān)聽(tīng)的目標(biāo)關(guān)鍵詞,之后在社交媒體上根據(jù)該目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng),當(dāng)監(jiān)聽(tīng)到目標(biāo)關(guān)鍵詞的話題量達(dá)到預(yù)設(shè)閾值時(shí),進(jìn)行話題預(yù)警。該方法不僅能夠?qū)崟r(shí)對(duì)話題進(jìn)行監(jiān)聽(tīng),而且可以基于用戶自定義的關(guān)鍵詞有針對(duì)性的進(jìn)行監(jiān)控,滿足了用戶的個(gè)性化監(jiān)聽(tīng)預(yù)警的需求。通過(guò)對(duì)用戶所要監(jiān)控的自定義關(guān)鍵詞進(jìn)行擴(kuò)展和篩選,保證了監(jiān)聽(tīng)的多樣性和全面性。
如圖4所示,在一個(gè)實(shí)施例中,根據(jù)擴(kuò)展關(guān)鍵詞的類型和擴(kuò)展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴(kuò)展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表的步驟包括:
步驟306a,將擴(kuò)展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類。
在本實(shí)施例中,為了對(duì)基于自定義關(guān)鍵詞的監(jiān)聽(tīng)能夠監(jiān)聽(tīng)的更加全面和平衡化。首先,需要對(duì)擴(kuò)展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類,比如,將擴(kuò)展關(guān)鍵詞按照“品牌”、“產(chǎn)品”、“競(jìng)品”分為三類。這樣,便于后續(xù)針對(duì)每一類挑選出相同個(gè)數(shù)的目標(biāo)關(guān)鍵詞進(jìn)行監(jiān)聽(tīng),有利于保證監(jiān)聽(tīng)信息的清楚和平衡。
步驟306b,從每一類的擴(kuò)展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個(gè)擴(kuò)展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,h為大于0的正整數(shù)。
在本實(shí)施例中,將擴(kuò)展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類后,采用眾包策略從每一類的擴(kuò)展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個(gè)擴(kuò)展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞。例如,從每一類中挑選出與自定義關(guān)鍵詞相似度最高的前5個(gè)詞語(yǔ),最后將挑選出的每一類的目標(biāo)關(guān)鍵詞進(jìn)行聚合。
步驟306c,將每一類篩選出來(lái)的目標(biāo)關(guān)鍵詞進(jìn)行聚合,生成用于監(jiān)聽(tīng)的目標(biāo)關(guān)鍵詞列表。
在本實(shí)施例中,通過(guò)從每一類的擴(kuò)展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個(gè)擴(kuò)展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞后,將每一類篩選出來(lái)的目標(biāo)關(guān)鍵詞聚集起來(lái),放在同一張列表中,即生成目標(biāo)關(guān)鍵詞列表,后續(xù)便于根據(jù)該目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)。比如,若將擴(kuò)展關(guān)鍵詞按照“品牌”、“產(chǎn)品”、“競(jìng)品”分為三類。若每一類都挑選出5個(gè)目標(biāo)關(guān)鍵詞,那么將總共挑選出15個(gè)目標(biāo)關(guān)鍵詞進(jìn)行監(jiān)聽(tīng)。通過(guò)將擴(kuò)展關(guān)鍵詞進(jìn)行分類,然后再針對(duì)每一類進(jìn)行篩選有利于監(jiān)聽(tīng)的內(nèi)容更加清晰和全面,不會(huì)出現(xiàn)偏激化的結(jié)果。
如圖5所示,在一個(gè)實(shí)施例中,提出了一種話題預(yù)警的方法,該方法包括:
步驟502,獲取自定義關(guān)鍵詞。
步驟504,計(jì)算自定義關(guān)鍵詞對(duì)應(yīng)的詞向量。
步驟506,計(jì)算自定義關(guān)鍵詞的詞向量與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)的詞向量之間的相似度,根據(jù)詞向量之間的相似度從語(yǔ)料庫(kù)中獲取與自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞。
步驟508,根據(jù)擴(kuò)展關(guān)鍵詞的類型和擴(kuò)展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴(kuò)展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表。
步驟510,根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)。
步驟512,當(dāng)監(jiān)聽(tīng)到目標(biāo)關(guān)鍵詞所對(duì)應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時(shí),進(jìn)行話題預(yù)警。
在本實(shí)施例中,當(dāng)獲取到自定義關(guān)鍵詞后,為了后續(xù)計(jì)算詞向量之間的相似度,首先需要計(jì)算該自定義關(guān)鍵詞對(duì)應(yīng)的詞向量,通過(guò)將自定義關(guān)鍵詞作為word2vec模型的輸入,生成與該自定義關(guān)鍵詞對(duì)應(yīng)的詞向量并輸出。為了監(jiān)聽(tīng)的更加全面,需要對(duì)自定義關(guān)鍵詞進(jìn)行擴(kuò)展,即找出相關(guān)的與該自定義關(guān)鍵詞語(yǔ)義相近的詞語(yǔ)表示。通過(guò)計(jì)算自定義關(guān)鍵詞與語(yǔ)料庫(kù)中的每個(gè)詞語(yǔ)之間的相似度來(lái)獲取與自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞,其中,相似度越高,說(shuō)明與自定義關(guān)鍵詞的語(yǔ)義越相近。具體地,可以采用皮爾森相關(guān)系數(shù)(pearsoncorrelationcoefficient)方法計(jì)算自定義關(guān)鍵詞的詞向量與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)的詞向量之間的相似度,從中挑選出與自定義關(guān)鍵詞相似度最高的前k個(gè)(比如,設(shè)k=50)詞語(yǔ)作為擴(kuò)展關(guān)鍵詞。如果對(duì)挑選出來(lái)的擴(kuò)展關(guān)鍵詞全部進(jìn)行監(jiān)聽(tīng),將會(huì)使得信息顯得冗雜,為了解決這一問(wèn)題,還需要對(duì)挑選出來(lái)的擴(kuò)展關(guān)鍵詞進(jìn)行進(jìn)一步的篩選?;诒姲呗詫?duì)擴(kuò)展關(guān)鍵詞進(jìn)行進(jìn)一步的篩選,首先對(duì)挑選出來(lái)的擴(kuò)展關(guān)鍵詞進(jìn)行分類,比如,按照“品牌”、“產(chǎn)品”、“競(jìng)品”分為三類。分類完成后,針對(duì)每一類,根據(jù)之前計(jì)算得到的每個(gè)擴(kuò)展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度,每一類選出與自定義關(guān)鍵詞相似度最高的前h個(gè)詞語(yǔ)作為目標(biāo)關(guān)鍵詞,然后將每一類篩選出來(lái)的目標(biāo)關(guān)鍵詞進(jìn)行匯總,放在同一個(gè)列表中,即都加入目標(biāo)關(guān)鍵詞列表。之后根據(jù)該目標(biāo)關(guān)鍵詞列表進(jìn)行監(jiān)聽(tīng),并進(jìn)行相應(yīng)的預(yù)警。該方法通過(guò)對(duì)用戶自定義關(guān)鍵詞進(jìn)行擴(kuò)展,保證了監(jiān)聽(tīng)的多樣性和全面性,結(jié)合眾包技術(shù)對(duì)擴(kuò)展關(guān)鍵詞進(jìn)行進(jìn)一步甄選保證了監(jiān)聽(tīng)結(jié)果不具有偏激化。
如圖6所示,在一個(gè)實(shí)施例中,計(jì)算自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度,根據(jù)相似度從語(yǔ)料庫(kù)中獲取與自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞的步驟包括:
步驟304a,采用皮爾森相關(guān)系數(shù)方法計(jì)算自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度。
在本實(shí)施例中,為了對(duì)自定義關(guān)鍵詞進(jìn)行擴(kuò)展,找出與自定義關(guān)鍵詞語(yǔ)義相近的擴(kuò)展關(guān)鍵詞,通過(guò)采用皮爾森相關(guān)系數(shù)方法來(lái)計(jì)算自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度。相似度越大,語(yǔ)義越相近。具體地,首先,獲取自定義關(guān)鍵詞的詞向量表示,可以通過(guò)word2vec方法計(jì)算得到。然后計(jì)算自定義關(guān)鍵詞的詞向量與語(yǔ)料庫(kù)中詞語(yǔ)的詞向量之間的相似度。為了能夠更加快捷的計(jì)算自定義關(guān)鍵詞與語(yǔ)料庫(kù)中詞語(yǔ)之間的相似度,在語(yǔ)料庫(kù)中,詞語(yǔ)是以詞向量的形式存在的。假設(shè)自定義關(guān)鍵詞的詞向量表示為w=(w1,w2,…,wn),語(yǔ)料庫(kù)中任一詞語(yǔ)的詞向量表示為x=(x1,x2,…,xn),那么它們之間的相似度s(w,x)為:
步驟304b,獲取與自定義關(guān)鍵詞相似度最高的前k個(gè)詞語(yǔ)作為自定義關(guān)鍵詞的擴(kuò)展關(guān)鍵詞,其中,k為大于0的正整數(shù)。
在本實(shí)施例中,顯然,對(duì)自定義關(guān)鍵詞進(jìn)行無(wú)限擴(kuò)展是不切實(shí)際的,所以需要從語(yǔ)料庫(kù)中篩選出相似度比較大的詞語(yǔ)作為擴(kuò)展關(guān)鍵詞。具體地,采用貪心策略選擇與自定義關(guān)鍵詞相似度最高的前k個(gè)詞語(yǔ)作為自定義關(guān)鍵詞的擴(kuò)展,設(shè)擴(kuò)展關(guān)鍵詞集合為es(w),那么es(w)={x|s(w,x)≥s(w,xk)},其中,w表示自定義關(guān)鍵詞,xk表示與自定義關(guān)鍵詞相似度第k大的詞匯,比如,可以設(shè)置k=50,即選取與自定義關(guān)鍵詞相似度最高的前50個(gè)詞匯作為其擴(kuò)展關(guān)鍵詞集合。
在一個(gè)實(shí)施例中,根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)的步驟包括:采用滑動(dòng)窗口的形式對(duì)目標(biāo)關(guān)鍵詞列表中的每一個(gè)目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)。
在本實(shí)施例中由于社交媒體數(shù)據(jù)每時(shí)每刻都在產(chǎn)生,且迅速而規(guī)模龐大,為了達(dá)到對(duì)話題進(jìn)行實(shí)時(shí)監(jiān)聽(tīng),需要解決如何在數(shù)據(jù)流的環(huán)境下進(jìn)行話題的實(shí)時(shí)監(jiān)聽(tīng)。在該實(shí)施例中,通過(guò)采用基于滑動(dòng)窗口的形式對(duì)目標(biāo)關(guān)鍵詞列中的每一個(gè)目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)。即以滑動(dòng)窗口的形式對(duì)話題數(shù)據(jù)流進(jìn)行管理,每個(gè)目標(biāo)關(guān)鍵詞維護(hù)一個(gè)一定大小的緩存,每過(guò)一個(gè)時(shí)間片,數(shù)據(jù)窗口進(jìn)行滑動(dòng),然后對(duì)緩存中的數(shù)據(jù)進(jìn)行處理,從而實(shí)現(xiàn)了對(duì)每個(gè)目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)。
如圖7所示,在一個(gè)實(shí)施例中,提出了一種話題預(yù)警的裝置700,該裝置包括:
自定義關(guān)鍵詞獲取模塊702,用于獲取自定義關(guān)鍵詞。
擴(kuò)展關(guān)鍵詞獲取模塊704,用于計(jì)算自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度,根據(jù)相似度從語(yǔ)料庫(kù)中獲取與自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞。
目標(biāo)關(guān)鍵詞篩選模塊706,用于根據(jù)擴(kuò)展關(guān)鍵詞的類型和擴(kuò)展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴(kuò)展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表。
監(jiān)聽(tīng)模塊708,用于根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)。
預(yù)警模塊710,用于當(dāng)監(jiān)聽(tīng)目標(biāo)關(guān)鍵詞所對(duì)應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時(shí),進(jìn)行話題預(yù)警。
如圖8所示,在一個(gè)實(shí)施例中,目標(biāo)關(guān)鍵詞篩選模塊706包括:
分類模塊706a,用于將擴(kuò)展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類。
篩選模塊706b,用于從每一類的擴(kuò)展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個(gè)擴(kuò)展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,h為大于0的正整數(shù)。
聚合模塊706c,用于將每一類篩選出來(lái)的目標(biāo)關(guān)鍵詞進(jìn)行聚合,生成用于監(jiān)聽(tīng)的目標(biāo)關(guān)鍵詞列表。
如圖9所示,在一個(gè)實(shí)施例中,提出了一種話題預(yù)警的裝置900,除了包括上述模塊702-710,還包括:
計(jì)算模塊703,用于計(jì)算自定義關(guān)鍵詞對(duì)應(yīng)的詞向量。
擴(kuò)展關(guān)鍵詞獲取模塊704還用于計(jì)算自定義關(guān)鍵詞的詞向量與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)的詞向量之間的相似度,根據(jù)詞向量之間的相似度從語(yǔ)料庫(kù)中獲取與自定義關(guān)鍵詞相關(guān)的擴(kuò)展關(guān)鍵詞。
在一個(gè)實(shí)施例中,擴(kuò)展詞獲取模塊還用于采用皮爾森相關(guān)系數(shù)方法計(jì)算自定義關(guān)鍵詞與語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)之間的相似度,獲取與自定義關(guān)鍵詞相似度最高的前k個(gè)詞語(yǔ)作為自定義關(guān)鍵詞的擴(kuò)展關(guān)鍵詞,其中,k為大于0的正整數(shù)。
在一個(gè)實(shí)施例中,預(yù)警模塊還用于采用滑動(dòng)窗口的形式對(duì)目標(biāo)關(guān)鍵詞列表中的每一個(gè)目標(biāo)關(guān)鍵詞進(jìn)行實(shí)時(shí)監(jiān)聽(tīng)。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,該計(jì)算機(jī)程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,前述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(read-onlymemory,rom)等非易失性存儲(chǔ)介質(zhì),或隨機(jī)存儲(chǔ)記憶體(randomaccessmemory,ram)等。
以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡(jiǎn)潔,未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說(shuō)明書(shū)記載的范圍。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。