两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種文檔分析方法及裝置與流程

文檔序號(hào):11216257閱讀:453來(lái)源:國(guó)知局
一種文檔分析方法及裝置與流程
本申請(qǐng)涉及信息
技術(shù)領(lǐng)域
,尤其涉及一種文檔分析方法及裝置。
背景技術(shù)
:隨著信息化社會(huì)的發(fā)展,由于可以通過分析文檔,了解該文檔所包含的主題,并根據(jù)這些主題了解大眾行為習(xí)慣、大眾關(guān)注熱點(diǎn)等重要的有價(jià)值的信息,所以如何確定大量文檔的潛在主題,便成為人們重點(diǎn)關(guān)注的技術(shù)之一。在現(xiàn)有技術(shù)中,對(duì)于大規(guī)模文檔或者語(yǔ)料庫(kù)中潛藏主題信息的識(shí)別方法,即,對(duì)大規(guī)模文檔集或者語(yǔ)料庫(kù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行文檔分析后,確定各文檔或者各語(yǔ)言材料的主題信息的文檔分析方法,主要使用潛在狄里克雷分配(latentdirichletallocation,lda)來(lái)實(shí)現(xiàn),并且通過該文檔分析方法,了解各文檔的主題。lda是一種文檔主題生成模型(并且,也是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)),它可以將大規(guī)模文檔集中每篇文檔的主題以概率分布的形式給出,并且在通過分析若干文檔、抽取該若干文檔的主題(即,主題的概率分布)后,還可以根據(jù)該若干文檔的主題進(jìn)行主題聚類或文本分類。同時(shí),lda是一種典型的詞袋模型,即一篇文檔是由一組詞構(gòu)成,詞與詞之間沒有先后順序的關(guān)系,此外,一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。但是,在現(xiàn)有技術(shù)中,在使用lda對(duì)大規(guī)模文檔集進(jìn)行主題聚類或者文檔分類時(shí),針對(duì)每個(gè)文檔,由于該文檔的主題的概率分布是由該文檔的語(yǔ)言結(jié)構(gòu)確定的(即,根據(jù)該文檔中存在的所有詞匯確定的),所以在通過該lda確定的該文檔的各主題并不一定具有期望的含義(即,確定的該文檔的主題概率分布中的各主題的可理解性低,人們無(wú)法從確定的主題中理解該文檔所表述的內(nèi)容)。例如,通過該lda確定文檔m的主題分布概率可為:“使得”70%、“需要”20%、“天氣”10%,可見“使得”和“需要”這兩個(gè)主題并不是人們需要的具有含義的主題,而是沒有特定意義的主題,人們也無(wú)法通過這兩個(gè)主題了解該文檔m所表述的內(nèi)容,無(wú)法達(dá)到了解該文檔m的主題的需要。并且,當(dāng)該文檔的語(yǔ)言結(jié)構(gòu)存在缺陷(如,口語(yǔ)化的省略或者亂用分隔符等),或者文檔中文字?jǐn)?shù)量太少(如,短文),也會(huì)導(dǎo)致這一問題??梢姡F(xiàn)有的文檔分析方法,在通過lda確定大規(guī)模文檔集或者語(yǔ)料集的主題時(shí),存在確定的主題可理解性低,而當(dāng)確定的文檔的主題無(wú)法滿足要求(即,可理解性低)時(shí),則需要對(duì)該文檔再次分析,影響文檔分析效率的問題。技術(shù)實(shí)現(xiàn)要素:本申請(qǐng)實(shí)施例提供一種文檔分析方法及裝置,用以解決現(xiàn)有技術(shù)的文檔分析方法,對(duì)文檔集或語(yǔ)料集進(jìn)行分析確定的主題可理解性低,導(dǎo)致需要重復(fù)分析文檔,影響文檔分析效率的問題。本申請(qǐng)實(shí)施例提供的一種文檔分析方法,預(yù)設(shè)若干主題以及每個(gè)主題包含的若干中心詞,所述方法包括:根據(jù)每個(gè)中心詞所屬的各主題,確定每個(gè)中心詞屬于各主題的概率;針對(duì)預(yù)設(shè)的訓(xùn)練文檔集中各訓(xùn)練文檔的每個(gè)非中心詞,隨機(jī)設(shè)置該非中心詞屬于各主題的初始概率;針對(duì)每個(gè)訓(xùn)練文檔,隨機(jī)設(shè)置該訓(xùn)練文檔屬于各主題的初始概率;根據(jù)針對(duì)每個(gè)非中心詞設(shè)置的初始概率和針對(duì)每個(gè)訓(xùn)練文檔設(shè)置的初始概率,訓(xùn)練得到每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率;當(dāng)接收到待分析文檔集時(shí),針對(duì)所述待分析文檔集中的每個(gè)分詞,判斷該分詞是否為預(yù)設(shè)的中心詞,若是,則根據(jù)每個(gè)中心詞屬于各主題的概率,確定該分詞屬于各主題的概率,若否,則根據(jù)每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率,確定該分詞屬于各主題的概率;根據(jù)所述待分析文檔集中的每個(gè)分詞屬于各主題的概率,確定所述待分析文檔集中每個(gè)待分析文檔屬于各主題的概率。本申請(qǐng)實(shí)施例提供的一種文檔分析裝置,包括:中心詞模塊,用于根據(jù)每個(gè)中心詞所屬的各主題,確定每個(gè)中心詞屬于各主題的概率;非中心詞模塊,用于針對(duì)預(yù)設(shè)的訓(xùn)練文檔集中各訓(xùn)練文檔的每個(gè)非中心詞,隨機(jī)設(shè)置該非中心詞屬于各主題的初始概率;訓(xùn)練文檔模塊,用于針對(duì)每個(gè)訓(xùn)練文檔,隨機(jī)設(shè)置該訓(xùn)練文檔屬于各主題的初始概率;訓(xùn)練模塊,用于根據(jù)針對(duì)每個(gè)非中心詞設(shè)置的初始概率和針對(duì)每個(gè)訓(xùn)練文檔設(shè)置的初始概率,訓(xùn)練得到每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率;分析模塊,用于當(dāng)接收到待分析文檔集時(shí),針對(duì)所述待分析文檔集中的每個(gè)分詞,判斷該分詞是否為預(yù)設(shè)的中心詞,若是,則根據(jù)每個(gè)中心詞屬于各主題的概率,確定該分詞屬于各主題的概率,若否,則根據(jù)每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率,確定該分詞屬于各主題的概率;分析結(jié)果模塊,用于根據(jù)所述待分析文檔集中的每個(gè)分詞屬于各主題的概率,確定所述待分析文檔集中每個(gè)待分析文檔屬于各主題的概率。本申請(qǐng)實(shí)施例提供一種文檔分析方法及裝置,該方法預(yù)先設(shè)置若干主題以及每個(gè)主題包含的若干中心詞,并確定每個(gè)中心詞屬于各主題的概率,之后隨機(jī)設(shè)置訓(xùn)練文檔集中各非中心詞屬于各主題的初始概率以及各訓(xùn)練文檔屬于各主題的初始概率,最后通過訓(xùn)練得到每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率。當(dāng)接收到待分析文檔集時(shí),針對(duì)該待分析文檔集中的每個(gè)分詞,根據(jù)每個(gè)中心詞屬于各主題的概率、每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率,確定該分詞屬于各主題的概率,最終確定該待分析文檔集中每個(gè)待分析文檔屬于各主題的概率。通過上述方法,利用預(yù)設(shè)主題中包含的若干中心詞,固定了文檔分析時(shí)的聚類中心,使得對(duì)文檔的分析結(jié)果的可理解性增強(qiáng),避免了對(duì)文檔的重復(fù)分析,提高了文檔分析效率。附圖說明此處所說明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:圖1為本申請(qǐng)實(shí)施例提供的文檔分析過程;圖2為本申請(qǐng)實(shí)施例提供的一種文檔分析裝置的結(jié)構(gòu)示意圖。具體實(shí)施方式在本申請(qǐng)實(shí)施例中,預(yù)先設(shè)置若干主題以及每個(gè)主題包含的若干中心詞,之后確定每個(gè)中心詞屬于各主題的概率,然后通過訓(xùn)練隨機(jī)設(shè)置的訓(xùn)練文檔集中各非中心詞屬于各主題的初始概率以及各訓(xùn)練文檔屬于各主題的初始概率得到各非中心詞屬于各主題的最終概率以及各訓(xùn)練文檔屬于各主題的最終概率。當(dāng)接收到待分析文檔集時(shí),針對(duì)該待分析文檔集中的每個(gè)分詞,根據(jù)每個(gè)中心詞屬于各主題的概率、每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率,確定該分詞屬于各主題的概率,最終確定該待分析文檔集中每個(gè)待分析文檔屬于各主題的概率。可見本申請(qǐng)所述的方法,并不直接分析待分析文檔集,而是預(yù)先設(shè)定若干中心詞以及主題,確定每個(gè)中心詞屬于各主題的概率,作為聚類的中心,之后再通過訓(xùn)練文檔集進(jìn)行訓(xùn)練,確定每個(gè)非中心詞屬于各主題的最終概率,以及各訓(xùn)練文檔屬于各主題的最終概率。使得當(dāng)接收到待分析文檔集時(shí),可以根據(jù)每個(gè)分詞是否為預(yù)設(shè)的中心詞或者是否為該訓(xùn)練文檔集中出現(xiàn)過的非中心詞,分別采用不同的方法確定每個(gè)分詞屬于各主題的概率,最后根據(jù)每個(gè)分詞屬于各主題的概率,確定每個(gè)待分析文檔屬于各主題的概率??梢?,在使用本申請(qǐng)的方法進(jìn)行文檔分析時(shí),中心詞屬于各主題的概率以及訓(xùn)練后的非中心屬于各主題的最終概率,對(duì)最終每個(gè)分詞屬于各主題的概率產(chǎn)生了積極的影響,使得各主題的可理解性得以提高,也就使得各待分析文檔所屬的各主題的可理解性增強(qiáng),避免了重復(fù)分析待分析文檔,從而使文檔分析效率提高。為使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請(qǐng)具體實(shí)施例及相應(yīng)的附圖對(duì)本申請(qǐng)技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。圖1為本申請(qǐng)實(shí)施例提供的文檔分析過程,其中,預(yù)設(shè)若干主題以及每個(gè)主題包含的若干中心詞。在本申請(qǐng)實(shí)施例中,為了使文檔分析結(jié)果的可理解性更高,所以可通過人工設(shè)定若干主題以及每個(gè)主題對(duì)應(yīng)的若干中心詞,其中,由于各中心詞是由人工給出的,所以該中心詞的可理解性很高,即,人們可以容易的理解該中心詞要表達(dá)的含義(關(guān)于中心詞的可理解性,連詞如“和”、“雖然”、“但是”等的理解性就很低,即,這些詞語(yǔ)沒有特定的有用的含義,名詞如“醫(yī)院”、“飛機(jī)”、“食品”等的理解性就很高,即這些詞語(yǔ)對(duì)人們來(lái)說有特定的有用的含義)。并且,由于此時(shí)每個(gè)主題都是由各中心詞組成,所以每個(gè)主題的可理解性較高。具體的,由于一般采用服務(wù)器進(jìn)行文檔分析,所以在本申請(qǐng)中,工作人員可通過該服務(wù)器預(yù)設(shè)主題的數(shù)量、中心詞的數(shù)量、每個(gè)主題中包含的各中心詞、以及每個(gè)中心詞具體為那些詞語(yǔ)。其中,各主題中包含的預(yù)設(shè)的中心詞的數(shù)量無(wú)需一致,為了方便說明,以下預(yù)設(shè)的若干主題的數(shù)量以k表示,預(yù)設(shè)的若干中心詞的數(shù)量以v’表示。進(jìn)一步的,該預(yù)設(shè)的若干主題以及每個(gè)主題包含的若干中心詞,可以由人工按照需要設(shè)定(即,不是隨意設(shè)定的),如,想要分析西藥類論文的主題,那么預(yù)設(shè)一個(gè)包含中心詞“當(dāng)歸”、“靈芝”的主題就顯得并不合適。并且,為了提高文檔分析的效率,在本申請(qǐng)中,所述預(yù)設(shè)的若干主題以及所述預(yù)設(shè)的若干中心詞可與后續(xù)步驟中的訓(xùn)練文檔集、待分析文檔集相關(guān)?;蛘呖梢岳斫鉃?,為了提高文檔分析效率,針對(duì)不同的文檔分析需要(即,不同類型的待分析文檔),可針對(duì)性的設(shè)定不同的主題和中心詞。則圖1所示的文檔分析方法,具體包括以下步驟:s101:根據(jù)每個(gè)中心詞所屬的各主題,確定每個(gè)中心詞屬于各主題的概率。在本申請(qǐng)實(shí)施例中,在確定了預(yù)設(shè)的若干主題以及每個(gè)主題包含的若干中心詞后,由于各主題中可以包含多個(gè)中心詞,并且不同主題中包含的中心詞可以出現(xiàn)重復(fù),所以同一個(gè)中心詞可屬于多個(gè)主題。則此時(shí),雖然每個(gè)中心詞都具有很高的可理解性,但是對(duì)于屬于多個(gè)主題的中心詞,由于該中心詞屬于多個(gè)主題,所以該中心詞可用于專門表達(dá)某一個(gè)主題的可能性就越低。如,假設(shè)中心詞a、b、c,分屬于主題1和主題2,具體分布如表1所示。主題中心詞1a、b2a、c表1可見,由于該中心詞a又屬于主題1又屬于主題2,所以該中心詞用于表示主題1和主題2的可能性是相同的,并不能明確該中心詞a到底是要表述主題1還是主題2,而該中心詞b由于僅屬于主題1,所以當(dāng)出現(xiàn)該中心詞b時(shí),可以明確該中心詞b是表示主題1而不是主題2,同理對(duì)于中心詞c來(lái)說該中心詞c可明確表示主題2。于是,在本申請(qǐng)中,還需要確定每個(gè)中心詞屬于各主題的概率,即,針對(duì)每個(gè)主題,該主題中每個(gè)中心詞屬于該主題的概率是有區(qū)別的,則概率較高的中心詞在文檔中是表示該主題的可能性較高,概率較低的中心詞在文檔中是表示該主題的可能性較低。具體的,該服務(wù)器針對(duì)每個(gè)中心詞,首先計(jì)算該中心詞在每個(gè)主題中出現(xiàn)的次數(shù),并采用逆文檔頻率(inversedocumentcount,idc)表示(如表1中,該中心詞a的idc為2,該中心詞b和中心詞c的idc為1),之后采用映射規(guī)則:e[-0.5·(idc-1)],確定該中心屬于各主題的概率,其中,e為自然常數(shù)。通過上述兩次計(jì)算,便可以確定每個(gè)中心詞屬于各主題的概率。進(jìn)一步的,該服務(wù)器還可以根據(jù)每個(gè)中心詞屬于各主題的概率確定一個(gè)“中心詞-主題”的矩陣,該矩陣中每個(gè)單元表示:該單元對(duì)應(yīng)的中心詞屬于該單元對(duì)應(yīng)的主題的概率。并且,由于每個(gè)主題中包含的中心詞并不完全一致,所以在該“中心詞-主題”的矩陣中的單元會(huì)出現(xiàn)數(shù)值為0的情況,表示該單元對(duì)應(yīng)的中心詞未在該單元對(duì)應(yīng)的主題中出現(xiàn)過。例如,假設(shè)用于文檔分析的服務(wù)器q,該服務(wù)器q用于分析客服人員與客戶之間的聊天記錄集(即,文檔集),并按需求確定一段時(shí)間內(nèi)的客戶向客服人員反映的問題(即,文檔集中各文檔屬于各主題的概率),以便該服務(wù)器q后續(xù)可以將確定的客戶關(guān)注較多的問題的答案寫入機(jī)器人應(yīng)答系統(tǒng)中,使得客戶在詢問這類問題時(shí),可以通過機(jī)器人應(yīng)答給出相應(yīng)的答案,而使客戶無(wú)需通過人工應(yīng)答便可以得到問題的答案,進(jìn)而使的人工應(yīng)答的工作量減少,并提高客服系統(tǒng)的運(yùn)行效率。進(jìn)一步假設(shè),在該服務(wù)器q中,工作人員預(yù)設(shè)了k個(gè)主題以及v’個(gè)中心詞,并且每個(gè)中心詞均是與客戶詢問問題的關(guān)鍵詞或者與該關(guān)鍵詞相關(guān)的詞語(yǔ)。則該服務(wù)器q通過計(jì)算每個(gè)中心詞的idc,并采用映射規(guī)則e[-0.5·(idc-1)],可以確定每個(gè)中心詞屬于各主題的概率,并且可以用一個(gè)k·v'的矩陣ψ來(lái)表示,其中,該矩陣為行數(shù)為k,列數(shù)為v’的矩陣,行維度表示各主題,列維度表示各中心詞,其中ψij為該矩陣ψ的單元,該單元表示第i個(gè)主題包含第j個(gè)中心詞的概率,也就是該第j個(gè)中心詞屬于該第i個(gè)主題的概率。需要說明的是,在本申請(qǐng)中所述的服務(wù)器可以是單獨(dú)的一臺(tái)設(shè)備,也可是由多臺(tái)設(shè)備組成的系統(tǒng)。s102:針對(duì)預(yù)設(shè)的訓(xùn)練文檔集中各訓(xùn)練文檔的每個(gè)非中心詞,隨機(jī)設(shè)置該非中心詞屬于各主題的初始概率。在本申請(qǐng)實(shí)施例中,當(dāng)確定了每個(gè)中心詞屬于各主題的概率(即,“中心詞-主題”的矩陣)后,在進(jìn)行文檔分析時(shí),該服務(wù)器便可以根據(jù)上述步驟s101中確定的“中心詞-主題”的矩陣,確定該中心詞屬于各主題的概率,使文檔分析的結(jié)果受到該預(yù)設(shè)主題、預(yù)設(shè)中心詞以及該“中心詞-主題”的矩陣的影響,進(jìn)而使得文檔分析結(jié)果更加可控。但是,在進(jìn)行文檔分析時(shí),相對(duì)于待分析的文檔集中詞語(yǔ)的數(shù)量,該預(yù)先設(shè)定的中心詞的數(shù)量通常是較少的,所以該“中心詞-主題”的矩陣對(duì)與文檔分析結(jié)果的影響作用相對(duì)較小,于是為了增加各預(yù)設(shè)中心詞在文檔分析結(jié)果中所起的作用,該服務(wù)器還需要選擇訓(xùn)練文檔集,并對(duì)該文檔集進(jìn)行訓(xùn)練,以便后續(xù)步驟可以增加該“中心詞-主題”的矩陣對(duì)于文檔分析結(jié)果的影響。具體的,首先,該服務(wù)器需要確定一個(gè)用于訓(xùn)練的訓(xùn)練文檔集,并且,該訓(xùn)練文檔集中個(gè)訓(xùn)練文檔的大致內(nèi)容可與該預(yù)設(shè)的各主題以及該預(yù)設(shè)的各中心詞相關(guān)。其中,由該訓(xùn)練文檔集與該預(yù)設(shè)的中心詞相關(guān),所以該訓(xùn)練文檔集中可存在預(yù)設(shè)的中心詞,但是,根據(jù)常識(shí)一篇文章不可能僅由中心詞組成,所以該訓(xùn)練文檔集中應(yīng)存在不是預(yù)設(shè)的中心詞的詞語(yǔ),即,非中心詞。其次,針對(duì)每個(gè)非中心詞,該服務(wù)器需要隨機(jī)設(shè)置該非中心詞屬于各主題的初始概率。并且,該服務(wù)器可以根據(jù)該隨機(jī)設(shè)置的每個(gè)非中心詞屬于各主題的初始概率,確定一個(gè)“非中心詞-主題”矩陣,該矩陣中每個(gè)單元表示該單元對(duì)應(yīng)的非中心詞屬于該單元對(duì)應(yīng)的主題的初始概率。并且,由于每個(gè)非中心詞屬于各主題的初始概率是隨機(jī)設(shè)置的,所以在該“非中心詞-主題”的矩陣中的單元會(huì)出現(xiàn)數(shù)值為0的情況,表示該單元對(duì)應(yīng)的非中心詞不屬于該單元對(duì)應(yīng)的主題。進(jìn)一步的,為了提高后續(xù)的訓(xùn)練效果,該確定的該訓(xùn)練文檔集也可以根據(jù)后續(xù)需要分析的待分析文檔集來(lái)確定(即,使得確定的各待分析文檔集中的主題實(shí)質(zhì)是與該訓(xùn)練文檔集中的主題相關(guān)、相近),使得該訓(xùn)練文檔集與該后續(xù)需要分析的待分析文檔集相關(guān)或者性質(zhì)相同(如,均是聊天記錄或者都是醫(yī)藥領(lǐng)域的論文)。當(dāng)然,即便該訓(xùn)練文檔集與待分析文檔集并不相關(guān),通過本申請(qǐng)所述的方法,也可提高最終確定的各待分析文檔的主題可理解性。繼續(xù)沿用上例,假設(shè)該服務(wù)器q確定了大量的客服人員與不同客戶的歷史聊天記錄集,作為訓(xùn)練文檔集。則該服務(wù)器q需要遍歷該歷史聊天記錄,確定若干非中心詞,并且針對(duì)每一個(gè)非中心詞,隨機(jī)設(shè)置該非中心詞屬于各主題的初始概率。進(jìn)一步假設(shè),確定的非中心詞的數(shù)量為v,則此時(shí)該服務(wù)器q可以確定一個(gè)k·v的矩陣φ來(lái)表示隨機(jī)設(shè)置的每個(gè)非中心詞屬于各主題的初始概率,其中,該矩陣為行數(shù)為k,列數(shù)為v的矩陣,行維度表示各主題,列維度表示各非中心詞,其中φij為該矩陣φ的單元,該單元表示第i個(gè)主題包含第j個(gè)非中心詞的概率,也就是該第j個(gè)非中心詞屬于該第i個(gè)主題的概率。s103:針對(duì)每個(gè)訓(xùn)練文檔,隨機(jī)設(shè)置該訓(xùn)練文檔屬于各主題的初始概率。在本申請(qǐng)實(shí)施例中,在對(duì)該訓(xùn)練文檔集進(jìn)行訓(xùn)練前,該服務(wù)器已經(jīng)確定該訓(xùn)練文檔集中每個(gè)中心詞屬于各主題的概率以及每個(gè)非中心詞屬于各主題的初始概率。但是,在本身申請(qǐng)中進(jìn)行文檔分析的目的是確定文檔屬于主題的概率,而不是詞語(yǔ)屬于各主題的概率,所以為了后續(xù)的訓(xùn)練步驟,該服務(wù)器還需要針對(duì)每個(gè)訓(xùn)練文檔,隨機(jī)設(shè)置該訓(xùn)練文檔屬于各主題的初始概率。具體的,該服務(wù)器針對(duì)每個(gè)訓(xùn)練文檔,隨機(jī)設(shè)置該訓(xùn)練文檔屬于各主題的初始概率,并確定一個(gè)“訓(xùn)練文檔-主題”的矩陣,該矩陣中每個(gè)單元表示該單元對(duì)應(yīng)的訓(xùn)練文檔屬于該單元對(duì)應(yīng)的主題的初始概率。當(dāng)然,如“非中心詞-主題”的矩陣一樣,在該“訓(xùn)練文檔-主題”的矩陣中的單元會(huì)出現(xiàn)數(shù)值為0的情況,表示該單元對(duì)應(yīng)的訓(xùn)練文檔中不存在該單元對(duì)應(yīng)的主題。繼續(xù)沿用上例,假設(shè)該服務(wù)器q確定的“客服人員與不同客戶的歷史聊天記錄”的訓(xùn)練文檔集中,包含m篇聊天記錄(即,m篇訓(xùn)練文檔),則該服務(wù)器q需要針對(duì)每一篇聊天記錄,隨機(jī)設(shè)置該聊天記錄屬于各主題的初始概率,并確定一個(gè)m·k的矩陣θ來(lái)表示,其中該矩陣為行數(shù)為m,列數(shù)為k的矩陣,行維度表示各訓(xùn)練文檔,列維度表示各主題,其中θij為該矩陣θ的單元,該單元表示第i個(gè)訓(xùn)練文檔包含第j個(gè)主題的概率,也就是該第j個(gè)主題屬于該第i個(gè)訓(xùn)練文檔的概率。s104:根據(jù)針對(duì)每個(gè)非中心詞設(shè)置的初始概率和針對(duì)每個(gè)訓(xùn)練文檔設(shè)置的初始概率,訓(xùn)練得到每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率。在本申請(qǐng)實(shí)施例中,基于步驟s102中所述的理由,該服務(wù)器需要針對(duì)該訓(xùn)練文檔集進(jìn)行訓(xùn)練,以便使得該訓(xùn)練文檔集中的各非中心詞屬于各主題的概率向各中心詞屬于各主題的概率聚類,進(jìn)而使各主題的可理解性提高。并且,由于該訓(xùn)練文檔集可與后續(xù)步驟中的待分析文檔集相關(guān),所以為了后續(xù)文檔分析速度更快,結(jié)果更準(zhǔn)確,所以同時(shí)也需要訓(xùn)練每個(gè)訓(xùn)練文檔屬于各主題的概率。即,對(duì)該“非中心詞-主題”矩陣和該“訓(xùn)練文檔-主題”矩陣進(jìn)行訓(xùn)練。具體的,首先,針對(duì)該訓(xùn)練文檔集中的每個(gè)訓(xùn)練文檔,該服務(wù)器可采用吉布斯采樣公式(gibbssampling)確定該“非中心詞-主題”矩陣中各單元的各中間概率(具體的,該公式表示:第t個(gè)非中心詞屬于第k個(gè)主題的中間概率)。其次,該服務(wù)器可將針對(duì)每個(gè)訓(xùn)練文檔確定的最大中間概率,重新作為該“非中心詞-主題”矩陣中各單元的初始概率,即,第t個(gè)非中心詞屬于第k個(gè)主題的初始概率。之后,該服務(wù)器可根據(jù)重新確定的每個(gè)非中心詞屬于各主題的初始概率,重新確定每個(gè)訓(xùn)練文檔屬于各主題的初始概率。然后,重復(fù)上述過程,直至重新確定每個(gè)非中心詞屬于各主題的初始概率的次數(shù)達(dá)到第一設(shè)定次數(shù)時(shí),將最后一次確定的每個(gè)非中心詞屬于各主題的初始概率確定為每個(gè)非中心詞屬于各主題的最終概率,將最后一次確定每個(gè)訓(xùn)練文檔屬于各主題的初始概率確定為每個(gè)訓(xùn)練文檔屬于各主題的最終概率。即,訓(xùn)練得到了每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率。該服務(wù)器通過上述重復(fù)計(jì)算過程(也稱:訓(xùn)練過程),使得該訓(xùn)練文檔中的各非中心詞屬于各主題的概率向該中心詞屬于各主題的概率靠近,相當(dāng)于根據(jù)每個(gè)中心詞使各非中心詞向該中心詞聚類。對(duì)于公式繼續(xù)沿用上例中的矩陣φ和矩陣θ進(jìn)行詳細(xì)說明,首先,該公式表示:針對(duì)第m個(gè)訓(xùn)練文檔集,第t個(gè)非中心詞屬于第k個(gè)主題的中間概率。其中,v表示非中心詞的數(shù)量、k表示第k個(gè)主題、表示第t個(gè)非中心詞在除第k個(gè)主題以外的其他主題中出現(xiàn)的期望次數(shù)、表示該第k個(gè)主題在除第m個(gè)訓(xùn)練文檔以外的其他文檔中出現(xiàn)的期望次數(shù)、βt和αk為預(yù)設(shè)的常數(shù)。進(jìn)一步的,針對(duì)公式中的和的計(jì)算方法進(jìn)行說明。具體的,由于可以知道該訓(xùn)練文檔集中每個(gè)訓(xùn)練文檔包含的詞語(yǔ)數(shù)量,所以根據(jù)矩陣θ和矩陣φ,可以計(jì)算得出每個(gè)主題在每個(gè)文檔中包含的詞語(yǔ)數(shù)量的期望值和每個(gè)非中心詞在每個(gè)主題中包含的詞語(yǔ)數(shù)量的期望值。于是,在計(jì)算的數(shù)值時(shí),可以確定除了第k個(gè)主題以外,第t個(gè)非中心詞包含的詞語(yǔ)數(shù)量的期望值,在計(jì)算時(shí),可以確定除了第m個(gè)訓(xùn)練文檔以外,第k個(gè)主題包含的詞語(yǔ)數(shù)量的期望值(示例,如,假設(shè)訓(xùn)練文檔集x中的訓(xùn)練文檔α屬于主題a、主題b、主題c的概率分別為50%、30%、20%,若該訓(xùn)練文檔α由100個(gè)詞語(yǔ)構(gòu)成,則該訓(xùn)練文檔α中有50個(gè)詞屬于主題a、30個(gè)詞屬于主題b、20個(gè)詞屬于主題c,進(jìn)一步假設(shè)非中心詞t屬于主題a、主題b、主題c的概率分別為10%、11%、40%,則在該訓(xùn)練文檔α中該非中心詞t不屬于主題a的詞語(yǔ)數(shù)量期望值為30·11%+20·40%=11.3,將該訓(xùn)練文檔集x每個(gè)訓(xùn)練文檔中該非中心詞t不屬于主題a的詞語(yǔ)數(shù)量期望值之和,作為計(jì)算該非中心詞t屬于主題a的中間概率時(shí)需要用到的數(shù)值另外,上述示例中出現(xiàn)的具體數(shù)值均是期望值)。更進(jìn)一步的,在上述公式中作為常數(shù)出現(xiàn)的βt和αk一般是極小的數(shù)值(如0.0001),具體的βt和αk用于防止計(jì)算中出現(xiàn)和/或?yàn)?時(shí),公式的計(jì)算結(jié)果為0的情況。繼續(xù)沿用上例,假設(shè)該服務(wù)器q根據(jù)矩陣φ和矩陣θ,采用公式重復(fù)計(jì)算該矩陣φ和矩陣θ種各單元的值,進(jìn)一步假設(shè),工作人員對(duì)該服務(wù)器q設(shè)置的第一設(shè)定次數(shù)為1000,即,當(dāng)重復(fù)該訓(xùn)練過程1000次后,該服務(wù)器q判斷該矩陣φ和矩陣θ無(wú)需繼續(xù)訓(xùn)練。需要說明的是,在本申請(qǐng)中各公式中的變量單元均可以通“針對(duì)公式中的和的計(jì)算方法進(jìn)行說明”中給出的就算示例計(jì)算出來(lái),后續(xù)本申請(qǐng)中不再重復(fù)描述。并且,該第一設(shè)定次數(shù)可由人工按照經(jīng)驗(yàn)值設(shè)置。s105:當(dāng)接收到待分析文檔集時(shí),針對(duì)所述待分析文檔集中的每個(gè)分詞,判斷該分詞是否為預(yù)設(shè)的中心詞,若是,則執(zhí)行步驟s106,若否,則執(zhí)行步驟s107。在本申請(qǐng)實(shí)施例中,當(dāng)該服務(wù)器訓(xùn)練得到每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率后,該服務(wù)器便可進(jìn)行文檔分析。與上述步驟s102~s104所述的步驟類似,該服務(wù)器可確定該待分析文檔集中的每個(gè)分詞屬于各主題的概率,再通過每個(gè)待分析文檔中包含的各分詞屬于各主題的概率,確定每個(gè)待分析文檔屬于各主題的概率。但是,在實(shí)際使用中,針對(duì)該服務(wù)器接收到的待分析文檔集中包含的每個(gè)分詞,該分詞存在三種情況:是中心詞、是非中心詞或者既不是中心詞也不是非中心詞。可見,對(duì)于不同情況的分詞,需要區(qū)別分析(如,對(duì)于是中心詞的分詞,便可以直接采用在步驟s101中確定的該中心詞屬于各主題的概率),于是,該服務(wù)器在接收到待分析文檔集時(shí),需要對(duì)接收到的待分析文檔集中包含的每個(gè)分詞進(jìn)行判斷、分類。具體的,當(dāng)該服務(wù)器接收到待分析文檔集時(shí),該服務(wù)器需要對(duì)該待分析文檔集中的每個(gè)分詞,判斷該分詞是否為預(yù)設(shè)的中心詞,若是,則執(zhí)行步驟s106,若否,則執(zhí)行步驟s107。繼續(xù)沿用上例,假設(shè)該服務(wù)器q接收待分析的客服人員與客戶之間聊天記錄集(即,待分析文檔集),其中包含待分析文檔數(shù)量為n,分詞數(shù)量為v”。于是該服務(wù)器q需要根據(jù)預(yù)設(shè)的各中心詞,判斷該待分析的聊天記錄集中的每個(gè)分詞是否為中心詞。s106:根據(jù)每個(gè)中心詞屬于各主題的概率,確定該分詞屬于各主題的概率。在本申請(qǐng)實(shí)施例中,當(dāng)確定該待分析文檔集中是中心詞的分詞后,該服務(wù)器可以根據(jù)在步驟s101中確定的“中心詞-主題”矩陣,針對(duì)每一個(gè)確定是中心詞的分詞,確定該分詞屬于各主題的概率。需要說明的是,步驟s106和步驟s107是同步進(jìn)行的,只是通過步驟s106對(duì)各分詞進(jìn)行不同的分析過程,并不存在流程順序上的區(qū)別。s107:根據(jù)每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率,確定該分詞屬于各主題的概率。在本申請(qǐng)實(shí)施例中,該服務(wù)器在判斷該待分析文檔集中的分詞不是預(yù)設(shè)的中心詞后,針對(duì)每個(gè)不是中心詞的分詞,該分詞還存在兩種情況:該分詞是非中心詞或者不是非中心詞(即,該分詞在訓(xùn)練文檔集中出現(xiàn)過,或者該分詞未在該訓(xùn)練文檔集中出現(xiàn)過)。針對(duì)這兩種不同情況,該服務(wù)器還可分別采用不同的方法進(jìn)行分析。具體的,首先,該服務(wù)器可確定該待分析文檔集中的分詞數(shù)量、以及待分析文檔數(shù)量,并如步驟s102~103中一樣,針對(duì)每個(gè)不是中心詞的分詞隨機(jī)設(shè)置該分詞屬于各主題的初始預(yù)期概率,以及針對(duì)每個(gè)待分析文檔隨機(jī)設(shè)置該待分析文檔屬于各主題的初始預(yù)期概率,并分別確定“不是中心詞的分詞-主題”矩陣和“待分析文檔-主題”矩陣。其次,該服務(wù)器針對(duì)所述待分析文檔集中的每個(gè)待分析文檔,判斷每個(gè)不是中心詞的分詞是否為非中心詞,若是,則該服務(wù)器可采用公式計(jì)算每個(gè)是非中心詞的分詞屬于各主題的中間預(yù)期概率,若否,則該服務(wù)器可采用公式計(jì)算每個(gè)既不是中心詞也不是非中心詞的分詞屬于各主題的中間預(yù)期概率。具體的,公式和公式均表示示:第t個(gè)分詞屬于第k個(gè)主題的中間概率。再次,將針對(duì)每個(gè)待分析文檔確定的最大中間預(yù)期概率,重新作為第t個(gè)分詞屬于第k個(gè)主題的初始預(yù)期概率。之后,根據(jù)重新確定的每個(gè)分詞屬于各主題的初始預(yù)期概率,重新確定每個(gè)待分析文檔屬于各主題的初始預(yù)期概率。最后,重復(fù)上述過程,直至重新確定每個(gè)分詞屬于各主題的初始預(yù)期概率的次數(shù)達(dá)到第二設(shè)定次數(shù)時(shí),將最后一次確定的每個(gè)分詞屬于各主題的初始預(yù)期概率確定為每個(gè)分詞屬于各主題的概率。另外,在上述公式中,由在步驟s104中訓(xùn)練得到的該“非中心詞-主題”矩陣和該“訓(xùn)練文檔-主題”矩陣確定(即,每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率),則根據(jù)該“不是中心詞的分詞-主題”矩陣和“待分析文檔-主題”矩陣確定(即,隨機(jī)設(shè)置的每個(gè)分詞屬于各主題的初始預(yù)期概率以及隨機(jī)設(shè)置的每個(gè)待分析文檔屬于各主題的初始預(yù)期概率)。v_new表示分詞的數(shù)量、m_new表示待分析文檔數(shù)量、k表示第k個(gè)主題、表示根據(jù)每個(gè)非中心詞屬于各主題的最終概率確定的第t個(gè)分詞在除第k個(gè)主題以外的其他主題中出現(xiàn)的期望次數(shù)、表示根據(jù)每個(gè)分詞屬于各主題的初始預(yù)期概率確定的第t個(gè)非中心詞在除第k個(gè)主題以外的其他主題中出現(xiàn)的期望次數(shù)、表示根據(jù)每個(gè)訓(xùn)練文檔屬于各主題的最終概率確定的該第k個(gè)主題在除第m個(gè)訓(xùn)練文檔以外的其他文檔中出現(xiàn)的期望次數(shù)、表示根據(jù)每個(gè)待分析文檔集屬于各主題的初始預(yù)期概率確定的該第k個(gè)主題在除第m_new個(gè)待分析文檔以外的其他文檔中出現(xiàn)的期望次數(shù)、βt和αk為預(yù)設(shè)的常數(shù)。進(jìn)一步的,該第二設(shè)定次數(shù)的大小與在步驟s104中所述的第一設(shè)定次數(shù)的大小可不同,并且可以遠(yuǎn)小于在步驟s104中所述第一設(shè)定次數(shù)。繼續(xù)沿用上例,該服務(wù)器q可針對(duì)每一篇待分析聊天記錄文檔(即,待分析文檔),隨機(jī)設(shè)置該聊天記錄屬于各主題的初始預(yù)期概率,并確定一個(gè)n·k的矩陣θnew來(lái)表示,其中該矩陣為行數(shù)為n,列數(shù)為k的矩陣,行維度表示各待分析文檔,列維度表示各主題,其中θnew_ij為該矩陣θnew的單元,該單元表示第i個(gè)待分析文檔包含第j個(gè)主題的初始預(yù)期概率,也就是該第j個(gè)主題屬于該第i個(gè)待分析文檔的初始預(yù)期概率。該服務(wù)器q可針對(duì)每一個(gè)不是中心詞的分詞,隨機(jī)設(shè)置該分詞屬于各主題的初始預(yù)期概率,并確定一個(gè)v”·k的矩陣φnew來(lái)表示,其中該矩陣為行數(shù)為k,列數(shù)為v”的矩陣,行維度表示各主題,列維度表示各分詞,其中φnew_ij為該矩陣φnew的單元,該單元表示第i個(gè)主題包含第j個(gè)分詞的初始預(yù)期概率,也就是該第j個(gè)分詞屬于該第i個(gè)主題的初始預(yù)期概率。下一步,該服務(wù)器q便可針對(duì)每一篇聊天記錄文檔,再次判斷不是中心詞的各分詞是否為非中心詞,假設(shè)當(dāng)前判斷第t個(gè)分詞是否為非中心詞,若判斷結(jié)果為是,則通過公式確定第t個(gè)分詞屬于第k個(gè)主題的中間預(yù)期概率,若判斷結(jié)果為否,則通過公式確定第t個(gè)分詞屬于第k個(gè)主題的中間預(yù)期概率。之后,將針對(duì)每個(gè)待分析文檔確定的最大中間預(yù)期概率,重新作為第t個(gè)分詞屬于第k個(gè)主題的初始預(yù)期概率,直至重新確定每個(gè)分詞屬于各主題的初始預(yù)期概率的次數(shù)達(dá)到第二設(shè)定次數(shù)時(shí),將最后一次確定的每個(gè)分詞屬于各主題的初始預(yù)期概率確定為每個(gè)分詞屬于各主題的概率。假設(shè),該第二設(shè)定次數(shù)為20次,也就是重新確定每個(gè)分詞屬于各主題的初始預(yù)期概率的次數(shù)達(dá)到20次后,該服務(wù)器q將最后一次確定的每個(gè)分詞屬于各主題的初始預(yù)期概率確定為每個(gè)分詞屬于各主題的概率。s108:根據(jù)所述待分析文檔集中的每個(gè)分詞屬于各主題的概率,確定所述待分析文檔集中每個(gè)待分析文檔屬于各主題的概率。在本申請(qǐng)實(shí)施例中,當(dāng)通過步驟s105~s107之后,該服務(wù)器可以確定該待分析文檔集中每個(gè)分詞屬于各主題的概率,于是,該服務(wù)器便可通過每個(gè)分詞在各待分析文檔中的數(shù)量,確定各待分析文檔集中每個(gè)待分析文檔屬于各主題的概率,并作為該待分析文檔的分析結(jié)果。繼續(xù)沿用上例,該服務(wù)器q在通過上述步驟之后,可以確定待分析客服人員與客戶之間的聊天記錄文檔集中每個(gè)分詞屬于各主題的概率,于是可以進(jìn)一步確定每一個(gè)待分析客服人員與客戶之間的聊天記錄文檔屬于各主題的概率。假設(shè),確定第一篇聊天記錄的主題為“認(rèn)證”20%“復(fù)雜”50%“失敗”30%、第二篇聊天記錄的主題為“購(gòu)買”30%“發(fā)貨”70%、第三篇聊天記錄的主題為“購(gòu)買”40%“騙子”60%、、、等等。于是,后續(xù)該服務(wù)器q可以通過歸納聊天記錄中各主題占聊天記錄集中的比率,確定客戶關(guān)心的問題,并后續(xù)針對(duì)性的改進(jìn)等等,當(dāng)然后續(xù)如何利用所述每一個(gè)待分析客服人員與客戶之間的聊天記錄文檔屬于各主題的概率,不在本申請(qǐng)所敘述的范圍內(nèi)。通過如圖1所示的文檔分析方法,可見,在分析文檔或者文檔集之前,該服務(wù)器需要預(yù)先設(shè)定若干對(duì)應(yīng)的主題,以及每個(gè)主題中包含的若干中心詞,之后還需要確定訓(xùn)練文檔集,利用預(yù)設(shè)的各主題以及各中心詞,訓(xùn)練該訓(xùn)練文檔集中每個(gè)非中心詞屬于各主題的概率以及每個(gè)訓(xùn)練文檔屬于各主題的概率,使得訓(xùn)練得到的每個(gè)非中心詞屬于各主題的最終概率向該每個(gè)中心詞屬于各主題的概率聚類,并使最終的到的每個(gè)訓(xùn)練文檔屬于各主題的最終概率中對(duì)應(yīng)的主題的可理解性更高。之后,當(dāng)接收到待分析文檔集時(shí),該服務(wù)器可以根據(jù)每個(gè)中心詞屬于各主題的概率、之前訓(xùn)練得到的每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率,訓(xùn)練得到該待分析文檔集中的每個(gè)分詞屬于各主題的概率,并最終確定該待分析文檔集中每個(gè)待分析文檔屬于各主題的概率??梢?,由于各中心詞和各主題的預(yù)先設(shè)定,以及本申請(qǐng)所采用的方法,使得在進(jìn)行文檔分析時(shí),確定的每個(gè)文檔屬于的各主題的可理解性更高,使得無(wú)需因?yàn)槌霈F(xiàn)無(wú)法理解的主題,而對(duì)文檔重復(fù)分析,提高了文檔分析的效率。另外,在步驟s104中,為了獲得更好的訓(xùn)練結(jié)果,當(dāng)重新確定每個(gè)非中心詞屬于各主題的初始概率的次數(shù)達(dá)到第一設(shè)定次數(shù)時(shí),可以對(duì)確定的每個(gè)非中心詞屬于各主題的初始概率進(jìn)行間隔采樣。具體的,當(dāng)重新確定每個(gè)非中心詞屬于各主題的初始概率的次數(shù)達(dá)到第一設(shè)定次數(shù)時(shí),選擇每個(gè)非中心詞屬于各主題的初始概率中的部分?jǐn)?shù)值作為每個(gè)非中心詞屬于各主題的最終概率,之后繼續(xù)上述訓(xùn)練過程,當(dāng)達(dá)到間隔次數(shù)時(shí),選擇每個(gè)非中心詞屬于各主題的初始概率中之前未被選擇過的部分?jǐn)?shù)值作為每個(gè)非中心詞屬于各主題的最終概率,直至每個(gè)非中心詞屬于各主題的初始概率的數(shù)值均被選擇過。例如,對(duì)于一個(gè)每個(gè)非中心詞屬于各主題的初始概率的矩陣當(dāng)重新確定每個(gè)非中心詞屬于各主題的初始概率的次數(shù)達(dá)到第一設(shè)定次數(shù)時(shí),選擇φ″11、φ″23、φ″31作為每個(gè)非中心詞屬于各主題的最終概率的矩陣的數(shù)值,假設(shè)繼續(xù)訓(xùn)練過程10次后達(dá)到間隔次數(shù),此時(shí)選擇φ″22、φ″21、φ″12作為每個(gè)非中心詞屬于各主題的最終概率的矩陣的數(shù)值,繼續(xù)進(jìn)行訓(xùn)練,假設(shè)再次達(dá)到間隔次數(shù),此時(shí)選擇φ″13、φ″32、φ″33的數(shù)值,則最終確定的每個(gè)非中心詞屬于各主題的最終概率的矩陣另外,需要說明的是,在本申請(qǐng)步驟s101中,除了可以采用idc計(jì)算每個(gè)中心詞的在各主題中出現(xiàn)的次數(shù),并通過映射規(guī)則e[-0.5·(idc-1)],來(lái)確定每個(gè)中心詞屬于各主題的概率之外,還可以采用其他的概率計(jì)算方式確定每個(gè)中心詞屬于各主題的概率,如,將每個(gè)中心詞在各主題中出現(xiàn)的次數(shù)與預(yù)設(shè)的主題數(shù)量之比,作為該中心詞屬于各主題的概率,并最終確定每個(gè)中心詞屬于各主題的概率。進(jìn)一步的,在本申請(qǐng)步驟s104中,除了采用吉布斯公式確定該“非中心詞-主題”矩陣中各單元的各中間概率,并最后確定每個(gè)訓(xùn)練文檔屬于各主題的最終概率和每個(gè)非中心詞屬于各主題的最終概率之外,還可以采用變分推理、變分貝葉斯期望最大化等方法,訓(xùn)練得到每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率。更進(jìn)一步的,在本申請(qǐng)步驟s107中,也可以采用變分推理、變分貝葉斯期望最大化等方法,確定每個(gè)分詞屬于各主題的概率以及每個(gè)待分析文檔屬于各主題的概率。其中,在步驟s104和在步驟s107中采用的方法,可以相同也可以不同,本申請(qǐng)對(duì)此并不做具體限定?;趫D1所示的文件傳輸過程,本申請(qǐng)實(shí)施例還提供一種文檔分析裝置,如圖2所示。圖2是本申請(qǐng)實(shí)施例提供一種文檔分析裝置的結(jié)構(gòu)示意圖,具體包括:中心詞模塊201,用于根據(jù)每個(gè)中心詞所屬的各主題,確定每個(gè)中心詞屬于各主題的概率;非中心詞模塊202,用于針對(duì)預(yù)設(shè)的訓(xùn)練文檔集中各訓(xùn)練文檔的每個(gè)非中心詞,隨機(jī)設(shè)置該非中心詞屬于各主題的初始概率;訓(xùn)練文檔???03,用于針對(duì)每個(gè)訓(xùn)練文檔,隨機(jī)設(shè)置該訓(xùn)練文檔屬于各主題的初始概率;訓(xùn)練模塊204,用于根據(jù)針對(duì)每個(gè)非中心詞設(shè)置的初始概率和針對(duì)每個(gè)訓(xùn)練文檔設(shè)置的初始概率,訓(xùn)練得到每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率;分析模塊205,用于當(dāng)接收到待分析文檔集時(shí),針對(duì)所述待分析文檔集中的每個(gè)分詞,判斷該分詞是否為預(yù)設(shè)的中心詞,若是,則根據(jù)每個(gè)中心詞屬于各主題的概率,確定該分詞屬于各主題的概率,若否,則根據(jù)每個(gè)非中心詞屬于各主題的最終概率以及每個(gè)訓(xùn)練文檔屬于各主題的最終概率,確定該分詞屬于各主題的概率;分析結(jié)果模塊206,用于根據(jù)所述待分析文檔集中的每個(gè)分詞屬于各主題的概率,確定所述待分析文檔集中每個(gè)待分析文檔屬于各主題的概率。所述中心詞模塊201具體用于,針對(duì)每一個(gè)中心詞,根據(jù)該中心詞所屬的主題的數(shù)量,確定該中心詞屬于各主題的概率。所述訓(xùn)練模塊204具體用于,針對(duì)所述訓(xùn)練文檔集中的每個(gè)訓(xùn)練文檔,采用公式確定第t個(gè)非中心詞屬于第k個(gè)主題的中間概率,將針對(duì)每個(gè)訓(xùn)練文檔確定的最大中間概率,重新作為第t個(gè)非中心詞屬于第k個(gè)主題的初始概率,根據(jù)重新確定的每個(gè)非中心詞屬于各主題的初始概率,重新確定每個(gè)訓(xùn)練文檔屬于各主題的初始概率,直至重新確定每個(gè)非中心詞屬于各主題的初始概率的次數(shù)達(dá)到第一設(shè)定次數(shù)時(shí),將最后一次確定的每個(gè)非中心詞屬于各主題的初始概率確定為每個(gè)非中心詞屬于各主題的最終概率,將最后一次確定每個(gè)訓(xùn)練文檔屬于各主題的初始概率確定為每個(gè)訓(xùn)練文檔屬于各主題的最終概率,其中,v表示非中心詞的數(shù)量、k表示第k個(gè)主題、表示第t個(gè)非中心詞在除第k個(gè)主題以外的其他主題中出現(xiàn)的期望次數(shù)、表示該第k個(gè)主題在除第m個(gè)訓(xùn)練文檔以外的其他文檔中出現(xiàn)的期望次數(shù)、βt和αk為預(yù)設(shè)的常數(shù)。所述分析模塊205具體用于,針對(duì)所述待分析文檔集中各待分析文檔集的每個(gè)分詞,隨機(jī)設(shè)置該分詞屬于各主題的初始預(yù)期概率,針對(duì)每個(gè)待分析文檔集,隨機(jī)設(shè)置該待分析文檔集屬于各主題的初始預(yù)期概率,針對(duì)所述待分析文檔集中的每個(gè)待分析文檔,當(dāng)所述待分析文檔集中的第t個(gè)分詞是訓(xùn)練文檔集中出現(xiàn)過的非中心詞時(shí),采用公式確定第t個(gè)分詞屬于第k個(gè)主題的中間預(yù)期概率,針對(duì)所述待分析文檔集中的每個(gè)待分析文檔,當(dāng)?shù)趖個(gè)分詞是訓(xùn)練文檔集中未出現(xiàn)過的非中心詞時(shí),采用公式確定第t個(gè)分詞屬于第k個(gè)主題的中間預(yù)期概率,將針對(duì)每個(gè)待分析文檔確定的最大中間預(yù)期概率,重新作為第t個(gè)分詞屬于第k個(gè)主題的初始預(yù)期概率,根據(jù)重新確定的每個(gè)分詞屬于各主題的初始預(yù)期概率,重新確定每個(gè)待分析文檔屬于各主題的初始預(yù)期概率,直至重新確定每個(gè)分詞屬于各主題的初始預(yù)期概率的次數(shù)達(dá)到第二設(shè)定次數(shù)時(shí),將最后一次確定的每個(gè)分詞屬于各主題的初始預(yù)期概率確定為每個(gè)分詞屬于各主題的概率,其中,v_new表示分詞的數(shù)量、m_new表示待分析文檔數(shù)量、k表示第k個(gè)主題、表示根據(jù)每個(gè)非中心詞屬于各主題的最終概率確定的第t個(gè)分詞在除第k個(gè)主題以外的其他主題中出現(xiàn)的期望次數(shù)、表示根據(jù)每個(gè)分詞屬于各主題的初始預(yù)期概率確定的第t個(gè)非中心詞在除第k個(gè)主題以外的其他主題中出現(xiàn)的期望次數(shù)、表示根據(jù)每個(gè)訓(xùn)練文檔屬于各主題的最終概率確定的該第k個(gè)主題在除第m個(gè)訓(xùn)練文檔以外的其他文檔中出現(xiàn)的期望次數(shù)、表示根據(jù)每個(gè)待分析文檔集屬于各主題的初始預(yù)期概率確定的該第k個(gè)主題在除第m_new個(gè)待分析文檔以外的其他文檔中出現(xiàn)的期望次數(shù)、βt和αk為預(yù)設(shè)的常數(shù)。所述待分析文檔為聊天記錄文檔。具體的,上述如圖2所示的文檔分析裝置可以位于服務(wù)器中,該服務(wù)器可以是單獨(dú)的一臺(tái)設(shè)備,也可以是由多個(gè)設(shè)備組成的系統(tǒng)。在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號(hào)和載波。還需要說明的是,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。本領(lǐng)域技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。以上所述僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說,本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。當(dāng)前第1頁(yè)12
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
南充市| 海伦市| 额敏县| 营口市| 南部县| 洛宁县| 武川县| 北辰区| 恭城| 湖口县| 靖西县| 康乐县| 北京市| 金寨县| 丰原市| 普安县| 会宁县| 靖远县| 明溪县| 平定县| 台前县| 浙江省| 黑龙江省| 阳东县| 霍邱县| 石屏县| 阿坝| 永丰县| 商丘市| 苍溪县| 玛多县| 油尖旺区| 武宁县| 霍林郭勒市| 佳木斯市| 瑞丽市| 安平县| 沙河市| 崇文区| 丰都县| 南昌县|