两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文檔處理方法和裝置制造方法

文檔序號(hào):6488055閱讀:172來(lái)源:國(guó)知局
文檔處理方法和裝置制造方法
【專利摘要】一種文檔處理方法和裝置,該方法包括:從多個(gè)文檔中提取詞匯,并且針對(duì)每個(gè)文檔計(jì)算詞匯的術(shù)語(yǔ)度并根據(jù)術(shù)語(yǔ)度確定術(shù)語(yǔ);對(duì)該多個(gè)文檔進(jìn)行聚類,其中基于針對(duì)每個(gè)文檔類最近確定的術(shù)語(yǔ)及其術(shù)語(yǔ)度來(lái)確定文檔類間的相似度;基于最近的聚類結(jié)果重新計(jì)算詞匯對(duì)于相應(yīng)文檔類的術(shù)語(yǔ)度,并針對(duì)每個(gè)文檔類重新確定術(shù)語(yǔ);以及重復(fù)進(jìn)行聚類和重新確定術(shù)語(yǔ)的過(guò)程,直到滿足預(yù)定截止條件為止。
【專利說(shuō)明】文檔處理方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般地涉及文檔處理,具體涉及用于對(duì)多個(gè)文檔進(jìn)行聚類和術(shù)語(yǔ)提取的方法和裝置。
【背景技術(shù)】
[0002]文檔聚類的目的是將多個(gè)文檔中具有相似主題的文檔分配到相應(yīng)子集中,文檔聚類是處理大規(guī)模數(shù)據(jù)的過(guò)程中不可缺少的技術(shù)。
[0003]術(shù)語(yǔ)是表達(dá)某領(lǐng)域的基礎(chǔ)知識(shí)的詞匯單元。術(shù)語(yǔ)提取是領(lǐng)域知識(shí)獲取中的一個(gè)基本任務(wù),其中領(lǐng)域知識(shí)獲取可以用于詞匯更新、領(lǐng)域?qū)嶓w構(gòu)建等。
[0004]直觀地,文檔聚類問(wèn)題是基于領(lǐng)域相似的文檔具有許多共有術(shù)語(yǔ)這一認(rèn)識(shí)來(lái)對(duì)文本文檔進(jìn)行聚類。獲取適當(dāng)?shù)男g(shù)語(yǔ)可能導(dǎo)致更好的聚類效果,然而識(shí)別特定領(lǐng)域的術(shù)語(yǔ)需要知道文檔的聚類信息。另外,特定領(lǐng)域的術(shù)語(yǔ)是通過(guò)術(shù)語(yǔ)在不同聚類中的分布信息而驗(yàn)證的。

【發(fā)明內(nèi)容】

[0005]本發(fā)明提供一種新的文檔處理方法和裝置,其中術(shù)語(yǔ)提取和文檔聚類彼此增強(qiáng)。首先,計(jì)算針對(duì)文檔候選術(shù)語(yǔ)的術(shù)語(yǔ)度,然后使用候選術(shù)語(yǔ)及其術(shù)語(yǔ)度表示相應(yīng)文檔,以對(duì)文檔進(jìn)行聚類。然后,根據(jù)聚類結(jié)果重新計(jì)算術(shù)語(yǔ)度并更新候選術(shù)語(yǔ),重新聚類。從而可以同時(shí)獲得術(shù)語(yǔ)提取和文檔聚類的結(jié)果,并改善文檔聚類效果。
[0006]根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供一種文檔處理方法,包括:從多個(gè)文檔中提取詞匯,并且針對(duì)每個(gè)文檔計(jì)算詞匯的術(shù)語(yǔ)度并根據(jù)術(shù)語(yǔ)度確定術(shù)語(yǔ);對(duì)該多個(gè)文檔進(jìn)行聚類,其中基于針對(duì)每個(gè)文檔類最近確定的術(shù)語(yǔ)及其術(shù)語(yǔ)度來(lái)確定文檔類間的相似度;基于最近的聚類結(jié)果重新計(jì)算詞匯對(duì)于相應(yīng)文檔類的術(shù)語(yǔ)度,并針對(duì)每個(gè)文檔類重新確定術(shù)語(yǔ);以及重復(fù)進(jìn)行聚類和重新確定術(shù)語(yǔ)的過(guò)程,直到滿足預(yù)定截止條件為止。
[0007]根據(jù)本發(fā)明的另一個(gè)實(shí)施例,提供一種文檔處理裝置,包括:術(shù)語(yǔ)確定部分,被配置為從多個(gè)文檔中提取詞匯,并且針對(duì)每個(gè)文檔,計(jì)算詞匯的術(shù)語(yǔ)度并根據(jù)術(shù)語(yǔ)度確定術(shù)語(yǔ);文檔聚類部分,被配置為對(duì)該多個(gè)文檔進(jìn)行聚類,其中基于針對(duì)每個(gè)文檔類最近確定的術(shù)語(yǔ)及其術(shù)語(yǔ)度確定文檔類間的相似度;以及術(shù)語(yǔ)更新部分,被配置為基于最近的聚類結(jié)果重新計(jì)算詞匯對(duì)于相應(yīng)文檔類的術(shù)語(yǔ)度,并針對(duì)每個(gè)文檔類重新確定術(shù)語(yǔ)。
[0008]利用根據(jù)本發(fā)明的方案,即使在文檔聚類信息未知且術(shù)語(yǔ)未知的情況下,也能夠以完全自動(dòng)的方式進(jìn)行術(shù)語(yǔ)提取和文檔聚類。
【專利附圖】

【附圖說(shuō)明】
[0009]參照以下結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說(shuō)明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其它細(xì)節(jié)。
[0010]圖1是示出根據(jù)本發(fā)明實(shí)施例的文檔處理方法的流程圖;
[0011]圖2是圖解提取詞匯的示例方式的示意圖;
[0012]圖3是示出根據(jù)本發(fā)明實(shí)施例的文檔處理裝置的配置示例的框圖;以及
[0013]圖4是示出實(shí)現(xiàn)本發(fā)明的方法和裝置的計(jì)算機(jī)的示例性結(jié)構(gòu)的框圖。
【具體實(shí)施方式】
[0014]下面參照【專利附圖】
附圖
【附圖說(shuō)明】本發(fā)明的實(shí)施例。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說(shuō)明中省略了與本發(fā)明無(wú)關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。
[0015]圖1是示出根據(jù)本發(fā)明實(shí)施例的文檔處理方法的流程圖。
[0016]首先,在步驟SllO中進(jìn)行術(shù)語(yǔ)的初步確定,即,從多個(gè)文檔中提取詞匯,并且針對(duì)每個(gè)文檔,計(jì)算詞匯的術(shù)語(yǔ)度并根據(jù)術(shù)語(yǔ)度確定術(shù)語(yǔ)。
[0017]可以采用多種方式從文檔中提取詞匯,例如可以利用常用的文本分割方式將文檔分成句子,然后通過(guò)諸如停用詞(Stop word)過(guò)濾的方式提取詞匯。圖2是圖解利用停用詞過(guò)濾方式提取詞匯的示例的示意圖。在該示例中,通過(guò)從文檔的句子中去除停用詞來(lái)提取詞匯。換句話說(shuō),通過(guò)參照停用詞列表利用停用詞切分每個(gè)句子,將通過(guò)切分得到的詞匯作為術(shù)語(yǔ)候選。如圖2所示,假設(shè)C1...Cn是通過(guò)分割文檔而得到的一個(gè)分句或字符串,其中D1 (包含字符串CyCil^PD2 (包含字符串(V..Cjm)為停用詞。通過(guò)將停用詞去除,可以得到詞匯TC1 (包含字符串C1...Cib), TC2 (包含字符串Cia-Cjb)和TC3 (包含字符串(V..Cn)作為術(shù)語(yǔ)候選。
[0018]可以采用詞頻反文檔頻率(term frequency -1nverse document frequencyTF-1DF)作為術(shù)語(yǔ)度。例如,可以根據(jù)以下等式(I)或者其數(shù)學(xué)變換形式來(lái)計(jì)算詞匯Wi對(duì)于相應(yīng)文檔的術(shù)語(yǔ)度TFIDF(Wi):
[0019]
【權(quán)利要求】
1.一種文檔處理方法,包括: 從多個(gè)文檔中提取詞匯,并且針對(duì)每個(gè)文檔,計(jì)算所述詞匯的術(shù)語(yǔ)度并根據(jù)所述術(shù)語(yǔ)度確定術(shù)語(yǔ); 對(duì)所述多個(gè)文檔進(jìn)行聚類,其中基于針對(duì)每個(gè)文檔類最近確定的術(shù)語(yǔ)及其術(shù)語(yǔ)度來(lái)確定文檔類間的相似度; 基于最近的聚類結(jié)果重新計(jì)算所述詞匯對(duì)于相應(yīng)文檔類的術(shù)語(yǔ)度,并針對(duì)每個(gè)文檔類重新確定術(shù)語(yǔ);以及 重復(fù)進(jìn)行聚類和重新確定術(shù)語(yǔ)的過(guò)程,直到滿足預(yù)定截止條件為止。
2.根據(jù)權(quán)利要求1所述的方法,其中,提取詞匯包括:通過(guò)從所述多個(gè)文檔的每個(gè)句子中去除停用詞來(lái)提取所述詞匯。
3.根據(jù)權(quán)利要求1所述的方法,其中,Icl 根據(jù)公式77W(Hg= 77-^;-log( 1 1 )或者其數(shù)學(xué)變換形式計(jì)算所述術(shù)語(yǔ)度CF(Wj)TFICF(Wi),其中,TF(Wi)表示詞匯Wi在相應(yīng)文檔類中的詞頻、|C|表示文檔類的數(shù)量、CF(Wi)表示包含詞匯Wi的文檔類的數(shù)量。
4.根據(jù)權(quán)利要求1所述的方法,其中,在每次迭代中,通過(guò)將文檔類中相似度最高的兩個(gè)合并來(lái)進(jìn)行所述聚類。
5.根據(jù)權(quán)利要求1至4中任`一項(xiàng)所述的方法,其中,重新確定術(shù)語(yǔ)包括:根據(jù)先前迭代中計(jì)算出的術(shù)語(yǔ)度的加權(quán)和確定相應(yīng)詞匯的分值,并據(jù)所述分值確定術(shù)語(yǔ)。
6.根據(jù)權(quán)利要求5所述的方法,其中,在所述加權(quán)和中,術(shù)語(yǔ)度的權(quán)重隨著迭代次數(shù)的增大而增大。
7.一種文檔處理裝置,包括: 術(shù)語(yǔ)確定部分,被配置為從多個(gè)文檔中提取詞匯,并且針對(duì)每個(gè)文檔,計(jì)算所述詞匯的術(shù)語(yǔ)度并根據(jù)所述術(shù)語(yǔ)度確定術(shù)語(yǔ); 文檔聚類部分,被配置為對(duì)所述多個(gè)文檔進(jìn)行聚類,其中基于針對(duì)每個(gè)文檔類最近確定的術(shù)語(yǔ)及其術(shù)語(yǔ)度確定文檔類間的相似度;以及 術(shù)語(yǔ)更新部分,被配置為基于最近的聚類結(jié)果重新計(jì)算所述詞匯對(duì)于相應(yīng)文檔類的術(shù)語(yǔ)度,并針對(duì)每個(gè)文檔類重新確定術(shù)語(yǔ)。
8.根據(jù)權(quán)利要求7所述的裝置,其中,所述術(shù)語(yǔ)確定部分被配置為通過(guò)從所述多個(gè)文檔的每個(gè)句子中去除停用詞來(lái)提取所述詞匯。
9.根據(jù)權(quán)利要求7所述的裝置,其中,所述術(shù)語(yǔ)更新部分被配置為:1(1 根據(jù)公式777(7'Tvv,)= 77‘Yvv;Hog(_)~L)或者其數(shù)學(xué)變換形式計(jì)算所述術(shù)語(yǔ)度
'CF(Wi)TFICF(Wi),其中,TF(Wi)表示詞匯Wi在相應(yīng)文檔類中的詞頻、|C|表示文檔類的數(shù)量、CF(Wi)表示包含詞匯Wi的文檔類的數(shù)量。
10.根據(jù)權(quán)利要求7至9中任一項(xiàng)所述的裝置,其中所述術(shù)語(yǔ)更新部分被配置為:根據(jù)先前迭代中計(jì)算出的術(shù)語(yǔ)度的加權(quán)和確定相應(yīng)詞匯的分值,并據(jù)所述分值確定術(shù)語(yǔ)。
【文檔編號(hào)】G06F17/30GK103631789SQ201210299975
【公開(kāi)日】2014年3月12日 申請(qǐng)日期:2012年8月21日 優(yōu)先權(quán)日:2012年8月21日
【發(fā)明者】楊宇航, 夏迎炬, 于浩 申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
澳门| 哈密市| 石阡县| 清水河县| 闵行区| 老河口市| 扶沟县| 江山市| 南涧| 略阳县| 出国| 营山县| 礼泉县| 桦川县| 辽宁省| 额济纳旗| 顺昌县| 泉州市| 丰都县| 个旧市| 嘉定区| 老河口市| 岑溪市| 饶河县| 平谷区| 福海县| 聂荣县| 邯郸市| 韩城市| 仙游县| 西城区| 双辽市| 皋兰县| 青田县| 仙桃市| 白山市| 东明县| 石阡县| 鲁甸县| 盐亭县| 苏尼特左旗|