專利名稱:一種基于標(biāo)簽的文件呈現(xiàn)方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)桌面系統(tǒng)或者網(wǎng)站中, 一種文件呈現(xiàn)方法及其系統(tǒng),特別涉及一種 基于標(biāo)簽的文件呈現(xiàn)方法及其系統(tǒng),屬于計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域。
背景技術(shù):
近年來,數(shù)字化進(jìn)程(Cyberization) [l]突飛猛進(jìn),具體體現(xiàn)在處理器、存儲(chǔ)器、 音/視頻編碼、攝像和顯示設(shè)備等方面技術(shù)的持續(xù)高速發(fā)展。這些領(lǐng)域的技術(shù)進(jìn)步使得計(jì) 算機(jī)用戶可以創(chuàng)造、獲得和管理具有越來越大數(shù)據(jù)量的信息。以數(shù)碼照片為例,隨著數(shù)碼 相機(jī)和具有拍照功能的手機(jī)的日益普及,家庭數(shù)碼照片的數(shù)量增長(zhǎng)迅速。我們注意到,為照片標(biāo)注標(biāo)簽是多數(shù)軟件工具和照片共享網(wǎng)站都提供的功能?,F(xiàn)有的 軟件工具如ACDSee[2] 'Microsoft Windows Photo Gallery[3] ,Adobe Photoshop Album[4], Google Picasa[5],有代表性的照片共享網(wǎng)站Flickr. com[6]都提供為照片添加標(biāo)簽和根 據(jù)標(biāo)簽檢索照片的功能。與此同時(shí),隨著照片共享網(wǎng)站的興起和標(biāo)注標(biāo)簽用戶界面的改進(jìn), 越來越多的照片都有標(biāo)簽。在照片共享網(wǎng)站興起之前,雖然很多軟件工具也提供為照片標(biāo) 注標(biāo)簽的功能,但用戶的積極性并不高[7], Ames等[8]的調(diào)査表明,與他人共享照片,成 為用戶愿意為照片標(biāo)注標(biāo)簽的重要原因。同時(shí),近年有大量的研究工作集中在幫助用戶進(jìn) 行標(biāo)簽的標(biāo)注。標(biāo)注標(biāo)簽的用戶界面不斷得到改進(jìn)。標(biāo)簽作為Web2.0的主要特點(diǎn)之一, 將會(huì)越來越為用戶所接受。目前Flickr.com等照片共享網(wǎng)站上已經(jīng)從世界各地的用戶那里收集了大量的標(biāo)簽, 面對(duì)數(shù)量越來越多的標(biāo)簽,如何有效的組織利用它們使文件能夠快速準(zhǔn)確的呈現(xiàn)給用戶, 是本發(fā)明所要解決的問題。上面提到的軟件和網(wǎng)站雖然都提供添加標(biāo)簽以及一些相關(guān)功 能,但所采用的標(biāo)簽組織和呈現(xiàn)的方式不盡相同。ACDSee、 Microsoft Windows Photo Gallery和Adobe PhotoShop Album都采用了樹形的方式組織和呈現(xiàn)標(biāo)簽,系統(tǒng)預(yù)定義了 一些分類,在這些分類下面還可以添加子類,所有這些類別的名稱實(shí)際上也就是標(biāo)簽。樹 形方式的好處是其與文件結(jié)構(gòu)較為相似,所以容易為用戶所接受;缺點(diǎn)主要包括以下三點(diǎn) 1、不能直觀表達(dá)標(biāo)簽本身的信息,如該標(biāo)簽包含多少照片,用戶是否經(jīng)常點(diǎn)擊等;2、分 類由系統(tǒng)預(yù)設(shè),不夠靈活;3、由于標(biāo)簽可能由不同用戶添加,不能滿足不同用戶的個(gè)性 化需求。與上述軟件不同,照片共享網(wǎng)站Flickr. com采用了標(biāo)簽云(Tag Cloud)的標(biāo)簽 呈現(xiàn)方式,其同樣不能滿足不同用戶的個(gè)性化需求,而且標(biāo)簽之間的關(guān)系沒有得到體現(xiàn)。Google Picasa則沒有提供標(biāo)簽的呈現(xiàn)視圖。事實(shí)上,由于用戶添加標(biāo)簽的隨意性,以下三個(gè)問題成為基于標(biāo)簽的文件呈現(xiàn)中的突 出問題1、標(biāo)簽的同義性問題。許多標(biāo)簽可能含有相近的語義,或者僅僅是單復(fù)數(shù)的差 別。比如"蘋果"和"兩個(gè)蘋果",又如"女孩"和"女生"。這些標(biāo)簽在上述軟件的管 理方法中被認(rèn)為是不同的標(biāo)簽,時(shí)間長(zhǎng)了以后,可能會(huì)引起標(biāo)簽數(shù)量過多,帶來管理不便。 2、標(biāo)簽的多義性問題。 一個(gè)標(biāo)簽可能含有多種語義。比如,"蘋果"可能表示一種水果, 或者是一家公司,上述軟件的管理方法中顯然忽略了這種情況,這使得當(dāng)用戶使用"蘋果" 標(biāo)簽進(jìn)行檢索時(shí),得到預(yù)期之外的結(jié)果。3、用戶的個(gè)性化問題。不同用戶對(duì)相同照片標(biāo) 注的標(biāo)簽,會(huì)因?yàn)橛脩舯尘爸R(shí)、性格、甚至標(biāo)注時(shí)環(huán)境的不同體現(xiàn)出差別,而且不同的 用戶對(duì)不同的呈現(xiàn)方式有偏好。而上面提到的軟件和網(wǎng)站僅僅是將標(biāo)簽作為文件名的另外一種形式,并沒能解決好這 三個(gè)問題。發(fā)明內(nèi)容本發(fā)明的目的是針對(duì)上文中提到的三個(gè)問題,提出一種基于標(biāo)簽的文件呈現(xiàn)方法及其 系統(tǒng)。本發(fā)明既可以被集成進(jìn)照片共享網(wǎng)站,用于網(wǎng)站中標(biāo)簽的處理和呈現(xiàn);也可以應(yīng)用 到單獨(dú)的照片管理軟件中。為達(dá)成上述目的,本發(fā)明通過引入一個(gè)多義詞字典,計(jì)算標(biāo)簽間語義的相似度,將標(biāo) 簽合并或歸類,以解決同義性問題。通過引入一個(gè)多義詞字典,將標(biāo)簽在此字典中的査找 結(jié)果以含義提示的方式返回給用戶,已解決多義性問題。生成標(biāo)簽圖元的大小、位置、顏 色、形狀由其對(duì)應(yīng)照片(或文件)數(shù)量、文件點(diǎn)擊頻率、生成時(shí)的用戶上下文等參數(shù)決定。同時(shí)本發(fā)明中不僅圖元的大小、位置、顏色、形狀等可以由用戶進(jìn)行修改,而且圖元 間的關(guān)系可以由用戶定義。用戶可以通過連線將其認(rèn)為相關(guān)的圖元聯(lián)系在一起,并且可以 指定關(guān)系的名稱。標(biāo)簽視圖可以被新建、修改、保存。用戶可以在同一個(gè)照片集合上新建 多個(gè)不同的視圖,并且可以根據(jù)需要打開某一特定視圖。本發(fā)明的技術(shù)方案為一種基于標(biāo)簽的文件呈現(xiàn)方法,其步驟為-1) 利用單詞判定模塊對(duì)輸入的標(biāo)簽集合進(jìn)行單詞提取;2) 利用多義詞判定模塊判斷出上述單詞中的多義詞單詞并提示用戶設(shè)定該多義詞單 詞的具體含義;3) 利用近義詞判定模塊將單詞劃分為若干近義詞集合;4)利用圖元生成模塊將標(biāo)簽中單詞屬于同一近義詞集合的文件呈現(xiàn)為同一圖元。所述單詞包括但不限于下列單詞的一種或幾種英文單詞、中文單詞。 所述標(biāo)簽為短語時(shí),提取單詞的方法為將短語分割為單詞,且每個(gè)單詞都保持原來標(biāo)簽的所有屬性;所述標(biāo)簽中的單詞為英文單詞時(shí),采用Porter的填充算法消除單詞的單 復(fù)數(shù)、時(shí)態(tài)。所述多義詞判定模塊內(nèi)包含一多義詞字典,所述多義詞判定模塊的工作方法為1) 采用WordNet多義詞字典判斷出每一個(gè)所述單詞是否為多義詞;2) 對(duì)于多義詞單詞提示用戶選定其中的某一項(xiàng)含義;3) 將所選定的含義作為該單詞所屬標(biāo)簽的附加內(nèi)容添加到文件的標(biāo)簽中。 所述近義詞判定模塊的判定方法為1) 計(jì)算全部所述單詞之間的相似度;2) 判斷所述相似度值是否大于設(shè)定閾值;3) 將單詞間相似度不小于設(shè)定閾值的單詞劃分到同一近義詞集合。 所述標(biāo)簽為圖結(jié)構(gòu)呈現(xiàn)標(biāo)簽。所述圖元的屬性包括大小、位置、顏色和形狀。所述方法中,設(shè)定標(biāo)簽所映射文件的數(shù)量參數(shù)niM、文件點(diǎn)擊頻率參數(shù)frq,根據(jù)公 式^^ =""附+ >《計(jì)算所述圖元大小;根據(jù)用戶交互歷史記錄確定所述圖元的顏色、形狀。一種基于標(biāo)簽的文件呈現(xiàn)系統(tǒng),其包括單詞判定模塊,用于對(duì)輸入的標(biāo)簽集合進(jìn)行單詞提取,得到標(biāo)簽中的單詞; 多義詞判定模塊,用于判斷單詞中的多義詞單詞并提示用戶設(shè)定多義詞單詞的具體含義;近義詞判定模塊,用于將單詞劃分為若干近義詞集合;圖元生成模塊,用于將標(biāo)簽中單詞屬于同一近義詞集合的文件呈現(xiàn)為同一圖元。所述單詞判定模塊包括短語處理子模塊和單詞處理子模塊;所述多義詞判定模塊包括 單詞査找子模塊和多義詞字典;所述近義詞判定模塊包括相似度計(jì)算子模塊和近義詞分類 子模塊。本發(fā)明的積極效果為通過對(duì)文件標(biāo)簽的處理和呈現(xiàn),使得文件能夠快速準(zhǔn)確的呈現(xiàn)給用戶。本發(fā)明與現(xiàn)有 技術(shù)相比,克服了標(biāo)簽的同義性、多義性帶來的問題,同時(shí)可以滿足用戶的個(gè)性化需求。
圖l示出了本發(fā)明的系統(tǒng)框圖圖2示出了標(biāo)簽處理的流程圖;圖3示出了單詞判模塊的流程圖;圖4示出了多義詞判定模塊的流程圖;圖5示出了近義詞判定模塊的流程圖;圖6示出了圖元生成模塊的流程圖;圖7示出了本發(fā)明的標(biāo)簽視圖,即文件呈現(xiàn)視圖;圖8示出了本發(fā)明的系統(tǒng)界面(當(dāng)用戶點(diǎn)擊左側(cè)標(biāo)簽視圖中的圖元時(shí),右側(cè)相應(yīng)的呈 現(xiàn)出該圖元所映射的照片文件)。
具體實(shí)施方式
下面將一一討論在發(fā)明內(nèi)容中給出的各個(gè)方法的具體實(shí)施方式
。下文中的技術(shù)主要針 對(duì)中文和英文進(jìn)行討論,對(duì)其他語言,也可以按照類似方法處理。本發(fā)明的系統(tǒng)主要包括的模塊為單詞判定模塊,用于對(duì)輸入的標(biāo)簽集合進(jìn)行單詞提 取,得到標(biāo)簽中的單詞;多義詞判定模塊,用于判斷單詞中的多義詞單詞并提示用戶設(shè)定 多義詞單詞的具體含義;近義詞判定模塊,用于將標(biāo)簽中單詞劃分為若干個(gè)近義詞集合; 圖元生成模塊,標(biāo)簽中單詞屬于同一近義詞集合的文件呈現(xiàn)為同一圖元。本發(fā)明的系統(tǒng)框 圖如圖1所示。系統(tǒng)的功能主要包括標(biāo)簽處理和呈現(xiàn)。其中標(biāo)簽處理功能由單詞判定模塊、多義詞判 定模塊和近義詞判定模塊共同完成,其處理流程如圖2所示。呈現(xiàn)功能由圖元生成模塊完 成。下面介紹各模塊的內(nèi)部流程。單詞判定模塊包括兩個(gè)子模塊(如圖3〉短語處理子模塊和單詞處理子模塊。短語 處理子模塊負(fù)責(zé)將短語分割為單詞。對(duì)中文,現(xiàn)有的漢語分詞技術(shù)可以完成對(duì)漢語單詞判 定;對(duì)英文,短語中的空格己經(jīng)天然的將單詞劃分出來。單詞處理子模塊負(fù)責(zé)消除單詞的單復(fù)數(shù)、時(shí)態(tài)等形式上的冗余。中文中不存在這些形式上的冗余;對(duì)英文,可以采用 Porter[10]的填充算法(stemming algorithm)來解決。需要說明的是,對(duì)于短語形式的 標(biāo)簽,在單詞判定之后可能分出多個(gè)單詞,每個(gè)單詞都保持原來標(biāo)簽的所有屬性。多義詞判定模塊包括單詞查找子模塊以及若干多義詞字典(如圖4)。對(duì)于英文單詞, 多義詞字典可以使用WordNet[9]。 WordNet是美國(guó)普林斯頓大學(xué)的認(rèn)知科學(xué)實(shí)驗(yàn)室 (Cognitive Science Laboratory)開發(fā)的一種基于當(dāng)前的人類詞匯(Lexical)記憶的心理 語言學(xué)(Psycholinguistic)理論的詞匯參考系統(tǒng)。它根據(jù)語義將詞匯分成一個(gè)個(gè)的近義詞 組(synset),并根據(jù)語義關(guān)系將近義詞組連接起來,整個(gè)數(shù)據(jù)結(jié)構(gòu)可以看成一個(gè)無向圖。 在WordNet中,可以找到部分單詞的常用含義。對(duì)于中文,可以采用或仿照WordNet的技 術(shù),開發(fā)一個(gè)中文的多義詞字典。在多義詞字典建立起來之后,用戶輸入單詞,單詞査找子模塊在多義詞字典中查找該 單詞。如果字典中這個(gè)單詞的常用含義多于一項(xiàng),則輸出給用戶若干詞義選項(xiàng),讓用戶選 定其中的某一項(xiàng)含義,并將此項(xiàng)作為標(biāo)簽的附加內(nèi)容補(bǔ)充到標(biāo)簽中(例如在標(biāo)簽后添加一 對(duì)括號(hào),在括號(hào)中說明其含義)。如對(duì)單詞"蘋果",多義詞字典給出兩個(gè)含義選項(xiàng)(1) 公司;(2)水果。用戶選擇含義選項(xiàng)"水果"后,標(biāo)簽的內(nèi)容變成"蘋果(水果)"。該標(biāo) 簽和"蘋果(公司)"是含義不同的標(biāo)簽,在接下來的近義詞判定中,將它們之間的相似 度直接設(shè)為閾值以下(詳細(xì)步驟參考下文中對(duì)近義詞模塊的描述)。需要說明的是,過多 的多義詞含義提示,可能會(huì)給用戶增加過重的負(fù)擔(dān)。解決的辦法是在多義詞字典中設(shè)定一 些規(guī)則,例如,可以設(shè)定一個(gè)更小的多義詞集合,只對(duì)多義詞集合中的單詞提供選項(xiàng)提示; 同時(shí),可以根據(jù)用戶和文件系統(tǒng)之間的交互歷史,挖掘出用戶常用的詞匯集,使WordNet 的無向圖結(jié)構(gòu)能夠自動(dòng)的根據(jù)詞匯集自動(dòng)進(jìn)行調(diào)整,從而減少査詢單詞時(shí)花費(fèi)的時(shí)間空間 代價(jià)。近義詞判定模塊負(fù)責(zé)對(duì)多義詞判定的結(jié)果進(jìn)行近義詞判定,包括兩個(gè)子模塊相似度 計(jì)算子模塊和近義詞分類子模塊(如圖5)。相似度計(jì)算子模塊負(fù)責(zé)計(jì)算單詞間的相似度。 對(duì)于英文,Zhao[ll]給出了一個(gè)算法,來計(jì)算兩個(gè)單詞之間的相似度,該算法同樣利用了 WordNet。在構(gòu)建了 WordNet結(jié)構(gòu)的中文多義詞字典之后,該算法也同樣可以應(yīng)用于中文。 Zhao的算法可概括描述如下對(duì)于WordNet中含有的單詞.,利用Satanjeev Banerjee的 算法[12]得到相似度;對(duì)于WordNet中沒有的單詞,利用Levenshtein的算法[13]計(jì)算兩 個(gè)單詞之間的編輯距離(Edit-Distance)。上文中提到,WordNet的整個(gè)數(shù)據(jù)結(jié)構(gòu)可以看 成是一個(gè)無向圖,Satanjeev Banerjee的算法實(shí)際上是計(jì)算了無向圖中任意兩節(jié)點(diǎn)間最短 路徑的長(zhǎng)度。將此長(zhǎng)度作為單詞間相似度的度量。設(shè)單詞為x、 y,單詞間的相似度為sim(x,y),最短路徑長(zhǎng)度為dis(x,y),編輯距離為L(zhǎng)ev(x,y) , max/e"g&(x,力返回的是兩單詞中字母較多的一個(gè)所包含的字母?jìng)€(gè)數(shù),則Zhao的算法可用公式表示如下.,、fl/(tfoO,力+ l)如果WordNet中同時(shí)含有x、 y, sim(x, y) = <{ , —,1 1 —(Zev(x,力/max/e"g/;zOf,力)否則°近義詞分類子模塊通過調(diào)用相似度計(jì)算子模塊計(jì)算單詞間的相似度,根據(jù)相似度判定單詞 是否應(yīng)該劃分至同一近義詞集合,然后輸出若干近義詞集合。判定兩個(gè)單詞是否屬于同一 近義詞集合的算法如下設(shè)定一個(gè)經(jīng)驗(yàn)閾值a,當(dāng)兩個(gè)單詞x、 y間的相似度sim(x,y)2a 時(shí),就判定x和y屬于同一近義詞集合;當(dāng)sim(x,y)〈or時(shí),則判定x和y不屬于同一近 義詞集合。對(duì)將單詞按照近義詞分類算法如下如果某個(gè)單詞不屬于任何已存在的近義詞 集合,則單獨(dú)為其新建一個(gè)近義詞集合;反之,如果它屬于某個(gè)已存在的近義詞集合,則 將該單詞歸入該集合。通過對(duì)所有單詞兩兩判定并分類,就得到若干近義詞集合,作為本 模塊的輸出。需要注意的是,在多義詞判定階段被用戶設(shè)定了不同含義的標(biāo)簽,其相似度 巳經(jīng)被置于閾值之下,無須再進(jìn)行判定。圖元生成模塊包括圖元屬性計(jì)算子模塊(如圖6)。為了更好的適應(yīng)用戶的個(gè)性化需 求,本發(fā)明采用一種圖結(jié)構(gòu)呈現(xiàn)標(biāo)簽。完成近義詞判定之后,單詞被劃分至近義詞集合, 這時(shí)需要圖元生成模塊將屬于同一集合的近義詞合并成一個(gè)圖元并在標(biāo)簽視圖上呈現(xiàn)。該 圖元上顯示的文字,可以是近義詞集合當(dāng)中任意的一個(gè)近義詞。當(dāng)用戶的鼠標(biāo)掠過該圖元, 展示集合中的所有近義詞。標(biāo)簽視圖中的圖元,其大小(size)、位置(pos)、顏色(color)和形狀(sh邵e) 等屬性由圖元屬性計(jì)算子模塊得到。該子模塊的輸入?yún)?shù)包括圖元中的各近義詞的源標(biāo) 簽(即近義詞所對(duì)應(yīng)的輸入標(biāo)簽集中的標(biāo)簽)映射的照片(或文件)數(shù)量num、這些照片 (或文件)被用戶點(diǎn)擊的頻率frq、生成時(shí)的用戶上下文context等。以P表示一個(gè)圖元, 則上述算法的公式可記為P(size,pos,color,shape) = /(mwt,/rg,amtorf)。其中/(.)為具體 計(jì)算時(shí)用到的函數(shù),其選用的原則是盡可能反映出用戶的使用偏好。下面給出一個(gè)/(,)的示例,此時(shí)/(.)由一系列函數(shù)組成圖元大小size = w脂+ * ;圖元位置:/m'rirt/P(W 如果是第一個(gè)圖元, LaWP<w + £#M/如果不是第一個(gè)圖元。上式表示的含義為如果是第一個(gè)圖元,則其位置為起始位置InitialPos,否則為上一個(gè) 圖元生成時(shí)的位置LastPos與一個(gè)偏移量offset之和。圖元顏色:圖元形狀丄a"Co/or如果用戶對(duì)圖元顏色進(jìn)行過修改, Random( SysTime) 如果沒有進(jìn)行過修改。丄aW57wpe如果用戶對(duì)圖元形狀進(jìn)行過修改, Random(SysTime)如果沒有進(jìn)行過修改。上式表示的含義為如果上一次用戶對(duì)標(biāo)簽圖元顏色或形狀進(jìn)行過修改,則仍然采用用戶 修改后得到的顏色或形狀;如果此前用戶從未對(duì)標(biāo)簽圖元的顏色或形狀進(jìn)行過修改,則以 當(dāng)前的系統(tǒng)時(shí)間SysTirae (精確到一天)為參數(shù)進(jìn)行隨機(jī)選擇。注意到,標(biāo)簽圖元的位置、 顏色、形狀的確定,需要利用到用戶交互歷史記錄,也就是context參數(shù)。圖結(jié)構(gòu)呈現(xiàn)標(biāo)簽的好處是用戶可以方便的定義圖元之間的關(guān)系。本發(fā)明采用的標(biāo)簽視 圖中,不僅圖元的大小、位置、顏色、形狀等屬性可以由用戶進(jìn)行修改,圖元間的關(guān)系也 可以由用戶定義。用戶可以通過連線的方式將其認(rèn)為相關(guān)的圖元聯(lián)系在一起,并且可以指 定關(guān)系的名稱。同時(shí),標(biāo)簽視圖可以被新建、修改、保存。用戶可以在同一個(gè)照片集合上 新建多個(gè)不同的視圖,并且可以根據(jù)需要打開某一特定視圖。具有上述功能的視圖可以采 用或仿照現(xiàn)有的面向?qū)ο罄L圖技術(shù)實(shí)現(xiàn)。圖7示出了一個(gè)標(biāo)簽視圖的例子,圖中的圖元具 有不同的顏色、形狀、大小。在上文中我們給出了文件標(biāo)簽處理和視圖生成的流程,給出了詳盡的具體實(shí)施方案, 且均可通過軟件編程的方式實(shí)現(xiàn),軟件編程對(duì)于本領(lǐng)域普通技術(shù)人員而言無需創(chuàng)造性勞動(dòng) 便可實(shí)現(xiàn)。[1] G. Bell, The Cyber All Project: A Personal Store for Everything, Mcmso/Y /fesearc/ 7ec細(xì).caJ腳。rt萌-i"卿-Z5; July 2000. [2] ACDSee. http://www.acdsee.com [3] Microsoft Windows Photo Gallery.http:〃www. microsoft, com/windows/products/windowsvista/seeit/sharephotos/defa ult. mspx[4] Adobe Photoshop Album. http://www.Eidobe.com/proclucts/photoshopalbum [5] Google Picasa. http://picasa.google.com [6] Flickr.com. http://www.flickr.com[7] L Rodden and K. R. Wood, How Do People Manage Their Digital Photographs,參考文獻(xiàn)[8] M. Ames and M. Naaman, Why We Tag: Motivations for Annotation in Mobile andOnline Media, C卿Z[9] WordNet. http://wordnet.princeton. edu/[10]W. Kraaij and R. Pohlmann, Porter" s Stemming Algorithm for Dutch, [11] S. Zhao, N. Du, A. Nauerz, X. Zhang, Q. Yuan and R. Fu, Improved Recommendation based on Collaborative Tagging Behaviors, 20傲[12]S. Banerjee and T. Pedersen, An Adapted Lesk Algorithm for Word Sense Disambiguation Using WordNet. ' ft , / a^s1 -/銀 Z^/7V叫 〃《iW么^S7ri"^r-Ker7鄰[13] V. I. Levenshtein, Binary Codes Capable of Correcting Deletions, Insertions, and Reversals. 7fec力"J'c37 We/ art《79傲
權(quán)利要求
1. 一種基于標(biāo)簽的文件呈現(xiàn)方法,其步驟為1)利用單詞判定模塊對(duì)輸入的標(biāo)簽集合進(jìn)行單詞提??;2)利用多義詞判定模塊判斷出上述單詞中的多義詞單詞并提示用戶設(shè)定該多義詞單詞的具體含義;3)利用近義詞判定模塊將單詞劃分為若干近義詞集合;4)利用圖元生成模塊將標(biāo)簽中單詞屬于同一近義詞集合的文件呈現(xiàn)為同一圖元。
2. 如權(quán)利要求l所述的方法,其特征在于所述單詞包括但不限于下列單詞的一種或幾種-英文單詞、中文單詞。
3. 如權(quán)利要求1所述的方法,其特征在于所述標(biāo)簽為短語時(shí),提取單詞的方法為將短語 分割為單詞,且每個(gè)單詞都保持原來標(biāo)簽的所有屬性;所述標(biāo)簽中的單詞為英文單詞 時(shí),采用Porter的填充算法消除單詞的單復(fù)數(shù)、時(shí)態(tài)。
4. 如權(quán)利要求1所述的方法,其特征在于所述多義詞判定模塊內(nèi)包含一多義詞字典,所 述多義詞判定模塊的工作方法為1) 采用WordNet多義詞字典判斷出每一個(gè)所述單詞是否為多義詞;2) 對(duì)于多義詞單詞提示用戶選定其中的某一項(xiàng)含義;3) 將所選定的含義作為該單詞所屬標(biāo)簽的附加內(nèi)容添加到文件的標(biāo)簽中。
5. 如權(quán)利要求l所述的方法,其特征在于所述近義詞判定模塊的判定方法為-1) 計(jì)算全部所述單詞之間的相似度;2) 判斷所述相似度值是否大于設(shè)定閾值;3) 將單詞間相似度不小于設(shè)定閾值的單詞劃分到同一近義詞集合。
6. 如權(quán)利要求l所述的方法,其特征在于所述標(biāo)簽為圖結(jié)構(gòu)呈現(xiàn)標(biāo)簽。
7. 如權(quán)利要求1所述的方法,其特征在于所述圖元的屬性包括大小、位置、顏色和形 狀。
8. 如權(quán)利要求7所述的方法,其特征在于設(shè)定標(biāo)簽所映射文件的數(shù)量參數(shù)num、文件點(diǎn)擊 頻率參數(shù)frq,根據(jù)公式size = m/附+ / 計(jì)算所述圖元大?。桓鶕?jù)用戶交互歷史記錄確 定所述圖元的顏色、形狀。
9. 一種基于標(biāo)簽的文件呈現(xiàn)系統(tǒng),其包括單詞判定模塊,用于對(duì)輸入的標(biāo)簽集合進(jìn)行單詞提取,得到標(biāo)簽中的單詞; 多義詞判定模塊,用于判斷單詞中的多義詞單詞并提示用戶設(shè)定多義詞單詞的具體含義;近義詞判定模塊,用于將單詞劃分為若干近義詞集合;圖元生成模塊,用于將標(biāo)簽中單詞屬于同一近義詞集合的文件呈現(xiàn)為同一圖元。 10.如權(quán)利要求9所述的系統(tǒng),其特征在于所述單詞判定模塊包括短語處理子模塊和單詞 處理子模塊;所述多義詞判定模塊包括單詞査找子模塊和多義詞字典;所述近義詞判 定模塊包括相似度計(jì)算子模塊和近義詞分類子模塊。
全文摘要
本發(fā)明公開了一種基于標(biāo)簽的文件呈現(xiàn)方法及其系統(tǒng),屬于計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域。本發(fā)明的方法為首先提取輸入的標(biāo)簽集合中的單詞,然后判斷單詞中是否存在多義詞并提示用戶對(duì)多義詞的具體含義進(jìn)行限定,然后將近義詞單詞劃分為若干個(gè)近義詞集合,最后將標(biāo)簽中單詞屬于同一近義詞集合的文件呈現(xiàn)為同一圖元;本發(fā)明的系統(tǒng)包括單詞判定模塊、多義詞判定模塊、近義詞判定模塊和圖元生成模塊。與現(xiàn)有技術(shù)相比,本發(fā)明克服了標(biāo)簽的同義性和多義性帶來的問題,使得用戶想要的文件能夠快速準(zhǔn)確的呈現(xiàn)出來,同時(shí)滿足了用戶的個(gè)性化需求。
文檔編號(hào)G06F17/27GK101286175SQ200810106158
公開日2008年10月15日 申請(qǐng)日期2008年5月9日 優(yōu)先權(quán)日2008年5月9日
發(fā)明者朱廣飛, 汪國(guó)平, 衡 王, 程惠閣 申請(qǐng)人:北京大學(xué)