專(zhuān)利名稱(chēng):一種文件標(biāo)簽的智能提示方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)桌面系統(tǒng)或者網(wǎng)站中,文件標(biāo)簽添加時(shí)的提示方法,特別是照片標(biāo) 簽添加時(shí)的提示方法,屬于計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域。
背景技術(shù):
近年來(lái),數(shù)字化進(jìn)程(Cyberization) [l]突飛猛進(jìn),具體體現(xiàn)在處理器、存儲(chǔ)器、 音/視頻編碼、攝像和顯示設(shè)備等方面技術(shù)的持續(xù)高速發(fā)展。這些領(lǐng)域的技術(shù)進(jìn)步使得計(jì) 算機(jī)用戶可以創(chuàng)造、獲得和管理具有越來(lái)越大數(shù)據(jù)量的信息。以數(shù)碼照片為例,隨著數(shù)碼 相機(jī)和具有拍照功能的手機(jī)的日益普及,家庭數(shù)碼照片的數(shù)量增長(zhǎng)迅速。
我們注意到,為照片添加標(biāo)簽是多數(shù)軟件工具和照片共享網(wǎng)站都提供的功能?,F(xiàn)有的 軟件工具如ACDSee [2] ,Microsoft Windows Photo Gallery [3] , Adobe Photoshop Album[4], Google Picasa[5],有代表性的照片共享網(wǎng)站Flickr. com[6]都提供為照片添加標(biāo)簽和根 據(jù)標(biāo)簽檢索照片的功能。與此同時(shí),隨著照片共享網(wǎng)站的興起和標(biāo)注標(biāo)簽用戶界面的改進(jìn), 越來(lái)越多的照片都有標(biāo)簽。在照片共享網(wǎng)站興起之前,雖然很多軟件工具也提供為照片添 加標(biāo)簽的功能,但用戶的積極性并不高[7], Ames等[8]的調(diào)査表明,與他人共享照片,成 為用戶愿意為照片添加標(biāo)簽的重要原因。標(biāo)簽作為Web2.0的主要特點(diǎn)之一,將會(huì)越來(lái)越 為用戶所接受。
近年來(lái),有大量的研究工作集中在為用戶添加標(biāo)簽提供幫助。這些研究工作主要可以 分為兩類(lèi),分別是照片分類(lèi)[9-11],以及標(biāo)簽的自動(dòng)添加或者提示[12-14]。其中,許多 照片分類(lèi)的工作都試圖將照片按照事件分類(lèi),這是因?yàn)?事件"被認(rèn)為是用戶記憶家庭照 片的重要線索。為了達(dá)到這一目的,除了采用圖像分析的方法提取底層特征,還考慮照片 的時(shí)間[9]、地點(diǎn)[10]以及拍攝參數(shù)[11]等元數(shù)據(jù)。與照片分類(lèi)不同,標(biāo)簽的自動(dòng)添加或 提示是在用戶的添加動(dòng)作發(fā)生時(shí),給用戶提供若干的標(biāo)簽備選項(xiàng),讓用戶從中選擇以完成 添加。本發(fā)明中的方法也屬于這一類(lèi)。這方面的前人工作主要集中在提示照片的人物標(biāo)簽, 通常要利用人臉、衣服紋理等模式識(shí)別的算法[12][13]。但是模式識(shí)別算法具有局限性, 比如當(dāng)人臉不是正面,或者衣服紋理不明顯時(shí),這些算法可能失效。為了克服這個(gè)不足, 在[14]中,作者提出可以利用照片內(nèi)容的上下文來(lái)加強(qiáng)標(biāo)簽預(yù)測(cè)的精度,并給出了完全基 于該上下文的照片人物標(biāo)簽的提示算法。其中,照片內(nèi)容的上下文包括照片的拍攝時(shí)間、 地點(diǎn),以及照片已有的人物標(biāo)簽等。我們注意到,除了文件內(nèi)容的上下文之外,用戶與系統(tǒng)交互歷史也包含了用戶對(duì)文件 豐富的記憶線索[15]。 Karl等人[16]通過(guò)記錄用戶操作文件時(shí)的上下文,構(gòu)建一個(gè)基于任 務(wù)(task-based)的文件分類(lèi),來(lái)幫助用戶檢索文件。操作文件時(shí)的上下文包括用戶的操 作歷史、之前一段時(shí)間內(nèi)打開(kāi)的文件、之后一段時(shí)間內(nèi)打開(kāi)的文件等等。無(wú)疑,這些交互 歷史數(shù)據(jù)對(duì)用戶添加標(biāo)簽也是有提示功能的,但是前人工作中很少涉及。
另外,本發(fā)明主要討論的是對(duì)一般文件添加標(biāo)簽的提示方法,其與對(duì)照片添加標(biāo)簽的 提示方法存在以下聯(lián)系和區(qū)別 一、照片是一般文件的一種具體形式, 一般文件也具有與 內(nèi)容相關(guān)的上下文,因此利用上下文進(jìn)行預(yù)測(cè)的方法,對(duì)一般文件也適用。二、對(duì)照片的 圖像內(nèi)容進(jìn)行分析的方法,對(duì)一般文件不適用。因?yàn)橐话阄募赡懿痪哂袌D像內(nèi)容。
綜上,前人工作的局限性主要體現(xiàn)在以下三個(gè)方面 一、討論的范圍僅僅局限于照片, 沒(méi)有提出對(duì)一般文件的標(biāo)簽提示算法;二、僅僅局限于對(duì)人物標(biāo)簽的提示,沒(méi)有將該方法 推廣至對(duì)一般標(biāo)簽的提示;三、沒(méi)有對(duì)用戶交互的歷史數(shù)據(jù)進(jìn)行充分挖掘,為用戶提供更 豐富的添加線索。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)上面提到的三個(gè)局限性,提出一種文件標(biāo)簽的智能提示方法。該 方法不僅利用文件內(nèi)容的上下文,而且利用用戶交互的歷史數(shù)據(jù),對(duì)用戶進(jìn)行標(biāo)簽提示(不 局限于人物標(biāo)簽)。
本發(fā)明通過(guò)提取文件內(nèi)容的上下文,分析用戶和操作系統(tǒng)的交互歷史,智能的產(chǎn)生一 系列的標(biāo)簽備選項(xiàng),作為對(duì)用戶添加標(biāo)簽的提示。
文件內(nèi)容的上下文,主要是與文件內(nèi)容相關(guān)的屬性。對(duì)照片而言,主要包括照片拍攝 的時(shí)間、地點(diǎn)等。
用戶交互的歷史數(shù)據(jù),主要包括當(dāng)前文件的創(chuàng)建時(shí)間、最近修改時(shí)間等。 本發(fā)明中方法的基本思想是
對(duì)從未添加過(guò)標(biāo)簽的文件找出與其具有相同或相近內(nèi)容上下文的文件,統(tǒng)計(jì)這些文 件中標(biāo)簽出現(xiàn)的頻率,頻率越高的標(biāo)簽,在當(dāng)前文件中出現(xiàn)的可能性也越大。找出交互歷 史中操作時(shí)間與當(dāng)前文件相同或相近的其他文件,統(tǒng)計(jì)這些文件中標(biāo)簽出現(xiàn)的頻率,頻率 越高的標(biāo)簽,在當(dāng)前文件中出現(xiàn)的可能性也越大。
對(duì)己經(jīng)有若干標(biāo)簽的文件找出與其具有相同或相近內(nèi)容上下文的文件,統(tǒng)計(jì)這些文 件中的標(biāo)簽與當(dāng)前文件中的標(biāo)簽同時(shí)出現(xiàn)的頻率,頻率越高的標(biāo)簽,在當(dāng)前文件中出現(xiàn)的 可能性也越大。找出交互歷史中操作時(shí)間與當(dāng)前文件相同或相近的其他文件,統(tǒng)計(jì)這些文件中標(biāo)簽與當(dāng)前文件中標(biāo)簽同時(shí)出現(xiàn)的頻率,頻率越高的標(biāo)簽,在當(dāng)前文件中出現(xiàn)的可能 性也越大。
本發(fā)明的技術(shù)方案為
一種文件標(biāo)簽的智能提示方法,針對(duì)未添加過(guò)標(biāo)簽的文件,其步驟為
1) 從文件上下文中提取一參考元素值;
2) 根據(jù)參考元素值設(shè)定一取值范圍;
3) 提取參考元素值在該取值范圍內(nèi)的文件,得到文件集^.及其對(duì)應(yīng)的標(biāo)簽集 ;.;
4) 統(tǒng)計(jì)標(biāo)簽集7;.中各元素在文件集尸,中出現(xiàn)的次數(shù)Nn
5) 從用戶交互歷史數(shù)據(jù)中提取一參考數(shù)據(jù)值;
6) 根據(jù)該參考數(shù)據(jù)值設(shè)定一取值范圍;
7) 提取參考數(shù)據(jù)值在該取值范圍內(nèi)的文件,得到文件集Q及其對(duì)應(yīng)的標(biāo)簽集r';
8) 統(tǒng)計(jì)標(biāo)簽集r'中各元素在文件集^中出現(xiàn)的次數(shù)N2;
9) 根據(jù)各個(gè)標(biāo)簽元素出現(xiàn)的次數(shù)Ni和N2對(duì)標(biāo)簽進(jìn)行排序,提示用戶選擇標(biāo)簽。 所述參考元素包括但不僅限于下列元素的一種或幾種時(shí)間、地點(diǎn)。 所述參考數(shù)據(jù)包括但不僅限于下列數(shù)據(jù)的一種或幾種創(chuàng)建時(shí)間、最近修改時(shí)間。 所述對(duì)標(biāo)簽進(jìn)行排序的方法為
1) 將所述標(biāo)簽集7;.和r'合并,記為標(biāo)簽集7;;
2) 從7;中的任一標(biāo)簽元素。其在所述文件集^.中出現(xiàn)的次數(shù)記為",,在所述文件集 0中出現(xiàn)的次數(shù)記為"2;
3) 根據(jù)公式/ -"",+V^計(jì)算該標(biāo)簽元素在當(dāng)前文件中出現(xiàn)的可能性值,其中y5為對(duì) 所述7;.中標(biāo)簽的權(quán)值,V為對(duì)所述0中標(biāo)簽的權(quán)值;
4) 將可能性值排名靠前的m個(gè)標(biāo)簽,作為結(jié)果返回給用戶。 所述權(quán)值;5、 v和所述取值范圍由系統(tǒng)設(shè)定或由用戶設(shè)定。
一種文件標(biāo)簽的智能提示方法,針對(duì)已添加過(guò)標(biāo)簽的文件,其步驟為-
1) 從文件上下文中提取一參考元素值;
2) 根據(jù)參考元素值設(shè)定一取值范圍;
3) 提取參考元素值在該取值范圍內(nèi)的文件,得到文件集^.及其對(duì)應(yīng)的標(biāo)簽集z;.;4) 統(tǒng)計(jì)7;. -7^。,中各元素與7^,中各元素在文件集^.的文件中同時(shí)出現(xiàn)的次數(shù)1^, 其中為所有S添加過(guò)標(biāo)簽文件的標(biāo)簽集;
5) 從用戶交互歷史數(shù)據(jù)中提取一參考數(shù)據(jù)值;
6) 根據(jù)該參考數(shù)據(jù)值設(shè)定一取值范圍;
7) 提取參考數(shù)據(jù)值在該取值范圍內(nèi)的文件,得到文件集Q及其對(duì)應(yīng)的標(biāo)簽集r';
8) 統(tǒng)計(jì)7;.-7^,中各元素與7^。目中各元素在文件集i;.的文件中同時(shí)出現(xiàn)的次數(shù)N2;
9) 根據(jù)各個(gè)標(biāo)簽元素出現(xiàn)的次數(shù)Ni和N2對(duì)標(biāo)簽進(jìn)行排序,提示用戶選擇標(biāo)簽。
所述參考元素包括但不僅限于下列元素的一種或幾種時(shí)間、地點(diǎn)。 所述參考數(shù)據(jù)包括但不僅限于下列數(shù)據(jù)的一種或幾種創(chuàng)建時(shí)間、最近修改時(shí)間。 所述對(duì)標(biāo)簽進(jìn)行排序的方法為
1) 將所述標(biāo)簽集7;.-7^,和標(biāo)簽集r'-7^,合并,記為標(biāo)簽集r,;
2) 從7;中的任一標(biāo)簽元素"其在所述文件集^.中出現(xiàn)的次數(shù)記為",,在所述文件集
2中出現(xiàn)的次數(shù)記為 ;
3) 根據(jù)公式/ = /9"1+^2計(jì)算該標(biāo)簽元素在當(dāng)前文件中出現(xiàn)的可能性值,其中-為對(duì)
所述;中標(biāo)簽的權(quán)值,V為對(duì)所述^中標(biāo)簽的權(quán)值;
4) 將可能性值排名靠前的w個(gè)標(biāo)簽,作為結(jié)果返回給用戶。 所述權(quán)值"、v和所述取值范圍由系統(tǒng)設(shè)定或由用戶設(shè)定。
本發(fā)明的積極效果為
本發(fā)明能夠?qū)τ脩暨M(jìn)行有效的標(biāo)簽提示,幫助用戶為文件添加標(biāo)簽。與現(xiàn)有技術(shù)相比, 本發(fā)明的主要不同之處在于同時(shí)考慮了用戶的交互歷史和文件內(nèi)容的上下文,從而為用戶 提供了更加準(zhǔn)確而豐富的標(biāo)簽提示。
圖l本發(fā)明的主體流程圖2示出了對(duì)還沒(méi)有標(biāo)上任何標(biāo)簽的文件,進(jìn)行標(biāo)簽添加提示的算法流程; 圖3示出了對(duì)己經(jīng)標(biāo)有若干標(biāo)簽的文件,進(jìn)行標(biāo)簽添加提示的算法流程。
具體實(shí)施方式
-
下面將詳細(xì)介紹本發(fā)明所采用的標(biāo)簽添加提示方法。對(duì)于已經(jīng)有若干標(biāo)簽的文件和從
未添加過(guò)標(biāo)簽的文件,我們將分開(kāi)討論。方法主要可以分成以下三個(gè)步驟 一、分析處理
文件內(nèi)容的上下文;二、分析處理用戶交互的歷史數(shù)據(jù);三、綜合前兩步的結(jié)果,給出提
示標(biāo)簽。其中第一、二兩個(gè)步驟可以并行進(jìn)行,如圖1所示。 下面給出詳細(xì)的介紹。
已知文件集合記為p,其對(duì)應(yīng)的標(biāo)簽集記為r,其中的文件數(shù)目為"。,其中文件集合
P中的文件A(l < / < A:,A: < ")為已經(jīng)添加好標(biāo)簽,還有"-A個(gè)文件沒(méi)有標(biāo)上任何標(biāo)簽。標(biāo)簽
集r為p中所有文件所含有的標(biāo)簽所組成的集合。下面僅以照片的內(nèi)容上下文為例來(lái)說(shuō)明
本發(fā)明所采用的方法。對(duì)于數(shù)碼相機(jī)拍攝的照片,其拍攝時(shí)間可以從照片文件中直接提取 (有的數(shù)碼相機(jī)還提供拍攝地點(diǎn)信息)。由此,得到文件集尸對(duì)應(yīng)的拍攝時(shí)間集合,即以尸 中所有照片的拍攝時(shí)間為元素的集合,記為t/。如果相機(jī)能夠提供拍攝地點(diǎn)的信息,那么 可以將下文中的拍攝時(shí)間參數(shù)替換為地點(diǎn)參數(shù),進(jìn)行完全類(lèi)似的處理。
對(duì)一張還沒(méi)有標(biāo)上任何標(biāo)簽的照片巧0<"),其標(biāo)簽提示算法流程如圖2所示。分析 處理文件內(nèi)容的上下文的步驟如下首先,得到其拍攝時(shí)間//,之后遍歷時(shí)間集合t/,找 到拍攝時(shí)間//',使//-//< ,其中W為時(shí)間閾值;然后,找到所有于時(shí)間/Z'拍攝的照片,
記為照片集p.,其對(duì)應(yīng)的標(biāo)簽集記為r.;最后,統(tǒng)計(jì)r.中各元素在尸,所有照片中出現(xiàn)
P P 〃
的次數(shù)。
分析處理用戶交互歷史數(shù)據(jù)的步驟如下首先,得到用戶最近/次的打開(kāi)該文件的時(shí)
間,這些時(shí)間點(diǎn)組成的集合記為及;然后,對(duì)及中的每個(gè)元素a,找出(a-c7,a + c7)時(shí)間
段內(nèi)用戶打開(kāi)的所有其他文件,這些文件所組成的集合記為^,其對(duì)應(yīng)的標(biāo)簽集記為r'; 最后,統(tǒng)計(jì)r'中各元素在g中所有文件中出現(xiàn)的次數(shù)。
在分析處理完上下文和交互歷史數(shù)據(jù)之后,得到標(biāo)簽集7;.和r',并且知道其中各元素 在各自對(duì)應(yīng)的文件集合中出現(xiàn)的次數(shù)。接下來(lái)需要從這兩個(gè)標(biāo)簽集合中選出一些標(biāo)簽,作 為提示選項(xiàng),返回給用戶。下面介紹一種篩選方法。首先對(duì)標(biāo)簽集r,和r'求并集,記為r,。 對(duì)7;中的任一元素/,假設(shè)其在^.中出現(xiàn)的次數(shù)為",,在0中出現(xiàn)的次數(shù)為"2,則其在當(dāng) 前文件中出現(xiàn)的可能性值/7二々",+v^,其中々為對(duì)7;.中標(biāo)簽的權(quán)值,v為對(duì)g中標(biāo)簽的 權(quán)值。最后,將可能性值排名靠前的m個(gè)標(biāo)簽,作為結(jié)果返回給用戶。
在上述處理過(guò)程中,時(shí)間閾值W、文件最近打開(kāi)次數(shù)/、時(shí)間跨度O"、權(quán)值/ 、權(quán)值v
以及返回給用戶的標(biāo)簽個(gè)數(shù)附,這些參數(shù)既可以由系統(tǒng)預(yù)設(shè),也可以在后端實(shí)時(shí)的對(duì)用戶 的偏好進(jìn)行學(xué)習(xí),根據(jù)用戶的反饋不斷的進(jìn)行調(diào)整。對(duì)己經(jīng)標(biāo)有若干標(biāo)簽的照片A(z、"),設(shè)己有的標(biāo)簽集合為7L^,其標(biāo)簽提示算法流
程如圖3所示。分析處理文件內(nèi)容的上下文的步驟如下首先,得到其拍攝時(shí)間//,之后 遍歷時(shí)間集合f/,找到拍攝時(shí)間//',使/^//< ,其中W為時(shí)間閾值;然后,找到所有于
時(shí)間//拍攝的照片,記為照片集/;.,其對(duì)應(yīng)的標(biāo)簽集記為7;.;最后,統(tǒng)計(jì)^,-7^_中各
元素與7^,中的元素在^.的照片中同時(shí)出現(xiàn)的次數(shù),統(tǒng)計(jì)方法如下對(duì)于7>-7^_中每 個(gè)元素"遍歷集合尸,,統(tǒng)計(jì)r與7^,中元素在,的所有照片中同時(shí)出現(xiàn)的次數(shù)",。
分析處理用戶交互歷史數(shù)據(jù)的步驟如下首先,得到用戶最近/次的打開(kāi)該文件的時(shí)
間,這些時(shí)間點(diǎn)組成的集合記為及;然后,對(duì)及中的每個(gè)元素a,找出(a-cj,a + oO時(shí)間
段內(nèi)用戶打開(kāi)的所有其他文件,這些文件所組成的集合記為0,其對(duì)應(yīng)的標(biāo)簽集記為r'; 最后,統(tǒng)計(jì)r'-7^_中各元素與7^_中的元素在0的文件中同時(shí)出現(xiàn)的次數(shù),統(tǒng)計(jì)方法 如下對(duì)于r'-7^。^中每個(gè)元素/,遍歷集合g,統(tǒng)計(jì)f與 ^,中元素在2的所有文件中
同時(shí)出現(xiàn)的次數(shù)"2。
在分析處理完上下文和交互歷史數(shù)據(jù)之后,得到標(biāo)簽集r,-7^。自和r'-rto。w ,并且
知道其中各元素與7^_中元素在對(duì)應(yīng)的文件集合中出現(xiàn)的次數(shù)。接下來(lái)需要從這兩個(gè)標(biāo)簽
集合中選出一些標(biāo)簽,作為提示選項(xiàng),返回給用戶。下面介紹一種篩選方法。首先對(duì)標(biāo)簽
集^.-7^。則和r'-7^鵬求并集,記為7;。對(duì)7;中的任一元素"已知其對(duì)應(yīng)的",與"2, 則其在當(dāng)前文件中出現(xiàn)的可能性值= pa + w2 ,其中p為對(duì)7;. 中標(biāo)簽的權(quán)值,v為
對(duì)T'-7l目中標(biāo)簽的權(quán)值。最后,將可能性值排名靠前的附個(gè)標(biāo)簽,作為結(jié)果返回給用戶。
在上述處理過(guò)程中,時(shí)間閾值W、文件最近打開(kāi)次數(shù)/、時(shí)間跨度O"、權(quán)值/ 、權(quán)值v
以及返回給用戶的標(biāo)簽個(gè)數(shù)m,這些參數(shù)既可以由系統(tǒng)預(yù)設(shè),也可以在后端實(shí)時(shí)的對(duì)用戶 的偏好進(jìn)行學(xué)習(xí),根據(jù)用戶的反饋不斷的進(jìn)行調(diào)整。
上面給出了對(duì)于已經(jīng)有若干標(biāo)簽的文件和從未添加過(guò)標(biāo)簽的文件,進(jìn)行標(biāo)簽添加提示 的算法??梢钥吹皆摲椒ㄍㄟ^(guò)提取文件內(nèi)容的上下文,分析用戶和操作系統(tǒng)的交互歷史, 計(jì)算標(biāo)簽在當(dāng)前文件中出現(xiàn)的可能性值,將可能性值排名靠前的標(biāo)簽作為提示選項(xiàng),返回 給用戶。并且可以通過(guò)后端的機(jī)器學(xué)習(xí)算法對(duì)方法中各參數(shù)進(jìn)行動(dòng)態(tài)調(diào)整。
在上文中我們給出了文件標(biāo)簽智能提示算法的流程,給出了詳盡的具體實(shí)施方案,且 均可通過(guò)軟件編程的方式實(shí)現(xiàn),軟件編程對(duì)于本領(lǐng)域普通技術(shù)人員而言無(wú)需創(chuàng)造性勞動(dòng)便 可實(shí)現(xiàn)。
參考文獻(xiàn)[I] G. Bell, The Cyber All Project: A Personal Store for Everything, JZ/crosoft jfesearc力7^c力/ i^7腺-July 2000. ACDSee. http://www.acdsee.com [3] Microsoft Windows Photo Gallery.
http:〃www. microsoft, com/windows/products/windowsvistayseeit/shaxephotos/defa ult. mspx Adobe Photoshop Album, http://www.adobe.com/products/photoshopalbum [5] Google Picasa. http://picasa.google.com [6] Flickr. com. http:/7www, flickr. com K. Rodden and K. R. Wood, How Do People Manage Their Digital Photographs, M. Ames and M. Naaman, Why We Tag: Motivations for Annotation in Mobile and Online Media, ffiT ,7, M. Cooper, J. Foote, A. Girgensohn and L Wilcox, Temporal Event Clustering for Digital Photo Collections, 爿6¥ 71ra"sac"o/76"f〃7"歷Ws 6b順""'啦M. Naaman, Y. J. Song, A. Paepcke and H. G-Molina, Automatic Organization for Digital Photographs with Geographic Coordinates, ,Z Z/似 T. Mei, B. Wang, X_S. Hua, H-Q Zhou and S, Li, Probabilistic Multimodality Fusion for Event Based Home Photo Clustering, /C J. Cui, F. Wen, R. Xiao, Y. Tian and X. Tang, EasyAlb直An Interactive Photo Annotation System Based on Face Clustering and Re-ranking, C〃尸iVW. [13]S. Yang and Y. M. Ro, Photo Indexing Using Person-based Multi-feature Fusion with Temporal Context, tarns"'o"a7 tb"/are/ ce o/7 i/由7e 〃Z^.卿'tw51M. Naaman, R. B. Yeh, H. G-Molina and A. Paepcke, Leveraging Context to Resolve Identity in Photo Albums, ft .T. Blanc-Brude and D. L Scapin. What Do People Recall about Their Documents" Implications for Desktop Search Tools, /〃尸07, ps《es -Afew ro/vt 〃", ,Z[16] K. Gy 11 strom and C. Soules. Seeing Is Retrieving: Building Information Context from What The User Sees, /〃/ '?!秔浙es 7砂-7然ife5/ 3io鵬51, fr朋Ck^aria, i^a/", i"艦
權(quán)利要求
1. 一種文件標(biāo)簽的智能提示方法,針對(duì)未添加過(guò)標(biāo)簽的文件,其步驟為1)從文件上下文中提取一參考元素值;2)根據(jù)參考元素值設(shè)定一取值范圍;3)提取參考元素值在該取值范圍內(nèi)的文件,得到文件集Pμ′及其對(duì)應(yīng)的標(biāo)簽集Tμ′;4)統(tǒng)計(jì)標(biāo)簽集Tμ′中各元素在文件集Pμ′中出現(xiàn)的次數(shù)N1;5)從用戶交互歷史數(shù)據(jù)中提取一參考數(shù)據(jù)值;6)根據(jù)該參考數(shù)據(jù)值設(shè)定一取值范圍;7)提取參考數(shù)據(jù)值在該取值范圍內(nèi)的文件,得到文件集Q及其對(duì)應(yīng)的標(biāo)簽集T′;8)統(tǒng)計(jì)標(biāo)簽集T′中各元素在文件集Q中出現(xiàn)的次數(shù)N2;9)根據(jù)各個(gè)標(biāo)簽元素出現(xiàn)的次數(shù)N1和N2對(duì)標(biāo)簽進(jìn)行排序,提示用戶選擇標(biāo)簽。
2. 如權(quán)利要求1所述的方法,其特征在于所述參考元素包括但不僅限于下列元素的一種 或幾種時(shí)間、地點(diǎn)。
3. 如權(quán)利要求1所述的方法,其特征在于所述參考數(shù)據(jù)包括但不僅限于下列數(shù)據(jù)的一種 或幾種創(chuàng)建時(shí)間、最近修改時(shí)間。
4. 如權(quán)利要求l所述的方法,其特征在于所述對(duì)標(biāo)簽進(jìn)行排序的方法為1) 將所述標(biāo)簽集7;.和r'合并,記為標(biāo)簽集r,;2) 從7;中的任一標(biāo)簽元素"其在所述文件集^.中出現(xiàn)的次數(shù)記為""在所述文件集 2中出現(xiàn)的次數(shù)記為"2;3) 根據(jù)公式p-ZH+v^計(jì)算該標(biāo)簽元素在當(dāng)前文件中出現(xiàn)的可能性值,其中"為對(duì) 所述7;.中標(biāo)簽的權(quán)值,v為對(duì)所述0中標(biāo)簽的權(quán)值;4) 將可能性值排名靠前的;n個(gè)標(biāo)簽,作為結(jié)果返回給用戶。
5. 如權(quán)利要求4所述的方法,其特征在于所述權(quán)值々、v和所述取值范圍由系統(tǒng)設(shè)定或由用戶設(shè)定。
6. —種文件標(biāo)簽的智能提示方法,針對(duì)已添加過(guò)標(biāo)簽的文件,其步驟為1) 從文件上下文中提取一參考元素值;2) 根據(jù)參考元素值設(shè)定一取值范圍;3) 提取參考元素值在該取值范圍內(nèi)的文件,得到文件集^.及其對(duì)應(yīng)的標(biāo)簽集r,;4) 統(tǒng)計(jì)7;. -:^foJ。w"中各元素與^to。w 中各元素在文件集^.的文件中同時(shí)出現(xiàn)的次數(shù)N1,其中為所有已添加過(guò)標(biāo)簽文件的標(biāo)簽集;5) 從用戶交互歷史數(shù)據(jù)中提取一參考數(shù)據(jù)值;6) 根據(jù)該參考數(shù)據(jù)值設(shè)定一取值范圍;7) 提取參考數(shù)據(jù)值在該取值范圍內(nèi)的文件,得到文件集Q及其對(duì)應(yīng)的標(biāo)簽集r';8) 統(tǒng)計(jì)rw 中各元素與rw 中各元素在文件集的文件中同時(shí)出現(xiàn)的次數(shù)n2;9) 根據(jù)各個(gè)標(biāo)簽元素出現(xiàn)的次數(shù)n,和N2對(duì)標(biāo)簽進(jìn)行排序,提示用戶選擇標(biāo)簽。
7. 如權(quán)利要求6所述的方法,其特征在于所述參考元素包括但不僅限于下列元素的一種 或幾種時(shí)間、地點(diǎn)。
8. 如權(quán)利要求6所述的方法,其特征在于所述參考數(shù)據(jù)包括但不僅限于下列數(shù)據(jù)的一種或幾種創(chuàng)建時(shí)間、最近修改時(shí)間。
9. 如權(quán)利要求6所述的方法,其特征在于所述對(duì)標(biāo)簽進(jìn)行排序的方法為1) 將所述標(biāo)簽集7;.-:^。柳和標(biāo)簽集r'-7^^合并,記為標(biāo)簽集7;;2) 從r,中的任一標(biāo)簽元素f,其在所述文件集^.中出現(xiàn)的次數(shù)記為",,在所述文件集2中出現(xiàn)的次數(shù)記為"2;3) 根據(jù)公式/^y^+V^計(jì)算該標(biāo)簽元素在當(dāng)前文件中出現(xiàn)的可能性值,其中"為對(duì)所述7;.中標(biāo)簽的權(quán)值,V為對(duì)所述^中標(biāo)簽的權(quán)值;4) 將可能性值排名靠前的m個(gè)標(biāo)簽,作為結(jié)果返回給用戶。
10. 如權(quán)利要求9所述的方法,其特征在于所述權(quán)值/ 、 v和所述取值范圍由系統(tǒng)設(shè)定 或由用戶設(shè)定。
全文摘要
本發(fā)明公開(kāi)了一種文件標(biāo)簽的智能提示方法,屬于計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域。本發(fā)明的方法通過(guò)利用文件內(nèi)容的上下文和用戶交互的歷史數(shù)據(jù),對(duì)用戶進(jìn)行標(biāo)簽添加時(shí)提供智能的提示。與現(xiàn)有技術(shù)相比,本發(fā)明能夠?yàn)橛脩籼峁└訙?zhǔn)確而豐富的標(biāo)簽提示。
文檔編號(hào)G06F17/30GK101286174SQ20081010615
公開(kāi)日2008年10月15日 申請(qǐng)日期2008年5月9日 優(yōu)先權(quán)日2008年5月9日
發(fā)明者朱廣飛, 汪國(guó)平, 衡 王 申請(qǐng)人:北京大學(xué)