專利名稱::通過對信息新穎性和動態(tài)學(xué)的分析來個性化新聞饋送的原理和方法
技術(shù)領(lǐng)域:
:本發(fā)明-般地涉及計(jì)算機(jī)系統(tǒng),尤其涉及通過信息動態(tài)學(xué)(Dynamics)自動化分析來個性化諸如新聞之類的信息時(shí)間流的系統(tǒng)和方法。(2)
背景技術(shù):
就在十年以前,諸如新聞饋送(newsfeeds)的大規(guī)模信息流動被專門進(jìn)行信息供應(yīng)的組織所擁有、監(jiān)控和過濾。萬維網(wǎng)Web給所有有興趣的用戶帶來了管理和吸取新聞饋送的挑戰(zhàn)和機(jī)遇。識別"重要"信息成為了Web搜索和文本歸納概括的研究中一個基本的方面。搜索方法關(guān)注于最大程度滿足用戶亟需需求的文檔集。歸納概括工作努力地將大數(shù)量的文本壓縮成更加簡潔的程式。在缺少與文本相關(guān)聯(lián)的識別深層語義的自動化方法的情況下,以前的歸納概括工作一般是在完整句子的級別上操作,把最具有代表性的句子交織在一起以創(chuàng)建一篇摘要。對搜索和概括的研究一般忽視了情報(bào)內(nèi)容隨時(shí)間持續(xù)到達(dá)的動態(tài)學(xué)方面(Dynamics)。(3)
發(fā)明內(nèi)容以下是本發(fā)明的一個簡要概括,以便提供對本發(fā)明中一些方面的基本理解。這個部分不是本發(fā)明的規(guī)范縱覽。它并不是要確定出本發(fā)明中的重要/關(guān)鍵元素或者描繪其范圍。它唯一的目的是用一種簡化的形式給出本發(fā)明的一些概念,作為后續(xù)更詳盡說明的序幕。本發(fā)明提供了識別信息新穎性的系統(tǒng)和方法,以及這些方法如何被應(yīng)用于管理隨時(shí)間變化的信息內(nèi)容的系統(tǒng)和方法。提供了一個一般框架用來比較文檔集,借此框架可假定文檔能按照它們的內(nèi)容或來源來編組,并可分析出組間和組內(nèi)的差異與共性。例如,將兩組屬于相同主題但得自不同來源的文檔并列起來,諸如,在世界不同區(qū)域的對某一個事件的消息覆蓋能揭示對情勢的觀點(diǎn)和總體闡述方面的差異。從靜態(tài)文集過渡到隨時(shí)間產(chǎn)生的稿件集,可以對內(nèi)容的演化進(jìn)行研究。例如,可以研究在一個時(shí)期就同一個故事形成的一系列新聞稿件,以期凸顯真正有內(nèi)容的信息更新并濾除大量的在很大程度重復(fù)"炒冷飯"的稿件??梢运鸭嘘P(guān)諸文檔集中的詞頻(wordoccurence)的詳細(xì)統(tǒng)計(jì)數(shù)據(jù),以表征這些文檔集之間的差異性和相似性。各種的字詞模型可以通過提取表示人物、組織和地理位置的名稱的命名實(shí)體來增強(qiáng)。由于缺少充足的統(tǒng)計(jì)數(shù)據(jù),詞組和搭配的區(qū)別性語義屬性往往被勝出(outweighed),與此形成對比的是,命名實(shí)體識別那些相對固定的被許多作者在--個特定主題中以一種普遍的方式使用的記號(token),因此他們的使用貢獻(xiàn)了相當(dāng)數(shù)量的消息。例如,所提供的一種類型的分析用在其中發(fā)現(xiàn)的命名實(shí)體來表示這些稿件。分析可以關(guān)注于當(dāng)前的新聞流或其它主題。當(dāng)前新聞流形成對研究急切的挑戰(zhàn)和機(jī)遇。新聞饋送涵蓋大量的信息、給出豐富的想法和觀點(diǎn)、也包含有豐富多彩形式和內(nèi)容,從即時(shí)新聞的簡短的最新消息、到故事展開的重要的摘要、再到單純的對一再報(bào)到的"陳年舊事"的喋喋不休??梢蚤_發(fā)確定所追蹤的故事的重要更新的算法,把用戶們從必須詳審一長串從不同的來源到達(dá)的相似稿件中解放出來。根據(jù)本發(fā)明所提供的方法提供了個性化新聞門戶和新聞快報(bào)服務(wù)的基礎(chǔ),它們尋求對需要跟蹤演化中的新聞報(bào)道的用戶最大限度地減少時(shí)間和中斷。本發(fā)明提供各種為用戶分析信息和過濾內(nèi)容的體系結(jié)構(gòu)組件。首先,提供了一個框架,用于通過分析字詞和已識別的命名實(shí)體的分布來標(biāo)識文檔集中的差異。該框架可被應(yīng)用于比較單個的文檔、文檔集、或一個文檔和一個文檔集。(例如,一篇新稿件對一個有關(guān)該主題的先前評審過的新聞稿件集)。其次,在當(dāng)前新聞流(或其他時(shí)間演化流)上進(jìn)行操作的一個算法集向用戶提供個性化新聞經(jīng)歷。這些算法已經(jīng)在一個把最有內(nèi)容的信息更新呈現(xiàn)給用戶的叫做NewsJunkie的示例系統(tǒng)中實(shí)現(xiàn)了。用戶可以每隔一段用戶定義的時(shí)間或每到有關(guān)故事的報(bào)道突發(fā)的時(shí)候請求更新。用戶也可以調(diào)節(jié)這些更新與核心報(bào)道的相關(guān)性到所需程度,以允許遞送與相關(guān)或相似故事的衍生性稿件。而且,提供了---種評估方法,該方法向用戶提供單個種子報(bào)道以及和多組根據(jù)不同新穎性評估度量(metrics)排列的稿件,且該方法尋求理解參與者是如何感知在種子報(bào)道的上下文環(huán)境中的這些文檔集的新穎性的。為達(dá)到前述的和相關(guān)的目標(biāo),本發(fā)明的特定說明性方面結(jié)合下列描述和附圖來進(jìn)行描述。這些方面指示了本發(fā)明可被實(shí)踐的各種方式,所有這些方式都由本發(fā)明所涵蓋。結(jié)合附圖閱讀以下本發(fā)明的詳細(xì)描述,本發(fā)明的其他優(yōu)點(diǎn)和新穎性特征會變得更清楚。(4)圖1是-一個示意圖,例示了根據(jù)本發(fā)明的一個方面的信息動態(tài)學(xué)系統(tǒng)。圖2是一個框圖,例示了根據(jù)本發(fā)明的一個方面的用于比較文本集的框架。圖3是一個流程圖,例示了根據(jù)本發(fā)明的一個方面的信息新穎性過程。圖4是一個圖表,例示了根據(jù)本發(fā)明的一個方面的結(jié)果排序。圖5例示了根據(jù)本發(fā)明的一個方面的個性化的更新過程。圖6例示了根據(jù)本發(fā)明的一個方面的新穎性信號。圖7例示了根據(jù)本發(fā)明的一個方面的示例稿件關(guān)系。圖8-11例示了根據(jù)本發(fā)明的一個方面的示例用戶接口。圖12是一個示意性框圖,例示了根據(jù)本發(fā)明的一個方面的合適的操作環(huán)圖13是一個本發(fā)明能可與其交互的樣品計(jì)算環(huán)境的示意框圖。(5)具體實(shí)施方式本發(fā)明涉及識別信息的新穎性并在信息隨時(shí)間而演化的時(shí)候?qū)ζ鋬?nèi)容進(jìn)行管理的系統(tǒng)和方法。在一個方面,提供了一種系統(tǒng)用于分配個性化信息。該系統(tǒng)包括確定兩個或更多信息項(xiàng)目之間的差異的組件。部分地基于所確定的差異并隨著與信息項(xiàng)目有關(guān)的數(shù)據(jù)隨時(shí)間而演化,一分析器確定出信息項(xiàng)目的一個子集。還提供了各種不同的方法。在一個方面,用于創(chuàng)建個性化信息的方法包括自動分析來自不同信息源的文檔并自動確定文檔的新穎性。然后,基于文檔的新穎性向用戶提供個性化的信息饋送。本發(fā)明的系統(tǒng)和方法可被應(yīng)用于多個不同的應(yīng)用上。這些應(yīng)用包括有助于對有關(guān)某一個主題的尚未看過的新聞報(bào)道以理想的閱讀序列或路徑進(jìn)行設(shè)計(jì)的應(yīng)用,指的是在從現(xiàn)在起的不同的時(shí)間范圍里面未讀的。為了設(shè)計(jì)趕上新聞潮流(catchuponnews)的序列,諸應(yīng)用考慮最近的新聞報(bào)道而且同時(shí)考慮一定時(shí)間上的新聞猝發(fā),以幫助人們理解新聞報(bào)道的來龍去脈并按主要的事件/更新來導(dǎo)航故事的歷史。其他的應(yīng)用包括開發(fā)不同類型的顯示設(shè)計(jì)和隱喻(metaphor),比如時(shí)間線視圖(time-lineview)的使用或其他的方面諸如時(shí)間群概念。涉及到在一個主題里面在即時(shí)新聞報(bào)道(breakingnewsstory)的桌面和移動設(shè)定的理想快報(bào),一個應(yīng)用允許用戶指定主題或關(guān)鍵字,但是只有當(dāng)給用戶所讀的有足夠的新穎性時(shí)才給出快報(bào)。對于以關(guān)鍵字為基礎(chǔ)的方法,如果信息新穎性足夠,當(dāng)一個新聞報(bào)道中有關(guān)鍵字出現(xiàn)的時(shí)候,才提供快報(bào),因此這一方法比簡單的關(guān)鍵字為中心的快報(bào)方案更為有用。如在本申請中所用,術(shù)語"組件"、"對象"、"分析器"、"系統(tǒng)"等等是用來指代與計(jì)算機(jī)相關(guān)的實(shí)體,或者是硬件、硬件與軟件相結(jié)合、軟件、或者是正在運(yùn)行中的軟件。例如,一個組件可以是,但并不限于是,在一個處理器上運(yùn)行的進(jìn)程、一個處理器、一個對象、可執(zhí)行的一條執(zhí)行線程、一個程序、和/或一部計(jì)算機(jī)。作為一個例示,在服務(wù)器上運(yùn)行的應(yīng)用程序與服務(wù)器都可以是一個組件。一個或更多的組件可以駐留于一個進(jìn)程和/或執(zhí)行的的一條線程,而且一個組件可以在一部計(jì)算機(jī)上被局域化和/或在兩個或更多的計(jì)算機(jī)之間分布。同時(shí),這些組件能在其上存儲有各種數(shù)據(jù)結(jié)構(gòu)的計(jì)算機(jī)可讀媒質(zhì)上執(zhí)行。這些組件可以經(jīng)由局部的和/或遠(yuǎn)程的進(jìn)程進(jìn)行通信,諸如根據(jù)--個擁有一個或多個數(shù)據(jù)分組的信號(例如,來自通過該信號與在一本地系統(tǒng)、分布式系統(tǒng)中的另一組件交互的一個組件的、和/或通過因特網(wǎng)等網(wǎng)絡(luò)與其他系統(tǒng)交互的一個組件的數(shù)據(jù))。參照圖1,根據(jù)明本發(fā)明的一個方面例示了一個信息動態(tài)學(xué)系統(tǒng)100。本發(fā)明提供了系統(tǒng)和方法,用于識別信息新穎性,以及這些方法是如何被用于管理那些隨時(shí)間推移而變化的信息內(nèi)容。提供了一個一般的框架IOO用于通過比較器114來比較諸文檔集110,借助比較器114,根據(jù)其各自的內(nèi)容或來源120,諸文檔被分成組,并由分析器130來進(jìn)行組內(nèi)與組間差異性與共性的分析。例如,將兩個或多個關(guān)于相同主題但來源不同的兩組或多組文檔或文件進(jìn)行并置,例如,世界不同地區(qū)對于同一件事件的新聞報(bào)道,可以顯示出各地之間對于這一事件的觀點(diǎn)和總體詮釋方面有趣的差異。從靜態(tài)的收集過渡到隨時(shí)間的變遷而產(chǎn)生的各種文章的集合,可以對內(nèi)容的演化加以研究。例如,可以對同--個故事在不同的時(shí)間所發(fā)的一系列新聞稿件加以研究,目的是凸顯那些真正具啟示性內(nèi)容的更新,并藉由與分析器130協(xié)作的信息過濾器140濾除大量的文章,以在150處遞傳出個性化的信息。可以對諸文檔集中的詞頻收集詳細(xì)的統(tǒng)計(jì)數(shù)據(jù),以便農(nóng)征這些文檔集之間的差異性和相似性。例如,基于字的模剛可藉由提取表示人物、組織和地理位覽名稱的命名實(shí)體而被增強(qiáng)。與片語和搭配相反一其區(qū)別性語意屬性通常由于統(tǒng)計(jì)不足而被忽略一命名實(shí)體標(biāo)識相對較穩(wěn)定的記號(token),這些記號是許多作者在一給定主題上以一種通用的方式使用是,因此它們的使用就貢獻(xiàn)相當(dāng)數(shù)量的信息。所提供的一種分析類型使用在文章中發(fā)現(xiàn)的命名實(shí)體來代表文章。分析可以把重心集中在新聞的當(dāng)前流或其它數(shù)據(jù)時(shí)間流上。在一個例子中,新聞饋送中涵蓋了大量的信息,呈現(xiàn)出多個意見和觀點(diǎn),而且包括豐富多彩格式和內(nèi)容,從有關(guān)即時(shí)新聞的簡短快訊,到故事發(fā)展的重要的摘要,再到舊的事實(shí)的一再重復(fù)??梢栽诒容^器114、分析器130、和/或過濾器140中提供在下面將被更詳細(xì)地描述的算法,該算法標(biāo)識有關(guān)報(bào)道或追蹤中的流的更新,從而把用戶從必須篩選一大串來自不同新聞來源的相似的文章的困擾中解放出來。在150,各種不同的方法提供基礎(chǔ)給個性化的新聞門戶和新聞快報(bào)服務(wù),其目的是能夠最大限度地減少希望要追蹤一個故事的發(fā)展過程的用戶在時(shí)間和中斷方面的麻煩。需要了解的是,雖然本發(fā)明的一個方面可以適用于分析和過濾信息,例如新聞,但實(shí)質(zhì)上任何在時(shí)間上演化的信息流都可以根據(jù)本發(fā)明來處理。同時(shí),可以從不同的信息來源收集信息,例如從用戶的膝上型電腦、移動裝置、臺式計(jì)算機(jī),其中此類信息可以被高速緩存(例如,集中性的服務(wù)器)并依照用戶先前已觀察的信息加以分析。同樣地,信息可以從多個來源中生成,例如因特網(wǎng),或在一個公司局域網(wǎng)之類的局部環(huán)境中生成。現(xiàn)在參照圖2,根據(jù)本發(fā)明的一個方面示出了用于比較文本集的框架210。如果有兩個或更多的文本內(nèi)容的集合,要確定是如何表征諸集合之間的差異的。確定差異在多中應(yīng)用方面都是有用的,包括文本集的自動簡介與比較、文本所反映的不同觀點(diǎn)、范圍與興趣的自動標(biāo)示以及新信息的自動標(biāo)識。一般而言,"差異"的若干方面可以調(diào)査如下在220,內(nèi)容的差異可反映一個特別的人或事件在諸文檔集中被描述的不同方式。例如,考慮分析預(yù)定分區(qū)中的差異,例如,比較美國和歐洲的關(guān)于各種不同的政治議題的報(bào)告,或比較美國東海岸和西海岸的新聞來源對于東海岸的停電的報(bào)導(dǎo)。在230,結(jié)構(gòu)性組織上的差異可能不止于在文本內(nèi)容,還要考慮網(wǎng)站的鏈接結(jié)構(gòu),例如,比較IBM網(wǎng)站和Intel網(wǎng)站。在240,在時(shí)間上的差異(即,內(nèi)容差異的時(shí)間方面)能揭示在一系列文檔的主題上的有趣改變。這種類型的分析可用于將一個月或一年以前的新聞與今天的新聞相比較,以便追蹤搜索引擎的詢問日值隨時(shí)間的改變,或者以便識別在用戶的個人電子郵件的主題方面隨時(shí)間的改變。時(shí)間上的差異包括自動評估來自當(dāng)前新聞饋送的詢問稿件的新穎性(或其他類型的信息)隨時(shí)間的變化。具體地,考慮下列各方面在250,在新聞報(bào)道中表征新穎性,允許將新聞稿件排序以便每個稿件向先前閱讀的或呈現(xiàn)的項(xiàng)目(集合)添加最多的信息。在260,隨時(shí)間的變化分析主題的演化,這使得能夠?qū)π侣劯碌闹匾约跋嚓P(guān)性進(jìn)行定量化、授予用戶對這些參數(shù)的控制而且提供他們一種個性化的新聞體驗(yàn)。圖3是一種方法學(xué)300,舉例說明根據(jù)本發(fā)明的一個方面來表征新穎性的過程。盡管為了解釋的簡潔起見,這種方法是通過一系列動作來表示并加以描述的,但應(yīng)該理解的是本發(fā)明不受動作順序的限制,根據(jù)本發(fā)明,某些動作可以不同順序進(jìn)行,和/或同時(shí)與這里描述的其他動作同時(shí)進(jìn)行。例如,本領(lǐng)域技術(shù)人員會懂得,方法學(xué)可以另外以一系列相關(guān)狀態(tài)或事件的形式來加以表達(dá),例如作為狀態(tài)圖表。而且,不是所有的動作都要用在實(shí)現(xiàn)根據(jù)本發(fā)明的方法之中。進(jìn)行到310,開發(fā)了各種工具來實(shí)現(xiàn)并測試算法的性能。一個這樣的軟件工具集被命名為"NewsJunkie",它實(shí)現(xiàn)了一個算法集和眾多可視化選項(xiàng)用于對文本集進(jìn)行比較。NewsJunkie將文檔表現(xiàn)為一組字詞,這些字詞被從文本中提取出的命名實(shí)體所加強(qiáng)(augmented)。普通的提取工具也應(yīng)用于此目的,可以標(biāo)識人物、組織以及地理位置的名稱。在320,確定要在文檔里比較的元素。一般而言,文檔組包括有共同屬性的文檔,而且構(gòu)成比較的基本單位。共同屬性的例子可以是新聞的特定主題或來源(例如,來自東海岸新聞機(jī)構(gòu)的停電報(bào)道)。通過為每一組建立一個模型來對文檔組之間的差異作出推論,然后用如下所述的相似性度量來對這些模型進(jìn)行比較。為了方便探究多種模型,NewsJunkie將文檔要么描述為對于所有特征(字詞+命名實(shí)體)的修勻幾率分布,要么描述為加權(quán)特征的矢量扮演重要角色(在同一特征空間)。權(quán)重可以按照流行的TF.IDF函數(shù)族來賦值,TF.IDF函數(shù)是用分量(component)來代表一個文檔中的詞頻以及在文檔間詞頻的反數(shù)(inversefrequencyoftermoccurrence)。也可以用幾率加權(quán)函數(shù)。不同的修勻選項(xiàng)可被實(shí)現(xiàn)以改善詞語項(xiàng)的估算。例如,拉普拉斯連續(xù)性定律(Laplace'slawofsuccesion),或者與整個文本集中的字詞幾率進(jìn)行線性修勻;后一選項(xiàng)在下面描述的實(shí)驗(yàn)都用了。注意,不止一個修勻選項(xiàng)可在此系統(tǒng)中實(shí)施。在圖3中的330,確定了相似性度量以確定信息項(xiàng)目之間的差異。一種通常的情形就是在世界的某個地方有有趣的事發(fā)生,該事件就被新聞媒體所報(bào)道。如果事件能夠引起充分的民眾興趣,那么其接踵而來的發(fā)展也在新聞中被追蹤。假如讀到了開始的報(bào)導(dǎo),稍后,用戶就會有興趣跟上故事的發(fā)展。因?yàn)橛辛藚R集數(shù)以千計(jì)新聞來源的因特網(wǎng),用戶敏銳的尋求信息的目標(biāo)有多種方式可以滿足,而且其更新之多甚至最熱望的新聞讀者都沒有時(shí)間一一過目。從大量文檔中篩選有關(guān)某一個問題的真正最新信息的自動工具也就具有很大的價(jià)值。因此,避免冗余和重疊能幫助將與追蹤新聞報(bào)道相關(guān)聯(lián)的開銷減到最少。通常,新聞報(bào)道中充斥著冗余。例如,當(dāng)預(yù)期有新的發(fā)展或調(diào)査結(jié)果,但是尚未獲得新的信息時(shí),新聞機(jī)構(gòu)時(shí)常用早期發(fā)展的摘要來填補(bǔ)這一空白直到有了新的信息。有-一個現(xiàn)實(shí)使情形被進(jìn)一步惡化許多新聞機(jī)構(gòu)的部分內(nèi)容通常從一些主要的跨國新聞機(jī)構(gòu)諸如路透社或美聯(lián)社獲得的。新聞網(wǎng)站的用戶不想反反復(fù)復(fù)地閱讀每一條信息。用戶主要對新的東西感興趣。因此,按照新穎性來對新聞稿件進(jìn)行排序一定會是有用的。在330,許多的文檔相似性度量可以被用來識別與一給定的文檔集(例如,先前已讀過的文檔集)差異最大的諸文檔,其中,定義了一個術(shù)語"距離"度量來強(qiáng)調(diào)這樣一個事實(shí),即所要搜尋的是與一個文檔集在最大程度上不相似的文檔。以下各項(xiàng)距離度量可被實(shí)現(xiàn),Kullback-Leibler(KL)發(fā)散,一個經(jīng)典的不對稱信息論尺度。假定計(jì)算文檔d和一文檔集R之間的距離。用Pd和pK來分別表示在d(—個文檔)和R(-組文檔)中字詞(以及命名實(shí)體,如果有的話)的幾率分布。那么,W"KL(Pd;PR)=ZA(w)log^。注意算式log^的計(jì)算需要把兩個分布都進(jìn)行修勻以減少零值(對應(yīng)于在d中出現(xiàn)但是不在R中出現(xiàn)的字詞,反之亦然)。Jensen-Shannon(JS)發(fā)散,KL發(fā)散的一個對稱變體。使用先前的項(xiàng)目定義,^.(M),"M),Q』,其中《=""。原始幾率矢量的余弦(計(jì)算不需要修勻的幾率)。TF.IDF特征權(quán)重矢量的余弦。一個定制度量,制定來測量一個稿件(稱為NE)中先前未見過的命名實(shí)體的密度。對于這個度量的直感是基于這樣一個的猜想新信息時(shí)常是通過引入新命名實(shí)體來傳達(dá)的,諸如人物、組織和地點(diǎn)的名稱。NE度量可定義如下令NE(R)為一組文檔R中有的一組命名實(shí)體。令NEu(R,;R2)是一組在一組文檔R,中出現(xiàn)并且在組R2中沒有出現(xiàn)的獨(dú)特的命名實(shí)體。S卩,A^XR,;R2)=e瓶")aeg細(xì)(A)}。則afo^W;i)=A^w({,/)〃ewg晰力。用文檔長度進(jìn)行標(biāo)準(zhǔn)化通常是必要的,因?yàn)槿绻贿M(jìn)行標(biāo)準(zhǔn)化,NE的得分往往隨長度而增加,由于長度對于觀察到另外的命名實(shí)體的幾率是有影響的;文檔越長,它包含較多命名實(shí)體的幾率就越大。在圖3中的340,距離度量可被利用來為向用戶呈現(xiàn)而識別新信息內(nèi)容。在NewsJunkie應(yīng)用中,以迭代方式應(yīng)用一個新穎性排序算法以產(chǎn)生一小組一個讀者可能感興趣的稿件。采用一項(xiàng)希望、遞分析法。該算法最初實(shí)質(zhì)上把所有可得更新與用戶已讀的種子(seed)報(bào)道進(jìn)行比較,且選擇與它相似性最小的稿件。該稿件然后被添加到種子報(bào)道(形成一個包括兩個文檔的組),該算法尋找與這些被組合的稿件最不相似的下-一個更新,等等。該排序算法的偽碼被概略說明在以下的算法RankNewsByNovelty中。算法RankNewsByNovelty(cZ/W'seed,£>,w)R—seec/"initializationfor/=1tomin(w,dod—argmaxdeD{cfo""'.,}—/U{t/};£>—£>\{力其中dist是距離度量,seed是種子報(bào)道,D是一組相關(guān)的更新,n是要選擇的期望更新的數(shù)量,R是按新穎性排序的稿件列表。為了驗(yàn)證以上給出的算法和距離度量,做了一個實(shí)驗(yàn),要求對象對按許多距離度量排序的詢問報(bào)道集進(jìn)行評估。對于在此處描述的實(shí)驗(yàn),使用了一個聚集來自超過4000個英特網(wǎng)源的新聞稿件的當(dāng)前新聞饋送。采用了一個來自MoreoverTechnologies公司的新聞饋送(newsfeed),盡管任何其他新聞或RSS饋送都能使用。使用一個聚類算法使報(bào)道分成討論相同事件(以下稱為"主題")的小組。用了十二個組群來對應(yīng)于在2003年九月中旬的新聞中報(bào)導(dǎo)過的主題。這12個主題涵蓋了跨越了2到9天的新聞報(bào)道,且代表36到328份稿件。主題包括了新加坡爆發(fā)的SARS、加州州長的罷免、教皇對斯洛文尼亞的訪問、等等。一般,判斷新穎性是一個主觀性的工作。要獲得統(tǒng)計(jì)學(xué)上有意義的結(jié)果的一種方式是把一組用戶的判斷取平均值。為了要比較不同的新穎性排序度量,參加者被要求閱讀按交替度量排序的若干組稿件并確定哪些組承載最新穎性的信息。注意,該場景通常要求評估者一直緊記他們讀過的稿件集直到對它們做出等級估價(jià)。因?yàn)殡y以牢記若干組有關(guān)一個不熟悉的主題的稿件,實(shí)驗(yàn)就被限制到評估下列三個度量.KL發(fā)散由于它的信息論基礎(chǔ)(KL)吸引人而被選中。2.計(jì)數(shù)命名實(shí)體的度量被選中作為一個語言學(xué)動機(jī)的替代選擇(NE)。3.稿件的按年代排序被當(dāng)作基線使用(ORG)。就這12個主題中的每個而言,第一個報(bào)道被選作種子報(bào)道(seedstory),使用以上描述的三個度量通過RANKN図B丫NOVELTY算法按新穎性對其余稿件做出排序。這個算法首先選擇對于種子報(bào)道為最新穎的稿件。該稿件然后被添加到種子報(bào)道以形成一個用戶所熟悉情況的新模型,然后是選擇下一個最新穎性的稿件。有三個稿件以該方式為三個度量中的每一個和12個主題中的每一個選擇。對于每個主題,對象首先被要求閱讀種子報(bào)道來得到有關(guān)主題的背景。然后向他們顯示稿件的三個組合(每個組合按度量之一選擇),而且要求他們按照從最新穎性的組合到最不新穎性的組合做出分級估價(jià)。給他們的指令是要求把任務(wù)考慮成他們要為一個審查過種子報(bào)道而現(xiàn)在需要了解有什么新東西的朋友確定選擇的稿件組。從按三個度量生成的呈現(xiàn)順序在參與者之間進(jìn)行隨機(jī)化處理。圖4是一個曲線圖400,舉例說明了根據(jù)本發(fā)明的一個方面的結(jié)果排序。總體上,得到了12個主題的111個用戶判斷,平均每主題9-10個判斷。圖4顯示了每個度量被估價(jià)為最新穎、中等新穎、最不新穎的次數(shù)。從曲線圖400可看出,由KL和NE度量產(chǎn)生的組合按比基線度量(ORG)產(chǎn)生的組合被更多地估價(jià)出為新穎。<table>tableseeoriginaldocumentpage15</column></row><table>表I:按主題排列的結(jié)果表1表示每一主題的結(jié)果。三個倒數(shù)第二欄顯示了每個度量被估價(jià)為每個主題的最新穎的次數(shù)。最后三欄顯示了度量的平均等級,假定最新穎的為l,中等新穎的為2,和最不新穎性的為3。用WilcoxonSignedRanksTest(威爾考克森符號等級測試法)來估定實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)學(xué)意義。就所有主題對度量的平均等級(如圖4所所歸納)進(jìn)行比較,發(fā)現(xiàn)KL和NE優(yōu)于ORG,p<0.001。考慮個別的分主題結(jié)果,度量ORG沒有達(dá)到所有三個度量的最低(二最好)等級。在六種情況下(主題2,4,5,6,9,12),在ORG和得分最低的度量之間的平均等級的差異在pO.05時(shí)是具有統(tǒng)計(jì)學(xué)重要性的,在一個附加的情形中,有重要意義的是在pi.068(主題8)的邊界線。比較兩個最好的度量(KL對NE),有利于KL的差異是在pO.05上對主題4和6有統(tǒng)計(jì)學(xué)重要性,對主題9的有邊界線重要性(p-0.083)。在平均等級上有利于NE的差異對主題2和3有邊界線重要性(分別為p二0.096和p二0.057)。圖5舉例說明了根據(jù)本發(fā)明一個方面的個性化更新過程500。在先前部分中呈現(xiàn)且評估的算法RankNewsByNovelty往往是在一個假定下工作,即用戶是希望在最初讀過某篇報(bào)道之后要跟上最新的故事發(fā)展。在這種情況下,算法按照與種子報(bào)道相比較的新穎性排序最近的稿件,然后用戶根據(jù)他或她能為閱讀分派多少空余時(shí)間來閱讀而選擇一定數(shù)量的得分最高的稿件。然而,如果用戶想要隨著新發(fā)展的實(shí)際發(fā)生而連續(xù)地得到更新又會怎樣?諸如文檔集服務(wù)器的后方支持要追蹤用戶閱讀的稿件,以便對在新聞或信息饋送中流傳送的新根據(jù)進(jìn)行新穎性評估?;谟脩舻膫€人偏愛,例如,用戶多久會對得到故事的更新感興趣,服務(wù)器確定顯示哪些稿件。因此,可提供一個在線確定制,確定是否--個稿件包含有充足的新信息來保證向用戶的遞送。在一個對快報(bào)的成本效益較為一般的分析中,有機(jī)會基于他們的環(huán)境用中斷用戶的代價(jià)去平衡特定稿件或稿件組的信息價(jià)值。以下討論用當(dāng)前新聞更新用戶的不同場景。在510的單一場景更新中,系統(tǒng)假設(shè)用戶對得到周期性更新感興趣,而第二個場景通過在520監(jiān)控新到達(dá)的新聞尋找新穎信息的猝發(fā)來持續(xù)不斷地更新用戶。同時(shí),可提供一個機(jī)制,允許用戶控制期望被更新的稿件的新穎性(更詳細(xì)地在下面描述)的類型且在530闡述為用類型表征稿件。關(guān)于在510的單一更新,考慮當(dāng)用戶希望看到的不超過故事的周期性更新的情形。達(dá)成這一個目標(biāo)的一個方式是使用類似于RankNevvsByNovelw的一個算法,亦即,累積在過去的幾天內(nèi)內(nèi)收到的報(bào)道,通過計(jì)算今天到達(dá)的每個新報(bào)道對于所累積的報(bào)道集的距離來評估每一報(bào)道的新穎性。這種方式的一個問題就是集中的報(bào)道越多,從任何的新報(bào)道到累積集的距離的重要性越差。在稿件幾天的稿件被累積之后,甚至是主要的更新也將會被看到幾乎不是是新的了。為了要避免這個缺陷,原始的新穎性算法被修正如下,提取-一個周期性的更新。作為一個具體的例子,用的時(shí)間段是一天,因此,算法為用戶識別每日的更新。在給定了用戶和他們的選擇追蹤的主題后,算法PickDailyUpdate把今天收到的稿件和一天以前收到的稿件全集做比較。該算法嘗試選擇與昨天已經(jīng)知道的東西相比最具情報(bào)性的更新并且將它展示給用戶看,條件是該更新傳達(dá)出充足的新信息(即,它估計(jì)的新穎性高于用戶個性化的閾值)。如此調(diào)節(jié)賦予了系統(tǒng)向用戶提供情報(bào)性的更新而濾除那些對先前熟知的細(xì)節(jié)只做摘要的稿件的能力。該算法可以推而廣之以識別--天n個最具情報(bào)性的更新??赡苡腥藭庌q,通過忽略在前一天之前的所有各天,算法PKXDAILYUPDATE也可能把那些摘要幾天之前已說過的內(nèi)容的稿件考慮為新穎性的。在實(shí)踐中很少發(fā)生這樣的事情,因?yàn)榇蟛糠莞寮淖珜懛绞绞前研滦畔⑴c之前發(fā)展的一些背景穿插在一起??梢岳斫獾氖?,可以提供更精細(xì)的距離度量,考慮與主題相關(guān)的所有在前稿件但是其權(quán)重隨時(shí)間而減損。算法<formula>formulaseeoriginaldocumentpage17</formula>其中dist是距離度量,Bg是背景參考組(在前一天收到的有關(guān)稿件的全集),D是在今天收到的一組新稿件,thresh是用戶定義的敏感性閾值。以上在510呈現(xiàn)的算法可能主要地是"脫機(jī)"程序,因?yàn)樗灶A(yù)定的時(shí)間間隔更新用戶。鐵桿新聞迷可能會認(rèn)為等候每日預(yù)定新聞更新是讓人感到沮喪的。對于一些人來說,可能期望一項(xiàng)更具反應(yīng)性的分析形式。在極端情形中,比較每個稿件和一個在前的稿件可能無法很好地工作,因?yàn)橄到y(tǒng)有可能會把幾乎每個稿件預(yù)期成新穎的。相反地,可在圖5的520處理即時(shí)新聞事件,其中使用了一個涵蓋一定數(shù)量的先前稿件的滑動窗口來估計(jì)當(dāng)前稿件的新穎性。需要留意的是,比較稿件和固定長度的前一窗口之間的距離促進(jìn)方便了得分的比較,對窗口長度在20-60個稿件的不同窗戶進(jìn)行了評估。結(jié)果發(fā)現(xiàn),長度為40左右的在實(shí)踐中一般效果好些。與算法PickDailyUpdate相反,現(xiàn)在的背景參考組變得短多了,即,40個稿件代替了一整天的內(nèi)容。這增加了一種可能性,即窗口不夠長,無法包括在故事被最初報(bào)導(dǎo)之后很長時(shí)間后的延遲報(bào)告和摘要。為了要濾除此類重復(fù),應(yīng)當(dāng)了解新聞報(bào)告的性質(zhì)。當(dāng)出現(xiàn)一個事件或有關(guān)一個重要事件的信息更新時(shí),許多新聞機(jī)構(gòu)看到此新發(fā)展并且在一個相當(dāng)短的時(shí)間內(nèi)報(bào)導(dǎo)它。如果一個人連續(xù)地用圖標(biāo)出每份稿件和在前窗口之間的距離,會發(fā)現(xiàn)這種新信息的抵達(dá)將產(chǎn)生一個曲線圖的峰值。此類峰值被稱為新穎性的猝發(fā)。在每個猝發(fā)的開始處,附加稿件往往增加新細(xì)節(jié),引起曲線圖上升。隨時(shí)間的推移,滑動窗口覆蓋越來越多的傳達(dá)該最新發(fā)展的稿件,且隨后的各稿件不具有相同的新穎性;結(jié)果是,被計(jì)算的新穎性方向向下,象征著猝發(fā)的結(jié)束。延遲的事件報(bào)告以及有關(guān)故事的摘要在不同來源之間不太可能會在時(shí)間上的有相關(guān)性。此類報(bào)告和之前的窗口比較可能顯示出新穎性,但是,因?yàn)樗鼈兺ǔJ枪铝⒌模麄兺ǔR鹦路f性上的尖峰。為了要丟棄此類孤立的尖峰而且接收它們作為真正的更新,新穎性信號應(yīng)該適當(dāng)?shù)剡^濾。中值過濾器通過減少信號的噪音而提供該功能性。過濾器連續(xù)地考慮信號中的每一信息點(diǎn)而且使它做出適應(yīng)以更好地仿造(resemble)它的環(huán)境,有效地修勻(smoothing)原始信號并去除異常值。特別地,一個寬度為w的中值過濾器首先對在以當(dāng)前點(diǎn)為中心的窗口里的w個數(shù)據(jù)點(diǎn)進(jìn)行分類(sort),且然后用這些點(diǎn)的中值代替后者。在計(jì)算了稿件和覆蓋了之前稿件的滑動窗口之間的距離之后,使所得信號通過一個中值過濾器。所考慮過的過濾器包括3-7的寬度;寬度為5的過濾器似乎在大多數(shù)情形中工作良好。算法IdentifyBrea隨gNews(^耽A乂'/^,',厶re竭for/=/+1to|D|doScorW盧/^es/zthenafe//aiyf^.+/」其中dist是距離度量,D是有關(guān)稿件的序列,l是滑動窗口長度,fw是中值過濾器寬度,thresh是用戶定義的敏感性閾值。注意,中值過濾器的使用可能會延遲向用戶路由新穎性的稿件,因?yàn)闀枰紤]隨后的若干個稿件以便可靠地探測出新猝發(fā)的開始。然而,發(fā)現(xiàn)這樣的延遲是相當(dāng)小的(所使用的中值過濾器寬度的一半),過濾器的效益遠(yuǎn)超過這一不便。如果用戶樂意容忍附加的延遲,那么該算法可以從猝發(fā)開始的時(shí)刻向前掃描幾十個稿件,以便選擇最具情報(bào)性的更新而不只是撿取使猝發(fā)開始的那一個。不同方法的組合也是可行的,諸如提供即時(shí)新聞的早期更新,然后等待一項(xiàng)信息量更大的猝發(fā)分析以發(fā)送有關(guān)發(fā)展的最佳稿件。以上的算法顯示了用于實(shí)現(xiàn)新聞快報(bào)猝發(fā)分析的IDENT釘BREAKWGNEWS算法的偽代碼。圖6所示是將算法IDE鼎FYBREAK隱NEWS應(yīng)用于一個樣本主題。所涉及的主題是發(fā)生在美國賓夕法尼亞州伊利湖的銀行搶劫案,在那里,一群罪犯抓住了一個送比薩餅的男子,把一個炸彈裝置鎖在他的脖子上,并且,依照該男子的陳述,強(qiáng)迫他搶劫了一個當(dāng)?shù)劂y行。該男子迅即被警方逮捕,但不久之后該裝置引爆而且殺死了他。該異乎尋常的初始報(bào)道及隨之發(fā)生的調(diào)查從2003年九月開始連續(xù)幾個星期受到諸多新聞機(jī)構(gòu)的追蹤。圖中x軸對應(yīng)于稿件到達(dá)的時(shí)間序列,y軸上標(biāo)的是(原始的和經(jīng)中值過濾的)在給定之前的滑動窗口時(shí)每個稿件的距離值。原始距離得分用一條虛線表示,而經(jīng)過濾后得分用-一條實(shí)線。附圖6中的文本框是在對應(yīng)于所確定的新猝發(fā)的真實(shí)事件的注釋,并表示出了哪一個潛在的假峰被過濾器丟棄了。修勻后的新穎性得分,是考慮了中值過濾器的,捕獲到了這一故事的主要進(jìn)展(對朋友的采訪、有關(guān)武器的細(xì)節(jié)、對兩個嫌疑犯的聯(lián)邦調(diào)査局公告,和一個盲目模仿案例),而同時(shí)濾除了新穎性的假峰?;氐綀D5中的530,考慮稿件類型的表征和用戶控制。在一些情形中,不應(yīng)當(dāng)僅僅依靠新穎性得分作為唯一的選擇標(biāo)準(zhǔn);一些稿件因主題上的改變而被確認(rèn)為新穎的。為了更進(jìn)一步地改善情報(bào)性新穎性的分析,制定了新穎性類型的分類體系,基礎(chǔ)是一個稿件和一個種子報(bào)道或感興趣的主題之間的不同關(guān)系。關(guān)系的類的例子包括1.摘要(recap)稿是那些相關(guān)的,但是通常只提供已經(jīng)報(bào)導(dǎo)的內(nèi)容的回顧并且很少有新信息的稿件。2.詳述(elaboration)稿向種子報(bào)道所描述主題增加新的相關(guān)信息。3.衍生(offshoot)稿也是與主流討論有關(guān)的,但是它們所增加的新信息和在種子報(bào)道中報(bào)導(dǎo)的有很大差異,足以保證展開一個新的相關(guān)主題。4.不相關(guān)(irrelevant)稿件是那些遠(yuǎn)離所關(guān)注的主題的稿件。它們可能會因?yàn)榫垲惢蚱饰龅葐栴}而產(chǎn)生。注意,可定義和處理四個以上的類。在這些類中,關(guān)系類型2和3或許是用戶在跟蹤一個主題的時(shí)候大多數(shù)用戶想看到的。為了達(dá)成這一目標(biāo),可以提供一種新的文檔分析類型,細(xì)査文檔內(nèi)動態(tài)學(xué)。和早先在整個文檔之間進(jìn)行比較的分析的類型相反,這項(xiàng)技術(shù)"放大進(jìn)入(zoominto)"文檔內(nèi)部,評估它們部份之間的相關(guān)性。一般而言,為每個文檔構(gòu)造一個模型,使用固定的距離度量,例如,KL發(fā)散。然后,對于每個文檔,計(jì)算在文檔中的字詞滑動窗口(slidingwindow)相對于種子報(bào)道的距離得分。字詞窗口的得分可被解釋為窗口中的每個單詞相對于種子報(bào)道的點(diǎn)態(tài)得分和,就象由使用所選度量比較文檔內(nèi)窗口模型與種子報(bào)道模型而確定的。考慮了一些不同的窗口長度,20被發(fā)現(xiàn)在實(shí)踐中工作良好。這項(xiàng)技術(shù)的一個有益屬性是它超越了眾所周知的"大量字詞(bagofwords)"的概念且在它們最初的上下文環(huán)境里考慮這些文檔字詞。選擇使用滑動文本窗口而非表面上更吸引人的段落單元,因?yàn)槭褂霉潭ㄩL度的窗戶使得距離得分可直接用于比較。比較單位的另外一個明顯選擇會是個別的句子。然而,在句/水平上進(jìn)行這項(xiàng)分析考慮的信息會太少,可能的得分范圍會因?yàn)樘蠖鵁o用。圖7表示的是文檔內(nèi)分析的樣本結(jié)果。這項(xiàng)分析的種子報(bào)道是關(guān)于在新加坡新發(fā)現(xiàn)了一例SARS的報(bào)告。對已被描述過的內(nèi)容進(jìn)行摘要的稿件通常的動態(tài)范圍有限、絕對得分低。詳述稿通常絕對得分較高,反映出他們承載的新信息。該故事的一個詳述稿報(bào)導(dǎo)該病患的妻子正處于隔離之下。沿著這一思路,那些可定性為衍生稿但是仍與種子報(bào)道中描述的事件關(guān)聯(lián)的稿件動態(tài)范圍更寬些。一個衍生稿件是一篇把重心集中在亞洲股市受SARS影響的報(bào)道,另一篇是有關(guān)SARS疫苗的進(jìn)展的報(bào)道。這兩篇衍生稿件都把最近的案例作為出發(fā)點(diǎn),但卻實(shí)際上都是關(guān)于一個相關(guān)主題的。分析文檔內(nèi)動態(tài)學(xué),比如新穎性得分的動態(tài)范圍和模式對于標(biāo)識讀者想要跟蹤的信息的不同類型方面是有用的。萬維網(wǎng)已經(jīng)向用戶提供一組豐富的信息源。對于在英特網(wǎng)上沖浪的人們而言,一個假相是,為了追求新聞更新而瀏覽眾多來源是簡那么地單,然而,在大量新聞中做篩選可能涉及要閱讀大量的冗余材料。已經(jīng)呈現(xiàn)了一系列算法,用來分析新聞饋送且在假定用戶以前已經(jīng)看過的內(nèi)容的模型的情況下標(biāo)識出承載最多新穎性信息的稿件。為此目的,用從文本中提取的命名實(shí)體來擴(kuò)展基于字詞的表示。使用這個表示,采用了多種距離度量來估計(jì)每個新聞稿件和一個稿件集合(例如,先前讀過的報(bào)道)之間的差異。作為該算法基礎(chǔ)的技術(shù)通過研究信息遞送從稿件到稿件、以及在上下文字詞窗口的水平上在每篇個別稿件內(nèi)是是如何隨時(shí)間進(jìn)展的,對文檔間動態(tài)學(xué)和文檔內(nèi)動態(tài)學(xué)進(jìn)行分析。新聞瀏覽器或納入了這些算法的基于服務(wù)器的服務(wù)可向用戶提供一種個性化的新聞體驗(yàn),給用戶調(diào)節(jié)所需新聞更新的頻率以及調(diào)節(jié)這些更新與種子報(bào)道應(yīng)當(dāng)有多大程度的類似性的能力,途徑是在新穎性約束上施加控制??梢蕴峁└訌?fù)雜的距離度量,以引入在此描述的基本度量中的一部分,以及文檔內(nèi)模式的更詳細(xì)的輪廓。圖8-ll所示是根據(jù)本發(fā)明一個方面的示例性用戶接口。圖8在810例示了一連串的新聞報(bào)道,其中在810從新聞報(bào)道中選擇出了一個特別主題并在820顯示出來(例如,調(diào)査員探查(InvestigatorsProbe)......)。當(dāng)在810選擇了一個主題,顯示820即顯示與挑選的主題有關(guān)的感興趣的新聞。在830,一個在820處的列表里被選擇的具體新聞被顯示。圖9所示是在一個主題被選擇之后,它可以被列在910處己讀部分之下。圖10所示是后續(xù)新稿件是如何出現(xiàn)在1010處然后在1020被檢査或閱讀的。圖11表示的是1020的被讀新聞是如何隨后被放置到1110的已讀位置的。參照圖12,用于實(shí)現(xiàn)本發(fā)明各種方面的示例性環(huán)境1210包括一計(jì)算機(jī)1212。計(jì)算機(jī)1212包括一個處理單元1214、系統(tǒng)存儲器1216、系統(tǒng)總線1218。系統(tǒng)總線1218將包括一但不限于一系統(tǒng)存儲器1216在內(nèi)的系統(tǒng)組件連接到處理器單元1214。處理器單元1214可以是各種可用處理器中的任何一種。雙微處理器和其它多重微處理器架構(gòu)都可用做處理單元1214。系統(tǒng)總線1218可以是幾種類型總線結(jié)構(gòu)中的任意一個,包括存儲器總線或存儲器控制器、外圍總線或外部總線、和/或使用各種可用總線架構(gòu)中的任何架構(gòu)的本地總線,這種架構(gòu)包括但不限于,16-位總線、工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)("ISA")總線、微信道體系結(jié)構(gòu)("MCA")總線、擴(kuò)展的ISA("EISA")總線、集成驅(qū)動器電子電路(IDE)總線、VESA局部總線(VLB)、外設(shè)組件互連(PCI)總線、通用串行總線(USB)、加速圖形端口(AGP)總線、個人計(jì)算機(jī)存儲卡國際協(xié)會(PCMCIA)總線、小型計(jì)算機(jī)系統(tǒng)接口(SCSI)總線。系統(tǒng)存儲器1216包括易失性存儲器1210和非易失性存儲器1222?;据斎?輸出系統(tǒng)(BIOS)存儲在非易失性存儲器1212中,它包含幫助在比如啟動過程中在計(jì)算機(jī)1212內(nèi)的部件之間傳輸信息的基本例程。作為例子而非限制,非易失性存儲器1222包括只讀存儲器(ROM)、可編程只讀存儲器(PROM)、電子可編程只讀存儲器(EPROM)、電子可擦除只讀存儲器(EEPROM)或閃存。易失性存儲器1220包括隨機(jī)存取存儲器(RAM)、它起到外部高速緩存存儲器的作用。作為例示而非限制,RAM有多種形式,諸如同步隨機(jī)存取存儲器(SRAM)、動態(tài)隨機(jī)存取存儲器(DRAM)、同步動態(tài)隨機(jī)存取存儲器(SDRAM)、雙數(shù)據(jù)速率同步動態(tài)隨機(jī)存取存儲器(DDRSDRAM)、增強(qiáng)同步動態(tài)隨機(jī)存取存儲器(ESDRAM)、同步鏈動態(tài)隨機(jī)存取存儲器(SLDRAM)直接存儲器總線式隨機(jī)存取存儲器(DRRAM)。計(jì)算機(jī)1212也可以包括可移動/不可移動、易失/非易失性的計(jì)算機(jī)存儲介質(zhì)。例如,圖12例示了盤存儲器1224。盤存儲器1224包括但不限于以下設(shè)備磁盤驅(qū)動器、軟盤驅(qū)動器、磁帶驅(qū)動器、Jaz驅(qū)動器、Zip驅(qū)動器、LS-100驅(qū)動器、閃存卡、或記憶棒。此外,盤存儲器1224包括獨(dú)立于或結(jié)合于其它存儲介質(zhì)的存儲介質(zhì),所謂其它出介質(zhì)包括但不限于諸如CD-ROM設(shè)備、CD—R驅(qū)動器、CD-RW驅(qū)動器或DVD-ROM的光盤驅(qū)動器。為了方便盤存儲器設(shè)備1224連接至系統(tǒng)總線1218,通常使用可移動或不可移動的接口,比如接口1226。應(yīng)當(dāng)理解,圖12描述了在用戶和以適當(dāng)?shù)倪\(yùn)行環(huán)境1210的形式敘述的計(jì)算機(jī)資源之間充當(dāng)中介的軟件。此類軟件包括操作系統(tǒng)1228??梢源鎯υ诒P存儲器1224上的操作系統(tǒng)1228控制并分配計(jì)算機(jī)系統(tǒng)1212的資源。系統(tǒng)應(yīng)用1230通過程序模塊1232和程序數(shù)據(jù)1234來利用操作系統(tǒng)1228對資源的管理,程序模塊和程序數(shù)據(jù)存儲在系統(tǒng)存儲器1216中或者存儲在盤存儲器1224中。應(yīng)當(dāng)理解,本發(fā)明在以在各種操作系統(tǒng)或者操作系統(tǒng)的組合中實(shí)現(xiàn)。用戶可以通過(一個或多個)輸入設(shè)備1236把命令或信息輸入到計(jì)算機(jī)1212。輸入設(shè)備1236包括但不限于鼠標(biāo)、跟蹤球等定位設(shè)備、輸入筆、觸摸板、鍵盤、麥克風(fēng)、操縱桿、游戲墊、衛(wèi)星天線、掃描儀、電視調(diào)諧卡、數(shù)碼相機(jī)、數(shù)碼錄像機(jī)、web照相機(jī)、等等。這些和其它輸入設(shè)備通過系統(tǒng)總線1218經(jīng)由(諸)接口端口1238連接到處理單元1214。接口端口1238包括,例如,串行口、并行口、游戲口、通用串行口(USB)。輸出設(shè)備1240使用與輸入設(shè)備1236相同類型的部分端口。由此,例如,USB端口可以用來向計(jì)算可以用來從計(jì)算機(jī)1212向輸出設(shè)備1240輸出信息。設(shè)置輸出適配器1242是為了說明有部分的輸出設(shè)備1240,像監(jiān)視器、揚(yáng)聲器、打印機(jī)以及其它輸出設(shè)備1240等會要求特殊的適配器。輸出適配器1242,作為例子而非限制,包括在輸出設(shè)備1240和相同總線1218之間提供連接手段的聲像卡。應(yīng)當(dāng)注意,其它設(shè)備和/或設(shè)備體系既提供輸入能力也提供輸出能力,比如遠(yuǎn)程計(jì)算機(jī)1244。計(jì)算機(jī)1212可以工作在使用到一個或多個遠(yuǎn)程計(jì)算機(jī)如遠(yuǎn)程計(jì)算機(jī)1244的邏輯連接的網(wǎng)絡(luò)化環(huán)境中。遠(yuǎn)程計(jì)算機(jī)1244可以是個人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)計(jì)算機(jī)、工作站、基于微處理器的家用電器、對等設(shè)備或其它公共網(wǎng)絡(luò)節(jié)點(diǎn)和類似設(shè)備,通??砂ㄅc計(jì)算機(jī)1212相關(guān)來描述的許多或所有的要素。為了簡潔起見,遠(yuǎn)程計(jì)算機(jī)1244只例示了一個存儲器裝置1246。遠(yuǎn)程計(jì)算機(jī)1244通過網(wǎng)絡(luò)接口1248邏輯邏輯到計(jì)算機(jī)1212,然后經(jīng)由通信連接1250進(jìn)行物理連接。網(wǎng)絡(luò)接口1248囊括了局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)等通信網(wǎng)絡(luò)。LAN技術(shù)包括光纖分布式數(shù)據(jù)接口(FDDI)、銅線分布式數(shù)據(jù)接口(CDDI)、以太網(wǎng)/IEEE1102.3、令牌環(huán)/IEEEl102.5、綜合業(yè)務(wù)數(shù)字網(wǎng)絡(luò)(ISDN)等回路交換網(wǎng)絡(luò)以及其變型、分組交換網(wǎng)絡(luò)、數(shù)字用戶線(DSL)。通信連接1250是指用來把網(wǎng)絡(luò)接口1248連接到總線1218的軟件/硬件。盡管為了清楚起見把通信1250連接例示在計(jì)算機(jī)1212之中,它也可以是在計(jì)算機(jī)1212之外。連接到網(wǎng)絡(luò)接口1248所必須的軟件/硬件包括一僅為示例性目的一內(nèi)設(shè)技術(shù)和外設(shè)技術(shù),諸如調(diào)制解調(diào)器,包括常規(guī)電話級調(diào)制解調(diào)器、電纜式調(diào)制解調(diào)器、DSL調(diào)制解調(diào)器、ISDN適配器、以太網(wǎng)卡。圖13是樣本計(jì)算環(huán)境1300的一個示意框圖,本發(fā)明可與其交互。系統(tǒng)1300包括一個或多個的客戶1310??蛻?310可以是硬件和/或軟件(,線程、進(jìn)程、計(jì)算裝置)。系統(tǒng)1300也包括一個或多個服務(wù)器1330。服務(wù)器1330也可是硬件和/或軟件(如,線程、進(jìn)程、計(jì)算裝置)。服務(wù)器1330可容納線程以釆用本發(fā)明來執(zhí)行變換??蛻?310和服務(wù)器1330之間可能的一種通信形式是適應(yīng)于在兩個或多個計(jì)算機(jī)進(jìn)程之間傳輸?shù)臄?shù)據(jù)分組。系統(tǒng)1300包括一通信框架1350,它可被用來促進(jìn)客戶1310和服務(wù)器1330之間的通信。客戶1310被可操作性地連接到一個或多個用來儲存本地信息給客戶1310的客戶信息存儲器1360。類似地,服務(wù)器1330被可操作性地連接到一個或多個用來儲存本地信息給服務(wù)器1330的服務(wù)器數(shù)據(jù)存儲器1340。以上所述包括有本發(fā)明的例子。當(dāng)然,為了描述本發(fā)明的目的,描述每個可以想見的組件或方法的組合是不現(xiàn)實(shí)的,但是,本領(lǐng)域技術(shù)人員會認(rèn)識到,許多進(jìn)一步的組合和輪換對本發(fā)明來說是可能的。因此,本發(fā)明旨在包含所有這樣的落在所附潛力要求書的精神和范圍之內(nèi)的變更、改進(jìn)和變化。此外,以本說明書和權(quán)利要求書為限,術(shù)語"具有"類似于術(shù)語"包括"。權(quán)利要求1.一種創(chuàng)建個性化信息的方法,其特征在于,它包括自動分析來自不同信息源的文檔;自動確定所述文檔的新穎性;以及基于所述文檔的新穎性創(chuàng)建個性化信息饋送。2.如權(quán)利要求12所述的方法,其特征在于還包括通過為每個文檔組建立--模型以推斷文檔組之間的差異,且隨后用相似性度量來比較所述模型。3.如權(quán)利要求2所述的方法,其特征在于,所述模型采用在字詞特征上的修勻幾率分布或在同一特征空間內(nèi)的權(quán)重矢量。4.如權(quán)利要求2所述的方法,其特征在于,相似性度量還包括KL發(fā)散、JS發(fā)散、矢量計(jì)算的余弦、特征權(quán)重矢量的余弦和對先前未見過的命名實(shí)體的密度衡量中的至少一種。5.如權(quán)利要求4所述的方法,還包括提供一新穎性排序算法,該算法被迭代式地應(yīng)用以產(chǎn)生一個讀者可能會感興趣的稿件小集。6.如權(quán)利要求5所述的方法,還包括以下至少之一提供一希望遞增分析和將實(shí)際可用的更新與用戶已閱的種子報(bào)道進(jìn)行比較,選擇與種子報(bào)道最不相似的稿件。7.如權(quán)利要求6所述的方法,還包括下列算法算法RankNewsByNoveltyW'W,jeed,£>,w)7<~seed〃initialization<formula>formulaseeoriginaldocumentpage11</formula>其中dist是距離度量,seed是種子報(bào)道,D是一組相關(guān)更新,n是所期望選擇的更新數(shù)量,R是根據(jù)新穎性排序的稿件集。8.如權(quán)利要求6所述的方法,還包括提供用戶快報(bào)的效益對于成本的一般分析以基于用戶的上下文考慮而用中斷用戶的代價(jià)平衡特定稿件或稿件組的信息價(jià)值。9.如權(quán)利要求6所述的方法,還包括將在一個時(shí)期中收到稿件與定期收到的稿件集合進(jìn)行比較。10.如權(quán)利要求9所述的方法,還包括確定考慮了與主題相關(guān)的先前稿件但按時(shí)間減損其度量權(quán)重的距離度量。11.如權(quán)利要求6所述的方法,還包括下列算法算法PickDailyUpdateWW,£>,/w^/z)<formula>formulaseeoriginaldocumentpage3</formula>其中dist是距離度量,Bg是背景參考集,包括在前一天收到的有關(guān)稿件的集合,D是在今天收到的一組新稿件,thresh是用戶定義的敏感性閾值。12.如權(quán)利要求6所述的方法,還包括確定新穎性的猝發(fā)。13.如權(quán)利要求12所述的方法,還包括確定一寬度為w的中值過濾器,其對以當(dāng)前點(diǎn)為中心的窗口內(nèi)的w個數(shù)據(jù)點(diǎn)進(jìn)行分類。14.如權(quán)利要求13所述的方法,還包括下列算法算法IdentifyBreakingNews<formula>formulaseeoriginaldocumentpage3</formula>其中dist是距離度量,D是有關(guān)稿件的序列,l是滑動窗口長度,fw是中值過濾器寬度,thresh是用戶定義的敏感性閾值。15.如權(quán)利要求6所述的方法,還包括確定摘要稿件、詳述稿件、衍生稿件和無關(guān)稿件中的至少一個。16.—種進(jìn)行文檔分析的方法,包括為一組文檔中的每份文檔構(gòu)造一個語言模型;確定一固定距離度量以分析所述文檔;和在文檔中的字詞上至少滑動一個窗口。17.如權(quán)利要求16所述的方法,還包括將所述窗口的距離得分相對于種子報(bào)道做圖。18.如權(quán)利要求16所述的方法,還包括按照通過使用選定的度量比較當(dāng)前文檔的語言模型與種子報(bào)道的語言模型而規(guī)定的,來確定每個字詞相對于種子報(bào)道的點(diǎn)態(tài)得分和。19.如權(quán)利要求18所述的方法,還包括采用約為20的窗口長度參數(shù)。20.如權(quán)利要求16所述的方法,還包括在從現(xiàn)在時(shí)間起算的不同的新時(shí)間范圍內(nèi),協(xié)助對當(dāng)前未讀的有關(guān)主題的新聞報(bào)道的理想閱讀順序或路徑的設(shè)計(jì)。21.如權(quán)利要求16所述的方法,還包括為跟上新聞而設(shè)計(jì)順序,考慮最近的新聞和一段時(shí)間內(nèi)的新聞猝發(fā),以幫助人們認(rèn)識新聞報(bào)道的演化并通過主要事件或更新來導(dǎo)航報(bào)道的歷史。22.如權(quán)利要求16所述的方法,還包括開發(fā)不同類型的顯示設(shè)計(jì)和隱喻。23.如權(quán)利要求22所述的方法,所述類型包括使用時(shí)間線視圖或者時(shí)間上的組群。24.如權(quán)利要求16所述的方法,還包括在桌面設(shè)定或者移動設(shè)定中提供一個主題的即時(shí)新聞報(bào)道的理想化快報(bào)。25.如權(quán)利要求24所述的方法,還包括允許用戶指定主題或關(guān)鍵字,當(dāng)給定用戶已經(jīng)閱讀的內(nèi)容有充足新穎性時(shí),則向用戶做快報(bào)。26.如權(quán)利要求24所述的方法,還包括當(dāng)帶有關(guān)鍵字的新聞報(bào)道出現(xiàn)時(shí),如果該信息的新穎性高于預(yù)定新穎性閾值,則向用戶做快報(bào)。27.—種創(chuàng)建個性化信息的系統(tǒng),包括用于分析多個來自不同信息源的文檔的裝置;用于確定所述文檔相似性的裝置;和用于基于所確定的文檔相似性上的差異提供信息的個性化饋送的裝置。全文摘要提供了一種系統(tǒng)和方法,用于根據(jù)信息新穎性的統(tǒng)計(jì)測量來過濾諸如新聞報(bào)道等時(shí)間性信息流。各種不同的技術(shù)可以被應(yīng)用來基于一個用戶已經(jīng)評審過的信息因人而異地定制新聞饋送或者其他類型的信息。提供了分析信息新穎性的方法和通過標(biāo)識在他們已經(jīng)評審過的報(bào)道的上下文環(huán)境中各報(bào)道的新穎性為用戶個性化并過濾信息的系統(tǒng)。該系統(tǒng)采用了把稿件表示成大量字詞和命名實(shí)體的新穎性分析算法。這個算法通過考慮信息如何從一篇稿件到另一篇稿件以及在個別稿件內(nèi)部是如何隨時(shí)間進(jìn)展而演化的來分析文檔內(nèi)和文檔間動態(tài)學(xué)。文檔編號G06F17/30GK101256591SQ200810090700公開日2008年9月3日申請日期2005年3月2日優(yōu)先權(quán)日2004年3月2日發(fā)明者E·J·霍維茲,E·加布里洛維奇,S·T·杜梅斯申請人:微軟公司