两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

結(jié)構(gòu)化數(shù)據(jù)的聚類(lèi)的制作方法

文檔序號(hào):6611694閱讀:343來(lái)源:國(guó)知局

專(zhuān)利名稱(chēng)::結(jié)構(gòu)化數(shù)據(jù)的聚類(lèi)的制作方法結(jié)構(gòu)化數(shù)據(jù)的聚類(lèi)
技術(shù)領(lǐng)域
本公開(kāi)內(nèi)容一般涉及用于處理數(shù)據(jù)集合的基于計(jì)算機(jī)的機(jī)制,更具體地說(shuō),涉及用于準(zhǔn)確執(zhí)行對(duì)大數(shù)據(jù)集合的處理的技術(shù)。
背景技術(shù)
:許多信息處理應(yīng)用涉及對(duì)大量對(duì)象的統(tǒng)計(jì)分級(jí)(ranking)或分類(lèi)(classification)。這些對(duì)象通過(guò)以關(guān)系表(relationaltable)組織的大量結(jié)構(gòu)化數(shù)據(jù)來(lái)表示,關(guān)系表包括屬性,屬性具有值,一般為數(shù)值。屬性值描述對(duì)象。對(duì)象的統(tǒng)計(jì)分級(jí)或分類(lèi)基于這些屬性的值來(lái)執(zhí)行。如此理解的對(duì)象是業(yè)務(wù)應(yīng)用(businessapplication)所特有的,在業(yè)務(wù)應(yīng)用中,諸如產(chǎn)品或銷(xiāo)售定單的對(duì)象具有諸如價(jià)格或日期的具有數(shù)值的屬性,并且描述這些對(duì)象的數(shù)據(jù)一般存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中。出于分類(lèi)或分級(jí)的目的,處理這些對(duì)象的應(yīng)用可能經(jīng)常需要對(duì)對(duì)象進(jìn)行聚類(lèi)(cluster)。對(duì)于大量的對(duì)象來(lái)說(shuō),使用有效的聚類(lèi)算法以節(jié)約執(zhí)行這些算法所需的計(jì)算資源在實(shí)際中是非常重要的。
發(fā)明內(nèi)容一般來(lái)說(shuō),本文討論用于聚類(lèi)結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)和方法,以便提供對(duì)大量數(shù)據(jù)集合的搜索的高質(zhì)量結(jié)果。本文中公開(kāi)的方法是業(yè)務(wù)對(duì)象,但是,也可以容易地適配為針對(duì)滿(mǎn)足上面介紹的一般特性的其它對(duì)象來(lái)工作。為簡(jiǎn)明起見(jiàn),但不失一般性,本公開(kāi)內(nèi)容從業(yè)務(wù)對(duì)象的角度來(lái)描述所述方法和算法。在所述系統(tǒng)和方法的具體實(shí)施例中,采用了一種算法,該算法預(yù)先假定了基于特定領(lǐng)域知識(shí)并針對(duì)業(yè)務(wù)對(duì)象定義的相似性模型(similaritymodel)。相似性模型根據(jù)上迷屬性值定義相似性,所述屬性值一般為數(shù)值或可簡(jiǎn)化為數(shù)值。一個(gè)不是數(shù)值但可簡(jiǎn)化為數(shù)值的屬性的例子是位置或地址,兩個(gè)位置之間的距離可以表示為數(shù)值。所述算法使用壓縮結(jié)構(gòu),所述壓縮結(jié)構(gòu)使得能夠利用比本領(lǐng)域中已知的其它方法更少的計(jì)算量提供結(jié)果,因此比典型實(shí)現(xiàn)方式中的哪些其它方法更快。由所述算法生成的聚類(lèi)結(jié)果可以用圖形表示,以便利對(duì)它們的評(píng)估,這對(duì)于將結(jié)果顯示給業(yè)務(wù)用戶(hù)的業(yè)務(wù)應(yīng)用來(lái)說(shuō)是顯著的益處。在一方面,一種用于處理數(shù)據(jù)的計(jì)算機(jī)實(shí)現(xiàn)的方法包括將包含所述數(shù)據(jù)的業(yè)務(wù)對(duì)象的集合分組成較小的氣泡的集合,每個(gè)氣泡包括僅提供關(guān)于其中的業(yè)務(wù)對(duì)象的統(tǒng)計(jì)信息的容器。在一些方面,該方法還包括基于最近鄰相似性聚類(lèi)所述氣泡,以及生成聚類(lèi)后的氣泡的可視化。在另一方面,一種計(jì)算機(jī)實(shí)現(xiàn)的方法包括格式化用于處理的數(shù)據(jù)的集合,和將包含格式化后的數(shù)據(jù)的業(yè)務(wù)對(duì)象的集合分組成較小的氣泡的集合,每個(gè)氣泡包括僅才是供關(guān)于其中的業(yè)務(wù)對(duì)象的統(tǒng)計(jì)信息的容器。在再一方面,提供一種實(shí)施在有形媒介上的計(jì)算機(jī)程序產(chǎn)品。所述計(jì)算機(jī)程序產(chǎn)品被配置成導(dǎo)致數(shù)據(jù)處理裝置執(zhí)行操作,包括格式化用于處理的數(shù)據(jù)的集合;將包含格式化后的數(shù)據(jù)的業(yè)務(wù)對(duì)象的集合分組成較小的氣泡的集合,每個(gè)氣泡包括僅提供關(guān)于其中的業(yè)務(wù)對(duì)象的統(tǒng)計(jì)信息的容器;基于最近鄰相似性聚類(lèi)所述氣泡;以及生成聚類(lèi)后的氣泡的可視化。一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在下面的附圖和說(shuō)明中闡述。通過(guò)所迷說(shuō)明、附圖以及權(quán)利要求書(shū),其它特征和優(yōu)點(diǎn)將變得明顯。這些和其它方方面將參照下述附圖來(lái)具體描述。圖1是聚類(lèi)算法的流程圖。圖2是數(shù)據(jù)壓縮算法的流程圖。圖3是被分組成較小的聚類(lèi)氣泡(bubble)的集合的業(yè)務(wù)對(duì)象集合的圖形表示。圖4是聚類(lèi)算法的流程圖。圖5是業(yè)務(wù)對(duì)象的集合的圖形表示以及描繪了業(yè)務(wù)對(duì)象的氣泡之間的相似性簇(cluster)的圖。不同的附圖中相似的參考標(biāo)記指示相似的元素。具體實(shí)施方式本文描述了一種系統(tǒng)和方法,用于聚類(lèi)結(jié)構(gòu)化數(shù)據(jù),以提供對(duì)大數(shù)據(jù)集合的高質(zhì)量結(jié)果。為簡(jiǎn)明起見(jiàn),但不失一般性,本公開(kāi)內(nèi)容從業(yè)務(wù)對(duì)象的角度來(lái)描述示例算法,但這里公開(kāi)的系統(tǒng)和方法也可容易地適配為針對(duì)其它對(duì)象來(lái)工作。作為最初的要求,基于特定領(lǐng)域知識(shí)針對(duì)業(yè)務(wù)對(duì)象的集合定義相似性模型。相似性模型根據(jù)屬性值定義相似性,所述屬性值一般為數(shù)值或可簡(jiǎn)化為數(shù)值。一個(gè)不是數(shù)值但可簡(jiǎn)化為數(shù)值的屬性的例子是位置或地址,兩個(gè)位置之間的距離可以表示為數(shù)值。這里公開(kāi)的系統(tǒng)和方法使用了壓縮結(jié)構(gòu),該壓縮結(jié)構(gòu)采用一種其能夠利用最少的計(jì)算量來(lái)提供聚類(lèi)結(jié)果的聚類(lèi)算法。通過(guò)壓縮結(jié)構(gòu)產(chǎn)生的聚類(lèi)結(jié)構(gòu)可以用圖形表示,并最終在業(yè)務(wù)應(yīng)用中顯示給業(yè)務(wù)用戶(hù),以便利他們的評(píng)估。圖l是聚類(lèi)算法的流程圖,包括下述步驟在IOO,準(zhǔn)備數(shù)據(jù),在200,將準(zhǔn)備的數(shù)據(jù)壓縮成氣泡(bubble),在300,對(duì)氣泡聚類(lèi),以及在400,可視化聚類(lèi)的氣泡。現(xiàn)在將更具體地描述和定義這些步驟中的每一個(gè)及其中的每一個(gè)術(shù)語(yǔ)。數(shù)據(jù)準(zhǔn)備100:聚集(gather)和foilliat數(shù)據(jù)。除去任何不需要的屬性。使用關(guān)于剩余屬性的領(lǐng)域知識(shí)來(lái)設(shè)計(jì)相似性模型。該相似性模型為所使用的每個(gè)屬性定義局部相似性量度和權(quán)重。局部相似性的加權(quán)和定義全局相似性量度。數(shù)據(jù)壓縮200:業(yè)務(wù)對(duì)象的大集合被分組成較小的氣泡的集合。每個(gè)氣泡是一個(gè)容器,該容器僅顯示關(guān)于其包含的對(duì)象的統(tǒng)計(jì)信息。氣泡的使用加速了計(jì)算,圖2是可以在數(shù)據(jù)壓縮200的實(shí)施例中執(zhí)行的氣泡算法的流程圖。在202,為每個(gè)氣泡隨機(jī)選擇代表性的業(yè)務(wù)對(duì)象。在204,計(jì)算每對(duì)氣泡的代表之間的全局對(duì)象相似性。在206,將每個(gè)業(yè)務(wù)對(duì)象分配給最相似的氣泡,并更新氣泡統(tǒng)計(jì)。在208,使用代表和氣泡統(tǒng)計(jì)來(lái)計(jì)算每對(duì)氣泡之間的全局氣泡相似性。圖3示出了將業(yè)務(wù)對(duì)象的集合222聚類(lèi)和壓縮成較小數(shù)量的氣泡,其中每個(gè)氣泡包括氣泡代表226(為每個(gè)氣泡隨機(jī)選擇的業(yè)務(wù)對(duì)象)和相關(guān)的類(lèi)似業(yè)務(wù)對(duì)象,圖3還示出了每一對(duì)氣泡代表226與其氣泡中的每個(gè)業(yè)務(wù)對(duì)象之間的全局對(duì)象相似性以及每對(duì)氣泡之間的全局氣泡相似性的圖形表示。聚類(lèi)氣泡300:該聚類(lèi)基于k最近鄰(k-nearest-neighbor)相似性。彼此具有高度相似性的氣泡被分配到相同的聚類(lèi)。該聚類(lèi)算法如圖4所示那樣工作。在302,對(duì)尚未被處理的所有氣泡進(jìn)行迭代(itemted)。在304,將當(dāng)前氣泡和相似性0輸入到控制列表中。當(dāng)該控制列表非空時(shí),在306選取第一個(gè)氣泡及其相似性,將其添加到控制列表。在308,如果可以對(duì)氣泡設(shè)置k相似性(k-similarity)(大于或等于閾值)圓(circle),以使該氣泡包括k個(gè)其它氣泡,則指定核心氣泡。對(duì)于核心氣泡中的k個(gè)氣泡中的每一個(gè),相似性被設(shè)置為k相似性。在310,將k相似性圓中的氣泡按照由相似性確定的順序(最相似第一)添加到控制列表中。在312,按照相似性順序,將閾值圓中的其它氣泡以及它們的計(jì)算出的相似性添加到控制列表中。如果來(lái)自步驟306的氣泡具有在閾值之上少于k個(gè)的鄰居,則在314,將其從控制列表中去除,并且所述方法繼續(xù)針對(duì)控制列表中的下一個(gè)氣泡。在316,將任何剩余的異常的(outlier)氣泡(相似性仍為0)添加到控制列表中??梢暬?00:聚類(lèi)算法的輸出是基于控制列表的發(fā)展的結(jié)果列表。氣泡可被可視化為如圖5所示的圖,其中,圖的高度表示相似性。直觀(guān)地,圖的峰表示在圖5中圖左邊繪出的數(shù)據(jù)集合中的簇。分等級(jí)嵌套的簇由階梯狀的峰表示。本說(shuō)明書(shū)中所描述本發(fā)明的實(shí)施例和所有功能操作可以被實(shí)施在數(shù)字電子電路中,或者實(shí)施在計(jì)算機(jī)軟件、固件、硬件,包括本說(shuō)明書(shū)中公開(kāi)的結(jié)構(gòu)及其結(jié)構(gòu)等價(jià)物,或它們的組合中。本發(fā)明的實(shí)施例可以實(shí)施為一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn)品,即一個(gè)或多個(gè)編碼在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序指令的模塊,以由數(shù)據(jù)處理裝置來(lái)執(zhí)行,或控制數(shù)據(jù)處理裝置的操作,所述計(jì)算機(jī)可讀介質(zhì)例如機(jī)器可讀存儲(chǔ)器件、機(jī)器可讀存儲(chǔ)介質(zhì)、存儲(chǔ)器設(shè)備或機(jī)器可讀傳播信號(hào)。術(shù)語(yǔ)"數(shù)據(jù)處理裝置"囊括了用于處理數(shù)據(jù)的所有裝置、設(shè)備和機(jī)器,舉例來(lái)說(shuō),包括可編程處理器、計(jì)算機(jī)、或多處理器或計(jì)算機(jī)。此外,所述裝置可以包括硬件、創(chuàng)建所討論的計(jì)算機(jī)程序的執(zhí)行環(huán)境的代碼,例如構(gòu)成處理器固件的代碼、協(xié)議棧、數(shù)據(jù)庫(kù)管理系統(tǒng)、操作系統(tǒng)或它們的組合。傳播信號(hào)是被生成用來(lái)編碼信息以傳輸?shù)竭m當(dāng)接收機(jī)裝置的人工生成的信號(hào),例如機(jī)器生成的電信號(hào)、光信號(hào)、電磁信號(hào)。計(jì)算機(jī)程序(也被稱(chēng)為程序、軟件、應(yīng)用、軟件應(yīng)用、腳本或代碼)可以用任何形式的編程語(yǔ)言編寫(xiě),包括匯編語(yǔ)言或解釋語(yǔ)言,并且,它可以被以任何形式部署,包括作為獨(dú)立的程序或者作為模塊、組件、子程序或其他適于在計(jì)算環(huán)境中使用的單元。計(jì)算機(jī)程序并非必須對(duì)應(yīng)于文件系統(tǒng)中的文件。程序可以被存儲(chǔ)在保存其它程序或數(shù)據(jù)(例如存儲(chǔ)在標(biāo)記語(yǔ)言文檔中的一個(gè)或多個(gè)腳本)的文件的一部分中,可以被存儲(chǔ)在專(zhuān)用于所討論程序的單個(gè)文件中,或者可以被存儲(chǔ)在多個(gè)協(xié)作文件中(例如存儲(chǔ)一個(gè)或多個(gè)模塊、子程序或代碼部分的文件)。計(jì)算機(jī)程序可以被部署成在一個(gè)計(jì)算機(jī)上或在位于一個(gè)地點(diǎn)或跨過(guò)多個(gè)地點(diǎn)分布并通過(guò)通信網(wǎng)絡(luò)互連起來(lái)的多個(gè)計(jì)算機(jī)上執(zhí)行。在本說(shuō)明書(shū)中描述的處理和邏輯流可以通過(guò)一個(gè)或多個(gè)可編程處理器來(lái)執(zhí)行,所述可編程處理器執(zhí)行一個(gè)和多個(gè)計(jì)算機(jī)程序,通過(guò)對(duì)輸入數(shù)據(jù)操作和產(chǎn)生輸出來(lái)執(zhí)行功能。所述處理和邏輯流也可以通過(guò)專(zhuān)用邏輯電路執(zhí)行,并且裝置也可以被實(shí)施為專(zhuān)用邏輯電路,所述專(zhuān)用邏輯電路例如FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)或ASIC(專(zhuān)用集成電路)。舉例來(lái)說(shuō),適于執(zhí)行計(jì)算機(jī)程序的處理器包括通用微處理器和專(zhuān)用微處理器兩者,以及任何類(lèi)型的數(shù)字計(jì)算機(jī)的任意一個(gè)或多個(gè)處理器。一般來(lái)說(shuō),機(jī)的關(guān)鍵要素是用于執(zhí)行指令的處理器,和用于儲(chǔ)存指令和數(shù)據(jù)的一個(gè)或多個(gè)存儲(chǔ)器設(shè)備。一般來(lái)說(shuō),計(jì)算機(jī)還將包括,或者被可操作地連接到通信接口,以從一個(gè)或多個(gè)用于存儲(chǔ)數(shù)據(jù)的海量?jī)?chǔ)存設(shè)備接收數(shù)據(jù),或?qū)?shù)據(jù)傳送到海量?jī)?chǔ)存設(shè)備,或者二者皆有,所述海量?jī)?chǔ)存設(shè)備例如磁盤(pán)、磁光盤(pán)或光盤(pán)。此外,計(jì)算機(jī)可嵌入在其它設(shè)備中,例如移動(dòng)電話(huà)、個(gè)人數(shù)字助理(PDA)、移動(dòng)音頻播放器、全球定位系統(tǒng)(GPS)接收機(jī),這里只列舉幾個(gè)。適用于實(shí)施計(jì)算機(jī)程序指令和數(shù)據(jù)的信息載體包括所有形式的非易失性存儲(chǔ)器,例如包括半導(dǎo)體存儲(chǔ)器設(shè)備、磁盤(pán)、磁光盤(pán)以及CDROM和DVD-ROM盤(pán),其中半導(dǎo)體存儲(chǔ)器器件例如EPROM、EEPROM和快閃存儲(chǔ)器設(shè)備,磁盤(pán)例如內(nèi)置硬盤(pán)或可移動(dòng)盤(pán)。處理器和存儲(chǔ)器可以被專(zhuān)用邏輯電路補(bǔ)充,或被包含在專(zhuān)用邏輯電路中。為了提供與用戶(hù)的交互,本發(fā)明的實(shí)施例可以在具有顯示設(shè)備和鍵盤(pán)以及指示設(shè)備(pointingdevice)的計(jì)算機(jī)上實(shí)施,顯示設(shè)備例如CRT(陰極射線(xiàn)管)或LCD(液晶顯示器)監(jiān)視跟蹤球,用戶(hù)利用它們可以提供到計(jì)算機(jī)的輸入。其他種類(lèi)的設(shè)備也可以4皮用來(lái)提供與用戶(hù)的交互;例如,提供給用戶(hù)的反饋可以是任何形式的感官反饋,例如視覺(jué)反饋、聽(tīng)覺(jué)反饋或觸覺(jué)反饋,并且,來(lái)自用戶(hù)的輸入可以被以任何形式接收,包括聲音、語(yǔ)音或觸覺(jué)輸入。件的計(jì)算系統(tǒng)中實(shí)施,或者在這些后端、中間件、前端組件的任意組合中實(shí)施,后端組件例如數(shù)據(jù)服務(wù)器,中間件組件例如應(yīng)用服務(wù)器,前端組件例如具有圖形用戶(hù)界面或Web瀏覽器的客戶(hù)端計(jì)算機(jī),通過(guò)圖形用戶(hù)界面或Web瀏覽器,用戶(hù)可以與本發(fā)明的實(shí)現(xiàn)方式進(jìn)行交互??梢酝ㄟ^(guò)任何形式或介質(zhì)的數(shù)字?jǐn)?shù)據(jù)通信來(lái)互連系統(tǒng)的組件,數(shù)字?jǐn)?shù)據(jù)通信的形式或介質(zhì)例如通信網(wǎng)絡(luò)。通信網(wǎng)絡(luò)的例子包括局域網(wǎng)(LAN)和廣域網(wǎng)(WAN),例如因特網(wǎng)。計(jì)算系統(tǒng)可以包括客戶(hù)端和服務(wù)器??蛻?hù)端和服務(wù)器一般互為遠(yuǎn)程,并且一般通過(guò)通信網(wǎng)絡(luò)進(jìn)行交互。客戶(hù)端和服務(wù)器的關(guān)系依靠在各個(gè)計(jì)算機(jī)上運(yùn)行的、相互之間具有客戶(hù)端-服務(wù)器關(guān)系的計(jì)算機(jī)程序引發(fā)。為清楚起見(jiàn)而在本說(shuō)明書(shū)中在分離的實(shí)施例的上下文中描迷的特定特征也可以以組合的形式提供在單個(gè)實(shí)施例中。相反地,為簡(jiǎn)潔起見(jiàn)而在單個(gè)實(shí)施例的上下文中描述的不同特征也可以分離地提供在多個(gè)實(shí)施例中,或者以任何適當(dāng)?shù)淖咏M合的形式提供。另外,盡管特征在上面可能被描述為以特定組合作用,甚至最初被聲明為如此,但是所聲明的組合中的一個(gè)或多個(gè)特征可以在一些情況中從組合中切離,并且所聲明的組合可以針對(duì)子組合或子組合的變化。已經(jīng)描述了本發(fā)明的具體實(shí)施例。其它實(shí)施例也在所附權(quán)利要求書(shū)的范圍之內(nèi)。例如,權(quán)利要求中陳述的步驟可以以不同的順序執(zhí)行而仍然達(dá)到期望的結(jié)果。此外,本發(fā)明的實(shí)施例不限于相關(guān)聯(lián)的數(shù)據(jù)庫(kù)架構(gòu);例如,本發(fā)明可實(shí)施為提供索引和存檔(archiving)方法和系統(tǒng),以用于基于除關(guān)系模型之外的其它模型建立的數(shù)據(jù)庫(kù),例如導(dǎo)航數(shù)據(jù)庫(kù)或面向?qū)ο蟮臄?shù)據(jù)庫(kù),以及用于具有有復(fù)雜屬性結(jié)構(gòu)的記錄的數(shù)據(jù)庫(kù),所述記錄例如面向?qū)ο蟮木幊虒?duì)象或標(biāo)記語(yǔ)言文檔。所描述的處理可以通過(guò)專(zhuān)門(mén)執(zhí)行存檔和檢索功能的應(yīng)用來(lái)實(shí)現(xiàn),或者嵌入在其它應(yīng)用中。附錄A使用氣泡聚類(lèi)業(yè)務(wù)對(duì)象定乂7r氣泡,令義為^《炎凝桌合Dw牙參的桌合。/y義這些乂,泉的氣泡為4無(wú)igS=(Ve/,",exfe賦mZ)W義,其r卬,Z的/七'4#的#參,承々D/其放/度定為>#近1W^心,^j^—《/^紹似于^f的任何,力泉"^^戶(hù)W對(duì)彖W炎《ex&"f^f廚,結(jié)r卬WS^芋逸,^在X*^#參w"Z)/W(^:,W佐#Bf乎坊處近命/£^涵炎。應(yīng)用聚類(lèi)算法之前,必須建立適當(dāng)?shù)臍馀莸募稀榇?,從整個(gè)索引中隨機(jī)選擇iVww^^W&s個(gè)代表。隨后,所有對(duì)象都被指派給那些代表中它們的"最近鄰",即,與其最相似的氣泡。在所述分配處理中,不存儲(chǔ)關(guān)于氣泡的各個(gè)成員的信息;而是計(jì)算并不斷更新一些統(tǒng)計(jì)信息(statistics)(其被發(fā)現(xiàn)能適當(dāng)?shù)?well)表示氣泡)。最后,當(dāng)數(shù)據(jù)集合中的所有對(duì)象都被指派給一個(gè)氣泡時(shí),計(jì)算所有氣泡之間的距離。氣泡之間的距離的概念既重要又復(fù)雜;它是使得氣泡最終與可視化算法一起工作的關(guān)鍵思想。它基于與每個(gè)氣泡一起存儲(chǔ)的方向距離(directionaldistance)和統(tǒng)計(jì)信息的概念,現(xiàn)在我們將對(duì)這兩者進(jìn)行介紹。注意,在所有定義中,我們認(rèn)為A和B是兩個(gè)氣泡,它們各自的代表為rA和rB。定義2(氣泡的方向)對(duì)f到。的距離V、于。與"之河的距庠^每個(gè)對(duì)參oe5,4//'7游岸定乂為4」的才^。這些對(duì)泉殆桌合放^^為^。類(lèi)似她,7;/"于^/的距離義f。與"之河^(guān)距毐殆每個(gè),i/"^4V/7稱(chēng)^^4^^及方/^7。這些乂力參W桌合妓^^Ae"。定義3(方向邊界距離)/4'后,才^7這#距蓐^議被定乂^定義4(平均距離)if后,氣泡5身/^爿的乎々距離^r被定乂^-Z!oeB化/t0,)/7,、類(lèi)似她定乂^爿W^才々^氣泡B的乎々距蓐。定義5(標(biāo)準(zhǔn)偏差)氣泡B在A(yíng)的方向的標(biāo)準(zhǔn)偏差可以被定義為類(lèi)似她定乂氣泡i5^^的及才向的標(biāo)涼偏^。定義6(Extent)氣泡5^^的才力的ex&WTWf乂定乂為cfo、+2,WDev)(1.4)最后,我們可以定義氣泡間的距離的概念,其將被我們的聚類(lèi)算法所使用。定義7(氣泡間的距離)兩個(gè)氣泡A和B之間的距離可以被定義為A5):=<i/W(。,——ex、(7.5」可視化氣泡的過(guò)程比原始的壓縮算法更復(fù)雜一些。為增加可讀性,將代碼分成兩部分氣泡的初始準(zhǔn)備/創(chuàng)建(見(jiàn)算法l)和可視化算法本身(見(jiàn)算法2)。準(zhǔn)備由下列步驟組成創(chuàng)建氣泡—從數(shù)據(jù)集合選擇隨機(jī)文檔;它們用作相應(yīng)氣泡的代表。_算法l:準(zhǔn)備氣泡input:Adatasetofnbusinessobjects,parameters7V謂Sw6W^output:AsetbubblesofsizeM/m5wZ6feyREMlmw^fo附/y化/ecfrep^抓加'ves/o尸6w6Ww2fori—1toA^wm5w66/esdobubbles,,Rep—selectRandomDocKey(n)REM36e^wew6wM/e4foreache/e靴w/萬(wàn)/Ybubblesdo5foreache/e脂加B2bubblesdo6ifthen5/.SimToRep(B2)—CalculateSimilarity(5/.ie;,52.7^;)7end8endREM9assignbusniessobjectstobubblesioforeachelementoofthedatasetDdo11foreachelementBofbubblesdo12SimToBubble(B)—CalculateSimilarity(B.Rep,o)13end14NearestBubble-bubblewithhighestsimliaritySimToBubble15assignotoNearestBubbleandupdatedistancesandstatisticsforNearestBubble16endREMI7computedistancesbetweenpairsofbubbles,usingcollectedstatisticsandSimToRep18foreache/柳加5/q/"bubblesdo19foreache/e/7^"/52o/bubblesdo20if£/^82then21B卜SimT0(B2)—ComputeSimilarityToBubble22B卜VirtualReach(B2)—ComputeVirtualReachability(B2)23end24end25end計(jì)算代表之間的距離一計(jì)算所有代表對(duì)之間的全局相似性;在后面將需要它們來(lái)確定所有氣泡之間的距離。將對(duì)象指派給氣泡一在這個(gè)階段(通常花費(fèi)最多的時(shí)間),將數(shù)據(jù)集合中的所有業(yè)務(wù)對(duì)象指派給剛剛生成的氣泡。為此,計(jì)算與對(duì)象最相似的代表,隨后,更新相應(yīng)氣泡的統(tǒng)計(jì)信息。要注意重要一點(diǎn)是,氣泡不存儲(chǔ)有關(guān)它們包含哪個(gè)對(duì)象的信息;為節(jié)省存儲(chǔ)器,它們僅保存關(guān)于它們內(nèi)部特性的一些信息(到其它氣泡的邊界距離、對(duì)象的數(shù)目、標(biāo)準(zhǔn)偏差等)。計(jì)算氣泡之間的距離一當(dāng)已經(jīng)處理了索引的所有對(duì)象時(shí),使用代表之間的相似性和之前收集的統(tǒng)計(jì)信息計(jì)算所有氣泡之間的距離。然后,這些距離將在可視化算法中用于檢索特定氣泡的鄰域(neighborhood),由此決定其是否是核心對(duì)象。算法2:使用氣泡可視化input:Asetbubblesofsize7V,5w/Wes,parametersM!'"T^,soutput:Anorderedlistresultof3-tuples(bubbles,reach-dist,core-dist)1foreache/,加5o/bubblesdoB.processed—2foreache/e脂/Z丑o/bubblesdo3if及/^oce^ed=/a/"then4insert卩S,00)intoCow/ro/丄z、/5whileCowfro/丄/W#。do6reach-dist)—firstelementfromCo"^o/丄^y/7B.processed—true8appendW,reach陽(yáng)dist,core-dist)intoresult9if_5acoreo一"anydf加wce<sthen10core-dist一CoreDistance化M/"/7s,e)11foreachC,7(object-id)v^/zC./)roc^sec/=/aAsedo12reach-dist—B.VirtualReach(C)13ifCow&o/Zj、/theninsert卩C'reach-dist)intoCow"o/乙/sf14elseupdate&,reach-distinConfro/Zj'j"5end6end7end8end9end對(duì)實(shí)際可視化算法的修改大多數(shù)是不需加以說(shuō)明的,但有一個(gè)例外由于數(shù)據(jù)氣泡僅提供整個(gè)數(shù)據(jù)集合的"壓縮"版本,因此必須以適當(dāng)?shù)姆绞綄?duì)圖示進(jìn)行擴(kuò)展以與原始可到達(dá)性圖表(reachabilityplot)實(shí)際匹配。為此,我們使用通過(guò)氣泡中的點(diǎn)描述的實(shí)際(但未知)可到達(dá)性的近似,所謂的虛可到達(dá)性(virtualreachability)(見(jiàn)定義8)。當(dāng)繪制可到達(dá)性圖表時(shí),具有n個(gè)對(duì)象的氣泡B被像這樣表示第一條(寬度=1)考慮實(shí)際的可到達(dá)性距離(高度=5.m://-&/)剩余的條(寬度二n-l)考慮近似的可到達(dá)性距離(高度二AW"-血O在給出這個(gè)概念的正式定義之后,在這個(gè)小節(jié)中的最后我們討論質(zhì)量與速度之間的折衷。定義8(虛可到達(dá)性)令A(yù)和B為兩個(gè)氣泡,并且M/"尸"為自然數(shù)。貝寸,由爿w."s描述的n個(gè)對(duì)象的虛可到達(dá)性距離可以如下定義要注意的重要一點(diǎn)是,壓縮率(即氣泡的數(shù)目與對(duì)象的總數(shù)相比)會(huì)對(duì)結(jié)果的質(zhì)量產(chǎn)生影響。換言之,單個(gè)氣泡代表的對(duì)象越多,算法的運(yùn)行速度越快,并且產(chǎn)生的圖表所具有的細(xì)節(jié)越少。已經(jīng)進(jìn)行了詳細(xì)的實(shí)驗(yàn),結(jié)果是99.7%的壓縮率可以被用于大多數(shù)數(shù)據(jù)集合,以獲得可接受的質(zhì)量的結(jié)果。同時(shí),運(yùn)行時(shí)間將以因子100.至300減少。權(quán)利要求1、一種處理數(shù)據(jù)的方法,包括將包含所述數(shù)據(jù)的業(yè)務(wù)對(duì)象的集合分組成較小的氣泡的集合,每個(gè)氣泡包括僅提供關(guān)于其中的業(yè)務(wù)對(duì)象的統(tǒng)計(jì)信息的容器;基于最近鄰相似性聚類(lèi)所述氣泡;以及生成聚類(lèi)后的氣泡的可視化。2、如權(quán)利要求l所述的方法,還包括格式化所述數(shù)據(jù)。3、如權(quán)利要求2所述的方法,其中,格式化所述數(shù)據(jù)包括從所述數(shù)據(jù)去除任何不需要的屬性。4、如權(quán)利要求l所述的方法,還包括基于關(guān)于所述數(shù)據(jù)的屬性的子集定義相似性模型。5、如權(quán)利要求4所述的方法,其中,所述相似性模型包括用于每個(gè)所使用屬性的局部相似性量度和權(quán)重,以及基于所述局部相似性量度的加權(quán)和的全局相似性量度。6、如權(quán)利要求l所述的方法,其中,分組所述業(yè)務(wù)對(duì)象的集合還包括為每個(gè)氣泡隨機(jī)選擇代表性的業(yè)務(wù)對(duì)象;計(jì)算較小的氣泡的集合中代表性的業(yè)務(wù)對(duì)象對(duì)之間的全局相似性;以及才艮據(jù)對(duì)每個(gè)對(duì)象與所有氣泡之間的局部相似性以及所述全局相似性的比較,將所述業(yè)務(wù)對(duì)象的集合中的每個(gè)其它業(yè)務(wù)對(duì)象指派給最相似的氣泡。7、如權(quán)利要求l所述的方法,其中,聚類(lèi)所述氣泡包括將與另一個(gè)氣泡具有高相似性的氣泡指派給相同的簇。8、如權(quán)利要求l所述的方法,其中,聚類(lèi)所述氣泡還包括對(duì)尚未被處理的所有氣泡進(jìn)行迭代;將當(dāng)前氣泡和相似性0存儲(chǔ)到控制列表中;選擇下一個(gè)氣泡以及其與所述當(dāng)前氣泡的相似性;以及將所述下一個(gè)氣泡及其相似性添加到所述控制列表中。9、如權(quán)利要求8所迷的方法,還包括設(shè)置圍繞核心氣泡的閾值界限,在所迷閾值界限內(nèi),所述核心氣泡具有至少預(yù)定義數(shù)目的其它氣泡;將所述閾值界限內(nèi)的氣泡按照它們與所述核心氣泡的相似性添加到所述控制列表中。10、如權(quán)利要求9所述的方法,還包括目的其它氣泡的任何氣泡;以及將剩余的異常氣泡添加到所述控制列表中以生成結(jié)果列表。11、一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括格式化用于處理的數(shù)據(jù)的集合;將包含格式化后的數(shù)據(jù)的業(yè)務(wù)對(duì)象的集合分組成較小的氣泡的集合,每個(gè)氣泡包括僅提供關(guān)于其中的業(yè)務(wù)對(duì)象的統(tǒng)計(jì)信息的容器;基于最近鄰相似性聚類(lèi)所述氣泡;以及生成聚類(lèi)后的氣泡的可視化。12、如權(quán)利要求11所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,格式化所述數(shù)據(jù)的集合包括從所述數(shù)據(jù)去除任何不需要的屬性。13、如權(quán)利要求ll所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,還包括基于關(guān)于所述數(shù)據(jù)的屬性的子集定義相似性模型。14、如權(quán)利要求13所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述相似性模型包括用于每個(gè)所使用屬性的局部相似性量度和權(quán)重,以及基于所述局部相似性量度的加權(quán)和的全局相似性量度。15、如權(quán)利要求11所述的方法,其中,分組所述業(yè)務(wù)對(duì)象的集合還包括為每個(gè)氣泡隨機(jī)選擇代表性的業(yè)務(wù)對(duì)象;計(jì)算所述較小的氣泡的集合中代表性的業(yè)務(wù)對(duì)象對(duì)之間的全局相似性;以及根據(jù)對(duì)每個(gè)對(duì)象與所有氣泡之間的局部相似性以及所述全局相似性的比較,將所述業(yè)務(wù)對(duì)象的集合中的每個(gè)其它業(yè)務(wù)對(duì)象指派給最相似的氣泡。16、如權(quán)利要求ll所述的方法,其中,聚類(lèi)所述氣泡包括將與另一個(gè)氣泡具有高相似性的氣泡指派給相同的簇。17、如權(quán)利要求ll所述的方法,其中,聚類(lèi)所述氣泡還包括對(duì)尚未被處理的所有氣泡進(jìn)行迭代;將當(dāng)前氣泡和相似性0存儲(chǔ)到控制列表中;選捧下一個(gè)氣泡以及其與所述當(dāng)前氣泡的相似性;以及將所述下一個(gè)氣泡及其相似性添加到所述控制列表中。18、如權(quán)利要求17所述的方法,還包括設(shè)置圍繞核心氣泡的閾值界限,所述核心氣泡在所述閾值界限內(nèi)具有至少預(yù)定義數(shù)目的其它氣泡;以及將所述閾值界限內(nèi)的氣泡按照它們與所述核心氣泡的相似性添加到所迷控制列表中。19、如;f又利要求18所述的方法,還包括的其它氣泡的任何氣泡;以及將剩余的異常氣泡添加到所述控制列表中以生成結(jié)果列表。20、一種計(jì)算機(jī)程序產(chǎn)品,其實(shí)施在有形媒介上,所述計(jì)算機(jī)程序產(chǎn)品導(dǎo)致數(shù)據(jù)處理裝置執(zhí)行操作,包括格式化用于處理的數(shù)據(jù)的集合;將包含格式化后的數(shù)據(jù)的業(yè)務(wù)對(duì)象的集合分組成較小的氣泡的集合,每個(gè)氣泡包括僅提供關(guān)于其中的業(yè)務(wù)對(duì)象的統(tǒng)計(jì)信息的容器;基于最近鄰相似性聚類(lèi)所述氣泡;以及生成聚類(lèi)后的氣泡的可視化。全文摘要提出了一種使用氣泡聚類(lèi)算法的處理數(shù)據(jù)系統(tǒng)和方法。在所述系統(tǒng)和方法中,數(shù)據(jù)集合被格式化,以用于處理。包含格式化后的數(shù)據(jù)的業(yè)務(wù)對(duì)象的集合被分組成較小的氣泡的集合,每個(gè)氣泡包括僅提供關(guān)于其中的業(yè)務(wù)對(duì)象的統(tǒng)計(jì)信息的容器。然后,基于最近鄰相似性聚類(lèi)所述氣泡,并且生成聚類(lèi)后的氣泡的可視化。文檔編號(hào)G06F17/30GK101127049SQ20071014271公開(kāi)日2008年2月20日申請(qǐng)日期2007年8月16日優(yōu)先權(quán)日2006年8月16日發(fā)明者托比亞斯·尼坎普申請(qǐng)人:Sap股份公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
武冈市| 夏邑县| 房产| 荣成市| 上杭县| 襄城县| 岢岚县| 嘉祥县| 临澧县| 天气| 陈巴尔虎旗| 九寨沟县| 新巴尔虎右旗| 从江县| 武冈市| 襄樊市| 凌源市| 乌什县| 尼勒克县| 罗田县| 龙海市| 满城县| 陆丰市| 崇阳县| 正蓝旗| 广南县| 望都县| 商河县| 宣威市| 武安市| 卓资县| 介休市| 成武县| 佛山市| 襄垣县| 浦东新区| 江陵县| 横峰县| 宣威市| 祥云县| 花莲县|