两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

模式提取裝置及其方法

文檔序號:6495509閱讀:186來源:國知局
模式提取裝置及其方法
【專利摘要】本發(fā)明提供一種模式提取裝置,從包含多個項目的對象信息提取反映項目間的關(guān)聯(lián)性的模式,其具有:第一存儲部,其存儲多個所述對象信息;候補模式生成部,其根據(jù)分別包含于所述多個對象信息中的各項目,生成由相互不同的兩個以上項目構(gòu)成的候補模式;候補評價值計算部,其根據(jù)所述已生成的候補模式在各所述多個對象信息中出現(xiàn)的出現(xiàn)頻度,計算所述候補模式的提取評價值;模式提取部,其判定所述已計算的提取評價值滿足規(guī)定閾值的候補模式,并提取滿足所述閾值的候補模式;第二存儲部,其存儲所述項目間的關(guān)聯(lián)度,所述候補評價值計算部識別所述候補模式中的各項目間的關(guān)聯(lián)度,根據(jù)基于所識別的關(guān)聯(lián)度的加權(quán)值和所述出現(xiàn)頻度,計算所述提取評價值。
【專利說明】模式提取裝置及其方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實施方式涉及從包含多個項目的對象信息提取項目的組合模式的控制?!颈尘凹夹g(shù)】
[0002]在現(xiàn)有技術(shù)中,為了分析各種活動或事物,人們研究用于從多個項目構(gòu)成的對象信息中高效地提取與分析目的等相應(yīng)的特定模式,即項目組合的裝置或方法。
[0003]專利文獻
[0004]專利文獻1:(日本發(fā)明專利)特開2003-76937號公報
【發(fā)明內(nèi)容】

[0005]本發(fā)明提供一種從包括項目的多個對象信息,反映項目間的關(guān)聯(lián)性、提取特定的模式的模式提取裝置及其方法。
[0006]本實施方式的模式提取裝置,其從包含多個項目的對象信息中提取相互不同的兩個以上項目的組合的模式,具有:第一存儲部,其存儲多個所述對象信息;候補模式生成部,其根據(jù)分別包含于所述多個對象信息中的各項目,生成由相互不同的兩個以上項目構(gòu)成的候補模式;候補評價值計算部,其根據(jù)所述已生成的候補模式在各所述多個對象信息中出現(xiàn)的出現(xiàn)頻度,計算所述候補模式的提取評價值;模式提取部,其判定所述已計算的提取評價值滿足規(guī)定閾值的候補模式,并提取滿足所述閾值的候補模式;和第二存儲部,其存儲所述項目間的關(guān)聯(lián)度,所述候補評價值計算部識別所述候補模式中的各項目間的關(guān)聯(lián)度,根據(jù)基于所識別的關(guān)聯(lián)度的加權(quán)值和所述出現(xiàn)頻度,計算所述提取評價值。
【專利附圖】

【附圖說明】
[0007]圖1為表示第一實施方式的模式提取裝置的構(gòu)成例的圖,是表示構(gòu)成本裝置的各部分之間關(guān)系的方框圖。
[0008]圖2為表示作為保存在數(shù)據(jù)存儲部中的對象信息的業(yè)務(wù)群的一個例子的圖。
[0009]圖3為表示存儲在項目間信息存儲部中的關(guān)聯(lián)度列表的一個例子的圖。
[0010]圖4為用于說明模式提取裝置的操作的流程圖。
[0011]圖5為用于說明項目提取部進行的處理的子流程。
[0012]圖6為表示長度為I的候補模式的頻度和支持度的一個例子的圖。
[0013]圖7為表不存儲于模式存儲部的長度為I的模式的一個例子的圖。
[0014]圖8為用于說明候補模式生成部進行的處理的子流程。
[0015]圖9為用于說明候補評價值計算部進行的處理的子流程。
[0016]圖10為表示長度為2的候補模式的頻度和關(guān)聯(lián)性支持度的一個例子的圖。
[0017]圖11為表示存儲于模式存儲部的長度為2的模式的一個例子的圖。
[0018]圖12為表示長度為3的候補模式的頻度和關(guān)聯(lián)性支持度的一個例子的圖。
[0019]圖13為表示存儲于模式存儲部的長度為3的模式的一個例子的圖。[0020]圖14為用于說明模式提取裝置的另一實施方式的動作的流程圖。
[0021]附圖標記說明
[0022]100模式提取裝置
[0023]10 數(shù)據(jù)存儲部
[0024]20 項目間信息存儲部
[0025]30 項目提取部
[0026]40 候補模式生成部
[0027]50 候補頻度計算部
[0028]60 候補評價值計算部
[0029]70 候補評價部
[0030]80 模式存儲部
【具體實施方式】
[0031 ] 下面,參照【專利附圖】
附圖
【附圖說明】實施方式。
[0032]本實施方式的模式提取裝置,在包含多個項目(信息要素)的對象信息為多個的情形下,利用項目間的關(guān)系,執(zhí)行從該多個對象信息中提取項目的特征性組合(模式)的控制。
[0033]另外,用語“模式”通常是指兩個以上項目的組合,在下面的說明中,也存在對于單一項目使用用語“模式”的情形。另一方面,用語“模式”從狹義上來說是指具有上述“項目的特征性組合”的模式。稱用于提取上述狹義模式的、作為候補的模式為“模式的候補”或“候補模式”。
[0034]本裝置可用于,例如在超市等日用品銷售中,找出購入商品的特征性組合;在銀行業(yè)務(wù)中,找出店鋪特性與工作失誤種類之間的特征性因果關(guān)系;在推薦節(jié)目時,找出視聽者的特性與視聽履歷之間視聽者的偏好等領(lǐng)域。但是,這些僅為例子本發(fā)明并不限定于此。
[0035]下面,以超市等的日用品(食品)零售業(yè)的商品為項目,對利用本裝置進行處理的情形加以說明。具體來說,對以下情形進行說明,即在某超市的食品銷售賣場中,為了提取、獲得顧客已購買的商品(食品)的特征性組合(即“模式”),而以顧客的一張收據(jù)為一個對象信息(業(yè)務(wù)),以收據(jù)中記載的商品(食品名稱等名字)為項目而進行處理。
[0036]圖1?圖13是表示第一實施方式的圖。圖1是本實施方式的模式提取裝置100的框圖,圖中連接各方框的箭頭表示數(shù)據(jù)的流向。本裝置包括:作為存儲多個對象信息的業(yè)務(wù)集合的第一存儲部的數(shù)據(jù)存儲部10 ;作為存儲與項目間關(guān)聯(lián)性相關(guān)的信息的第二存儲部的項目間信息存儲部20 ;從業(yè)務(wù)集合中提取項目的項目提取部30 ;使用提取的項目生成基于相互不同的兩個以上項目的組合的模式候補(候補模式)的候補模式生成部40 ;計算候補模式出現(xiàn)在業(yè)務(wù)中的頻度的候補頻度計算部50 ;使用候補模式的頻度和上述與項目間關(guān)聯(lián)性相關(guān)的信息,計算候補模式的提取評價值的候補評價值計算部60 ;以所計算的提取評價值中滿足基準值的候補模式為模式,并提取該模式的候補評價部70 ;和模式存儲部80。
[0037]本裝置通過將執(zhí)行后述各個處理的程序數(shù)據(jù)存儲于未圖示的硬盤裝置等外部存儲介質(zhì),將該程序讀入個人電腦(PC)來實現(xiàn)。此時,例如該計算機的硬盤裝置或內(nèi)存等存儲器起到數(shù)據(jù)存儲部10、項目間信息存儲部20、模式存儲部80的功能,CPU等控制設(shè)備起到項目提取部30、候補模式生成部40、候補頻度計算部50、候補評價值計算部60及候補評價部70的功能,而構(gòu)成各功能模塊。
[0038]數(shù)據(jù)存儲部10在后述的一系列處理之前,起到對對象信息業(yè)務(wù)集合(下面稱作“業(yè)務(wù)群”)的數(shù)據(jù)進行存儲的業(yè)務(wù)存儲部的功能,并且保存后述的與最小支持度相關(guān)的數(shù)據(jù)和表示項目排列優(yōu)先度的數(shù)據(jù)。
[0039]圖2表示作為存儲在數(shù)據(jù)存儲部10中的對象信息的業(yè)務(wù)群的一個例子。業(yè)務(wù)是由多個項目(該例子中,作為實際購入的商品為“雞肉”、“豬肉”、“牛肉”、“金槍魚”、“竹夾魚”、“啤酒”這六種即六個項目)中一個以上的項目構(gòu)成,圖2中表示以A01、A02、A03、A04、A05這五個業(yè)務(wù)為業(yè)務(wù)群,將其存儲(保存)于數(shù)據(jù)存儲部10的規(guī)定存儲區(qū)域的情形。
[0040]在以超市等日用品零售業(yè)為對象時,記錄有購入商品一覽的一張收據(jù)相當于一個業(yè)務(wù)(例如A01)。該例子中不著眼于收據(jù)中記載的商品金額、購買個數(shù),而僅著眼于與商品是否被購入相關(guān)的信息。因此,如圖2所示,在數(shù)據(jù)存儲部10中,僅以商品名稱的信息為項目,即使購入數(shù)量為多個也只是存儲一個商品名稱而非多個。
[0041]在本實施方式中,作為存儲于數(shù)據(jù)存儲部10的業(yè)務(wù)群的數(shù)據(jù)結(jié)構(gòu)中,使用于識別各業(yè)務(wù)的業(yè)務(wù)號碼(A01?A05),與表不構(gòu)成該業(yè)務(wù)的項目一覽的項目列表(該例子中為購入列表)相對應(yīng)。AOl?A05的各業(yè)務(wù)由購入列表所不I個或多個項目構(gòu)成。S卩,業(yè)務(wù)AOl包括4個項目(也就是說4種商品,下面相同),業(yè)務(wù)A02包括3個項目,業(yè)務(wù)A03包括4個項目,業(yè)務(wù)A04包括兩個項目,業(yè)務(wù)A05包括3個項目。在各業(yè)務(wù)中,各項目利用逗號等規(guī)定符號分割從而加以識別。這里為了簡單明了,對構(gòu)成業(yè)務(wù)群的所有業(yè)務(wù)都由多個項目組成的情形進行說明,但只要包含一個以上項目,即可成為業(yè)務(wù)。
[0042]另外,存儲于數(shù)據(jù)存儲部10的與最小支持度相關(guān)的數(shù)據(jù)是由分析者等預(yù)先設(shè)定的數(shù)值數(shù)據(jù),在本實施方式中,該數(shù)值是用于提取后述的頻繁出現(xiàn)項目的基準值(閾值),并且也用作從包含多個項目的候補模式提取特征性模式的基準值(閾值)??衫梦磮D示的鼠標或鍵盤等輸入裝置的操作,在處理之前,根據(jù)構(gòu)成被使用的業(yè)務(wù)群的業(yè)務(wù)個數(shù)、項目構(gòu)成等,任意對最小支持度的數(shù)值數(shù)據(jù)進行設(shè)定、變更等。
[0043]下面對最小支持度的數(shù)值為40%以上的情形進行說明,但并不僅限定于該值。下面對最小支持度的數(shù)值一律設(shè)定為40%時的情況進行說明,但可按照模式的次數(shù)和長度(即,構(gòu)成該模式的項目個數(shù))預(yù)先設(shè)定不同的數(shù)值。
[0044]進而,生成后述候補模式時參照表示存儲于數(shù)據(jù)存儲部10的項目的排列優(yōu)先度的數(shù)據(jù),在本例子中,優(yōu)先度從高到低排序為“雞肉”、“豬肉”、“牛肉”、“金槍魚”、“竹夾魚”、“啤酒”??稍谔幚碇袄梦磮D示的鼠標或鍵盤等輸入裝置的操作,任意對該數(shù)據(jù)進行設(shè)定、變更等。本實施方式的優(yōu)先度是對構(gòu)成模式的多個項目的排列順序加以規(guī)定的信息,用于按照例如品名的類別順序、類別內(nèi)的品名順序、字典或字母順序等一定的規(guī)則排列多個項目。通過利用該優(yōu)先度可順利且快速的進行例如候補模式的生成處理。
[0045]在后述的一系列處理之前,項目間信息存儲部20存儲構(gòu)成要使用的與業(yè)務(wù)群中的各項目之間的關(guān)聯(lián)性相關(guān)的信息(下面也稱為“項目間聯(lián)系”。)的數(shù)據(jù)。項目間聯(lián)系的數(shù)據(jù)是各項目相互間(也包括同一項目間)關(guān)聯(lián)度的數(shù)據(jù),更詳細地說,是表示關(guān)聯(lián)度高低的數(shù)值數(shù)據(jù),在本實施方式中,項目間的關(guān)聯(lián)度越高數(shù)值越大。
[0046]圖3表示存儲于項目間信息存儲部20的項目間聯(lián)系的一個例子。本例子中,作為項目間聯(lián)系,使用以行列配置業(yè)務(wù)群中的各項目的數(shù)據(jù)表。此處,項目間聯(lián)系是以從O到I之間的數(shù)值表示項目與項目之間具有何種程度的關(guān)系,下面稱該數(shù)值為“關(guān)聯(lián)度”。關(guān)聯(lián)度定義為:項目間的關(guān)系越強(關(guān)聯(lián)度越高)該值越大,關(guān)系越弱(關(guān)聯(lián)度越低)該值越小。另外,對于同一項目的關(guān)聯(lián)度賦予最大值“I”。在處理之前,利用未圖示的鼠標或鍵盤等輸入裝置的操作,分析者可根據(jù)作為處理對象的業(yè)務(wù)項目的上位概念的類別個數(shù)或類別構(gòu)造等,對關(guān)聯(lián)度的具體數(shù)值進行任意設(shè)定、變更等。
[0047]在圖3的例子中,作為存儲于項目間信息存儲部20的項目間聯(lián)系,對業(yè)務(wù)群中的η個項目在行(i )方向和列(j )方向上進行排列,利用由數(shù)值表示的兩個項目間關(guān)系的矩陣(下面該矩陣也稱為“關(guān)聯(lián)度矩陣”)形式,而使用記錄有各項目間關(guān)聯(lián)度值的關(guān)聯(lián)度矩陣表。該關(guān)聯(lián)度矩陣表中,I為最大值,項目間的關(guān)聯(lián)度越高記錄的數(shù)值越大。具體來說,對于同一項目之間(“雞肉”和“雞肉”,“豬肉”和“豬肉”等)記錄最大值1,對于不同項目(“雞肉”和“豬肉”,“雞肉”和“啤酒”等)彼此,記錄與項目間關(guān)系強度相應(yīng)的數(shù)值。該例子中,項目所屬的類別相同時,即同為肉類(“雞肉”和“豬肉”,“雞肉”和“牛肉”,“豬肉”和“牛肉”)、同為魚類(“金槍魚”和“竹夾魚”)時,記錄中等程度的關(guān)聯(lián)度數(shù)值0.5。另一方面,項目所屬的類別不同時,即上述肉類所屬的項目、魚類所屬的項目與屬于飲料類別項目的啤酒之間由于沒有關(guān)聯(lián),而記錄關(guān)聯(lián)度數(shù)值O。
[0048]在本實施方式中,也可將“項目間聯(lián)系”稱為不想作為模式(組合)而提取的項目間關(guān)聯(lián)性數(shù)值。即,對于同一項目間的組合(“雞肉”和“雞肉”,“豬肉”和“豬肉”等)設(shè)定最大值(在本例子中為1),以使其在分析時不作為模式而提取,對于類別相同的項目的組合(例如“雞肉”和“豬肉”)設(shè)定為在分析時不容易作為模式而提取的數(shù)值(本例子中為0.5),對于類別完全不同的項目的組合(例如“雞肉”和“啤酒”)設(shè)定為在分析時容易作為模式而提取的數(shù)值(本例子中為O)。
[0049]項目提取部30讀取存儲于數(shù)據(jù)存儲部10的業(yè)務(wù)群數(shù)據(jù),從讀取的數(shù)據(jù)提取頻繁出現(xiàn)的項目。具體來說,項目提取部30從數(shù)據(jù)存儲部10提取構(gòu)成每個業(yè)務(wù)的項目,計算每個所提取的項目的出現(xiàn)頻度,即出現(xiàn)該項目的業(yè)務(wù)的數(shù)量(下面也稱為“項目頻度”)。從項目提取部30向候補模式生成部40發(fā)送計算的項目頻度信息。項目提取部30根據(jù)所計算的項目頻度,計算對于該項目的支持度,僅將該計算值在預(yù)先在數(shù)據(jù)存儲部10中設(shè)定的最小支持度(本例子中為40%)以上的項目作為頻繁出現(xiàn)項目,存儲于模式存儲部80。
[0050]此處,對于任意一個項目(it)的支持度的具體計算方法如下述公式I所示。
[0051]【公式I】
[0052]
【權(quán)利要求】
1.一種模式提取裝置,其從包含多個項目的對象信息中提取相互不同的兩個以上項目的組合的模式,其特征在于,具有: 第一存儲部,其存儲多個所述對象信息; 候補模式生成部,其根據(jù)分別包含于所述多個對象信息中的各項目,生成由相互不同的兩個以上項目構(gòu)成的候補模式; 候補評價值計算部,其根據(jù)所述已生成的候補模式在各所述多個對象信息中出現(xiàn)的出現(xiàn)頻度,計算所述候補模式的提取評價值; 模式提取部,其判定所述已計算的提取評價值滿足規(guī)定閾值的候補模式,并提取滿足所述閾值的候補模式;和 第二存儲部,其存儲所述項目間的關(guān)聯(lián)度, 所述候補評價值計算部識別所述候補模式中的各項目間的關(guān)聯(lián)度,根據(jù)基于所識別的關(guān)聯(lián)度的加權(quán)值和所述出現(xiàn)頻度,計算所述提取評價值。
2.根據(jù)權(quán)利要求1所述的模式提取裝置,其特征在于, 所述候補評價值計算部根據(jù),在任意的兩個候補模式pl、p2中,當候補模式pi是候補模式P2的子集時,候補模式p2的提取評價值為候補模式pl的提取評價值以下的單調(diào)性成立的定義,計算所述提取評價值。
3.根據(jù)權(quán)利要求1或2所述的模式提取裝置,其特征在于, 所述候補評價值計算部從所述第二存儲部提取所述候補模式中的項目間的關(guān)聯(lián)度,并將從固定值減去所述提取的關(guān)聯(lián)度得到的值作為所述加權(quán)值進行計算。
4.一種模式提取方法,其從包含多個項目的對象信息中提取相互不同的兩個以上項目的組合的模式,其特征在于,包括: 在存儲區(qū)域存儲多個所述對象信息的步驟; 根據(jù)分別包含于所述多個對象信息中的各項目,生成由相互不同的兩個以上項目構(gòu)成的候補模式的步驟; 在存儲區(qū)域存儲所述項目間的關(guān)聯(lián)度的步驟; 根據(jù)所述已生成的候補模式在各所述多個對象信息中出現(xiàn)的出現(xiàn)頻度,計算所述候補模式的提取評價值的步驟; 判定所述已計算的提取評價值滿足規(guī)定閾值的候補模式,并提取滿足所述閾值的候補模式的步驟, 在計算所述候補模式的提取評價值的步驟中,識別所述候補模式中的各項目間的關(guān)聯(lián)度,根據(jù)基于所識別的關(guān)聯(lián)度的加權(quán)值和所述出現(xiàn)頻度,計算所述提取評價值。
5.一種計算機程序,其特征在于, 對于將包含多個項目的對象信息和所述項目間的關(guān)聯(lián)度存儲于規(guī)定的存儲區(qū)域,并執(zhí)行對所述對象信息中相互不同的兩個以上項目的組合的模式進行提取的模式提取處理的計算機,使該計算機實現(xiàn): 根據(jù)分別包含于所述多個對象信息中的各項目,生成由相互不同的兩個以上項目構(gòu)成的候補模式的功能; 根據(jù)所述已生成的候補模式在所述多 個對象信息中出現(xiàn)的出現(xiàn)頻度,計算所述候補模式的提取評價值的功能;判定所述已計算的提取評價值滿足規(guī)定閾值的候補模式,并提取滿足所述閾值的候補模式的功能, 在計算所述候補模式的提取評價值的功能中,識別所述候補模式中的各項目間的關(guān)聯(lián)度,根據(jù)基于所識別的關(guān)聯(lián)度的加權(quán)值`和所述出現(xiàn)頻度,計算所述提取評價值。
【文檔編號】G06F19/00GK103597485SQ201280027950
【公開日】2014年2月19日 申請日期:2012年5月25日 優(yōu)先權(quán)日:2011年6月8日
【發(fā)明者】櫻井茂明, 早川留美, 江川誠二 申請人:株式會社東芝, 東芝解決方案株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宁陕县| 格尔木市| 五大连池市| 大余县| 沅陵县| 海阳市| 新河县| 孙吴县| 买车| 靖江市| 彩票| 临桂县| 金山区| 云阳县| 义乌市| 象州县| 潼南县| 汉川市| 高阳县| 遂昌县| 长顺县| 南丰县| 广平县| 文安县| 定襄县| 依兰县| 松阳县| 清镇市| 吴桥县| 三穗县| 旺苍县| 增城市| 濮阳市| 崇仁县| 白城市| 桦川县| 吉林市| 县级市| 石河子市| 泾源县| 汝州市|