使用二次似然函數(shù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)建模的方法和系統(tǒng)的制作方法
【專利說(shuō)明】使用二次似然函數(shù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)建模的方法和系統(tǒng)
[0001 ]相關(guān)申請(qǐng)
[0002] 本申請(qǐng)要求2013年9月18日提交的美國(guó)臨時(shí)申請(qǐng)?zhí)?1/879,629的優(yōu)先權(quán)益。 發(fā)明領(lǐng)域
[0003] 本發(fā)明涉及一種尤其是在非漸近統(tǒng)計(jì)估算問(wèn)題中用于數(shù)據(jù)預(yù)測(cè)統(tǒng)計(jì)估算的方法 并且更具體地涉及用二次似然函數(shù)替代對(duì)數(shù)似然函數(shù),其中估算系數(shù)的數(shù)量與數(shù)據(jù)點(diǎn)的數(shù) 量相差無(wú)幾或大于數(shù)據(jù)點(diǎn)的數(shù)量。
[0004] 發(fā)明背景
[0005] 無(wú)論是從檢測(cè)的圖像、接收的信號(hào)、輪詢、檢索、或其他任何數(shù)據(jù)收集方法得來(lái)的 測(cè)量的數(shù)據(jù)有可能受到噪聲或不確定性的影響。改善盡可能從數(shù)據(jù)中提取更多信息而不過(guò) 度解釋數(shù)據(jù)的能力的方法是必需的。
[0006] 當(dāng)需要從噪聲數(shù)據(jù)中提取信息時(shí),使用統(tǒng)計(jì)估算,噪聲數(shù)據(jù)即是具有未知的隨機(jī) 分量的數(shù)據(jù),這些隨機(jī)分量從一個(gè)數(shù)據(jù)實(shí)現(xiàn)到另一個(gè)數(shù)據(jù)實(shí)現(xiàn)改變并且只能夠通過(guò)統(tǒng)計(jì)進(jìn) 行表征。統(tǒng)計(jì)估算的目標(biāo)是將數(shù)據(jù)中的信號(hào)建模,即,從一個(gè)數(shù)據(jù)實(shí)現(xiàn)到下一個(gè)數(shù)據(jù)實(shí)現(xiàn)不 會(huì)改變的可再現(xiàn)的分量。信號(hào)被建模成參數(shù)函數(shù),這些參數(shù)的值由模型對(duì)數(shù)據(jù)的擬合值確 定。
[0007] 這種將噪聲數(shù)據(jù)建模的過(guò)程應(yīng)用廣泛,舉幾個(gè)來(lái)說(shuō),包括但不限于跟蹤對(duì)象、信號(hào) 處理、成像(包括醫(yī)學(xué)成像,如CT、SPECT、PET、X-ray等)、市場(chǎng)研究、供應(yīng)鏈管理、庫(kù)存控制以 及金融市場(chǎng)。從歷史數(shù)據(jù)中提取出來(lái)的信息經(jīng)常被用于預(yù)測(cè)未來(lái)行為和/或與之相關(guān)聯(lián)的 風(fēng)險(xiǎn)。只要底層模型正確,預(yù)測(cè)和/或風(fēng)險(xiǎn)分析的質(zhì)量由估算的準(zhǔn)確性確定。
[0008] 應(yīng)當(dāng)指出的是統(tǒng)計(jì)估算涉及到更廣闊的優(yōu)化領(lǐng)域,其還包括非統(tǒng)計(jì)的方法,其中 不涉及噪聲數(shù)據(jù),并且優(yōu)化只是找到最佳的參數(shù)而已。
[0009] 統(tǒng)計(jì)估算可追溯到兩個(gè)世紀(jì)之前的最小二乘法(高斯1809),其后來(lái)演化成最大似 然(ML)法(費(fèi)雪1912,1922)。給定統(tǒng)計(jì)上獨(dú)立的數(shù)據(jù)的概率分布函數(shù),ML法會(huì)最大化數(shù)據(jù)的 條件概率,給定模型,或等效地,會(huì)最小化對(duì)數(shù)似然函數(shù)(LLF)
[0011]在此,X是一個(gè)η維空間,其任何維度可以是連續(xù)的、離散的、或甚至是范疇的,Θ是 模型參數(shù),私是觀察的位置,f(x,0)是pdf,并且δ是η維狄拉克(1958)差量函數(shù)。雖然積分可 以在實(shí)際中被一個(gè)總和逼近,但是積分符號(hào)可以被理解為指明這些連續(xù)維數(shù)上的積分以及 這些離散和范疇維數(shù)上的總和。
[0012]在許多應(yīng)用中,pdf的積分歸一化是固定的,典型地固定為一。在此情況下,在方程 式(1)右手側(cè)的第一項(xiàng)是不變的并且可以被省略,產(chǎn)生
[0014]方程式(1)中包括額外的項(xiàng)是為了考慮到觀察的歸一化只與自身有關(guān)系的情況, 例如檢測(cè)器觀察的事件率或產(chǎn)品的銷售率。在此情況下,方程式(1)是泊松(1837)分布的未 分箱(unb inned) LLF。
[0015] ML方法具有三個(gè)獨(dú)特的優(yōu)點(diǎn):
[0016] 1.其直接估算概率分布函數(shù)(pdf),無(wú)需對(duì)數(shù)據(jù)進(jìn)行分箱。
[0017] 2.在漸近極限中,數(shù)據(jù)點(diǎn)的數(shù)量在很大程度上超過(guò)參數(shù)的數(shù)量,由ML方法估算的 參數(shù)的方差小于或等于競(jìng)爭(zhēng)統(tǒng)計(jì)的方差。在漸近極限中,一個(gè)估算的參數(shù)的方差與用于估 算它的數(shù)據(jù)點(diǎn)數(shù)量成反比。因此,對(duì)于一個(gè)給定的準(zhǔn)確度,ML方法允許從比其他方法中的樣 本更小的樣本中估算參數(shù),從而其具有更高的抽樣效率。事實(shí)上,替代估算量的效率被定義 為在ML方差與其他估算量的方差之間的比率。這借由定義將ML估算量的效率設(shè)定為一,并 且將競(jìng)爭(zhēng)者的效率設(shè)定為小于一的分?jǐn)?shù)或等于一。
[0018] 3.估算的參數(shù)中的不確定性的協(xié)方差矩陣容易從信息矩陣(費(fèi)雪,1922)(8卩LLF的 二階偏導(dǎo)數(shù)的最小值的黑塞矩陣)的漸近極限中計(jì)算。
[0019] 在非漸近的制度中,當(dāng)參數(shù)的數(shù)量與數(shù)據(jù)點(diǎn)的數(shù)量相差無(wú)幾或大于數(shù)據(jù)點(diǎn)的數(shù)量 時(shí),必須約束解以避免使模型將隨機(jī)統(tǒng)計(jì)噪聲處理成可再現(xiàn)的信號(hào)(參見,例如培特、戈斯 內(nèi)爾和亞希勒(Yahil)2005的觀點(diǎn))慣例將信號(hào)表示為基函數(shù)的通用的線性的"非參數(shù)"組 合,基函數(shù)的系數(shù)待被估算。(可以有表征這些基函數(shù)的附加的非線性參數(shù))。目標(biāo)是使估算 同時(shí)提供重要系數(shù)的值并且借由歸零或至少最小化來(lái)約束不重要系數(shù)。那樣,希望將信號(hào) 與噪聲分咼。
[0020] 最可靠的參數(shù)化是最保守的參數(shù)化,其尋找與輸入數(shù)據(jù)一致的最簡(jiǎn)單的底層參 數(shù),還被稱為最小代價(jià)或奧卡姆剃刀原理。簡(jiǎn)單性依賴于上下文,但是對(duì)于大多數(shù)應(yīng)用而 言,最簡(jiǎn)單的解是最平滑的解。PIXON 1"法通過(guò)利用極大值、數(shù)據(jù)許可的空間自適應(yīng)平滑 取得這個(gè)解(Pifta和培特(Puetter)1993;培特(Puetter)和亞希勒(¥ &1^1)1999;培特 (Puetter)等人 2005;美國(guó)專利 5,912,993、6,353,688、6,490,374、6,895,125、6,993、204、 8,014,580、8,086,011、8,090,179、8,160,340、8,396,313;美國(guó)專利公開 2012/0263393,其 中每一個(gè)都被通過(guò)引用結(jié)合在此)ALGEBR0N?方法是被設(shè)計(jì)用于沒有固定在連續(xù)空間內(nèi)的 離散問(wèn)題的等效技術(shù),例如金融系統(tǒng)中的預(yù)測(cè)和風(fēng)險(xiǎn)評(píng)估(美國(guó)專利7,328,182)。
[0021] 自費(fèi)雪(1912,1922)的創(chuàng)舉之后,統(tǒng)計(jì)估算的常用思路是使用ML和其LLF估算量。 然而,ML具有許多嚴(yán)重的缺點(diǎn),這些缺點(diǎn)會(huì)限制其有用性:
[0022] 1 .ML僅僅是漸近高效的。在非漸近制度中,當(dāng)將附加的約束條件應(yīng)用到解上時(shí),ML 方法的效率不能再被保證。
[0023] 2.在非漸近制度中,無(wú)法從信息矩陣中估算這些參數(shù)的協(xié)方差矩陣。實(shí)際上,無(wú)約 束的ML方法常常借由將被看作是信號(hào)的噪聲放大而產(chǎn)生顯著的偽值(artifact)。約束解可 以減小以上所述的這些偽值,但是接著剩余的準(zhǔn)確性主要地由約束條件確定而不是由信息 矩陣確定。
[0024] 3.-般而言,LLF在參數(shù)Θ中是二次的,并且為了確定這些參數(shù)的計(jì)算努力可能不 值得額外的漸近抽樣效率,尤其是對(duì)于大規(guī)模的問(wèn)題而言。
[0025] 4.就這些參數(shù)而言,LLF的梯度具有與pdf f (X,Θ)成反比的一個(gè)項(xiàng)。
[0027] 低pdf區(qū)域中的可能包括離群值(欺騙數(shù)據(jù))的數(shù)據(jù)會(huì)在參數(shù)估算中導(dǎo)致大的偏差 和/或起伏。
[0028] 給定以上的限制時(shí),在非漸近制度中,ML方法與用于非參數(shù)估算的其他估算量相 比不具有特別的優(yōu)勢(shì)。準(zhǔn)確性和計(jì)算效率比不再存在的ML "優(yōu)勢(shì)"更重要。
[0029] 發(fā)明簡(jiǎn)要概述
[0030] 根據(jù)本發(fā)明,提供了一種用于在圖像或信號(hào)重構(gòu)、數(shù)據(jù)分析等等中尤其是在參數(shù) 的數(shù)量與數(shù)據(jù)點(diǎn)的數(shù)量相差無(wú)幾或大于數(shù)據(jù)點(diǎn)的數(shù)量的情況下對(duì)具有噪聲或其他不確定 性的輸入數(shù)據(jù)進(jìn)行建模的方法。特別是,在統(tǒng)計(jì)估算問(wèn)題中,使用二次似然函數(shù)(QLF)代替 對(duì)數(shù)似然函數(shù)。示出了(a)QLF具有費(fèi)雪一致性,因此適合于統(tǒng)計(jì)估算,并且(b)其在漸近極 限的效率僅僅是10-15%,對(duì)于大部分相關(guān)問(wèn)題而言,這個(gè)效率小于對(duì)數(shù)似然函數(shù)的效率。 接著,指出的是對(duì)數(shù)似然函數(shù)在非漸近制度中不具有天生的優(yōu)勢(shì),其中QLF的準(zhǔn)確性和計(jì)算 效率以及其對(duì)于低概率事件的敏感度較低使得其成為理想的估算量。以下的詳細(xì)說(shuō)明提供 了建立和優(yōu)化QLF的顯式程序,包括在數(shù)據(jù)空間上對(duì)函數(shù)進(jìn)行高效的積分。提供了這種新技 術(shù)的潛在應(yīng)用的示例。
[0031] 與LLF-樣,QLF不需要將數(shù)據(jù)分箱,并且其二次型簡(jiǎn)化了解的計(jì)算和約束條件的 應(yīng)用并且對(duì)于低pdf區(qū)域中的數(shù)據(jù)的敏感度更低。甚至在漸近極限中,在常用基函數(shù)的抽樣 效率方面,QLF不會(huì)遠(yuǎn)遠(yuǎn)落后于LLF。當(dāng)考慮線性非參數(shù)的pdf時(shí),可以清楚地發(fā)現(xiàn)QLF的優(yōu) 點(diǎn)。
[0032]雖然本公開專注于統(tǒng)計(jì)估算,但是對(duì)于本領(lǐng)域的技術(shù)人員而言,將會(huì)更容易看清 楚此處提出的一些技術(shù)可以應(yīng)用于普通的優(yōu)化問(wèn)題。
[0033] 在本發(fā)明的一個(gè)方面,提供了一種在計(jì)算機(jī)處理器中借由從源接收輸入信號(hào)而構(gòu) 建目標(biāo)對(duì)象的模型的方法和系統(tǒng),該輸入信號(hào)包含描述該目標(biāo)對(duì)象的數(shù)據(jù)和多個(gè)參數(shù),該 輸入信號(hào)具有一個(gè)噪聲部分;選擇一組初始參數(shù),估算包括一個(gè)平方可積的基函數(shù)集合的 一個(gè)線性組合的一個(gè)非參數(shù)的概率分布函數(shù)(pdf ),計(jì)算一個(gè)二次似然函數(shù)(QLF),基于該 QLF求這些初始參數(shù)對(duì)該數(shù)據(jù)的一個(gè)擬合值,借由選擇一組新參數(shù)并且求該組新參數(shù)的擬 合值來(lái)迭代優(yōu)化該QLF直到達(dá)到一個(gè)預(yù)定條件。一旦達(dá)到一個(gè)可接受的擬合值,則能夠顯示 使用這些經(jīng)優(yōu)化的參數(shù)構(gòu)建的該目標(biāo)對(duì)象的一個(gè)模型的一個(gè)輸出。
[0034] 在本發(fā)明的另一方面,一種用于從輸入信號(hào)生成目標(biāo)對(duì)象的重構(gòu)圖像的方法,該 輸入信號(hào)具有一個(gè)數(shù)據(jù)分量和一個(gè)噪聲分量,該方法包括:使一個(gè)計(jì)算機(jī)執(zhí)行多個(gè)指令以 用于:從一個(gè)圖像源接收該輸入信號(hào),該輸入信號(hào)包括多個(gè)參數(shù);從該多個(gè)參數(shù)中選擇一組 初始參數(shù);估算一個(gè)非參數(shù)的概率分布函數(shù)(pdf),該非參數(shù)的概率分布函數(shù)包括一個(gè)平方 可積的基函數(shù)集合的一個(gè)線性組合;計(jì)算形式為以下的一個(gè)二次似然函數(shù)(QLF),
其中,Θ表示這些參數(shù),X表示觀察的位置, 并且f (X,Θ)是該pdf;基于該QLF求這些初始參數(shù)該數(shù)據(jù)的一個(gè)擬合值;借由選擇一組新參 數(shù)并且求該組新參數(shù)的擬合值來(lái)迭代優(yōu)化該QLF直到達(dá)到一個(gè)預(yù)定條件;并且生成一個(gè)輸 出,該輸出包括基于這些經(jīng)優(yōu)化的參數(shù)對(duì)該目標(biāo)對(duì)象的重構(gòu)圖像的顯示。在一些實(shí)施例中, 該輸入信號(hào)包括第一平面圖像數(shù)據(jù)和第二平面圖像數(shù)據(jù),其中,對(duì)該第一平面圖像數(shù)據(jù)和 該第二平面圖像數(shù)據(jù)中的每一個(gè)進(jìn)行選擇、估算、計(jì)算、求值以及迭代優(yōu)化該QLF的這些步 驟,并且其中,生成一個(gè)輸出包括顯示該目標(biāo)對(duì)象的一個(gè)三維圖像。
[0035] 在本發(fā)明的仍另一方面,一種用于對(duì)包含在輸入信號(hào)中的描述目標(biāo)對(duì)象的數(shù)據(jù)進(jìn) 行建模的系統(tǒng),該系統(tǒng)包括:一個(gè)計(jì)算機(jī)可讀介質(zhì);耦接到該計(jì)算機(jī)可讀介質(zhì)上的一個(gè)參數(shù) 優(yōu)化處理器;以及一個(gè)通信接口,該通信接口耦接到該參數(shù)優(yōu)化處理器上并且被適配成用 于分別向并且從該參數(shù)優(yōu)化處理器接收并且傳輸多個(gè)重構(gòu)模型的多個(gè)電子表示,該計(jì)算機(jī) 可讀介質(zhì)在其上存儲(chǔ)有多個(gè)軟件指令,當(dāng)這些指令被該參數(shù)優(yōu)化處理器執(zhí)行時(shí),使得該參 數(shù)優(yōu)化處理器進(jìn)行多個(gè)操作,這些操作包括:
[0036] 從一個(gè)源接收該輸入信號(hào),該源被配置成用于收集對(duì)象數(shù)據(jù);生成與該對(duì)象數(shù)據(jù) 對(duì)應(yīng)的一組初始參數(shù);估算一個(gè)非參數(shù)的概率分布函數(shù),該非參數(shù)的概率分布函數(shù)包括一個(gè) 平方可積的基函數(shù)集合的一個(gè)線性組合;計(jì)算形式
的一個(gè)二次似然函數(shù)(QLF),其中,Θ表示這些參數(shù),X表示觀察的位置,并且f(x,0)是該pdf; 基于該QLF求這些初始參數(shù)對(duì)該數(shù)據(jù)的一個(gè)擬合值;借由選擇一組新參數(shù)并且求該組新參 數(shù)的擬合值來(lái)迭代優(yōu)化該QLF直到達(dá)到一個(gè)預(yù)定條件;并且生成一個(gè)輸出,該輸出包括使用 這些經(jīng)優(yōu)化的參數(shù)構(gòu)建的該目標(biāo)對(duì)象的一個(gè)模型。在一些實(shí)施例中,該數(shù)據(jù)包括權(quán)重^并 且該QLF具有的形式為
[0038] 該系統(tǒng)進(jìn)一步包括用于使用該數(shù)據(jù)和這些基函數(shù)計(jì)算一個(gè)源項(xiàng)的軟件指令。得到 該QLF是借由使用這些基函數(shù)計(jì)算一個(gè)格拉姆矩陣;并且將該格拉姆矩陣、這些參數(shù)以及該 源項(xiàng)組合以產(chǎn)生該QLF。在一些實(shí)施例中,該輸入信號(hào)是圖像數(shù)據(jù)并且該輸出包括顯示在一 個(gè)圖形用戶界面上的該目標(biāo)對(duì)象的一個(gè)二維、三維或四維的表示。該圖像數(shù)據(jù)可以是從由X 光、CT、發(fā)射斷層掃描、SPECT和PET構(gòu)成的一個(gè)組中選擇的,并且該目標(biāo)對(duì)象是一個(gè)病人的 一個(gè)身體部分。該圖像數(shù)據(jù)是從至少兩個(gè)平面中取出的,使得該輸出包括一個(gè)三維表示。在 一些實(shí)施例中,該圖像數(shù)據(jù)是從至少兩個(gè)平面中取出的并且進(jìn)一步包括時(shí)間,使得該輸出 包括一個(gè)四維表示。
[0039] 在本發(fā)明的又另一方面,提供了一種用于使用統(tǒng)計(jì)估算從輸入數(shù)據(jù)生成模型的改 進(jìn)的方法,其中,改進(jìn)包括用一個(gè)二次似然函數(shù)(QLF)替代一個(gè)對(duì)數(shù)似然函數(shù)(LLF)以優(yōu)化 用于生成該模型的多個(gè)參數(shù)。
[0040] 附圖簡(jiǎn)要描述
[0041] 圖1是一個(gè)普通計(jì)算環(huán)境的框圖,