專利名稱:一種統(tǒng)計(jì)資料的分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種資料分析方法,特別指一種統(tǒng)計(jì)資料的分析方法,該方法可以提高統(tǒng)計(jì)資料預(yù)測(cè)的準(zhǔn)確率,從而使統(tǒng)計(jì)資料的利用更加可靠。
背景技術(shù):
調(diào)查是針對(duì)某一群體的特定現(xiàn)象進(jìn)行研究,以期發(fā)掘出有用的資料供學(xué)術(shù)、商業(yè)利用或決策參考的行為,分為普查及抽查;普查必須動(dòng)用較多的人力及物力和較長(zhǎng)的時(shí)間, 因此不適合經(jīng)常性進(jìn)行;抽查可針對(duì)研究對(duì)象抽取少部分的樣本,因而在人、物力及時(shí)間上比普查精簡(jiǎn),所以能經(jīng)常性進(jìn)行,但是抽取的樣本是否足以代表及反應(yīng)母群體的真實(shí)情形, 是抽查必須嚴(yán)肅對(duì)待的課題。在資料預(yù)測(cè)過(guò)程,可以根據(jù)母群體(Population)的可能特性以不同的統(tǒng)計(jì)分布進(jìn)行,較常用的是均勻分布(Uniform DistHbution)或常態(tài)分布(Normal Distribution); 然而經(jīng)過(guò)上述分布所完成的抽樣結(jié)果,哪一種的次料預(yù)測(cè)準(zhǔn)確率較高或者哪一種的預(yù)測(cè)信賴水平(Confidence level)較好,并未有確切的答案,因此造成預(yù)測(cè)資料使用的不安定性。
發(fā)明內(nèi)容
有鑒于現(xiàn)有技術(shù)的存在的上述問(wèn)題,本發(fā)明的主要日的在于提供一種統(tǒng)計(jì)資料的分析方法,以期提高資料預(yù)測(cè)的準(zhǔn)確率。為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種統(tǒng)計(jì)資料的分析方法,其步驟包括以常態(tài)分布從一母群體中抽取一第一資料,并求出所述第一資料的眾數(shù)(mode);以均勻分布再?gòu)乃瞿溉后w中抽取一第二資料,其中所述第二資料的每一變量的抽樣數(shù)低于所述第一資料的眾數(shù)的峰值;將所述第一資料與所述第二資料結(jié)合,以形成一第三資料;將所述第三資料與一第四資料結(jié)合,并進(jìn)行資料的清洗、串連及資料挖掘(Data Mining)以獲得一第五資料;以及驗(yàn)證所述第五資料的準(zhǔn)確率。作為優(yōu)選,當(dāng)所述第一資料的眾數(shù)的峰值的一半大于三十時(shí),將所述第二資料的每一變量的抽樣數(shù)定為所述峰值的一半;反之,當(dāng)所述第一資料的眾數(shù)的峰值的一半小于三十時(shí),則將所述第二資料的每一變量的抽樣數(shù)定為三十。作為優(yōu)選,所述第四資料的樣本數(shù)大于所述第一資料和所述第二資料的合計(jì)樣本數(shù),例如所述第一資料和所述第二資料可以是一種根據(jù)所要獲取的信息而設(shè)計(jì)有多種訊息項(xiàng)目的資料,例如問(wèn)卷資料或市調(diào)資料;而所述第四資料可以是根據(jù)每一次行為而被動(dòng)獲得的資料,例如一銷售端(Point 0fSales,P0S)的資料,如發(fā)票。作為優(yōu)選,選定一已知的呈常態(tài)分布的母群體為資料抽取對(duì)象。通過(guò)本發(fā)明如上所述的統(tǒng)計(jì)資料的分析方法,可以提高現(xiàn)有技術(shù)的資料預(yù)測(cè)方法的預(yù)測(cè)準(zhǔn)確率,使預(yù)測(cè)資料的可信賴水平提高。
CN 102455993 A說(shuō)明書(shū)2/4 頁(yè)圖1為本發(fā)明的統(tǒng)計(jì)資料的分析方法的步驟示意圖。圖2為本發(fā)明的統(tǒng)計(jì)資料的分析方法的第一資料的分布機(jī)率密度函數(shù)圖。圖3為本發(fā)明的統(tǒng)計(jì)資料的分析方法的第二資料的分布機(jī)率密度函數(shù)圖。圖4為本發(fā)明的統(tǒng)計(jì)資料的分析方法的第三資料的分布機(jī)率密度函數(shù)圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明的實(shí)施例做進(jìn)一步地詳細(xì)說(shuō)明。如圖1所示,本發(fā)明的統(tǒng)計(jì)資料的分析方法包括下列步驟以常態(tài)分布從一母群體中抽取一第一資料,并求出第一資料的眾數(shù);以均勻分布再?gòu)哪溉后w中抽取一第二資料, 其中第二資料的每一變量的抽樣數(shù)低于第一資料的眾數(shù)的峰值;將第一資料與第二資料結(jié)合,以形成一第三資料;將第三資料與一第四資料結(jié)合,并進(jìn)行資料的清洗、串連及資料挖掘以獲得一第五資料;以及驗(yàn)證第五資料的準(zhǔn)確率。如上所述的統(tǒng)計(jì)資料的分析方法,其中以常態(tài)分布從母群體中抽取第一資料,是假設(shè)母群體的分布未知,因此以常態(tài)分布方式先進(jìn)行母群體的抽樣,以制作一呈常態(tài)分布的第一資料,例如可利用市場(chǎng)調(diào)查方式獲得某一商品的消費(fèi)年齡層分布。然而,如果已知母群體為呈常態(tài)分布,則直接以隨機(jī)抽樣的方式形成第一資料,并求出第一資料的眾數(shù)。上述第二資料在本實(shí)施例中是根據(jù)研究者的需求而設(shè)計(jì)出具有多面向的資料,例如具有消費(fèi)者的年齡、職業(yè)、收入、教育程度及消費(fèi)習(xí)慣等資料的市調(diào)資料,以便能提供兼具深度及廣度的具有參考性的資料。上述將第一資料與第二資料結(jié)合以形成第三資料,其目的在于彌補(bǔ)個(gè)別資料的不足,以增加資料的可參考性。如以常態(tài)分布制作的第一資料,會(huì)有分布中央過(guò)度集中強(qiáng)化及分布兩側(cè)過(guò)于萎縮弱化的現(xiàn)象,如圖2所示,造成資料可參考性不足。有鑒于此,根據(jù)第一資料眾數(shù)峰值并以均勻分布制作的第二資料,如圖3所示,可以將第一資料變量中不足的樣本數(shù)補(bǔ)足,以提高各變量的資料可參考性。最后,將第一資料與第二資料結(jié)合形成第三資料,并由第四圖的第三資料的分布可看出,發(fā)生于第一資料的中央過(guò)度集中強(qiáng)化及兩側(cè)過(guò)于萎縮弱化的分布現(xiàn)象已解決,使得各變量的樣本數(shù)足夠反應(yīng)母群體的現(xiàn)象,以增加預(yù)測(cè)資料的準(zhǔn)確率。另一方面,本實(shí)施例的第四資料設(shè)定為一隨機(jī)獲取的資料,例如是一記載有消費(fèi)金額、品項(xiàng)及日期的零售端資料,如發(fā)票存單。因此,在本實(shí)施例中,第四資料的樣本數(shù)大于第一、二資料的合計(jì)樣本數(shù),因此可利用本發(fā)明人申請(qǐng)專利的資料整合方法(TW097118500、 CN200810125709. 9、US12139759),將少量樣本數(shù)但資料參考性高的資料,結(jié)合一大顯樣本數(shù)的隨機(jī)資料,使預(yù)估資料得以擴(kuò)充,以增加其參考價(jià)值,及資料使用的極限。將上述的第三資料和第四資料合并,送入一統(tǒng)計(jì)工具進(jìn)行資料的清洗、串連及資料挖掘以獲得第五資料。其中資料挖掘通過(guò)建立預(yù)測(cè)模型來(lái)實(shí)現(xiàn),其可使用支撐向量機(jī) (Support Vector Machine,SVM)、直線回歸、曲線回歸、邏輯回歸、Time kries等預(yù)測(cè)模型;并且,進(jìn)行資料挖掘前,若資料數(shù)太大,還可先將資料分成數(shù)群再分別進(jìn)行模型預(yù)測(cè),最后再進(jìn)行個(gè)別預(yù)測(cè)資料的合并,以便提高預(yù)測(cè)結(jié)果的準(zhǔn)確率。以下試舉一具體實(shí)施例說(shuō)明上述各步驟的實(shí)際操作,其中具體實(shí)施例以一面館為調(diào)查對(duì)象,其中母群體為面館的所有消費(fèi)者即顧客,而本具體實(shí)施例是為了了解不同年齡層的消費(fèi)行為而進(jìn)行調(diào)查。首先,假設(shè)面館的顧客中的年齡層分布末知,因此從面館的顧客(母群體)中以符合中央極限定理(Central Limit Theorem ;C. L. Τ)的樣本數(shù),并以至少其中一變量為年齡段設(shè)計(jì)一問(wèn)卷資料。由中央極限定理可知該問(wèn)卷最后所得的資料分布為呈常態(tài)分布,即本發(fā)明上述較佳實(shí)施步驟所稱以常態(tài)分布從一母群體中抽取一第一資料,其結(jié)果如表1所示。由表1所呈現(xiàn)的面館最多消費(fèi)群集中于25- 歲可得知,第一資料的眾數(shù)為25- 歲, 而眾數(shù)的峰值為40。表 權(quán)利要求
1.一種統(tǒng)計(jì)資料的分析方法,其特征在于,包括以下步驟以常態(tài)分布從一母群體中抽取一第一資料,并求出所述第一資料的眾數(shù);以均勻分布再?gòu)乃瞿溉后w中抽取一第二資料,其中所述第二資料的每一變量的抽樣數(shù)低于所述第一資料的眾數(shù)的峰值;將所述第一資料與所述第二資料結(jié)合,以形成一第三資料;將所述第三資料與一第四資料結(jié)合,并進(jìn)行資料的清洗、串連及資料挖掘以獲得一第五資料;以及驗(yàn)證所述第五資料的準(zhǔn)確率。
2.如權(quán)利要求1所述的統(tǒng)計(jì)資料的分析方法,其特征在于,當(dāng)所述第一資料的眾數(shù)的峰值的一半大于三十,則所述第二資料的每一變量的抽樣數(shù)定為所述峰值的一半。
3.如權(quán)利要求1所述的統(tǒng)計(jì)資料的分析方法,其特征在于,當(dāng)所述第一資料的眾數(shù)的峰值的一半小于三十,則所述第二資料的每一變量的抽樣數(shù)定為三十。
4.如權(quán)利要求1所述的統(tǒng)計(jì)資料的分析方法,其特征在于,所述第四資料的樣本數(shù)大于所述第一資料和所述第二資料的合計(jì)樣本數(shù)。
5.一種統(tǒng)計(jì)資料的分析方法,其特征在于,包括以下步驟從一呈常態(tài)分布的母群體中抽取一第一資料,并求出所述第一資料的眾數(shù);以均勻分布再?gòu)乃瞿溉后w中抽取一第二資料,其中所述第二資料的每一變量的抽樣數(shù)低于所述第一資料的眾數(shù)的峰值;將所述第一資料與所述第二資料結(jié)合,以形成一第三資料;將所述第三資料與一第四資料結(jié)合,并進(jìn)行資料的清洗、串連及資料挖掘以獲得一第五資料;以及驗(yàn)證所述第五資料的準(zhǔn)確率。
全文摘要
本發(fā)明涉及一種統(tǒng)計(jì)資料的分析方法,其步驟包括以常態(tài)分布從一母群體中抽取一第一資料,并求出所述第一資料的眾數(shù);以均勻分布再?gòu)乃瞿溉后w中抽取一第二資料,其中所述第二資料的每一變量的抽樣數(shù)低于所述第一資料的眾數(shù)的峰值;將所述第一資料與所述第二資料結(jié)合,以形成一第三資料;將所述第三資料與一第四資料結(jié)合,并進(jìn)行資料的清洗、串連及資料挖掘以獲得一第五資料;以及驗(yàn)證所述第五資料的準(zhǔn)確率。如此,可以提高統(tǒng)計(jì)資料預(yù)測(cè)的準(zhǔn)確率。
文檔編號(hào)G06F17/18GK102455993SQ201010517140
公開(kāi)日2012年5月16日 申請(qǐng)日期2010年10月19日 優(yōu)先權(quán)日2010年10月19日
發(fā)明者張聰信 申請(qǐng)人:泓廣信息有限公司