两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于多元線性回歸模型的餐館評(píng)分預(yù)測(cè)方法與流程

文檔序號(hào):12465217閱讀:2106來(lái)源:國(guó)知局
一種基于多元線性回歸模型的餐館評(píng)分預(yù)測(cè)方法與流程

本發(fā)明涉及數(shù)據(jù)挖掘與數(shù)據(jù)分析技術(shù),特別是涉及一種基于多元線性回歸模型的餐館評(píng)分預(yù)測(cè)方法。



背景技術(shù):

星級(jí)是對(duì)餐館的綜合評(píng)價(jià),餐館的星級(jí)很大程度依賴于評(píng)價(jià)人對(duì)餐館的主觀評(píng)價(jià)。因此通過(guò)對(duì)評(píng)價(jià)文本的分析來(lái)預(yù)測(cè)評(píng)價(jià)人將要給出的星級(jí),通過(guò)對(duì)評(píng)價(jià)人的評(píng)價(jià)文本內(nèi)容、評(píng)價(jià)的長(zhǎng)度、評(píng)價(jià)的情感值、餐館當(dāng)前的平均星級(jí)、評(píng)價(jià)人的特點(diǎn)等因素的分析,從而得到各個(gè)因素與最后評(píng)價(jià)人給出的星級(jí)之間的關(guān)系。

線性回歸算法是數(shù)據(jù)挖掘領(lǐng)域中比較重要的算法,它通過(guò)給定數(shù)據(jù)集D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1;xi2;...;xid),試圖得到一個(gè)線性模型以盡可能準(zhǔn)確地預(yù)測(cè)實(shí)值輸出標(biāo)記。

隨著數(shù)據(jù)量的急劇增加,在UGC(User Generated Content用戶原創(chuàng)內(nèi)容)網(wǎng)站上用戶留下的評(píng)論和其他客觀條件,這些數(shù)據(jù)作為構(gòu)成了UGC的評(píng)分基礎(chǔ),借助這些數(shù)據(jù),我們可以對(duì)餐館星級(jí)做出預(yù)測(cè),一般我們可以采取線性回歸的方法。簡(jiǎn)單線性回歸法是用來(lái)度量一個(gè)自變量對(duì)因變量的影響程度的。



技術(shù)實(shí)現(xiàn)要素:

為了克服現(xiàn)有的餐館評(píng)分預(yù)測(cè)方式的可靠性較差的不足,本發(fā)明提出了一種基于多元線性回歸模型的餐館評(píng)分預(yù)測(cè)方法。UGC類網(wǎng)站上,用戶會(huì)通過(guò)自身的體驗(yàn)對(duì)商戶進(jìn)行評(píng)分與評(píng)價(jià)。而每個(gè)用戶在評(píng)分后會(huì)給出評(píng)論。每個(gè)用戶的評(píng)論文字的長(zhǎng)短,所附加的情感,餐館當(dāng)前的星級(jí)以及用戶自身的特點(diǎn)都影響了用戶會(huì)給出的評(píng)分情況。用戶最終給出的評(píng)分與其寫的評(píng)論有直接的關(guān)系,所以通過(guò)分析其評(píng)論的各個(gè)特點(diǎn)可以一定程度上預(yù)測(cè)評(píng)分(或者說(shuō)星級(jí))。該方法通過(guò)餐館網(wǎng)站中選取若干指標(biāo)(來(lái)自網(wǎng)站中直接提供的特征加上我們語(yǔ)義分析獲得主觀性和極性),進(jìn)行線性回歸方程建模,從而為餐館的星級(jí)提供了可供預(yù)測(cè)的公式。

本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案如下:

一種基于線性回歸的餐館星級(jí)評(píng)價(jià)方法,包括以下步驟:

S1:從餐飲網(wǎng)站上抓取數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行分析,最后獲得三個(gè)相關(guān)的數(shù)據(jù)表,分別是user、business、review這三張表;

S2:在review表中提取相關(guān)的用戶評(píng)論數(shù)據(jù),分析評(píng)論文本的語(yǔ)義極性和主觀性,所述語(yǔ)義極性包括褒義、中性或者貶義;

S3:在網(wǎng)站提供的特征和語(yǔ)義分析獲得的主觀性和極性中,同時(shí)考慮用戶和餐館對(duì)評(píng)分預(yù)測(cè)的影響,選擇需要的特征變量;

S4:把相關(guān)的數(shù)據(jù)表導(dǎo)入數(shù)據(jù)庫(kù)中,用SQL語(yǔ)句獲得我們選擇的特征變量的數(shù)據(jù)集,并將數(shù)據(jù)集分成若干個(gè)更小的數(shù)據(jù)集;

S5:對(duì)于獲得的數(shù)據(jù),進(jìn)行克倫巴赫系數(shù)均衡數(shù)據(jù)的置信度分析,得到可信度較高的數(shù)據(jù)作為分析的數(shù)據(jù)樣本,選取alpha系數(shù)大于預(yù)設(shè)閾值的數(shù)據(jù)集,若不存在這樣的數(shù)據(jù)集轉(zhuǎn)移到S3;

S6:構(gòu)造理論模型,設(shè)定各個(gè)自變量與因變量之間的關(guān)系是線性的,從而建立多元線性回歸模型,借助工具進(jìn)行多元線性回歸處理得到數(shù)據(jù);

S7:對(duì)模型進(jìn)行檢驗(yàn),一個(gè)指標(biāo)是擬合度,設(shè)定擬合閾值為擬合程度很高,第二個(gè)指標(biāo)為DW檢驗(yàn),通過(guò)T顯著性指標(biāo)大于指標(biāo)閾值,對(duì)設(shè)置的指標(biāo)進(jìn)行篩選,獲得回歸方程,否則如果無(wú)法獲得我們想要的模型,就轉(zhuǎn)移到S3;

S8:運(yùn)行模型,進(jìn)行共線性診斷,查看VIF方差擴(kuò)大因子,若VIF小于門限值則判斷自變量之間不存在共線性,否則我們需要進(jìn)行主成分分析處理共線性問(wèn)題,之后分析殘差,若殘差不滿足要求就轉(zhuǎn)移到S3;

S9:若滿足上述步驟的要求,則說(shuō)明該線性回歸方程模型滿足該數(shù)據(jù)集,利用得到的線性回歸方程,同時(shí)結(jié)合用戶和餐館信息,得出尚未有星級(jí)的餐館的評(píng)價(jià)星級(jí)。

本發(fā)明的技術(shù)構(gòu)思為:多元線性回歸有多個(gè)自變量或者回歸元。對(duì)于影響餐館評(píng)分的特征變量,通過(guò)線性回歸,就能夠預(yù)測(cè)出相應(yīng)的評(píng)分。

在多元回歸模型中,我們還需要對(duì)模型進(jìn)行統(tǒng)計(jì)診斷,一般有殘差值(residuals)、杠桿值(leverage)、學(xué)生化殘差(residuals of studentized)和強(qiáng)影響值(cook),對(duì)相應(yīng)的統(tǒng)計(jì)量對(duì)模型進(jìn)行優(yōu)化。在用回歸法時(shí),需要數(shù)值型數(shù)據(jù),標(biāo)稱型數(shù)據(jù)將轉(zhuǎn)成二值型數(shù)據(jù),因此我們把用戶評(píng)價(jià)做了一個(gè)語(yǔ)義分析。

在評(píng)價(jià)網(wǎng)站上,用戶會(huì)對(duì)光顧過(guò)的餐館進(jìn)行評(píng)價(jià)并給出評(píng)分,他們給出的評(píng)論很大程度上影響最后的評(píng)分,而用戶在尋找餐館時(shí)往往會(huì)看重餐館的評(píng)分。評(píng)價(jià)文本與用戶給出的星級(jí)密切相關(guān),用戶的評(píng)論屬于一種自然語(yǔ)言,在對(duì)用戶的評(píng)價(jià)文本進(jìn)行分析時(shí),我們借助python的自然語(yǔ)言包,獲得評(píng)價(jià)文本的長(zhǎng)度和評(píng)價(jià)的情感值。用戶在評(píng)論中必然會(huì)使用一些描述情感的形容詞,表現(xiàn)情感強(qiáng)度的副詞、標(biāo)點(diǎn)符號(hào),通過(guò)抓取這一系列的關(guān)鍵詞匯可以數(shù)值化評(píng)論中所包含的情感值,這樣用戶的情感就能量化成定性的數(shù)據(jù)。自然語(yǔ)言工具包(Natural Language Toolkit),它是一個(gè)將學(xué)術(shù)語(yǔ)言技術(shù)應(yīng)用于文本數(shù)據(jù)集的Python庫(kù)。我們可以獲得用戶評(píng)價(jià)的極性(褒義、中性或者貶義)和主觀性這兩個(gè)屬性。

本發(fā)明的有益效果如下:通過(guò)對(duì)評(píng)價(jià)人的評(píng)價(jià)文本內(nèi)容、評(píng)價(jià)的長(zhǎng)度、評(píng)價(jià)的情感值、餐館當(dāng)前的平均星級(jí)、評(píng)價(jià)人的特點(diǎn)等因素的分析,得到各個(gè)因素與最后評(píng)價(jià)人給出的星級(jí)之間的關(guān)系,從而可以推測(cè)出尚未有星級(jí)的餐館可能獲得的星級(jí)。

附圖說(shuō)明

圖1為基于線性回歸模型的餐館星級(jí)評(píng)價(jià)方法的回歸建模步驟流程圖;

圖2為標(biāo)準(zhǔn)化殘差直方圖;

圖3為標(biāo)準(zhǔn)化預(yù)測(cè)值—標(biāo)準(zhǔn)化殘差散點(diǎn)圖;

圖4為回歸標(biāo)準(zhǔn)化殘差的正態(tài)Q-Q圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明。

參照?qǐng)D1~圖4,一種基于線性回歸模型的餐館星級(jí)評(píng)價(jià)方法,本專利以研究yelp中的用戶和餐館為例,原始數(shù)據(jù)記錄了各個(gè)餐館的信息、用戶的特點(diǎn)以及用戶評(píng)價(jià)文本的信息,相應(yīng)特征進(jìn)行餐館星級(jí)的建模分析。

以下實(shí)施方式結(jié)合附圖對(duì)本發(fā)明進(jìn)行詳細(xì)的描述,如圖1所示,本發(fā)明包括以下步驟:

S1:我們從餐飲網(wǎng)站上抓取數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行分析,最后獲得三個(gè)相關(guān)的數(shù)據(jù)表,分別是user、business、review這三張表;

S2:在review表中提取相關(guān)的用戶評(píng)論數(shù)據(jù),分析評(píng)論文本的語(yǔ)義極性和主觀性,語(yǔ)義極性包括褒義、中性或者貶義;

S3:在網(wǎng)站提供的特征和語(yǔ)義分析獲得的主觀性和極性中,同時(shí)考慮用戶和餐館對(duì)評(píng)分預(yù)測(cè)的影響,選擇我們需要的特征變量;

S4:把相關(guān)的數(shù)據(jù)表導(dǎo)入數(shù)據(jù)庫(kù)中,用SQL語(yǔ)句獲得我們選擇的特征變量的數(shù)據(jù)集,并將數(shù)據(jù)集分成若干個(gè)更小的數(shù)據(jù)集;

S5:對(duì)于獲得的數(shù)據(jù),進(jìn)行克倫巴赫系數(shù)均衡數(shù)據(jù)的置信度分析,去除干擾數(shù)據(jù),得到可信度較高的數(shù)據(jù)作為分析的數(shù)據(jù)樣本,選取alpha系數(shù)大于0.5(預(yù)設(shè)閾值為0.5)的數(shù)據(jù)集,若不存在這樣的數(shù)據(jù)集轉(zhuǎn)移到S3;

S6:構(gòu)造理論模型,設(shè)定各個(gè)自變量與因變量之間的關(guān)系是線性的,從而建立多元線性回歸模型,這里借助工具進(jìn)行多元線性回歸處理得到數(shù)據(jù);

S7:對(duì)模型進(jìn)行檢驗(yàn),一個(gè)指標(biāo)是擬合度,擬合度60%(擬合閾值取60%)為擬合程度很高,第二個(gè)指標(biāo)為DW檢驗(yàn),通過(guò)T顯著性指標(biāo)大于0.05(指標(biāo)閾值為0.05),對(duì)我們?cè)O(shè)置的指標(biāo)進(jìn)行篩選,獲得回歸方程,否則如果無(wú)法獲得我們想要的模型,就轉(zhuǎn)移到S3;

S8:運(yùn)行模型,進(jìn)行共線性診斷,主要看VIF方差擴(kuò)大因子,若VIF小于5(門限值取5)則判斷自變量之間不存在共線性,否則我們需要進(jìn)行主成分分析處理共線性問(wèn)題,之后分析殘差,若殘差不滿足要求就轉(zhuǎn)移到S3;

S9:若滿足上述步驟的要求,則說(shuō)明該線性回歸方程模型滿足該數(shù)據(jù)集,利用得到的線性回歸方程,同時(shí)結(jié)合用戶和餐館信息,可以得出尚未有星級(jí)的餐館的評(píng)價(jià)星級(jí)。

所述步驟S1中,UGC類網(wǎng)站上,用戶會(huì)通過(guò)自身的體驗(yàn)對(duì)商戶進(jìn)行評(píng)分與評(píng)價(jià)。而每個(gè)用戶在評(píng)分后會(huì)給出評(píng)論。每個(gè)用戶的評(píng)論文字的長(zhǎng)短,所附加的情感,餐館當(dāng)前的星級(jí)以及用戶自身的特點(diǎn)都影響了用戶會(huì)給出的評(píng)分情況。用戶最終給出的評(píng)分與其寫的評(píng)論有直接的關(guān)系,所以通過(guò)分析其評(píng)論的各個(gè)特點(diǎn)可以一定程度上預(yù)測(cè)評(píng)分(或者說(shuō)星級(jí))。我們從餐飲網(wǎng)站上抓取三張數(shù)據(jù)表格user、business、review。User表為用戶信息,包括用戶粉絲數(shù)、用戶平均星評(píng)及用戶評(píng)價(jià)數(shù)等信息。Business表為餐館信息,包括餐館評(píng)價(jià)數(shù)、餐館星級(jí)等信息。Review表為評(píng)論信息,包括評(píng)論cool、評(píng)論funny、評(píng)論useful、評(píng)論星評(píng)及評(píng)價(jià)文本等信息;

所述步驟S2中,用戶在評(píng)論中會(huì)使用一些描述情感的形容詞,表現(xiàn)情感強(qiáng)度的副詞、標(biāo)點(diǎn)符號(hào),通過(guò)抓取這一系列的關(guān)鍵詞匯可以數(shù)值化評(píng)論中所包含的情感值。因?yàn)橛没貧w法時(shí),需要數(shù)值型數(shù)據(jù),需要將標(biāo)稱型數(shù)據(jù)轉(zhuǎn)成二值型數(shù)據(jù),因此我們把用戶評(píng)價(jià)做了一個(gè)分析。在review表中提取相關(guān)的用戶評(píng)論數(shù)據(jù),使用語(yǔ)義分析,獲得評(píng)論文本的語(yǔ)義極性(褒義、中性或者貶義)和主觀性;

所述步驟S3中,同時(shí)考慮用戶自身體驗(yàn)的指標(biāo)和商戶已經(jīng)存在的客觀指標(biāo),以及我們語(yǔ)義分析得到特征,選定影響餐館評(píng)分的13個(gè)重要特征:評(píng)論cool、評(píng)論funny、評(píng)論useful、極性、主觀性、評(píng)論字母數(shù)、評(píng)論不重單詞數(shù)、餐館評(píng)價(jià)數(shù)、餐館星級(jí)、評(píng)論星評(píng)、用戶粉絲、用戶平均星級(jí)、用戶評(píng)價(jià)數(shù);

所述步驟S4中,把user、business、review中的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)中,之后用SQL語(yǔ)句獲得我們想要的13個(gè)指標(biāo)的一張匯總表。然后把匯總表導(dǎo)出,并隨機(jī)分成20份;

所述步驟S5中,對(duì)20張表格中已提取的評(píng)價(jià)長(zhǎng)度和評(píng)價(jià)情感值進(jìn)行可靠性分析,這里我們借助克倫巴赫信度系數(shù)來(lái)衡量數(shù)據(jù)的置信度??藗惏秃招哦认禂?shù)公式為:

同時(shí)結(jié)合F檢驗(yàn),對(duì)數(shù)據(jù)進(jìn)行篩選,去除干擾數(shù)據(jù),避免大量數(shù)據(jù)處理對(duì)模型造成的困難,得到可信度較高的數(shù)據(jù)作為分析的數(shù)據(jù)樣本,當(dāng)alpha系數(shù)大于0.5,該數(shù)據(jù)集可靠,進(jìn)入下一步。否則,轉(zhuǎn)到S3;

所述步驟S6中,模型建立,我們這個(gè)評(píng)分模型把星級(jí)作為因變量,評(píng)論cool、評(píng)論funny、評(píng)論useful、極性、主觀性、評(píng)論字母數(shù)、評(píng)論不重單詞數(shù)、餐館評(píng)價(jià)數(shù)、餐館星級(jí)、用戶粉絲、用戶平均星級(jí)、用戶評(píng)價(jià)數(shù)作為自變量。我們借助一般的多元線性回歸模型:

y=β01x12x2+...+βpxp+ε,

其中y為因變量,β0是P個(gè)可以精確測(cè)量并可控制的自變量。因變量y由兩部分決定:一部分是誤差項(xiàng)隨機(jī)變量ε,另一部分是P個(gè)自變量的線性函數(shù)β01x12x2+...+βpxp,其中β012...,βp是P+1個(gè)未知參數(shù),β0稱為回歸常數(shù),β12,...,βp稱為偏回歸系數(shù),他們決定了因變量y與自變量x1,x2,…,xp的線性關(guān)系的具體形式。ε是隨機(jī)變量;

所述步驟S7中,對(duì)模型進(jìn)行多元線性回歸處理,調(diào)整后的R平方相比較于R平方,更能反映數(shù)據(jù)的擬合程度,一般60%為擬合程度很高。利用DW來(lái)判斷正負(fù)相關(guān),DW公式為:

DW小于2代表正相關(guān),大于2代表負(fù)相關(guān),DW統(tǒng)計(jì)量約等于2時(shí)表明數(shù)據(jù)不存在序列相關(guān),即不存在偽回歸。利用T的顯著性,大于0.05的自變量認(rèn)為對(duì)模型沒(méi)有顯著性影響,其他自變量對(duì)模型有顯著性影響。對(duì)于系數(shù)過(guò)小的自變量也不進(jìn)行考慮,得到回歸方程。之后可以對(duì)數(shù)據(jù)進(jìn)行可視化,能夠更直觀地看出模型的合適程度。例如圖2所示的標(biāo)準(zhǔn)化殘差直方圖,殘差具有正態(tài)分布的趨勢(shì),說(shuō)明該回歸模型是合理恰當(dāng)?shù)摹H鐖D3所示的標(biāo)準(zhǔn)化預(yù)測(cè)值—標(biāo)準(zhǔn)化殘差散點(diǎn)圖,殘差的分布不是散亂的分布,說(shuō)明存在一定的可優(yōu)化性。如圖4所示的正態(tài)Q-Q圖,擬合曲線與實(shí)際曲線較為相近,說(shuō)明擬合度較高;

所述步驟S8中,運(yùn)行模型,進(jìn)行共線性診斷,主要看VIF方差擴(kuò)大因子,若VIF小于5則判斷自變量之間不存在共線性,如果兩個(gè)變量之間存在很強(qiáng)的共線性,則可以將兩個(gè)變量整合成一個(gè),因?yàn)閮蓚€(gè)自變量反映的是同一內(nèi)容,共線性強(qiáng)將會(huì)影響矩陣的運(yùn)算。若VIF大于5則模型存在共線性,需要共線性優(yōu)化。檢測(cè)多重共線性的最簡(jiǎn)單方法是計(jì)算模型各自變量之間的相關(guān)系數(shù),并對(duì)各相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)。這里我們利用主成分分析處理共線性問(wèn)題。主成分分析是將共線性強(qiáng)的指標(biāo)聚合成一個(gè)指標(biāo),降維并進(jìn)行因子分析。一般選取特征值大于1的作為一個(gè)主成分,按照60%以上就可以成為一個(gè)主成分的要求,只選擇一個(gè)主成分即可。再次進(jìn)行多元線性回歸并分析相應(yīng)指標(biāo)。之后分析殘差,若殘差不滿足要求就轉(zhuǎn)移到步驟S3,重新整理數(shù)據(jù);

所述步驟S9中,若滿足上述步驟的要求,則說(shuō)明該線性回歸方程模型滿足該數(shù)據(jù)集。利用得到的線性回歸方程,同時(shí)結(jié)合用戶和餐館信息,可以得出尚未有星級(jí)的餐館的評(píng)價(jià)星級(jí)。

如上所述為本發(fā)明在yelp餐飲平臺(tái)的基于多元線性回歸模型的餐館評(píng)分預(yù)測(cè)方法的實(shí)施例介紹,本發(fā)明選擇餐飲網(wǎng)站提供的特征和語(yǔ)義分析獲得的主觀性和極性,采用多元線性回歸模型,最終的預(yù)測(cè)結(jié)果較高,達(dá)到了實(shí)際使用的要求。對(duì)發(fā)明而言僅僅是說(shuō)明性的,而非限制性的。本專業(yè)技術(shù)人員理解,在發(fā)明權(quán)利要求所限定的精神和范圍內(nèi)可對(duì)其進(jìn)行許多改變,修改,甚至等效,但都將落入本發(fā)明的保護(hù)范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
石景山区| 颍上县| 大关县| 孟津县| 黄石市| 崇礼县| 汪清县| 育儿| 伊通| 祁门县| 哈尔滨市| 阿拉善右旗| 泰州市| 阿鲁科尔沁旗| 永修县| 阿图什市| 高阳县| 宜宾市| 邳州市| 资溪县| 陵川县| 宿迁市| 项城市| 兴义市| 乌鲁木齐县| 和顺县| 宜昌市| 巴东县| 渭源县| 寿光市| 曲水县| 固原市| 云龙县| 苏州市| 凤翔县| 通榆县| 晋中市| 深圳市| 五台县| 夹江县| 汝城县|