本發(fā)明涉及語義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及基于貝葉斯的模糊c均值算法實(shí)現(xiàn)搜索引擎關(guān)鍵詞優(yōu)化。
背景技術(shù):
隨著互聯(lián)網(wǎng)經(jīng)濟(jì)的迅速發(fā)展以及網(wǎng)絡(luò)的深入普及,搜索引擎已經(jīng)成為企業(yè)展示自己的一種很重要的舞臺(tái),很多企業(yè)尤其是中小型企業(yè)為了使自己的網(wǎng)站排名靠前,選擇了成本低,操作容易,符合用戶搜索偏好的搜索引擎優(yōu)化方式。目前關(guān)于搜索引擎優(yōu)化方法的理論研究已較為豐富,但借助實(shí)證去分析搜索引擎優(yōu)化方法帶來的效果的卻很少。如何獲得較好的搜索引擎自然排名,增加網(wǎng)站的曝光率與轉(zhuǎn)化率,最終實(shí)現(xiàn)直接銷售,是中小企業(yè)普遍關(guān)注的焦點(diǎn)問題。搜索引擎優(yōu)化,簡稱通俗的講是通過對(duì)網(wǎng)站整體架構(gòu),網(wǎng)頁內(nèi)容、關(guān)鍵詞以及網(wǎng)頁內(nèi)的鏈接進(jìn)行相關(guān)的優(yōu)化工作,提高其在特定搜索引擎上搜索結(jié)果中的排名,從而提高網(wǎng)站訪問量,最終提升網(wǎng)站的銷售能力或宣傳能力的技術(shù)。搜索引擎優(yōu)化技術(shù)包括黑帽技術(shù)和白帽技術(shù),其中黑帽技術(shù)表示違反搜索引擎優(yōu)化規(guī)則的惡意優(yōu)化技術(shù),在關(guān)鍵詞優(yōu)化技術(shù)中表現(xiàn)為在頁面中堆砌關(guān)鍵詞或放置無關(guān)關(guān)鍵詞以提高在搜索引擎中的排名,目前各搜索引擎已經(jīng)引入相關(guān)技術(shù)和規(guī)則對(duì)使用黑帽技術(shù)的網(wǎng)站進(jìn)行懲罰;白帽技術(shù)則表示被搜索引擎認(rèn)可的優(yōu)化技術(shù)。目前國內(nèi)外對(duì)關(guān)鍵詞優(yōu)化的理論研究和技術(shù)應(yīng)用比較多,但暫未提出一個(gè)有效的方法來簡化關(guān)鍵詞分析流程,也沒有一個(gè)完善的機(jī)制來管理關(guān)鍵詞優(yōu)化策略和進(jìn)度?;谏鲜鲂枨?,本發(fā)明提供了一種基于貝葉斯的模糊c均值算法實(shí)現(xiàn)搜索引擎關(guān)鍵詞優(yōu)化。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)于關(guān)鍵詞優(yōu)化實(shí)現(xiàn)搜索引擎優(yōu)化的技術(shù)問題,本發(fā)明提供了一種基于vsm的模糊c均值聚類算法實(shí)現(xiàn)搜索引擎關(guān)鍵詞優(yōu)化。
為了解決上述問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
步驟1:根據(jù)企業(yè)業(yè)務(wù)確定核心關(guān)鍵詞,利用搜索引擎搜集相關(guān)關(guān)鍵字,這些關(guān)鍵字在搜索引擎中有相應(yīng)數(shù)據(jù)項(xiàng),如本國每月搜索量、競爭程度和估算每次點(diǎn)擊費(fèi)用(cpc)等
步驟2:結(jié)合企業(yè)產(chǎn)品和市場分析,篩選降維上述搜索到的相關(guān)關(guān)鍵字集合;
步驟3:針對(duì)篩選降維后的關(guān)鍵詞集合,通過搜索引擎搜索關(guān)鍵詞對(duì)應(yīng)的頁面,這里記錄首頁網(wǎng)頁數(shù)和總搜索頁面數(shù),即每個(gè)關(guān)鍵詞由五維向量再降維為四維的。
步驟4:基于貝葉斯的模糊c均值算法,對(duì)上述關(guān)鍵詞進(jìn)行聚類處理,其具體子步驟如下:
步驟4.1:利用基于ε領(lǐng)域的k-means算法初始化為c類。
步驟4.2:用值[0,1]間的隨機(jī)數(shù)初始化隸屬矩陣j,使其滿足隸屬的整個(gè)約束條件
步驟4.3:初始化每個(gè)ε領(lǐng)域的概率分布,構(gòu)建c類總目標(biāo)函數(shù)
步驟4.4:根據(jù)上式wij、cj、pnew(ck)的收斂性,重新計(jì)算各簇中心
步驟4.5:如果pnew(ck)發(fā)生變化,則轉(zhuǎn)到步驟4.2,重新計(jì)算隸屬矩陣j,否則迭代結(jié)束,輸出聚類結(jié)果。
步驟5:根據(jù)企業(yè)具體情況,綜合關(guān)鍵詞效能優(yōu)化和價(jià)值率優(yōu)化,選擇合適的關(guān)鍵詞優(yōu)化策略達(dá)到網(wǎng)站優(yōu)化目標(biāo)。
本發(fā)明有益效果是:
1,此算法可以精簡關(guān)鍵詞分析流程,進(jìn)而減少整個(gè)網(wǎng)站優(yōu)化工作量。
2,此算法的運(yùn)行時(shí)間復(fù)雜度低,處理速度更快。
3、此算法具有更大的利用價(jià)值。
4、能幫助網(wǎng)站在短時(shí)間內(nèi)快速提升其關(guān)鍵詞的排名。
5、為企業(yè)網(wǎng)站帶來一定的流量和詢盤,從而達(dá)到理想的網(wǎng)站優(yōu)化目標(biāo)。
6、此算法應(yīng)用了貝葉斯原理得到的分類結(jié)果更符合經(jīng)驗(yàn)值。
7、減少了孤立點(diǎn)對(duì)聚類結(jié)果的影響。
8、結(jié)合模糊c均值算法可以避免過早收斂,避免陷入局部最優(yōu)解。
附圖說明
圖1基于貝葉斯的模糊c均值算法實(shí)現(xiàn)搜索引擎關(guān)鍵詞優(yōu)化結(jié)構(gòu)流程圖
圖2基于貝葉斯的模糊c均值算法在聚類分析中的應(yīng)用流程圖
具體實(shí)施方式
為了解決關(guān)鍵詞優(yōu)化實(shí)現(xiàn)搜索引擎優(yōu)化的技術(shù)問題,結(jié)合圖1-圖2對(duì)本發(fā)明進(jìn)行了詳細(xì)說明,其具體實(shí)施步驟如下:
步驟1:根據(jù)企業(yè)業(yè)務(wù)確定核心關(guān)鍵詞,利用搜索引擎搜集相關(guān)關(guān)鍵字,這些關(guān)鍵字在搜索引擎中有相應(yīng)數(shù)據(jù)項(xiàng),如本國每月搜索量、競爭程度和估算每次點(diǎn)擊費(fèi)用(cpc)等。
步驟2:結(jié)合企業(yè)產(chǎn)品和市場分析,篩選降維上述搜索到的相關(guān)關(guān)鍵字集合;
步驟3:針對(duì)篩選降維后的關(guān)鍵詞集合,通過搜索引擎搜索關(guān)鍵詞對(duì)應(yīng)的頁面,這里記錄首頁網(wǎng)頁數(shù)和總搜索頁面數(shù),即每個(gè)關(guān)鍵詞由五維向量再降維為四維的,其具體計(jì)算過程如下:
這里相關(guān)關(guān)鍵詞個(gè)數(shù)為m,既有下列m×5矩陣:
ni、ldi、cpci、nis、niy依次為第i個(gè)關(guān)鍵詞對(duì)應(yīng)的本國每月搜索量、競爭程度、估算每次點(diǎn)擊費(fèi)用(cpc)、首頁網(wǎng)頁數(shù)、總搜索頁面數(shù)。
再降維為四維,即
xi∈(1,2,…,m)為搜索效能,zi∈(1,2,…,m)為價(jià)值率,即為下式:
步驟4:基于貝葉斯的模糊c均值聚類算法,對(duì)上述關(guān)鍵詞進(jìn)行聚類處理,其具體子步驟如下:
步驟4.1:利用基于ε領(lǐng)域的k-means算法初始化為c類。
步驟4.2:用值[0,1]間的隨機(jī)數(shù)初始化隸屬矩陣j,使其滿足隸屬的整個(gè)約束條件;其具體計(jì)算過程如下:
根據(jù)ε領(lǐng)域初始化數(shù)據(jù)對(duì)象集合d劃分為c類;
初始化隸屬矩陣j為m×c:
wij為關(guān)鍵詞i屬于j類的程度系數(shù),即j∈(1,2,…,c)、i∈(1,2,…,m)。
隸屬的整個(gè)約束條件為:
步驟4.3:初始化每個(gè)ε領(lǐng)域的概率分布,構(gòu)建c類總目標(biāo)函數(shù)
上式xi為關(guān)鍵詞,cj為j類。
上式
綜合隸屬約束條件,構(gòu)建m個(gè)方程組:
λi(i=1,…,m)是m個(gè)約束式的拉格朗日算子,對(duì)上述式子進(jìn)行求導(dǎo),對(duì)所有輸入?yún)⒘壳髮?dǎo),即可求得使
wij=p(cj\xi)
上式
步驟4.4:根據(jù)上式wij、cj、pnew(ck)的收斂性,重新計(jì)算各簇中心,其具體計(jì)算過程如下:
當(dāng)pnew(ck)收斂于一定值時(shí),wij就收斂一定值,進(jìn)而cj收斂于一定值,則找到了最佳聚類結(jié)果,否則沒有找到。
步驟4.5:如果pnew(ck)發(fā)生變化,則轉(zhuǎn)到步驟4.2,重新計(jì)算隸屬矩陣j,否則迭代結(jié)束,輸出聚類結(jié)果。
基于貝葉斯的模糊c均值聚類算法的具體結(jié)構(gòu)流程如圖2。
步驟5:根據(jù)企業(yè)具體情況,綜合關(guān)鍵詞效能優(yōu)化和價(jià)值率優(yōu)化,選擇合適的關(guān)鍵詞優(yōu)化策略達(dá)到網(wǎng)站優(yōu)化目標(biāo)。
基于貝葉斯的模糊c均值算法實(shí)現(xiàn)搜索引擎關(guān)鍵詞優(yōu)化,其偽代碼過程
輸入:網(wǎng)站提取的核心關(guān)鍵詞,基于ε領(lǐng)域初始化為c簇
輸出:wij、cj、pnew(ck)收斂的c個(gè)簇或總目標(biāo)函數(shù)