本發(fā)明涉及大數(shù)據(jù)處理,具體為一種基于大數(shù)據(jù)的電子檔案推薦方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的飛速發(fā)展,電子檔案的數(shù)量呈爆炸式增長(zhǎng)。在眾多的電子檔案資源中,如何讓用戶(hù)快速準(zhǔn)確地獲取到符合自身需求和興趣的檔案成為了一個(gè)亟待解決的問(wèn)題。
2、根據(jù)公開(kāi)號(hào)為cn117493645b公開(kāi)了一種基于大數(shù)據(jù)的電子檔案推薦方法及系統(tǒng),所述方法包括:對(duì)符合相關(guān)性條件的圖像文本列向量、客觀列向量和多個(gè)文本列向量進(jìn)行拼接,得到電子檔案特征矩陣;若所述電子檔案特征矩陣與根據(jù)用戶(hù)瀏覽記錄和收藏記錄生成的用戶(hù)畫(huà)像矩陣為相似矩陣,且所述圖像ahash值與用戶(hù)畫(huà)像ahash值之間的漢明距離大于預(yù)設(shè)閾值,向用戶(hù)推薦該電子檔案。
3、傳統(tǒng)的檔案推薦方法往往較為單一,可能僅基于檔案的基本分類(lèi)或簡(jiǎn)單的用戶(hù)行為統(tǒng)計(jì),難以深入挖掘用戶(hù)的潛在興趣和復(fù)雜的需求變化。例如,一些早期的電子檔案系統(tǒng)只是按照檔案的學(xué)科領(lǐng)域進(jìn)行粗略劃分推薦,無(wú)法精準(zhǔn)地針對(duì)用戶(hù)個(gè)體的偏好差異提供個(gè)性化服務(wù)。同時(shí),在大數(shù)據(jù)環(huán)境下,雖然數(shù)據(jù)量豐富,但有效整合和利用這些數(shù)據(jù)進(jìn)行精準(zhǔn)推薦面臨諸多挑戰(zhàn),如數(shù)據(jù)的多樣性、復(fù)雜性以及用戶(hù)興趣的動(dòng)態(tài)性等。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于大數(shù)據(jù)的電子檔案推薦方法及系統(tǒng),解決了檔案推薦方法往往較為單一,無(wú)法精準(zhǔn)地針對(duì)用戶(hù)個(gè)體的偏好差異提供個(gè)性化服務(wù)的問(wèn)題。
2、為實(shí)現(xiàn)以上目的,本發(fā)明通過(guò)以下技術(shù)方案予以實(shí)現(xiàn):一種基于大數(shù)據(jù)的電子檔案推薦方法,該方法具體包括以下步驟:
3、步驟s1,采集用戶(hù)的基礎(chǔ)信息,并根據(jù)基礎(chǔ)信息構(gòu)建對(duì)應(yīng)的用戶(hù)畫(huà)像;
4、步驟s2,根據(jù)用戶(hù)畫(huà)像與大數(shù)據(jù)中的電子檔案進(jìn)行匹配得到匹配檔案,同時(shí)結(jié)合用戶(hù)的歷史數(shù)據(jù)進(jìn)行二次匹配生成預(yù)選檔案信息;
5、步驟s3,獲取預(yù)選檔案,同時(shí)結(jié)合用戶(hù)的實(shí)時(shí)數(shù)據(jù)進(jìn)行分析,通過(guò)對(duì)預(yù)選檔案的檔案內(nèi)容進(jìn)行分析,生成存在分析信號(hào)和不存在分析信號(hào);
6、步驟s4,對(duì)得到的存在分析信號(hào)進(jìn)行處理,通過(guò)計(jì)算預(yù)選檔案與用戶(hù)實(shí)時(shí)數(shù)據(jù)的內(nèi)容關(guān)聯(lián)度,并基于關(guān)聯(lián)度進(jìn)行分析生成推薦信息;
7、步驟s5,對(duì)得到的不存在分析結(jié)果進(jìn)行分析,通過(guò)計(jì)算用戶(hù)之間的相似度來(lái)識(shí)別相似用戶(hù),同時(shí)根據(jù)相似用戶(hù)對(duì)應(yīng)的推薦檔案生成推薦信息。
8、作為本發(fā)明的進(jìn)一步方案,所述步驟s2中得到匹配檔案的具體方式為:
9、獲取用戶(hù)畫(huà)像,同時(shí)對(duì)用戶(hù)畫(huà)像對(duì)應(yīng)的畫(huà)像特征進(jìn)行提取,并根據(jù)得到的畫(huà)像特征與大數(shù)據(jù)中的電子檔案進(jìn)行匹配,且具體的匹配方式為:獲取所有的電子檔案并標(biāo)號(hào)記作i,且i=1、2、…、j,其中j表示電子檔案的數(shù)量標(biāo)號(hào),同時(shí)獲取電子檔案對(duì)應(yīng)的檔案類(lèi)型,并以畫(huà)像特征為標(biāo)準(zhǔn)對(duì)電子檔案i進(jìn)行篩選得到匹配檔案記作n,且n=1、2、…、m,其中m表示匹配檔案的數(shù)量標(biāo)號(hào)。
10、作為本發(fā)明的進(jìn)一步方案,所述步驟s2中生成預(yù)選檔案信息的具體方式為:
11、接著獲取用戶(hù)的歷史數(shù)據(jù),并根據(jù)歷史數(shù)據(jù)獲取對(duì)應(yīng)的瀏覽歷史,同時(shí)對(duì)瀏覽歷史中的電子檔案按照檔案類(lèi)型進(jìn)行分類(lèi)得到同類(lèi)型檔案,并對(duì)同類(lèi)型檔案進(jìn)行標(biāo)號(hào)記作a,且a=1、2、…、b,其中b表示同類(lèi)型檔案的類(lèi)型標(biāo)號(hào),接著對(duì)同類(lèi)型檔案a的歷史搜索次數(shù)ca和歷史下載次數(shù)xa進(jìn)行獲取,同時(shí)將獲取的參數(shù)進(jìn)行求和計(jì)算得到同類(lèi)型檔案a的瀏覽值qa,并按照瀏覽值從大到小排序,按照瀏覽值qa從大到小對(duì)匹配檔案進(jìn)行篩選得到預(yù)選檔案信息,且具體的篩選方式為,將符合同類(lèi)型檔案的匹配檔案選取,并記作為預(yù)選檔案。
12、作為本發(fā)明的進(jìn)一步方案,所述步驟s3中生成存在分析信號(hào)和不存在分析信號(hào)的具體方式為:
13、獲取所有的預(yù)選檔案并標(biāo)號(hào)記作o,且o=1、2、…、p,且p表示預(yù)選檔案的數(shù)量標(biāo)號(hào),接著對(duì)預(yù)選檔案o的檔案內(nèi)容和用戶(hù)的實(shí)時(shí)數(shù)據(jù)進(jìn)行獲取,并獲取實(shí)時(shí)數(shù)據(jù)對(duì)應(yīng)的實(shí)時(shí)內(nèi)容,同時(shí)對(duì)實(shí)時(shí)內(nèi)容進(jìn)行判斷;
14、若實(shí)時(shí)內(nèi)容存在于用戶(hù)的瀏覽歷史內(nèi),則生成存在分析信號(hào),反之若實(shí)時(shí)內(nèi)容不存在于用戶(hù)的瀏覽歷史內(nèi),則生成不存在分析信號(hào)。
15、作為本發(fā)明的進(jìn)一步方案,所述步驟s4中對(duì)存在分析信號(hào)進(jìn)行處理的具體方式為:
16、獲取所有的預(yù)選檔案o,并計(jì)算預(yù)選檔案o與用戶(hù)實(shí)時(shí)數(shù)據(jù)的內(nèi)容關(guān)聯(lián)度,并將獲取的關(guān)聯(lián)度值(余弦相似度)記作fo,且此處關(guān)聯(lián)度值是將實(shí)時(shí)數(shù)據(jù)依次與預(yù)選檔案進(jìn)行計(jì)算分析,比如預(yù)選檔案o存在5個(gè),則計(jì)算得到的關(guān)聯(lián)度值fo則存在5個(gè),接著將關(guān)聯(lián)度值fo與閾值fy進(jìn)行比較,且閾值fy的具體數(shù)值由操作人員設(shè)定;
17、若關(guān)聯(lián)度值fo大于閾值fy,則將對(duì)應(yīng)的預(yù)選檔案選取同時(shí)標(biāo)記為待分析檔案,反之若關(guān)聯(lián)度值fo小于閾值fy,則不對(duì)相應(yīng)的預(yù)選檔案進(jìn)行處理,接著獲取待分析檔案,同時(shí)對(duì)待分析檔案的檔案類(lèi)型進(jìn)行獲取,并基于檔案類(lèi)型進(jìn)行不同的推薦生成推薦信息。
18、作為本發(fā)明的進(jìn)一步方案,所述步驟s4中基于檔案類(lèi)型進(jìn)行不同的推薦生成推薦信息的具體方式為:
19、若檔案類(lèi)型只存在一種時(shí),則以待分析檔案為標(biāo)準(zhǔn)生成相應(yīng)的推薦信息,若檔案類(lèi)型存在多種時(shí),獲取預(yù)選檔案對(duì)應(yīng)的檔案類(lèi)型,同時(shí)獲取不同檔案類(lèi)型對(duì)應(yīng)的檔案數(shù)量,接著計(jì)算同類(lèi)型檔案對(duì)應(yīng)的關(guān)聯(lián)度均值,同時(shí)以關(guān)聯(lián)度均值最大對(duì)應(yīng)的同類(lèi)型檔案為標(biāo)準(zhǔn)生成推薦信息。
20、作為本發(fā)明的進(jìn)一步方案,所述步驟s5中對(duì)不存在分析結(jié)果進(jìn)行分析的具體方式為:
21、獲取時(shí)間t內(nèi)所有的用戶(hù)記作待分析用戶(hù),同時(shí)計(jì)算待分析用戶(hù)與當(dāng)前用戶(hù)的用戶(hù)相似度,并根據(jù)用戶(hù)相似度篩選得到相似用戶(hù)記作h,且h=1、2、…、g,其中g(shù)表示相似用戶(hù)的數(shù)量標(biāo)號(hào),接著獲取相似用戶(hù)對(duì)應(yīng)的推薦檔案,并將相似用戶(hù)的推薦檔案與當(dāng)前用戶(hù)的瀏覽歷史進(jìn)行比較分析,篩選得到已瀏覽推薦檔案和未瀏覽推薦檔案,并分別獲取對(duì)應(yīng)的數(shù)量記作l1h和l2h,以此類(lèi)推對(duì)所有相似用戶(hù)h對(duì)應(yīng)的已瀏覽推薦檔案和未瀏覽推薦檔案數(shù)量進(jìn)行獲取;
22、接著按照未瀏覽推薦檔案數(shù)量l2h從大到小排序,并對(duì)不同相似用戶(hù)h對(duì)應(yīng)的未瀏覽推薦檔案類(lèi)型進(jìn)行識(shí)別,同時(shí)選取同類(lèi)型未瀏覽推薦檔案數(shù)量最多對(duì)應(yīng)的同類(lèi)型檔案為標(biāo)準(zhǔn),并生成推薦信息。
23、一種基于大數(shù)據(jù)的電子檔案推薦系統(tǒng),包括用戶(hù)信息獲取單元、檔案預(yù)選分析單元、推薦信息生成單元和推薦信息輸出單元;
24、用戶(hù)信息獲取單元,該單元用于對(duì)用戶(hù)的基礎(chǔ)信息進(jìn)行采集,同時(shí)將獲取的基礎(chǔ)信息傳輸?shù)綑n案預(yù)選分析單元;
25、檔案預(yù)選分析單元,該單元用于根據(jù)獲取的用戶(hù)基礎(chǔ)信息建立用戶(hù)畫(huà)像,同時(shí)根據(jù)用戶(hù)畫(huà)像與大數(shù)據(jù)中的電子檔案進(jìn)行匹配得到匹配檔案,同時(shí)結(jié)合用戶(hù)的歷史數(shù)據(jù)進(jìn)行二次匹配生成預(yù)選檔案信息,并將預(yù)選檔案信息傳輸?shù)酵扑]信息生成單元;
26、推薦信息生成單元,該單元用于對(duì)獲取的預(yù)選檔案進(jìn)行分析,同時(shí)結(jié)合用戶(hù)的實(shí)時(shí)數(shù)據(jù)進(jìn)行分析,通過(guò)對(duì)預(yù)選檔案的檔案內(nèi)容進(jìn)行分析,生成存在分析信號(hào)和不存在分析信號(hào);
27、對(duì)得到的存在分析信號(hào)進(jìn)行處理,通過(guò)計(jì)算預(yù)選檔案與用戶(hù)實(shí)時(shí)數(shù)據(jù)的內(nèi)容關(guān)聯(lián)度,并基于關(guān)聯(lián)度進(jìn)行分析生成推薦信息,同時(shí)將推薦信息傳輸?shù)酵扑]信息輸出單元;
28、對(duì)得到的不存在分析結(jié)果進(jìn)行分析,通過(guò)計(jì)算用戶(hù)之間的相似度來(lái)識(shí)別相似用戶(hù),同時(shí)根據(jù)相似用戶(hù)對(duì)應(yīng)的推薦檔案生成推薦信息,并將推薦信息傳輸?shù)酵扑]信息輸出單元;
29、推薦信息輸出單元,該單元用于將獲取的推薦信息顯示給對(duì)應(yīng)的操作人員。
30、本發(fā)明提供了一種基于大數(shù)據(jù)的電子檔案推薦方法及系統(tǒng)。與現(xiàn)有技術(shù)相比具備以下有益效果:
31、本發(fā)明通過(guò)多維度采集用戶(hù)的基礎(chǔ)信息構(gòu)建用戶(hù)畫(huà)像,能夠更精準(zhǔn)地捕捉用戶(hù)的興趣點(diǎn)和潛在需求,為后續(xù)的檔案匹配提供了更準(zhǔn)確的導(dǎo)向,大大提高了初次匹配的精準(zhǔn)度和可靠性,在處理預(yù)選檔案時(shí),通過(guò)計(jì)算檔案內(nèi)容與用戶(hù)實(shí)時(shí)數(shù)據(jù)的關(guān)聯(lián)度,并依據(jù)檔案類(lèi)型和關(guān)聯(lián)度閾值進(jìn)行智能推薦,能夠根據(jù)用戶(hù)當(dāng)前的瀏覽情境動(dòng)態(tài)調(diào)整推薦內(nèi)容,適應(yīng)不同的實(shí)時(shí)需求場(chǎng)景,增強(qiáng)了推薦系統(tǒng)的靈活性和適應(yīng)性;
32、當(dāng)用戶(hù)實(shí)時(shí)瀏覽內(nèi)容不在歷史范圍內(nèi)時(shí),通過(guò)計(jì)算用戶(hù)相似度識(shí)別相似用戶(hù),并根據(jù)相似用戶(hù)的推薦檔案生成推薦信息,充分挖掘了用戶(hù)群體之間的共性和差異,借助群體智慧彌補(bǔ)了個(gè)體數(shù)據(jù)的不足,進(jìn)一步拓展了推薦的來(lái)源和范圍,提高了推薦的全面性和多樣性,為用戶(hù)提供了更多可能感興趣但未曾發(fā)現(xiàn)的電子檔案資源,從而提升了整個(gè)電子檔案推薦系統(tǒng)的性能和服務(wù)質(zhì)量。