本申請涉及數(shù)據(jù)處理,具體涉及一種電子文檔檢測方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、在公共資源交易中,保障交易的公開、公平、公正至關(guān)重要,需要對交易異常行為實時監(jiān)測預(yù)警。目前在公共資源交易中檢測投標(biāo)文件異常行為存在一些問題。例如,檢測手段單一,要么關(guān)注硬件物理特征碼,要么僅進(jìn)行表面文本相似性檢測,難以發(fā)現(xiàn)語義、風(fēng)格相似等深層次問題;對于圖片等非文本內(nèi)容無法有效檢測;不能檢測如dna同源相似這類復(fù)雜異常情況;人工參與度高致使效率低且易出現(xiàn)誤判和漏判現(xiàn)象。
技術(shù)實現(xiàn)思路
1、本申請?zhí)峁┮环N電子文檔檢測方法、裝置、電子設(shè)備及存儲介質(zhì),旨在解決投標(biāo)文件檢測存在檢測維度有限和人工檢測弊端的問題。
2、第一方面,本申請?zhí)峁┮环N電子文檔檢測方法,所述方法包括:
3、獲取待檢測的電子文檔集;
4、針對所述電子文檔集中的每個電子文檔,根據(jù)關(guān)鍵要素維度、表面文本維度、文本風(fēng)格維度、深層次語義維度、圖像內(nèi)容維度以及文檔結(jié)構(gòu)同源性維度,分別計算該電子文檔與其余電子文檔在各維度下的相似度,得到各維度的檢測結(jié)果;
5、對所述各維度的檢測結(jié)果進(jìn)行整合,得到綜合評估數(shù)據(jù),所述綜合評估數(shù)據(jù)包含不同維度檢測得出的有關(guān)電子文檔間相似性的信息。
6、第二方面,本申請還提供一種電子文檔檢測裝置,所述裝置包括:
7、數(shù)據(jù)獲取模塊,用于獲取待檢測的電子文檔集;
8、多維度檢測模塊,用于針對所述電子文檔集中的每個電子文檔,根據(jù)關(guān)鍵要素維度、表面文本維度、文本風(fēng)格維度、深層次語義維度、圖像內(nèi)容維度以及文檔結(jié)構(gòu)同源性維度,分別計算該電子文檔與其余電子文檔在各維度下的相似度,得到各維度的檢測結(jié)果;
9、結(jié)果整合模塊,用于對所述各維度的檢測結(jié)果進(jìn)行整合,得到綜合評估數(shù)據(jù),所述綜合評估數(shù)據(jù)包含不同維度檢測得出的有關(guān)電子文檔間相似性的信息。
10、第三方面,本申請?zhí)峁┮环N電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器并在所述處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如第一方面中任一項所述電子文檔檢測方法的步驟。
11、第四方面,本申請?zhí)峁┮环N非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如第一方面中任一項所述電子文檔檢測方法的步驟。
12、本申請?zhí)峁┑囊环N電子文檔檢測方法、裝置、電子設(shè)備及存儲介質(zhì),旨在解決投標(biāo)文件檢測存在檢測維度有限和人工檢測弊端的問題,該方法采用了多維度的檢測方式,涵蓋關(guān)鍵要素維度、表面文本維度、文本風(fēng)格維度、深層次語義維度、圖像內(nèi)容維度以及文檔結(jié)構(gòu)同源性維度。例如,在關(guān)鍵要素維度深入到專業(yè)領(lǐng)域詞匯中的非常用表述,圖像內(nèi)容維度考慮除特定圖片外的其他圖片情況,各維度下還分別計算投標(biāo)文件間的相似度,像深層次語義維度會深度解析大段文字的語義和邏輯順序,極大地拓寬了檢測范圍。
13、因此,本申請基于多維度計算相似度并得出檢測結(jié)果,避免了人工檢測的主觀性和低效率。同時,通過對各維度檢測結(jié)果進(jìn)行整合得到綜合評估數(shù)據(jù),能夠系統(tǒng)地處理不同維度下關(guān)于投標(biāo)文件相似性的信息,克服了人工難以全面綜合考量的問題。
1.一種電子文檔檢測方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的電子文檔檢測方法,其特征在于,所述根據(jù)關(guān)鍵要素維度、表面文本維度、文本風(fēng)格維度、深層次語義維度、圖像內(nèi)容維度以及文檔結(jié)構(gòu)同源性維度,分別計算該電子文檔與其余電子文檔在各維度下的相似度,得到各維度的檢測結(jié)果的步驟包括:
3.根據(jù)權(quán)利要求2所述的電子文檔檢測方法,其特征在于,根據(jù)所述關(guān)鍵要素維度,計算該電子文檔與其余電子文檔在各維度下的相似度,得到各維度的檢測結(jié)果的步驟包括:
4.根據(jù)權(quán)利要求2所述的電子文檔檢測方法,其特征在于,根據(jù)所述表面文本維度,計算該電子文檔與其余電子文檔在各維度下的相似度,得到各維度的檢測結(jié)果的步驟包括:
5.根據(jù)權(quán)利要求2所述的電子文檔檢測方法,其特征在于,根據(jù)所述文本風(fēng)格維度,計算該電子文檔與其余電子文檔在各維度下的相似度,得到各維度的檢測結(jié)果的步驟包括:
6.根據(jù)權(quán)利要求2所述的電子文檔檢測方法,其特征在于,根據(jù)所述深層次語義維度,計算該電子文檔與其余電子文檔在各維度下的相似度,得到各維度的檢測結(jié)果的步驟包括:
7.根據(jù)權(quán)利要求2所述的電子文檔檢測方法,其特征在于,根據(jù)所述圖像內(nèi)容維度,計算該電子文檔與其余電子文檔在各維度下的相似度,得到各維度的檢測結(jié)果的步驟包括:
8.根據(jù)權(quán)利要求2所述的電子文檔檢測方法,其特征在于,根據(jù)所述文檔結(jié)構(gòu)同源性維度,計算該電子文檔與其余電子文檔在各維度下的相似度,得到各維度的檢測結(jié)果的步驟包括:
9.根據(jù)權(quán)利要求1所述的電子文檔檢測方法,其特征在于,所述對所述各維度的檢測結(jié)果進(jìn)行整合,得到綜合評估數(shù)據(jù)的步驟包括:
10.一種電子文檔檢測裝置,其特征在于,所述裝置包括:
11.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器并在所述處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如權(quán)利要求1至9任一項所述的電子文檔檢測方法的步驟。
12.一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至9任一項所述的電子文檔檢測方法的步驟。