两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

產(chǎn)品信息的實時去重方法和裝置的制作方法

文檔序號:6438117閱讀:207來源:國知局
專利名稱:產(chǎn)品信息的實時去重方法和裝置的制作方法
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種產(chǎn)品信息的實時去重方法和裝置。
背景技術(shù)
目前,基于互聯(lián)網(wǎng)的電子商務(wù)發(fā)展速度越來越快,在很多C2C、B2C的電子商務(wù)網(wǎng)站上,賣家每天會發(fā)布和更新大量的產(chǎn)品信息(稱為offer信息)。買家在搜索所需要的產(chǎn)品時,電子商務(wù)網(wǎng)站會根據(jù)賣家發(fā)布的產(chǎn)品信息來展示搜索結(jié)果,例如,當(dāng)買家搜索手機(jī)時,電子商務(wù)網(wǎng)站在所有賣家發(fā)布的產(chǎn)品信息中搜索包含手機(jī)信息的產(chǎn)品信息,然后將所有包含手機(jī)信息的產(chǎn)品信息在網(wǎng)站上展示給買家,以便買家進(jìn)行選擇。然而,同一賣家在發(fā)布產(chǎn)品信息時可能會發(fā)布很多重復(fù)的產(chǎn)品信息,這樣在買家搜索產(chǎn)品時電子商務(wù)網(wǎng)站會返回很多重復(fù)的產(chǎn)品信息,從而導(dǎo)致買家選擇效率的下降。為了解決這種問題,現(xiàn)有技術(shù)中提出了一種產(chǎn)品信息的去重方法,如圖1所示,該產(chǎn)品信息的去重方法包括如下步驟:S102,將用戶發(fā)布的產(chǎn)品信息存儲在服務(wù)器中;S104,定期在線下對服務(wù)器中的產(chǎn)品信息進(jìn)行特征向量的計算,并根據(jù)這些特征向量來計算產(chǎn)品信息之間的相關(guān)度。例如,每個月計算一次產(chǎn)品信息之間的相關(guān)度;S106,根據(jù)上述的相關(guān)度來對產(chǎn)品信息進(jìn)行去重操作。例如,在買家搜索產(chǎn)品信息時指不哪些彳目息是重復(fù)的廣品彳目息。但是,這樣以離線的方式來計算相關(guān)度和去重操作,無法實時地對在線的產(chǎn)品信息進(jìn)行更新,例如,賣家A在星期一發(fā)布了兩條重復(fù)的手機(jī)產(chǎn)品信息,由于離線的去重操作尚未執(zhí)行(例如,需要到下一個星期一才執(zhí)行下一次去重操作),因此,在下個星期一之前,當(dāng)買家B搜索手機(jī)產(chǎn)品時仍然會出現(xiàn)重復(fù)的手機(jī)產(chǎn)品信息,從而使得搜索引擎反饋的搜索結(jié)果存在很多冗余信息,無法實現(xiàn)實時地對產(chǎn)品信息進(jìn)行去重操作。

發(fā)明內(nèi)容
本申請的主要目的在于提供一種產(chǎn)品信息的實時去重方法和裝置,以至少解決現(xiàn)有技術(shù)中無法實現(xiàn)實時地對產(chǎn)品信息進(jìn)行去重操作的問題。根據(jù)本申請的一個方面,提供了一種產(chǎn)品信息的實時去重方法,其包括:在線接收用戶輸入的產(chǎn)品更新信息;在線根據(jù)產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新,其中,特征向量集合包括各個產(chǎn)品信息的特征向量,特征向量用于計算產(chǎn)品信息之間的相關(guān)度;在線根據(jù)更新后的特征向量集合中的特征向量計算產(chǎn)品信息之間的相關(guān)度;在線根據(jù)相關(guān)度判斷互為重復(fù)的產(chǎn)品信息,并對互為重復(fù)的產(chǎn)品信息進(jìn)行去重操作。優(yōu)選的,在線根據(jù)產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新的步驟包括:判斷產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改或刪除還是增加新的產(chǎn)品信息;當(dāng)產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改時,獲取修改后的產(chǎn)品信息的特征向量,并將特征向量集合中與已有的產(chǎn)品信息對應(yīng)的特征向量更新為修改后的產(chǎn)品信息的特征向量;當(dāng)產(chǎn)品更新信息所指示的是增加新的產(chǎn)品信息時,獲取新的產(chǎn)品信息的特征向量,并在特征向量集合中增加新的產(chǎn)品信息的特征向量;當(dāng)產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行刪除時,從特征向量集合中刪除已有的產(chǎn)品信息對應(yīng)的特征向量。優(yōu)選的,在線根據(jù)產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新的步驟包括:若產(chǎn)品更新信息指示更新的特征向量的個數(shù)超過預(yù)定閾值,則分批次對產(chǎn)品更新信息指示的特征向量進(jìn)行更新,其中,每一批次更新的特征向量的個數(shù)不超預(yù)定閾值。優(yōu)選的,對互為重復(fù)的產(chǎn)品信息進(jìn)行去重操作的步驟包括:對互為重復(fù)的產(chǎn)品信息設(shè)置類別標(biāo)記;根據(jù)所設(shè)置的類別標(biāo)記對產(chǎn)品信息進(jìn)行分類,其中,將設(shè)置有同種類別標(biāo)記的產(chǎn)品信息分為一類;將每一個分類中與用戶輸入的查詢信息的相似度最高的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。優(yōu)選的,根據(jù)相關(guān)度對產(chǎn)品信息進(jìn)行分類的步驟包括:根據(jù)相關(guān)度對同一用戶下的所有產(chǎn)品信息進(jìn)行分類。優(yōu)選的,在線根據(jù)相關(guān)度判斷互為重復(fù)的產(chǎn)品信息的步驟包括:若在預(yù)定的時間內(nèi)無法判斷出互為重復(fù)的產(chǎn)品信息,則將待判斷的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展
/Jn o根據(jù)本申請的另一方面,提供了一種產(chǎn)品信息的實時去重裝置,其包括:接收單元,用于在線接收用戶輸入的產(chǎn)品更新信息;更新單元,用于在線根據(jù)產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新,其中,特征向量集合包括各個產(chǎn)品信息的特征向量,特征向量用于計算產(chǎn)品信息之間的相關(guān)度;計算單元,用于在線根據(jù)更新后的特征向量集合中的特征向量計算產(chǎn)品信息之間的相關(guān)度;去重單元,用于在線根據(jù)相關(guān)度判斷互為重復(fù)的產(chǎn)品信息,并對互為重復(fù)的產(chǎn)品信息進(jìn)行去重操作。優(yōu)選的,更新單元包括:判斷模塊,用于判斷產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改或刪除還是增加新的產(chǎn)品信息;處理模塊,用于當(dāng)產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改時,獲取修改后的產(chǎn)品信息的特征向量,并將特征向量集合中與已有的產(chǎn)品信息對應(yīng)的特征向量更新為修改后的產(chǎn)品信息的特征向量;當(dāng)產(chǎn)品更新信息所指示的是增加新的產(chǎn)品信息時,獲取新的產(chǎn)品信息的特征向量,并在特征向量集合中增加新的產(chǎn)品信息的特征向量;當(dāng)產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行刪除時,從特征向量集合中刪除已有的產(chǎn)品信息對應(yīng)的特征向量。優(yōu)選的,處理模塊還用于在產(chǎn)品更新信息指示更新的特征向量的個數(shù)超過預(yù)定閾值時分批次對產(chǎn)品更新信息指示的特征向量進(jìn)行更新,其中,每一批次更新的特征向量的個數(shù)不超預(yù)定閾值。優(yōu)選的,去重單元包括:分類模塊,用于對互為重復(fù)的產(chǎn)品信息設(shè)置類別標(biāo)記,并根據(jù)所設(shè)置的類別標(biāo)記對產(chǎn)品信息進(jìn)行分類,其中,將設(shè)置有同種類別標(biāo)記的產(chǎn)品信息分為一類;發(fā)布模塊,用于將每一個分類中與用戶輸入的查詢信息的相似度最高的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。優(yōu)選的,發(fā)布模塊還用于在預(yù)定的時間內(nèi)無法判斷出互為重復(fù)的產(chǎn)品信息時,將待判斷的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。通過本申請的技術(shù)方案,能夠達(dá)到以下有益效果:
I)通過在線實時地根據(jù)所述產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新,使得用戶更新產(chǎn)品信息時相應(yīng)地會對產(chǎn)品信息之間的相似度進(jìn)行重新計算,而不是每隔預(yù)定的時間計算一次相似度,這樣可以實時地根據(jù)產(chǎn)品信息的更新來確定互為重復(fù)的產(chǎn)品信息,從而解決了現(xiàn)有技術(shù)中無法實現(xiàn)實時地對產(chǎn)品信息進(jìn)行去重操作的問題,減少了搜索引擎反饋的搜索結(jié)果中的冗余信息,提高了搜索結(jié)果的準(zhǔn)確性;2)對現(xiàn)有的產(chǎn)品信息發(fā)布流程進(jìn)行了改進(jìn),在對更新的產(chǎn)品信息進(jìn)行審核之后,向后臺服務(wù)器發(fā)送特征向量請求消息,這樣通過占用很少系統(tǒng)資源的消息指令能夠?qū)崟r地啟動相似度計算的操作;3)通過對每次更新的特征向量的個數(shù)進(jìn)行控制,將每次計算特征向量以及相似度的時間控制在一定的范圍之內(nèi),從而在用戶更新產(chǎn)品信息之后的預(yù)定時間內(nèi)能夠?qū)崿F(xiàn)實時地對產(chǎn)品信息進(jìn)行去重操作,提高了在線實時處理的效率;4)通過在線展示每一個分類中相似度最高的產(chǎn)品信息,減少了搜索引擎反饋的搜索結(jié)果中的冗余信息,使得搜索結(jié)果能夠快速的從服務(wù)器端傳輸至客戶端,并提高了搜索結(jié)果的準(zhǔn)確性。當(dāng)然,實施本申請的任一產(chǎn)品或方法并不一定需要同時達(dá)到以上所述的所有優(yōu)點。


此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:圖1是根據(jù)現(xiàn)有技術(shù)中的產(chǎn)品信息的去重方法的流程圖;圖2是根據(jù)本申請實施例的產(chǎn)品信息的去重方法的流程圖;圖3是根據(jù)本申請實施例的產(chǎn)品信息的去重裝置的一種優(yōu)選結(jié)構(gòu)示意圖;圖4是根據(jù)本申請實施例的產(chǎn)品信息的去重裝置的另一種優(yōu)選結(jié)構(gòu)示意圖。
具體實施例方式下文中將參考附圖并結(jié)合實施例來詳細(xì)說明本申請。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。在描述本申請的各實施例的進(jìn)一步細(xì)節(jié)之前,將描述可用于實現(xiàn)本申請的原理的一個合適的計算體系結(jié)構(gòu)。在以下描述中,除非另外指明,否則將參考由一個或多個計算機(jī)執(zhí)行的動作和操作的符號表示來描述本申請的各實施例。由此,可以理解,有時被稱為計算機(jī)執(zhí)行的這類動作和操作包括計算機(jī)的處理單元對以結(jié)構(gòu)化形式表示數(shù)據(jù)的電信號的操縱。這一操縱轉(zhuǎn)換了數(shù)據(jù)或在計算機(jī)的存儲器系統(tǒng)中的位置上維護(hù)它,這以本領(lǐng)域的技術(shù)人員都理解的方式重配置或改變了計算機(jī)的操作。維護(hù)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)是具有數(shù)據(jù)的格式所定義的特定屬性的存儲器的物理位置。然而,盡管在上述上下文中描述本申請,但它并不意味著限制性的,如本領(lǐng)域的技術(shù)人員所理解的,后文所描述的動作和操作的各方面也可用硬件來實現(xiàn)。轉(zhuǎn)向附圖,其中相同的參考標(biāo)號指代相同的元素,本申請的原理被示為在一個合適的計算環(huán)境中實現(xiàn)。以下描述基于所述的本申請的實施例,并且不應(yīng)認(rèn)為是關(guān)于此處未明確描述的替換實施例而限制本申請。本申請的原理可以使用其它通用或?qū)S糜嬎慊蛲ㄐ怒h(huán)境或配置來操作。適用于本申請的眾所周知的計算系統(tǒng)、環(huán)境和配置的示例包括但不限于,個人計算機(jī)、服務(wù)器,多處理器系統(tǒng)、基于微處理的系統(tǒng)、小型機(jī)、大型計算機(jī)、以及包括任一上述系統(tǒng)或設(shè)備的分布式計算環(huán)境。在其最基本的配置中,產(chǎn)品信息的實時去重裝置可以位于服務(wù)器內(nèi)。服務(wù)器可以包括但不限于微處理器MCU或可編程邏輯器件FPGA等的處理裝置、用于存儲數(shù)據(jù)的存儲裝置以及與客戶端通信的傳輸裝置。在本說明書和權(quán)利要求書中,“產(chǎn)品信息的實時去重裝置”也可以被定義為能夠執(zhí)行軟件、固件或微碼來實現(xiàn)功能的任何硬件組件或硬件組件的組合。產(chǎn)品信息的實時去重裝置甚至可以是分布式的,以實現(xiàn)分布式功能。如本申請所使用的,術(shù)語“子模塊”、“模塊”、“組件”或“單元”可以指在產(chǎn)品信息的實時去重裝置上執(zhí)行的軟件對象或例程。此處所描述的不同組件、子模塊、模塊、單元、弓丨擎和服務(wù)可被實現(xiàn)為在產(chǎn)品信息的實時去重裝置上執(zhí)行(例如,作為單獨的線程)的對象或進(jìn)程。盡管此處所描述的系統(tǒng)和方法較佳地以軟件來實現(xiàn),但是硬件或軟件和硬件的組合的實現(xiàn)也是可能并被構(gòu)想的。實施例1圖2是根據(jù)本申請實施例的產(chǎn)品信息的去重方法的流程圖,其包括如下步驟:S202,在線接收用戶輸入的產(chǎn)品更新信息,優(yōu)選的,該產(chǎn)品更新信息包括:待更新的產(chǎn)品信息的特征向量,這里,產(chǎn)品信息的特征向量包括:產(chǎn)品的標(biāo)題、產(chǎn)品的屬性(類似于產(chǎn)品的顏色)、產(chǎn)品的關(guān)鍵詞等;S204,在線根據(jù)所述產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新,其中,特征向量集合包括各個產(chǎn)品信息的特征向量,上述特征向量用于計算兩個產(chǎn)品信息之間的相關(guān)度;例如,假設(shè)產(chǎn)品更新信息中指示的待修改的產(chǎn)品信息為A,其對應(yīng)的特征向量為Al、A2和A3,在更新的過程中,在線將特征向量集合中先前存儲的產(chǎn)品信息A的特征向量更新為特征向量Al、A2和A3。S206,在線根據(jù)更新后的特征向量集合中的特征向量計算產(chǎn)品信息之間的相關(guān)度;優(yōu)選的,根據(jù)待更新的產(chǎn)品信息的特征向量與特征向量集合中其他產(chǎn)品信息的特征向量來計算待更新的產(chǎn)品信息與各個其他產(chǎn)品信息之間的相關(guān)度。例如,假設(shè)特征向量集合中包括產(chǎn)品信息B和C的特征向量(B1、B2和B3、以及Cl、C2和C3),在計算相關(guān)度的過程中,通過(Al、A2和A3)和(B1、B2和B3)以及(Cl、C2和C3)來計算產(chǎn)品信息A與B之間的相關(guān)度,以及產(chǎn)品信息A與C之間的相關(guān)度。以計算產(chǎn)品信息A與B之間的相關(guān)度為例,可以通過Al和BI之間的相似度S1、A2和B2之間的相似度S2、A3和B3之間的相似度S3來判斷A與B之間的相關(guān)度,具體的判斷和計算過程可以根據(jù)實際需求來進(jìn)行調(diào)整。S208,在線根據(jù)所述相關(guān)度判斷互為重復(fù)的產(chǎn)品信息,并對所述互為重復(fù)的產(chǎn)品信息進(jìn)行去重操作。在本實施例中,通過在線實時地根據(jù)所述產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新,使得用戶更新產(chǎn)品信息時相應(yīng)地會對產(chǎn)品信息之間的相似度進(jìn)行重新計算,而不是每隔預(yù)定的時間計算一次相似度,這樣可以實時地根據(jù)產(chǎn)品信息的更新來確定互為重復(fù)的產(chǎn)品信息,從而解決了現(xiàn)有技術(shù)中無法實現(xiàn)實時地對產(chǎn)品信息進(jìn)行去重操作的問題,減少了搜索引擎反饋的搜索結(jié)果中的冗余信息,使得搜索結(jié)果能夠快速的從服務(wù)器端傳輸至客戶端,并提高了搜索結(jié)果的準(zhǔn)確性;進(jìn)一步,由于可以實時地進(jìn)行去重操作,使得網(wǎng)站無法通過重復(fù)發(fā)布相同的產(chǎn)品信息來達(dá)到增加用戶點擊這些產(chǎn)品信息的可能性的目的。在線根據(jù)所述產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新的過程中,首先,判斷所述產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改或刪除還是增加新的產(chǎn)品信息,優(yōu)選的,特征向量集合中對應(yīng)的特征向量指的是產(chǎn)品更新信息所指示更新的產(chǎn)品信息在特征向量集合中先前存儲的特征向量,優(yōu)選的,每一個產(chǎn)品信息在特征向量集合中都記錄有該產(chǎn)品信息的ID標(biāo)識以及該產(chǎn)品信息的特征向量。這里判斷結(jié)果存在以下二種可能:I)當(dāng)所述產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改時,獲取修改后的產(chǎn)品信息的特征向量,并將所述特征向量集合中與所述已有的產(chǎn)品信息對應(yīng)的特征向量更新為所述修改后的產(chǎn)品信息的特征向量;例如,假設(shè)產(chǎn)品更新信息中指示對產(chǎn)品信息A進(jìn)行修改,并且產(chǎn)品更新信息中記錄了修改后的產(chǎn)品信息A的特征向量為A1、A2和A3,在更新的過程中,在線將特征向量集合中先前存儲的產(chǎn)品信息A的特征向量更新為特征向量Al、A2 和 A3。2)當(dāng)所述產(chǎn)品更新信息所指示的是增加新的產(chǎn)品信息時,獲取所述新的產(chǎn)品信息的特征向量,并在所述特征向量集合中增加所述新的產(chǎn)品信息的特征向量;例如,假設(shè)產(chǎn)品更新信息中指示對產(chǎn)品信息B進(jìn)行增加,并且產(chǎn)品更新信息中記錄了增加的產(chǎn)品信息B的特征向量為B1、B2和B3,在更新的過程中,在線將特征向量集合中增加產(chǎn)品信息B的記錄項,例如,該記錄項包括:產(chǎn)品信息B的ID標(biāo)識以及特征向量B1、B2和B3。3)當(dāng)所述產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行刪除時,從所述特征向量集合中刪除所述已有的產(chǎn)品信息對應(yīng)的特征向量。例如,假設(shè)產(chǎn)品更新信息中指示對產(chǎn)品信息C進(jìn)行刪除,并且產(chǎn)品更新信息中記錄了刪除的產(chǎn)品信息C的特征向量為Cl、C2和C3,在更新的過程中,在線將特征向量集合中刪除產(chǎn)品信息C的記錄項,例如,刪除該記錄項中產(chǎn)品信息C的ID標(biāo)識以及特征向量Cl、C2和C3。為了實現(xiàn)實時地去重操作,本實施例對現(xiàn)有的產(chǎn)品信息發(fā)布流程進(jìn)行了改進(jìn)。具體而言,在線接收用戶輸入的產(chǎn)品更新信息,然后對所述產(chǎn)品更新信息進(jìn)行審核;若審核通過,則向后臺服務(wù)器發(fā)送獲取特征向量請求消息,這里,審核操作可以包括對產(chǎn)品更新信息的發(fā)布格式和發(fā)布者的權(quán)限等進(jìn)行審核,具體審核步驟可以使用現(xiàn)有技術(shù)中的方法,本申請在此不再贅述;所述后臺服務(wù)器響應(yīng)所述計算特征向量請求消息計算所述修改后的產(chǎn)品信息的特征向量或者所述新的產(chǎn)品信息的特征向量。在本實施例中,對現(xiàn)有的產(chǎn)品信息發(fā)布流程進(jìn)行了改進(jìn),在對更新的產(chǎn)品信息進(jìn)行審核之后,向后臺服務(wù)器發(fā)送特征向量請求消息,這樣通過一條請求消息即能夠?qū)崟r地啟動相似度計算的操作。本實施例還提出了一種對在線實時處理時間進(jìn)行控制的方案,以便控制每次計算相似度的時間。具體而言,在在線根據(jù)所述產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新的過程中,若所述產(chǎn)品更新信息指示更新的特征向量的個數(shù)超過預(yù)定閾值,則分批次對所述產(chǎn)品更新信息指示的特征向量進(jìn)行更新,其中,每一批次更新的特征向量的個數(shù)不超所述預(yù)定閾值。在本實施例中,通過對每次更新的特征向量的個數(shù)進(jìn)行控制,將每次計算特征向量以及相似度的時間控制在一定的范圍之內(nèi),從而在用戶更新產(chǎn)品信息之后的預(yù)定時間內(nèi)能夠?qū)崿F(xiàn)實時地對產(chǎn)品信息進(jìn)行去重操作,提高了在線實時處理的效率。本實施例還提出了一種在線展示方法,以便實時將去重后的產(chǎn)品信息展示在搜索結(jié)果中,提高了搜索結(jié)果的準(zhǔn)確性。具體而言,在對所述互為重復(fù)的產(chǎn)品信息進(jìn)行去重操作的過程中,對所述互為重復(fù)的產(chǎn)品信息設(shè)置類別標(biāo)記;根據(jù)所設(shè)置的類別標(biāo)記對所述產(chǎn)品信息進(jìn)行分類,其中,將設(shè)置有同種類別標(biāo)記的產(chǎn)品信息分為一類;將每一個分類中與用戶輸入的查詢信息的相似度最高的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。在本實施例中,通過在線展示每一個分類中相似度最高的產(chǎn)品信息,減少了搜索引擎反饋的搜索結(jié)果中的冗余信息,使得搜索結(jié)果能夠快速的從服務(wù)器端傳輸至客戶端,并提高了搜索結(jié)果的準(zhǔn)確性。根據(jù)所述相關(guān)度對所述產(chǎn)品信息進(jìn)行分類的步驟包括:根據(jù)所述相關(guān)度對同一用戶下的所有產(chǎn)品信息進(jìn)行分類。本申請還提供出一種優(yōu)選的展示方法,其用于在去重不及時的情況下能夠優(yōu)先將用戶的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。具體而言,在線根據(jù)所述相關(guān)度判斷互為重復(fù)的產(chǎn)品信息的步驟包括:若在預(yù)定的時間內(nèi)無法判斷出互為重復(fù)的產(chǎn)品信息,則將待判斷的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。實施例2圖3是根據(jù)本申請實施例的產(chǎn)品信息的去重裝置的一種優(yōu)選結(jié)構(gòu)示意圖,其包括:接收單元302,用于在線接收用戶輸入的產(chǎn)品更新信息;更新單元304,用于在線根據(jù)產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新,其中,特征向量集合包括各個產(chǎn)品信息的特征向量,特征向量用于計算產(chǎn)品信息之間的相關(guān)度;計算單元306,用于在線根據(jù)更新后的特征向量集合中的特征向量計算產(chǎn)品信息之間的相關(guān)度;去重單元308,用于在線根據(jù)相關(guān)度判斷互為重復(fù)的產(chǎn)品信息,并對互為重復(fù)的產(chǎn)品信息進(jìn)行去重操作。在本實施例中,通過在線實時地根據(jù)所述產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新,使得用戶更新產(chǎn)品信息時相應(yīng)地會對產(chǎn)品信息之間的相似度進(jìn)行重新計算,而不是每隔預(yù)定的時間計算一次相似度,這樣可以實時地根據(jù)產(chǎn)品信息的更新來確定互為重復(fù)的產(chǎn)品信息,從而解決了現(xiàn)有技術(shù)中無法實現(xiàn)實時地對產(chǎn)品信息進(jìn)行去重操作的問題,減少了搜索引擎反饋的搜索結(jié)果中的冗余信息,提高了搜索結(jié)果的準(zhǔn)確性;進(jìn)一步,由于可以實時地進(jìn)行去重操作,使得網(wǎng)站無法通過重復(fù)發(fā)布相同的產(chǎn)品信息來達(dá)到增加用戶點擊這些產(chǎn)品信息的可能性的目的。更新單元304包括:判斷模塊3041,用于判斷產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改或刪除還是增加新的產(chǎn)品信息;處理模塊3042,用于當(dāng)產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改時,獲取修改后的產(chǎn)品信息的特征向量,并將特征向量集合中與已有的產(chǎn)品信息對應(yīng)的特征向量更新為修改后的產(chǎn)品信息的特征向量;當(dāng)產(chǎn)品更新信息所指示的是增加新的產(chǎn)品信息時,獲取新的產(chǎn)品信息的特征向量,并在特征向量集合中增加新的產(chǎn)品信息的特征向量;當(dāng)產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行刪除時,從特征向量集合中刪除已有的產(chǎn)品信息對應(yīng)的特征向量。為了實現(xiàn)實時地去重操作,本實施例對現(xiàn)有的產(chǎn)品信息發(fā)布流程進(jìn)行了改進(jìn)。具體而言,接收單元302在線接收用戶輸入的產(chǎn)品更新信息,然后接收單元302對所述產(chǎn)品更新信息進(jìn)行審核;若審核通過,則向更新單元304發(fā)送獲取特征向量請求消息;所述更新單元304響應(yīng)所述計算特征向量請求消息計算所述修改后的產(chǎn)品信息的特征向量或者所述新的產(chǎn)品信息的特征向量。在本實施例中,對現(xiàn)有的產(chǎn)品信息發(fā)布流程進(jìn)行了改進(jìn),在對更新的產(chǎn)品信息進(jìn)行審核之后,發(fā)送特征向量請求消息,這樣通過占用一條請求消息能夠?qū)崟r地啟動相似度計算的操作。本實施例還提出了一種對在線實時處理時間進(jìn)行控制的方案,以便控制每次計算相似度的時間。具體而言,處理模塊3042還用于在產(chǎn)品更新信息指示更新的特征向量的個數(shù)超過預(yù)定閾值時分批次對產(chǎn)品更新信息指示的特征向量進(jìn)行更新,其中,每一批次更新的特征向量的個數(shù)不超預(yù)定閾值。在本實施例中,通過對每次更新的特征向量的個數(shù)進(jìn)行控制,將每次計算特征向量以及相似度的時間控制在一定的范圍之內(nèi),從而在用戶更新產(chǎn)品信息之后的預(yù)定時間內(nèi)能夠?qū)崿F(xiàn)實時地對產(chǎn)品信息進(jìn)行去重操作,提高了在線實時處理的效率。本實施例還提出了一種在線展示方案,以便實時將去重后的產(chǎn)品信息展示在搜索結(jié)果中,提高了搜索結(jié)果的準(zhǔn)確性。具體而言,去重單元308包括:分類模塊3081,用于對所述互為重復(fù)的產(chǎn)品信息設(shè)置類別標(biāo)記,并根據(jù)所設(shè)置的類別標(biāo)記對所述產(chǎn)品信息進(jìn)行分類,其中,將設(shè)置有同種類別標(biāo)記的產(chǎn)品信息分為一類;發(fā)布模塊3082,用于將每一個分類中與用戶輸入的查詢信息的相似度最高的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。在本實施例中,通過在線展示每一個分類中與用戶輸入的查詢信息的相似度最高的產(chǎn)品信息,減少了搜索引擎反饋的搜索結(jié)果中的冗余信息,提高了搜索結(jié)果的準(zhǔn)確性。在所述相關(guān)度對所述產(chǎn)品信息進(jìn)行分類的過程中,分類模塊3081根據(jù)所述相關(guān)度對同一用戶下的所有產(chǎn)品信息進(jìn)行分類。本申請還提供出一種優(yōu)選的發(fā)布模塊,其用于在去重不及時的情況下能夠優(yōu)先將用戶的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。具體而言,所述發(fā)布模塊還用于在預(yù)定的時間內(nèi)無法判斷出互為重復(fù)的產(chǎn)品信息時,將待判斷的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。實施例3圖4是根據(jù)本申請實施例的產(chǎn)品信息的去重裝置的另一種優(yōu)選結(jié)構(gòu)示意圖,如圖4所示,上面部分所示的去重系統(tǒng)主要由Offline (線下)模塊、Online (線上)模塊、Update (更新)模塊、ID (標(biāo)識)分配器模塊、Offer (產(chǎn)品)隊列管理模塊等組成。Offline模塊主要對網(wǎng)站服務(wù)器存儲的所有產(chǎn)品(Offer)信息進(jìn)行聚類,生成各個產(chǎn)品信息的特征向量的主索引文件,并計算得到每個產(chǎn)品信息所屬的類別的類標(biāo)識,然后把這些信息(包括產(chǎn)品信息、該產(chǎn)品信息的特征向量、該產(chǎn)品信息的所屬的類別)存入數(shù)據(jù)庫,此模塊只在系統(tǒng)使用前被調(diào)用一次。優(yōu)選的,上述不同類別的產(chǎn)品信息為不同的產(chǎn)品信息。Online模塊以服務(wù)的形式負(fù)責(zé)接收傳入的Offer,使用主索引和增量數(shù)據(jù)表進(jìn)行判斷,返回此Offer是否重復(fù)及其所屬的類別的類標(biāo)識(Cluster ID)等信息,并將此Offer的特征向量信息保存在增量數(shù)據(jù)表中。Update模塊負(fù)責(zé)更新索引,此模塊使用線上Offer數(shù)據(jù)庫中的信息對主索引和增量數(shù)據(jù)表中的信息進(jìn)行過濾,并將主索引和增量數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行合并,生成新的主索引文件,同時調(diào)用ID分配器回收所有未使用的類標(biāo)識(Cluster ID)。ID分配器主要負(fù)責(zé)配合Online模塊進(jìn)行32位數(shù)字ID的分配,用于對每個產(chǎn)品信息的類別進(jìn)行唯一編號,也就是說,同一個類別中,多個產(chǎn)品信息具有相同的類標(biāo)識。Offer隊列管理模塊主要是應(yīng)用于服務(wù)器端,接收應(yīng)用端發(fā)送的Offer信息,并進(jìn)行隊列管理,依次使用Online模塊進(jìn)行判斷,并返回結(jié)果,以保證Online模塊不過度繁忙。在實時對產(chǎn)品信息進(jìn)行去重操作時,本實施例的產(chǎn)品信息的去重裝置在初始化的過程中對網(wǎng)站服務(wù)器中存儲的上億offer進(jìn)行分布式的離線計算,得到所有offer之間的相似度關(guān)系,并根據(jù)相似度來對所有的Offer進(jìn)行分類,并把這些信息(包括產(chǎn)品信息、該產(chǎn)品信息的特征向量、該產(chǎn)品信息的所屬的類別)存到數(shù)據(jù)庫里;同時對于用戶實時發(fā)布(Post)的offer批量去請求去重系統(tǒng)進(jìn)行服務(wù),實時得到增量的offer的類別信息,然后根據(jù)增量的offer的類別信息來更新數(shù)據(jù)庫。在搜索的過程中,用戶輸入查詢信息到搜索引擎,搜索引擎從數(shù)據(jù)庫中查找與查詢信息所對應(yīng)的一個或多個類別,并在查找到的一個或多個類別中輸出并展示與查詢信息相似度最高的產(chǎn)品信息,即實現(xiàn)了高效的去重展示,從而防止用戶發(fā)重復(fù)產(chǎn)品的作弊行為。本實施例不僅實時地用戶增量offer數(shù)據(jù)的實時去重展示,而且去重的準(zhǔn)確率和搜索展示效率都非常高。在本實施例中,后臺服務(wù)器從數(shù)據(jù)庫中得到每個產(chǎn)品的信息及相應(yīng)的類信息,然后把這些產(chǎn)品放到數(shù)據(jù)預(yù)處理系統(tǒng)進(jìn)行數(shù)據(jù)的預(yù)處理,最后把數(shù)據(jù)預(yù)處理系統(tǒng)產(chǎn)生的數(shù)據(jù)發(fā)送給用于建立產(chǎn)品索引的服務(wù)器。搜索引擎開發(fā)去重復(fù)的功能,對同一個類別中的產(chǎn)品信息進(jìn)行排序,展示與用戶輸入的查詢條件的相關(guān)性最高的那條offer。在本實施例中,計算重復(fù)offer和搜索弓|擎底層的程序用c++開發(fā)比較適合,相對比較高效;網(wǎng)站所有offer信息的類信息計算需要分布式的數(shù)據(jù)預(yù)處理系統(tǒng)環(huán)境,這樣可以保證計算效率;數(shù)據(jù)庫系統(tǒng)(oracle)具有比較強(qiáng)大的同步和觸發(fā)機(jī)制,能夠保證數(shù)據(jù)的準(zhǔn)確性和一致性。在本實施例中,對于增量offer數(shù)據(jù)實時計算每個offer間的相似度,得到類信息,而網(wǎng)站產(chǎn)品信息的相似度判斷(重復(fù)判斷)是利用結(jié)構(gòu)化數(shù)據(jù)的多維度向量計算相關(guān)性來完成的,這種方法是普遍用于判斷事物相似度的方法。在本實施例中,對相似度計算算法要求較高,在選擇相似度計算(重復(fù)判斷)算法時,可用如下算法:Match、Shingliing、SimHash(locality sensitive hash)、Random Projection、SpotSig 等。在本實施例中,從數(shù)據(jù)庫獲取到數(shù)據(jù)(例如,產(chǎn)品信息的特征向量等)后,后臺服務(wù)器具備異常處理的能力,以保證數(shù)據(jù)不會被錯誤的去除。搜索引擎必須對所有的產(chǎn)品判斷其類信息,從而進(jìn)行offer分組排序,每個類里面返回相似度最高的那個offer給前端web頁面展示,其中,整個響應(yīng)時間必須在可接受范圍內(nèi)。另外,在實時信息去重技術(shù)方案時,應(yīng)按照業(yè)務(wù)實時性的要求有差別的選擇索引構(gòu)建技術(shù)框架,同時需考慮當(dāng)實時計算相似度超時時,應(yīng)該有相應(yīng)的補(bǔ)償機(jī)制。最后,根據(jù)不同的商業(yè)業(yè)務(wù)要求,可將橫向信息(有限定要求的信息集)替換為縱向信息(無限定要求的信息集合)的去重。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本申請的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,并且在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本申請不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本申請的優(yōu)選實施例而已,并不用于限制本申請,對于本領(lǐng)域的技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種產(chǎn)品信息的實時去重方法,其特征在于,包括: 在線接收用戶輸入的產(chǎn)品更新信息; 在線根據(jù)所述產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新,其中,所述特征向量集合包括各個產(chǎn)品信息的特征向量,所述特征向量用于計算所述產(chǎn)品信息之間的相關(guān)度; 在線根據(jù)更新后的特征向量集合中的特征向量計算所述產(chǎn)品信息之間的相關(guān)度; 在線根據(jù)所述相關(guān)度判斷互為重復(fù)的產(chǎn)品信息,并對所述互為重復(fù)的產(chǎn)品信息進(jìn)行去重操作。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在線根據(jù)所述產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新的步驟包括: 判斷所述產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改或刪除還是增加新的廣品"[目息; 當(dāng)所述產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改時,獲取修改后的產(chǎn)品信息的特征向量,并將所述特征向量集合中與所述已有的產(chǎn)品信息對應(yīng)的特征向量更新為所述修改后的產(chǎn)品信息的特征向量; 當(dāng)所述產(chǎn)品更新信息所指示的是增加新的產(chǎn)品信息時,獲取所述新的產(chǎn)品信息的特征向量,并在所述特征向量集合中增加所述新的產(chǎn)品信息的特征向量; 當(dāng)所述產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行刪除時,從所述特征向量集合中刪除所述已有的產(chǎn)品信息對應(yīng)的特征向量。
3.根據(jù)權(quán)利要求2所述的方法`,其特征在于,通過以下步驟獲取所述修改后的產(chǎn)品信息的特征向量或者所述新的產(chǎn)品信息的特征向量: 對所述產(chǎn)品更新信息進(jìn)行審核; 若審核通過,則向后臺服務(wù)器發(fā)送獲取特征向量請求消息; 所述后臺服務(wù)器響應(yīng)所述計算特征向量請求消息來獲取所述修改后的產(chǎn)品信息的特征向量或者所述新的產(chǎn)品信息的特征向量。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在線根據(jù)所述產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新的步驟包括: 若所述產(chǎn)品更新信息指示更新的特征向量的個數(shù)超過預(yù)定閾值,則分批次對所述產(chǎn)品更新信息指示的特征向量進(jìn)行更新,其中,每一批次更新的特征向量的個數(shù)不超所述預(yù)定閾值。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,對所述互為重復(fù)的產(chǎn)品信息進(jìn)行去重操作的步驟包括: 對所述互為重復(fù)的產(chǎn)品信息設(shè)置類別標(biāo)記; 根據(jù)所設(shè)置的類別標(biāo)記對所述產(chǎn)品信息進(jìn)行分類,其中,將設(shè)置有同種類別標(biāo)記的產(chǎn)品信息分為一類; 將每一個分類中與用戶輸入的查詢信息的相似度最高的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述相關(guān)度對所述產(chǎn)品信息進(jìn)行分類的步驟包括:根據(jù)所述相關(guān)度對同一用戶下的所有產(chǎn)品信息進(jìn)行分類。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在線根據(jù)所述相關(guān)度判斷互為重復(fù)的產(chǎn)品信息的步驟包括:若在預(yù)定的時間內(nèi)無法判斷出互為重復(fù)的產(chǎn)品信息,則將待判斷的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。
8.一種產(chǎn)品信息的實時去重裝置,其特征在于,包括: 接收單元,用于在線接收用戶輸入的產(chǎn)品更新信息; 更新單元,用于在線根據(jù)所述產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新,其中,特征向量集合包括各個產(chǎn)品信息的特征向量,所述特征向量用于計算所述產(chǎn)品信息之間的相關(guān)度; 計算單元,用于在線根據(jù)更新后的特征向量集合中的特征向量計算所述產(chǎn)品信息之間的相關(guān)度; 去重單元,用于在線根據(jù)所述相關(guān)度判斷互為重復(fù)的產(chǎn)品信息,并對所述互為重復(fù)的產(chǎn)品信息進(jìn)行去重操作。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述更新單元包括: 判斷模塊,用于判斷所述產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改或刪除還是增加新的廣品彳目息; 處理模塊,用于當(dāng)所述產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行修改時,獲取修改后的產(chǎn)品信息的特征向量,并將所述特征向量集合中與所述已有的產(chǎn)品信息對應(yīng)的特征向量更新為所述修改后的產(chǎn)品信息的特征向量;當(dāng)所述產(chǎn)品更新信息所指示的是增加新的產(chǎn)品信息時,獲取所述新的產(chǎn)品信息的特征向量,并在所述特征向量集合中增加所述新的產(chǎn)品信息的特征向量;當(dāng)所述產(chǎn)品更新信息所指示的是對已有的產(chǎn)品信息進(jìn)行刪除時,從所述特征向量集合中刪除所述已有的產(chǎn)品信息對應(yīng)的特征向量。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述處理模塊還用于在所述產(chǎn)品更新信息指示更新的特征向量的個數(shù)超過預(yù)定閾值時分批次對所述產(chǎn)品更新信息指示的特征向量進(jìn)行更新,其中,每一批次更新的特征向量的個數(shù)不超所述預(yù)定閾值。
11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述去重單元包括: 分類模塊,用于對所述互為重復(fù)的產(chǎn)品信息設(shè)置類別標(biāo)記,并根據(jù)所設(shè)置的類別標(biāo)記對所述產(chǎn)品信息進(jìn)行分類,其中,將設(shè)置有同種類別標(biāo)記的產(chǎn)品信息分為一類; 發(fā)布模塊,用于將每一個分類中與用戶輸入的查詢信息的相似度最高的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述發(fā)布模塊還用于在預(yù)定的時間內(nèi)無法判斷出互為重復(fù)的產(chǎn)品信息時,將待判斷的產(chǎn)品信息發(fā)送給前端Web頁面進(jìn)行展示。
全文摘要
本申請公開了一種產(chǎn)品信息的實時去重方法和裝置,其中,該方法包括在線接收用戶輸入的產(chǎn)品更新信息;在線根據(jù)產(chǎn)品更新信息對特征向量集合中對應(yīng)的特征向量進(jìn)行更新,其中,特征向量集合包括各個產(chǎn)品信息的特征向量,特征向量用于計算產(chǎn)品信息之間的相關(guān)度;在線根據(jù)更新后的特征向量集合中的特征向量計算產(chǎn)品信息之間的相關(guān)度;在線根據(jù)相關(guān)度判斷互為重復(fù)的產(chǎn)品信息,并對互為重復(fù)的產(chǎn)品信息進(jìn)行去重操作。本申請解決了現(xiàn)有技術(shù)中無法實現(xiàn)實時地對產(chǎn)品信息進(jìn)行去重操作的問題,減少了搜索引擎反饋的搜索結(jié)果中的冗余信息,提高了搜索結(jié)果的準(zhǔn)確性。
文檔編號G06F17/30GK103106585SQ20111035815
公開日2013年5月15日 申請日期2011年11月11日 優(yōu)先權(quán)日2011年11月11日
發(fā)明者張林鋒, 廖劍, 張?zhí)窦? 王蔚微, 張敏捷, 翁曉穎 申請人:阿里巴巴集團(tuán)控股有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
绥江县| 马公市| 遵义市| 旬邑县| 孟连| 鄂托克旗| 八宿县| 水富县| 长丰县| 磐安县| 尉犁县| 庆云县| 图们市| 隆子县| 崇信县| 柳河县| 抚远县| 吴忠市| 阆中市| 佛学| 西峡县| 藁城市| 吉安县| 南投市| 兴隆县| 松溪县| 黄平县| 迁西县| 甘洛县| 淮安市| 新绛县| 卢龙县| 鹿邑县| 荣成市| 依兰县| 皋兰县| 旺苍县| 曲麻莱县| 遂溪县| 庐江县| 南宫市|