两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于網(wǎng)上購(gòu)物的關(guān)聯(lián)提取的系統(tǒng)和方法

文檔序號(hào):6533011閱讀:226來(lái)源:國(guó)知局
用于網(wǎng)上購(gòu)物的關(guān)聯(lián)提取的系統(tǒng)和方法
【專利摘要】本公開(kāi)涉及用于向網(wǎng)頁(yè)提供數(shù)據(jù)使得以模擬真實(shí)世界購(gòu)物體驗(yàn)的方式向用戶呈現(xiàn)項(xiàng)目的計(jì)算機(jī)系統(tǒng)和由選擇性編程的數(shù)據(jù)處理器執(zhí)行的方法。所公開(kāi)的技術(shù)的各個(gè)方案還涉及用于使用關(guān)聯(lián)關(guān)系提取來(lái)計(jì)算產(chǎn)品或類別關(guān)聯(lián)的系統(tǒng)和方法。所公開(kāi)的技術(shù)的附加方案涉及自動(dòng)話題發(fā)現(xiàn)以及事件和類別匹配。
【專利說(shuō)明】用于網(wǎng)上購(gòu)物的關(guān)聯(lián)提取的系統(tǒng)和方法
[0001] 要求優(yōu)先權(quán)
[0002] 本申請(qǐng)要求于2012年2月9日提交的美國(guó)臨時(shí)專利申請(qǐng)No. 61/597,032以及于 2012年9月10日提交的美國(guó)非臨時(shí)專利申請(qǐng)No. 13/607, 967的優(yōu)先權(quán),其全部?jī)?nèi)容通過(guò)引 用的方式并入本文。

【技術(shù)領(lǐng)域】
[0003] 本發(fā)明大體上涉及電子商務(wù),更具體地,涉及基于網(wǎng)絡(luò)的計(jì)算機(jī)系統(tǒng)和方法,用于 實(shí)現(xiàn)性能和呈現(xiàn)增強(qiáng)協(xié)議以及用于促進(jìn)基于web的商務(wù)的系統(tǒng)架構(gòu)。

【背景技術(shù)】
[0004] 網(wǎng)上購(gòu)物在很多方面與在實(shí)際商場(chǎng)購(gòu)物極大地不同。一個(gè)明顯的區(qū)別是網(wǎng)上購(gòu)物 模型是面向搜索的,即,基于用戶鍵入查詢并且在最佳結(jié)果中找到相應(yīng)的產(chǎn)品。因此,網(wǎng)上 購(gòu)物非常適合于心里有希望購(gòu)買的特定類型的產(chǎn)品的用戶的目標(biāo)。此類用戶希望能夠快速 地找到其選擇產(chǎn)品或者比較相同產(chǎn)品的接近的備選物和變體。
[0005] 另一方面,很多用戶非常享受購(gòu)物活動(dòng)并且喜歡在他們決定購(gòu)買之前瀏覽各種不 同的項(xiàng)目。這種購(gòu)物體驗(yàn)傳統(tǒng)上僅非常適合于線下或?qū)嶋H商場(chǎng),例如通過(guò)走進(jìn)百貨公司或 者購(gòu)物中心并且瀏覽。面向搜索的網(wǎng)上購(gòu)物網(wǎng)站未提供全面或令人滿意的"瀏覽"功能。
[0006] 本發(fā)明試圖解決這些問(wèn)題和其他問(wèn)題,以提供增強(qiáng)的網(wǎng)上購(gòu)物體驗(yàn),從而部分地 允許用戶體驗(yàn)在實(shí)際商場(chǎng)瀏覽的網(wǎng)上等同效果并且向用戶提供相關(guān)的產(chǎn)品。


【發(fā)明內(nèi)容】

[0007] 因此,本發(fā)明的一個(gè)目的是提供具有向用戶呈現(xiàn)相關(guān)聯(lián)產(chǎn)品的訪問(wèn)門戶網(wǎng)站的基 于網(wǎng)絡(luò)的計(jì)算機(jī)系統(tǒng)。
[0008] 本發(fā)明的另一目的是提供用于優(yōu)化向用戶呈現(xiàn)的相關(guān)聯(lián)產(chǎn)品的協(xié)議。
[0009] 本發(fā)明的另一目的是提供關(guān)聯(lián)關(guān)系提取。
[0010] 本發(fā)明的另一目的是提供用于產(chǎn)品/電子商務(wù)域的話題發(fā)現(xiàn)。
[0011] 本發(fā)明的另一目的是提供事件和類別匹配。
[0012] 本發(fā)明的上述目的和其他目的在其特定示意性實(shí)施例中被實(shí)現(xiàn),其中,特定示意 性實(shí)施例包括連接到web的選擇性編程的計(jì)算機(jī)平臺(tái)和系統(tǒng)。
[0013] 當(dāng)結(jié)合附圖和詳細(xì)描述考慮時(shí),本發(fā)明的其他特征和優(yōu)點(diǎn)將變得更加顯而易見(jiàn)。

【專利附圖】

【附圖說(shuō)明】
[0014] 在附圖中:
[0015] 圖1是示出了根據(jù)所公開(kāi)的技術(shù)的一個(gè)實(shí)施例的示例性互聯(lián)網(wǎng)商場(chǎng)環(huán)境的框圖。
[0016] 圖2是根據(jù)所公開(kāi)的技術(shù)的一個(gè)實(shí)施例的圖1的網(wǎng)上購(gòu)物服務(wù)器110中的示例性 組件的框圖。
[0017] 圖3至圖4是所公開(kāi)的技術(shù)的示意性實(shí)施例的屏幕截圖。
[0018] 圖5是示出了 LDA模型及其參數(shù)的示圖。

【具體實(shí)施方式】
[0019] 本發(fā)明涉及用于向網(wǎng)頁(yè)提供數(shù)據(jù)使得以模擬真實(shí)世界購(gòu)物體驗(yàn)的方式向用戶呈 現(xiàn)項(xiàng)目的計(jì)算機(jī)系統(tǒng)和由選擇性編程的數(shù)據(jù)處理器所執(zhí)行的方法。所公開(kāi)的技術(shù)的各個(gè)方 案還涉及用于使用關(guān)聯(lián)關(guān)系提取來(lái)計(jì)算產(chǎn)品或類別關(guān)聯(lián)的系統(tǒng)和方法。所公開(kāi)的技術(shù)的附 加方案涉及自動(dòng)話題發(fā)現(xiàn)以及事件和類別匹配。本文所描述的特定實(shí)施例是示例性的,而 不限制所公開(kāi)的技術(shù)的范圍。
[0020] 現(xiàn)在參照?qǐng)D1,示出了根據(jù)所公開(kāi)的技術(shù)的互聯(lián)網(wǎng)商場(chǎng)基礎(chǔ)設(shè)施100的一個(gè)實(shí)施 例的框圖。互聯(lián)網(wǎng)商場(chǎng)基礎(chǔ)設(shè)施100包括網(wǎng)絡(luò)102,網(wǎng)絡(luò)102可以包括一個(gè)或更多個(gè)電信 設(shè)備(例如,路由器、集線器、網(wǎng)關(guān)等)以及一個(gè)或更多個(gè)連接(例如,有線連接或無(wú)線連 接)。在不同的實(shí)施例中,網(wǎng)絡(luò)102可以包括不同數(shù)量的電信設(shè)備和連接,并且可以跨越不 同地理范圍。在不同的實(shí)施例中,網(wǎng)絡(luò)102可以尤其包括有線電話基礎(chǔ)設(shè)施、蜂窩電話基礎(chǔ) 設(shè)施、有線電視基礎(chǔ)設(shè)施和/或衛(wèi)星電視基礎(chǔ)設(shè)施的全部或部分。
[0021] 各個(gè)互聯(lián)網(wǎng)商場(chǎng)參與者(包括一個(gè)或更多個(gè)用戶計(jì)算機(jī)104和106、零售商服務(wù) 器108和網(wǎng)上購(gòu)物服務(wù)器110)與網(wǎng)絡(luò)102進(jìn)行通信。本文所使用的術(shù)語(yǔ)"計(jì)算機(jī)"包括可 以執(zhí)行機(jī)器指令的任何系統(tǒng)或設(shè)備,包括例如:臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、服務(wù)器、手機(jī)、 智能手機(jī)、手持設(shè)備、電視機(jī)頂盒和/或聯(lián)網(wǎng)的計(jì)算系統(tǒng)或其中的多個(gè)或其組合。零售商服 務(wù)器108包括網(wǎng)頁(yè)和web服務(wù)器軟件,其中web服務(wù)器軟件可以向請(qǐng)求網(wǎng)頁(yè)的系統(tǒng)或設(shè)備 提供網(wǎng)頁(yè)。網(wǎng)頁(yè)可以包括大量不同的媒體和內(nèi)容,包括例如:購(gòu)物內(nèi)容。網(wǎng)上購(gòu)物服務(wù)器 114可操作以確定類別與產(chǎn)品之間的關(guān)聯(lián)關(guān)系,構(gòu)造話題頁(yè)面,并且執(zhí)行下面詳細(xì)描述的各 種其他功能。網(wǎng)上購(gòu)物服務(wù)器114可以是零售商服務(wù)器108的一部分,或者可以是單獨(dú)的 服務(wù)器。
[0022] 用戶計(jì)算機(jī)104和106、零售商服務(wù)器108和網(wǎng)上購(gòu)物服務(wù)器110均可以包括硬 件,例如,網(wǎng)絡(luò)通信設(shè)備、非瞬時(shí)存儲(chǔ)介質(zhì)/設(shè)備、處理器、存儲(chǔ)器和諸如操作系統(tǒng)軟件、web 服務(wù)器軟件和/或web瀏覽軟件等的軟件。在一個(gè)實(shí)施例中,用戶計(jì)算機(jī)104和106包括 web瀏覽器,web瀏覽器可以向零售商服務(wù)器108和/或網(wǎng)上購(gòu)物服務(wù)器110請(qǐng)求網(wǎng)頁(yè)。本 領(lǐng)域技術(shù)人員將理解的是,"網(wǎng)頁(yè)"是指不同事物的集合,包括:在屏幕上顯示的視覺(jué)內(nèi)容 (例如,文本、圖片、視頻、按鈕等)、使視覺(jué)內(nèi)容被顯示的軟件代碼、以及不使任何事物被顯 示而是結(jié)合網(wǎng)頁(yè)執(zhí)行特定功能的其他軟件代碼。
[0023] 圖2示出了根據(jù)所公開(kāi)的技術(shù)的一個(gè)實(shí)施例的圖1的網(wǎng)上購(gòu)物服務(wù)器110的示例 性組件。界面軟件202允許與網(wǎng)上購(gòu)物服務(wù)器110進(jìn)行用戶交互。存儲(chǔ)介質(zhì)204可操作以 存儲(chǔ)選擇性程序,包括:實(shí)現(xiàn)關(guān)聯(lián)關(guān)系提取引擎206和輸出引擎210所需的程序。可以在數(shù) 據(jù)處理器208上運(yùn)行關(guān)聯(lián)關(guān)系提取引擎206,使得執(zhí)行下面所描述的算法和方法。輸出引擎 210可操作以向用戶計(jì)算機(jī)或零售商服務(wù)器輸出關(guān)聯(lián)關(guān)系提取引擎206的結(jié)果,例如,話題 頁(yè)面。
[0024] 在一個(gè)實(shí)施例中,用戶能夠在特定產(chǎn)品類別(例如,酒)中查看產(chǎn)品。系統(tǒng)的目的 之一是確定用戶將對(duì)哪些其他類別感興趣并且顯示這些類別。例如,在酒的情況下,可能存 在各種類型的酒,但也有開(kāi)瓶器具和儲(chǔ)存器具以及酒杯或與酒一起供應(yīng)的適合的食物(例 如,奶酪)??梢栽诿恳粋€(gè)零售商可能特有的"產(chǎn)品本體樹(shù)"中定義這些產(chǎn)品類別。例如, 零售商X可能具有家用項(xiàng)目類別(其具有開(kāi)瓶器作為子類別)以及食物類別(其具有飲料 作為子類別并且具有酒作為飲料類別的子類別)。在該示例中,上文提到的所有類型的產(chǎn) 品被指派給零售商的產(chǎn)品層級(jí)中的不同類別,這些類別在產(chǎn)品本體樹(shù)中通常離得很遠(yuǎn)。此 夕卜,用戶數(shù)據(jù)可能不足以找到這種類型的關(guān)聯(lián),這是因?yàn)樗赡苡龅较∩賳?wèn)題,或者以此方 式找到的相關(guān)內(nèi)容可能不足夠相干使得將它一起顯示將提供愉快的上網(wǎng)體驗(yàn)。
[0025] 考慮到零售商產(chǎn)品層級(jí)中的類別(例如,意大利面醬)以及指派給該類別的產(chǎn)品 的描述,本發(fā)明在意大利面醬的情況下提取其他相關(guān)聯(lián)的類別,例如,意大利面、西紅柿、橄 欖油和奶酪。這是通過(guò)創(chuàng)建"類別文檔"的集合并且采用發(fā)現(xiàn)該文檔集合中的隱藏話題的 話題模型算法來(lái)實(shí)現(xiàn)的。
[0026] 然后,基于對(duì)于每一個(gè)類別是重要的的話題和類別名稱的共存來(lái)找到相關(guān)聯(lián)的類 另IJ。此外,還可以根據(jù)相關(guān)聯(lián)的類別被指派給的話題來(lái)對(duì)相關(guān)聯(lián)的話題進(jìn)行分組,這提供了 布置相關(guān)聯(lián)的類別信息的自然方式。對(duì)于每一個(gè)相關(guān)類別,所公開(kāi)的發(fā)明選擇示例產(chǎn)品和 產(chǎn)品描述中說(shuō)明關(guān)聯(lián)的片段句子。此外,所公開(kāi)的發(fā)明還構(gòu)造話題頁(yè)面,該話題頁(yè)面列出了 對(duì)于給定話題主要的類別。話題頁(yè)面可以被認(rèn)為是商店中的主題顯示的等同物,例如,在意 大利菜中使用的配料。
[0027] 網(wǎng)h購(gòu)物范例
[0028] 網(wǎng)上購(gòu)物可以被定義為網(wǎng)上購(gòu)物范例,這有助于希望"瀏覽"網(wǎng)上商店的用戶瀏覽 和仔細(xì)查看各種產(chǎn)品。網(wǎng)上購(gòu)物的目標(biāo)用戶是不一定打算搜索特定項(xiàng)目、而是訪問(wèn)網(wǎng)站以 仔細(xì)查看和享受購(gòu)物活動(dòng)的用戶。因此,網(wǎng)上購(gòu)物界面的目的是捕獲用戶的意圖并且提供 娛樂(lè)。他們維持在站點(diǎn)上的時(shí)間越長(zhǎng),他們?cè)娇赡馨l(fā)現(xiàn)他們決定購(gòu)買的產(chǎn)品。網(wǎng)上購(gòu)物的 另一個(gè)功能是通過(guò)在瀏覽提議中顯示用戶可能還不了解或者還未想要搜索的產(chǎn)品來(lái)使他 們接觸到這些產(chǎn)品。
[0029] 因此,在優(yōu)選的實(shí)施例中,網(wǎng)上購(gòu)物界面包括多個(gè)導(dǎo)航選項(xiàng)和一個(gè)吸引人的顯示。 為了使用戶感興趣,系統(tǒng)應(yīng)當(dāng)提供與用戶當(dāng)前正在查看的產(chǎn)品選擇相關(guān)的多個(gè)選項(xiàng),所述 多個(gè)選項(xiàng)可以用作要仔細(xì)查看的其他可能的方向。此外,應(yīng)當(dāng)以有趣且吸引人的方式組織 和顯示作為相關(guān)選項(xiàng)顯示的項(xiàng)目(產(chǎn)品類別或產(chǎn)品)以促進(jìn)進(jìn)一步瀏覽站點(diǎn)。通過(guò)用于提 取產(chǎn)品類別之間的關(guān)聯(lián)關(guān)系并且將這些關(guān)聯(lián)組織為主題/話題的方法來(lái)促進(jìn)這些要素。前 面的兩個(gè)部分介紹了在原型試驗(yàn)中使用的方法和數(shù)據(jù)的組成部分。
[0030] 初步定義和數(shù)據(jù)
[0031] 關(guān)聯(lián)關(guān)系??紤]到典型的網(wǎng)上零售商產(chǎn)品類別層級(jí),在不一定處于相同語(yǔ)義類中 (即,在產(chǎn)品樹(shù)中接近)但是仍然被感知為概念上相關(guān)的項(xiàng)目之間存在關(guān)聯(lián)關(guān)系。這種關(guān) 系的示例包括杯子和咖啡或者自行車和頭盔??梢哉J(rèn)為項(xiàng)目是關(guān)聯(lián)相關(guān)的,這是因?yàn)樗鼈?參與一個(gè)活動(dòng)或事件類型(煮意大利面涉及意大利面、鍋、熱水等),一個(gè)項(xiàng)目類型用作另 一個(gè)項(xiàng)目類型的容器(茶、茶壺),或者它們經(jīng)常一起被發(fā)現(xiàn)(女士手提包中的手帕和化妝 鏡)。
[0032] 除了發(fā)現(xiàn)與給定實(shí)體關(guān)聯(lián)相關(guān)的實(shí)體集合之外,還可以根據(jù)將它們與目標(biāo)實(shí)體相 聯(lián)系的主題或整個(gè)話題來(lái)對(duì)其成員進(jìn)行分組。例如,與奶酪相關(guān)的實(shí)體可以包括通常在早 餐時(shí)吃的其他食物、或者與使用奶酪烹飪相關(guān)的項(xiàng)目,在該情況下,相關(guān)聯(lián)的實(shí)體被細(xì)分為 兩個(gè)主題組。以單個(gè)話題為例,在烹飪主題下分組的與奶酪相關(guān)的實(shí)體可以包括擦菜板 (用于擦菜的工具)、比薩(奶酪用作配料或調(diào)味配料)或者番茄汁(與奶酪搭配的配料)。 [0033] 基于手動(dòng)或自動(dòng)分類,類別節(jié)點(diǎn)可以被分為類別和屬性,其中,屬性節(jié)點(diǎn)出現(xiàn)在樹(shù) 的下方。例如,飯碗類別的子類別可以包括描述諸如瓷、陶瓷、塑料等的材料的屬性。
[0034] 術(shù)語(yǔ)類別是指在層級(jí)中的該類別節(jié)點(diǎn)下的產(chǎn)品集合(和相應(yīng)的產(chǎn)品文檔),而術(shù) 語(yǔ)類別名稱是指向類別提供的標(biāo)簽。在一個(gè)示例中,可以進(jìn)行如下簡(jiǎn)化假設(shè):當(dāng)在產(chǎn)品文檔 中使用類別名稱時(shí),它是指該類別中的項(xiàng)目。在一個(gè)示例中,每一個(gè)類別具有一個(gè)名稱/標(biāo) 簽,但是原則上,可以使用用于提及類別中的項(xiàng)目的同義詞或關(guān)鍵詞列表來(lái)替換該名稱。
[0035] 方法概沭
[0036] 下面描述了一種用于找到所選域(例如,食物和廚房)中的產(chǎn)品類別之間的關(guān)聯(lián) 的方法。下面參照僅考慮來(lái)自食物和廚房域的類別節(jié)點(diǎn)(共1088個(gè))的具體試驗(yàn),并且將 理解的是,下面對(duì)具體示例的參考不是限制性的。在一個(gè)實(shí)施例中,用于提取關(guān)聯(lián)關(guān)系的方 法由以下步驟構(gòu)成:
[0037] 1、類別文檔構(gòu)造
[0038] 針對(duì)域中的每一個(gè)類別X,構(gòu)造人造文檔,該人造文檔由關(guān)于其他類別Y描述該類 別的所有句子構(gòu)成,更具體地,包括對(duì)X中的產(chǎn)品的描述中提到至少一個(gè)其他類別Y的名稱 的所有句子以及對(duì)類別Y中的產(chǎn)品的描述中提到類別X的名稱的所有句子。結(jié)果是文檔集 合(庫(kù)),針對(duì)每一個(gè)類別有一個(gè)文檔。
[0039] 2、使用潛在狄利克雷分配(LDA)的話題發(fā)現(xiàn)
[0040] 通過(guò)對(duì)類別文檔庫(kù)使用LDA來(lái)運(yùn)行話題模型,這發(fā)現(xiàn)了文檔中的隱藏話題/主題。 模型的結(jié)果提供了文檔集合中的(由可能出現(xiàn)在每一個(gè)話題中的詞表示的)主話題以及針 對(duì)每一個(gè)類別文檔的主要話題和針對(duì)文檔集合中的每一個(gè)詞的話題標(biāo)簽。必須憑經(jīng)驗(yàn)建立 針對(duì)給定文檔庫(kù)的話題的數(shù)量。針對(duì)食物和廚房域,話題的數(shù)量比類別的數(shù)量少十倍是最 佳的。在一個(gè)實(shí)施例中,為了避免太籠統(tǒng)的話題,丟棄前10%的話題。
[0041] 3、選擇針對(duì)每一個(gè)類別文檔的相關(guān)類別并且向話題指派類別
[0042] 針對(duì)在單獨(dú)的類別文檔中描述的每一個(gè)目標(biāo)類別,根據(jù)潛在相關(guān)話題在目標(biāo)類別 文檔中的出現(xiàn)來(lái)對(duì)它們進(jìn)行分類,或者基于話題模型結(jié)果來(lái)向它們指派相關(guān)分?jǐn)?shù)。還基于 目標(biāo)中的最佳話題之一與相關(guān)類別文檔中的最佳話題的重疊來(lái)將每一個(gè)相關(guān)類別指派給 該目標(biāo)中的最佳話題之一。
[0043] 4、片段和樣本產(chǎn)品選擇
[0044] 考慮到前兩個(gè)步驟,相關(guān)類別到話題的指派是已知的,并且在目標(biāo)類別文檔中存 在可以用作說(shuō)明目標(biāo)與相關(guān)類別之間的關(guān)系的片段候選的句子集合。針對(duì)該句子集合,包 含關(guān)聯(lián)對(duì)中的類別名稱之一的最常見(jiàn)的謂語(yǔ)變?cè)Y(jié)構(gòu)被發(fā)現(xiàn),并且根據(jù)詞屬于被指派給該 特定關(guān)聯(lián)關(guān)系的話題的可能性來(lái)對(duì)這些句子進(jìn)行分類。在其描述中具有高分?jǐn)?shù)的片段的產(chǎn) 品被選作示例??梢酝ㄟ^(guò)根據(jù)目標(biāo)類別名稱和代表話題的詞構(gòu)造查詢并且將搜索結(jié)果限制 于相關(guān)類別中的項(xiàng)目來(lái)在產(chǎn)品索引中搜索其他示例性產(chǎn)品。
[0045] 5、類別的選擇和聚類以表示每一個(gè)話題
[0046] 因?yàn)槭褂肔DA在類別文檔集合中發(fā)現(xiàn)了隱藏話題,因此結(jié)果還使得可以構(gòu)造"話 題頁(yè)面",該話題頁(yè)面可以被視為商店中的主題顯示或主題角的等同物。為了構(gòu)造話題頁(yè) 面,該話題下最可能的類別文檔被選擇并且k均值聚類版本用于根據(jù)產(chǎn)品本體樹(shù)中的距離 對(duì)其進(jìn)行分組,使得類似的類別可以被顯示在一起并且使得不適合在一起的類別可以被移 除。在圖3中示出了根據(jù)所公開(kāi)的發(fā)明的一個(gè)實(shí)施例的示例性話題頁(yè)面的屏幕截圖。
[0047] 6、話題標(biāo)簽選擇
[0048] 話題的數(shù)量遠(yuǎn)少于給定域中的類別的數(shù)量(例如,針對(duì)1088個(gè)類別的食物和廚房 域有100個(gè)話題),這允許手動(dòng)的話題標(biāo)簽選擇。然而,在一個(gè)實(shí)施例中,話題標(biāo)簽選擇是自 動(dòng)化的。可以由注釋器基于話題頁(yè)面上的最佳話題關(guān)鍵詞和類別的選擇來(lái)指派話題標(biāo)簽。
[0049] 方法細(xì)節(jié)
[0050] 1、類別文檔構(gòu)造
[0051] 該部分描述了如何考慮到該類別中的所有產(chǎn)品描述來(lái)構(gòu)造類別文檔。然后,針對(duì) 給定域的此類文檔的集合可以用作在下一部分中描述的話題模型聚類的輸入。
[0052] 首先,對(duì)所有描述進(jìn)行標(biāo)記化,并且給詞性(P0S)加標(biāo)簽并將詞性劃分到句子中。 產(chǎn)品描述中的句子分段基于簡(jiǎn)單的樸素貝葉斯分類器,該樸素貝葉斯分類器決定當(dāng)它遇到 給定的具有約20個(gè)字符(不僅可以包括標(biāo)點(diǎn)符號(hào),而且還可以包括星號(hào)、音符以及一些其 他符號(hào))的集合中的分隔符之一時(shí)是否進(jìn)行分段。提供給分類器的特征是:前一個(gè)詞、前一 個(gè)詞的P0S、分隔符自身以及與前一分隔符的距離(以詞為單位)。
[0053] 在分段之后,根據(jù)以下規(guī)則來(lái)清理(clean)描述數(shù)據(jù)。如果重復(fù)描述來(lái)自由相 同的零售商提供的產(chǎn)品描述,則移除重復(fù)描述,也移除重復(fù)句子。僅標(biāo)點(diǎn)符號(hào)或者數(shù)字不 同的句子也被認(rèn)為是重復(fù)的。此外,不包含任何謂語(yǔ)(動(dòng)詞或形容詞)或格助詞(case particle)的分段被移除,以排除諸如關(guān)鍵詞列表等的非句子分段。
[0054] 基于源類別將所有句子分組到單獨(dú)的文檔中,并且向這些句子指派唯一 id,該唯 一 id包含產(chǎn)品描述所屬的類別的id。然后,進(jìn)一步對(duì)句子進(jìn)行過(guò)濾,從而僅留下包含域中 的另一類別的名稱的那些句子。這允許保留潛在地描述給定產(chǎn)品類別與其他類別之間的關(guān) 系的句子。這還有助于移除諸如運(yùn)輸或包裝信息等的元數(shù)據(jù)。以標(biāo)記化的格式保存數(shù)據(jù), 然而,與類別名稱相匹配的所有子字符串被級(jí)聯(lián)以形成單個(gè)詞(很多類別名稱由多于一個(gè) 標(biāo)記構(gòu)成)。
[0055] 與類別X相關(guān)的重要知識(shí)也可以包含在來(lái)自其他類別的提到類別X的名稱的產(chǎn)品 描述中。因此,在最后一個(gè)步驟中,使用從其他類別中的包含相關(guān)類別名稱的描述復(fù)制而來(lái) 的句子來(lái)增大每一個(gè)類別文檔。
[0056] 結(jié)果是文檔集合(庫(kù)),針對(duì)每一個(gè)產(chǎn)品類別有一個(gè)文檔。應(yīng)當(dāng)注意的是,這些文 檔不是連貫(coherent)文本或概述,它們僅將從產(chǎn)品描述中提取的相關(guān)句子聚集在一起。 因?yàn)長(zhǎng)DA是詞包模型,因此這種類別文檔庫(kù)構(gòu)成了下一個(gè)步驟的有效輸入。
[0057] 2、潛在狄利克雷分配
[0058] 除了識(shí)別與給定目標(biāo)關(guān)聯(lián)相關(guān)的實(shí)體之外,另一個(gè)目的是基于目標(biāo)實(shí)體的不同方 面以及它與已經(jīng)被分類為相關(guān)的實(shí)體相關(guān)聯(lián)的方式將該知識(shí)組織到主題組中。因此,利用 稱作潛在狄利克雷分配(LDA)的模型。
[0059] 為了運(yùn)行LDA,必須指定三個(gè)參數(shù):話題先驗(yàn)(prior)、詞先驗(yàn)、以及話題群集的數(shù) 量,g卩,庫(kù)中將被模型發(fā)現(xiàn)的隱藏主題的數(shù)量。在一個(gè)實(shí)施例中,話題先驗(yàn)被設(shè)置為50除以 話題的數(shù)量,并且詞先驗(yàn)被設(shè)置為0. 01。小于1的話題先驗(yàn)確保話題在文檔中的"峰值"分 布,其中針對(duì)每一個(gè)文檔區(qū)分幾個(gè)主要話題。應(yīng)當(dāng)憑經(jīng)驗(yàn)來(lái)建立針對(duì)給定文檔庫(kù)的話題的 數(shù)量。對(duì)于食物和廚房域,發(fā)現(xiàn)話題數(shù)量比類別數(shù)量小十倍是最佳的。
[0060] 可以使用采用倒塌的吉布斯采樣作為推斷方法的軟件。通過(guò)利用采樣方法,可以 在采樣器的多次"老化(burn-in)"迭代之后通過(guò)多個(gè)采樣對(duì)結(jié)果進(jìn)行平均。然而,實(shí)際上, 可能引入采樣之間的話題不可辨識(shí)的問(wèn)題。在一個(gè)實(shí)施例中,可以在庫(kù)的對(duì)數(shù)似然已經(jīng)穩(wěn) 定(例如,2500至3000次迭代)之后使用單個(gè)采樣近似。
[0061] 在一個(gè)試驗(yàn)中,以基本單調(diào)的形式呈現(xiàn)文檔中的所有詞。具有113個(gè)詞的禁用列 表用于從文檔中移除所有數(shù)字和標(biāo)點(diǎn)符號(hào)。輸入還被格式化以增大發(fā)現(xiàn)表征關(guān)聯(lián)關(guān)系和活 動(dòng)的話題的機(jī)會(huì)。除了使用文檔中的所有詞作為輸入之外,還可以對(duì)庫(kù)運(yùn)行從屬解析器并 且僅保留謂語(yǔ)表達(dá)(動(dòng)詞、形容詞和動(dòng)名詞)和其原始格位形式的變?cè)?,格助詞被附著 到名詞以形成單個(gè)標(biāo)記)。除了影響話題分布之外,后一個(gè)選項(xiàng)具有減小庫(kù)大小從而縮短計(jì) 算時(shí)間的優(yōu)點(diǎn)。
[0062] LDA的結(jié)果由每一個(gè)文檔中的推斷的話題比例以及話題的詞分布表示構(gòu)成。話題 詞分布允許確定給定話題下最常見(jiàn)的詞。這些詞是可以由人類注釋器使用以向話題指派標(biāo) 簽或者通過(guò)自動(dòng)化方式使用的詞。
[0063] LDA發(fā)現(xiàn)的隱藏話題在特異性/通用性方面不同。一些話題群集對(duì)于給定域太籠 統(tǒng),例如,與食物和廚房域中的食用相關(guān)的話題??梢酝ㄟ^(guò)查看被指派該話題的類別的數(shù)量 來(lái)找出和排除此類話題(類別越多,話題越籠統(tǒng)并且越不清楚)。為了避免太籠統(tǒng)的話題, 可以設(shè)想根據(jù)文檔的數(shù)量丟棄話題的前X% (例如,10% )。
[0064] 在一個(gè)實(shí)施例中,使用被監(jiān)督的LDA,例如,合理話題模型(RTM),以發(fā)現(xiàn)產(chǎn)品本體 樹(shù)內(nèi)的相關(guān)類別。通過(guò)使用RTM,可以在產(chǎn)品本體樹(shù)中的類別之間的現(xiàn)有鏈路上訓(xùn)練模型, 并且結(jié)果可以應(yīng)用于預(yù)測(cè)類別層級(jí)樹(shù)中彼此遠(yuǎn)離的類別之間的鏈路。
[0065] 3、相關(guān)類別選擇和話題指派
[0066] 針對(duì)通過(guò)單獨(dú)的類別文檔所描述的每一個(gè)目標(biāo)類別,所公開(kāi)的發(fā)明根據(jù)目標(biāo)類別 文檔中提到相關(guān)類別或者源自相關(guān)類別中的產(chǎn)品描述的句子的數(shù)量來(lái)對(duì)潛在相關(guān)類別進(jìn) 行分類。這提供了對(duì)兩個(gè)類別之間相關(guān)強(qiáng)度的近似度量。
[0067] 兩個(gè)類別之間的關(guān)系的另一可能度量可以直接基于LDA結(jié)果計(jì)算的分?jǐn)?shù),其被表 達(dá)為考慮到主類別和話題z感測(cè)到相關(guān)類別候選的概率,其可以被定義如下:
[0068] P(c: I £?) = Σ I z)l>i<z I 6'i)
[0069] 其中,(在另外假設(shè)所有文檔是等概率的情況下)根據(jù)貝葉斯規(guī)則來(lái)計(jì)算考慮到 話題z的類別文檔c的概率:
[。_斗,丨5)="'、丨以。
[0071] 在一個(gè)實(shí)施例中,在目標(biāo)類別文檔中選擇四個(gè)最佳話題以表示針對(duì)該類別的主要 主題。雖然該數(shù)量是靈活的,但是通常在單個(gè)類別中僅有3至5個(gè)話題是主要的。對(duì)于這 些話題中的每一個(gè)話題,通過(guò)迭代先前分類的類別候選列表并且基于以下公式將每一個(gè)候 選指派給話題來(lái)指派4個(gè)相關(guān)類別,其中z是話題并且c是類別。
[0072] RelZ(Ci,Cj) = maxz (P (zk | Cj)+P (zk | Cj)) (1)
[0073] 這與選擇重疊話題相對(duì)應(yīng),該重疊話題最大化兩個(gè)類別在該話題下的概率。針對(duì) 潛在重疊所核查的話題被限制于目標(biāo)和相關(guān)候選類別中的前十個(gè)話題,因此如果不存在重 疊則可以拒絕候選。
[0074] 將相關(guān)類別指派給話題的另一備選方式可以是(例如,通過(guò)從主類別文檔中提取 包含相關(guān)類別的名稱的所有句子)構(gòu)建由描述關(guān)系的句子構(gòu)成的新文檔。然后,擬合的LDA 模型可以用于使用標(biāo)準(zhǔn)LDA預(yù)測(cè)方法之一來(lái)預(yù)測(cè)新文檔中的最佳話題。
[0075] 4、片段選擇
[0076] 為了選擇片段以表示每一個(gè)相關(guān)類別中的示例產(chǎn)品,所公開(kāi)的發(fā)明使用來(lái)自目標(biāo) 類別文檔的句子分段作為片段候選池。
[0077] 包含在單個(gè)相關(guān)類別的候選集合中的句子包括(a)包含目標(biāo)和相關(guān)類別的名稱 的句子、(b)包含對(duì)中的一個(gè)類別的名稱并且來(lái)自另一類別中的產(chǎn)品描述的句子。這意味 著可能僅類別名稱之一出現(xiàn)在片段中并且另一個(gè)可能隱式地存在,這是因?yàn)榫渥觼?lái)自該類 別中的產(chǎn)品的描述。產(chǎn)品所屬類別的名稱通常不存在于描述中。取而代之地,它是隱式或 空變?cè)?,例如,拉面面條的描述可能不包含詞拉面,即使它是指面條。允許僅單個(gè)類別名稱 出現(xiàn)在句子中的策略允許對(duì)句子更大的覆蓋和更可靠的頻率統(tǒng)計(jì)。
[0078] 首先,通過(guò)最常用的變?cè)?謂語(yǔ)結(jié)構(gòu)來(lái)對(duì)候選句子進(jìn)行過(guò)濾,其中格位變?cè)╟ase argument)是類別名稱。假設(shè)存在通用地表達(dá)類別之間的關(guān)系的特定謂語(yǔ)形式,但是因?yàn)榭?能僅類別名稱之一存在于句子中,因此所公開(kāi)的發(fā)明從對(duì)中的兩個(gè)類別中選擇最常用的類 別名稱+格位組合。接下來(lái),系統(tǒng)找出該類別變?cè)诤蜻x集合中依據(jù)的最常見(jiàn)動(dòng)詞。例如, 針對(duì)類別對(duì)黃瓜和腌菜,最常見(jiàn)變?cè)?謂語(yǔ)結(jié)構(gòu)可以是腌制黃瓜。
[0079] 然后,根據(jù)具有最常見(jiàn)的格位和謂語(yǔ)形式的候選句子中的詞如何緊密地反映相關(guān) 類別對(duì)被指派給的話題來(lái)對(duì)候選句子進(jìn)行評(píng)分。通過(guò)對(duì)每一個(gè)句子中的詞的話題z分?jǐn)?shù)進(jìn) 行求和來(lái)指派分?jǐn)?shù)。z分?jǐn)?shù)是表示標(biāo)準(zhǔn)偏差的數(shù)量的統(tǒng)計(jì)度量,其中話題中的詞的出現(xiàn)與均 值(即,其預(yù)期的頻率,而不論話題如何)相差該標(biāo)準(zhǔn)偏差。它是作為話題t中的詞 Wi的 原始頻率與t中的Wi的預(yù)期頻率之間的差值除以庫(kù)的標(biāo)準(zhǔn)偏差來(lái)計(jì)算的(針對(duì)二項(xiàng)式分 布來(lái)計(jì)算的),如下所示。N是整個(gè)庫(kù)中的詞的數(shù)量。
[0080]

【權(quán)利要求】
1. 一種用于確定關(guān)聯(lián)關(guān)系的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括: 構(gòu)造多個(gè)類別文檔,其中所述多個(gè)類別文檔中的每一個(gè)類別文檔與類別相關(guān)聯(lián)并且包 括關(guān)于一個(gè)或更多個(gè)其他類別對(duì)相應(yīng)類別的描述; 將所述多個(gè)類別文檔應(yīng)用于話題模型以確定話題; 選擇針對(duì)所述多個(gè)類別文檔中的第一類別文檔的相關(guān)類別; 將所述相關(guān)類別中的一個(gè)或更多個(gè)相關(guān)類別指派給所確定的話題; 根據(jù)所述多個(gè)類別文檔中的所述第一類別文檔來(lái)選擇所述描述中的一個(gè)或更多個(gè)描 述,以說(shuō)明所述多個(gè)類別文檔中的所述第一類別文檔與所述多個(gè)類別文檔中的第二類別文 檔之間的關(guān)系; 基于所選擇的一個(gè)或更多個(gè)描述來(lái)選擇代表性產(chǎn)品;以及 構(gòu)建話題頁(yè)面。
2. 根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述話題模型使用潛在狄利克雷 分配算法。
3. 根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,構(gòu)建所述話題頁(yè)面包括:進(jìn)行k均 值聚類,以根據(jù)產(chǎn)品本體樹(shù)中的距離將話題聚集在一起。
4. 根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,確定的話題的數(shù)量比類別的數(shù)量 少至少十倍。
5. 根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,選擇相關(guān)類別包括:根據(jù)所述多個(gè) 類別文檔中的所述第一類別文檔中提到所述相關(guān)類別之一或者源自所述相關(guān)類別之一中 的產(chǎn)品描述的句子的數(shù)量來(lái)對(duì)潛在相關(guān)類別進(jìn)行分類。
6. 根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述多個(gè)類別文檔中的所述第一 類別文檔的所述描述包括所述多個(gè)類別文檔中的所述第一類別文檔中的產(chǎn)品描述中提到 與所述多個(gè)類別文檔中的所述第二類別文檔相關(guān)聯(lián)的類別名稱的所有句子。
7. -種用于確定關(guān)聯(lián)關(guān)系的系統(tǒng),包括: 數(shù)據(jù)處理器,被編程為: 構(gòu)造多個(gè)類別文檔,其中所述多個(gè)類別文檔中的每一個(gè)類別文檔與類別相關(guān)聯(lián)并且包 括關(guān)于一個(gè)或更多個(gè)其他類別對(duì)相應(yīng)類別的描述; 將所述多個(gè)類別文檔應(yīng)用于話題模型以確定話題; 選擇針對(duì)所述多個(gè)類別文檔中的第一類別文檔的相關(guān)類別; 將所述相關(guān)類別中的一個(gè)或更多個(gè)相關(guān)類別指派給所確定的話題; 根據(jù)所述多個(gè)類別文檔中的所述第一類別文檔來(lái)選擇所述描述中的一個(gè)或更多個(gè)描 述,以說(shuō)明所述多個(gè)類別文檔中的所述第一類別文檔與所述多個(gè)類別文檔中的第二類別文 檔之間的關(guān)系; 基于所選擇的一個(gè)或更多個(gè)描述來(lái)選擇代表性產(chǎn)品;以及 構(gòu)建話題頁(yè)面。
8. 根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述話題模型使用潛在狄利克雷分配算法LDA。
9. 根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述數(shù)據(jù)處理器被進(jìn)一步編程為: 通過(guò)使用LDA結(jié)果以選擇表示所述話題的產(chǎn)品類別,來(lái)構(gòu)建所述話題頁(yè)面;以及 使用k均值聚類根據(jù)產(chǎn)品本體樹(shù)中的距離將所述類別聚集在一起。
10. 根據(jù)權(quán)利要求7所述的系統(tǒng),其中,確定的話題的數(shù)量比類別的數(shù)量少至少十倍。
11. 根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述數(shù)據(jù)處理器被進(jìn)一步編程為選擇相關(guān)類別 包括:根據(jù)所述多個(gè)類別文檔中的所述第一類別文檔中提到所述相關(guān)類別之一或者源自所 述相關(guān)類別之一中的產(chǎn)品描述的句子的數(shù)量來(lái)對(duì)潛在相關(guān)類別進(jìn)行分類。
12. 根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述多個(gè)類別文檔中的所述第一類別文檔的所 述描述包括所述多個(gè)類別文檔中的所述第一類別文檔中的產(chǎn)品描述中提到與所述多個(gè)類 別文檔中的所述第二類別文檔相關(guān)聯(lián)的類別名稱的所有句子。
13. -種包含有程序的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)在數(shù)據(jù)處理器上執(zhí)行所述程序 時(shí),所述程序使所述數(shù)據(jù)處理器執(zhí)行包括以下各項(xiàng)的步驟: 構(gòu)造多個(gè)類別文檔,其中所述多個(gè)類別文檔中的每一個(gè)類別文檔與類別相關(guān)聯(lián)并且包 括關(guān)于一個(gè)或更多個(gè)其他類別對(duì)相應(yīng)類別的描述; 將所述多個(gè)類別文檔應(yīng)用于話題模型以確定話題; 選擇針對(duì)所述多個(gè)類別文檔中的第一類別文檔的相關(guān)類別; 將所述相關(guān)類別中的一個(gè)或更多個(gè)相關(guān)類別指派給所確定的話題; 根據(jù)所述多個(gè)類別文檔中的所述第一類別文檔來(lái)選擇所述描述中的一個(gè)或更多個(gè)描 述,以說(shuō)明所述多個(gè)類別文檔中的所述第一類別文檔與所述多個(gè)類別文檔中的第二類別文 檔之間的關(guān)系; 基于所選擇的一個(gè)或更多個(gè)描述來(lái)選擇代表性產(chǎn)品;以及 構(gòu)建話題頁(yè)面。
14. 根據(jù)權(quán)利要求13所述的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述話題模型使用潛 在狄利克雷分配算法。
15. 根據(jù)權(quán)利要求13所述的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,構(gòu)建所述話題頁(yè)面包 括:進(jìn)行k均值聚類,以根據(jù)產(chǎn)品本體樹(shù)中的距離將話題聚集在一起。
16. 根據(jù)權(quán)利要求13所述的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,確定的話題的數(shù)量比 類別的數(shù)量少至少十倍。
17. 根據(jù)權(quán)利要求13所述的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,選擇相關(guān)類別包括:根 據(jù)所述多個(gè)類別文檔中的所述第一類別文檔中提到所述相關(guān)類別之一或者源自所述相關(guān) 類別之一中的產(chǎn)品描述的句子的數(shù)量來(lái)對(duì)潛在相關(guān)類別進(jìn)行分類。
18. 根據(jù)權(quán)利要求13所述的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述多個(gè)類別文檔中 的所述第一類別文檔的所述描述包括所述多個(gè)類別文檔中的所述第一類別文檔中的產(chǎn)品 描述中提到與所述多個(gè)類別文檔中的所述第二類別文檔相關(guān)聯(lián)的類別名稱的所有句子。
【文檔編號(hào)】G06Q30/06GK104106087SQ201380008497
【公開(kāi)日】2014年10月15日 申請(qǐng)日期:2013年2月8日 優(yōu)先權(quán)日:2012年2月9日
【發(fā)明者】佐菲亞·斯坦基維茲, 關(guān)根聰 申請(qǐng)人:樂(lè)天株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
唐河县| 宜丰县| 曲水县| 岢岚县| 嘉祥县| 额敏县| 胶南市| 长葛市| 西宁市| 黄浦区| 天全县| 南丹县| 九江县| 霍林郭勒市| 本溪| 余干县| 青海省| 天全县| 岐山县| 天水市| 广东省| 芦溪县| 明溪县| 大关县| 林西县| 莱阳市| 中牟县| 广宁县| 花莲市| 偏关县| 怀化市| 镇坪县| 和平区| 同德县| 台湾省| 镇雄县| 赤峰市| 根河市| 宜川县| 无为县| 定西市|