交互式多模圖像搜索的制作方法
【專利摘要】在移動(dòng)設(shè)備上的視覺搜索的機(jī)構(gòu)利用了在移動(dòng)設(shè)備上的多模和多觸摸輸入。通過(guò)從口頭搜索查詢中提取詞匯實(shí)體并將所述詞匯實(shí)體與圖像標(biāo)簽進(jìn)行匹配,該機(jī)構(gòu)為每個(gè)實(shí)體提供了候選圖像。所選的候選圖像之一被用于在查詢畫布上構(gòu)造合成的視覺查詢圖像。所選候選圖像在合成的視覺查詢圖像中的相對(duì)大小和位置(不需要現(xiàn)有的圖像)為正被提交給知曉上下文的視覺搜索的合成的視覺查詢圖像的上下文的定義做出了貢獻(xiàn)。
【專利說(shuō)明】交互式多模圖像搜索
[0001]版權(quán)通告和許可
[0002]本專利文獻(xiàn)的公開的一部分可能包含受到版權(quán)保護(hù)的材料。版權(quán)所有人不反對(duì)任何人對(duì)該專利文獻(xiàn)或?qū)@_內(nèi)容按照其在(美國(guó))專利和商標(biāo)局的專利文件或記錄中的形式進(jìn)行復(fù)制,但版權(quán)所有人保留其它所有的權(quán)利。應(yīng)對(duì)本文獻(xiàn)應(yīng)用以下通告:Copyright ? 2011, 2007Microsoft Corp0
[0003]背景
[0004]提供對(duì)因特網(wǎng)和萬(wàn)維網(wǎng)訪問(wèn)的移動(dòng)設(shè)備正變得越來(lái)越普遍地用作為個(gè)人因特網(wǎng)沖浪的門衛(wèi)(concierge),它在行進(jìn)的同時(shí)為用戶提供了對(duì)日益增加的數(shù)據(jù)量的訪問(wèn)。
[0005]用于移動(dòng)設(shè)備的一些搜索應(yīng)用支持將內(nèi)建在移動(dòng)設(shè)備內(nèi)的相機(jī)所獲取的照片作為視覺查詢,這被稱為捕捉-到-搜索。在捕捉-到-搜索中,典型地先抓取(snap)圖片,隨后將快照作為在各種縱向領(lǐng)域中搜索匹配的查詢來(lái)提交。由于在長(zhǎng)句子的語(yǔ)義含義的機(jī)器學(xué)習(xí)中的間隙的原因,現(xiàn)有的搜索引擎對(duì)于很好地處理長(zhǎng)查詢來(lái)說(shuō)能力有限。例如,諸如“查找在白色房屋前面有幾顆綠樹的圖像(find an image with several green trees infront of a white house) ”的文本查詢可能不會(huì)產(chǎn)生任何相關(guān)的搜索結(jié)果。
[0006]一些用于桌面的搜索引擎使用用戶提交的草圖來(lái)進(jìn)行搜索,采用各種過(guò)濾器,例如“類似圖像”、顏色、樣式或臉作為搜索意圖的指示,或者支持將現(xiàn)有圖像上傳作為用于搜索的查詢,類似于上述的捕捉-到-搜索模式。一種搜索程序允許用戶將查詢圖像中某些區(qū)域強(qiáng)調(diào)作為關(guān)鍵搜索分量,而另一搜索程序使用一組標(biāo)簽的位置和大小來(lái)過(guò)濾排名最前的基于文本的搜索結(jié)果,而又另一搜索程序使用對(duì)合成畫布上的多個(gè)色彩提示的選擇作為視覺查詢。但,與桌面的用戶交互不同于與移動(dòng)設(shè)備的用戶交互。
[0007]移動(dòng)設(shè)備目前并沒(méi)有提供一種有助于某些類型的搜索的平臺(tái),特別是在沒(méi)有捕捉搜索主題的照片的情況下搜索圖像或視頻。另外,文本輸入或語(yǔ)音輸入并不能很好地適合于視覺搜索。例如,在電話上打字通常是乏味的,而口頭查詢不適合于表達(dá)視覺意圖。而且,在視覺搜索過(guò)程中查明用戶意圖有點(diǎn)復(fù)雜,并且可能并不能很好地由文本片段(或轉(zhuǎn)錄到文本的語(yǔ)音)來(lái)表達(dá)
[0008]概述
[0009]本文檔描述了用于在移動(dòng)設(shè)備上的視覺搜索的機(jī)構(gòu),該機(jī)構(gòu)利用了包括在移動(dòng)設(shè)備上的觸摸輸入的多模輸入。通過(guò)從包括口頭搜索查詢的搜索查詢中提取詞匯實(shí)體并將所述詞匯實(shí)體與圖像標(biāo)簽進(jìn)行匹配,該機(jī)構(gòu)為每個(gè)實(shí)體提供了候選圖像。該機(jī)構(gòu)提供了對(duì)特定候選圖像的選擇。該機(jī)構(gòu)使用所選擇的候選圖像(包括它們的大小和位置)來(lái)在查詢畫布上構(gòu)造一個(gè)合成的視覺查詢。該合成的視覺查詢不需要是現(xiàn)有的圖像。
[0010]提供本
【發(fā)明內(nèi)容】
是為了以簡(jiǎn)化的形式介紹將在以下【具體實(shí)施方式】中進(jìn)一步描述的選擇的概念。本
【發(fā)明內(nèi)容】
不旨在標(biāo)識(shí)出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。例如,術(shù)語(yǔ)“技術(shù)”或“機(jī)構(gòu)”可以指上述上下文和通篇文檔所準(zhǔn)許的設(shè)備、系統(tǒng)、方法、和/或計(jì)算機(jī)可讀指令?!緦@綀D】
【附圖說(shuō)明】
[0011]參考附圖來(lái)描述【具體實(shí)施方式】。在附圖中,附圖標(biāo)記最左邊的數(shù)字標(biāo)識(shí)該附圖標(biāo)記首次出現(xiàn)的附圖。在各附圖中,使用相同的標(biāo)號(hào)來(lái)指示相同的特征和組件。
[0012]圖1是通過(guò)移動(dòng)設(shè)備實(shí)現(xiàn)交互式多模圖像搜索的示例框架的圖示。
[0013]圖2是在移動(dòng)設(shè)備上的交互式多模圖像搜索的示例用戶界面的圖示。
[0014]圖3是從說(shuō)明在移動(dòng)設(shè)備上的知曉上下文的圖像搜索的多模查詢的變形中實(shí)現(xiàn)交互式多模圖像搜索的示例用戶界面的圖示。
[0015]圖4是示出表示選擇要操作的實(shí)體并形成合成視覺查詢的候選圖像的圖示。
[0016]圖5是示出配置用于移動(dòng)交互式多模圖像搜索的示例移動(dòng)設(shè)備的選擇部件的框圖。
[0017]圖6是實(shí)現(xiàn)移動(dòng)交互式多模圖像搜索的示例過(guò)程的流程圖。
[0018]圖7是用于使用串接直方圖描述的比較圖像的示例過(guò)程的流程圖。
[0019]圖8是示出用于生成候選圖像的示例的基于群集的過(guò)程的流程圖。
[0020]圖9是示出知曉上下文的基于合成圖像的圖像搜索過(guò)程的數(shù)學(xué)上注釋的視圖的流程圖。
【具體實(shí)施方式】
[0021]一種移動(dòng)交互式多模圖像搜索工具提供了豐富的功能集來(lái)獲得視覺搜索的相關(guān)結(jié)果。與主要支持文本-到-搜索的桌面計(jì)算機(jī)相比較,移動(dòng)設(shè)備為用戶交互提供了更加豐富的接口集,使用所述接口集可以容易使用和獲得更加相關(guān)的結(jié)果。例如,除了在桌面環(huán)境中接收的傳統(tǒng)的鍵盤和鼠標(biāo)輸入之外,移動(dòng)設(shè)備允許接收附加的多模輸入。除了在一些情況下接受多觸摸輸入的觸摸屏接口之外,移動(dòng)設(shè)備接口還可以將文本輸入通過(guò)內(nèi)建的相機(jī)與視覺模態(tài)以及通過(guò)語(yǔ)音識(shí)別與語(yǔ)音模態(tài)相結(jié)合。多觸摸啟用接口識(shí)別多個(gè)同時(shí)發(fā)生的觸摸輸入。
[0022]視覺搜索所面臨的一個(gè)挑戰(zhàn)在于搜索意圖可以是隱含的。搜索意圖是隱含的意味著用戶可能不是處于對(duì)應(yīng)于特定視覺搜索意圖的周圍,使得捕捉-到-搜索是切實(shí)可行的,但是用戶可以通過(guò)其他模態(tài),例如在語(yǔ)音描述或文本輸入中,來(lái)表達(dá)搜索意圖。
[0023]例如,用戶可以查找具有紅色的門和在其前面有兩頭石獅的飯店。然而,用戶可能不記得該飯店的名字來(lái)以此為基礎(chǔ)開始搜索。在這個(gè)示例中,如由在此所述的移動(dòng)交互式多模圖像搜索工具所提供的,能夠?qū)㈤L(zhǎng)文本或音頻(例如口頭查詢)轉(zhuǎn)換到視覺查詢并利用用戶交互的客戶端側(cè)工具可以被用于標(biāo)識(shí)該飯店并確定該飯店的名字和位置。作為另一個(gè)示例,用戶可以參觀城市并記住飯店(或飯店連鎖店)在該特定城市中有一個(gè)位置但沒(méi)有記住該位置,所以,用戶可以將該城市作為口頭查詢的部分。
[0024]移動(dòng)交互式多模圖像搜索工具利用了包括觸摸和多觸摸交互的多模交互來(lái)幫助確定隱含的搜索意圖并改善包括當(dāng)查詢圖像最初不可用時(shí)的視覺搜索的性能。在此所述的搜索過(guò)程包括下述階段:1)接收初始輸入,例如諸如說(shuō)出的自然語(yǔ)句之類的音頻輸入,作為給移動(dòng)設(shè)備的查詢,2)使用語(yǔ)音識(shí)別來(lái)將語(yǔ)音輸入轉(zhuǎn)換成文本,3)通過(guò)實(shí)體提取將文本分解成關(guān)鍵字,4)通過(guò)圖像群集處理根據(jù)所提取的實(shí)體標(biāo)識(shí)候選圖像,5)接收對(duì)可以視覺上表示每個(gè)實(shí)體的特定候選圖像的選擇,6)接收對(duì)彼此相關(guān)的所選特定候選圖像的細(xì)化以合成查詢圖像,以及7)使用所合成的查詢圖像作為視覺查詢來(lái)搜索類似的圖像。
[0025]在此所述的移動(dòng)交互式多模圖像搜索工具提供了一種圖像搜索的知曉上下文的方案,方案考慮了在分開的圖像間的空間關(guān)系,這些圖像被作為圖像的片來(lái)對(duì)待,例如,表示視覺單詞的小的子圖像。移動(dòng)交互式多模圖像搜索工具呈現(xiàn)了一種用于新的搜索模式的界面,所述模式允許用戶通過(guò)以下方式來(lái)制定合成的查詢圖像:選擇特定候選圖像、操控所選的候選圖像(包括重新調(diào)整大小和相對(duì)彼此操縱它們,并將這些操控的圖像放置在一起,如同七巧板的各片以在交互畫布上創(chuàng)建合成的查詢圖像。
[0026]示例框架
[0027]圖1示出如在此所述的交互式移動(dòng)圖像搜索的框架100。示例框架100被示出為具有由至少一個(gè)服務(wù)器104主控的云側(cè)102。服務(wù)器104包括存儲(chǔ)器106、存儲(chǔ)編程108以及處理器110。來(lái)自客戶端側(cè)114的一個(gè)或多個(gè)移動(dòng)設(shè)備112通過(guò)網(wǎng)絡(luò)116 (由虛線所示)可以連接到服務(wù)器104和其他基于云的設(shè)備。服務(wù)器104可以包括,例如,web服務(wù)器、應(yīng)用服務(wù)器以及任意數(shù)目的其他數(shù)據(jù)服務(wù)器。網(wǎng)絡(luò)116表示任何類型的通信網(wǎng)絡(luò),包括例如因特網(wǎng)。移動(dòng)設(shè)備112表示被配置成通過(guò)網(wǎng)絡(luò)116發(fā)送和接收數(shù)據(jù)的任何類型的移動(dòng)設(shè)備。例如,移動(dòng)設(shè)備112可被實(shí)現(xiàn)為移動(dòng)電話、個(gè)人數(shù)字助理(PDA)、上網(wǎng)本、平板計(jì)算機(jī)、手持式計(jì)算機(jī)和其他這樣的由減少的形狀因素和資源限制所表征的移動(dòng)計(jì)算設(shè)備等。
[0028]框架100使用來(lái)自移動(dòng)設(shè)備112多模交互性來(lái)識(shí)別搜索意圖并可以組合不同的視覺描述符(例如比例不變特征變換(SIFT)、顏色以及邊緣)以用于視覺搜索。雖然,某些操作被示為在圖1的云102中發(fā)生,但在各種實(shí)現(xiàn)中,這些操作的一種或多種可以在移動(dòng)設(shè)備112上發(fā)生。
[0029]在所示出的示例中,移動(dòng)設(shè)備112通過(guò)麥克風(fēng)和語(yǔ)音處理器接收自然語(yǔ)句輸入以啟動(dòng)語(yǔ)音查詢,如在118處所示。例如,移動(dòng)設(shè)備112接收諸如“查找具有湖、天空和樹的圖像(find an image with a lake, the sky, and a tree) ”,如在 118 處所示。所述系統(tǒng)使用語(yǔ)音識(shí)別(SR)引擎120來(lái)將118處接收的語(yǔ)音轉(zhuǎn)換成文本片段。隨后,所述系統(tǒng)使用實(shí)體提取引擎122來(lái)提取實(shí)體,對(duì)于文本來(lái)說(shuō)就是名詞。因此,工具從詞典124中識(shí)別出“湖”、“天空”和“樹”作為三個(gè)實(shí)體。圖像群集引擎126從圖像數(shù)據(jù)庫(kù)128中標(biāo)識(shí)出候選圖像,所述候選圖像對(duì)應(yīng)于所述三個(gè)實(shí)體中的每個(gè)實(shí)體并可以被用作表示所識(shí)別的實(shí)體的對(duì)應(yīng)的圖像片。
[0030]將所提取的實(shí)體直接用作圖像搜索的文本查詢可能不能返回相關(guān)的結(jié)果,因?yàn)樗阉鲊@匹配圖像標(biāo)簽的文本僅僅分開地處理每個(gè)實(shí)體,而不是作為一個(gè)組。另外,它沒(méi)有提供一種考慮表示所提取的實(shí)體的圖像相對(duì)于彼此的位置和/或大小的機(jī)構(gòu)。因此,交互式多模圖像搜索工具呈現(xiàn)了預(yù)定數(shù)目的候選圖像,這樣,可以選擇每個(gè)實(shí)體的特定圖像并且可以從所選的圖像中構(gòu)成合成的視覺查詢,如在130處所示。
[0031]交互式多模圖像搜索工具利用合成的視覺查詢從圖像數(shù)據(jù)庫(kù)128中搜索相關(guān)的圖像或者在一些實(shí)例中從諸如因特網(wǎng)之類的其他源進(jìn)行搜索。交互式多模圖像搜索工具基于所選圖像的相對(duì)的位置和大小以及它們各自的可視內(nèi)容進(jìn)行知曉上下文的圖像搜索,如在132處所示。響應(yīng)于知曉上下文的圖像搜索,交互式多模圖像搜索工具使得視覺結(jié)果被返回給移動(dòng)設(shè)備112。
[0032]示例用戶界面[0033]圖2,在200處,示出了在移動(dòng)設(shè)備112上的交互式多模圖像搜索中使用的用戶界面組件的示例。在所示的示例中,移動(dòng)設(shè)備112表示W(wǎng)indows Phone?設(shè)備,但還可以類似地使用其他移動(dòng)電話、智能手機(jī)、平板計(jì)算機(jī)和其他這樣的移動(dòng)設(shè)備。在移動(dòng)設(shè)備112上,硬或軟按鈕202的激活指示啟動(dòng)音頻輸入的期望。如上所述,音頻輸入通過(guò)例如語(yǔ)音識(shí)別引擎120被接收并轉(zhuǎn)換成文本。經(jīng)轉(zhuǎn)換的文本可以被呈現(xiàn)在移動(dòng)設(shè)備112的屏幕上,如在204處所示,這允許在文本的一部分被錯(cuò)誤轉(zhuǎn)換的情況下進(jìn)行編輯。在一些替換實(shí)例中,可以通過(guò)移動(dòng)設(shè)備112上的硬或軟按鍵接收文本輸入,而不是初始音頻輸入,來(lái)啟動(dòng)交互式多模圖像搜索。
[0034]因此,在各種實(shí)施例中,交互式多模圖像搜索工具利用語(yǔ)音輸入來(lái)幫助用戶通過(guò)使用SR引擎,例如基于隱馬爾可夫模型(HMM)的SR引擎,來(lái)啟動(dòng)查詢,所述SR引擎能夠接受自然語(yǔ)句和短語(yǔ)片段,并隨后將所述語(yǔ)音轉(zhuǎn)錄成文本。
[0035]示例SR引擎120使用統(tǒng)計(jì)建??蚣埽谄渲?,所接收的發(fā)言先被轉(zhuǎn)換成特征空間中的緊湊和有意義的表示(矢量)。示例SR引擎120的解碼器將特征矢量作為輸入,并基于聲學(xué)和語(yǔ)言模型生成假設(shè)的詞語(yǔ)序列的概率。
[0036]來(lái)自示例SR引擎120的輸出可以被用作圖像搜索的查詢。交互式多模圖像搜索工具處理來(lái)自SR引擎120的輸出以提取實(shí)體,所述實(shí)體是諸如“樹”、“湖”、“車”和“房屋”之類的名詞關(guān)鍵字。實(shí)體提取引擎122可以檢測(cè)由幾個(gè)候選圖像所表示的詞語(yǔ)。當(dāng)標(biāo)識(shí)了多個(gè)候選圖像時(shí),可以選擇候選圖像中的特定圖像用于細(xì)化以示出搜索意圖。因此,該工具將視覺上有意義的名詞詞語(yǔ)/短語(yǔ)檢測(cè)為實(shí)體,例如“房屋”、“湖”和“樹”,同時(shí)丟棄非視覺描述性的名詞,例如“法律”和“假期”。在一些實(shí)現(xiàn)中,被檢測(cè)為實(shí)體的城市名可以被作為非視覺描述性名詞來(lái)對(duì)待。在幾個(gè)這樣的實(shí)例中,丟棄城市名,在其他實(shí)例中,保存城市名作為單獨(dú)的名詞類別以供日后使用。
[0037]為此目的,交互式多模圖像搜索工具可以通過(guò)收集具有具體的視覺表示的名詞(例如從155,287個(gè)詞語(yǔ)中收集117,798個(gè)名詞)來(lái)構(gòu)建實(shí)體字典或詞典,例如詞典124。在示例實(shí)現(xiàn)中,一個(gè)名詞是否具有具體視覺表示的判定是基于該名詞是否被包括在圖像數(shù)據(jù)庫(kù)128中的任意圖像標(biāo)簽內(nèi),所述判定被定期更新。在至少一個(gè)實(shí)現(xiàn)中,交互式多模圖像搜索工具忽略具有低于圖像數(shù)據(jù)庫(kù)中閾值數(shù)目的圖像(例如100)的名詞,使得保留較少數(shù)目的唯一的詞語(yǔ)(例如保留22,117個(gè)唯一詞語(yǔ))。
[0038]另外,在至少一個(gè)實(shí)現(xiàn)中,交互式多模圖像搜索工具包括其他實(shí)體,例如名人名字、流行產(chǎn)品以及路標(biāo)以考慮諸如“超人”和“埃菲爾”之類的輸入。交互式多模圖像搜索工具可以通過(guò)挖掘因特網(wǎng)來(lái)獲得這些附加實(shí)體,并且/或者這些附加實(shí)體可以基于來(lái)自商業(yè)搜索引擎的查詢。在示例實(shí)現(xiàn)中,作為由實(shí)體提取引擎122所執(zhí)行的實(shí)體提取的一部分,將口頭搜索查詢中的詞語(yǔ)分配給來(lái)自詞典124的它們的最長(zhǎng)的匹配。例如,“北極熊”和“埃菲爾鐵塔”是提供了已知的語(yǔ)義含義的短語(yǔ)。這樣,它們被提取作為短語(yǔ)實(shí)體,所述短語(yǔ)實(shí)體被匹配于來(lái)自詞典124的短語(yǔ)。每個(gè)所提取的實(shí)體以其最長(zhǎng)的形式被單獨(dú)用在由圖像群集引擎126所執(zhí)行的圖像群集中。這樣,所提取的短語(yǔ)實(shí)體被圖像群集引擎126用作短語(yǔ),而不是單獨(dú)名詞。因此,隨后被用作知曉上下文的圖像搜索132的合成的視覺查詢中的圖像片的所選圖像可以表示短語(yǔ),而不是單獨(dú)的名詞。
[0039]在示例實(shí)現(xiàn)中,所提取的實(shí)體在移動(dòng)設(shè)備112的屏幕上被呈現(xiàn)為標(biāo)簽,如在206處所示。同時(shí),實(shí)體的候選圖像可以被呈現(xiàn)在移動(dòng)設(shè)備112的屏幕上,如在208處所示。在所示示例中,一個(gè)實(shí)體“樹”的候選圖像被以單個(gè)水平功能區(qū)格式呈現(xiàn),從其中可以通過(guò)拖放到移動(dòng)設(shè)備112的屏幕的畫布區(qū)域210上來(lái)選擇特定圖像。同時(shí),已經(jīng)通過(guò)拖放到移動(dòng)設(shè)備112的屏幕的畫布區(qū)域210上來(lái)選擇了實(shí)體“湖”和“天空”的特定候選圖像。然而,其他格式也同時(shí)是可能的和預(yù)期的。例如,可以在屏幕的一個(gè)部分上的垂直或水平功能區(qū)中同時(shí)呈現(xiàn)超過(guò)一個(gè)的實(shí)體的候選圖像,以便選擇表示每個(gè)實(shí)體的特定候選圖像。
[0040]通過(guò)包括多觸摸輸入的觸摸,畫布區(qū)域210接受對(duì)所選圖像的操控,以在畫布區(qū)域210內(nèi)重新調(diào)整圖像大小和操縱圖像。在這種方式中,通過(guò)每個(gè)圖像片在合成的查詢圖像中的大小和位置來(lái)定義用于視覺搜索的合成的查詢圖像,而不要求現(xiàn)有的查詢圖像。在所示的示例中,交互式多模圖像搜索工具將湖的位置記錄為在畫布區(qū)域210的框架中比樹和天空更低。同時(shí),樹被記錄為被定位到畫布區(qū)域210的框架中的右邊在天空之下,而天空在畫布區(qū)域210的頂部。在各種實(shí)現(xiàn)中,在畫布區(qū)域210內(nèi)形成合成的查詢圖像時(shí),一個(gè)或多個(gè)所選圖像的全部或部分可以覆蓋另一個(gè)所選圖像。當(dāng)圖像部分由于覆蓋而被遮擋時(shí),所遮擋的部分可以被丟棄,或被給予較低的計(jì)算權(quán)重和/或正被覆蓋的所述部分可以被給予較高的計(jì)算權(quán)重。基于所選的特定的候選圖像的視覺內(nèi)容,各個(gè)實(shí)體的內(nèi)容包括天空中的積云、沒(méi)有葉子的樹以及具有某種可視岸線的平靜的湖。
[0041]搜索按鈕212的激活開始了基于在畫布區(qū)域210中所定義的合成的視覺查詢圖像的知曉上下文的視覺搜索132。在其他實(shí)現(xiàn)中,雙擊或其他輸入可以開始知曉上下文的視覺搜索132在各種實(shí)現(xiàn)中,搜索按鈕212的激活可以使得與所選圖像相關(guān)聯(lián)的標(biāo)簽被保存以備交互式多模圖像搜索工具的日后使用。
[0042]如在214處的所示示例中示出的,移動(dòng)設(shè)備112被配置為在屏幕上呈現(xiàn)知曉上下文的視覺搜索132的結(jié)果。使用屏幕上的觸摸輸入,可以滾動(dòng)結(jié)果,并且通過(guò)輕擊或其他這樣的輸入,可以選擇結(jié)果之一,例如,以檢索關(guān)于結(jié)果圖像的附加信息?;蛘?,如果沒(méi)有結(jié)果滿足搜索意圖,則后退按鈕216的激活將使得屏幕復(fù)原到先前的畫布,這樣,合成的查詢圖像可以被進(jìn)一步操控。在另一方面,通過(guò)激活開始按鈕218可以訪問(wèn)移動(dòng)設(shè)備的其他功能。
[0043]圖3,在300處,示出使用移動(dòng)交互式多模圖像搜索工具從同一特定所選候選圖像中正被組成的兩個(gè)合成的視覺查詢。如在所示的示例中示出的,所選圖像被作為圖像片來(lái)對(duì)待,其相對(duì)位置和大小有助于使用該合成的圖像作為視覺查詢的知曉上下文的圖像搜索的執(zhí)行。在302處虛線的左側(cè)上表示的合成的視覺查詢已經(jīng)與水平方向上朝向左邊并在垂直方向上在畫布的中間的樹組合在一起。同時(shí),在304處虛線的右側(cè)上表示的合成的視覺查詢已經(jīng)與水平方向上朝向右邊并在垂直方向上在畫布的中間的樹組合在一起。在其他示例中,也可以改變圖像片的大小以獲得附加結(jié)果。如在300處所示,在兩個(gè)合成的視覺查詢中的具有相同的存儲(chǔ)的標(biāo)簽的相同圖像片的不同位置可能導(dǎo)致返回不同的查詢結(jié)果。
[0044]如上所述,在此所述的交互式多模圖像搜索工具利用了移動(dòng)設(shè)備的多模功能,包括觸摸屏交互,來(lái)允許視覺查詢的合成。對(duì)于從諸如音頻或文本輸入之類的初始輸入中提取的每個(gè)實(shí)體,所述系統(tǒng)返回了一組候選圖像。從正被拖放到形成合成的視覺查詢的畫布上的所選圖像中識(shí)別為每個(gè)實(shí)體選擇特定圖像。通過(guò)對(duì)所選圖像中的每個(gè)圖像的操控以用作合成的視覺查詢中的圖像片來(lái)實(shí)施所述合成的視覺查詢的形成。所述操控,例如,可以包括例如通過(guò)觸摸和/或多觸摸來(lái)調(diào)整畫布區(qū)域210上的每個(gè)所選圖像的位置和大小。這樣的多模交互解決了在現(xiàn)有的基于文本的圖像搜索系統(tǒng)中存在的各種歧義,包括例如多義、
形態(tài)、觀點(diǎn)、位置和屬性。
[0045]在本公開的上下文中,多義、形態(tài)、觀點(diǎn)、位置和屬性具有下述含義:多義是指詞語(yǔ)
具有多個(gè)含義,例如蘋果(水果或產(chǎn)品),足球(歐式足球或美式足球);形態(tài)指示一個(gè)詞語(yǔ)
可能表示多個(gè)概念,例如蘋果(公司或產(chǎn)品),足球(物體或比賽);視點(diǎn)是指從不同的角度
或視角來(lái)看物體具有各種外觀,例如車(側(cè)面圖和前視圖)或辦公室(內(nèi)部或外部);位置
指示物體在目標(biāo)圖像中所期望的位置;而屬性定義了實(shí)體的特性,例如顏色、類型和裝飾。
這些歧義中的每個(gè)可以導(dǎo)致在從音頻或文本查詢中得到視覺搜索意圖的困難。
[0046]表1列出了可以被用于表示各種圖像特征的符號(hào),如在圖4中所示。
[0047]
【權(quán)利要求】
1.一種方法,包括: 通過(guò)計(jì)算設(shè)備(112)接收查詢輸入(204); 基于所述查詢輸入生成候選的圖像集(208); 接收對(duì)所述候選的圖像集(208)中的一個(gè)或多個(gè)圖像的選擇(612); 促進(jìn)包括來(lái)自所述候選的圖像集(208)的一個(gè)或多個(gè)圖像的合成的圖像(414)的合成,所述促進(jìn)包括通過(guò)所述計(jì)算設(shè)備(112)的用戶界面接收所述一個(gè)或多個(gè)圖像在畫布(210)上的放置的指示;以及 使用所述合成的圖像(414)作為查詢圖像來(lái)執(zhí)行視覺搜索。
2.如權(quán)利要求1所述的方法,其特征在于,至少部分基于從所述查詢輸入中提取的實(shí)體來(lái)生成所述候選的圖像集。
3.如權(quán)利要求1所述的方法,其特征在于,所述放置的指示包括: 所述一個(gè)或多個(gè)圖像在所述畫布上的放置的位置;或 所述一個(gè)或多個(gè)圖像
4.如權(quán)利要求1所述的方法,其特征在于,所述合成的圖像的合成包括接收所述一個(gè)或多個(gè)圖像在所述畫布上的大小的指示,所述大小的指示包括: 一個(gè)或多個(gè)所述圖像在所述畫布上的大小的修改;或 所述一個(gè)或多個(gè)圖像中的至少兩個(gè)圖像在所述畫布上的相對(duì)大小。
5.如權(quán)利要求1所述的方法,其特征在于,所述查詢輸入包括音頻輸入。
6.如權(quán)利要求1所述的方法,其特征在于,所述計(jì)算設(shè)備包括移動(dòng)設(shè)備。
7.如權(quán)利要求1所述的方法,其特征在于,所述用戶界面包括觸摸界面。
8.如權(quán)利要求1-7中任一權(quán)利要求所述的方法,其特征在于,還包括在存儲(chǔ)器中記錄所述合成的圖像。
9.一種包括處理器和存儲(chǔ)器的系統(tǒng),所述系統(tǒng)被配置為執(zhí)行如在權(quán)利要求1-7中任一權(quán)利要求所述的操作。
10.一種在其上編碼了計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令在被執(zhí)行時(shí)將一種設(shè)備編程為執(zhí)行如權(quán)利要求1-7中的任一項(xiàng)所述的操作。
【文檔編號(hào)】G06F17/30GK103946838SQ201180075049
【公開日】2014年7月23日 申請(qǐng)日期:2011年11月24日 優(yōu)先權(quán)日:2011年11月24日
【發(fā)明者】T·梅, S·李, J·王, Y·王 申請(qǐng)人:微軟公司