TW201220099A

TW201220099A - Multi-modal approach to search query input

Info

Publication number: TW201220099A
Application number: TW100135048A
Authority: TW
Inventors: Jiyang Liu; Jian Sun; Heung-Yeung Shum; Xiaosong Yang; Yu-Ting Kuo; Lei Zhang; Yi Li; qi-fa Ke; Ce Liu
Original assignee: Microsoft Corp
Priority date: 2010-11-05
Filing date: 2011-09-28
Publication date: 2012-05-16
Also published as: IN2013CN03029A; IL225831A0; KR20130142121A; JP2013541793A; AU2011323602A1; EP2635984A1; US20120117051A1; MX2013005056A; RU2013119973A; CN102402593A; WO2012061275A1; EP2635984A4

Description

201220099 六、發明說明：【發明所屬之技術領域】本發明是關於搜尋查詢輸入的多模態方法。【先前技術】諸如透過廣域網路之搜尋引擎的各種資訊搜尋和擷取方法是習知.的。這種方法通常使用基於文字的搜尋。基於文字的搜尋使用搜尋查詢，搜尋查詢包含一或更多諸如單字或詞組之文字元素。文字元素與索引或其他資料結構相比以識別諸如網頁之文件’文件包括匹配或語義相似的文字内容、元資料、檔案名稱、或其他文字表示。已知的基於文字的搜尋方法對於基於文字的文件而言效果相當好’但難以適用於圖4播—案和資料。為了透邁-基一於文― 字查詢來搜尋圖像檔案，圖像檔案必須與一或更多文字元素如標題、檔案名稱、或其他元資料或標記相關聯。用於基於文字搜尋之搜尋引擎和演算法不能基於圖像内容來搜尋圖像檔案，因此限於僅基於與圖像相關聯的資料來識別搜尋結果圖像。已發展出基於内容的圖像搜尋方法，該圖像搜尋方法分析圖像内容以識別視覺上相似的圖像。然而，這種方法可限於識別與圖像搜尋之輸入相關的基於文字的文件。【發明内容】 201220099 ;在各種實施例中’提供用於使用？個輸人模式作為搜尋查6旬的-部分。該方法允許搜尋查詢包含關鍵字或文字輸入、圖像輸入、視頻輪入、音頻輸入或其他輸入模式的組合。基於摘取自各種查詢輸人的模式，可以執行回應文件之搜尋。多個查詢輸人模式可出現在初始搜尋請求，或是包含單 -類型查詢輸入之初始請求可以第二類型的輸入補充。除了提供回應結果，在一些實施例中，可基於查應結果進行額外的查詢改進或建議。本「發明内容」係提供以簡化的形式來介紹將於以下「實施方式」中進纟描述的—些概念。本「發明内容」並非欲以識別中請專利標的之重要特徵或必要特徵，亦非欲以單獨作為決定申請專利標的之範圍的協助。【實施方式】概述在不同的實施例中’提供系統和方法用於整合關鍵字和基於文字之搜尋輸人與其他的搜尋輸人模式。其他搜尋輸入模式的例子可以包括圖像輸入、視頻輸入和音頻輸入。更普遍的系統和方法可以允許基於查詢中多個輸人模式來執行搜尋夕模態搜尋系統和方法所產生的實施例可以提供輸到搜尋引擎而提供使用者更大的靈活性。此外，當使用者使用諸如圖像輸入之一類型的輪入來啟動搜尋，第二類型的輸入（或夕個其他類型的輸入）彳以用纟改進或修改回應的 5 201220099 搜尋結果。例如，使用者可輸人—或更多關鍵字以關聯一圖像輪入。在許多情況下’將額外的關鍵字與圖像輸入相關聯可以比圖像輪入或關鍵字輸入提供更清楚的使用者意圖。在一些實施例中，透過使用索引，基於多模態搜尋輸入而執行搜尋以得到回應結果’索引包括與不止一類型的資料相關的詞彙’如包括基於文字之關鍵字的索引、基於圖像之關鍵字、基於視頻之關鍵纟、和基於音頻之關鍵字。除了基 :文子的搜尋，一種整合輸入模式的關鍵字的選項是將多模態特徵與人造關鍵字相關聯。這些人造關鍵字可稱為描述符關鍵字。例如，用於基於圖像搜尋之圖像特徵可與描述符關鍵字相關聯，以使基於圖像的搜尋特徵如傳統的基於文字的關鍵字出現在同一反索引。例如，在西雅圖的「太空針」建築圖像可能包含多個圖像特徵。這些圖像特徵可自圖像中擷取’然後與描述符「關鍵字」相關聯，以便與其他基於文字的關鍵字整合到反索引。除了將描述符關鍵字整合至基於文字的關鍵字索弓丨，來自一圖像的描述符關鍵字（或另一類型的非文字輸入）也可與傳統關鍵字相關聯。在上面的例子中，「女允从 1 八工_」可與一或更多來自太空針之圖像的描述符關鍵字相關聯。這可允許包括描述符關鍵字的建議或修訂查詢，因此更適合執疒美\ 圖像之搜尋，以找到其他類似太空針的圖像。這種；狂·思璣查詢可提供給使用者以便改善其他與太空針圖像相關之圖像的搜尋’可自動使用建議查詢識別這種相關圖像。在下面的討論中，下面的定義是用來描述執 /姨態搜 201220099 尋的態樣。特徵是指任何類型的資訊，回應於搜尋查詢，特徵可作為文件之選擇及/或排序之一部分。來自基於文字之查詢的特徵通常包括關鍵字。來自基於圖像之查詢的特徵可包括識別為獨特的圖像部分，例如圖像中具有對比強度的部分或圖像中對應人臉用於臉部識別的部分。來自基於音頻查詢的特徵可包括音頻的音量位準或其他可偵測到的音頻模式。關鍵字指的是傳統的基於文字的搜尋字詞。關鍵字可以是指回應於查詢’作為單—術語用於識別文件之—或更多單子為述符關鍵子疋指與非基於文字的特徵相關聯的關鍵字。因此，描述符關鍵字可用於識別基於圖像之特徵、基於視頻之特徵、基於音頻之特徵或其他非文字特徵。回應結果是指基於搜尋引擎執行之選擇及/或排序，識別為與搜尋杳詢相關的任何文件。當顯示回應結果時，回應結果可透過顯示檔案本身來顯示，或可顯示文件的識別符。例如，基於文字的搜尋引擎所返回之傳統超鏈結（也稱為「藍色鍵結」）代表其他文件的識別符或到其他檔案的鏈結。透過點擊鏈結，可表的㈣。文件的識別符可提供或不提供與對應文件有關的進一步資訊。接收多模態的搜尋查詢來自多種搜尋模式的、政可以自查詢擷取並用以識別回應查詢的結果。在一竇始 ^ μ ^ '，可透過任何方便的方法提供多種查珣輸入的模式。例，用於接收查詢輸入的使用者介面可包括用於接收關鍵字 -°旬輸入的對話框。使用者介面還 201220099 可以包括用於接收使用者所選擇之圖像的位置，如允許使用者將所欲之輸入圖像置入使用者介面的圖像查詢框。另外，圖像查詢框可接收圖檔案位置或網路位址作為圖像輸入的來源。可提供類似的框或位置用於識別音頻檔案、視頻檔案或另一類型的非文字輸入作為查詢輸入使用。不需要在同一時間收到多個查詢輸入模式。可先提供一種類型的查詢輸人’，然後可提供第二輸人模式來細化查詢。例如，可提交電影明星的圖像作為查詢輸入。這將返回可能匕括圖像@系'列匹配結果。基於使用者想要知道電影明星的名子’可將「演員」鍵人搜尋查詢框作為關鍵字，以細化搜尋結果。，接收多模態搜#資訊I，多才莫態資訊可作為#尋查詢以識別回應結果。回應結果可為搜尋引擎決^為有關的任何類型文件’無論搜尋查詢的輸入模式為何。因此，圖像項目可識別為基於文字查詢的回應文件，或是基於文字的項目可為基於音頻㈣的回應文件。此外’包括二種以上之輸入模式的查詢也可用來識別任何可用類型的回應結果。顯示給使用者的回應結果可為, 為文件的形式，或為回應文件的識別符的形式。口應結果的識別。在一實施 ’諸如反索引之單一索引可。或者，單一的排序系統可無論索引的數量或形式，一部分及/或用於識別回應查可使用一或更多索引以促進例中，基於所有類型的搜尋模式用於儲存關鍵字和描述符關鍵字使用夕個索引儲存術語或特徵。或更多索y可作為整合選擇的一 201220099 -旬之文件的排序方法。基於任何可用的查詢輸入模式選擇方法及/或排序方法可將特徵整合。與其他類型的輸人相關聯之基於文字的關鍵字也可榻取使用。整合多種資訊模式的選擇之一是可使用與另一查詢輸入模式相關聯的文字資訊。圖像、視頻或音頻檔案往往會具有與檔案相關聯的元資料。彳包括播案的標題、檔案的主題、或與樓案相關聯的其他文字。其他文字可以包括屬於文件之-部分的文字，其中媒體⑽顯示為鏈結，例如網頁或描述媒體檔案的其他文字。與圖像、視頻或音頻檔案相關聯的元資料可以以夕種方式來補充查詢輸入。文字元資料可用來形成提供給使用者的額外查詢建議。文字也可被自動使用以補充現有的搜尋查詢，以修改回應結果的排序。除了使用與輸人查詢相關的元資料外，與回應結果相關聯的元資料可用來修改搜尋查詢。例如，基於圖像的搜尋查 "句可導致著名的艾菲爾鐵塔圖像作為回應結果。來自回應結果的元資料可能表示艾菲爾鐵塔是回應圖像結果的主題。元資料可用來建議使用者額外的查詢，或自動補充搜尋查詢。有多種擷取元資料的方法。可預先決定元資料擷取技術，或是可由人或自動化的程序進行動態選擇。元資料擷取技術可包括但不僅限於當使用者在文字查詢之後選擇近乎重複者時分析嵌入元資料的檔案名稱；（2)自近乎重複之數位物件擷取元資料；（3 )擷取近乎重複之數位物件所在之網頁中的周圍文字；（4)自支援註釋和評論的網站擷取與近乎重複相關聯之註釋和評論，其中近乎重複之數位媒體 201220099 ^件係儲存於該網財；（5)擷取與近乎重複者相關聯之查 -旬關鍵子。在其他實施例中，元資料操取技術可涉及其他操作。 -些元資料擷取技術始於文字的主體並筛選出最簡潔的凡資料。因此，可利用諸如文法解析和其他基於符記之分析的技術。例如，圖像周圍的文字可包含字幕或長段落。至少錢—種情況下，可解析長段落以掏取有興趣的内容。舉另例說明，註釋和評論資料包含文字縮寫（如麵〇代表^ my humble opinion)和感性粒子（如表情和重複的驚嘆號）。儘S IMHO似乎在強調註釋和評論，它很可能是筛選出搜尋元資料的候選者。在選擇多個元資料擷取技術的事件中，調和方法可提供調和潛在衝突候選元資料結果的一種方法M列如，可利用統十刀析和機器學習或透過規則引擎進行和解。圖3提供範例使用者介面，該使用者介面適於根據本發月實施例接收多模態搜尋輸入並顯示回應結果。在圖3中，使用者介面提供輸人位置用於三種類型的查詢輸人。輸入柩 3U可以接收關鍵字輸入，例如通常由傳統搜尋引擎使用之基於文字的輸入。輸入框313可接收圖像及，或視頻檔案作為輸入。貼入 < 置入輸入框313的圖像或視頻檔帛可使用圖像分析技術分析以識別可擷取用於搜尋的特徵。類似地，輸入框3丨5可接收音頻檔案作為輸入。區域32G包含回應結果清單。在圖3所示實施例中，顯示回應結果332和342。回應結果332是識別為回應搜尋之 201220099 圖像文件的識別符（如縮圖）。除了圖像結果3 3 2，還提供了鏈結或圖符334以允許經修訂查詢，該經修訂查詢整合圖像結果332 (或與圖像結果332相關聯的描述符關鍵字）作為經修訂查詢的一部分。回應結果344對應基於文字之文件的識別符。區域340包含基於初始查詢之建議查詢347的清單。可使用傳統的查詢建議演算法產生建議查詢347的清單。建議查詢347也可基於與以圖像/視頻輸入312或音頻輸入314提交之輸入相關聯的兀資料。其他一些建議查詢347可根據與回應結果相關聯之元資料，如回應結果332。圖4繪示根據本發明實施例之用於執行多模態搜尋的各系統及/或程序之間的互動示意圖。在圖4的實施例中，多模態搜尋對應基於關鍵字查詢輸人和圖像查詢輸人的㈣。在圖4’基於接收—查詢，開始搜尋。查詢包括查詢關鍵字他和查δ旬圖像407。為了處理查詢圖像術，圖像理解組件化可用於識別圖像中的特徵。由圖像理解組件412自查詢圖像 4〇7揭取之特徵可由圖像文字特徵和圖像視覺特徵組件422 指派描述符關鍵字。可由圖像理解組件412使用之範例方法結合圖5-9描述於下。圖像理解組件412還可以型的圖像理解方法，如臉部識別方法或用於分㈣像中色杀類相似性的方法。元資料分析 " 妞關雜从-达企丨 J識別與查詢圖像407 _一:儲存二可包括嵌入圖像檔案中及/或由作業系統 =播案起儲存的資料，如圖像的標題或錯存於槽案釋。這也包括與圖像相關聯的其他文字，路中的 201220099 文子（文字係輸入以識別用於搜尋之圖像）或圖像附近的文字 (用於位於或嵌入網頁或其他基於文字之文件的圖像）。圖片文字特徵和圖像視覺特徵組件422可以基於來自元資料分析 4 14的輸出而識別關鍵字特徵。在識別查詢詞彙405及在圖像文字特徵和圖像視覺特徵組件422中的任何附加特徵後，產生的查詢可選擇在組件中被修改或延伸。修改或延伸可基於導自元資料分析組件 414和圖像文字特徵/圖像視覺特徵組件422中之元資料的特徵。查詢修改或延伸的另一來源可為來自互動組件之回饋。這可包括由使用者提供的額外查詢資訊，以及基於來自目前或先前查詢之回應結果的查詢建議442。選擇性修改或延伸的查詢可用來產生回應結果452。在圖4中，結果產生452涉及使用查詢以識別在資料庫475中的回應文件，回應文件包括用於資料庫中之文件的文字和圖像特徵。資料庫475可代表反索引或任何其他方便的儲存格式類型用於基於查詢來識別回應結果。取決於實施例，結果產生452可提供一或更多類型的結果。在某些情況下，最有可能匹配的識別是可取的，如一或幾個排序的回應結果。這可提供作為答案444。或者，依排序順序之回應結果清單是可取的。這可提供作為結合的排。果446除了答案或排序結果，還可提供-或更多查詢建議442給使用者’使用者的互動（包括結果顯示和查詢接收）可由UI互動組件462處理。 12 201220099 基於多媒體的搜尋方法

圖5-9繪示根據本發明實施例之範例圖像5〇〇之處理。在圖5中’使用運算子演算法處理圖像以識別多個興趣點502。運算子演算法包括可用來識別圖像则中興趣點5Q2的任何可用演算法。在—實施例中’運算子演算法可為本技術領域所热知之高斯演算法或拉普拉斯演算法之差。在一實施例中’運算子演算法是配置以二維分析圖像5〇〇。可選地，當圖500是彩色圖像時’圖像5〇〇可以轉換成灰度。 S 興趣點502可包括圖5所示之圖像5〇〇中的任何點以及圖6所示之圖像500中的區域6〇2、地區、像素群組或特徵。為了簡潔起見，興趣點502和區$ 6〇2在此後稱為興趣點 502,然而參照興趣點5G2 @目的是包括興趣點如和區域 602在實施例中，興趣點5〇2是位於穩定的圖像則中的區域且包括圖像5〇〇中的不同或可識別特徵。例如，興趣點502位於具有鮮明特徵的圖像區域丨，該鮮明特徵具^描繪在諸如502a和602a之特徵之間的高度對比。才目反地，興趣點不位於沒有鮮明特徵或對^的區域，如穩定色彩的地區或504所指之灰度的區域。運算子演算法識別圖| 500中任何數量的興趣點，例如數以千計的興趣點。興趣點502可為圖像5〇〇中的點5〇2與區域602之結合’且興趣點數量可基於圖冑5〇〇的大小。圖像處理組件302計算出每個興趣點5Q2的度量並根據度量排序/、趣點502。度量可包括訊號強度或圖像5 〇〇在興趣點5〇2 的信噪比。圖像處理組件302基於排序而選擇興趣點5〇2之 13 201220099 子集用於進-步處理。在-實施例中，選擇具有最高信噪比之-百個最突出的興趣點5〇2’但是可選擇任何所欲數量的興趣點。在另-實施例中，沒有選擇—子集，且全㈣興趣點都包括於進一步處理中β 如圖7所示’可識別對應於選定興趣點如卜組補丁。每個補了 7G2對應單一選；t興趣點5Q2。補丁 7。2包括圖像500的區域，該區域包括各自的興趣點如。基於每個選定興趣點5G2的運算子演算法的輪出，以自圖像5〇〇所取之每個補丁 702的大小。每個補丁他可有不同的大小，包含在補丁 702之圖像500的區域可能會重疊。此外，補丁 7〇2的形狀是任何所欲之形狀’包括正方形、長方形、三角形、圓形、擴圓形等。在所示實施例，補丁 7Q2的形狀是正方形。補丁 702可被正規化’如圖7所示。在一實施例中，補丁被正規化以使每一補丁 7〇2符合相等大小，如X像素乘X像素的正方形補丁。將補丁 702正規化至相等大小可包括增加或減少補T 7G2的大小及/或解析度。補Τ 702也可以透過-或更多其他操作而正規化，如應用對比增強、去噪音 (speckling)、清晰化、和應用灰度等。也可決定用於每-正規化補τ的描述符。描述符可為補丁的為述’該補丁可被整合以作為用於圖像搜尋之特徵。可以透過計算補T 702中像素的統計資料來決定描述符。在― ^施財，基於補丁 7G2中像素的灰度梯度的統計資料來決疋描述4。描述符可以每個補丁的直方圖來視覺表示，如在 14 201220099 圖8的&述符802 (其中圖7的補丁 702對應圖8中位置類〇之据述符802 )。描述符也可被形容為多維向量，例如（舉例而非限制)多維向量是代表補丁中像素的像素灰度統計。丁2S2 36維向量是代表像素灰度統計的範例向量。如圖9所不，可使用量化表900來將描述符關鍵字902 ’、每個描述符802相關聯。量化表9〇〇可包括可用於映射描述符802至描述符關鍵字902的任何表、索引、圖表、或其他資料、·’。構。各種形式的量化表9〇〇是本技術領域已知的並可用於本發明的實施例。在一實施例中量化表则是透過首先處理大#的圖像（如圖像5叫以識別每個圖像的描述符802而產生，例如一萬張圖像。對由此識別的描述符8〇2 進行統汁刀析，以識別具有相似或統計相似數值之描述符 8〇2的群集或群組。例如，T2S2向量中的變量值是相似的。選擇每個群集的代表描述符9〇4並指派量化表9〇〇的位置以及對應的描述符關鍵字9〇2。描述符關鍵字9〇2可包括識別對應代表描述符90 1之任何所欲指標，例如描述符關鍵字9〇2 可包括圖9所不之整數值、或字母數字值、數值、符號、文子或上述組合。在一些實施例中，描述符關鍵字9〇2可包括序列的子符，該予符識別描述符關鍵字為與非基於文字的搜尋模式相關聯。例如，所有描述符關鍵字可包括三個整數的序列及底線子符’作為關鍵字中的前四個字符。然後，可以使用這個初始序列以識別描述符關鍵字為與圖像相關聯。對於每一描述符8〇2 ’可在量化表9〇〇中識別最密切匹配之代表描述符904。例如，圖8十繪示之描述符8〇2&與圖9 15 201220099 中置化表900的代表描述符904a最密切對應。每個描述符 8〇2的描述符關鍵字9〇2因此與圖像5〇〇相關聯（例如描述符802A對應於描述符識別符9〇2Γι」）。與圖像5〇〇相關聯之描述符關鍵字902可能彼此不同，或是描述符關鍵字9〇2 之一或更多者可與圖像500數次相關聯（如圖像5〇〇可能有描述符關鍵字902「1、2、3、4」或「1、2、2、3」）。在一實施例中，考慮到諸如圖像相異處之特點時’透過識別與描述符802及描述符802個別描述符關鍵字9〇2最匹配之多於一個代表描述符904，描述符802可以映射到多於一個描述符識別符902。基於上述，具有一組識別興趣點5〇2之圖像 5 00的内容可由一組描述符關鍵字9〇2代表。在另一實施例，其他類型的基於圖像之搜尋可以整合到搜尋方案中。例如，臉部識別方法可提供另―種類型的圖像搜哥。除了及/或代替如上所述之識別描述符關鍵字，臉部識別方法可以用來決定圖像中人的身分。圖像中人的身分可用於補充搜尋查詢。另_種選擇是可有用於配合臉部識別技術的人的資料庫4種人的元請可以包含在f料庫中，儲存的元資料可用於補充搜尋查詢。上文提供將基於圖像的搜尋方案適用於基於文字的搜尋方案的：述。類似的適用可用於其他的搜尋模式，如基於音頻的搜尋方案。在一實施例中’可使用基於音頻之搜尋的任何方便類型。基於音頻的搜尋方法可以有一或更多類型的用於識别八有相似特徵之音頻檔案的特徵。如上所述，音頻特徵可以與描料關鍵字相關聯。描述符龍字可具有指示關 16 201220099 鍵字與音頻搜尋相關的格式應連字號及四個數字。如將關鍵字的最後四個字符對基於多模態查詢的搜尋範例搜尋範例1 :將圖像資訊加到基於丞於文子的查詢。傳統搜尋方法的困難是識別常見查詢條件的預期結果。可涉及常見查詢條件的-種搜尋類型是搜尋具有共同名字的人，如「史蒂夫史密斯」。如果提交「史蒂夫史密斯」的關鍵字查詢到搜尋引擎’大量的結果很可能會被識別為回應，這些結果可能會對應到大量的具有相同或相似名字的不同人。此在-實施例中’透過提交實體圖片作為搜尋查詢的一部分’可改進命名實體的搜尋。例如，除了輸入「史蒂夫史密斯」到關鍵字文字框中，特定興趣的史密斯先生的圖像或視頻可置於用於接收基於圖像的查詢資訊的位置。臉部識別軟體可以用來匹配正確的「史蒂夫史密斯」與搜尋查詢。此外，如果圖像或視頻包含其他人，由於指示感興趣之人的關鍵字查珣，基於額外人的結果可指派予較低的排序。因此，關鍵字與圖像或視頻之結合可用於有效地識別對應具有共同名字的人（或其他實體）的結果。作為上述的變異，考慮使用者有人的圖像或視頻但不知道的人的名字的情況。此人可能是政治人物、男演員或女演員、運動員或可以透過臉部識別或圖像匹配技術識別之任何其他人或其他實體。在這種情況下，包含實體的圖像或視頻可以一或更多關鍵字提交作為多模態搜尋查詢。在這種情況 201220099 下’一或更多關鍵字可代表使用者所擁有的關於實體的資訊’如「政治家」或「女演員」。額外的關鍵字可以各種方式協助圖像搜尋。具有圖像或視頻與關鍵字的好處是使用者感興趣㈣果可以得到較高的排序。與圖像—起提㈣鍵字「女演員」指示使用者想要知道的圖像中的人的名字，並會導致^寅員的名字具有較列出女演員在電影演出名單的結果為南的排序結果。此外，斜於古；去 Γ對於，又有達到精確匹配之臉部識別或其他圖像分析技肖，關鍵字可以幫助潛在回應搜尋結果的排序。如果臉部識別方法識別州參議員與作者為潛在°匹配’關鍵字「政治家」可用於提供關於州參議員的資訊作為最高排序的結果。搜尋範例2:多模態查詢的查詢細化。在這個例子中，使用者希望獲得更多在店家發現的產品資訊，如音樂CD或電影DVD。作為搜尋程序的先導’使用者可對感興趣的音樂 CD封面拍攝照片。可提交這張照片作為搜尋查詢。使用圖像識別及/或匹配，CD封面可以匹配包括額外元資料之經儲存CD封面圖像。此元資料可以選擇包括藝術家名字、標題、CD上個別歌曲的名字或有關CD任何其他資料。經儲存之CD封面的圖像可返回作為回應結果，並可能作為排序最高的結果。取決於實施例，可在初步結果頁面上提供使用者潛在查詢修改，或者使用者點擊鏈結以存取潛在查詢修改。查詢修改可包括基於元資料的建議，如藝術家的名字、CD的標題、或CD上流行歌曲之一的名稱。這些查詢修改可提供給使用者儘為鏈結。或者，可提供使用者一選項= 201220099 將。p /刀或全部查詢兀資料加入 — _ t 關鍵子搜哥框。使用者還可以額外的搜尋字詞來補充建議 CTu 術家的名字，然後加上「音举合e ^ 選擇藝 '、」至查_框。額外單字「立樂會」可與用於搜尋查詢的—邱八认9 邛刀的圖像相關聯。這樣如產生表示未來藝術家的演唱會曰會日期的回應結果。查詢或修改的其他選項可能包括價林杳 ^ 1買格f汛、與藝術家有關的新聞、CD上歌曲的歌詞或其他類型的建議。或者，可以自動提交某些查詢修改作為搜尋以產生修改查詢的回應結果，而沒有使用者的進一步行動。例如，篡 J 暴於CD封面而將關鍵字「價格」加入查詢可為自動的杳詢修改 —°』丨夕卩又，以返回不同的線上零售商的定價與最初的搜尋結果頁面。注意在上面的例子中，首券妈# 7太A ^ T百无挺父了查詢圖像，然後關鍵字係作為細化而與查詢相關聯。可透過開始文字關鍵字搜尋及基於圖像、視頻或音頻檔案而細化圖像來執行類似的細化。搜尋範例3 :經改善的行動搜尋。在這個例子中，使用者可能知道一般要問什麼，但可能不確定搜尋查詢用語為何。這種類型的行動搜尋可用於搜尋任何類型的地點、人物、物件、或其他實體。加入一或更多關鍵字可允許使用者接收基於使用者意圖的回應結果，而非基於最佳的圖像匹配。在提交圖像作為搜尋查詢之前，可將關鍵字加入例如搜尋文字框中。關鍵字可有選擇地補充可導自與圖像、視頻或音頻權案相關聯之元資料的任何關鍵字。例如，使用者可照下餐廳的照片並與關鍵字「菜單」一起提交作為搜尋查詢。這將增加 19 201220099 涉及該餐廳菜單的結果的排序。或者，使用者可攝下―㈣的影片並與單字「種」一起提交+ 父作為搜哥查詢。這將增加識別猶的類型的結果相關度，而不回執仃類似活動之其他動物的圖像或視頻結果。還有另一「 ,另種選擇是可以與關鍵字原聲I」一起提交電影海報的^ ^ ^ ^ ^ ^ ^ _ 1豕以識別影片中播放的歌曲。作為另-例子，在城市巾旅行的使用者可能想要當地大眾運輸系統的時間表的資訊。不幸的是，使用者不知道系統的名稱。使用者透過鍵入<城市名稱>和「大眾運輪」的關鍵字查詢而開始。這將返回大量的結果’使用者對於哪個結果 ^為有用沒有信心。使用者注意到在附近公車站的運輸系統標諸。使用者肖下標號並使用標諸作為查詢的_部分來細化搜尋。與標誌相關聯的公車系統會返回為排序最高的結果’讓使用者有#心已經識別正確的轉車時間表搜尋範例4:涉及音頻權案的多模態搜尋。除了視頻或圖像，可使用#他類型的輸入模式於搜尋。+涉頁槽案代表合適查詢輸入的另一例子。正如上面描述的圖像或視頻，可提交音頻檔案結合關鍵字作為搜尋查詢。或者，可在提交另一類型的查詢輸入之前或之後提交音頻檔案作為查詢細化的— 部分。請注意在一些實施例中，多模態搜尋查詢可能包括多種類型的查詢輸入，而使用者沒有提供任何關鍵字輸入。因此’使用者可以提供圖像及視頻或視頻和音頻樓案。還有另一種選擇是包括多個圖像、視頻及/或音頻檔案以及關鍵字作為查詢輸入。 20 201220099 本發IT/本發明各實施例的概述後，現在描述適合執行二:Γ操作環境。參照圖式，…，_施本發月實施例之範例操作環产丨ΠΠ 4曾壯插作—般係指定為計算裝置木發明刚僅是合適計算環境之一例，並非欲以對本發月之使用犯圍或功能逮續 …… 何限制。計算裝置100也不應被解釋為具有與所繪示組何依賴或要求。件之任何-者或組合有關的任本發明實施例可以電腦^或機器可用指令的—般情境描述，包括諸如程式模組之電电肠了執仃指令，電腦可執行指 7係由諸如個人資料助理或盆他手持裝置之電腦或其他機所執行。一般來說，包括例式、程式、物件、組件、資料結構等之程式模組是指執行特定任務或實施特定抽象資料類型的代碼。本發明可以各種系統配置實施，包括手持裝置、消費類電子產品、通用電腦、更為特定的計算裝置等：本發明也可實行於分散式計算環境’其中任務係、由透過通訊網路連接的遠端處理裝置執行。繼續參考圖i ’計算裝置1〇〇包括匯流排ιι〇，直接或間接耦口以下裝置.έ己憶體112、一或更多處理器⑴、一或更多呈現組件、輸入/輸出d/O)端口 118、1/0組件12〇及說明性電源供應122。匯流排11〇可代表一或更多匯流排（如位址匯流排、資料匯流排或上述組合）。雖然圖ι的各個方塊為清晰起見以線條表達，實際上，各個組件的劃定不是那麼清楚’比喻上而言’灰色和模糊更為準確M列如，諸:顯示裝置的呈現组件可視為是1/〇組件。此外，許多處理器具 21 201220099 有°己隐體。本案發明者認識到，這是技術的本質，並重申圖僅疋範例汁算裝置，可與一或更多本發明實施例一起使用不對諸如丄作站」、「飼月艮器」、「筆記型電腦」、「手持裝置」等類別進行區別，因為所有類別都在圖i範圍内並以「計算裝置」表示。十算裝置100通常包括各種電腦可讀取媒體。電蹈可讀取媒體可以疋彳由計算裝I⑽存取的任何可用媒體，且包括揮發性和非揮發性媒體、可移除和非可移除媒體。舉例而非限制，電腦可讀取媒體可包括電腦儲存媒體及通訊媒體。電腦儲存媒體包括以任何方法或技術實現用於儲存諸如電腦可讀取心7、資料結構、程式模組或其他資料之資訊的揮發性和非揮發性、可移除和非可移除媒體。電腦儲存媒體包括但不僅限於隨機存取記憶體(RAM)、唯讀記憶體(職)、電子可擦除可程式化唯讀記憶體（EEPR⑽）、快閃記憶體或其他記憶體技術、CD_R0M、DVD或其他全像記憶體、磁卡帶'磁帶、磁碟儲存或其他磁性儲存裝置、載波、或可以用來編碼所欲資訊及可由計算裝置100存取之任何复在一實施例中’電腦健存媒體可選擇自有形的電腦儲存媒腦儲::體實施例中’電腦儲存媒體可選擇自非暫時性的電平％汉/虱非揮發|u .丨思®形式之電腦存媒體。記憶體可為可移除、非可移除或上述組合體裝置包括固態記憶體、硬碟機、光碟機等。計算裝二包括自諸如記憶體U…/0組件12。之各種實體讀取資1 22 201220099 的一或更多處理器。呈現組件116呈現資料指示給使用其他裝置。靶例呈現組件包括 3 振動組件等。切、置、知聲器、印表組件、口 118允許钟豈择恶 12……：邏輯麵合到包括1/0組件 I古' \ ，、中一些裝置可為内置。所繪示組件包括無線裝置等。天線 '❹機、印表機、參考圖2’該圖緣示適用於本發明實施例的範例 200的方塊圖。環兄鬼圖W僅是可用於本發明實施例的境’並可能包括以多種方式配置之任何數量組件。此處提供的環境200描述是用於說明 ’、明實施例的環境配置。非用以限制可貫施本發環境2〇0包括網路202、查詢輸入裝置204、和搜尋引擎飼服器206。網路202白冷· /f工/τ — 何電腦網路，例如（舉例而非限制）網際網路、内部網路 1桃#人和公共區域網路、無線資料或電話網路。查詢輸入裝置2〇4是任何計算裝置，如計算衰置〇可自6十算裝置提供搜尋查詢。例如查詢輸入裝置可為個人電腦、筆記型電腦、伺服器電腦、無線電話或裝置、個人數位助理（PDA)、數位相機等。在一實施例中，多個查輸入裝置204連接到網路2〇2，如數千或數百萬的查詢輸入裝置204。搜尋擎伺服益2〇6包括諸如計算裝置】〇〇之任何計算裝置並提供至少部分功能以提供基於内容的搜尋引擎。在一實施例中’搜尋引擎伺服器群組206分享或分散提供搜尋 23 201220099 引擎操作給使用者所需的功能。環境繼中還提供圖像處理飼服器2〇8。圖像處理飼服器 2〇8包括諸如計算裝置1〇〇之代表和索引圖像的内容，更詳”二:裝置’並配置以分析、 -包括量化表21。儲二::於下，處理伺服器 G儲存於圖像處理伺服器2G8的記憶體令或可由圖像處理飼服器2〇8遠端存取。量化表21〇由圖像處理飼服器208使用以通知圖像内容之映射，以允許圖像特徵的搜尋和索引。搜尋引擎龍器206和圖像處理飼服器2〇8係通訊輕合至圖像健存器212和索引214。圖像儲存器212和索引叫包括任何可料電腦儲存裝置，如硬碟、快閃記憶體、光學記憶體裝置等。圖像儲存器212提供圖像檔案的資料儲存，可回應於本發明-實施例之基於内容的搜尋而提供圖像稽案。索引214提供搜尋索引，用於對透過網路2们可取得之文包括在圖像儲存器212中健存的圖像）進行基於内容的搜尋。索引214可利用任何索引資料結構或格式，最好使用反索引格式。請注意在-些實施例中，圖像儲存器212是可選擇的。反索引提供映射，該映射描述内容在資料結構中的位置。例如，當搜尋—文件找出敎關鍵字時（包括關鍵字描述），關鍵字是在反索引中找到，該反索引識別該字在文件中的位置及/或特徵在圖像文件中的呈現，而非搜尋文件以找到字或特徵的位置。在貫施例中’搜尋引擎伺服器2〇6、圖像處理飼服器 24 201220099 謂、圖像儲存器212和索引214之一或更多者係整合在單 -汁异裝置中’或直接通訊耦合以允許裝置之間的直訊’而不需穿越網路2〇2。圖10繪示根據本發明一實施例之方法，一乂疋根據本發明貫施例之在電腦儲存媒體上實施之方法的可執行指令 1。中’在mo取得圖像、視頻或音頻檔案，包二被：：之多個相關特徵。在1020,圖像、視頻或音頻檔案盘至少一關鍵字相關聯。在1030,圖像、視頻或音鍵字提交作為搜判㈣查詢。在_，接收至少—回應結果，回應結果係回應於相關特徵和相關聯關鍵字。在刪顯示至少一回應結果。圖11根據本發明實施例描述另一方法，或是根據本發明實施例之在電腦儲存媒體上實貝他疋万法的可執行指令。在圖 11中’在111 0接收查詢，杳詢包 —j G栝至少二查詢模式。在1120，自查S旬揭取對應至少-告' 山一查δ句模式之相關特徵。在U30,基於擷取的相關特徵，選擇多個回庫姓應、、、。果。在U40，基於擷取的相關特徵，排序多個回應結果。在115〇 ’顯示一或更多排序回應結果。圖12緣示根據本發明一實 ^ ^ Α 貫施例之另一方法，或是根據本發明實施例之在電腦儲存媒體仔媒體上實施之方法的可執行指令。在圖12中，在121〇接收包括至少一關鍵字之查詢。在 12 2 0 ’基於收到的查詢，題千夕如颍不多個回應結果。在123〇,接收包括圖像、視頻或音頻檔案 Λ '、夕―者之補充查詢輸入。在 1240 ’基於補充查詢輸入 /文夕個回應結果的排序。在 25 201220099 顯示回應結果的一或更多者。 1 2 5 0 ’基於修改後的排序額外實施例、第一實施例包括執行多模態搜尋的方法。在⑴〇,此方法I括接收查《旬，5亥查詢包括至少二查詢模式；在丄，自 ϋ特徵’相關特徵對應至少二查詢模式；在 1130，基於擷取的相關特徵，選擇多個回應結果；在U40, 基於榻取的相關特徵，排序多個回應結果；纟mo,顯示排序回應結果之一或更多者。第一實施例包括第_實施例的方法，其中，在收到之查言旬中的查詢模式包括關從關鍵子、圖像、視頻或音頻檔案之兩或更多者。第二實施例包括上iiit警九丨+ /τ J·» 任上述貫施例之任一者，其中多個回應文件係使用來自至少二杳啕指 —°句模式之整合相關特徵的反索引而選擇。立頻第二實：例包括第三實施例，其"取自圖像、視頻或曰頻棺案的相關特徵是整合到反索引中作為描述符關鍵字。在第五實施例令，提供執行多模態搜尋的方法。在⑻〇, 該方法包括取得圖像、視頻或音优馮^日頻檔案，包括多個可擷取的相關特徵；在聊，將圖像、視頻< Τ操取的丰相β 擋案與至少-關鍵子才關聯，在1030，提交圖像、視頻 ^ ^ ^ ^ 曰屑檔案及相關聯關鍵子至搜尋引擎作為查詢；在1040 钤5小 ^ 牧叹主J 一回應結果， ^ ^ 一回應結果係回應於相關特徵和相關$ Μ # ~六 1πςπ as _ 仰關聯關鍵字；在〇50，顯不至少一回應結 26 201220099 第六實施例包括任何上述實施例’其中擷取的相關特徵對應關鍵字和圖像。第七實施例包括任何上述實施例，還包括：自圖像、視頻或音頻棺案中擷取元資料；自操取的元資料識別—戍更多關鍵字；形成第二查詢’包括至少擷取自收到之查詢的相關特徵及自所擷取元資料識別之關鍵字。第八實施例包括第七實施例，其中基於擷取的相關特徵來排序多個回應檔案包括基於第二查詢來排序多個回應文件。第九實施例包括第七或第八實施例’其中第二查詢係相關聯於顯示回應結果而顯示。第十實施例包括第七至第九實施例的任一者，還包括：基於第二查詢，自動選擇第二多個回應文件；基於第二查詢，排序第二多個回應文件；顯示第二多個回應文件之至少一文件。第十一實施例包括任何上述實施例，其中自與取得裝置相關聯之攝影機取得之圖像或視頻作為圖像或視頻。第十二實施例包括任何上述實施例，其中圖像、視頻或音頻檔案係透過經由網路存取儲存的圖像、視頻、或音頻檔案取得。第十三實施例包括任何上述實施例，其中至少一回應結果包括文字文件、圖像、視頻、音頻檔案、文字文件的識別、圖像的識別、視頻的識別、音頻的識別或上述組合。第十四實施例包括任何上述實施例’其中該方法進步 27 201220099 包括：基於提交的查詢和對應至少—回應結果的元資料，顯示一或更多查詢建議。在第十五實施例，提供用於執行多模態搜尋的方法，包括：在1210,接收包括至少一關鍵字的查詢；在122〇,根據收到的查詢，顯示多個回應结果；在】2 3 〇，接收包括圖像、視頻或音頻檔案之至少一者之補充查詢輸入；在124〇,基於補充查詢輪入，排序多個Θ靡έ士里* tt 4·，〜 F汁夕個口應，σ果，及在125〇，根據修改後的排序，顯示回應結果的一或更多者。本發明實施例已與特定實施例共同描述，特定實施例在各方面都日在說明而非限制。在不偏離㈣的情況下，替代實施例對於本發明領域具有通常知識者將是明顯的。從上述可知，本發明適於達到前述目的和目標及顯而易見且固有於結構的其他優點。應理解到’某些特徵和次組合是實用性的，可在不參考其㈣徵和次組合的情況下實施。這有被考慮到且在請求項的範圍之内。【圖式簡單說明】參考隨附圖式詳細描述本發明於下，其中圖1繪示範例計算環境’適合用於實施本發明實施例圖2繪示適合執行本發明實施例的網路環境。之圖3繪示根據本發明實施例之範例使用者介面组件。圖4繪示執行本發明實施例所涉及的各個組件和程序 28 實施例之自圖像擷取圖像特徵之明各種實施例之範例方法。 214索引 3 11-3 15輸入框 405查詢關鍵字 407查詢圖像 4 1 2圖像理解組件 414元資料分析組件 422圖片文字特徵和圖像視覺特徵組件 432查詢修改/查詢延伸 442查詢建議 444答案 446結合的排序結果 452產生結果 462 UI互動組件 1010-1250步驟方法 201220099 間的關係。圖5-9繪示根據本發明範例。圖10-12繪示根據本發【主要元件符號說明】 100操作環境 110匯流排 112記憶體 114處理器 116呈現組件 118 I/O 端口 120 I/O組件 122電源供應 200範例網路環境 202網路 204查詢輸入裝置 206搜尋引擎伺服器 208圖像處理伺服器 210量化表 212圖像儲存器 29

Claims

201220099 七、申請專利範圍： 1'種電腦儲存媒體，用於儲存電腦可使用指令，备由 -計算裝置執行電腦可使用指令時，執行一用於執行―：態搜尋的方法，該方法包括：獲取-圖像、一視頻或一音頻檔案，該圖像、視 - 頻檔案包括多個可被擷取的相_徵； 5 :至少-關鍵字相關聯該圖像、視頻或音頻檔案； -杳二交該圖像、視頻、或音頻檔案和該相關聯關鍵字作為 ~ s旬到一搜尋引擎；马關转=收至）—回應結果’該至少—回應結果回應於兮等相關特徵和該相關聯關鍵字；& 、該專相顯示該至少—回應結果。音頻==電腦儲存媒體’其中該圖像、視頻、或料。 ’匕制该圖像、視頻、或音頻檔案之元資 3 ·如請求項 Q 之電腦儲存媒體疋回應該等相關特、八中該至y —回應結果像、视頻、b 該相關聯關鍵字、及擷取自對應該圖次音頻槽案之該元資料的—或更多關鍵字。 4 ·如請求項丨頰包括自與一冑腦儲存媒體，其中獲取該圖像或該視取裝置相關聯之—攝影機獲取一圖像。 30 201220099 5 ·如s奮求項1 或音頻檔案包括透 61儲存媒體，其中獲取該圖像、視頻、括透過-網路存取1存輸入。 6.如喷求項1之電腦儲存媒體，1 包括-文字文件、—圖德、、、體其中該至少-回應結果 "、—視頻、一音頻檔案或上述組合。 7.如清求項i之電腦 Λ,- 卡腹其中該至少一回庳社里包括一文字文件之一埤U應結果視頻之一識識别、一圖像之—識別、別、或一音頻檔案之一識別。 8.如清求項1之電基於該提交的查詢和對二 -或更多查詢建議 P回應結果的元資料而顯示該方法包括以下 9.-種用於執行__多模態搜尋的方法步驟：接收包括至少二查詢模式之一查詢；自該查詢擷取對應該至少二查詢模式之相關特徵基於該擷取之相關特徵，選擇多個回應結果；基於該擷取之相關特徵，排序該等回應結果；顯示排序之該等回應結果的一或更多者。杳 10·如請求項9之方法，其令在該接收之查詢令的該等 31 201220099 一視頻或一音頻檔案之兩或 :::包括，字、1像白 11.如請求項9 該至少二

之方法，其中該等回應文件是使用整合來式之相關特徵的一反索引來選擇。 1 2.如請求項u 頻檔案之相之方法，其中擷取自該圖像、視頻或音 _特徵係整合刭玆及索引作為描述符關鍵字。 13.如請求項字和一圖像 9之方法，其中該擷取相關特徵對應一關鍵 14.如請求項9之方法，該方法進一步包括以下步驟：自一圖像、一視頻或一音頻檔案擷取元資料；自該擷取的元資料識別一或更多關鍵字；及形成一第二查詢，該第二查詢包括至少自該收到的查詢中掏取的該等相關特徵及自該擷取的元資料識別的該等關鍵字。如請求項14之方法’其中基於該等擷取之相關特徵排序該等回應結果之步驟包括以下步驟：基於該第二查詢，排序該等回應文件。 16.如請求項丨4之方法，其中該第二查詢係以相關聯於 32 201220099 顯示該等顯示之回應結果之方式 17.如請求項14之方法，該方法進一梦包括以下牛基於該第二杳均，^ —° 動選擇一第二多個回應文件. 基於該第二查詢’排序該第二該等回應文件；及’ 自該第二該等回應文件，顯示至少一文件。 18.—種用於執行一步驟：多模態搜尋的方法，該方法包括以下接收包括至少— 夕關鍵字之一查詢；基於該收到的杳^自，Ss _々幻宜〇旬，顯不多個回應結果；接收補充的杳兮1 & λ —為輸入，该補充的查詢輸入包括一圖像、一視頻或一音頻檔案之至少一者；基於該補充的查詢輸入，修改該等回應結果之一排序；基於該修改之排序，顯示該等回應結果之一或更多者。 19.如凊求項18之方法，該方法進一步包括以下步驟：自與該至少一圖像 '視頻、或音頻檔案相關聯之元資料擷取額外的關鍵字；將該等操取之額外關鍵字整合至補充查詢。 2〇·如請求項18之方法，該方法進一步包括以下步驟：基於與該回應結果相關聯之元資料’自至少一回應結果 33 201220099 擷取額外的關鍵字，該回應結果係一圖像、一視頻或一音頻檔案；將該等擷取之額外關鍵字整合至該補充查詢。 34