TW201220099A - Multi-modal approach to search query input - Google Patents

Multi-modal approach to search query input Download PDF

Info

Publication number
TW201220099A
TW201220099A TW100135048A TW100135048A TW201220099A TW 201220099 A TW201220099 A TW 201220099A TW 100135048 A TW100135048 A TW 100135048A TW 100135048 A TW100135048 A TW 100135048A TW 201220099 A TW201220099 A TW 201220099A
Authority
TW
Taiwan
Prior art keywords
image
query
response
video
search
Prior art date
Application number
TW100135048A
Other languages
English (en)
Inventor
Jiyang Liu
Jian Sun
Heung-Yeung Shum
Xiaosong Yang
Yu-Ting Kuo
Lei Zhang
Yi Li
qi-fa Ke
Ce Liu
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW201220099A publication Critical patent/TW201220099A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

201220099 六、發明說明: 【發明所屬之技術領域】 本發明是關於搜尋查詢輸入的多模態方法。 【先前技術】 諸如透過廣域網路之搜尋引擎的各種資訊搜尋和擷取方 法是習知.的。這種方法通常使用基於文字的搜尋。基於文字 的搜尋使用搜尋查詢,搜尋查詢包含一或更多諸如單字或詞 組之文字元素。文字元素與索引或其他資料結構相比以識別 諸如網頁之文件’文件包括匹配或語義相似的文字内容、元 資料、檔案名稱、或其他文字表示。 已知的基於文字的搜尋方法對於基於文字的文件而言效 果相當好’但難以適用於圖4播—案和資料。為了透邁-基一於文― 字查詢來搜尋圖像檔案,圖像檔案必須與一或更多文字元素 如標題、檔案名稱、或其他元資料或標記相關聯。用於基於 文字搜尋之搜尋引擎和演算法不能基於圖像内容來搜尋圖 像檔案,因此限於僅基於與圖像相關聯的資料來識別搜尋結 果圖像。 已發展出基於内容的圖像搜尋方法,該圖像搜尋方法分 析圖像内容以識別視覺上相似的圖像。然而,這種方法可限 於識別與圖像搜尋之輸入相關的基於文字的文件。 【發明内容】 201220099 ;在各種實施例中’提供用於使用?個輸人模式作為搜尋 查6旬的-部分。該方法允許搜尋查詢包含關鍵字或文字輸 入、圖像輸入、視頻輪入、音頻輸入或其他輸入模式的組合。 基於摘取自各種查詢輸人的模式,可以執行回應文件之搜 尋。多個查詢輸人模式可出現在初始搜尋請求,或是包含單 -類型查詢輸入之初始請求可以第二類型的輸入補充。除了 提供回應結果,在一些實施例中,可基於查 應結果進行額外的查詢改進或建議。 本「發明内容」係提供以簡化的形式來介紹將於以下「實 施方式」中進纟描述的—些概念。本「發明内容」並非欲 以識別中請專利標的之重要特徵或必要特徵,亦非欲以單獨 作為決定申請專利標的之範圍的協助。 【實施方式】 概述 在不同的實施例中’提供系統和方法用於整合關鍵字和 基於文字之搜尋輸人與其他的搜尋輸人模式。其他搜尋輸入 模式的例子可以包括圖像輸入、視頻輸入和音頻輸入。更普 遍的系統和方法可以允許基於查詢中多個輸人模式來執 行搜尋夕模態搜尋系統和方法所產生的實施例可以提供輸 到搜尋引擎而提供使用者更大的靈活性。此外,當使用者 使用諸如圖像輸入之一類型的輪入來啟動搜尋,第二類型的 輸入(或夕個其他類型的輸入)彳以用纟改進或修改回應的 5 201220099 搜尋結果。例如,使用者可輸人—或更多關鍵字以關聯一圖 像輪入。在許多情況下’將額外的關鍵字與圖像輸入相關聯 可以比圖像輪入或關鍵字輸入提供更清楚的使用者意圖。 在一些實施例中,透過使用索引,基於多模態搜尋輸入 而執行搜尋以得到回應結果’索引包括與不止一類型的資料 相關的詞彙’如包括基於文字之關鍵字的索引、基於圖像之 關鍵字、基於視頻之關鍵纟、和基於音頻之關鍵字。除了基 :文子的搜尋,一種整合輸入模式的關鍵字的選項是將多模 態特徵與人造關鍵字相關聯。這些人造關鍵字可稱為描述符 關鍵字。例如,用於基於圖像搜尋之圖像特徵可與描述符關 鍵字相關聯,以使基於圖像的搜尋特徵如傳統的基於文字的 關鍵字出現在同一反索引。例如,在西雅圖的「太空針」建 築圖像可能包含多個圖像特徵。這些圖像特徵可自圖像中擷 取’然後與描述符「關鍵字」相關聯,以便與其他基於文字 的關鍵字整合到反索引。 除了將描述符關鍵字整合至基於文字的關鍵字索弓丨,來 自一圖像的描述符關鍵字(或另一類型的非文字輸入)也可 與傳統關鍵字相關聯。在上面的例子中,「女允从 1 八工_」可與一 或更多來自太空針之圖像的描述符關鍵字相關聯。這可允許 包括描述符關鍵字的建議或修訂查詢,因此更適合執疒美\ 圖像之搜尋,以找到其他類似太空針的圖像。這種; 狂·思璣查詢 可提供給使用者以便改善其他與太空針圖像相關之圖像的 搜尋’可自動使用建議查詢識別這種相關圖像。 在下面的討論中,下面的定義是用來描述執 /姨態搜 201220099 尋的態樣。特徵是指任何類型的資訊,回應於搜尋查詢,特 徵可作為文件之選擇及/或排序之一部分。來自基於文字之查 詢的特徵通常包括關鍵字。來自基於圖像之查詢的特徵可包 括識別為獨特的圖像部分,例如圖像中具有對比強度的部分 或圖像中對應人臉用於臉部識別的部分。來自基於音頻查詢 的特徵可包括音頻的音量位準或其他可偵測到的音頻模 式。關鍵字指的是傳統的基於文字的搜尋字詞。關鍵字可以 是指回應於查詢’作為單—術語用於識別文件之—或更多單 子為述符關鍵子疋指與非基於文字的特徵相關聯的關鍵 字。因此,描述符關鍵字可用於識別基於圖像之特徵、基於 視頻之特徵、基於音頻之特徵或其他非文字特徵。回應結果 是指基於搜尋引擎執行之選擇及/或排序,識別為與搜尋杳詢 相關的任何文件。當顯示回應結果時,回應結果可透過顯示 檔案本身來顯示,或可顯示文件的識別符。例如,基於文字 的搜尋引擎所返回之傳統超鏈結(也稱為「藍色鍵結」)代表 其他文件的識別符或到其他檔案的鏈結。透過點擊鏈結,可 表的㈣。文件的識別符可提供或不提供與對應文 件有關的進一步資訊。 接收多模態的搜尋查詢 來自多種搜尋模式的 、政可以自查詢擷取並用以識別回 應查詢的結果。在一竇始 ^ μ ^ ',可透過任何方便的方法提供 多種查珣輸入的模式。例 ,用於接收查詢輸入的使用者介 面可包括用於接收關鍵字 -°旬輸入的對話框。使用者介面還 201220099 可以包括用於接收使用者所選擇之圖像的位置,如允許使用 者將所欲之輸入圖像置入使用者介面的圖像查詢框。另外, 圖像查詢框可接收圖檔案位置或網路位址作為圖像輸入的 來源。可提供類似的框或位置用於識別音頻檔案、視頻檔案 或另一類型的非文字輸入作為查詢輸入使用。 不需要在同一時間收到多個查詢輸入模式。可先提供一 種類型的查詢輸人’,然後可提供第二輸人模式來細化查詢。 例如,可提交電影明星的圖像作為查詢輸入。這將返回可能 匕括圖像@系'列匹配結果。基於使用者想要知道電影明星 的名子’可將「演員」鍵人搜尋查詢框作為關鍵字,以細化 搜尋結果。 ,接收多模態搜#資訊I,多才莫態資訊可作為#尋查詢以 識別回應結果。回應結果可為搜尋引擎決^為有關的任何類 型文件’無論搜尋查詢的輸入模式為何。因此,圖像項目可 識別為基於文字查詢的回應文件,或是基於文字的項目可為 基於音頻㈣的回應文件。此外’包括二種以上之輸入模式 的查詢也可用來識別任何可用類型的回應結果。顯示給使用 者的回應結果可為, 為文件的形式,或為回應文件的識別符的形 式。 口應結果的識別。在一實施 ’諸如反索引之單一索引可 。或者,單一的排序系統可 無論索引的數量或形式,一 部分及/或用於識別回應查 可使用一或更多索引以促進 例中,基於所有類型的搜尋模式 用於儲存關鍵字和描述符關鍵字 使用夕個索引儲存術語或特徵。 或更多索y可作為整合選擇的一 201220099 -旬之文件的排序方法。基於任何可用的查詢輸入模式選擇方 法及/或排序方法可將特徵整合。 與其他類型的輸人相關聯之基於文字的關鍵字也可榻取 使用。整合多種資訊模式的選擇之一是可使用與另一查詢輸 入模式相關聯的文字資訊。圖像、視頻或音頻檔案往往會具 有與檔案相關聯的元資料。彳包括播案的標題、檔案的主 題、或與樓案相關聯的其他文字。其他文字可以包括屬於文 件之-部分的文字,其中媒體⑽顯示為鏈結,例如網頁或 描述媒體檔案的其他文字。與圖像、視頻或音頻檔案相關聯 的元資料可以以夕種方式來補充查詢輸入。文字元資料可用 來形成提供給使用者的額外查詢建議。文字也可被自動使用 以補充現有的搜尋查詢,以修改回應結果的排序。 除了使用與輸人查詢相關的元資料外,與回應結果相關 聯的元資料可用來修改搜尋查詢。例如,基於圖像的搜尋查 "句可導致著名的艾菲爾鐵塔圖像作為回應結果。來自回應結 果的元資料可能表示艾菲爾鐵塔是回應圖像結果的主題。元 資料可用來建議使用者額外的查詢,或自動補充搜尋查詢。 有多種擷取元資料的方法。可預先決定元資料擷取技 術,或是可由人或自動化的程序進行動態選擇。元資料擷取 技術可包括但不僅限於當使用者在文字查詢之後選擇近乎 重複者時分析嵌入元資料的檔案名稱;(2)自近乎重 複之數位物件擷取元資料;(3 )擷取近乎重複之數位物件所 在之網頁中的周圍文字;(4)自支援註釋和評論的網站擷取 與近乎重複相關聯之註釋和評論,其中近乎重複之數位媒體 201220099 ^件係儲存於該網財;(5)擷取與近乎重複者相關聯之查 -旬關鍵子。在其他實施例中,元資料操取技術可涉及其他操 作。 -些元資料擷取技術始於文字的主體並筛選出最簡潔的 凡資料。因此,可利用諸如文法解析和其他基於符記之分析 的技術。例如,圖像周圍的文字可包含字幕或長段落。至少 錢—種情況下,可解析長段落以掏取有興趣的内容。舉另 例說明,註釋和評論資料包含文字縮寫(如麵〇代表^ my humble opinion)和感性粒子(如表情和重複的驚嘆號)。 儘S IMHO似乎在強調註釋和評論,它很可能是筛選出搜尋 元資料的候選者。 在選擇多個元資料擷取技術的事件中,調和方法可提供 調和潛在衝突候選元資料結果的一種方法M列如,可利用統 十刀析和機器學習或透過規則引擎進行和解。 圖3提供範例使用者介面,該使用者介面適於根據本發 月實施例接收多模態搜尋輸入並顯示回應結果。在圖3中, 使用者介面提供輸人位置用於三種類型的查詢輸人。輸入柩 3U可以接收關鍵字輸入,例如通常由傳統搜尋引擎使用之 基於文字的輸入。輸入框313可接收圖像及,或視頻檔案作為 輸入。貼入 < 置入輸入框313的圖像或視頻檔帛可使用圖像 分析技術分析以識別可擷取用於搜尋的特徵。類似地,輸入 框3丨5可接收音頻檔案作為輸入。 區域32G包含回應結果清單。在圖3所示實施例中,顯 示回應結果332和342。回應結果332是識別為回應搜尋之 201220099 圖像文件的識別符(如縮圖)。除了圖像結果3 3 2,還提供了 鏈結或圖符334以允許經修訂查詢,該經修訂查詢整合圖像 結果332 (或與圖像結果332相關聯的描述符關鍵字)作為 經修訂查詢的一部分。回應結果344對應基於文字之文件的 識別符。 區域340包含基於初始查詢之建議查詢347的清單。可 使用傳統的查詢建議演算法產生建議查詢347的清單。建議 查詢347也可基於與以圖像/視頻輸入312或音頻輸入314提 交之輸入相關聯的兀資料。其他一些建議查詢347可根據與 回應結果相關聯之元資料,如回應結果332。 圖4繪示根據本發明實施例之用於執行多模態搜尋的各 系統及/或程序之間的互動示意圖。在圖4的實施例中,多模 態搜尋對應基於關鍵字查詢輸人和圖像查詢輸人的㈣。在 圖4’基於接收—查詢,開始搜尋。查詢包括查詢關鍵字他 和查δ旬圖像407。為了處理查詢圖像術,圖像理解組件化 可用於識別圖像中的特徵。由圖像理解組件412自查詢圖像 4〇7揭取之特徵可由圖像文字特徵和圖像視覺特徵組件422 指派描述符關鍵字。可由圖像理解組件412使用之範例方法 結合圖5-9描述於下。圖像理解組件412還可以 型的圖像理解方法,如臉部識別方法或用於分㈣像中色杀類 相似性的方法。元資料分析 " 妞關雜从-达企丨 J識別與查詢圖像407 _一:儲存二可包括嵌入圖像檔案中及/或由作業系統 =播案起儲存的資料,如圖像的標題或錯存於槽案 釋。這也包括與圖像相關聯的其他文字,路中的 201220099 文子(文字係輸入以識別用於搜尋之圖像)或圖像附近的文字 (用於位於或嵌入網頁或其他基於文字之文件的圖像)。圖片 文字特徵和圖像視覺特徵組件422可以基於來自元資料分析 4 14的輸出而識別關鍵字特徵。 在識別查詢詞彙405及在圖像文字特徵和圖像視覺特徵 組件422中的任何附加特徵後,產生的查詢可選擇在組件 中被修改或延伸。修改或延伸可基於導自元資料分析組件 414和圖像文字特徵/圖像視覺特徵組件422中之元資料的特 徵。查詢修改或延伸的另一來源可為來自互動組件 之回饋。這可包括由使用者提供的額外查詢資訊,以及基於 來自目前或先前查詢之回應結果的查詢建議442。選擇性修 改或延伸的查詢可用來產生回應結果452。在圖4中,結果 產生452涉及使用查詢以識別在資料庫475中的回應文件, 回應文件包括用於資料庫中之文件的文字和圖像特徵。資料 庫475可代表反索引或任何其他方便的儲存格式類型用於基 於查詢來識別回應結果。 取決於實施例,結果產生452可提供一或更多類型的結 果。在某些情況下,最有可能匹配的識別是可取的,如一或 幾個排序的回應結果。這可提供作為答案444。或者,依 排序順序之回應結果清單是可取的。這可提供作為結合的排 。果446除了答案或排序結果,還可提供-或更多查詢 建議442給使用者’使用者的互動(包括結果顯示和查詢接 收)可由UI互動組件462處理。 12 201220099 基於多媒體的搜尋方法
圖5-9繪示根據本發明實施例之範例圖像5〇〇之處理。在 圖5中’使用運算子演算法處理圖像以識別多個興趣點502。 運算子演算法包括可用來識別圖像则中興趣點5Q2的任何 可用演算法。在—實施例中’運算子演算法可為本技術領域 所热知之高斯演算法或拉普拉斯演算法之差。在一實施例 中’運算子演算法是配置以二維分析圖像5〇〇。可選地,當 圖500是彩色圖像時’圖像5〇〇可以轉換成灰度。 S 興趣點502可包括圖5所示之圖像5〇〇中的任何點以及 圖6所示之圖像500中的區域6〇2、地區、像素群組或特徵。 為了簡潔起見,興趣點502和區$ 6〇2在此後稱為興趣點 502,然而參照興趣點5G2 @目的是包括興趣點如和區域 602在實施例中,興趣點5〇2是位於穩定的圖像則中 的區域且包括圖像5〇〇中的不同或可識別特徵。例如,興趣 點502位於具有鮮明特徵的圖像區域丨,該鮮明特徵具^描 繪在諸如502a和602a之特徵之間的高度對比。才目反地,興 趣點不位於沒有鮮明特徵或對^的區域,如穩定色彩的地區 或504所指之灰度的區域。 運算子演算法識別圖| 500中任何數量的興趣點,例如 數以千計的興趣點。興趣點502可為圖像5〇〇中的點5〇2與 區域602之結合’且興趣點數量可基於圖冑5〇〇的大小。圖 像處理組件302計算出每個興趣點5Q2的度量並根據度量排 序/、趣點502。度量可包括訊號強度或圖像5 〇〇在興趣點5〇2 的信噪比。圖像處理組件302基於排序而選擇興趣點5〇2之 13 201220099 子集用於進-步處理。在-實施例中,選擇具有最高信噪比 之-百個最突出的興趣點5〇2’但是可選擇任何所欲數量的 興趣點。在另-實施例中,沒有選擇—子集,且全㈣興趣 點都包括於進一步處理中β 如圖7所示’可識別對應於選定興趣點如卜組補丁 。每個補了 7G2對應單一選;t興趣點5Q2。補丁 7。2包括 圖像500的區域,該區域包括各自的興趣點如。基於每個 選定興趣點5G2的運算子演算法的輪出,以自圖像5〇〇所 取之每個補丁 702的大小。每個補丁他可有不同的大小, 包含在補丁 702之圖像500的區域可能會重疊。此外,補丁 7〇2的形狀是任何所欲之形狀’包括正方形、長方形、三角 形、圓形、擴圓形等。在所示實施例,補丁 7Q2的形狀是正 方形。 補丁 702可被正規化’如圖7所示。在一實施例中,補 丁 被正規化以使每一補丁 7〇2符合相等大小,如X像素 乘X像素的正方形補丁。將補丁 702正規化至相等大小可包 括增加或減少補T 7G2的大小及/或解析度。補Τ 702也可以 透過-或更多其他操作而正規化,如應用對比增強、去噪音 (speckling)、清晰化、和應用灰度等。 也可決定用於每-正規化補τ的描述符。描述符可為補 丁的為述’該補丁可被整合以作為用於圖像搜尋之特徵。可 以透過計算補T 702中像素的統計資料來決定描述符。在― ^施財,基於補丁 7G2中像素的灰度梯度的統計資料來決 疋描述4。描述符可以每個補丁的直方圖來視覺表示,如在 14 201220099 圖8的&述符802 (其中圖7的補丁 702對應圖8中位置類 〇之据述符802 )。描述符也可被形容為多維向量,例如(舉 例而非限制)多維向量是代表補丁中像素的像素灰度統計。 丁2S2 36維向量是代表像素灰度統計的範例向量。 如圖9所不,可使用量化表900來將描述符關鍵字902 ’、每個描述符802相關聯。量化表9〇〇可包括可用於映射描 述符802至描述符關鍵字902的任何表、索引、圖表、或其 他資料、·’。構。各種形式的量化表9〇〇是本技術領域已知的並 可用於本發明的實施例。在一實施例中量化表则是透過 首先處理大#的圖像(如圖像5叫以識別每個圖像的描述 符802而產生,例如一萬張圖像。對由此識別的描述符8〇2 進行統汁刀析,以識別具有相似或統計相似數值之描述符 8〇2的群集或群組。例如,T2S2向量中的變量值是相似的。 選擇每個群集的代表描述符9〇4並指派量化表9〇〇的位置以 及對應的描述符關鍵字9〇2。描述符關鍵字9〇2可包括識別 對應代表描述符90 1之任何所欲指標,例如描述符關鍵字9〇2 可包括圖9所不之整數值、或字母數字值、數值、符號、文 子或上述組合。在一些實施例中,描述符關鍵字9〇2可包括 序列的子符,該予符識別描述符關鍵字為與非基於文字的 搜尋模式相關聯。例如,所有描述符關鍵字可包括三個整數 的序列及底線子符’作為關鍵字中的前四個字符。然後,可 以使用這個初始序列以識別描述符關鍵字為與圖像相關聯。 對於每一描述符8〇2 ’可在量化表9〇〇中識別最密切匹配 之代表描述符904。例如,圖8十繪示之描述符8〇2&與圖9 15 201220099 中置化表900的代表描述符904a最密切對應。每個描述符 8〇2的描述符關鍵字9〇2因此與圖像5〇〇相關聯(例如描述 符802A對應於描述符識別符9〇2Γι」)。與圖像5〇〇相關聯 之描述符關鍵字902可能彼此不同,或是描述符關鍵字9〇2 之一或更多者可與圖像500數次相關聯(如圖像5〇〇可能有 描述符關鍵字902「1、2、3、4」或「1、2、2、3」)。在一 實施例中,考慮到諸如圖像相異處之特點時’透過識別與描 述符802及描述符802個別描述符關鍵字9〇2最匹配之多於 一個代表描述符904,描述符802可以映射到多於一個描述 符識別符902。基於上述,具有一組識別興趣點5〇2之圖像 5 00的内容可由一組描述符關鍵字9〇2代表。 在另一實施例,其他類型的基於圖像之搜尋可以整合到 搜尋方案中。例如,臉部識別方法可提供另―種類型的圖像 搜哥。除了及/或代替如上所述之識別描述符關鍵字,臉部識 別方法可以用來決定圖像中人的身分。圖像中人的身分可用 於補充搜尋查詢。另_種選擇是可有用於配合臉部識別技術 的人的資料庫4種人的元請可以包含在f料庫中,儲存 的元資料可用於補充搜尋查詢。 上文提供將基於圖像的搜尋方案適用於基於文字的搜尋 方案的:述。類似的適用可用於其他的搜尋模式,如基於音 頻的搜尋方案。在一實施例中’可使用基於音頻之搜尋的任 何方便類型。基於音頻的搜尋方法可以有一或更多類型的用 於識别八有相似特徵之音頻檔案的特徵。如上所述,音頻特 徵可以與描料關鍵字相關聯。描述符龍字可具有指示關 16 201220099 鍵字與音頻搜尋相關的格式 應連字號及四個數字。 如將關鍵字的最後四個字符對 基於多模態查詢的搜尋範例 搜尋範例1 :將圖像資訊加到基於 丞於文子的查詢。傳統搜尋 方法的困難是識別常見查詢條件的預期結果。可涉及常見查 詢條件的-種搜尋類型是搜尋具有共同名字的人,如「史蒂 夫史密斯」。如果提交「史蒂夫史密斯」的關鍵字查詢到搜 尋引擎’大量的結果很可能會被識別為回應,這些結果可能 會對應到大量的具有相同或相似名字的不同人。 此 在-實施例中’透過提交實體圖片作為搜尋查詢的一部 分’可改進命名實體的搜尋。例如,除了輸入「史蒂夫史密 斯」到關鍵字文字框中,特定興趣的史密斯先生的圖像或視 頻可置於用於接收基於圖像的查詢資訊的位置。臉部識別軟 體可以用來匹配正確的「史蒂夫史密斯」與搜尋查詢。此外, 如果圖像或視頻包含其他人,由於指示感興趣之人的關鍵字 查珣,基於額外人的結果可指派予較低的排序。因此,關鍵 字與圖像或視頻之結合可用於有效地識別對應具有共同名 字的人(或其他實體)的結果。 作為上述的變異,考慮使用者有人的圖像或視頻但不知 道的人的名字的情況。此人可能是政治人物、男演員或女演 員、運動員或可以透過臉部識別或圖像匹配技術識別之任何 其他人或其他實體。在這種情況下,包含實體的圖像或視頻 可以一或更多關鍵字提交作為多模態搜尋查詢。在這種情況 201220099 下’一或更多關鍵字可代表使用者所擁有的關於實體的資 訊’如「政治家」或「女演員」。額外的關鍵字可以各種方 式協助圖像搜尋。具有圖像或視頻與關鍵字的好處是使用者 感興趣㈣果可以得到較高的排序。與圖像—起提㈣鍵字 「女演員」指示使用者想要知道的圖像中的人的名字,並會 導致^寅員的名字具有較列出女演員在電影演出名單的結 果為南的排序結果。此外,斜於古;去 Γ對於,又有達到精確匹配之臉部識 別或其他圖像分析技肖,關鍵字可以幫助潛在回應搜尋結果 的排序。如果臉部識別方法識別州參議員與作者為潛在°匹 配’關鍵字「政治家」可用於提供關於州參議員的資訊作為 最高排序的結果。 搜尋範例2:多模態查詢的查詢細化。在這個例子中,使 用者希望獲得更多在店家發現的產品資訊,如音樂CD或電 影DVD。作為搜尋程序的先導’使用者可對感興趣的音樂 CD封面拍攝照片。可提交這張照片作為搜尋查詢。使用圖 像識別及/或匹配,CD封面可以匹配包括額外元資料之經儲 存CD封面圖像。此元資料可以選擇包括藝術家名字、標 題、CD上個別歌曲的名字或有關CD任何其他資料。 經儲存之CD封面的圖像可返回作為回應結果,並可能作 為排序最高的結果。取決於實施例,可在初步結果頁面上提 供使用者潛在查詢修改,或者使用者點擊鏈結以存取潛在查 詢修改。查詢修改可包括基於元資料的建議,如藝術家的名 字、CD的標題、或CD上流行歌曲之一的名稱。這些查詢修 改可提供給使用者儘為鏈結。或者,可提供使用者一選項= 201220099 將。p /刀或全部查詢兀資料加入 — _ t 關鍵子搜哥框。使用者還可以 額外的搜尋字詞來補充建議 CTu 術家的名字,然後加上「音举合e ^ 選擇藝 '、」至查_框。額外單字「立 樂會」可與用於搜尋查詢的—邱八认9 邛刀的圖像相關聯。這樣 如產生表示未來藝術家的演唱會 曰會日期的回應結果。查詢 或修改的其他選項可能包括價林杳 ^ 1買格f汛、與藝術家有關的新 聞、CD上歌曲的歌詞或其他類型的建議。或者,可以自動 提交某些查詢修改作為搜尋以產生修改查詢的回應結果,而 沒有使用者的進一步行動。例如,篡 J 暴於CD封面而將關鍵字 「價格」加入查詢可為自動的杳詢修改 —°』丨夕卩又,以返回不同的線上 零售商的定價與最初的搜尋結果頁面。 注意在上面的例子中,首券妈# 7太A ^ T百无挺父了查詢圖像,然後關鍵 字係作為細化而與查詢相關聯。可透過開始文字關鍵字搜尋 及基於圖像、視頻或音頻檔案而細化圖像來執行類似的細 化。 搜尋範例3 :經改善的行動搜尋。在這個例子中,使用者 可能知道一般要問什麼,但可能不確定搜尋查詢用語為何。 這種類型的行動搜尋可用於搜尋任何類型的地點、人物、物 件、或其他實體。加入一或更多關鍵字可允許使用者接收基 於使用者意圖的回應結果,而非基於最佳的圖像匹配。在提 交圖像作為搜尋查詢之前,可將關鍵字加入例如搜尋文字框 中。關鍵字可有選擇地補充可導自與圖像、視頻或音頻權案 相關聯之元資料的任何關鍵字。例如,使用者可照下餐廳的 照片並與關鍵字「菜單」一起提交作為搜尋查詢。這將增加 19 201220099 涉及該餐廳菜單的結果的排序。或者,使用者可攝下―㈣ 的影片並與單字「種」一起提交+ 父作為搜哥查詢。這將增加識 別猶的類型的結果相關度,而不 回執仃類似活動之其他 動物的圖像或視頻結果。還有另一 「 ,另種選擇是可以與關鍵字 原聲I」一起提交電影海報的^ ^ ^ ^ ^ ^ ^ _ 1豕以識別影片中播放的 歌曲。 作為另-例子,在城市巾旅行的使用者可能想要當地大 眾運輸系統的時間表的資訊。不幸的是,使用者不知道系統 的名稱。使用者透過鍵入<城市名稱>和「大眾運輪」的關鍵 字查詢而開始。這將返回大量的結果’使用者對於哪個結果 ^為有用沒有信心。使用者注意到在附近公車站的運輸系統 標諸。使用者肖下標號並使用標諸作為查詢的_部分來細 化搜尋。與標誌相關聯的公車系統會返回為排序最高的結 果’讓使用者有#心已經識別正確的轉車時間表 搜尋範例4:涉及音頻權案的多模態搜尋。除了視頻或圖 像,可使用#他類型的輸入模式於搜尋。+涉頁槽案代表合適 查詢輸入的另一例子。正如上面描述的圖像或視頻,可提交 音頻檔案結合關鍵字作為搜尋查詢。或者,可在提交另一類 型的查詢輸入之前或之後提交音頻檔案作為查詢細化的— 部分。請注意在一些實施例中,多模態搜尋查詢可能包括多 種類型的查詢輸入,而使用者沒有提供任何關鍵字輸入。因 此’使用者可以提供圖像及視頻或視頻和音頻樓案。還有另 一種選擇是包括多個圖像、視頻及/或音頻檔案以及關鍵字作 為查詢輸入。 20 201220099 本發IT/本發明各實施例的概述後,現在描述適合執行 二:Γ操作環境。參照圖式,…,_施 本發月實施例之範例操作環产 丨ΠΠ 4曾壯 插作—般係指定為計算裝置 木發明 刚僅是合適計算環境之一例,並非欲以對 本發月之使用犯圍或功能逮續 …… 何限制。計算裝置100也不 應被解釋為具有與所繪示組 何依賴或要求。 件之任何-者或組合有關的任 本發明實施例可以電腦^或機器可用指令的—般情境 描述,包括諸如程式模組之電 电肠了執仃指令,電腦可執行指 7係由諸如個人資料助理或盆 他手持裝置之電腦或其他機 所執行。一般來說,包括例式、程式、物件、組件、資料 結構等之程式模組是指執行特定任務或實施特定抽象資料 類型的代碼。本發明可以各種系統配置實施,包括手持裝 置、消費類電子產品、通用電腦、更為特定的計算裝置等: 本發明也可實行於分散式計算環境’其中任務係、由透過通訊 網路連接的遠端處理裝置執行。 繼續參考圖i ’計算裝置1〇〇包括匯流排ιι〇,直接或間 接耦口以下裝置.έ己憶體112、一或更多處理器⑴、一或更 多呈現組件、輸入/輸出d/O)端口 118、1/0組件12〇及說 明性電源供應122。匯流排11〇可代表一或更多匯流排(如 位址匯流排、資料匯流排或上述組合)。雖然圖ι的各個方 塊為清晰起見以線條表達,實際上,各個組件的劃定不是那 麼清楚’比喻上而言’灰色和模糊更為準確M列如,諸:顯 示裝置的呈現组件可視為是1/〇組件。此外,許多處理器具 21 201220099 有°己隐體。本案發明者認識到,這是技術的本質,並重申圖 僅疋範例汁算裝置,可與一或更多本發明實施例一起使 用不對諸如丄作站」、「飼月艮器」、「筆記型電腦」、「手持 裝置」等類別進行區別,因為所有類別都在圖i範圍内並以 「計算裝置」表示。 十算裝置100通常包括各種電腦可讀取媒體。電蹈可讀 取媒體可以疋彳由計算裝I⑽存取的任何可用媒體,且包 括揮發性和非揮發性媒體、可移除和非可移除媒體。舉例而 非限制,電腦可讀取媒體可包括電腦儲存媒體及通訊媒體。 電腦儲存媒體包括以任何方法或技術實現用於儲存諸如電 腦可讀取心7、資料結構、程式模組或其他資料之資訊的揮 發性和非揮發性、可移除和非可移除媒體。電腦儲存媒體包 括但不僅限於隨機存取記憶體(RAM)、唯讀記憶體(職)、 電子可擦除可程式化唯讀記憶體(EEPR⑽)、快閃記憶體或 其他記憶體技術、CD_R0M、DVD或其他全像記憶體、磁卡 帶'磁帶、磁碟儲存或其他磁性儲存裝置、載波、或可以用 來編碼所欲資訊及可由計算裝置100存取之任何复 在一實施例中’電腦健存媒體可選擇自有形的電腦儲存媒 腦儲::體實施例中’電腦儲存媒體可選擇自非暫時性的電 平%汉/虱非揮發|u .丨思®形式之電腦 存媒體。記憶體可為可移除、非可移除或上述組合 體裝置包括固態記憶體、硬碟機、光碟機等。計算裝二 包括自諸如記憶體U…/0組件12。之各種實體讀取資1 22 201220099 的一或更多處理器。呈現組件116呈現資料指示給使用 其他裝置。靶例呈現組件包括 3 振動組件等。 切、置、知聲器、印表組件、 口 118允許钟豈择恶 12……: 邏輯麵合到包括1/0組件 I古' \ ,、中一些裝置可為内置。所繪示組件包括 無線裝置等。 天線 '❹機、印表機、 參考圖2’該圖緣示適用於本發明實施例的範例 200的方塊圖。環兄 鬼圖W僅是可用於本發明實施例的 境’並可能包括以多種方式配置之任何數量組件。此處提供 的環境200描述是用於說明 ’、 明實施例的環境配置。 非用以限制可貫施本發 環境2〇0包括網路202、查詢輸入裝置204、和搜尋引擎 飼服器206。網路202白冷· /f工/τ — 何電腦網路,例如(舉例而非限 制)網際網路、内部網路 1桃#人和公共區域網路、無線資料或 電話網路。查詢輸入裝置2〇4是任何計算裝置,如計算衰置 〇可自6十算裝置提供搜尋查詢。例如查詢輸入裝置 可為個人電腦、筆記型電腦、伺服器電腦、無線電話或裝置、 個人數位助理(PDA)、數位相機等。在一實施例中,多個查 輸入裝置204連接到網路2〇2,如數千或數百萬的查詢輸 入裝置204。 搜尋擎伺服益2〇6包括諸如計算裝置】〇〇之任何計算 裝置並提供至少部分功能以提供基於内容的搜尋引擎。在 一實施例中’搜尋引擎伺服器群組206分享或分散提供搜尋 23 201220099 引擎操作給使用者所需的功能。 環境繼中還提供圖像處理飼服器2〇8。圖像處理飼服器 2〇8包括諸如計算裝置1〇〇之 代表和索引圖像的内容,更詳”二:裝置’並配置以分析、 -包括量化表21。儲二::於下,處理伺服器 G儲存於圖像處理伺服器2G8的記憶體 令或可由圖像處理飼服器2〇8遠端存取。量化表21〇由圖像 處理飼服器208使用以通知圖像内容之映射,以允許圖像特 徵的搜尋和索引。 搜尋引擎龍器206和圖像處理飼服器2〇8係通訊輕合 至圖像健存器212和索引214。圖像儲存器212和索引叫 包括任何可料電腦儲存裝置,如硬碟、快閃記憶體、光學 記憶體裝置等。圖像儲存器212提供圖像檔案的資料儲存, 可回應於本發明-實施例之基於内容的搜尋而提供圖像稽 案。索引214提供搜尋索引,用於對透過網路2们可取得之 文包括在圖像儲存器212中健存的圖像)進行基於内容的 搜尋。索引214可利用任何索引資料結構或格式,最好使用 反索引格式。請注意在-些實施例中,圖像儲存器212是可 選擇的。 反索引提供映射,該映射描述内容在資料結構中的位 置。例如,當搜尋—文件找出敎關鍵字時(包括關鍵字描 述),關鍵字是在反索引中找到,該反索引識別該字在文件 中的位置及/或特徵在圖像文件中的呈現,而非搜尋文件以找 到字或特徵的位置。 在貫施例中’搜尋引擎伺服器2〇6、圖像處理飼服器 24 201220099 謂、圖像儲存器212和索引214之一或更多者係整合在單 -汁异裝置中’或直接通訊耦合以允許裝置之間的直 訊’而不需穿越網路2〇2。 圖10繪示根據本發明一實施例之方法, 一乂疋根據本發明 貫施例之在電腦儲存媒體上實施之方法的可執行指令 1。中’在mo取得圖像、視頻或音頻檔案,包二被:: 之多個相關特徵。在1020,圖像、視頻或音頻檔案盘至少一 關鍵字相關聯。在1030,圖像、視頻或音 鍵字提交作為搜判㈣查詢。在_,接收至少—回應結 果,回應結果係回應於相關特徵和相關聯關鍵字。在刪 顯示至少一回應結果。 圖11根據本發明實施例描述另一方法,或是根據本發明 實施例之在電腦儲存媒體上實 貝他疋万法的可執行指令。在圖 11中’在111 0接收查詢,杳詢包 —j G栝至少二查詢模式。在1120, 自查S旬揭取對應至少-告' 山一查δ句模式之相關特徵。在U30,基於 擷取的相關特徵,選擇多個回庫姓 應、、、。果。在U40,基於擷取的 相關特徵,排序多個回應結果。 在115〇 ’顯示一或更多排序 回應結果。 圖12緣示根據本發明一實 ^ ^ Α 貫施例之另一方法,或是根據本 發明實施例之在電腦儲存媒體 仔媒體上實施之方法的可執行指 令。在圖12中,在121〇接收包 括至少一關鍵字之查詢。在 12 2 0 ’基於收到的查詢,題千夕如 颍不多個回應結果。在123〇,接收 包括圖像、視頻或音頻檔案 Λ '、 夕―者之補充查詢輸入。在 1240 ’基於補充查詢輸入 /文夕個回應結果的排序。在 25 201220099 顯示回應結果的一或更多者。 1 2 5 0 ’基於修改後的排序 額外實施例 、第一實施例包括執行多模態搜尋的方法。在⑴〇,此方 法I括接收查《旬,5亥查詢包括至少二查詢模式;在丄,自 ϋ特徵’相關特徵對應至少二查詢模式;在 1130,基於擷取的相關特徵,選擇多個回應結果;在U40, 基於榻取的相關特徵,排序多個回應結果;纟mo,顯示排 序回應結果之一或更多者。 第一實施例包括第_實施例的方法,其中,在收到之查 言旬中的查詢模式包括關 從關鍵子、圖像、視頻或音頻檔案之兩或 更多者。 第二實施例包括上iiit警九丨+ /τ J·» 任上述貫施例之任一者,其中多個回應文 件係使用來自至少二杳啕指 —°句模式之整合相關特徵的反索引而 選擇。 立頻第二實:例包括第三實施例,其"取自圖像、視頻或 曰頻棺案的相關特徵是整合到反索引中作為描述符關鍵字。 在第五實施例令,提供執行多模態搜尋的方法。在⑻〇, 該方法包括取得圖像、視頻或音 优馮^日頻檔案,包括多個可擷取的 相關特徵;在聊,將圖像、視頻< Τ操取的 丰相β 擋案與至少-關鍵 子才關聯,在1030,提交圖像、視頻 ^ ^ ^ ^ 曰屑檔案及相關聯關 鍵子至搜尋引擎作為查詢;在1040 钤5小 ^ 牧叹主J 一回應結果, ^ ^ 一回應結果係回應於相關特徵和相關$ Μ # ~六 1πςπ as _ 仰關聯關鍵字;在 〇50,顯不至少一回應結 26 201220099 第六實施例包括任何上述實施例’其中擷取的相關特徵 對應關鍵字和圖像。 第七實施例包括任何上述實施例,還包括:自圖像、視 頻或音頻棺案中擷取元資料;自操取的元資料識別—戍更多 關鍵字;形成第二查詢’包括至少擷取自收到之查詢的相關 特徵及自所擷取元資料識別之關鍵字。 第八實施例包括第七實施例,其中基於擷取的相關特徵 來排序多個回應檔案包括基於第二查詢來排序多個回應文 件。 第九實施例包括第七或第八實施例’其中第二查詢係相 關聯於顯示回應結果而顯示。 第十實施例包括第七至第九實施例的任一者,還包括: 基於第二查詢,自動選擇第二多個回應文件;基於第二查 詢,排序第二多個回應文件;顯示第二多個回應文件之至少 一文件。 第十一實施例包括任何上述實施例,其中自與取得裝置 相關聯之攝影機取得之圖像或視頻作為圖像或視頻。 第十二實施例包括任何上述實施例,其中圖像、視頻或 音頻檔案係透過經由網路存取儲存的圖像、視頻、或音頻檔 案取得。 第十三實施例包括任何上述實施例,其中至少一回應結 果包括文字文件、圖像、視頻、音頻檔案、文字文件的識別、 圖像的識別、視頻的識別、音頻的識別或上述組合。 第十四實施例包括任何上述實施例’其中該方法進步 27 201220099 包括:基於提交的查詢和對應至少—回應結果的元資料,顯 示一或更多查詢建議。 在第十五實施例,提供用於執行多模態搜尋的方法,包 括:在1210,接收包括至少一關鍵字的查詢;在122〇,根 據收到的查詢,顯示多個回應结果;在】2 3 〇,接收包括圖像、 視頻或音頻檔案之至少一者之補充查詢輸入;在124〇,基於 補充查詢輪入,排序多個Θ靡έ士里* tt 4·,〜 F汁夕個口應,σ果,及在125〇,根據修改後 的排序,顯示回應結果的一或更多者。 本發明實施例已與特定實施例共同描述,特定實施例在 各方面都日在說明而非限制。在不偏離㈣的情況下,替代 實施例對於本發明領域具有通常知識者將是明顯的。 從上述可知,本發明適於達到前述目的和目標及顯而易 見且固有於結構的其他優點。 應理解到’某些特徵和次組合是實用性的,可在不參考 其㈣徵和次組合的情況下實施。這有被考慮到且在請求項 的範圍之内。 【圖式簡單說明】 參考隨附圖式詳細描述本發明於下,其中 圖1繪示範例計算環境’適合用於實施本發明實施例 圖2繪示適合執行本發明實施例的網路環境。 之 圖3繪示根據本發明實施例之範例使用者介面组件。 圖4繪示執行本發明實施例所涉及的各個組件和程序 28 實施例之自圖像擷取圖像特徵之 明各種實施例之範例方法。 214索引 3 11-3 15輸入框 405查詢關鍵字 407查詢圖像 4 1 2圖像理解組件 414元資料分析組件 422圖片文字特徵和圖像視 覺特徵組件 432查詢修改/查詢延伸 442查詢建議 444答案 446結合的排序結果 452產生結果 462 UI互動組件 1010-1250步驟方法 201220099 間的關係。 圖5-9繪示根據本發明 範例。 圖10-12繪示根據本發 【主要元件符號說明】 100操作環境 110匯流排 112記憶體 114處理器 116呈現組件 118 I/O 端口 120 I/O組件 122電源供應 200範例網路環境 202網路 204查詢輸入裝置 206搜尋引擎伺服器 208圖像處理伺服器 210量化表 212圖像儲存器 29

Claims (1)

  1. 201220099 七、申請專利範圍: 1'種電腦儲存媒體,用於儲存電腦可使用指令,备由 -計算裝置執行電腦可使用指令時,執行一用於執行―: 態搜尋的方法,該方法包括: 獲取-圖像、一視頻或一音頻檔案,該圖像、視 - 頻檔案包括多個可被擷取的相_徵; 5 :至少-關鍵字相關聯該圖像、視頻或音頻檔案; -杳二交該圖像、視頻、或音頻檔案和該相關聯關鍵字作為 ~ s旬到一搜尋引擎; 马 關转=收至)—回應結果’該至少—回應結果回應於兮等相 關特徵和該相關聯關鍵字;& 、該專相 顯示該至少—回應結果。 音頻==電腦儲存媒體’其中該圖像、視頻、或 料。 ’匕制该圖像、視頻、或音頻檔案之元資 3 ·如請求項 Q 之電腦儲存媒體 疋回應該等相關特 、八中該至y —回應結果 像、视頻、b 該相關聯關鍵字、及擷取自對應該圖 次音頻槽案之該元資料的—或更多關鍵字。 4 ·如請求項丨 頰包括自與一冑 腦儲存媒體,其中獲取該圖像或該視 取裝置相關聯之—攝影機獲取一圖像。 30 201220099 5 ·如s奮求項1 或音頻檔案包括透 61儲存媒體,其中獲取該圖像、視頻、 括透過-網路存取1存輸入。 6.如喷求項1之電腦儲存媒體,1 包括-文字文件、—圖德、、、體其中該至少-回應結果 "、—視頻、一音頻檔案或上述組合。 7.如清求項i之電腦 Λ,- 卡腹其中該至少一回庳社里 包括一文字文件之一埤U應結果 視頻之一識 識别、一圖像之—識別、 別、或一音頻檔案之一識別。 8.如清求項1之電 基於該提交的查詢和對二 -或更多查詢建議 P回應結果的元資料而顯示 該方法包括以下 9.-種用於執行__多模態搜尋的方法 步驟: 接收包括至少二查詢模式之一查詢; 自該查詢擷取對應該至少二查詢模式之相關特徵 基於該擷取之相關特徵,選擇多個回應結果; 基於該擷取之相關特徵,排序該等回應結果; 顯示排序之該等回應結果的一或更多者。 杳 10·如請求項9之方法,其令在該接收之查詢令的該等 31 201220099 一視頻或一音頻檔案之兩或 :::包括,字、1像 白 11.如請求項9 該至少二
    之方法,其中該等回應文件是使用整合來 式之相關特徵的一反索引來選擇。 1 2.如請求項u 頻檔案之相 之方法,其中擷取自該圖像、視頻或音 _特徵係整合刭玆及索引作為描述符關鍵字。 13.如請求項 字和一圖像 9之方法,其中該擷取相關特徵對應一關鍵 14.如請求項9之方法,該方法進一步包括以下步驟: 自一圖像、一視頻或一音頻檔案擷取元資料; 自該擷取的元資料識別一或更多關鍵字;及 形成一第二查詢,該第二查詢包括至少自該收到的查詢 中掏取的該等相關特徵及自該擷取的元資料識別的該等關 鍵字。 如請求項14之方法’其中基於該等擷取之相關特徵 排序該等回應結果之步驟包括以下步驟:基於該第二查詢, 排序該等回應文件。 16.如請求項丨4之方法,其中該第二查詢係以相關聯於 32 201220099 顯示 該等顯示之回應結果之方式 17.如請求項14之方法,該方法進一梦包括以下牛 基於該第二杳均,^ —° 動選擇一第二多個回應文件. 基於該第二查詢’排序該第二該等回應文件;及’ 自該第二該等回應文件,顯示至少一文件。 18.—種用於執行一 步驟: 多模態搜尋的方法,該方法 包括以下 接收包括至少— 夕 關鍵字之一查詢; 基於該收到的杳^自,Ss _々 幻宜〇旬,顯不多個回應結果; 接收補充的杳兮1 & λ —為輸入,该補充的查詢輸入包括一圖像、 一視頻或一音頻檔案之至少一者; 基於該補充的查詢輸入,修改該等回應結果之一排序; 基於該修改之排序,顯示該等回應結果之一或更多者。 19.如凊求項18之方法,該方法進一步包括以下步驟: 自與該至少一圖像 '視頻、或音頻檔案相關聯之元資料 擷取額外的關鍵字; 將該等操取之額外關鍵字整合至補充查詢。 2〇·如請求項18之方法,該方法進一步包括以下步驟: 基於與該回應結果相關聯之元資料’自至少一回應結果 33 201220099 擷取額外的關鍵字,該回應結果係一圖像、一視頻或一音頻 檔案; 將該等擷取之額外關鍵字整合至該補充查詢。 34
TW100135048A 2010-11-05 2011-09-28 Multi-modal approach to search query input TW201220099A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/940,538 US20120117051A1 (en) 2010-11-05 2010-11-05 Multi-modal approach to search query input

Publications (1)

Publication Number Publication Date
TW201220099A true TW201220099A (en) 2012-05-16

Family

ID=45884793

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100135048A TW201220099A (en) 2010-11-05 2011-09-28 Multi-modal approach to search query input

Country Status (12)

Country Link
US (1) US20120117051A1 (zh)
EP (1) EP2635984A4 (zh)
JP (1) JP2013541793A (zh)
KR (1) KR20130142121A (zh)
CN (1) CN102402593A (zh)
AU (1) AU2011323602A1 (zh)
IL (1) IL225831A0 (zh)
IN (1) IN2013CN03029A (zh)
MX (1) MX2013005056A (zh)
RU (1) RU2013119973A (zh)
TW (1) TW201220099A (zh)
WO (1) WO2012061275A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI617929B (zh) * 2014-04-30 2018-03-11 伊克斯卡萊柏智慧財產有限責任公司 儲存於可由處理器電路執行之一非暫態媒介中的系統及方法
TWI695275B (zh) * 2014-05-23 2020-06-01 南韓商三星電子股份有限公司 搜索方法、電子裝置及電腦可讀記錄媒體
TWI697789B (zh) * 2018-06-07 2020-07-01 中華電信股份有限公司 輿情查詢系統及方法
US11080350B2 (en) 2014-05-23 2021-08-03 Samsung Electronics Co., Ltd. Method for searching and device thereof
TWI748266B (zh) * 2014-05-23 2021-12-01 南韓商三星電子股份有限公司 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體
US11314826B2 (en) 2014-05-23 2022-04-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
TWI784780B (zh) * 2021-11-03 2022-11-21 財團法人資訊工業策進會 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
FR2973134B1 (fr) * 2011-03-23 2015-09-11 Xilopix Procede pour affiner les resultats d'une recherche dans une base de donnees
US8688514B1 (en) * 2011-06-24 2014-04-01 Google Inc. Ad selection using image data
US8949212B1 (en) * 2011-07-08 2015-02-03 Hariharan Dhandapani Location-based informaton display
US9576046B2 (en) 2011-11-16 2017-02-21 Ptc Inc. Methods for integrating semantic search, query, and analysis across heterogeneous data types and devices thereof
US8909641B2 (en) 2011-11-16 2014-12-09 Ptc Inc. Method for analyzing time series activity streams and devices thereof
US20130226892A1 (en) * 2012-02-29 2013-08-29 Fluential, Llc Multimodal natural language interface for faceted search
US8768910B1 (en) * 2012-04-13 2014-07-01 Google Inc. Identifying media queries
US11023520B1 (en) 2012-06-01 2021-06-01 Google Llc Background audio identification for query disambiguation
US20140075393A1 (en) * 2012-09-11 2014-03-13 Microsoft Corporation Gesture-Based Search Queries
CN103678362A (zh) * 2012-09-13 2014-03-26 深圳市世纪光速信息技术有限公司 搜索方法及系统
CN103714094B (zh) * 2012-10-09 2017-07-11 富士通株式会社 识别视频中的对象的设备和方法
WO2014076559A1 (en) * 2012-11-19 2014-05-22 Ismail Abdulnasir D Keyword-based networking method
CN103853757B (zh) * 2012-12-03 2018-07-27 腾讯科技(北京)有限公司 网络的信息展示方法和系统、终端和信息展示处理装置
US20140156704A1 (en) 2012-12-05 2014-06-05 Google Inc. Predictively presenting search capabilities
US10795528B2 (en) 2013-03-06 2020-10-06 Nuance Communications, Inc. Task assistant having multiple visual displays
US10783139B2 (en) * 2013-03-06 2020-09-22 Nuance Communications, Inc. Task assistant
US20140286624A1 (en) * 2013-03-25 2014-09-25 Nokia Corporation Method and apparatus for personalized media editing
CA2912460A1 (en) * 2013-05-21 2014-11-27 John CUZZOLA Method and system of intelligent generation of structured data and object discovery from the web using text, images, video and other data
JP2014232907A (ja) * 2013-05-28 2014-12-11 雄太 安藤 現在位置に基づくサイトページを所望条件順に携帯端末に表示する方法及びシステム
US9542488B2 (en) * 2013-08-02 2017-01-10 Google Inc. Associating audio tracks with video content
US9384213B2 (en) * 2013-08-14 2016-07-05 Google Inc. Searching and annotating within images
KR101508429B1 (ko) 2013-08-22 2015-04-07 주식회사 엘지씨엔에스 사용자 단말에 에이전트 서비스를 제공하는 방법 및 시스템
CN103473327A (zh) * 2013-09-13 2013-12-25 广东图图搜网络科技有限公司 图像检索方法与系统
US9189517B2 (en) * 2013-10-02 2015-11-17 Microsoft Technology Licensing, Llc Integrating search with application analysis
MX2016005070A (es) * 2013-10-21 2016-07-19 Microsoft Technology Licensing Llc Busqueda de video movil.
CN103686200A (zh) * 2013-12-27 2014-03-26 乐视致新电子科技(天津)有限公司 智能电视视频资源搜索的方法和系统
WO2015140922A1 (ja) * 2014-03-18 2015-09-24 楽天株式会社 情報処理システム、情報処理方法、および情報処理プログラム
US20150278370A1 (en) * 2014-04-01 2015-10-01 Microsoft Corporation Task completion for natural language input
US20150339348A1 (en) * 2014-05-23 2015-11-26 Samsung Electronics Co., Ltd. Search method and device
CN105095341A (zh) * 2014-05-23 2015-11-25 三星电子株式会社 搜索方法和设备
CN105446972B (zh) * 2014-06-17 2022-06-10 阿里巴巴集团控股有限公司 基于及融合用户关系数据的搜索方法、装置和系统
US9852188B2 (en) * 2014-06-23 2017-12-26 Google Llc Contextual search on multimedia content
US9934331B2 (en) * 2014-07-03 2018-04-03 Microsoft Technology Licensing, Llc Query suggestions
US10558630B2 (en) 2014-08-08 2020-02-11 International Business Machines Corporation Enhancing textual searches with executables
CN104281842A (zh) * 2014-10-13 2015-01-14 北京奇虎科技有限公司 人脸图片人名识别方法和装置
US9904450B2 (en) 2014-12-19 2018-02-27 At&T Intellectual Property I, L.P. System and method for creating and sharing plans through multimodal dialog
KR102361400B1 (ko) * 2014-12-29 2022-02-10 삼성전자주식회사 사용자 단말장치, 서비스제공장치, 사용자 단말장치의 구동방법, 서비스제공장치의 구동방법 및 암호화 색인기반 검색 시스템
US9805141B2 (en) * 2014-12-31 2017-10-31 Ebay Inc. Dynamic content delivery search system
US10346876B2 (en) 2015-03-05 2019-07-09 Ricoh Co., Ltd. Image recognition enhanced crowdsourced question and answer platform
US20160335493A1 (en) * 2015-05-15 2016-11-17 Jichuan Zheng Method, apparatus, and non-transitory computer-readable storage medium for matching text to images
US20170046055A1 (en) * 2015-08-11 2017-02-16 Sap Se Data visualization in a tile-based graphical user interface
CN105045914B (zh) * 2015-08-18 2018-10-09 瑞达昇科技(大连)有限公司 信息归纳分析方法及装置
CN105005630B (zh) * 2015-08-18 2018-07-13 瑞达昇科技(大连)有限公司 全媒体中多维检测特定目标的方法
CN105183812A (zh) * 2015-08-27 2015-12-23 江苏惠居乐信息科技有限公司 多功能信息咨询系统
US9984075B2 (en) 2015-10-06 2018-05-29 Google Llc Media consumption context for personalized instant query suggest
CN105303404A (zh) * 2015-10-23 2016-02-03 北京慧辰资道资讯股份有限公司 一种快速识别用户兴趣点的方法
CN107203572A (zh) * 2016-03-18 2017-09-26 百度在线网络技术(北京)有限公司 一种图片搜索的方法及装置
US10157190B2 (en) * 2016-03-28 2018-12-18 Microsoft Technology Licensing, Llc Image action based on automatic feature extraction
US10706098B1 (en) * 2016-03-29 2020-07-07 A9.Com, Inc. Methods to present search keywords for image-based queries
CN106021402A (zh) * 2016-05-13 2016-10-12 河南师范大学 用于跨模态检索的多模态多类Boosting框架构建方法及装置
US10698908B2 (en) 2016-07-12 2020-06-30 International Business Machines Corporation Multi-field search query ranking using scoring statistics
KR101953839B1 (ko) * 2016-12-29 2019-03-06 서울대학교산학협력단 추가 질의에 대한 쌍별 비교 데이터를 이용한 업데이트된 다중랭킹 추정 방법
US11176189B1 (en) * 2016-12-29 2021-11-16 Shutterstock, Inc. Relevance feedback with faceted search interface
US20210089571A1 (en) * 2017-04-10 2021-03-25 Hewlett-Packard Development Company, L.P. Machine learning image search
US20190095069A1 (en) * 2017-09-25 2019-03-28 Motorola Solutions, Inc Adaptable interface for retrieving available electronic digital assistant services
US11200241B2 (en) * 2017-11-22 2021-12-14 International Business Machines Corporation Search query enhancement with context analysis
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11676220B2 (en) * 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US10963273B2 (en) 2018-04-20 2021-03-30 Facebook, Inc. Generating personalized content summaries for users
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11169668B2 (en) * 2018-05-16 2021-11-09 Google Llc Selecting an input mode for a virtual assistant
US10740400B2 (en) * 2018-08-28 2020-08-11 Google Llc Image analysis for results of textual image queries
US11588759B2 (en) * 2019-04-12 2023-02-21 Asapp, Inc. Automated communications over multiple channels
CN110738061B (zh) * 2019-10-17 2024-05-28 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
CN113127679A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 视频搜索方法及装置、索引构建方法及装置
CN111221782B (zh) * 2020-01-17 2024-04-09 惠州Tcl移动通信有限公司 一种文件查找方法、装置、存储介质及移动终端
CN113139121A (zh) * 2020-01-20 2021-07-20 阿里巴巴集团控股有限公司 查询方法、模型训练方法、装置、设备及存储介质
US11423019B2 (en) 2020-03-24 2022-08-23 Rovi Guides, Inc. Methods and systems for modifying a search query having a non-character-based input
CN111581403B (zh) * 2020-04-01 2023-05-23 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
US11500939B2 (en) 2020-04-21 2022-11-15 Adobe Inc. Unified framework for multi-modal similarity search
CN113297452A (zh) * 2020-05-26 2021-08-24 阿里巴巴集团控股有限公司 多级检索方法、多级检索装置及电子设备
CN113821704B (zh) * 2020-06-18 2024-01-16 华为云计算技术有限公司 构建索引的方法、装置、电子设备和存储介质
CN112004163A (zh) * 2020-08-31 2020-11-27 北京市商汤科技开发有限公司 视频生成方法及装置、电子设备和存储介质
US20230281258A1 (en) * 2020-09-23 2023-09-07 Google Llc Systems and Methods for Generating Contextual Dynamic Content
US11461681B2 (en) * 2020-10-14 2022-10-04 Openstream Inc. System and method for multi-modality soft-agent for query population and information mining
CN112579868B (zh) * 2020-12-23 2024-06-04 北京百度网讯科技有限公司 多模态识图搜索方法、装置、设备以及存储介质
KR102600757B1 (ko) * 2021-03-02 2023-11-13 한국전자통신연구원 대화 기반의 몽타주 생성 방법 및 이를 이용한 장치
CN113297475A (zh) * 2021-03-26 2021-08-24 阿里巴巴新加坡控股有限公司 商品对象信息搜索方法、装置及电子设备
CN113656546A (zh) * 2021-08-17 2021-11-16 百度在线网络技术(北京)有限公司 多模态搜索方法、装置、设备、存储介质以及程序产品
CN116775980B (zh) * 2022-03-07 2024-06-07 腾讯科技(深圳)有限公司 一种跨模态搜索方法及相关设备
CN114372081B (zh) * 2022-03-22 2022-06-24 广州思迈特软件有限公司 数据准备方法、装置和设备
KR102492277B1 (ko) 2022-06-28 2023-01-26 (주)액션파워 멀티모달 정보를 이용한 질의응답 수행 방법
CN115422399B (zh) * 2022-07-21 2023-10-31 中国科学院自动化研究所 视频搜索方法、装置、设备和存储介质
US20240028638A1 (en) * 2022-07-22 2024-01-25 Google Llc Systems and Methods for Efficient Multimodal Search Refinement

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099860B1 (en) * 2000-10-30 2006-08-29 Microsoft Corporation Image retrieval systems and methods with semantic and feature based relevance feedback
US6556710B2 (en) * 2000-12-15 2003-04-29 America Online, Inc. Image searching techniques
US7437363B2 (en) * 2001-01-25 2008-10-14 International Business Machines Corporation Use of special directories for encoding semantic information in a file system
US6901411B2 (en) * 2002-02-11 2005-05-31 Microsoft Corporation Statistical bigram correlation model for image retrieval
DE10333530A1 (de) * 2003-07-23 2005-03-17 Siemens Ag Automatische Indexierung von digitalen Bildarchiven zur inhaltsbasierten, kontextsensitiven Suche
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US7818315B2 (en) * 2006-03-13 2010-10-19 Microsoft Corporation Re-ranking search results based on query log
US7739221B2 (en) * 2006-06-28 2010-06-15 Microsoft Corporation Visual and multi-dimensional search
US7779370B2 (en) * 2006-06-30 2010-08-17 Google Inc. User interface for mobile devices
KR100785928B1 (ko) * 2006-07-04 2007-12-17 삼성전자주식회사 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템
US20080071770A1 (en) * 2006-09-18 2008-03-20 Nokia Corporation Method, Apparatus and Computer Program Product for Viewing a Virtual Database Using Portable Devices
US20090287655A1 (en) * 2008-05-13 2009-11-19 Bennett James D Image search engine employing user suitability feedback
US8254697B2 (en) * 2009-02-02 2012-08-28 Microsoft Corporation Scalable near duplicate image search with geometric constraints
US8452794B2 (en) * 2009-02-11 2013-05-28 Microsoft Corporation Visual and textual query suggestion
US8275759B2 (en) * 2009-02-24 2012-09-25 Microsoft Corporation Contextual query suggestion in result pages

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI617929B (zh) * 2014-04-30 2018-03-11 伊克斯卡萊柏智慧財產有限責任公司 儲存於可由處理器電路執行之一非暫態媒介中的系統及方法
TWI695275B (zh) * 2014-05-23 2020-06-01 南韓商三星電子股份有限公司 搜索方法、電子裝置及電腦可讀記錄媒體
US11080350B2 (en) 2014-05-23 2021-08-03 Samsung Electronics Co., Ltd. Method for searching and device thereof
US11157577B2 (en) 2014-05-23 2021-10-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
TWI748266B (zh) * 2014-05-23 2021-12-01 南韓商三星電子股份有限公司 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體
US11314826B2 (en) 2014-05-23 2022-04-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
US11734370B2 (en) 2014-05-23 2023-08-22 Samsung Electronics Co., Ltd. Method for searching and device thereof
TWI697789B (zh) * 2018-06-07 2020-07-01 中華電信股份有限公司 輿情查詢系統及方法
TWI784780B (zh) * 2021-11-03 2022-11-21 財團法人資訊工業策進會 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體
US12014546B2 (en) 2021-11-03 2024-06-18 Institute For Information Industry Multimodal method for detecting video, multimodal video detecting system and non-transitory computer readable medium

Also Published As

Publication number Publication date
IN2013CN03029A (zh) 2015-08-14
IL225831A0 (en) 2013-07-31
KR20130142121A (ko) 2013-12-27
JP2013541793A (ja) 2013-11-14
AU2011323602A1 (en) 2013-05-23
EP2635984A1 (en) 2013-09-11
US20120117051A1 (en) 2012-05-10
MX2013005056A (es) 2013-06-28
RU2013119973A (ru) 2014-11-10
CN102402593A (zh) 2012-04-04
WO2012061275A1 (en) 2012-05-10
EP2635984A4 (en) 2016-10-19

Similar Documents

Publication Publication Date Title
TW201220099A (en) Multi-modal approach to search query input
US20220035827A1 (en) Tag selection and recommendation to a user of a content hosting service
US8433140B2 (en) Image metadata propagation
US9710491B2 (en) Content-based image search
US9384214B2 (en) Image similarity from disparate sources
US20090112830A1 (en) System and methods for searching images in presentations
Amato et al. VISIONE at video browser showdown 2023
Hong et al. Multimedia question answering
US8606780B2 (en) Image re-rank based on image annotations
US20210326367A1 (en) Systems and methods for facilitating searching, labeling, and/or filtering of digital media items
CN111046225B (zh) 音频资源处理方法、装置、设备及存储介质
US9558185B2 (en) Method and system to discover and recommend interesting documents
JP6767342B2 (ja) 検索装置、検索方法および検索プログラム
US8768105B2 (en) Method for searching a database using query images and an image anchor graph-based ranking algorithm
Wang et al. Bilateral correspondence model for words-and-pictures association in multimedia-rich microblogs
Lu et al. Browse-to-search: Interactive exploratory search with visual entities
Poornima et al. Multi-modal features and correlation incorporated Naive Bayes classifier for a semantic-enriched lecture video retrieval system
KR101826594B1 (ko) 지식 구조 기반의 전자책 추천 방법 및 시스템
CN116361428A (zh) 一种问答召回方法、装置和存储介质
Hong et al. An efficient tag recommendation method using topic modeling approaches
Yanagi et al. Scene retrieval for video summarization based on text-to-image GAN
Lu et al. Exploratory product image search with circle-to-search interaction
Chen et al. TRECVID 2010 Known-item Search by NUS.
Djuana et al. Ontology learning from user tagging for tag recommendation making
Wassenaar Linking segments of video using text-based methods and a flexible form of segmentation: How to index, query and re-rank data from the TRECVid (Blip. tv) dataset?