TW201220099A - Multi-modal approach to search query input - Google Patents
Multi-modal approach to search query input Download PDFInfo
- Publication number
- TW201220099A TW201220099A TW100135048A TW100135048A TW201220099A TW 201220099 A TW201220099 A TW 201220099A TW 100135048 A TW100135048 A TW 100135048A TW 100135048 A TW100135048 A TW 100135048A TW 201220099 A TW201220099 A TW 201220099A
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- query
- response
- video
- search
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
201220099 六、發明說明: 【發明所屬之技術領域】 本發明是關於搜尋查詢輸入的多模態方法。 【先前技術】 諸如透過廣域網路之搜尋引擎的各種資訊搜尋和擷取方 法是習知.的。這種方法通常使用基於文字的搜尋。基於文字 的搜尋使用搜尋查詢,搜尋查詢包含一或更多諸如單字或詞 組之文字元素。文字元素與索引或其他資料結構相比以識別 諸如網頁之文件’文件包括匹配或語義相似的文字内容、元 資料、檔案名稱、或其他文字表示。 已知的基於文字的搜尋方法對於基於文字的文件而言效 果相當好’但難以適用於圖4播—案和資料。為了透邁-基一於文― 字查詢來搜尋圖像檔案,圖像檔案必須與一或更多文字元素 如標題、檔案名稱、或其他元資料或標記相關聯。用於基於 文字搜尋之搜尋引擎和演算法不能基於圖像内容來搜尋圖 像檔案,因此限於僅基於與圖像相關聯的資料來識別搜尋結 果圖像。 已發展出基於内容的圖像搜尋方法,該圖像搜尋方法分 析圖像内容以識別視覺上相似的圖像。然而,這種方法可限 於識別與圖像搜尋之輸入相關的基於文字的文件。 【發明内容】 201220099 ;在各種實施例中’提供用於使用?個輸人模式作為搜尋 查6旬的-部分。該方法允許搜尋查詢包含關鍵字或文字輸 入、圖像輸入、視頻輪入、音頻輸入或其他輸入模式的組合。 基於摘取自各種查詢輸人的模式,可以執行回應文件之搜 尋。多個查詢輸人模式可出現在初始搜尋請求,或是包含單 -類型查詢輸入之初始請求可以第二類型的輸入補充。除了 提供回應結果,在一些實施例中,可基於查 應結果進行額外的查詢改進或建議。 本「發明内容」係提供以簡化的形式來介紹將於以下「實 施方式」中進纟描述的—些概念。本「發明内容」並非欲 以識別中請專利標的之重要特徵或必要特徵,亦非欲以單獨 作為決定申請專利標的之範圍的協助。 【實施方式】 概述 在不同的實施例中’提供系統和方法用於整合關鍵字和 基於文字之搜尋輸人與其他的搜尋輸人模式。其他搜尋輸入 模式的例子可以包括圖像輸入、視頻輸入和音頻輸入。更普 遍的系統和方法可以允許基於查詢中多個輸人模式來執 行搜尋夕模態搜尋系統和方法所產生的實施例可以提供輸 到搜尋引擎而提供使用者更大的靈活性。此外,當使用者 使用諸如圖像輸入之一類型的輪入來啟動搜尋,第二類型的 輸入(或夕個其他類型的輸入)彳以用纟改進或修改回應的 5 201220099 搜尋結果。例如,使用者可輸人—或更多關鍵字以關聯一圖 像輪入。在許多情況下’將額外的關鍵字與圖像輸入相關聯 可以比圖像輪入或關鍵字輸入提供更清楚的使用者意圖。 在一些實施例中,透過使用索引,基於多模態搜尋輸入 而執行搜尋以得到回應結果’索引包括與不止一類型的資料 相關的詞彙’如包括基於文字之關鍵字的索引、基於圖像之 關鍵字、基於視頻之關鍵纟、和基於音頻之關鍵字。除了基 :文子的搜尋,一種整合輸入模式的關鍵字的選項是將多模 態特徵與人造關鍵字相關聯。這些人造關鍵字可稱為描述符 關鍵字。例如,用於基於圖像搜尋之圖像特徵可與描述符關 鍵字相關聯,以使基於圖像的搜尋特徵如傳統的基於文字的 關鍵字出現在同一反索引。例如,在西雅圖的「太空針」建 築圖像可能包含多個圖像特徵。這些圖像特徵可自圖像中擷 取’然後與描述符「關鍵字」相關聯,以便與其他基於文字 的關鍵字整合到反索引。 除了將描述符關鍵字整合至基於文字的關鍵字索弓丨,來 自一圖像的描述符關鍵字(或另一類型的非文字輸入)也可 與傳統關鍵字相關聯。在上面的例子中,「女允从 1 八工_」可與一 或更多來自太空針之圖像的描述符關鍵字相關聯。這可允許 包括描述符關鍵字的建議或修訂查詢,因此更適合執疒美\ 圖像之搜尋,以找到其他類似太空針的圖像。這種; 狂·思璣查詢 可提供給使用者以便改善其他與太空針圖像相關之圖像的 搜尋’可自動使用建議查詢識別這種相關圖像。 在下面的討論中,下面的定義是用來描述執 /姨態搜 201220099 尋的態樣。特徵是指任何類型的資訊,回應於搜尋查詢,特 徵可作為文件之選擇及/或排序之一部分。來自基於文字之查 詢的特徵通常包括關鍵字。來自基於圖像之查詢的特徵可包 括識別為獨特的圖像部分,例如圖像中具有對比強度的部分 或圖像中對應人臉用於臉部識別的部分。來自基於音頻查詢 的特徵可包括音頻的音量位準或其他可偵測到的音頻模 式。關鍵字指的是傳統的基於文字的搜尋字詞。關鍵字可以 是指回應於查詢’作為單—術語用於識別文件之—或更多單 子為述符關鍵子疋指與非基於文字的特徵相關聯的關鍵 字。因此,描述符關鍵字可用於識別基於圖像之特徵、基於 視頻之特徵、基於音頻之特徵或其他非文字特徵。回應結果 是指基於搜尋引擎執行之選擇及/或排序,識別為與搜尋杳詢 相關的任何文件。當顯示回應結果時,回應結果可透過顯示 檔案本身來顯示,或可顯示文件的識別符。例如,基於文字 的搜尋引擎所返回之傳統超鏈結(也稱為「藍色鍵結」)代表 其他文件的識別符或到其他檔案的鏈結。透過點擊鏈結,可 表的㈣。文件的識別符可提供或不提供與對應文 件有關的進一步資訊。 接收多模態的搜尋查詢 來自多種搜尋模式的 、政可以自查詢擷取並用以識別回 應查詢的結果。在一竇始 ^ μ ^ ',可透過任何方便的方法提供 多種查珣輸入的模式。例 ,用於接收查詢輸入的使用者介 面可包括用於接收關鍵字 -°旬輸入的對話框。使用者介面還 201220099 可以包括用於接收使用者所選擇之圖像的位置,如允許使用 者將所欲之輸入圖像置入使用者介面的圖像查詢框。另外, 圖像查詢框可接收圖檔案位置或網路位址作為圖像輸入的 來源。可提供類似的框或位置用於識別音頻檔案、視頻檔案 或另一類型的非文字輸入作為查詢輸入使用。 不需要在同一時間收到多個查詢輸入模式。可先提供一 種類型的查詢輸人’,然後可提供第二輸人模式來細化查詢。 例如,可提交電影明星的圖像作為查詢輸入。這將返回可能 匕括圖像@系'列匹配結果。基於使用者想要知道電影明星 的名子’可將「演員」鍵人搜尋查詢框作為關鍵字,以細化 搜尋結果。 ,接收多模態搜#資訊I,多才莫態資訊可作為#尋查詢以 識別回應結果。回應結果可為搜尋引擎決^為有關的任何類 型文件’無論搜尋查詢的輸入模式為何。因此,圖像項目可 識別為基於文字查詢的回應文件,或是基於文字的項目可為 基於音頻㈣的回應文件。此外’包括二種以上之輸入模式 的查詢也可用來識別任何可用類型的回應結果。顯示給使用 者的回應結果可為, 為文件的形式,或為回應文件的識別符的形 式。 口應結果的識別。在一實施 ’諸如反索引之單一索引可 。或者,單一的排序系統可 無論索引的數量或形式,一 部分及/或用於識別回應查 可使用一或更多索引以促進 例中,基於所有類型的搜尋模式 用於儲存關鍵字和描述符關鍵字 使用夕個索引儲存術語或特徵。 或更多索y可作為整合選擇的一 201220099 -旬之文件的排序方法。基於任何可用的查詢輸入模式選擇方 法及/或排序方法可將特徵整合。 與其他類型的輸人相關聯之基於文字的關鍵字也可榻取 使用。整合多種資訊模式的選擇之一是可使用與另一查詢輸 入模式相關聯的文字資訊。圖像、視頻或音頻檔案往往會具 有與檔案相關聯的元資料。彳包括播案的標題、檔案的主 題、或與樓案相關聯的其他文字。其他文字可以包括屬於文 件之-部分的文字,其中媒體⑽顯示為鏈結,例如網頁或 描述媒體檔案的其他文字。與圖像、視頻或音頻檔案相關聯 的元資料可以以夕種方式來補充查詢輸入。文字元資料可用 來形成提供給使用者的額外查詢建議。文字也可被自動使用 以補充現有的搜尋查詢,以修改回應結果的排序。 除了使用與輸人查詢相關的元資料外,與回應結果相關 聯的元資料可用來修改搜尋查詢。例如,基於圖像的搜尋查 "句可導致著名的艾菲爾鐵塔圖像作為回應結果。來自回應結 果的元資料可能表示艾菲爾鐵塔是回應圖像結果的主題。元 資料可用來建議使用者額外的查詢,或自動補充搜尋查詢。 有多種擷取元資料的方法。可預先決定元資料擷取技 術,或是可由人或自動化的程序進行動態選擇。元資料擷取 技術可包括但不僅限於當使用者在文字查詢之後選擇近乎 重複者時分析嵌入元資料的檔案名稱;(2)自近乎重 複之數位物件擷取元資料;(3 )擷取近乎重複之數位物件所 在之網頁中的周圍文字;(4)自支援註釋和評論的網站擷取 與近乎重複相關聯之註釋和評論,其中近乎重複之數位媒體 201220099 ^件係儲存於該網財;(5)擷取與近乎重複者相關聯之查 -旬關鍵子。在其他實施例中,元資料操取技術可涉及其他操 作。 -些元資料擷取技術始於文字的主體並筛選出最簡潔的 凡資料。因此,可利用諸如文法解析和其他基於符記之分析 的技術。例如,圖像周圍的文字可包含字幕或長段落。至少 錢—種情況下,可解析長段落以掏取有興趣的内容。舉另 例說明,註釋和評論資料包含文字縮寫(如麵〇代表^ my humble opinion)和感性粒子(如表情和重複的驚嘆號)。 儘S IMHO似乎在強調註釋和評論,它很可能是筛選出搜尋 元資料的候選者。 在選擇多個元資料擷取技術的事件中,調和方法可提供 調和潛在衝突候選元資料結果的一種方法M列如,可利用統 十刀析和機器學習或透過規則引擎進行和解。 圖3提供範例使用者介面,該使用者介面適於根據本發 月實施例接收多模態搜尋輸入並顯示回應結果。在圖3中, 使用者介面提供輸人位置用於三種類型的查詢輸人。輸入柩 3U可以接收關鍵字輸入,例如通常由傳統搜尋引擎使用之 基於文字的輸入。輸入框313可接收圖像及,或視頻檔案作為 輸入。貼入 < 置入輸入框313的圖像或視頻檔帛可使用圖像 分析技術分析以識別可擷取用於搜尋的特徵。類似地,輸入 框3丨5可接收音頻檔案作為輸入。 區域32G包含回應結果清單。在圖3所示實施例中,顯 示回應結果332和342。回應結果332是識別為回應搜尋之 201220099 圖像文件的識別符(如縮圖)。除了圖像結果3 3 2,還提供了 鏈結或圖符334以允許經修訂查詢,該經修訂查詢整合圖像 結果332 (或與圖像結果332相關聯的描述符關鍵字)作為 經修訂查詢的一部分。回應結果344對應基於文字之文件的 識別符。 區域340包含基於初始查詢之建議查詢347的清單。可 使用傳統的查詢建議演算法產生建議查詢347的清單。建議 查詢347也可基於與以圖像/視頻輸入312或音頻輸入314提 交之輸入相關聯的兀資料。其他一些建議查詢347可根據與 回應結果相關聯之元資料,如回應結果332。 圖4繪示根據本發明實施例之用於執行多模態搜尋的各 系統及/或程序之間的互動示意圖。在圖4的實施例中,多模 態搜尋對應基於關鍵字查詢輸人和圖像查詢輸人的㈣。在 圖4’基於接收—查詢,開始搜尋。查詢包括查詢關鍵字他 和查δ旬圖像407。為了處理查詢圖像術,圖像理解組件化 可用於識別圖像中的特徵。由圖像理解組件412自查詢圖像 4〇7揭取之特徵可由圖像文字特徵和圖像視覺特徵組件422 指派描述符關鍵字。可由圖像理解組件412使用之範例方法 結合圖5-9描述於下。圖像理解組件412還可以 型的圖像理解方法,如臉部識別方法或用於分㈣像中色杀類 相似性的方法。元資料分析 " 妞關雜从-达企丨 J識別與查詢圖像407 _一:儲存二可包括嵌入圖像檔案中及/或由作業系統 =播案起儲存的資料,如圖像的標題或錯存於槽案 釋。這也包括與圖像相關聯的其他文字,路中的 201220099 文子(文字係輸入以識別用於搜尋之圖像)或圖像附近的文字 (用於位於或嵌入網頁或其他基於文字之文件的圖像)。圖片 文字特徵和圖像視覺特徵組件422可以基於來自元資料分析 4 14的輸出而識別關鍵字特徵。 在識別查詢詞彙405及在圖像文字特徵和圖像視覺特徵 組件422中的任何附加特徵後,產生的查詢可選擇在組件 中被修改或延伸。修改或延伸可基於導自元資料分析組件 414和圖像文字特徵/圖像視覺特徵組件422中之元資料的特 徵。查詢修改或延伸的另一來源可為來自互動組件 之回饋。這可包括由使用者提供的額外查詢資訊,以及基於 來自目前或先前查詢之回應結果的查詢建議442。選擇性修 改或延伸的查詢可用來產生回應結果452。在圖4中,結果 產生452涉及使用查詢以識別在資料庫475中的回應文件, 回應文件包括用於資料庫中之文件的文字和圖像特徵。資料 庫475可代表反索引或任何其他方便的儲存格式類型用於基 於查詢來識別回應結果。 取決於實施例,結果產生452可提供一或更多類型的結 果。在某些情況下,最有可能匹配的識別是可取的,如一或 幾個排序的回應結果。這可提供作為答案444。或者,依 排序順序之回應結果清單是可取的。這可提供作為結合的排 。果446除了答案或排序結果,還可提供-或更多查詢 建議442給使用者’使用者的互動(包括結果顯示和查詢接 收)可由UI互動組件462處理。 12 201220099 基於多媒體的搜尋方法
圖5-9繪示根據本發明實施例之範例圖像5〇〇之處理。在 圖5中’使用運算子演算法處理圖像以識別多個興趣點502。 運算子演算法包括可用來識別圖像则中興趣點5Q2的任何 可用演算法。在—實施例中’運算子演算法可為本技術領域 所热知之高斯演算法或拉普拉斯演算法之差。在一實施例 中’運算子演算法是配置以二維分析圖像5〇〇。可選地,當 圖500是彩色圖像時’圖像5〇〇可以轉換成灰度。 S 興趣點502可包括圖5所示之圖像5〇〇中的任何點以及 圖6所示之圖像500中的區域6〇2、地區、像素群組或特徵。 為了簡潔起見,興趣點502和區$ 6〇2在此後稱為興趣點 502,然而參照興趣點5G2 @目的是包括興趣點如和區域 602在實施例中,興趣點5〇2是位於穩定的圖像則中 的區域且包括圖像5〇〇中的不同或可識別特徵。例如,興趣 點502位於具有鮮明特徵的圖像區域丨,該鮮明特徵具^描 繪在諸如502a和602a之特徵之間的高度對比。才目反地,興 趣點不位於沒有鮮明特徵或對^的區域,如穩定色彩的地區 或504所指之灰度的區域。 運算子演算法識別圖| 500中任何數量的興趣點,例如 數以千計的興趣點。興趣點502可為圖像5〇〇中的點5〇2與 區域602之結合’且興趣點數量可基於圖冑5〇〇的大小。圖 像處理組件302計算出每個興趣點5Q2的度量並根據度量排 序/、趣點502。度量可包括訊號強度或圖像5 〇〇在興趣點5〇2 的信噪比。圖像處理組件302基於排序而選擇興趣點5〇2之 13 201220099 子集用於進-步處理。在-實施例中,選擇具有最高信噪比 之-百個最突出的興趣點5〇2’但是可選擇任何所欲數量的 興趣點。在另-實施例中,沒有選擇—子集,且全㈣興趣 點都包括於進一步處理中β 如圖7所示’可識別對應於選定興趣點如卜組補丁 。每個補了 7G2對應單一選;t興趣點5Q2。補丁 7。2包括 圖像500的區域,該區域包括各自的興趣點如。基於每個 選定興趣點5G2的運算子演算法的輪出,以自圖像5〇〇所 取之每個補丁 702的大小。每個補丁他可有不同的大小, 包含在補丁 702之圖像500的區域可能會重疊。此外,補丁 7〇2的形狀是任何所欲之形狀’包括正方形、長方形、三角 形、圓形、擴圓形等。在所示實施例,補丁 7Q2的形狀是正 方形。 補丁 702可被正規化’如圖7所示。在一實施例中,補 丁 被正規化以使每一補丁 7〇2符合相等大小,如X像素 乘X像素的正方形補丁。將補丁 702正規化至相等大小可包 括增加或減少補T 7G2的大小及/或解析度。補Τ 702也可以 透過-或更多其他操作而正規化,如應用對比增強、去噪音 (speckling)、清晰化、和應用灰度等。 也可決定用於每-正規化補τ的描述符。描述符可為補 丁的為述’該補丁可被整合以作為用於圖像搜尋之特徵。可 以透過計算補T 702中像素的統計資料來決定描述符。在― ^施財,基於補丁 7G2中像素的灰度梯度的統計資料來決 疋描述4。描述符可以每個補丁的直方圖來視覺表示,如在 14 201220099 圖8的&述符802 (其中圖7的補丁 702對應圖8中位置類 〇之据述符802 )。描述符也可被形容為多維向量,例如(舉 例而非限制)多維向量是代表補丁中像素的像素灰度統計。 丁2S2 36維向量是代表像素灰度統計的範例向量。 如圖9所不,可使用量化表900來將描述符關鍵字902 ’、每個描述符802相關聯。量化表9〇〇可包括可用於映射描 述符802至描述符關鍵字902的任何表、索引、圖表、或其 他資料、·’。構。各種形式的量化表9〇〇是本技術領域已知的並 可用於本發明的實施例。在一實施例中量化表则是透過 首先處理大#的圖像(如圖像5叫以識別每個圖像的描述 符802而產生,例如一萬張圖像。對由此識別的描述符8〇2 進行統汁刀析,以識別具有相似或統計相似數值之描述符 8〇2的群集或群組。例如,T2S2向量中的變量值是相似的。 選擇每個群集的代表描述符9〇4並指派量化表9〇〇的位置以 及對應的描述符關鍵字9〇2。描述符關鍵字9〇2可包括識別 對應代表描述符90 1之任何所欲指標,例如描述符關鍵字9〇2 可包括圖9所不之整數值、或字母數字值、數值、符號、文 子或上述組合。在一些實施例中,描述符關鍵字9〇2可包括 序列的子符,該予符識別描述符關鍵字為與非基於文字的 搜尋模式相關聯。例如,所有描述符關鍵字可包括三個整數 的序列及底線子符’作為關鍵字中的前四個字符。然後,可 以使用這個初始序列以識別描述符關鍵字為與圖像相關聯。 對於每一描述符8〇2 ’可在量化表9〇〇中識別最密切匹配 之代表描述符904。例如,圖8十繪示之描述符8〇2&與圖9 15 201220099 中置化表900的代表描述符904a最密切對應。每個描述符 8〇2的描述符關鍵字9〇2因此與圖像5〇〇相關聯(例如描述 符802A對應於描述符識別符9〇2Γι」)。與圖像5〇〇相關聯 之描述符關鍵字902可能彼此不同,或是描述符關鍵字9〇2 之一或更多者可與圖像500數次相關聯(如圖像5〇〇可能有 描述符關鍵字902「1、2、3、4」或「1、2、2、3」)。在一 實施例中,考慮到諸如圖像相異處之特點時’透過識別與描 述符802及描述符802個別描述符關鍵字9〇2最匹配之多於 一個代表描述符904,描述符802可以映射到多於一個描述 符識別符902。基於上述,具有一組識別興趣點5〇2之圖像 5 00的内容可由一組描述符關鍵字9〇2代表。 在另一實施例,其他類型的基於圖像之搜尋可以整合到 搜尋方案中。例如,臉部識別方法可提供另―種類型的圖像 搜哥。除了及/或代替如上所述之識別描述符關鍵字,臉部識 別方法可以用來決定圖像中人的身分。圖像中人的身分可用 於補充搜尋查詢。另_種選擇是可有用於配合臉部識別技術 的人的資料庫4種人的元請可以包含在f料庫中,儲存 的元資料可用於補充搜尋查詢。 上文提供將基於圖像的搜尋方案適用於基於文字的搜尋 方案的:述。類似的適用可用於其他的搜尋模式,如基於音 頻的搜尋方案。在一實施例中’可使用基於音頻之搜尋的任 何方便類型。基於音頻的搜尋方法可以有一或更多類型的用 於識别八有相似特徵之音頻檔案的特徵。如上所述,音頻特 徵可以與描料關鍵字相關聯。描述符龍字可具有指示關 16 201220099 鍵字與音頻搜尋相關的格式 應連字號及四個數字。 如將關鍵字的最後四個字符對 基於多模態查詢的搜尋範例 搜尋範例1 :將圖像資訊加到基於 丞於文子的查詢。傳統搜尋 方法的困難是識別常見查詢條件的預期結果。可涉及常見查 詢條件的-種搜尋類型是搜尋具有共同名字的人,如「史蒂 夫史密斯」。如果提交「史蒂夫史密斯」的關鍵字查詢到搜 尋引擎’大量的結果很可能會被識別為回應,這些結果可能 會對應到大量的具有相同或相似名字的不同人。 此 在-實施例中’透過提交實體圖片作為搜尋查詢的一部 分’可改進命名實體的搜尋。例如,除了輸入「史蒂夫史密 斯」到關鍵字文字框中,特定興趣的史密斯先生的圖像或視 頻可置於用於接收基於圖像的查詢資訊的位置。臉部識別軟 體可以用來匹配正確的「史蒂夫史密斯」與搜尋查詢。此外, 如果圖像或視頻包含其他人,由於指示感興趣之人的關鍵字 查珣,基於額外人的結果可指派予較低的排序。因此,關鍵 字與圖像或視頻之結合可用於有效地識別對應具有共同名 字的人(或其他實體)的結果。 作為上述的變異,考慮使用者有人的圖像或視頻但不知 道的人的名字的情況。此人可能是政治人物、男演員或女演 員、運動員或可以透過臉部識別或圖像匹配技術識別之任何 其他人或其他實體。在這種情況下,包含實體的圖像或視頻 可以一或更多關鍵字提交作為多模態搜尋查詢。在這種情況 201220099 下’一或更多關鍵字可代表使用者所擁有的關於實體的資 訊’如「政治家」或「女演員」。額外的關鍵字可以各種方 式協助圖像搜尋。具有圖像或視頻與關鍵字的好處是使用者 感興趣㈣果可以得到較高的排序。與圖像—起提㈣鍵字 「女演員」指示使用者想要知道的圖像中的人的名字,並會 導致^寅員的名字具有較列出女演員在電影演出名單的結 果為南的排序結果。此外,斜於古;去 Γ對於,又有達到精確匹配之臉部識 別或其他圖像分析技肖,關鍵字可以幫助潛在回應搜尋結果 的排序。如果臉部識別方法識別州參議員與作者為潛在°匹 配’關鍵字「政治家」可用於提供關於州參議員的資訊作為 最高排序的結果。 搜尋範例2:多模態查詢的查詢細化。在這個例子中,使 用者希望獲得更多在店家發現的產品資訊,如音樂CD或電 影DVD。作為搜尋程序的先導’使用者可對感興趣的音樂 CD封面拍攝照片。可提交這張照片作為搜尋查詢。使用圖 像識別及/或匹配,CD封面可以匹配包括額外元資料之經儲 存CD封面圖像。此元資料可以選擇包括藝術家名字、標 題、CD上個別歌曲的名字或有關CD任何其他資料。 經儲存之CD封面的圖像可返回作為回應結果,並可能作 為排序最高的結果。取決於實施例,可在初步結果頁面上提 供使用者潛在查詢修改,或者使用者點擊鏈結以存取潛在查 詢修改。查詢修改可包括基於元資料的建議,如藝術家的名 字、CD的標題、或CD上流行歌曲之一的名稱。這些查詢修 改可提供給使用者儘為鏈結。或者,可提供使用者一選項= 201220099 將。p /刀或全部查詢兀資料加入 — _ t 關鍵子搜哥框。使用者還可以 額外的搜尋字詞來補充建議 CTu 術家的名字,然後加上「音举合e ^ 選擇藝 '、」至查_框。額外單字「立 樂會」可與用於搜尋查詢的—邱八认9 邛刀的圖像相關聯。這樣 如產生表示未來藝術家的演唱會 曰會日期的回應結果。查詢 或修改的其他選項可能包括價林杳 ^ 1買格f汛、與藝術家有關的新 聞、CD上歌曲的歌詞或其他類型的建議。或者,可以自動 提交某些查詢修改作為搜尋以產生修改查詢的回應結果,而 沒有使用者的進一步行動。例如,篡 J 暴於CD封面而將關鍵字 「價格」加入查詢可為自動的杳詢修改 —°』丨夕卩又,以返回不同的線上 零售商的定價與最初的搜尋結果頁面。 注意在上面的例子中,首券妈# 7太A ^ T百无挺父了查詢圖像,然後關鍵 字係作為細化而與查詢相關聯。可透過開始文字關鍵字搜尋 及基於圖像、視頻或音頻檔案而細化圖像來執行類似的細 化。 搜尋範例3 :經改善的行動搜尋。在這個例子中,使用者 可能知道一般要問什麼,但可能不確定搜尋查詢用語為何。 這種類型的行動搜尋可用於搜尋任何類型的地點、人物、物 件、或其他實體。加入一或更多關鍵字可允許使用者接收基 於使用者意圖的回應結果,而非基於最佳的圖像匹配。在提 交圖像作為搜尋查詢之前,可將關鍵字加入例如搜尋文字框 中。關鍵字可有選擇地補充可導自與圖像、視頻或音頻權案 相關聯之元資料的任何關鍵字。例如,使用者可照下餐廳的 照片並與關鍵字「菜單」一起提交作為搜尋查詢。這將增加 19 201220099 涉及該餐廳菜單的結果的排序。或者,使用者可攝下―㈣ 的影片並與單字「種」一起提交+ 父作為搜哥查詢。這將增加識 別猶的類型的結果相關度,而不 回執仃類似活動之其他 動物的圖像或視頻結果。還有另一 「 ,另種選擇是可以與關鍵字 原聲I」一起提交電影海報的^ ^ ^ ^ ^ ^ ^ _ 1豕以識別影片中播放的 歌曲。 作為另-例子,在城市巾旅行的使用者可能想要當地大 眾運輸系統的時間表的資訊。不幸的是,使用者不知道系統 的名稱。使用者透過鍵入<城市名稱>和「大眾運輪」的關鍵 字查詢而開始。這將返回大量的結果’使用者對於哪個結果 ^為有用沒有信心。使用者注意到在附近公車站的運輸系統 標諸。使用者肖下標號並使用標諸作為查詢的_部分來細 化搜尋。與標誌相關聯的公車系統會返回為排序最高的結 果’讓使用者有#心已經識別正確的轉車時間表 搜尋範例4:涉及音頻權案的多模態搜尋。除了視頻或圖 像,可使用#他類型的輸入模式於搜尋。+涉頁槽案代表合適 查詢輸入的另一例子。正如上面描述的圖像或視頻,可提交 音頻檔案結合關鍵字作為搜尋查詢。或者,可在提交另一類 型的查詢輸入之前或之後提交音頻檔案作為查詢細化的— 部分。請注意在一些實施例中,多模態搜尋查詢可能包括多 種類型的查詢輸入,而使用者沒有提供任何關鍵字輸入。因 此’使用者可以提供圖像及視頻或視頻和音頻樓案。還有另 一種選擇是包括多個圖像、視頻及/或音頻檔案以及關鍵字作 為查詢輸入。 20 201220099 本發IT/本發明各實施例的概述後,現在描述適合執行 二:Γ操作環境。參照圖式,…,_施 本發月實施例之範例操作環产 丨ΠΠ 4曾壯 插作—般係指定為計算裝置 木發明 刚僅是合適計算環境之一例,並非欲以對 本發月之使用犯圍或功能逮續 …… 何限制。計算裝置100也不 應被解釋為具有與所繪示組 何依賴或要求。 件之任何-者或組合有關的任 本發明實施例可以電腦^或機器可用指令的—般情境 描述,包括諸如程式模組之電 电肠了執仃指令,電腦可執行指 7係由諸如個人資料助理或盆 他手持裝置之電腦或其他機 所執行。一般來說,包括例式、程式、物件、組件、資料 結構等之程式模組是指執行特定任務或實施特定抽象資料 類型的代碼。本發明可以各種系統配置實施,包括手持裝 置、消費類電子產品、通用電腦、更為特定的計算裝置等: 本發明也可實行於分散式計算環境’其中任務係、由透過通訊 網路連接的遠端處理裝置執行。 繼續參考圖i ’計算裝置1〇〇包括匯流排ιι〇,直接或間 接耦口以下裝置.έ己憶體112、一或更多處理器⑴、一或更 多呈現組件、輸入/輸出d/O)端口 118、1/0組件12〇及說 明性電源供應122。匯流排11〇可代表一或更多匯流排(如 位址匯流排、資料匯流排或上述組合)。雖然圖ι的各個方 塊為清晰起見以線條表達,實際上,各個組件的劃定不是那 麼清楚’比喻上而言’灰色和模糊更為準確M列如,諸:顯 示裝置的呈現组件可視為是1/〇組件。此外,許多處理器具 21 201220099 有°己隐體。本案發明者認識到,這是技術的本質,並重申圖 僅疋範例汁算裝置,可與一或更多本發明實施例一起使 用不對諸如丄作站」、「飼月艮器」、「筆記型電腦」、「手持 裝置」等類別進行區別,因為所有類別都在圖i範圍内並以 「計算裝置」表示。 十算裝置100通常包括各種電腦可讀取媒體。電蹈可讀 取媒體可以疋彳由計算裝I⑽存取的任何可用媒體,且包 括揮發性和非揮發性媒體、可移除和非可移除媒體。舉例而 非限制,電腦可讀取媒體可包括電腦儲存媒體及通訊媒體。 電腦儲存媒體包括以任何方法或技術實現用於儲存諸如電 腦可讀取心7、資料結構、程式模組或其他資料之資訊的揮 發性和非揮發性、可移除和非可移除媒體。電腦儲存媒體包 括但不僅限於隨機存取記憶體(RAM)、唯讀記憶體(職)、 電子可擦除可程式化唯讀記憶體(EEPR⑽)、快閃記憶體或 其他記憶體技術、CD_R0M、DVD或其他全像記憶體、磁卡 帶'磁帶、磁碟儲存或其他磁性儲存裝置、載波、或可以用 來編碼所欲資訊及可由計算裝置100存取之任何复 在一實施例中’電腦健存媒體可選擇自有形的電腦儲存媒 腦儲::體實施例中’電腦儲存媒體可選擇自非暫時性的電 平%汉/虱非揮發|u .丨思®形式之電腦 存媒體。記憶體可為可移除、非可移除或上述組合 體裝置包括固態記憶體、硬碟機、光碟機等。計算裝二 包括自諸如記憶體U…/0組件12。之各種實體讀取資1 22 201220099 的一或更多處理器。呈現組件116呈現資料指示給使用 其他裝置。靶例呈現組件包括 3 振動組件等。 切、置、知聲器、印表組件、 口 118允許钟豈择恶 12……: 邏輯麵合到包括1/0組件 I古' \ ,、中一些裝置可為内置。所繪示組件包括 無線裝置等。 天線 '❹機、印表機、 參考圖2’該圖緣示適用於本發明實施例的範例 200的方塊圖。環兄 鬼圖W僅是可用於本發明實施例的 境’並可能包括以多種方式配置之任何數量組件。此處提供 的環境200描述是用於說明 ’、 明實施例的環境配置。 非用以限制可貫施本發 環境2〇0包括網路202、查詢輸入裝置204、和搜尋引擎 飼服器206。網路202白冷· /f工/τ — 何電腦網路,例如(舉例而非限 制)網際網路、内部網路 1桃#人和公共區域網路、無線資料或 電話網路。查詢輸入裝置2〇4是任何計算裝置,如計算衰置 〇可自6十算裝置提供搜尋查詢。例如查詢輸入裝置 可為個人電腦、筆記型電腦、伺服器電腦、無線電話或裝置、 個人數位助理(PDA)、數位相機等。在一實施例中,多個查 輸入裝置204連接到網路2〇2,如數千或數百萬的查詢輸 入裝置204。 搜尋擎伺服益2〇6包括諸如計算裝置】〇〇之任何計算 裝置並提供至少部分功能以提供基於内容的搜尋引擎。在 一實施例中’搜尋引擎伺服器群組206分享或分散提供搜尋 23 201220099 引擎操作給使用者所需的功能。 環境繼中還提供圖像處理飼服器2〇8。圖像處理飼服器 2〇8包括諸如計算裝置1〇〇之 代表和索引圖像的内容,更詳”二:裝置’並配置以分析、 -包括量化表21。儲二::於下,處理伺服器 G儲存於圖像處理伺服器2G8的記憶體 令或可由圖像處理飼服器2〇8遠端存取。量化表21〇由圖像 處理飼服器208使用以通知圖像内容之映射,以允許圖像特 徵的搜尋和索引。 搜尋引擎龍器206和圖像處理飼服器2〇8係通訊輕合 至圖像健存器212和索引214。圖像儲存器212和索引叫 包括任何可料電腦儲存裝置,如硬碟、快閃記憶體、光學 記憶體裝置等。圖像儲存器212提供圖像檔案的資料儲存, 可回應於本發明-實施例之基於内容的搜尋而提供圖像稽 案。索引214提供搜尋索引,用於對透過網路2们可取得之 文包括在圖像儲存器212中健存的圖像)進行基於内容的 搜尋。索引214可利用任何索引資料結構或格式,最好使用 反索引格式。請注意在-些實施例中,圖像儲存器212是可 選擇的。 反索引提供映射,該映射描述内容在資料結構中的位 置。例如,當搜尋—文件找出敎關鍵字時(包括關鍵字描 述),關鍵字是在反索引中找到,該反索引識別該字在文件 中的位置及/或特徵在圖像文件中的呈現,而非搜尋文件以找 到字或特徵的位置。 在貫施例中’搜尋引擎伺服器2〇6、圖像處理飼服器 24 201220099 謂、圖像儲存器212和索引214之一或更多者係整合在單 -汁异裝置中’或直接通訊耦合以允許裝置之間的直 訊’而不需穿越網路2〇2。 圖10繪示根據本發明一實施例之方法, 一乂疋根據本發明 貫施例之在電腦儲存媒體上實施之方法的可執行指令 1。中’在mo取得圖像、視頻或音頻檔案,包二被:: 之多個相關特徵。在1020,圖像、視頻或音頻檔案盘至少一 關鍵字相關聯。在1030,圖像、視頻或音 鍵字提交作為搜判㈣查詢。在_,接收至少—回應結 果,回應結果係回應於相關特徵和相關聯關鍵字。在刪 顯示至少一回應結果。 圖11根據本發明實施例描述另一方法,或是根據本發明 實施例之在電腦儲存媒體上實 貝他疋万法的可執行指令。在圖 11中’在111 0接收查詢,杳詢包 —j G栝至少二查詢模式。在1120, 自查S旬揭取對應至少-告' 山一查δ句模式之相關特徵。在U30,基於 擷取的相關特徵,選擇多個回庫姓 應、、、。果。在U40,基於擷取的 相關特徵,排序多個回應結果。 在115〇 ’顯示一或更多排序 回應結果。 圖12緣示根據本發明一實 ^ ^ Α 貫施例之另一方法,或是根據本 發明實施例之在電腦儲存媒體 仔媒體上實施之方法的可執行指 令。在圖12中,在121〇接收包 括至少一關鍵字之查詢。在 12 2 0 ’基於收到的查詢,題千夕如 颍不多個回應結果。在123〇,接收 包括圖像、視頻或音頻檔案 Λ '、 夕―者之補充查詢輸入。在 1240 ’基於補充查詢輸入 /文夕個回應結果的排序。在 25 201220099 顯示回應結果的一或更多者。 1 2 5 0 ’基於修改後的排序 額外實施例 、第一實施例包括執行多模態搜尋的方法。在⑴〇,此方 法I括接收查《旬,5亥查詢包括至少二查詢模式;在丄,自 ϋ特徵’相關特徵對應至少二查詢模式;在 1130,基於擷取的相關特徵,選擇多個回應結果;在U40, 基於榻取的相關特徵,排序多個回應結果;纟mo,顯示排 序回應結果之一或更多者。 第一實施例包括第_實施例的方法,其中,在收到之查 言旬中的查詢模式包括關 從關鍵子、圖像、視頻或音頻檔案之兩或 更多者。 第二實施例包括上iiit警九丨+ /τ J·» 任上述貫施例之任一者,其中多個回應文 件係使用來自至少二杳啕指 —°句模式之整合相關特徵的反索引而 選擇。 立頻第二實:例包括第三實施例,其"取自圖像、視頻或 曰頻棺案的相關特徵是整合到反索引中作為描述符關鍵字。 在第五實施例令,提供執行多模態搜尋的方法。在⑻〇, 該方法包括取得圖像、視頻或音 优馮^日頻檔案,包括多個可擷取的 相關特徵;在聊,將圖像、視頻< Τ操取的 丰相β 擋案與至少-關鍵 子才關聯,在1030,提交圖像、視頻 ^ ^ ^ ^ 曰屑檔案及相關聯關 鍵子至搜尋引擎作為查詢;在1040 钤5小 ^ 牧叹主J 一回應結果, ^ ^ 一回應結果係回應於相關特徵和相關$ Μ # ~六 1πςπ as _ 仰關聯關鍵字;在 〇50,顯不至少一回應結 26 201220099 第六實施例包括任何上述實施例’其中擷取的相關特徵 對應關鍵字和圖像。 第七實施例包括任何上述實施例,還包括:自圖像、視 頻或音頻棺案中擷取元資料;自操取的元資料識別—戍更多 關鍵字;形成第二查詢’包括至少擷取自收到之查詢的相關 特徵及自所擷取元資料識別之關鍵字。 第八實施例包括第七實施例,其中基於擷取的相關特徵 來排序多個回應檔案包括基於第二查詢來排序多個回應文 件。 第九實施例包括第七或第八實施例’其中第二查詢係相 關聯於顯示回應結果而顯示。 第十實施例包括第七至第九實施例的任一者,還包括: 基於第二查詢,自動選擇第二多個回應文件;基於第二查 詢,排序第二多個回應文件;顯示第二多個回應文件之至少 一文件。 第十一實施例包括任何上述實施例,其中自與取得裝置 相關聯之攝影機取得之圖像或視頻作為圖像或視頻。 第十二實施例包括任何上述實施例,其中圖像、視頻或 音頻檔案係透過經由網路存取儲存的圖像、視頻、或音頻檔 案取得。 第十三實施例包括任何上述實施例,其中至少一回應結 果包括文字文件、圖像、視頻、音頻檔案、文字文件的識別、 圖像的識別、視頻的識別、音頻的識別或上述組合。 第十四實施例包括任何上述實施例’其中該方法進步 27 201220099 包括:基於提交的查詢和對應至少—回應結果的元資料,顯 示一或更多查詢建議。 在第十五實施例,提供用於執行多模態搜尋的方法,包 括:在1210,接收包括至少一關鍵字的查詢;在122〇,根 據收到的查詢,顯示多個回應结果;在】2 3 〇,接收包括圖像、 視頻或音頻檔案之至少一者之補充查詢輸入;在124〇,基於 補充查詢輪入,排序多個Θ靡έ士里* tt 4·,〜 F汁夕個口應,σ果,及在125〇,根據修改後 的排序,顯示回應結果的一或更多者。 本發明實施例已與特定實施例共同描述,特定實施例在 各方面都日在說明而非限制。在不偏離㈣的情況下,替代 實施例對於本發明領域具有通常知識者將是明顯的。 從上述可知,本發明適於達到前述目的和目標及顯而易 見且固有於結構的其他優點。 應理解到’某些特徵和次組合是實用性的,可在不參考 其㈣徵和次組合的情況下實施。這有被考慮到且在請求項 的範圍之内。 【圖式簡單說明】 參考隨附圖式詳細描述本發明於下,其中 圖1繪示範例計算環境’適合用於實施本發明實施例 圖2繪示適合執行本發明實施例的網路環境。 之 圖3繪示根據本發明實施例之範例使用者介面组件。 圖4繪示執行本發明實施例所涉及的各個組件和程序 28 實施例之自圖像擷取圖像特徵之 明各種實施例之範例方法。 214索引 3 11-3 15輸入框 405查詢關鍵字 407查詢圖像 4 1 2圖像理解組件 414元資料分析組件 422圖片文字特徵和圖像視 覺特徵組件 432查詢修改/查詢延伸 442查詢建議 444答案 446結合的排序結果 452產生結果 462 UI互動組件 1010-1250步驟方法 201220099 間的關係。 圖5-9繪示根據本發明 範例。 圖10-12繪示根據本發 【主要元件符號說明】 100操作環境 110匯流排 112記憶體 114處理器 116呈現組件 118 I/O 端口 120 I/O組件 122電源供應 200範例網路環境 202網路 204查詢輸入裝置 206搜尋引擎伺服器 208圖像處理伺服器 210量化表 212圖像儲存器 29
Claims (1)
- 201220099 七、申請專利範圍: 1'種電腦儲存媒體,用於儲存電腦可使用指令,备由 -計算裝置執行電腦可使用指令時,執行一用於執行―: 態搜尋的方法,該方法包括: 獲取-圖像、一視頻或一音頻檔案,該圖像、視 - 頻檔案包括多個可被擷取的相_徵; 5 :至少-關鍵字相關聯該圖像、視頻或音頻檔案; -杳二交該圖像、視頻、或音頻檔案和該相關聯關鍵字作為 ~ s旬到一搜尋引擎; 马 關转=收至)—回應結果’該至少—回應結果回應於兮等相 關特徵和該相關聯關鍵字;& 、該專相 顯示該至少—回應結果。 音頻==電腦儲存媒體’其中該圖像、視頻、或 料。 ’匕制该圖像、視頻、或音頻檔案之元資 3 ·如請求項 Q 之電腦儲存媒體 疋回應該等相關特 、八中該至y —回應結果 像、视頻、b 該相關聯關鍵字、及擷取自對應該圖 次音頻槽案之該元資料的—或更多關鍵字。 4 ·如請求項丨 頰包括自與一冑 腦儲存媒體,其中獲取該圖像或該視 取裝置相關聯之—攝影機獲取一圖像。 30 201220099 5 ·如s奮求項1 或音頻檔案包括透 61儲存媒體,其中獲取該圖像、視頻、 括透過-網路存取1存輸入。 6.如喷求項1之電腦儲存媒體,1 包括-文字文件、—圖德、、、體其中該至少-回應結果 "、—視頻、一音頻檔案或上述組合。 7.如清求項i之電腦 Λ,- 卡腹其中該至少一回庳社里 包括一文字文件之一埤U應結果 視頻之一識 識别、一圖像之—識別、 別、或一音頻檔案之一識別。 8.如清求項1之電 基於該提交的查詢和對二 -或更多查詢建議 P回應結果的元資料而顯示 該方法包括以下 9.-種用於執行__多模態搜尋的方法 步驟: 接收包括至少二查詢模式之一查詢; 自該查詢擷取對應該至少二查詢模式之相關特徵 基於該擷取之相關特徵,選擇多個回應結果; 基於該擷取之相關特徵,排序該等回應結果; 顯示排序之該等回應結果的一或更多者。 杳 10·如請求項9之方法,其令在該接收之查詢令的該等 31 201220099 一視頻或一音頻檔案之兩或 :::包括,字、1像 白 11.如請求項9 該至少二之方法,其中該等回應文件是使用整合來 式之相關特徵的一反索引來選擇。 1 2.如請求項u 頻檔案之相 之方法,其中擷取自該圖像、視頻或音 _特徵係整合刭玆及索引作為描述符關鍵字。 13.如請求項 字和一圖像 9之方法,其中該擷取相關特徵對應一關鍵 14.如請求項9之方法,該方法進一步包括以下步驟: 自一圖像、一視頻或一音頻檔案擷取元資料; 自該擷取的元資料識別一或更多關鍵字;及 形成一第二查詢,該第二查詢包括至少自該收到的查詢 中掏取的該等相關特徵及自該擷取的元資料識別的該等關 鍵字。 如請求項14之方法’其中基於該等擷取之相關特徵 排序該等回應結果之步驟包括以下步驟:基於該第二查詢, 排序該等回應文件。 16.如請求項丨4之方法,其中該第二查詢係以相關聯於 32 201220099 顯示 該等顯示之回應結果之方式 17.如請求項14之方法,該方法進一梦包括以下牛 基於該第二杳均,^ —° 動選擇一第二多個回應文件. 基於該第二查詢’排序該第二該等回應文件;及’ 自該第二該等回應文件,顯示至少一文件。 18.—種用於執行一 步驟: 多模態搜尋的方法,該方法 包括以下 接收包括至少— 夕 關鍵字之一查詢; 基於該收到的杳^自,Ss _々 幻宜〇旬,顯不多個回應結果; 接收補充的杳兮1 & λ —為輸入,该補充的查詢輸入包括一圖像、 一視頻或一音頻檔案之至少一者; 基於該補充的查詢輸入,修改該等回應結果之一排序; 基於該修改之排序,顯示該等回應結果之一或更多者。 19.如凊求項18之方法,該方法進一步包括以下步驟: 自與該至少一圖像 '視頻、或音頻檔案相關聯之元資料 擷取額外的關鍵字; 將該等操取之額外關鍵字整合至補充查詢。 2〇·如請求項18之方法,該方法進一步包括以下步驟: 基於與該回應結果相關聯之元資料’自至少一回應結果 33 201220099 擷取額外的關鍵字,該回應結果係一圖像、一視頻或一音頻 檔案; 將該等擷取之額外關鍵字整合至該補充查詢。 34
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/940,538 US20120117051A1 (en) | 2010-11-05 | 2010-11-05 | Multi-modal approach to search query input |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201220099A true TW201220099A (en) | 2012-05-16 |
Family
ID=45884793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100135048A TW201220099A (en) | 2010-11-05 | 2011-09-28 | Multi-modal approach to search query input |
Country Status (12)
Country | Link |
---|---|
US (1) | US20120117051A1 (zh) |
EP (1) | EP2635984A4 (zh) |
JP (1) | JP2013541793A (zh) |
KR (1) | KR20130142121A (zh) |
CN (1) | CN102402593A (zh) |
AU (1) | AU2011323602A1 (zh) |
IL (1) | IL225831A0 (zh) |
IN (1) | IN2013CN03029A (zh) |
MX (1) | MX2013005056A (zh) |
RU (1) | RU2013119973A (zh) |
TW (1) | TW201220099A (zh) |
WO (1) | WO2012061275A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI617929B (zh) * | 2014-04-30 | 2018-03-11 | 伊克斯卡萊柏智慧財產有限責任公司 | 儲存於可由處理器電路執行之一非暫態媒介中的系統及方法 |
TWI695275B (zh) * | 2014-05-23 | 2020-06-01 | 南韓商三星電子股份有限公司 | 搜索方法、電子裝置及電腦可讀記錄媒體 |
TWI697789B (zh) * | 2018-06-07 | 2020-07-01 | 中華電信股份有限公司 | 輿情查詢系統及方法 |
US11080350B2 (en) | 2014-05-23 | 2021-08-03 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
TWI748266B (zh) * | 2014-05-23 | 2021-12-01 | 南韓商三星電子股份有限公司 | 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體 |
US11314826B2 (en) | 2014-05-23 | 2022-04-26 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
TWI784780B (zh) * | 2021-11-03 | 2022-11-21 | 財團法人資訊工業策進會 | 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體 |
Families Citing this family (85)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9043296B2 (en) | 2010-07-30 | 2015-05-26 | Microsoft Technology Licensing, Llc | System of providing suggestions based on accessible and contextual information |
FR2973134B1 (fr) * | 2011-03-23 | 2015-09-11 | Xilopix | Procede pour affiner les resultats d'une recherche dans une base de donnees |
US8688514B1 (en) * | 2011-06-24 | 2014-04-01 | Google Inc. | Ad selection using image data |
US8949212B1 (en) * | 2011-07-08 | 2015-02-03 | Hariharan Dhandapani | Location-based informaton display |
US9576046B2 (en) | 2011-11-16 | 2017-02-21 | Ptc Inc. | Methods for integrating semantic search, query, and analysis across heterogeneous data types and devices thereof |
US8909641B2 (en) | 2011-11-16 | 2014-12-09 | Ptc Inc. | Method for analyzing time series activity streams and devices thereof |
US20130226892A1 (en) * | 2012-02-29 | 2013-08-29 | Fluential, Llc | Multimodal natural language interface for faceted search |
US8768910B1 (en) * | 2012-04-13 | 2014-07-01 | Google Inc. | Identifying media queries |
US11023520B1 (en) | 2012-06-01 | 2021-06-01 | Google Llc | Background audio identification for query disambiguation |
US20140075393A1 (en) * | 2012-09-11 | 2014-03-13 | Microsoft Corporation | Gesture-Based Search Queries |
CN103678362A (zh) * | 2012-09-13 | 2014-03-26 | 深圳市世纪光速信息技术有限公司 | 搜索方法及系统 |
CN103714094B (zh) * | 2012-10-09 | 2017-07-11 | 富士通株式会社 | 识别视频中的对象的设备和方法 |
WO2014076559A1 (en) * | 2012-11-19 | 2014-05-22 | Ismail Abdulnasir D | Keyword-based networking method |
CN103853757B (zh) * | 2012-12-03 | 2018-07-27 | 腾讯科技(北京)有限公司 | 网络的信息展示方法和系统、终端和信息展示处理装置 |
US20140156704A1 (en) | 2012-12-05 | 2014-06-05 | Google Inc. | Predictively presenting search capabilities |
US10795528B2 (en) | 2013-03-06 | 2020-10-06 | Nuance Communications, Inc. | Task assistant having multiple visual displays |
US10783139B2 (en) * | 2013-03-06 | 2020-09-22 | Nuance Communications, Inc. | Task assistant |
US20140286624A1 (en) * | 2013-03-25 | 2014-09-25 | Nokia Corporation | Method and apparatus for personalized media editing |
CA2912460A1 (en) * | 2013-05-21 | 2014-11-27 | John CUZZOLA | Method and system of intelligent generation of structured data and object discovery from the web using text, images, video and other data |
JP2014232907A (ja) * | 2013-05-28 | 2014-12-11 | 雄太 安藤 | 現在位置に基づくサイトページを所望条件順に携帯端末に表示する方法及びシステム |
US9542488B2 (en) * | 2013-08-02 | 2017-01-10 | Google Inc. | Associating audio tracks with video content |
US9384213B2 (en) * | 2013-08-14 | 2016-07-05 | Google Inc. | Searching and annotating within images |
KR101508429B1 (ko) | 2013-08-22 | 2015-04-07 | 주식회사 엘지씨엔에스 | 사용자 단말에 에이전트 서비스를 제공하는 방법 및 시스템 |
CN103473327A (zh) * | 2013-09-13 | 2013-12-25 | 广东图图搜网络科技有限公司 | 图像检索方法与系统 |
US9189517B2 (en) * | 2013-10-02 | 2015-11-17 | Microsoft Technology Licensing, Llc | Integrating search with application analysis |
MX2016005070A (es) * | 2013-10-21 | 2016-07-19 | Microsoft Technology Licensing Llc | Busqueda de video movil. |
CN103686200A (zh) * | 2013-12-27 | 2014-03-26 | 乐视致新电子科技(天津)有限公司 | 智能电视视频资源搜索的方法和系统 |
WO2015140922A1 (ja) * | 2014-03-18 | 2015-09-24 | 楽天株式会社 | 情報処理システム、情報処理方法、および情報処理プログラム |
US20150278370A1 (en) * | 2014-04-01 | 2015-10-01 | Microsoft Corporation | Task completion for natural language input |
US20150339348A1 (en) * | 2014-05-23 | 2015-11-26 | Samsung Electronics Co., Ltd. | Search method and device |
CN105095341A (zh) * | 2014-05-23 | 2015-11-25 | 三星电子株式会社 | 搜索方法和设备 |
CN105446972B (zh) * | 2014-06-17 | 2022-06-10 | 阿里巴巴集团控股有限公司 | 基于及融合用户关系数据的搜索方法、装置和系统 |
US9852188B2 (en) * | 2014-06-23 | 2017-12-26 | Google Llc | Contextual search on multimedia content |
US9934331B2 (en) * | 2014-07-03 | 2018-04-03 | Microsoft Technology Licensing, Llc | Query suggestions |
US10558630B2 (en) | 2014-08-08 | 2020-02-11 | International Business Machines Corporation | Enhancing textual searches with executables |
CN104281842A (zh) * | 2014-10-13 | 2015-01-14 | 北京奇虎科技有限公司 | 人脸图片人名识别方法和装置 |
US9904450B2 (en) | 2014-12-19 | 2018-02-27 | At&T Intellectual Property I, L.P. | System and method for creating and sharing plans through multimodal dialog |
KR102361400B1 (ko) * | 2014-12-29 | 2022-02-10 | 삼성전자주식회사 | 사용자 단말장치, 서비스제공장치, 사용자 단말장치의 구동방법, 서비스제공장치의 구동방법 및 암호화 색인기반 검색 시스템 |
US9805141B2 (en) * | 2014-12-31 | 2017-10-31 | Ebay Inc. | Dynamic content delivery search system |
US10346876B2 (en) | 2015-03-05 | 2019-07-09 | Ricoh Co., Ltd. | Image recognition enhanced crowdsourced question and answer platform |
US20160335493A1 (en) * | 2015-05-15 | 2016-11-17 | Jichuan Zheng | Method, apparatus, and non-transitory computer-readable storage medium for matching text to images |
US20170046055A1 (en) * | 2015-08-11 | 2017-02-16 | Sap Se | Data visualization in a tile-based graphical user interface |
CN105045914B (zh) * | 2015-08-18 | 2018-10-09 | 瑞达昇科技(大连)有限公司 | 信息归纳分析方法及装置 |
CN105005630B (zh) * | 2015-08-18 | 2018-07-13 | 瑞达昇科技(大连)有限公司 | 全媒体中多维检测特定目标的方法 |
CN105183812A (zh) * | 2015-08-27 | 2015-12-23 | 江苏惠居乐信息科技有限公司 | 多功能信息咨询系统 |
US9984075B2 (en) | 2015-10-06 | 2018-05-29 | Google Llc | Media consumption context for personalized instant query suggest |
CN105303404A (zh) * | 2015-10-23 | 2016-02-03 | 北京慧辰资道资讯股份有限公司 | 一种快速识别用户兴趣点的方法 |
CN107203572A (zh) * | 2016-03-18 | 2017-09-26 | 百度在线网络技术(北京)有限公司 | 一种图片搜索的方法及装置 |
US10157190B2 (en) * | 2016-03-28 | 2018-12-18 | Microsoft Technology Licensing, Llc | Image action based on automatic feature extraction |
US10706098B1 (en) * | 2016-03-29 | 2020-07-07 | A9.Com, Inc. | Methods to present search keywords for image-based queries |
CN106021402A (zh) * | 2016-05-13 | 2016-10-12 | 河南师范大学 | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 |
US10698908B2 (en) | 2016-07-12 | 2020-06-30 | International Business Machines Corporation | Multi-field search query ranking using scoring statistics |
KR101953839B1 (ko) * | 2016-12-29 | 2019-03-06 | 서울대학교산학협력단 | 추가 질의에 대한 쌍별 비교 데이터를 이용한 업데이트된 다중랭킹 추정 방법 |
US11176189B1 (en) * | 2016-12-29 | 2021-11-16 | Shutterstock, Inc. | Relevance feedback with faceted search interface |
US20210089571A1 (en) * | 2017-04-10 | 2021-03-25 | Hewlett-Packard Development Company, L.P. | Machine learning image search |
US20190095069A1 (en) * | 2017-09-25 | 2019-03-28 | Motorola Solutions, Inc | Adaptable interface for retrieving available electronic digital assistant services |
US11200241B2 (en) * | 2017-11-22 | 2021-12-14 | International Business Machines Corporation | Search query enhancement with context analysis |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11676220B2 (en) * | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US10963273B2 (en) | 2018-04-20 | 2021-03-30 | Facebook, Inc. | Generating personalized content summaries for users |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11169668B2 (en) * | 2018-05-16 | 2021-11-09 | Google Llc | Selecting an input mode for a virtual assistant |
US10740400B2 (en) * | 2018-08-28 | 2020-08-11 | Google Llc | Image analysis for results of textual image queries |
US11588759B2 (en) * | 2019-04-12 | 2023-02-21 | Asapp, Inc. | Automated communications over multiple channels |
CN110738061B (zh) * | 2019-10-17 | 2024-05-28 | 北京搜狐互联网信息服务有限公司 | 古诗词生成方法、装置、设备及存储介质 |
CN113127679A (zh) * | 2019-12-30 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 视频搜索方法及装置、索引构建方法及装置 |
CN111221782B (zh) * | 2020-01-17 | 2024-04-09 | 惠州Tcl移动通信有限公司 | 一种文件查找方法、装置、存储介质及移动终端 |
CN113139121A (zh) * | 2020-01-20 | 2021-07-20 | 阿里巴巴集团控股有限公司 | 查询方法、模型训练方法、装置、设备及存储介质 |
US11423019B2 (en) | 2020-03-24 | 2022-08-23 | Rovi Guides, Inc. | Methods and systems for modifying a search query having a non-character-based input |
CN111581403B (zh) * | 2020-04-01 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
US11500939B2 (en) | 2020-04-21 | 2022-11-15 | Adobe Inc. | Unified framework for multi-modal similarity search |
CN113297452A (zh) * | 2020-05-26 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 多级检索方法、多级检索装置及电子设备 |
CN113821704B (zh) * | 2020-06-18 | 2024-01-16 | 华为云计算技术有限公司 | 构建索引的方法、装置、电子设备和存储介质 |
CN112004163A (zh) * | 2020-08-31 | 2020-11-27 | 北京市商汤科技开发有限公司 | 视频生成方法及装置、电子设备和存储介质 |
US20230281258A1 (en) * | 2020-09-23 | 2023-09-07 | Google Llc | Systems and Methods for Generating Contextual Dynamic Content |
US11461681B2 (en) * | 2020-10-14 | 2022-10-04 | Openstream Inc. | System and method for multi-modality soft-agent for query population and information mining |
CN112579868B (zh) * | 2020-12-23 | 2024-06-04 | 北京百度网讯科技有限公司 | 多模态识图搜索方法、装置、设备以及存储介质 |
KR102600757B1 (ko) * | 2021-03-02 | 2023-11-13 | 한국전자통신연구원 | 대화 기반의 몽타주 생성 방법 및 이를 이용한 장치 |
CN113297475A (zh) * | 2021-03-26 | 2021-08-24 | 阿里巴巴新加坡控股有限公司 | 商品对象信息搜索方法、装置及电子设备 |
CN113656546A (zh) * | 2021-08-17 | 2021-11-16 | 百度在线网络技术(北京)有限公司 | 多模态搜索方法、装置、设备、存储介质以及程序产品 |
CN116775980B (zh) * | 2022-03-07 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 一种跨模态搜索方法及相关设备 |
CN114372081B (zh) * | 2022-03-22 | 2022-06-24 | 广州思迈特软件有限公司 | 数据准备方法、装置和设备 |
KR102492277B1 (ko) | 2022-06-28 | 2023-01-26 | (주)액션파워 | 멀티모달 정보를 이용한 질의응답 수행 방법 |
CN115422399B (zh) * | 2022-07-21 | 2023-10-31 | 中国科学院自动化研究所 | 视频搜索方法、装置、设备和存储介质 |
US20240028638A1 (en) * | 2022-07-22 | 2024-01-25 | Google Llc | Systems and Methods for Efficient Multimodal Search Refinement |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7099860B1 (en) * | 2000-10-30 | 2006-08-29 | Microsoft Corporation | Image retrieval systems and methods with semantic and feature based relevance feedback |
US6556710B2 (en) * | 2000-12-15 | 2003-04-29 | America Online, Inc. | Image searching techniques |
US7437363B2 (en) * | 2001-01-25 | 2008-10-14 | International Business Machines Corporation | Use of special directories for encoding semantic information in a file system |
US6901411B2 (en) * | 2002-02-11 | 2005-05-31 | Microsoft Corporation | Statistical bigram correlation model for image retrieval |
DE10333530A1 (de) * | 2003-07-23 | 2005-03-17 | Siemens Ag | Automatische Indexierung von digitalen Bildarchiven zur inhaltsbasierten, kontextsensitiven Suche |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
US7818315B2 (en) * | 2006-03-13 | 2010-10-19 | Microsoft Corporation | Re-ranking search results based on query log |
US7739221B2 (en) * | 2006-06-28 | 2010-06-15 | Microsoft Corporation | Visual and multi-dimensional search |
US7779370B2 (en) * | 2006-06-30 | 2010-08-17 | Google Inc. | User interface for mobile devices |
KR100785928B1 (ko) * | 2006-07-04 | 2007-12-17 | 삼성전자주식회사 | 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템 |
US20080071770A1 (en) * | 2006-09-18 | 2008-03-20 | Nokia Corporation | Method, Apparatus and Computer Program Product for Viewing a Virtual Database Using Portable Devices |
US20090287655A1 (en) * | 2008-05-13 | 2009-11-19 | Bennett James D | Image search engine employing user suitability feedback |
US8254697B2 (en) * | 2009-02-02 | 2012-08-28 | Microsoft Corporation | Scalable near duplicate image search with geometric constraints |
US8452794B2 (en) * | 2009-02-11 | 2013-05-28 | Microsoft Corporation | Visual and textual query suggestion |
US8275759B2 (en) * | 2009-02-24 | 2012-09-25 | Microsoft Corporation | Contextual query suggestion in result pages |
-
2010
- 2010-11-05 US US12/940,538 patent/US20120117051A1/en not_active Abandoned
-
2011
- 2011-09-28 TW TW100135048A patent/TW201220099A/zh unknown
- 2011-10-31 JP JP2013537741A patent/JP2013541793A/ja active Pending
- 2011-10-31 EP EP11838609.3A patent/EP2635984A4/en not_active Withdrawn
- 2011-10-31 AU AU2011323602A patent/AU2011323602A1/en not_active Abandoned
- 2011-10-31 MX MX2013005056A patent/MX2013005056A/es active IP Right Grant
- 2011-10-31 IN IN3029CHN2013 patent/IN2013CN03029A/en unknown
- 2011-10-31 KR KR1020137011201A patent/KR20130142121A/ko not_active Application Discontinuation
- 2011-10-31 RU RU2013119973/08A patent/RU2013119973A/ru unknown
- 2011-10-31 WO PCT/US2011/058541 patent/WO2012061275A1/en active Application Filing
- 2011-11-04 CN CN201110345050XA patent/CN102402593A/zh active Pending
-
2013
- 2013-04-18 IL IL225831A patent/IL225831A0/en unknown
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI617929B (zh) * | 2014-04-30 | 2018-03-11 | 伊克斯卡萊柏智慧財產有限責任公司 | 儲存於可由處理器電路執行之一非暫態媒介中的系統及方法 |
TWI695275B (zh) * | 2014-05-23 | 2020-06-01 | 南韓商三星電子股份有限公司 | 搜索方法、電子裝置及電腦可讀記錄媒體 |
US11080350B2 (en) | 2014-05-23 | 2021-08-03 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
US11157577B2 (en) | 2014-05-23 | 2021-10-26 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
TWI748266B (zh) * | 2014-05-23 | 2021-12-01 | 南韓商三星電子股份有限公司 | 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體 |
US11314826B2 (en) | 2014-05-23 | 2022-04-26 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
US11734370B2 (en) | 2014-05-23 | 2023-08-22 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
TWI697789B (zh) * | 2018-06-07 | 2020-07-01 | 中華電信股份有限公司 | 輿情查詢系統及方法 |
TWI784780B (zh) * | 2021-11-03 | 2022-11-21 | 財團法人資訊工業策進會 | 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體 |
US12014546B2 (en) | 2021-11-03 | 2024-06-18 | Institute For Information Industry | Multimodal method for detecting video, multimodal video detecting system and non-transitory computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
IN2013CN03029A (zh) | 2015-08-14 |
IL225831A0 (en) | 2013-07-31 |
KR20130142121A (ko) | 2013-12-27 |
JP2013541793A (ja) | 2013-11-14 |
AU2011323602A1 (en) | 2013-05-23 |
EP2635984A1 (en) | 2013-09-11 |
US20120117051A1 (en) | 2012-05-10 |
MX2013005056A (es) | 2013-06-28 |
RU2013119973A (ru) | 2014-11-10 |
CN102402593A (zh) | 2012-04-04 |
WO2012061275A1 (en) | 2012-05-10 |
EP2635984A4 (en) | 2016-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201220099A (en) | Multi-modal approach to search query input | |
US20220035827A1 (en) | Tag selection and recommendation to a user of a content hosting service | |
US8433140B2 (en) | Image metadata propagation | |
US9710491B2 (en) | Content-based image search | |
US9384214B2 (en) | Image similarity from disparate sources | |
US20090112830A1 (en) | System and methods for searching images in presentations | |
Amato et al. | VISIONE at video browser showdown 2023 | |
Hong et al. | Multimedia question answering | |
US8606780B2 (en) | Image re-rank based on image annotations | |
US20210326367A1 (en) | Systems and methods for facilitating searching, labeling, and/or filtering of digital media items | |
CN111046225B (zh) | 音频资源处理方法、装置、设备及存储介质 | |
US9558185B2 (en) | Method and system to discover and recommend interesting documents | |
JP6767342B2 (ja) | 検索装置、検索方法および検索プログラム | |
US8768105B2 (en) | Method for searching a database using query images and an image anchor graph-based ranking algorithm | |
Wang et al. | Bilateral correspondence model for words-and-pictures association in multimedia-rich microblogs | |
Lu et al. | Browse-to-search: Interactive exploratory search with visual entities | |
Poornima et al. | Multi-modal features and correlation incorporated Naive Bayes classifier for a semantic-enriched lecture video retrieval system | |
KR101826594B1 (ko) | 지식 구조 기반의 전자책 추천 방법 및 시스템 | |
CN116361428A (zh) | 一种问答召回方法、装置和存储介质 | |
Hong et al. | An efficient tag recommendation method using topic modeling approaches | |
Yanagi et al. | Scene retrieval for video summarization based on text-to-image GAN | |
Lu et al. | Exploratory product image search with circle-to-search interaction | |
Chen et al. | TRECVID 2010 Known-item Search by NUS. | |
Djuana et al. | Ontology learning from user tagging for tag recommendation making | |
Wassenaar | Linking segments of video using text-based methods and a flexible form of segmentation: How to index, query and re-rank data from the TRECVid (Blip. tv) dataset? |