TW201448585A - 利用行動電話及雲端可視化搜尋引擎之即時物體掃描 - Google Patents

利用行動電話及雲端可視化搜尋引擎之即時物體掃描 Download PDF

Info

Publication number
TW201448585A
TW201448585A TW103104388A TW103104388A TW201448585A TW 201448585 A TW201448585 A TW 201448585A TW 103104388 A TW103104388 A TW 103104388A TW 103104388 A TW103104388 A TW 103104388A TW 201448585 A TW201448585 A TW 201448585A
Authority
TW
Taiwan
Prior art keywords
image
key frame
frame
determining
features
Prior art date
Application number
TW103104388A
Other languages
English (en)
Other versions
TWI586160B (zh
Inventor
Yu Zhong
Pierre Garrigues
Benjamin Jackson Culpepper
Original Assignee
Yahoo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Inc filed Critical Yahoo Inc
Publication of TW201448585A publication Critical patent/TW201448585A/zh
Application granted granted Critical
Publication of TWI586160B publication Critical patent/TWI586160B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern

Abstract

本發明揭示一種標記一物體的系統,其包含一介面與一處理器。該介面設置成接收一影像。該處理器設置成決定一關鍵訊框。決定一關鍵訊框包含決定該影像穩定。該處理器設置成決定一標籤給該關鍵訊框內一項目。

Description

利用行動電話及雲端可視化搜尋引擎之即時物體掃描 【相關申請案】
本申請案係主張Zhong等人於2013年2月15日提出,標題為「Real Time Object Scanning Using a Mobile Phone and Cloud-Based Visual Search Engine」(中譯:利用行動電話及雲端可視化搜尋引擎之即時物體掃描)的第13/768,051號美國專利申請案(歸檔編號YAH1P297)之權益,在此完整併入當成參考。
本申請案係主張Zhong等人於2013年2月15日提出,標題為「Real Time Object Scanning Using a Mobile Phone and Cloud-Based Visual Search Engine」的第13/768,051號美國專利申請案(歸檔編號YAH1P297)之權益,在此完整併入當成參考。
行動電話以及智慧型行動電話已經越來越普遍,現在許多人都隨身攜帶內含強大處理器、高解析度視訊攝影機以及連接至網際網路的裝置。這些裝置的一種可能的實際應用就是影像辨識,當智慧型手機使用者遇到他們想要更深入了解的物品,可將該物品拍攝下來,並且使用影像辨識軟體進行識別。根據喜好設定,使用者可簡單賦予該物品的名稱,或自動連接有關該物品的搜尋結果、有關該物品的購物資訊或任何其他合適 的資訊。此技術特別有用的應用為用於視障人士;讓他們識別在無協助之下就無法自己識別之物品。當使用者為了識別物品而用智慧型手機拍照時,使用者通常無法將照片拍到最好供識別,例如影像模糊或拍攝角度使得辨識困難。這在協助盲人使用者時特別有問題,因為他們無法自己看見相片影像來確認品質。
100‧‧‧網路
102‧‧‧影像標記系統
108‧‧‧智慧型行動電話
104‧‧‧無線接取點
106‧‧‧行動電話
110‧‧‧電腦
112‧‧‧伺服器
200‧‧‧影像標記系統
202‧‧‧網路介面
204‧‧‧電腦視覺引擎
206‧‧‧人為計算模組
208‧‧‧物體資料庫
210‧‧‧結果處理器
212‧‧‧學習模組
214‧‧‧儀表板
300‧‧‧行動裝置
302‧‧‧相機
304‧‧‧影像處理器
306‧‧‧物體資料庫
308‧‧‧網路介面
310‧‧‧結果處理器
312‧‧‧使用者介面
本發明的許多具體實施例都揭示於以下詳細描述以及附圖之內。
第一圖為例示網路系統具體實施例的方塊圖。
第二圖為例示影像標記系統具體實施例的方塊圖。
第三圖為例示行動裝置具體實施例的方塊圖。
第四圖為例示使用一系統進行即時物體掃描的處理具體實施例之流程圖。
第五A圖為例示用於處理一視訊串流的處理具體實施例之流程圖。
第五B圖為例示用於處理一關鍵訊框的處理具體實施例之流程圖。
第六圖為例示用於處理一影像訊框的處理具體實施例之流程圖。
第七圖為例示用於決定一訊框是否為一關鍵訊框的處理具體實施例之流程圖。
第八圖為例示用於標記一物體的處理具體實施例之流程圖。
本發明可用許多方式實施,包含當成處理、設備、系統、這些的組合、具體實施在電腦可讀取儲存媒體上的電腦程式產品及/或處理 器,例如設置成執行耦合至該處理器的記憶體上所儲存及/或提供的指令之處理器。在本說明書中,這些實施或本發明所採用的任何其他形式,都可稱為技術。一般來說,在本發明範疇內可改變所描述處理步驟的順序。除非特別聲明,否則例如處理器或記憶體這些描述設置成執行任務的組件可實施為暫時設置成執行該任務已知次數之一般組件,或製作成執行該任務的特定組件。如本說明書所使用,「處理器」一詞代表一或多個裝置、電路及/或設置成處理資料,例如電腦程式指令的處理核心。
底下搭配例示本發明原理的附圖,提供本發明的一或多個具體實施例之詳細描述。在此結合這些具體實施例來描述本發明,但是本發明並不受限於任何具體實施例。本發明的範疇僅受限於該等申請專利範圍,並且本發明涵蓋許多替代、修改以及同等項。在下列說明中揭示許多特定細節,以對本發明有通盤的瞭解。這些細節僅供參考,並且本發明係根據並無某些或全部這些特定細節的申請專利範圍來實現。為了清晰起見,關於本發明的技術範疇內已知之技術材料並不詳細說明,避免模糊本發明的焦點。
本發明揭示利用行動電話及雲端可視化搜尋引擎之即時物體掃描。一種標記一物體的系統,包括一處理器設置成:決定一關鍵訊框,其中決定一關鍵訊框包含:決定一影像是否穩定;並且在該影像穩定的該事件中:決定該影像是否已經穩定一預定期間;並且在該影像已經持續穩定該預定期間的該事件中:將該當前訊框識別為一關鍵訊框;並且決定一標記用於該關鍵訊框內一項目。一記憶體耦合至該處理器,並且設置成將指令提供給該處理器。一介面設置成接收一影像(例如供處理器處理)。
在某些具體實施例內,使用包含照相機以及處理器的行動電話,來執行即時物體識別。行動電話使用者利用起始該物體識別處理(例如利用啟動一個應用程式)並且將手機拿穩,如此照相機可拍攝有興趣物體的穩定影像,來執行即時物體識別。而非使用者指示(例如按個按鈕、手動觸發、語音觸發等等)該影像為所要物體的影像,該應用程式決定該影像穩定(例如相關部分沒有模糊),當該影像已經穩定一預定期間時,並且當該視覺內容與該先前關鍵訊框有足夠差異時,則擷取該影像並處理。利用分析該影像串流的每一訊框,該應用程式可確定已經接收高品質影像供影像處理(例如焦點內、該訊框之內等等)。若應用程式要求使用者按下按鈕,指示應該擷取一影像,則強制依賴使用者拍攝品質優良的影像。這在應用程式用來幫助拍攝高品質影像有困難的盲人使用者時,特別麻煩。
在某些具體實施例內,相關物體位於照相機視野內一預定時間,表示影像穩定。在某些具體實施例內,穩定的影像就是從配備相機的裝置觀點來看之影像,在此該影像或影像串流在相機視野內包含相同的物體。在某些具體實施例內,該影像透過一介面接收進行處理。在某些具體實施例內,該影像或影像串流穩定,或在相機視野內一預定時間週期。在某些具體實施例內,該預定時間週期為時間長度指示,用來表達物體在相機視野內的相關意圖。
在某些具體實施例內,當物體識別處理開始,該處理器從相機接收一影像串流。每一影像訊框都經過分析,直到偵測到一關鍵訊框。一關鍵訊框包含一影像訊框,其中該影像穩定並且已經維持穩定超過一預定期間,並且其中該視覺內容與該先前關鍵訊框不同。當偵測到一關鍵訊 框,則將該影像提供給物體識別軟體,識別該影像內的物體。在某些具體實施例內,該物體由自動物體識別處理來識別。在某些具體實施例內,該物體由人為物體識別器來識別。在某些具體實施例內,決定該物體是否可由自動物體識別處理來識別,並且若否,則有人為物體識別器來識別該物體。
在某些具體實施例內,該系統包含一影像辨識處理器,其執行昂貴的新物體分析計算,以及包含一關鍵訊框處理器,其執行疑似具有新物體訊框的較不昂貴訊框識別。若該訊框由關鍵訊框處理器識別為疑似,則會將該訊框發送至該影像辨識處理器。
第一圖為例示網路系統具體實施例的方塊圖。在所示的範例中,第一圖的網路系統包含與網路100連通的影像標記系統102。第一圖的網路系統使用一行動電話(例如智慧型行動電話108)以及一雲端視覺搜尋引擎(例如影像標記系統102),執行即時物體掃描。在某些具體實施例內,該影像標記系統位於發生關鍵訊框識別的該行動裝置上。在某些具體實施例內,由於所需的功率消耗負載,因此物體辨識在雲端視覺搜尋引擎上執行。影像標記系統102包含將標籤指派給影像內物體的系統。在許多具體實施例內,網路100包含以下之一或多者:區域網路、廣域網路、有線網路、無線網路、網際網路、行動網路或任何其他合適的網路。在所示的範例中,使用者透過網路100將要標記的影像提交給影像標記系統102。在某些具體實施例內,使用行動裝置(例如內建相機的行動電話106、智慧型行動電話108或其他行動裝置,例如具備無線功能的數位相機、膝上型電腦、平板電腦、攝影機等等)拍攝要標記的影像,並且透過無線接取點104傳輸至網路 100。在某些具體實施例內,要標記的影像位於使用者的家用電腦上(例如電腦110),在由使用者從數位相機或其他影像建立裝置上傳或從網際網路下載之後,透過有線連接提交至網路100。在某些具體實施例內,該影像標記系統使用者包含網站或使用影像標記當成其服務一部分的其他計算系統,並且影像從使用者的系統伺服器(例如伺服器112)透過網路100提供至影像標記系統102。
第二圖為例示影像標記系統具體實施例的方塊圖。在某些具體實施例內,影像標記系統200包含第一圖的影像標記系統102。影像標記系統200包含一影像標記系統,用於接收影像並且提供一或多個標籤給該影像內一或多個物體。在所示的範例中,影像標記系統200包含網路介面202、電腦視覺引擎204、人為計算模組206、物體資料庫208、結果處理器210、學習模組212以及儀表板214。網路介面202包含可透過全球互連網接取的介面,用於將影像提交給影像標記系統200。在某些具體實施例內,網路介面202包含一圖形使用者介面(GUI,graphical user interface),可讓使用者輕鬆提交影像至影像標記系統202。在某些具體實施例內,網路介面202包含一應用程式介面(API,application programming interface),可讓程式設計師建立軟體,將影像與其他資訊提交至影像標記系統200,並且從影像標記系統200接收標籤。在某些具體實施例內,網路介面202使用全球互連網以外的通訊介面(例如區域網路、廣域網路)。
在所示的範例中,電腦視覺引擎204包含一組一或多個電腦視覺引擎,用於自動識別影像標記系統200接收的影像內之物體。在許多具體實施例內,該電腦視覺引擎使用一即時辨識模組、一分類模組、一光學 字元辨識模組、一臉部識別模組、一條碼辨識模組、一時鐘辨識模組、一顏色偵測模組或任何其他合適的模組。在某些具體實施例內,電腦視覺引擎204所運用的每一不同模組都由個別電腦視覺引擎所運用。在某些具體實施例內,電腦視覺引擎204包含超過一個電腦視覺引擎,並且該個別電腦視覺引擎同時執行其模組。在某些具體實施例內,電腦視覺引擎204運用物體資料庫208內儲存的資訊,當成執行電腦視覺模組的一部分。在某些具體實施例內,一即時辨識模組運用物體資料庫208當成其即時資料庫。在某些具體實施例內,一分類模組運用物體資料庫208當成其等級呈現資料庫。
在所示的範例中,人為計算模組206包含用於影像辨識的一或多個人為計算模組。用於影像辨識的一人為計算模組包含一或多個人,每個人都可辨識影像並且將標籤提供給該等影像。在某些具體實施例內,人為計算模組將人提供的任何標記直接送至結果處理器210。在某些具體實施例內,一人為計算模組從人為標籤器要求標籤。在某些具體實施例內,一人為計算模組從一結果處理器接收一標籤要求。在某些具體實施例內,人為計算模組在提供該等標籤給結果處理器210之前,提供許多處理功能。在許多具體實施例內,處理功能包含決定人為標註者的狀態、根據人為標註者決定一標籤的有效性(例如在該標籤接收自標示為專業或可靠的標註者之事件中決定有效標籤)、根據來自多個人為標註者的收據確認一標籤的有效性(例如在相同標籤接收自大多數標註者或最少數量標註者或這兩者的事件內決定有效標籤)、根據人為標註者的狀態製作具備有效狀態的標籤,或任何其他合適的處理功能。在某些具體實施例內,人為計算模組206包含超過一個人為計算模組。在許多具體實施例內,人為標註者根據專長、 經驗、年齡、位置、提供結果平均時間、標註者狀態或任何其他合適的標註者分類,分成個別人為計算模組。
結果處理器210包含用於接收並處理來自電腦視覺引擎204和人為計算模組206的標籤之結果處理器。在所示的範例中,結果處理器210根據預定排名演算法將接收的標籤排名,並且將排名最高的標籤提供給該影像標記系統使用者(例如原本提供該影像的使用者)。在許多具體實施例內,該預定排名演算法運用一模組排名(例如接收自一電腦視覺即時模組的標籤排名要高於接收自電腦視覺分類模組的標籤)、一模組分數(例如接收自相同模組的標籤根據由所接收自的模組指派給的分數來排名),或任何其他合適的排名條件。在某些具體實施例內,結果處理器210要求來自電腦視覺引擎204的標籤。在某些具體實施例內,結果處理器210要求來自人為計算模組206的標籤。在某些具體實施例內,在電腦視覺引擎204無法提供標籤的事件中,結果處理器210要求來自人為計算模組206的標籤。
學習模組212包含用於根據影像查詢結果更新物體資料庫208的一模組。在某些具體實施例內,若一即時辨識模組或分類模組可根據標籤資料庫208內儲存的資訊來決定影像的標籤,而不用找出物體資料庫208內儲存的一致影像,則該學習模組將與該已決定標籤相關聯的影像儲存在物體資料庫208內。在某些具體實施例內,該學習模組決定將該影像加入物體資料庫208內是否將擴大與該已決定標籤相關聯的影像之空間。然後只有會擴大與該已決定標籤相關聯的影像之空間時,該學習模組才會選擇將該影像儲存在物體資料庫208內。在某些具體實施例內,若電腦視覺引擎204無法決定與該影像相關聯的標籤,但是人為計算模組206可以,則學習模組 212將該影像與相關標籤儲存在物體資料庫208內,如此若未來提出該影像供查詢,則可自動識別該影像。在某些具體實施例內,學習模組212在將一影像以及任何相關標籤儲存在物體資料庫208之前會先處理。在許多具體實施例內,處理包含背景減除、物體幾何處理、物體等級呈現建立或任何其他合適的處理。
儀表板214包含一介面,讓影像標記系統管理員獲得有關該影像標記系統當前狀態的資訊。在所示的範例中,該儀表板系統可將資訊提供給查詢影像的系統管理員、已經供應至影像的標籤、系統使用者、影像標註者以及系統狀態,並且允許該管理員在其裁量之下,利用加入影像與標籤來訓練該電腦視覺模組。
第三圖為例示行動裝置具體實施例的方塊圖。在某些具體實施例內,行動裝置300包含第一圖的智慧型行動電話108。在許多具體實施例內,行動裝置300包含智慧型行動電話、平板電腦、膝上型電腦、嵌入式系統或任何其他合適的行動裝置。行動裝置300執行即時物體掃描。在某些具體實施例內,行動裝置300與雲端視覺搜尋引擎互動,以執行即時物體掃描。在所示的範例中,行動裝置300包含相機302、影像處理器304、物體資料庫306、網路介面308、結果處理器310以及使用者介面312。相機302包含記錄影像的相機。在某些具體實施例內,相機302包含靜態相機(例如一次只記錄一張靜止影像)。在某些具體實施例內,相機302包含一視訊相機(例如以已知速率記錄影像,例如每秒5張、每秒10張、每秒30張等等)。影像處理器304包含用於處理影像的一影像處理器。在許多具體實施例內,影像處理器304執行影像裁切、影像篩選、影像轉換、影像參數擷取、影像識別、 物體標記、關鍵訊框偵測或任何其他合適的影像處理功能。物體資料庫306包含物體標籤的一或多個資料庫。在某些具體實施例內,物體資料庫306包含物體資料庫208的副本。在某些具體實施例內,物體資料庫306包含物體資料庫208的子集。網路介面308包含與網路(例如第一圖的網路100)通訊的一網路介面。在某些具體實施例內,使用網路介面308更新物體資料庫306。在某些具體實施例內,透過網路介面308上傳影像(例如至一影像標記系統)並且下載標籤。結果處理器310包含用於接收並處理影像標記結果(例如來自物體資料庫306、影像處理器304以及網路介面308)的處理器。結果處理器310決定結果品質、選擇最佳結果以及由使用者介面312顯示的處理結果。使用者介面312接收來自結果處理器310的結果,並且將結果顯示給使用者。在許多具體實施例內,使用者介面312接收一應用程式開始指令、接收一串流選擇開始指令、顯示一影像串流給使用者、顯示一影像標籤給使用者,或執行任何其他合適的使用者介面功能。
第四圖為例示使用一系統進行即時物體掃描的處理具體實施例之流程圖。在某些具體實施例內,第四圖的處理由行動裝置使用者使用行動電話與雲端搜尋引擎,運用即時物體掃描應用程式來執行。在某些具體實施例內,該搜尋引擎位於該行動電話上。在所示的範例中,在步驟400內,該應用程式已經啟動。在步驟402內,該相機指向一物體。在某些具體實施例內,該相機指向使用者要識別的物體。該使用者不需要指示(例如按下按鈕等等)該行動裝置,該相機已經指向相關物體或該相機應該拍攝。在404內,該裝置維持穩定。在某些具體實施例內,該裝置維持穩定持續至少一預定時間週期(例如0.5秒、5秒等等)。在406內,接收一物體識別。 在某些具體實施例內,一物體識別由該裝置決定,並且呈現給使用者。在某些具體實施例內,該裝置與一影像標記系統互動(例如透過網路通訊),以決定一物體識別。在某些具體實施例內,該影像標記系統決定一物體識別。在某些具體實施例內,該影像標記系統與一人互動,以決定一物體識別。在某些具體實施例內,一物體識別包含一物體標籤。
第五A圖為例示用於處理一視訊串流的處理具體實施例之流程圖。在某些具體實施例內,由行動裝置(例如第三圖的行動裝置300)執行第五A圖的處理。行動裝置使用第五A圖的處理,進行即時物體掃描,不用來自使用者的互動(例如不需要使用者指出相關物體或手動指示拍照)。在所示的範例中,在步驟500內,一影像訊框已經處理。在某些具體實施例內,處理一影像訊框包含決定該影像訊號是否為一關鍵訊框。在某些具體實施例內,已經處理接收自相機的一影像訊框。在許多具體實施例內,以每秒1張、每秒5張、每秒10張、每秒30張或任何其他合適速率擷取影像訊框。在502內,該處理等待下一個影像訊框,一旦已經接收到下一個影像訊框,則控制權回到500。
第五B圖為例示用於處理一關鍵訊框的處理具體實施例之流程圖。在某些具體實施例內,使用第五B圖的處理,將一關鍵訊框內的物體標籤指示給使用者。在所示的範例中,在520內,一關鍵訊框已經接收。在某些具體實施例內,該關鍵訊框包含在第五A圖內標示為500的一關鍵訊框。在某些具體實施例內,一關鍵訊框包含其中該影像靜止(例如沒有模糊)的訊框。在某些具體實施例內,一關鍵訊框包含其中該影像靜止,並且在之前已經靜止一預定訊框數量的訊框。在某些具體實施例內,一關鍵 訊框包含其中該影像的視覺內容與先前偵測關鍵訊框不同的訊框。在522內,在該關鍵訊框內辨識一物體。在某些具體實施例內,該物體由該行動裝置辨識。在某些具體實施例內,該物體由一影像標記系統辨識。在524內,提供物體辨識使用者介面資訊。在某些具體實施例內,提供物體辨識使用者介面資訊包含顯示一物體標籤。
第六圖為例示用於處理一影像訊框的處理具體實施例之流程圖。在某些具體實施例內,由第三圖的影像處理器304執行第六圖的處理。一影像處理器使用第六圖的處理,用來處理一已接收的影像訊框,並且決定該影像訊框是否已經鎖定在一物體上。在某些具體實施例內,第六圖的處理實施第五A圖的500。在所示的範例中,在600內,一影像訊框已經接收。在某些具體實施例內,從一相機接收該影像訊框。在某些具體實施例內,該影像訊框為一視訊串流的一部分。在602上,判斷是否有追蹤點。在沒有追蹤點的事件中,在604內,尋找追蹤點,然後該處理結束。在有追蹤點的事件中,在606內,發現點的置換。在608內,決定一訊框是否為一關鍵訊框。
在某些具體實施例內,在突出位置上擷取特徵,例如彎角或物體輪廓。圍繞突出位置置中的一局部修補已經編碼,該編碼通常擷取方位邊緣能量的直方圖。該等特徵會與先前訊框內的該等特徵比較,並且用來計算光的流動。在某些具體實施例內,使用Lukas Kanade演算法評估光的流動。決定哪個特徵鎖定其上。在某些具體實施例內,特徵用來決定一物體標籤。在某些具體實施例內,決定特徵是否鎖定包含檢查以確認是否已經在先前訊框內發現特徵。在某些具體實施例內,若已經鎖定特徵,則該 影像穩定並且可偵測到一關鍵訊框。在特徵已經鎖定的事件中,決定該訊框是否為一關鍵訊框。若決定尚未鎖定該特徵,則尋找特徵。在某些具體實施例內,決定是否已經發現特徵。在已經發現特徵的事件中,指示鎖定特徵。例如:通知一軟體模組(例如利用傳遞一訊息或指示),告知已經鎖定該(等)特徵,並且該處理可以進行(例如處理額外影像來決定一關鍵訊框)。或例如:已經儲存或記錄該鎖定(例如在資料結構內或在記憶體位置內)。在某些具體實施例內,在指示鎖定特徵之後,則下一次執行該處理時(例如回應已接收的下一個影像訊框),將決定已經鎖定該(等)特徵。如果決定未發現該(等)特徵,則處理結束。在某些具體實施例內,指示缺少鎖定至特徵(例如儲存、記錄、通過當成對於軟體模組的指示或變數等等)。
第七圖為例示用於決定一訊框是否為一關鍵訊框的處理具體實施例之流程圖。在某些具體實施例內,第七圖的處理以608實施。一影像處理器使用第七圖的處理,用來處理一已接收的影像訊框,並且決定該影像訊框是否已經為一關鍵訊框。在所示的範例中,在700內,決定特徵的動作(例如自從最後框架之後的特徵動作、特徵模糊等等)。在702內,已經移除大體上移動的特徵(例如自從最後訊框之後已經移動超過臨界值的特徵、超出模糊臨界值的特徵等等)。在704上,決定是否至少保留N個特徵。在保留少於N個特徵的事件中,流程前往706。在706內,重設特徵。在決定704內保留至少N個特徵的事件中,流程前往708。在708內,遞增穩定訊框計數器。在某些具體實施例內,該穩定訊框計數器內儲存之值代表該影像已經穩定的期間。在710內,決定是否存在該(等)特徵的關鍵訊框。在存 在該(等)特徵關鍵訊框的事件中,處理結束。在不存在該(等)特徵關鍵訊框的事件中,則在712內,決定是否有足夠的穩定訊框。在沒有足夠穩定訊框的事件中,處理結束。在有足夠穩定訊框的事件中,在714內,將該影像儲存為關鍵訊框,然後該處理結束。
在某些具體實施例內,使用加速度計測量來決定是否有穩定的訊框。在某些具體實施例內,該加速度計關聯於一行動電話。
在某些具體實施例內,一關鍵訊框具有與先前關鍵訊框不同的視覺內容。在某些具體實施例內,一關鍵訊框具有與先前關鍵訊框相同的視覺內容。
第八圖為例示用於標記一物體的處理具體實施例之流程圖。在某些具體實施例內,由第三圖的行動裝置300執行第八圖的處理。第八圖的處理用於使用行動電話及雲端可視化搜尋引擎,即時物體掃描。在某些具體實施例內,在傳入的影像串流的每一訊框上執行第八圖的處理。在所示的範例中,在800內,決定該影像是否穩定。若決定該影像不穩定,則處理結束。在某些具體實施例內,在下一個影像訊框上重複該處理。若在800內決定該影像穩定,則控制權前往802。在802內,決定該影像是否已經穩定一預定期間。若決定該影像尚未穩定該預定期間,則處理結束。在某些具體實施例內,在下一個影像訊框上重複該處理。若在802內決定該影像已經穩定該預定期間,則控制權前往804。在804內,該當前訊框已經識別為一關鍵訊框。在806內,決定一標籤給該關鍵訊框內一項目。在某些具體實施例內,由機器決定該標籤。在某些具體實施例內,該處理額外決定該標籤是由機器或人決定。在某些具體實施例內,在該標籤無法由機器決 定的事件中,該標籤由人決定。
雖然為了清楚了解而以某些細節說明前述具體實施例,不過本發明並不受限於所提供的該等細節。本發明有許多實施替代方式,所揭示的具體實施例僅供例示並不設限。
100‧‧‧網路
102‧‧‧影像標記系統
108‧‧‧智慧型行動電話
104‧‧‧無線接取點
106‧‧‧行動電話
110‧‧‧電腦
112‧‧‧伺服器

Claims (20)

  1. 一種用於標記一物體之系統,包含:一介面,其係設置以接收一影像;以及一處理器,其係設置以:決定一關鍵訊框,其中決定一關鍵訊框包含決定該影像為穩定;以及為該關鍵訊框中之一項目決定一標籤。
  2. 如申請專利範圍第1項之系統,其中所述決定一影像為穩定包含決定一特徵。
  3. 如申請專利範圍第2項之系統,其中該特徵是在一當前訊框中及在一先前訊框中。
  4. 如申請專利範圍第2項之系統,其中該特徵為複數個特徵中其一。
  5. 如申請專利範圍第4項之系統,其中該複數個特徵的百分比高於一預定訊框數量的臨界值。
  6. 如申請專利範圍第4項之系統,其中該複數個特徵的數量高於一預定訊框數量的臨界值。
  7. 如申請專利範圍第4項之系統,其中各該複數個特徵是在一當前訊框中及一先前訊框中。
  8. 如申請專利範圍第4項之系統,其中決定與每一該等複數個特徵相關聯之動作。
  9. 如申請專利範圍第4至8項中任一項之系統,其中當該複數個特徵的一特定特徵具有高於一臨界值之移動時,從該複數個特徵中移除該特 定特徵點。
  10. 如申請專利範圍第1項之系統,其中該影像係接收自一行動裝置上之一相機。
  11. 如申請專利範圍第10項之系統,其中該行動裝置包含一行動電話。
  12. 如申請專利範圍第10項之系統,其中該行動裝置包含一平板電腦。
  13. 如申請專利範圍第1項之系統,其中該標籤是使用一電腦視覺引擎所決定。
  14. 如申請專利範圍第1項之系統,其中該標籤是使用一人為計算模組所決定。
  15. 如申請專利範圍第14項之系統,其中該人為計算模組是從一或多個人為標註者請求該標籤。
  16. 如申請專利範圍第15項之系統,其中該人為計算模組決定該標籤的有效性。
  17. 如申請專利範圍第14或15項中任一項之系統,其中當無法使用該電腦視覺模組決定該標籤時,使用該人為計算模組決定該標籤。
  18. 如申請專利範圍第1項之系統,其中該關鍵訊框所具有的視覺內容與一先前關鍵訊框的視覺內容不同。
  19. 一種用於標記一物體之方法,包含:決定一關鍵訊框,其中所述決定一關鍵訊框包含決定一影像為穩定;以及為該關鍵訊框中之一項目決定一標籤。
  20. 一種用於標記一物體的電腦程式產品,該電腦程式產品係具現於一有 形的電腦可讀取儲存媒體內且包含電腦指令以進行:決定一關鍵訊框,其中所述決定一關鍵訊框包含決定一影像為穩定;以及為該關鍵訊框中之一項目決定一標籤。
TW103104388A 2013-02-15 2014-02-11 利用行動電話及雲端可視化搜尋引擎之即時物體掃描 TWI586160B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/768,051 US9633272B2 (en) 2013-02-15 2013-02-15 Real time object scanning using a mobile phone and cloud-based visual search engine

Publications (2)

Publication Number Publication Date
TW201448585A true TW201448585A (zh) 2014-12-16
TWI586160B TWI586160B (zh) 2017-06-01

Family

ID=51351214

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103104388A TWI586160B (zh) 2013-02-15 2014-02-11 利用行動電話及雲端可視化搜尋引擎之即時物體掃描

Country Status (3)

Country Link
US (1) US9633272B2 (zh)
TW (1) TWI586160B (zh)
WO (1) WO2014126735A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108702549A (zh) * 2016-03-17 2018-10-23 惠普发展公司有限责任合伙企业 帧传输

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218364B1 (en) 2011-01-28 2015-12-22 Yahoo! Inc. Monitoring an any-image labeling engine
US10091419B2 (en) * 2013-06-14 2018-10-02 Qualcomm Incorporated Computer vision application processing
US9754177B2 (en) * 2013-06-21 2017-09-05 Microsoft Technology Licensing, Llc Identifying objects within an image
ES2752728T3 (es) 2014-02-10 2020-04-06 Geenee Gmbh Sistemas y métodos para el reconocimiento basado en características de imagen
JP2016021184A (ja) * 2014-07-15 2016-02-04 東芝テック株式会社 顔識別装置及びプログラム
US10410531B2 (en) * 2014-11-05 2019-09-10 Sierra Nevada Corporation Systems and methods for generating improved environmental displays for vehicles
CN106803997B (zh) * 2017-03-14 2019-12-17 广州视源电子科技股份有限公司 一种音视频直播中检测客户端播放状态的系统及方法
JP7199627B2 (ja) * 2017-05-31 2023-01-06 ウーブン プラネット ノース アメリカ,インコーポレイティド 高精細準リアルタイムマップ生成用の撮像機器を備える車両のシステム

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5309526A (en) 1989-05-04 1994-05-03 At&T Bell Laboratories Image processing system
US5496270A (en) 1994-09-26 1996-03-05 Megadyne Medical Products, Inc. Tri-tubular suction irrigation device
US5913205A (en) 1996-03-29 1999-06-15 Virage, Inc. Query optimization for visual information retrieval system
US6421690B1 (en) 1998-04-30 2002-07-16 Honeywell International Inc. Computer memory management system
US7184100B1 (en) * 1999-03-24 2007-02-27 Mate - Media Access Technologies Ltd. Method of selecting key-frames from a video sequence
US6677948B1 (en) 1999-06-14 2004-01-13 Mitutoyo Corporation Systems and methods for multi-resolution image defocusing
US7113918B1 (en) 1999-08-01 2006-09-26 Electric Planet, Inc. Method for video enabled electronic commerce
US7194148B2 (en) 2001-09-07 2007-03-20 Yavitz Edward Q Technique for providing simulated vision
US7068309B2 (en) 2001-10-09 2006-06-27 Microsoft Corp. Image exchange with image annotation
AU2002342067A1 (en) 2001-10-12 2003-04-22 Hrl Laboratories, Llc Vision-based pointer tracking method and apparatus
CN1327772C (zh) 2001-12-04 2007-07-25 诺和酶股份有限公司 杀死孢子的方法
US7139784B2 (en) 2003-07-29 2006-11-21 Hewlett-Packard Development Company, L.P. Dead timestamp identification and elimination
US7590310B2 (en) 2004-05-05 2009-09-15 Facet Technology Corp. Methods and apparatus for automated true object-based image analysis and retrieval
US8438084B1 (en) * 2004-06-09 2013-05-07 Amazon Technologies, Inc. Method and system for inventory verification
US7509353B2 (en) 2004-11-16 2009-03-24 Microsoft Corporation Methods and systems for exchanging and rendering forms
US7657100B2 (en) 2005-05-09 2010-02-02 Like.Com System and method for enabling image recognition and searching of images
US7660468B2 (en) 2005-05-09 2010-02-09 Like.Com System and method for enabling image searching using manual enrichment, classification, and/or segmentation
US7760917B2 (en) 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US7702681B2 (en) 2005-06-29 2010-04-20 Microsoft Corporation Query-by-image search and retrieval system
US9286388B2 (en) 2005-08-04 2016-03-15 Time Warner Cable Enterprises Llc Method and apparatus for context-specific content delivery
JP2007041987A (ja) 2005-08-05 2007-02-15 Sony Corp 画像処理装置および方法、並びにプログラム
US8160400B2 (en) 2005-11-17 2012-04-17 Microsoft Corporation Navigating images using image based geometric alignment and object based controls
US7352292B2 (en) 2006-01-20 2008-04-01 Keith Alter Real-time, three-dimensional synthetic vision display of sensor-validated terrain data
US7711145B2 (en) 2006-01-27 2010-05-04 Eastman Kodak Company Finding images with multiple people or objects
WO2008018091A1 (en) 2006-08-08 2008-02-14 Jubilant Organosys Limited Process for producing sulphoxide compounds
US8214309B1 (en) 2008-12-16 2012-07-03 Hrl Laboratories, Llc Cognitive-neural method for image analysis
JP4941124B2 (ja) * 2007-06-25 2012-05-30 オムロン株式会社 監視システムおよび方法、情報処理装置、並びにプログラム
US8050503B2 (en) 2007-07-05 2011-11-01 General Electric Company Systems and methods for computer vision using curvelets
US8073189B2 (en) 2007-08-03 2011-12-06 General Electric Company Methods and systems for selecting an image application based on image content
US7675461B1 (en) 2007-09-18 2010-03-09 Rockwell Collins, Inc. System and method for displaying radar-estimated terrain
JP5055092B2 (ja) 2007-11-02 2012-10-24 株式会社日立国際電気 映像処理装置及び映像処理方法
US7854509B2 (en) 2007-12-13 2010-12-21 David Johns Vision screener
WO2009134482A2 (en) 2008-01-31 2009-11-05 The Board Of Trustees Of The University Of Illinois Recognition via high-dimensional data classification
US8055081B2 (en) 2008-04-14 2011-11-08 Eastman Kodak Company Image classification using capture-location-sequence information
US8134624B2 (en) 2008-07-03 2012-03-13 Aptina Imaging Corporation Method and apparatus providing multiple exposure high dynamic range sensor
WO2010006334A1 (en) 2008-07-11 2010-01-14 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US8364660B2 (en) 2008-07-11 2013-01-29 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US7961117B1 (en) 2008-09-16 2011-06-14 Rockwell Collins, Inc. System, module, and method for creating a variable FOV image presented on a HUD combiner unit
US7991646B2 (en) 2008-10-30 2011-08-02 Ebay Inc. Systems and methods for marketplace listings using a camera enabled mobile device
US9805123B2 (en) 2008-11-18 2017-10-31 Excalibur Ip, Llc System and method for data privacy in URL based context queries
US20100125805A1 (en) 2008-11-19 2010-05-20 Xerox Corporation Methods of providing user interface for control of digital imaging system and corresponding apparatus
US20110298932A1 (en) 2008-12-31 2011-12-08 Iscon Video Imaging, Inc. Systems and methods for concealed object detection
WO2011000046A1 (en) 2009-07-01 2011-01-06 Ozmota Inc. Systems and methods for determining information and knowledge relevancy, relevant knowledge discovery and interactions, and knowledge creation
US8478052B1 (en) 2009-07-17 2013-07-02 Google Inc. Image classification
US20110016150A1 (en) 2009-07-20 2011-01-20 Engstroem Jimmy System and method for tagging multiple digital images
US8706184B2 (en) 2009-10-07 2014-04-22 Intuitive Surgical Operations, Inc. Methods and apparatus for displaying enhanced imaging data on a clinical image
US20110145043A1 (en) * 2009-12-15 2011-06-16 David Brian Handel Method and System for Improving the Truthfulness, Reliability, and Segmentation of Opinion Research Panels
US20110184972A1 (en) 2009-12-23 2011-07-28 Cbs Interactive Inc. System and method for navigating a product catalog
US8489589B2 (en) 2010-02-05 2013-07-16 Microsoft Corporation Visual search reranking
WO2011106520A1 (en) 2010-02-24 2011-09-01 Ipplex Holdings Corporation Augmented reality panorama supporting visually impaired individuals
US8660355B2 (en) 2010-03-19 2014-02-25 Digimarc Corporation Methods and systems for determining image processing operations relevant to particular imagery
US8706580B2 (en) 2010-04-26 2014-04-22 Hrb Tax Group, Inc. Method, system, and computer program for predicting tax liabilities and benefits
US20120011142A1 (en) 2010-07-08 2012-01-12 Qualcomm Incorporated Feedback to improve object recognition
US20120011119A1 (en) 2010-07-08 2012-01-12 Qualcomm Incorporated Object recognition system with database pruning and querying
US9485497B2 (en) 2010-09-10 2016-11-01 Reald Inc. Systems and methods for converting two-dimensional images into three-dimensional images
TWI428836B (zh) 2010-10-20 2014-03-01 Htc Corp 影像擷取方法及系統,及其電腦程式產品
US8265866B2 (en) 2010-12-15 2012-09-11 The Boeing Company Methods and systems for augmented navigation
US9547938B2 (en) 2011-05-27 2017-01-17 A9.Com, Inc. Augmenting a live view
US8891832B2 (en) 2011-06-03 2014-11-18 Facebook, Inc. Computer-vision-assisted location check-in
US8856021B2 (en) * 2011-06-12 2014-10-07 International Business Machines Corporation Scoring of crowd-computing inputs
TWI567570B (zh) 2011-06-15 2017-01-21 微軟技術授權有限責任公司 用於產生代表內容檔案之客製物件的技術
US10545642B2 (en) * 2011-10-07 2020-01-28 Appgree Sa Method to know the reaction of a group respect to a set of elements and various applications of this model
US9396400B1 (en) * 2015-07-30 2016-07-19 Snitch, Inc. Computer-vision based security system using a depth camera

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108702549A (zh) * 2016-03-17 2018-10-23 惠普发展公司有限责任合伙企业 帧传输
CN108702549B (zh) * 2016-03-17 2022-03-04 惠普发展公司有限责任合伙企业 帧传输

Also Published As

Publication number Publication date
WO2014126735A1 (en) 2014-08-21
TWI586160B (zh) 2017-06-01
US9633272B2 (en) 2017-04-25
US20140233854A1 (en) 2014-08-21

Similar Documents

Publication Publication Date Title
TWI586160B (zh) 利用行動電話及雲端可視化搜尋引擎之即時物體掃描
JP6966057B2 (ja) アカウント情報取得方法、端末、サーバ、およびシステム
US10133951B1 (en) Fusion of bounding regions
US10979624B2 (en) Methods and devices for establishing photographing template database and providing photographing recommendation information
US9576195B2 (en) Integrated image searching system and service method thereof
US9412017B1 (en) Methods systems and computer program products for motion initiated document capture
KR101729938B1 (ko) 통합 영상 검색 시스템 및 그 서비스 방법
CN103988202A (zh) 基于索引和搜索的图像吸引力
CN103577788A (zh) 增强现实的实现方法和装置
US20130258198A1 (en) Video search system and method
JP2008197904A (ja) 人物検索装置および人物検索方法
TW201516939A (zh) 查詢使用者標識的方法及裝置、獲取使用者標識的方法及裝置與即時通訊中添加好友的方法及裝置
Vazquez-Fernandez et al. Built-in face recognition for smart photo sharing in mobile devices
US10205875B2 (en) Image enhancement and repair using sample data from other images
TWI781554B (zh) 物品名稱確定方法、裝置、電腦設備及儲存媒體
US10402777B2 (en) Method and a system for object recognition
JP2013037533A (ja) 商品情報取得システムおよび商品情報提供サーバ装置
CN103353879B (zh) 图像处理方法及设备
US9411825B2 (en) Computer implemented system for handling text distracters in a visual search
CN110866168A (zh) 信息推荐方法、装置、终端及服务器
CN113283480B (zh) 一种对象识别方法、装置、电子设备及存储介质
JP2022058833A (ja) 情報処理システム、情報処理装置、情報処理方法、およびプログラム
CN113537127A (zh) 影片匹配方法、装置、设备及存储介质
CN112565586A (zh) 一种自动对焦方法及装置
JP2021024093A5 (zh)