TWI534723B - 用以辨識媒體內容中之物件的方法和裝置 - Google Patents

用以辨識媒體內容中之物件的方法和裝置 Download PDF

Info

Publication number
TWI534723B
TWI534723B TW100129980A TW100129980A TWI534723B TW I534723 B TWI534723 B TW I534723B TW 100129980 A TW100129980 A TW 100129980A TW 100129980 A TW100129980 A TW 100129980A TW I534723 B TWI534723 B TW I534723B
Authority
TW
Taiwan
Prior art keywords
representations
instances
objects
content stream
representation
Prior art date
Application number
TW100129980A
Other languages
English (en)
Other versions
TW201211916A (en
Inventor
伊卡T 沙米南
麥克A 努米
Original Assignee
諾基亞科技公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 諾基亞科技公司 filed Critical 諾基亞科技公司
Publication of TW201211916A publication Critical patent/TW201211916A/zh
Application granted granted Critical
Publication of TWI534723B publication Critical patent/TWI534723B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4332Content storage operation, e.g. storage operation in response to a pause request, caching operations by placing content in organized collections, e.g. local EPG data repository
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8583Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by creating hot-spots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/179Human faces, e.g. facial parts, sketches or expressions metadata assisted face recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Description

用以辨識媒體內容中之物件的方法和裝置
本發明係有關於用以辨識媒體內容中之物件的方法和裝置。
發明背景
服務供應商和設備製造商(例如,無線、蜂巢式、等等)需持續挑戰藉由例如,提供令人注意的網路服務來將價值和便利性傳達給消費者。其中一開發區域已使用自動辨識諸如影像、視訊串流、以及音訊串流之媒體內容中的臉部、人群、以及其他物件或特徵(例如,諸如臉部表情、身體姿態、移動、語音、聲音、等等之表示型態辨識)的技術。例如,許多現代的通訊設備(例如,智慧型手機、話機、等等)已共同設有使該設備可執行擷取內容中之辨識(例如,臉部、語音、表示型態辨識、等等)的相機以及其他感測器(例如,麥克風)。然而,該等設備在某些情況(例如,雜訊、變化的表示型態、不良角度、照明不佳、低解析度影像或聲音、等等)下,通常使用傳統上已努力精確執行的習知方法來作臉部及/或物件辨識。因此,服務供應商和設備製造商仍需面對顯著的技術挑戰來改善臉部及/或物件辨識的精確性。
發明概要
於是,需要一種方法來實際且有效地辨識媒體內容中之臉部、物件、以及其他特徵。
根據一實施例,一種方法包含決定於一設備檢測一內容串流中的一或更多物件。該方法亦包含決定擷取該內容串流中之該一或更多物件的一或更多表示型態。該方法更包含將該一或更多表示型態與該內容串流之一或更多實例相關聯。
根據另一實施例,一裝置包含至少一處理器、以及包括電腦程式碼之至少一記憶體,該至少一記憶體和該電腦程式碼可以該至少一處理器來組配,來至少部分使該裝置決定於一設備檢測一內容串流中的一或更多物件。亦可使該裝置來決定擷取該內容串流中之該一或更多物件的一或更多表示型態。可進一步使該裝置將該一或更多表示型態與該內容串流之一或更多實例相關聯。
根據另一實施例,一電腦可讀儲存媒體可承載一或更多指令之一或更多序列,其由一或更多處理器來執行時,可至少部分使該裝置檢測一設備之一內容串流中的一或更多物件。亦可使該裝置決定擷取該內容串流中之該一或更多物件的一或更多表示型態。可進一步使該裝置將該一或更多表示型態與該內容串流之一或更多實例相關聯。
根據另一實施例,一裝置包含用以決定於一設備檢測一內容串流中的一或更多物件之裝置。該裝置亦包含用以決定擷取該內容串流中之該一或更多物件的一或更多表示型態之裝置。該裝置可進一步包含用以將該一或更多表示型態與該內容串流之一或更多實例相關聯的裝置。
另外僅藉由繪示若干特定實施例和實施態樣,包括預期實現本發明之最佳模式,本發明之其他觀點、特徵、以及優點可從下列詳細說明而變得更加明顯。在不違背本發明之精神和範疇的情況下,本發明亦可有其他以及不同的實施例,而其若干細節可以各種不同的顯著觀點來加以修改。因此,該等圖式及說明在本質上可視為舉例解說,而非視為限制。
圖式簡單說明
本發明之實施例可藉由該等附圖之圖形中的範例、而非藉由限制來加以繪示:
第1圖是一根據一實施例,能夠辨識媒體內容中之物件的一系統之圖形;
第2圖是一根據一實施例,一擷取管理員之組件的圖形;
第3圖是一根據一實施例,用以辨識媒體內容中之物件的一程序之流程圖;
第4圖是一根據一實施例,用以將辨識資訊與一內容串流之實例相關聯的一程序之流程圖;
第5圖是一根據一實施例,用以將最佳化臉部表示型態與一內容串流之一影像實例相關聯的一程序之流程圖;
第6圖是一根據一實施例,用以將辨識資訊與一影像實例/臉部表示型態對相關聯之一程序的流程圖;
第7圖是一根據一實施例,用以將辨識資訊與一資料庫中之影像實例/臉部表示型態對相關聯的一程序之流程圖;
第8A圖至第8B圖是根據各種不同實施例,於第3圖之程序中擷取的一內容串流之實例中的物件表示型態之圖形;
第9A圖至第9B圖是根據各種不同實施例,於第3圖之程序中從不同角度擷取的一內容串流之實例中的物件表示型態之圖形;
第10圖是一根據一實施例,用以應用第4圖、第6圖和第7圖之程序的一使用者介面之圖形;
第11圖是一可用來執行本發明之一實施例的硬體之圖形;
第12圖是一可用來執行本發明之一實施例的一晶片組之圖形;以及
第13圖是一可用來執行本發明之一實施例的一行動端子(例如,話機)之圖形。
較佳實施例之詳細說明
本案提供一種用以辨識媒體內容中之物件的方法、裝置、以及電腦程式之範例。下列說明中,為了解說目的,其提出許多特定細節來提供對本發明之實施例的一完全了解。然而,很明顯地對業界熟於此技者而言,在無該等特定細節或具有一等效安排的情況下本發明之實施例仍可加以實作。其他實例中,著名的結構和設備以方塊圖型式來顯示以避免對本發明之實施例產生不必要的混淆。
第1圖是一根據一實施例,能夠辨識媒體內容中之物件的一系統之圖形。如先前所述,諸如臉部或語音辨識之辨識方法已發展多年。由於此開發,辨識方法已變得甚至更複雜和精確。例如,臉部辨識方法已可藉由分析諸如眼睛、鼻子、和嘴巴之一臉部顯著特徵、以及關鍵臉部特徵的相對位置來延伸辨識臉部表情。此外,語音和聲音辨識方法已可從辨識說話延伸至辨識語音表示型態,諸如笑聲和哭泣、以及一般週遭或背景雜訊(例如,來自一方的交通、聲音、等等)。然而,如先前所述,辨識方法在使該辨識非最佳化或有時不精確的某些條件(例如,雜訊、變化的表示型態、不良角度、照明不佳、低解析度影像或聲音、等等)下仍努力執行。再者,習知的辨識方法主要於擷取內容(例如,一場景的一單一擷取照片)之一特定實例上操作,因而一般會依靠該特定實例之辨識條件。結果是,在與該擷取實例中之辨識主題相關聯的條件不是最佳化辨識的情況下,習知的辨識方法可能無法精確辨識該物件。例如,擷取影像時,該臉部遠離、並且不直接朝向該擷取設備(例如,相機、攝錄影機、等等)、被陰影混淆、等等時,臉部辨識會產生不精確的結果。
為說明此問題,第1圖之一系統100可導入儲存或以其他方式將最佳化的物件表示型態與該等物件對應的擷取實例(例如,照片、音訊紀錄、視訊紀錄、等等)相關聯之功能。於一實施例中,該等最佳化表示型態(例如,較適合執行物件辨識,諸如臉部直接看相機的條件下擷取之表示型態)可作為元資料來附接於該等擷取實例。另一實施例中,一應用或其他服務嘗試執行該擷取實例之物件辨識時,該物件之附接或相關聯的最佳化表示型態可替代該擷取實例之實際物件來辨識。例如,該等擷取實例為包含一或更多臉部之照片的情況中,該等臉部之一或更多最佳化表示型態可附接於每一照片。此方式中,即使該等臉部,例如,背對相機或由其他方式混淆,該等臉部仍可被自動辨識。
更特別是,一內容串流之實例(例如,照片、音訊紀錄、視訊紀錄、等等)被擷取之前、之後及/或當時,該系統100可檢測該內容串流中之物件。藉由範例,一內容串流代表於一擷取設備上持續或實際持續接收的內容,諸如於一相機之一取景器接收之影像、或於一開放麥克風接收之音訊。一旦該內容串流中檢測到一物件,則有關該物件改變(例如,人們走動、臉部背對相機、照明改變、等等)的情況下時,該系統100仍可繼續追蹤該物件。同時,該系統100可(例如,持續性或週期性)擷取該內容串流中之物件的表示型態。於一實施例中,該內容串流之實例被擷取之前、之後及/或當時,該系統100可擷取該等物件的表示型態。另一實施例中,一使用者啟動包括該物件之內容串流的特定實例之擷取時(例如,啟動一相機之快門來拍照時),該追蹤之物件資訊、以及該物件之對應的一或更多最佳化表示型態可與該擷取實例相關聯或附加於該實例。某些實施例中,該追蹤資訊包括至少識別該擷取實例中物件的相對位置之資訊,因而使該系統100能夠將該物件之最佳化表示型態與該擷取實例中之物件位置相關聯。如上所述,針對擷取作為一實例之一部分的任何物件而言,該系統100不需依靠該實例中呈現用於辨識目的之物件的特定表示型態。而是,該系統100可使用該實例擷取之前、之後、及/或當時所擷取之物件的任何表示型態來表示該內容串流之實例中的物件。
另一實施例中,該系統100可根據一或更多準則(例如,位置、角度、照明、銳度、模糊性、雜訊、解析度、等等)來選擇表示型態。例如,若該表示型態中之物件為一臉部,則該表示型態可根據一或更多較佳臉部表情來選擇。此情況中,若該對應臉部是微笑、大笑、等等則可選擇一表示型態。某些情況中,該臉部有最中性表情(例如,無表情)時可選擇該最佳化表示型態。尚有另一實施例中,該等表示型態可持續地、週期性地、或於一預定排程中擷取,直到該等表示型態之品質(例如,物件辨識之適合性)符合一預定品質臨界值為止。雖然該等表示型態可持續被擷取(例如,只要該擷取設備開機),但該預定品質臨界值條件可至少允許擷取符合該預定品質臨界值之表示型態,並允許例如,行動設備可藉由避免對額外表示型態不需要的擷取來保存電池壽命。之後,該系統100可例如,將該等物件之最佳化表示型態與該內容串流之實例相關聯。根據另一實施例,該系統100可通知使用者該品質臨界值是否未符合並要求使用者將相機指向該品質臨界值尚未符合之該等臉部或物件。此方式中,該使用者除了擷取該場景的實際實例或照片之外,其可嘗試直接擷取一最佳化表示型態。
如第1圖所示,該系統100包含經由一通訊網路105連接至一服務平台103之一使用者設備(UE)101或多個UE 101a-101n。雖然該服務平台103顯示為與該通訊網路105獨立的一組件,但可預期該服務平台103可合併於包括下述任何組件之該系統100的任何其他組件中。於一實施例中,一UE 101可包括或連接至一擷取管理員107。該UE 101亦可包括或連接至一擷取儲存器109。該擷取管理員107可與該擷取儲存器109通訊以接取或儲存媒體資料或任何其他型式之資料。該擷取管理員107亦可與該UE 101中或連接至該UE 101之一媒體擷取設備(例如,數位相機、攝錄影機、錄音機、等等)通訊以檢測一內容串流中之物件、並擷取該等物件表示型態以及該內容串流之實例。該擷取管理員107可進一步執行將該等表示型態與該內容串流之實例相關聯的功能。此外,該擷取管理員107可執行決定該內容串流中之物件的辨識資訊以及亦將該辨識資訊與該內容串流中之實例相關聯的功能。該擷取管理員107亦可提供視覺化(例如,圖形使用者介面)來使一使用者加入或修改辨識資訊以協助該擷取管理員107決定以及將該辨識資訊與該內容串流中之實例相關聯。
再者,該擷取管理員107能夠使用該UE 101可得之任何通訊型式來處理各種不同的通訊操作。例如,該擷取管理員107可經由該UE 101來管理進入或外向的通訊,並在其被接收或處理時來顯示該類通訊。某些實施例中,該擷取管理員107亦可提供視覺化(例如,圖形使用者介面)來使一使用者控制通訊或使用任何可得的通訊型式來於該通訊網路105上共享媒體。例如,該擷取管理員107可包括一選項來選擇與該等UE 101a-101n之通訊以便共享媒體資料或其他資料型式。此外,該擷取管理員107可包括允許使用者經由該服務平台103與任何網際網路式的網站通訊或使用電子郵件服務的介面。再者,該擷取管理員107亦可包括與社會網路服務互動、以及能夠上載或共享從該UE 101至該社會網路服務之媒體的介面。
該服務平台103可執行與檢測、追蹤、以及辨識如本文所述之媒體內容中的物件相關聯之各種不同計算。此外或替代地,至少某些或所有該等計算可針對該UE 101來執行。例如,該UE 101可將物件表示型態傳送至該服務平台103以便執行一或更多表示型態與一或更多其他表示型態間之比較計算,來從該等兩組合決定最佳化物件表示型態。計算該結果後,該服務平台103可將該計算結果傳送至該UE 101。
另一範例中,該UE 101可藉由將一影像實例中之物件的表示型態(例如,附接或附加於該擷取影像檔案來作為元資料之物件最佳化影像)傳送至該服務平台103來要求最近擷取之該影像實例(例如,該UE 101擷取之一照片)的辨識資訊。為了響應,該服務平台103可比較該發送之表示型態以及該資料庫中與具有辨識資訊之類似影像實例(例如,該相同物件先前擷取和辨識的照片)相關聯之其他表示型態。此外或替代地,該服務平台103可使用一或更多辨識演算法來從該發送之表示型態及/或擷取之影像實例產生辨識資訊。藉由範例,該服務平台103可藉由建構該表示型態之一視覺簽章以及之後比較該建構之簽章和已知的簽章(例如,先前取得的簽章、來自一資料庫的已知簽章、由網際網路搜尋取得的已知簽章、等等)以執行一視覺物件辨識。於一範例中,該視覺簽章可根據識別該表示型態之特徵、該等特徵間之相對距離、該等特徵之大小或特性、等等來單獨識別該等表示型態及/或擷取影像中之個別物件。
若找到一匹配或該辨識資訊以其他方式產生,則該服務平台103可將該發現之辨識資訊傳送至該UE 101。否則,該服務平台103可傳送陳述該資料庫中找不到辨識資訊之一訊息。該服務平台103亦能夠執行與該等UE 101a-101n通訊相關之各種不同服務,使得該等UE 101a-101n可於該通訊網路105上彼此通訊。該服務平台103提供的服務可包括一行動電話服務、網際網路服務、資料傳送服務、等等。該服務平台103亦可提供諸如音樂、視訊、電視服務、等等的內容。該服務平台103可進一步包括或連接至一服務儲存器111以儲存或接取媒體資料或任何其他型式的資料。
如本文所使用,該術語資料庫參照為該擷取儲存器109、該服務儲存器111、該通訊網路105之另一儲存組件、或其一組合的一資料庫。此外,如本文所使用,該術語“媒體”參照為各種不同的媒體型式,包括音訊、視訊、靜止影像、圖片、等等。再者,如本文所使用,該術語“影像”參照為一相機(例如,一靜止相機、數位相機、視訊攝影機、相機電話、等等)或任何其他影像設備拍攝之一個或一系列影像。藉由範例,一單一影像可代表一照片而多個影像可依序組合來製作視訊短片。
藉由範例,系統100之通訊網路105包括諸如一資料網路(未顯示)、一無線網路(未顯示)、一電話網路(未顯示)、或其任何組合之一或更多網路。可預期該資料網路可為任何區域網路(LAN)、都會區網路(MAN)、廣域網路(WAN)、一公眾資料網路(例如,網際網路)、短程無線網路、或任何其他適當的封包交換網路,諸如一商業所有、專屬封包交換網路,例如一專屬纜線或光纖網路、等等,或其任何組合。再者,該無線網路可為,例如,一蜂巢式網路並可使用各種不同的技術,包括全域進化增強資料率(EDGE)、通用封包無線服務(GPRS)、全球行動通信系統(GSM)、網際網路協定多媒體子系統(IMS)、通用行動通訊服務(UMTS)、等等,以及任何其他適當的無線媒體,例如,全球互通微波接取(WiMAX)、長期演進技術(LTE)網路、碼分多重存取(CDMA)、寬頻碼分多重存取(WCDMA)、無線LAN(WLAN)、藍牙、網際網路協定(IP)數據廣播、衛星、行動隨意網路(MANET)、等等、或其任何組合。
該UE 101可為任何類型的行動端子、固定端子、或包括一行動話機、站台、單元、設備之可攜式端子、多媒體電腦、多媒體平板電腦、網際網路節點、通訊器、桌上型電腦、膝上型電腦、筆記型電腦、筆記本電腦、平板電腦、隨身設備、個人通訊系統(PCS)設備、個人導航設備、個人數位助理(PDA)、音訊/視訊播放器、數位相機/攝錄影機、定位設備、電視接收器、無線電廣播接收器、電子書設備、遊戲設備、或其任何組合,包括該等設備之配件和週邊元件、或其任何組合。亦可預期該UE 101可支援至該使用者的任何類型介面(諸如“隨身”電路、等等)。
於一實施例中,一物件可藉由根據該表示型態來決定辨識資訊來辨識。例如,一影像中的人可由與該影像相關聯之一臉部表示型態來辨識。辨識資訊(例如,此人名字)可從該臉部表示型態來決定,因為若,例如,於存在該資料庫中之另一影像中此人先前已被附加或辨識時,該臉部表示型態可已具有與其相關聯之辨識資訊。該物件辨識後,該辨識資訊可與包含該物件之實例相關聯。如第10圖所示,附加可以是將該辨識資訊與該實例相關聯的一種方式。
另一實施例中,該辨識資訊之決定可進一步根據該設備、另一設備、一伺服器、一網路組件、或其一組合中可得之資源。為了有效使用資源,在執行該辨識資訊決定功能之組件的資源未充分利用或以其他方式取得的情形下可決定辨識資訊。
另一實施例中,該等表示型態可儲存來作為該等實例中之元資料、作為鏈接至該等實例、或其一組合之一儲存器中之元資料。於另一實施例中,該辨識資料亦可儲存來作為該等實例中之元資料、作為鏈接至該等實例、或其一組合之一儲存器中之元資料。一般而言,檔案(例如,資料、影像、視訊、等等)包含元資料而包含於該等檔案中之元資料可被輕易發現。特別是該等檔案和有關該等檔案之資訊意欲共享時此情況不是個問題。例如,一使用者可希望共享與一特定影像相關聯之表示型態和辨識資訊。該使用者可將該影像上載至一公眾伺服器或一社會網路網站來與該使用者的朋友共享。因該影像包含作為元資料之該等表示型態和該等辨識資訊,所以該使用者的朋友可下載該影像並使用該影像來以該新的元資料資訊更新其本身影像。然而,一使用者亦可希望與該使用者的朋友共享該影像並將該等表示型態和該等辨識資訊保持私有。就本身而言,將作為元資料之該等表示型態和該等辨識資訊儲存於鏈接至該等實例之一安全儲存器中是較理想的。此方式中,該等表示型態和該等辨識資訊可由該使用者來用於辨識,但即使該影像本身為共享時仍無法供其他使用者辨識用。
另一實施例中,該等表示型態可與個別的時間戳記相關聯。此外,該等表示型態可根據該等時間戳記與該等實例相關聯。例如,一個人的多個臉部表示型態可被儲存-每一表示型態根據該表示型態何時被擷取而具有一時間戳記。影像被擷取或加入該資料庫時,具有最接近一特定影像被擷取的時間之一時間戳記的臉部表示型態會被選擇來代表該影像中的人。
另一實施例中,可有一或更多的內容串流。例如,該UE 101可同時或在不同時間接受包含相同或不同類型的實例之多個內容串流(例如,多個麥克風、多個相機、等等)。此外,該UE 101可從其他UE 101a-101n、該服務平台103、該通訊網路105之其他組件、或其一組合的其中之一或更多來經由,例如,該通訊網路105以接受內容串流。另一實施例中,表示型態可從其他設備,例如,其他UE 101a-101n、該服務平台103、該通訊網路105之其他組件、或其一組合來接收其他內容串流、或其一組合。就本身而言,來自一內容串流之表示型態可選擇來代表另一內容串流之一實例中的物件。例如,若決定一新的表示型態具有一較佳品質時,則存在資料庫中、從一先前內容串流擷取之一最佳化表示型態稍後可以從另一內容串流擷取之該新的表示型態來更新或取代。此外,如有關第9A圖至第9B圖所述,使用者可經由,例如,該通訊網路105來彼此自動或手動共享物件表示型態。
另一實施例中,該等表示型態對應該等物件的特性(例如,臉部特性、表情、身體姿態、移動、語音、聲音、等等)。有關該物件之不同類型的情況之多個表示型態可被擷取來呈現不同類型的情況。例如,一表示型態可針對包括笑臉、哭臉、冷靜臉、等等之每一臉部表情來擷取。
另一實施例中,該內容串流可為一生動的視訊串流,而該等實例可為影像、視訊、音訊紀錄、或其一組合。例如,諸如一相機、一攝錄影機、等等之一擷取設備可包括顯示該生動的視訊串流之一取景器,其中該等實例為影像、視訊、音訊紀錄、或其一組合。
藉由範例,該UE 101和該服務平台103可使用著名的、新的或仍開發中的協定來彼此通訊並與該通訊網路105之其他組件通訊。該脈絡中,一協定包括定義該通訊網路105中之網路節點如何根據在該等通訊鏈接上傳送之資訊來彼此互動的一組規則。從產生和接收各種不同類型的實體信號、至選擇一鏈接來將該等信號轉移為該等信號所指出的資訊格式、至識別於一電腦系統中執行之哪個軟體應用程式傳送或接收該資訊,該等協定在每一節點之不同操作層都是有效的。用於交換一網路上的資訊之該等概念上不同的協定層可於該開放系統互連(OSI)參考模型中加以說明。
該等網路節點間之通訊典型可藉由交換離散的資料封包來達到。每一封包典型包含(1)與一特定協定相關聯之標頭資訊、以及(2)該標頭資訊後並包含可與該特定協定獨立處理之資訊的酬載資訊。某些協定中,該封包包括(3)該酬載資訊後並指出該酬載資訊之末端的標尾資訊。該標頭包括諸如該封包來源、其目的地、該酬載長度、以及該協定使用之其他性質的資訊。通常,該特定協定之酬載中的資料包括與一不同、較高層的OSI參考模型相關聯之一不同協定的一標頭和酬載。一特定協定之標頭典型可指出包含其酬載中之下一協定的一類型。該較高層協定如上述囊封於該較低層協定中。包括於一封包橫向多異質網路,諸如網際網路中之標頭典型包括該OSI參考模型所定義之一實體(第1層)標頭、一資料鏈接(第2層)標頭、一網路間(第3層)標頭以及一傳送(第4層)標頭、以及各種不同的應用標頭(第5層、第6層以及第7層)。
第2圖是一根據一實施例,一擷取管理員之組件的圖形。藉由範例,該擷取管理員107包括用以辨識媒體內容中之物件的一或更多組件。可預期該等組件之功能可於一或更多組件中組合或由其他等效功能性之組件來執行。此實施例中,該擷取管理員107包括一控制器201、一擷取模組203、一辨識模組205、一通訊模組207、一計算模組209、以及一演示模組211。
該控制器210可監督之任務,包括該擷取模組203、該辨識模組205、該通訊模組207、該計算模組209、以及該演示模組211執行的任務。例如,雖然其他模組可執行該實際任務,但該控制器210可決定該等任務何時和如何執行或者可以其他方式來導引其他模組來執行該任務。
該擷取模組203可管理和控制一內容串流中之物件的檢測、和該物件表示型態之擷取以及該內容串流之實例。該擷取模組203亦可掌控該等物件表示型態與該內容串流之實例的關聯性。例如,該擷取模組203可決定暫時將該擷取之表示型態儲存於一緩衝器或一資料庫中直到該最佳化物件表示型態與該內容串流之對應擷取實例相關聯。另一範例中,該擷取模組203亦可控制該等表示型態之擷取頻率(例如,持續性、週期性、或於一預定排程中)或者何時停止擷取新的表示型態(例如,該等表示型態符合一品質臨界值時)。
該辨識模組205可管理和控制該內容串流中之物件的辨識資訊之決定以及該辨識資訊與該內容串流之實例的關聯性。該實際的決定和關聯功能可由該辨識模組205、該服務平台103、該通訊網路105之其他組件、或其一組合來執行。例如,一特定擷取管理員107之該辨識模組205可以指令將新的辨識資訊,諸如與一特定影像中的人相關聯之人名,傳送至該服務平台103,並以該發送之辨識資訊來更新該資料庫中之其他影像。為了響應,該服務平台103可執行,例如,一或更多臉部表示型態間的比較,以找出該資料庫中具有與該發送之辨識資訊相關聯的臉部表示型態匹配之臉部表示型態的影像。將該辨識資訊與該資料庫中匹配的影像相關聯後,該服務平台103之後可將該更新關聯之結果傳送至該辨識模組205。就本身而言,藉由將該程序自動化,該辨識模組205可減少一使用者手動輸入辨識資訊(例如,逐一附加每一影像)所花費之時間量和資源。
該通訊模組207可管理和控制任何進入或外向的通訊,諸如資料共享、從其他UE 101或該服務平台103接收各種不同要求、以及電話呼叫、文字傳訊、即時傳訊、和網際網路通訊。例如,如上所述,經由該通訊模組207,該辨識模組205可將新的辨識資訊與該服務平台103共享,以便以該新的辨識資訊來更新該資料庫中之其他影像。該UE 101亦可連接至諸如該擷取儲存器109a-109n之儲存媒體,使得該擷取管理員107可接取或儲存通訊歷史資料。藉由範例,若該擷取儲存器109a-109n不在當地,則其可經由該通訊網路105來接取。該UE 101亦可經由該通訊網路105連接至該服務儲存器111,使得該擷取管理員107能夠管理或接取該服務儲存器111中之資料。
該計算模組209可執行各種不同計算,包括根據一或更多準則(例如,位置、角度、照明、銳度、模糊性、雜訊、解析度、等等)來決定和比較該等擷取表示型態之品質、以 及匹配該資料庫中之表示型態。該等計算任務可以是用以響應來自其他模組,諸如該控制器201、該擷取模組203、該辨識模組205、該通訊模組207、或該演示模組211的要求以執行各種不同的計算。
該演示模組211可控制諸如一圖形使用者介面之一使用者介面的顯示以傳輸資訊,以及允許該使用者經由該介面與該UE 101互動。例如,該演示模組211可藉由將一名字附加至該影像中的人來允許該使用者將辨識資訊加入一特定影像中。之後,如先前所述,該辨識資訊可發送至該辨識模組205以更新該資料庫中之其他影像。此外,該演示模組211可與該控制器201、該擷取模組203、該辨識模組205、以及該通訊模組207互動以顯示其操作期間產生之任何資訊。
第3圖是一根據一實施例,用以辨識媒體內容中之物件的一程序之流程圖。於一實施例中,該擷取管理員107執行該程序300並於,例如,包括如第12圖所示之一處理器和一記憶體的一晶片組中執行。步驟301中,該擷取管理員107決定於一設備檢測一內容串流中的一或更多物件。該檢測可於該內容串流之一實例被擷取之前、之後及/或當時來被執行。此方式中,若該物件無法於該內容串流之一實例被擷取時被輕易檢測,則該物件可在該實例被擷取之前或之後被適當檢測。有關該物件改變(例如,人們移動、臉部背向相機、照明改變、等等)的情況時,該擷取管理員107可持續追蹤該物件。
步驟303中,該擷取管理員107決定擷取該內容串流中 之一或更多物件的一或更多表示型態。如上所述,如步驟305中,該擷取管理員107亦可於該內容串流之實例被擷取之前、之後及/或當時來擷取該內容串流中之一或更多物件的其他一或更多表示型態。例如,一UE 101可具有相機模組,其組配來自動檢測、識別、和擷取該相機模組作用中時可於其取景器影像中看見之物件和臉部的表示型態(例如,該等可用於辨識之最佳化影像)。該UE 101之後可持續處理該取景器(例如,持續地或週期性)擷取之影像系列(例如,一內容串流)。於一實施例中,即使該使用者尚未指示該UE 101擷取一影像,該內容串流仍可被擷取。此方式中,該使用者正編製一影像以便擷取時,該UE 101可識別和擷取該取景器鏡頭中呈現之該等物件或臉部的最佳化影像(例如,該等物件或臉部直視相機、不模糊、具有最佳化照明、等等)、追蹤該識別之物件或臉部、以及將該等最佳化影像或表示型態與該內容串流之一擷取實例(例如,一擷取照片)相關聯。該等相關聯表示型態之後可用於該擷取實例中之對應物件或臉部的辨識。
例如,該使用者可(例如,藉由執行該相機的應用程式或將該相機模組開機以)啟動該UE 101之相機模組來開始擷取該相機之取景器或視野中的影像之一內容串流。該擷取管理員107之後可起始該影像之物件及/或臉部檢測。該擷取管理員107可保有每一檢測物件及/或臉部的一記錄,並開始追蹤每一檢測的臉部。於一實施例中,追蹤包括識別和記錄該擷取內容串流中之每一物件/臉部的相對位 置。此程序期間,該擷取管理員107不需辨識或決定該物件或臉部之特定識別。而是,該擷取管理員107僅需檢測和追蹤個別的物件/臉部,使得其可與其他物件或臉部來個別區分。換言之,該擷取管理員107檢測一特定物件或臉部、儲存該物件或臉部、追蹤該內容串流中之物件或臉部、以及持續跟隨該內容串流中之擷取物件或臉部的移動。因此,該使用者拍攝一影像時,該影像中之追蹤物件及/或臉部的任何最佳化表示型態可被鏈接或以其他方式與該影像相關聯(例如,作為與該影像相關聯之元資料)。
於一樣本用的情況中,一使用者可架設一相機並使用相機的計時功能(例如,十秒計時器)來對該使用者和該使用者的朋友拍照。其準備好照相時,該相機擷取管理員107可擷取實際上拍照前,該相機取景器檢測之每人的若干臉部表示型態。該照片擷取後,該擷取管理員107可持續擷取相片中的人們之臉部表示型態以識別最佳化影像。若該最佳化表示型態於擷取後找到,則該擷取管理員107可追溯地將該表示型態與該擷取實例相關聯。就本身而言,該擷取管理員107不需依賴該擷取照片中之特定臉部表示型態,但可選擇擷取來代表該照片中人們之任何臉部表示型態。藉由範例,第8A圖至第8B圖展現的情況是一特定影像實例前擷取之一物件表示型態可代表稍後擷取之其他影像實例中的物件。同樣地,影像實例擷取之間或所有影像實例已擷取後所擷取的一物件表示型態可代表多個影像實例中的物件。
另一實施例中,如步驟307,該擷取管理員107之後可選擇該一或更多表示型態或該一或更多其他表示型態,以至少部分根據一或更多準則(例如,位置、角度、照明、銳度、模糊性、雜訊、解析度、等等)來將該一或更多實例相關聯。於一另一實施例中,如步驟309,該擷取管理員107可持續地、週期性地、或於一預定排程中擷取該一或更多表示型態或該一或更多其他表示型態,直到該一或更多表示型態符合一預定品質臨界值為止。雖然該等表示型態可持續被擷取,但該預定品質臨界值條件可允許至少擷取符合該預定品質臨界值之表示型態,以及允許,例如,該UE 101可藉由避免對額外表示型態不需要的擷取來保存電池壽命。之後,如步驟311,該擷取管理員107將該選擇(例如,該一或更多表示型態、該一或更多其他表示型態、等等)與該內容串流之一或更多實例相關聯。如上所述,該等選擇之表示型態可作為元資料來附接於該等擷取實例,其為該擷取管理員107將表示型態與該內容串流之實例相關聯的一種方式。此外,如第8A圖至第8B圖所示,該擷取管理員107可將一單一表示型態與多個實例相關聯。
第4圖是一根據一實施例,用以將辨識資訊與一內容串流之實例相關聯的一程序之流程圖。於一實施例中,該擷取管理員107執行該程序400並於,例如,包括如第12圖所示之一處理器和一記憶體的一晶片組中執行。步驟401中,該擷取管理員107至少部分根據該一或更多表示型態來決定該一或更多表示型態之辨識資訊。例如,一影像中的人可由與該影像相關聯之一臉部表示型態來辨識。辨識資訊(例如,此人名字)可從該臉部表示型態來決定,因為若,例如,於存在該資料庫中之另一影像中此人先前已被附加或辨識時,該臉部表示型態可已具有與其相關聯之辨識資訊。步驟403中,該擷取管理員107可將該辨識資訊與該一或更多實例相關聯。如第10圖所示,附加可以是將該辨識資訊與該一或更多實例相關聯的一種方式。
第5圖是一根據一實施例,用以將最佳化臉部表示型態與一內容串流之一影像實例相關聯的一程序之流程圖。於一實施例中,該擷取管理員107執行該程序500並於,例如,包括如第12圖所示之一處理器和一記憶體的一晶片組中執行。第5圖中,該程序500亦展現例如,一相機開啟時可由該擷取管理員107實現之步驟。該相機可於該相機顯示器上,經由該擷取管理員107之演示模組211來將一內容串流,諸如一生動的視訊串流顯示給該使用者。同時,該擷取管理員107可開始進行代表該程序500的演算法。就本身而言,步驟501中,該擷取管理員107可藉由決定是否已檢測一臉部來開始。該步驟中,應注意該擷取管理員107僅嘗試檢測臉部,其不嘗試辨識其為何人的臉。檢測一臉部後,步驟503中,該擷取管理員107擷取該臉部的一表示型態。應更注意該程序500期間,該相機取景器中顯示的人可能會移動,使得其臉部不再朝向相機(例如,頭的背面朝向該取景器時)。即使此種情況下,該擷取管理員107仍可擷取臉部表示型態,因為該擷取管理員107可保持追蹤臉部(或人們),使得即使若其無法被直接檢測時該擷取管理員107仍知道其位置。
此外,步驟505中,該擷取管理員107決定該表示型態是否為一新的臉部或該表示型態是否為存於該資料庫中之一臉部的較佳品質表示型態。若一臉部表示型態可根據一或更多準則(例如,位置、角度、照明、銳度、模糊性、雜訊、解析度、等等)以輕易供之後用來辨識,則其可為一較佳品質表示型態。若該表示型態為一新的臉部或該表示型態為一現存臉部的一較佳品質表示型態,則由步驟507中,該擷取管理員107儲存該表示型態以及與該表示型態相關聯之品質數值。該擷取管理員107可將該資料,例如,暫時儲存於一暫存器或一資料庫中。另外,步驟509中,該擷取管理員107決定一影像實例是否已被擷取。若一影像實例已被擷取,則步驟511中,該擷取管理員107儲存具有該臉部最佳化表示型態並鏈接來作為該資料庫中之元資料的影像實例。應注意該影像實例被擷取時,會產生一種情形是該影像實例被擷取時該臉部方位可能不夠良好到足以作臉部辨識。然而,因先前擷取的臉部表示型態可用來辨識該臉部,故此種情形不會是個問題。若一影像實例尚未被擷取,則該擷取管理員107可持續檢測並擷取其他的臉部表示型態。
第6圖是一根據一實施例,用以將辨識資訊與一影像實例/臉部表示型態對相關聯之一程序的流程圖。於一實施例中,該擷取管理員107執行該程序600並於,例如,包括如第12圖所示之一處理器和一記憶體的一晶片組中執行。步驟601中,該擷取管理員107可比較該影像實例/臉部表示型態對之表示型態與該資料庫中之辨識的臉部表示型態。步驟603中,該擷取管理員107根據該比較來決定該表示型態是否被辨識或為已知。例如,若該表示型態與另一對具有與其相關聯之辨識資訊(例如,人的名字)的表示型態匹配,則該擷取管理員107可決定一影像實例/臉部表示型態對之一表示型態被辨識或為已知。若該表示型態被辨識,則步驟605中,該擷取管理員107將該匹配對之辨識資訊(例如,人的名字)與該影像實例/臉部表示型態對相關聯。否則,該擷取管理員107將該影像實例/臉部表示型態對之表示型態標示為未辨識。
第7圖是一根據一實施例,用以將辨識資訊與一資料庫中之影像實例/臉部表示型態對相關聯的一程序之流程圖。於一實施例中,該擷取管理員107執行該程序700並於,例如,包括如第12圖所示之一處理器和一記憶體的一晶片組中執行。步驟701中,與一影像實例/臉部表示型態對相關聯之新的辨識資訊(例如,人的名字)可(例如,自動或由一使用者手動)加入該資料庫中。同樣地,已與該資料庫中之一影像實例/臉部表示型態對相關聯之現存辨識資訊亦可被修改。步驟703中,該影像實例/臉部表示型態對之表示型態與該資料庫中之其他影像實例/臉部表示型態對之表示型態作比較。步驟705中,該擷取管理員決定是否發現任何匹配。若有一或更多匹配,則步驟707中,該擷取管理員107將該新的辨識資訊(例如,人的名字)與包含該匹配表示型態之影像實例/臉部表示型態對相關聯。
第8A圖至第8B圖是根據各種不同實施例,於第3圖之程序中擷取的一內容串流之實例中的物件表示型態之圖形。如上所述,該擷取管理員107可擷取一或更多表示型態並且亦可擷取一或更多其他的表示型態。之後,該擷取管理員107可選擇該一或更多表示型態或者該一或更多其他的表示型態,以便根據一或更多準則(例如,位置、角度、照明、銳度、模糊性、雜訊、解析度、等等)來與該一或更多實例相關聯。
第8A圖至第8B圖顯示一內容串流之兩個時間實例:具有最佳化表示型態803、805、807、809、以及811於時間A之實例801;以及具有最佳化表示型態853、855、857、859、以及861於時間B之實例851。第8A圖中,該等檢測物件為法蘭克、瑪莉、傑瑞、蘇、以及韓德森。於時間A擷取之法蘭克、瑪莉、傑瑞、蘇、以及韓德森的表示型態為目前最佳化表示型態。因此,針對於時間A的實例其顯示於時間A目前該等最佳化表示型態(例如,最佳化表示型態803、805、807、809、811)。
第8B圖中,該等檢測物件仍為法蘭克、瑪莉、傑瑞、蘇、以及韓德森。然而,此範例中,於時間B擷取之法蘭克、瑪莉、傑瑞、蘇、以及韓德森的表示型態不需為目前最佳化表示型態。例如,該擷取管理員107可(例如,根據位置和角度)決定於時間B之法蘭克表示型態比於時間A之法蘭克表示型態更佳,因為於時間B之法蘭克表示型態顯示法蘭克的整個臉部而於時間A之表示型態僅顯示法蘭克臉部的 側面。於是,第8B圖中,該擷取管理員107選擇於時間B之法蘭克表示型態來作為目前如最佳化表示型態853所示之最佳化表示型態。
另一範例中,第8B圖中,該擷取管理員107決定於時間A之瑪莉表示型態比於時間B之瑪莉表示型態更佳,因為於時間A之瑪莉表示型態顯示瑪莉的整個臉部而於時間B之表示型態僅顯示瑪莉臉部的側面。於是,第8B圖中,該擷取管理員107選擇於時間A之瑪莉表示型態來作為目前如最佳化表示型態855所示之最佳化表示型態。同樣地,第8B圖中,該擷取管理員107亦可針對如最佳化表示型態857、859、以及861所示之傑瑞、蘇、以及韓德森來執行決定以及選擇功能。
第9A圖至第9B圖是根據各種不同實施例,於第3圖之程序中從不同角度擷取的一內容串流之實例中的物件表示型態之圖形。如上所述,該擷取管理員107可擷取一或更多表示型態以及亦可擷取一或更多其他的表示型態。之後,該擷取管理員107可選擇該一或更多表示型態或該一或更多其他表示型態,以根據一或更多準則(例如,位置、角度、照明、銳度、模糊性、雜訊、解析度、等等)來將該一或更多實例相關聯。此外,如第9A圖至第9B圖所示,該一或更多表示型態或該一或更多其他表示型態可從一或更多內容串流擷取。
第9A圖至第9B圖顯示兩個實例:具有最佳化表示型態903、905、以及907,於時間X從角度A擷取之一內容串流的實例901;以及具有最佳化表示型態953、955、以及957,於時間X從角度B擷取之另一內容串流的實例951。此範例中,一設備(例如,UE 101)可包括兩個擷取設備(例如,多個相機、多個攝錄影機、等等)-每一擷取設備將內容中之串流分開。然而,此範例中,兩裝置(例如,UE 101a-101n)的每一個亦可能為分開的內容串流-一裝置內容串流是從角度A而另一裝置內容串流是從角度B。第9A圖中,該擷取管理員107檢測該等物件,瑪莉、傑瑞、以及蘇,並從角度A擷取其表示型態。同樣地,第9B圖中,該擷取管理員107檢測該等物件,瑪莉、傑瑞、以及蘇,並從角度B擷取其表示型態。如上所述,一裝置可從一或更多其他裝置來接收一或更多表示型態。例如,若有一裝置在角度A而一裝置在角度B,則該等兩裝置可彼此從其個別角度來無線共享其擷取之表示型態。因此,每一裝置之該擷取管理員107可在從角度A擷取之表示型態或從角度B擷取之表示型態之間作選擇,以便根據一或更多準則來將該等實例相關聯。如圖A所示,選擇來與實例901相關聯之表示型態為最佳化表示型態903、905、907。同樣地,圖B中,選擇來與實例951相關聯之表示型態為最佳化表示型態953、955、以及957。最佳化表示型態901和951為從角度B擷取的瑪莉表示型態,最佳化表示型態903和953為從角度A擷取的傑瑞表示型態,而最佳化表示型態905和955為從角度A擷取的蘇表示型態。
第10圖是一根據一實施例,用以應用第4圖、第6圖和第7圖之程序的一使用者介面之圖形。該UE 101可合併該使用者介面1001以允許使用者與該系統100互動。第10圖中,該擷取管理員107可了解若干人在該照片中並以一方形將其每一人強調標示。因該使用者可具有先前另一影像中附加的法蘭克和蘇,故如第10圖所示之該影像被擷取之前、之後及/或當時,該擷取管理員107已能夠決定其辨識資訊(例如,其名字)。該影像被擷取時,該擷取管理員107可藉由,例如,附加該影像來將該辨識資訊與該影像相關聯。如圖所示,法蘭克之辨識資訊1003可根據包括最佳化表示型態1005之一或更多表示型態來決定。同樣地,蘇之辨識資訊1007可根據包括最佳化表示型態1009之一或更多表示型態來決定。然而,如圖所示,該影像中之其他人尚未被附加。就本身而言,該擷取管理員107無法根據其表示型態(例如,最佳化表示型態1011和1013)來決定其辨識資訊,因為其表示型態尚未與任何辨識資訊相關聯。因此,無任何辨識資訊或標籤會針對最佳化表示型態1011和1013表示的兩個人來顯示。
此外,該使用者介面1001顯示若干與使用者選項相關聯之圖像以執行特定介面的功能(例如,從左至右的選項為:檢視首頁功能表、檢視該圖庫中之影像清單、共享影像、儲存為我的最愛、編輯該影像實例、刪除該影像實例、以及返回先前畫面)。例如,該使用者介面1001可允許使用者編輯該影像實例,包括該等物件、該表示型態、以及與該影像實例相關聯之辨識資訊。使用該編輯選項,該使用者能夠藉由,例如,輕按該物件周圍的方形內中任何地方以及鍵入該辨識資訊來加入新的辨識資訊(例如,新人員的名字)。該使用者介面1001之後可將該新的辨識資訊與該物件表示型態相關聯。之後,可使第7圖之程序自動或手動來進行,因而更新該資料庫中之其他影像實例。同樣地,該編輯選項亦可用來修改已與一影像實例相關聯之辨識資訊。
本文所述用以辨識媒體內容中之物件的程序可經由軟體、硬體、韌體或軟體及/或韌體及/或硬體的一組合來有效執行。例如,本文所述之程序可經由(多個)處理器、數位信號處理(DSP)晶片、一特殊應用積體電路(ASIC)、場可程式閘陣列(FPGA)、等等來有效執行。用以執行上述功能之該類示範硬體將詳述如下。
第11圖繪示可執行本發明之一實施例的一電腦系統1100。雖然電腦系統1100可相關一特定設備或裝備來描繪,但可預期第11圖中之其他設備或裝備(例如,網路元件、伺服器、等等)可部署該繪示系統1100之硬體和組件。電腦系統1100可(例如,經由電腦程式碼或指令來)規劃以辨識本文所述之媒體內容中的物件,並包括諸如一匯流排1110之一通訊機構,其用以傳遞該電腦系統1100之其他內部和外部組件間的資訊。資訊(亦稱為資料)可以一可測量現象之一實體表示法來代表,典型為電壓,但於其他實施例中,可包括諸如磁性、電磁性、壓力、化學、生物、分子、原子、次原子以及量子互動的現象。例如,北和南磁場、或一零和非零電壓,代表一二進制數字(位元)的兩種狀態(0,1)。其他現象可代表一較高底數的數字。測量前同時多個量子狀態的疊加代表一量子位元(qubit)。一序列的一或更多數字組成用來代表一字元之一數字或碼的數位資料。某些實施例中,稱為類比資料的資訊可以一特定範圍中之接近連續的測量值來代表。電腦系統1100、或其一部分,可組成用以執行辨識媒體內容中之物件的一或更多步驟之裝置。
一匯流排1110包括一或更多平行的資訊導體,使得資訊可於耦合至該匯流排1110的設備之間快速傳送。用於處理資訊之一或更多處理器1102可與該匯流排1110耦合。
一處理器(或多個處理器)1102可於有關辨識媒體內容中之物件的電腦程式碼指定之資訊上執行一組操作。該電腦程式碼為一組指令或者提供指令至該處理器及/或該電腦系統之操作以執行特定功能的陳述。該程式碼,例如,可以編譯為該處理器之一本機指令集的一電腦程式語言來編寫。該程式碼亦可使用該本機指令集(例如,機械語言)來直接編寫。該操作組合包括將資料從該匯流排1110帶入並將資料放置於該匯流排1110。該操作組合典型亦包括諸如藉由如OR、互斥OR(XOR)、以及AND的邏輯操作之加總或乘積來比較兩個或多個資訊單元、將資訊單元的位置位移、以及組合兩個或多個資訊單元。可由該處理器執行之該操作組合的每一操作可以稱為,諸如一或更多數字的操作碼之指令的資訊來表示至該處理器。該處理器1102執行之一序列操作,諸如一序列操作碼,可組成處理器指令,亦稱為電腦系統指令、或簡稱電腦指令。處理器可作為機械、電氣、磁性、光學、化學或量子組件,包括單獨或組合地來予以執行。
電腦系統1100亦包括耦合至匯流排1110之一記憶體1104。該記憶體1104,諸如一隨機存取記憶體(RAM)或任何其他動態儲存設備,可儲存包括用以辨識媒體內容中之物件的處理器指令之資訊。動態記憶體可允許儲存其中之資訊由該電腦系統1100改變。RAM可允許儲存在稱為一記憶體位置之一位置的一資訊單元單獨被儲存或擷取而與相鄰位置的資訊無關。該記憶體1104亦可由該處理器1102用來儲存處理器指令執行期間之暫時數值。該電腦系統1100亦包括耦合至該匯流排1110之一唯讀記憶體(ROM)1106或任何其他靜態儲存設備,以儲存包括指令、且無法由該電腦系統1100改變之靜態資訊。某些記憶體可由失去電源時會遺失儲存其上之資訊的依電性儲存器所組成。此外耦合至匯流排1110的是即使該電腦系統1100關閉或因其他因素失去電源時仍可持續的一非依電性(永久)儲存設備1108,諸如一磁碟、光碟或快取卡,以儲存包括指令之資訊。
包括用以辨識媒體內容中之物件的指令之資訊,可從一外部輸入設備1112,諸如包含由人類使用者操作之文數字按鍵、或一感測器的一鍵盤,來提供至該匯流排1110以供該處理器使用。一感測器可檢測其週遭的情況並將該等檢測結果轉換為與用來代表電腦系統1100中之資訊的可測量現象相容之實體表示法。耦合至匯流排1110、主要用於和人類互動之其他外部設備包括一顯示器設備1114,諸如一陰極射線管(CRT)、一液晶顯示器(LCD)、一發光二極體(LED)顯示器、一有機LED(OLED)顯示器、一電漿螢幕、或用於呈現文字或影像之一印表機、以及一指向設備1116,諸如一滑鼠、一軌跡球、游標方向鍵、或一動作感測器,以控制該顯示器1114上呈現之一小游標影像的位置並發出與該顯示器1114上呈現之圖形元件相關聯的命令。某些實施例中,例如,該電腦系統1100自動執行所有功能而無人為輸入的實施例中,可省略一或更多外部輸入設備1112、顯示器設備1114以及指向設備1116。
該繪示實施例中,諸如一特殊應用積體電路(ASIC)1120之專用硬體耦合至匯流排1110。該專用硬體可組配來執行處理器1102無法快速執行來足以專門使用之操作。ASIC之範例包括針對顯示器1114來用以產生影像之圖形加速卡、用以將一網路上傳送之訊息、語音辨識加密和解密的密碼卡、以及諸如機械手臂和醫學掃描裝備之特別的外部設備介面,該等外部設備可重覆執行以硬體可更有效執行之某些複雜的操作程序。
電腦系統1100亦可包括耦合至匯流排1110之一通訊介面1170的一或更多實例。通訊介面1170可提供一單向或雙向通訊,其可耦合至以其自身處理器來操作之各種不同外部設備,諸如印表機、掃描機以及外部磁碟。一般而言,該耦合具有一網路鏈接1178,其連接至連接具有其自身處理器之各種不同外部設備的一局部網路1180。例如,通訊介面1170可為一個人電腦之一平行埠或一串列埠或一通用串列匯流排(USB)埠。某些實施例中,通訊介面1170為可提供一資訊通訊連接至一對應電話線類型之一整合服務數位網路(ISDN)卡或一數位用戶線(DSL)卡或一電話數據機。某些實施例中,一通訊介面1170為一纜線數據機,其可將匯流排1110上之信號轉換為一同軸纜線上一通訊連接的信號或者一光纖纜線上一通訊連接的光信號。如另一範例中,通訊介面1170可為一區域網路(LAN)卡以提供一資料通訊連接至,諸如乙太網路之一相容LAN。此外亦可執行無線鏈接。針對無線鏈接,該通訊介面1170傳送或接收或者皆傳送和接收電氣、音響或電磁信號,包括紅外線和光信號,其承載諸如數位資料之資訊串流。例如,於無線手持設備中,諸如如手機之行動電話,該通訊介面1170包括稱為一無線電收發器之一無線電頻帶電磁發射器和接收器。某些實施例中,該通訊介面1170使得至該通訊網路105用以辨識媒體內容中之物件的連接連至該UE 101。
如本文所述之該術語“電腦可讀媒體”可參照為參與將包括用以執行之指令的資訊提供至處理器1102的任何媒體。該類媒體可採用許多型式,包括、但不侷限於電腦可讀儲存媒體(例如,非依電性媒體、依電性媒體)、以及傳輸媒體。諸如非依電性媒體之非暫態媒體包括,例如,諸如儲存設備1108之光碟或磁碟。依電性媒體包括,例如,動態記憶體1104。傳輸媒體包括,例如,雙絞線纜線、同軸纜線、銅線、光纖纜線、以及可行經空間而無線路或纜線之載波,諸如音波和電磁波,包括無線電波、光波和紅外線波。信號包括振幅、頻率、相位、極化上的人為暫態變動、或者透過該傳輸媒體發送之其他實體特性。電腦可讀媒體之共同型式包括,例如,一軟碟、一軟式磁碟、硬碟、磁帶、任何其他磁性媒體、一CD-ROM、CDRW、DVD、任何其他光學媒體、打孔卡、紙帶、光標示表單、具有孔洞型樣之任何其他實體媒體或者其他光學可辨識指標、一RAM、一PROM、一EPROM、一快取EPROM、一EEPROM、一快取記憶體、任何其他記憶體晶片或卡匣、一載波、或一電腦可讀取之任何其他媒體。該術語電腦可讀儲存媒體於本文中係用來參照為除了傳輸媒體外之任何電腦可讀媒體。
於一或更多有形媒體中編碼之邏輯包括一電腦可讀儲存媒體和諸如ASIC 1120之專用硬體上的一或兩個處理器指令。
網路鏈接1178典型使用透過一或更多網路之傳輸媒體來將資訊通訊提供至使用或處理該資訊之其他設備。例如,網路鏈接1178可將透過局部網路1180之一連接提供至由一網際網路服務供應商(ISP)操作之一主機電腦1182或至設備1184。ISP設備1184可依次提供資料通訊服務至公眾,網路中之全球封包交換通訊網路現可共同參照為該網際網路1190。
連接至該網際網路稱為一伺服器主機1192之一電腦可主導用以響應從該網際網路上接收之資訊而提供服務的一程序。例如,伺服器主機1192可主導提供資訊代表視訊資料而在顯示器1114上呈現之一程序。可預期系統1100之該等組件可部署於其他電腦系統,例如,主機1182和伺服器1192之各種不同組態中。
本發明之至少某些實施例是有關用以執行本文所述之某些或所有技術的電腦系統1100之使用。根據本發明之一實施例,該等技術可用以響應執行包含記憶體1104中之一或更多處理器指令的一或更多序列之處理器1102而由電腦系統1100來執行。該類指令,亦稱為電腦指令、軟體和程式碼,可從諸如儲存設備1108或網路鏈接1178之其他電腦可讀媒體讀取而進入記憶體1104。包含記憶體1104中之該等指令序列的執行可使處理器1102來執行本文所述之一或更多的方法步驟。於替代實施例中,諸如ASIC 1120之硬體可用來替代或與軟體組合以執行本發明。因此,除非於本文其他地方明確指出,否則本發明之實施例並不侷限於任何特定的硬體和軟體組合。
於網路鏈接1178上以及透過通訊介面1170之其他網路上傳送的信號可承載往返電腦系統1100之資訊。電腦系統1100可傳送和接收包括程式碼、透過該等網路1180、1190等等、透過網路鏈接1178和通訊介面1170之資訊。於使用該網際網路1190之一範例中,一伺服器主機1192針對由從電腦1100、透過網際網路1190、ISP設備1184、局部網路1180以及通訊介面1170來傳送的一訊息要求之一特定應用來發送程式碼。該程式碼被接收時,接收碼可由處理器1102來執行、或可儲存於記憶體1104中或儲存於儲存設備1108中或者儲存於任何其他非依電性儲存器中以供稍後執行、或兩者皆進行。此方法中,電腦系統1100可取得一載波中之信號型式的應用程式碼。
電腦可讀媒體之各種不同型式可包含載送一或更多指令或資料序列或兩者至處理器1102以便執行。例如,指令和資料初始可於一遠端電腦,諸如主機1182之一磁碟上載送。該遠端電腦可將該等指令和資料載入其動態記憶體並使用一數據機於一電話線上傳送該等指令和資料。該電腦系統1100本地之一數據機可於一電話線上接收該等指令和資料,並使用一紅外線發射器來將該等指令和資料轉換為作為該網路鏈接1178之一紅外線載波上的一信號。作為通訊介面1170之一紅外線檢測器接收該紅外線信號中承載之指令和資料,並將代表該等指令和資料之資訊放置於匯流排1110上。從處理器1102使用與該等指令一起傳送之某些資料來擷取並執行該等指令起,匯流排1110可承載資訊至記憶體1104。該處理器1102執行之前或之後,記憶體1104中接收之該等指令和資料可選擇性儲存於儲存設備1108中。
第12圖繪示一可用來執行本發明之一實施例的晶片組或晶片1200。如本文所述,晶片組1200可規劃來辨識媒體內容中之物件並包括,例如,合併於一或更多實體封裝體(例如,晶片)中並相關第12圖說明之該處理器和記憶體組件。藉由範例,一實體封裝體包括於一結構總成(例如,一底板)中之一或更多材料、組件、及/或線路的安排以提供一或更多特性,諸如實體強度、尺寸保存、及/或電氣互動之限制。可預期某些實施例中,該晶片組1200可於一單一晶片中執行。另外可預期某些實施例中,該晶片組或晶片1200可作為一單一“晶載系統”來予以執行。另外可預期某些實施例中,例如,可使用一分開的ASIC,而本文揭示之所有相關功能可由一處理器或多個處理器來執行。晶片組或晶片1200、或其一部分可組成用以執行提供與功能可用性相關聯之使用者介面導航資訊的一或更多步驟之裝置。晶片組或晶片1200、或其一部分可組成用以執行辨識媒體內容中之物件的一或更多步驟之裝置。
於一實施例中,該晶片組或晶片1200包括諸如一匯流排1201之一通訊機構,其用以傳遞該晶片組1200組件間之資訊。一處理器1203具有至該匯流排1201之一連接以執行指令和處理儲存於,例如,一記憶體1205中之資訊。該處理器1203可包括一或更多處理核心,其中每一核心組配來獨立地執行。一多核心處理器可使一單一實體封裝體中能夠多重處理。多核心處理器之範例包括兩個、四個、八個、或更多數量的處理核心。替代地或額外地,該處理器1203可包括一或更多微處理器,其組配來經由該匯流排1201串接而使指令、管線操作、以及多執行緒能夠獨立執行。該處理器1203亦可伴隨一或更多專門的組件來執行某些處理功能和任務,諸如一或更多的數位信號處理器(DSP)1207、或者一或更多的特殊應用積體電路(ASIC)1209。一DSP 1207典型組配來即時處理真實世界的信號(例如,聲音)而與該處理器1203無關。同樣地,一ASIC 1209可組配來執行無法輕易由一更通用處理器執行之專門功能。用於協助執行本文所述之本發明功能的其他專門組件可包括一或更多場可程式閘陣列(FPGA)(未顯示)、一或更多控制器(未顯示)、或者一或更多其他專用電腦晶片。
於一實施例中,該晶片組或晶片1200僅包括一或更多處理器以及支援及/或相關及/或針對該一或更多處理器之某些軟體及/或韌體。
該處理器1203和伴隨組件具有經由該匯流排1201至該記憶體1205的連接。該記憶體1205包括動態記憶體(例如,RAM、磁碟、可寫入光碟、等等)以及靜態記憶體(例如,ROM、CD-ROM、等等)兩者來儲存執行時可實行本文所述之發明步驟以辨識媒體內容中之物件的可執行指令。該記憶體1205亦儲存與本發明步驟之執行相關聯或由其產生之資料。
第13圖是一根據一實施例,用於通訊、並可於第1圖之系統中操作之一行動端子(例如,話機)的示範組件之圖形。某些實施例中,行動端子1301、或其一部分組成用以執行辨識媒體內容中之物件的一或更多步驟之裝置。一般而言,一無線電接收器通常依據前端和後端特性來加以定義。該接收器之前端包含所有射頻(RF)電路而該後端包含所有基頻處理電路。如本申請案所使用,該術語“電路”參照為下列兩者:(1)只有硬體之實施態樣(諸如只有類比及/或數位電路之實施態樣)、以及(2)電路和軟體(及/或韌體)的組合(諸如,若適用特定的脈絡、(多個)處理器的組合,包括可共同運作使一裝置,諸如一行動電話或伺服器來執行各種不同功能的(多個)數位信號處理器、軟體、和(多個)記憶體)。該“電路”的定義可應用在本申請案,包括任何申請專利範圍中所有對該術語的使用。如另一範例中,如本申請案所使用並且若適用特別的脈絡,該術語“電路”亦可涵蓋只有一個處理器(或多個處理器)和其伴隨軟體及/或韌體的一實施態樣。若適用特別的脈絡,該術語“電路”亦可涵蓋,例如,一行動電話中之一基頻積體電路或應用處理器積體電路、或者一蜂巢網路設備或其他網路設備中一類似的積體電路。
該電話的適當內部組件包括一主要控制單元(MCU)1303、一數位信號處理器(DSP)1305、以及包括一麥克風增益控制單元和一揚聲器增益控制單元之一接收器/發送器單元。一主要顯示器單元1307可提供一顯示器至該使用者以支援各種不同的應用和執行或支援辨識媒體內容中之物件的步驟之行動端子功能。該顯示器1307包括組配來顯示該行動端子(例如,行動電話)之一使用者介面的至少一部分之顯示器電路。此外,該顯示器1307和顯示器電路可組配來促進使用者控制該行動端子之至少某些功能。一音訊功能電路1309包括一麥克風1311和放大從該麥克風1311輸出之語音信號的麥克風放大器。從該麥克風1311輸出之放大語音信號可饋送至一編碼器/解碼器(CODEC)1313。
一無線電部段1315可放大功率並轉換頻率來經由天線1317與包括於一行動通信系統之一基地站通訊。如業界所熟知,以來自耦合至該雙工器1321或循環器或天線交換器之該PA 1319的一輸出,該功率放大器(PA)1319和該發射器/調變電路操作上可回應該MCU 1301。該PA 1319亦耦合至一電池組介面和電力控制單元1320。
使用上,一行動端子1301使用者對該麥克風1311說話,而其伴隨任何檢測的背景雜訊之聲音可轉換為一類比電壓。該類比電壓之後透過該類比數位轉換器(ADC)1323來轉換為一數位信號。該控制單元1303將該數位信號循路由連至該DSP 1305以處理其,諸如語音編碼、頻道編碼、加密、以及交錯。於一實施例中,該等處理之語音信號由無分開顯示之單元,使用諸如全域進化增強資料率(EDGE)、通用封包無線服務(GPRS)、全球行動通信系統(GSM)、網際網路協定多媒體子系統(IMS)、通用行動通訊服務(UMTS)、等等之一蜂巢式傳輸協定,以及任何其他適當的無線媒體,例如,全球互通微波接取(WiMAX)、長期演進技術(LTE)網路、碼分多重存取(CDMA)、寬頻碼分多重存取(WCDMA)、無線保真度(WiFi)、衛星、等等、或其任何組合來編碼。
雖然空中會有諸如相位和振幅的失真,但該等編碼信號之後可循路由連至一等化器1325以補償傳輸期間發生的任何頻率相依損害。將該位元串流等化後,該調變器1327將該信號與該RF介面1329產生之一RF信號組合。該調變器1327藉由頻率或相位調變可產生一正弦波。為了準備將該信號發送,一向上轉換器1311可將從該調變器1327輸出之正弦波與一合成器1333產生之另一正弦波組合以達到傳輸所需之頻率。該信號之後透過一PA 1319傳送來將該信號增加至一適當的功率準位。於實際系統中,該PA 1319可作為一可變增益放大器,其增益可來自從一網路基地站接收之資訊而由該DSP 1305來控制。該信號之後於該雙工器1321中濾波並選擇性傳送至一天線耦合器1335來匹配阻抗以提供最大的功率轉移。最後,該信號經由天線1317來發送至一當地基地站。一自動增益控制(AGC)可供應來控制該接收器之最後階段的增益。該等信號可從此轉送至可為另一蜂巢式電話、任何其他的行動電話之一遠端電話,或者連接至一公眾交換電話網路(PSTN)、或其他電話網路之一路上線路。
發送至該行動端子1301之語音信號可經由天線1317來接收並立即由一低雜訊放大器(LNA)1337來放大。一向下轉換器1339可降低該載波頻率同時該解調變器1341可除去該RF而僅留下一數位位元串流。該信號之後經過該等化器1325並由該DSP 1305來處理。一數位類比轉換器(DAC)1343可轉換該信號而該所生輸出可透過該揚聲器1345發送至使用者,所有元件都在可作為一中央處理單元(CPU)(未顯示)來予以執行之一主要控制單元(MCU)1303控制下。
該MCU 1303可接收包括來自該鍵盤1347之輸入信號的各種不同信號。與其他使用者輸入組件(例如,該麥克風1311)組合之該鍵盤1347及/或該MCU 1303包含一使用者介面電路以管理使用者輸入。該MCU 1303可運作一使用者介面軟體來促進使用者控制該行動端子1301之至少某些功能以辨識媒體內容中之物件。該MCU 1303亦可個別遞送一顯示命令和一交換命令至該顯示器1307和該語音輸出交換控制器。此外,該MCU 1303可與該DSP 1305交換資訊並可接取一選擇性併入的SIM卡1349以及一記憶體1351。再者,該MCU 1303可執行該端子所需之各種不同的控制功能。該DSP 1305可根據該實施態樣來於該語音信號上執行各種不同的習知數位處理功能。此外,DSP 1305可從麥克風1311檢測之信號來決定該當地環境的背景雜訊準位,並將麥克風1311之增益設定為選擇來補償該行動端子1301之使用者的本能傾向之一準位。
該CODEC 1313包括該ADC 1323和DAC 1343。該記憶體1351可儲存包括呼叫進入音調資料之各種不同資料以及能夠儲存包括經由,例如,全球網際網路接收之音樂資料的其他資料。該軟體模組可常駐於RAM記憶體、快取記憶體、暫存器、或業界熟知的任何其他型式之可寫入儲存媒體中。該記憶體設備1351可為,但不侷限於,一單一記憶體、CD、DVD、ROM、RAM、EEPROM、光學儲存器、磁碟儲存器、快取記憶體儲存器、或能夠儲存數位資料之任何其他非依電性儲存媒體。
一選擇性併入的SIM卡1349可承載,例如,諸如該行動電話號碼、該載波供應服務、訂閱詳細內容、以及安全性資訊之重要資訊。該SIM卡1349主要可用來識別一無線電網路中之行動端子1301。該卡1349亦包含一記憶體來儲存一個人電話號碼登記、文字訊息、以及特定使用者的行動端子設定。
本發明已結合許多實施例和實施態樣來加以說明,但本發明並不侷限於此,其可涵蓋落在該等附接申請專利範圍之範疇中的各種不同顯著修改以及等效安排。雖然本發明之特徵已於該等申請專利範圍中之某些組合來表示,但可預期該等特徵可以任何組合和順序來安排。
100...系統
101、101a-101n...使用者設備
103...服務平台
105...通訊網路
107...擷取管理員
109、109a-109n...擷取儲存器
111...服務儲存器
201...控制器
203...擷取模組
205...辨識模組
207...通訊模組
209...計算模組
211...演示模組
300、400、500、600、700...程序
301、303、305、307、309、311、401、403、501、503、505、507、509、511、601、603、605、701、703、705、707...步驟
801、851、901、951...實例
803、805、807、809、811、853、855、857、859、861、903、905、907、953、955、957、1005、1009、1011、1013...最佳化表示型態
1001...使用者介面
1003、1007‧‧‧辨識資訊
1100‧‧‧計算機系統
1102、1203‧‧‧處理器
1104、1205、1351‧‧‧記憶體
1106‧‧‧唯讀記憶體
1108‧‧‧非依電性儲存設備
1110、1201‧‧‧匯流排
1112‧‧‧外部輸入設備
1114‧‧‧顯示器設備
1116‧‧‧指向設備
1120、1209‧‧‧特殊應用積體電路
1170‧‧‧通訊介面
1178‧‧‧網路鏈接
1180‧‧‧局部網路
1182‧‧‧主機電腦
1184‧‧‧ISP設備
1190‧‧‧網際網路
1192‧‧‧伺服器主機
1200‧‧‧晶片組或晶片
1207、1305‧‧‧數位信號處理器
1301‧‧‧行動端子
1303‧‧‧主要控制單元
1307‧‧‧主要顯示單元
1309‧‧‧音訊功能電路
1311‧‧‧麥克風
1313‧‧‧編碼器/解碼器
1315‧‧‧無線電部段
1317‧‧‧天線
1319‧‧‧功率放大器
1320‧‧‧電力控制單元
1321‧‧‧雙工器
1323‧‧‧類比數位轉換器
1325‧‧‧等化器
1327‧‧‧調變器
1329‧‧‧RF介面
1331‧‧‧向上轉換器
1333‧‧‧合成器
1335‧‧‧天線耦合器
1337‧‧‧低雜訊放大器
1339‧‧‧向下轉換器
1341‧‧‧解調變器
1343‧‧‧數位類比轉換器
1345‧‧‧揚聲器
1347‧‧‧鍵盤
1349‧‧‧SIM卡
A、B‧‧‧時間、角度
X‧‧‧時間
本發明之實施例可藉由該等附圖之圖形中的範例、而非藉由限制來加以繪示:
第1圖是一根據一實施例,能夠辨識媒體內容中之物件的一系統之圖形;
第2圖是一根據一實施例,一擷取管理員之組件的圖形;
第3圖是一根據一實施例,用以辨識媒體內容中之物件的一程序之流程圖;
第4圖是一根據一實施例,用以將辨識資訊與一內容串流之實例相關聯的一程序之流程圖;
第5圖是一根據一實施例,用以將最佳化臉部表示型態與一內容串流之一影像實例相關聯的一程序之流程圖;
第6圖是一根據一實施例,用以將辨識資訊與一影像實例/臉部表示型態對相關聯之一程序的流程圖;
第7圖是一根據一實施例,用以將辨識資訊與一資料庫中之影像實例/臉部表示型態對相關聯的一程序之流程圖;
第8A圖至第8B圖是根據各種不同實施例,於第3圖之程序中擷取的一內容串流之實例中的物件表示型態之圖形;
第9A圖至第9B圖是根據各種不同實施例,於第3圖之程序中從不同角度擷取的一內容串流之實例中的物件表示型態之圖形;
第10圖是一根據一實施例,用以應用第4圖、第6圖和第7圖之程序的一使用者介面之圖形;
第11圖是一可用來執行本發明之一實施例的硬體之圖形;
第12圖是一可用來執行本發明之一實施例的一晶片組之圖形;以及
第13圖是一可用來執行本發明之一實施例的一行動端子(例如,話機)之圖形。
300...程序
301、303、305、307、309、311...步驟

Claims (20)

  1. 一種方法,包含有下列步驟:決定於一設備檢測一內容串流中的一或更多物件;藉由一處理器決定擷取該內容串流中之該一或更多物件的一或更多表示型態;以及將該一或更多表示型態與該內容串流之一或更多樣態實例相關聯;其中該一或更多物件中之一或多個至少係在擷取該內容串流之該一或更多樣態實例前檢測。
  2. 如請求項1之方法,更包含下列步驟:決定擷取該內容串流中之該一或更多物件的一或更多的其他表示型態;至少部分根據一或更多準則來選擇該一或更多表示型態或者該一或更多的其他表示型態以與該一或更多樣態實例相關聯。
  3. 如請求項2之方法,其中該一或更多表示型態或者該一或更多的其他表示型態係持續地、週期性地、或於一預定排程中擷取,直到該一或更多表示型態或者該一或更多的其他表示型態符合一預定品質臨界值為止。
  4. 如請求項1、2、3中任一項之方法,更包含下列步驟:至少部分根據該一或更多表示型態來決定該一或更多物件之辨識資訊;以及將該辨識資訊與該一或更多樣態實例相關聯。
  5. 如請求項4之方法,其中該辨識資訊之決定進一步至少 部分根據該設備、另一設備、一伺服器、一網路組件、或其一組合中可得之資源。
  6. 如請求項1、2、3中任一項之方法,其中該一或更多表示型態之相關聯包含下列步驟:決定將該一或更多表示型態儲存來作為該一或更多樣態實例中之元資料、作為鏈接至該一或更多樣態實例之一儲存器中之元資料、或其一組合。
  7. 如請求項1、2、3中任一項之方法,更包含下列步驟:將該一或更多表示型態與個別的時間戳記相關聯;以及至少部分根據該等時間戳記來將該一或更多表示型態與一或更多其他樣態實例相關聯。
  8. 如請求項1、2、3中任一項之方法,更包含下列步驟:從一或更多其他設備、一或更多其他內容串流、或其一組合來接收該一或更多表示型態中的至少一者。
  9. 如請求項1、2、3中任一項之方法,其中該一或更多表示型態係對應於該一或更多物件之一或更多特性。
  10. 如請求項1、2、3中任一項之方法,更包含下列步驟:決定經檢測之該一或更多物件之追蹤資訊;其中該內容串流係為一生動的實況視訊串流,而該一或更多樣態實例係為影像、視訊、音訊紀錄、或其一組合,且該追蹤資訊包括識別經擷取之該一或更多樣態實例中之該物件的至少一相對位置之資訊。
  11. 一種裝置,包含有: 至少一處理器;以及包括用於一或更多程式之電腦程式碼的至少一記憶體,該至少一記憶體和該電腦程式碼組配來以該至少一處理器,使該裝置執行至少下列步驟:決定於一設備檢測一內容串流中之一或更多物件;決定擷取該內容串流中之該一或更多物件的一或更多表示型態;以及將該一或更多表示型態與該內容串流之一或更多樣態實例相關聯;其中該一或更多物件中之一或多個至少係在擷取該內容串流之該一或更多樣態實例前檢測。
  12. 如請求項11之裝置,其中使該裝置進一步執行下列步驟:決定擷取該內容串流中之該一或更多物件的一或更多的其他表示型態;至少部分根據一或更多準則來選擇該一或更多表示型態或者該一或更多的其他表示型態以與該一或更多樣態實例相關聯。
  13. 如請求項12之裝置,其中該一或更多表示型態或者該一或更多的其他表示型態係持續地、週期性地、或於一預定排程中擷取,直到該一或更多表示型態或者該一或更多的其他表示型態符合一預定品質臨界值為止。
  14. 如請求項11、12、13中任一項之裝置,其中使該裝置進一步執行下列步驟: 至少部分根據該一或更多表示型態來決定該一或更多物件之辨識資訊;以及將該辨識資訊與該一或更多樣態實例相關聯。
  15. 如請求項14之裝置,其中該辨識資訊之決定進一步至少部分根據該設備、另一設備、一伺服器、一網路組件、或其一組合中可得之資源。
  16. 如請求項11、12、13中任一項之裝置,其中該一或更多表示型態之相關聯包含下列步驟:決定將該一或更多表示型態儲存來作為該一或更多樣態實例中之元資料、作為鏈接至該一或更多樣態實例之一儲存器中之元資料、或其一組合。
  17. 如請求項11、12、13中任一項之裝置,其中使該裝置進一步執行下列步驟:將該一或更多表示型態與個別的時間戳記相關聯;以及至少部分根據該等時間戳記來將該一或更多表示型態與一或更多其他樣態實例相關聯。
  18. 如請求項11、12、13中任一項之裝置,其中使該裝置進一步執行下列步驟:從一或更多其他設備、一或更多其他內容串流、或其一組合來接收該一或更多表示型態中的至少一者。
  19. 如請求項11、12、13中任一項之裝置,其中該一或更多表示型態係於該內容串流之該一或更多樣態實例擷取前、後及/或同時擷取,且其中該一或更多表示型態係 對應該一或更多物件之一或更多特性。
  20. 如請求項11、12、13中任一項之裝置,其中該內容串流為一生動的實況視訊串流,而該一或更多樣態實例為影像、視訊、音訊紀錄、或其一組合。
TW100129980A 2010-08-23 2011-08-22 用以辨識媒體內容中之物件的方法和裝置 TWI534723B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/861,603 US8818025B2 (en) 2010-08-23 2010-08-23 Method and apparatus for recognizing objects in media content

Publications (2)

Publication Number Publication Date
TW201211916A TW201211916A (en) 2012-03-16
TWI534723B true TWI534723B (zh) 2016-05-21

Family

ID=45594104

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100129980A TWI534723B (zh) 2010-08-23 2011-08-22 用以辨識媒體內容中之物件的方法和裝置

Country Status (5)

Country Link
US (2) US8818025B2 (zh)
EP (2) EP2609541A4 (zh)
CN (1) CN103080951B (zh)
TW (1) TWI534723B (zh)
WO (1) WO2012025665A1 (zh)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8831279B2 (en) * 2011-03-04 2014-09-09 Digimarc Corporation Smartphone-based methods and systems
EP2372626A1 (fr) * 2010-03-31 2011-10-05 France Telecom Procédé de traitement d'image avec anonymisation dynamique
JP5377768B2 (ja) * 2010-06-30 2013-12-25 富士フイルム株式会社 画像処理方法及び装置
US8533192B2 (en) * 2010-09-16 2013-09-10 Alcatel Lucent Content capture device and methods for automatically tagging content
US8655881B2 (en) * 2010-09-16 2014-02-18 Alcatel Lucent Method and apparatus for automatically tagging content
US8666978B2 (en) 2010-09-16 2014-03-04 Alcatel Lucent Method and apparatus for managing content tagging and tagged content
DE102010048022B4 (de) * 2010-10-09 2013-08-14 Testo Ag Verfahren zur berührungslosen Bestimmung der Temperatur eines Objekts und korrespondierende Wärmebildkamera
US8762852B2 (en) * 2010-11-04 2014-06-24 Digimarc Corporation Smartphone-based methods and systems
US9429438B2 (en) * 2010-12-23 2016-08-30 Blackberry Limited Updating map data from camera images
US8520080B2 (en) 2011-01-31 2013-08-27 Hand Held Products, Inc. Apparatus, system, and method of use of imaging assembly on mobile terminal
US9087058B2 (en) * 2011-08-03 2015-07-21 Google Inc. Method and apparatus for enabling a searchable history of real-world user experiences
US9143601B2 (en) * 2011-11-09 2015-09-22 Microsoft Technology Licensing, Llc Event-based media grouping, playback, and sharing
US9280545B2 (en) 2011-11-09 2016-03-08 Microsoft Technology Licensing, Llc Generating and updating event-based playback experiences
US9406090B1 (en) * 2012-01-09 2016-08-02 Google Inc. Content sharing system
US9137308B1 (en) 2012-01-09 2015-09-15 Google Inc. Method and apparatus for enabling event-based media data capture
US8826150B1 (en) * 2012-01-25 2014-09-02 Google Inc. System and method for tagging images in a social network
JP6044079B2 (ja) * 2012-02-06 2016-12-14 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2013200793A (ja) * 2012-03-26 2013-10-03 Sony Corp 情報処理装置、情報処理方法およびプログラム
KR20130119225A (ko) * 2012-04-23 2013-10-31 삼성전자주식회사 디스플레이장치 및 디스플레이장치의 ui 제공방법
EP2680164A1 (en) * 2012-06-28 2014-01-01 Alcatel-Lucent Content data interaction
US9361626B2 (en) * 2012-10-16 2016-06-07 Google Inc. Social gathering-based group sharing
US9134792B2 (en) * 2013-01-14 2015-09-15 Qualcomm Incorporated Leveraging physical handshaking in head mounted displays
CN103970782B (zh) * 2013-01-31 2017-11-28 联想(北京)有限公司 电子设备以及存储数据的方法
US9898661B2 (en) * 2013-01-31 2018-02-20 Beijing Lenovo Software Ltd. Electronic apparatus and method for storing data
US9912660B2 (en) * 2013-07-18 2018-03-06 Nokia Technologies Oy Apparatus for authenticating pairing of electronic devices and associated methods
CN104575496A (zh) * 2013-10-14 2015-04-29 中兴通讯股份有限公司 一种自动发送多媒体文件的方法及装置、移动终端
CN104639823A (zh) * 2013-11-14 2015-05-20 索尼公司 图像形成方法、装置以及电子设备
FR3015083B1 (fr) * 2013-12-12 2018-06-01 Rizze Dispositif mobile pour la mise en oeuvre d'un procede de recensement des personnes
FR3015093A1 (fr) * 2013-12-12 2015-06-19 Rizze Systeme et procede de controle de flux d'entree et de sortie des personnes dans des espaces fermes
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
CN104978958A (zh) * 2014-04-14 2015-10-14 美的集团股份有限公司 语音控制方法和系统
CN104038534A (zh) * 2014-05-13 2014-09-10 圆刚科技股份有限公司 自动同步与分类相片的方法及其移动装置
CN104038848A (zh) * 2014-05-30 2014-09-10 无锡天脉聚源传媒科技有限公司 一种视频处理方法及装置
WO2015197651A1 (en) * 2014-06-25 2015-12-30 Thomson Licensing Annotation method and corresponding device, computer program product and storage medium
US10078636B2 (en) * 2014-07-18 2018-09-18 International Business Machines Corporation Providing a human-sense perceivable representation of an aspect of an event
CN105468950B (zh) * 2014-09-03 2020-06-30 阿里巴巴集团控股有限公司 身份认证方法、装置、终端及服务器
US10699507B2 (en) * 2015-04-09 2020-06-30 Filigrade B.V. Method of verifying an authenticity of a printed item and data processing terminal
US10013153B1 (en) * 2015-05-05 2018-07-03 State Farm Mutual Automobile Insurance Company Initiating communications based on interactions with images
US10691314B1 (en) * 2015-05-05 2020-06-23 State Farm Mutual Automobile Insurance Company Connecting users to entities based on recognized objects
US9704020B2 (en) * 2015-06-16 2017-07-11 Microsoft Technology Licensing, Llc Automatic recognition of entities in media-captured events
KR20170038378A (ko) * 2015-09-30 2017-04-07 삼성전자주식회사 이미지를 처리하는 전자 장치 및 그 제어 방법
US10346700B1 (en) * 2016-05-03 2019-07-09 Cynny Spa Object recognition in an adaptive resource management system
CN106254939B (zh) * 2016-09-30 2020-02-07 北京小米移动软件有限公司 信息提示方法及装置
WO2018112820A1 (en) * 2016-12-22 2018-06-28 Motorola Solutions, Inc. Method and system for tracking an object of interest in a talkgroup
TWI647637B (zh) 2017-04-12 2019-01-11 緯創資通股份有限公司 基於動態影像的物品供應、訂貨以及交易方法
EP4080393A1 (en) * 2017-07-24 2022-10-26 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device
CN107908324B (zh) * 2017-11-14 2020-07-14 阿里巴巴(中国)有限公司 界面展示方法及装置
US10813169B2 (en) 2018-03-22 2020-10-20 GoTenna, Inc. Mesh network deployment kit
CN109525877B (zh) * 2018-10-18 2021-04-20 百度在线网络技术(北京)有限公司 基于视频的信息获取方法和装置
CN109919105B (zh) * 2019-03-11 2022-04-05 四川长虹电器股份有限公司 一种基于智能电视画面的对象识别方法和系统
CN113692599A (zh) * 2019-04-15 2021-11-23 瑞典爱立信有限公司 移动通信设备和应用服务器
CN110363891A (zh) * 2019-07-04 2019-10-22 华南理工大学 一种适用于多场景的智能访客系统
CN112040249A (zh) * 2020-08-11 2020-12-04 浙江大华技术股份有限公司 一种录播方法、装置及单相机
CN113438417A (zh) * 2021-06-22 2021-09-24 上海云从汇临人工智能科技有限公司 视频抓拍待识别物的方法、系统、介质及装置
US11935199B2 (en) * 2021-07-26 2024-03-19 Google Llc Augmented reality depth detection through object recognition
TR2021016527A2 (tr) * 2021-10-22 2021-11-22 Siskon Enduestriyel Otomasyon Sistemleri Sanayi Ve Ticaret Anonim Sirketi Ekrandaki̇ ki̇şi̇leri̇n ki̇mli̇ği̇ni̇ tespi̇t etmek i̇çi̇n bi̇r yüz tanima si̇stemi̇

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774591A (en) * 1995-12-15 1998-06-30 Xerox Corporation Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images
EP1297691A2 (en) * 2000-03-07 2003-04-02 Sarnoff Corporation Camera pose estimation
US6879709B2 (en) * 2002-01-17 2005-04-12 International Business Machines Corporation System and method for automatically detecting neutral expressionless faces in digital images
US7152786B2 (en) 2002-02-12 2006-12-26 Digimarc Corporation Identification document including embedded data
DE60316912T2 (de) 2003-04-29 2008-07-31 Sony Deutschland Gmbh Verfahren zur Spracherkennung
EP1509042A1 (en) 2003-08-19 2005-02-23 Sony Ericsson Mobile Communications AB System and method for a mobile phone for classifying a facial expression
JP4168940B2 (ja) * 2004-01-26 2008-10-22 三菱電機株式会社 映像表示システム
US7447331B2 (en) * 2004-02-24 2008-11-04 International Business Machines Corporation System and method for generating a viewable video index for low bandwidth applications
US20050197837A1 (en) * 2004-03-08 2005-09-08 Janne Suontausta Enhanced multilingual speech recognition system
US7315631B1 (en) * 2006-08-11 2008-01-01 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
JP2007174378A (ja) * 2005-12-22 2007-07-05 Fujifilm Corp 画像ファイリング方法及びデジタルカメラ及び画像ファイリング処理プログラム及び動画記録再生装置
US20070288898A1 (en) 2006-06-09 2007-12-13 Sony Ericsson Mobile Communications Ab Methods, electronic devices, and computer program products for setting a feature of an electronic device based on at least one user characteristic
JP2008078713A (ja) * 2006-09-19 2008-04-03 Sony Corp 記録装置および方法、プログラム、並びに再生装置および方法
US8023726B2 (en) * 2006-11-10 2011-09-20 University Of Maryland Method and system for markerless motion capture using multiple cameras
KR101477182B1 (ko) 2007-06-01 2014-12-29 삼성전자주식회사 단말 및 그의 이미지 촬영 방법
US20080317346A1 (en) 2007-06-21 2008-12-25 Microsoft Corporation Character and Object Recognition with a Mobile Photographic Device
KR101382499B1 (ko) * 2007-10-22 2014-04-21 삼성전자주식회사 영상 태깅 방법 및 이를 사용하는 영상 재생 장치.
US8676577B2 (en) 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
US20090280859A1 (en) 2008-05-12 2009-11-12 Sony Ericsson Mobile Communications Ab Automatic tagging of photos in mobile devices
US20090326945A1 (en) 2008-06-26 2009-12-31 Nokia Corporation Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system
JP5218508B2 (ja) 2009-10-02 2013-06-26 株式会社ニコン 撮像装置

Also Published As

Publication number Publication date
US8818025B2 (en) 2014-08-26
EP4071663A1 (en) 2022-10-12
CN103080951B (zh) 2016-12-07
EP2609541A1 (en) 2013-07-03
US9229955B2 (en) 2016-01-05
EP2609541A4 (en) 2018-04-04
TW201211916A (en) 2012-03-16
WO2012025665A1 (en) 2012-03-01
CN103080951A (zh) 2013-05-01
US20140369605A1 (en) 2014-12-18
US20120045093A1 (en) 2012-02-23

Similar Documents

Publication Publication Date Title
TWI534723B (zh) 用以辨識媒體內容中之物件的方法和裝置
US20200356530A1 (en) Associating a captured screenshot with application-specific metadata that defines a session state of an application contributing image data to the captured screenshot
US10313401B2 (en) Method and apparatus for sharing content consumption sessions at different devices
US9667716B2 (en) Method and apparatus for sharing content via encoded data representations
EP2727395B1 (en) Live video sharing with multimodal modes
US20170324791A1 (en) Method and apparatus for quick content channel discovery, streaming, and switching
US9280708B2 (en) Method and apparatus for providing collaborative recognition using media segments
US10063598B2 (en) Method and apparatus for establishing, authenticating, and accessing a content channel
US20140310348A1 (en) Method and apparatus for initiating communication and sharing of content among a plurality of devices
US20150004935A1 (en) Method and apparatus for generating access codes based on information embedded in various signals
US9167012B2 (en) Method and apparatus for sharing media upon request via social networks
KR20130027028A (ko) 확장된 콘텐츠 태그 공유를 위한 방법 및 장치
WO2011070225A1 (en) Method and apparatus for tagging media items
US8880527B2 (en) Method and apparatus for generating a media compilation based on criteria based sampling
US20130173517A1 (en) Method and apparatus for coordinating content across devices based on stimuli
US9945948B2 (en) Method and apparatus for providing time-of-flight calculations using distributed light sources
US20160239688A1 (en) Method and apparatus for determining shapes for devices based on privacy policy
US20140003654A1 (en) Method and apparatus for identifying line-of-sight and related objects of subjects in images and videos
US20140358898A1 (en) Method and apparatus for presenting media to users
US20140085443A1 (en) Method and apparatus for associating event information with captured media
US20130321208A1 (en) Method and apparatus for providing location information of user devices based on signal frequencies of transmitters
US9313539B2 (en) Method and apparatus for providing embedding of local identifiers
US9674698B2 (en) Method and apparatus for providing an anonymous communication session
US9596404B2 (en) Method and apparatus for generating a media capture request using camera pose information
CN115145665A (zh) 一种显示方法、电子设备和系统