TWI790270B - 用於多媒體聚焦之方法、系統及非暫時性電腦可讀媒體 - Google Patents

用於多媒體聚焦之方法、系統及非暫時性電腦可讀媒體 Download PDF

Info

Publication number
TWI790270B
TWI790270B TW107128176A TW107128176A TWI790270B TW I790270 B TWI790270 B TW I790270B TW 107128176 A TW107128176 A TW 107128176A TW 107128176 A TW107128176 A TW 107128176A TW I790270 B TWI790270 B TW I790270B
Authority
TW
Taiwan
Prior art keywords
aforementioned
image
secondary image
face
digital content
Prior art date
Application number
TW107128176A
Other languages
English (en)
Other versions
TW201914310A (zh
Inventor
銀淑 安
Original Assignee
美商公共電視公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商公共電視公司 filed Critical 美商公共電視公司
Publication of TW201914310A publication Critical patent/TW201914310A/zh
Application granted granted Critical
Publication of TWI790270B publication Critical patent/TWI790270B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7335Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04812Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/179Human faces, e.g. facial parts, sketches or expressions metadata assisted face recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Focusing (AREA)

Abstract

本發明係針對用於個別化多媒體導覽及控制之方法及系統,其包括:接收用於一段數位內容之中繼資料,其中前述中繼資料包含用以描述前述數位內容的主要影像及文字;分析前述主要影像以偵測一或多個物件;選擇對應於每一所偵測物件之一或多個次要影像;及針對包含前述一或多個次要影像之前述數位內容產生資料結構,其中前述數位內容係藉由較佳次要影像描述。

Description

用於多媒體聚焦之方法、系統及非暫時性電腦可讀媒體
本發明一般係關於多媒體控制,且更具體言之係關於用於條件控制多媒體聚焦之影像分析。
歷史上,觀看者翻閱一循環之頻道以發現何播放內容為可得到的。現代數位多媒體內容遞送包括描述每一項可得到之內容的中繼資料,諸如標題及簡短描述。使用者(例如,潛在觀看者)一般導覽可包括表演藝術之文字網格或系列之選單,以發現或導覽可得到內容。通常,使用者檢閱表演藝術之詳細項目,該等項目表示與項目內容相關聯的風格或故事情節。諸如電影製作者或電視節目創作者之內容提供者使用表演藝術在觀看者選擇內容階段期間爭取觀看者之關注,以傳達內容的主題且說服觀看者選擇該內容。
按照慣例,管理者或製作者花費無數個小時剪輯及壓縮一段表演藝術來俘獲潛在觀看者之注意。舉例而言,電影製作者可開發不同段之表演藝術的小文庫(library),來推銷內容且說服觀看者觀看其電影。相關技術系統使用創造性設計及焦點小組來創造表演藝術影像,該等表演藝術影像傳達關於主題內容的多個態樣以便吸引大群潛在觀看者的注意。舉例而言,電影可具有所製作之多個不同的海報,以便吸引大範圍的目標 觀眾。舉例而言,一段表演藝術可經設計來傳達數位內容之風格,另一段表演藝術經設計來傳達在數位內容中所表徵之演員陣容或主演,且另一段表演藝術則經設計來傳達日程資訊(例如,正在放映之觀影或體育隊的日期及時間)。
相關技術研究已顯示,閱讀關於數位內容之文字在引起潛在觀看者之決策方面為無效的。相關調查顯示,影像佔盡優勢地影響觀看者在選擇數位內容時的抉擇。舉例而言,相關調查指示,觀看者在導覽串流傳輸媒體庫時通常花費一至兩秒考慮每一標題,其中大多數時間花費在存取表演藝術上。此外,調查已顯示,人們能夠辨識面部影像的速度實質上快於辨識物件。
相關技術內容導覽系統可直接提供藉由內容提供者所提供之表演藝術。在相關技術系統中,資料科學家分析使用者統計以追蹤對影像之反應,且創造性小組修改用作表演藝術之色彩、影像及詞語。另外,具有文字之顯示影像改良觀看者作決策的過程。然而,影像(例如,表演藝術)已變得更加複雜,以便吸引更大範圍之潛在觀看者。因為影像更為複雜,所以觀看者需要額外時間來分析影像以發現感興趣之物件,該等物件有助於進行關於是否觀看項目內容的判定。
在相關技術中,焦點偵測在攝影機中使用以用於調整影像俘獲設定。在其他相關技術中,面部辨識系統能夠自數位影像識別或核對人之身分,或自視訊源識別或核對視訊圖框。
在線上數位庫及串流傳輸數位媒體遞送服務爆發增長的情況下,觀看者已存取壓倒性數量之數位內容來導覽。因此,需要工具來改良使用者導覽及與數位內容之基於影像導覽的互動。
在本發明的一態樣中,提供一種用於條件控制多媒體聚焦之影像分析之方法,其包含以下步驟:接收用於一段數位內容之中繼資料,其中前述中繼資料包含用以描述前述段數位內容的主要影像及文字資訊;分析前述主要影像以偵測一或多個物件;選擇對應於每一所偵測物件之一或多個次要影像;及針對包含前述一或多個次要影像之前述段數位內容產生資料結構,其中,回應於使用者請求,前述段數位內容將藉由較佳次要影像描述。
在本發明的另一態樣中,提供一種用於條件控制多媒體聚焦之影像分析之系統,其包含:記憶體;耦接至前述記憶體之處理器,其包含在經執行時使前述處理器進行以下操作之指令:接收對描述一段數位內容之請求;接收一組使用者資訊;接收用於前述段數位內容之中繼資料,其中前述中繼資料包含描述前述段數位內容之影像及文字資訊;分析前述影像以偵測一或多個物件;選擇對應於每一所偵測物件之一或多個次要影像;及回應於使用者請求,呈現將至少基於前述組使用者資訊之使用者偏好判定的較佳次要影像以描述前述段數位內容。
在本發明之又另一態樣中,提供一種非暫時性電腦可讀媒體,係用於條件控制多媒體聚焦之影像分析且包含指令,在藉 由處理器執行時,前述指令用以:接收用於一段數位內容之中繼資料,其中前述中繼資料包含用以描述前述段數位內容的主要影像及文字資訊;分析前述主要影像以偵測一或多個物件;選擇對應於每一所偵測物件之一或多個次要影像;及針對包含前述一或多個次要影像之前述段數位內容產生資料結構,其中,回應於使用者請求,前述段數位內容將藉由對應於使用者資訊之較佳次要影像描述。
100‧‧‧系統
102‧‧‧網路
103‧‧‧資料儲存區
105a‧‧‧行動計算裝置/使用者裝置/用戶端裝置/裝置
105b‧‧‧行動計算裝置/使用者裝置/用戶端裝置/裝置
105c‧‧‧呈現系統/使用者裝置/用戶端裝置/裝置
105d‧‧‧計算裝置/使用者裝置/操作者頭端伺服器/用戶端裝置/裝置
105e‧‧‧中繼資料提供者/中繼資料庫/裝置
105f‧‧‧內容提供者/內容存放庫/內容資料儲存區/裝置
105g‧‧‧內容提供者/裝置
105n‧‧‧雲端服務/裝置
110‧‧‧聚焦引擎
200‧‧‧系統
202‧‧‧網路
203‧‧‧資料儲存區
205‧‧‧裝置
206‧‧‧內容
207‧‧‧中繼資料
209‧‧‧使用者資料
210‧‧‧聚焦引擎
212‧‧‧I/O介面
215‧‧‧介面模組
217‧‧‧使用者資訊模組
220‧‧‧辨識模組
230‧‧‧興趣點決策系統(POIDS)
233‧‧‧焦點模組
235‧‧‧面部辨識模組
237‧‧‧加標籤模組
239‧‧‧品質模組
240‧‧‧呈現器模組
243‧‧‧局域化模組
245‧‧‧補充影像模組
260‧‧‧回饋模組
300‧‧‧流程圖
310‧‧‧區塊
320‧‧‧區塊
330‧‧‧區塊
340‧‧‧區塊
350‧‧‧區塊
400‧‧‧方塊圖
403‧‧‧資料儲存區
405‧‧‧內容源
407‧‧‧中繼資料
410‧‧‧聚焦引擎
411‧‧‧普通表演藝術影像
412‧‧‧簡介
423A‧‧‧次要影像
423B‧‧‧次要影像
423C‧‧‧次要影像
423D‧‧‧次要影像
423E‧‧‧次要影像
423F‧‧‧次要影像
427A‧‧‧標籤
427B‧‧‧標籤
427C‧‧‧標籤
427D‧‧‧標籤
427E‧‧‧標籤
427F‧‧‧標籤
440‧‧‧處理序
450‧‧‧區塊
453‧‧‧區塊
455‧‧‧區塊
457‧‧‧區塊
465‧‧‧區塊
467‧‧‧區塊
470‧‧‧區塊
475‧‧‧區塊
480‧‧‧區塊
485‧‧‧區塊
490‧‧‧區塊
500‧‧‧處理序
510‧‧‧區塊
520‧‧‧區塊
530‧‧‧區塊
540‧‧‧區塊
603‧‧‧資料儲存區
605‧‧‧內容源
607‧‧‧中繼資料
609‧‧‧使用者資訊
610‧‧‧聚焦引擎
611‧‧‧主要影像
612‧‧‧簡介
623A‧‧‧次要影像
623B‧‧‧次要影像
623C‧‧‧次要影像
623D‧‧‧次要影像
623E‧‧‧次要影像
623F‧‧‧次要影像
627A‧‧‧標籤
627B‧‧‧標籤
627C‧‧‧標籤
627D‧‧‧標籤
627E‧‧‧標籤
627F‧‧‧標籤
629‧‧‧主要影像
640‧‧‧顯示器
641‧‧‧窗格
642‧‧‧窗格
643‧‧‧窗格
644‧‧‧窗格
645‧‧‧窗格
646‧‧‧窗格
647‧‧‧窗格
650‧‧‧主要影像
653A‧‧‧次要影像
653B‧‧‧次要影像
660‧‧‧主要影像
663A‧‧‧次要影像
663B‧‧‧次要影像
663C‧‧‧次要影像
663D‧‧‧次要影像
680‧‧‧經聚焦介面
681‧‧‧主要影像
682‧‧‧所偵測面部
683‧‧‧所偵測面部
684‧‧‧次要影像
685‧‧‧經聚焦介面
686‧‧‧主要影像
687‧‧‧次要影像
690‧‧‧經聚焦介面
723A‧‧‧次要影像
723B‧‧‧次要影像
723C‧‧‧次要影像
723D‧‧‧次要影像
723E‧‧‧次要影像
723F‧‧‧次要影像
740A‧‧‧內容導覽選單
740B‧‧‧內容導覽選單
740C‧‧‧內容導覽選單
740D‧‧‧內容導覽選單
740E‧‧‧內容導覽選單
740F‧‧‧內容導覽選單
810‧‧‧個別化介面
820‧‧‧個別化介面
830‧‧‧內容選擇介面
840‧‧‧內容選擇介面
850‧‧‧內容選擇介面
860‧‧‧內容選擇介面
900‧‧‧計算環境
905‧‧‧計算裝置
910‧‧‧處理器
915‧‧‧記憶體
920‧‧‧內部儲存器
925‧‧‧I/O介面
930‧‧‧通訊機構或匯流排
935‧‧‧輸入/使用者介面
940‧‧‧輸出裝置/介面
945‧‧‧外部儲存器
950‧‧‧網路
955‧‧‧邏輯單元
960‧‧‧應用程式規劃介面(API)單元
965‧‧‧輸入單元
970‧‧‧輸出單元
975‧‧‧聚焦引擎
980‧‧‧呈現器模組
985‧‧‧辨識模組
本發明係藉由實例且非藉由限制來說明,且在結合諸圖考慮時可參考以下詳細描述來更全面地理解,其中:
圖1說明根據實例實行方案之聚焦系統的方塊圖。
圖2說明根據實例實行方案之實例聚焦引擎。
圖3說明根據實例實行方案之用於產生興趣點資料結構的流程圖。
圖4A-B說明根據實例實行方案之用於產生焦像的方塊圖及流程圖表。
圖5說明根據實例實行方案之用於介面控制的流程圖。
圖6A-C說明根據實例實行方案之實例經聚焦介面。
圖7A-F說明根據實例實行方案之實例個別化介面。
圖8A-C說明根據實例實行方案之實例介面控制選項。
圖9說明適於在實例實行方案中使用的具有實例電 腦裝置之實例伺服器計算環境。
本發明係針對識別多個次要影像以描述一段數位內容(例如,視訊、音訊、文字等),該數位內容可用以基於使用者資訊提供個別化選單。
表演藝術影像(例如,主要影像)指代用以描述一段內容之影像,例如作為電影海報或DVD封面。對於數位內容導覽,內容提供者遞送表演藝術影像來描述一段可得到數位內容以供在選單或子選單中向潛在觀看者顯示。潛在觀看者可瀏覽基於文字或影像之選單且觀看表演藝術影像以輔助判定是否選擇一段數位內容。因為內容提供者按照慣例判定描述電影或電視節目所使用之表演藝術影像,所以同一普通表演藝術影像用於所有潛在觀看者。用於大型線上集合之數位內容的導覽介面(例如,選單)按照慣例使用普通表演藝術影像來允許潛在觀看者瀏覽可得到數位內容。
如本文所述,系統及方法藉由分析每一表演藝術影像(例如,主要影像)而提供表演藝術影像的經改良之影像處理,以在主要影像內識別多個子影像(例如,次要影像)。較佳子影像(例如,較佳次要影像)可基於潛在觀看者之喜好(affinity)或偏好而呈現給潛在觀看者。在實例實行方案中,導覽介面基於潛在觀看者之使用者資訊而非普通表演藝術影像而向潛在觀看者呈現普通表演藝術影像的較佳子影像。舉例而言,藉由內容提供者所選擇之七個人的表演藝術影像可經替換或重新定大小,以呈現或強調普通表演藝術影像中所描繪之女演員中之一者的較佳子影像。與瀏覽普通表演藝術影像相比,潛在觀看者可在較少時間內辨識較佳子影像中之女演員。舉例而言,普通表演藝 術影像需要潛在觀看者掃描所描繪之七個人以判定七個人中之任一者是否為可辨識的,而該等人中之一者的較佳子影像使潛在觀看者花費較少時間來處理。
在實例實行方案中,較佳子影像的選擇係基於與潛在觀看者相關聯之資訊。舉例而言,女演員之子影像可使用關於潛在觀看者之資訊(例如,基於潛在觀看者之觀看歷史紀錄)在表演藝術影像內之多個子影像當中選擇(例如,用於七個人中之每一者的子影像)。潛在觀看者更願意辨識,或與藉由內容提供者或製作者預先選擇之普通表演藝術影像相比更快地辨識與其使用者資訊對應的較佳子影像。
為了瀏覽多段數位內容,導覽介面可用基於使用者之資訊所選擇的用於每一段數位內容之較佳子影像(例如,較佳次要影像)來呈現。非普通表演藝術影像之較佳次要影像之選單可減少使用者辨識時間及使用者瀏覽時間。因此,較佳次要影像之選單與普通表演藝術影像相比更好地描述收集內容。
在一些實行方案中,基於影像選單的次要影像可包括主要影像之子影像或來自資料庫的補充影像。舉例而言,來自資料庫的女演員之頭部特寫照片(例如,補充影像)可得以呈現,而非來自表演藝術影像的女演員之影像。在另一實例中,潛在觀看者可基於其使用者資訊而非普通表演藝術影像觀看描述一段數位內容之補充影像(例如,次要影像)。舉例而言,來自資料庫的女演員之頭部特寫照片(例如,補充影像)可經呈現以描述電影,而非呈現全部的普通表演藝術影像。基於影像選單的次要影像(例如,普通表演藝術影像之子影像或替換普通表演藝術影像的補充影像)可減少使用者導覽時間且改良使用者參與度。
如本文所使用,聚焦代指判定數位內容中(或數位庫內)之一或多個興趣點以引導觀看者的注意。在實例實行方案中,影像中之一或多個興趣點可為焦點。舉例而言,具有多個面部之圖片可經聚焦以偵測多個面部且判定面部中之一者來引導觀看者的注意。在實例實行方案中,注意係藉由重新定大小(例如,縮放、裁剪、片段等)、模糊化、過濾、框架處理等而引導至興趣點。
在另一實例實行方案中,視訊中之一或多個興趣點可為一組圖框。舉例而言,具有多個場景(例如,攝影機拍攝、背景等)之長視訊可經聚焦以偵測多個場景且判定場景中之一者來引導觀看者的注意。
在本發明之實例態樣中,聚焦引擎偵測與一段數位內容(例如,電影或電視節目)相關聯之普通表演藝術影像(例如,主要影像)中的一或多個興趣點,將標籤指派給每一興趣點,且產生資料結構以識別每一興趣點,使得興趣點中之一者可經呈現作為次要影像(例如,普通表演藝術影像之子影像或替換來自普通表演藝術影像之子影像的補充影像)。藉由選擇普通表演藝術影像的與使用者資訊對應之興趣點,觀看者與總體表演藝術影像相比可更快地處理興趣點且識別數位內容中與次要影像相關聯之態樣(例如,普通表演藝術影像之子影像或補充影像)。在實例實行方案中,用於可得到數位內容之選單呈現給觀看者導覽(例如,瀏覽、捲動、點擊、撥動等)通過經聚集影像(例如,次要影像)而非普通表演藝術影像(例如,主要影像)。次要影像可減少用於處理複雜影像(例如,普通表演藝術影像)所需之辨識時間。具有次要影像(例如,普通表演藝術影像之子影像或補充影像)之基於影像的選單使觀看者之注意聚焦,以尋找對應 於觀看者之興趣的數位內容。
聚焦引擎可執行品質測試以偵測,普通表演藝術影像針對興趣點的子影像過小或太模糊而無法表示選單中之數位內容。若普通表演藝術影像之子影像未通過品質測試,則聚焦引擎可存取第三方資料庫以擷取針對興趣點的補充影像。舉例而言,回應於偵測到子影像像素化之呈現(例如,放大影像超過解析度臨限值),聚焦引擎可擷取針對興趣點的較高品質之補充影像。聚焦引擎可防止子影像放至過大使得形成影像之個別像素在可視的程度內,且避免降低次要影像之辨識速度。
本發明之態樣可包括用於個別化多媒體導覽及控制之系統及方法,其包括:接收用於一段數位內容之中繼資料,其中中繼資料包含用以描述數位內容的主要影像及文字;分析主要影像以偵測一或多個物件;基於每一所偵測物件選擇一或多個次要影像;及針對包含一或多個次要影像之數位內容產生資料結構。針對每一次要影像之標籤可基於中繼資料或面部辨識技術來判定,以有助於選擇對應於使用者資訊的次要影像。接著,數位內容可藉由對應於使用者資訊之較佳次要影像而非主要影像描述。
實施方式提供本發明之圖式及實例實行方案的進一步細節。圖式之間的冗餘元件之參考數字及描述為清晰起見被省略。遍及描述所使用之術語經提供作為實例且不欲為限制性的。舉例而言,術語「自動」之使用可涉及完全自動或半自動實行方案,該等半自動實行方案涉及對實行方案之某些態樣的使用者或操作者控制,此取決於實踐本申請案之實行方案的所屬技術領域中具有通常知識者之所要實行方案。
圖1說明根據實例實行方案的用於與聚焦引擎110 一起使用之系統100的綜述。系統100包括聚焦引擎110,聚焦引擎110經組配來分析來自本機的資料儲存區103之中繼資料,或經由網路102來自中繼資料提供者105e或經由雲端服務105n之內容提供者105f的中繼資料。聚焦引擎110可分析描述來自各種資料源之項目內容的中繼資料,諸如直播串流傳輸服務、數位存放庫、隨選服務等。
裝置105a-105n可包括例如行動計算裝置105a-105b(例如,智慧電話、膝上型電腦、平板電腦等)、呈現系統105c、計算裝置105d(例如,桌上型電腦、大型電腦、網路設備等)、中繼資料庫105e、內容存放庫105f、內容提供者105g,以及雲端服務105n(例如,遠端可得之專屬或公共計算資源)。裝置105a-d可包括諸如電子書閱讀器、攜帶型數位助理、行動電話、智慧電話、膝上型電腦、攜帶型媒體播放器、平板電腦、攝影機、視訊攝影機、迷你筆記型電腦、筆記型電腦及其類似者等裝置。使用者裝置105a-d亦可包括諸如機上盒、桌上型電腦、遊戲控制台、數位視訊記錄器(digital video recorder;DVR)、媒體中心及其類似者等裝置。使用者裝置105a-d可藉由私有網路、WAN、LAN等連接至網路102。
項目內容可包括來自獨立源或中間體之內容。舉例而言,操作者頭端伺服器可儲存源內容(例如,內容提供者105g、內容資料儲存區105f等),或自一或多個內容源提供者接收源內容。如本文所使用,內容提供者總體地指代中繼資料提供者105e、中間內容散佈者、內容源、電影製片廠、製片公司、內容經銷商等。舉例而言,串流傳輸內容可來自操作者頭端伺服器105d或HTTP串流傳輸伺服器(HTTP streaming server;HSS),該HTTP串流傳輸伺服器(HSS)存取在組織為MPEG2程式 串流(MPEG2 program stream;MPG-PS)、HTTP直播串流傳輸(HTTP Live Streaming;HLS)等之封包中可得的內容。舉例而言,內容源提供者可提供直播體育賽事視訊之數位內容。操作者頭端伺服器105d可包括實體機及/或藉由實體機主控之虛擬機(例如,機架式伺服器、桌上型電腦,或其他計算裝置)。
裝置105a-105n亦可收集來自一或多個其他裝置105a-105n之資訊(例如,內容歷史資料、觀看者設定檔資料、回饋資料等),且將所收集資訊提供至聚焦引擎110。舉例而言,裝置105a-105n可使用WiFi®、Bluetooth®、Zigbee®、低功率無線區域網路上之網際網路協定版本6(6LowPAN)、電力線通訊(power line communication;PLC)、乙太網路(例如,10百萬位元組(Mb)、100Mb及/或1十億位元組(Gb)乙太網路)或其他通訊協定以通訊方式連接至另一裝置。
裝置105a-d可與唯一使用者裝置識別符(例如,符記、數位權利設定檔、裝置序號等)相關聯且可藉由該識別符識別。在實行方案中,使用者裝置105a-d可為具有活動追蹤服務之網路層級裝置,該活動追蹤服務用以追蹤使用者之活動、興趣、行為等或追蹤裝置的活動(例如,cookie、全域登入等)。追蹤服務可識別針對每一終端使用者之唯一識別符(例如,符記、數位權利設定檔、裝置序號等)。舉例而言,隨選視訊(Video on demand;VOD)服務可經由機上盒、電腦或其他裝置串流傳輸內容,從而允許即時地觀看,或將內容下載至諸如電腦、數位視訊記錄器或其他攜帶型媒體播放器之裝置以用於觀看。追蹤服務可追蹤所存取或請求之內容以及關於使用者之興趣的其他人口統計或行銷資訊。唯一使用者識別符可用以驗證裝置,且允許VOD串流傳輸、按次付費串流傳輸、下載至DVR等。使用者 裝置105a-d通常發送針對描述可得內容之中繼資料的請求(本文後稱「中繼資料請求」),該請求包括使使用者與使用者資訊相關聯之識別符。
聚焦引擎110可與用戶端裝置105a-105d、中繼資料提供者105e、雲端服務105n等相互作用,且分析用於內容之中繼資料並基於使用者資訊提供次要影像。聚焦引擎110可以在一或多個處理裝置上執行之軟體(例如,非暫時性電腦可讀媒體上之指令)的形式來實施,諸如一或多個裝置105a-105d、作為雲端服務105n、遠端地經由網路102,或一般熟習此項技術者已知的其他組態。舉例而言,聚焦引擎110可經由用戶端裝置105a-105d、雲端服務105n主控,或作為內容遞送網路102之部分(例如,頭端服務)經主控。
聚焦引擎110直接地或間接地包括諸如資料儲存區103之記憶體(例如,RAM、ROM,及/或內部儲存器、磁性、光學、固態儲存器,及/或有機體),其中每一者可耦接於通訊機構(或匯流排)上以用於傳達資訊。術語「電腦」、「電腦平臺」、處理裝置及裝置意欲包括任何資料處理裝置,諸如桌上型電腦、膝上型電腦、平板電腦、大型電腦、伺服器、手持型裝置、數位信號處理器(digital signal processor;DSP)、嵌入式處理器,或能夠處理資料之任何其他裝置。電腦/電腦平臺經組配來包括以通訊方式連接至一或多個非暫時性電腦可讀媒體及一或多個網路之一或多個微處理器。
在實例實行方案中,聚焦引擎110可藉由雲端服務105n主控,且經由網路102以通訊方式連接至裝置105a-105n以便發送及接收資料。術語「以通訊方式連接」意欲包括可傳達資料之任何類型的連接,有線或無線的。術語「以通訊方式連接」 意欲包括但不限於在裝置之間的連接,及/或在單一電腦內或在經網路102之裝置及/或單獨電腦之間的程式。術語「網路」意欲包括但不限於封包切換網路,諸如區域網路(local area network;LAN)、廣域網路(wide area network;WAN)、TCP/IP、(網際網路),且可使用各種傳輸手段,諸如但不限於WiFi®、Bluetooth®、Zigbee®、低功率無線區域網路上之網際網路協定版本6(6LowPAN)、電力線通訊(PLC)、乙太網路(例如,10百萬位元組(Mb)、100Mb及/或1十億位元組(Gb)乙太網路)或其他通訊協定。
在一些實行方案中,資料儲存區103儲存針對數位內容所接收之中繼資料的複製複本或部分。在替代性實行方案中,用於處理中繼資料之資料結構得以產生且藉由聚焦引擎110儲存於資料儲存區103中。在另一實行方案中,聚焦引擎110可將用於處理中繼資料之資料結構儲存於雲端服務105n中。
圖2說明根據實例實行方案之包括聚焦引擎210的實例系統200。聚焦引擎210包括一或多個I/O介面212、介面模組215、使用者資訊模組217、興趣點決策系統230及回饋模組260。聚焦引擎210耦接至一或多個資料儲存區203以用於儲存資料(例如,中繼資料207、資料結構、影像、使用者資料209等)。聚焦引擎210可分析用於內容206的具有影像之項目的中繼資料207以識別一或多個興趣點,分析來自中繼資料207之內容的簡介,基於中繼資料207針對每一興趣點判定標籤,且回應於請求基於使用者資料209提供具有興趣點中之一者的次要影像。與多個內容源相關聯之中繼資料207可經分析來提供具有選單之整合式使用者介面以有效地導覽內容206,其中選單係基於使用者興趣而訂制。
在實例實行方案中,I/O介面212包括與網路202或不同類型之裝置205(例如,圖1之裝置105a-105n)以通訊方式連接的一或多個通訊介面。I/O介面212可接收與來自不同源之內容206(例如,視訊)相關聯的中繼資料207(例如,表演藝術影像、劇集資訊等),該等源諸如資料儲存區203、不同類型之裝置205或經由網路202。在實例實行方案中,I/O介面212可接收中繼資料207,而並不經由網路202接收內容206。此處所列出之組合為說明性實例,且如將藉由熟習此項技術者理解之其他組合可因此被取代。
中繼資料207及/或使用者資料209可藉由聚焦引擎210即時地接收,或經由網路202自資料儲存區203或資料源擷取。舉例而言,中繼資料207可包括普通表演藝術影像,以經由來自介面模組215之內容選擇介面表示內容206。
中繼資料207可包括內容之文字概述,例如描述風格、人物或劇情主題之簡介。來自中繼資料207之影像可經分析來提取興趣點,諸如面部或地標。來自中繼資料207之文字可經分析來提取與興趣點相關聯的標籤,諸如人物姓名、男演員、女演員、運動員、體育隊名稱、拍攝地點等。
使用者資料209亦可包括關於使用者之資訊,諸如位置、人口統計、設定檔資訊、內容觀看歷史、使用者回饋、使用者興趣等。使用者資訊模組217可處理所接收之使用者資料以及搜尋或請求額外資料。使用者資訊模組217可向追蹤服務(例如,線上參與追蹤等)請求使用者資訊。
聚焦引擎210包括辨識模組220及呈現器模組240以分析中繼資料207、自中繼資料207識別興趣點,及提供替代性影像(例如,次要影像)以用於有助於內容206之使用者導覽及選 擇。辨識模組220及呈現器模組240根據參看圖3至圖7F所述之一或多個演算法與興趣點決策系統230(point of interest decision system;POIDS)相互作用。
辨識模組220經由興趣點決策系統230分析用於內容206之集合的中繼資料207,以識別將要針對內容選擇所提供之次要影像。辨識模組220可識別次要影像作為來自中繼資料207之子影像,或自外部庫獲取補充影像以替換與一段內容相關聯的主要影像。辨識模組220可與I/O介面212、介面模組215、興趣點決策系統230及回饋模組260相互作用以產生且維持自中繼資料所提取之子影像或用於自中繼資料即時地提取次要影像的資料結構,如參看圖3至圖7F所述。辨識模組220可自主要影像識別多個次要影像。
呈現器模組240接收或攔截對提供描述內容之中繼資料207的請求。呈現器模組240可與I/O介面212、介面模組215、使用者資訊模組217、POIDS 230及回饋模組260相互作用,以基於內容導覽選單中之使用者資料209提供次要影像。呈現器模組240使用使用者資料209來基於與中繼資料請求相關聯之使用者資料209訂製具有次要影像的內容導覽選單,該等次要影像表示內容206且對應於使用者興趣。中繼資料請求可為針對與來自多個資料源之內容之一或多個集合相關聯的中繼資料207之請求。
具有次要影像之經訂製內容導覽選單可自動地產生或藉由聚焦引擎210在內部請求。舉例而言,對應於中繼資料請求,聚焦引擎210經由辨識模組220識別用於一段內容之多個次要影像,且呈現器模組240可基於使用者資料209選擇次要影像中的一者來提供針對與所請求中繼資料相關聯之內容的經訂 製內容導覽選單。
POIDS 230可包括焦點模組233、面部辨識模組235、加標籤模組237、品質模組239、局域化模組243,及/或補充影像模組245。POIDS 230根據參看圖3至圖7A-F所述之一或多個演算法與辨識模組220及呈現器模組240相互作用。在實例實行方案中,POIDS 230包括分析處理序以經由焦點模組233自中繼資料207之普通表演藝術影像識別興趣點,經由面部辨識模組235及加標籤模組237分析來自中繼資料207之簡介以針對每一興趣點判定標籤。
在實例實行方案中,POIDS 230包括呈現處理序以提供具有對應於使用者資料209之興趣點的次要影像。呈現處理序可包括經由品質模組239測試次要影像之品質,經由局域化模組243選擇焦點周圍之區域以用於呈現,及/或經由補充影像模組245判定獲取補充影像作為次要影像。
在實例實行方案中,次要影像為自第三方資料庫所選擇之補充影像,其中補充影像描繪中繼資料之要素。舉例而言,用於一段電視內容之中繼資料可包括演藝人員清單或特定劇集中之名人客串的提及,且聚焦引擎可存取名人頭部特寫之第三方庫以擷取用於男演員/女演員的次要影像來表示數位內容。舉例而言,對名人具有強親和力之觀看者可快速地且容易地辨識名人面部的影像,且幫助將觀看者之注意聚焦於數位內容。選單可將用於可得到數位內容之次要影像呈現給觀看者來導覽(例如,瀏覽、捲動、點擊、撥動等)通過經聚焦影像,其中每一影像之子影像係基於觀看者資訊來選擇以表示數位內容。
回饋模組260經組配來將評價資訊提供回至POIDS 230,以用於改進及改良POIDS 230功能性。舉例而言,回饋模 組260可聚集使用者輸入以更新使用者興趣,及/或改良次要影像之選擇。回饋模組260可自使用者收集評價資訊,以隨時間改變所選擇之次要影像來描述內容的項目。
圖3說明根據實例實行方案之用於產生興趣點資料結構的流程圖300。流程圖300可包括硬體(電路、專用邏輯等)、軟體(諸如在通用電腦系統或專用機器上操作),或兩者之組合。流程圖300表示用於供圖1之聚焦引擎110及圖2之聚焦引擎210使用的要素及要素之組合。
在區塊310處,處理裝置接收用於一段數位內容之中繼資料,其中中繼資料包括用以描述數位內容的主要影像及文字。舉例而言,數位內容可為電視節目、電影、播客、體育賽事等。在區塊320處,處理裝置分析主要影像以偵測一或多個物件。
在區塊330處,處理裝置基於每一所偵測物件選擇一或多個次要影像。舉例而言,一或多個次要影像可包括在數位內容中所表徵之人的面部。數位內容係藉由較佳次要影像描述作為選單之部分來導覽數位內容庫。
在區塊340處,處理裝置至少基於文字資訊針對每一次要影像判定標籤。在實例實行方案中,處理裝置可基於面部辨識分析影像以偵測一或多個物件;及基於將面部辨識與中繼資料之文字資訊中的名稱匹配而針對每一次要影像判定標籤。舉例而言,判定標籤可包括針對每一次要影像與來自中繼資料之文字之部分的關係計算置信度分值,及基於所偵測物件搜尋經加標籤影像庫。在實例中,次要影像可基於次要影像中之物件的大小來排序,此操作係鑒於自影像所偵測之其他物件來完成,且針對每一次要影像判定標籤係基於次要影像之次序 基於文字資訊中的相關聯關鍵欄位。
在區塊350處,處理裝置針對包括一或多個次要影像及標籤之數位內容產生資料結構,其中數位內容係藉由較佳次要影像基於與對應於使用者資訊之較佳次要影像相關聯的標籤來描述。
在實例實行方案中,處理裝置可針對每一所偵測物件選擇一或多個次要影像。處理裝置可針對每一所偵測物件識別影像之部分,及藉由針對每一次要影像儲存所識別部分而產生資料結構。
在實例實行方案中,處理裝置可針對每一所偵測物件選擇一或多個次要影像。處理裝置可針對每一所偵測物件識別影像之一組次要影像座標,及產生資料結構。資料結構包括針對每一次要影像之該組次要影像座標。處理裝置可回應於包含對應於該組使用者資訊之使用者偏好的標籤之資料結構,基於該組次要影像座標針對標籤之次要影像搜尋影像,及基於針對標籤之次要影像的該組次要影像座標呈現影像之部分。
在實例實行方案中,處理裝置可接收針對該段數位內容之請求及一組使用者資訊。回應於包括對應於該組使用者資訊之使用者偏好的標籤之資料結構,處理裝置呈現針對標籤之次要影像作為較佳次要影像。次要影像描述數位內容,如參看圖5至圖8A-C進一步詳細論述。舉例而言,使用者資訊可包括對判定使用者偏好之啟發或活動追蹤。
圖4A說明根據實例實行方案之用於產生焦像的方塊圖400。在實例實行方案中,與一段數位內容相關聯之中繼資料407藉由聚焦引擎410例如自內容源405或中繼資料提供者接收。中繼資料407包括普通表演藝術影像411及簡介412(例如, 演員陣容、人物、劇情概述等)。普通表演藝術影像411可呈影像格式(例如,JPEG、JPG、PNG、EPS、PDF、PSD、AI、GIF、TIFF、BIT等),且包括在內容選擇階段期間表示該段數位內容之影像、原圖、標誌、圖片等。
普通表演藝術影像411通常藉由數位內容之製作者、創作者、行銷者等創作,以說服觀看者消費數位內容。普通表演藝術影像411可包括複雜影像,諸如具有人物圖片、標誌、地標、風格化文字、視覺效應等之拼接影片,該等複雜影像需要使用者花費時間來處理及理解何主題(例如,演員、風格、題目等)之態樣處於該段數位內容中。
簡介412亦可藉由數位內容之製作者、創作者、行銷者等創作,以說服觀看者消費數位內容。簡介412可為文字或鏈路(例如,統一資源定位符),以擷取描述數位內容之一或多個態樣的文字。簡介412通常用以啟用控制特徵,諸如基於文字之搜尋、家長控制、預約錄製等。在實例實行方案中,簡介412與普通表演藝術影像411一起使用,以判定在內容選擇階段期間表示對應於使用者資訊之該段數位內容的次要影像,如參看圖6A-C至圖8A-C更詳細描述。
在方塊圖400處,用於產生焦像之處理序係使用實例普通表演藝術影像411來說明以表示該段數位內容的主題,普通表演藝術影像411具有六個男演員及女演員之圖片,該等演員在各種形狀及色彩(未圖示)之複雜背景前方站成一排。
因為瀏覽大內容庫之使用者可能不會花費時間來分析六個面部中之每一者,識別女演員、男演員、人物等且解譯該段數位內容的風格,所以聚焦引擎410可提取普通表演藝術影像411之多個特徵來對該段數位內容的表示定目標。舉例而 言,使用者可花費時間分析自左開始至右之前三個面部中的每一者,判定前三個面部為不熟悉的,停止處理普通表演藝術影像411且進行至另一段數位內容。當自左之第五個面部為使用者最喜歡之人物時,普通表演藝術影像411未能有效地表示該段數位內容來傳達主題的與使用者相關之態樣。
聚焦引擎410可分析普通表演藝術影像411以偵測圖片內之多個興趣點作為潛在次要影像來表示該段數位內容,以改良普通表演藝術影像411內容在短的時間量中傳達主題的與使用者相關之態樣的能力。在實例實行方案中,聚焦引擎410使用資料儲存區403來儲存多個興趣點作為子影像,以在內容選擇處理序期間回應於命令而召集。舉例而言,聚焦引擎410可偵測普通表演藝術影像411中之面部特徵,將普通表演藝術影像411裁剪為儲存於資料儲存區403中的次要影像423A-423F。
在實例實行方案中,聚焦引擎410產生資料結構以儲存針對興趣點之影像座標。針對普通表演藝術影像411中之每一興趣點的一組影像座標可針對普通表演藝術影像411中之興趣點定位中央或定中心點。用於與一段數位內容相關聯之普通表演藝術影像411的資料結構可儲存多組影像座標。資料結構之影像座標可經提供以用於與普通表演藝術影像411一起使用,來對普通表演藝術影像411重新定大小(例如,裁剪、縮放、模糊化等)以在並未儲存中間子影像的情況下顯示興趣點。資料結構可與普通表演藝術影像411影像非同步地儲存及遞送,以在內容選擇處理序期間允許關於顯示何興趣點的下游選擇(例如,用戶端裝置)。
針對興趣點定位中央或定中心點之影像座標可用以對普通表演藝術影像411重新定大小,以基於用戶端裝置設定 (例如,螢幕大小、解析度、色彩設定等)及/或選單設定(例如,主選單選擇大小、子選單選擇大小、內容細節選單大小等)顯示中央或定中心點周圍之區,如參看圖8更詳細論述。
興趣點子影像或資料結構可包括針對每一興趣點次要影像之標籤427A-427F。簡介412用以使用評估普通表演藝術影像411中之內容的演算法對每一興趣點加標籤。在實例實行方案中,聚焦引擎410使用面部偵測、面部辨識、物件偵測等分析普通表演藝術影像411中之內容以對多個興趣點分類/分等,剖析來自簡介412之可得到資訊以對文字資訊分類及/或分等,判定文字資訊是否與普通表演藝術影像411之興趣點對應,且將相應文字作為標籤427A-427F指派給次要影像423A-423F。
在電視節目及電影之情形中,一或多個女演員及男演員通常被指派主角,且額外女演員及男演員通常被指派配角。女主角通常描繪為普通表演藝術影像411中之最大要素,且男配角可在背景中表現為小於女主角。
在實例中,聚焦引擎410可偵測普通表演藝術影像411中之六個面部作為多個興趣點,基於每一面部之大小對面部分類及/或分等,剖析來自簡介412之可得到資訊以基於角色的重要性或簡介412中所列出之次序對女演員及男演員的清單進行分類及/或分等,判定簡介412中所列出之次序是否與所偵測面部之大小排序或普通表演藝術影像411中的序列圖案對應,且將相應的女演員或男演員姓名作為標籤427A-427F指派給次要影像423A-423F。
在體育賽事之情形中,所設置之隊徽、運動衫、戰利品或有特色的運動員可通常以某一次序置放以傳達對應於來自簡介412之可得到資訊的賽事之位置、競標賽或有特色之運動 員,來對對應於每一興趣點之文字資訊分類。
在一些實行方案中,聚焦引擎410可使用外部資源來輔助對次要影像423A-423F加標籤。舉例而言,聚焦引擎410可使用名人頭部特寫照片庫執行面部辨識以選擇男演員及/或女演員之候選清單來與次要影像相關聯,核對來自簡介412的對應於普通表演藝術影像411(例如,主要影像)之次要影像的要素,或針對該要素與匹配次要影像之簡介412之間的匹配計算置信度分值。
圖4B說明根據實例實行方案之用於產生焦像的處理序440。在區塊450處,處理裝置接收具有普通表演藝術影像之中繼資料。在區塊453處,處理裝置偵測針對面部之興趣點。回應於偵測到普通表演藝術影像中之面部,在區塊455處,處理裝置執行面部辨識以判定所偵測面部的身分。
若區塊455處之面部辨識能夠判定所偵測面部的身分,則處理裝置在區塊457處指派具有身分之標籤。若區塊455處之面部辨識不能夠判定所偵測面部的身分,則處理裝置在區塊470處基於與中繼資料之關聯性指派標籤。舉例而言,最大的所偵測面部可與中繼資料中所列出之主要人物相關聯。簡介中所列出之主要人物亦可用以定位來自第三方源(例如,名人頭部特寫庫)之主要人物的補充影像。
主要人物之補充影像的特徵可與所偵測面部之特徵比較以計算置信度分值,該置信度分值指示是否用主要人物之姓名對所偵測面部加標籤。基於簡介搜尋補充影像、比較補充影像與所偵測子影像之特徵及基於該比較計算置信度分值的處理序可針對簡介中之多個輸入項而重複。
處理序440可進行至區塊475以提取針對所偵測面 部之一組焦點座標。在實例實行方案中,在區塊480處,可將包括針對所偵測面部之焦點座標及標籤的POI資料結構與普通表演藝術影像之識別符一起儲存。POI資料結構可經儲存及/或傳輸以在呈現處理序期間自同一表演藝術影像有效地提取(例如,裁剪、重新定大小、縮放等)POI,如參看圖6A-C所述。
在實例實行方案中,在區塊485處,可儲存針對所偵測面部之POI子影像(亦即,經裁剪之子影像)及標籤。所儲存之POI子影像可經召集及傳輸以在呈現處理序期間有效地呈現POI次要影像而不會存取主要影像(例如,表演藝術),如參看圖6A-C所述。
若面部並未在區塊453處被偵測到,則處理序440在區塊465處可替代地偵測物件作為焦點。舉例而言,在區塊470處,可基於與簡介之關聯性向包括可偵測地標、標誌等之主要影像(例如,表演藝術影像)指派標籤。另外,處理序440在區塊467可替代地選擇主要影像(例如,普通表演藝術影像)之區或來自庫之補充影像作為次要影像。
處理序440可在區塊480處進行將物件或補充影像儲存作為POI資料結構,或在區塊485處將物件或補充影像儲存作為POI子影像。在區塊490處,區塊453-485可重複以偵測普通表演藝術影像中之額外興趣點以用於描述一段數位內容。
圖5說明根據實例實行方案之用於介面控制之處理序500的流程圖。在區塊510處,處理裝置接收針對一組數位內容之請求及使用者識別符。在區塊520處,處理裝置接收與使用者識別符相關聯之使用者資訊及描述該組數位內容之數位內容的中繼資料,其中中繼資料包括描述每一數位內容項目之主要影像及文字中的至少一者。
在區塊530處,處理裝置判定次要影像是否對應於針對每一數位內容項目之使用者資訊,其中次要影像為主要影像之子影像或補充影像。在區塊540處,處理裝置基於使用者資訊提供具有至少一次要影像之選單來描述來自該組數位內容的數位內容項目。
圖6A-C說明根據實例實行方案之用於呈現經聚焦介面(例如,顯示器640)的實例處理序。圖6A說明根據實例實行方案之用於經聚焦介面(例如,內容導覽選單)的實例處理序。聚焦引擎610可接收中繼資料607,中繼資料607具有與來自內容源605之一段內容相關聯的普通表演藝術影像411及簡介612(例如,演員陣容、人物、劇情概述等)。聚焦引擎610可包括資料儲存區603,且基於對應於使用者資訊609之次要影像623A-623E的標籤627A-627E將次要影像623A-623E提供至顯示器640。
觀看者具有困難來導覽大且增長數目的選項來觀看串流傳輸內容以及基於內容的錄製及預約(例如,廣播事件、直播事件等)。使用者被所提供之資訊的量壓垮,且必須花費額外時間來檢閱資訊以便識別感興趣之內容。另外,使用者可閱讀關於視訊內容之文字來瞭解演員、劇情、風格等。使用者資訊可基於使用者觀看習慣、位置資訊等來判定。因為每一段數位內容具有多個方面以便引起與潛在觀看者之連接,所以本文所述之方法及系統識別方面中可能吸引觀看者的一者以便有效地傳達該段數位內容的最吸引人之態樣。聚焦引擎610提供具有基於使用者資訊或嗜好所選擇之次要影像的新使用者體驗。
在實例實行方案中,網路裝置(例如,聚焦引擎610)可產生子影像庫以用於替換回應請求之主影像(例如,主要影像)。選單資訊一般自上游提供者提供至用戶端裝置。通常,用 戶端裝置下載包含主影像及關於可得到內容之中繼資料的選單資料之集合。用戶端裝置提供內容導覽選單(例如,經聚焦介面),該內容導覽選單具有用於觀看者的來自選單資料之一組選項及可利用內容段。
在實例實行方案中,用戶端裝置可包括用於處理主影像以便選擇子影像之邏輯(例如,聚焦引擎610)。在一些實例實行方案中,用戶端裝置可接收用於選擇次要影像之座標,且使用該組座標處理主影像以產生次要影像的顯示。在一些實例實行方案中,網路伺服器在遞送至用戶端裝置之前執行次要影像處理。執行次要影像處理之網路伺服器藉由減小正遞送至用戶端裝置之影像檔案的大小而改良網路資源之頻寬使用。產生針對次要影像之座標的資料結構可遞送至用戶端裝置。用戶端裝置可自第三方提供者接收主影像,且基於使用者之偏好使用次要影像座標來呈現節目影像的經訂製顯示。
聚焦引擎610提供用於使用面部辨識及物件偵測選擇次要影像之功能性。在一些實例實行方案中,次要影像可為用於對主影像進行縮放或重新定大小之一組影像座標。次要影像之經訂製顯示包括滿足使用者偏好的所偵測面部或物件。藉由提供主影像之部分,觀看者能夠更快速地導覽多個影像,此係因為聚焦引擎610自每一主影像選擇最相關資訊來有助於使用者選擇。
在一些實例實行方案中,節目影像可為基於興趣點之經重新定大小的主影像,或用主影像之經裁剪影像來替換。聚焦引擎610可使用面部偵測處理序來對多個面部編目錄。在一些實例實行方案中,聚焦引擎610存取補充資料庫,以便匹配面部偵測影像與關於影像之主題的額外中繼資料。因為用於數位 內容之表演藝術影像一般包括男演員及女演員或地標或諸如標誌之通常辨識的影像。補充資料庫可包括用於流行影像主題之中繼資料的庫或目錄。
主影像可具有不同位準之影像品質。次要影像之品質與主影像之影像品質的位準相關。聚焦引擎610可使用影像品質測試進一步證實次要影像,以確保次要影像具有將要顯示之足夠品質。
顯示器640可包括用於以不同的窗格641-647描述七個不同段數位內容的內容導覽選單。在實例中,內容導覽選單之窗格642可使用不同的次要影像623A-F描述一段數位內容(例如,Marvel’s Agents pf S.H.I.E.L.D)。內容導覽選單可基於使用者資訊選擇不同的次要影像623A-F中之哪一者呈現於窗格642中。顯示於窗格641、643、644、645、646、647中之影像亦可基於使用者資訊選擇以描述其他段數位內容。舉例而言,在窗格645處,與使用者資訊對應之標誌可經選擇作為次要影像來描述體育賽事。在其他實例中,用於每一窗格之次要影像可基於流行性、影像品質、觀看者區、數位內容之類型等來選擇。
內容導覽選單經設計來放大次要影像以配合選單窗格。回應於未通過品質測試之次要影像,聚焦引擎610可針對與次要影像之主題相關聯的替代者之影像搜尋第三方資料庫。
圖6B說明根據實例實行方案之用於對顯示器640之經聚焦介面的實例處理序。在實例實行方案中,顯示器640可包括多個窗格641-647,窗格641-647用於呈現與藉由不同的主要影像611、629、650、660描述之不同段數位內容相關聯的影像。每一窗格提供主影像或主要影像611、650、660,且聚焦引擎610針對每一主要影像611、650、660判定次要影像623F、653A、 653B、663A-D。
舉例而言,用於可得到體育內容之選單的顯示器640可在每一窗格641-647中提供針對每一事件之影像。每一影像可包括對應於針對窗格之事件的經表徵運動員、與事件之位置相關聯的地標、用於團隊中之一者的標誌、諸如錦標賽或聯賽標誌等的來自主要影像之物件。此外,聚焦引擎610可自中繼資料選擇相關資訊來上覆於顯示器之每一影像上。舉例而言,可得到體育內容之選單可包括指示體育賽事為錄製、直播抑或預約的圖符。上覆內容可包括自中繼資料所提取之文字(例如,電影標題)。
圖6C描繪根據實例實行方案之實例經聚焦介面680-690。經聚焦介面680、685、690為基於影像之選單,其使用對應於使用者資訊之次要影像而非藉由內容提供者或製作者所選擇的普通表演藝術影像描述數位內容段。
在實例中,經聚焦介面680包括基於主要影像681(例如,普通表演藝術影像)中之所偵測面部682或所偵測面部683的次要影像684。主要影像681可包括多個所偵測面部682、683作為興趣點,且選擇與使用者資訊對應之興趣點。舉例而言,若與Vin Diesel內容相比,使用者資訊更指示使用者觀看Dwayne Johnson內容,則Dwayne Johnson之所偵測面部682可經選擇作為次要影像684來呈現給使用者。所偵測面部682之身分可基於普通表演藝術影像(例如,主要影像681)之中繼資料或面部辨識技術判定為Dwayne Johnson。主要影像681可經重新定大小以呈現所偵測面部682,以用於在內容選擇選單(例如,經聚焦介面680)中呈現作為次要影像684。
在另一實例中,經聚焦介面685包括來自主要影像 686中之剪影之經偵測設定檔的次要影像687。主要影像686經重新定大小作為次要影像687以用於呈現,來聚焦於內容選擇選單(例如,經聚焦介面685)中之物件。
在另一實例中,經聚焦介面690說明用於具有共同主題(例如,共同演員)之多段數位內容的內容選擇選單。舉例而言,回應於搜尋查詢或術語(例如,演員之姓名),經聚焦介面690可藉由顯示包括來自主要影像或補充影像資料庫之搜尋術語或演員的次要影像來呈現具有不同段數位內容之搜尋結果。經聚焦介面690呈現針對不同段數位內容之一群組的次要影像,其中每一次要影像對應於用於多段數位內容之共同主題(例如,選單主題、搜尋查詢等)。在經聚焦介面690中,共同主題(例如,熱門話題、使用者偏好、選單設定、搜尋輸入等)包括可已為配角的在每一段數位內容中所表徵之演員,且次要影像可自補充資料庫擷取。在實例實行方案中,描述不同段內容之選單可經組配來基於針對第一段數位內容之所選擇較佳次要影像選擇定位不同段數位內容,且基於針對第一段數位內容之較佳次要影像描述具有針對每一段數位內容之次要影像的不同段數位內容。舉例而言,第一段數位內容可顯示演員(例如,標籤)之較佳次要影像,且命令(例如,對我顯示更多)可發現包括對應於標籤(例如,演員)之次要影像或中繼資料的其他段數位內容。其他段數位內容之選單可包括次要影像,來描述匹配第一段數位內容之演員的每一段數位內容。因此,選單呈現藉由次要影像所描述的不同數位內容之主題,該主題具有共同物件、標籤、人、團隊等。
圖7A-F說明根據實例實行方案之實例個別化介面。圖7A-F中之個別化介面說明基於使用者資訊選擇作為個別 化介面之部分的不同的次要影像723A-723F。圖7A-F包括描述七個不同段內容之內容導覽選單740A-F。在每一內容導覽選單740A-F中,次要影像723係基於使用者資訊選擇。舉例而言,內容導覽選單740A包括基於第一使用者之使用者資訊所選擇的次要影像723A。內容導覽選單740B包括基於第二使用者之使用者資訊所選擇的次要影像723B。不同次要影像723A-F為主要影像(例如,圖4之普通表演藝術影像411)之子影像,該等子影像各自描述同一段數位內容(例如,Marvel’s Agents of S.H.I.E.L.D.)。不同次要影像723A-F可針對每一使用者基於使用者之使用者資訊(例如,觀看歷史、人口統計等)來選擇。在此實例中,內容導覽選單740A-F使用普通次要影像(例如,Lego人、Lincoln、標誌等)描述其他六個不同段內容。
舉例而言,圖7A可為內容導覽選單,其中次要影像723A描述一段數位內容。圖7A-F可為用於不同使用者導覽數位內容之集合的介面。每一使用者可回應於對應於針對觀看者之使用者資訊的次要影像623A-623E中之一者的標籤,接收與一段數位內容相關聯的表演藝術之不同次要影像623A-623E。
圖8A-C說明用於個別化介面之控制的根據實例實行方案之實例介面控制選項。圖8A說明用於具有具次要影像之項目詳細選單之內容選擇的個別化介面810。圖8B說明使用次要影像用於內容選擇的針對不同段數位內容之個別化介面820。圖8C描繪使用聚焦引擎之實例內容選擇介面830-860。
圖9說明適於在實例實行方案中使用的具有實例電腦裝置之實例伺服器計算環境。計算環境900中之計算裝置905可包括一或多個處理單元、核心,或處理器910、記憶體915(例如,RAM、ROM,及/或其類似者)、內部儲存器920(例如,磁 性、光學、固態儲存器,及/或有機體),及/或I/O介面925,其中任一者可耦接於通訊機構或匯流排930上以用於傳達資訊或嵌入於計算裝置905中。
計算裝置905用於使機器執行本文所論述之方法中之任何一或多者的一組指令因此可得以執行。在替代性實行方案中,機器可連接(例如,網路連接)至區域網路(LAN)、內部網路、外部網路或網際網路中之其他機器。機器可在用戶端-伺服器網路環境中以伺服器或用戶端機器之性能來操作,或在同級間(或分散式)網路環境中作為同級機器來操作。機器可為個人電腦(personal computer;PC)、平板電腦、機上盒(set-top box;STB)、個人數位助理(PDA)、蜂巢式電話、網路器具、伺服器、網路路由器、交換器或橋接器,或能夠執行指定將要藉由該機器採取之行動的一組指令(順序地或以其他方式)之任何機器。此外,儘管僅說明單一機器,但術語「機器」亦應被採取以包括機器(例如,電腦)之任何集合,該等機器個別地或聯合地執行一組(或多組)指令以執行本文所論述的方法中之任何一或多者。
計算裝置905可以通訊方式耦接至輸入/使用者介面935及輸出裝置/介面940。輸入/使用者介面935及輸出裝置/介面940中之任一者或兩者可為有線或無線介面,且可為可拆卸的。輸入/使用者介面935可包括可用以提供輸入之實體或虛擬的任何裝置、組件、感測器或介面(例如,按鈕、觸控式螢幕介面、鍵盤、指向/游標控制件、麥克風、攝影機、點字機、運動感測器、光學讀取器,及/或其類似者)。
輸出裝置/介面940可包括顯示器、電視機、監視器、印表機、揚聲器、點字機,或其類似者。在一些實例實行方案中,輸入/使用者介面935及輸出裝置/介面940可與計算裝置 905一起嵌入,或實體耦接至計算裝置905。在其他實例實行方案中,其他計算裝置可充當用於計算裝置905之輸入/使用者介面935及輸出裝置/介面940,或提供其功能。
計算裝置905之實例可包括但不限於高度行動化的裝置(例如,智慧電話、車輛及其他機器中之裝置、藉由人及動物攜帶之裝置,及其類似者)、行動裝置(例如,平板電腦、筆記型電腦、機上盒、膝上型電腦、個人電腦、攜帶型電視機、無線電,及其類似者),及未針對行動性設計的裝置(例如,桌上型電腦、其他電腦、資訊亭、具有嵌入於其中及/或耦接至其之一或多個處理器的電視機、無線電,及其類似者)。
計算裝置905可以通訊方式耦接(例如,經由I/O介面925)至外部儲存器945及網路950以用於與任何數目個網路連接之組件、裝置及系統通訊,包括相同或不同組態的一或多個計算裝置。計算裝置905或任何經連接計算裝置可充當伺服器、用戶端、精簡型伺服器、通用機器、專用機器或另一標籤,提供其服務,或被稱為其。
I/O介面925可包括促進經由語音及/或經由資料網路之無線通訊的無線通訊組件(未圖示)。無線通訊組件可包括具有一或多個天線之天線系統、無線電系統、基頻系統,或其任何組合。射頻(Radio frequency;RF)信號可藉由天線系統在無線電系統之管理下在空中(over the air)傳輸及接收。
I/O介面925可包括但不限於使用任何通訊或I/O協定或標準(例如,乙太網路、802.11x、通用系統匯流排、WiMax、數據機、蜂巢式網路協定,及其類似者)之有限及/或無線介面,以用於將資訊傳達至計算環境900中之至少所有經連接之組件、裝置及網路及/或自其傳達資訊。網路950可為任何網路或網 路之組合(例如,網際網路、區域網路、廣域網路、電話網路、蜂巢式網路、衛星網路,及其類似者)。
計算裝置905可使用電腦可用或電腦可讀媒體及/或使用其進行通訊,包括暫時性媒體及非暫時性媒體。暫時性媒體包括傳輸媒體(例如,金屬纜線、光纖)、信號、載波,及其類似者。非暫時性媒體包括磁性媒體(例如,磁盤及磁帶)、光學媒體(例如,CD ROM、數位視訊光碟、藍光光碟)、固態媒體(例如,RAM、ROM、快閃記憶體、固態儲存器),及其他非依電性儲存器或記憶體。
計算裝置905可用以在一些實例計算環境中實施技術、方法、應用程式、處理序或電腦可執行指令。電腦可執行指令可自暫時性媒體擷取,且儲存於非暫時性媒體上並自其擷取。可執行指令可源自任何規劃、指令碼處理及機器語言(例如,C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript,及其他)中之一或多者。
處理器910可在原生或虛擬環境中在任何作業系統(operating system;OS)(未圖示)下執行。一或多個應用程式可經部署,其包括邏輯單元955、應用程式規劃介面(application programming interface;API)單元960、輸入單元965、輸出單元970、聚焦引擎975、呈現器模組980,及/或辨識模組985。舉例而言,輸入單元965、聚焦引擎975、呈現器模組980及/或辨識模組985可實施圖2至圖8A-C中所示之一或多個處理序。所描述之單元及元件可在設計、功能、組態或實行方案上變化,且不限於所提供之描述。
在一些實例實行方案中,當資訊或執行指令藉由API單元960接收時,其可傳達至一或多個其他單元(例如,邏輯 單元955、輸出單元970、輸入單元965、聚焦引擎975、呈現器模組980,及/或辨識模組985)。
輸入單元965可經由API單元960接收影像、中繼資料、視訊資料、音訊資料、使用者資訊等,以經由聚焦引擎975、呈現器模組980及/或辨識模組985管理興趣點。使用API單元960,辨識模組985可分析資訊來判定數位內容中之一或多個興趣點。
在一些例子中,在上文所述之一些實例實行方案中,邏輯單元955可經組配來控制單元當中之資訊流,且指引藉由API單元960、輸入單元965、輸出單元970、聚焦引擎975、呈現器模組980及/或辨識模組985所提供的服務。舉例而言,一或多個處理序或實行方案之流可藉由邏輯單元955單獨或結合API單元960來控制。
詳細描述之一些部分依據對電腦內之操作的演算法及符號表示來呈現。此等演算法描述及符號表示為藉由熟習資料處理技術者用以將其創新之本質傳達給其他熟習此項技術者的手段。演算法為導致所要最終狀態或結果之一系列經定義運算。在實例實行方案中,所實行之該等運算需要有形量之實體操縱以用於達成有形結果。
除非另有特定規定,否則如自論述顯而易見,應瞭解遍及該描述,利用諸如「接收」、「偵測」、「判定」、「識別」、「分析」、「產生」或其類似者之術語的論述可包括電腦系統或其他資訊處理裝置的行動及處理序,該系統或裝置對表示為電腦系統之暫存器及記憶體內之物理(電子)量的資料進行操縱並變換為類似地表示為電腦系統之記憶體或暫存器或其他資訊儲存、傳輸或顯示裝置內之物理量的其他資料。
實例實行方案亦可關於用於執行本文之操作的設備。此設備可針對所需目的特定地建構,或其可包括藉由一或多個電腦程式選擇性地啟動或重新組配之一或多個通用電腦。此等電腦程式可儲存於電腦可讀媒體中,諸如電腦可讀儲存媒體或電腦可讀信號媒體。
電腦可讀儲存媒體可涉及有形媒體,諸如但不限於光碟、磁碟、唯讀記憶體、隨機存取記憶體、固態裝置及磁碟機,或適於儲存電子資訊之任何其他類型的有形或非暫時性媒體。電腦可讀信號媒體可包括諸如載波之媒體。本文所呈現之演算法及顯示並不與任何特定電腦或其他設備固有地相關。電腦程式可涉及純軟體實行方案,該等純軟體實行方案涉及執行所要實行方案之操作的指令。
各種通用系統可根據本文之實例與程式及模組一起使用,或其可證明便於建構更專門的設備來執行所要之方法操作。另外,實例實行方案並未參考任何特定規劃語言來描述。將瞭解,多種規劃語言可用以實施如本文所述之實例實行方案的教示。規劃語言之指令可藉由一或多個處理裝置執行,例如中央處理單元(CPU)、處理器或控制器。
如此項技術中已知,上文所述之操作可藉由硬體、軟體,或軟體與硬體之某組合來執行。實例實行方案之各種態樣可使用電路及邏輯裝置(硬體)來實施,而其他態樣可使用儲存於機器可讀媒體(軟體)上之指令來實施,該等指令在藉由處理器執行時將使處理器執行實行本申請案之實行方案的方法。
此外,本申請案之一些實例實行方案可以硬體單獨地執行,而其他實例實行方案可以軟體單獨地執行。此外,所描述之各種功能可在單一單元中執行,或可以任何數目種方式 展布跨越數個組件。當藉由軟體執行時,方法可基於儲存於電腦可讀媒體上之指令藉由處理器執行,該處理器諸如通用電腦。若為所要的,則指令可以經壓縮及/或加密格式儲存於媒體上。
實例實行方案可具有與相關技術之各種差異及優點。舉例而言但非藉由限制,與如上文關於相關技術所解釋之具有JavaScript的使用儀器網頁相對,文字及滑鼠(例如,指向)行動可在視訊文件中被偵測及分析。
此外,自說明書之考慮及本申請案之教示的實現,本申請案之其他實行方案將對於所屬技術領域中具有通常知識者為顯而易見的。所描述實例實行方案之各種態樣及/或組件可單一地或以任何組合來使用。預期說明書及實例實行方案僅考慮為實例,而本申請案之真實範疇及精神藉由以下申請專利範圍指示。
300‧‧‧流程圖
310‧‧‧區塊
320‧‧‧區塊
330‧‧‧區塊
340‧‧‧區塊
350‧‧‧區塊

Claims (18)

  1. 一種用於多媒體聚焦之方法,其包含以下步驟:接收用於一段數位內容之中繼資料,其中前述中繼資料包含用以表示前述段數位內容的主要影像;使用至少一面部辨識分析前述主要影像以偵測至少一第一面部及至少一第二面部;確認在前述主要影像中的前述第一面部的一第一尺寸大於前述主要影像中的前述第二面部的一第二尺寸;選擇在前述主要影像中對應前述第一面部為一第一次要影像;選擇在前述主要影像中對應前述第二面部為一第二次要影像;及基於至少前述第一面部的前述第一尺寸大於前述第二面部的前述第二尺寸,識別前述第一次要影像為一較佳次要影像。
  2. 如請求項1所記載之方法,其進一步包含以下步驟:基於至少一使用者偏好,將前述第二次要影像識別為前述較佳次要影像。
  3. 如請求項1所記載之方法,其進一步包含以下步驟:產生對應前述段數位內容的一資料結構,前述資料結構包含在前述主要影像中對應第一次要影像與第二次要影像的至少一位置資訊;基於至少一文字資訊,以確定第二次要影像的一標籤;其中,前述資料結構包含有多個標籤;其中,基於至少一前述標籤,將前述第二次要影像識別為較佳次要影像。
  4. 如請求項3所記載之方法,其進一步包含以下步驟: 接收對描述前述段數位內容之請求;接收包含使用者偏好的一組使用者資訊;確定前述標籤對應於前述使用者偏好;引起前述第二次要影像的呈現,來描述前述段數位內容。
  5. 如請求項1所記載之方法,其進一步包含以下步驟:識別一組次要影像座標作為一位置資訊;儲存前述位置資訊至一資料結構中。
  6. 如請求項5所記載之方法,其進一步包含以下步驟:基於前述組次要影像座標,於前述主要影像中搜尋第一次要影像;引起對應於前述組次要影像座標的前述主要影像之部分的呈現。
  7. 如請求項1所記載之方法,其進一步包含以下步驟:識別對應於前述第一面部及前述第二面部的主要影像之部分;儲存前述主要影像已經識別的前述部分至一資料結構中。
  8. 如請求項3所記載之方法,其進一步包含以下步驟:基於面部識別與前述文字資訊中的名稱匹配,來確定前述第二次要影像的前述標籤。
  9. 如請求項3所記載之方法,其進一步包含以下步驟:計算前述第二次要影像與前述文字資訊的部分之間關係的一置信度分值。
  10. 如請求項1所記載之方法,其中,前述段數位內容為電視節目、電影、播客、體育賽事中之至少一者,前述第一次 要影像包括在前述段數位內容中所表徵的人之面部;且前述段數位內容係藉由前述較佳次要影像描述而作為選單之部分來導覽數位內容庫。
  11. 一種用於多媒體聚焦之系統,其包含:一記憶體;耦接至前述記憶體之一個或多個處理器,其包含在經執行時使前述一個或多個處理器進行以下操作之指令:接收對描述一段數位內容之請求;接收包含一使用者偏好的一組使用者資訊;接收用於前述段數位內容之中繼資料,其中前述中繼資料包含描述前述段數位內容之影像;使用至少一面部辨識分析前述影像以偵測至少一第一面部及至少一第二面部;確認在前述影像中的前述第一面部的第一尺寸大於前述影像中的前述第二面部的第二尺寸;選擇在前述影像中對應前述第一面部為一第一次要影像;選擇在前述影像中對應前述第二面部為一第二次要影像;確認對應於前述第一次要影像位置的一位置資訊;及回應於使用者請求且至少利用前述位置資訊,至少基於前述第一面部的前述第一尺寸大於前述第二面部的前述第二尺寸,引起前述第一次要影像呈現為一較佳次要影像。
  12. 如請求項11所記載之系統,其中,前述第二次要影像係至 少基於使用者啟發來判定為前述較佳次要影像。
  13. 如請求項11所記載之系統,其中,前述指令被前述一個或多個處理器執行時,進一步使前述一個或多個處理器進行以下操作:至少基於描述一段數位內容的文字資訊,確認前述第二次要影像的一標籤;至少基於為前述第二次要影像所確定的前述標籤,以確定前述較佳次要影像。
  14. 如請求項11所記載之系統,其中,前述指令被前述一個或多個處理器執行時,進一步使前述一個或多個處理器進行以下操作:識別對應於前述第一次要影像的前述影像的部分;儲存前述影像被識別的前述部分於一資料結構中。
  15. 如請求項13所記載之系統,其中,前述指令被前述一個或多個處理器執行時,進一步使前述一個或多個處理器進行以下操作:基於面部識別與前述文字資訊中的名稱匹配,來確定前述第二次要影像的前述標籤。
  16. 一種用於多媒體聚焦分析非暫時性電腦可讀媒體,包含指令,在藉由處理器執行時,前述指令用以:接收用於一段數位內容之中繼資料,其中前述中繼資料包含用以描述前述段數位內容的主要影像;使用至少一面部辨識分析前述主要影像以偵測至少一第一面部及至少一第二面部;確認在前述主要影像中的前述第一面部的第一尺寸大於前述主要影像中的前述第二面部的第二尺寸; 選擇在前述主要影像中對應第一面部為一第一次要影像;選擇在前述主要影像中對應第二面部為一第二次要影像;及至少基於前述第一面部的前述第一尺寸大於前述第二面部的前述第二尺寸,將前述第一次要影像識別為一較佳次要影像。
  17. 如請求項16所記載之非暫時性電腦可讀媒體,其中,前述指令被前述一個或多個處理器執行時,進一步使前述一個或多個處理器進行以下操作:識別一組次要影像座標作為一位置資訊;儲存前述位置資訊至一資料結構中。
  18. 如請求項16所記載之非暫時性電腦可讀媒體,其中,前述指令被前述一個或多個處理器執行時,進一步使前述一個或多個處理器進行以下操作:至少基於一使用者偏好將前述第一次要影像識別為前述較佳次要影像。
TW107128176A 2017-08-17 2018-08-13 用於多媒體聚焦之方法、系統及非暫時性電腦可讀媒體 TWI790270B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/679,673 US10769207B2 (en) 2017-08-17 2017-08-17 Multimedia focalization
US15/679,673 2017-08-17

Publications (2)

Publication Number Publication Date
TW201914310A TW201914310A (zh) 2019-04-01
TWI790270B true TWI790270B (zh) 2023-01-21

Family

ID=63405337

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107128176A TWI790270B (zh) 2017-08-17 2018-08-13 用於多媒體聚焦之方法、系統及非暫時性電腦可讀媒體

Country Status (7)

Country Link
US (3) US10769207B2 (zh)
EP (1) EP3669276B1 (zh)
CN (2) CN117909522A (zh)
BR (2) BR112020003189B1 (zh)
ES (1) ES2914124T3 (zh)
TW (1) TWI790270B (zh)
WO (1) WO2019036162A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769207B2 (en) 2017-08-17 2020-09-08 Opentv, Inc. Multimedia focalization
KR102467041B1 (ko) * 2017-12-22 2022-11-14 삼성전자주식회사 전자 장치 및 전자 장치에서 방송 콘텐트와 관련된 서비스 정보 제공 방법
BR112021019461A2 (pt) * 2019-04-08 2021-11-30 Google Llc Crítica de mídia com conexão à fonte de produto
TWI729416B (zh) * 2019-06-19 2021-06-01 通寶半導體設計股份有限公司 最佳化列印的方法
TWI718747B (zh) * 2019-11-05 2021-02-11 國立臺灣科技大學 增進影像清晰度的方法
US11782978B1 (en) * 2019-12-06 2023-10-10 Amazon Technologies, Inc. Techniques for storing and analyzing data
CN112004033B (zh) * 2020-09-27 2023-05-26 北京小米松果电子有限公司 视频封面确定方法及装置、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060064716A1 (en) * 2000-07-24 2006-03-23 Vivcom, Inc. Techniques for navigating multiple video streams
US20080260255A1 (en) * 2007-04-23 2008-10-23 Sony Corporation Image processing apparatus, imaging apparatus, image processing method, and computer program
US8782709B2 (en) * 2009-02-19 2014-07-15 Hulu, LLC Method and apparatus for providing a program guide having search parameter aware thumbnails
US20140327806A1 (en) * 2013-05-02 2014-11-06 Samsung Electronics Co., Ltd. Method and electronic device for generating thumbnail image
US20160154964A1 (en) * 2010-02-23 2016-06-02 Smartstory Technologies, Inc. Method and System of Managing Digital Multimedia Content

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050160458A1 (en) * 2004-01-21 2005-07-21 United Video Properties, Inc. Interactive television system with custom video-on-demand menus based on personal profiles
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
US8042140B2 (en) * 2005-07-22 2011-10-18 Kangaroo Media, Inc. Buffering content on a handheld electronic device
US8635521B2 (en) * 2006-09-22 2014-01-21 Microsoft Corporation Customizing applications in a discovery interface
US8862691B2 (en) * 2008-12-22 2014-10-14 Microsoft Corporation Media aggregation and presentation
JP2011223565A (ja) * 2010-03-26 2011-11-04 Panasonic Corp 撮像装置
US20120054634A1 (en) * 2010-08-27 2012-03-01 Sony Corporation Apparatus for and method of creating a customized ui based on user preference data
CN102427553A (zh) * 2011-09-23 2012-04-25 Tcl集团股份有限公司 一种电视节目播放方法、系统及电视机和服务器
US9514536B2 (en) * 2012-10-10 2016-12-06 Broadbandtv, Corp. Intelligent video thumbnail selection and generation
US20140149936A1 (en) * 2012-11-26 2014-05-29 Nero Ag System and method for providing a tapestry interface with location services
US10129596B2 (en) * 2013-01-21 2018-11-13 Netflix, Inc. Adaptive row selection
US20140258863A1 (en) * 2013-03-11 2014-09-11 United Video Properties, Inc. Systems and methods for browsing streaming content from the viewer's video library
CN104754010B (zh) * 2013-12-31 2019-01-25 华为技术有限公司 信息处理的方法及业务平台
US9398345B2 (en) * 2014-02-27 2016-07-19 Rovi Guides, Inc. Methods and systems for generating customized collages of media assets based on user criteria
US20150293928A1 (en) * 2014-04-14 2015-10-15 David Mo Chen Systems and Methods for Generating Personalized Video Playlists
US20150319506A1 (en) * 2014-04-30 2015-11-05 Netflix, Inc. Displaying data associated with a program based on automatic recognition
US20150373407A1 (en) * 2014-06-24 2015-12-24 Thomson Licensing User configurable custom channel creation and use
CN104486680A (zh) * 2014-12-19 2015-04-01 珠海全志科技股份有限公司 基于视频的广告推送方法及系统
US9552520B1 (en) * 2015-07-07 2017-01-24 Disney Enterprises, Inc. Systems and methods for automatic key frame extraction and storyboard interface generation for video
US20170068870A1 (en) * 2015-09-03 2017-03-09 Google Inc. Using image similarity to deduplicate video suggestions based on thumbnails
CN105163142B (zh) * 2015-09-09 2018-10-26 聚好看科技股份有限公司 一种用户偏好确定方法、视频推荐方法和系统
US10248864B2 (en) * 2015-09-14 2019-04-02 Disney Enterprises, Inc. Systems and methods for contextual video shot aggregation
US10068616B2 (en) * 2017-01-11 2018-09-04 Disney Enterprises, Inc. Thumbnail generation for video
US10356458B2 (en) * 2017-03-06 2019-07-16 The Directv Group, Inc. Controlling content presentation and display of program information in an electronic program guide
US9892324B1 (en) * 2017-07-21 2018-02-13 Pccw Vuclip (Singapore) Pte. Ltd. Actor/person centric auto thumbnail
US10769207B2 (en) 2017-08-17 2020-09-08 Opentv, Inc. Multimedia focalization
US10455297B1 (en) * 2018-08-29 2019-10-22 Amazon Technologies, Inc. Customized video content summary generation and presentation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060064716A1 (en) * 2000-07-24 2006-03-23 Vivcom, Inc. Techniques for navigating multiple video streams
US20080260255A1 (en) * 2007-04-23 2008-10-23 Sony Corporation Image processing apparatus, imaging apparatus, image processing method, and computer program
US8782709B2 (en) * 2009-02-19 2014-07-15 Hulu, LLC Method and apparatus for providing a program guide having search parameter aware thumbnails
US20160154964A1 (en) * 2010-02-23 2016-06-02 Smartstory Technologies, Inc. Method and System of Managing Digital Multimedia Content
US20140327806A1 (en) * 2013-05-02 2014-11-06 Samsung Electronics Co., Ltd. Method and electronic device for generating thumbnail image

Also Published As

Publication number Publication date
CN117909522A (zh) 2024-04-19
EP3669276A1 (en) 2020-06-24
US20230315784A1 (en) 2023-10-05
TW201914310A (zh) 2019-04-01
CN111108494A (zh) 2020-05-05
CN111108494B (zh) 2023-11-28
BR112020003189A2 (pt) 2020-09-15
BR112020003189B1 (pt) 2023-01-17
BR122021013788B1 (pt) 2022-09-20
ES2914124T3 (es) 2022-06-07
WO2019036162A1 (en) 2019-02-21
EP3669276B1 (en) 2022-04-06
US10769207B2 (en) 2020-09-08
US20190057150A1 (en) 2019-02-21
US11630862B2 (en) 2023-04-18
US20210073277A1 (en) 2021-03-11

Similar Documents

Publication Publication Date Title
TWI790270B (zh) 用於多媒體聚焦之方法、系統及非暫時性電腦可讀媒體
US12039776B2 (en) Systems and methods for presenting supplemental content in augmented reality
US9979788B2 (en) Content synchronization apparatus and method
US20230418860A1 (en) Search-based navigation of media content
US9357242B2 (en) Method and system for automatic tagging in television using crowd sourcing technique
US8875212B2 (en) Systems and methods for remote control of interactive video
US9100701B2 (en) Enhanced video systems and methods
US20120189204A1 (en) Linking Disparate Content Sources
US20140189769A1 (en) Information management device, server, and control method
KR20180053221A (ko) 전자 장치 및 그의 제어 방법
KR20170087775A (ko) 관계 정보 기반의 성장형 콘텐츠 서비스 방법 및 시스템