KR20060027377A - 멀티미디어 스트림들의 멀티미디어 요약을 생성하기 위한시스템 및 방법 - Google Patents
멀티미디어 스트림들의 멀티미디어 요약을 생성하기 위한시스템 및 방법 Download PDFInfo
- Publication number
- KR20060027377A KR20060027377A KR1020057025415A KR20057025415A KR20060027377A KR 20060027377 A KR20060027377 A KR 20060027377A KR 1020057025415 A KR1020057025415 A KR 1020057025415A KR 20057025415 A KR20057025415 A KR 20057025415A KR 20060027377 A KR20060027377 A KR 20060027377A
- Authority
- KR
- South Korea
- Prior art keywords
- video
- audio
- text
- key elements
- sub
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 75
- 238000001914 filtration Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- FGRBYDKOBBBPOI-UHFFFAOYSA-N 10,10-dioxo-2-[4-(N-phenylanilino)phenyl]thioxanthen-9-one Chemical compound O=C1c2ccccc2S(=O)(=O)c2ccc(cc12)-c1ccc(cc1)N(c1ccccc1)c1ccccc1 FGRBYDKOBBBPOI-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4532—Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/785—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/7854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
- H04N21/2335—Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234354—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering signal-to-noise ratio parameters, e.g. requantization
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/24—Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
- H04N21/2402—Monitoring of the downstream path of the transmission network, e.g. bandwidth available
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25808—Management of client data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
- H04N21/25891—Management of end-user data being end-user preferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/262—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
- H04N21/26208—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints
- H04N21/26216—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints involving the channel capacity, e.g. network bandwidth
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2662—Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4755—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user preferences, e.g. favourite actors or genre
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/61—Network physical structure; Signal processing
- H04N21/6106—Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
- H04N21/6131—Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via a mobile phone network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6582—Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8453—Structuring of content, e.g. decomposing content into time segments by locking or enabling a set of features, e.g. optional functionalities in an executable program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/16—Analogue secrecy systems; Analogue subscription systems
- H04N7/162—Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
- H04N7/165—Centralised control of user terminal ; Registering at central
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/16—Analogue secrecy systems; Analogue subscription systems
- H04N7/173—Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
- H04N7/17309—Transmission or handling of upstream communications
- H04N7/17318—Direct or substantially direct transmission and handling of requests
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/16—Analogue secrecy systems; Analogue subscription systems
- H04N7/173—Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
- H04N7/17309—Transmission or handling of upstream communications
- H04N7/17336—Handling of requests in head-ends
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/147—Scene change detection
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Computer Graphics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Human Computer Interaction (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
본 발명의 시스템은 멀티미디어 요약을 생성하여, 비디오, 오디오 및 텍스트 정보의 일부 조합을 포함하는 하나 이상의 멀티미디어 입력 스트림들의 검토를 용이하게 하고 강화하며, 이로써 사용자가 멀티미디어 입력 스트림들의 시청을 양호하게 브라우징하고 그들 전체에서 멀티미디어 입력 스트림들의 시청을 결정할 수 있게 한다. 상기 멀티미디어 요약은 시스템 명세서들, 사용자 명세서들, 및 네트워크 및 디바이스 한정들에 일부 기초하여 자동으로 구성된다. 본 발명의 특정 애플리케이션에서, 입력 멀티미디어 스트림들은 뉴스 방송(예를 들면, 텔레비젼 뉴스 프로그램, 비디오 원형 피트길이)을 나타낸다. 이러한 특정 애플리케이션에서, 본 발명은, 사용자가 미리 제공된 사용자 선호들 및 우세한 네트워크 및 사용자 디바이스 한정에 따라 뉴스 스트림의 요약을 자동적으로 수신하도록 한다.
멀티미디어, 비디오, 오디오, 텍스트 정보, 요약, 네트워크 및 디바이스 한정
Description
본 발명은 일반적으로 비디오 또는 동작 이미지들의 요약에 관한 것이며, 특히, 사용자가 방송 시청을 양호하게 브라우징하고 결정할 수 있도록 하기 위해 뉴스 방송의 멀티미디어 요약(비디오/오디오/텍스트)을 제공하기 위한 시스템 및 방법에 관한 것이다.
비디오 콘텐츠량은 증가하는 속도로 확장하고 있다. 동시에, 시청자들이 모든 원하는 비디오 콘텐츠를 소모하거나 다른 경우에 시청하는 가용 시간은 감소하고 있다. 비디오 콘텐츠의 증가량은 비디오 콘텐츠를 시청하는데 가용한 감소 시간과 연관되므로, 시청자들이 그 전체에서 잠재적으로 원하는 콘텐츠 모두를 시청하는데 점점 문제시되고 있다. 따라서, 시청자들은 시청을 선택하는 비디오 콘텐츠에 관해 점점 선택적이다. 시청자의 욕구를 도모하기 위해, 기술들은 전체 비디오의 일부 방식으로 대표하는 비디오의 요약을 제공하도록 개발되어 왔다. 비디오 요약을 생성하기 위한 전형적인 목적은 다음의 시청을 위해 원래 비디오의 소형화 표현을 얻는 것이다.
MITRE 사의 BNE(방송 뉴스 편집기) 및 BNN(방송 뉴스 네비게이터)에 의해 증 명된 바와 같이(앤드류 멀리노, 다알 모레이, 및 마크 메이버리, MITRE 사, 베드포드 MA, "스토리 세그먼트화를 사용하는 방송 뉴스 네비게이션", ACM 멀티미디어 회의 처리, 1997년, 페이지 381-389), 자동화 스토리 세그먼트화 및 식별 분야에서 계속해서 진보가 이뤄지고 있다. 상기 BNE를 사용하여, 뉴스방송은 개별 스토리 세그먼트들로 자동으로 분할되고, 상기 세그먼트와 관련된 폐쇄된-캡션 텍스트의 제1 라인은 각각의 스토리의 요약으로서 사용된다. 상기 폐쇄된 캡션 텍스트 또는 오디오로부터 핵심어들은 검색 워드를 일치시키는 각각의 스토리 세그먼트에 대해 결정된다. 핵심어들에 일치하는 발생 횟수에 기초하여, 사용자는 흥미있는 스토리를 선택한다. 유사한 검색과 탐색 기술들은 기술분야에서 일반화되고 있다. 예를 들면, 종래의 텍스트 검색 기술들은 컴퓨터-기반 텔레비젼 가이드에 적용될 수 있으므로, 사람은 특정 쇼 제목, 특정 연기자, 특정 형태의 쇼 등을 검색할 수 있다.
일반적인 검색 및 탐색 기술들의 단점은 명시된 검색 태스크 및 상기 명시된 검색에 기초한 대안들 중에서 대응하는 선택에 대한 필요성이다. 그러나, 종종 사용자는 명시된 검색 토픽을 생각하지 않는다. 일반적인 채널-서핑 시나리오에서, 사용자는 명시된 검색 토픽을 갖지 않는다. 채널-서핑 사용자는 특정 토픽을 구체적으로 검색하기 보다는 관심거리일 수 있는 복수의 토픽들 중 임의의 것에 대한 다양한 채널들을 랜덤하게 샘플링한다. 즉, 예를 들면, 사용자는 특정 토픽 없는 랜덤 샘플링을 초기화할 수 있고, 샘플링 시 상기 채널에 존재한 토픽에 기초하여 샘플링된 많은 채널들 중 하나를 선택할 수 있다. 다른 시나리오에서, 사용자는 독서 또는 요리와 같은 다른 작업을 수행하면서 배경 모드에서 텔레비젼을 모니터 할 수 있다. 흥미있는 토픽이 나타날 때, 사용자는 그의 관심을 텔레비젼에 맞춘 다음, 흥미없는 토픽이 제공될 때 자신의 관심을 다른 작업으로 돌린다.
따라서, 특정 뉴스 토픽들을 검색하는 핵심어들을 분명하게 사용해야 하는 사용자에 독립적인 비디오 스트림(뉴스 방송)의 비디오, 오디오 및 텍스트 부분들을 요약하는 멀티미디어 요약을 자동으로 생성하기 위한 기술이 매우 바람직하다.
본 발명은 종래 기술의 단점들을 극복한다. 일반적으로, 본 발명은, 사용자가 비디오 시퀀스들의 시청을 양호하게 브라우징하고 및/또는 그 전체에서 비디오 시퀀스들의 시청을 결정하게 하는 하나 이상의 입력 비디오 시퀀스들의 멀티미디어 요약을 생성하기 위한 시스템 및 방법에 관한 것이다. 상기 멀티미디어 요약은 시스템 명세서들, 사용자 명세서들 및 네트워크와 디바이스 한정들에 일부 기초하여 자동으로 구성된다. 본 발명의 특정 응용에서, 입력 비디오 시퀀스들은 뉴스 방송을 나타낸다.
본 발명의 하나의 특징은 PDA 및 셀 폰과 같은 대역폭 한정 장치들에서 개인용 컴퓨터들과 멀티미디어 워크스테이션들과 같은 대역폭 무한정 장치들까지 광범위한 장치들과 함께 사용하는데 적당하다.
본 발명의 다른 특징은, 상기 멀티미디어 요약이 구성되는 방식으로 유연성을 제공하는 것이다. 즉, 본 발명은 특정 사용자의 시청 선호들을 맞추기 위해 사용자가 상기 멀티미디어 요약을 개별화시키게 한다. 특히, 사용자는, 예를 들면, 상기 멀티미디어 요약이 포괄적이거나 신속한지의 여부, 상기 멀티미디어 요약이 단일 리드 스토리의 요약 또는 최첨단 스토리들의 요약만을 포함해야 하는지의 여부, 상기 요약이 텍스트만, 오디오만 또는 비디오만 또는 그 조합만을 포함해야 하는지의 여부를 규정하는 하나 이상의 파라미터들을 제공할 수 있다. 사용자는 또한 상기 멀티미디어 요약에 포함하기 위해 입력 비디오 스트림으로부터 텍스트, 오디오 및 비디오의 적절한 부분들을 선택하기 위해 요약 시스템에 의해 이용될 하나 이상의 핵심어 파라미터들을 제공할 수 있다.
본 발명의 하나의 특징에 따르면, 뉴스 방송의 멀티미디어 요약을 생성하는 방법으로서: 비디오, 오디오 및 텍스트 정보를 포함하는 상기 적어도 하나의 멀티미디어 스트림을 수신하고 검색하는 단계 중 한 단계; 상기 적어도 하나의 멀티미디어 스트림을 비디오 서브-스트림, 오디오 서브-스트림 및 텍스트 서브-스트림으로 분할하는 단계; 상기 비디오, 오디오 및 텍스트 서브-스트림들로부터 비디오, 오디오 및 텍스트 키 요소들을 각각 식별하는 단계; 상기 식별 단계에서 식별된 상기 식별된 비디오, 오디오 및 텍스트 키 요소들에 대한 중요 값을 계산하는 단계; 연관된 중요 값이 미리 정의된 비디오, 오디오 및 텍스트 중요 임계치 미만인 그들의 키 요소들을 각각 제외하기 위해, 상기 식별된 비디오, 오디오 및 텍스트 키 요소들을 제1 필터링하는 단계; 사용자 프로파일에 따라 상기 제 1 필터링 단계로부터 나머지 키 요소들을 제2 필터링하는 단계; 네트워크 및 사용자 디바이스 한계들에 따라 상기 제 2 필터링 단계로부터 상기 나머지 키 요소들을 제3 필터링하는 단계; 및 상기 제 3 필터링 단계로부터 남은 상기 키 요소들로부터 멀티미디어 요약을 출력하는 단계를 포함한다.
본 발명이 뉴스 방송에 특히 잘 적합하지만, 본 발명의 원리는 또한 사용자가 다른 형태의 방송들의 멀티미디어 요약을 수신하게 한다. 예를 들면, 본 발명은 사용자가 양호하게 브라우징하고 그 전체에서 영화의 시청에 대해 결정하게 하도록 영화 비디오들의 멀티미디어 요약들에 적용가능하다.
본 발명은 또한 상기 방법을 실행하기 위한 제조 방법을 포함한다. 본 발명의 다른 특징들과 장점들은 다음의 상세한 설명, 도면들, 및 첨부한 도면들과 관련하여 취해진 첨부한 청구항들을 통해 명백해질 것이다.
도 1은 본 발명에 따른 멀티미디어 요약 시스템의 예시적인 실시예의 개략도.
도 2는 본 발명에 따른 요약의 방법의 흐름도.
도 3은 전형적인 뉴스 방송의 예시적인 비디오 스트림을 도시한 도면.
도 4는 본 발명에 따라 키 요소들을 식별하는 방법의 흐름도.
도 5는 입력 멀티미디어 스트림으로부터 특징 추출과 특성들의 유도 프로세스의 예제 블록도.
도 6은 오디오 서브-스트림을 포함하는 시간 요소들이 세그먼트들을 형성하도록 그룹화될 수 있는 방법을 도시한 그래프.
도 7a 내지 도 7c는 키 요소들을 식별하는 다양한 방법들을 도시한 그래프들.
본 발명은 3개의 양식들(비디오, 오디오 및 텍스트)을 통해 하나 이상의 입력 멀티미디어 스트림들을 요약하기 위한 시스템 및 방법에 관한 것이다.
여기에 기재되는 예시적인 시스템 모듈들 및 방법들은 하드웨어, 소프트웨어, 펌웨어, 특수 목적 프로세서들, 또는 그 조합의 다양한 형태들로 구현될 수 있다. 바람직하게, 본 발명은 하나 이상의 프로그램 저장 장치들에 대해 확실하게 실시되는 응용 프로그램으로서 소프트웨어로 구현된다. 상기 응용 프로그램은 임의의 기계, 장치 또는 적당한 아키텍처를 포함하는 플랫폼에 의해 실행될 수 있다. 첨부한 도면들에 도시된 구성한 시스템 모듈들과 방법들 일부가 바람직하게 소프트웨어로 바람직하게 구현되므로, 상기 시스템 구성요소들(또는 공정 단계들) 간의 실제 접속들이 본 발명이 프로그램되는 방식에 따라 상이할 수 있다는 것을 또한 알아야 한다. 여기의 가르침에 따라, 기술분야의 당업자는 본 발명의 이들과 유사한 구현들 또는 구성들을 예상하거나 실시할 수 있을 것이다.
본 발명은 본 발명의 공정들 중 임의의 것을 수행하기 위해 컴퓨터를 프로그램하는데 사용될 수 있는 그 위에 명령들이 저장되는 저장 매체(매체)인 컴퓨터 프로그램 제품을 포함한다. 상기 컴퓨터 프로그램 제품은 또한 데이터, 예를 들면, 본 발명의 공정들 중 임의의 것에 대응하는 입력 데이터를 포함할 수 있다. 상기 저장 매체는 플로피 디스크들, 광 디스크들, DVD, CD-ROM들, 마이크로드라이브, 및 자기-광학 디스크들, ROM들, RAM들, EPROM들, EEPROM들, DRAM들, VARM들, 플래시 메모리 장치들, 자기 또는 광학 카드들, 나노시스템들(분자 메모리 IC들)을 포함하는 임의의 형태의 디스크 또는 명령들 및/또는 데이터를 저장하는데 적당한 임의의 형태의 매체 또는 장치를 포함할 수 있지만, 이들에 한정되지 않는다.
상기 컴퓨터 판독 가능한 매체(매체들) 중 임의의 것에 저장되면, 본 발명은 범용/특화된 컴퓨터 또는 마이크로프로세서의 하드웨어 모두를 제어하고 상기 컴퓨터 또는 마이크로프로세서가 본 발명의 결과를 이용하여 사람 사용자 또는 메카니즘과 상호 동작할 수 있게 하기 위한 소프트웨어를 포함한다. 이러한 소프트웨어는 디바이스 드라이버들, 운영 체계들, 및 사용자 응용들을 포함할 수 있지만, 이들에 한정되지 않는다. 결과적으로, 이러한 컴퓨터 판독 가능한 매체는 상술된 바와 같이 본 발명을 수행하기 위한 소프트웨어를 더 포함한다.
시스템 아키텍처:
도 1을 참조하면, 본 발명에 따른 멀티미디어 요약 시스템(100)의 일 실시예의 개략적인 개요가 도시되어 있다. 한정되지 않은 예제로서, 상기 멀티미디어 요약 시스템(100)은, 다른 멀티미디어 응용들에 대해 여기에 제공되는 원리들의 확장들이 당업자에게 명백해질 것이지만, 뉴스 스토리들을 요약하기 위한 요약 시스템(100)의 배경에 제공될 것이다.
도 1에 도시된 본 실시예에서, 멀티미디어 요약 시스템(100)은 방송 채널 선택기(110), 예를 들면, 텔레비젼 튜너 또는 위성 수신기로부터의 입력으로서 멀티미디어 스트림(101)을 수신한다. 상기 시스템(100)은 또한 비디오 저장 유닛(112)으로부터 사전-저장된 멀티미디어 스트림(102)을 검색할 수 있다. 상기 시스템(100)은 또한 네트워크상의 서버로부터와 같은 비디오 스트림의 형태로 입력을 수신할 수 있다. 상기 멀티미디어 입력 스트림들(101, 102)은 디지털 또는 아날로그 형태일 수 있고, 방송은 점-대-점 통신들을 포함하는 상기 스트림들(101, 102)을 통신하는데 사용된 임의의 형태의 매체일 수 있다. 도 1에 도시된 본 실시예에서, 한정되지 않은 예제로서 상기 입력 멀티미디어 스트림들(101, 102)은 뉴스 방송들에 대응하고, 산재된 광고들 또는 상업용 광고들과 함께 복수의 뉴스 스토리들을 포함한다. 상기 뉴스 방송은, 예를 들면, CNN 헤드라인 뉴스, NBC 야간 뉴스 등과 같은 특정 뉴스 프로그램을 나타낼 수 있다.
도 1에 도시된 본 실시예에서, 상기 멀티미디어 요약 시스템(100)은 상기 입력 멀티미디어 스트림들(101, 102)을 이하 비디오 서브-스트림(303), 오디오 서브-스트림(305) 및 텍스트 서브-스트림(307)이라 하는 3개의 양식들로 분할하기 위한 양식 인식 및 분할(Modality Recognition And Division; MRAD) 모듈(103)을 포함한다. 상기 MRAD 모듈(103)은 상기 입력 멀티미디어 스트림들(101, 102)을 처리하고 상기 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들을 각각 출력하기 위한 스토리 세그먼트 식별자(SSI) 모듈(103a), 오디오 식별자(AI) 모듈(103b), 및 텍스트 식별자(TI) 모듈(103c)을 포함한다. 상기 서브-스트림들(303, 305, 및 307)은 상기 각각의 서브-스트림들(303, 305, 307) 내로부터 키 요소들을 식별하기 위해 상기 MRAD 모듈(103)에서 키 요소 식별자(KEI) 모듈(105)로 출력된다. 상기 KEI 모듈(105)은 특징 추출(FE) 모듈(107), 및 중요 값(IV) 모듈(109)을 포함한다. 상기 KEI 모듈(105)의 기능성은 도 4 내지 도 7을 참조하여 이하 상세히 기재된다. 상기 KEI 모듈(105)의 출력은 이하 기재될 방식으로 상기 KEI 모듈(105)에 의해 식별되는 키 요소들을 필터링하는 상기 키 요소 식별자(KEF) 모듈(111)의 입력에 결 합된다. 상기 KEF(111)로부터 출력된 생존하는 키 요소들은 미리 결정된 사용자 선호에 따라 상기 생존하는 키 요소들을 더 필터링하는 사용자 프로파일 필터(UPF)(113)에의 입력으로서 제공된다. 도시된 바와 같이, 상기 UPF 모듈(113)은 상기 미리 결정된 사용자 선호들을 저장하기 위한 하나 이상의 저장 장치들(즉, 사용자 선호 데이터베이스(117))에 결합된다. 상기 UPF 모듈(113)의 출력은 상기 네트워크 및 디바이스 한정(Network And Deivce Constraint; NADC) 모듈(115)의 입력에 결합되며, 일반적인 네트워크 조건들과 사용자 디바이스 한정들에 따라 상기 UPF 모듈(113)로부터 출력된 상기 생존하는 키 요소들을 더 필터링할 수 있다. 상기 NADC 모듈(115)은 본 발명의 상기 멀티미디어 요약(120)을 출력한다. 일반적으로, 상기 멀티미디어 요약은 인터넷, 인트라넷 또는 임의의 다른 적당한 네트워크와 같은 네트워크(122)를 통해 상기 요약 시스템(100)과 인터페이스하는, 클라이언트 장치(124)를 통해 원격 사용자에 의해 요청될 것이다. 상기 클라이언트 장치(124)는 네트워크(122)와 접속하고 이를 통해 데이터를 전송하도록 동작가능한 임의의 전자 장치일 수 있다. 예를 들면, 상기 클라이언트 장치(124)는 유선 디바이스(예를 들면, 개인용 컴퓨터, 워크스테이션, 또는 팩스) 또는 무선 디바이스(예를 들면, 랩탑, 개인용 휴대 정보 단말기(PDA), 이동 전화기, 페이저, 스마트폰, 착용가능한 컴퓨팅 및 통신 장치 또는 통신기)를 포함할 수 있다.
동작:
본 발명의 멀티미디어 요약 방법의 일 실시예의 설명이 지금 도 1 내지 도 3을 참조하여 제공된다. 이 후에, 기재되는 방법과 관련된 다양한 단계들의 보다 상세한 설명들이 이하 더 제공될 것이다.
도 2는 본 발명의 일 실시예에 따라 요약의 방법을 도시한 흐름도이다.
단계(205)에서, 프로세스는 시작한다.
단계(210)에서, 상기 멀티미디어 요약 시스템(100)은 하나 이상의 멀티미디어 스트림들(101, 102)(예를 들면, 뉴스 방송들)을 입력으로서 검색 및/또는 수신한다.
단계 215에서, 상기 검색되고/수신된 입력 멀티미디어 스트림(101)은 3개의 양식들(즉, 비디오, 오디오 및 텍스트)에 따라 분할된다.
도 3a 내지 도 3d는 예로서 입력 멀티미디어 스트림(예를 들면, 스트림(101))이 상기 3개의 양식들에 따라 분할될 수 있는 방법을 도시한다.
도 3a는 전체에 분포된 비디오, 오디오 및 텍스트 성분들을 포함하는 입력 멀티미디어 스트림(101)(예를 들면, 뉴스 방송(101))의 일반적인 도면이다. 상술된 바와 같이, 상기 뉴스 방송은, 예를 들면, CNN 헤드라인 뉴스, NBC 야간뉴스 등과 같은 특정 뉴스 프로그램을 나타낼 수 있다.
도 3b-도 3d는 입력 비디오 스트림(101)이 3개의 양식들에 따라 분할되는 방법을 예시한다.
도 3b를 참조하면, 상기 비디오 양식에 따라, 뉴스 스토리 세그먼트화를 강조하도록 처리된 상기 입력 멀티미디어 스트림(101)을 나타내는 비디오 서브-스트림(303)이 도시된다. 도 3b의 상기 비디오 서브-스트림(303)은 상기 MRAD 모듈(103)의 상기 스토리 세그먼트 식별자(SSI) 서브-모듈(103a)로부터 출력되도록 도 시된다. 상기 예시적인 비디오 서브-스트림(303)은 상기 SSI 서브-모듈(103a)에의해 40 개만이 설명 편의상 도시된 복수의 비디오 프레임들(예를 들면, 프레임들 1-25000)로 분할된다. 상기 분할은 뉴스 방송의 일반적인 구성에 기초한다. 즉, 일반적인 뉴스 방송은 스토리 세그먼트화에 특히 매우 적당한 공통 포맷에 따른다. 예를 들면, 첫 번째 또는 선두 스토리는 워싱턴에서의 정치 사건들에 관한 것일 수 있고, 두 번째 뉴스 스토리는 노동자 폭동 또는 빌딩 화재에 관한 것일 수 있다. 예를 들면, 도 3b에 도시된 바와 같이, 도입 프레임(301)(프레임 1) 이후에, 일반적으로 기자, 또는 앵커가 311(앵커 프레임들 2-4)을 나타내고 첫 번째 보도(321)(프레임들 5-24)에 도입한다. 상기 앵커 프레임들 2-4 및 뉴스 스토리 세그먼트 프레임들 5-24는 함께 제1 뉴스 스토리(311, 321)라 한다. 뉴스 스토리 이후에, 상기 앵커는 제2 뉴스 스토리(312, 322)라 하는 상기 제2 보도(322)(프레임들 30-39)로 진입하기 위해 다시 출현한다(312)(앵커 프레임들 25-29). 광고로 산재된 앵커-스토리-앵커의 시퀀스는 뉴스 방송의 끝, 예를 들면, 프레임 2500 까지 반복한다. 동일한 무대 위치에서 상기 앵커(311, 312,...)의 반복된 출현은 일반적으로 각각의 보도 세그먼트의 시작과 이전의 뉴스 세그먼트 또는 광고의 끝을 분명하게 식별하는 기능을 한다. 또한, MPEG-7과 같은 표준들이 비디오 콘텐츠를 기재하도록 개발되므로, 비디오 스트림들이 상기 스트림들 내에 독립적인 세그먼트들의 시작과 끝을 식별하는 분명한 마커들을 포함할 것이라 예상될 수 있다.
뉴스 스토리 세그먼트들을 식별하는 하나의 방법은 참조로서 여기에 포함된, 엘렌바스, 제이. 에이치.; 디미트로바, 엔; 맥기, 티이; 심슨, 엠; 마티노, 제이; 압델 모타렙, 엠; 가레트, 엠; 람세이, 씨이; 데사이, 알에 의해 2000년 12월6일 발행된 제목 "개별화된 비디오 분류 및 검색 시스템"이라는 유럽특허공보 제1 057 129 A1에 제공된다.
지금, 도 3c를 참조하면, 상기 오디오 서브-스트림(305)이 도시되어 있다. 상기 입력 멀티미디어 스트림(101)에서의 오디오 식별은, 상기 오디오 식별자 서브-모듈(103b)이 예시적인 실시예에서 오디오 경계, 예를 들면, 20ms를 사전 선택하고, 상기 오디오 서브-스트림(305)을 구성하기 위해 시작부터 끝까지 상기 입력 멀티미디어 스트림(101)을 복수의 20ms TIME 프레임들(304)로 분할한다는 점에서 비교적 수월하다.
도 1을 다시 참조하여, 입력 멀티미디어 스트림(101)은 상기 MRAD 모듈(103)에 의해 수신되고 상기 오디오 서브-스트림(305)을 출력하기 위해 상기 오디오 식별자(AI) 서브-모듈(103b)에 의해 처리된다.
지금, 도 3d를 참조하면, 상기 텍스트 서브-스트림(307)이 도시되어 있다. 텍스트 식별은 상기 텍스트 서브-스트림(307) 내에 식별된 워드 경계들에 대해 프레임(308)을 정의한다는 점에서 비교적 수월하다.
도 1을 다시 참조하면, 입력 멀티미디어 스트림(101)은 상기 MRAD 모듈(103)에 의해 수신되고 상기 텍스트 서브-스트림(307)을 출력하기 위해 상기 텍스트 식별자(TI) 서브-모듈(103c)에 의해 처리된다. 그 다음, 상기 MRAD 모듈(103)로부터 출력되는 상기 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들은 상기 키 요소 식별 KEI 모듈(105)에 입력 스트림들로서 제공된다.
단계(220)에서, 키 요소 식별 분석은 각각의 서브-스트림 내에 키 요소들을 식별하기 위해 상기 입력 서브-스트림들(301, 303, 305)에 대해 상기 KEI 모듈(105)에 의해 수행된다. 키 요소는 이하 더 기재될 소정의 기준에 부합하거나 초과하는 서브-스트림(303, 305, 307)의 '세그먼트'로서 일반적으로 정의될 수 있다.
단계(225)에서, 단계(220)에서 식별된 이들 키 요소들은 더 필터링되며, 소정의 기준에 부합하거나 초과하는 단계(220)에서의 중요 값을 계산한 이들 키 요소들만이 보유된다. 도 1의 상기 키 요소 필터(KEF) 모듈(111)은 필터링 프로세스를 수행한다.
단계(230)에서, 도 1의 상기 사용자 프로파일 필터(UPF) 모듈(113)은, 사용자가 바람직하게 상기 사용자 선호 데이터베이스(117)에 저장된 복수의 사용자 개별화 파라미터들로 구성된 사용자 프로파일을 미리 제공하였는지를 우선 결정한다. 단계(232)에서, 사용자 프로파일이 존재하면, 단계 225에서 그들의 생존하는 키 요소들을 더 필터링하는데 사용될 것이다.
상기 사용자 프로파일은 복수의 사용자 제공된 개별화(선호) 파라미터들로 구성될 수 있다. 상기 파라미터들은, 상기 멀티미디어 요약(120)이 제공되는 방법에 관한 사용자의 특정 개별화 선호들을 가리키기 위해 동작 시간에서 제공될 수 있거나 바람직하게 상기 UDF(109)에 의해 상기 사용자 선호 데이터베이스(117)로부터 검색될 수 있다. 상기 개별화 파라미터들이 상기 사용자 선호 데이터베이스(117)로부터 검색되는 경우, 상기 시스템의 사용자들은 일반적으로 구성 단계 동안에 상기 시스템(100)에 따라 그들의 선호들을 저장할 것이다. 상기 개별화 파라미 터들은, 상기 멀티미디어 요약(120)이 상기 사용자의 특정 시청 선호들에 개별화되는 방법을 어느 정도 결정한다.
사용자에 의해 제공되는 상기 개별화 파라미터들은, 예를 들면,
· 상기 멀티미디어 요약(120)이 포괄적이거나 신속한지의 여부
· 상기 멀티미디어 요약(120)이 텍스트만, 오디오, 정지 화상들, 비디오 또는 그 조합들을 포함해야 하는지의 여부
· 신규 비디오들을 위한 시청과 같이 수행될 임무들 대 이미 상영된 영화의 복원
· 상기 요약(120)이 표시될 발생지(즉, 배경)
· 상기 멀티미디어 요약(120)이 표시될 일, 주, 년의 시간
· 하나 이상의 "핵심어" 개별화 파라미터들은 사용자(예를 들면, 사람들, 장소들 또는 물건들)에 관심대상인 특정 항목들을 식별하기 위해 사용자에 의해 제공될 수 있다. 하나의 예제로서, 사용자는 선택된 핵심어들을 강조하는 뉴스 스토리 세그먼트들을 배치하기 위해 상기 비디오 요약 시스템(100)에 의해 사용될 것이다.
예제만으로, 사용자가 상기 멀티미디어 요약(120)이 오디오 요약에만 한정되는 것을 선호하면, 최고 순위의 오디오 세그먼트는 상기 오디오 서브-스트림(305)으로부터 선택되고 상기 사용자에게 제공될 수 있다. 다른 예제로서, 상기 사용자가 신속한 멀티미디어 요약(120)(예를 들면, 2분 뉴스 요약)의 시청을 선호하면, 사용자가 관심있는 뉴스 스토리들은 사용자 프로파일 선호에 따라 그리고 최고 순 위의 비디오, 오디오 및 텍스트 세그먼트들만이 시간-제한 멀티미디어 요약(120)을 구성하기 위해 상기 각각의 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들로부터 선택되는 각각의 선택된 뉴스 스토리 내로부터 선택된다.
단계 235에서, 사용자 프로파일 필터링의 이전 단계에 생존하는 그들의 키 요소들은 네트워크 및 디바이스 한정들에 의해 지금 더 필터링된다. 구체적으로, 상기 네트워크 및 디바이스 한정(NADC) 모듈(113)은, 상기 멀티미디어 요약(120)이 전송될 네트워크의 임의의 네트워크 대역폭 한정들을 고려하고 사용자의 시청 장치와 관련된 그들의 한정들을 고려한다. 단계 230으로부터 생존하는 키 요소들은 기재될 임의의 공지된 네트워크 및 디바이스 한정들에 따라 수정된다.
상기 멀티미디어 요약(120)이 인터넷과 같이 네트워크를 통해 전송되는 일반적인 경우에서, 상기 디바이스 한정들과 허용 전송 대역폭은 전송될 상기 멀티미디어 요약(120)의 품질과 양을 어느 정도 가리킬 것이다. 비디오의 고유 대역폭 요구로 인해, 상기 멀티미디오 요약(120)은 상기 멀티미디어 요약(120)의 비디오 부분의 품질 및/또는 양에서 일반적으로 제한될 것이다. 비교적으로, 상기 멀티미디어 요약(120)의 상기 오디오 및 텍스트 부분들은 유사한 한정들을 경험하지 않을 것이다.
무선 네트워크들은 일반적인 한정된 대역폭 응용을 나타낸다. 이러한 한정된 대역폭 조건들은 낮은 대역폭 데이터 채널의 사용에 의해 지시된 직접적인 기술적 한정들 또는 높은 공동 사용자 로드에 의한 비교적 높은 대역폭 채널들에 부과되는 간접적인 한정들로 인해 존재할 수 있다. 상기 네트워크 대역폭은 네트워크 의 현재 상태를 결정하기 위해 실시간으로 투명한 방식으로 감시될 수 있다는 것을 알아야 한다. 상기 멀티미디어 요약은 일반적인 네트워크 조건에 따라 수정될 수 있다. 예를 들면, 복잡한 네트워크 조건인 경우, 상기 멀티미디어 요약(120)은 단계 235로부터 각각의 생존하는 키 요소의 비디오 품질을 한정함으로써 제한될 수 있다.
디바이스 한정 고려사항들에 관해서는, 셀룰러 접속된 PDA들과 웹폰들은 처리 전력, 표시 능력들, 메모리, 운영 시스템들 등에서 특성적으로 한정되는 장치들의 예제들이다. 이들 한정들의 결과로서, 이들 장치들은 비디오 데이터를 수신하며, 처리하고 표시하는 다른 능력들을 갖는다. 상기 멀티미디어 요약(120)은 비디오 해상도, 비트율 등을 제한함으로써 디바이스 한정들을 도모하도록 조정될 수 있다.
상기 사용자 장치가 텍스트만을 제공할 수 있다면, 최고 순위의 텍스트 세그먼트들은 뉴스 스토리들 각각에 대해 선택되고 상기 장치에 전송된다.
단계(240)에서, 단계(235)에서 생존한 그들의 키 요소들로 구성된 상기 멀티미디어 요약(120)은 상기 사용자에게 전송된다.
이 내용은 상기 멀티미디어 비디오 요약 시스템과 방법의 개요를 완료한다. 상기 방법의 다양한 특징들의 동작의 더 상세한 설명이 지금 제공될 것이다.
본 발명의 방법의 실시예의 최상의 설명이 상기 각각의 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들로부터 키 요소들의 식별에 관한 단계(220)를 포함하는 도 2의 흐름도를 참조하여 상기 제공되었다. 단계(220), 키 요소 식별의 더 상세한 설명이 도 3 내지 도 6을 참조하여 지금 기재된다.
지금, 도 2의 흐름도의 단계(220)를 포함하는 단계들의 상세한 흐름도인 도 4 및 한정되지 않은 예제만으로 추가 설명하는 도면인 도 5 또한 참조하여, 상기 3개의 양식들에서, 상기 각각의 서브-스트림들(303, 305, 307)로부터 특징들의 추출과 편이를 포함하는 특징 추출의 프로세스가 기재된다.
단계 220.a - 특징 추출
단계(220.a)에서, 특징 추출이 수행되며, 저 레벨(510), 중간 레벨(710), 및 고 레벨(910) 특징들은 상기 각각의 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들 각각에서 각 프레임으로부터 추출된다. 상기 예시적인 비디오 서브-스트림(303)에 관해서, 비디오 서브-스트림(303)을 구성하는 2500 비디오 프레임들 각각에서 특징 추출이 수행되고, 설명의 간소화를 위해 그중 40개가 도시된다. 유사하게, 상기 오디오 서브-스트림(305)에 관해서, 상기 오디오 서브-스트림(305, 12)을 구성하는 8000 오디오 프레임들(306)(도 3c) 각각에서 특징 추출이 수행되고, 설명의 간소화를 위해 그중 12개가 도시된다. 유사한 방식으로, 상기 텍스트 서브-스트림(307)에 관해서, 상기 텍스트 서브-스트림(307)을 구성하는 6500 텍스트 프레임들(308)(도 3d) 각각에서 특징 추출이 수행되고, 설명의 간소화를 위해 그중 5개가 도시된다.
상기 각각의 서브-스트림들(비디오, 오디오, 텍스트) 각각에서 프레임들로부터 추출될 수 있는 저, 중간 및 고 레벨 특징들의 일부 예제들이 지금 기재된다.
한정되지 않은 예제로서, 상기 비디오 서브-스트림은 다음의 저(503), 중간 (505) 및 텍스트(507) 레벨 비쥬얼 모드 특징들을 포함할 수 있다. 즉,
저 레벨 비쥬얼 모드 특징들(503)은 동작 값(프레임 동안의 글로벌 동작 또는 비디오 세그먼트), 하나의 프레임에서 총 에지 수 및 우세한 컬러를 포함할 수 있다.
중간 레벨 비쥬얼 모드 특징들(703)은 상기 추출된 저 레벨 비쥬얼 모드 특징들(503)로부터 유도되고 패밀리 히스토그램들, 카메라 동작, 프레임 묘사, 오버레이된 텍스트의 존재, 및 다른 물체 검출기들을 포함할 수 있다.
고 레벨 비쥬얼 모드 특징들(903)은 상기 유도된 중간 레벨 비쥬얼 모드 특징들로부터 유도되고 앵커 프레임, 보도 프레임, 내부 프레임, 외부 프레임, 자연 프레임, 그래픽 프레임, 풍경 프레임, 및 도시풍경 프레임을 포함할 수 있다.
한정되지 않은 예제로서, 상기 오디오 서브-스트림(305)은 다음의 저 레벨(505), 중간 레벨(705) 및 고 레벨(905) 오디오 모드 특징들을 포함할 수 있다. 즉,
저 레벨 오디오 모드 특징들(505)은, 예를 들면, MFCC, LPC, 평균 에너지, 대역폭, 피치 등을 포함할 수 있다.
중간 레벨 오디오 특징들(705)은 상기 추출된 저 레벨 오디오 모드 특징들(505)로부터 유도되고, 예를 들면, 오디오의 스피치, 음악, 침묵, 잡음, 스피치+스피치, 스피치+잡음, 및 스피치+음악으로의 분류를 포함할 수 있다.
고 레벨 오디오 모드 특징들(905)은 상기 이전에 유도된 중간 레벨 오디오 특징들(705)로부터 유도되고, 예를 들면, 관중 응원, 연설, 웃음, 폭발, 사이렌 등 을 포함할 수 있다. 이는 또한 스피치 대 텍스트 사본을 포함할 수 있다.
한정되지 않은 예제로서, 상기 텍스트 서브-스트림(307)은 다음의 저 레벨(507), 중간 레벨(707), 및 고 레벨(907) 텍스트 모드 특징들을 포함할 수 있다. 즉,
저 레벨 텍스트 모드 특징들(507)은, 예를 들면, 핵심어들, 실마리들, 성명들, 장소들 등의 존재를 포함할 수 있다.
중간 레벨 텍스트 모드 특징들(707)은 상기 저 레벨 오디오 모드 특징들(507)로부터 유도되고, 예를 들면, 토픽들, 카테고리들, 중요한 명사들을 포함할 수 있다.
고 레벨 텍스트 모드 특징(907)은 상기 유도된 중간 레벨 텍스트 모드(707) 특징들로부터 유도되고, 질의/응답의 한 구절, 말하는 사람, 즉, 뉴스 레포터 대 앵커 대 손님 등의 추론을 포함할 수 있다.
도 5는 한정되지 않은 예제로서, 상기 3개의 양식들 각각에서 상기 각각의 서브-스트림들(303, 305, 307)로부터 특징들의 추출과 편이를 포함하는 특징 추출의 프로세스를 더 도시한 도면이다. 도시된 바와 같이, 에지, 모양, 컬러(503)과 같은 저 레벨 비디오 특징들(510)은 상기 비디오 서브-스트림(303)로부터 추출된다. 그 다음, 하나 이상의 추출된 저 레벨 비디오 특징들(503)은 비디오텍스트, 얼굴, 패밀리 히스토그램들(703)과 같은 하나 이상의 중간 레벨 특징들(703)을 유도하는데 사용될 수 있다. 그래서, 상기 중간 레벨 특징들(703)은 앵커 프레임, 보도 프레임, 내부 프레임 등과 같은 하나 이상의 고 레벨 비쥬얼 특징들(903)을 유도하는데 번갈아 사용될 수 있다.
상기 중간 레벨 비쥬얼 특징(703)의 하나의 요소로서 도시된 '패밀리 히스토그램들'을 참조하여, 이 특징의 편이 및 사용은 특히 상기 비디오 서브-스트림(303)을 이하에 더 기재될 '세그먼트들'로 세분화하는데 사용된다는 점이다. 컬러는 비디오에서 우세한 특징이고 인식 관점으로부터 비디오를 세분화하는데 도움이 된다. 추가적으로, 패밀리 히스토그램의 기간은 또한 기재될 비디오 세그먼트의 계산된 '중요 값'에 직접 맵핑한다.
상기 비디오 서브-스트림(303)의 상기 추출된 저 레벨 비쥬얼 특징들로부터 패밀리 히스토그램들을 유도하는 프로세스는 상기 비디오 서브-스트림(303)의 각 비디오 프레임의 분석을 포함한다. 상기 분석은 각 비디오 프레임의 컬러 정보를 컬러 양자화 빈로 양자화하도록 수행된다. 단순 9-빈 양자화 컬러 히스토그램은 상기 키 요소들을 식별하는데 충분하도록 실험적으로 결정되었다. 이 방법의 변경예에서, 더 복잡한 256-빈 컬러 히스토그램은 응용에 따라 사용될 수 있다. 상기 단순 9-빈 양자화 컬러 히스토그램 방법은, 뉴스 스토리 세그먼트 내에 포함된 각각의 패밀리 세그먼트에 대해 프레임별로 컬러 변경의 약간의 차이만이 있을 것이라고 가정한다. 이는, 키 요소에 대해 프레임별로 실질적인 프레임 유사성이 있는 것으로 가정하므로 사실이다. 분명한 컬러 변경들은, 하나의 패밀리 세그먼트의 끝 그리고 다른 것의 시작을 가리키는 장면 변경이 발생할 때 하나의 프레임에서 다음 프레임으로 발생할 것이다. 상기 컬러 히스토그램 방법은 하나의 프레임에서 다음 프레임으로 컬러 히스토그램 값들의 선명한 명암 대비에 의해 분명한 컬러 변 경들(즉, 저 레벨 특징)을 검출한다.
비디오 프레임들 간의 유사성의 정도를 찾기 위해, 실험들은 복수의 히스토그램 차이 측정에 따라 수행되었다. 패밀리 히스토그램 계산 단계에서, 각각의 비디오 프레임 동안에, 히스토그램이 계산된 다음, 가장 근접한 패밀리 히스토그램 매치를 찾기 위해 이전에 계산된 패밀리 히스토그램들로 검색이 이뤄진다. 현재의 히스토그램(Hc) 및 이전의 패밀리 히스토그램들(Hp) 간의 비교는 히스토그램 차이(D)를 계산하기 위한 다음의 방법들 중 하나를 사용하여 계산될 수 있다.
(1) L1 거리 측정을 사용하여 히스토그램 차이는 다음의 수학식 1을 사용하여 계산된다.
여기서, N은 사용된 총 컬러 빈들의 수(여기서, 9)이다. 상기 수학식을 사용하여 구해진 값들은 0과 각 이미지들에서 최대 픽셀 수의 2배 사이의 범위에 있다. 유사성의 비율을 얻고 싶기 때문에, 총 픽셀 수에 따라 분할함으로써 상기 값을 정규화한다. 상기 정규화된 값들은 0과 1 사이에 있고, 여기서, 0에 가까운 값들은, 이미지들이 유사하다는 것을 의미하고, 1에 가까운 값들은, 이미지들이 유사하지 않다는 것을 의미한다.
(2) L2 거리 측정을 사용하여 히스토그램 차이는 다음의 수학식 2를 사용하여 계산된다.
경우 (1)과 유사하게, D의 값들을 정규화한다.
(3) 히스토그램은 다음의 수학식 3을 사용하여 계산된다.
상기 수학식 3을 사용하여 구해진 값들은 0과 1 사이에 있다. 0에 가까운 값들은, 이미지들이 유사하지 않다는 것을 의미하고, 1에 가까운 값들은, 이미지들이 유사하다는 것을 의미한다. 유사성의 동일한 해석과 히스토그램들을 비교하기 위해, 거리 측정으로서 D=1-I을 사용한다.
(4) 2개의 이미지 히스토그램들에 대한 카이-제곱 시험(Chi-Square test)이 다음의 수학식 4를 사용하여 계산된다.
(5) 빈-와이즈 히스토그램 교차는 수학식 5를 사용하여 계산된다.
히스토그램 교차와 유사하게, 더 낮은 값들은 비유사성을 의미하고 더 높은 값들은, 이미지들이 유사하다는 것을 의미한다. 이전의 측정들과 일치하도록, 거리는 D=1-B/N을 사용하여 계산된다.
히스토그램 정보를 사용하는 컬러 인덱싱 방법들은 기술분야(예를 들면, 1995년 엠, 스트릭커 및 엠. 오렌고에 의해 이미지 및 비디오 데이터베이스 II에 대한 저장과 검색에 대한 IS&T/SPIE 컨퍼런스의 proc.에서 Vol. SPIE 2420의 제목 "컬러 이미지들의 유사성" 참조)에 공지되어 있다.
단계(220.b) - 특징 중요 값들의 지정
단계(220.b)에서, 상기 각각의 서브-스트림들(303, 305, 307) 각각으로부터 각 프레임에서 단계(220a)에서 추출된 이들 중간(710) 및 고(910) 레벨 특징들은 지금 대응하는 특징 중요 값으로 지정된다. 이산 및/또는 연속 특징 분석 방법들은 이러한 중요 값들을 지정하도록 사용될 수 있다. 상기 이산 경우에서, 상기 특징 분석 방법은 특징의 존재 또는 부재를 가리키는 이산 중요 값(즉, 존재하지 않은 특징에 대한 존재/0에 대한 중요 값 =1) 또는 (상기 멀티미디어 요약(120)에의 포함을 위해 바람직한 경우 중요 값 =1, 요약(120)에서 바람직하지 않은 경우 0, 및 그 사이인 경우 .5)을 출력한다. 하나의 예제로서, 상기 멀티미디어 요약(120) 에서 '얼굴들'을 갖는 것이 바람직하므로, 1의 특징 중요 값은, 하나 또는 두 얼굴들이 존재하면 지정될 수 있으며, 0의 값은 얼굴이 존재하지 않고 지정될 수 있고 .5의 값은 둘 이상의 얼굴들이 존재하는 경우 지정될 수 있다. 다른 이산 예제는 앵커의 존재에 대해 0을 지정하고 보도 일절의 존재에 대해 1을 지정할 수 있다. 다른 이산 예제는, 기간이 뉴스 스토리의 총 기간의 n% 보다 작은 패밀리 히스토그램에 속하면 하나의 프레임 동안 0을 지정하고 다른 경우에 1의 값을 지정한다. 여기서, n은 10 등으로 설정될 수 있다.
상기 오디오 서브-스트림(305)에 관해서, 상기 멀티미디어 요약(120)에서 스피치를 갖는 것이 바람직하여, 중요 값은 스피치의 존재에 대해 1, 잡음 및 침묵에 대해 0, {음악, 스피치+음악, 스피치+스피치, 스피치+잡음)에 대해 .5으로 설정될 수 있다.
상기 텍스트 서브-스트림(307)에 관해서, 성명 또는 중요 핵심어가 있다면, 상기 중요 값은 1로 설정될 수 있고, 다른 경우에 0으로 설정된다.
연속 경우에서, 패밀리 히스토그램인 경우, 상기 중요 값은 세그먼트의 기간에 설정될 수 있고 프레임은 뉴스 스토리의 총 기간에 의해 분할되는 것에 속한다.
대안적으로, 상기 연속 경우에서, 상기 특징 분석 방법들은 확률 분포를 사용하여 중요 값들을 지정된 특징들에 지정한다. 상기 확률 분포는, 상기 특징이 상기 요약에서 존재되는 확률을 제공한다. 상기 방법과 함께 사용되는 상기 특징 분석 방법들은 0에서 1까지의 범위일 수 있는 확률 값을 출력할 수 있으며, 특징의 존재에 관한 신뢰도를 나타낸다.
상기 연속 경우에서 중요 값들을 유도하기 위한 확률 분포는 정규 가우시안 분포로부터 유도될 수 있다. 대안적으로, 상기 중요 값들은 또한 푸아송, 레일리, 또는 베르누이 분포들로서 맵핑될 수 있다. 수학식 2는 예제로 정규 가우시안 분포로서 프레임 동안 특징 값을 계산하는 하나의 방법을 나타낸다.
여기서, S는 특징이 상기 요약에 있는 확률이며, 일반적으로, θ는 임의의 특징들을 나타내고, θ1은 상기 특징 값의 평균값이고, θ2는 예상 편이이다.
하나의 예제로서, "얼굴들"이 고려될 중간 레벨 비디오 특징을 나타내면, 즉, 수학식 6에서 θ로서 나타내면, 매우 작고 매우 큰 얼굴들은 드물게 나타날 것이다. 종종, "얼굴"이 비디오 스트림에서 나타날 때마다, 일반적으로 스크린 높이의 실질적으로 50%의 높이로 제공된다. 이 경우, 예를 들면, θ1은 .5(평균)과 동일하고 θ2는 2와 동일하다. 최대 추정 방법은 파라미터들 θ1 및 θ2를 결정하는데 사용될 수 있는 것을 알아야 한다.
상기 특징들 각각이 상기 멀티미디어 요약(120)에서 잠재적 선택을 위한 키 요소의 중요 값을 잠재적으로 상승하거나 낮출 수 있다.
220.c - 각각의 양식에서
프레임 당
중요 값들의 계산
단계(220.c)에서, 단계(220.b)에서 계산된 특징 중요 값들에 기초하여, 프레 임 중요 값들은 계산된다. 상기 프레임 중요 값들을 결정하기 위해, 가중 합 방법 또는 추출된 특징들의 중요 값들의 폴링은 기재될 바와 같이 이용될 수 있다.
표 1, 2, 및 3은 한정되지 않은 예제만으로 상기 각각의 양식들(비디오, 오디오, 텍스트) 각각에서 단계(220.a)에서 식별된 추출된 특징값 각각에 대해 단계(220.b)에서 계산된 특징 중요 값들을 나타낸다. 상기 중요 값들은 프레임 당 중요 값을 계산하는데 사용된다. 표 컬럼 서두들은 에지들, 컬러, 얼굴들, 침묵, 내부 프레임 등과 같은 이전에 추출되고 유도된 저, 중간 및 고 레벨 특징들을 나타낸다.
비쥬얼 특징 I | 비쥬얼 특징 II | 비쥬얼 특징 III | ... | 비쥬얼 특징 N | |
프레임 1 | .8 | .6 | .9 | .1 | |
프레임 2 | .5 | .3 | .4 | .4 | |
프레임 3 | .6 | .5 | .8 | .9 | |
. | |||||
. | |||||
프레임 A | .2 | .001 | .4 | .3 |
오디오 특징 I | 오디오 특징 II | 오디오 특징 III | ... | 오디오 특징 M | |
시간 1 | .5 | .6 | .9 | .1 | |
시간 2 | .15 | .83 | .4 | .4 | |
시간 3 | .6 | .5 | .8 | .9 | |
. | |||||
. | |||||
시간 B | .2 | .001 | .4 | .3 |
텍스트 특징 I | 텍스트 특징 II | 텍스트 특징 III | ... | 텍스트 특징 O | |
워드 1 | .5 | .9 | .9 | .1 | |
워드 2 | .15 | .83 | .4 | .4 | |
워드 3 | .6 | .5 | .8 | .9 | |
. | |||||
. | |||||
워드 C | .2 | .001 | .4 | .3 |
상기 표 값들은 프레임이 얼마나 "가치(worth)" 있는지의 측정을 제공하도록 기재되는 방식으로 조합된다. 프레임들 "가치"는 상기 멀티미디어 요약(120)에의 가능한 포함을 위해 프레임의 중요성의 측정이다. 프레임의 "가치"는 조건적 확률들을 결정적으로, 통계적으로 포함하고 조건부 확률들을 통하는 복수의 방법들에서 계산될 수 있다.
프레임의 '가치'의 결정적 계산
하나의 실시예에서, 프레임의 '가치'는
로서 계산된 저, 중간, 및 고 레벨 비디오 특징들의 결정적 선형 함수로서 계산될 수 있다.
여기서, fi는 특징 벡터에서 특정 저, 중간 및 고 레벨 특징의 값이고, wi는 그 특징에 대한 가중이다.
특징들(fi)는 동작 값(프레임 또는 비디오 세그먼트에 대한 글로벌 동작), 총 에지들 수, 우세한 컬러과 같은 저 레벨 특징들, 및 패밀리 중요, 카메라 동작, 프레임 상세도, 얼굴 크기, 오버레이된 텍스트 박스 크기와 같은 중간 레벨 특징들일 수 있다. 고 레벨 특징은 앵커/보도, 내부/외부 장면들, 자연/그래픽들, 및 배경/도시풍경과 같은 분류일 수 있다. 상기 특징 리스트는 소모성이 아니고, 중요 값 계산에 포함될 수 있는 특징들의 형태의 예시로서만 제공된다.
각각의 특징과 관련된 가중치(wi)는 상기 요약 시스템(100)에 의해 연역적으로 결정되거나 대안적으로 사용자 선호에 따라 결정될 수 있다. 예를 들면, 사용자가 상기 멀티미디어 요약(120)의 음악을 청취하고 싶으면, 음악에 대한 가중 값은 1로 설정될 수 있다. 다른 예제로서, 사용자가 상기 요약에서 임의의 비디오텍스트를 보지 않기를 선호하면, 프레임에서 비디오텍스트의 부재는 주어진 1 등의 중요도이다.
양식들 각각에 대해 특징 중요 값들은 표 4에 도시된 한정되지 않은 예시적인 리스트와 같은 리스트를 초래하는 단일 확률적 또는 결정적 함수를 사용하여 프레임 당 키 요소 중요 값을 출력하는 일부 방식으로 조합된다.
비쥬얼 프레임 라벨 | 비쥬얼 중요/프레임 당 | 오디오 프레임 라벨 | 오디오 중요/프레임 당 | 텍스트 프레임 라벨 | 텍스트 중요/프레임 당 |
프레임 1 | .8 | 시간 1 | .6 | 워드 1 | .1 |
프레임 2 | .5 | 시간 2 | .3 | 워드 2 | .4 |
프레임 3 | .6 | 시간 3 | .5 | 워드 3 | .9 |
프레임 4 | 시간 4 | 워드 4 | |||
프레임 N | .2 | 시간 M | .001 | 워드 P | .3 |
또 다른 실시예에서, 프레임들 '가치'는 베이스 신뢰 네트워크 패턴 분류(Bayesian Belief Network Pattern Classification)를 사용하는 조건부 확률을 찾음으로써 계산될 수 있다. 베이스 신뢰 네트워크 패턴 분류는 당분야에 공지되어 있다. 예를 들면, 여기에 참조로서 포함된 전체 개시물인 리차드 오우.두다, 피터 이. 하트, 데이브 지. 스토크에 의한 "베이스 신뢰 네트워크 패턴 분류"(제2판)를 참조한다.
220.d -
세그먼트
생성
220.c에서의 각 양식에서 각 프레임 동안의 프레임 중요 값들을 컴파일하는 단계 220.d에서, 상기 프레임 중요 값들은 상기 프레임들을 각 양식에 대한 세그먼트들로 조합하거나 그룹화하는데 사용된다.
비쥬얼
세그먼트들의
생성
상기 비디오 서브-스트림(303)을 구성하는 상기 각각의 비디오 프레임들(즉, 프레임 1, 프레임 2, ..., 프레임 N)로부터 비쥬얼 세그먼트들을 생성하기 위해, 패밀리 히스토그램 계산은 수행되거나 샷(shot) 변화 검출을 통한다. 프레임들을 세그먼트들로 조합하는 하나의 방법은 샷 변화 검출을 사용함으로써 이뤄진다. 샷 변화 검출은 널리 공지되어 있고 미국특허공보 제6,125,229호 (2000년 9월 26일)에 개시되며, 또한 여기에 참조로서 포함된 디미트로바, 엔; 맥지, 티이; 엘렌바스, 제이 에이치에 의한 유럽 특허 공개 공보 번호 제 EP 0 916 120 A2 호(1999년 5월 19일)에 비쥬얼 인덱싱 시스템으로서 발행되어 있다. 상기 비디오 서브-스트림(303)의 상기 각 비디오 프레임들로부터의 비쥬얼 세그먼트들의 다른 방법은 상술된 바와 같이 패밀리 히스토그램들의 사용을 통해 이뤄진다.
오디오
세그먼트들의
생성
각각의 TIME 프레임들(즉, TIME 1, TIME 2 등)로부터 오디오 세그먼트들을 생성하기 위해, 세그먼트 경계들은 다른 분류들의 경계들일 수 있다. 즉, 오디오 분류자는 오디오를 스피치(1), 음악(2), 침묵(3), 잡음(4), 스피치+스피치(5), 스피치+잡음(6), 및 스피치+음악(7)으로 분류한다. 도 6은, 예제로서, 도 3의 상기 오디오 서브-스트림(305)을 포함하는 시간 요소들이 세그먼트들을 형성하도록 그룹화될 수 있는 방법을 도시한 그래프이다. 상기 그래프는 오디오 분류 대 시간 프레임들(시간 프레임[x])을 도식한다. 도시된 바와 같이, 초기 프레임들(프레임들 1-20,000)은 음악(2) 프레임들로서 거의 분류된다. 연속 프레임들이 스피치 및 음악 프레임들(7)이 수반되는 잡음 프레임들(4)로서 거의 분류된다.
오디오 분류의 세부사항은 전체로 여기에 참조로서 포함된, 2001년 이동기, 이쉬워 케이. 세시, 네반카 디미트로바에 의한 패턴 인식 레터들 Vol. 22, 번호 5, 페이지 533-544에 기재된 "콘텐츠-기반 검색을 위한 일반적인 오디오 데이터의 분류"에 더 기재되어 있다.
텍스트
세그먼트들의
생성
텍스트 세그먼트들을 생성하기 위해, 상기 세그먼트 경계들은 상기 입력 비디오 시퀀스(101, 102)의 폐쇄된 캡션부에 제공된 구두점에 기초한 문장 경계들인 것으로 정의될 수 있다.
220.e -
세그먼트
중요 값 결정
세그먼트 중요 값 결정은, 단일 랭킹 또는 점수를 생성하기 위해 각각의 세그먼트를 포함하는 프레임들의 프레임 중요 값들을 평균화함으로써 하나의 방법으로 수행될 수 있다. 세그먼트 중요 값 결정을 계산하는 다른 방법은 상기 세그먼트 내에 최고 프레임 중요 값을 취하고 이를 전체 세그먼트에 지정하는 것이다.
220.f -
세그먼트
랭킹
단계(220.e)에서, 세그먼트 랭킹(점수)은 각각의 양식들에서 단계(220.d)에서 식별된 각각의 세그먼트에 대해 계산된다. 게다가, 랭킹된 세그먼트들은 상기 계산된 랭킹 또는 점수에 기초한 중요 순서로 정렬된다.
표 6은 예제로서 상기 비디오 세그먼트들(컬럼 1) 및 그들의 관련된 세그먼트 주용 값들(컬럼 2)이 랭킹되는 방법을 나타낸다. 표 7 및 8은 상기 오디오 및 텍스트 양식들 각각에 대한 유사한 구성을 나타낸다.
세그먼트 | 비쥬얼 중요 값 | 랭킹 |
프레임들 1-6 | .8 | 1 |
프레임들 26-30 | .6 | 2 |
프레임들 7-25 | .5 | 3 |
. | ||
. | ||
프레임(N-23)-N | .2 | N |
세그먼트 | 오디오 중요 값 | 랭킹 |
프레임들 30-45 | .9 | 1 |
프레임들 10-29 | .8 | 2 |
프레임들 100-145 | .6 | 3 |
. | ||
. | ||
프레임 (N-10)-N | .2 | J |
세그먼트 | 텍스트 중요 값 | 랭킹 |
프레임들 5-65 | .9 | 1 |
프레임들 13-25 | .7 | 2 |
프레임들 26-29 | .6 | 3 |
. | ||
. | ||
프레임(N-100)-N | .2 | K |
220.g - 키 요소 식별
단계(220.f)에서, 키 요소들은 단계(220.e)의 세그먼트 랭킹들에 기초하여 식별된다.
도 7a 내지 도 7c는 예제로 키 요소들을 식별하는 몇몇 방법들을 도시한다. 예제로, 도 7a 내지 도 7c는 (당 프레임 중요 값) 대 상술된 양식들, 즉, 표 6, 표 7 또는 표 8 중 임의의 것을 나타낼 수 있는 (세그먼트)의 그래프들이다.
도 7a는 키 요소들을 식별하는 제1 방법을 도시한 그래프이다. 키 요소들은 미리 결정된 임계치 이상을 나타내는 임의의 세그먼트를 선택함으로써 식별된다.
도 7b는 키 요소들을 식별하는 제2 방법을 도시한 그래프이다. 키 요소들은 로컬 최대치, 즉, 미리 결정된 임계치, Th 이상을 나타내는 "A", "B", "C"를 선택함으로써 식별된다.
도 7c는 키 요소들을 식별하는 제3 방법을 도시한 그래프이다. 키 요소들은 임계 기준에 대해 고려하지 않고 제1 N 로컬 최대치를 선택함으로써 식별된다.
상술된 키 요소들을 식별하고 도 7a 내지 도 7c를 참조하여 도시된 프로세스가 사용자 시청 프로파일에 따라 더 수정될 수 있다는 것을 알아야 한다. 추천 시스템들은 일반적으로 사용자들에 대해 공지된 정보에 기초하여 특정 사용자들에게 항목들을 추천함으로써 동작한다는 것이 널리 공지되어 있다. 일반적으로, 이러한 시스템들은 ,고객의 이전 시청 또는 구입 습관들에 기초하여 고객들의 프로파일들을 전개한다. 이러한 환경에서, 사용자의 시청 프로파일은 생성되고, 바람직하게 상술된 다른 사용자 프로파일 데이터와 함께 상기 사용자 선호 데이터베이스(117)에 저장된다. 그후, 사용자의 시청 프로파일은, 도 7a 내지 도 7c에 도시된 (중요 값) 대 (세그먼트)의 이전에 도시된 그래프를 고객의 시청 선호를 나타내는 제2 함수에 맵핑하기 위한 맵핑 함수를 생성하는데 사용될 수 있다. 이 프로세스는 선택사항이고 상기 양식들 중 임의의 또는 모두에 대해 구현될 수 있다.
분명하게, 본 발명의 다양한 수정들과 변경들이 상기 사상들에 비추어 가능하다. 따라서, 첨부된 청구항들의 범위 내에서 본 발명은 여기에 구체적으로 기재된 것 보다 다른 경우에도 실시될 수 있다는 것을 알아야 한다.
Claims (27)
- 적어도 하나의 멀티미디어 스트림(101, 102)을 요약하는 방법으로서:a) 비디오, 오디오 및 텍스트 정보를 포함하는 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 수신하고 검색하는 단계 중 한 단계;b) 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 비디오 서브-스트림(303), 오디오 서브-스트림(305) 및 텍스트 서브-스트림(307)으로 분할하는 단계;c) 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들로부터 비디오, 오디오 및 텍스트 키 요소들을 각각 식별하는 단계;d) 상기 단계(c)에서 식별된 상기 식별된 비디오, 오디오 및 텍스트 키 요소들에 대한 중요 값을 계산하는 단계;e) 연관된 중요 값이 미리 정의된 비디오, 오디오 및 텍스트 중요 임계치 미만인 그들의 키 요소들을 각각 제외하기 위해, 상기 식별된 비디오, 오디오 및 텍스트 키 요소들을 제1 필터링하는 단계;f) 사용자 프로파일에 따라 상기 단계(e)로부터 나머지 키 요소들을 제2 필터링하는 단계;g) 네트워크 및 사용자 디바이스 한계들에 따라 상기 단계 (f)로부터 상기 나머지 키 요소들을 제3 필터링하는 단계; 및h) 상기 단계(g)로부터 남은 상기 키 요소들로부터 멀티미디어 요약(120)을 출력하는 단계를 포함하는, 멀티미디어 스트림 요약 방법.
- 제1항에 있어서,상기 적어도 하나의 멀티미디어 스트림(101, 102)은 아날로그 및 디지털 멀티미디어 스트림 중 하나인, 멀티미디어 스트림 요약 방법.
- 제1항에 있어서,상기 적어도 하나의 멀티미디어 스트림(101, 102)을 비디오 서브-스트림(303)으로 분할하는 단계는 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 식별하고, 복수의 뉴스 스토리들(330)로 그룹화하는 단계를 더 포함하고, 각각의 식별된 뉴스 스토리(330)는 앵커부(311, 312) 및 보도부(321, 322)로 구성되는, 멀티미디어 스트림 요약 방법.
- 제1항에 있어서,상기 적어도 하나의 멀티미디어 스트림(101, 102)을 오디오 서브-스트림(305)으로 분할하는 단계는, 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 고정된 기간(time duration)의 복수의 동일-크기 프레임들(306)로 분할하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
- 제1항에 있어서,상기 적어도 하나의 멀티미디어 스트림(101, 102)을 텍스트 서브-스트림 (307)으로 분할하는 단계는, 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 복수의 프레임들(308)로 분할하는 단계를 더 포함하고, 상기 복수의 프레임들 각각은 워드 경계(boundary)로 정의되는, 멀티미디어 스트림 요약 방법.
- 제1항에 있어서,상기 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들로부터 비디오, 오디오 및 텍스트 키 요소들을 식별하는 단계는:1) 상기 비디오(303), 오디오(305), 및 텍스트(307) 서브 스트림들을 포함하는 상기 복수의 프레임들로부터 저 레벨(510), 중간 레벨(710) 및 고 레벨(910) 특징들을 식별하는 단계;2) 상기 식별 단계로부터 상기 추출된 저 레벨(510), 중간 레벨(710), 및 고 레벨(910) 특징들 각각에 대한 중요 값을 결정하는 단계;3) 상기 결정 단계에서 결정된 상기 특징 중요 값들의 중요 값들의 함수로, 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들을 포함하는 상기 복수의 프레임들 각각에 대한 프레임 중요 값을 계산하는 단계;4) 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들 각각에서 상기 프레임들을 세그먼트들로 조합하는 단계;5) 상기 조합 단계로부터 각각 세그먼트에 대한 세그먼트 당 중요 값을 계산하는 단계;6) 상기 계산 단계에서 상기 계산된 중요 값에 기초하여 상기 세그먼트들을 랭킹(ranking)하는 단계; 및7) 상기 랭킹된 세그먼트들에 기초하여 키 요소들을 식별하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
- 제6항에 있어서,상기 추출된 저 레벨(510), 중간 레벨(710) 및 고 레벨(910) 특징들 각각에 대한 프레임 중요 값을 계산하는 단계(3)는 결정적, 통계적 및 조건적 확률 수단 중 하나에 의해 상기 중요 값을 계산하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
- 제7항에 있어서,상기 확률적 수단은 가우시안(Gaussian), 푸아송(Poisson), 레일리(Rayleigh) 및 베르누이(Bernoulli) 분포 중 하나로 상기 프레임 중요 값을 계산하는 단계를 포함하는, 멀티미디어 스트림 요약 방법.
- 제7항에 있어서,상기 결정적 수단은,프레임 중요 = Σwifi로 상기 프레임 중요 값을 계산하는 단계를 포함하며,여기서, fi는 저 레벨, 중간 레벨, 및 고 레벨 특징들을 나타내고, wi는 상기 특징들을 가중하기 위한 가중 인자들을 나타내는, 멀티미디어 스트림 요약 방법.
- 제6항에 있어서,상기 프레임들을 비디오 세그먼트들로 조합하는 단계(4)는, 패밀리 히스토그램 계산 수단과 샷(shot) 변경 검출 수단 중 하나에 의해 상기 프레임들을 조합하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
- 제6항에 있어서,상기 프레임들을 오디오 세그먼트들로 조합하는 단계(4)는:스피치 프레임, 음악 프레임, 침묵 프레임, 잡음 프레임, 스피치+스피치 프레임, 스피치+잡음 프레임 및 스피치+음악 프레임 중 하나로서 상기 오디오 서브-스트림(305)으로부터 각각의 프레임을 카테고리화하는 단계; 및동일한 카테고리를 갖는 연속 프레임들을 그룹화하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
- 제6항에 있어서,상기 프레임들을 텍스트 세그먼트들로 조합하는 단계(4)는, 상기 텍스트 서브-스트림(307)에 포함된 구두점(punctuation)에 기초하여 상기 프레임들을 조합하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
- 제6항에 있어서,상기 세그먼트 당 중요 값을 계산하는 단계(5)는, 상기 세그먼트를 포함하는 그들의 프레임들에 대한 프레임 중요 값을 평균화하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
- 제6항에 있어서,상기 세그먼트 당 중요 값을 계산하는 단계(5)는, 상기 세그먼트에서 최고의 프레임 중요 값을 사용하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
- 제6항에 있어서,상기 랭킹에 기초하여 키 요소들을 식별하는 단계(7)는, 세그먼트 랭킹이 미리 정의된 세그먼트 랭킹 임계치를 초과하는 키 요소들을 식별하는 단계를 더 포함 하는, 멀티미디어 스트림 요약 방법.
- 제6항에 있어서,상기 랭킹에 기초하여 키 요소들을 식별하는 단계(7)는, 세그먼트 랭킹이 미리 결정된 세그먼트 랭킹 임계치를 초과하고 로컬 최대치를 구성하는 키 요소들을 식별하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
- 제6항에 있어서,상기 랭킹에 기초하여 키 요소들을 식별하는 단계(7)는, 세그먼트 랭킹이 로컬 최대치를 구성하는 키 요소들을 식별하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
- 적어도 하나의 멀티미디어 스트림(101, 102)을 요약하기 위한 시스템(100)으로서,스토리 세그먼트 식별자(SSI) 모듈(103a), 오디오 식별자(AI) 모듈(103b) 및 텍스트 식별자(TI) 모듈(103c)를 포함하는 양식 인식 및 분할(MRAD) 모듈(103)을 포함하며,상기 MRAD 모듈(103)은, 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 수신하기 위해 제1 외부 소스(110)에 통신 가능하게 결합되며, 적어도 하나의 멀티미디어 스트림(101, 102)을 수신하기 위해 제2 외부 소스(112)에 통신 가능하게 결 합되며, 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림으로 분할하고, 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들을 KEI 모듈(105)로 출력하며,상기 KEI 모듈(105)은 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들로부터 키 요소들을 식별하고 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들에 중요 값들을 할당하기 위해 특징 추출(FE) 모듈(107) 및 중요 값(IV) 모듈(109)을 포함하며, 상기 식별된 키 요소들을 수신하고 미리 결정된 임계치 기준을 초과하는 상기 키 요소들을 필터링하기 위해 키 요소 필터(KEF)(111)에 통신 가능하게 결합되며, 필터링된 키 요소들을 수신하고 사용자 프로파일에 따라 상기 필터링된 키 요소들을 더 필터링하기 위해 사용자 프로파일 필터(UPF)(113)에 통신 가능하게 결합되며,상기 UPF 모듈(113)은 네트워크 및 디바이스 한정(NADC) 모듈(115)에 통신 가능하게 결합되며, 상기 NADC 모듈(115)은 상기 더 필터링된 키 요소들을 수신하고, 네트워크 및/또는 사용자 디바이스 한정들에 따라 상기 더 필터링된 키 요소들을 더 필터링하며, 상기 적어도 하나의 멀티미디어 스트림(101, 102)의 멀티미디어 요약(120)을 출력하는, 멀티미디어 스트림 요약 시스템.
- 제19항에 있어서,사용자 프로파일들을 저장하기 위해 상기 UPF 모듈(113)에 통신 가능하게 결합되는 사용자 선호 데이터베이스(117)를 더 포함하는, 멀티미디어 스트림 요약 시 스템.
- 제19항에 있어서,상기 제1 외부 소스(110)는 방송 채널 선택기인, 멀티미디어 스트림 요약 시스템.
- 제19항에 있어서,상기 제1 외부 소스(110)는 비디오 스트리밍 소스인, 멀티미디어 스트림 요약 시스템.
- 제19항에 있어서,상기 적어도 하나의 멀티미디어 스트림(101, 102)은 아날로그 및 디지털 멀티미디어 스트림 중 하나인, 멀티미디어 스트림 요약 시스템.
- 제19항에 있어서,상기 NADC 모듈(115)은, 사용자 장치(124)에 결합된 외부 네트워크(122)에 통신 가능하게 결합되는, 멀티미디어 스트림 요약 시스템.
- 제19항에 있어서,상기 네트워크(122)는 인터넷인, 멀티미디어 스트림 요약 시스템.
- 적어도 하나의 멀티미디어 스트림(101, 102)을 요약하기 위한 제조 물품으로서,컴퓨터 판독 가능한 매체 상에 구현된 컴퓨터 판독 가능한 프로그램 코드 수단을 갖는 상기 컴퓨터 판독 가능한 매체를 포함하고, 상기 컴퓨터 판독 가능한 프로그램 코드 수단은:비디오, 오디오 및 텍스트 정보를 포함하는 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 수신하고 검색하는 단계 중 한 단계;상기 적어도 하나의 멀티미디어 스트림(101, 102)을 비디오 서브-스트림(303), 오디오 서브-스트림(305) 및 텍스트 서브-스트림(307)으로 분할하는 단계;상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들로부터 비디오, 오디오 및 텍스트 키 요소들을 각각 식별하는 단계;상기 식별 단계에서 식별된 상기 식별된 비디오, 오디오 및 텍스트 키 요소들에 대한 중요 값을 계산하는 단계;연관된 중요 값이 미리 정의된 비디오, 오디오 및 텍스트 중요 임계치 미만인 그들의 키 요소들을 각각 제외하기 위해, 상기 식별된 비디오, 오디오 및 텍스트 키 요소들을 제1 필터링하는 단계;사용자 프로파일에 따라 상기 제1 필터링 단계로부터 나머지 키 요소들을 제2 필터링하는 단계;네트워크 및 사용자 디바이스 한계들에 따라 상기 제2 필터링 단계로부터 상 기 나머지 키 요소들을 제3 필터링하는 단계; 및상기 제3 필터링 단계로부터 남은 상기 키 요소들로부터 멀티미디어 요약(120)을 출력하는 단계를 포함하는, 멀티미디어 스트림 요약 제조 물품.
- 제26항에 있어서,상기 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들로부터 비디오, 오디오 및 텍스트 키 요소들을 각각 식별하는 단계는:상기 비디오(303), 오디오(305), 및 텍스트(307) 서브 스트림들을 포함하는 상기 복수의 프레임들로부터 저 레벨(510), 중간 레벨(710) 및 고 레벨(910) 특징들을 식별하는 단계;상기 식별 단계로부터 상기 추출된 저 레벨(510), 중간 레벨(710), 및 고 레벨(910) 특징들 각각에 대한 중요 값을 결정하는 단계;상기 결정 단계에서 결정된 상기 특징 중요 값들의 중요 값들의 함수로, 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들을 포함하는 상기 복수의 프레임들 각각에 대한 프레임 중요 값을 계산하는 단계;상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들 각각에서 상기 프레임들을 세그먼트들로 조합하는 단계;상기 조합 단계로부터 각각 세그먼트에 대한 세그먼트 당 중요 값을 계산하는 단계;상기 계산 단계에서 상기 계산된 중요 값에 기초하여 상기 세그먼트들을 랭 킹하는 단계; 및상기 랭킹된 세그먼트들에 기초하여 키 요소들을 식별하는 단계를 더 포함하는, 멀티미디어 스트림 요약 제조 물품.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US48376503P | 2003-06-30 | 2003-06-30 | |
US60/483,765 | 2003-06-30 | ||
PCT/IB2004/051033 WO2005001715A1 (en) | 2003-06-30 | 2004-06-28 | System and method for generating a multimedia summary of multimedia streams |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060027377A true KR20060027377A (ko) | 2006-03-27 |
KR101150748B1 KR101150748B1 (ko) | 2012-06-08 |
Family
ID=33552073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020057025415A KR101150748B1 (ko) | 2003-06-30 | 2004-06-28 | 멀티미디어 스트림들의 멀티미디어 요약을 생성하기 위한시스템 및 방법 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7738778B2 (ko) |
EP (1) | EP1642212B1 (ko) |
JP (1) | JP2007519053A (ko) |
KR (1) | KR101150748B1 (ko) |
AT (1) | ATE347143T1 (ko) |
DE (1) | DE602004003497T2 (ko) |
ES (1) | ES2277260T3 (ko) |
WO (1) | WO2005001715A1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100803747B1 (ko) * | 2006-08-23 | 2008-02-15 | 삼성전자주식회사 | 요약 클립 생성 시스템 및 이를 이용한 요약 클립 생성방법 |
KR102124825B1 (ko) * | 2018-12-27 | 2020-06-19 | 주식회사 산타 | 자동적으로 영상을 트리밍하는 방법 및 그를 이용한 서버 |
Families Citing this family (94)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6769128B1 (en) | 1995-06-07 | 2004-07-27 | United Video Properties, Inc. | Electronic television program guide schedule system and method with data feed access |
EP1036466B1 (en) | 1997-07-21 | 2003-03-26 | E Guide, Inc. | Method for navigating within a television program guide having advertisements |
CN1867068A (zh) | 1998-07-14 | 2006-11-22 | 联合视频制品公司 | 交互式电视节目导视系统及其方法 |
US6898762B2 (en) | 1998-08-21 | 2005-05-24 | United Video Properties, Inc. | Client-server electronic program guide |
US9477665B2 (en) * | 1999-05-05 | 2016-10-25 | Virtual Creative Artists, LLC | Revenue-generating electronic multi-media exchange and process of operating same |
KR101399240B1 (ko) | 2000-10-11 | 2014-06-02 | 유나이티드 비디오 프로퍼티즈, 인크. | 매체 콘텐츠 배달 시스템 및 방법 |
US7493646B2 (en) | 2003-01-30 | 2009-02-17 | United Video Properties, Inc. | Interactive television systems with digital video recording and adjustable reminders |
JP2005277531A (ja) * | 2004-03-23 | 2005-10-06 | Seiko Epson Corp | 動画像処理装置 |
EP1784012A4 (en) * | 2004-08-10 | 2011-10-26 | Sony Corp | INFORMATION SIGNAL PROCESSING METHOD, INFORMATION SIGNAL PROCESSING DEVICE AND COMPUTER PROGRAM RECORDING MEDIUM |
US8266019B2 (en) * | 2004-12-22 | 2012-09-11 | Hewlett-Packard Development Company, L.P. | Optimizing retrieval of object-associated information |
US20060152504A1 (en) * | 2005-01-11 | 2006-07-13 | Levy James A | Sequential retrieval, sampling, and modulated rendering of database or data net information using data stream from audio-visual media |
DE102005016866A1 (de) * | 2005-04-12 | 2006-10-19 | Siemens Ag | Verfahren sowie Vorrichtung zum Synchronisieren von inhaltsbezogenen ersten Datensegmenten einer ersten Datendatei und inhaltsbezogenen zweiten Datensegmenten einer zweiten Datendatei |
JP4556752B2 (ja) * | 2005-04-18 | 2010-10-06 | 株式会社日立製作所 | コマーシャル視聴制御機能を有する録画再生装置 |
US7684566B2 (en) * | 2005-05-27 | 2010-03-23 | Microsoft Corporation | Encryption scheme for streamed multimedia content protected by rights management system |
US8321690B2 (en) | 2005-08-11 | 2012-11-27 | Microsoft Corporation | Protecting digital media of various content types |
EP1947847A4 (en) * | 2005-10-13 | 2012-11-07 | Pioneer Corp | PROGRAM AND DEVICE FOR REPRODUCING RECORDED DATA |
KR100703801B1 (ko) * | 2005-10-21 | 2007-04-06 | 삼성전자주식회사 | Av 태스크 계산 방법, av 태스크 계산을 위한 요약정보 제공 방법 및 이를 위한 장치 |
US7761293B2 (en) * | 2006-03-06 | 2010-07-20 | Tran Bao Q | Spoken mobile engine |
JP2007274556A (ja) * | 2006-03-31 | 2007-10-18 | Toshiba Corp | コンテンツデータ送信装置 |
US8392183B2 (en) * | 2006-04-25 | 2013-03-05 | Frank Elmo Weber | Character-based automated media summarization |
US20080222120A1 (en) * | 2007-03-08 | 2008-09-11 | Nikolaos Georgis | System and method for video recommendation based on video frame features |
KR100785927B1 (ko) | 2006-06-02 | 2007-12-17 | 삼성전자주식회사 | 데이터 요약 생성 방법 및 장치 |
US8094997B2 (en) * | 2006-06-28 | 2012-01-10 | Cyberlink Corp. | Systems and method for embedding scene processing information in a multimedia source using an importance value |
EP2041900A2 (en) * | 2006-07-04 | 2009-04-01 | Koninklijke Philips Electronics N.V. | Method of content substitution |
EP2041899A2 (en) * | 2006-07-04 | 2009-04-01 | Koninklijke Philips Electronics N.V. | Method of content substitution |
JP4835321B2 (ja) * | 2006-08-21 | 2011-12-14 | ソニー株式会社 | 番組提供方法、番組提供方法のプログラム、番組提供方法のプログラムを記録した記録媒体及び番組提供装置 |
US20080051029A1 (en) * | 2006-08-25 | 2008-02-28 | Bradley James Witteman | Phone-based broadcast audio identification |
US20080049704A1 (en) * | 2006-08-25 | 2008-02-28 | Skyclix, Inc. | Phone-based broadcast audio identification |
EP1919216A1 (en) * | 2006-10-30 | 2008-05-07 | British Telecommunications Public Limited Company | Personalised media presentation |
US8090694B2 (en) | 2006-11-02 | 2012-01-03 | At&T Intellectual Property I, L.P. | Index of locally recorded content |
US7801888B2 (en) | 2007-03-09 | 2010-09-21 | Microsoft Corporation | Media content search results ranked by popularity |
US10528629B2 (en) * | 2007-04-03 | 2020-01-07 | Oath Inc. | Systems and methods for providing syndicated content |
US20090019492A1 (en) | 2007-07-11 | 2009-01-15 | United Video Properties, Inc. | Systems and methods for mirroring and transcoding media content |
US20090060469A1 (en) * | 2007-08-31 | 2009-03-05 | United Video Properties, Inc. | Systems and methods for recording popular media in an interactive media delivery system |
JP2009124510A (ja) * | 2007-11-15 | 2009-06-04 | Canon Inc | 表示制御装置及びその方法、プログラム、記録媒体 |
JP5343861B2 (ja) * | 2007-12-27 | 2013-11-13 | 日本電気株式会社 | テキスト分割装置とテキスト分割方法およびプログラム |
FR2926695B1 (fr) * | 2008-01-21 | 2013-08-09 | Alcatel Lucent | Procede de preparation de contenus de programmes audiovisuels, et systeme associe |
DE102008018679B4 (de) * | 2008-04-14 | 2010-11-25 | Siemens Aktiengesellschaft | Vorrichtung zum Filtern und Übertragen dynamischer Daten und Verfahren zum Filtern und Übertragen dynamischer Daten |
US8655953B2 (en) * | 2008-07-18 | 2014-02-18 | Porto Technology, Llc | System and method for playback positioning of distributed media co-viewers |
US8818803B2 (en) * | 2008-10-27 | 2014-08-26 | Frank Elmo Weber | Character-based automated text summarization |
US10063934B2 (en) | 2008-11-25 | 2018-08-28 | Rovi Technologies Corporation | Reducing unicast session duration with restart TV |
EP2413592B1 (en) * | 2009-03-25 | 2016-08-31 | Fujitsu Limited | Playback control program, playback control method, and playback device |
US9014546B2 (en) | 2009-09-23 | 2015-04-21 | Rovi Guides, Inc. | Systems and methods for automatically detecting users within detection regions of media devices |
KR101786051B1 (ko) * | 2009-11-13 | 2017-10-16 | 삼성전자 주식회사 | 데이터 제공 방법 및 장치와 데이터 수신 방법 및 장치 |
US8495105B2 (en) * | 2009-12-22 | 2013-07-23 | International Business Machines Corporation | Consolidating input messages for social activity summarization |
US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
US20110191141A1 (en) * | 2010-02-04 | 2011-08-04 | Thompson Michael L | Method for Conducting Consumer Research |
JP2011205217A (ja) * | 2010-03-24 | 2011-10-13 | Sony Corp | 情報処理装置、情報処理方法、プログラム |
US20120183271A1 (en) * | 2011-01-17 | 2012-07-19 | Qualcomm Incorporated | Pressure-based video recording |
US9137573B2 (en) | 2011-06-06 | 2015-09-15 | Netgear, Inc. | Systems and methods for managing media content based on segment-based assignment of content ratings |
CN102982804B (zh) | 2011-09-02 | 2017-05-03 | 杜比实验室特许公司 | 音频分类方法和系统 |
US8909667B2 (en) | 2011-11-01 | 2014-12-09 | Lemi Technology, Llc | Systems, methods, and computer readable media for generating recommendations in a media recommendation system |
US8903911B2 (en) * | 2011-12-05 | 2014-12-02 | International Business Machines Corporation | Using text summaries of images to conduct bandwidth sensitive status updates |
US8805418B2 (en) | 2011-12-23 | 2014-08-12 | United Video Properties, Inc. | Methods and systems for performing actions based on location-based rules |
EP2739061A1 (en) * | 2012-11-30 | 2014-06-04 | Alcatel Lucent | Multi resolutions adaptive video summarization and its adaptive delivery |
US20140181668A1 (en) | 2012-12-20 | 2014-06-26 | International Business Machines Corporation | Visual summarization of video for quick understanding |
US20140201103A1 (en) * | 2013-01-14 | 2014-07-17 | National Cheng Kung University | System for research and development information assisting in investment, and a method, a computer program, and a readable and recordable media for computer thereof |
US9807474B2 (en) | 2013-11-15 | 2017-10-31 | At&T Intellectual Property I, Lp | Method and apparatus for generating information associated with a lapsed presentation of media content |
US9286938B1 (en) | 2014-01-02 | 2016-03-15 | Google Inc. | Generating and providing different length versions of a video |
US9940099B2 (en) * | 2014-01-03 | 2018-04-10 | Oath Inc. | Systems and methods for content processing |
US10664687B2 (en) * | 2014-06-12 | 2020-05-26 | Microsoft Technology Licensing, Llc | Rule-based video importance analysis |
US20160041998A1 (en) * | 2014-08-05 | 2016-02-11 | NFL Enterprises LLC | Apparatus and Methods for Personalized Video Delivery |
US20160267175A1 (en) * | 2014-08-27 | 2016-09-15 | Samsung Electronics Co., Ltd. | Electronic apparatus and method of extracting highlight section of sound source |
US10331398B2 (en) | 2015-05-14 | 2019-06-25 | International Business Machines Corporation | Reading device usability |
US10090020B1 (en) * | 2015-06-30 | 2018-10-02 | Amazon Technologies, Inc. | Content summarization |
US10158983B2 (en) | 2015-07-22 | 2018-12-18 | At&T Intellectual Property I, L.P. | Providing a summary of media content to a communication device |
US10769197B2 (en) * | 2015-09-01 | 2020-09-08 | Dream It Get It Limited | Media unit retrieval and related processes |
US10733231B2 (en) * | 2016-03-22 | 2020-08-04 | Sensormatic Electronics, LLC | Method and system for modeling image of interest to users |
US9965680B2 (en) | 2016-03-22 | 2018-05-08 | Sensormatic Electronics, LLC | Method and system for conveying data from monitored scene via surveillance cameras |
US10140259B2 (en) | 2016-04-28 | 2018-11-27 | Wipro Limited | Method and system for dynamically generating multimedia content file |
US10440431B1 (en) * | 2016-11-28 | 2019-10-08 | Amazon Technologies, Inc. | Adaptive and automatic video scripting |
US10783315B2 (en) * | 2016-12-15 | 2020-09-22 | Microsoft Technology Licensing, Llc | Contextually sensitive summary |
US10423409B2 (en) * | 2017-04-21 | 2019-09-24 | Semmle Limited | Weighting static analysis alerts |
US11363352B2 (en) | 2017-09-29 | 2022-06-14 | International Business Machines Corporation | Video content relationship mapping |
US10587919B2 (en) | 2017-09-29 | 2020-03-10 | International Business Machines Corporation | Cognitive digital video filtering based on user preferences |
EP3678036A4 (en) * | 2017-10-17 | 2020-07-08 | Sony Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM |
KR102542788B1 (ko) | 2018-01-08 | 2023-06-14 | 삼성전자주식회사 | 전자장치, 그 제어방법 및 컴퓨터프로그램제품 |
CN108650558B (zh) * | 2018-05-30 | 2021-01-15 | 互影科技(北京)有限公司 | 基于交互视频的视频前情提要的生成方法及装置 |
US20210144418A1 (en) * | 2018-08-10 | 2021-05-13 | Microsoft Technology Licensing, Llc | Providing video recommendation |
US20200186852A1 (en) * | 2018-12-07 | 2020-06-11 | Arris Enterprises Llc | Methods and Systems for Switching Between Summary, Time-shifted, or Live Content |
KR20200107758A (ko) * | 2019-03-08 | 2020-09-16 | 엘지전자 주식회사 | 음향 객체 추종을 위한 방법 및 이를 위한 장치 |
US11102523B2 (en) | 2019-03-19 | 2021-08-24 | Rovi Guides, Inc. | Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers |
US11039177B2 (en) * | 2019-03-19 | 2021-06-15 | Rovi Guides, Inc. | Systems and methods for varied audio segment compression for accelerated playback of media assets |
US10708633B1 (en) | 2019-03-19 | 2020-07-07 | Rovi Guides, Inc. | Systems and methods for selective audio segment compression for accelerated playback of media assets |
TWI716033B (zh) * | 2019-07-15 | 2021-01-11 | 李姿慧 | 影像配樂智能系統 |
CN111163366B (zh) * | 2019-12-30 | 2022-01-18 | 厦门市美亚柏科信息股份有限公司 | 一种视频处理方法及终端 |
US11308331B2 (en) * | 2019-12-31 | 2022-04-19 | Wipro Limited | Multimedia content summarization method and system thereof |
US11315568B2 (en) | 2020-06-09 | 2022-04-26 | International Business Machines Corporation | Summarizing multi-modal conversations in a multi-user messaging application |
US11675822B2 (en) * | 2020-07-27 | 2023-06-13 | International Business Machines Corporation | Computer generated data analysis and learning to derive multimedia factoids |
US11314970B1 (en) * | 2020-11-19 | 2022-04-26 | Adobe Inc. | Reinforcement learning techniques for automated video summarization |
CN113052149B (zh) * | 2021-05-20 | 2021-08-13 | 平安科技(深圳)有限公司 | 视频摘要生成方法、装置、计算机设备及介质 |
US11640418B2 (en) * | 2021-06-25 | 2023-05-02 | Microsoft Technology Licensing, Llc | Providing responses to queries of transcripts using multiple indexes |
CN113660541B (zh) * | 2021-07-16 | 2023-10-13 | 北京百度网讯科技有限公司 | 新闻视频的摘要生成方法及装置 |
US20230068502A1 (en) * | 2021-08-30 | 2023-03-02 | Disney Enterprises, Inc. | Multi-Modal Content Based Automated Feature Recognition |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5798785A (en) * | 1992-12-09 | 1998-08-25 | Discovery Communications, Inc. | Terminal for suggesting programs offered on a television program delivery system |
US6125229A (en) | 1997-06-02 | 2000-09-26 | Philips Electronics North America Corporation | Visual indexing system |
US6100941A (en) * | 1998-07-28 | 2000-08-08 | U.S. Philips Corporation | Apparatus and method for locating a commercial disposed within a video data stream |
CN1116649C (zh) * | 1998-12-23 | 2003-07-30 | 皇家菲利浦电子有限公司 | 个性化视频分类与获取系统 |
JP2002259720A (ja) * | 2001-03-02 | 2002-09-13 | Internatl Business Mach Corp <Ibm> | コンテンツ要約システム、映像要約システム、ユーザ端末、要約映像生成方法、要約映像受信方法、およびプログラム |
US20030107592A1 (en) | 2001-12-11 | 2003-06-12 | Koninklijke Philips Electronics N.V. | System and method for retrieving information related to persons in video programs |
-
2004
- 2004-06-28 US US10/562,538 patent/US7738778B2/en not_active Ceased
- 2004-06-28 DE DE602004003497T patent/DE602004003497T2/de not_active Expired - Fee Related
- 2004-06-28 EP EP04737196A patent/EP1642212B1/en not_active Expired - Lifetime
- 2004-06-28 WO PCT/IB2004/051033 patent/WO2005001715A1/en active IP Right Grant
- 2004-06-28 KR KR1020057025415A patent/KR101150748B1/ko not_active IP Right Cessation
- 2004-06-28 AT AT04737196T patent/ATE347143T1/de not_active IP Right Cessation
- 2004-06-28 JP JP2006518426A patent/JP2007519053A/ja not_active Withdrawn
- 2004-06-28 ES ES04737196T patent/ES2277260T3/es not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100803747B1 (ko) * | 2006-08-23 | 2008-02-15 | 삼성전자주식회사 | 요약 클립 생성 시스템 및 이를 이용한 요약 클립 생성방법 |
KR102124825B1 (ko) * | 2018-12-27 | 2020-06-19 | 주식회사 산타 | 자동적으로 영상을 트리밍하는 방법 및 그를 이용한 서버 |
Also Published As
Publication number | Publication date |
---|---|
DE602004003497D1 (de) | 2007-01-11 |
ATE347143T1 (de) | 2006-12-15 |
DE602004003497T2 (de) | 2007-09-13 |
WO2005001715A1 (en) | 2005-01-06 |
KR101150748B1 (ko) | 2012-06-08 |
JP2007519053A (ja) | 2007-07-12 |
EP1642212B1 (en) | 2006-11-29 |
US7738778B2 (en) | 2010-06-15 |
US20060165379A1 (en) | 2006-07-27 |
ES2277260T3 (es) | 2007-07-01 |
EP1642212A1 (en) | 2006-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101150748B1 (ko) | 멀티미디어 스트림들의 멀티미디어 요약을 생성하기 위한시스템 및 방법 | |
KR100711948B1 (ko) | 개인화된 비디오 분류 및 검색 시스템 | |
US9202523B2 (en) | Method and apparatus for providing information related to broadcast programs | |
US7356830B1 (en) | Method and apparatus for linking a video segment to another segment or information source | |
US7143353B2 (en) | Streaming video bookmarks | |
US20050028194A1 (en) | Personalized news retrieval system | |
US20030093580A1 (en) | Method and system for information alerts | |
US20030093794A1 (en) | Method and system for personal information retrieval, update and presentation | |
US20030101104A1 (en) | System and method for retrieving information related to targeted subjects | |
EP2159722A1 (en) | Display processing apparatus and display processing method | |
US20050165613A1 (en) | Methods for constructing multimedia database and providing mutimedia-search service and apparatus therefor | |
US20190082236A1 (en) | Determining Representative Content to be Used in Representing a Video | |
CN100505072C (zh) | 用于生成基于内容的内容表格的方法、系统和程序产品 | |
Jasinschi et al. | Automatic TV program genre classification based on audio patterns | |
Tseng et al. | Video personalization and summarization system | |
EP2902924A1 (en) | Method for automatically selecting a real-time video stream among a plurality of available real-time video streams, and associated system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
N231 | Notification of change of applicant | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |