KR101150748B1 - 멀티미디어 스트림들의 멀티미디어 요약을 생성하기 위한시스템 및 방법 - Google Patents

멀티미디어 스트림들의 멀티미디어 요약을 생성하기 위한시스템 및 방법 Download PDF

Info

Publication number
KR101150748B1
KR101150748B1 KR1020057025415A KR20057025415A KR101150748B1 KR 101150748 B1 KR101150748 B1 KR 101150748B1 KR 1020057025415 A KR1020057025415 A KR 1020057025415A KR 20057025415 A KR20057025415 A KR 20057025415A KR 101150748 B1 KR101150748 B1 KR 101150748B1
Authority
KR
South Korea
Prior art keywords
video
audio
text
key elements
sub
Prior art date
Application number
KR1020057025415A
Other languages
English (en)
Other versions
KR20060027377A (ko
Inventor
라리타 아그니호트리
네벤카 디미트로바
Original Assignee
아이피지 일렉트로닉스 503 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아이피지 일렉트로닉스 503 리미티드 filed Critical 아이피지 일렉트로닉스 503 리미티드
Publication of KR20060027377A publication Critical patent/KR20060027377A/ko
Application granted granted Critical
Publication of KR101150748B1 publication Critical patent/KR101150748B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234354Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering signal-to-noise ratio parameters, e.g. requantization
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2402Monitoring of the downstream path of the transmission network, e.g. bandwidth available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26208Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints
    • H04N21/26216Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints involving the channel capacity, e.g. network bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4755End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user preferences, e.g. favourite actors or genre
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6131Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via a mobile phone network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6582Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8453Structuring of content, e.g. decomposing content into time segments by locking or enabling a set of features, e.g. optional functionalities in an executable program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/165Centralised control of user terminal ; Registering at central
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • H04N7/17309Transmission or handling of upstream communications
    • H04N7/17318Direct or substantially direct transmission and handling of requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • H04N7/17309Transmission or handling of upstream communications
    • H04N7/17336Handling of requests in head-ends
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명의 시스템은 멀티미디어 요약을 생성하여, 비디오, 오디오 및 텍스트 정보의 일부 조합을 포함하는 하나 이상의 멀티미디어 입력 스트림들의 검토를 용이하게 하고 강화하며, 이로써 사용자가 멀티미디어 입력 스트림들의 시청을 양호하게 브라우징하고 그들 전체에서 멀티미디어 입력 스트림들의 시청을 결정할 수 있게 한다. 상기 멀티미디어 요약은 시스템 명세 사항들, 사용자 명세 사항들, 및 네트워크 및 디바이스 제약들에 일부 기초하여 자동으로 구성된다. 본 발명의 특정 애플리케이션에서, 입력 멀티미디어 스트림들은 뉴스 방송(예를 들면, 텔레비젼 뉴스 프로그램, 비디오 원형 피트길이)을 나타낸다. 이러한 특정 애플리케이션에서, 본 발명은, 사용자가 미리 제공된 사용자 선호들 및 우세한 네트워크 및 사용자 디바이스 제약에 따라 뉴스 스트림의 요약을 자동적으로 수신하도록 한다.
멀티미디어, 비디오, 오디오, 텍스트 정보, 요약, 네트워크 및 디바이스 제약

Description

멀티미디어 스트림들의 멀티미디어 요약을 생성하기 위한 시스템 및 방법{System and method for generating a multimedia summary of multimedia streams}
본 발명은 일반적으로 비디오 또는 모션 이미지들의 요약에 관한 것이며, 특히, 사용자가 방송 시청을 양호하게 브라우징하고 결정할 수 있도록 하기 위해 뉴스 방송의 멀티미디어 요약(비디오/오디오/텍스트)을 제공하기 위한 시스템 및 방법에 관한 것이다.
비디오 콘텐츠량은 증가하는 속도로 확장하고 있다. 동시에, 시청자들이 모든 원하는 비디오 콘텐츠를 소모하거나 다른 경우에 시청하는 가용 시간은 감소하고 있다. 비디오 콘텐츠의 증가량은 비디오 콘텐츠를 시청하는데 가용한 감소 시간과 연관되므로, 시청자들이 그 전체에서 잠재적으로 원하는 콘텐츠 모두를 시청하는데 점점 문제시되고 있다. 따라서, 시청자들은 시청을 선택하는 비디오 콘텐츠에 관해 점점 선택적이다. 시청자의 욕구를 도모하기 위해, 전체 비디오의 일부 방식으로 나타내는 비디오의 요약을 제공하는 기술들이 개발되어 왔다. 비디오 요약을 생성하기 위한 전형적인 목적은, 다음의 시청을 위해 원래 비디오의 간결한 표현을 얻는 것이다.
MITRE 사의 BNE(방송 뉴스 편집기) 및 BNN(방송 뉴스 네비게이터)에 의해 증명된 바와 같이(앤드류 멀리노, 다알 모레이, 및 마크 메이버리, MITRE 사, 베드포드 MA, "스토리 세그먼트화를 사용하는 방송 뉴스 네비게이션", ACM 멀티미디어 회의 회보, 1997년, 페이지 381-389), 자동화 스토리 세그먼트화 및 식별 분야에서 계속해서 진보가 이뤄지고 있다. 상기 BNE를 사용하여, 뉴스 방송은 개별 스토리 세그먼트들로 자동으로 분할되고, 상기 세그먼트와 관련된 폐쇄된-캡션 텍스트의 제 1 라인은 각각의 스토리의 요약으로서 사용된다. 상기 폐쇄된 캡션 텍스트 또는 오디오로부터 키워드들은 검색 워드를 매칭하는 각각의 스토리 세그먼트에 대해 결정된다. 키워드들에 매칭하는 발생 횟수에 기초하여, 사용자는 흥미있는 스토리를 선택한다. 유사한 검색과 탐색 기술들은 기술분야에서 일반화되고 있다. 예를 들면, 종래의 텍스트 검색 기술들은 컴퓨터-기반 텔레비젼 가이드에 적용될 수 있어서, 사람은 특정 쇼 제목, 특정 연기자, 특정 형태의 쇼 등을 검색할 수 있다.
일반적인 검색 및 탐색 기술들의 단점은, 명시된 검색 태스크 및 상기 명시된 검색에 기초한 대안들 중에서 대응하는 선택에 대한 필요성이다. 그러나, 종종 사용자는 명시된 검색 토픽을 생각하지 않는다. 일반적인 채널-서핑 시나리오에서, 사용자는 명시된 검색 토픽을 갖지 않는다. 채널-서핑 사용자는 특정 토픽을 구체적으로 검색하기 보다는 관심거리일 수 있는 복수의 토픽들 중 임의의 것에 대한 다양한 채널들을 랜덤하게 샘플링한다. 즉, 예를 들면, 사용자는 특정 토픽 없는 랜덤 샘플링을 초기화할 수 있고, 샘플링 시 상기 채널에 존재한 토픽에 기초하여 샘플링된 많은 채널들 중 하나를 선택할 수 있다. 다른 시나리오에서, 사용자는 독서 또는 요리와 같은 다른 작업을 수행하면서 배경 모드에서 텔레비젼을 모니터할 수 있다. 흥미있는 토픽이 나타날 때, 사용자는 그의 관심을 텔레비젼에 맞춘 다음, 흥미없는 토픽이 제공될 때 자신의 관심을 다른 작업으로 돌린다.
따라서, 특정 뉴스 토픽들을 검색하는 키워드들을 분명하게 사용해야 하는 사용자에 독립적인 비디오 스트림(뉴스 방송)의 비디오, 오디오 및 텍스트 부분들을 요약하는 멀티미디어 요약을 자동으로 생성하기 위한 기술이 매우 바람직하다.
본 발명은 종래 기술의 단점들을 극복한다. 일반적으로, 본 발명은, 사용자가 비디오 시퀀스들의 시청을 양호하게 브라우징하고 및/또는 그 전체에서 비디오 시퀀스들의 시청을 결정하게 하는 하나 이상의 입력 비디오 시퀀스들의 멀티미디어 요약을 생성하기 위한 시스템 및 방법에 관한 것이다. 상기 멀티미디어 요약은 시스템 명세 사항들, 사용자 명세 사항들 및 네트워크와 디바이스 제약들에 일부 기초하여 자동으로 구성된다. 본 발명의 특정 응용에서, 입력 비디오 시퀀스들은 뉴스 방송을 나타낸다.
본 발명의 하나의 특징은, PDA 및 셀 폰과 같은 대역폭 제약 장치들에서 개인용 컴퓨터들과 멀티미디어 워크스테이션들과 같은 대역폭 무제한 장치들까지 광범위한 장치들과 함께 사용하는데 적절한 입력 비디오 스트림의 멀티미디어 요약을 생성하는 것이다.
본 발명의 다른 특징은, 상기 멀티미디어 요약이 구성되는 방식에서 유연성을 제공하는 것이다. 즉, 본 발명은 특정 사용자의 시청 선호들을 적합하게 하기 위해 사용자가 상기 멀티미디어 요약을 커스터마이즈하게 한다. 특히, 사용자는, 예를 들면, 상기 멀티미디어 요약이 포괄적이거나 신속한지의 여부, 상기 멀티미디어 요약이 단일 리드 스토리의 요약 또는 최첨단 스토리들의 요약만을 포함해야 하는지의 여부, 상기 요약이 텍스트만, 오디오만 또는 비디오만 또는 그 조합만을 포함해야 하는지의 여부를 규정하는 하나 이상의 파라미터들을 제공할 수 있다. 사용자는 또한 상기 멀티미디어 요약에 포함하기 위해 입력 비디오 스트림으로부터 텍스트, 오디오 및 비디오의 적절한 부분들을 선택하기 위해 요약 시스템에 의해 이용될 하나 이상의 키워드 파라미터들을 제공할 수 있다.
본 발명의 하나의 특징에 따르면, 뉴스 방송의 멀티미디어 요약을 생성하는 방법으로서: 비디오, 오디오 및 텍스트 정보를 포함하는 상기 적어도 하나의 멀티미디어 스트림을 수신하고 검색하는 단계 중 한 단계; 상기 적어도 하나의 멀티미디어 스트림을 비디오 서브-스트림, 오디오 서브-스트림 및 텍스트 서브-스트림으로 분할하는 단계; 상기 비디오, 오디오 및 텍스트 서브-스트림들로부터 비디오, 오디오 및 텍스트 키 요소들을 각각 식별하는 단계; 상기 식별 단계에서 식별된 상기 식별된 비디오, 오디오 및 텍스트 키 요소들에 대한 중요 값을 계산하는 단계; 연관된 중요 값이 미리 규정된 비디오, 오디오 및 텍스트 중요 문턱값 미만인 그들의 키 요소들을 각각 제외하기 위해, 상기 식별된 비디오, 오디오 및 텍스트 키 요소들을 제 1 필터링하는 단계; 사용자 프로파일에 따라 상기 제 1 필터링 단계로부터 나머지 키 요소들을 제 2 필터링하는 단계; 네트워크 및 사용자 디바이스 제약들에 따라 상기 제 2 필터링 단계로부터 상기 나머지 키 요소들을 제 3 필터링하는 단계; 및 상기 제 3 필터링 단계로부터 남은 상기 키 요소들로부터 멀티미디어 요약을 출력하는 단계를 포함한다.
본 발명이 뉴스 방송에 특히 적합하지만, 본 발명의 원리는 또한 사용자가 다른 형태의 방송들의 멀티미디어 요약을 수신하게 한다. 예를 들면, 본 발명은 사용자가 양호하게 브라우징하고 그 전체에서 영화의 시청에 대해 결정하게 하도록 영화 비디오들의 멀티미디어 요약들에 적용 가능하다.
본 발명은 또한 상기 방법을 실행하기 위한 제조 물품을 포함한다. 본 발명의 다른 특징들과 장점들은 다음의 상세한 설명, 도면들, 및 첨부한 도면들과 관련하여 취해진 첨부한 청구항들을 통해 명백해질 것이다.
도 1은 본 발명에 따른 멀티미디어 요약 시스템의 예시적인 실시예의 개략도.
도 2는 본 발명에 따른 요약의 방법의 흐름도.
도 3은 전형적인 뉴스 방송의 예시적인 비디오 스트림을 도시한 도면.
도 4는 본 발명에 따라 키 요소들을 식별하는 방법의 흐름도.
도 5는 입력 멀티미디어 스트림으로부터 특징 추출과 특징들의 유도 프로세스의 예제 블록도.
도 6은 오디오 서브-스트림을 포함하는 시간 요소들이 세그먼트들을 형성하도록 그룹화될 수 있는 방법을 도시한 그래프.
도 7a 내지 도 7c는 키 요소들을 식별하는 다양한 방법들을 도시한 그래프들.
본 발명은 3개의 양식들(비디오, 오디오 및 텍스트)을 통해 하나 이상의 입력 멀티미디어 스트림들을 요약하기 위한 시스템 및 방법에 관한 것이다.
여기에 기재되는 예시적인 시스템 모듈들 및 방법들은 하드웨어, 소프트웨어, 펌웨어, 특수 목적 프로세서들, 또는 그의 조합의 다양한 형태들로 구현될 수 있다. 바람직하게, 본 발명은 하나 이상의 프로그램 저장 장치들에 대해 확실하게 실시되는 응용 프로그램으로서 소프트웨어로 구현된다. 상기 응용 프로그램은 임의의 기계, 장치 또는 적당한 아키텍처를 포함하는 플랫폼에 의해 실행될 수 있다. 첨부한 도면들에 도시된 구성한 시스템 모듈들과 방법들 일부가 바람직하게 소프트웨어로 바람직하게 구현되므로, 상기 시스템 구성요소들(또는 프로세스 단계들) 간의 실제 접속들이 본 발명이 프로그램되는 방식에 따라 상이할 수 있다는 것을 또한 알아야 한다. 여기의 가르침에 따라, 기술분야의 당업자는 본 발명의 이들과 유사한 구현들 또는 구성들을 예상하거나 실시할 수 있을 것이다.
본 발명은 본 발명의 프로세스들 중 임의의 것을 수행하기 위해 컴퓨터를 프로그램하는데 사용될 수 있는 그 위에 명령들이 저장되는 저장 매체(매체)인 컴퓨터 프로그램 제품을 포함한다. 상기 컴퓨터 프로그램 제품은 또한 데이터, 예를 들면, 본 발명의 프로세스들 중 임의의 것에 대응하는 입력 데이터를 포함할 수 있다. 상기 저장 매체는 플로피 디스크들, 광 디스크들, DVD, CD-ROM들, 마이크로드라이브, 및 자기-광 디스크들, ROM들, RAM들, EPROM들, EEPROM들, DRAM들, VARM들, 플래시 메모리 장치들, 자기 또는 광 카드들, 나노시스템들(분자 메모리 IC들)을 포함하는 임의의 형태의 디스크 또는 명령들 및/또는 데이터를 저장하는데 적당한 임의의 형태의 매체 또는 장치를 포함할 수 있지만, 이들에 한정되지 않는다.
상기 컴퓨터 판독 가능한 매체(매체들) 중 임의의 것에 저장되면, 본 발명은, 범용/특화된 컴퓨터 또는 마이크로프로세서의 하드웨어 모두를 제어하고 상기 컴퓨터 또는 마이크로프로세서가 본 발명의 결과를 이용하여 사람 사용자 또는 메카니즘과 상호 동작할 수 있게 하기 위한 소프트웨어를 포함한다. 이러한 소프트웨어는 디바이스 드라이버들, 운영 시스템들, 및 사용자 응용들을 포함할 수 있지만, 이들에 제약되지 않는다. 결과적으로, 이러한 컴퓨터 판독 가능한 매체는 상술된 바와 같이 본 발명을 수행하기 위한 소프트웨어를 더 포함한다.
시스템 아키텍처:
도 1을 참조하면, 본 발명에 따른 멀티미디어 요약 시스템(100)의 일 실시예의 개략적인 개요가 도시되어 있다. 한정되지 않은 예제로서, 상기 멀티미디어 요약 시스템(100)은, 다른 멀티미디어 응용들에 대해 여기에 제공되는 원리들의 확장들이 당업자에게 명백해질 것이지만, 뉴스 스토리들을 요약하기 위한 요약 시스템(100)의 배경에 제공될 것이다.
도 1에 도시된 본 실시예에서, 멀티미디어 요약 시스템(100)은 방송 채널 선택기(110), 예를 들면, 텔레비젼 튜너 또는 위성 수신기로부터의 입력으로서 멀티미디어 스트림(101)을 수신한다. 상기 시스템(100)은 또한 비디오 저장 유닛(112)으로부터 미리-저장된 멀티미디어 스트림(102)을 검색할 수 있다. 상기 시스템(100)은 또한 네트워크상의 서버와 같은 곳으로부터 비디오 스트림의 형태로 입력을 수신할 수 있다. 상기 멀티미디어 입력 스트림들(101, 102)은 디지털 또는 아날로그 형태일 수 있고, 방송은 점-대-점 통신들을 포함하는 상기 스트림들(101, 102)을 통신하는데 사용된 임의의 형태의 매체일 수 있다. 도 1에 도시된 본 실시예에서, 한정되지 않은 예제로서 상기 입력 멀티미디어 스트림들(101, 102)은 뉴스 방송들에 대응하고, 산재된 광고들 또는 상업용 광고들과 함께 다중 뉴스 스토리들을 포함한다. 상기 뉴스 방송은, 예를 들면, CNN 헤드라인 뉴스, NBC 야간 뉴스 등과 같은 특정 뉴스 프로그램을 나타낼 수 있다.
도 1에 도시된 본 실시예에서, 상기 멀티미디어 요약 시스템(100)은 상기 입력 멀티미디어 스트림들(101, 102)을 이하 비디오 서브-스트림(303), 오디오 서브-스트림(305) 및 텍스트 서브-스트림(307)이라 하는 3개의 양식들로 분할하기 위한 양식 인식 및 분할(Modality Recognition And Division; MRAD) 모듈(103)을 포함한다. 상기 MRAD 모듈(103)은 상기 입력 멀티미디어 스트림들(101, 102)을 처리하고 상기 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들을 각각 출력하기 위한 스토리 세그먼트 식별자(SSI) 모듈(103a), 오디오 식별자(AI) 모듈(103b), 및 텍스트 식별자(TI) 모듈(103c)을 포함한다. 상기 서브-스트림들(303, 305, 및 307)은 상기 각각의 서브-스트림들(303, 305, 307) 내로부터 키 요소들을 식별하기 위해 상기 MRAD 모듈(103)에서 키 요소 식별자(KEI) 모듈(105)로 출력된다. 상기 KEI 모듈(105)은 특징 추출(FE) 모듈(107), 및 중요 값(IV) 모듈(109)을 포함한다. 상기 KEI 모듈(105)의 기능성은 도 4 내지 도 7을 참조하여 이하 상세히 기재된다. 상기 KEI 모듈(105)의 출력은 이하 기재될 방식으로 상기 KEI 모듈(105)에 의해 식별되는 키 요소들을 필터링하는 상기 키 요소 식별자(KEF) 모듈(111)의 입력에 결합된다. 상기 KEF(111)로부터 출력된 생존하는 키 요소들은 미리 결정된 사용자 선호에 따라 상기 생존하는 키 요소들을 더 필터링하는 사용자 프로파일 필터(UPF)(113)에의 입력으로서 제공된다. 도시된 바와 같이, 상기 UPF 모듈(113)은 상기 미리 결정된 사용자 선호들을 저장하기 위한 하나 이상의 저장 장치들(즉, 사용자 선호 데이터베이스(117))에 결합된다. 상기 UPF 모듈(113)의 출력은 상기 네트워크 및 디바이스 제약(Network And Deivce Constraint; NADC) 모듈(115)의 입력에 결합되며, 일반적인 네트워크 조건들과 사용자 디바이스 제약들에 따라 상기 UPF 모듈(113)로부터 출력된 상기 생존하는 키 요소들을 더 필터링할 수 있다. 상기 NADC 모듈(115)은 본 발명의 상기 멀티미디어 요약(120)을 출력한다. 일반적으로, 상기 멀티미디어 요약은 인터넷, 인트라넷 또는 임의의 다른 적당한 네트워크와 같은 네트워크(122)를 통해 상기 요약 시스템(100)과 인터페이스하는, 클라이언트 장치(124)를 통해 원격 사용자에 의해 요청될 것이다. 상기 클라이언트 장치(124)는 네트워크(122)와 접속하고 이를 통해 데이터를 전송하도록 동작가능한 임의의 전자 장치일 수 있다. 예를 들면, 상기 클라이언트 장치(124)는 유선 디바이스(예를 들면, 개인용 컴퓨터, 워크스테이션, 또는 팩스) 또는 무선 디바이스(예를 들면, 랩탑, 개인용 휴대 정보 단말기(PDA), 이동 전화기, 페이저, 스마트폰, 착용 가능한 컴퓨팅 및 통신 장치 또는 통신기)를 포함할 수 있다.
동작:
본 발명의 멀티미디어 요약 방법의 일 실시예의 설명이 지금 도 1 내지 도 3을 참조하여 제공된다. 이 후에, 기재되는 방법과 관련된 다양한 단계들의 보다 상세한 설명들이 이하 더 제공될 것이다.
도 2는 본 발명의 일 실시예에 따라 요약의 방법을 도시한 흐름도이다.
단계(205)에서, 프로세스가 시작한다.
단계(210)에서, 상기 멀티미디어 요약 시스템(100)은 하나 이상의 멀티미디어 스트림들(101, 102)(예를 들면, 뉴스 방송들)을 입력으로서 검색 및/또는 수신한다.
단계 215에서, 상기 검색/수신된 입력 멀티미디어 스트림(101)은 3개의 양식들(즉, 비디오, 오디오 및 텍스트)에 따라 분할된다.
도 3a 내지 도 3d는 예로서 입력 멀티미디어 스트림(예를 들면, 스트림(101))이 상기 3개의 양식들에 따라 분할될 수 있는 방법을 도시한다.
도 3a는 전체에 분포된 비디오, 오디오 및 텍스트 성분들을 포함하는 입력 멀티미디어 스트림(101)(예를 들면, 뉴스 방송(101))의 일반적인 도면이다. 상술된 바와 같이, 상기 뉴스 방송은, 예를 들면, CNN 헤드라인 뉴스, NBC 야간뉴스 등과 같은 특정 뉴스 프로그램을 나타낼 수 있다.
도 3b-도 3d는 입력 비디오 스트림(101)이 3개의 양식들에 따라 분할되는 방법을 예시한다.
도 3b를 참조하면, 상기 비디오 양식에 따라, 뉴스 스토리 세그먼트화를 강조하도록 처리된 상기 입력 멀티미디어 스트림(101)을 나타내는 비디오 서브-스트림(303)이 도시된다. 도 3b의 상기 비디오 서브-스트림(303)은 상기 MRAD 모듈(103)의 상기 스토리 세그먼트 식별자(SSI) 서브-모듈(103a)로부터 출력되도록 도시된다. 상기 예시적인 비디오 서브-스트림(303)은 상기 SSI 서브-모듈(103a)에의해 40 개만이 설명 편의상 도시된 복수의 비디오 프레임들(예를 들면, 프레임들 1-25000)로 분할된다. 상기 분할은 뉴스 방송의 일반적인 구성에 기초한다. 즉, 일반적인 뉴스 방송은 스토리 세그먼트화에 특히 매우 적당한 공통 포맷에 따른다. 예를 들면, 첫 번째 또는 선두 스토리는 워싱턴에서의 정치 사건들에 관한 것일 수 있고, 두 번째 뉴스 스토리는 노동자 폭동 또는 빌딩 화재에 관한 것일 수 있다. 예를 들면, 도 3b에 도시된 바와 같이, 도입 프레임(301)(프레임 1) 이후에, 일반적으로 기자, 또는 앵커가 311(앵커 프레임들 2-4)을 나타내고 첫 번째 보도(321)(프레임들 5-24)에 도입한다. 상기 앵커 프레임들 2-4 및 뉴스 스토리 세그먼트 프레임들 5-24는 함께 제 1 뉴스 스토리(311, 321)라 한다. 뉴스 스토리 이후에, 상기 앵커는 제 2 뉴스 스토리(312, 322)라 하는 상기 제 2 보도(322)(프레임들 30-39)로 진입하기 위해 다시 출현한다(312)(앵커 프레임들 25-29). 광고로 산재된 앵커-스토리-앵커의 시퀀스는 뉴스 방송의 끝, 예를 들면, 프레임 2500 까지 반복한다. 동일한 무대 위치에서 상기 앵커(311, 312,...)의 반복된 출현은 일반적으로 각각의 보도 세그먼트의 시작과 이전의 뉴스 세그먼트 또는 광고의 끝을 분명하게 식별하는 기능을 한다. 또한, MPEG-7과 같은 표준들이 비디오 콘텐츠를 기재하도록 개발되므로, 비디오 스트림들이 상기 스트림들 내에 독립적인 세그먼트들의 시작과 끝을 식별하는 분명한 마커들을 포함할 것이라 예상될 수 있다.
뉴스 스토리 세그먼트들을 식별하는 하나의 방법은 참조로서 여기에 포함된, 엘렌바스, 제이. 에이치.; 디미트로바, 엔; 맥기, 티이; 심슨, 엠; 마티노, 제이; 압델 모타렙, 엠; 가레트, 엠; 람세이, 씨이; 데사이, 알에 의해 2000년 12월6일 발행된 제목 "개별화된 비디오 분류 및 검색 시스템"이라는 유럽특허공보 제 1 057 129 A1에 제공된다.
지금, 도 3c를 참조하면, 상기 오디오 서브-스트림(305)이 도시되어 있다. 상기 입력 멀티미디어 스트림(101)에서의 오디오 식별은, 상기 오디오 식별자 서브-모듈(103b)이 예시적인 실시예에서 오디오 경계, 예를 들면, 20ms를 사전 선택하고, 상기 오디오 서브-스트림(305)을 구성하기 위해 시작부터 끝까지 상기 입력 멀티미디어 스트림(101)을 복수의 20ms TIME 프레임들(304)로 분할한다는 점에서 비교적 수월하다.
도 1을 다시 참조하여, 입력 멀티미디어 스트림(101)은 상기 MRAD 모듈(103)에 의해 수신되고 상기 오디오 서브-스트림(305)을 출력하기 위해 상기 오디오 식별자(AI) 서브-모듈(103b)에 의해 처리된다.
지금, 도 3d를 참조하면, 상기 텍스트 서브-스트림(307)이 도시되어 있다. 텍스트 식별은 상기 텍스트 서브-스트림(307) 내에 식별된 워드 경계들에 대해 프레임(308)을 규정한다는 점에서 비교적 수월하다.
도 1을 다시 참조하면, 입력 멀티미디어 스트림(101)은 상기 MRAD 모듈(103)에 의해 수신되고 상기 텍스트 서브-스트림(307)을 출력하기 위해 상기 텍스트 식별자(TI) 서브-모듈(103c)에 의해 처리된다. 그 다음, 상기 MRAD 모듈(103)로부터 출력되는 상기 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들은 상기 키 요소 식별 KEI 모듈(105)에 입력 스트림들로서 제공된다.
단계(220)에서, 키 요소 식별 분석은 각각의 서브-스트림 내에 키 요소들을 식별하기 위해 상기 입력 서브-스트림들(301, 303, 305)에 대해 상기 KEI 모듈(105)에 의해 수행된다. 키 요소는 이하 더 기재될 소정의 기준에 부합하거나 초과하는 서브-스트림(303, 305, 307)의 '세그먼트'로서 일반적으로 규정될 수 있다.
단계(225)에서, 단계(220)에서 식별된 이들 키 요소들은 더 필터링되며, 소정의 기준에 부합하거나 초과하는 단계(220)에서의 중요 값을 계산한 이들 키 요소들만이 보유된다. 도 1의 상기 키 요소 필터(KEF) 모듈(111)은 필터링 프로세스를 수행한다.
단계(230)에서, 도 1의 상기 사용자 프로파일 필터(UPF) 모듈(113)은, 사용자가 바람직하게 상기 사용자 선호 데이터베이스(117)에 저장된 복수의 사용자 개별화 파라미터들로 구성된 사용자 프로파일을 미리 제공하였는지를 우선 결정한다. 단계(232)에서, 사용자 프로파일이 존재하면, 단계(225)에서 그들의 생존하는 키 요소들을 더 필터링하는데 사용될 것이다.
상기 사용자 프로파일은 복수의 사용자 제공된 개별화(선호) 파라미터들로 구성될 수 있다. 상기 파라미터들은, 상기 멀티미디어 요약(120)이 제공되는 방법에 관한 사용자의 특정 개별화 선호들을 나타내기 위해 동작 시간에서 제공될 수 있거나 바람직하게 상기 UDF(109)에 의해 상기 사용자 선호 데이터베이스(117)로부터 검색될 수 있다. 상기 개별화 파라미터들이 상기 사용자 선호 데이터베이스(117)로부터 검색되는 경우, 상기 시스템의 사용자들은 일반적으로 구성 단계 동안에 상기 시스템(100)에 따라 그들의 선호들을 저장할 것이다. 상기 개별화 파라미터들은, 상기 멀티미디어 요약(120)이 상기 사용자의 특정 시청 선호들에 개별화되는 방법을 어느 정도 결정한다.
사용자에 의해 제공되는 상기 개별화 파라미터들은, 예를 들면,
? 상기 멀티미디어 요약(120)이 포괄적이거나 신속한지의 여부
? 상기 멀티미디어 요약(120)이 텍스트만, 오디오, 정지 화상들, 비디오 또는 그 조합들을 포함해야 하는지의 여부
? 신규 비디오들을 위한 시청과 같이 수행될 임무들 대 이미 상영된 영화의 복원
? 상기 요약(120)이 표시될 발생지(즉, 배경)
? 상기 멀티미디어 요약(120)이 표시될 일, 주, 년의 시간
? 하나 이상의 "키워드" 개별화 파라미터들은 사용자(예를 들면, 사람들, 장소들 또는 물건들)에 관심대상인 특정 항목들을 식별하기 위해 사용자에 의해 제공될 수 있다. 하나의 예제로서, 사용자는 선택된 키워드들을 강조하는 뉴스 스토리 세그먼트들을 배치하기 위해 상기 비디오 요약 시스템(100)에 의해 이용될 키워드들 "정치" 및 "야구"를 규정한다.
예제만으로, 사용자가 상기 멀티미디어 요약(120)이 오디오 요약에만 한정되는 것을 선호하면, 최고 순위의 오디오 세그먼트는 상기 오디오 서브-스트림(305)으로부터 선택되고 상기 사용자에게 제공될 수 있다. 다른 예제로서, 상기 사용자가 신속한 멀티미디어 요약(120)(예를 들면, 2분 뉴스 요약)의 시청을 선호하면, 사용자가 관심있는 뉴스 스토리들은 사용자 프로파일 선호에 따라 그리고 최고 순 위의 비디오, 오디오 및 텍스트 세그먼트들만이 시간-제한 멀티미디어 요약(120)을 구성하기 위해 상기 각각의 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들로부터 선택되는 각각의 선택된 뉴스 스토리 내로부터 선택된다.
단계(235)에서, 사용자 프로파일 필터링의 이전 단계에 생존하는 그들의 키 요소들은 네트워크 및 디바이스 제약들에 의해 지금 더 필터링된다. 구체적으로, 상기 네트워크 및 디바이스 제약(NADC) 모듈(113)은, 상기 멀티미디어 요약(120)이 전송될 네트워크의 임의의 네트워크 대역폭 제약들을 고려하고 사용자의 시청 장치와 관련된 그들의 제약들을 고려한다. 단계(230)로부터 생존하는 키 요소들은 기재될 임의의 공지된 네트워크 및 디바이스 제약들에 따라 수정된다.
상기 멀티미디어 요약(120)이 인터넷과 같이 네트워크를 통해 전송되는 일반적인 경우에서, 상기 디바이스 제약들과 허용 전송 대역폭은 전송될 상기 멀티미디어 요약(120)의 품질과 양을 어느 정도 지시할 것이다. 비디오의 고유 대역폭 요구로 인해, 상기 멀티미디어 요약(120)은 상기 멀티미디어 요약(120)의 비디오 부분의 품질 및/또는 양에서 일반적으로 제한될 것이다. 비교적으로, 상기 멀티미디어 요약(120)의 상기 오디오 및 텍스트 부분들은 유사한 제약들을 경험하지 않을 것이다.
무선 네트워크들은 일반적인 한정된 대역폭 응용을 나타낸다. 이러한 한정된 대역폭 조건들은 낮은 대역폭 데이터 채널의 사용에 의해 지시된 직접적인 기술적 제약들 또는 높은 공동 사용자 로드에 의한 비교적 높은 대역폭 채널들에 부과되는 간접적인 제약들로 인해 존재할 수 있다. 상기 네트워크 대역폭은 네트워크의 현재 상태를 결정하기 위해 실시간으로 투명한 방식으로 감시될 수 있다는 것을 알아야 한다. 상기 멀티미디어 요약은 일반적인 네트워크 조건에 따라 수정될 수 있다. 예를 들면, 복잡한 네트워크 조건인 경우, 상기 멀티미디어 요약(120)은 단계 235로부터 각각의 생존하는 키 요소의 비디오 품질을 한정함으로써 제한될 수 있다.
디바이스 제약 고려사항들에 관해서는, 셀룰러 접속된 PDA들과 웹폰들은 처리 전력, 디스플레이 능력들, 메모리, 운영 시스템들 등에서 특성적으로 한정되는 장치들의 예제들이다. 이들 제약들의 결과로서, 이들 장치들은 비디오 데이터를 수신하며, 처리하고 표시하는 다른 능력들을 갖는다. 상기 멀티미디어 요약(120)은 비디오 해상도, 비트 레이트 등을 제한함으로써 디바이스 제약들을 도모하도록 조정될 수 있다.
상기 사용자 장치가 텍스트만을 제공할 수 있다면, 최고 순위의 텍스트 세그먼트들은 뉴스 스토리들 각각에 대해 선택되고 상기 장치에 전송된다.
단계(240)에서, 단계(235)에서 생존한 그들의 키 요소들로 구성된 상기 멀티미디어 요약(120)은 상기 사용자에게 전송된다.
이 논의는 상기 멀티미디어 비디오 요약 시스템과 방법의 개요를 결론짓는다. 상기 방법의 다양한 특징들의 동작의 더 상세한 설명이 지금 제공될 것이다.
본 발명의 방법의 실시예의 최상의 설명이 상기 각각의 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들로부터 키 요소들의 식별에 관한 단계(220)를 포함하는 도 2의 흐름도를 참조하여 제공되었다. 단계(220), 키 요소 식별의 더 상세한 설명이 도 3 내지 도 6을 참조하여 지금 기재된다.
지금, 도 2의 흐름도의 단계(220)를 포함하는 단계들의 상세한 흐름도인 도 4 및 한정되지 않은 예제만으로 추가 설명하는 도면인 도 5를 또한 참조하여, 상기 3개의 양식들에서, 상기 각각의 서브-스트림들(303, 305, 307)로부터 특징들의 추출과 유도를 포함하는 특징 추출의 프로세스가 기재된다.
단계 220.a - 특징 추출
단계(220.a)에서, 특징 추출이 수행되며, 저 레벨(510), 중간 레벨(710), 및 고 레벨(910) 특징들은 상기 각각의 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들 각각에서 각 프레임으로부터 추출된다. 상기 예시적인 비디오 서브-스트림(303)에 관해서, 비디오 서브-스트림(303)을 구성하는 2500 비디오 프레임들 각각에서 특징 추출이 수행되고, 설명의 간소화를 위해 그중 40개가 도시된다. 유사하게, 상기 오디오 서브-스트림(305)에 관해서, 상기 오디오 서브-스트림(305, 12)을 구성하는 8000 오디오 프레임들(306)(도 3c) 각각에서 특징 추출이 수행되고, 설명의 간소화를 위해 그중 12개가 도시된다. 유사한 방식으로, 상기 텍스트 서브-스트림(307)에 관해서, 상기 텍스트 서브-스트림(307)을 구성하는 6500 텍스트 프레임들(308)(도 3d) 각각에서 특징 추출이 수행되고, 설명의 간소화를 위해 그중 5개가 도시된다.
상기 각각의 서브-스트림들(비디오, 오디오, 텍스트) 각각에서 프레임들로부터 추출될 수 있는 저, 중간 및 고 레벨 특징들의 일부 예제들이 지금 기재된다.
한정되지 않은 예제로서, 상기 비디오 서브-스트림은 다음의 저(503), 중간(505) 및 고(507) 레벨 비쥬얼 모드 특징들을 포함할 수 있다. 즉,
저 레벨 비쥬얼 모드 특징들(503)은 동작 값(프레임 동안의 글로벌 모션 또는 비디오 세그먼트), 하나의 프레임에서 총 에지 수 및 우세한 컬러를 포함할 수 있다.
중간 레벨 비쥬얼 모드 특징들(703)은 상기 추출된 저 레벨 비쥬얼 모드 특징들(503)로부터 유도되고, 패밀리 히스토그램들, 카메라 동작, 프레임 묘사, 오버레이된 텍스트의 존재, 및 다른 물체 검출기들을 포함할 수 있다.
고 레벨 비쥬얼 모드 특징들(903)은 상기 유도된 중간 레벨 비쥬얼 모드 특징들로부터 유도되고 앵커 프레임, 보도 프레임, 내부 프레임, 외부 프레임, 자연 프레임, 그래픽 프레임, 풍경 프레임, 및 도시풍경 프레임을 포함할 수 있다.
한정되지 않은 예제로서, 상기 오디오 서브-스트림(305)은 다음의 저 레벨(505), 중간 레벨(705) 및 고 레벨(905) 오디오 모드 특징들을 포함할 수 있다. 즉,
저 레벨 오디오 모드 특징들(505)은, 예를 들면, MFCC, LPC, 평균 에너지, 대역폭, 피치 등을 포함할 수 있다.
중간 레벨 오디오 특징들(705)은 상기 추출된 저 레벨 오디오 모드 특징들(505)로부터 유도되고, 예를 들면, 오디오의 스피치, 음악, 침묵, 잡음, 스피치+스피치, 스피치+잡음, 및 스피치+음악으로의 분류를 포함할 수 있다.
고 레벨 오디오 모드 특징들(905)은 상기 이전에 유도된 중간 레벨 오디오 특징들(705)로부터 유도되고, 예를 들면, 관중 응원, 연설, 웃음, 폭발, 사이렌 등 을 포함할 수 있다. 이는 또한 스피치 대 텍스트 사본을 포함할 수 있다.
한정되지 않은 예제로서, 상기 텍스트 서브-스트림(307)은 다음의 저 레벨(507), 중간 레벨(707), 및 고 레벨(907) 텍스트 모드 특징들을 포함할 수 있다. 즉,
저 레벨 텍스트 모드 특징들(507)은, 예를 들면, 키워드들, 실마리들, 성명들, 장소들 등의 존재를 포함할 수 있다.
중간 레벨 텍스트 모드 특징들(707)은 상기 저 레벨 오디오 모드 특징들(507)로부터 유도되고, 예를 들면, 토픽들, 카테고리들, 중요한 명사들을 포함할 수 있다.
고 레벨 텍스트 모드 특징(907)은 상기 유도된 중간 레벨 텍스트 모드(707) 특징들로부터 유도되고, 질의/응답의 한 구절, 말하는 사람, 즉, 뉴스 레포터 대 앵커 대 손님 등의 추론을 포함할 수 있다.
도 5는 한정되지 않은 예제로서, 상기 3개의 양식들 각각에서 상기 각각의 서브-스트림들(303, 305, 307)로부터 특징들의 추출과 편이를 포함하는 특징 추출의 프로세스를 더 도시한 도면이다. 도시된 바와 같이, 에지, 모양, 컬러(503)과 같은 저 레벨 비디오 특징들(510)은 상기 비디오 서브-스트림(303)로부터 추출된다. 그 다음, 하나 이상의 추출된 저 레벨 비디오 특징들(503)은 비디오텍스트, 얼굴, 패밀리 히스토그램들(703)과 같은 하나 이상의 중간 레벨 특징들(703)을 유도하는데 사용될 수 있다. 그래서, 상기 중간 레벨 특징들(703)은 앵커 프레임, 보도 프레임, 내부 프레임 등과 같은 하나 이상의 고 레벨 비쥬얼 특징들(903)을 유도하는데 번갈아 사용될 수 있다.
상기 중간 레벨 비쥬얼 특징(703)의 하나의 요소로서 도시된 '패밀리 히스토그램들'을 참조하여, 이 특징의 편이 및 사용은 특히 상기 비디오 서브-스트림(303)을 이하에 더 기재될 '세그먼트들'로 세분화하는데 사용된다는 점이다. 컬러는 비디오에서 우세한 특징이고 인식 관점으로부터 비디오를 세분화하는데 도움이 된다. 추가적으로, 패밀리 히스토그램의 기간은 또한 기재될 비디오 세그먼트의 계산된 '중요 값'에 직접 맵핑한다.
상기 비디오 서브-스트림(303)의 상기 추출된 저 레벨 비쥬얼 특징들로부터 패밀리 히스토그램들을 유도하는 프로세스는 상기 비디오 서브-스트림(303)의 각 비디오 프레임의 분석을 포함한다. 상기 분석은 각 비디오 프레임의 컬러 정보를 컬러 양자화 빈로 양자화하도록 수행된다. 단순 9-빈 양자화 컬러 히스토그램은 상기 키 요소들을 식별하는데 충분하도록 실험적으로 결정되었다. 이 방법의 변경예에서, 더 복잡한 256-빈 컬러 히스토그램은 응용에 따라 사용될 수 있다. 상기 단순 9-빈 양자화 컬러 히스토그램 방법은, 뉴스 스토리 세그먼트 내에 포함된 각각의 패밀리 세그먼트에 대해 프레임별로 컬러 변경의 약간의 차이만이 있을 것이라고 가정한다. 이는, 키 요소에 대해 프레임별로 실질적인 프레임 유사성이 있는 것으로 가정하므로 사실이다. 분명한 컬러 변경들은, 하나의 패밀리 세그먼트의 끝 그리고 다른 것의 시작을 가리키는 장면 변경이 발생할 때 하나의 프레임에서 다음 프레임으로 발생할 것이다. 상기 컬러 히스토그램 방법은 하나의 프레임에서 다음 프레임으로 컬러 히스토그램 값들의 선명한 명암 대비에 의해 분명한 컬러 변 경들(즉, 저 레벨 특징)을 검출한다.
비디오 프레임들 간의 유사성의 정도를 찾기 위해, 실험들은 복수의 히스토그램 차이 측정에 따라 수행되었다. 패밀리 히스토그램 계산 단계에서, 각각의 비디오 프레임 동안에, 히스토그램이 계산된 다음, 가장 근접한 패밀리 히스토그램 매치를 찾기 위해 이전에 계산된 패밀리 히스토그램들로 검색이 이뤄진다. 현재의 히스토그램(Hc) 및 이전의 패밀리 히스토그램들(Hp) 간의 비교는 히스토그램 차이(D)를 계산하기 위한 다음의 방법들 중 하나를 사용하여 계산될 수 있다.
(1) L1 거리 측정을 사용하여 히스토그램 차이는 다음의 수학식 1을 사용하여 계산된다.
Figure 112005078271330-pct00001
여기서, N은 사용된 총 컬러 빈들의 수(여기서, 9)이다. 상기 수학식을 사용하여 구해진 값들은 0과 각 이미지들에서 최대 픽셀 수의 2배 사이의 범위에 있다. 유사성의 비율을 얻고 싶기 때문에, 총 픽셀 수에 따라 분할함으로써 상기 값을 정규화한다. 상기 정규화된 값들은 0과 1 사이에 있고, 여기서, 0에 가까운 값들은, 이미지들이 유사하다는 것을 의미하고, 1에 가까운 값들은, 이미지들이 유사하지 않다는 것을 의미한다.
(2) L2 거리 측정을 사용하여 히스토그램 차이는 다음의 수학식 2를 사용하여 계산된다.
Figure 112005078271330-pct00002
경우 (1)과 유사하게, D의 값들을 정규화한다.
(3) 히스토그램은 다음의 수학식 3을 사용하여 계산된다.
Figure 112005078271330-pct00003
상기 수학식 3을 사용하여 구해진 값들은 0과 1 사이에 있다. 0에 가까운 값들은, 이미지들이 유사하지 않다는 것을 의미하고, 1에 가까운 값들은, 이미지들이 유사하다는 것을 의미한다. 유사성의 동일한 해석과 히스토그램들을 비교하기 위해, 거리 측정으로서 D=1-I을 사용한다.
(4) 2개의 이미지 히스토그램들에 대한 카이-제곱 시험(Chi-Square test)이 다음의 수학식 4를 사용하여 계산된다.
Figure 112005078271330-pct00004
이 경우에, 상기 값들은 0과 컬러 빈들의 수의 범위에 있어서, N, 즉,
Figure 112005078271330-pct00005
에 따라 정규화한다.
(5) 빈-와이즈 히스토그램 교차는 수학식 5를 사용하여 계산된다.
Figure 112005078271330-pct00006
히스토그램 교차와 유사하게, 더 낮은 값들은 비유사성을 의미하고 더 높은 값들은, 이미지들이 유사하다는 것을 의미한다. 이전의 측정들과 일치하도록, 거리는 D=1-B/N을 사용하여 계산된다.
히스토그램 정보를 사용하는 컬러 인덱싱 방법들은 기술분야(예를 들면, 1995년 엠, 스트릭커 및 엠. 오렌고에 의해 이미지 및 비디오 데이터베이스 II에 대한 저장과 검색에 대한 IS&T/SPIE 컨퍼런스의 proc.에서 Vol. SPIE 2420의 제목 "컬러 이미지들의 유사성" 참조)에 공지되어 있다.
단계(220.b) - 특징 중요 값들의 할당
단계(220.b)에서, 상기 각각의 서브-스트림들(303, 305, 307) 각각으로부터 각 프레임에서 단계(220a)에서 추출된 이들 중간(710) 및 고(910) 레벨 특징들은 지금 대응하는 특징 중요 값으로 할당된다. 이산 및/또는 연속 특징 분석 방법들은 이러한 중요 값들을 지정하도록 사용될 수 있다. 상기 이산 경우에서, 상기 특징 분석 방법은 특징의 존재 또는 부재를 가리키는 이산 중요 값(즉, 존재하지 않은 특징에 대한 존재/0에 대한 중요 값 =1) 또는 (상기 멀티미디어 요약(120)에의 포함을 위해 바람직한 경우 중요 값 =1, 요약(120)에서 바람직하지 않은 경우 0, 및 그 사이인 경우 .5)을 출력한다. 하나의 예제로서, 상기 멀티미디어 요약(120)에서 '얼굴들'을 갖는 것이 바람직하므로, 1의 특징 중요 값은, 하나 또는 두 얼굴들이 존재하면 지정될 수 있으며, 0의 값은 얼굴이 존재하지 않고 지정될 수 있고 .5의 값은 둘 이상의 얼굴들이 존재하는 경우 지정될 수 있다. 다른 이산 예제는 앵커의 존재에 대해 0을 지정하고 보도 일절의 존재에 대해 1을 지정할 수 있다. 다른 이산 예제는, 기간이 뉴스 스토리의 총 기간의 n% 보다 작은 패밀리 히스토그램에 속하면 하나의 프레임 동안 0을 지정하고 다른 경우에 1의 값을 지정한다. 여기서, n은 10 등으로 설정될 수 있다.
상기 오디오 서브-스트림(305)에 관해서, 상기 멀티미디어 요약(120)에서 스피치를 갖는 것이 바람직하여, 중요 값은 스피치의 존재에 대해 1, 잡음 및 침묵에 대해 0, {음악, 스피치+음악, 스피치+스피치, 스피치+잡음)에 대해 .5으로 설정될 수 있다.
상기 텍스트 서브-스트림(307)에 관해서, 성명 또는 중요 키워드가 있다면, 상기 중요 값은 1로 설정될 수 있고, 다른 경우에 0으로 설정된다.
연속 경우에서, 패밀리 히스토그램인 경우, 상기 중요 값은 세그먼트의 기간에 설정될 수 있고 프레임은 뉴스 스토리의 총 기간에 의해 분할되는 것에 속한다.
대안적으로, 상기 연속 경우에서, 상기 특징 분석 방법들은 확률 분포를 사용하여 중요 값들을 지정된 특징들에 지정한다. 상기 확률 분포는, 상기 특징이 상기 요약에서 존재되는 확률을 제공한다. 상기 방법과 함께 사용되는 상기 특징 분석 방법들은 0에서 1까지의 범위일 수 있는 확률 값을 출력할 수 있으며, 특징의 존재에 관한 신뢰도를 나타낸다.
상기 연속 경우에서 중요 값들을 유도하기 위한 확률 분포는 정규 가우시안 분포로부터 유도될 수 있다. 대안적으로, 상기 중요 값들은 또한 푸아송, 레일리, 또는 베르누이 분포들로서 맵핑될 수 있다. 수학식 2는 예제로 정규 가우시안 분포로서 프레임 동안 특징 값을 계산하는 하나의 방법을 나타낸다.
Figure 112005078271330-pct00007
여기서, S는 특징이 상기 요약에 있는 확률이며, 일반적으로, θ는 임의의 특징들을 나타내고, θ1은 상기 특징 값의 평균값이고, θ2는 예상 편이이다.
하나의 예제로서, "얼굴들"이 고려될 중간 레벨 비디오 특징을 나타내면, 즉, 수학식 6에서 θ로서 나타내면, 매우 작고 매우 큰 얼굴들은 드물게 나타날 것이다. 종종, "얼굴"이 비디오 스트림에서 나타날 때마다, 일반적으로 스크린 높이의 실질적으로 50%의 높이로 제공된다. 이 경우, 예를 들면, θ1은 .5(평균)과 동일하고 θ2는 2와 동일하다. 최대 추정 방법은 파라미터들 θ1 및 θ2를 결정하는데 사용될 수 있는 것을 알아야 한다.
상기 특징들 각각이 상기 멀티미디어 요약(120)에서 잠재적 선택을 위한 키 요소의 중요 값을 잠재적으로 상승하거나 낮출 수 있다는 것을 유의하라.
220.c - 각각의 양식에서 프레임 당 중요 값들의 계산
단계(220.c)에서, 단계(220.b)에서 계산된 특징 중요 값들에 기초하여, 프레 임 중요 값들은 계산된다. 상기 프레임 중요 값들을 결정하기 위해, 가중 합 방법 또는 추출된 특징들의 중요 값들의 폴링은 기재될 바와 같이 이용될 수 있다.
표 1, 2, 및 3은 한정되지 않은 예제만으로 상기 각각의 양식들(비디오, 오디오, 텍스트) 각각에서 단계(220.a)에서 식별된 추출된 특징값 각각에 대해 단계(220.b)에서 계산된 특징 중요 값들을 나타낸다. 상기 중요 값들은 프레임 당 중요 값을 계산하는데 사용된다. 표 컬럼 서두들은 에지들, 컬러, 얼굴들, 침묵, 내부 프레임 등과 같은 이전에 추출되고 유도된 저, 중간 및 고 레벨 특징들을 나타낸다.
비쥬얼 특징 확률들
비쥬얼 특징
I
비쥬얼 특징
II
비쥬얼 특징
III
... 비쥬얼 특징
N
프레임 1 .8 .6 .9 .1
프레임 2 .5 .3 .4 .4
프레임 3 .6 .5 .8 .9
.
.
프레임 A .2 .001 .4 .3
오디오 특징 확률들
오디오 특징
I
오디오 특징
II
오디오 특징
III
... 오디오 특징
M
시간 1 .5 .6 .9 .1
시간 2 .15 .83 .4 .4
시간 3 .6 .5 .8 .9
.
.
시간 B .2 .001 .4 .3
텍스트 특징 확률들
텍스트 특징
I
텍스트 특징
II
텍스트 특징
III
... 텍스트 특징
O
워드 1 .5 .6 .9 .1
워드 2 .15 .83 .4 .4
워드 3 .6 .5 .8 .9
.
.
워드 C .2 .001 .4 .3
상기 표 값들은 프레임이 얼마나 "가치(worth)" 있는지의 측정을 제공하도록 기재되는 방식으로 조합된다. 프레임들 "가치"는 상기 멀티미디어 요약(120)에의 가능한 포함을 위해 프레임의 중요성의 측정이다. 프레임의 "가치"는 조건적 확률들을 결정적으로, 통계적으로 포함하고 조건부 확률들을 통하는 복수의 방법들에서 계산될 수 있다.
프레임의 '가치'의 결정적 계산
하나의 실시예에서, 프레임의 '가치'는,
Key_Element_Importance = ∑ wifi
로서 계산된 저, 중간, 및 고 레벨 비디오 특징들의 결정적 선형 함수로서 계산될 수 있다.
여기서, fi는 특징 벡터에서 특정 저, 중간 및 고 레벨 특징의 값이고, wi는 그 특징에 대한 가중이다.
특징들(fi)는 동작 값(프레임 또는 비디오 세그먼트에 대한 글로벌 동작), 총 에지들 수, 우세한 컬러과 같은 저 레벨 특징들, 및 패밀리 중요, 카메라 동작, 프레임 상세도, 얼굴 크기, 오버레이된 텍스트 박스 크기와 같은 중간 레벨 특징들일 수 있다. 고 레벨 특징은 앵커/보도, 내부/외부 장면들, 자연/그래픽들, 및 배경/도시풍경과 같은 분류일 수 있다. 상기 특징 리스트는 소모성이 아니고, 중요 값 계산에 포함될 수 있는 특징들의 형태의 예시로서만 제공된다.
각각의 특징과 관련된 가중치(wi)는 상기 요약 시스템(100)에 의해 연역적으로 결정되거나 대안적으로 사용자 선호에 따라 결정될 수 있다는 것을 유의하라. 예를 들면, 사용자가 상기 멀티미디어 요약(120)의 음악을 청취하고 싶으면, 음악에 대한 가중 값은 1로 설정될 수 있다. 다른 예제로서, 사용자가 상기 요약에서 임의의 비디오텍스트를 보지 않기를 선호하면, 프레임에서 비디오텍스트의 부재는 주어진 1 등의 중요도이다.
양식들 각각에 대해 특징 중요 값들은 표 4에 도시된 한정되지 않은 예시적인 리스트와 같은 리스트를 초래하는 단일 확률적 또는 결정적 함수를 사용하여 프레임 당 키 요소 중요 값을 출력하는 일부 방식으로 조합된다고 가정된다.
상이한 양식들에 대한 중요 값(프레임 당)
비쥬얼 프레임 라벨 비쥬얼 중요/프레임 당 오디오 프레임 라벨 오디오 중요/프레임 당 텍스트 프레임 라벨 텍스트 중요/프레임 당
프레임 1 .8 시간 1 .6 워드 1 .1
프레임 2 .5 시간 2 .3 워드 2 .4
프레임 3 .6 시간 3 .5 워드 3 .9
프레임 4 시간 4 워드 4
프레임 N .2 시간 M .001 워드 P .3
또 다른 실시예에서, 프레임들 '가치'는 베이스 신뢰 네트워크 패턴 분류(Bayesian Belief Network Pattern Classification)를 사용하는 조건부 확률을 찾음으로써 계산될 수 있다. 베이스 신뢰 네트워크 패턴 분류는 당분야에 공지되어 있다. 예를 들면, 여기에 참조로서 포함된 전체 개시물인 리차드 오우.두다, 피터 이. 하트, 데이브 지. 스토크에 의한 "베이스 신뢰 네트워크 패턴 분류"(제 2판)를 참조한다.
220.d - 세그먼트 생성
220.c에서의 각 양식에서 각 프레임 동안의 프레임 중요 값들을 컴파일하는 단계 220.d에서, 상기 프레임 중요 값들은 상기 프레임들을 각 양식에 대한 세그먼트들로 조합하거나 그룹화하는데 사용된다.
비쥬얼 세그먼트들의 생성
상기 비디오 서브-스트림(303)을 구성하는 상기 각각의 비디오 프레임들(즉, 프레임 1, 프레임 2, ..., 프레임 N)로부터 비쥬얼 세그먼트들을 생성하기 위해, 패밀리 히스토그램 계산은 수행되거나 샷(shot) 변화 검출을 통한다. 프레임들을 세그먼트들로 조합하는 하나의 방법은 샷 변화 검출을 사용함으로써 이뤄진다. 샷 변화 검출은 널리 공지되어 있고 미국특허공보 제6,125,229호 (2000년 9월 26일)에 개시되며, 또한 여기에 참조로서 포함된 디미트로바, 엔; 맥지, 티이; 엘렌바스, 제이 에이치에 의한 유럽 특허 공개 공보 번호 제 EP 0 916 120 A2 호(1999년 5월 19일)에 비쥬얼 인덱싱 시스템으로서 발행되어 있다. 상기 비디오 서브-스트림(303)의 상기 각 비디오 프레임들로부터의 비쥬얼 세그먼트들의 다른 방법은 상술된 바와 같이 패밀리 히스토그램들의 사용을 통해 이뤄진다.
오디오 세그먼트들의 생성
각각의 TIME 프레임들(즉, TIME 1, TIME 2 등)로부터 오디오 세그먼트들을 생성하기 위해, 세그먼트 경계들은 다른 분류들의 경계들일 수 있다. 즉, 오디오 분류자는 오디오를 스피치(1), 음악(2), 침묵(3), 잡음(4), 스피치+스피치(5), 스피치+잡음(6), 및 스피치+음악(7)으로 분류한다. 도 6은, 예제로서, 도 3의 상기 오디오 서브-스트림(305)을 포함하는 시간 요소들이 세그먼트들을 형성하도록 그룹화될 수 있는 방법을 도시한 그래프이다. 상기 그래프는 오디오 분류 대 시간 프레임들(시간 프레임[x])을 도식한다. 도시된 바와 같이, 초기 프레임들(프레임들 1-20,000)은 음악(2) 프레임들로서 거의 분류된다. 연속 프레임들이 스피치 및 음악 프레임들(7)이 수반되는 잡음 프레임들(4)로서 거의 분류된다.
오디오 분류의 세부사항은 전체로 여기에 참조로서 포함된, 2001년 이동기, 이쉬워 케이. 세시, 네반카 디미트로바에 의한 패턴 인식 레터들 Vol. 22, 번호 5, 페이지 533-544에 기재된 "콘텐츠-기반 검색을 위한 일반적인 오디오 데이터의 분류"에 더 기재되어 있다.
텍스트 세그먼트들의 생성
텍스트 세그먼트들을 생성하기 위해, 상기 세그먼트 경계들은 상기 입력 비디오 시퀀스(101, 102)의 폐쇄된 캡션부에 제공된 구두점에 기초한 문장 경계들인 것으로 규정될 수 있다.
220.e - 세그먼트 중요 값 결정
세그먼트 중요 값 결정은, 단일 랭킹 또는 점수를 생성하기 위해 각각의 세그먼트를 포함하는 프레임들의 프레임 중요 값들을 평균화함으로써 하나의 방법으로 수행될 수 있다. 세그먼트 중요 값 결정을 계산하는 다른 방법은 상기 세그먼트 내에 최고 프레임 중요 값을 취하고 이를 전체 세그먼트에 할당하는 것이다.
220.f - 세그먼트 랭킹
단계(220.e)에서, 세그먼트 랭킹(점수)은 각각의 양식들에서 단계(220.d)에서 식별된 각각의 세그먼트에 대해 계산된다. 게다가, 랭킹된 세그먼트들은 상기 계산된 랭킹 또는 점수에 기초한 중요 순서로 분류된다.
표 6은 예제로서 상기 비디오 세그먼트들(컬럼 1) 및 그들의 관련된 세그먼트 주용 값들(컬럼 2)이 랭킹되는 방법을 나타낸다. 표 7 및 8은 상기 오디오 및 텍스트 양식들 각각에 대한 유사한 구성을 나타낸다.
비쥬얼 세그먼트 중요 랭킹
세그먼트 비쥬얼 중요 값 랭킹
프레임들 1-6 .8 1
프레임들 26-30 .6 2
프레임들 7-25 .5 3
.
.
프레임(N-23)-N .2 N
오디오 세그먼트 중요 랭킹
세그먼트 오디오 중요 값 랭킹
프레임들 30-45 .9 1
프레임들 10-29 .8 2
프레임들 100-145 .6 3
.
.
프레임 (N-10)-N .2 J
텍스트 세그먼트 중요 랭킹
세그먼트 텍스트 중요 값 랭킹
프레임들 5-65 .9 1
프레임들 13-25 .7 2
프레임들 26-29 .6 3
.
.
프레임(N-100)-N .2 K
220.g - 키 요소 식별
단계(220.f)에서, 키 요소들은 단계(220.e)의 세그먼트 랭킹들에 기초하여 식별된다.
도 7a 내지 도 7c는 예제로 키 요소들을 식별하는 몇몇 방법들을 도시한다. 예제로, 도 7a 내지 도 7c는 (당 프레임 중요 값) 대 상술된 양식들, 즉, 표 6, 표 7 또는 표 8 중 임의의 것을 나타낼 수 있는 (세그먼트)의 그래프들이다.
도 7a는 키 요소들을 식별하는 제 1 방법을 도시한 그래프이다. 키 요소들은 미리 결정된 문턱값 이상을 나타내는 임의의 세그먼트를 선택함으로써 식별된다.
도 7b는 키 요소들을 식별하는 제 2 방법을 도시한 그래프이다. 키 요소들은 로컬 최대치, 즉, 미리 결정된 문턱값, Th 이상을 나타내는 "A", "B", "C"를 선택함으로써 식별된다.
도 7c는 키 요소들을 식별하는 제 3 방법을 도시한 그래프이다. 키 요소들은 임계 기준에 대해 고려하지 않고 제 1 N 로컬 최대치를 선택함으로써 식별된다.
상술된 키 요소들을 식별하고 도 7a 내지 도 7c를 참조하여 도시된 프로세스가 사용자 시청 프로파일에 따라 더 수정될 수 있다는 것을 알아야 한다. 추천 시스템들은 일반적으로 사용자들에 대해 공지된 정보에 기초하여 특정 사용자들에게 항목들을 추천함으로써 동작한다는 것이 널리 공지되어 있다. 일반적으로, 이러한 시스템들은 ,고객의 이전 시청 또는 구입 습관들에 기초하여 고객들의 프로파일들을 전개한다. 이러한 환경에서, 사용자의 시청 프로파일은 생성되고, 바람직하게 상술된 다른 사용자 프로파일 데이터와 함께 상기 사용자 선호 데이터베이스(117)에 저장된다. 그후, 사용자의 시청 프로파일은, 도 7a 내지 도 7c에 도시된 (중요 값) 대 (세그먼트)의 이전에 도시된 그래프를 고객의 시청 선호를 나타내는 제 2 함수에 맵핑하기 위한 맵핑 함수를 생성하는데 사용될 수 있다. 이 프로세스는 선택 사항이고, 상기 양식들 중 임의의 또는 모두에 대해 구현될 수 있다.
분명하게, 본 발명의 다양한 수정들과 변경들이 상기 사상들에 비추어 가능하다. 따라서, 첨부된 청구항들의 범위 내에서 본 발명은 여기에 구체적으로 기재된 것 보다 다른 경우에도 실시될 수 있다는 것을 알아야 한다.

Claims (27)

  1. 적어도 하나의 멀티미디어 스트림(101, 102)을 요약하는 방법에 있어서:
    a) 비디오, 오디오 및 텍스트 정보를 포함하는 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 수신 및 검색하는 단계 중 한 단계;
    b) 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 비디오 서브-스트림(303), 오디오 서브-스트림(305) 및 텍스트 서브-스트림(307)으로 분할하는 단계;
    c) 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들로부터 비디오, 오디오 및 텍스트 키 요소들을 각각 식별하는 단계;
    d) 상기 단계(c)에서 식별된 상기 식별된 비디오, 오디오 및 텍스트 키 요소들에 대한 중요 값(importance value)을 계산하는 단계;
    e) 키 요소들과 연관된 중요 값이 미리 규정된 비디오, 오디오 및 텍스트 중요 문턱값 미만인 그들의 키 요소들을 각각 제외하기 위해, 상기 식별된 비디오, 오디오 및 텍스트 키 요소들을 제 1 필터링하는 단계;
    f) 사용자 프로파일에 따라 상기 단계(e)로부터 남아있는 키 요소들을 제 2 필터링하는 단계;
    g) 네트워크 및 사용자 디바이스 제약들에 따라 상기 단계 (f)로부터 남아있는 키 요소들을 제 3 필터링하는 단계; 및
    h) 상기 단계(g)로부터 남아있는 키 요소들로부터 멀티미디어 요약(120)을 출력하는 단계를 포함하는, 멀티미디어 스트림 요약 방법.
  2. 제 1 항에 있어서,
    상기 적어도 하나의 멀티미디어 스트림(101, 102)은 아날로그 및 디지털 멀티미디어 스트림 중 하나인, 멀티미디어 스트림 요약 방법.
  3. 제 1 항에 있어서,
    상기 적어도 하나의 멀티미디어 스트림(101, 102)을 비디오 서브-스트림(303)으로 분할하는 단계는, 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 식별하고, 복수의 뉴스 스토리들(330)로 그룹화하는 단계를 더 포함하고, 각각의 식별된 뉴스 스토리(330)는 앵커부(anchor portion)(311, 312) 및 보도부(reportage portion)(321, 322)로 구성되는, 멀티미디어 스트림 요약 방법.
  4. 제 1 항에 있어서,
    상기 적어도 하나의 멀티미디어 스트림(101, 102)을 오디오 서브-스트림(305)으로 분할하는 단계는, 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 고정된 시간 기간(time duration)의 복수의 동일-크기 프레임들(306)로 분할하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
  5. 제 1 항에 있어서,
    상기 적어도 하나의 멀티미디어 스트림(101, 102)을 텍스트 서브-스트림(307)으로 분할하는 단계는, 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 복수의 프레임들(308)로 분할하는 단계를 더 포함하고, 상기 복수의 프레임들 각각은 워드 경계(boundary) 상으로 규정되는, 멀티미디어 스트림 요약 방법.
  6. 제 1 항에 있어서,
    상기 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들로부터 비디오, 오디오 및 텍스트 키 요소들을 식별하는 단계는:
    1) 상기 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들을 포함하는 복수의 프레임들로부터 저 레벨(510), 중간 레벨(710) 및 고 레벨(910) 특징들을 식별 및 추출하는 단계;
    2) 상기 식별 단계로부터 상기 추출된 저 레벨(510), 중간 레벨(710), 및 고 레벨(910) 특징들 각각에 대한 중요 값을 결정하는 단계;
    3) 상기 결정 단계에서 결정된 상기 특징 중요 값들의 중요 값들의 함수로, 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들을 포함하는 상기 복수의 프레임들 각각에 대한 프레임 중요 값을 계산하는 단계;
    4) 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들 각각에서 상기 프레임들을 세그먼트들로 조합하는 단계;
    5) 상기 조합 단계로부터 각각 세그먼트에 대한 세그먼트 당 중요 값(importance value per segment)을 계산하는 단계;
    6) 상기 계산 단계에서 상기 계산된 중요 값에 기초하여 상기 세그먼트들을 랭킹(ranking)하는 단계; 및
    7) 상기 랭킹된 세그먼트들에 기초하여 키 요소들을 식별하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
  7. 제 6 항에 있어서,
    상기 추출된 저 레벨(510), 중간 레벨(710) 및 고 레벨(910) 특징들 각각에 대한 프레임 중요 값을 계산하는 단계(3)는 결정적 수단, 통계적 수단 및 조건적 확률 수단 중 하나에 의해 상기 중요 값을 계산하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
  8. 제 7 항에 있어서,
    상기 조건적 확률 수단은 가우시안(Gaussian), 푸아송(Poisson), 레일리(Rayleigh) 및 베르누이(Bernoulli) 분포 중 하나로 상기 프레임 중요 값을 계산하는 단계를 포함하는, 멀티미디어 스트림 요약 방법.
  9. 제 8 항에 있어서,
    상기 프레임 중요 값을 계산하기 위한 상기 가우시안 분포는,
    Figure 112009036853930-pct00008
    로 계산되며,
    여기서, θ는 임의의 특징들이고, θ1은 특징 값의 평균이고, θ2는 예상 편이(deviation)인, 멀티미디어 스트림 요약 방법.
  10. 제 7 항에 있어서,
    상기 결정적 수단은,
    프레임 중요 = Σwifi로 상기 프레임 중요 값을 계산하는 단계를 포함하며,
    여기서, fi는 저 레벨, 중간 레벨, 및 고 레벨 특징들을 나타내고, wi는 상기 특징들을 가중하기 위한 가중 인자들을 나타내는, 멀티미디어 스트림 요약 방법.
  11. 제 6 항에 있어서,
    상기 프레임들을 비디오 세그먼트들로 조합하는 단계(4)는, 패밀리 히스토그램 계산 수단과 샷 변경 검출 수단(shot change detection mean) 중 하나에 의해 상기 프레임들을 조합하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
  12. 제 6 항에 있어서,
    상기 프레임들을 오디오 세그먼트들로 조합하는 단계(4)는:
    스피치 프레임, 음악 프레임, 침묵 프레임, 잡음 프레임, 스피치+스피치 프레임, 스피치+잡음 프레임 및 스피치+음악 프레임 중 하나로서 상기 오디오 서브-스트림(305)으로부터 각각의 프레임을 카테고리화하는 단계; 및
    동일한 카테고리를 갖는 연속 프레임들을 그룹화하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
  13. 제 6 항에 있어서,
    상기 프레임들을 텍스트 세그먼트들로 조합하는 단계(4)는, 상기 텍스트 서브-스트림(307)에 포함된 구두점(punctuation)에 기초하여 상기 프레임들을 조합하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
  14. 제 6 항에 있어서,
    상기 세그먼트 당 중요 값을 계산하는 단계(5)는, 상기 세그먼트를 포함하는 그들의 프레임들에 대한 프레임 중요 값을 평균화하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
  15. 제 6 항에 있어서,
    상기 세그먼트 당 중요 값을 계산하는 단계(5)는, 상기 세그먼트에서 최고의 프레임 중요 값을 이용하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
  16. 제 6 항에 있어서,
    상기 랭킹에 기초하여 키 요소들을 식별하는 단계(7)는, 세그먼트 랭킹이 미리 규정된 세그먼트 랭킹 문턱값을 초과하는 키 요소들을 식별하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
  17. 제 6 항에 있어서,
    상기 랭킹에 기초하여 키 요소들을 식별하는 단계(7)는, 세그먼트 랭킹이 미리 결정된 세그먼트 랭킹 문턱값을 초과하고 로컬 최대치를 구성하는 키 요소들을 식별하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
  18. 제 6 항에 있어서,
    상기 랭킹에 기초하여 키 요소들을 식별하는 단계(7)는, 세그먼트 랭킹이 로컬 최대치를 구성하는 키 요소들을 식별하는 단계를 더 포함하는, 멀티미디어 스트림 요약 방법.
  19. 적어도 하나의 멀티미디어 스트림(101, 102)을 요약하기 위한 시스템(100)에 있어서,
    스토리 세그먼트 식별자(SSI) 모듈(103a), 오디오 식별자(AI) 모듈(103b) 및 텍스트 식별자(TI) 모듈(103c)을 포함하는 양식 인식 및 분할(MRAD) 모듈(103)을 포함하고,
    상기 MRAD 모듈(103)은, 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 수신하기 위해 제 1 외부 소스(110)에 통신 가능하게 결합되고, 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 수신하기 위해 제 2 외부 소스(112)에 통신 가능하게 결합되고, 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림으로 분할하고, 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들을 키 요소 식별자(Key Element Identifier; KEI) 모듈(105)로 출력하고,
    상기 KEI 모듈(105)은 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들로부터 키 요소들을 식별하고 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들에 중요 값들을 할당하기 위해 특징 추출(FE) 모듈(107) 및 중요 값(IV) 모듈(109)을 포함하고, 상기 식별된 키 요소들을 수신하고 미리 결정된 문턱값 기준을 초과하는 상기 키 요소들을 필터링하기 위해 키 요소 필터(KEF)(111)에 통신 가능하게 결합되고, 필터링된 키 요소들을 수신하고 사용자 프로파일에 따라 상기 필터링된 키 요소들을 더 필터링하기 위해 사용자 프로파일 필터(User Profile Filter; UPF) 모듈(113)에 통신 가능하게 결합되고,
    상기 UPF 모듈(113)은 네트워크 및 디바이스 제약(NADC) 모듈(115)에 통신 가능하게 결합되고,
    상기 NADC 모듈(115)은 상기 더 필터링된 키 요소들을 수신하고, 네트워크 및 사용자 디바이스 제약들에 따라 상기 더 필터링된 키 요소들을 더 필터링하며, 상기 적어도 하나의 멀티미디어 스트림(101, 102)의 멀티미디어 요약(120)을 출력하는, 멀티미디어 스트림 요약 시스템.
  20. 제 19 항에 있어서,
    사용자 프로파일들을 저장하기 위해 상기 UPF 모듈(113)에 통신 가능하게 결합되는 사용자 선호 데이터베이스(117)를 더 포함하는, 멀티미디어 스트림 요약 시스템.
  21. 제 19 항에 있어서,
    상기 제 1 외부 소스(110)는 방송 채널 선택기인, 멀티미디어 스트림 요약 시스템.
  22. 제 19 항에 있어서,
    상기 제 1 외부 소스(110)는 비디오 스트리밍 소스인, 멀티미디어 스트림 요약 시스템.
  23. 제 19 항에 있어서,
    상기 적어도 하나의 멀티미디어 스트림(101, 102)은 아날로그 및 디지털 멀티미디어 스트림 중 하나인, 멀티미디어 스트림 요약 시스템.
  24. 제 19 항에 있어서,
    상기 NADC 모듈(115)은, 사용자 장치(124)에 결합된 외부 네트워크(122)에 통신 가능하게 접속되는, 멀티미디어 스트림 요약 시스템.
  25. 제 19 항에 있어서,
    상기 네트워크(122)는 인터넷인, 멀티미디어 스트림 요약 시스템.
  26. 적어도 하나의 멀티미디어 스트림(101, 102)을 요약하기 위한, 컴퓨터 판독 가능한 기록 매체 상에 구현된 컴퓨터 판독 가능한 프로그램 코드 수단을 갖는 상기 컴퓨터 판독 가능한 기록 매체에 있어서,
    상기 컴퓨터 판독 가능한 프로그램 코드 수단은:
    비디오, 오디오 및 텍스트 정보를 포함하는 상기 적어도 하나의 멀티미디어 스트림(101, 102)을 수신 및 검색하는 단계 중 한 단계;
    상기 적어도 하나의 멀티미디어 스트림(101, 102)을 비디오 서브-스트림(303), 오디오 서브-스트림(305) 및 텍스트 서브-스트림(307)으로 분할하는 단계;
    상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들로부터 비디오, 오디오 및 텍스트 키 요소들을 각각 식별하는 단계;
    상기 식별 단계에서 식별된 상기 식별된 비디오, 오디오 및 텍스트 키 요소들에 대한 중요 값을 계산하는 단계;
    키 요소와 연관된 중요 값이 미리 규정된 비디오, 오디오 및 텍스트 중요 문턱값 미만인 그들의 키 요소들을 각각 제외하기 위해, 상기 식별된 비디오, 오디오 및 텍스트 키 요소들을 제 1 필터링하는 단계;
    사용자 프로파일에 따라 상기 제 1 필터링 단계로부터 남아있는 키 요소들을 제 2 필터링하는 단계;
    네트워크 및 사용자 디바이스 제약들에 따라 상기 제 2 필터링 단계로부터 남아있는 키 요소들을 제 3 필터링하는 단계; 및
    상기 제 3 필터링 단계로부터 남아있는 키 요소들로부터 멀티미디어 요약(120)을 출력하는 단계를 수행하는, 컴퓨터 판독 가능한 기록 매체.
  27. 제 26 항에 있어서,
    상기 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들로부터 비디오, 오디오 및 텍스트 키 요소들을 각각 식별하는 단계는:
    상기 비디오(303), 오디오(305), 및 텍스트(307) 서브-스트림들을 포함하는 복수의 프레임들로부터 저 레벨(510), 중간 레벨(710) 및 고 레벨(910) 특징들을 식별 및 추출하는 단계;
    상기 식별 단계로부터 상기 추출된 저 레벨(510), 중간 레벨(710), 및 고 레벨(910) 특징들 각각에 대한 중요 값을 결정하는 단계;
    상기 결정 단계에서 결정된 상기 특징 중요 값들의 중요 값들의 함수로, 상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들을 포함하는 상기 복수의 프레임들 각각에 대한 프레임 중요 값을 계산하는 단계;
    상기 비디오(303), 오디오(305) 및 텍스트(307) 서브-스트림들 각각에서 상기 프레임들을 세그먼트들로 조합하는 단계;
    상기 조합 단계로부터 각각 세그먼트에 대한 세그먼트 당 중요 값을 계산하는 단계;
    상기 계산 단계에서 상기 계산된 중요 값에 기초하여 상기 세그먼트들을 랭킹하는 단계; 및
    상기 랭킹된 세그먼트들에 기초하여 키 요소들을 식별하는 단계를 더 포함하는, 컴퓨터 판독 가능한 기록 매체.
KR1020057025415A 2003-06-30 2004-06-28 멀티미디어 스트림들의 멀티미디어 요약을 생성하기 위한시스템 및 방법 KR101150748B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US48376503P 2003-06-30 2003-06-30
US60/483,765 2003-06-30
PCT/IB2004/051033 WO2005001715A1 (en) 2003-06-30 2004-06-28 System and method for generating a multimedia summary of multimedia streams

Publications (2)

Publication Number Publication Date
KR20060027377A KR20060027377A (ko) 2006-03-27
KR101150748B1 true KR101150748B1 (ko) 2012-06-08

Family

ID=33552073

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057025415A KR101150748B1 (ko) 2003-06-30 2004-06-28 멀티미디어 스트림들의 멀티미디어 요약을 생성하기 위한시스템 및 방법

Country Status (8)

Country Link
US (1) US7738778B2 (ko)
EP (1) EP1642212B1 (ko)
JP (1) JP2007519053A (ko)
KR (1) KR101150748B1 (ko)
AT (1) ATE347143T1 (ko)
DE (1) DE602004003497T2 (ko)
ES (1) ES2277260T3 (ko)
WO (1) WO2005001715A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190093722A (ko) * 2018-01-08 2019-08-12 삼성전자주식회사 전자장치, 그 제어방법 및 컴퓨터프로그램제품

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6769128B1 (en) 1995-06-07 2004-07-27 United Video Properties, Inc. Electronic television program guide schedule system and method with data feed access
CN1941863B (zh) 1997-07-21 2011-06-29 骏升发展(美国)有限公司 在电子节目导视中向用户显示目标广告的方法
CN1867068A (zh) 1998-07-14 2006-11-22 联合视频制品公司 交互式电视节目导视系统及其方法
US6898762B2 (en) 1998-08-21 2005-05-24 United Video Properties, Inc. Client-server electronic program guide
US9477665B2 (en) * 1999-05-05 2016-10-25 Virtual Creative Artists, LLC Revenue-generating electronic multi-media exchange and process of operating same
KR20190096450A (ko) 2000-10-11 2019-08-19 로비 가이드스, 인크. 매체 콘텐츠 배달 시스템 및 방법
US7493646B2 (en) 2003-01-30 2009-02-17 United Video Properties, Inc. Interactive television systems with digital video recording and adjustable reminders
JP2005277531A (ja) * 2004-03-23 2005-10-06 Seiko Epson Corp 動画像処理装置
KR101385087B1 (ko) * 2004-08-10 2014-04-14 소니 주식회사 정보 신호 처리 방법, 정보 신호 처리 장치 및 컴퓨터프로그램 기록 매체
US8266019B2 (en) * 2004-12-22 2012-09-11 Hewlett-Packard Development Company, L.P. Optimizing retrieval of object-associated information
US20060152504A1 (en) * 2005-01-11 2006-07-13 Levy James A Sequential retrieval, sampling, and modulated rendering of database or data net information using data stream from audio-visual media
DE102005016866A1 (de) * 2005-04-12 2006-10-19 Siemens Ag Verfahren sowie Vorrichtung zum Synchronisieren von inhaltsbezogenen ersten Datensegmenten einer ersten Datendatei und inhaltsbezogenen zweiten Datensegmenten einer zweiten Datendatei
JP4556752B2 (ja) * 2005-04-18 2010-10-06 株式会社日立製作所 コマーシャル視聴制御機能を有する録画再生装置
US7684566B2 (en) * 2005-05-27 2010-03-23 Microsoft Corporation Encryption scheme for streamed multimedia content protected by rights management system
US8321690B2 (en) 2005-08-11 2012-11-27 Microsoft Corporation Protecting digital media of various content types
JP4739346B2 (ja) * 2005-10-13 2011-08-03 パイオニア株式会社 要約データ生成装置、表示装置、操作装置、要約データ生成方法およびプログラム
KR100703801B1 (ko) * 2005-10-21 2007-04-06 삼성전자주식회사 Av 태스크 계산 방법, av 태스크 계산을 위한 요약정보 제공 방법 및 이를 위한 장치
US7761293B2 (en) * 2006-03-06 2010-07-20 Tran Bao Q Spoken mobile engine
JP2007274556A (ja) * 2006-03-31 2007-10-18 Toshiba Corp コンテンツデータ送信装置
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
US20080222120A1 (en) * 2007-03-08 2008-09-11 Nikolaos Georgis System and method for video recommendation based on video frame features
KR100785927B1 (ko) 2006-06-02 2007-12-17 삼성전자주식회사 데이터 요약 생성 방법 및 장치
US8094997B2 (en) * 2006-06-28 2012-01-10 Cyberlink Corp. Systems and method for embedding scene processing information in a multimedia source using an importance value
CN101485123B (zh) 2006-07-04 2014-08-20 皇家飞利浦电子股份有限公司 内容替换的方法
KR20090027758A (ko) * 2006-07-04 2009-03-17 코닌클리케 필립스 일렉트로닉스 엔.브이. 컨텐트 치환의 방법
JP4835321B2 (ja) * 2006-08-21 2011-12-14 ソニー株式会社 番組提供方法、番組提供方法のプログラム、番組提供方法のプログラムを記録した記録媒体及び番組提供装置
KR100803747B1 (ko) * 2006-08-23 2008-02-15 삼성전자주식회사 요약 클립 생성 시스템 및 이를 이용한 요약 클립 생성방법
US20080049704A1 (en) * 2006-08-25 2008-02-28 Skyclix, Inc. Phone-based broadcast audio identification
US20080051029A1 (en) * 2006-08-25 2008-02-28 Bradley James Witteman Phone-based broadcast audio identification
EP1919216A1 (en) * 2006-10-30 2008-05-07 British Telecommunications Public Limited Company Personalised media presentation
US8090694B2 (en) 2006-11-02 2012-01-03 At&T Intellectual Property I, L.P. Index of locally recorded content
US7801888B2 (en) 2007-03-09 2010-09-21 Microsoft Corporation Media content search results ranked by popularity
US10528629B2 (en) * 2007-04-03 2020-01-07 Oath Inc. Systems and methods for providing syndicated content
US20090019492A1 (en) 2007-07-11 2009-01-15 United Video Properties, Inc. Systems and methods for mirroring and transcoding media content
US20090060469A1 (en) * 2007-08-31 2009-03-05 United Video Properties, Inc. Systems and methods for recording popular media in an interactive media delivery system
JP2009124510A (ja) * 2007-11-15 2009-06-04 Canon Inc 表示制御装置及びその方法、プログラム、記録媒体
WO2009084554A1 (ja) * 2007-12-27 2009-07-09 Nec Corporation テキスト分割装置とテキスト分割方法およびプログラム
FR2926695B1 (fr) * 2008-01-21 2013-08-09 Alcatel Lucent Procede de preparation de contenus de programmes audiovisuels, et systeme associe
DE102008018679B4 (de) * 2008-04-14 2010-11-25 Siemens Aktiengesellschaft Vorrichtung zum Filtern und Übertragen dynamischer Daten und Verfahren zum Filtern und Übertragen dynamischer Daten
US8655953B2 (en) * 2008-07-18 2014-02-18 Porto Technology, Llc System and method for playback positioning of distributed media co-viewers
US8812311B2 (en) * 2008-10-27 2014-08-19 Frank Elmo Weber Character-based automated shot summarization
US10063934B2 (en) 2008-11-25 2018-08-28 Rovi Technologies Corporation Reducing unicast session duration with restart TV
WO2010109613A1 (ja) * 2009-03-25 2010-09-30 富士通株式会社 再生制御プログラム、再生制御方法及び再生装置
US9014546B2 (en) 2009-09-23 2015-04-21 Rovi Guides, Inc. Systems and methods for automatically detecting users within detection regions of media devices
KR101786051B1 (ko) * 2009-11-13 2017-10-16 삼성전자 주식회사 데이터 제공 방법 및 장치와 데이터 수신 방법 및 장치
US8495105B2 (en) * 2009-12-22 2013-07-23 International Business Machines Corporation Consolidating input messages for social activity summarization
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US20110191141A1 (en) * 2010-02-04 2011-08-04 Thompson Michael L Method for Conducting Consumer Research
JP2011205217A (ja) * 2010-03-24 2011-10-13 Sony Corp 情報処理装置、情報処理方法、プログラム
US20120183271A1 (en) * 2011-01-17 2012-07-19 Qualcomm Incorporated Pressure-based video recording
US9137573B2 (en) 2011-06-06 2015-09-15 Netgear, Inc. Systems and methods for managing media content based on segment-based assignment of content ratings
CN102982804B (zh) 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
US9015109B2 (en) 2011-11-01 2015-04-21 Lemi Technology, Llc Systems, methods, and computer readable media for maintaining recommendations in a media recommendation system
US8903911B2 (en) * 2011-12-05 2014-12-02 International Business Machines Corporation Using text summaries of images to conduct bandwidth sensitive status updates
US8805418B2 (en) 2011-12-23 2014-08-12 United Video Properties, Inc. Methods and systems for performing actions based on location-based rules
EP2739061A1 (en) * 2012-11-30 2014-06-04 Alcatel Lucent Multi resolutions adaptive video summarization and its adaptive delivery
US20140181668A1 (en) 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
US20140201103A1 (en) * 2013-01-14 2014-07-17 National Cheng Kung University System for research and development information assisting in investment, and a method, a computer program, and a readable and recordable media for computer thereof
US9807474B2 (en) 2013-11-15 2017-10-31 At&T Intellectual Property I, Lp Method and apparatus for generating information associated with a lapsed presentation of media content
US9286938B1 (en) 2014-01-02 2016-03-15 Google Inc. Generating and providing different length versions of a video
US9940099B2 (en) * 2014-01-03 2018-04-10 Oath Inc. Systems and methods for content processing
US10664687B2 (en) 2014-06-12 2020-05-26 Microsoft Technology Licensing, Llc Rule-based video importance analysis
US20160041998A1 (en) * 2014-08-05 2016-02-11 NFL Enterprises LLC Apparatus and Methods for Personalized Video Delivery
WO2016032019A1 (ko) * 2014-08-27 2016-03-03 삼성전자주식회사 음원의 하이라이트 구간을 추출하는 전자 장치 및 방법
US10331398B2 (en) 2015-05-14 2019-06-25 International Business Machines Corporation Reading device usability
US10090020B1 (en) * 2015-06-30 2018-10-02 Amazon Technologies, Inc. Content summarization
US10158983B2 (en) 2015-07-22 2018-12-18 At&T Intellectual Property I, L.P. Providing a summary of media content to a communication device
ES2946807T3 (es) 2015-09-01 2023-07-26 Dream It Get It Ltd Recuperación de unidad de medios y procesos relacionados
US9965680B2 (en) 2016-03-22 2018-05-08 Sensormatic Electronics, LLC Method and system for conveying data from monitored scene via surveillance cameras
US10733231B2 (en) * 2016-03-22 2020-08-04 Sensormatic Electronics, LLC Method and system for modeling image of interest to users
US10140259B2 (en) 2016-04-28 2018-11-27 Wipro Limited Method and system for dynamically generating multimedia content file
US10440431B1 (en) * 2016-11-28 2019-10-08 Amazon Technologies, Inc. Adaptive and automatic video scripting
US10783315B2 (en) * 2016-12-15 2020-09-22 Microsoft Technology Licensing, Llc Contextually sensitive summary
US10423409B2 (en) * 2017-04-21 2019-09-24 Semmle Limited Weighting static analysis alerts
US10587919B2 (en) 2017-09-29 2020-03-10 International Business Machines Corporation Cognitive digital video filtering based on user preferences
US11363352B2 (en) 2017-09-29 2022-06-14 International Business Machines Corporation Video content relationship mapping
EP3678036A1 (en) 2017-10-17 2020-07-08 Sony Corporation Information processing device, information processing method, and program
CN108650558B (zh) * 2018-05-30 2021-01-15 互影科技(北京)有限公司 基于交互视频的视频前情提要的生成方法及装置
EP3834424A4 (en) * 2018-08-10 2022-03-23 Microsoft Technology Licensing, LLC PROVISION OF VIDEO RECOMMENDATION
US20200186852A1 (en) * 2018-12-07 2020-06-11 Arris Enterprises Llc Methods and Systems for Switching Between Summary, Time-shifted, or Live Content
KR102124825B1 (ko) * 2018-12-27 2020-06-19 주식회사 산타 자동적으로 영상을 트리밍하는 방법 및 그를 이용한 서버
KR20200107758A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치
US11039177B2 (en) * 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US10708633B1 (en) 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets
US11102523B2 (en) 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
TWI716033B (zh) * 2019-07-15 2021-01-11 李姿慧 影像配樂智能系統
CN111163366B (zh) * 2019-12-30 2022-01-18 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端
US11308331B2 (en) * 2019-12-31 2022-04-19 Wipro Limited Multimedia content summarization method and system thereof
US11315568B2 (en) 2020-06-09 2022-04-26 International Business Machines Corporation Summarizing multi-modal conversations in a multi-user messaging application
US11675822B2 (en) * 2020-07-27 2023-06-13 International Business Machines Corporation Computer generated data analysis and learning to derive multimedia factoids
US11314970B1 (en) * 2020-11-19 2022-04-26 Adobe Inc. Reinforcement learning techniques for automated video summarization
CN113052149B (zh) * 2021-05-20 2021-08-13 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质
CN113660541B (zh) * 2021-07-16 2023-10-13 北京百度网讯科技有限公司 新闻视频的摘要生成方法及装置
US20230068502A1 (en) * 2021-08-30 2023-03-02 Disney Enterprises, Inc. Multi-Modal Content Based Automated Feature Recognition

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020157095A1 (en) 2001-03-02 2002-10-24 International Business Machines Corporation Content digest system, video digest system, user terminal, video digest generation method, video digest reception method and program therefor
WO2003050718A2 (en) 2001-12-11 2003-06-19 Koninklijke Philips Electronics N.V. System and method for retrieving information related to persons in video programs

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5798785A (en) * 1992-12-09 1998-08-25 Discovery Communications, Inc. Terminal for suggesting programs offered on a television program delivery system
US6125229A (en) * 1997-06-02 2000-09-26 Philips Electronics North America Corporation Visual indexing system
US6100941A (en) * 1998-07-28 2000-08-08 U.S. Philips Corporation Apparatus and method for locating a commercial disposed within a video data stream
WO2000039707A1 (en) * 1998-12-23 2000-07-06 Koninklijke Philips Electronics N.V. Personalized video classification and retrieval system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020157095A1 (en) 2001-03-02 2002-10-24 International Business Machines Corporation Content digest system, video digest system, user terminal, video digest generation method, video digest reception method and program therefor
WO2003050718A2 (en) 2001-12-11 2003-06-19 Koninklijke Philips Electronics N.V. System and method for retrieving information related to persons in video programs

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190093722A (ko) * 2018-01-08 2019-08-12 삼성전자주식회사 전자장치, 그 제어방법 및 컴퓨터프로그램제품
US11386665B2 (en) 2018-01-08 2022-07-12 Samsung Electronics Co., Ltd. Display apparatus, server, system and information-providing methods thereof
KR102542788B1 (ko) * 2018-01-08 2023-06-14 삼성전자주식회사 전자장치, 그 제어방법 및 컴퓨터프로그램제품

Also Published As

Publication number Publication date
US20060165379A1 (en) 2006-07-27
WO2005001715A1 (en) 2005-01-06
EP1642212A1 (en) 2006-04-05
EP1642212B1 (en) 2006-11-29
US7738778B2 (en) 2010-06-15
ES2277260T3 (es) 2007-07-01
JP2007519053A (ja) 2007-07-12
DE602004003497T2 (de) 2007-09-13
ATE347143T1 (de) 2006-12-15
DE602004003497D1 (de) 2007-01-11
KR20060027377A (ko) 2006-03-27

Similar Documents

Publication Publication Date Title
KR101150748B1 (ko) 멀티미디어 스트림들의 멀티미디어 요약을 생성하기 위한시스템 및 방법
KR100711948B1 (ko) 개인화된 비디오 분류 및 검색 시스템
US9202523B2 (en) Method and apparatus for providing information related to broadcast programs
US7356830B1 (en) Method and apparatus for linking a video segment to another segment or information source
US7143353B2 (en) Streaming video bookmarks
US20050028194A1 (en) Personalized news retrieval system
US20030093580A1 (en) Method and system for information alerts
KR100794152B1 (ko) 오디오/데이터/시각 정보 선택을 위한 방법 및 장치
US20030093794A1 (en) Method and system for personal information retrieval, update and presentation
US20030101104A1 (en) System and method for retrieving information related to targeted subjects
US20070136755A1 (en) Video content viewing support system and method
EP2159722A1 (en) Display processing apparatus and display processing method
KR100374040B1 (ko) 비디오 텍스트 합성 키 프레임 추출방법
US20050165613A1 (en) Methods for constructing multimedia database and providing mutimedia-search service and apparatus therefor
US20190082236A1 (en) Determining Representative Content to be Used in Representing a Video
Jasinschi et al. Automatic TV program genre classification based on audio patterns
CN1672210A (zh) 用于生成基于内容的内容表格的方法、系统和程序产品

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee