KR102190878B1 - 장면 분류를 위한 시스템 및 방법 - Google Patents

장면 분류를 위한 시스템 및 방법 Download PDF

Info

Publication number
KR102190878B1
KR102190878B1 KR1020180158138A KR20180158138A KR102190878B1 KR 102190878 B1 KR102190878 B1 KR 102190878B1 KR 1020180158138 A KR1020180158138 A KR 1020180158138A KR 20180158138 A KR20180158138 A KR 20180158138A KR 102190878 B1 KR102190878 B1 KR 102190878B1
Authority
KR
South Korea
Prior art keywords
criterion
scene
picture groups
media content
theme
Prior art date
Application number
KR1020180158138A
Other languages
English (en)
Other versions
KR20190069326A (ko
Inventor
마크 아라나
재러드 맥필렌
Original Assignee
디즈니엔터프라이지즈,인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디즈니엔터프라이지즈,인크. filed Critical 디즈니엔터프라이지즈,인크.
Publication of KR20190069326A publication Critical patent/KR20190069326A/ko
Application granted granted Critical
Publication of KR102190878B1 publication Critical patent/KR102190878B1/ko

Links

Images

Classifications

    • G06K9/00718
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06K9/00751
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234309Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

미디어 콘텐츠 내의 묘사 장면을 수동으로 또는 자동으로 식별하는 시스템 및 방법이 제공된다. 테마 기준 및/또는 시네마 기준을 설명하는 장면 분류 파라미터가 사용되어 미디어 콘텐츠를 구성하는 프레임 또는 픽처 그룹(GOP)을 분석한다. 테마 및/또는 시네마 기준을 만족시키는 하나 이상의 특징을 갖는 프레임 또는 GOP는 미디어 콘텐츠 내의 특정 장면에 속하거나 이 특정 장면의 일부인 것으로 간주될 수 있다. 다운스트림 애플리케이션 또는 프로세스는 장면 분할에 기초하여 최적화될 수 있다.

Description

장면 분류를 위한 시스템 및 방법{SYSTEM AND METHODS FOR SCENE CATEGORIZATION}
본 개시는 일반적으로 디지털 미디어 인코딩에 관한 것으로, 특히, 일부 실시예는 트랜스코딩과 같은 다운스트림 애플리케이션을 위한 장면(scenes)을 식별하는 시스템 및 방법에 관한 것이다.
이용가능한 디지털 미디어 배포 플랫폼의 수가 증가함에 따라, 영화와 같은 단일 미디어 콘텐츠는 종종 디지털화되거나 다른 형식 및/또는 비트-레이트로 트랜스코딩된다. 많은 콘텐츠 배포자는 여러 방식으로 배포하기 위해 단일 비디오, 노래 또는 기타 디지털 미디어 프로그램을 여러 버전으로 만든다. 예를 들어, 단일 콘텐츠에 대해, 비디오 배포자는 해상도는 동일하지만 비트레이트는 상이한 복수의 상이한 파일을 유지할 수 있다. 이들 파일 그룹은 적응형 가변 비트레이트 스트리밍 기법을 사용하여 웹 배포에 사용될 수 있다. 또한, 미디어 콘텐츠의 상이한 부분들은 배포를 위해 미리보기, 하이라이트 클립 등을 생성하는데 이용될 수 있다.
일 실시 예에 따르면, 컴퓨터 구현 방법은 복수의 미디어 블록을 포함하는 미디어 콘텐츠를 수신하는 단계와, 테마 기준 및 시네마 기준 중 적어도 하나를 설명하는 장면 묘사 파라미터(scene delineation parameter)를 수신하는 단계를 포함한다. 이 방법은 미디어 콘텐츠 내의 장면을 정의하는 테마 기준 및 시네마 기준 중 적어도 하나를 충족시키는 미디어 블록 세트를 식별하는 단계를 더 포함한다. 또한, 방법은 미디어 블록 세트 및 미디어 블록 세트에 기초한 장면 경계 정보 중 적어도 하나를 미디어 콘텐츠 내의 정의된 장면을 처리하도록 적응된 하나 이상의 다운스트림 애플리케이션에 포워딩하는 단계를 포함한다.
일부 실시 예에서, 미디어 콘텐츠는 소스 파일 포맷의 영화 및 비디오 클립 중 하나를 포함한다. 일부 실시예에서, 복수의 미디어 블록은 복수의 프레임 또는 복수의 픽처 그룹(GOP) 중 하나를 포함한다.
일부 실시예에서, 테마 기준 및 시네마 기준 중 적어도 하나는 GOP 모션 벡터 기준, 객체 존재 기준, GOP에 걸친 객체 이동 기준, 오디오 지문 기준, 색 관련 기준, 휘도 기준, 상대적 프레임 유형 양(relative frame type amounts), 사전결정된 장면 메타데이터 및 오디오 대 스크립트 대응 기준(audio to script correspondence criteria)을 포함한다.
일부 실시예에서, 컴퓨터 구현 방법은 미디어 콘텐츠 내의 정의된 장면 내에서 부장면(sub-scenes)을 자동으로 식별하는 단계를 더 포함한다. 부장면을 자동으로 식별하는 단계는 부장면을 정의하는 테마 기준 및 시네마 기준 중 적어도 제1 기준을 만족시키는 미디어 블록 세트의 제1 자동 식별을, 테마 기준 및 시네마 기준 중 적어도 제2 기준을 만족시키는 미디어 블록 세트의 제2 자동 식별로 개선하는 것을 포함한다.
일부 실시예에서, 장면 경계 정보는 장면의 인 및 아웃 지점(scene in and out points)을 포함한다. 미디어 콘텐츠 내에서 장면을 정의하는 테마 기준 및 시네마 기준 중 적어도 하나를 충족시키는 미디어 블록 세트는 GOP 세트 또는 장면 경계 세트를 포함한다. 식별된 미디어 블록 세트는 테마 기준 및 시네마 기준 중 적어도 하나가 둘 이상의 미디어 블록에 존재하는 하나 이상의 특징에 의해 만족되는 미디어 블록 세트를 포함한다.
다른 실시예에 따르면, 비일시적 컴퓨터 판독가능 매체는 컴퓨터 실행가능 프로그램 코드를 포함하는데, 이 컴퓨터 실행가능 프로그램 코드는 컴퓨터 시스템으로 하여금, 미디어 콘텐츠를 포함하는 하나 이상의 미디어 블록에 존재하는 하나 이상의 특징의 존재를 인지하고, 이 하나 이상의 특징이 미디어 콘텐츠의 장면을 나타내는 테마 기준 및 시네마 기준 중 적어도 하나를 충족시키는지 여부를 결정하며, 하나 이상의 특징이 테마 기준 및 시네마 기준 중 적어도 하나를 충족시킨다는 결정에 따라, 장면의 시작 및 끝 경계를 결정하게 한다.
일부 실시예에서, 컴퓨터 실행가능 프로그램 코드는 또한 컴퓨터 시스템으로 하여금 테마 기준 및 시네마 기준 중 적어도 하나를 설명하는 하나 이상의 장면 분류 파라미터를 수신하게 하도록 구성된다. 일부 실시예에서, 미디어 콘텐츠는 영화 또는 비디오 클립 중 하나를 포함한다. 일부 실시예에서, 영화 또는 비디오 클립은 비 인코딩된 파일 포맷 또는 메자닌 파일 포맷 중 하나로 렌더링된다. 미디어 콘텐츠는 라이브 방송이나 라이브 스트리밍 미디어 콘텐츠 중 하나를 포함한다.
일부 실시예에서, 하나 이상의 미디어 블록은 하나 이상의 프레임 또는 하나 이상의 픽처 그룹(GOP)을 포함한다. 일부 실시예에서, 테마 기준 및 시네마 기준 중 적어도 하나는 모션 벡터 기준, 객체 존재 기준, 오디오 지문 기준, 색 관련 기준, 휘도 기준, 상대적 프레임 유형 양, 사전결정된 장면 메타데이터, 및 오디오 대 스크립트 대응 기준 중 적어도 하나를 포함한다.
일부 실시예에서, 컴퓨터로 하여금 하나 이상의 특징이 미디어 콘텐츠의 장면을 나타내는 테마 기준 및 시네마 기준 중 적어도 하나를 충족시키는지 여부를 결정하게 하도록 구성된 컴퓨터 실행가능 프로그램 코드는 또한 컴퓨터로 하여금 둘 이상의 미디어 블록에서 적어도 하나의 요소의 공통된 이동을 결정하기 위해 모션 벡터 분석을 수행하게 하도록 구성된 컴퓨터 실행가능 프로그램 코드를 포함한다.
일부 실시예에서, 컴퓨터로 하여금 하나 이상의 특징이 미디어 콘텐츠의 장면을 나타내는 테마 기준 및 시네마 기준 중 적어도 하나를 충족시키는지 여부를 결정하게 하도록 구성된 컴퓨터 실행가능 프로그램 코드는 또한 컴퓨터로 하여금 인트라-코딩된 프레임, 양방향 예측 프레임, 및 예측 프레임의 상대적인 수를 결정하게 하도록 구성된 컴퓨터 실행가능 프로그램 코드를 포함한다.
일부 실시예에서, 양방향 예측 프레임 및 예측 프레임은 미디어 블록 중 장면에 속하는 대응하는 미디어 블록을 시사한다. 일부 실시예에서, 컴퓨터로 하여금 하나 이상의 특징이 미디어 콘텐츠의 장면을 나타내는 테마 기준 및 시네마 기준 중 적어도 하나를 충족시키는지 여부를 결정하게 하도록 구성된 컴퓨터 실행가능 프로그램 코드는 또한 컴퓨터로 하여금 하나 이상의 미디어 블록이 동일하거나 유사한 색 및 휘도 레벨을 갖는지를 결정하게 하도록 구성된 컴퓨터 실행가능 프로그램 코드를 포함한다.
일부 실시예에서, 컴퓨터로 하여금 하나 이상의 특징이 미디어 콘텐츠의 장면을 나타내는 테마 기준 및 시네마 기준 중 적어도 하나를 충족시키는지 여부를 결정하게 하도록 구성된 컴퓨터 실행가능 프로그램 코드는 또한 컴퓨터로 하여금 하나 이상의 미디어 블록 내의 오디오가 오디오 지문, 스크립트 다이얼로그, 및 장면을 나타내는 장면 메타데이터 정보 중 적어도 하나에 대응하는지 여부를 결정하게 하도록 구성된 컴퓨터 실행가능 프로그램 코드를 포함한다.
하나 이상의 다양한 실시예에 따른 본 개시는 이하의 도면을 참조하여 상세하게 설명된다. 도면은 단지 예시를 목적으로 제공되며 단순히 전형적인 또는 예시적인 실시예를 도시한다.
도 1은 다양한 실시예에 따라 자동화된 장면 분류를 위한 예시적인 프로세스를 도시하는 동작 흐름도이다.
도 2a는 일 실시예에 따라 자동화된 장면 분류가 적용될 수 있는 예시적인 트랜스코딩 시스템을 도시한다.
도 2b는 다양한 실시예에 따라 장면을 식별하기 위한 장면 분류 시스템의 예시적인 측면을 도시한다.
도 3은 본 개시에서 설명된 실시예의 다양한 특징을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 컴포넌트이다.
본 도면들은 모든 것을 망라하는 것이 아니며, 본 개시를 개시된 그 형태로 한정하지 않는다.
미디어 콘텐츠를 다른 포맷 및/또는 비트레이트로 트랜스코딩하는 것은 거의 대개 소스 또는 메자닌 파일과 같은, 인코딩되지 않은 데이터 또는 높은 비트레이트를 갖는 인코딩된 데이터를 압축하는 것을 포함한다. 손실 인코딩 프로세스는 정보를 희생하면서 데이터를 압축한다. 많은 디지털 미디어 인코딩 기법은 다음과 같은 공통된 일련의 단계를 따른다. (1) 예측, (2) 변환 및 양자화, 및 (3) 엔트로피 코딩. 이러한 많은 기법에 의해 생성된 출력 파일은 일련의 픽처 그룹(GOP)의 형식을 갖는다. GOP는 P-프레임, B-프레임 또는 b-프레임과 같은 다양한 인터-프레임이 뒤따르는 키 프레임, 또는 인트라 프레임(I-프레임)을 포함할 수 있다. 트랜스코딩 프로세스 동안, GOP가 식별되고, 약 1 프레임 내지 (일반적으로) 240 프레임까지의 어느 곳에서나 있을 수 있다. 예를 들어, 240 프레임으로 이루어진 그룹 또는 세트는 10초 GOP를 구성할 수 있다.
다양한 실시예에 따르면, 영화, 텔레비젼 쇼의 에피소드, 비디오 클립, 또는 다른 디지털 미디어 콘텐츠와 같은 미디어 콘텐츠를 구성하는 장면은 자동으로 식별될 수 있다. 본 명세서에서 사용되는 장면이라는 용어는 그들 사이에 일부 테마 또는 시네마 공통성 또는 일관성을 갖는 미디어 콘텐츠를 구성하는 픽처, 프레임 또는 다른 미디어 블록의 그룹을 지칭할 수 있다. 미디어 콘텐츠의 장면의 자동 식별은 다운스트림 프로세스 및/또는 애플리케이션이 해당 장면의 특정 특징에 맞게끔 하는데 이용될 수 있다. 예를 들어, 트랜스코딩 관점에서 볼 때, 미디어 콘텐츠 전체보다, 장면 단위로 트랜스코딩을 수행하는 것이 유리하다.
도 1은 다양한 실시예에 따라 미디어 콘텐츠의 장면을 식별하기 위해 수행될 수 있는 예시적인 동작을 도시한다. 도 1은 도 2a와 연계하여 설명될 것이다. 도 2a는 일 실시예에 따라 자동 장면 분류가 적용될 수 있는 예시적인 트랜스코딩 시스템(200)이다.
도 1을 참조하면, 동작(102)에서, 복수의 미디어 블록을 포함하는 미디어 콘텐츠가 수신될 수 있다. 전술한 바와 같이, 미디어 콘텐츠는 원시 비디오 파일과 같은 소스 파일, 메자닌 파일과 같은 높은 비트레이트 마스터 등의 형식을 갖는 영화, 오디오, 비디오 또는 다른 디지털 미디어 콘텐츠일 수 있다. 미디어 블록은 미디어 콘텐츠의 프레임, 픽처 또는 기타 서브세트일 수 있다.
도 2a를 참조하면, 소스 파일(208A)은 콘텐츠 제공자, 콘텐츠 개발자 등에 의해 운영되는 콘텐츠 데이터베이스와 같은 데이터스토어(208)로부터 미디어 서버에서 수신될 수 있다. 이 경우, 소스 파일(208A)은 데이터스토어(208)로부터 얻어질 수 있고 다운스트림 프로세싱 장치/애플리케이션에 의한 "다운스트림" 프로세싱을 위해 미디어 서버(202)로 전송될 수 있다. 여기서, 다운스트림 프로세싱 장치/애플리케이션은 트랜스코딩 기능을 수행하는 트랜스코더(206)일 수 있다. 다른 다운스트림 프로세스 또는 애플리케이션은 미디어 콘텐츠의 특징을 최적화하는 것, 고다이나믹 레인지(HDR) 미디어 콘텐츠 제작을 위한 휘도를 최적화하는 것, 미리보기 또는 하이라이트 클립과 같은 파생형 미디어 콘텐츠를 생성하는 것 등을 포함할 수 있으나, 이에 한정되지 않는다는 점에 주의해야 한다. 일부 실시예에서, 트랜스코더(206)는 디스플레이(210) 또는 이 디스플레이(210)에 동작가능하게 연결된 셋톱 박스(도시되지 않음), 미디어 소비 장치, 예를 들어, 랩탑 또는 태블릿(PC)(미도시) 등과 같은 클라이언트에 직접 제공할 출력 파일을 생성할 수 있다.
미디어 서버(202)는 장면 분류 컴포넌트(204) 및/또는 트랜스코더(206)가 반드시 서버 엔티티에서 구현될 필요는 없다는 것을 나타내기 위해 점선으로 표시되어 있음을 주목한다. 일부 실시예에서, 장면 분류 컴포넌트(204) 및 트랜스코더(206) 중 하나 이상은 예를 들어, 컴퓨터(212)에서 구현될 수 있으며, 이를 통해 시스템 사용자가 장면 묘사 파라미터를 지정한다(후술함). 일부 실시예에서, 로컬로 저장될 수 있거나 저장을 위해 데이터스토어(208)로 전송될 수 있는 미디어 콘텐츠 소스 파일을 생성하는 것이 컴퓨터(212)이다. 일부 실시예에서, 소스 파일은 원시 비디오 파일과 같은 원시 미디어 파일일 수 있다. 도 2a는 카메라(216)가 원시 비디오 파일(216A)의 형태로 비디오를 캡처하는데 사용될 수 있는 시나리오를 예시한다. 원시 비디오 파일(216A)은 앞서 논의된 바와 같이 트랜스코더(206)에 의해 트랜스코딩되도록 미디어 서버(202)에 전송될 수 있다. 일부 실시예에서, 본 명세서에 개시된 바와 같은 장면 분류는 예를 들어, 원시 비디오 파일(216A)이 스트리밍되거나 생방송되는 경우에 실시간 또는 거의 실시간으로 수행될 수 있다는 것을 주목한다.
동작(102)에서, 테마 기준 및 시네마 기준 중 적어도 하나를 설명하는 장면 묘사 파라미터가 수신될 수 있다. 즉, 시스템 사용자는 미디어 콘텐츠를 구성하는 미디어 블록의 공통된 또는 관련된 테마 및/또는 시네마 특징이 특정 장면을 나타내는지 여부를 결정하는 데 사용될 수 있는 하나 이상의 파라미터를 지정할 수 있다.
도 2a를 참조하면, 장면 묘사 파라미터는 장면 분류 컴포넌트(204)에 의해 수신될 수 있다. 후술하는 바와 같이, 장면 묘사 파라미터는 장면 분류 컴포넌트(204)가 미디어 콘텐츠를 구성하는 어떤 미디어 블록이 특정 장면을 나타내는 것으로 간주될 수 있는 특징(들)을 포함하는지를 결정하는데 사용될 수 있다.
장면 묘사 파라미터의 예는, 충족되는 경우, 하나 이상의 특징을 갖는 미디어 블록(들)이 특정 장면의 일부임을 나타내는 그러한 특징의 존재를 나타내는 소정의 모션, 객체, 오디오, 색, 사전결정된 장면/스크립 기준을 포함하나 이에 국한되지 않는다. 예를 들어, 자동차 폭발이 있는 장면과 같은 특정 장면을 구성하는 프레임이 식별될 수 있다. 이러한 장면을 구성하는 프레임은 자동차의 이미지, 프레임 내의 특정 지점으로부터 멀리 날아가는 자동차 잔해의 이미지, 및 높은 휘도값을 갖는 이미지를 포함하나 이에 국한되지 않는 테마 및/또는 시네마 특징을 포함할 수 있다. 또 다른 예로서, 장면은 두 배우 또는 캐릭터들 간의 대화를 포함할 수 있다. 이 예에서, 두 배우가 존재하는 프레임, 및/또는 두 배우 또는 캐릭터들 사이에서 스크립트 또는 장면 메타데이터에 매칭되는 오디오를 포함하는 미디어 콘텐츠의 오디오 부분이 식별될 수 있다.
동작(104)에서, 미디어 콘텐츠 내의 장면을 정의하는 테마 기준 및 시네마 기준 중 적어도 하나를 만족시키는 미디어 블록 세트가 식별될 수 있다. 즉, 일부 공통된 특징이 있는 미디어 블록, 예를 들어, 특정 배우 또는 캐릭터가 존재하거나, 소정의 액션 시퀀스를 나타내는 이미지가 존재하는 등의 미디어 블록은 특정 장면에 속하는 것으로 판정될 수 있다. 예를 들어, 자동차와 연관된 이미지, 예를 들어, 폭발 이전의 자동차 그 자체, 자동차 잔해, 폭발을 나타내는 높은 휘도를 갖는 프레임 등은 특정 자동차 폭발 장면을 나타내는 것으로 함께 그룹핑될 수 있다. 예를 들어, 대화 장면의 일부인 것으로 식별된 두 배우 또는 캐릭터를 포함하는 프레임, 및/또는 대화 장면으로 식별된 스크립트의 일부에 매칭되는 오디오 세그먼트는 대화 장면을 나타내는 것으로 함께 그룹핑될 수 있다.
식별은 자동화되거나 수동으로 수행될 수 있음에 주목한다. 수동 식별의 일례로서, 색 보정(color grading) 프로세스 동안, 컬러리스트는 미디어 블록 경계를 생성하는 장면 요소를 정의할 수 있다. 이들 장면은 (색 보정 프로세스 동안) 자신의 색상, 휘도 등의 특징을 가질 것이다. 이 데이터의 출력은 후술하는 "다운스트림 애플리케이션"에 대한 입력을 생성하는데 사용될 수 있다.
동작(106)에서, 미디어 블록 세트 중 적어도 하나 및 미디어 블록 세트에 기초한 장면 경계 정보가 하나 이상의 "다운스트림 애플리케이션"으로 포워딩된다. 도 2a에 도시된 바와 같이, 미디어 블록 세트, 예를 들어, GOP의 프레임 또는 세트는 트랜스코더(206)에 전송되어 미디어 블록 세트들이 이러한 유형의 테마 콘텐츠에 최적화된 방법을 통해 트랜스코딩될 수 있다. 일부 실시예에서, 트랜스코더(206)는 미디어 블록의 다수의 세트가 병렬로 트랜스코딩될 수 있도록 다중 프로세싱 유닛 또는 트랜스코드 노드들을 포함할 수 있다. 일부 실시예에서, 장면 시작/끝 또는 장면 입/출력 지점(장면 경계 정보)은 트랜스코더(206)에게 전송되어, 어떤 미디어 블록이 특정 장면을 구성하는지에 대해 트랜스코더(206)에게 알려줄 수 있다. 일부 실시 예에서, 장면 경계 정보는 시작 및 종료 프레임 또는 미디어 블록을 나타내는 타임코드 또는 다른 코드를 포함할 수 있다. 이러한 방식으로, 트랜스코더(206)는 수신된 소스 파일, 예를 들어 소스 파일(208A)을 트랜스코딩을 위한 적절한 장면 세그먼트로 분할할 수 있다.
본 명세서에서 사용된 용어 "미디어 블록"은 장면 경계 정보를 포함하는 미디어의 일부를 지칭하는데, 즉 미디어 블록 내에 장면 경계가 존재함을 의미한다는 것을 이해해야 한다. 즉, 장면 경계는 그 특징을 미디어 블록으로부터 상속받는다.
도 2b는 다양한 실시예에 따라 자동화된 장면 분류를 수행하기 위한 예시적인 장면 분류 컴포넌트(204)를 도시한다. 도 2b는 제어기(204A), 메모리(204B), 특징 인식 컴포넌트(204C), 특징 비교 컴포넌트(204D), 및 그룹핑 컴포넌트(204E) 를 포함하는 장면 분류 컴포넌트(204)를 도시한다. 장면 묘사 파라미터는 장면 분류 컴포넌트(204)에 의해 수신되고 메모리(204B)에 저장될 수 있다. 제어기(204A)는 특징 인식 컴포넌트(204C), 특징 비교 컴포넌트(204D) 및 그룹핑 컴포넌트(204E)의 동작을 다음과 같이 제어할 수 있다.
특징 인식 컴포넌트(204C)는 프레임, 픽쳐, 미디어 블록 등이 장면 묘사 파라미터에 지정된 것에 매칭되는 특징을 갖는지 여부를 결정하기 위해 미디어 콘텐츠를 분석할 수 있다. 예를 들어, 장면 묘사 파라미터는 모션 벡터, 객체 인식, 오디오 인식, 색상 및 휘도값, 장면 메타데이터 기술, 스크립트-오디오 매칭 등 중 하나 이상에 기초할 수 있지만, 이에 제한되지는 않는다.
모션 벡터와 관련하여, 장면 묘사 파라미터는 장면 분류 컴포넌트(204)가 특징 인식 컴포넌트(204C)와 관련하여 미디어의 매크로블록에 부착된 모션 벡터, 예를 들어, 영화의 프레임들 사이에서 픽셀의 상대적 모션을 나태는 벡터를 찾아야 한다는 것을 지정할 수 있다. 이러한 모션 벡터는 영화의 특정 프레임이 폭발을 나타냄을 의미할 수 있는데, 예를 들어, 모션 벡터는 물체 또는 잔해(픽셀로 표현되게 됨)의 움직임, 밝은 빛을 나타내는 픽셀 등을 나타낼 수 있다.
장면 분류 컴포넌트(204)는 이동, 즉 이웃 프레임 내의 픽셀 간의 거리를 나타내는 모션 벡터에 대해 영화 또는 비디오 클립의 프레임과 같은 미디어 블록을 분석하도록 기계 학습 기법을 이용할 수 있다. 자동차 폭발 예에 이어서, 장면 분류 컴포넌트(204)는 폭발을 시사하는 특정 방향(들)으로의 움직임을 나타내는 모션 벡터의 존재를 결정할 수 있다. 일부 실시예에서, 모션 벡터 분석은 단지 비교적 높은 모션 동작 대 상대적으로 낮은 모션 동작의 존재를 결정하는 것을 포함할 수 있다. 모션 벡터 분석이 자동차 폭발을 식별했다는 결정을 더욱 확실히 하기 위해 모션 벡터 분석과 연계하여 아래에 설명된 다른 장면 묘사 파라미터 또는 특징, 예를 들어 객체 인식이 사용될 수 있다. 일부 실시예에서, 컴퓨터 비전은 장면에 존재하는 테마 요소를 결정하기 위해 사용될 수 있다.
객체 인식의 관점에서, 장면 묘사 파라미터는 장면 분류 컴포넌트(204)가 특징 인식 컴포넌트(204C)와 관련하여 미디어 콘텐츠 프레임 또는 픽처와 같은 미디어 블록 내에서 특정 객체, 배우의 얼굴 등을 찾아야 한다고 지정할 수 있다. 일부 실시예는 이를 수행하기 위해 컴퓨터 비전을 사용할 수 있다.
특징 인식 컴포넌트(204C)는 음악(이하에서 설명되는 장면 내에서 재생됨), 색조, 휘도 및 다른 특징을 나타내는 오디오 신호 또는 지문에 대해서도 동일하게 작용할 수 있다. 미디어 블록의 특징은 또한 장면 메타데이터 설명 및 스크립트-오디오 대응에 기초하여 인식될 수 있다. 예를 들어, 특징 인식 컴포넌트(204C)는 메타데이터에 기술된 (미디어 콘텐츠 제작자 또는 배포자에 의해 결정된) 장면의 설명을 수신할 수 있다. 그 다음, 특징 인식 컴포넌트(204C)는 미디어 블록과 연관된 오디오를 분석하여 미디어 블록에 존재하는 오디오가 스크립트/장면 설명에 대응하는지 여부를 결정할 수 있다.
일부 실시예에서, 특징 인식 컴포넌트(204C)는 HDR 저작 프로세스 중에 제공되고 HDR 미디어 콘텐츠에 내장된 장면 인/아웃 정보와 같은 미디어 콘텐츠 메타데이터를 활용할 수 있다. 일부 실시예에서, 이러한 정보는 미디어 콘텐츠 내에서 장면을 직접 식별하는데 이용될 수 있다. 다른 실시예에서, 특징 인식 컴포넌트(204C)는 독단적으로 또는 아래에서 설명되는 특징 비교 컴포넌트(204D)와 연계하여, 장면 묘사를 더 상세화하고 및/또는 장면 내의 부장면을 식별하고 묘사하는데 사용될 수 있다.
일부 실시예에서, GOP는 자신의 프레임 구성, 예를 들어, 인트라-코딩된 (I)/양방향 예측 (B)/예측 (P) 프레임의 비율 또는 상대적인 양을 결정하기 위해 특징 인식 컴포넌트(204C)에 의해 분석될 수 있다. 예를 들어, I-프레임은 특정 프레임을 나타내는 완전한 이미지를 포함하는 반면, P-프레임은 이전 프레임에 대한 이미지 변경을 나타내는 정보만을 보유한다. B-프레임은 선행 및 후속 프레임에 대한 이미지 차이를 나타내는 정보만을 보유한다. GOP 내의 I-프레임의 존재는 새로운 장면 또는 새로운 장면으로의 전환을 시사할 수 있는 반면, P 및/또는 B-프레임의 존재는 기존 장면의 연속을 시사할 수 있다. 이는 P 및 B-프레임의 사용에 반영될 수 있는 동일한 장면에 속하는 이미지들 간의 차이가 적은 경향이 있기 때문이다.
테마 기준 및 시네마 기준을 설명하는 장면 분류 파라미터는 다양할 수 있음에 주목해야 한다. 즉, 특정 장면을 시사하는 특징에 대한 임계값은 변동될 수 있다. 예를 들어, 장면 분류 파라미터는 장면이 물을 기반으로 하는 장면에서 물의 존재에 의해 식별되는 것을 지정할 수 있다. 미디어 콘텐츠는 물에 두 개의 서로 다른 배가 존재하는 2개의 순차적인 물 기반 장면을 가질 수 있다. 일부 실시예에서, 장면 분류 파라미터에 기초하여, 2개의 물 기반 장면은 2개의 상이한 배의 존재로 인해 별개의 장면으로 묘사될 수 있다. 일부 실시예에서, 장면 분류 파라미터는 관련 프레임에서 2개의 상이한 배의 존재와 무관하게 단일의 물 기반 장면으로서 2개의 순차적인 물 기반 장면을 지정할 수 있다.
특징 비교 컴포넌트(204D)는 미디어 블록에 존재하는 소정의 특징의 인식에 기초하여, 이웃하는 미디어 블록을 분석하여 이웃하는 미디어 블록이 동일한/유사한 특징을 포함하는지 여부를 결정할 수 있다. 그렇다면, 그룹핑 컴포넌트(204E) 는 공통된 특징을 갖는 미디어 블록을 특정 장면에 속하는 것으로 지정한다.
일부 실시예에서, GOP를 구성하는 프레임과 같은 미디어 블록의 최대 수가 지정될 수 있고, 장면을 구성할 수 있는 GOP의 최대 수 또한 특정될 수 있다. 분석 중인 현재 미디어 블록 또는 GOP 전후의 미디어 블록 또는 GOPS의 상기 수 또는 중간값은 비교를 위해 사용될 수 있다.
일부 실시예에서, 특징 비교 컴포넌트(204D)는 미디어 블록 및/또는 GOP를 분석하여 이 미디어 블록 및/또는 GOP 간에 공통된 특징이 존재하는지 여부를 결정할 수 있다. 즉, 최소한의 공통된 특징 또는 공통성 레벨을 충족시키는 미디어 블록 및/또는 GOP가 존재하는 것은 장면을 대표하는 것으로 간주될 수 있다.
미디어 콘텐츠의 장면이 묘사된 후, 각각의 장면을 포함하는 미디어 블록 세트를 나타내는 장면 인/아웃 지점 및/또는 출력 파일은 다운스트림 애플리케이션으로 포워딩될 수 있다. 전술한 바와 같이, 트랜스코더(206)(도 2a)는 다운스트림 애플리케이션의 하나의 예일 수 있으며, 미디어 콘텐츠의 장면 세그먼트가 다운스트림 애플리케이션을 최적화하는데 이용될 수 있다.
도 3은 예를 들어 컴퓨터(212), 트랜스코더(206), 데이터스토어(208), 장면 분류 컴포넌트(204), 트랜스코더(206), 및/또는 이들을 구성하는 각각의 부품 중 임의의 부품과 같은, 본 명세서에 개시된 시스템 및 방법의 다양한 특징을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 컴포넌트를 도시한다.
본 명세서에 사용된 바와 같이, 컴포넌트라는 용어는 본 출원의 하나 이상의 실시예에 따라 수행될 수 있는 주어진 기능 단위를 기술할 수 있다. 본 명세서에 사용된 바와 같이, 컴포넌트는 임의의 형태의 하드웨어, 소프트웨어, 또는 이들의 조합을 이용하여 구현될 수 있다. 예를 들어, 컴포넌트를 구성하기 위해 하나 이상의 프로세서, 제어기, ASIC, PLA, PAL, CPLD, FPGA, 로직 컴포넌트, 소프트웨어 루틴 또는 기타 메커니즘이 구현될 수 있다. 구현시, 본 명세서에서 설명된 다양한 컴포넌트는 개별 컴포넌트로 구현될 수 있거나 설명된 기능 및 특징은 하나 이상의 컴포넌트 사이에서 부분적으로 또는 전체적으로 공유될 수 있다. 다르게 설명하면, 이러한 설명을 읽은 후에 당업자에게 명백한 바와 같이, 본 명세서에 설명된 다양한 특징 및 기능은 임의의 주어진 애플리케이션에서 구현될 수 있으며, 다양한 조합 및 순서로 하나 이상의 개별 컴포넌트 또는 공유 컴포넌트로서 구현될 수 있다. 다양한 기능 또는 기능 요소가 개별적으로 기술되거나 별도의 컴포넌트로서 청구될 수 있지만, 당업자는 이러한 특징 및 기능이 하나 이상의 공통 소프트웨어 및 하드웨어 요소 사이에서 공유될 수 있음을 이해할 것이며, 이러한 설명은 그러한 특징이나 기능을 구현하는 데 별도의 하드웨어 또는 소프트웨어 컴포넌트가 사용되어야 함을 요구하거나 의미하는 것은 아니다.
애플리케이션의 컴포넌트가 소프트웨어를 사용하여 전체적으로 또는 부분적으로 구현되는 경우, 일 실시예에서, 이들 소프트웨어 요소는 컴퓨팅 또는 프로세싱 컴포넌트에 대해 동작하여 그에 대해 설명된 기능을 수행할 수 있도록 구현될 수 있다. 하나의 그러한 예시적인 컴퓨팅 컴포넌트가 도 3에 도시된다. 이러한 예시적인 컴퓨팅 컴포넌트(300)와 관련하여 다양한 실시예가 설명된다. 본 설명을 읽은 후, 다른 컴퓨팅 컴포넌트 또는 아키텍처를 사용하여 본 출원을 어떻게 구현하는 지는 당업자에게 명백해질 것이다.
이제 도 3을 참조하면, 컴퓨팅 컴포넌트(300)는 예를 들어 자기-조정 디스플레이, 데스크톱, 랩톱, 노트북 및 태블릿 컴퓨터 내에서 발견되는 컴퓨팅 또는 프로세싱 기능; 핸드헬드 컴퓨팅 장치(태블릿, PDA, 스마트폰, 휴대폰, 팜탑 등); 워크 스테이션 또는 디스플레이를 갖춘 기타 장치; 서버; 또는 주어진 애플리케이션 또는 환경에 대해 바람직하거나 적합할 수 있는 다른 유형의 전용 또는 범용 컴퓨팅 장치를 나타낼 수 있다. 컴퓨팅 컴포넌트(300)는 또한 주어진 장치 내에 내장되거나 그렇지 않고 이용가능한 컴퓨팅 기능을 나타낼 수 있다. 예를 들어, 컴퓨팅 컴포넌트는, 예를 들어 내비게이션 시스템, 휴대형 컴퓨팅 장치, 및 일부 형태의 처리 기능을 포함할 수 있는 다른 전자 장치와 같은 다른 전자 장치에서 발견될 수 있다.
컴퓨팅 컴포넌트(300)는 예를 들어, 하나 이상의 프로세서, 제어기, 제어 컴포넌트, 또는 프로세서(304)와 같은 프로세싱 장치를 포함할 수 있다. 프로세서(304)는 예를 들어 마이크로프로세서, 제어기 또는 다른 제어 로직과 같은 범용 또는 전용 프로세싱 엔진을 사용하여 구현될 수 있다. 도시된 예에서, 프로세서(304)는 버스(302)에 접속되지만, 컴퓨팅 컴포넌트(300)의 다른 컴포넌트와의 상호 작용을 용이하게 하거나 외부와 통신하기 위해 임의의 통신 매체가 사용될 수 있다.
컴퓨팅 컴포넌트(300)는 또한 본 명세서에서 메인 메모리(308)로 간단히 지칭되는 하나 이상의 메모리 컴포넌트를 포함할 수 있다. 예를 들어, 바람직하게는 랜덤 액세스 메모리(RAM) 또는 다른 동적 메모리가 프로세서(304)에 의해 실행될 정보 및 명령어를 저장하기 위해 사용될 수 있다. 또한, 메인 메모리(308)는 프로세서(304)에 의해 실행될 명령어의 실행 동안 임시 변수 또는 다른 중간 정보를 저장하는데 사용될 수 있다. 컴퓨팅 컴포넌트(300)는 마찬가지로 버스(302)에 결합된 판독 전용 메모리("ROM") 또는 다른 정적 저장 장치를 포함할 수 있고, 이들은 프로세서(304)에 대한 정적 정보 및 명령어를 저장한다.
컴퓨팅 컴포넌트(300)는 또한 예를 들어, 미디어 드라이브(312) 및 저장 유닛 인터페이스(320)를 포함할 수 있는 하나 이상의 다양한 형태의 정보 저장 메커니즘(310)을 포함할 수 있다. 미디어 드라이브(312)는 고정식 또는 이동식 저장 매체(314)를 지원하는 드라이브나 다른 메커니즘을 포함할 수 있다. 예를 들어, 하드 디스크 드라이브, 솔리드 스테이트 드라이브, 자기 테이프 드라이브, 광 디스크 드라이브, 콤팩트 디스크(CD) 또는 디지털 비디오 디스크(DVD) 드라이브(R 또는 RW), 또는 다른 이동식 또는 고정식 매체 드라이브가 제공될 수 있다. 따라서, 저장 매체(314)는 예를 들어 하드 디스크, 집적 회로 조립체, 자기 테이프, 카트리지, 광 디스크, CD 또는 DVD, 또는 매체 드라이브(312)에 의해 판독되거나 이에 기록되거나, 이에 의해 액세스되는 다른 고정식 또는 이동식 매체를 포함할 수 있다. 이러한 예가 나타내는 바와 같이, 저장 매체(314)는 컴퓨터 소프트웨어 또는 데이터가 저장된 컴퓨터 사용 가능한 저장 매체를 포함할 수 있다.
대안적인 실시예에서, 정보 저장 메커니즘(310)은 컴퓨터 프로그램 또는 다른 명령어나 데이터가 컴퓨팅 컴포넌트(300)에 로딩될 수 있게 하는 다른 유사한 수단을 포함할 수 있다. 이러한 수단은, 예를 들어 고정식 또는 이동식 저장 유닛(322) 및 인터페이스(320)를 포함할 수 있다. 그러한 저장 유닛(322) 및 인터페이스(320)의 예는 프로그램 카트리지 및 카트리지 인터페이스, 이동식 메모리(예를 들어, 플래시 메모리 또는 다른 이동식 메모리 컴포넌트) 및 메모리 슬롯, PCMCIA 슬롯 및 카드, 및 소프트웨어 및 데이터가 저장 유닛(322)으로부터 컴퓨팅 컴포넌트(300)로 전달될 수 있게 해주는 다른 고정식 또는 이동식 저장 유닛(322) 및 인터페이스(320)를 포함할 수 있다.
컴퓨팅 컴포넌트(300)는 또한 통신 인터페이스(324)를 포함할 수 있다. 통신 인터페이스(324)는 소프트웨어 및 데이터가 컴퓨팅 컴포넌트(300)와 외부 장치 사이에서 전송될 수 있도록 하는 데 사용될 수 있다. 통신 인터페이스(324)의 예는 모뎀 또는 소프트모뎀, 네트워크 인터페이스(가령, 이더넷, 네트워크 인터페이스 카드, WiMedia, IEEE 802.11x 또는 다른 인터페이스), 통신 포트(예를 들어, USB 포트, IR 포트, RS232 포트 Bluetooth® 인터페이스 또는 다른 포트) 또는 기타 통신 인터페이스를 포함할 수 있다. 통신 인터페이스(324)를 통해 전달된 소프트웨어 및 데이터는 통상적으로 주어진 통신 인터페이스(324)에 의해 교환될 수 있는 전자, 전자기(광을 포함함) 또는 다른 신호일 수 있는 신호 상에서 운반될 수 있다. 이들 신호는 채널(328)을 통해 통신 인터페이스(324)에 제공될 수 있다. 이러한 채널(328)은 신호를 운반할 수 있고 유선 또는 무선 통신 매체를 사용하여 구현될 수 있다. 채널의 일부 예는 전화선, 셀룰러 링크, RF 링크, 광 링크, 네트워크 인터페이스, 로컬 또는 광역 네트워크, 및 다른 유선 또는 무선 통신 채널을 포함할 수 있다.
본 문서에서, "컴퓨터 프로그램 매체" 및 "컴퓨터 사용가능 매체"라는 용어는 일반적으로, 예를 들어 메모리(308), 저장 유닛(320), 매체(314) 및 채널(328)과 같은 일시적 또는 비 일시적인 매체를 지칭하는 데 사용된다. 이러한 및 다른 다양한 형태의 컴퓨터 프로그램 매체 또는 컴퓨터 사용가능 매체는 실행을 위해 처리 장치에 하나 이상의 명령어의 하나 이상의 시퀀스를 전달하는 것과 관련될 수 있다. 매체 상에 구현된 이러한 명령어는 일반적으로 "컴퓨터 프로그램 코드" 또는 "컴퓨터 프로그램 제품"(컴퓨터 프로그램 또는 다른 그룹화의 형태로 그룹화될 수 있음)으로 지칭된다. 실행될 때, 이러한 명령어는 컴퓨팅 컴포넌트(300)가 본 명세서에서 논의된 본 출원의 특징 또는 기능을 수행하게 할 수 있다.
다양한 예시적인 실시예 및 구현에 관하여 위에서 설명되었지만, 개별 실시예 중 하나 이상에서 설명된 다양한 특징, 측면 및 기능성은 이들이 설명된 특정 실시예에만 적용되는 것은 아니며, 대신에 해당 실시예가 설명되었는지 여부 및 해당 특징이 설명된 실시예의 일부로서 제시되었는지 여부와 상관없이, 본 출원의 다른 실시예 중 하나 이상에 단독으로 또는 다양한 조합으로 적용될 수 있다는 것을 이해해야 한다. 따라서, 본 출원의 범위 및 범주는 전술한 예시적인 실시예 중 어느 것에 의해서도 제한되어서는 안 된다.
본 명세서에서 사용된 용어 및 어구 및 그 변형은, 달리 명시적으로 언급되지 않는 한, 제한에 반대되는 것으로서 개방형 종결로서 해석되어야 한다. 전술한 예로서: "포함하는"이라는 용어는 "제한 없이 포함"을 의미하는 것 등으로 이해되어야 하고; "예시"라는 용어는 그 아이템의 배타적이거나 제한적인 열거가 아니라, 설명되는 아이템의 예시적인 경우를 제공하기 위해 사용되며; 용어 "하나의 (a 또는 an)"는 "적어도 하나", "하나 또는 그 이상" 등을 의미하는 것으로 이해되어야 하고; "통상적인", "전통적인", "정상적인", "표준적인", "알려진" 및 유사한 의미의 용어와 같은 형용사는 설명된 아이템을 주어진 기간 또는 주어진 시간 이후에 이용가능한 아이템으로 국한하는 것으로 해석되어서는 안 되며, 대신에 현재 또는 미래에 언제든지 이용가능하거나 공지될 수 있는 통상적인, 전통적인, 정상적인 또는 표준적인 기법을 포괄하는 것으로 이해되어야 한다. 마찬가지로, 본 문서가 당업자에게 명백하거나 공지된 기술을 언급할 때, 그러한 기술은 당업자에게 현재 또는 미래에 언제든지 명백한 또는 공지된 기술을 포함한다.
일부 경우에 "하나 이상", "적어도", "그러나 이에 국한되지 않음" 또는 다른 유사한 문구와 같은 확장된 단어 및 구문의 존재는 그러한 확장 구문이 존재하지 않을 경우에는 더 좁은 케이스를 의도하거나 요구하는 것을 의미하는 것으로 이해되어서는 안된다. "컴포넌트"라는 용어의 사용은 컴포넌트의 일부로서 기술되거나 주장된 요소 또는 기능이 모두 공통 패키지로 구성된다는 것을 의미하지는 않는다. 실제로, 제어 로직 또는 다른 컴포넌트에 관계없이, 컴포넌트의 다양한 측면 중 일부 또는 전부는 단일 패키지로 결합되거나 개별적으로 유지될 수 있고, 또한 다수의 그룹핑 또는 패키지 또는 다수의 위치에 걸쳐 더 분산될 수 있다.
또한, 본 명세서에 설명된 다양한 실시예는 예시적인 블록도, 흐름도 및 다른 설명으로 기술된다. 본 문서를 읽은 후 당업자에게 명백히 이해되는 바와 같이, 예시된 실시예 및 그의 다양한 대안이 도시된 예에 국한되지 않고 구현될 수 있다. 예를 들어, 블록도 및 그에 수반되는 설명은 특정 아키텍처 또는 구성을 지정하는 것으로 해석되어서는 안 된다.

Claims (32)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 컴퓨터 실행가능 프로그램 코드를 포함하는 비일시적 컴퓨터 판독가능 매체로서,
    상기 컴퓨터 실행가능 프로그램 코드는 컴퓨터 시스템으로 하여금,
    미디어 콘텐츠의 두 개 이상의 픽처 그룹들(GOPs)에 존재하는 하나 이상의 특징의 존재를 인식하고, 상기 두 개 이상의 픽처 그룹들 각각은 하나 이상의 각 인터-프레임이 뒤따르는 각 I-프레임으로 시작하며,
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 미디어 콘텐츠의 장면을 나타내는 테마 기준을 충족시키는지 여부를 결정하며,
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 테마 기준을 충족시킨다는 결정에 응답하여, 상기 두 개 이상의 픽처 그룹들 중 첫번째 것의 각 I-프레임의 시작 및 상기 두 개 이상의 픽처 그룹들 중 마지막 것의 끝을 결정하며,
    상기 두 개 이상의 픽처 그룹들 및 상기 두 개 이상의 픽처 그룹들의 결정된 시작 및 끝을 트랜스코더에 전송하도록 구성된
    비일시적 컴퓨터 판독가능 매체.
  11. 삭제
  12. 제10항에 있어서,
    상기 미디어 콘텐츠는 영화 또는 비디오 클립 중 하나를 포함하는
    비일시적 컴퓨터 판독가능 매체.
  13. 삭제
  14. 제10항에 있어서,
    상기 미디어 콘텐츠는 라이브 방송이나 라이브 스트리밍 미디어 콘텐츠 중 하나를 포함하는
    비일시적 컴퓨터 판독가능 매체.
  15. 삭제
  16. 제10항에 있어서,
    상기 테마 기준은 모션 벡터 기준, 객체 존재 기준, 오디오 지문 기준, 색 관련 기준, 휘도 기준, 상대적 프레임 유형 양, 사전결정된 장면 메타데이터, 및 오디오 대 스크립트 대응 기준 중 적어도 하나를 포함하는
    비일시적 컴퓨터 판독가능 매체.
  17. 제16항에 있어서,
    상기 테마 기준은 적어도 하나의 모션 벡터 기준을 포함하며,
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 미디어 콘텐츠의 장면을 나타내는 상기 테마 기준을 충족시키는지 여부를 결정하는 것이 두 개 이상의 픽처 그룹들의 적어도 하나의 요소의 공통된 이동을 결정하기 위해 모션 벡터 분석을 수행하는 것을 포함하는
    비일시적 컴퓨터 판독가능 매체.
  18. 제10항에 있어서,
    상기 테마 기준은 적어도 하나의 모션 벡터 기준을 포함하며,
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 미디어 콘텐츠의 장면을 나타내는 상기 테마 기준을 충족시키는지 여부를 결정하는 것이 인트라-코딩된 프레임들, 양방향 예측 프레임들, 및 예측 프레임들의 상대적인 수를 결정하는 것을 포함하는
    비일시적 컴퓨터 판독가능 매체.
  19. 제18항에 있어서,
    상기 양방향 예측 프레임 및 예측 프레임은 상기 장면에 속하는 상기 두 개 이상의 픽처 그룹들 중 대응하는 것들을 시사하는
    비일시적 컴퓨터 판독가능 매체.
  20. 제10항에 있어서,
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 미디어 콘텐츠의 장면을 나타내는 상기 테마 기준을 충족시키는지 여부를 결정하는 것이 상기 두 개 이상의 픽처 그룹들이 동일하거나 유사한 휘도 레벨을 갖는지 여부를 결정하는 것을 포함하는
    비일시적 컴퓨터 판독가능 매체.
  21. 제10항에 있어서,
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 미디어 콘텐츠의 장면을 나타내는 상기 테마 기준을 충족시키는지 여부를 결정하는 것이 상기 두 개 이상의 픽처 그룹들의 오디오가 오디오 지문, 스크립트 다이얼로그, 또는 장면을 나타내는 장면 메타데이터 정보 중 적어도 하나에 대응하는지 여부를 결정하는 것을 포함하는
    비일시적 컴퓨터 판독가능 매체.
  22. 제10항에 있어서,
    상기 컴퓨터 실행가능 프로그램 코드는 컴퓨터 시스템으로 하여금:
    상기 테마 기준을 만족하는 장면들에 대해 최적화된 트랜스코더를 이용하여,상기 두 개 이상의 픽처 그룹들을 이용하여 미디어 콘텐츠의 장면 및 상기 두 개 이상의 픽처 그룹들의 결정된 시작 및 끝을 트랜스코드하도록 더 구성된
    비일시적 컴퓨터 판독가능 매체.
  23. 컴퓨터 시스템에 의한 이용을 위한 방법에 있어서, 상기 방법은:
    미디어 콘텐츠의 두 개 이상의 픽처 그룹들(GOPs)에 존재하는 하나 이상의 특징의 존재를 인식하는 단계 - 상기 두 개 이상의 픽처 그룹들 각각은 하나 이상의 각 인터-프레임이 뒤따르는 각 I-프레임으로 시작함 -;
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 미디어 콘텐츠의 장면을 나타내는 테마 기준을 충족시키는지 여부를 결정하는 단계;
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 테마 기준을 충족시킨다는 결정에 응답하여, 상기 두 개 이상의 픽처 그룹들 중 첫번째 것의 각 I-프레임의 시작 및 상기 두 개 이상의 픽처 그룹들 중 마지막 것의 끝을 결정하는 단계; 및
    상기 두 개 이상의 픽처 그룹들 및 상기 두 개 이상의 픽처 그룹들의 결정된 시작 및 끝을 트랜스코더에 전송하는 단계;를 포함하는
    컴퓨터 시스템에 의한 이용을 위한 방법.
  24. 제23항에 있어서,
    상기 미디어 콘텐츠는 영화 또는 비디오 클립 중 하나를 포함하는
    컴퓨터 시스템에 의한 이용을 위한 방법.
  25. 제23항에 있어서,
    상기 미디어 콘텐츠는 라이브 방송이나 라이브 스트리밍 미디어 콘텐츠 중 하나를 포함하는
    컴퓨터 시스템에 의한 이용을 위한 방법.
  26. 제23항에 있어서,
    상기 테마 기준은 모션 벡터 기준, 객체 존재 기준, 오디오 지문 기준, 색 관련 기준, 휘도 기준, 상대적 프레임 유형 양, 사전결정된 장면 메타데이터, 및 오디오 대 스크립트 대응 기준 중 적어도 하나를 포함하는
    컴퓨터 시스템에 의한 이용을 위한 방법.
  27. 제26항에 있어서,
    상기 테마 기준은 적어도 하나의 모션 벡터 기준을 포함하며,
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 미디어 콘텐츠의 장면을 나타내는 상기 테마 기준을 충족시키는지 여부를 결정하는 단계는 두 개 이상의 픽처 그룹들의 적어도 하나의 요소의 공통된 이동을 결정하기 위해 모션 벡터 분석을 수행하는 것을 포함하는
    컴퓨터 시스템에 의한 이용을 위한 방법.
  28. 제23항에 있어서,
    상기 테마 기준은 적어도 하나의 모션 벡터 기준을 포함하며,
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 미디어 콘텐츠의 장면을 나타내는 상기 테마 기준을 충족시키는지 여부를 결정하는 단계는 인트라-코딩된 프레임들, 양방향 예측 프레임들, 및 예측 프레임들의 상대적인 수를 결정하는 것을 포함하는
    컴퓨터 시스템에 의한 이용을 위한 방법.
  29. 제28항에 있어서,
    상기 양방향 예측 프레임 및 예측 프레임은 상기 장면에 속하는 상기 두 개 이상의 픽처 그룹들 중 대응하는 것들을 시사하는
    컴퓨터 시스템에 의한 이용을 위한 방법.
  30. 제23항에 있어서,
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 미디어 콘텐츠의 장면을 나타내는 상기 테마 기준을 충족시키는지 여부를 결정하는 단계는 상기 두 개 이상의 픽처 그룹들이 동일하거나 유사한 휘도 레벨을 갖는지 여부를 결정하는 것을 포함하는
    컴퓨터 시스템에 의한 이용을 위한 방법.
  31. 제23항에 있어서,
    상기 두 개 이상의 픽처 그룹들에 존재하는 상기 하나 이상의 특징이 상기 미디어 콘텐츠의 장면을 나타내는 상기 테마 기준을 충족시키는지 여부를 결정하는 단계는 상기 두 개 이상의 픽처 그룹들의 오디오가 오디오 지문, 스크립트 다이얼로그, 또는 장면을 나타내는 장면 메타데이터 정보 중 적어도 하나에 대응하는지 여부를 결정하는 것을 포함하는
    컴퓨터 시스템에 의한 이용을 위한 방법.
  32. 제23항에 있어서,
    상기 테마 기준을 만족하는 장면들에 대해 최적화된 트랜스코더를 이용하여,상기 두 개 이상의 픽처 그룹들을 이용하여 미디어 콘텐츠의 장면 및 상기 두 개 이상의 픽처 그룹들의 결정된 시작 및 끝을 트랜스코드하는 단계를 더 포함하는
    컴퓨터 시스템에 의한 이용을 위한 방법.
KR1020180158138A 2017-12-11 2018-12-10 장면 분류를 위한 시스템 및 방법 KR102190878B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/838,307 2017-12-11
US15/838,307 US10701365B2 (en) 2017-12-11 2017-12-11 Systems and methods for scene categorization

Publications (2)

Publication Number Publication Date
KR20190069326A KR20190069326A (ko) 2019-06-19
KR102190878B1 true KR102190878B1 (ko) 2020-12-16

Family

ID=66697564

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180158138A KR102190878B1 (ko) 2017-12-11 2018-12-10 장면 분류를 위한 시스템 및 방법

Country Status (2)

Country Link
US (1) US10701365B2 (ko)
KR (1) KR102190878B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230081308A (ko) 2021-11-30 2023-06-07 서강대학교산학협력단 사건 단위 비디오 검색을 위한 비디오 특징 벡터 생성 방법 및 이를 이용한 비디오 검색 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11025354B2 (en) 2019-07-19 2021-06-01 Ibiquity Digital Corporation Targeted fingerprinting of radio broadcast audio
US11769312B1 (en) * 2023-03-03 2023-09-26 Roku, Inc. Video system with scene-based object insertion feature

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5685732B2 (ja) * 2010-02-10 2015-03-18 パナソニックIpマネジメント株式会社 映像抽出装置、プログラム及び記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261648A (ja) * 1996-03-21 1997-10-03 Fujitsu Ltd シーンチェンジ検出装置
US7023918B2 (en) * 2002-05-30 2006-04-04 Ess Technology, Inc. Color motion artifact detection and processing apparatus compatible with video coding standards
US9402107B2 (en) * 2013-03-15 2016-07-26 Time Warner Cable Enterprises Llc Apparatus and methods for delivery of multicast and unicast content in a content delivery network
US20150074129A1 (en) * 2013-09-12 2015-03-12 Cisco Technology, Inc. Augmenting media presentation description and index for metadata in a network environment
US9170707B1 (en) * 2014-09-30 2015-10-27 Google Inc. Method and system for generating a smart time-lapse video clip

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5685732B2 (ja) * 2010-02-10 2015-03-18 パナソニックIpマネジメント株式会社 映像抽出装置、プログラム及び記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230081308A (ko) 2021-11-30 2023-06-07 서강대학교산학협력단 사건 단위 비디오 검색을 위한 비디오 특징 벡터 생성 방법 및 이를 이용한 비디오 검색 시스템

Also Published As

Publication number Publication date
US10701365B2 (en) 2020-06-30
KR20190069326A (ko) 2019-06-19
US20190182486A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
US11736701B2 (en) Hash-based encoder decisions for video coding
CN108632625B (zh) 一种视频编码方法、视频解码方法和相关设备
US11095877B2 (en) Local hash-based motion estimation for screen remoting scenarios
US20210168408A1 (en) Machine-Learning-Based Adaptation of Coding Parameters for Video Encoding Using Motion and Object Detection
US10390039B2 (en) Motion estimation for screen remoting scenarios
KR100987365B1 (ko) 비디오 프레임들로부터 키 프레임들의 선택
US9215402B2 (en) Video format for digital video recorder
KR102190878B1 (ko) 장면 분류를 위한 시스템 및 방법
EP3706417A2 (en) Scene classification and learning for video compression
KR20140019335A (ko) 장면 타입에 기초한 비디오 스트림 인코딩
US20130339362A1 (en) Methods and systems for automatically and efficiently categorizing, transmitting, and managing multimedia contents
Peixoto et al. Fast H. 264/AVC to HEVC transcoding based on machine learning
CA2689441C (en) A system and method for time optimized encoding
US10264273B2 (en) Computed information for metadata extraction applied to transcoding
US10674111B2 (en) Systems and methods for profile based media segment rendering
CA3039702A1 (en) Systems and methods for compressing video
CN114930840A (zh) 增强型插值滤波器的运动矢量范围的推导
KR20060127022A (ko) 코딩 방법 및 대응하는 코딩된 신호
KR20220123056A (ko) 인코더, 디코더 및 대응 방법
KR20180108316A (ko) 영상의 병렬 부호화 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant