KR20070003778A - 고유 및 외래 시청각 데이터의 통합 분석을 위한 시스템 및방법 - Google Patents
고유 및 외래 시청각 데이터의 통합 분석을 위한 시스템 및방법 Download PDFInfo
- Publication number
- KR20070003778A KR20070003778A KR1020067010997A KR20067010997A KR20070003778A KR 20070003778 A KR20070003778 A KR 20070003778A KR 1020067010997 A KR1020067010997 A KR 1020067010997A KR 20067010997 A KR20067010997 A KR 20067010997A KR 20070003778 A KR20070003778 A KR 20070003778A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- foreign
- film
- analysis system
- integrated analysis
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
필름내의 특징들을 분석하고, 필름내에 존재하지 않지만, 인터넷을 통해 입수할 수 있는 특징들과 상관시키기 위한 시스템 같은, 고유 및 외래 시청각 정보의 통합적 분석을 위한 시스템이 제공된다. 시스템은 고유 데이터에 대해 필름을 탐색하고, 추출 알고리즘을 사용하여 고유 데이터를 추출하기 위해, 시청각 소스, 예컨대, 필름 소스에 통신가능하게 연결된 고유 콘텐트 분석기를 포함한다. 또한, 시스템은 외래 정보 소스를 탐색하고, 검색 알고리즘을 사용하여 외래 데이터를 검색하기 위해 인터넷을 통해 입수할 수 있는 필름 각본 같은 외래 정보 소스에 통신가능하게 연결된 외래 콘텐트 분석기를 포함한다. 고유 데이터와 외래 데이터는 멀티소스 데이터 구조로 상관된다. 멀티소스 데이터 구조는 시스템의 사용자에게 제공되는 고레벨 정보 구조로 변형된다. 사용자는 필름내의 배우 식별 같은 정보를 위해 고레벨 정보 구조를 브라우즈할 수 있다.
시청각 데이터, 필름, 콘텐트 분석
Description
본 발명은 고유 및 외래 시청각 정보의 통합 분석에 관한 것으로, 특히, 필름내에 존재하지 않지만, 예컨대, 인터넷을 통해 입수할 수 있는 특징들을 갖는 예컨대, 필름내의 특징들의 분석 및 상관(correlation)에 관한 것이다.
필름들에 관심이 있는 사람은 특정 필름에 대한 부가적 정보를 획득하기 위해, 다년간 서적들, 인쇄된 잡지들 또는 인쇄된 백과사전들을 참조하여 왔다. 인터넷의 출현과 함께, 다수의 인터넷 사이트들이 필름 관련 자료에 전문화되어 있다. 그 예는 방대한 수의 필름들에 대한 매우 다양한 부가적인 정보를 제공하는 매우 완전하고 정교한 네트 사이트(net site)인 인터넷 무비 데이터베이스 (http://www.imdb.com)이다. 인터넷이 부가적인 필름 정보에 대한 접근을 용이하게 한다 하더라도, 인터넷을 통해 입수할 수 있는 방대한 양의 정보를 발견하는 그 또는 그녀의 방식을 찾는 것은 사용자에게 달려있다.
디지털 다용도 디스크(DVD) 매체의 출현과 함께, 필름에 관한 부가적인 정보는 종종 DVD 필름의 기본 메뉴의 메뉴 형태로 입수할 수 있다. 종종, 인터뷰들, 대안적 필름 장면들, 대규모의 캐스트 목록들, 다양한 잡정보(trivia) 등을 입수할 수 있다. 또한, DVD 포맷은 장면 브라우징, 플롯 요약들, 다양한 장면들에 대한 북마크들 등을 용이하게 한다. 다수의 DVD들상에서 부가적인 정보를 입수할 수 있다 하더라도, 부가적인 정보는 필름의 공급자에 의해 선택되며, 또한, 부가적인 정보는 DVD 디스크상의 가용 공간에 의해 제한되며, 이는 정적인 정보이다.
다양한 필름들, 배우들, 감독들 등에 관한 입수할 수 있는 부가적인 정보의 양 및 입수할 수 있는 필름의 양은 압도적이며, 사용자는 "정보 과부하(information overload)"로 곤란함을 겪는다. 필름들에 관심이 있는 사람은 종종 그들이 좋아하는 새로운 것들을 발견하는 방식 및 그들이 원하는 바를 정확히 발견할 수 있는 방식에 관련한 문제로 애를 쓴다. 이 문제에 대처하기 위해, 시청각 데이터의 탐색 및 분석을 위한 다양한 시스템들 및 방법들이 개발되어 왔다. 이러한 시스템들의 다른 유형들, 예컨대, 미국 출원 제2002/0093591호에 기술된 시스템 같은 자동 요약을 위한 시스템들이 가용하다. 시스템들의 다른 유형들은 미국 출원 제2003/0107592호에 기술된 시스템 같은, 예컨대, 필름내의 배우의 이미지 같은 선택된 이미지 데이터에 기초한 타겟형 탐색(targeted search)을 위한 시스템이다.
본 발명자들은 인터넷상에서 발견된 부가 정보와 DVD 필름상의 시청각 데이터를 통합시키는 것 같은 고유 및 외래 시청각 데이터를 통합할 수 있는 시스템이 유익하다는 것을 알게 되었으며, 결과적으로, 본 발명이 안출되었다.
본 발명은 시청각 데이터의 분석을 위한 개선된 시스템을 제공하는 것을 추구한다. 바람직하게, 본 발명은 단독으로 또는 임의의 조합으로 상술한 단점들 중 하나 이상을 제거 또는 완화시킨다.
따라서, 제 1 양상에서, 고유 및 외래 시청각 정보의 통합 분석을 위한 시스템이 제공되며, 이 시스템은:
시청각 소스에 통신가능하게 연결되고, 고유 데이터에 대한 시청각 소스를 탐색하도록 적응되며, 추출 알고리즘을 사용하여 고유 데이터를 추출하도록 적응되는 고유 콘텐트 분석기, 및
외래 정보 소스에 통신가능하게 연결되고, 외래 정보 소스를 탐색하도록 적응되며, 검색 알고리즘을 사용하여 외래 데이터를 검색하도록 적응되는 외래 콘텐트 분석기를 포함하며,
고유 데이터와 외래 데이터는 상관되어, 멀티소스 데이터 구조를 제공한다.
가정용으로 적합한 시청각 시스템 같은 시청각 시스템은 시청각 정보의 분석을 가능하게 하는 처리 수단을 포함할 수 있다. 예컨대, 디지털 다용도 디스크(DVD) 유닛 또는 MPEG 포맷 또는 데이터 네트워크를 경유한 전달에 적합한 임의의 다른 유형의 포맷의 비디오 같은 스트림형 비디오를 표시할 수 있는 유닛을 포함하는 시스템들 같은 임의의 유형의 시청각 시스템이 고려될 수 있다. 또한, 시청각 시스템은 위성 또는 케이블 중 어느 하나를 경유하여 TV 및 필름 같은 시청각 콘텐트를 수신 및 표시하기에 적합한 "셋톱(set-top)"-박스형 시스템일 수도 있다. 시스템은 시청자에게 시청각 콘텐트, 즉, 고유 콘텐트를 제공하거나, 시청각 콘텐트가 시청자에게 제공될 수 있게 하는 신호를 출력하는 중 어느 하나를 위한 수단을 포함한다. 형용사 "고유(intrinsic)"는 광의적으로 해석되어야 한다. 고유 콘텐트는 필름 소스의 신호로부터 추출될 수 있는 콘텐트일 수 있다. 고유 콘텐트는 비디오 신호, 오디오 신호, 신호로부터 추출될 수 있는 텍스트 등일 수 있다.
시스템은 고유 콘텐트 분석기를 포함한다. 고유 콘텐트 분석기는 통상적으로 시청각 데이터를 분석할 수 있는 처리 수단이다. 고유 콘텐트 분석기는 필름 소스 같은 시청각 소스에 통신가능하게 연결된다. 고유 콘텐트 분석기는 추출 알고리즘을 사용함으로써, 시청각 소스를 탐색하고, 그로부터 데이터를 추출하도록 적응된다.
시스템은 또한 외래 콘텐트 분석기를 포함한다. 형용사 "외래(extrinsic)"는 광의적으로 해석되어야 한다. 외래 콘텐트는 고유 콘텐트에 포함되지 않거나, 고유 콘텐트가 아닐 수 있거나, 단지 고유 콘텐트로부터 추출이 곤란한 콘텐트이다. 외래 콘텐트는 통상적으로, 필름 각본, 스토리보드, 리뷰들, 분석들 등 같은 콘텐트일 수 있다. 외래 정보 소스는 인터넷 사이트, 관련 데이터를 포함하는 데이터 캐리어 등일 수 있다.
시스템은 또한 고유 데이터와 외래 데이터를 멀티소스 데이터 구조로 상관시키기 위한 수단을 포함한다. 이 상관을 기술하는 문법들은 추출 및/또는 검색 알고리즘들의 일부일 수 있다. 또한, 상관 알고리즘이 존재할 수 있으며, 상관 알고리즘은 고유 데이터와 외래 데이터를 멀티소스 데이터 구조로 상관시킨다. 멀티소스 데이터 구조는 예컨대, 데이터 포인터들에 의해 다양한 유형들의 데이터를 상관시키는 저레벨 데이터 구조일 수 있다. 멀티소스 데이터 구조는 시스템의 사용자가 접근할 수 없지만, 시스템의 공급자는 접근할 수 있을 수 있다. 멀티소스 데이터 구조는 통상적으로, 시스템의 사용자에게 제시되는 고레벨 정보 구조로 포맷화된다.
고유 콘텐트는 적절한 추출 알고리즘을 사용하여 시청각 소스로부터 추출될 수 있으며, 외래 콘텐트는 외래 정보 소스로부터 검색될 수 있다. 외래 데이터의 검색은 추출된 데이터에 기초할 수 있지만, 그러나, 외래 데이터의 검색은 또한, 고유 콘텐트에 무관하게 검색 알고리즘에 제공될 수도 있다.
추출 및/또는 검색 알고리즘(들)은 고정된 기능을 갖는 다수의 전자 디바이스들과 동일한 방식으로 시스템의 일부일 수 있다. 그러나, 대안적으로, 모듈이 추출 및/또는 검색 알고리즘들을 제공할 수 있다. 다른 사용자들은 예컨대, 필름들에 다른 선호도들을 갖거나 애호할 수 있기 때문에, 모듈에 의해 이들 알고리즘이 제공되는 것이 유리할 수 있으며, 그에 의해, 보다 큰 유연성이 제공될 수 있다. 모듈은 예컨대, 슬롯에 부합되도록 적응된 전자 모듈 같은 하드웨어 모듈일 수 있지만, 모듈은 또한, 데이터 캐리어상의 데이터 파일 또는 네트워크 접속을 경유하여 제공될 수 있는 데이터 파일 같은 소프트웨어 모듈일 수도 있다.
시스템은 사용자에 의해 질의(query)가 제공될 수 있는 기능을 지원할 수 있으며, 질의는 질의에 따라 고유 및/또는 외래 데이터가 추출되도록 추출 및/또는 검색 알고리즘들에 제공될 수 있다. 시청각 데이터의 콘텐츠 및 스타일들의 다양성으로 인해 이 기능을 제공하는 것이 유리하다. 그에 의해, 보다 큰 유연성을 갖는 시스템이 제공될 수 있다. 질의는 의미론적 질의일 수 있으며, 즉, 질의는 질의 메시지를 사용하여 조성될 수 있다. 질의는 예컨대, 눌러졌을 때, 사용자에게 이루어질 수 있는 가능한 인질의들의 목록을 제공하는 원격 제어기상의 질의 버튼과 연계하여, 질의들의 목록으로부터 선택될 수 있다.
시청각 소스는 필름일 수 있으며, 추출된 고유 데이터는 텍스트, 오디오 및/또는 비주얼 특징들을 비제한적으로 포함할 수 있다.
외래 정보 소스는 인터넷에 연결될 수 있으며, 인터넷을 경유하여 액세스될 수 있다. 외래 정보 소스는 예컨대, 인터넷 무비 데이터베이스 같은 범용 목적 인터넷 사이트들일 수 있지만, 외래 정보 소스는 또한, 본 발명의 시스템들에게 부가적인 정보를 제공할 특정 목적으로 제공된 인터넷 사이트 같은 특정 목적 인터넷 사이트들일 수도 있다.
외래 정보 소스는 필름 각본일 수 있다. 마감된 필름은 종종 각본으로부터 벗어난다. 필름 제조 프로세스는 통상적으로, 원래의 각본과 그 버전들 및 스토리보드들의 전개에 기초한다. 이 정보를 사용하는 것은 영화를 위한 레시피북을 사용하는 것과 유사하다. 시청각 콘텐트로부터 추출할 수 없거나, 다른 이유로, 추출이 매우 곤란할 수 있는 고레벨 의미론적 정보는 각본 및 관련 필름의 분석 및 시청각 신호 처리를 사용하여 자동으로 추출될 수 있다. 이는 외부적 정보 소스가 시청각 분석에 의해서는 전혀 추출할 수 없는 필름에 대한 데이터를 포함할 수 있거나, 추출될 수 있는 경우라도, 신뢰도가 매우 낮기 때문에 유리하다.
외래 콘텐트 분석기는 각본 문법에 대한 지식을 포함할 수 있으며, 외래 데이터는 각본 문법의 사용에 의해 각본으로부터 추출된 정보를 사용하여 검색된다. 각본의 실제 콘텐트는 규칙적 포맷을 따르는 것이 일반적이다. 이 포맷의 지식을 사용함으로써, 장면이 실내에서 이루어지는지 또는 실외에서 이루어지는지의 여부, 위치 및 하루중의 시간 등 같은 정보가 추출될 수 있다. 고유 데이터에만 기초한 이러한 정보의 추출은 불가능할 수 있거나, 가능한 경우에도 매우 낮은 확실성으로 획득될 수 있다.
임의의 필름의 한가지 중요한 양상은 필름내의 사람들의 신분이다. 이러한 정보는 각본이 주어진 장면내에 존재하는 모든 사람을 나열할 수 있기 때문에 각본과 필름 콘텐트를 상관시킴으로써 획득될 수 있다. 각본 문법을 사용함으로써, 장면내의 사람의 신분이 추출될 수 있다. 각본으로부터 추출된 신분은 예컨대, 장면내의 몇몇 사람들을 구별하기 위해, 오디오 및/또는 비주얼 신분 마커와 조합될 수 있다. 각본으로부터 추출될 수 있는 임의의 특징이 사용자에게 제시되는 필름 분석에 사용될 수 있다. 추출 및 사용자에게 제시될 수 있는 바의 다른 가능성들은 의미론적 장면 묘사 및 서술 추출, 필름 구조 분석, 정서적(무드) 장면 분석, 위치/시간/설정 검출, 의상 분석, 캐릭터 프로필, 대화 분석, 장르/서브-장르 검출, 감독 스타일 분석 등이다.
고유 데이터와 외래 데이터의 상관은 시간 상관일 수 있으며, 결과는 고유 데이터내에 반영된 특징이 외래 데이터내에 반영된 특징에 상관되는 멀티소스 데이터 구조일 수 있다. 고유 및 외래 데이터에 반영된 특징들은 텍스트, 오디오 및/또는 비주얼 특징들을 포함하지만, 이에 한정되지는 않는다.
시간 상관은 필름내의 구두 텍스트에 대한 각본내의 대화의 정렬에 의해 획득될 수 있다. 필름내의 구두 텍스트는 폐쇄식 캡션들내 포함될 수 있으며, 이는 서브타이틀들로부터 추출될 수 있거나, 대화 인식 시스템을 사용하여 추출될 수 있거나, 다른 방법을 사용하여 제공될 수 있다. 그러나, 필름내에서 구두 텍스트가 제공되고 나면, 이 구두 텍스트는 각본내의 대화와 비교 및 일치될 수 있다. 시간 상관은 필름의 시간소인된 트랜스크립트를 제공할 수 있다. 이 비교 및 일치는 예컨대, 자체 유사성 척도들을 사용하여 획득될 수 있다.
상술된 바와 같이, 멀티소스 구조에 따라 고레벨 정보 구조가 생성될 수 있다. 고레벨 정보 구조는 사용자와 시스템의 다양한 기능들 사이의 인터페이스를 제공한다. 고레벨 정보 구조는 다수의 전자 디바이스들에 존재하는 것 같은 사용자 인터페이스에 대응할 수 있다.
고레벨 정보 구조는 저장 매체상에 저장될 수 있다. 이는 고유 및 외래 정보의 배경에 대한 고레벨 정보 구조를 추출하는 것이 현저한 데이터 조사를 필요로 할 수 있기 때문에 유리하다. 또한, 갱신된 고레벨 정보 구조가 생성될 수 있으며, 갱신된 고레벨 정보 구조는 멀티소스 데이터 구조에 따라 갱신되는 이미 존재하는 고레벨 정보 구조이다. 이는 예컨대, 사용자가 단지 제한된 분석만을 요청하는 상황들에서 유리할 수 있다. 또는 예컨대, 외래 정보 소스가 갱신되어 있는 상황들에서, 그리고, 외래 정보 소스에 따라 고레벨 정보 구조를 갱신하는 것이 바람직한 경우에 바람직하다.
콘텐트 분석은 검색 알고리즘의 사용에 의해 획득된 결과들을 포함할 수 있다. 콘텐트 분석들 및 검색 알고리즘은 검색된 외래 데이터에 기초하여 부가적인 기능들을 동적으로 포함하도록 적응되는 동적 알고리즘일 수 있다. 따라서, 콘텐트 분석 및 검색 알고리즘은 연속적으로 학습하고 최초 카테고리들을 갱신하는(시스템에 새로운 카테고리들을 도입하는) 개방 알고리즘일 수 있다. 부가적인 기능들은 사용자의 가정에 배치된 이후, 시스템의 동작 동안, 외래 데이터로부터 획득된 라벨들을 사용하여 고유 데이터로부터의 특징들의 세트상에서 검색 알고리즘을 트레이닝시킴으로써 획득될 수 있다.
고유 데이터로부터의 특징들의 세트는 특정 데이터 세트일 수 있으며, 이는 예컨대, 본 발명을 사용함으로써 예컨대, 화자 ID의 라벨링으로부터 화자 ID가 알려진 경우, 필름내의 화자일 수 있다. 사용자는 예컨대, 사용자의 편의성에 따라, 트레이닝시 사용하기 위한 데이터의 세트를 선택할 수 있다. 또한, 데이터의 세트는 본 발명에 따른 시스템의 공급자에 의해 제공될 수도 있다. 트레이닝은 신경 네트워크를 사용하여 획득될 수 있으며, 즉, 검색 알고리즘은 예컨대, 신경 네트워크를 포함하거나, 그에 연결될 수 있다.
트레이닝은 적어도 하나의 각본을 사용하여 수행될 수 있다. 따라서, 트레이닝은 적어도 하나의 각본이 될 데이터의 세트를 선택함으로써 수행될 수 있다. 예컨대, 새로운 배우들이 나타나며, 알려지지 않은 배우들이 유명해질 수 있고, 사람의 애호도가 변할 수 있기 때문에, 새로운 특징들을 지원하도록 시스템을 트레이닝시킬 수 있는 것이 유리하다. 이 방식으로, 보다 유연하고, 강력한 시스템이 제공될 수 있다. 또한, 시스템의 트레이닝은 비디오 이해시 의미론적 컨셉들 및 대상물들을 위한 분류를 용이하게 하는 블라인드 트레이닝일 수도 있다.
멀티소스 데이터 구조가 필름내의 자동 사전 정보 식별(automatic ground truth identification)을 제공하기 위해 사용될 수 있으며, 이는 시청각 콘텐트상의 벤치마킹 알고리즘들에 사용될 수 있다. 또한, 필름의 자동 라벨링은 멀티소스 데이터 구조에 기초하여 획득될 수 있다. 필름 콘텐트를 자동으로 취급할 수 있는 것이 유리하다.
또 다른 용례는 비디오 콘텐트로부터 시청각 특징들을 사용하고, 각본내의 텍스트 서술을 사용하는 시청각 장면 콘텐트 이해이다. 장면의 단어 서술들에 저레벨 및 중레벨 오디오/비주얼/특징들을 할당하도록 트레이닝된 시스템이 제공될 수 있다. 트레이닝은 서포트 벡터 머신들(Support Vector Machines) 또는 히든-마코브 모델들(Hidden -Markov Models)을 사용하여 이루어질 수 있다. 분류는 단지 오디오/비주얼/텍스트 특징들에 기초할 수 있다.
각본내의 텍스트 서술을 사용함으로써, 자동 장면 콘텐트 이해가 획득될 수 있다. 이러한 이해는 필름 자체로부터 추출하는 것이 불가능할 수 있다.
본 발명의 제 2 양상에 따라서, 고유 및 외래 시청각 정보의 통합 분석을 위한 방법이 제공되며, 이 방법은:
고유 데이터에 대한 시청각 소스를 탐색하고, 추출 알고리즘을 사용하여 고유 데이터를 추출하는 단계,
외래 정보 소스를 탐색하고, 검색 알고리즘을 사용하여, 추출된 고유 데이터에 기초하여 외래 데이터를 검색하는 단계,
고유 데이터와 외래 데이터를 상관시켜 멀티소스 데이터 구조를 제공하는 단계를 포함한다.
이 방법은 멀티소스 데이터 구조에 따라 고레벨 정보 구조를 생성하는 단계를 더 포함할 수 있다.
이들 및 다른 양상들, 본 발명의 특징들 및/또는 장점들은 이하에 설명된 실시예들을 참조로 명백하고, 명확해질 것이다.
이제, 도면들을 참조로 본 발명의 바람직한 실시예들을 상세히 설명한다.
도 1은 본 발명의 실시예의 고레벨 구조도.
도 2는 도 1과 연계하여 설명된 실시예의 서브-실시예인, 본 발명의 다른 실시예의 개략도.
도 3은 폐쇄식 캡션들과 각본의 정렬의 개략적 예시도.
도 4는 필름내의 화자 식별의 개략적 예시도.
도 1은 본 발명의 바람직한 실시예의 고레벨 도면을 도시한다. 상기 고레벨 도면에 따른 특정 실시예가 도 2에 제시되어 있다.
표 1
번호 | 명칭 |
1. | 텍스트 기반 장면 |
2. | 오디오 기반 배우 식별 |
3. | 오디오 기반 장면 서술 |
4. | 페이스 기반 배우 식별 |
5. | 배우 ID를 위한 슈퍼 모델 |
6. | 플롯 포인트 검출 |
7. | 샷 검출 제정 |
8. | 압축된 플롯 요약 |
9. | 장면 경계 검출, 의미론적 장면 서술 |
10. | 고유 자원들 |
11. | 외래 자원들 |
101. | 비디오 |
102. | 각본 |
103. | 인터넷 |
104. | 서브타이틀 |
105. | 오디오 |
106. | 비디오 |
107. | 시간소인 |
108. | MFCC |
109. | 피치 |
110. | 화자 턴 검출 |
111. | 감정적 오디오 정황 |
112. | 대화/음악/SFX 구획화 |
113. | 히스토그램 장면 경계 |
114.. | 페이스 검출 |
115. | 비디오텍스트 검출 |
116. | 고레벨 구조적 해석 |
117. | 캐릭터 |
118. | 장면 위치 |
119. | 장면 서술 |
120. | 대화 |
121. | 텍스트 기반 시간소인된 각본 |
122. | X-ref 캐릭터 이름들 w/배우 |
123. | 페이스 모델들 |
124. | 감정적 모델들 |
125. | 음성 모델들 |
도 1에 제시된 도면(100)은 본 발명에 따른 외래 및 고유 시청각 정보의 통합 분석을 위한 모델을 예시한다. 콤포넌트들의 이름들은 표 1에 제공되어 있다. 도면에서, 고유 시청각 정보는 비디오 필름(101), 즉, DVD 디스크 같은 데이터 캐리어상의 특징 필름에 의해 예시되어 있다. 고유 정보는 시청각 신호, 즉, 이미지 데이터, 오디오 데이터 및/또는 스크립트 데이터(서브타이틀들이나 폐쇄식 캡션들 또는 텔레텍스트 스크립트 형태의)로부터 추출될 수 있는 정보 같은 정보이다. 외 래 시청각 정보는 여기서, 예컨대, 인터넷 접속(103)을 경유한 필름의 각본에 대한 외부적 액세스로 예시되어 있다. 또한, 외부 정보는 스토리보드, 출판된 서적들, 필름으로부터의 부가적인 장면들, 트레일러들, 예컨대, 감독 및/또는 캐스트와의 인터뷰들, 필름 비평들 등일 수도 있다. 이러한 정보는 인터넷 접속(103)을 통해 획득될 수 있다. 이들 추가 외래 정보는 각본(102) 같이, 고레벨 구조적 해석(116)을 받을 수 있다. 박스(102)내의 각본의 강조는 일예의 임의의 유형의 외래 정보이며, 특히, 상술된 외래 정보의 유형들은 원론적으로, 박스(102)내의 도면에 유효하게 삽입될 수 있다.
제 1 단계로서, 고유 정보는 고유 콘텐트 분석기를 사용하여 처리된다. 고유 콘텐트 분석기는 필름의 고유 콘텐트를 탐색 및 분석하도록 적응되는 컴퓨터 프로그램일 수 있다. 비디오 콘텐트는 세 개의 경로들(104, 105, 106)을 따라 취급될 수 있다. 경로 1을 따라서, 구두 텍스트가 신호로부터 추출되며, 구두 텍스트는 통상적으로 서브타이틀들(104)에 의해 표현된다. 추출은 대화 대 텍스트 변환, MPEG의 사용자 데이터로부터의 폐쇄식 캡션 추출 및/또는 비디오 신호 또는 웹 페이지 중 어느 하나로부터의 텔레텍스트 추출을 포함한다. 출력은 시간소인된 트랜스크립트(107)이다. 경로 2를 따라서, 오디오(105)가 처리된다. 오디오 처리 단계는 오디오 구획화 및 분류가 이어지는 오디오 특징 추출을 포함한다. 멜 셉스트랄 주파수 계수들(Mel Cepstral Frequency Coefficients; MFCC들)(108)이 화자 턴(110)을 검출하고, 감정적 정황의 결정의 일부를 형성하도록 사용될 수 있다. 멜-스케일(mel-scale)은 귀의 주파수 분해능에 기초한 주파수 비닝 방법(frequency-binning method)이다. 멜-스케일상의 주파수 빈들(frequency bins)의 사용에 의해, 대화를 파라미터화하도록 MFCC들이 연산된다. MFCC들은 귀의 판별의 바람직한 지시자들이다. 따라서, MFCC들은 스펙트럼 도메인의 승산에 대한 대안으로서, 셉스트럴 도메인(cepstral domain)에서의 감산에 의한 등식의 구현을 통해 왜곡 채널들을 보상하도록 사용될 수 있다. 피치(109)는 또한, 감정적 정황의 결정의 일부를 형성할 수 있는 반면, 피치는 또한 대화, 음악 및 음향 효과들(112)에 관한 구획화에 사용될 수도 있다. 화자 턴 검출(110), 감정적 오디오 정황(111) 및 대화/음악/SFX 구획화(112)는 음성 모델들 및 감정적 모델들을 통해, 배우 식별(2) 및 장면 서술(3)의 분류에 기초한 오디오로 결부된다. 경로 3을 따라, 비디오 이미지 신호(106)가 분석된다. 이 비주얼 처리는 컬러 히스토그램들(113), 페이스 검출(114), 비디오텍스 검출(115), 하이라이트 검출, 무드 분석 등 같은 비주얼 특징들의 추출을 포함한다. 페이스 검출은 페이스 모델을 통해 페이스 기반 배우 식별(4)에 결부된다. 컬러 히스토그램들은 이미지내의 그 발생의 빈도수 및 컬러값(선택된 컬러 공간내에서)을 나타내는 히스토그램들이다.
제 2 단계로서, 외래 정보가 외래 콘텐트 분석기를 사용하여 처리된다. 외래 콘텐트 분석기는 추출된 고유 데이터에 기초하여 외래 정보를 탐색하도록 적응될 수 있다. 추출된 고유 데이터는 필름 타이틀만큼 간단할 수 있지만, 그러나, 추출된 고유 데이터는 또한 필름에 관한 데이터의 복합적 세트일 수도 있다. 외래 콘텐트 분석기는 각본 해석, 스토리보드 분석, 서적 해석, 인터뷰들 같은 부가적 시청각 자료들의 분석, 프로모션 트레일러들 등을 위한 모델들을 포함할 수 있다. 출력 은 장면들, 캐스트 무드 등에 대한 고레벨 정보를 인코딩하는 데이터 구조이다. 예컨대, 고레벨 구조적 해석(116)이 각본(102)상에 수행된다. 캐릭터들(117)이 결정되고, 예컨대, 인터넷 무비 데이터베이스 같은 데이터베이스에 기초한 인터넷을 참조함으로써, 예컨대, 인터넷을 경유하여 액세스되는 정보를 통해, 배우들에 관하여 교차 참조될 수 있다. 장면 위치(118) 및 장면 서술(119)은 텍스트 기반 장면 서술(1)에 사용되며, 대화(120)는 텍스트 기반 시간소인된 각본을 획득하기 위해 시간 소인된 트랜스크립트와 상관된다. 텍스트 기반 시간소인된 각본은 텍스트 기반 장면 설명(1)의 대화를 위한 시간소인들에 기초한 장면을 위한 근사한 경계들을 제공한다.
캐릭터 이름들 및 배우들(120) 사이의 상호참조, 텍스트 기반 서술(1), 텍스트 기반 시간소인된 각본(121), 오디오 기반 배우 식별(2), 오디오 기반 장면 서술(3) 및 페이스 기반 배우 식별이 이루어지고 나면, 멀티소스 정렬이 수행될 수 있다. 따라서, 고유 데이터와 외래 데이터는 멀티소스 데이터 구조를 획득하기 위해 상관될 수 있다. 고유 시청각 신호로부터 추출된 외래 및 고유 데이터 시간소인된 정보를 상관시킴으로써, 시간 정보를 포함하지 않는 각본 같은 외부 문서들 중 일부가 외부 소스들로부터 제공된 정보와 정렬될 수 있다. 출력은 외래 및 고유 소스들 양자 모두로부터 입수할 수 있는 정보의 수퍼세트를 포함하는 매우 상세한 멀티소스 데이터 구조이다.
멀티소스 데이터 구조를 사용하여, 고레벨 정보 구조가 생성될 수 있다. 본 실시예에서, 고레벨 정보 구조는 세개의 부분들로 이루어진다: 배우 ID(5)를 위한 슈퍼모델, 압축된 플롯 요약(8) 및 의미론적 장면 서술(9)을 제공할 수 있는 장면 경계 검출 및 서술. 배우 ID 모듈을 위한 슈퍼 모델은 멀티소스 데이터 구조로부터의 캐릭터 식별에 부가하여 시청각 개인 식별을 포함할 수 있다. 따라서, 사용자는 필름에 출현하는 모든 배우들의 목록을 제공받을 수 있으며, 예컨대, 배우가 출연하는 다른 필름들 또는 특정 배우 또는 캐릭터에 대한 기타 정보 같은 이 배우에 관한 부가적인 정보를 제공받을 수 있다. 압축된 플롯 요약 모듈은 플롯 지점들 및 스토리와 서브-스토리 아크들(arcs)을 포함할 수 있다. 이들은 필름내의 가장 흥미있는 지점들이다. 이 고레벨 정보는 요약을 위해 매우 중요하다. 그에 의해, 사용자는 DVD상에 통상적으로 제공되는 것과는 다른 유형의 플롯 요약을 제공받을 수 있거나, 사용자가 관심을 갖는 요약의 유형을 선택할 수 있다. 의미론적 장면 검출에서, 장면들 및 장면 경계들을 위한 샷들이 제정된다. 사용자는 예컨대, 다양한 장면들을 위한 각본의 감독의 해석을 비교하기 위해, 또는, 특정 캐릭터를 포함하는 장면을 사용자가 배치할 수 있게 하기 위해, 장면들의 완전한 목록 및 대응 장면을 각본으로부터 제공받을 수 있다.
하기의 실시예에서, 초점은 필름에 대한 각본의 정렬이다.
거의 모든 특징-길이 필름들이 각본의 도움으로 생성된다. 각본은 필름의 스토리, 설정, 대화 및 액션의 단일화된 비전을 제공하며, 필름제작자들, 배우들 및 그 창조적 비전을 삶으로 창출하기 위한 시발점인 실마리를 제공한다. 영화들의 콘텐트 기반 분석에 수반되는 것들을 위해, 각본은 필름내의 중요한 의미론적 대상물들의 텍스트 서술을 포함하기 위한, 현재의 탭핑되지 않은(untapped) 자원이다. 이 는 의미론적 갭의 문제를 우회(예컨대, 시청각 신호를 일련의 텍스트 서술자들로 변환)할 뿐만 아니라, 상기 서술들이 필름 제조자로부터 바르게 도출되게 하는 장점을 갖는다. 각본은 수천의 필름들로부터 입수할 수 있으며, 준 규칙적 포맷팅 표준을 따르고, 따라서, 신뢰성있는 데이터의 소스이다.
각본을 콘텐트 기반 분석을 위한 첩경으로서 사용하는 것의 난점은 2배이다. 먼저, 각본내의 텍스트와 필름내의 시간 기간 사이에 어떠한 고유한 상관도 존재하지 않는다. 이 한계를 해결하기 위해, 각본으로부터의 대화의 라인들이 필름의 DVD로부터 추출된 시간소인된 폐쇄식 캡션 스트림과 정렬된다. 당면한 다른 장애물은 다수의 경우들에서, 각본은 필름의 제작 이전에 씌어지며, 그래서, 대화의 라인들 또는 전체 장면이 추가, 삭제, 변경되거나 뒤섞일 수 있다는 것이다. 부가적으로, 폐쇄식 캡션들의 텍스트는 종종 단순히 스크린상의 캐릭터가 말하는 대화의 근사치이다. 이들 영향들을 해결하기 위해, 장면/대화 변경들에 강인한 정렬 방법을 사용하는 것이 필수저이다. 본 발명자의 실험들은 단지 대화의 라인들 중 약 60%가 필름내에 시간소인될 수 있다는 것을 나타내었다. 그러나, 그럼에도 불구하고, 정렬 프로세스에 의해 발견된 시간소인된 대화들은 발견되지 않은 서술자들을 추정할 수 있는 통계학적 모델들을 위한 라벨로서 사용될 수 있다. 이는 이를 형성하기 위한 "레시피(recipe)"에 따르는 임의의 비디오 자료 및 영화들의 자동 비디오 콘텐트 분석을 위한 의미론적 대상물들의 라벨링을 위한 자체 충족적이고, 통제되지 않은 프로세스에 상당한다.
여기서, 각본에 대한 대안은 대본(continuity script)이라는 것을 주의하여 야 한다. 대본은 종종 두 개의 의미로 사용된다 - 첫 번째로, 각본으로부터의 정보에 부가하여 카메라 배치 및 움직임을 포함하는 필름의 샷단위 분할이다. 부가적으로, 대본은 또한, 필름의 대화의 정확한 트랜스크립트를 지칭할 수도 있다. 양자의 형태들 모두는 폐쇄 캡션 형성 기관들에 의해 사용될 수 있다. 또한, 특정 필름들로부터의 대본들은 출판 및 판매되지만, 이들은 일반적으로 공개적 온라인에서는 입수할 수 없다. 이는 그 불완전성들에도 불구하고, 슈팅 스크립트, 즉, 각본에 대한 분석에 동기를 부여한다.
각본이 콘텐트 기반 분석에서 각본이 보다 넓게 사용되지 않는 이유 중 하나는 각본내에 존재하는 대화들, 동작들 및 장면 서술들이 그들과 연계된 시간소인을 갖지 않기 때문이다. 이는 필름의 특정 구획을 텍스트의 단편에 할당하는 효과를 제한한다. 필름 트랜스크립션의 다른 소스, 폐쇄식 캡션들은 필름내에서 말해진 대화의 텍스트를 갖지만, 이는 각 라인을 말하는 캐릭터들의 신분을 포함하지도 않고, 비디오 시호로부터 추출하기가 곤란한 장면 서술들을 소유하지도 않는다. 필름의 폐쇄식 캡션들의 텍스트와 각본의 대화들을 정렬시킴으로써, 양자의 세계들 중 최상의 것을 취한다.
두 번째로, 라인들 및 장면들은 종종 불완전하고, 잘려지거나, 뒤섞여진다. 장면 재정렬의 측면에서 강인해지기 위해, 폐쇄식 캡션들에 대한 각본의 정렬은 한번에 하나의 장면씩 이루어질 수 있다. 이는 또한, 전체 자체 유사성 매트릭스의 다른 방식의 메모리 집약적 생성을 완화시킨다.
마지막으로, 대화의 모든 단편에 대해 각본내의 상관성을 발견하는 것이 불 가능할 수 있기 때문에, 이벤트들의 통계학적 모델들을 생성하기 위해, 필름의 다중형식 구획(오디오/비디오 스트림, 폐쇄식 캡션들, imdb.com 같은 외부 웹사이트들로부터의 정보)들과 조합된 시간소인된 각본으로부터 추출된 정보를 취하는 것이 필수적이다. 이들 이벤트들은 필름내적이거나 필름 외적일 수 있으며, 정렬된 스트림에 의해 정확하게 서술들이 발견되지 않는 장면들로부터 텍스트 서술들을 제공하는 기능을 보장한다.
각본 정렬의 중요한 양상은 화자의 식별이다. 임의의 주어진 시간에 말하는 화자에 대한 액세스를 갖는 것은 음성 존재에 기초한 필름내적 질의들 및 배우에 대한 외부적 데이터에 대한 링크를 제공하는 응용들을 가능하게 한다. 영화 대화상의 통제되지 않은 화자 식별은 대화 특성들이 화자의 감정이 변화들, 다른 동작 또는 시뮬레이션된 위치들의 서로 다른 음향학적 상태들(예컨대, "실내 음조(room tone)") 및 사운드트랙, 주변 잡음 및 배경의 강한 활동에 의해 영향을 받기 때문에 어려운 문제이다.
우리의 해법은 서로 다른 환경들 및 감정들하에서 음성의 특성들을 학습하는 "블랙 박스(black box)" 분류기를 위한 라벨링된 예들로서 정렬로부터 시간소인들을 제공하는 것이다. 본질적으로, 정렬로부터의 방대한 양의 트레이닝 데이터를 가짐으로써, "데이터가 말하게(let the data do the talking)"할 수 있으며, 각본 및 필름 오디오가 기계 판독가능한 형태로 포착되고 나서 어떠한 인간의 전처리도 필요로 하지 않기 때문에, 우리의 방법은 완전히 비통제식이다.
필름의 원리적 슈팅이 완료된 이후, 편집자들은 각본에 관련하거나 관련하지 않은 방식으로 다른 샷들을 함께 조합한다. 때때로, 장면들이 잘려지거나, 가능하게는, 네임 페이싱(name pacing), 연속성 또는 스튜디오 방침들로 요청된 슈트(shoot)들을 픽업한다. 극단적인 예컨대, 주 캐릭터가 가스실내에 있는, 필름 "이중 범죄(Duble Indemnity)"의 엔딩은 편집실 바닥에 남아있다. 스윙어스(Swingers)는 편집자가 대화의 페이스를 긴축시키고, 필름을 성공적인 코메디로 전환시키기 전까지, 원래는 러브스토리로 의도된 것이었다.
각본의 실제 콘텐트는 일반적으로 규칙적 포맷을 따른다. 예컨대, 임의의 장면 또는 슈팅 위치의 제 1 라인은 슬러그 라인(slug line)이라 지칭된다. 슬러그 라인은 장면이 실내에서 이루어질 것인지 실외에서 이루어질 것인지의 여부, 장소의 이름을 나타내며, 가능하게는, 하루 중의 시간을 명시할 수 있다. 슬러그 라인은 다수의 장소들에서 장면이 이루어질 수 있기 때문에, 장면 경계를 위한 최적의 지시자이다. 하기의 슬러그 라인은 장소의 서술이다. 서술은 출연하는 임의의 새로운 캐릭터들 및 대화 없이 이루어지는 임의의 동작을 소개한다.
각본의 벌크는 대화 서술이다. 대화는 판독의 용이성을 위해, 그리고, 배우들 및 필름제작자들에게 메모용 공간을 제공하기 위해, 페이지로 표시된다. 스크린라이터(screenwriter)가 대화로부터 명백하지 않은 배우를 위한 지시를 갖는 경우, 이는 서술로 표시될 수 있다. 표준 각본 포맷은 각본 문법 규칙들로 해석될 수 있다:
이 문법에서, "\n"은 새로운 라인의 캐릭터를 의미하고, "\t"는 탭을 지칭한다. ".*?"는 펄(Perl)의 규칙적 표현들로부터의 용어이며, 이는 "시퀀스내의 다음 패턴이 일치되기 이전의 임의의 것의 임의의 양"을 의미한다. 캐릭터가 이어지는 물음표는 캐릭터가 존재하거나 존재하지 않을 수 있다는 것을 의미한다. "|"는 선택들의 허용이며-예컨대, <O.S.|V.O.>는 O.S. 또는 V.O.의 존재가 바람직한 일치에 기여할 수 있다는 것을 의미한다. 마지막으로, "+"는 이전 캐릭터 중 하나 이상이 여전히 일치되는 것으로 고려하는 것을 허용한다는 것을 의미하며-예컨대, "\t Hello", "\t\t Hello" 또는 "\t\t\t Hello"로 시작하는 라인은 대화일 수 있지만, "Hello"로 시작하는 라인은 아니다.
각본들을 위한 포맷팅 가이드는 단지 제안이며, 표준은 아니다. 그러나, 단순하지만 유연한 규칙적 표현들과 함께 입수할 수 있는 스크린플레이들을 포착할 수 있다.
수백의 각본들의 사본들이 스케일의 임의의 필름 제작자를 위해 생성된다. 각본은 취미용 또는 교육용을 위해 복제될 수 있으며, 수천의 각본들이 온라인으로 입수할 수 있다.
단일 필름 전반에 걸쳐 전처리, 정렬 및 화자 식별을 포함하는 시스템 개요가 도 2에 도시되어 있다.
필름의 각본(20)의 텍스트가 해석되고, 그래서, 장면 및 대화 경계들과 메타 데이터가 균일한 데이터 구조로 도입된다. 폐쇄식 캡션(21) 및 오디오 특징들(22)이 필름의 비디오 신호(23)로부터 추출된다. 중요한 스테이지에서, 각본 및 폐쇄식 캡션 텍스트들이 정렬된다(24). 이 정렬은 이하에서 정교화된다. 정렬시, 대화들은 시간 소인되고, 특정 캐릭터와 연계된다. 그러나, 대화의 모든 단편에 대해 각본내에서 상관들을 발견하는 것이 불가능할 수 있기 때문에, 이벤트들의 통계학적 모델들(25)을 생성하기 위해, 필름의 다중형태 구획들(오디오/비디오 스트림, 폐쇄식 캡션들, 외부 웹사이트들로부터의 정보)과 조합된, 시간소인된 각본으로부터 추출된 정보를 취하는 것이 필수적이다.
이 방식으로, 영화의 자연적인 소란한 환경에서, 매우 높은 화자 식별 정확도를 달성할 수 있다. 이 식별은 통제된 학습 방법들을 사용하여 수행되지만, 사전 정보은 자동으로 생성되며, 그래서, 분류 프로세스에서 어떠한 인간 개입에 대한 필요성도 존재하지 않는다.
따라서, 필름 도중의 임의의 시간에 말하는 캐릭터가 결정될 수 있다(26). 이 캐릭터 ID는 필름내의 캐릭터들의 배우 식별(28)을 획득하기 위해 인터넷 데이터베이스(27)와 상관될 수 있다.
화자 식별에 부가하여, 또한, 위치 및 시간과 장면의 서술, 개별 라인들 대화 및 그 화자, 그리고, 삽입 및 배우들을 위한 동작 지시와, 장면들 사이의 임의 의 권장 전이(컷 페이드, 와이프(wipe), 디졸브(dissolve) 등)가 추출될 수 있다..
정렬 및 화자 식별 태스크들을 위해, 필름의 DVD로부터 오디오 및 폐쇄식 캡션 스트림이 필요하다.
DVD의 사용자 데이터 필드는 텍스트 포맷의 서브타이틀 스트림을 포함하며, 이는 DVD 표준의 공식적인 부분이 아니고, 따라서, 모든 디스크들상에서 존재하는 것이 보증되지 않는다. 서브타이틀 정보를 입수할 수 없는 필름들에 대해, 대안은 DVD의 서브타이틀 스트림상에 OCR(광학적 캐릭터 인식)을 수행함으로써 폐쇄식 캡션들을 획득하는 것이다. 이는 새로운 폰트를 만날 때에만(이는 일반적으로 제조 시간당 일회임) 사용자 개입이 필요한 준-상호작용적 프로세스이지만, 다른 방식으로 완전히 자체 충족적일 수 있다. 겪게되는 유일한 문제점은 때때로, 소문자 "l"이 대문자 "I"와 혼동된다는 것이며, 우리는 단어들의 비교 동안의 혼란을 피하기 위해 모든 L들을 I들로 왜곡시킬 필요가 있다는 것을 발견하였다. OCR은 SubRip 프로그램을 사용하여 수행될 수 있으며, 폐쇄식 캡션들의 각 라인을 위한 밀리초 분해능으로 시간소인들을 제공할 수 있다.
각본 대화들 및 폐쇄식 캡션 텍스트는 자체 유사성 매트릭스를 가로질러 "최상의 경로"를 발견하도록 동적 프로그래밍을 사용하여 정렬된다. 장면들에 적절히 대응하는 정렬들이 최상의 경로를 가로질러 중간 필터를 적응시킴으로써 추출된다. 신뢰성있는 정확도의 대화 구획들은 폐쇄식 캡션 라인 크기 덩어리로 분할되며, 이는 우리가 직접적으로 대화 덩어리들을 시간소인된 구획들로 번역할 수 있다는 것을 의미한다. 이하에서, 각 콤포넌트가 설명된다.
유사성 매트릭스는 유사한 미디어의 두 개의 서로 다른 버전들을 비교하는 방식이다. 이는 이제, 오디오의 콘텐트 기반 분석시의 표준 툴인 자체 유사성 매트릭스의 확장체이다.
유사성 매트릭스에서, 스크린플레이내의 장면의 모든 단어 i는 전체 영화의 폐쇄식 캡션의 모든 단어 j에 비교된다. 따라서, 매트릭스가 포퓰레이팅된다:
달리 말해서, 장면의 단어 i가 폐쇄식 캡션들의 단어 j와 동일한 경우, SM(i,j) = 1이고, 이들이 서로 다른 경우, SM(i,j) = 0이다. 스크린 시간은 대각선 i=j을 따라 선형적으로 진행하고, 그래서, 각본의 라인들이 폐쇄식 캡션들로부터의 텍스트의 라인들과 정렬될 때, 우리는 1들의 실선 대각선을 보기를 기대한다. 도 3은 필름 "월 스트리트(Wall Street)"의 장면 87을 위한 각본(32) 및 폐쇄식 캡션들(31)의 비교를 위한 유사성 매트릭스(30)의 예시적 구획을 도시한다. 유사성 매트릭스에서, 폐쇄식 캡션들내에, 그리고, 각본내에 출현하는 단어는 일치가 발견되는지의 여부에 따라 특성화될 수 있다. 따라서, 모든 매트릭스 엘리먼트가 어떠한 일치도 발견되지 않는 경우 불일치(32)로, 일치가 발견되는 경우, 일치(33)로 라벨링될 수 있다. 자연적으로, 다수의 부합하는 일치들이 발견될 수 있지만, 불연속적 트랙이 발견될 수 있으며, 이 트랙을 통하여 최상의 경로가 제정된다. 일치하지 않는 이 최상의 트랙상에 있는 단어들은 따라서 34로 라벨링된다.
영화들내의 화자 인식은 영화의 기간 전반에 걸쳐 음성이 변하고, 음향 조건 들이 변하기 때문에 어렵다. 따라서, 다른 조건들하에서의 분류를 위해서 대량의 데이터가 필요할 수 있다. 도 4는 이 특정 문제점을 예시한다. 두 개의 장면들(40, 41)은 개략적으로 예시되어 있다. 제 1 장면(40)에서, 세명의 사람이 존재한다. 이들 세명의 사람은 모두 관찰자를 향하고 있으며, 한번에 한명씩 말하는 것으로 기대될 수 있다. 따라서, 단지 고유 데이터만을 사용함으로써, 예컨대, 음성 지문들 및 얼굴 모델들의 사용에 의해, 높은 확실성으로, 화자 식별을 추출할 수 있을 수 있다. 제 2 장면(41)에서, 다섯명의 사람들이 존재하며, 단지 한명만이 관찰자를 향하고 있고, 대량의 대화가 존재하며, 사람은 모두 한번에 말하고, 극적 배경 음악이 강한 무드를 강조하기 위해 사용될 수 있다. 고유 정보를 사용함으로써, 화자 식별을 수행하는 것이 불가능하다. 그러나, 대화 및 화자들이 표시되는 각본을 사용함으로써, 화자 ID가 장면내의 화자들 모두를 검출하기 위해 적응될 수 있다.
오디오 특징들에 기초한 화자 인식을 분류 및 용이하게 하기 위해, 하기의 절차가 사용될 수 있다.
1) 트레이닝/테스트/확인 세트 선택
2) 침묵 제거
3) 마틴 맥키니(Martin McKinney)의 오디오 분류기에 기초하여 음악/잡음 섹션들을 잠재적으로 제거
4) 대화를 위한 피크 주파수가 약 3.4kHz이기 때문에, 8kHz로 다운샘플링
5) 12.5msec의 호프 크기로, 50mesc 윈도우들상에서 CMS, 델타 특징들을 연산
6) 긴 분석 프레임을 생성하기 위해 특징 벡터들을 함께 누적
7) 테스트 세트의 입체성을 감소시키기 위해 PCA 수행
8) 신경 네트 또는 GMM 트레이닝
9) 전체 영화상의 네트/GMM을 시뮬레이션
10) 얼마나 잘 되었는지를 관찰하기 위해, 이 섬머(summer)를 인턴들로부터의 사전 정보과 비교.
당업자는 본 발명이 저장매체상에 저장가능한, 그리고, 컴퓨터가 본 발명에 따른 방법을 실행하도록 프로그램될 수 있게 하는 컴퓨터 프로그램 제품으로 구현될 수도 있다는 것을 명백히 알 수 있을 것이다. 컴퓨터는 퍼스널 컴퓨터나 네트워크 컴퓨터 같은 범용 목적 컴퓨터로서 구현될 수 있지만, 또한, 프로그램가능한 처리 코어를 구비한 전용 소비자 전자 디바이스로서 구현될 수도 있다.
상기 설명에서, 단수에 대한 언급은 또한, 복수를 포함하며, 그 반대도 마찬가지라는 것을 알 수 있을 것이다. 또한, "포함하는(include)", "내포하는(comprise)", "갖는('has' 및 'have')", "통합하는(incorporate)", "보유하는(contain)" 및 "포괄하는(encompass)" 같은 표현들은 비배제적인 것으로 해석되어야 하며, 즉, 이러한 표현들은 다른 아이템들의 존재를 배제하지 않는 것으로 해석된다.
비록, 바람직한 실시예들과 관련하여, 본 발명을 설명하였지만, 본 명세서에 기술된 특정 형태에 한정하는 것을 목적으로 하지는 않는다. 오히려, 본 발명의 범주는 첨부된 청구범위에 의해서만 제한된다.
Claims (32)
- 고유(10) 및 외래(11) 시청각 데이터의 통합형 분석을 위한 시스템(100)에 있어서,시청각 소스에 통신가능하게 연결되고, 고유 데이터에 대한 상기 시청각 소스를 탐색하며, 추출 알고리즘을 사용하여 상기 고유 데이터를 추출하도록 적응되는 고유 콘텐트 분석기, 및외래 정보 소스에 통신가능하게 연결되고, 상기 외래 정보 소스를 탐색하고, 검색 알고리즘을 사용하여 외래 데이터를 검색하도록 적응되는 외래 콘텐트 분석기를 포함하고,상기 고유 데이터와 상기 외래 데이터는 상관되어 멀티소스 데이터 구조를 제공하는, 통합형 분석 시스템.
- 제 1 항에 있어서, 상기 외래 데이터의 검색은 상기 추출된 고유 데이터에 기초하는, 통합형 분석 시스템.
- 제 1 항에 있어서, 상기 추출 및/또는 검색 알고리즘(들)은 모듈에 의해 제공되는, 통합형 분석 시스템.
- 제 1 항에 있어서, 질의(query)는 사용자에 의해 제공되고, 상기 질의는 상 기 추출 알고리즘에 제공되며, 상기 고유 데이터는 상기 질의에 따라 추출되는, 통합형 분석 시스템.
- 제 1 항에 있어서, 질의는 사용자에 의해 제공되고, 상기 질의는 상기 검색 알고리즘에 제공되며, 상기 외래 데이터는 상기 질의에 따라 검색되는, 통합형 분석 시스템.
- 제 1 항에 있어서, 상기 고유 데이터 및 상기 외래 데이터에 반영된 특징은 텍스트, 오디오 및/또는 비주얼 특징들을 포함하는, 통합형 분석 시스템.
- 제 1 항에 있어서, 상기 시청각 소스는 필름(101)이고, 상기 추출된 데이터는 텍스트(104), 오디오 및/또는 비주얼 특징들(105, 106)을 포함하는, 통합형 분석 시스템.
- 제 1 항에 있어서, 상기 외래 정보 소스는 인터넷(103)에 접속되고, 인터넷을 경유하여 액세스될 수 있는, 통합형 분석 시스템.
- 제 1 항에 있어서, 상기 외래 정보 소스는 필름 각본(102)인, 통합형 분석 시스템.
- 제 9 항에 있어서, 상기 외래 콘텐트 분석기는 각본 문법에 대한 지식을 포함하고, 상기 외래 데이터는 상기 각본 문법의 사용에 의해 상기 각본으로부터 추출되는 정보에 기초하여 검색되는, 통합형 분석 시스템.
- 제 9 항 또는 제 10 항에 있어서, 필름내의 사람들의 식별(5)은 상기 각본에 의해 획득되는, 통합형 분석 시스템.
- 제 9 항 또는 제 10 항에 있어서, 필름내의 특징은 상기 각본에 포함된 정보에 기초하여 분석되는, 통합형 분석 시스템.
- 제 1 항에 있어서, 상기 고유 데이터와 상기 외래 데이터의 상관은 시간 상관(121)이고, 그에 의해, 상기 고유 데이터내에 반영된 특징이 상기 외래 데이터내에 반영된 특징에 시간 상관되는 멀티소스 데이터 구조를 제공하는, 통합형 분석 시스템.
- 제 13 항에 있어서, 상기 시간 상관은 필름내의 구두 텍스트(104)에 대한 각본내의 대화(120)의 정렬에 의해 획득되며, 그에 의해, 상기 필름의 시간소인된 트랜스크립트(121)를 제공하는, 통합형 분석 시스템.
- 제 14 항에 있어서, 상기 필름내의 화자 식별은 상기 시간소인된 트랜스크립 트로부터 획득되는, 통합형 분석 시스템.
- 제 9 항에 있어서, 상기 각본은 자체-유사성 매트릭스(self-similarity matrix; 30)에 의해 상기 필름내의 상기 구두 텍스트와 비교되는, 통합형 분석 시스템.
- 제 1 항에 있어서, 고레벨 정보 구조(5 내지 9)는 상기 멀티소스 데이터 구조에 따라 생성되는, 통합형 분석 시스템.
- 제 17 항에 있어서, 상기 고레벨 정보 구조는 저장 매체상에 저장되는, 통합형 분석 시스템.
- 제 17 항에 있어서, 갱신된 고레벨 정보 구조가 생성되고, 상기 갱신된 고레벨 정보 구조는 상기 멀티소스 데이터 구조에 따라 갱신되는 이미 존재하는 고레벨 정보 구조인, 통합형 분석 시스템.
- 제 1 항에 있어서, 상기 검색 알고리즘은 검색된 외래 데이터에 따른 부가 기능들을 포함함으로써, 동적으로 자체를 갱신하도록 적응된 동적 검색 알고리즘인, 통합형 분석 시스템.
- 제 20 항에 있어서, 상기 부가적인 기능들은 상기 외래 데이터로부터 획득된 라벨들을 사용하여 상기 고유 데이터로부터의 특징들의 세트상에 대해 상기 검색 알고리즘을 트레이닝시킴으로써 획득되는, 통합형 분석 시스템.
- 제 9 항 또는 제 21 항에 있어서, 상기 트레이닝은 적어도 하나의 각본을 사용하여 수행되는, 통합형 분석 시스템.
- 제 1 항에 있어서, 시청각 콘텐트상에서의 벤치마킹 알고리즘들의 사용을 위해 필름내의 자동 사전 정보 식별(automatic ground truth identification)이 상기 멀티소스 데이터 구조에 기초하여 획득되는, 통합형 분석 시스템.
- 제 1 항에 있어서, 필름내의 자동 장면 콘텐트 이해는 필름 콘텐트로부터의 시청각 특징들 및 각본내의 텍스트 서술에 기초하여 획득되는, 통합형 분석 시스템.
- 제 1 항에 있어서, 필름내의 자동 라벨링은 상기 멀티소스 데이터 구조에 기초하여 획득되는, 통합형 분석 시스템.
- 고유 및 외래 시청각 정보의 통합형 분석을 위한 방법에 있어서,고유 데이터에 대한 시청각 소스를 탐색하고, 추출 알고리즘을 사용하여 상 기 고유 데이터를 추출하는 단계,외래 정보 소스를 탐색하고, 검색 알고리즘을 사용하여 외래 데이터를 검색하는 단계, 및상기 고유 데이터와 상기 외래 데이터를 상관시켜 멀티소스 데이터 구조를 제공하는 단계를 포함하는, 통합형 분석 방법.
- 제 26 항에 있어서, 상기 멀티소스 데이터 구조에 따라 고레벨 정보 구조를 생성하는 단계를 더 포함하는, 통합형 분석 방법.
- 제 26 항에 있어서, 외래 콘텐트 분석기는 각본 문법에 대한 지식을 포함하고, 상기 외래 데이터는 상기 각본 문법의 사용에 의해 각본으로부터 추출된 정보를 사용하여 검색되는, 통합형 분석 방법.
- 제 26 항에 있어서, 상기 검색 알고리즘은 상기 외래 데이터의 세트상에서 상기 알고리즘을 트레이닝시킴으로써 갱신되는, 통합형 분석 방법.
- 컴퓨터가 제 26 항에 따른 방법을 수행하도록 프로그램될 수 있게 하는 컴퓨터 프로그램 제품.
- 제 30 항에 따른 컴퓨터 프로그램 제품을 담고 있는 기억 매체.
- 제 26 항에 따른 방법을 수행할 수 있는 프로그램된 컴퓨터.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US52747603P | 2003-12-05 | 2003-12-05 | |
US60/527,476 | 2003-12-05 | ||
EP04100622 | 2004-02-17 | ||
EP04100622.2 | 2004-02-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20070003778A true KR20070003778A (ko) | 2007-01-05 |
Family
ID=34655129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020067010997A KR20070003778A (ko) | 2003-12-05 | 2004-11-30 | 고유 및 외래 시청각 데이터의 통합 분석을 위한 시스템 및방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20070003778A (ko) |
-
2004
- 2004-11-30 KR KR1020067010997A patent/KR20070003778A/ko active IP Right Grant
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1692629B1 (en) | System & method for integrative analysis of intrinsic and extrinsic audio-visual data | |
US9191639B2 (en) | Method and apparatus for generating video descriptions | |
EP0786114B1 (en) | Method and apparatus for creating a searchable digital video library | |
KR100828166B1 (ko) | 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체 | |
US5664227A (en) | System and method for skimming digital audio/video data | |
US20080193101A1 (en) | Synthesis of Composite News Stories | |
US20020051077A1 (en) | Videoabstracts: a system for generating video summaries | |
JP2008533580A (ja) | オーディオ及び/又はビジュアルデータの要約 | |
WO2007004110A2 (en) | System and method for the alignment of intrinsic and extrinsic audio-visual information | |
CN101202864A (zh) | 动画再现装置 | |
CN110781328A (zh) | 基于语音识别的视频生成方法、系统、装置和存储介质 | |
JP2006319980A (ja) | イベントを利用した動画像要約装置、方法及びプログラム | |
Gagnon et al. | A computer-vision-assisted system for videodescription scripting | |
CN100538696C (zh) | 用于本征与非本征视听数据的综合分析的系统和方法 | |
KR101783872B1 (ko) | 동영상 검색 시스템 및 방법 | |
Kim et al. | Summarization of news video and its description for content‐based access | |
KR20070003778A (ko) | 고유 및 외래 시청각 데이터의 통합 분석을 위한 시스템 및방법 | |
Barbosa et al. | Browsing videos by automatically detected audio events | |
Papageorgiou et al. | Multimedia Indexing and Retrieval Using Natural Language, Speech and Image Processing Methods | |
Wactlar et al. | Automated video indexing of very large video libraries | |
de Jong | Disclosure of non-scripted video content: InDiCo and M4/AMI | |
Barbosa | Audio Content Description of Movies | |
MXPA97002705A (en) | Method and apparatus to create a researchable digital digital library and a system and method to use that bibliot | |
Chaptini | Intelligent segmentation of lecture videos | |
Dorai | Bridging the Semantic-Gap in E-Learning Media Management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
NORF | Unpaid initial registration fee |