KR20110025788A

KR20110025788A - 시청각 콘텐트의 인지 복잡도를 뷰어 관심 레벨로 조정하기 위한 장치 및 방법

Info

Publication number: KR20110025788A
Application number: KR1020107029730A
Authority: KR
Inventors: 마르크 엠 예 베 메르텐스
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2008-06-02
Filing date: 2009-05-28
Publication date: 2011-03-11
Also published as: JP5775814B2; WO2009147590A3; US20140022459A1; KR101569929B1; EP2286592A2; CN102047680A; CN102047680B; WO2009147590A2; JP2011523821A; US9032472B2; EP2286592B1; US9749550B2; US20110102674A1

Abstract

뷰어로 하여금 시청각 콘텐트를 자체의 관심 레벨로 적응시키도록 하기 위해, 오디오 신호 프로세싱 장치(104, 106)는 시청각 신호에서 정보의 복잡도를 지정하는 적어도 하나의 복잡도 세팅 값(S_Inf-c)을 제어 유닛(106)으로부터 수신하도록 배열된 시청각 신호 프로세싱 유닛(104)을 포함하고, 시청각 신호 프로세싱 유닛(104)은 복잡도 세팅 값(S_Inf-c)에 의해 결정되는 바에 따라 자체의 정보 복잡도를 감소시키거나 증가시키기 위해 입력된 시청각 신호(S(A, V))를 프로세싱하도록 배열되고, 시청각 신호 프로세싱 유닛(104)은 시청각 신호(S(A, V))의 적어도 하나의 오디오 성분(A)을 프로세싱하도록 배열된다.

Description

시청각 콘텐트의 인지 복잡도를 뷰어 관심 레벨로 조정하기 위한 장치 및 방법{APPARATUS AND METHOD FOR ADJUSTING THE COGNITIVE COMPLEXITY OF AN AUDIOVISUAL CONTENT TO A VIEWER ATTENTION LEVEL}

본 발명은 시청각 신호들을 요약하는 것이 더 용이하도록 예를 들면, 메시지를 픽업(pick up)하는 것이 더 용이하도록 시청각 신호들을 프로세싱하기 위한 시청각 신호 프로세싱 장치 및 방법 및 소프트웨어에 관한 것이다.

예를 들면, 브로드캐스트 텔레비전과 같은 시청각 콘텐트의 제공을 위한 시청각 시스템들은 예를 들면,: 예를 들면, 타이트한 단축 인터뷰들 또는 설명 클립(explanation clip)들(지역을 리포팅하는 뉴스의 가장 관련된 문장들만이 유지되어, 이를 더 짧은 토픽의 합성어로 만들고, 관찰자에게 모든 진술문들에 주의깊은 관심을 요구하는)을 갖는 정보 패킹(information packing) 예를 들면, 사운드 레벨, 다수의 윈도우 비디오(예를 들면, 동시에 자신들의 다음 사람과 인터뷰를 진행하는 두 인터뷰어들, 또는 추가 텍스트 배너들과 같은 동일한 프로그램 부분의 다른 양태들을 도시하는 세 서브 윈도우들)로 재생되는 뷰어 관심 유도(viewer attention grabbing)와 같은 기술들로 인해, 정보의 밀도가 점차 증가하고 있다.

이는 뷰어에게 매우 부담이 되므로, 특히 직장에서 고된 하루를 보낸 이후에, 적어도 일부 사람들은 특정 프로그램을 주의 깊게 경청하는데 매우 어려움이 있거나 심지어 전혀 경청하지 못하는 것이 이해될 수 있다. 제한된 경우들에서, 그와 같은 프로그램은 심지어 정보적이거나 재미를 주기는커녕 단지 스트레스의 요인이 될 수 있다.

시청각 콘텐트의 증가, 및 여러 신규 시청각 기술들 - 예를 들면, 텔레비전 상에서의 인터넷 - 의 통합으로 인해 이 문제점들이 심화할 것이라고 여겨지고 있다.

본 발명의 목적은 시청각 정보의 제공에 관하여 뷰어의 필요성에 더 응답하는 시스템을 제공하는 것이다.

상기 목적에 의해 고무되는 해법은 시청각 신호 프로세싱 장치(104, 106)에 의해 실현되고, 장치는 시청각 신호에서 정보의 복잡도를 지정하는 적어도 하나의 복잡도 세팅 값(complexity setting value)(S_Inf-c)을 제어 유닛(106)으로부터 수신하도록 배열된 시청각 신호 프로세싱 유닛(104)을 포함하고, 시청각 신호 프로세싱 유닛(104)은 복잡도 세팅 값(S_Inf-c)에 의해 결정되는 바에 따라 자체의 정보 복잡도를 감소시키거나 증가시키기 위해 입력된 시청각 신호(S(A, V))를 프로세싱하도록 배열되고, 시청각 신호 프로세싱 유닛(104)은 시청각 신호(S(A, V))의 적어도 하나의 오디오 성분(A)을 프로세싱하도록 배열되거나, 적어도 하나의 비디오 성분(V) 및 대응하는 방법들을 프로세싱하도록 배열된다.

예를 들면, 피곤하거나 연로한 사람들은 정보 복잡도의 세팅(즉, 밀도, 및 정보가 뷰어에게 제공되는 방식)을 예를 들면, 절대 비교를 위한 프리세트(preset), 또는 슬라이더(slider)에 대한 상대값으로 지정할 수 있고, 시청각 시스템은 정보 복잡도가 작아지게 되고 프로그램을 경청하는데 용이하도록 비디오 및/또는 오디오의 특성을 적응시킬 수 있다. 반면에 이상적으로는 전체 논의가 어떤 간단한 시청각 신호 프로세싱에 의해 이미 변화될 - 예를 들면, 상이한 단어들을 제거 - 필요성이 있다고 할지라도, 입력 신호에 따라 다수가 달성될 수 있다. 예를 들면, 본 발명의 방법(/장치)은 특히 예를 들면, 뉴스, 토크쇼, 또는 퀴즈(이 경우에 질문들은 자기 자신의 영화 클립들을 가질 수 있다) 등, 즉 전형적인 계층 정보 제공(주 정보를 가지는 도입부 대 특정 세부사항들)과 같은 분산형 "르포르타주(reportage)" 아이템들을 갖는 프로그램들에 특히 적합하다. 그 다음, 계층 내의 상이한 레벨들, 즉, 상이한 시간상 간격들[본 출원에서의 간격은 시작 시간부터 종료시간까지의 연속 시간량, 및/또는 간격 동안 오디오 및/또는 비디오 및/또는 다른 데이터를 의미할 것이다]을 예를 들면, 보다 덜 관련된 세부사항들에 대하여 더 많이 송신되거나 저장된 정보를 또는 그 반대로 스킵(skip)하여, 상기 르포르타주들을 일종의 환경 세팅 영화로 유지함으로써(예를 들면, 프로세싱 유닛은 여행 프로그램(travel program)에 대하여 토크들 사이에 있는 지루한 내용을 잘라내고 슬라이드 쇼에서의 랜드스케이프 팬(landscape pan)들만을 유지하도록 구성될 수 있다), 상이하게 처리하는 것이 가능하다. 이는 영화들에 덜 적절한데, 왜냐하면 감독은 이미 원하는 효과를 위해 영화들을 최적화했기 때문이다. 이들 사이에서 그러나, 다큐멘터리들은 또한 예를 들면, 여행 프로그램에서 프로세싱하는데 훌륭한 후보들일 수 있고, 오디오는 만족될 수 있지만, 비디오는 매우 빠르게 커팅될 수 있고, 대부분 시청을 어렵게 하는 빠르게 이동하는 블러리 팬(blurry pan)들로 구성될 수 있고, 뷰어는 심지어 오디오로부터 당황할 수 있다. 순 비디오 프로세싱은 예를 들면, - 극도로 - 반복 추출 스틸(still)들의 슬라이드쇼일 수 있거나, 덜 극단적인 모션 기반 지터 제거 및 선명화(motion-based jitter removal and sharpening)일 수 있다.

이는, - 비디오 프로세싱과 함께이든 아니든 간에 - 복잡도를 야기하는 오디오의 상이한 양태들, 및 그로 인한 프로그램을 경청하고 이해하는 뷰어의 용이함은 동시에 최적화(또는 상대적인 세팅으로 특정량으로 달리 변화되면)되는 경우에 유용하다. 예를 들면, 어떤 종류의 음성이 발음되는지(고 피치의 여성 음성 대 차분한 저음의 남성 음성)가 일부 뷰어들에 의해서는 말 템포(단위의 시간당 단어들의 수)만큼 중요한 것으로 판단될 것이다.

일반적으로 수반되는 일부 버퍼링이 존재하므로, 본 장치(예를 들면, 전형적으로 신호 프로세싱 IC에서 구현되는)는 유용하게도 예를 들면, 하드디스크 레코딩 또는 오프라인 뷰잉을 위한 PC(렌더링(rendering) 장치들(102)의 예들)에 통합될 수 있으나, 또한 디지털 텔레비전에 통합될 수 있고 실시간 뷰잉 동안 이용될 수 있다. 이 경우 템포가 느려지면 전체 수신하는 프로그램을 버퍼링하거나, 새로운 아이템에서 재동기화, 즉 일부 콘텐트를 스킵(skip)할 수 있다.

즉, 시청각 신호의 원천 또는 제공이 무엇이든 간에, 본 발명에 있어서 뷰어는 상대적으로 간단한 제어 명령들로 오디오 신호를 자신의 현재 집중 레벨로 적응시킬 수 있다.

본 발명에 따른 방법 및 장치의 상기 및 다른 양태들은 이후에 서술되는 구현예들 및 실시예들을 참조하고 첨부 도면들을 참조함으로써 명확해지고 명료해질 것이고, 상기 첨부 도면들은 단지 더 보편적인 개념을 예시하는 비제한적인 특정 예들 역할을 하고, 도면들에서 점선들은 구성요소가 선택적임을 나타내는데 이용되고, 점선이 아닌 구성요소들은 반드시 필수적인 것은 아니다. 점선들 또한 필수적인 것으로 설명되는 요소들이 오브젝트(object)의 내부에 숨겨지거나, 전자기장과 같이 만질 수 없는 것들을 나타내는데 이용될 수 있다.

도 1은 시청각 단일 저장 가능 디바이스(102)에 통합되는 예에 의한 시청각 신호 프로세싱 장치의 개략도.
도 2는 시청각 신호 분석 유닛들에 대한 더욱 상세한 실시예들에서의 개략도.
도 3은 입력 시청각 신호를 덜 복잡하게 하고 경청하기 더욱 쉽게 하는 혼합 출력 시청각 신호의 디스플레이 상에서의 개략적인 예시도.

도 1은 시청각(A/V) 신호 프로세싱 유닛(104)을 도시하고, 유닛은 여러 신호 변환들을 예를 들면, 브로드캐스트 안테나(124), 또는 인터넷 케이블 등을 통해 입력되는 A/V 신호(S(A, V))에 적용하도록 배열된다. 자체의 가장 단순한 구성에서, 이는 변환들을 오디오에만 적용할 것이지만, 때로는 개선된 품질(립싱크와 같은)을 위해, 유닛이 영상 반복(picture repetition)과 같은 적어도 일부의 비디오 프로세싱을 적용하도록 하는 것이 유리할 수 있다. 상이한 알고리즘들 및 특히 상기 알고리즘들과 대응하는 것의 그러한 사양들은 공장에서 설정되거나(그리고 부분적으로 변경될 수 없다), 신호 종속적이거나, 이용자 지정(아래를 참조하라, 그러나 이용자는 구성 메뉴에 있어서 비디오의 지터 또는 속도와 같은, 관련되는 이슈들에만 신경을 써야만 하고, 특정 모션 보상 보간이 이용되어야 하는지와 같은 기술 문제에는 신경을 쓰지 않는다)일 수 있다. A/V 프로세싱 유닛(104)은 복잡도 설정(즉, 적어도 하나의, 가능하면 여러, 예를 들면, 오디오 및 비디오에 대한 상이한 단일 값) 값의 제어 하에서 자체의 신호 변환들을 실행하는데, 설정 값은 뷰어 입력(예를 들면, 원격 제어부(122)로의 통신 입력을 통해)에 접속되거나, 예를 들면, 시스템의 첫 번째 이용시에 뷰어에 의해 메모리에 저장되는(예를 들면, 분당 단어들 및 오디오의 최대 다이나믹(dynamic)과 같은 절대값) 원하는 복잡도로 입력 A/V 신호를 맞추고/유지하는 제어기로 자동적으로 작동할 수 있는 제어 유닛(106)으로부터 획득되는 시청각 신호의 복잡도를 지정/특성화한다.

뷰어는 볼륨 제어를 즉 자신의 원격 제어부 상에서 플러스 및 마이너스 버튼들(123)에 의해 변경하고 있는 것과 같이 단계들에서 신호들을 수정할 수 있다면 뷰어에게 매우 편리할 것이다.

전형적으로, 이용자는 프로그램이 (현재) 소모적이라 생각해서 마이너스 버튼을 누르고자 할 것인데, 상기 이용자는 적어도 일부 정보를 분실하기 시작한다.

분당 단어들의 양을 변경하는 것은 다수의 방법들로 행해질 수 있다. 음성은 단어들 사이에 일시 중지들을 포함하므로, A/V 프로세싱 유닛(PU)은 이 일시 중지들을 늘리도록 구성될 수 있고, 이는 음성을 더 느리게 하는 결과를 초래할 수 있다. 대안적으로 또는 추가적으로, PSOLA과 같은 오버랩-및-추가(overlap-and-add) 기술들을 적용할 수 있다. 단일 복잡도-영향 변환(단일 슬라이더(330)가 세팅되는)에서의 상이한 오디오 변환들을 결합하는 것은 뷰어에 대한 제어를 간소화할 뿐만 아니라 더 양호한 결과들을 산출할 수 있음이 이해되어야 한다. 예를 들면, 특정 단어들의 강조(A/V 신호, 예를 들면, 뉴스 독자들은 흔히 중요한 사건들을 말할 때 자신의 머리를 이동시키는 것을 분석함으로써, 또는 심지어 정관사("the")와 같은 특정 단어들을 인식하고 다른 단어들을 강조하거나 "및(and)", "두 번째로(secondly)"와 같은 특정 중요한(예를 들면, 음성 논리) 단어들을 강조하거나, 심지어 발음된 사운드들을 프로세싱하고, 마찰음을 변하지 않은 채로 남겨놓음으로써)는 스피치의 템포가 더 낮아지는 경우 중요성이 적어질 수 있다.

오디오의 시간상 부분들의 볼륨을 변경하는 것은 보다 긴 기간의 다이나믹스들(예를 들면, 더 어려운 스피치를 제거하고, 모든 스피치를 공통 볼륨 레벨로 설정하거나, 역으로 레벨들을 조정하여 - 예를 들면, 더 긴 침묵들 사이에 문장들을 나타내는 - 이야기를 더 재밌게 만드는)의 단순한 감소와 관련될 수 있다. 또는 이는 특정 단어들을 강조하는 것 등과 관련된다.

또한 화자(speaker)의 음성은 A/V PU에 의해 변경될 수 있다. 이는 매우 복잡한 성도(vocal tract) 모델링으로 행해질 수 있지만, 성도는 전형적으로 성대의 입력 시에 필터에 의해 모델링되므로, 컬러링(coloring)은 또한 상대적으로 간소한 스펙트럼 동작들, 즉 예를 들면, 음성의 명료성 또는 즐거움에 기여하는 특정 대역들에서의 볼륨을 증가시키는 것에 의해 행해질 수 있다. 예를 들면, 높은 피치의 남성 음성을 조용하고 굵은 남성 음성으로 완전하고 완벽하게 변환되는 것일 필요하지 않을지라도, 그와 같은 굵은 음성들에 대한 선호(도 3 구성 윈도우(350)를 참조하라)는 예를 들면, 스피치(speech)의 저주파수들의 상승으로 간소하게 실현될 수 있다. 다른 경우에, 배경 잡음들, 스피치 분리 기술들이 이용될 수 있다.

매우 전형적으로, 이용자가 더 조용하고 보다 포괄적인 오디오 표현을 가지기 위해서 마이너스 버튼을 누를 때, 오디오 프로세싱은 적어도 그것이 상기 특정 뷰어에 대한 지난 밤 뷰잉에 대한 우선의 변화 방향의 설정들인 경우, 스피치를 다수의 단계들에서 특정 위상 공간을 통해 {빠름, 급격함, 고 피치}에서 {느림, 단조로움, 저 피치}로 이동시킬 것이다.

슬라이더(330)는 상대적인 슬라이더가 아닌 경우, 이는 초기에 50%로 설정되지 않을 것이고, 오히려 신호 분석 유닛은 오디오(및/또는 비디오) 신호의 특성들을 측정하고 그에 따라 들어오는 화살표의 위치를 배치할 것이다. 게다가, 알고리즘 모델에 따르면, 공장에서 다수의 전형적인 프로그램들이 분석되고, 적어도 X 단어들 모두의 임의의 프로그램(예를 들면, 또한 제 2 화자가 흔히 간섭하는지, 배경 잡음, 화자의 유형이 존재하는지,.... 와 관련되는)은 "너무 소모적인" 코드로, 즉, 슬라이더 위치 100%에 대응하여 표현된다. 유사하게, 특정한 복잡도에서 또는 이하의 프로그램들의 일부는 너무 지루하거나 절대 복잡도 값 0%로 모두 특징지워질 수 있다. 중간 개재(in-between) 측정치들의 신호들은 슬라이더의 상이한 중간 개재 값들 상으로 선형으로 또는 비선형으로 매핑된다. 이 경우에 뷰어는 실제로 자신이 양 시스템들에서 전형적으로 어떤 일반적인 선호 세팅에 도달할지라도, 복잡도에 대한 절대 세팅들을 설정할 수 있다. 전형적으로 뷰어는 모든 프로그램들을, 바람직하게는 날의 시간에 따라, 및 프로그램의 유형(다큐멘터리와는 다른 세팅들을 갖는 뉴스)에 따라 변환하기 위해 단일 값을 저장할 뷰어 특징적 메모리(161)에 값들을 저장하여, 상기 장치가 원하는 A/V 신호 프로세싱을 자동으로 실행할 수 있게 한다. 메뉴로 가서 세팅 "피곤한 저녁", "아침 일어나기" 등을 선택해야만 하는 대신, 장치는 슬라이더(330)를 이용자-적응 슬라이더로 제공하도록 제어 유닛(106) 내에 소프트웨어를 포함한다. 이 경우에, 약 50% 세팅은 "일반적인 뷰잉" 복잡도(현재 뷰어에 의해 선호되는 것으로 입력되는 바와 같은: 예를 들면, 키워드 입력, 바이오메트릭(biometrics) 측정 등과 같이, 통합된 뷰어 식별 수단이 존재할 수 있다)이고, 뷰어 및 이들의 상대적인 복잡도들에 의해 구성 위상에서 지정되는 최정의 시나리오들의 양에 따라(즉, 이들은 현재 비수치적 순서에 있고, 심지어 "지난 저녁"이 "피곤한 저녁"보다 5배 더 느슨한 경우, 단일 푸시가 충분하다), 단일 마이너스 버튼을 누르면 "피곤한 저녁' 바람직한 세트로 이동되고, 플러스를 누르면 "아침 일어나기" 세팅들로 이동되고, 두 마이너스를 누르면 "지난 밤" 세트들로, 기타 등등으로 이동된다.

전형적으로, 신호를 덜 복잡하게 함으로써, 수반되는 일부 슬로우 다운이 존재할 수 있다. 이는 한편으로는 - 예방 조처가 취해지지 않는 경우 - 일부 콘텐트를 스킵하는 결과를 발생시키거나, 심지어 오랜 시간 동안(예를 들면, 하드 디스크 (192) 또는 고체 상태 메모리로부터 뷰잉할 때) 시청해야만 하는 결과를 발생시킬 수 있고, 다른 한편으로, 이는 또한 A/V 싱크를 유지하기 위해 비디오를 늘리는 것이 바람직할 수 있다. 자체의 셋업 구성에 따라 - 장치(A/V PU)는 다음의 상이한 비디오 수정 능력들 중 하나 또는 둘을 가질 수 있다. 한편 이는 신호를 덜 복잡하게 하는 비디오를 프로세싱하는 반면에 총 지속기간을 유지한다(예를 들면, 흔들리는 동작을 제거하거나, 빠른 팬을 동작 보상 보간에 의해 동일한 시간상 지속기간을 갖는 더 작은 팬 크기의 더 느린 팬으로 변환하거나, 장면 변경들을 부드럽게 하거나, 플래시들을 제거하는 것과 같이 비디오 다이나믹스를 변경하거나, 시간상 히스토그램(histogram) 수정을 행하는 것 등에 의해). 한편 이는 영상들을 추가(예를 들면, 반복) 또는 스킵함으로써 비디오의 지속기간을 변경할 수 있다. 예를 들면, 샷(shot)의 마지막 쌍의 영상들이 제거되고, 반면에 처음의 서너 개를 느리게 한다(시간 연장)(단지 단일 영상이 유지되는 가장 극단적인 경우). 바람직하게, 시간상 평활성을 유지하기 위해, 동작 기반 보간이 이용(즉, 중간 개재 영상들이 동기화되어 모든 오브젝트들인 자체의 예상 위치들 내에 있게 되는)되고, 이 예는 Philips의 "3DRS 자연 동작"(예를 들면, A. Beric 등: 2003년 9월 14일 내지 17일의 'Towards an efficient high quality picture-rate up-converter', Proc. ICIP03, IEEE International Conference on Image Processing, Barcelona, Spain)이다. 예를 들면, 프로그램의 유형(뉴스 대 다큐멘터리)에 따른 그러한 양태들에 따라, 정도가 더 적은 연속 싱크가 필요하다. 심지어, 전체 샷은 특히 그것이 짧은 지속기간으로 이루어지는 경우, 생략될 수 있고, 빠른 컷 디렉팅(cut directing)에 의해, 동일한 위치/장면의 많은 샷들이 있다. 일반적으로 A/V PU는 오디오 및 비디오 사이의 싱크를 타이트하게 제어하는 것으로부터 어느 정도 자체의 복잡도 특히 자체의 템포를 완전히 독립적으로 변경하도록 구성될 수 있다(예를 들면, 다큐멘터리들에서, 흔히 비디오는 단지 얘기되는 스토리를 조명하고/지지하고, 아티팩트(artefact)들을 도입하지 않고도 독립적으로 변경될 수 있다). 오디오 및 비디오의 스닙펫(snippet)들 사이의 시간상 상관의 분석은 프로그램의 유형 및 필요한 싱크를 검출하는데 도움을 줄 수 있다.

이는 심지어 페이스(pace)를 느리게 한 후에도, 장치가 임의의 정보를 반드시 방출할 필요가 없는 선택사항을 제공하도록 배열된 경우에, 유용하다. 게다가, A/V PU는 도 3에 도시되는 바와 같이 계층적으로 구조화되는 출력 시청각 신호(O(A, V))를 생성하기 위해, 특정한 종류의 비디오 프로세싱을 행하도록 배열될 수 있다. 이 뷰에서, A/V 신호의 여러 시간상 서브파트들은 서브윈도우들(302, 304,...)의 목록에 제공된다. 주요 뷰는 현재 시청되는 A/V 신호의 부분이고, 윈도우(302)에서는 전형적으로 여전히 장차 실현될 다른 부분이 있다. 그러므로 뷰어는, 시간을 소비하고 이 부분(302)을 풀어놓는 대신, 이를 선택하고, 이에 의해 현재 부분을 스킵하여, 주 윈도우(300)의 이 서브시퀀스를 이동시킬 수 있다. 다수의(지연이 얼마나 긴지, 자연 선택의 조도(coarseness), 및/또는 얼마나 많은 뷰어들이 보기 원하는지에 좌우되는) 이 부분들은 주 윈도우에 중첩된다(관련된 동작 순간들이 실제로 이동하는 만화책 같은 일을 획득할 때까지, 제 1 행에서, 좌우로, 그리고 제 2 행에서 등등). 더욱 지능적인 배치 시스템에서, 서브윈도우들은 직사각 그리드(rectangular grid)을 따르지 않고 기본 영상(underlying picture)을 지나치게 많이 커버하지 않도록, 그리고 배치에 있어서, 사람들, 또는 로고들, 배너들을 커버하지 않는, 여자 인터뷰이(interviewee)와 같이 비디오 서브윈도우를 커버하지 않도록(선들 사이의 영역 내의 영상 데이터의 변화량의 분석에 의해) 상기 기본 영상에 따라 배치된다. 이 부분들(302)이 무작위로, 예를 들면, 일분마다 각각 하나로 선택될 수 있을지라도, 파트들이 실제로 유의미한 시간상 사퀀스들(예를 들면, 주 비디오의 상부에서 동시에 실행되는 르포르타주들(의 제 1 영상들)과 같은)인 경우 이는 유용하다.

게다가, 신호 분석 유닛(170)은 예를 들면, 뉴스 화자 및 현장 르포르타주들 사이를 구별하고 서브윈도우들(302, 304) 등에서 상기 르포르타주들을 나타내도록 배열될 수 있다. 그와 같은 분석 유닛의 예시적인 실시예들은 도 2에 도시된다.

모션 분석기(MOT)는 영상에서의 모션, 예를 들면, 글러벌 패닝(global panning) 및 주밍(zooming)을 평가하지만, 또한 상이한 오브젝트들의 동작을 평가한다. 그러므로 이는 오브젝트를 추적하여, 예를 들면, 그 오브젝트가 컬러를 어떻게 변경하는지 등을 조사한다. 예를 들면, 모션 분석기는 인간 분석기(people analyzer)(PEOPL) 외에도 도움이 될 수 있다. 인간 분석기들은 그 자체적으로 공지되어 있고 포즈 분석기들, 눈 또는 응신 분석기들, 머리 분석기들 또는 인식기들 등과 같은 그러한 컴포넌트들을 포함할 수 있다. 그래서 이는 사람(의 일부)이 존재하는지, 또는 심지어 어떤 사람 또는 그 사람이 무엇을 하고 있는지를 조사될 수 있다. 그러나 또한, 인터뷰어들은 전형적으로, 즉각, 상대적으로 작은 모션의 영역(특히 중계선)에 있다. 그래서 모션 분석기는 분석(양태들의 특징) 및/또는 도 1에서 사람 영역(RP)와 같은 영역들의 분류에 도움이 될 수 있고, 덜 복잡한 인간 분석기를 가능하게 할 수 있다. 특히 말하는 사람의 머리를 추적하는 것에 관심이 있는데, 왜냐하면 말하는 사람은 예를 들면, 중요한 단어를 강조하기 위해서 머리를 끄덕이는 경향이 있기 때문이다(그 다음, 이의 볼륨은 오디오 프로세서에 의해 증가될 수 있다).

사람 영역들은 또한 장면 분석기(SCE_TYPR)(당업자가 물론 예를 들면, 히스토그램 분석기(HISTO) 또는 우세 음성 분석기(DOMVOI)가 특정 콘텐트 간격을 결정할 수 있음을 이해할지라도, 이 개략적인 도면에서 모든 상위 분석은 이 블록에서 행해지는 것으로 가정하자)를 위한 입력인데, 왜냐하면, 뉴스 프로그램은 통상적으로 한 사람의 뉴스 캐스터에 의한 것이고, 반면에 일반적인 관심 아이템 쇼 및 토론은 2 내지 3명을 가지기 때문이다. 아무튼 프로그램의 복잡도는 말하는 사람들의 수에 흔히 좌우되는 것이 명확해야만 하고, 이는 A/V 신호 복잡도를 결정하기 위해 프로세싱 규칙들에 반영될 것이다. 비록 장면 분석기가 하드웨어 블록일 수 있을지라도, 그것은 현재 시청각 신호들의 합성에 관한 소프트웨어 코딩 규칙들(SYSTRULS)을 전형적으로 실행하는 범용 프로세서이고, 상기 코드 규칙들은 예를 들면, 인터넷으로부터 갱신될 수 있다고 가정한다.

공간 이미지/비디오 특성 분석시(BLUR_EDG) 외의 모션 분석기(MOT)는 글로벌 또는 로컬 블러(blur) 결정, 에지(edge)들의 결정, 및 이들로부터의 측정들 등과 같은 그러한 분석을 포함할 수 있기 때문에, 예를 들면, 지터로 캡처된 이미지를 안정화하는데 유용한 정보를 제공할 것이다. 이 유닛들로부터의 측정들은 전형적으로, 여러 성분들을 포함하는 복잡도 벡터(VC)로 출력될 것이다. 예를 들면, VCm은 영상에서의 동작의 양을 나타내는 총 측정량이고, 이는 예를 들면, 팬 크기, 시간에 따른 모션 편차 등과 같은 더욱 세분화된 파라미터들에 의해 더 지정될 수 있다. 유사하게, VCI는 장면의 휘도 또는 포함된 오브젝트들이 성가실 정도로 얼마나 빠르기 변화하는지 등의 측정량이다.

이 파라미터들은 전형적으로 A/V PU의 프로세싱 알고리즘의 파라미터들과 정합할 것인데, 예를 들면, 팬은 두 배로 아주 빠를 수 있고 모션 보상 보간을 통해 영상들을 배가하는 결과를 발생시킬 수 있다. 또한, 이로부터 원하는 복잡도(S_Inf-c)와 함께 프로세싱이 행해지는데 얼마나 많은 프로세싱이 필요로 하는지를 결정하는 단일 복잡도 측정량을 도출할 수 있다. 전형적으로 각각의 정정의 양들은 이용자가 그것을 인지하지 않아도 내부적으로 발생할 것인데, 예를 들면, 이용자는 상기 구성에서 팬의 여러 양들에 대하여 지정되는 자신의 취향을 가질 수 있고(초당 X 픽셀들은 "느리고", 2X는 "편안함"/"일반 뷰잉" 등) , 이로부터 장치는 실제 신호 복잡도 및 간단한 수학적 보간에 의한 원하는 신호 복잡도를 고려하여 필요한 보상을 계산할 수 있다.

또한 다른 모듈들이 기여할 수 있을지라도 장면 간격(SCE_INT), 즉, 어디서 샷 또는 장면(유사한 샷들의 수)이 시작하고 종료하는지를 결정하기 위해서 PEOPL, HISTO, 및 DOMVOI이 얼마나 이용될 수 있는지(증가된 특징 부여 미세도(fineness) 또는 강건성(robustness))를 간략하게 기술한다.

블랙 프레임(black frame)들 또는 와이프(wipe)들의 검출로부터 장면/샷을 코딩하는데 필요한 비트들의 양까지의 장면 경계들을 결정하는데 여러 측정량들이 이용될 수 있다. 그러나, 매우 유용한 분석은 공간 히스토그램의 시간상 변화들 및 유사성을 고찰함에 의한 것으로, 왜냐하면 이것이 우세 샷들(/장면들)(우세 영상(REFI)의 현대의 hip 프로그램들에 대한 생성, 예를 들면, 르포르타주들 중간에 뉴스 독자에 대한 전형적인 특정 카메라의 뷰)을 추출하는데 도움을 줄 수 있기 때문이다.

흔히 그와 같은 카메라는 단지 작은 줌들 또는 팬들 만을 행할 것이고, 그러므로 항상 뉴스 독자 주변의 동일한 영상, 즉 스튜디오의 그러한 부분이 존재할 수 있을 것이다(현대의 비주얼 스튜디오 뉴스의 경우에, 또한 상기 경우에 로고들, 컬러 방식들 등과 같이 통상적으로 인식 가능한 요소들이 존재할지라도, 이는 다소 복잡할 수 있는데 왜냐하면 뉴스 독자는 매우 가변적인 인공 영상들에 의해 둘러싸여 있기 때문이다.). 게다가, 공간 보간 동작(패닝 및 주밍)은 공간 히스토그램(예를 들면, 특징 특성들에 기초한)을 분석하기 전에 유용할 수 있다. 예를 들면, 총 영상은 다수의 직사각 블록들로 커팅될 수 있고, 내부에서 존재하는 컬러들은 예를 들면, 평균값에 의해 요약될 수 있다. 그러므로 영상은 특징적인 샷(뉴스 스튜디오)의 표현을 가지고, 이는 그것이 나타낼 때마다 인식될 수 있다. 유용하게도 본 장치의 실시예는 샷들이 흔히, 특히 특정 시각들에서, 또는 EPG 정보와 같이 특정한 메타데이터(metadata)와 상관하여 발생되는 경우 그와 같은 샷들을 유지할 것이다. 그 후에 상기 장치는 시간에 따라 데이터 메모리(190)에 예를 들면, 6시 뉴스 또는 닥터 필과 같은 그러한 프로그램들의 모델 데이터를 저장할 것이다. 그로부터 분석 유닛은 르포르타주들로부터 뉴스 독자의 장면들, 또는 카메라가 게스트 상에 있는 닥터 필 상에 있는 장면들을 분할할 수 있다. 그 후에 닥터 필이 말하고 있는 모든 것을 천천히 청취하는 뷰어는 윈도우(302)(전형적으로 "다음 스닙펫" 버튼으로, 또는 더 진보된 시스템에서 카메라와의 원격 제어부에 의해 지시함으로써)에서 게스트의 응답에 클릭하여 선택할 수 있고, 그에 직접 진행할 수 있고, 그 후에 상기 장치는 시작에서 종료까지 "이전 스닙펫 윈도우"(320) 내에 있는 닥터 필을 디스플레이하도록 배열되어, 뷰어가 닥터 필 충고 또는 질문이 결국 중요했었다고 생각하는 경우, 자신이 멈춘 곳(조금 전에)으로부터 또는 세그먼크의 시작과 같은 다른 시간으로부터 이를 계속 청취할 수 있을 것이다.

특징적 샷의 다른 유용한 특징은 화자(우세 화자들 중 하나)의 서라운딩(surrounding)들의 히스토그램이다. 이는 위치 및 크기 독립적이 되도록 할 수 있다. 예를 들면, 화자(RP) 주변, 즉, R1, R2,...의 상대적으로 유사한 컬러들의 영역들(예를 들면, 조명은 협소한 크로마 히스토그램(chroma histogram)의 영역들을 분할함으로써 고려되지 않을 수 있다)을 본다. 이 장면은 예를 들면, 세 좌측 인접 영역들(R4, R4, R3) 및 우측 인접 영역들(R2, R1, R1)의 평균값의 행렬로 모델링될 수 있고 동일하게 사람(흔히 변경되지 않는 데스크(RDES)가 존재하는)(RDES1, RDES2, ...) 아래에 그리고 사람 위에 대해 행해져서:

RD, RD, R3, R4, R4, R1, R1

R4, R4, R3, 0, R2, R1, R1

RDES1, RDES2,...

가 획득된다.

심지어 중요한 이동의 경우에도 요소들의 많은 부분들이 상관될 것이다. 상기 예에서 RD 영역은 가변 및 연속 콘텐트로부터 검출될 수 있는 영화 클립 윈도우이므로 RD 영역은 고려되지 않을 수 있음을 주목하라.

그와 같은 표현을 갖는 것은 또한 장면으로부터 모든 샷들을 검출하는데 도움을 줄 수 있다(예를 들면, 뉴스 독자가 상이한 카레라 앵글들로부터 샷을 받는 경우, 스튜디오의 특징적인 히스토그램 컬러들은 여전히 특정한 정도로 여러 샷들 내에서 발생할 것이므로, 이들 값 및 발생의 유사성 측정량은 예를 들면, 인터리빙(interleaving)된 스트리트 리포팅 또는 자연 경관에 대해서보다 더 정밀하다는 점에서 그룹화될 수 있다).

공간 영상 히스토그램 분석 및 우세 화자 인식의 결합은 단독 유닛으로 또한 다른 애플리케이션들, 예를 들면, 장면 인식에 대한 콘텐트 인식에 유용할 수 있다.

유사하게, 우세(또는 특징적 화자) 음성(즉, 흔히 특정한 시간 간격으로 발생하는 음성, 및 다시 특히 음성이 상이한 날들에서 특정 시간에서 발생하는 경우)의 아이덴티피케이션(identification)은 뉴스 독자가 다음 토픽을 말하고/도입하고 있는지 뿐만 아니라 예를 들면, 다큐먼터리에서 현재 정보가 더 관련이 있는지 - 즉, 예를 들면, 복잡도-감소/조정 출력 A/V 신호에서 유지되어야 하는지 - 또는 그것이 단지 장면 영상들을 도시하고 있는지에 도움을 줄 수 있다.

유사하게, 텍스트 디코더(TXT), 또는 예를 들면, 고정된 로고, 배너 등과 같은 특별 지역들에 대한 검출기(BANNLOG)는 샷/장면 분할(간격들(SCE_INT)을 초래하는) 또는 아이덴티피케이션(유형들(SCE_TYP)을 초래하는)에 도움을 줄 수 있다. 장면의 유형(SCE_TYP)의 아이덴티피케이션의 뉴스 독자의 바로 그 스튜디오 영상보다 더 복잡한 예는 예를 들면, 축구 경기이고, 이는 녹색 직사각형, 공, 뛰어 돌아다니는 두 팀의 선수들, 관중의 텍스처, 및 소리지르는 사운드들로부터 식별될 수 있다.

마지막으로, 예를 들면, 인터넷 콘텐트로부터 메타데이터가 존재하는 경우가 흥미롭다. 이는 샷/장면 분리 및 아이덴티피케이션을 위해 이용될 수 있을 뿐만 아니라, 또한 예를 들면, 상이한 계층적 르포르타주들(예를 들면, 서브윈도우(302) 상에서 이것은 오바마 르포르타주의 담화임을 이용자에게 표시하는 텍스트(303)(OBAMA)가 렌더링되었다.)에서 이용될 수 있다. 연속 장면들은 또한 특히 메타데이터의 도움으로 계층적으로 렌더링될 수 있고, 예를 들면, 윈도우(302) 뒤에서 세 서브시퀀스들이 있을 수 있다: 오바마의 첫번째, 두번째, 및 세번째 토론, 뷰어의 관심 및 지구력에 따라, 동작은 이것 저것들 중 여러 것에 들어가 볼 수 있다.

상기 장치의 관심 실시예는 뷰어가 관심 시간상 세그먼트들을 저장, 예를 들면, 나중에 다시 그것들을 뷰잉하도록 할 수 있다. 예를 들면, 다큐멘터리에서 우선 고무 타이어들에 대한 시작이 얼마나 큰지가 설명될 수 있거나, 힐러리가 어떤 약속을 할 수 있다. 그 다음, 프로그램의 나머지, 예를 들면, 타이어를 제조하는 것이 얼마나 비싼지를 뷰잉할 때, 뷰어는 신속히 상기 스닙펫으로 역으로 돌아가서 타이어 산업의 총 경제 양태에 관한 다른 사실들을 리캡처(recapture)할 수 있다. 게다가, 뷰어는 샷/장면 내의 어딘가에 있는 선택 버튼(125)을 클릭하고 전체 장면 시작에서 끝은 선택 유닛(160)의 제어 하에 메모리로 카피(copy)되고 버튼이 다시 클릭되면 제 1 메모리_윈도우(310) 및 제 2 메모리_윈도우(312)에 도시된다. 이 이용자 선택 특수 시퀀스들은 디스플레이(150) 상에 디스플레이되는 이미지의 하부 좌측 코너에 수직으로 조직되어 이들을 자동으로 생성되는 것들(302, 304)과 구별한다.

장치가 광고 스닙펫들을 상이하게 처리하도록 배열된 경우 유용하다. 광고 스닙펫들은 스킵할 좋은 후보이지만, 이는 자금을 투자한 회사의 의도는 아닐 것이다. 게다가 A/V PU는 광고를 요약, 예를 들면, 광고를 자기 자신의 서브윈도우에 배치하도록 배열된다. 광고의 제작자는 요약에 대한 메타데이터, 예를 들면, 도시될 서너 개의 특징적 영상들을 추가할 수 있고, 이 경우 뷰어는 여전히 예를 들면, 상부에서 두 단어들이 디스플레이되는 애니메이션으로부터 광고의 에센스(essence)(사라고 상기시키는 것)를 얻는다. 서브윈도우를 클릭하면, 상술한 마치 계층적 프로그램/르포르타주들에 의해서인 것처럼, 더 많은 콘텐트가 나타날 수 있다. 요약은 상이한 지속기간의 작동 중 영화들이 행해질 수 있도록(예를 들면, 넷 또는 주 메시지로 바로 점핑하는 대신 주인공에게 무엇이 어디서 잘못되었는지의 단 두 예들로서), 또는 그것이 성가신 오디오의 음량은 낮추는, 예를 들면, 음량을 텍스트 메시지(들)로 대체하는 것처럼 매우 단순할 수 있도록, 엔트리 지점(entry point)들에 의해 계층적 커트 목록을 행하는 것만큼 복잡할 수 있다.

상술한 바와 같이, 본 발명에 따른 실시예들의 장점들 중 하나는 이용자가 신호 복잡도를 쉽게 제어(이는 이용자가 벌써 피곤하거나 스트레스를 받을 때 유용하다)할 수 있다는 것이다. 그러므로 동작 중에, 이용자는 단지 단일 슬라이더(330)만을 이용하여 복잡도를 감소하거나 증가시킬 수 있다. 그러나, 추가적으로, 제공 프로그램(O(A, V)의 계층적 복잡도, 예를 들면, 허용 가능한 서브윈도우의 양을 제어하는 제 2 슬라이더(340)를 가지는 것이 유용할 수 있다. 이 슬라이더가 낮으면, 이는 예를 들면, 단 세 개의 자동 서브윈도우들만을 허용하고 이 서브윈도우의 비디오의 단지 처음의 50초만이 유지되는 결과를 발생시키고, 나머지 모드는 폐기된다(이는 192 상의 버퍼 메모리에 실제로 저장될 수 없거나, 심지어 서브윈도우가 선택되는 경우라도 출력 신호로 렌더링될 수 없다.). 복잡도의 기본이 되는 잠재적으로 복잡한 오디오-비디오 프로세싱은 유용하게도 뷰어 자신의 취향들에 따라 뷰어에 의해 구매 시간에 또는 임의의 시간에 적어도 부분적으로 구성될 수 있다. 게다가 메뉴(350)는 예를 들면, 이용자가 오디오의 다이나믹스를 제한하여 오디오가 폭넓게 변경하지 않도록 할 수 있는 바와 같이, 이용자가 특정 프로세싱들에 대한 일부 파라미터들을 변경하는 것을 가능하다. 전형적으로 이는 이용자에게 예를 들면, 특정 다이나믹스 복잡도들에 도달한 현재 입력된 프로그램 오디오를 변경함으로써 다양한 세팅들을 제공하고, 이용자에게 이들을 적어도 일부 클래스("편안함" 또는 "다소 피곤", "매우 불편함", 또는 "진짜 피곤" 등)로 할당할지를 질문할 것이다. 예를 들면, 정보 계층에 대해서도 동일하게 행해질 수 있다. 예를 들면, 일부 이용자들은 서브윈도우들을 커버하는 영상의 전체의 상부 절반을 가지는데 어려움일 없을 수 있는데, 왜냐하면 디스플레이를 클릭하면, 서브윈도우들의 전체 행이 조금 하향하여 이동되고, 이동된 영상 또한 클릭될 수 있기 때문이고, 반면에 다른 이용자는 단지 두 개의 가장 관련된 아이템만이 디스플레이되기 원하므로, 상기 아이템들은 이들을 참조하기 원할 것이다. 그러므로 결국 이들은 뉴스를 단 두 개의 아이템들로 감소시키고, 예를 들면, 이들은 이라크에서의 폭발을 보는 경우 이들은 그것을 클릭하고 나머지 모두를 무시할 수 있다.

릴렉싱 신호(relaxing signal)을 생성하는데 여러 방법들이 존재한다. 예를 들면, 다큐멘터리(예를 들면, 도시 여행, 자연의)에서, 단지 모들 정보를 프로그램 속으로 넣기 위해서 통상적으로 (상대적으로) 빠른 페이스가 존재한다. 그러나, 누구는 수초만에 그것을 플래시로 보기보다는 그랜드 캐년, 또는 로마의 나이스 스퀘어를 방문하고자 할 것이다. 게다가 반복 시퀀스들이 생성될 수 있고(예를 들면, 단일 "레피타이즈(repetize)" 버튼 누름에 의해) 반복은 시청각 신호의 시간상 세그먼트(예를 들면, 샷 또는 샷들의 장면)을 정확하게 시간 동기화하여 계속 반복하는 것으로 해석되지 않아야 하고, 오히려 나머지 자연(예를 들면, "레피타이즈" 버튼이 다시 눌러져서 기능을 원상태로 할 때까지 적어도 특정 시간 기간 동안), 사진/스냅샷과 같은 종류이지만 샷들에서의 특징적 모션들에 의해 더욱 몰입되는 신호를 생성하는 것으로 해석되어야 한다. 단순한 실시예에서 이는 단지 버튼을 누른 시간에서 특정 샷을 추출하고 그것을 계속하는 시청각 신호 프로세싱 유닛(104)에 의해 작동할 수 있다. 그러나, 시청각 신호 프로세싱 유닛은 시간상 또는 공간상 모두에서 더 복잡한 신호 분석을 행하도록 배열될 수 있고, 예를 들면, 인간의 동작을 분석하고, 심지어 두 샷들에 걸친 인간을 추적하고, 이를 이용하여 시퀀스를 생성한다. 예를 들면, 상기 유닛은 동일한 배경의 두 관련 샷들의 파노라마식 스티치(panoramic stitch)를 생성하고 움직이는 배우들을 추출하고 이들을 동작 추정/보상 기술들로 재페이스팅(repasting)하여 이들이 새 장면을 통해 부드럽게 걷도록 할 수 있다. 이 분석은 전형적으로 최대 릴렉싱 대 캡처된 배격의 정보 추출을 생성하는데 이용되고, 예를 들면, 로마 스퀘어(와이드 앵글) 장면을 통과하여 선형으로 이동하는 사람들은 계속 유지되지만 예를 들면, 소리치는 꽃 판매원의 숏 스닙펫과 같은 혼동스런 빠른 샷(또는 팬에서의 장면의 마지막은 예를 들면, 가까운 오브젝트에서 종료한다)은 그것이 자연스럽게 혼합되지 않으므로 컷아웃될 것이다(이는 전형적으로 또한 반복될 때 성가신 것으로 도시된다). 게다가, 시간상으로 멋지게 커팅된 장면은 또한 예를 들면, 모프(morph)하고, 텍스처들을 추정하고, 주변광 서라운드에 대한 신호를 생성하도록 공간적으로 프로세싱될 수 있다. 전형적으로 여러 서브스닙펫들이 존재하는 경우, 예를 들면, 스퀘어를 걸어가는 사람들 실시간으로 도시될 수 있으나, 꽃을 판매하는 사람의 동작은 느리게 되어서 상기 판매원을 장면(예를 들면, 템포에 맞게, 또는 이완/정보 복잡도에 맞게)의 나머지와 양호하게 혼합도로록 하거나, 반복의 마지막들을 더욱 즐겁고/릴렉싱 등을 하도록 할 수 있다. 당업자는 인공 지능을 추가하고 상이한 캡처 시청각 신호 부분들을 이용함으로써 예를 들면, 새 궤도들을 걸어가는 스퀘어 내의 사람들(그들 중 일부를 만나고, 사람이 장면으로 걸어들어올 때까지 더 많은 시간 대기하는 것 등)을 갖는 원 장면의 매우 복잡한 재 렌더링을 생성할 수 있음을 이해할 것이다.

텍스트에 개시된 알고리즘 구성요소들은 실제적으로 하드웨어(예를 들면, 주문형 IC의 일부들) 또는 특수 디지털 신호 프로세서, 또는 범용 프로세서 등으로 (전체적으로 또는 부분적으로) 실현될 수 있다.

구성요소들이 선택적인 개선들일 수 있고 다른 구성요소들과 결합하여 실현될 수 있으며 방법들의 어떤(선택적인) 단계들이 각각의 장치들의 수단에 대응하는지 및 그 역에 대한 프리젠테이션으로부터 당업자는 이해할 수 있을 것이다. 본 명세서에서의 단어 "장치(apparatus)"는 자체의 광의로 이용, 즉 특정 목적을 실현하는 것을 가능하게 하는 수단들의 그룹이며, 따라서 예를 들면, IC(의 작은 부분), 전용 어플라이언스(디스플레이를 가지는 어플라이언스와 같은), 또는 네크워크형 시스템의 일부 등일 수 있다. "장치(Arrangement)"는 또한 가장 광의로 이용되도록 의도되어, 이는 그중에서도 단일 장치, 장치의 일부, 공동 동작하는 장치들(의 일부)의 집합체 등을 포함할 수 있다.

컴퓨터 프로그램 제품 표시는 명령들을 프로세서에 입력하고, 발명의 특징적 기능들 중 하나를 실행하기 위한 일련의 로딩 단계들(중간 언어로의 번역과 같은 중간 변환 단계들, 및 최종 프로세서 언어를 포함할 수 있는) 이후에, 범용 또는 특수 목적의 프로세서를 인에이블(enable)하는 명령들의 집합의 임의의 물리적 실현을 포함하는 것으로 이해되어야만 한다. 특히 컴퓨터 프로그램 제품은 예를 들면, 디스크 또는 테이프, 메모리에 존재하는 데이터, 네트워크 접속 - 무선 또는 유선 - 을 통해 이동하는 데이터, 또는 종이 상의 프로그램 코드와 같은 캐리어(carrier) 상의 데이터로 실현될 수 있다. 프로그램 코드와는 별개로, 프로그램에 필요한 특징적인 데이터는 컴퓨터 프로그램 제품으로 또한 구현될 수 있다.

방법의 동작에 필요한 단계들의 일부는 데이터 입력 및 출력 단계들과 같이, 컴퓨터 프로그램 제품에 기술되는 대신 프로세서의 기능에 이미 존재할 수 있다.

상술한 실시예들은 본 발명을 제한하기보다는 설명하는 것임이 주목되어야 한다. 당업자가 제공된 예들을 청구항들의 다른 영역들로 매핑(mapping)하는 것을 용이하게 실현할 수 있을지라도, 간소화를 위해 모든 이러한 선택사항들을 상세하게 언급하지 않았다. 청구항들에서 결합되는 바와 같은 본 발명의 요소들의 결합들과는 별개로, 요소들의 다른 결합들이 가능하다. 요소들의 결합은 단일 전용 요소들로 실현될 수 있다.

청구항에서 괄호 내의 어떠한 참조 부호도 본 발명을 제한하지는 않는다. 단어 "포함하는(comprising)"은 청구항에 기재되지 않은 요소들 또는 양태들의 존재를 배제하지 않는다. 요소들 앞의 단어("a" 및 "an")는 그와 같은 요소들의 복수의 존재를 배제하지 않는다.

104: 시청각 신호 프로세싱 유닛 106: 제어 유닛
122: 원격 제어부
124: 브로드캐스트 안테나 150: 디스플레이
160: 선택 유닛
170: 신호 분석 유닛 300: 주 윈도우
302, 304: 서브윈도우

Claims

시청각 신호 프로세싱 장치(104, 106)에 있어서:
시청각 신호에서 정보의 복잡도를 지정하는 적어도 하나의 복잡도 세팅 값(S_Inf-c)을 제어 유닛(106)으로부터 수신하도록 배열된 시청각 신호 프로세싱 유닛(104)으로서, 상기 복잡도 세팅 값(S_Inf-c)에 의해 결정되는 바에 따라 자체의 정보 복잡도를 감소시키거나 증가시키기 위해 입력된 시청각 신호(S(A, V))를 프로세싱하도록 배열되는, 상기 시청각 신호 프로세싱 유닛(104)을 포함하고, 상기 시청각 신호 프로세싱 유닛(104)은 상기 시청각 신호(S(A, V))의 적어도 하나의 오디오 성분(A)을 프로세싱하도록 배열되는, 시청각 신호 프로세싱 장치(104, 106).
제 1 항에 있어서,
상기 시청각 신호 프로세싱 유닛(104)은 자체의 복잡도를 변경하기 위해 상기 시청각 신호(S(A, V))의 적어도 하나의 비디오 성분(V)을 프로세싱하도록 배열되는, 시청각 신호 프로세싱 장치(104, 106).
제 1 항 또는 제 2 항에 있어서,
상기 오디오 프로세싱은 적어도 하나 및 바람직하게는: {시간 유닛 내의 단어들의 수를 변경, 상기 오디오의 특정 시간상 부분들의 볼륨을 변경, 및 상기 음성 데이터의 공간 특징들을 변경} 중 최적화된 동기 결합을 포함하는, 시청각 신호 프로세싱 장치(104, 106).
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 복잡도 설정 값(S_Inf-c)은 뷰어(viewer)로 하여금 상기 복잡도 세팅 값(S_Inf-c)을 이산 단계에서 상향 또는 하향하여 변경하도록 하는 센서(123)를 가지는 이용자 제어 수단(122)을 통해 이용자 지정 값으로 수용가능한 상대적 복잡도 값인, 시청각 신호 프로세싱 장치(104, 106).
제 2 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 시청각 신호 프로세싱 유닛(104)은 상기 비디오의 상이한 시간상 부분들을 디스플레이(150) 상에서 뷰잉하기 위해 이용가능한 출력 비디오 신호(O(A, V))의 상이한 공간 서브-영역들로 할당하도록 배열되는, 시청각 신호 프로세싱 장치(104, 106).
제 5 항에 있어서,
뷰어 제어 하에 상기 비디오 성분(V)의 특정한 시간상 부분을 선택하고 이를 상기 출력 비디오 신호(O(A, V))의 공간 서브-영역들로 할당하도록 배열된 선택 유닛(160)을 포함하는, 시청각 신호 프로세싱 장치(104, 106).
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
{샷 간격, 장면 간격, 프로그램 간격, 르포르타주 간격, 샷 유형, 장면 유형 또는 아이덴티피케이션(identification), 프로그램 유형 또는 아이덴티피케이션, 르포르타주 유형(reportage type)} 중 적어도 하나를 결정하기 위해 상기 시청각 신호를 분석하도록 배열된 분석 유닛(170)을 추가로 포함하는, 시청각 신호 프로세싱 장치(104, 106).
제 7 항에 있어서,
상기 분석 유닛(170)은 영상들의 공간 히스토그램에 의해 특징적인 샷을 검출하도록 배열되고, 하루보다 더 긴 시간 간격 동안 상기 입력된 시청각 신호(S(A, V))의 분석으로부터 상기 특징적인 샷의 식별 정보를 메모리(190)에 저장하도록 바람직하게 또한 배열되는, 시청각 신호 프로세싱 장치(104, 106).
제 7 항에 있어서,
상기 분석 유닛(170)은 특징적인 화자의 아이덴티피케이션에 의해 상기 시청각 신호(S(A, V))의 관련 부분을 검출하도록 배열되고, 바람직하게도, 상기 분석 유닛(170)은 특징적인 화자들의 세트의 특징적인 데이터를 메모리에 저장하도록 또한 배열되는, 시청각 신호 프로세싱 장치(104, 106).
제 7 항에 있어서,
상기 분석 유닛(170)은 상기 시청각 신호(S(A, V))의 상이한 시간상 서브부분들을 기술하는 메타데이터에 따라 상기 시청각 신호(S(A, V))를 프로세싱하도록 배열되는, 시청각 신호 프로세싱 장치(104, 106).
제 7 항, 제 8 항, 또는 제 10 항 중 어느 한 항에 있어서,
상기 분석 유닛(170)은 광고 프로그램을 인식하도록 배열되고, 상기 시청각 신호 프로세싱 유닛(104)은 상기 출력 비디오 신호(O(A, V))와의 결합을 위해, 상기 광고 프로그램을 필수 요약 시청각 신호로 변환하도록 배열되는, 시청각 신호 프로세싱 장치(104, 106).
시청각 신호들을 위한 저장 유닛(192) 및 제 1 항 내지 제 11 항 중 어느 한 항에 따른 시청각 신호 프로세싱 장치를 포함하는, 오디오 렌더링 장치(102).
시청각 신호의 복잡도를 변경하는 방법에 있어서:
- 바람직하게는 뷰어에 의해, 오디오 신호에서 정보의 복잡도를 지정하는 복잡도 세팅 값(S_Inf-c)를 결정하는 단계; 및
- 상기 복잡도 세팅 값(S_Inf-c)에 의해 결정된 바와 같이 자체의 정보 복잡도를 감소시키거나 증가시키기 위해 입력된 오디오 신호(S(A, V))를 프로세싱하는 단계를 포함하는, 시청각 신호의 복잡도를 변경하는 방법.
시청각 신호 프로세싱 장치(104, 106)에 있어서,
시청각 신호에서 정보의 복잡도를 지정하는 적어도 하나의 복잡도 세팅 값(S_Inf-c)을 제어 유닛(106)으로부터 수신하도록 배열된 시청각 신호 프로세싱 유닛(104)으로서, 상기 복잡도 세팅 값(S_Inf-c)에 의해 결정되는 바에 따라 자체의 정보 복잡도를 감소시키거나 증가시키기 위해 입력된 시청각 신호(S(A, V))를 프로세싱하도록 배열되는, 상기 시청각 신호 프로세싱 유닛(104)을 포함하고, 상기 시청각 신호 프로세싱 유닛(104)은 상기 시청각 신호(S(A, V))의 적어도 하나의 비디오 성분(V)을 프로세싱하도록 배열되는, 시청각 신호 프로세싱 장치(104, 106).
제 1 항에 있어서,
상기 시청각 신호 프로세싱 장치(104)는 상기 입력된 시청각 신호(S(A, V))의 부분의 적어도 하나의 시간상 부분 예를 들면, 서브윈도우(subwindow)에 대응하는 공간 서브영역 또는 서라운드 디스플레이와 같은 2차 디스플레이 상에 디스플레이되는 부분의 시간상 반복 시퀀스를 생성하도록 배열되고,
상기 시청각 신호 프로세싱 유닛(104)은 상이한 시간 기간들(time spans)을 적어도 하나의 시간상 부분의 상이한 서브부분들로 할당하도록 배열될 수 있는, 시청각 신호 프로세싱 장치(104, 106).
컴퓨터로 하여금 제 11 항에 따른 상기 방법을 실행하거나, 상기 오디오 신호 프로세싱 장치 청구항들 중 어느 한 항에 따른 비헤이비어(behavior)에 따라 기능하게 하기 위한 코드를 포함하는, 컴퓨터 프로그램 제품.