KR20220155396A

KR20220155396A - 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR20220155396A
Application number: KR1020227038777A
Authority: KR
Inventors: 히로유키 혼마; 유키 야마모토
Original assignee: 소니그룹주식회사
Priority date: 2016-05-30
Filing date: 2017-05-17
Publication date: 2022-11-22
Also published as: JPWO2017208820A1; BR112018074203A2; JP7396341B2; JP2022036998A; WO2017208820A1; EP3467823A1; KR102650850B1; RU2018141215A3; RU2018141215A; US20190222798A1; JP6984596B2; CN117612539A; US20220078371A1; KR20190013748A; KR102465227B1; EP3467823A4; CN109313904A; RU2743732C2; CN109313904B; US11184579B2

Abstract

본 기술은, 보다 간단하고도 고정밀도로 원하는 오브젝트음을 분리시킬 수 있도록 하는 영상 음향 처리 장치 및 방법, 및 프로그램에 관한 것이다. 영상 음향 처리 장치는, 영상 신호에 기초하는 영상 오브젝트를 표시시키는 표시 제어부와, 1개 또는 복수의 영상 오브젝트 중에서, 소정의 영상 오브젝트를 선택하는 오브젝트 선택부와, 오브젝트 선택부에 의해 선택된 영상 오브젝트의 오디오 신호를 오디오 오브젝트 신호로서 추출하는 추출부를 구비한다. 본 기술은 영상 음향 처리 장치에 적용할 수 있다.

Description

영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체{VIDEO SOUND PROCESSING DEVICE, VIDEO SOUND PROCESSING METHOD , AND COMPUTER READABLE RECORDING MEDIUM STORING PROGRAM}

본 기술은 영상 음향 처리 장치 및 방법, 및 프로그램에 관한 것으로, 특히, 보다 간단하고도 고정밀도로 원하는 오브젝트음을 분리시킬 수 있도록 한 영상 음향 처리 장치 및 방법, 및 프로그램에 관한 것이다.

최근 들어, 영화나 게임 등에서 오브젝트 오디오 기술이 이용되고, 오브젝트 오디오를 취급할 수 있는 부호화 방식도 개발되어 있다. 예를 들어 오브젝트 오디오의 부호화에 관한 규격으로서, 국제 표준 규격인 MPEG(Moving Picture Experts Group)-H Part 3:3D audio 규격 등이 알려져 있다(예를 들어, 비특허문헌 1 참조).

이와 같은 부호화 방식에서는, 종래의 2채널 스테레오 방식이나, 5.1채널 등의 멀티채널 스테레오 방식과 함께, 이동하는 음원 등을 독립된 오디오 오브젝트 로서 취급하고, 오디오 오브젝트의 신호 데이터와 함께 오디오 오브젝트의 위치 정보를 메타데이터로서 부호화할 수 있다. 이렇게 함으로써, 종래의 부호화 방식에서는 곤란했던, 재생 시에서의 특정한 음원의 가공을 용이하게 행할 수 있다. 구체적으로는, 예를 들어 특정한 음원의 가공으로서, 음량 조정이나 이펙트의 추가 등을 오디오 오브젝트마다 행하는 것이 가능하다.

이와 같은 오브젝트 오디오 부호화를, 예를 들어 캠코더나 스마트폰 등으로 동화상을 촬영할 때 사용하면, 촬영 대상으로 되어 있는 가족의 음성은 오브젝트음으로서 기록하고, 그 이외의 음은 배경음으로 함으로써, 촬영 후, 재생 시나 편집 시에 독립적으로 가족의 목소리를 조작할 수 있다.

그러나, 캠코더나 스마트폰 등의 모바일 기기로 오브젝트음을 수음(收音)하는 경우, 무엇을 오브젝트음으로 하고, 무엇을 배경음으로 할지를 자동으로 결정하는 것은, 계산 리소스나 유저 인터페이스의 사정상 용이하지 않다.

또한, 오브젝트음을 분리하는 방법으로서, 종래 다양한 음원 분리 기술이 제안되어 있으며, 예를 들어 복수의 마이크로폰과 독립 주성분 분석을 이용하여 음원을 분리하는 방법 등이 제안되어 있다(예를 들어, 특허문헌 1 참조).

일본 특허공개 제2010-233173호 공보

INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3:3D audio

그러나, 이들 음원 분리 기술은 마이크로폰으로부터의 입력 음성 신호로부터 적응적으로 음원을 분리하는 것으로, 실용상으로는 촬영 대상자 이외의 음이 포함되어버리는 경우 쪽이 많아，고정밀도로 원하는 오브젝트음을 분리시키는 것은 곤란하였다.

본 기술은, 이러한 상황을 감안하여 이루어진 것으로, 보다 간단하고도 고정밀도로 원하는 오브젝트음을 분리시킬 수 있도록 하는 것이다.

본 기술의 일 측면의 영상 음향 처리 장치는, 영상 신호에 기초하는 영상 오브젝트를 표시시키는 표시 제어부와, 1개 또는 복수의 상기 영상 오브젝트 중에서, 소정의 상기 영상 오브젝트를 선택하는 오브젝트 선택부와, 상기 오브젝트 선택부에 의해 선택된 상기 영상 오브젝트의 오디오 신호를 오디오 오브젝트 신호로서 추출하는 추출부를 구비한다.

상기 추출부에는, 상기 오디오 신호로부터 상기 오디오 오브젝트 신호를 추출시킬 수 있다.

상기 추출부에는, 상기 오디오 신호로부터, 상기 선택된 상기 영상 오브젝트의 오디오 오브젝트 신호 이외의 신호를 배경음 신호로서 추출시킬 수 있다.

상기 오브젝트 선택부에는, 상기 선택된 상기 영상 오브젝트의 공간상의 위치를 나타내는 오브젝트 위치 정보를 생성시키고, 상기 추출부에는, 상기 오브젝트 위치 정보에 기초하여, 상기 오디오 오브젝트 신호를 추출시킬 수 있다.

상기 추출부에는, 상기 오브젝트 위치 정보를 이용한 음원 분리에 의해 상기 오디오 오브젝트 신호를 추출시킬 수 있다.

상기 추출부에는, 상기 음원 분리로서 고정 빔 포밍을 행하게 할 수 있다.

영상 음향 처리 장치에는, 상기 영상 신호에 기초하여, 상기 영상 오브젝트를 인식하는 영상 오브젝트 인식부를 더 설치하고, 상기 표시 제어부에는, 상기 영상 오브젝트와 함께, 상기 영상 오브젝트의 인식 결과에 기초하는 화상을 표시시킬 수 있다.

상기 영상 오브젝트 인식부에는, 얼굴 인식에 의해 상기 영상 오브젝트를 인식시킬 수 있다.

상기 표시 제어부에는, 상기 화상으로서, 상기 영상 오브젝트의 영역에 프레임을 표시시킬 수 있다.

상기 오브젝트 선택부에는, 유저에 의한 선택 조작에 따라서, 상기 영상 오브젝트를 선택시킬 수 있다.

상기 오브젝트 선택부에는, 상기 선택된 상기 영상 오브젝트의 메타데이터를 생성시킬 수 있다.

상기 오브젝트 선택부에는, 상기 메타데이터로서, 상기 선택된 상기 영상 오브젝트의 공간상의 위치를 나타내는 오브젝트 위치 정보를 생성시킬 수 있다.

상기 오브젝트 선택부에는, 상기 메타데이터로서, 상기 선택된 상기 영상 오브젝트의 처리 우선도를 생성시킬 수 있다.

상기 오브젝트 선택부에는, 상기 메타데이터로서, 상기 선택된 상기 영상 오브젝트의 영역의 확대 상태를 나타내는 스프레드 정보를 생성시킬 수 있다.

영상 음향 처리 장치에는, 상기 오디오 오브젝트 신호 및 상기 메타데이터를 부호화하는 오디오 부호화부를 더 설치할 수 있다.

영상 음향 처리 장치에는, 상기 영상 신호를 부호화하는 영상 부호화부와, 상기 영상 신호의 부호화에 의해 얻어진 영상 비트 스트림과, 상기 오디오 오브젝트 신호 및 상기 메타데이터의 부호화에 의해 얻어진 오디오 비트 스트림을 다중화하는 다중화부를 더 설치할 수 있다.

영상 음향 처리 장치에는, 촬영을 행하여 상기 영상 신호를 얻는 촬상부를 더 설치할 수 있다.

수음을 행하여 상기 오디오 신호를 얻는 수음부를 더 설치할 수 있다.

본 기술의 일 측면의 영상 음향 처리 방법 또는 프로그램은, 영상 신호에 기초하는 영상 오브젝트를 표시시키는 표시 제어 스텝과, 1개 또는 복수의 상기 영상 오브젝트 중에서, 소정의 상기 영상 오브젝트를 선택하는 오브젝트 선택 스텝과, 상기 오브젝트 선택 스텝에 의해 선택된 상기 영상 오브젝트의 오디오 신호를 오디오 오브젝트 신호로서 추출하는 추출 스텝을 포함한다.

본 기술의 일 측면에 있어서는, 영상 신호에 기초하는 영상 오브젝트가 표시되어, 1개 또는 복수의 상기 영상 오브젝트 중에서, 소정의 상기 영상 오브젝트가 선택되고, 선택된 상기 영상 오브젝트의 오디오 신호가 오디오 오브젝트 신호로서 추출된다.

본 기술의 일 측면에 의하면, 보다 간단하고도 고정밀도로 원하는 오브젝트음을 분리시킬 수 있다.

또한, 여기에 기재된 효과는 반드시 한정되는 것이 아니라, 본 개시 중에 기재된 어느 하나의 효과여도 된다.

도 1은, 영상 음향 처리 장치의 구성예를 나타내는 도면이다.
도 2는, 영상 음향 처리 장치의 구성예를 나타내는 도면이다.
도 3은, 부호화 처리를 설명하는 흐름도이다.
도 4는, 오디오 오브젝트의 선택과 직사각형 프레임 화상의 표시에 대하여 설명하는 도면이다.
도 5는, 오브젝트 위치 정보의 좌표계에 대하여 설명하는 도면이다.
도 6은, 피사체와 렌즈와 촬상면의 관계에 대하여 설명하는 도면이다.
도 7은, 오브젝트 위치 정보의 산출에 대하여 설명하는 도면이다.
도 8은, 오브젝트 위치 정보를 포함하는 메타데이터의 신택스를 나타내는 도면이다.
도 9는, 처리 우선도를 포함하는 메타데이터의 신택스를 나타내는 도면이다.
도 10은, 처리 우선도의 설정에 대하여 설명하는 도면이다.
도 11은, 스프레드 정보를 포함하는 메타데이터의 신택스를 나타내는 도면이다.
도 12는, 스프레드 정보에 대하여 설명하는 도면이다.
도 13은, 스프레드 정보의 산출에 대하여 설명하는 도면이다.
도 14는, 컴퓨터의 구성예를 나타내는 도면이다.

이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.

<제1 실시 형태>

<영상 음향 처리 장치의 구성예>

본 기술에서는, 동화상을 대상으로 한 얼굴 인식 기술 등의 오브젝트 인식 기술을 이용하여, 그 인식 결과를 표시 디바이스상에서 기기 사용자에게 제시시키고, 기기 사용자가 인식 결과로부터 선택한 오브젝트에 대응한 방향의 음을 오브젝트음으로서 분리하고, 그 이외의 음을 배경음으로서 오브젝트 오디오 부호화 기술에 의해 부호화하는 것이다.

도 1은, 본 기술을 적용한 영상 음향 처리 장치의 일 실시 형태의 구성예를 나타내는 도면이다.

도 1에 도시한 영상 음향 처리 장치(11)는, 촬상부(21), 영상 오브젝트 인식부(22), 영상 오브젝트 인식 결과 표시 제어부(23), 영상 표시부(24), 오브젝트 선택부(25), 수음부(26), 음원 분리부(27), 오디오 부호화부(28), 영상 부호화부(29), 및 다중화부(30)를 갖고 있다.

촬상부(21)는, 예를 들어 촬상 소자나 렌즈 등으로 구성되는 촬상 유닛을 포함하고, 피사체를 촬영하여, 그 결과 얻어진 동화상의 영상 신호를 영상 오브젝트 인식부(22) 및 영상 부호화부(29)에 공급한다.

영상 오브젝트 인식부(22)는, 촬상부(21)로부터 공급된 영상 신호에 기초하여, 동화상 상의 영상 오브젝트를 인식하고, 그 인식 결과를 영상 신호와 함께 영상 오브젝트 인식 결과 표시 제어부(23)에 공급한다.

영상 오브젝트 인식부(22)에서는, 얼굴 인식이나 물체 인식, 모션 캡처 등에 의해, 동화상 상의 영상 오브젝트가 인식(검출)된다.

예를 들어 일본특허 제4492036호 공보에는, 기지의 화상을 사용한 물체 인식 기술에 대하여 상세히 기재되어 있다. 이러한 기지의 화상을 사용한 물체 인식 기술은, 근년의 기계 학습 기술과 클라우드 네트워크의 진화에 수반하여 현실적으로 이용 가능한 레벨이 되어 있다. 이러한 물체 인식 기술을 이용함으로써, 임의의 물체를 인식하고, 그 인식 결과를 기기 사용자에게 제시하여, 기기 사용자가 선택한 물체의 위치로부터 발해지는 오디오 신호를 오디오 오브젝트의 신호로서 추출하는 것이 가능해진다.

영상 오브젝트 인식 결과 표시 제어부(23)는, 영상 오브젝트 인식부(22)로부터 공급된 영상 오브젝트의 인식 결과 및 영상 신호에 기초하여, 영상 표시부(24)에서의 동화상의 표시를 제어한다. 즉, 영상 오브젝트 인식 결과 표시 제어부(23)는, 영상 표시부(24)에 영상 신호를 공급하여 동화상을 표시시킴과 함께, 영상 오브젝트의 인식 결과에 기초하여, 동화상 상에 영상 오브젝트의 위치를 나타내는 정보를 중첩 표시시킨다.

또한, 영상 오브젝트 인식 결과 표시 제어부(23)는, 영상 오브젝트의 인식 결과를 오브젝트 선택부(25)에 공급한다.

영상 표시부(24)는, 예를 들어 액정 표시 패널 등을 포함하고, 영상 오브젝트 인식 결과 표시 제어부(23)의 제어에 따라서 동화상 등의 화상을 표시한다.

또한, 영상 표시부(24)에 동화상(영상)과 함께 영상 오브젝트의 인식 결과, 즉 영상 오브젝트의 위치를 나타내는 정보가 표시되면, 기기 사용자는, 원하는 영상 오브젝트를 지정하는 조작을 행한다. 그렇게 하면, 기기 사용자에 의한 지정 조작의 결과를 나타내는 신호가 오브젝트 선택부(25)에 공급된다.

오브젝트 선택부(25)는, 영상 오브젝트 인식 결과 표시 제어부(23)로부터 공급된 영상 오브젝트의 인식 결과와, 기기 사용자에 의한 영상 오브젝트의 지정 조작에 따라서 공급된 신호에 기초하여, 기기 사용자에 의해 선택된 영상 오브젝트의 3차원 공간상의 위치를 나타내는 오브젝트 위치 정보를 생성한다. 오브젝트 선택부(25)는, 얻어진 오브젝트 위치 정보를, 음원 분리부(27) 및 오디오 부호화부(28)에 공급한다.

수음부(26)는, 예를 들어 마이크로폰을 포함하고, 영상 음향 처리 장치(11)의 주위의 음을 수음하고, 그 결과 얻어진 오디오 신호를 음원 분리부(27)에 공급한다. 영상 음향 처리 장치(11)에서는, 촬상부(21)에 의해 촬영된 동화상과, 수음부(26)에 의해 수음된 음성을 포함하는 콘텐츠가 얻어지게 된다. 즉, 수음부(26)에서 얻어지는 오디오 신호는, 촬상부(21)에서 얻어지는 영상 신호에 부수되는 음성의 신호이다.

음원 분리부(27)는, 오브젝트 선택부(25)로부터 공급된 오브젝트 위치 정보에 기초하여, 수음부(26)로부터 공급된 오디오 신호에 대해서 음원 분리를 행한다.

음원 분리부(27)에서의 음원 분리에 의해, 수음부(26)에서 얻어진 오디오 신호가, 기기 사용자에 의해 선택된 영상 오브젝트의 음성의 신호인 오디오 오브젝트 신호와, 기기 사용자에 의해 선택된 영상 오브젝트의 음성 이외의 음성의 신호, 즉 배경음의 신호인 배경음 신호로 분리된다. 여기에서는, 기기 사용자에 의해 선택된 영상 오브젝트의 음성의 신호가, 오브젝트음, 즉 오디오 오브젝트의 음성 신호인 오디오 오브젝트 신호로서 분리(추출)된다.

음원 분리부(27)는, 음원 분리에 의해 얻어진 오디오 오브젝트 신호와 배경음 신호를 오디오 부호화부(28)에 공급한다.

오디오 부호화부(28)는, 음원 분리부(27)로부터 공급된 오디오 오브젝트 신호 및 배경음 신호와, 오브젝트 선택부(25)로부터 공급된 오브젝트 위치 정보를 부호화하고, 그 결과 얻어진 오디오 비트 스트림을 다중화부(30)에 공급한다.

영상 부호화부(29)는, 촬상부(21)로부터 공급된 영상 신호를 부호화하고, 그 결과 얻어진 영상 비트 스트림을 다중화부(30)에 공급한다. 다중화부(30)는, 영상 부호화부(29)로부터 공급된 영상 비트 스트림과, 오디오 부호화부(28)로부터 공급된 오디오 비트 스트림을 다중화하고, 최종적인 출력으로 되는 출력 비트 스트림을 얻는다. 다중화부(30)는, 이와 같이 하여 얻어진 출력 비트 스트림을 출력한다.

<영상 음향 처리 장치의 구성예>

도 1에 도시한 영상 음향 처리 장치(11)는, 일반적인 실시 형태를 나타내는 것이지만, 이하에서는, 보다 구체적인 설명을 행하기 위해서, 영상 오브젝트 인식부(22)에서의 영상 오브젝트의 인식 방법으로서, 얼굴 인식 기술이 이용되는 경우를 구체예로서 설명을 행한다.

그와 같은 경우, 영상 음향 처리 장치는, 예를 들어 도 2에 도시한 바와 같이 구성된다. 또한, 도 2에 있어서 도 1에서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절히 생략한다.

도 2에 도시한 영상 음향 처리 장치(61)는, 촬상부(21), 얼굴 인식부(71), 얼굴 인식 결과 표시 제어부(72), 영상 표시부(73), 인물 선택부(74), 수음부(26), 음원 분리부(27), 오디오 부호화부(28), 영상 부호화부(29), 및 다중화부(30)를 갖고 있다.

이 영상 음향 처리 장치(61)의 구성은, 영상 오브젝트 인식부(22) 내지 오브젝트 선택부(25)를 대신하여, 얼굴 인식부(71) 내지 인물 선택부(74)가 설치되어 있는 점에서 영상 음향 처리 장치(11)의 구성과 다르며, 그 밖의 점에서는 영상 음향 처리 장치(11)와 동일한 구성으로 되어 있다.

얼굴 인식부(71)는, 도 1에 도시한 영상 오브젝트 인식부(22)에 대응한다. 얼굴 인식부(71)는, 촬상부(21)로부터 공급된 영상 신호에 대해서 얼굴 인식 처리를 행하여 동화상 상의 사람의 얼굴을 인식하고, 그 인식 결과를 영상 신호와 함께 얼굴 인식 결과 표시 제어부(72)에 공급한다. 즉, 얼굴 인식부(71)에서는, 영상 신호에 기초하여, 영상 오브젝트로서 사람의 얼굴이 인식(검출)된다.

얼굴 인식 결과 표시 제어부(72)는, 도 1에 도시한 영상 오브젝트 인식 결과 표시 제어부(23)에 대응한다. 얼굴 인식 결과 표시 제어부(72)는, 얼굴 인식부(71)로부터 공급된 얼굴 인식 결과 및 영상 신호에 기초하여, 영상 표시부(73)에서의 동화상의 표시를 제어한다. 즉, 얼굴 인식 결과 표시 제어부(72)는, 영상 표시부(73)에 영상 신호를 공급하여 콘텐츠의 동화상을 표시시킴과 함께, 얼굴 인식 결과에 기초하여, 동화상 상에 영상 오브젝트로서의 사람의 얼굴의 위치를 나타내는 정보를 중첩 표시시킨다.

또한, 얼굴 인식 결과 표시 제어부(72)는, 얼굴 인식 결과를 인물 선택부(74)에 공급한다.

영상 표시부(73)는, 예를 들어 액정 표시 패널 등을 포함하고, 도 1에 도시한 영상 표시부(24)에 대응한다. 영상 표시부(73)는, 얼굴 인식 결과 표시 제어부(72)의 제어에 따라서 동화상 등의 화상을 표시한다.

또한, 영상 표시부(73)는 표시 화면에 중첩되어 설치된 터치 패널(81)을 갖고 있으며, 터치 패널(81)은 기기 사용자에 의한 조작에 따른 신호를 인물 선택부(74)에 공급한다. 또한, 여기에서는 기기 사용자가 터치 패널(81)을 조작함으로써 각종 입력을 행하는 예에 대하여 설명하지만, 그 밖에, 마우스나 버튼, 키보드 등의 입력 기기가 사용되어 입력이 행해지도록 해도 된다.

영상 표시부(73)에 동화상(영상)과 함께 얼굴 인식의 결과, 즉 영상 오브젝트로서의 사람의 얼굴의 위치를 나타내는 정보가 표시되면, 기기 사용자는, 터치 패널(81)을 조작하여, 원하는 인물을 지정한다. 그렇게 하면, 터치 패널(81)로부터 인물 선택부(74)에는, 기기 사용자에 의한 인물(얼굴)의 선택 결과가 공급된다.

인물 선택부(74)는, 도 1에 도시한 오브젝트 선택부(25)에 대응한다. 인물 선택부(74)는, 얼굴 인식 결과 표시 제어부(72)로부터 공급된 얼굴 인식의 결과와, 터치 패널(81)로부터 공급된 인물의 선택 결과에 기초하여, 기기 사용자에 의해 선택된 인물, 즉 영상 오브젝트를 선택하고, 그 영상 오브젝트의 3차원 공간상의 위치를 나타내는 오브젝트 위치 정보를 생성한다.

또한, 인물 선택부(74)는, 기기 사용자에 의한 인물의 선택 결과를 영상 표시부(73)에 공급하여 소정의 표시를 행하게 하여, 기기 사용자가 자신이 행한 인물의 선택 결과를 확인할 수 있도록 한다.

인물 선택부(74)는, 기기 사용자에 의해 선택된 인물에 대하여 얻어진 오브젝트 위치 정보를, 음원 분리부(27) 및 오디오 부호화부(28)에 공급한다.

<부호화 처리의 설명>

다음으로, 영상 음향 처리 장치(61)의 동작에 대하여 설명한다. 즉, 이하, 도 3의 흐름도를 참조하여, 영상 음향 처리 장치(61)에 의해 행해지는 부호화 처리에 대하여 설명한다.

이 부호화 처리는, 예를 들어 기기 사용자에 의해 영상 음향 처리 장치(61)가 조작되고, 콘텐츠로서의 음성을 갖는 화상 촬영이 지시되었을 때 개시된다. 또한, 여기에서는, 콘텐츠의 화상으로서 동화상(영상)이 촬영되는 경우를 예로서 설명하지만, 이하에서는, 동화상을 단순히 콘텐츠의 화상이라고도 칭하기로 한다.

촬영이 개시되면, 촬상부(21)는 피사체를 촬영하고, 그 결과 얻어진 영상 신호를, 순차 얼굴 인식부(71) 및 영상 부호화부(29)에 공급한다. 또한, 수음부(26)는 음성을 수음하고, 그 결과 얻어진 오디오 신호를, 순차적으로 음원 분리부(27)에 공급한다.

스텝 S11에 있어서, 얼굴 인식부(71)는 촬상부(21)로부터 공급된 영상 신호에 기초하여, 영상 신호에 기초하는 콘텐츠의 화상 상으로부터 사람의 얼굴을 검출하고, 그 검출 결과와 영상 신호를 얼굴 인식 결과 표시 제어부(72)에 공급한다.

예를 들어 얼굴 인식부(71)는, 영상 신호에 대해서 특징량이나 사전 등을 이용한 얼굴 인식 처리를 행함으로써 화상으로부터 사람의 얼굴을 검출한다. 여기에서는, 예를 들어 화상 위에서의 사람의 얼굴의 위치와, 그 사람의 얼굴의 영역의 크기 등이 인식(검출)된다. 이와 같이 하여 검출된, 콘텐츠의 화상 위의 사람, 보다 상세하게는 사람의 얼굴이 영상 오브젝트로 된다.

스텝 S12에 있어서, 얼굴 인식 결과 표시 제어부(72)는, 얼굴 인식부(71)로부터 공급된 얼굴의 검출 결과 및 영상 신호에 기초하여, 콘텐츠의 화상 위에서의 검출된 각 얼굴의 영역에, 그들의 각 얼굴을 둘러싸는 직사각형 프레임을 표시시키기 위한 직사각형 프레임 화상의 신호를 생성한다.

또한, 직사각형 프레임 화상은, 영상 오브젝트인 사람의 얼굴의 영역에, 그 얼굴의 적어도 일부의 영역을 둘러싸는 프레임을 표시시키는 화상이면 되며, 반드시 얼굴의 전체 영역이 직사각형 프레임으로 둘러싸일 필요는 없다.

또한, 얼굴 인식 결과 표시 제어부(72)는, 사람의 얼굴마다 생성된 직사각형 프레임 화상의 표시 위치와 크기, 즉 화상 위에서의 사람의 얼굴의 영역의 위치와 크기를 나타내는 얼굴 위치 정보를 인물 선택부(74)에 공급한다.

스텝 S13에 있어서, 얼굴 인식 결과 표시 제어부(72)는, 생성된 직사각형 프레임 화상의 신호와, 콘텐츠의 영상 신호를 영상 표시부(73)에 공급함과 함께, 영상 표시부(73)를 제어하고, 사람의 얼굴의 영역에 직사각형 프레임 화상이 중첩 표시된 콘텐츠의 화상을 표시시킨다.

이에 의해, 영상 표시부(73)의 표시 화면에는, 콘텐츠의 화상, 즉 영상 신호에 기초하는 영상 오브젝트와 함께, 영상 오브젝트의 인식 결과에 기초하는 화상인 직사각형 프레임 화상이 표시되게 된다.

또한, 콘텐츠의 화상으로부터 사람의 얼굴을 검출하는 얼굴 인식 기술에 대해서는, 다양한 방법이 제안되어 있으며, 예를 들어 일본 특허 제4264663호 공보(이하, '참조 문헌 1'이라고도 칭함) 등에 상세히 기재되어 있다. 참조 문헌 1에서는, 얼굴 인식을 행하여, 그 인식 결과에 기초하여 직사각형 프레임 화상을 중첩 표시시키는 것이 기재되어 있다.

얼굴 인식부(71)에서의 얼굴 인식 처리의 방법이나, 얼굴 인식 결과 표시 제어부(72)에 의한 직사각형 프레임 화상의 중첩 표시의 방법은, 참조 문헌 1에 기재된 방법과 마찬가지의 방법으로 해도 되지만, 사람의 얼굴을 인식하고, 인식된 얼굴 영역을 둘러싸는 표시를 행할 수 있으면, 어떤 방법이어도 된다. 또한, 예를 들어 여기에서는 직사각형 프레임 화상을 표시하는 예에 대하여 설명하지만, 얼굴 인식의 결과를 콘텐츠의 화상상, 특히 얼굴의 위치에 표시할 수 있으면, 직사각형 프레임 화상으로 한정하지 않고, 사람의 얼굴의 윤곽을 강조 표시하거나, 다른 형상의 도형 화상을 중첩 표시하거나 하도록 해도 된다.

이와 같이 하여 영상 표시부(73)에 콘텐츠의 화상이 표시됨과 함께, 그 화상 상의 사람의 얼굴의 영역에 직사각형 프레임 화상이 표시되면, 기기 사용자, 즉 영상 음향 처리 장치(61)를 조작하는 유저는 터치 패널(81)을 조작하고, 원하는 인물을 오디오 오브젝트로서 선택한다.

예를 들어 원하는 인물의 선택은, 그 인물의 얼굴 영역에 표시되어 있는 직사각형 프레임 화상을 지정함으로써 행해진다. 또한, 유저는, 영상 표시부(73)에 표시되어 있는 1개 또는 복수의 인물(영상 오브젝트) 중에서, 1명만 인물을 선택할 수도 있고, 복수의 인물을 선택할 수도 있다.

영상 음향 처리 장치(61)에서는, 이와 같이 하여 선택된 인물, 즉 영상 오브젝트로부터 발해지는 음성이, 오브젝트음인 것으로 된다. 그리고, 그 오브젝트음의 신호가 오디오 오브젝트 신호로서 오디오 신호로부터 추출된다. 따라서, 영상 오브젝트인 인물을 선택하는 것은, 원하는 인물을 오디오 오브젝트로서 선택하는 조작이라고 말할 수 있다.

기기 사용자에 의해 원하는 인물이 선택되면, 터치 패널(81)로부터 인물 선택부(74)에는, 기기 사용자의 선택 조작에 따른 신호가 공급된다.

스텝 S14에 있어서, 인물 선택부(74)는, 터치 패널(81)로부터 공급된 기기 사용자에 의한 선택 조작에 따른 신호와, 얼굴 인식 결과 표시 제어부(72)로부터 공급된 얼굴 위치 정보에 기초하여, 기기 사용자에 의해 지정된 오디오 오브젝트를 선택한다.

스텝 S15에 있어서, 인물 선택부(74)는, 스텝 S14에서의 오디오 오브젝트의 선택 결과에 기초하여 영상 표시부(73)를 제어하고, 오디오 오브젝트로 하는 것으로서 선택된 사람의 얼굴의 영역에 표시되어 있는 직사각형 프레임 화상, 즉 선택된 직사각형 프레임 화상을 하이라이트 표시시킨다.

예를 들어 도 4에 도시한 바와 같이, 영상 표시부(73)에 3명의 인물 HM11 내지 인물 HM13이 피사체로서 포함되어 있는 콘텐츠의 화상이 표시되어 있다고 하자.

이 예에서는, 스텝 S11에 있어서, 인물 HM11 내지 인물 HM13의 얼굴이 검출되고, 스텝 S13에서는, 그들 인물의 얼굴의 영역에, 직사각형 프레임 화상 FR11 내지 직사각형 프레임 화상 FR13이 중첩 표시된다.

이와 같은 상태에서, 예를 들어 기기 사용자가 인물 HM11의 얼굴 영역의 부분에 표시되어 있는 직사각형 프레임 화상 FR11을 손가락으로 누르거나 하여 선택하였다고 하자. 이 선택 조작에 의해, 스텝 S14에서는, 직사각형 프레임 화상 FR11이 표시되어 있는 인물 HM11이 오디오 오브젝트로서 선택되게 된다. 그렇게 하면, 스텝 S15에서는, 선택된 인물 HM11의 얼굴 영역에 표시되어 있는 직사각형 프레임 화상 FR11이 하이라이트 표시된다.

이 예에서는, 직사각형 프레임 화상 FR11이 실선으로 그려져 있으며, 직사각형 프레임 화상 FR11이 하이라이트 표시되어 있는 것을 나타내고 있다. 이에 반하여, 선택되지 않은 인물의 직사각형 프레임 화상 FR12 및 직사각형 프레임 화상 FR13은 점선으로 그려져 있으며, 하이라이트 표시되지 않은, 즉 통상의 표시로 되어 있는 것을 나타내고 있다.

따라서 직사각형 프레임 화상 FR11이 선택되면, 직사각형 프레임 화상 FR11은 점선으로 그려진 통상 표시의 상태로부터, 실선으로 그려진 하이라이트 표시된 상태로 표시 상태가 변화한다.

이와 같이 기기 사용자에 의해 선택된 인물의 직사각형 프레임 화상을, 다른 직사각형 프레임 화상과 상이한 표시 형식으로 표시함으로써, 기기 사용자는, 자신의 선택 조작이 정확하게 반영되었는지를 용이하게 확인할 수 있다.

또한, 여기에서는 선택된 인물의 직사각형 프레임 화상이 하이라이트 표시되는 경우를 예로서 설명하였지만, 이것으로 한정하지 않고, 선택된 인물의 직사각형 프레임 화상과, 다른 직사각형 프레임 화상이 상이한 표시 형식으로 표시되도록 하면 된다. 예를 들어 선택된 인물의 직사각형 프레임 화상을, 그 이외의 직사각형 프레임 화상과 상이한 색이나 형상으로 표시시키거나, 점멸 표시시키거나 해도 된다.

또한, 얼굴 인식부(71)에, 미리 가족 등의 특정한 인물의 사전을 유지해 두고, 얼굴 인식부(71)에 있어서 특정한 인물이 검출된 경우에는, 인물 선택부(74)가 기기 사용자의 선택 조작 없이 그 특정한 인물을 오디오 오브젝트로서 선택하도록 해도 된다.

그와 같은 경우, 얼굴 인식부(71)로부터 얼굴 인식 결과 표시 제어부(72)를 통해 인물 선택부(74)에는, 특정한 인물을 나타내는 정보도 공급된다. 그리고, 영상 표시부(73)에 콘텐츠의 화상과 직사각형 프레임 화상이 표시된 시점에서, 영상 표시부(73)는 인물 선택부(74)로부터의 제어에 따라서, 특정 인물의 직사각형 프레임 화상을 하이라이트 표시시킨다.

이와 같이, 미리 특정한 인물이 오디오 오브젝트로서 선택되도록 해 둠으로써, 기기 사용자에 의한 선택 조작의 수고를 줄이는 것이 가능해진다. 또한, 이 경우, 그 후의 기기 사용자의 조작에 따라서, 특정한 인물의 선택이 해제되도록 하는 것이 가능하게 되어 있다.

또한, 콘텐츠의 화상에 중첩 표시되는 직사각형 프레임 화상은, 예를 들어 참조 문헌 1에 기재되어 있는 예와 마찬가지로, 인물의 이동이나, 촬영 대상 영역의 이동, 즉 촬영 방향의 변화 등에 수반하여 자동으로 추종하는 처리가 행해진다.

일반적인 캠코더나 디지털 스틸 카메라에서는, 터치 패널로 접촉한 영역에 포커스를 맞추는 기구를 구비한 것이 있지만, 이 오디오 오브젝트의 선택 처리와 포커스 대상의 선택 처리를 동시에 행하는 것도 가능하다. 한번 선택된 오디오 오브젝트는, 전술한 직사각형 프레임 화상의 자동적인 추종과 마찬가지로, 인물의 이동이나 촬영 대상 영역의 이동에 수반하여 자동적으로 추종하도록 이루어진다.

도 3의 흐름도의 설명으로 되돌아가서, 스텝 S16에 있어서 인물 선택부(74)는, 얼굴 인식 결과 표시 제어부(72)로부터 공급된 얼굴 위치 정보에 기초하여, 스텝 S14에서 선택된 오디오 오브젝트의 공간상의 위치를 나타내는 오브젝트 위치 정보를 생성한다.

일반적으로, MPEG-H Part 3:3D audio 규격 등으로 대표되는 각 규격에서의 오디오 오브젝트의 오브젝트 위치 정보는, 예를 들어 도 5에 도시한 구면 좌표계로 부호화된다.

도 5에서는, 원점 O를 통과하고, 서로 수직인 X축, Y축, 및 Z축이 3차원 직교 좌표계의 축으로 되어 있다. 예를 들어 3차원 직교 좌표계에서는, 공간상의 오디오 오브젝트 OB11의 위치는, X축 방향의 위치를 나타내는 X 좌표인 x, Y축 방향의 위치를 나타내는 Y 좌표인 y, 및 Z축 방향의 위치를 나타내는 Z 좌표인 z가 사용되어 (x, y, z)로 표시된다.

이에 반하여 구면 좌표계에서는 방위각, 앙각, 및 반경이 사용되어 공간상의 오디오 오브젝트 OB11의 위치가 표시된다.

이제, 원점 O와 공간상의 오디오 오브젝트 OB11의 위치를 연결하는 직선을 직선 r로 하고, 이 직선 r을 XY 평면상에 투영하여 얻어진 직선을 직선 L로 하자.

이때, X축과 직선 L이 이루는 각 θ가 오디오 오브젝트 OB11의 위치를 나타내는 방위각으로 된다. 또한, 직선 r과 XY 평면이 이루는 각 φ가 오디오 오브젝트 OB11의 위치를 나타내는 앙각으로 되고, 직선 r의 길이가 오디오 오브젝트 OB11의 위치를 나타내는 반경으로 된다.

이하에서는, 공간상의 오디오 오브젝트의 위치를 구면 좌표로 나타내기로 하고, 그 위치를 나타내는 방위각, 앙각, 및 반경을, 각각 position_azimuth, position_elevation, 및 position_radius로 기재하도록 한다.

일반적으로, 동화상으로부터 물체의 크기나 촬영자로부터의 실거리를 측정하는 것은 곤란하다. 또한, 캠코더 등의 촬상 장치에 있어서는, 오토 포커스 기구 등 물체와의 거리를 복수의 점에서 측정할 수 있는 것도 존재하지만, 여기에서는 얼굴 인식 처리를 사용하여 피사체의 위치, 즉 오디오 오브젝트의 실공간상의 위치를 계산하는 경우를 예로서 설명한다.

즉, 이하, 도 6을 참조하여, 일반적인 촬상 장치에 있어서 피사체의 형상이 기지인 경우의 피사체 거리의 측정 방법을 설명한다.

도 6에서는, 촬상면(101)을 갖는 촬상 소자와, 렌즈(102)를 포함하는 촬상 유닛에 의해 피사체(103)가 촬영된다. 여기서, 촬상 소자와 렌즈(102)를 포함하는 촬상 유닛은 촬상부(21)에 대응하고, 피사체(103)는, 스텝 S14에서 오디오 오브젝트로서 선택된 화상 상의 인물에 대응하는, 실공간상의 인물이다.

이 예에서는, 피사체(103)의 도면 중, 세로 방향의 폭인 피사체 폭이 W2로 되어 있으며, 그 피사체(103)를 촬영했을 때의 촬상면(101) 상에서의 피사체(103)의 상(像)의 도면 중, 세로 방향의 폭인 촬상 피사체 폭이 W1로 되어 있다.

또한, 렌즈(102)로부터 피사체(103)까지의 공간상의 도면 중, 가로 방향의 거리를 피사체 거리 d라 하고, 촬상면(101)으로부터 렌즈(102)까지의 공간상의 도면 중, 가로 방향의 거리를 초점 거리 D라 한다.

또한, 보다 상세하게는, 렌즈(102)의 주점으로부터 피사체(103)까지의 도면 중, 가로 방향의 거리가 피사체 거리 d이며, 촬상면(101)으로부터 렌즈(102)의 주점까지의 도면 중, 가로 방향의 거리가 초점 거리 D이다. 또한, 렌즈(102)가 복수의 렌즈로 구성될 때에는, 합성 렌즈의 주점이 렌즈(102)의 주점으로 된다.

인물 선택부(74)에서는, 초점 거리 D, 촬상면(101)의 크기(사이즈)나 화소수 등, 촬상부(21)에 관한 정보가 미리 유지되어 있다.

또한, 인물 선택부(74)는, 얼굴 인식 결과 표시 제어부(72)로부터 공급된 얼굴 위치 정보와, 미리 유지하고 있는 촬상부(21)에 관한 정보로부터, 화상 상의 피사체의 위치 및 크기와, 촬상면(101) 상의 피사체(의 상)의 위치 및 크기와의 관계를 특정할 수 있다. 따라서, 인물 선택부(74)는, 얼굴 위치 정보와 촬상부(21)에 관한 정보로부터 촬상 피사체 폭 W1을 얻을 수 있다.

인물 선택부(74)는, 기지의 물리량인 초점 거리 D, 촬상 피사체 폭 W1, 및 피사체 폭 W2에 기초하여 다음 식 (1)을 계산하고, 미지의 물리량인 피사체 거리 d를 산출한다.

또한, 피사체 폭 W2는 엄밀하게는 미지의 물리량이지만, 개개의 인간의 얼굴의 크기의 변동은 피사체 거리 d에 비하여 충분히 작은 것으로 간주하여, 평균적인 인간의 얼굴의 크기를 피사체 폭 W2로서 사용할 수 있다. 즉, 피사체 폭 W2를 기지의 물리량으로 간주할 수 있다.

예를 들어, 사람의 얼굴의 폭에 대해서는 평균값이 약 16센티미터이고, 얼굴의 길이에 대해서는 평균값이 약 23.5센티미터이므로, 그들의 값을 피사체 폭으로서 사용할 수 있다. 이들의 얼굴 폭이나 얼굴의 길이의 평균값은, 남녀 차이나 연령 등에서 다소 변화되지만, 예를 들어 콘텐츠의 화상으로부터 검출된 얼굴로부터, 화상 인식 등에 의해, 검출된 인물의 성별이나, 대략의 연령을 추정하는 것은 가능하므로, 성별이나 연대별의 평균값을 이용하여 피사체 폭의 보정을 행해도 된다.

또한, 피사체 거리 d의 산출에 있어서는, 피사체인 사람의 얼굴의 세로 방향 폭(길이)과 가로 방향의 폭 중 어느 한쪽, 또는 세로 방향의 폭과 가로 방향의 폭의 양쪽을 사용할 수 있다. 여기에서는 설명을 간단하게 하기 위해서, 사람의 얼굴의 세로 방향의 폭이 피사체 폭 W2로서 사용되고, 피사체 폭 W2만이 사용되어 피사체 거리 d가 산출되는 경우를 예로서 설명한다.

도 6에 있어서는, 렌즈(102)의 주점 위치가 도 5에 도시한 원점 O에 대응하고, 도 6에서의 세로 방향 및 가로 방향이, 각각 도 5에서의 Z축 방향 및 X축 방향에 대응한다. 특히, 도 6 중, 우측 방향이 도 5에서의 앞쪽 방향, 즉 X축 방향의 정(正)의 방향에 대응한다.

따라서, 이상의 계산에 의해 산출된 피사체 거리 d는, 도 5에 도시한 3차원 직교 좌표계에서의 원점 O에서 본, X축 방향에서의 오디오 오브젝트로서 선택된 인물까지의 거리를 나타내고 있다.

또한, 공간상에서의, 오디오 오브젝트로서 선택된 인물의 얼굴의 위치에 대해서도 마찬가지로, 얼굴의 평균적인 크기를 기지의 물리량으로서 사용함으로써 구할 수 있다.

예를 들어 도 7에 도시한 바와 같이 영상 표시부(73)에 표시된 콘텐츠의 화상 상에서, 인물 HM11이 오디오 오브젝트로서 선택되고, 그 인물 HM11의 얼굴 영역을 둘러싸는 직사각형 프레임 화상 FR11이 중첩 표시되어 있는 것으로 한다. 또한, 도 7에 있어서 도 4에서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절히 생략한다.

도 7에서는, 오디오 오브젝트로서 선택된 인물 HM11의 얼굴 부분이, 도 6에 도시한 피사체(103)에 대응하고 있다.

도 7에 있어서, 콘텐츠의 화상 중심 위치를 위치 A11'라 하고, 인물 HM11에 대하여 표시되어 있는 직사각형 프레임 화상 FR11의 중심 위치를 위치 A12'라 한다. 예를 들어 인물 선택부(74)에서는, 얼굴 인식 결과 표시 제어부(72)로부터 공급된 얼굴 위치 정보로부터 위치 A12'를 얻을 수 있다.

지금, 콘텐츠의 화상 상에서의 도면 중, 세로 방향 및 가로 방향을, 각각 Z축 방향(Z 방향) 및 Y축 방향(Y 방향)이라 한다. 또한, 콘텐츠의 화상 상에서의 위치 A11'에서 본 Y축 방향에서의 위치 A12'의 위치를 화상 피사체 수평 위치 Y1'라 하고, 위치 A11'로부터 본 Z축 방향에서의 위치 A12'의 위치를 화상 피사체 수직 위치 Z1'라 한다.

이에 반하여, 촬상면(101) 상의 중심 위치를 위치 A11이라 하고, 촬상면(101) 상에서의 위치 A12'에 대응하는 위치를 위치 A12라 한다. 또한 촬상면(101) 상에서의 위치 A11에서 본 Y축 방향에서의 위치 A12의 위치를 촬상면 피사체 수평 위치 Y1이라 하고, 위치 A11에서 본 Z축 방향에서의 위치 A12의 위치를 촬상면 피사체 수직 위치 Z1이라 한다.

여기서, 촬상면(101)에서의 Y축 방향 및 Z축 방향은, 도 6에서의 앞쪽 방향 및 세로 방향이다. 인물 선택부(74)에서는, 얼굴 인식 결과 표시 제어부(72)로부터 공급된 얼굴 위치 정보로부터 위치 A12'를 얻을 수 있으므로, 그 위치 A12'로부터 화상 피사체 수평 위치 Y1' 및 화상 피사체 수직 위치 Z1'를 구할 수 있다.

또한, 인물 선택부(74)에서는, 촬상면(101)의 크기(사이즈)를 나타내는 정보가 기지의 정보로서 미리 유지되어 있으므로, 화상 피사체 수평 위치 Y1' 및 화상 피사체 수직 위치 Z1'로부터, 촬상면 피사체 수평 위치 Y1 및 촬상면 피사체 수직 위치 Z1을 구할 수 있다. 즉, 촬상면 피사체 수평 위치 Y1 및 촬상면 피사체 수직 위치 Z1이 기지의 물리량으로 된다.

따라서, 인물 선택부(74)는, 이들의 촬상면 피사체 수평 위치 Y1 및 촬상면 피사체 수직 위치 Z1과, 상술한 촬상 피사체 폭 W1 및 피사체 폭 W2로부터, 공간상의 피사체(103), 즉 인물 HM11의 Y축 방향 및 Z축 방향의 위치를 구할 수 있다.

여기서, 피사체(103), 즉 인물의 얼굴의 공간상에서의 Y축 방향 및 Z축 방향의 각각의 위치를 피사체 수평 위치 y 및 피사체 수직 위치 z라 한다. 이때, 피사체 수평 위치 y 및 피사체 수직 위치 z는, 촬상면 피사체 수평 위치 Y1 및 촬상면 피사체 수직 위치 Z1과, 촬상 피사체 폭 W1 및 피사체 폭 W2로부터, 각각 이하의 식 (2) 및 식 (3)을 계산함으로써 구할 수 있다.

인물 선택부(74)는, 식 (2) 및 식 (3)을 계산함으로써, 실제의 공간상에서의 오디오 오브젝트로서 선택된 인물의 얼굴의 피사체 수평 위치 y 및 피사체 수직 위치 z를 구한다.

또한, 인물 선택부(74)는, 이와 같이 하여 얻어진 피사체 수평 위치 y 및 피사체 수직 위치 z와, 상술한 피사체 거리 d에 기초하여 이하의 식 (4) 내지 (6)을 계산하고, 실제의 인물의 얼굴의 구면 좌표계에서의 위치를 산출한다.

즉, 식 (4)의 계산에 의해, 오디오 오브젝트로 된 인물의 공간상에서의 위치를 나타내는 반경 position_radius를 얻을 수 있다.

또한, 식 (5)의 계산에 의해, 오디오 오브젝트로 된 인물의 공간상에서의 위치를 나타내는 방위각 position_azimuth를 얻을 수 있다. 또한, 식 (6)의 계산에 의해, 오디오 오브젝트로 된 인물의 공간상에서의 앙각 position_elevation을 얻을 수 있다.

여기서, 식 (5)에서의 atan2(y, d)는, 이하의 식(7)에 의해 정의된다.

단, 피사체 거리 d는, 이하의 식 (8)에 나타내는 바와 같이, 최솟값 d_min에 의해 제한되어 있는 것으로 한다. 즉, 인물 선택부(74)는, 상술한 식 (1)에 의해 구해진 피사체 거리 d의 절댓값이 최솟값 d_min 미만일 때에는, 최솟값 d_min을 피사체 거리 d의 값으로서 이용하도록 한다

인물 선택부(74)는, 이상의 처리에 의해 구한 방위각 position_azimuth, 앙각 position_elevation, 및 반경 position_radius에 의해 표현되는, 오디오 오브젝트로서 선택된 인물의 공간상의 위치를 나타내는 정보를 오브젝트 위치 정보로 한다.

이와 같이 인물 선택부(74)에서는, 얼굴 인식부(71)에서의 얼굴 인식의 결과에 기초하여, 오브젝트 위치 정보를 구할 수 있다. 그러나, 일반적으로 촬상부(21)에서는 광의 변화가 발생하거나, 손 떨림 등에 의해 미소한 진동이 발생하기도 하므로, 오브젝트 위치 정보에 대해서 필터 등으로 평활화가 행해지는 것이 바람직하다.

인물 선택부(74)는, 구한 오브젝트 위치 정보를 음원 분리부(27) 및 오디오 부호화부(28)에 공급하여, 처리는 스텝 S17로 진행한다. 또한, 이상에 있어서 설명한 처리에 있어서, 복수의 오디오 오브젝트가 선택된 경우에는, 그들의 오디오 오브젝트마다 오브젝트 위치 정보가 생성된다.

스텝 S17에 있어서, 음원 분리부(27)는, 인물 선택부(74)로부터 공급된 오브젝트 위치 정보에 기초하여, 수음부(26)로부터 공급된 오디오 신호에 대한 음원 분리를 행하고, 오디오 신호를 오디오 오브젝트 신호와 배경음 신호로 분리시킨다.

예를 들어, 여기에서는 오디오 오브젝트의 공간상의 위치, 즉 음원 위치는, 오브젝트 위치 정보에 의해 나타내어지는 위치이며, 기지로 되어 있다.

그래서, 예를 들어 음원 분리부(27)는 고정 빔 포밍 기술을 이용하여, 오디오 신호를, 오디오 오브젝트의 신호인 오디오 오브젝트 신호와, 오디오 오브젝트 이외의 음원의 신호인 배경음 신호로 분리시킨다.

구체적으로는, 예를 들어 수음부(26)가 복수의 마이크로폰으로 구성되는 마이크 어레이인 경우, 수음부(26)에서 얻어진 오디오 신호에 대해서, 지향성의 제어를 행함으로써 오디오 오브젝트 신호와 배경음 신호로의 분리를 행할 수 있다. 즉, 오디오 신호로부터, 오디오 오브젝트 신호와, 배경음 신호를 추출할 수 있다.

바꾸어 말하면, 고정 빔 포밍에서는, 공간상에서의 오디오 오브젝트로서 선택된 영상 오브젝트의 위치의 음성의 신호가, 오디오 신호로부터 오디오 오브젝트 신호로서 추출된다. 보다 상세하게는, 공간상에서의 오디오 오브젝트로서 선택된 영상 오브젝트가 있는 방향으로부터 도래하는 음성의 신호가, 오디오 신호로부터 오디오 오브젝트 신호로서 추출된다. 그리고, 오디오 신호로부터, 오디오 오브젝트의 음성 이외의 음성의 신호가 배경음 신호로서 추출된다.

또한, 음원 분리부(27)에서의 음원 분리의 방법은, 고정 빔 포밍으로 한정되지 않고, 예를 들어 일본 특허공개 제2010-233173호 공보에 기재된 방법을 이용하는 등, 어떠한 방법으로 되어도 좋다.

또한, 여기서는, 영상 음향 처리 장치(61)가 캠코더 등의 휴대형의 기기인 것을 상정하여 설명을 행하여 왔지만, 본 기술은 이것으로 한정되는 것이 아니라, 화상 회의 시스템이나 스튜디오 수록 등, 어느 정도 규모가 큰 시스템에도 적용할 수 있다. 그러한 경우에는, 수음부(26)로서 대규모의 마이크 어레이를 사용하면, 음원의 분리 성능을 향상시킬 수 있다.

또한, 예를 들어 수음부(26)로서 지향성 마이크로폰을 포함하는 복수의 마이크로폰을 사용하도록 해도 된다. 그와 같은 경우, 음원 분리부(27)가 지향성 마이크로폰의 방향을 오브젝트 위치 정보에 의해 나타내어지는 방향으로 변경함으로써, 지향성 마이크로폰으로부터 오디오 오브젝트 신호를 얻을 수 있고, 다른 마이크로폰으로부터 배경음 신호를 얻을 수 있다. 즉, 지향성 마이크로폰에 의해 오디오 오브젝트 신호를 추출할 수 있고, 다른 마이크로폰에 의해 배경음 신호를 추출할 수 있다.

스텝 S18에 있어서, 오디오 부호화부(28)는, 인물 선택부(74)로부터 공급된 오브젝트 위치 정보와, 음원 분리부(27)로부터 공급된 오디오 오브젝트 신호 및 배경음 신호를 부호화하고, 그 결과 얻어진 오디오 비트 스트림을 다중화부(30)에 공급한다.

예를 들어, 오디오 오브젝트 신호와 배경음 신호는, 각각 독립적으로 부호화된 후, 다중화되어 오디오 비트 스트림이 생성된다.

오디오 오브젝트 신호나 배경음 신호의 부호화 방식으로서, 예를 들어 리니어 PCM(Pulse Code Modulation) 방식이나, 「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3:3D audio」 (이하, '참조 문헌 2'라고도 칭함)에 기재되어 있는 바와 같은 비가역의 압축 방식이 이용되어도 된다.

또한, 오브젝트 위치 정보는, 일반적으로는 메타데이터라 불리는 데이터이며, 소정의 시간 간격마다, 예를 들어 도 8에 도시한 바와 같은 형식으로 부호화된다.

도 8은, 오브젝트 위치 정보를 포함하는 메타데이터의 신택스(부호화 포맷)의 일례를 나타내는 도면이다. 도 8에 도시한 메타데이터에 있어서, 「num_objects」는, 오디오 비트 스트림에 포함되어 있는 오디오 오브젝트의 수를 나타내고 있다.

또한, 「tcimsbf」는 「Two's complement integer, most significant(sign) bit first」의 약어이며, 부호 비트가 선두의 2의 보수를 나타내고 있다. 「uimsbf」는 「Unsigned integer, most significant bit first」의 약어이며, 최상위 비트가 선두의 부호없는 정수를 나타내고 있다.

또한, 「position_azimuth[i]」, 「position_elevation[i]」, 및 「position_radius[i]」는, 각각 오디오 비트 스트림에 포함되어 있는 i번째의 오디오 오브젝트의 오브젝트 위치 정보를 나타내고 있다.

구체적으로는, 「position_azimuth[i]」는 구면 좌표계에서의 오디오 오브젝트의 위치의 방위각 position_azimuth를 나타내고 있으며, 「position_elevation[i]」는 구면 좌표계에서의 오디오 오브젝트의 위치의 앙각 position_elevation을 나타내고 있다. 또한, 「position_radius[i]」는 구면 좌표계에서의 오디오 오브젝트의 위치까지의 거리, 즉 반경 position_radius를 나타내고 있다.

또한, 「gain_factor[i]」는, 오디오 비트 스트림에 포함되어 있는 i번째의 오디오 오브젝트의 게인 정보를 나타내고 있다.

이와 같이, 인물 선택부(74)에서는, 오디오 오브젝트의 메타데이터로 되는 오브젝트 위치 정보가 생성되고, 오디오 부호화부(28)에서는, 이 오브젝트 위치 정보와 게인 정보가 메타데이터로서 부호화된다.

도 3의 흐름도의 설명으로 되돌아가서, 스텝 S19에 있어서, 영상 부호화부(29)는, 촬상부(21)로부터 공급된 영상 신호를 부호화하고, 그 결과 얻어진 영상 비트 스트림을 다중화부(30)에 공급한다.

또한, 영상 신호의 부호화 방식은, MPEG-HEVC나 MPEG-AVC 등의 잘 알려져 있는 영상 부호화 방식 외에, 다양한 영상 부호화 방식을 이용하도록 할 수 있다.

스텝 S20에 있어서, 다중화부(30)는, 영상 부호화부(29)로부터 공급된 영상 비트 스트림과, 오디오 부호화부(28)로부터 공급된 오디오 비트 스트림을, 이들의 동기를 행하기 위한 시스템 정보 등과 함께 다중화하고, 출력 비트 스트림을 생성한다. 다중화부(30)는, 이와 같이 하여 얻어진 출력 비트 스트림을 출력하고, 부호화 처리는 종료된다.

이상과 같이 하여 영상 음향 처리 장치(61)는, 영상 신호에 대해서 얼굴 인식을 행하고, 얼굴 인식의 결과를 나타내는 직사각형 프레임 화상을 콘텐츠의 화상과 함께 표시시킨다. 또한, 영상 음향 처리 장치(61)는, 기기 사용자의 선택 조작에 따라서 오디오 오브젝트를 선택하고, 그 오디오 오브젝트의 오브젝트 위치 정보를 생성한다.

이에 의해, 보다 간단하고도 고정밀도로 원하는 오브젝트음의 신호를 분리시킬 수 있다. 즉, 기기 사용자는, 콘텐츠의 화상 상의 어느 영상 오브젝트(피사체)를 오디오 오브젝트로 할지를, 영상 표시부(73)의 표시를 보면서 간단하고도 직감적으로 선택할 수 있다. 또한, 선택된 오디오 오브젝트의 오브젝트 위치 정보를 구함으로써, 보다 고정밀도로 원하는 오디오 오브젝트의 신호를 분리시킬 수 있게 된다.

이와 같이 하여 선택된 인물의 음성을 오디오 오브젝트 신호로서 부호화하면, 재생 시에 음성의 음량이나, 음원 위치, 음질 등을 오디오 오브젝트마다 변경할 수 있다.

또한, 이상에서 한 설명에서는, 영상 음향 처리 장치(61)가 콘텐츠의 화상을 촬영하면서, 기기 사용자가 오디오 오브젝트로 하는 인물을 선택하는 예에 대하여 설명하였지만, 촬영 후에 오디오 오브젝트로 하는 인물을 선택하도록 해도 된다.

그와 같은 경우, 콘텐츠의 화상 촬영 시에는, 예를 들어 촬영에 의해 얻어진 영상 신호와, 수음에 의해 얻어진 오디오 신호가 부호화되지 않고 기록된다. 그리고, 촬영 후, 콘텐츠의 재생이 지시되었을 때, 영상 신호와 오디오 신호에 기초하여 콘텐츠가 재생되고, 도 3을 참조하여 설명한 부호화 처리가 행해진다.

다음으로, 이상의 처리에 의해 얻어진 출력 비트 스트림을 수신하여 콘텐츠의 재생, 특히 콘텐츠의 음성 재생을 행하는 방법에 대하여 설명한다.

출력 비트 스트림을 비다중화하여 얻어지는 오디오 비트 스트림에 포함되어 있는 배경음 신호에 관해서는, 예를 들어 종래의 2채널이나 5.1채널 등의 소위 멀티채널 스테레오 방식에서의 재생이 행해진다.

한편, 오디오 오브젝트 신호에 관해서는, 참조 문헌 2에 오디오 오브젝트의 렌더링 방식이 기술되어 있으며, 이 렌더링 방식에 따라서 렌더링이 행해져 재생된다.

보다 구체적으로는, VBAP(Vector Base Amplitude Panning)라 불리는 방식으로 재생 환경의 스피커에 오디오 오브젝트 신호가 매핑되어 재생된다.

이것은, 오브젝트 위치 정보에 의해 나타내어지는, 오디오 오브젝트의 공간상의 위치에 가장 가까운 3개의 스피커의 출력을 사용하여, 오디오 오브젝트의 공간상의 위치에 음을 정위시키는 기술이다. 참조 문헌 2에서는, 스피커의 개수는 3개이지만 4개 이상의 스피커 수로 음을 정위시키는 것도 물론 가능하다.

또한, 이상에 있어서는, 배경음 신호는 멀티채널 스테레오 방식으로 부호화 및 복호되는 예에 대하여 설명하였지만, 참조 문헌 2의 규격에 기술되어 있는 HOA(Higher Order Ambisonic)라 불리는 시청자 근방의 공간을, 구면 조화 함수를 직교 기저로서 표현하는 방식을 이용하도록 해도 된다.

또한, 제1 실시 형태에 있어서는, 기기 사용자, 즉 촬영자는 오디오 오브젝트 추출의 대상으로 되는 피촬영자가 항상 화면 내에 들어가도록 촬영을 행하는 경우가 대부분이다. 그러나, 오디오 오브젝트로서 선택된 인물이 화면 밖으로 이동한 경우의 대책으로서, 일반적으로 알려진 화자 식별 기술 등을 이용하여 오브젝트 위치 정보를 생성하도록 해도 된다.

<제2 실시 형태>

<오디오 오브젝트의 처리 우선도에 대하여>

상술한 제1 실시 형태에서는, 기기 사용자가 오디오 오브젝트로서 음성을 수음하고 싶은 인물을 영상 표시부(73) 상에 표시된 후보로부터 선택하는 조작을 행하고 있었다.

그러나, 영상 음향 처리 장치(61)에서 얻어진 출력 비트 스트림을 복호하여 콘텐츠를 재생하는 기기에 따라서는, 계산 처리 능력의 사정상, 모든 오디오 오브젝트 신호의 복호 처리 및 렌더링 처리를 행할 수 없는 경우가 있다.

그런데, 부호화 장치측에서 오디오 오브젝트마다 처리 우선도 「priority」를 비트 스트림 중의 메타데이터로서 부가하는 방법이 제안되어 있으며, 이 방법은 참조 문헌 2의 규격에서도 채용되어 있다.

그래서, 본 기술을 적용한 제2 실시 형태에서는, 기기 사용자가 오디오 오브젝트로서 음성을 수음하고 싶은 인물을 영상 표시부(73) 상에 표시된 후보로부터 선택함과 함께, 그 선택한 인물의 처리 우선도를 설정할 수 있도록 하였다.

이 경우, 오브젝트 위치 정보가 저장되는 메타데이터는, 예를 들어 도 9에 도시하게 된다. 도 9는, 메타데이터의 신택스 일례를 나타내는 도면이다.

도 9에 도시한 메타데이터에서는, 도 8에 도시한 메타데이터에 포함되는 각 정보 외에도, i번째의 오디오 오브젝트, 즉 오디오 오브젝트 신호의 처리 우선도 「object_priority[i]」가 더 포함되어 있다.

이 예에서는, 처리 우선도 object_priority[i]는, 3비트의 데이터로 되고, 0부터 7까지의 값을 취할 수 있도록 이루어져 있다.

예를 들어 처리 우선도 object_priority[i]의 값이 0인 경우, 오디오 오브젝트의 처리 우선도는 가장 낮고, 처리 우선도 object_priority[i]의 값이 7인 경우, 오디오 오브젝트의 처리 우선도는 가장 높다.

이제, 예를 들어 처리 우선도 object_priority[i]의 값이, 각각 7, 3, 및 0인 3개의 오디오 오브젝트의 오디오 오브젝트 신호를 포함하는 출력 비트 스트림이 재생측의 기기에 공급되었다고 하자. 또한, 재생측의 기기에서는, 3개의 오디오 오브젝트 전부를 렌더링할 수 없는 것으로 한다.

이와 같은 경우, 예를 들어 재생측의 기기는, 처리 우선도 object_priority[i]의 값이 0인 오디오 오브젝트에 대해서는, 음질을 희생으로 한 간이적인 렌더링을 하거나, 그 오디오 오브젝트의 렌더링을 행하지 않도록 할 수 있다. 이에 의해, 처리 능력이 낮은 재생 기기라도 콘텐츠의 리얼타임 재생을 실현할 수 있게 된다.

이상과 같이 메타데이터에 오브젝트 위치 정보와 함께 처리 우선도가 저장되는 경우, 영상 음향 처리 장치(61)의 인물 선택부(74)는, 터치 패널(81)로부터 공급되는 기기 사용자의 조작에 따른 신호에 기초하여, 오디오 오브젝트로 하는 인물을 선택함과 함께, 처리 우선도의 설정을 행한다. 그리고 인물 선택부(74)는, 오브젝트 위치 정보를 음원 분리부(27) 및 오디오 부호화부(28)에 공급함과 함께, 얻어진 처리 우선도를 오디오 부호화부(28)에 공급한다.

이에 의해, 오디오 부호화부(28)에서는, 오브젝트 위치 정보뿐만 아니라 처리 우선도도 부호화되고, 그들의 오브젝트 위치 정보 및 처리 우선도를 포함하는 메타데이터가 저장된 오디오 비트 스트림이 생성된다.

이와 같이 기기 사용자에 의해 처리 우선도가 지정되는 경우, 예를 들어 도 3의 스텝 S15에서는, 도 10에 도시한 바와 같이, 영상 표시부(73)에 콘텐츠의 화상과 함께 직사각형 프레임 화상이 표시된다. 또한, 도 10에 있어서, 도 4에서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절히 생략한다.

도 10은, 촬영 대상 영역에 들어 있는 3명의 인물 HM11 내지 인물 HM13에 대해서, 기기 사용자가 처리 우선도를 설정할 때의 모습을 나타내고 있다.

이 예에서는, 직사각형 프레임 화상 FR11 내지 직사각형 프레임 화상 FR13이 하이라이트 표시되어 있으며, 그들의 직사각형 프레임 화상에 대응하는 인물 HM11 내지 인물 HM13이, 오디오 오브젝트로서 선택되어 있다.

또한, 인물 HM11의 직사각형 프레임 화상 FR11 근방에는, 그 인물 HM11에 대해서 설정된 처리 우선도를 나타내는 문자 정보 「P=7」이 표시되어 있으며, 인물 HM11의 처리 우선도의 값이 가장 높은 7임이 나타내어져 있다.

마찬가지로, 인물 HM13의 직사각형 프레임 화상 FR13 근방에는, 그 인물 HM13에 대해서 설정된 처리 우선도를 나타내는 문자 정보 「P=0」이 표시되어 있고, 인물 HM13의 처리 우선도의 값이 가장 낮은 0임이 나타내어져 있다.

또한, 도 10의 예에서는, 인물 HM12의 직사각형 프레임 화상 FR12의 근방에는, 인물 HM12의 처리 우선도를 설정하기 위한 처리 우선도 설정 화상 CF11이 표시되어 있다.

이 처리 우선도 설정 화상 CF11은, 예를 들어 기기 사용자가 직사각형 프레임 화상 FR12의 부분을 손가락으로 접촉하면 표시된다.

또한, 처리 우선도 설정 화상 CF11 내에는, 처리 우선도의 값 「0」 내지 「7」이 기재된 프레임이 표시되어 있으며, 기기 사용자는 원하는 처리 우선도의 값이 기재된 프레임을 손가락으로 접촉함으로써, 인물 HM12의 처리 우선도를 설정할 수 있다.

예를 들어 기기 사용자가 「3」이 기재된 프레임을 누르면, 인물 선택부(74)는, 기기 사용자의 조작에 따라서 터치 패널(81)로부터 공급된 신호에 기초하여, 오디오 오브젝트로서의 인물 HM12의 처리 우선도의 값을 「3」으로 한다.

또한, 처리 우선도의 결정 방법은 상술한 방법으로 한정되지 않고, 어떠한 방법이어도 된다. 예를 들어 기기 사용자에 의해 선택된 직사각형 프레임 화상에 대응하는 인물의 처리 우선도를 7로 하고, 직사각형 프레임 화상이 선택되지 않은 인물의 처리 우선도는 0으로 되는 간이적인 방법으로 되어도 좋다.

또한, 예를 들어 얼굴 인식에 의해 검출된 인물 전부가 오디오 오브젝트로 되는 경우 등에는, 부호화 처리의 스텝 S14에 있어서 오디오 오브젝트로서 선택된 인물 이외의 인물(영상 오브젝트)의 처리 우선도가, 그 인물의 화상 위에서의 얼굴의 크기, 즉 직사각형 프레임 화상의 크기에 따라서 6 이하의 값 중에서 선택되게 해도 된다.

부호화 처리에서는, 스텝 S16에 있어서 인물 선택부(74)는, 기기 사용자의 조작에 따라서 오디오 오브젝트의 오브젝트 위치 정보를 생성함과 함께, 각 오디오 오브젝트의 처리 우선도를 결정한다. 즉, 오디오 오브젝트의 메타데이터로서, 오브젝트 위치 정보 및 처리 우선도가 생성된다.

그리고, 인물 선택부(74)는, 오브젝트 위치 정보를 음원 분리부(27)에 공급함과 함께, 오브젝트 위치 정보 및 처리 우선도를 오디오 부호화부(28)에 공급한다.

또한, 스텝 S18에서는, 오디오 부호화부(28)는, 오브젝트 위치 정보, 처리 우선도, 오디오 오브젝트 신호, 및 배경음 신호의 부호화를 행하고, 오디오 비트 스트림을 생성한다.

이상과 같이 오디오 오브젝트의 처리 우선도를 생성함으로써, 재생측의 기기에 있어서, 자신의 계산 처리 능력 등에 따라서 오디오 오브젝트에 대한 처리 등을 선택적으로 변경할 수 있게 된다. 이에 의해, 예를 들어 실시간으로 콘텐츠를 재생하는 등, 적절한 콘텐츠 재생을 실현할 수 있다.

<제3 실시 형태>

<스프레드 정보에 대하여>

또한, 오디오 오브젝트를 렌더링할 때에는, 오브젝트 위치 정보에 의해 나타내어지는 위치에 점음원이 있다고 간주하여 VBAP에 의해 렌더링이 행해진다.

그러나, 실제로는 오브젝트는 크기를 갖고, 어떤 일정한 면적을 갖는 면으로부터 소리가 발생하고 있다고 간주한 쪽이 자연스럽다. 그래서, spread(이하, '스프레드 정보'라고 칭함)라 불리는 데이터를 메타데이터 외에도, 렌더링 시에 이 데이터를 이용함으로써 오브젝트가 있는 영역, 즉 면으로부터 음이 발생하고 있도록 하는 방법이 제안되며, 참조 문헌 2의 규격에서도 채용되어 있다.

본 기술을 적용한 제3 실시 형태에서는, 사람의 얼굴 등의 영상 오브젝트를 인식할 때 영상 오브젝트의 인식 결과인 직사각형 프레임의 크기를 사용하여, 영상 음향 처리 장치(61)측에 있어서 스프레드 정보를 자동으로 설정할 수 있도록 하였다.

이 경우, 인물 선택부(74)에 있어서, 터치 패널(81)로부터 공급되는 기기 사용자의 조작에 따른 신호에 기초하여, 오디오 오브젝트로 하는 인물을 선택함과 함께, 스프레드 정보의 설정을 행한다. 그리고 인물 선택부(74)는, 오브젝트 위치 정보를 음원 분리부(27) 및 오디오 부호화부(28)에 공급함과 함께, 얻어진 스프레드 정보를 오디오 부호화부(28)에 공급한다. 또한, 제2 실시 형태와 마찬가지로, 인물 선택부(74)에 있어서, 추가로 처리 우선도도 생성되도록 해도 된다.

예를 들어 오브젝트 위치 정보와 함께, 처리 우선도와 스프레드 정보가 메타데이터에 포함되는 경우, 메타데이터는 도 11에 도시되게 된다. 도 11은, 메타데이터의 신택스의 일례를 나타내는 도면이다.

도 11에 도시한 메타데이터에서는, 도 9에 도시한 메타데이터에 포함되는 각 정보 외에도, i번째의 오디오 오브젝트, 즉 오디오 오브젝트 신호의 스프레드 정보 「spread[i]」가 더 포함되어 있다.

이 예에서는, 스프레드 정보 spread[i]는, 8비트가 데이터로 되고, 공간상에서의 오디오 오브젝트의 영역을 나타내는 각도 정보, 즉 오디오 오브젝트의 영역의 확대 상태를 나타내는 각도 정보로 되어 있다.

출력 비트 스트림을 수신하는 재생측의 기기인 재생 장치에서는, 이러한 스프레드 정보 spread[i]가 이용되어 렌더링이 행해진다. 또한, 스프레드 정보 spread[i]의 구체적인 산출 방법에 대해서는 후술한다.

여기서, 참조 문헌 2의 규격에 준거하여 스프레드 정보를 재생 장치에서 이용하는 방법에 대하여, 도 12를 참조하여 설명한다.

예를 들어 공간상의 원점 O에 대해서, 벡터 p0에 의해 나타내어지는 위치에 오디오 오브젝트가 위치하고 있다고 하자. 여기서, 벡터 p0은 원점 O를 시점으로 하는 벡터이며, 벡터 p0에 의해 나타내어지는 위치는, 오브젝트 위치 정보에 의해 나타내어지는 위치이다. 또한, 이하, 벡터 p0에 의해 나타내어지는 위치를, 위치 p0이라고도 칭하기로 한다.

이와 같은 경우, 인물 선택부(74)에서는, 벡터 p0에 대한 각도 정보가 스프레드 정보 spread[i]로서 생성된다.

재생 장치에서는, 원점 O으로부터 위치 p0을 정면에서 볼 때, 스프레드 정보 spread[i]에서 부여된 각도를 기초로 얻어진 원 C11 내의 위치를 종점으로 하고, 원점 O를 시점으로 하는 18개의 벡터 p1 내지 벡터 p18이 스프레드 벡터로서 구해진다.

원 C11은 위치 p0을 중심으로 하는 원이며, 이 예에서는, 벡터 p1이나 벡터 p4는, 원 C11의 원주상의 위치를 종점으로 하는 벡터로 되어 있다. 또한, 도 12에서는, 원 C11 내의 점은 각 스프레드 벡터의 종점 위치를 나타내고 있다.

예를 들어 원 C11의 원주상의 위치를 종점으로 하는 벡터 p1과, 벡터 p0이 이루는 각도가, 스프레드 정보 spread[i]에 의해 나타내어지는 각도로 된다.

또한, 오브젝트 위치 정보와 스프레드 정보 spread[i]에 기초하여, 스프레드 벡터인 벡터 p1 내지 벡터 p18을 산출하는 방법에 대해서는, 예를 들어 참조 문헌 2에 상세히 기재되어 있으므로, 그 설명은 생략한다.

스프레드 벡터가 얻어지면, 재생 장치에서는, 스프레드 벡터로서 구한 이들의 벡터 p1 내지 벡터 p18의 각각에 대하여, VBAP에 의해 오디오 오브젝트 신호의 게인이 스피커마다 요구되어, 그들의 게인이 정규화된다. 그리고, 정규화된 게인이 승산된 오디오 오브젝트 신호가 스피커에 매핑되어, 콘텐츠의 음성이 재생된다.

이와 같이 스프레드 정보를 이용하여 렌더링을 행함으로써, 공간 방향으로 확대가 있는 오디오 오브젝트를 표현할 수 있도록 된다.

영상 음향 처리 장치(61)의 인물 선택부(74)에 있어서 스프레드 정보가 산출되는 경우, 인물 선택부(74)는, 예를 들어 도 13에 도시한 바와 같이, 얼굴 인식에 의한 영상 오브젝트의 인식 결과, 보다 상세하게는 얼굴 인식의 결과로부터 얻어진 직사각형 프레임 화상을 사용하여 스프레드 정보를 산출한다.

도 13에 도시한 예에서는, 영상 표시부(73) 상에 표시된 콘텐츠의 화상으로부터는, 2명의 인물 HM31 및 인물 HM32가 검출되어 있다. 또한, 콘텐츠의 화상에는, 인물 HM31의 얼굴 부분에 직사각형 프레임 화상 FR31이 중첩 표시됨과 함께, 인물 HM32의 얼굴 부분에 직사각형 프레임 화상 FR32가 중첩 표시되어 있다.

특히, 도 13에서는, 콘텐츠의 화상이 공간 상에 투영된 상태를 나타내고 있고, 직사각형 프레임 화상 FR31의 중심 위치, 및 직사각형 프레임 화상 FR32의 중심 위치는, 각각 대응하는 오디오 오브젝트의 오브젝트 위치 정보에 의해 나타내어지는 위치로 되어 있다.

인물 선택부(74)는, 도 3의 스텝 S16에 있어서, 각 오디오 오브젝트에 대하여, 오브젝트 위치 정보 및 처리 우선도를 생성하면, 추가로 각 오디오 오브젝트의 스프레드 정보도 생성한다. 즉, 오디오 오브젝트의 메타데이터로서, 오브젝트 위치 정보, 처리 우선도, 및 스프레드 정보가 생성된다.

구체적으로는, 예를 들어 오디오 오브젝트로서의 인물 HM31에 대하여 설명하면 인물 선택부(74)는 공간상의 원점 O를 시점으로 하고, 오브젝트 위치 정보에 의해 나타내어지는 위치, 즉 직사각형 프레임 화상 FR31의 중심 위치를 종점으로 하는 벡터 VB11을 구한다. 그리고, 인물 선택부(74)는, 이와 같이 하여 구한 벡터 VB11을, 도 12를 참조하여 설명한 벡터 p0으로 한다. 이러한 벡터 VB11은, 인물 HM31에 대하여 생성된 오브젝트 위치 정보로부터 구할 수 있다.

또한, 인물 선택부(74)는, 공간상의 원점 O를 시점으로 하고, 직사각형 프레임 화상 FR31의 도면 중, 우측의 변위에 있는, 직사각형 프레임 화상 FR31의 중심 위치와 도면 중, 세로 방향(Z축 방향)의 높이가 동일한 위치를 종점으로 하는 벡터 VB12를 구하고, 이 벡터 VB12를 도 12를 참조하여 설명한 벡터 p1로 한다.

여기서, 공간상에서의 벡터 VB12의 종점 위치는, 예를 들어 인물 HM31에 대하여 생성된 오브젝트 위치 정보, 직사각형 프레임 화상 FR31, 촬상면(101)과 콘텐츠의 화상의 관계, 초점 거리 D, 및 피사체 거리 d 등을 이용하여 구할 수 있다.

또한, 인물 선택부(74)는, 이와 같이 하여 구한 벡터 p0으로서의 벡터 VB11과, 벡터 p1로서의 벡터 VB12가 이루는 각 AG11을, 인물 HM31에 대한 스프레드 정보 spread[i]로서 산출한다. 보다 상세하게는, 인물 선택부(74)는 다음 식 (9)를 계산함으로써 스프레드 정보 spread[i]를 산출한다.

또한, 식 (9)에 있어서, p0 및 p1은, 각각 벡터 p0 및 벡터 p1을 나타내고 있다.

마찬가지로, 인물 선택부(74)는, 공간상의 원점 O를 시점으로 하고, 인물 HM32에 대한 오브젝트 위치 정보에 의해 나타내어지는 위치, 즉 직사각형 프레임 화상 FR32의 중심 위치를 종점으로 하는 벡터 VB13을 구하고, 벡터 p0으로 한다.

또한, 인물 선택부(74)는, 공간상의 원점 O를 시점으로 하고, 직사각형 프레임 화상 FR32의 도면 중, 우측의 변위에 있는, 직사각형 프레임 화상 FR32의 중심 위치와 도면 중, 세로 방향의 높이가 동일한 위치를 종점으로 하는 벡터 VB14를 구하고, 벡터 p1로 한다.

그리고, 인물 선택부(74)는, 식 (9)를 계산함으로써 벡터 VB13과 벡터 VB14가 이루는 각도 AG12를 구하고, 인물 HM32에 대한 스프레드 정보 spread[i]로 한다.

또한, 여기에서는 벡터 p0 및 벡터 p1만을 사용하여 스프레드 정보를 산출하는 방법에 대하여 설명하였다. 그러나, 영상 음향 처리 장치(61)의 계산 처리 능력 등에 여유가 있을 때에는, 직사각형 프레임 화상의 도면 중, 상단, 하단, 좌측 단부, 및 우측 단부를 종점 위치로 하는 스프레드 벡터의 각각과, 벡터 p0이 이루는 각을 구하고, 그들이 이루는 각의 평균값을 스프레드 정보 spread[i]로서 이용하도록 해도 된다.

이상과 같이 하여 스프레드 정보가 산출되면, 인물 선택부(74)는, 오브젝트 위치 정보를 음원 분리부(27)에 공급함과 함께, 오브젝트 위치 정보, 처리 우선도, 및 스프레드 정보를 오디오 부호화부(28)에 공급한다.

또한, 스텝 S18에서는, 오디오 부호화부(28)는, 오브젝트 위치 정보, 처리 우선도, 스프레드 정보, 오디오 오브젝트 신호, 및 배경음 신호의 부호화를 행하고, 오디오 비트 스트림을 생성한다.

이상과 같이 오디오 오브젝트의 스프레드 정보를 생성함으로써, 기기 사용자가 스프레드 정보에 관한 지정을 행하지 않고, 재생측의 기기에 있어서, 오디오 오브젝트의 공간적인 확대를 표현한 콘텐츠 재생을 행할 수 있게 된다.

그런데, 상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용의 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.

도 14는, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 나타내는 블록도이다.

컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.

버스(504)에는, 추가로 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509), 및 드라이브(510)가 접속되어 있다.

입력부(506)는 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는 디스플레이, 스피커 등을 포함한다. 기록부(508)는, 하드디스크나 불휘발성의 메모리 등을 포함한다. 통신부(509)는, 네트워크 인터페이스 등을 포함한다. 드라이브(510)는, 자기디스크, 광디스크, 광자기디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.

이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통하여, RAM(503)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.

컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.

컴퓨터에서는, 프로그램은 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통하여, 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통하여, 통신부(509)에서 수신하고, 기록부(508)에 인스톨할 수 있다. 그 밖에, 프로그램은 ROM(502)이나 기록부(508)에, 미리 인스톨해 둘 수 있다.

또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라서 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.

또한, 본 기술의 실시 형태는, 상술한 실시 형태로 한정되는 것이 아니라, 본 기술의 요지를 일탈하지 않는 범위에서 다양한 변경이 가능하다.

예를 들어, 본 기술은, 하나의 기능을 네트워크를 통해 복수의 장치에서 분담, 공동하여 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.

또한, 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치에 의해 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.

또한, 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치에 의해 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.

또한, 본 기술은, 이하의 구성으로 하는 것도 가능하다.

(1)

영상 신호에 기초하는 영상 오브젝트를 표시시키는 표시 제어부와,

1개 또는 복수의 상기 영상 오브젝트 중에서, 소정의 상기 영상 오브젝트를 선택하는 오브젝트 선택부와,

상기 오브젝트 선택부에 의해 선택된 상기 영상 오브젝트의 오디오 신호를 오디오 오브젝트 신호로서 추출하는 추출부

를 구비하는 영상 음향 처리 장치.

(2)

상기 추출부는, 상기 오디오 신호로부터 상기 오디오 오브젝트 신호를 추출하는, 상기 (1)에 기재된 영상 음향 처리 장치.

(3)

상기 추출부는, 상기 오디오 신호로부터, 상기 선택된 상기 영상 오브젝트의 오디오 오브젝트 신호 이외의 신호를 배경음 신호로서 추출하는, 상기 (2)에 기재된 영상 음향 처리 장치.

(4)

상기 오브젝트 선택부는, 상기 선택된 상기 영상 오브젝트의 공간상의 위치를 나타내는 오브젝트 위치 정보를 생성하고,

상기 추출부는, 상기 오브젝트 위치 정보에 기초하여, 상기 오디오 오브젝트 신호를 추출하는, 상기 (1) 내지 (3) 중 어느 한 항에 기재된 영상 음향 처리 장치.

(5)

상기 추출부는, 상기 오브젝트 위치 정보를 이용한 음원 분리에 의해 상기 오디오 오브젝트 신호를 추출하는, 상기 (4)에 기재된 영상 음향 처리 장치.

(6)

상기 추출부는, 상기 음원 분리로서 고정 빔 포밍을 행하는, 상기 (5)에 기재된 영상 음향 처리 장치.

(7)

상기 영상 신호에 기초하여, 상기 영상 오브젝트를 인식하는 영상 오브젝트 인식부를 더 구비하고,

상기 표시 제어부는, 상기 영상 오브젝트와 함께, 상기 영상 오브젝트의 인식 결과에 기초하는 화상을 표시시키는, 상기 (1) 내지 (6) 중 어느 한 항에 기재된 영상 음향 처리 장치.

(8)

상기 영상 오브젝트 인식부는, 얼굴 인식에 의해 상기 영상 오브젝트를 인식하는, 상기 (7)에 기재된 영상 음향 처리 장치.

(9)

상기 표시 제어부는, 상기 화상으로서, 상기 영상 오브젝트의 영역에 프레임을 표시시키는, 상기 (7) 또는 (8)에 기재된 영상 음향 처리 장치.

(10)

상기 오브젝트 선택부는, 유저에 의한 선택 조작에 따라서, 상기 영상 오브젝트를 선택하는, 상기 (1) 내지 (9) 중 어느 한 항에 기재된 영상 음향 처리 장치.

(11)

상기 오브젝트 선택부는, 상기 선택된 상기 영상 오브젝트의 메타데이터를 생성하는, 상기 (1) 내지 (10) 중 어느 한 항에 기재된 영상 음향 처리 장치.

(12)

상기 오브젝트 선택부는, 상기 메타데이터로서, 상기 선택된 상기 영상 오브젝트의 공간상의 위치를 나타내는 오브젝트 위치 정보를 생성하는, 상기 (11)에 기재된 영상 음향 처리 장치.

(13)

상기 오브젝트 선택부는, 상기 메타데이터로서, 상기 선택된 상기 영상 오브젝트의 처리 우선도를 생성하는, 상기 (11) 또는 (12)에 기재된 영상 음향 처리 장치.

(14)

상기 오브젝트 선택부는, 상기 메타데이터로서, 상기 선택된 상기 영상 오브젝트의 영역의 확대 상태를 나타내는 스프레드 정보를 생성하는, 상기 (11) 내지 (13) 중 어느 한 항에 기재된 영상 음향 처리 장치.

(15)

상기 오디오 오브젝트 신호 및 상기 메타데이터를 부호화하는 오디오 부호화부를 더 구비하는, 상기 (11) 내지 (14) 중 어느 한 항에 기재된 영상 음향 처리 장치.

(16)

상기 영상 신호를 부호화하는 영상 부호화부와,

상기 영상 신호의 부호화에 의해 얻어진 영상 비트 스트림과, 상기 오디오 오브젝트 신호 및 상기 메타데이터의 부호화에 의해 얻어진 오디오 비트 스트림을 다중화하는 다중화부

를 더 구비하는, 상기 (15)에 기재된 영상 음향 처리 장치.

(17)

촬영을 행하여 상기 영상 신호를 얻는 촬상부를 더 구비하는, 상기 (1) 내지 (16) 중 어느 한 항에 기재된 영상 음향 처리 장치.

(18)

수음을 행하여 상기 오디오 신호를 얻는 수음부를 더 구비하는, 상기 (1) 내지 (17) 중 어느 한 항에 기재된 영상 음향 처리 장치.

(19)

영상 신호에 기초하는 영상 오브젝트를 표시시키는 표시 제어 스텝과,

1개 또는 복수의 상기 영상 오브젝트 중에서, 소정의 상기 영상 오브젝트를 선택하는 오브젝트 선택 스텝과,

상기 오브젝트 선택 스텝에 의해 선택된 상기 영상 오브젝트의 오디오 신호를 오디오 오브젝트 신호로서 추출하는 추출 스텝

을 포함하는 영상 음향 처리 방법.

(20)

을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.

11: 영상 음향 처리 장치
22: 영상 오브젝트 인식부
23: 영상 오브젝트 인식 결과 표시 제어부
24: 영상 표시부
25: 오브젝트 선택부
26: 수음부
27: 음원 분리부
28: 오디오 부호화부
71: 얼굴 인식부
72: 얼굴 인식 결과 표시 제어부
73: 영상 표시부
74: 인물 선택부
81: 터치 패널

Claims

처리 회로 및 지시를 포함하는 메모리를 포함하는 영상 음향 처리 장치로서,
상기 처리 회로 및 상기 메모리는, 상기 처리 회로에 의해 실행될 때:
하나 이상의 영상 오브젝트가 영상 신호에 기초하여 화상으로 표시되도록 하고,
하나 이상의 상기 영상 오브젝트로부터 영상 오브젝트를 선택하고,
오디오 신호로부터 상기 선택된 영상 오브젝트의 오디오 오브젝트 신호를 추출하도록 구성되고,
상기 선택된 영상 오브젝트의 상기 오디오 오브젝트 신호와는 다른 신호는 상기 오디오 신호로부터 배경음 신호로서 추출되고,
상기 오디오 오브젝트 신호 및 상기 배경음 신호는 서로 독립적으로 부호화되고,
상기 오디오 오브젝트 신호 및 상기 배경음 신호는 상기 오디오 신호를 생성하기 위해 다중화되고,
상기 지시는, 상기 선택된 상기 영상 오브젝트의 메타데이터를 생성하도록 구성되고,
상기 지시는, 상기 메타데이터로서, 상기 선택된 상기 영상 오브젝트의 처리 우선도를 생성하도록 구성되는, 영상 음향 처리 장치.