KR102035477B1

KR102035477B1 - 카메라 선택에 기초한 오디오 처리

Info

Publication number: KR102035477B1
Application number: KR1020177020329A
Authority: KR
Inventors: 미카 빌레르모; 라세 라크소넨; 미코 타미
Original assignee: 노키아 테크놀로지스 오와이
Priority date: 2014-12-22
Filing date: 2015-12-03
Publication date: 2019-10-31
Also published as: EP3238461A1; CN107211208B; US9747068B2; EP3238461A4; US20170308351A1; WO2016102752A1; KR20170100582A; US10241741B2; US20160182799A1; CN107211208A; EP3503580A1

Abstract

방법은 장치의 마이크로폰으로부터 각각의 오디오 신호를 생성하는 단계와, 장치의 복수의 카메라 중 어느 카메라(들)가 사용을 위해 선택되었는지를 결정하는 단계와, 사용을 위해 선택된 결정된 카메라(들)에 기초하여, 처리될 각각의 오디오 신호 중 적어도 하나에 대한 오디오 처리 모드를 선택하는 단계를 포함하며, 오디오 처리 모드는 적어도 하나의 각각의 오디오 신호를 적어도 부분적으로 자동적으로 조정한다.

Description

카메라 선택에 기초한 오디오 처리

예시적이고 비 제한적인 실시예는 일반적으로 오디오 신호에 관한 것으로, 더 구체적으로는 오디오 신호를 처리하는 것에 관한 것이다.

여러 개의 마이크로폰이 있는 장치는 알려져 있다. 여러 개의 카메라가 있는 장치는 알려져 있다. 오디오 신호를 처리하여 수정된 오디오 신호를 생성하는 것은 알려져 있다.

이하의 개요는 단지 예시적인 것으로 의도된다. 이 개요는 청구항의 범위를 제한하려 의도되는 것은 아니다.

일 양태에 따르면, 예시적인 방법은 장치의 마이크로폰으로부터 각각의 오디오 신호를 생성하는 단계와, 장치의 복수의 카메라 중 어느 카메라(들)가 사용을 위해 선택되었는지를 결정하는 단계와, 사용을 위해 선택된 결정된 카메라(들)에 기초하여, 처리될 적어도 하나의 각각의 오디오 신호에 대한 오디오 처리 모드를 선택하는 단계 - 오디오 처리 모드는 사용을 위해 선택된 결정된 카메라(들)에 기초하여 적어도 하나의 각각의 오디오 신호를 적어도 부분적으로 자동 조정함 - 를 포함한다.

다른 예시적인 실시예에 따르면, 장치가 제공되며, 이 장치는 적어도 하나의 프로세서와, 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 비 일시적 메모리를 포함하되, 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서와 함께 장치로 하여금, 장치의 복수의 카메라 중 어느 카메라(들)가 사용을 위해 선택되었는지를 결정하도록 하고, 사용을 위해 선택된 결정된 카메라(들)에 기초하여, 장치의 마이크로폰으로부터 처리될 각각의 오디오 신호에 대한 오디오 처리 모드를 선택하도록 - 오디오 처리 모드는 사용을 위해 선택된 결정된 카메라(들)에 기초하여 각각의 오디오 신호 중 적어도 하나를 적어도 부분적으로 자동 조정함 - 구성된다.

다른 예시적인 실시예에 따르면, 머신에 의해 판독 가능하고, 동작을 수행하기 위해 머신에 의해 실행 가능한 명령어 프로그램을 유형적으로 구현하는 비 일시적 프로그램 저장 디바이스가 제공되며, 동작은 장치의 복수의 카메라 중 어느 카메라(들)가 사용을 위해 선택되었는지를 결정하는 것과, 사용을 위해 선택된 결정된 카메라(들)에 기초하여, 장치의 마이크로폰으로부터 처리될 각각의 오디오 신호에 대한 오디오 처리 모드를 선택하는 것 - 오디오 처리 모드는 사용을 위해 선택된 결정된 카메라(들)에 기초하여 적어도 하나의 각각의 오디오 신호를 적어도 부분적으로 자동 조정함 - 을 포함한다.

전술한 양태 및 다른 특징은 첨부된 도면과 관련하여 작성된 하기 설명에서 설명된다.
도 1은 예시적인 실시예의 정면도이다.
도 2는 도 1에 도시된 실시예의 배면도이다.
도 3은 도 1 및 도 2에 도시된 실시예의 컴포넌트 중 일부를 예시하는 개략도이다.
도 4는 도 1 내지 도 3에 도시된 실시예의 마이크로폰으로부터의 오디오 신호를 처리하는 것을 예시하는 도면이다.
도 5는 예시적인 방법을 예시하는 도면이다.
도 6은 도 1 내지 도 3에 도시된 실시예의 마이크로폰으로부터의 오디오 신호를 처리하는 것을 예시하는 도면이다.
도 7은 도 1 내지 도 3에 도시된 실시예의 마이크로폰으로부터의 오디오 신호를 처리하는 것을 예시하는 도면이다.
도 8은 도 1 내지 도 3에 도시된 실시예의 마이크로폰으로부터의 오디오 신호를 처리하는 것을 예시하는 도면이다.
도 9는 도 1 및 도 2에 도시된 장치와 관련하여 오디오 소스 방향이 수정될 수 있는 영역을 예시하는 도면이다.
도 10은 오디오 소스 방향을 수정하기 위한 예시적인 그래프를 보여주는 도면이다.
도 11은 도 1 및 도 2에 도시된 장치의 일 측면 상에 공간 이미지를 고정하는 것을 예시하는 도면이다.
도 12는 도 1 내지 도 3에 도시된 실시예의 마이크로폰으로부터의 오디오 신호를 처리하는 것을 예시하는 도면이다.
도 13은 도 1 내지 도 3에 도시된 실시예의 마이크로폰으로부터의 오디오 신호를 처리하는 것을 예시하는 도면이다.
도 14는 또 다른 마이크로폰과 함께 도 1 내지 도 3에 도시된 실시예의 마이크로폰으로부터의 오디오 신호를 처리하는 것을 예시하는 도면이다.
도 15는 마이크로폰으로부터의 오디오 신호의 처리하는 것을 예시하는 도면이다.
도 16은 도 1 및 도 2에 도시된 장치 및 비디오 캡처 방향과 관련하여 오디오 캡처 및 재생 방향의 예시적인 사용을 예시하는 도면이다.
도 17은 도 1 및 도 2에 도시된 장치와 관련하여 오디오 캡처 및 재생 방향 그리고 비디오 캡처 방향의 예시적인 사용을 예시하는 다른 도면이다.

도 1을 참조하면, 예시적인 실시예의 특징을 포함하는 장치(10)의 정면도가 도시된다. 비록 특징이 도면에 도시된 예시적인 실시예를 참조하여 설명될지라도, 특징은 많은 대안 형태의 실시예에서 구현될 수 있음을 이해하여야 한다. 그 밖에, 임의의 적합한 크기, 형상 또는 유형의 요소 또는 물질이 사용될 수 있다.

장치(10)는 예를 들어 전화 애플리케이션을 포함하는 통신 디바이스와 같은 이동형 휴대 장치일 수 있다. 도시된 예에서, 장치(10)는 카메라 및 카메라 애플리케이션을 포함하는 스마트폰이다. 장치(10)는 부가적으로 또는 대안으로 인터넷 브라우저 애플리케이션, 비디오 레코더 애플리케이션, 음악 플레이어 및 레코더 애플리케이션, 이메일 애플리케이션, 네비게이션 애플리케이션, 게임 애플리케이션 및/또는 임의의 다른 적합한 전자 디바이스 애플리케이션을 포함할 수 있다. 대안의 예시적인 실시예에서, 장치는 스마트폰이 아닐 수 있다.

도 2 내지 도 3을 또한 참조하면, 본 예시적인 실시예에서, 장치(10)는 하우징(12), 터치 스크린(14), 수신기(16), 송신기(18), 제어기(20), 충전 배터리(26) 및 적어도 두 개의 카메라(30, 32)를 포함한다. 그러나 이러한 모든 기능부는 아래에서 설명되는 특징을 구현하는데 반드시 필요한 것은 아니다. 제어기(20)는 적어도 하나의 프로세서(22), 적어도 하나의 메모리(24) 및 소프트웨어(28)를 포함할 수 있다. 하우징(12) 내부의 전자 회로는 제어기(20)와 같은 컴포넌트를 갖는 적어도 하나의 인쇄 배선 기판(printed wiring board, PWB)을 포함할 수 있다. 수신기(16) 및 송신기(18)는 장치(10)가 예를 들어 이동 전화 기지국과 같은 무선 전화 시스템과 통신할 수 있게 하는 메인(main) 통신 시스템을 형성한다.

이러한 예에서, 장치(10)는 장치의 배면(13)에 위치하는 카메라(30), 장치의 반대쪽 전면에 위치하는 전방 카메라(32), LED(34) 및 플래시(flash) 시스템(36)을 포함한다. LED(34) 및 플래시 시스템(36)은 장치의 배면 쪽에서 볼 수 있으며 카메라(30)를 위해 마련된다. 카메라(30, 32), LED(34) 및 플래시 시스템(36)은 제어기(20)에 연결되어 제어기(20)가 이들의 동작을 제어할 수 있도록 한다. 대안의 예시적인 실시예에서, 배면에는 하나 이상의 카메라가 포함될 수 있고 및/또는 전면에는 하나 이상의 카메라가 포함될 수 있다.

장치(10)는 이어피스(earpiece)(40)로서 제공된 음향 변환기(sound transducer) 및 스피커(42)로서 제공된 음향 변환기를 포함한다. 하나 이상의 스피커가 제공될 수 있다. 장치(10)는 마이크로폰(38, 39)으로서 제공된 음향 변환기를 포함한다. 대안의 예에서, 장치는 두 개 이상의 마이크로폰을 포함할 수 있다. 마이크로폰(38, 39)은 오디오 신호가 좌측 채널 및 우측 채널을 재현할 수 있도록 하우징(12)의 좌측 면 및 우측 면에 각기 배치된다. 그러나 좌측 채널 및 우측 채널만 이외의 부가적이거나 대안적인 채널이 제공될 수도 있다. 이와 같은 예에서, 마이크로폰(38, 39)은 하우징(12)의 하단부에 위치되지만, 하우징 상의 임의의 적절한 위치에 배치될 수도 있다.

도 4를 또한 참조하면, 기능부를 포함하는 한 유형의 실시예가 설명될 것이다. 장치(10)의 전자 회로는 두 개 이상의 마이크로폰(38, 39)으로부터 신호를 수신하고 오디오 신호(44', 45')를 좌측 및 우측 출력 채널로서 생성하도록 구성된다. 이를 위해 장치(10)의 전자 회로는 다중 모드 오디오 프로세서(70)를 형성한다. 오디오 프로세서(70)는 상이한 모드를 사용하여 신호(44, 45)를 처리하고 상이한 종류의 신호(44', 45')를 생성할 수 있다. 다중 모드 오디오 프로세서(70)가 사용하는 모드는 적어도 부분적으로 어느 카메라(30, 32)가 사용되는지에 기초하여 결정되거나 선택될 수 있다.

담화(speech) 및 주변 소리(ambient sound)는 종종 화상 통화(video call) 또는 화상 녹화(video recording) 시 담화 및 주변 소리의 다양한 역할을 통해 상이한 서로 다른 상대적인 중요성을 갖는다. 이러한 오디오 신호가 가장 잘 표현되고 렌더링되거나 캡처되는 방법은 비디오 뷰포인트(viewpoint)에 따라 달라질 수 있다. 한 유형의 예에서, 본 명세서에 기술된 특징은 사용된 카메라 뷰(view)에 기초하여 디폴트 오디오 표현 및 렌더링 모드를 제공하는데 사용될 수 있다. 다중 마이크로폰 공간 캡처(multi-microphone spatial capture)를 이용함으로써, 담화와 주변 오디오 신호 간의 개선된 분리가 달성될 수 있다. 이에 따라, 사용되는 카메라 뷰에 더 잘 부합하고 적응되는 더 나은 품질과 더 자연스러운 방식으로 오디오를 렌더링하는 것이 가능하다. 렌더링은 또한 이야기하는 사람(talker)이 장면의 일부가 되는 모드 또는 이야기하는 사람이 전체 장면으로부터 분리되어 내레이터(narrator)로서 작용하는 신규의 화상 통화 모드를 구현할 수 있다.

예컨대 화상 통화 중에 예를 들어 마이크로폰에 의해 픽업된 소리는 오디오 담화 신호 및 오디오 주변 신호로 분리될 수 있다. 이러한 신호 유형은 비디오 전화(video telephony)와 화상 녹화 모두의 범주에서 고려된다는 것을 이해하여야 한다. 따라서, 본 명세서에서 설명된 특징은 화상 전화로 한정되지 않는다.

화상 통화(또는 화상 녹화)를 할 때, 디바이스(또는 레코딩 시스템의 일부로서의 디바이스)에는 하나 이상의 카메라가 활용될 수 있다. 특히, 도 1 내지 도 3에 도시된 예에서, 전방 카메라(32)는 일상적으로 사용자의 얼굴을 캡처하고 메인 카메라(30)는 사용자 앞에 있는 것을 캡처하는데 사용될 수 있다.

하나의 양태는 공간 다중 마이크로폰 캡처를 활용함으로써 이와 같은 프레임워크에서 담화와 주변 신호를 더 잘 분리하는 것 및 이에 따라 각각의 "사용" 사례에서 더 중요한 것으로 간주될 수 있는 소리에 집중할 수 있게 하는 것이다. 예를 들어, 전방 카메라(32)가 사용될 때, 카메라의 직접 뷰(direct view)로부터 생기는 신호는 보존되는 메인 신호로서 취급될 수 있는 반면, 다른 신호의 이득(임장감(ambience))은 낮아질 수 있다. 이것은 사용자가 (카메라(32)의 사용을 선택함으로써 지시되는 것처럼) 그의/그녀의 얼굴을 보여주려고 선택할 때 담화 신호가 가장 중요한 신호일 것으로 예상되기 때문에 그렇게 될 수 있다. 다른 한편, 메인 카메라(30)가 사용될 때 (현재 아마도 십중팔구 디바이스(10)의 후방에 있는 이야기하는 사람을 포함하는) 모든 음원은 관심의 대상이 될 것으로 예상될 수 있다.

본 명세서에서 설명되는 바와 같은 특징에 따르면, 화상 통화 시 전방 카메라(32) 또는 메인 카메라(30)의 활용은 사용되는 카메라에 기초하여 선호하는 캡처 모드를 트리거하는데 사용될 수 있다. 특정 카메라의 활용은 부가적으로 캡처 모드의 디폴트 설정하기를 트리거할 수 있다. 하나의 유형의 예시적인 실시예에서, 캡처 모드의 디폴트 설정은 또한 사용자에 의해 조정될 수 있다.

다시 도 4를 참조하면, 오디오 프로세서(70)는 사용된 카메라에 기초하여 출력 신호에서 임장감 신호의 레벨을 제어하도록 구성된다. 이것은 음성 활성도 검출(voice activity detection, VAD) 또는 얼굴 검출을 기초로 할 수도 있다. 그래서, 본 명세서에 기술된 특징은 (전방 카메라(32)가 사용될 때) 담화 신호 코딩의 충실도를 자동으로 개선할 수 있게 하고, 그리고 예를 들어 사용자가 메인 카메라(30)를 사용하거나 메인 카메라(30)로 전환할 때 예컨대 동일한 레벨의 담화 및 주변 신호를 코딩하는 것을 자동으로 다르게 적응할 수 있게 하는데 사용될 수 있다.

도 5를 또한 참조하면, 예시적인 방법은 블록(60)에 의해 지시된 바와 같이 장치의 마이크로폰으로부터 오디오 신호를 생성하는 단계와, 블록(62)에 의해 지시된 바와 같이 장치의 복수의 카메라 중 어느 카메라(들)가 사용을 위해 선택되었는지를 결정하는 단계와, 사용을 위해 선택된 결정된 카메라(들)에 기초하여, 처리될 오디오 신호에 대한 오디오 처리 모드를 선택하는 단계를 포함할 수 있으며, 여기서 오디오 처리 모드는 블록(64)에 의해 지시된 바와 같이 사용을 위해 선택된 결정된 카메라(들)에 기초하여 오디오 신호를 적어도 부분적으로 자동 조정한다. 오디오 신호를 생성하는 것은 마이크로폰의 전기적 출력 신호가 처리되는 오디오 캡처/기록을 지칭한다.

전술한 바와 같이, 얼굴 추적 방법은 캡처를 실세계 시나리오에 적응시키는 것을 더욱 향상시키는데 활용될 수 있다. 예를 들어, 얼굴 검출 정보는 도 4에 도시된 신호(58)에 의해 제공될 수 있다. 일 예에서, 이야기하는 사람의 얼굴이 전방 카메라(32)의 뷰에서 발견될 수 없을 때, (뷰 내에 있지 않은) 디바이스의 전방에서의 음원의 주변 이득은 낮아지지 않을 수 있다. 그러한 음원은 사실 이야기하는 사람이 될 수 있다. 담화 신호의 존재는 음성 활성도 검출(VAD) 또는 전술한 바와 같은 유사한 기술을 사용함으로써 부가적으로 또는 대안적으로 검출될 수 있다.

도 6을 또한 참조하면, 이야기하는 사람(주 담화 신호)과 주변 신호의 더 명확한 분리를 위해 사용될 수 있는 다른 예시적인 실시예가 설명될 것이다. 이러한 접근법의 사용 사례는 전체 장면으로부터 "이야기하는 사람을 부상시키는" 것으로 그리고 사용자를 내레이터로 사용하는 것으로 설명될 수 있다. 이 경우, 이야기하는 사람의 방위는 전방 카메라(32)와 디바이스의 메인 카메라(30) 사이에서 전환이 이루어질 때의 비디오 영상(video footage)의 방향을 따른다. 사실, 이것은 이야기하는 사람이 임장감의 일부로 간주되고 청취자가 거기에 있는 것처럼 현장을 경험하고 싶어할 때 자연스럽고 바람직한 렌더링 방식인 것으로 간주될 수 있다. 그러나 발명자는 화상 전화에 잘 적용되는 다른 유형의 렌더링에도 익숙하다. 전형적인 예로는 말하고 있는 사람의 머리(말하고 있는 머리)를 보여주는 것을 포함하는 TV 뉴스 프레젠테이션 (또는 자연 기록물과 같은 프로그램) 및 이야기하는 사람이 전체 장면 중의 한 요소라기보다 내레이터로 등장하는 다른 비디오 영상일 것이다. 이러한 시나리오 자체는 화상 전화에 아주 자연스럽게 적합하며, (화상 통화에서 현재 전형적인 오디오 기술인) 모노 오디오 렌더링(monaural audio rendering) 또한 이 원리를 따르는 것으로 간주될 수 있다: 이야기하는 사람의 위치는 비디오 영상 내의 뷰가 변할 때 어느 정도 고정된 채로 유지된다.

카메라 중 하나(전방 카메라(32))는 전형적으로 대화자를 캡처하는데 주로 사용되고 다른 카메라(들)(후방 카메라(30))는 풍경을 캡처하는데 사용된다. 그러므로 대화자로부터의 음성은 전방 카메라(32)에 링크되고, 임장감 소리는 후방 카메라(30)에 링크된다. 그러므로 전방 카메라가 사용될 때는 대화자의 음성의 공간 이미지가 비디오에 대응하고 후방 카메라가 사용될 때는 임장감의 공간 이미지가 비디오에 대응한다면 이는 바람직할 것이다.

이러한 예시적인 실시예에서, 공간 다중 마이크로폰 캡처는 디바이스의 각 측에서 신호 사이를 분리하는데 사용된다. 최소한, 전방 카메라 측 및 디바이스의 메인 카메라 측에 관련하는 소리 및 음원은 분리된다. 또한, 주 담화 신호는 전방 카메라 측 주변 신호로부터 분리된다. VAD, 잡음 억제, 얼굴 추적, 빔 형성, 오디오 객체 분리 등과 같은 오디오 및 비디오 처리 방법이 활용될 수 있다.

좌측 및 우측 마이크로폰(38, 39)은 하나의 카메라에 대해 오디오를 정확하게 캡처하기 위해 장치 위에 배치되는데, 즉, 카메라의 좌측 및 우측 각각에 배치된다. 하나의 유형의 예에서, 대화자(들)에 초점을 맞춘 모노 신호가 생성된다. 다른 유형의 예에서, 대화자(들)에 초점을 맞춘 스테레오 신호가 생성된다. 이러한 예에서, 마이크로폰으로부터의 신호(44, 45)는 회로(50)에 의해 모노 신호(또는 스테레오 신호)(48)를 생성하는데 사용된다. 이것은 예를 들어 카메라에 의해 캡처될 때 말하고 있는 사람에 초점을 맞춘 모노 신호를 생성하는 국제 출원 제 PCT/IB2013/052690 호(국제 공개 제 WO 2014/162171 A1 호)에 기술된 장치 및 방법의 사용을 포함하며, 위 국제 출원은 그 전체가 본 출원에 참고로 포함된다. 그러나, 담화를 주변 소리로부터 분리하는 임의의 적절한 시스템이 제공될 수 있다.

이후 회로(52)에 의해 지연된 오디오 신호(44, 45)는 회로(54)에 의해 감쇠된다. 제어기(20)는 신호(44, 45)의 생성 중에 어느 카메라(30 또는 32)가 사용되고 있는지를 결정하고, 카메라 표시 신호(56)를 회로(54)에 제공하도록 구성된다. 회로(54)는 신호(44, 45)의 둘 이상의 오디오 처리 모드를 제공하도록 구성된다. 오디오 처리 모드의 선택은 적어도 부분적으로 카메라 표시 신호(56)에 기초한다. 따라서, 회로(54)는 어느 카메라(30, 32)가 사용되고 있는지에 기초하여 신호(44, 45)의 감쇠를 변경하도록 구성된다. 그런 다음 출력 신호(44', 45')는 모노 신호(들)(48)와 조합되어 출력 신호(46, 47)를 생성한다.

회로(54)에서 출력되는 임장감 신호의 레벨은 사용된 카메라에 따라 변동되며, 임장감 신호는 초점을 맞춘 담화 신호와 혼합된다. 대화자와 직면하는 카메라(전형적으로 전방 카메라(32))가 사용될 때, 담화 신호 공간 이미지는 일정하게 유지되고, 담화 공간 이미지는 (전방 카메라(32)에 의해 촬영된) 비디오와 일치하며, 임장감 신호 공간 이미지는 감쇠될 수 있다. 대화자로부터 멀리서 대면하는 카메라(전형적으로 후방 카메라(30))가 사용될 때, 임장감 신호 공간 이미지는 일정하게 유지되고, 임장감 공간 이미지는 비디오와 일치하며, 담화 신호 공간 이미지는 일정하게 유지된다(또는 전술한 모드에서 임장감 신호에 비해 덜 감쇠될 수 있다).

일부의 다른 예시적인 실시예에서, 적어도 두 개의 카메라 뷰 사이에서 뷰가 전환될 때 신호의 스테레오-채널 또는 방향 반전이 이루어질 수 있다. 예를 들면, 예컨대 채널 간의 간격을 좁히고(모든 방향으로 모노 신호까지) 그런 다음 간격을 풀(full) 스테레오로 다시 확장함으로써 그러한 반전(도 16 및 도 17 참조)이 이루어질 수 있다(이 경우 왼쪽 및 오른쪽 채널이 반전된다).

도 7을 또한 참조하면, 두 개 이상의 채널로 구현을 확장하는 것도 가능하다. 예를 들면, 대화자의 소리는 사용된 카메라에 관계없이 그의/그녀의 목소리에 초점을 맞춘 다중 마이크로폰 기술을 사용하여 캡처될 수 있으며, 임장감은 5.1 사운드를 생성하는 다중 마이크로폰 기술을 사용하여 캡처될 수 있다. 5.1 캡처는 카메라 중 하나, 전형적으로는 이동 디바이스의 후방 측의 메인 카메라(30)의 방향으로 고정되어 정렬될 수도 있다. 전형적으로 이 카메라(30)는 대화자가 풍경 또는 사용자 앞의 시야를 보여주기를 원할 때 사용된다. 그런 다음 주변 소리 및 음성과 같은 두 신호는 사용된 카메라에 종속하는 그리고 대화자의 머리가 카메라(30 또는 32)에서 보일 수 있는지에 종속하는 방식으로 함께 혼합될 수 있다. 전형적으로, 대화자가 카메라(30 또는 32)에서 보일 때, 임장감 신호는 감쇠된다.

일부 실시예에서, 비디오 영상은 픽처-인-픽처(picture-in-picture, PIP) 렌더링을 이용한다. 이러한 경우에, 담화와 주변 오디오의 분리 및 이야기하는 사람의 정적 방위를 유지하는 것은 종종 쾌적한 렌더링을 제공한다. 따라서 PIP 사용 사례는 위에서 논의한 "내레이터" 모드와 동일하게 작동할 수 있다. 일부 다른 실시예에서, 오디오 모드는 픽처-인-픽처 비디오의 변화에 적응할 수 있다. 특히, 메인 카메라가 주 화상을 제공하고 이차 (PIP) 화상이 전방 카메라에서 생성되는 경우에는 메인 카메라 뷰만을 가지고도 "내레이터" 모드를 사용하는 경우와 유사하다. 다른 반면, 주 화상과 PIP가 반전될 때, 디폴트 동작은 공간 주변 소리를 적어도 약간 감쇠시키는 것일 수 있다. 다른 실시예에서, 담화 신호의 스테레오 또는 다중 채널 렌더링은 픽처-인-픽처 비디오가 보일 때 모노로 다운 믹싱될 수 있다. 이것은 특히 PIP 비디오가 전방 카메라에서 제공되는 때의 사례이다.

다양한 예시적인 실시예에서, 디바이스 방위(세로 방향, 가로 방향)에 따라 좌측 및 우측 신호에 대응하는 마이크로폰을 선택하게 될 수 있다. 이것은 다른 세트의 마이크로폰 또는 다른 쌍의 마이크로폰이 디바이스의 방위에 따라 왼쪽 및 오른쪽에 해당한다는 사실에서 나온다.

도 8 내지 도 9를 또한 참조하면, 오디오 소스 방향(공간 이미지)과 비디오가 항상 일치하도록 오디오 신호를 수정하는 것이 또한 가능하다. 이것은 카메라(30, 32)가 볼 수 있는 영역 사이에 갭(72, 74)이 있는 한 작동하며, 오디오 소스 방향을 이동하여 이러한 갭에 들 때는 방향이 변경될 수 있다. 물론 소스가 카메라에서 볼 수 있을 때 오디오 소스 방향도 역시 변경될 수 있지만, 이것은 공간 이미지와 비디오 간에 불일치를 유발하다. 전형적인 시나리오에서, 주변 오디오 소스의 방향은 수정될 수 있으며, 대화자는 전형적으로 덜 이동하며 단 한 대의 카메라의 뷰에 계속 남아 있는다.

본 명세서에서 기술된 바와 같은 특징은 본 출원에서 그 전체가 참고로 포함된 미국 특허 공개 제 US 2013/0044884 A1 호에 개시된 바와 같은 이동 디바이스에서 단 세 개의 마이크로폰만을 사용하여 5.1 신호를 캡처하는데 사용할 수 있다. 다른 출력에 대해서는 다른 패닝 기능을 사용하는 것도 가능하다. 이러한 실시예(도 8 참조)에서, 스테레오 오디오가 사용된다. 이 실시예(도 8 참조)는 5.1 오디오와 함께 작동하지 않을 것인데, 왜냐하면 오디오 객체의 재생 방향은 카메라가 (전방 카메라에서 메인 카메라로 또는 그 반대로) 전환될 때 후방에서 전방으로 전환되어야 하기 때문이다. 세 개의 마이크로폰에 의해 캡처된 신호는 먼저 사이드 정보 알파와 함께 미드(Mid) 및 사이드(Side) 신호로 변환된다. 알파(α_b)는 각 주파수 대역(b)의 우세한 소리 방향을 나타낸다. 사용자가 전방 카메라와 후방 카메라 사이를 전환할 때일지라도 소리 이미지가 정적인 채로 남아 있는 오디오 신호를 생성하기 위해, 알파는 다음과 같은 방식으로 수정될 수 있다(간략히 하기 위해 대역 지수(b)는 생략된다).

이것은 오디오 소스 방향이 수정되어 도 9에서 영역(72, 74)에 속하게 되는 결과를 가져온다.

바로 좌측 및 우측의 물체는 좌측 및 우측 양측 모두로부터 재생될 수 있고, 그러므로 물체에는 미지의 방향의 표기법인 방향(Φ) 이 주어진다. 미지의 방향 섹터의 영역은 -A<α≪A 및 180°-A<α≪180°+A이다. A는 전형적으로 45°이지만, 예컨대 다른 패닝 법칙을 사용될 때에는 다른 A의 값이 사용될 수도 있다. 특히 A=45°이면, 사용될 수 있는 패닝 법칙의 한 예는 잘 알려진 사인-코사인 패닝 법칙(sine-cosine panning law)이다. 좌측 및 우측 출력 채널에 패닝된 중간 채널은 다음과 같다.

이후, 상관을 제거한 사이드 신호는 좌측 채널과 우측 채널에 추가되어 전송되고 재생된다.

전술한 예에서, 디바이스의 좌측 또는 우측 바로 옆의 오디오 객체는 좌측 및 우측 모두로부터 재생되어야 하며, 그렇지 않으면 카메라가 전환될 때 이들 오디오 객체의 재생 방향이 전환된다. 이것은 이들 객체가 어느 카메라에서도 보이지 않기 때문에 큰 문제는 아니다. 도 11을 또한 참조하면, 대안으로, (전면 또는 배면에 있는) 카메라의 일 측 상에 공간 오디오 이미지를 고정하면서 카메라가 전환될 때 세 개의 다른 측 상의 오디오 객체의 재생 방향을 좌측에서 우측으로 그리고 그 반대로 하는 것에 초점을 맞추는 것이 가능하다. 이것은 오디오 객체 재생 위치를 카메라의 일 측상의 한 지점으로 압축하면서 그 위치를 다른 쪽에서는 "있는 그대로" 유지시킴으로써 성취될 수 있다.

실제로, 이것은 전방 카메라 측에서, 전방 카메라에서 볼 수 있는 모든 오디오 객체가 객체의 오디오를 항상 중앙으로부터 재생하도록 수행될 것이다. 보통, 사람은 카메라 쪽을 향한 정면에 있을 뿐이며, 이에 따라 사람의 음성의 방향을 중앙으로 집약하는 것이 자연스럽다. 디바이스의 다른 쪽에 있는 오디오 객체는 후방 카메라에서 보인 방향에 대응하는 방향으로부터 재생될 것이다. 이것은 α를 도 10에 예시된 함수로 수정하면서 다른 처리를 도 8에서와 같이 유지하는 것으로 수학식 1을 대체함으로써 이루어질 수 있다. 도 10은 α의 수정을 묘사하는 곡선이다.

도 12를 또한 참조하면, 대안의 예는 카메라 사용을 카메라 사이에서 또는 카메라 중에 전환할 때 서서히 청각 공간 이미지를 회전시키는 것이다. 예를 들어, 사용자는 먼저 제 1 카메라로 비디오를 찍으며, 오디오 공간 이미지는 제 1 카메라와 일치한다. 그런 다음 사용자는 제 2 카메라로 전환한다. 전환 후 오디오 공간 이미지는 제 2 카메라와 일치 할 때까지 (서서히) 회전된다.

전술한 예는 두 개의 카메라를 갖는 디바이스에 초점을 맞추었다. 그러나 본 명세서에서 설명된 특징은 두 개보다 많은 카메라를 갖는 장치로 용이하게 확장될 수 있다. 카메라는 단일 평면에 있을 필요는 없다. 본 명세서에서 제시된 것과 같은 원리는 단일 평면에 있지 않은 카메라에 사용될 수 있다. 본 명세서의 대안의 실시예는 이동 전화로 제한되지 않는다. 둘 이상의 카메라가 있는 임의의 디바이스가 사용될 수 있다. 오디오 객체 분리 또는 방향성 마이크로폰을 추가하여 담화와 주변 객체를 분리하는 것이 가능하다. 예를 들어, 도 6과 관련하여 전술한 실시예와 유사하게, 특징은 도 13 및 도 14와 관련하여 다음과 같은 두 가지 방식으로 구현될 수 있다. 도 13은 오디오 객체 분리를 사용하는 것을 도시한다. 오디오는 블록(76)에 의해 나타낸 바와 같이 전방 및 후방 카메라로부터의 객체로 분리되고, 후방 카메라(30) 측으로부터의 객체는 블록(78)에서 나타낸 바와 같이 어느 카메라가 사용되는지에 따라 감쇠될 수 있으며, 신호는 조합되어(80) 출력 오디오(82)를 출력할 수 있다. 도 14는 방향성 마이크로폰을 사용하는 것을 도시한다. 후방 카메라의 좌측 및 우측으로 지향된 마이크로폰으로부터의 신호(44, 45)는 블록(84)에 의해 나타낸 바와 같이 어느 카메라가 사용되는지에 기초하여 감쇠될 수 있고, 전방 카메라(32)와 동일한 방향으로 지향된 마이크로폰으로부터의 신호(85)는 (84)로부터 출력된 신호와 조합되어(86, 87) 좌측 및 우측 채널(46, 47)을 생성한다.

오디오 객체 분리는 또한 도 8 내지 도 11과 관련하여 전술한 것과 유사한 실시예를 구현하는데 사용될 수 있다. 다중 마이크로폰 신호를 오디오 객체 및 오디오 객체의 궤적으로 변환하는 방법이 사용될 수 있다. 궤적은 각 객체의 시간 종속 방향(time dependent direction)이다. 방향은 전형적으로 디바이스와 관련하여 각도 (또는 풀 3D 궤적의 경우에는 두 개의 각도, 방위각(azimuth) 및 고도(elevation))로서 표시된다. 그 다음 각 객체의 각도는 수학식 1 또는 도 10을 사용하여 수정될 수 있다. 예를 들어, 이러한 구현의 예시적인 블록 도면의 도 15를 참조하자. 마이크로폰으로부터의 신호는 예를 들어 그 전체가 본 출원에 참조로 포함되는 국제 특허 공보 제 WO 2014/147442 A1 호에 기술된 바와 같은 특징을 사용하는 것과 같이, 블록(88)에 의해 나타낸 것처럼 객체 및 객체의 시간 종속 방향으로 분리될 수 있다. 블록(90)에 의해 나타낸 바와 같이 (88)로부터 출력된 신호 중 일부 신호의 방향은 수정될 수 있다. 블록(92)에 의해 나타낸 바와 같이, 예컨대, 2004년 10월 28-31일, 미국 캘리포니아 샌프란시스코, AES 117th 협의회에서, Sadek, C. Kyriakakis의 "A Novel Multichannel Panning Method for Standard and Arbitrary Loudspeaker Configurations(표준 및 임의의 라우드스피커 구성을 위한 새로운 다중 채널 패닝 방법)"에 개시된 것과 같이, 객체를 수정된 방향으로 패닝함으로써 다중 채널 신호를 생성하는 합성이 사용될 수 있다.

본 명세서에 기술된 특징은 품질을 개선하고 관련 신호에 초점을 맞추기 위해 카메라 선택에 기초한 코딩 모드의 자동 적응에 사용될 수 있다. 이야기하는 사람/대화자/사용자가 전체 장면의 일부가 되는 대신 내레이터로서 역할을 하는 영상 전화의 새로운 사용 사례가 제공될 수 있다. 본 명세서에 기술된 특징은 영상 전화, 공간 오디오 캡처, 오디오 프로세싱, 코딩 및 렌더링에 사용될 수 있다.

통상의 영화에서는 카메라 각도 또는 뷰포인트가 변경되면, 스크린 상에서 가시적인 오디오 소스의 위치만 변한다. 화면에 보이지 않는 오디오 소스는 카메라 뷰포인트가 변경될 때 그의 방향을 변경하지 않는다. 본 명세서에 기술된 특징은 화면/디스플레이상에 보이지 않는 오디오 소스의 방향/위치를 변경할 수 있다. 통상의 영화 제작에서, 카메라의 뷰포인트가 변경될 때 오디오 소스 위치를 일정하게 유지하고 비디오와 여전히 일치시키기 위해 많은 다른 방법이 사용된다. 그러나 이러한 방법은 전적으로 수동적이며 사후 처리 중에 별도로 수행된다.

저 비트 레이트 스피치 코딩(low bit rate speech coding)은 전통적으로 이야기하는 사람으로부터 청취자에게로 이해 가능한 담화 신호를 전달하는데 집중되어왔다. 이런 목표의 실현 가능한 하나의 암시는 진행 중인 담화 이외의 모든 신호가 억제되거나 제거될 수 있는 잡음으로 간주된다는 것이다. 그러나 고품질의 서비스에서, (담화 신호의 명료도를 유지하는 아이디어는 저 비트 레이트 애플리케이션에서와 마찬가지로 분명히 관련성이 있지만) 청취자가 주변 정보를 재생하기를 원할 때 대부분의 다른 신호를 고려하려는 아이디어가 점점 많아지고 있다. 그러므로 최우선 순위는 담화이지만 주변 신호도 관심 대상이다. 사실, 경우에 따라서는 주변 신호의 중요성이 담화 신호의 중요성을 적어도 순간적으로 능가할 수 있다.

하나 이상의 카메라가 있는 이동 디바이스를 가지고 비디오가 녹화될 때(그리고 아마도 화상 통화로 전송될 때), 사용자는 녹화 중에 카메라를 바꿀 수 있다. 이것은 통상적으로 카메라의 뷰포인트를 변경하지만, 마이크의 위치는 바뀌지 않는다. 그러므로 통상의 디바이스의 경우, 오디오 소스 위치와 적어도 하나의 뷰포인트에서의 비디오 간에 불일치가 존재한다. 첫 번째로 간단한 해결책은 오디오 소스 위치(즉, 오디오 공간 이미지)를 하나의 카메라에 고정하는 것이지만, 이것은 다른 모든 카메라에 대해 공간 이미지가 잘못될 것임을 의미할 것이다. 두 번째로 간단한 해결책은 각 카메라마다 사용된 마이크로폰을 다르게 재할당하는 것이지만, 사용된 카메라가 바뀔 때마다 오디오 신호를 바꾸는 것은 성가신 일이 될 수 있다. 본 명세서에서 설명된 기능은 상황을 개선하는 몇 가지 방법을 제안한다.

도 16을 또한 참조하면, 본 명세서에서 설명된 바와 같은 일부 특징을 시각화하는 데 도움이 되는 도면이 도시된다. 위에서 언급한 것처럼, 화상 통화 또는 비디오 녹화 동안 오디오 소리는 담화 및 주변 신호로 분리될 수 있다. 화상 통화 또는 녹화할 때, 디바이스(10) (또는 레코딩 시스템의 일부로서의 디바이스)에서 흔히 하나 이상의 카메라가 활용된다. 전방 카메라(32)는 사용자(100)의 얼굴을 캡처할 수 있고, 메인 카메라(30)는 예를 들어 (이동) 통화 중에 디바이스를 사용하면서 사용자가 보는 것의 대부분을 캡처하는데 사용될 수 있다. 도 16은 이야기하는 사람(100)로부터의 이야기하는 사람/대화자 신호 및 주변 신호가 도 1에 도시된 두 개의 마이크로폰(38, 39)에 의해 어떻게 캡처되고 그런 다음 (아마도 모노 녹음 및 렌더링뿐만 아니라 헤드폰 청취하는 것보다 양호한 것으로 가정되는) 그러한 시스템에서 (아마도 예컨대 화상 통화 중에 다른 디바이스(10')를 사용하는 동일한 사람(100) 또는 다른 사람(들)일 수 있는) 사용자(100')에게 렌더링(재생)될 수 있는지를 개념적이고 단순화된 레벨로 예시한다. 더 단순한 시스템은 카메라 뷰의 변경에 전혀 적응하지 못할 것이다.

도 16에서 알 수 있는 바와 같이, 이야기하는 사람(100)은 도면 영역(102)으로 표시된 바와 같이 전방 카메라가 사용되고 있는지 또는 도면 영역(104)으로 표시된 바와 같이 디바이스의 메인 카메라가 사용되고 있는지에 관계없이 항상 전체 장면/임장감의 일부로서 간주된다. 그래서 마이크로폰에 의해 캡처된 (이야기하는 사람 및 주변의) 모든 소리에 대해 좌측은 좌측이고 우측은 우측이며, 이야기하는 사람 및 주변 신호의 재생 동안의 위치만이 청취자(100')에 대해 (자연스러운 방식으로) 변하는 것으로 보여준다.

하나의 양태는 공간 다중 마이크로폰 캡처를 이용함으로써 이러한 프레임워크에서 담화 및 주변 신호를 더 잘 분리하고, 이에 따라 각 사용 사례에서 더 중요하게 고려될 수 있는 소리에 집중할 수 있게 하는 것이다. 따라서, (102)로 표시된 바와 같이 전방 카메라가 사용될 때, 카메라의 직접 뷰로부터 나오는 신호는 보존되는 주 신호로서 취급될 수 있는 반면, 다른 신호(임장감)의 이득은 낮아질 수 있다. 이것은 사용자가 자신의 얼굴을 보여 주기로 선택할 때 담화 신호가 가장 중요한 신호라고 예상되기 때문에 그렇게 될 수 있다. 다른 한편, (104)로 표시된 바와 같이 메인 카메라가 전체 장면을 보여주기 위해 사용될 때, (아마도 현재 십중팔구 디바이스 뒤에 있는 이야기하는 사람을 포함한) 모든 음원이 관심의 대상이 될 것으로 예상될 수 있다.

예를 들어, 그 전체 내용이 본 출원에 참조로 포함되는 PCT 공개 제 WO 2003/093187 A2 호에 설명된 기술은 전술한 분리를 성취하는데 이용될 수 있다. 그러나 본 명세서에 설명된 바와 같이, 영상 통화에서 전방 카메라 또는 메인 카메라의 활용은 복수의 모드로부터 바람직한 오디오 캡처 모드를 트리거하는데 사용될 수 있다. 더 일반적으로 말해서, 특정 카메라의 활용은 사용자에 의해 선택적으로 조정될 수 있는, 캡처 모드의 디폴트 설정을 트리거할 수 있다. 또한, 얼굴 추적 방법은 캡처를 실세계 시나리오에 적응시키는 것을 더 향상시키는데 활용될 수 있다. 특히, 이야기하는 사람의 얼굴이 전방 카메라의 뷰에서 찾을 수 없을 때, 디바이스의 앞에 있는 (그러나 뷰에 있지 않은) 음원의 주변 이득은 낮아지지 않을 수 있다. 그러한 음원은 실제로 이야기하는 사람일 수 있다. 담화 신호의 존재는 예를 들어, 음성 활성도 검출(VAD) 또는 유사한 기술을 사용함으로써 검출될 수 있다.

따라서, 실시예는 (전방 카메라가 사용될 때) 담화 신호 코딩의 개선된 충실도 및 (사용자가 메인 카메라로 전환할 때) 담화 및 주변 신호를 동일한 레벨로 코딩하는 적응성을 자동으로 가능하게 할 수 있다.

청구범위 제 6 항과 관련하여 전술한 바와 같이, 하나의 유형의 실시예는 이야기하는 사람(주 담화 신호)과 주변 신호의 더 구체적인 분리를 가능하게 한다. 도 16에서 알 수 있는 바와 같이, 이야기하는 사람의 방위는 (102)로 예시된 바와 같은 전방 카메라와 (104)로 예시된 바와 같은 디바이스 주 카메라 사이에서 전환이 이루어질 때 비디오 영상의 방위를 따른다. 실제로 이것은 이야기하는 사람이 임장감의 일부로 간주되고 청취자가 그곳에 있는 것처럼 장면을 경험하기를 원할 때 자연적이고 바람직한 렌더링 방법으로 고려될 수 있다.

이러한 실시예에서, 공간 다중 마이크로폰 캡처는 각 디바이스 측 상의 신호끼리를 분리하는데 사용될 수 있다. 전방 카메라 측 및 디바이스 메인 카메라 측에 관련한 소리 및 소리의 소스는 분리될 수 있다. 또한, 주 담화 신호는 전방 카메라 측 주변 신호로부터 분리될 수 있다.

예시적인 실시예는 작동 중인 카메라의 전환에 관계없이 담화 신호의 좌측 및 우측 채널(또는 임의의 수의 채널)을 디바이스에 대해 정적으로 유지할 수 있다. 반면에, 주변 신호는 카메라 뷰의 전환에 의해 트리거될 때 전환될 수 있다. 전방 카메라가 이용될 때, 따라서 이야기하는 사람은 유지되고 임장감은 (적어도 약간) 억제될 수 있다. 뷰가 메인 카메라로 전환될 때, 이야기하는 사람은 이전의 방위로 유지될 수 있지만, 주변 신호는 새로운 카메라 뷰를 따르며 억제는 없는 것으로 (또는 다른 디폴트 상태로) 된다. 도 17은 캡처 및 렌더링을 하이 레벨로 예시한다.

일부 실시예에서, 담화 신호는 디바이스가 다중 채널 오디오를 캡처하지만 모노(예를 들어, 발언된 단어가 모노 헤드셋 또는 마이크로폰에 의해 캡처된 것)일 수 있다. 이러한 실시예에서, 동일한 분리 원리 및 주변 신호의 억제가 사용될 수 있다. 담화 신호는 (미리 정의된 패닝을 적용받는) 모노 소스로서 인지될 수 있거나 또는 담화 신호는 다른 마이크로폰 신호로부터의 가청 신호가 담화 신호의 지향성 다중 채널 렌더링을 제공하기 위해 활용될 때, 지향성 신호가 된다. 다양한 실시예에서, 디바이스 방위(세로 방향, 가로 방향)는 예를 들어 좌측 및 우측 신호에 대응하는 마이크로폰을 선택하게 할 수 있다. 이것은 디바이스 방위에 따라 다른 세트의 마이크로폰 또는 다른 쌍의 마이크로폰이 좌측 및 우측에 해당한다는 사실에서 나온다.

예시적인 방법은 장치의 마이크로폰으로부터 오디오 신호를 생성하는 단계와, 장치의 복수의 카메라 중 어느 카메라(들)가 사용을 위해 선택되었는지를 결정하는 단계와, 사용을 위해 선택된 결정된 카메라(들)에 기초하여 처리될 오디오 신호에 대한 오디오 처리 모드를 선택하는 단계 - 오디오 처리 모드는 사용을 위해 선택된 결정된 카메라(들)에 기초하여 오디오 신호를 적어도 부분적으로 자동 조정함 - 를 포함할 수 있다.

방법은 또한 오디오 신호로부터 분리된 담화 신호를 생성하는 단계를 포함할 수 있다. 방법은 사용을 위해 선택된 결정된 카메라(들)에 기초하여 오디오 신호를 감쇠시킨 다음 분리된 담화 신호를 감쇠된 오디오 신호와 조합하는 단계를 포함할 수 있다. 분리된 담화 신호는 감쇠된 오디오 신호를 전달하는 모든 채널보다 적은 채널 상의 감쇠된 오디오 신호와 조합될 수 있다. 분리된 담화 신호는 감쇠된 오디오 신호를 전달하는 단 하나의 채널 상의 감쇠된 오디오 신호와 조합될 수 있다. 방법은 사용을 위해 선택된 결정된 카메라(들)에 기초하여 오디오 신호를 감쇠하는 단계와, 감쇠된 오디오 신호와는 별도의 채널을 통해 분리된 담화 신호를 제공하는 단계를 포함할 수 있다. 오디오 신호로부터 분리된 담화 신호를 생성하는 단계는 얼굴 검출의 사용을 포함할 수 있다. 방법은 사용을 위해 선택된 카메라(들)가 제 1 카메라를 포함할 때, 마이크로폰 중 제 1 마이크로폰으로부터의 오디오 신호를 좌측 채널 신호로서 할당하고 마이크로폰 중 제 2 마이크로폰으로부터의 오디오 신호를 우측 채널 신호로서 할당하는 단계와, 사용을 위해 선택된 카메라(들)가 제 2 카메라를 포함할 때, 제 1 마이크로폰으로부터의 오디오 신호를 우측 채널 신호로서 할당하고 제 2 마이크로폰으로부터의 오디오 신호를 좌측 채널 신호로 할당하는 단계를 포함한다. 방법은 오디오 신호로부터 분리된 담화 신호를 생성하는 단계와, 제 1 카메라 또는 제 2 카메라가 선택될 때 분리된 담화 신호에 대응하는 공간 방향을 실질적으로 변화시키지 않은 채로 유지하는 단계를 더 포함한다.

사용을 위해 선택된 카메라(들)가 제 1 카메라로부터 제 2 카메라로 전환할 때, 제 1 및 제 2 마이크로폰에 의해 수신된 소리의 청각 이미지를 좌측 채널과 우측 채널 사이에서 서서히 회전시키는 단계를 포함한다. 방법은 사용을 위해 선택된 카메라(들)가 제 1 카메라를 포함할 때, 처리될 오디오 신호에 대한 오디오 처리 모드 중 제 1 오디오 처리 모드를 선택하는 단계와, 사용을 위해 선택된 카메라(들)가 제 2 카메라를 포함할 때, 처리될 오디오 신호에 대한 오디오 처리 모드 중 상이한 제 2 오디오 처리 모드를 선택하는 단계를 포함하며, 제 1 및 제 2 카메라가 서로 다른 방향을 향하고 있는 경우, 제 1 모드 동안 오디오 신호로부터 분리된 담화 신호를 생성하고 제 2 모드 동안 오디오 신호로부터 분리된 담화 신호를 생성하지 않는 단계를 더 포함한다.

실시예는 장치에서 제공될 수 있으며, 이 장치는 적어도 하나의 프로세서와, 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 비일시적 메모리를 포함하되, 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서와 함께 장치로 하여금, 장치의 복수의 카메라 중 어느 카메라(들)가 사용을 위해 선택되었는지를 결정하게 하고, 사용을 위해 선택된 결정된 카메라(들)에 기초하여, 장치의 마이크로폰으로부터 처리될 오디오 신호에 대한 오디오 처리 모드를 선택하게 - 오디오 처리 모드는 사용을 위해 선택된 결정된 카메라(들)에 기초하여 오디오 신호를 적어도 부분적으로 자동 조정함 - 하도록 구성된다.

적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서와 함께 장치로 하여금, 오디오 신호로부터 분리된 담화 신호를 생성하게 하도록 구성된다. 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서와 함께 장치로 하여금, 사용을 위해 선택된 결정된 카메라(들)에 기초하여 오디오 신호를 감쇠하게 한 다음, 분리된 담화 신호를 감쇠된 오디오 신호와 조합하게 하도록 구성된다. 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서와 함께 장치로 하여금, 분리된 담화 신호를 감쇠된 오디오 신호를 전달하는 모든 채널보다 적은 채널 상의 감쇠된 오디오 신호와 조합하게 하도록 구성된다. 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서와 함께 장치로 하여금, 분리된 담화 신호를 감쇠된 오디오 신호를 전달하는 단 하나의 채널 상의 감쇠된 오디오 신호와 조합하게 하도록 구성된다. 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서와 함께 장치로 하여금, 사용을 위해 선택된 결정된 카메라(들)에 기초하여 적어도 하나의 각각의 오디오 신호를 감쇠하게 하고, 분리된 담화 신호를 감쇠된 오디오 신호와는 별도의 채널을 통해 제공하게 하도록 구성된다. 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서와 함께 장치로 하여금, 얼굴 검출을 사용하여 오디오 신호로부터 분리된 담화 신호를 생성하게 하도록 구성된다. 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서와 함께 장치로 하여금, 사용을 위해 선택된 카메라(들)가 제 1 카메라를 포함할 때, 마이크로폰 중 제 1 마이크로폰으로부터의 오디오 신호를 좌측 채널 신호로서 할당하게 하고 마이크로폰 중 제 2 마이크로폰으로부터의 오디오 신호를 우측 채널 신호로서 할당하게 하며, 사용을 위해 선택된 카메라(들)가 제 2 카메라를 포함할 때, 제 1 마이크로폰으로부터의 오디오 신호를 우측 채널 신호로서 할당하게 하며 제 2 마이크로폰으로부터의 오디오 신호를 좌측 채널 신호로서 할당하게 하도록 구성된다. 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는, 적어도 하나의 프로세서와 함께 장치로 하여금, 오디오 신호로부터 분리된 담화 신호를 생성하게 하고, 제 1 카메라 또는 제 2 카메라가 선택될 때 분리된 담화 신호에 대응하는 방향 정보를 실질적으로 변경되지 않은 체로 유지하게 하도록 구성된다. 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는, 적어도 하나의 프로세서와 함께 장치로 하여금, 사용을 위해 선택된 카메라(들)가 제 1 카메라에서 제 2 카메라로 전환할 때, 제 1 및 제 2 마이크로폰에 의해 수신된 소리의 청각 이미지를 좌측 채널과 우측 채널 사이에서 서서히 회전하게 하도록 구성된다. 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서와 함께 장치로 하여금, 사용을 위해 선택된 카메라(들)가 제 1 카메라를 포함할 때, 처리될 오디오 신호에 대해 오디오 처리 모드 중 제 1 오디오 처리 모드를 선택하게 하고, 사용을 위해 선택된 카메라(들)가 제 2 카메라를 포함할 때, 처리될 오디오 신호에 대해 오디오 처리 모드 중 상이한 제 2 오디오 처리 모드를 선택하게 하고, 제 1 및 제 2 카메라가 서로 다른 방향을 향하고 있는 경우, 제 1 모드 동안 오디오 신호로부터 분리된 담화 신호를 생성하게 하고, 제 2 모드 동안 오디오 신호로부터 분리된 담화 신호를 생성하지 않게 하도록 구성된다.

예시적인 실시예는 동작을 수행하기 위해 머신에 의해 실행 가능한 명령어의 프로그램을 유형적으로 구현하는, 머신에 의해 판독 가능한, 예를 들어 도 3의 메모리(24)와 같은, 비일시적 프로그램 저장 디바이스에서 제공될 수 있으며, 동작은 장치의 복수의 카메라 중 어느 카메라가 사용을 위해 선택되었는지를 결정하는 것과, 사용을 위해 선택된 결정된 카메라(들)에 기초하여, 장치의 마이크로폰으로부터 처리될 각각의 오디오 신호에 대한 오디오 처리 모드를 선택하는 것 - 오디오 처리 모드는 사용을 위해 선택된 결정된 카메라(들)에 기초하여 오디오 신호를 적어도 부분적으로 자동 조정함 - 을 포함한다.

하나 이상의 컴퓨터 판독 가능한 매체(들)의 임의의 조합은 메모리로서 활용될 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체 또는 비 일시적 컴퓨터 판독 가능한 저장 매체 일 수 있다. 비일시적 컴퓨터 판독 가능한 저장 매체는 전파 신호를 포함하지 않으며, 예를 들어 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치나 디바이스 또는 전술한 것의 임의의 적합한 조합일 수 있지만, 이것으로 제한되는 것은 아니다. 컴퓨터 판독 가능한 저장 매체의 더 구체적인 예(비 배타적이지 않은 리스트)는 다음과 같은 것, 즉, 하나 이상의 와이어를 갖는 전기적 연결, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능한 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트디스크 판독 전용 메모리(compact disc read-only memory, CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스 또는 전술한 것들의 임의의 적절한 조합을 포함한다.

예시적인 실시예는 장치의 마이크로폰으로부터 오디오 신호를 생성하기 위한 수단과, 장치의 복수의 카메라 중 어느 카메라(들)가 사용을 위해 선택되었는지를 결정하기 위한 수단과, 사용을 위해 선택된 결정된 카메라(들)에 기초하여, 처리될 오디오 신호에 대한 오디오 처리 모드를 선택하기 위한 수단 - 오디오 처리 모드는 사용을 위해 선택된 결정된 카메라(들)에 기초하여 오디오 신호를 적어도 부분적으로 자동적으로 조정함 - 을 포함할 수 있다.

전술한 설명은 단지 예시적일 뿐이라는 것을 이해하여야 한다. 본 기술분야에서 통상의 지식을 가진 자에 의하면 다양한 대안 및 수정이 고안될 수 있다. 예를 들어, 다양한 종속항에서 인용된 특징은 서로 임의의 적절한 조합(들)으로 조합될 수 있다. 또한, 전술한 상이한 실시예로부터의 특징은 선택적으로 새로운 실시예에 조합될 수 있다. 따라서, 설명은 첨부의 청구범위의 범주 내에 속하는 그와 같은 모든 대안, 수정 및 변경을 포함하는 것으로 의도된다.

Claims

방법으로서,
장치의 복수의 마이크로폰으로부터 각각의 오디오 신호를 생성하는 단계와,
상기 장치의 복수의 카메라 중 어느 카메라가 사용을 위해 선택되었는지를 결정하는 단계와,
처리될 상기 각각의 오디오 신호 중 적어도 하나에 대해 복수의 상이한 오디오 처리 모드로부터 오디오 처리 모드를 선택하는 단계를 포함하되,
상기 선택하는 단계는 상기 복수의 카메라 중 어느 카메라가 사용을 위해 선택된 것으로 결정되었는지에 적어도 부분적으로 기초하고, 상기 각각의 오디오 신호 중 적어도 하나는 상기 복수의 카메라 중 어느 카메라가 사용을 위해 선택된 것으로 결정되었는지에 기초하여 적어도 부분적으로 자동 조정되어 적어도 하나의 조정된 오디오 신호를 형성하고, 상기 적어도 하나의 조정된 오디오 신호는 상기 복수의 상이한 오디오 처리 모드 중 어느 오디오 처리 모드가 선택되는지에 기초하여 중요한 것으로 간주되는 소리에 집중되는 출력 오디오 신호를 적어도 부분적으로 형성하는
방법.
삭제
삭제
제 1 항에 있어서,
상기 복수의 카메라 중 제 1 카메라가 사용을 위해 선택될 때, 상기 복수의 마이크로폰 중 제 1 마이크로폰으로부터의 적어도 하나의 각각의 오디오 신호를 제 1 채널 신호로서 할당하고 상기 복수의 마이크로폰 중 제 2 마이크로폰으로부터의 적어도 하나의 각각의 오디오 신호를 상이한 제 2 채널 신호로서 할당하는 단계와,
상기 복수의 카메라 중 제 2 카메라가 사용을 위해 선택될 때, 상기 복수의 마이크로폰 중 제 1 마이크로폰으로부터의 적어도 하나의 각각의 오디오 신호를 상기 제 2 채널 신호로서 할당하고 및 상기 복수의 마이크로폰 중 제 2 마이크로폰으로부터의 적어도 하나의 각각의 오디오 신호를 상기 제 1 채널 신호로서 할당하는 단계를 더 포함하는
방법.
제 1 항에 있어서,
상기 복수의 카메라 중 제 1 카메라가 사용을 위해 선택될 때, 처리될 적어도 하나의 각각의 오디오 신호에 대한 제 1 오디오 처리 모드를 선택하는 단계와,
상기 복수의 카메라 중 제 2 카메라가 사용을 위해 선택될 때, 처리될 적어도 하나의 각각의 오디오 신호에 대한 상이한 제 2 오디오 처리 모드를 선택하는 단계와,
상기 제 1 카메라와 상기 제 2 카메라가 서로 다른 방향을 향하고 있는 경우, 상기 방법은 상기 제 1 오디오 처리 모드 동안 상기 각각의 오디오 신호로부터 분리된 담화 신호(speech signal)를 생성하고 상기 제 2 오디오 처리 모드 동안 상기 적어도 하나의 각각의 오디오 신호로부터 분리된 담화 신호를 생성하지 않는 단계를 더 포함하는
방법.
제 4 항에 있어서,
사용을 위해 선택된 카메라가 상기 제 1 카메라로부터 상기 제 2 카메라로 전환될 때, 상기 복수의 마이크로폰 중 상기 제 1 마이크로폰 및 상기 제 2 마이크로폰에 의해 수신된 소리의 청각 이미지를 회전시키는 단계를 더 포함하는
방법.
제 1 항에 있어서,
상기 적어도 하나의 각각의 오디오 신호로부터, 분리된 담화 신호와 주변 오디오 신호 중 적어도 하나를 생성하는 단계를 더 포함하는
방법.
제 7 항에 있어서,
상기 적어도 하나의 각각의 오디오 신호를 조정하는 단계는, 사용을 위해 선택된 상기 결정된 카메라에 기초하여 상기 적어도 하나의 각각의 오디오 신호를 감쇠하는 단계와, 그 다음에 상기 분리된 담화 신호를 상기 적어도 하나의 감쇠된 오디오 신호와 조합하는 단계를 적어도 부분적으로 더 포함하는
방법.
◈청구항 9은(는) 설정등록료 납부시 포기되었습니다.◈

제 8 항에 있어서,
상기 분리된 담화 신호는,
상기 적어도 하나의 감쇠된 오디오 신호를 전달하는 모든 채널보다 적은 채널과,
상기 적어도 하나의 감쇠된 오디오 신호를 전달하는 단 하나의 채널
중 하나 상의 상기 적어도 하나의 감쇠된 오디오 신호와 조합되는
방법.
제 8 항에 있어서,
상기 적어도 하나의 각각의 오디오 신호를 조정하는 단계는, 사용을 위해 선택된 상기 결정된 카메라에 기초하여 상기 적어도 하나의 각각의 오디오 신호를 감쇠하는 단계와, 상기 분리된 담화 신호를 상기 감쇠된 오디오 신호와는 별도의 채널을 통해 제공하는 단계를 포함하는
방법.
제 7 항에 있어서,
상기 적어도 하나의 각각의 오디오 신호로부터 상기 분리된 담화 신호를 생성하는 것은, 얼굴 검출과 음성 활성도 검출(voice activity detection, VAD) 중 적어도 하나의 사용을 포함하는
방법.
제 4 항에 있어서,
상기 적어도 하나의 각각의 오디오 신호로부터 분리된 담화 신호를 생성하는 단계와, 상기 제 1 카메라 또는 상기 제 2 카메라가 선택될 때 상기 분리된 담화 신호에 대응하는 공간 방향을 실질적으로 변화시키지 않은 채로 유지하는 단계를 더 포함하는
방법.
제 1 항에 있어서,
상기 적어도 하나의 각각의 오디오 신호를 조정하는 단계는,
상기 출력 오디오 신호 내의 모노(mono) 담화 신호를 지각하는 것과,
상기 장치의 복수의 마이크로폰 중 적어도 두 개의 마이크로폰으로부터의 신호에 기초한 지향성 담화 신호를 지각하는 것
중 하나를 유발하기 위해 상기 적어도 하나의 각각의 오디오 신호를 처리하는 단계를 포함하는
방법.
제 1 항에 있어서,
상기 적어도 하나의 각각의 오디오 신호를 조정하는 것은 다중 마이크로폰 신호를 오디오 객체 및 궤적으로 변환하는 것을 포함하는 오디오 객체 분리를 더 포함하는
방법.
오디오 처리 장치로서,
적어도 하나의 프로세서와,
컴퓨터 프로그램 코드를 포함하는 적어도 하나의 비 일시적 메모리
를 포함하되,
상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서에 의해 실행되는 경우에, 상기 오디오 처리 장치로 하여금 제 1 항 및 제 4 항 내지 제 14 항 중 어느 한 항의 방법의 동작을 수행하도록 구성되는
오디오 처리 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제