KR101345472B1

KR101345472B1 - 오디오-제어된 이미지 캡처링

Info

Publication number: KR101345472B1
Application number: KR1020117031552A
Authority: KR
Inventors: 파시 오잘라; 라두 빌쿠
Original assignee: 노키아 코포레이션
Priority date: 2009-06-30
Filing date: 2009-06-30
Publication date: 2014-01-15
Also published as: RU2012101497A; EP2449426B1; KR20120018814A; US9007477B2; WO2011001005A1; EP2449426A1; EP2449426A4; RU2531023C2; CN102804060B; CN102804060A; US20120098983A1

Abstract

의도된 순간을 포함하는 시간 기간에 대응하는 복수의 이미지들을 수신하는 단계와, 오디오 수신 수단을 사용하여 복수의 이미지들과 연관된 오디오 신호를 수신하는 단계와, 원하는 출력 이미지와 연관된 청각 이벤트를 결정하기 위해 수신된 오디오 신호를 분석하는 단계와, 원하는 출력 이미지를 획득하기 위한 추가적인 프로세싱을 위해 수신된 오디오 신호의 분석에 기초하여 복수의 이미지들 중 적어도 하나를 선택하는 단계를 포함하는 방법이 개시된다.

Description

오디오-제어된 이미지 캡처링{AUDIO-CONTROLLED IMAGE CAPTURING}

본 발명은 이미징에 관한 것이며, 더욱 상세하게 오디오 정보에 따라 정지 이미지 캡처링을 제어하는 것에 관한 것이다.

이미지 캡처링 기술 분야에서, 최상의 가능한 이미지 품질을 보장하는 목적과 함께, 많은 카메라에는 소위 멀티-샷 기능(multi-shot functionality)이 제공되고 있다. 멀티-샷 기능에서, 사용자가 셔터를 누를 때, 이미지 캡처링 장치는 정확한 순간을 캡처링하기 위해 몇몇의 이미지를 촬영하도록 구성된다. 그후, 사용자는 다수의 이미지들 중 최상의 이미지(들)를 나중에 선택할 수 있다. 더욱 진보된 해결책에서, 사용자 또는 이미지 캡처링 장치는 몇몇의 이미지들, 또는 모든 캡처링된 이미지들을 개선된 시각 품질을 갖는 하나의 합성된 출력 이미지로 조합할 수 있다.

멀티-샷 기능의 부가적인 실시예에서, 상이한 노출 시간으로 다수의 이미지들을 촬영하고 원하는 것(들)을 출력 이미지로서 선택하거나, 추가적인 프로세싱이 개선된 시각 품질을 갖는 합성된 출력 이미지를 유도하는 것이 알려져 있다.

그러나, 여전히 몇몇의 단점이 존재한다. 사진을 캡처링하는 것은 때때로 사용자가 캡처링하기 원하는 사진을 포착하기 위해 빠른 반응을 요구할 수 있다. 특히 사진의 대상이 움직이는 경우에, 사진의 타이밍은 분명히 최적이 아닐 수 있고, 대상은 이미지를 벗어날 수 있고, 원하는 순간을 놓치게 된다. 또한, 알려진 멀티-샷 해결책에서, 최상의 품질 이미지를 선택하거나 개선된 출력 이미지를 합성하는 것은 항상 캡처링된 이미지의 사후-프로세싱을 요구하고, 여기서 사용자는 성가시고 시간 소모가 큰 경험을 할 수 있다.

개선된 방법 및 상기 방법을 구현하는 기술 장비가 이제 고안되었고, 이로써 이미지 캡처링 장치의 사용자는 개선된 품질로 사진을 촬영하도록 지원된다. 본 발명의 다양한 양상은 독립항들에 서술된 것을 특징으로 하는 방법, 장치 및 컴퓨터 프로그램을 포함한다. 본 발명의 다양한 실시예는 종속항들에 개시된다.

제 1 양상에 따라, 본 발명에 따른 방법은, 의도된 순간을 포함하는 시간 기간에 대응하는 복수의 이미지들을 수신하는 단계와, 오디오 수신 수단을 사용하여 복수의 이미지들과 연관된 오디오 신호를 수신하는 단계와, 원하는 출력 이미지와 연관된 청각 이벤트를 결정하기 위해 수신된 오디오 신호를 분석하는 단계와, 원하는 출력 이미지를 획득하도록 추가적인 프로세싱을 위한 수신된 오디오 신호의 분석에 기초하여 복수의 이미지들 중 적어도 하나를 선택하는 단계의 아이디어에 기초한다.

실시예에 따라, 상기 방법에서, 복수의 이미지들을 수신하는 단계는, 이미지 캡처링 장치의 사용자가 의도된 순간에 셔터를 해제하라는 명령을 제공한 것에 응답하여, 이미지 캡처링 유닛을 사용하여 의도된 순간을 포함하는 기간 동안에 복수의 이미지들을 캡처링하는 단계를 포함하고, 오디오 신호를 수신하는 단계는 오디오 캡처링 수단을 사용하여 복수의 이미지들과 연관된 오디오 신호를 캡처링하는 단계를 포함한다.

실시예에 따라, 상기 방법은 의도된 순간 전에 제 1 시간 인스턴트에 대응하는 복수의 이미지들을 수신하는 단계를 더 포함한다.

실시예에 따라, 상기 방법은 의도된 순간 후에 제 2 시간 인스턴트에 대응하는 복수의 이미지들을 수신하는 단계를 더 포함한다.

실시예에 따라, 오디오 수신 수단은 하나 이상의 마이크로폰들을 포함한다.

실시예에 따라, 오디오 수신 수단은 2 개 이상의 마이크로폰들로 구성된 마이크로폰 어레이를 포함한다.

실시예에 따라, 상기 방법은 오디오 신호를 생성하는 대상이 이미지의 원하는 부분 내에 있을 때를 결정하기 위해 오디오 신호의 도착 방향을 추정하는 단계를 더 포함한다.

실시예에 따라, 마이크로폰 어레이에 실질적으로 수직으로 존재하는 오디오 신호를 생성하는 대상은, 대상이 이미지의 원하는 부분 내에 있을 때를 결정하는데 사용된다.

실시예에 따라, 상기 방법은 복수의 이미지들 내의 관심 있는 이벤트를 결정하기 위해 수신된 오디오 신호의 에너지를 추정하는 단계를 더 포함한다.

실시예에 따라, 상기 방법은 수신된 오디오 신호의 에너지에서의 급격한 변화는 관심 있는 이벤트의 원하는 순간을 결정하는데 사용된다.

실시예에 따라, 상기 방법은 복수의 이미지들로부터, 오디오 신호를 생성하는 대상이 복수의 이미지들을 제공하는 이미지 캡처링 장치에 가장 가까운 적어도 하나의 이미지를 결정하기 위해, 수신된 오디오 신호의 기본 주파수를 추정하는 단계를 더 포함한다.

실시예에 따라, 상기 방법은 오디오 신호를 생성하는 대상이 복수의 이미지들을 제공하는 이미지 캡처링 장치에 접근하는 이미지를 선택하기 위해 기본 주파수의 추정을 사용하는 단계를 더 포함한다.

실시예에 따라, 상기 방법은 복수의 이미지들을 제공하는 이미지 캡처링 장치 및 오디오 신호를 생성하는 대상 사이의 거리에 관련된 정보를 획득하는 단계와, 거리에 대한 사운드의 속도에 의해 발생되는 지연으로 오디오 신호의 수신을 조정하는 단계를 더 포함한다.

본 발명에 따른 장치는 상당한 이점을 제공한다. 일반적인 수준에서, 상기 장치는 복수의 이미지들에 기초하여 최적의 출력 이미지를 결정하기 위해 복수의 이미지들과 연관된 오디오 신호를 분석함으로써 이미지 캡처링 장치의 사용자가 개선된 품질로 사진을 촬영하도록 가능하게 하거나 지원한다. 더욱 상세하게, 사용자는 이미지들의 세트로부터, 예를 들면, 관심 있는 대상이 뷰파인더의 중간에 존재하거나, 특별한 오디오 이벤트(예를 들면, 충돌 또는 폭발)가 발생하거나, 대상이 카메라(전방 뷰)에 근접하는 이미지를 자동적으로 선택함으로써 더 양호한 품질의 이미지를 캡처링할 수 있다. 출력 이미지는 원하는 오디오 이벤트에 가장 가까운 시간의 순간에 자동적으로 선택된다.

제 2 양상에 따라, 의도된 순간을 포함하는 시간 기간에 대응하는 복수의 이미지들을 수신하기 위한 이미지 수신 유닛과, 오디오 캡처링 수단을 사용하여 복수의 이미지들과 연관된 오디오 신호를 수신하기 위한 오디오 수신 유닛과, 원하는 출력 이미지와 연관된 청각 이벤트를 결정하기 위해 수신된 오디오 신호를 분석하기 위한 분석 유닛과, 원하는 출력 이미지를 획득하기 위한 추가적인 프로세싱을 위해 수신된 오디오 신호의 분석에 기초하여 복수의 이미지들 중 적어도 하나를 선택하기 위한 선택 유닛을 포함하는 장치가 제공된다.

본 발명의 이들 및 다른 양상 및 이에 관련된 실시예는 아래의 실시예의 상세한 설명을 고려하여 명백해질 것이다.

다음에서, 본 발명의 다양한 실시예는 첨부된 도면을 참조하여 더욱 상세히 설명될 것이다.

도 1은 일련의 멀티-샷 이미지들의 예를 도시한 도면.
도 2는 이미지 캡처링 장치 내에 배열된 멀티-마이크로폰의 예를 도시한 도면.
도 3은 본 발명의 실시예에 따라 구현된 기능 유닛들의 예를 도시한 도면.
도 4는 빔포머 구성으로 복수의 마이크로폰들로 구성된 일반적인 마이크로폰 어레이를 도시한 도면.
도 5는 캡처링된 오디오 신호에 대한 도착 추정의 사운드 방향의 예를 도시한 도면.
도 6은 캡처링된 오디오 신호에 대한 사운드 레벨 추정의 예를 도시한 도면.
도 7은 캡처링된 오디오 신호에 대한 기본 주파수 추정의 예를 도시한 도면.

다음에서, 본 발명은 일반적으로 이미지 캡처링 장치들을 참조하고, 가끔 잘 알려진 예로서 카메라 장치를 참조함으로써 예시될 것이다. 그러나, 본 발명이 단지 자립형 카메라로 제한되지 않고, 이미지 센서 및 캡처링된 이미지 및 오디오 정보를 프로세싱하기 위한 수단을 포함하는 임의의 이미지 캡처링 장치로 구현될 수 있다는 것을 유의하라. 예를 들면, 본 발명은 카메라 모듈이 장착된 모바일 단말기, PDA 장치, 핸드헬드 컴퓨터 또는 랩톱 컴퓨터에서 활용될 수 있다. 따라서, 본 발명은 또한 이미지 캡처링 유닛으로부터 이미지를 수신하고 및/또는 오디오 캡처링 유닛으로부터 오디오 정보를 수신하는 그러한 장치에 관련하여 고려되어야 하고, 상기 장치는 실시예에 기재된 바와 같이 수신된 이미지 및 오디오 정보를 프로세싱한다.

아래에 기재된 실시예는, 이미지 캡처링 장치가 멀티-샷 동작 모드에서 동작할 때 이미지 캡처링 장치를 제어하기 위한 방법을 제공한다. 멀티-샷 동작 모드에서, 이미지 캡처링 장치, 예를 들면, 카메라는 셔터를 누를 때마다 복수의 이미지들을 촬영하도록 구성된다. 멀티-샷 동작 모드에서 촬영된 이미지들의 수는 이미지 캡처링 장치의 디폴트 설정일 수 있거나, 이것은 장치 설정에서 사용자에 의해 조정될 수 있고, 캡처링된 이미지들의 수는 2 개에서부터 수십 또는 심지어 수백 개까지의 이미지들로 변동할 수 있다. 아래의 실시예들에 기재된 예는 각각의 멀티-샷 시리즈에서 10 개의 이미지들을 캡처링하는 설정에 기초한다.

멀티-샷 동작 모드에서, 이미지 캡처링 장치는 일반적으로 기간 동안 복수의 이미지들을 촬영하도록 구성되고, 기간은 셔터를 해제하기 위한 의도된 순간을 커버, 즉, 포함한다. 바람직하게, 일련의 이미지들을 촬영하는 것은 셔터 버튼이 확실하게 아래로 눌려지기 전에 이미, 예를 들면, 후속 이미지에 대한 포커스를 조정하도록 인에이블하는, 버튼이 절반 정도 눌려질 때 이미 시작될 수 있다. 카메라는 버튼이 확실하게 아래로 눌려지기 전에 및, 후에 각각 미리 규정된 수의 이미지들을 저장하도록 구성될 수 있다. 예를 들면, 10 개의 이미지들의 멀티-샷 시리즈에서, 5 개의 이미지들은 버튼이 절반 정도 눌려진 후이지만 완전히 아래로 눌려지기 전에 캡처링되도록 구성될 수 있고, 그후, 남아있는 5 개의 이미지들은 버튼이 완전히 아래로 눌려진 후에 캡처링된다.

멀티-샷 시리즈로 촬영된 이미지들의 수와 상관없이, 이미지 캡처링 장치는, 셔터가 완전히 눌려지기 전에 미리 결정된 마진(margin)보다 이르게 캡처링된 이미지들이 추가적인 프로세싱 또는 이들을 메모리에 저장하지 않고 후속으로 폐기될 수 있도록 동작을 제어하는 미리 결정된 마진 값을 여전히 포함할 수 있다.

도 1은, 본 경우에서 사용자가 버튼을 누를 때, 대상, 즉, 통과하는 경주차를 촬영한 제 1의 일련의 5 개의 사진들의 예를 제시한다. 후자의 5 개의 사진들은 도면에 도시되지 않는다. 도 1의 동일한 예는 아래에 기재된 실시예를 예시하는데 이용된다.

실시예에 따라, 멀티-샷 동작 모드에서 동작되고 복수의 멀티-샷 시리즈를 캡처링할 때, 이미지 캡처링 장치는 또한 멀티-샷 시리즈 내의 이미지들과 연관된 오디오 신호를 캡처링하도록 구성된다. 오디오 신호가 캡처링되는 시간 세그먼트는 이미지 캡처링 장치의 디폴트 설정일 수 있거나, 이는 장치 설정에서 사용자에 의해 조정할 수 있다. 오디오 캡처링은 이미지 캡처링이 시작되는 실질적으로 동일한 시간에서 시작되는 것이 바람직하다. 따라서, 이미지 캡처링 장치는, 사용자가 버튼을 완전히 아래로 누르기 전에 일련의 이미지들과 연관된 오디오의 적절한 시간 세그먼트, 예를 들면, 5 초, 및 각각 사용자가 버튼을 완전히 아래로 누른 후의 또 다른 적절한 시간 세그먼트를 캡처링하도록 구성되는 것이 바람직하다.

이미지 캡처링 장치는 후속 오디오 분석을 위해 캡처링된 오디오 신호를 메모리에 저장할 수 있다. 대안적으로, 아래에 상세히 기재된 바와 같이, 오디오 분석은 완전한 오디오 세그먼트를 메모리에 저장하지 않고 즉시 수행될 수 있다.

멀티-샷 시리즈 내의 이미지들과 연관된 캡처링된 오디오 신호의 분석 목적은, 멀티-샷 시리즈의 하나 이상의 이미지들이 아마도 가장 원하는 대상의 최적의 품질 이미지를 캡처링하는 순간(들)을 식별하는 것이다. 복수의 이미지들과 연관된 캡처링된 오디오 신호의 분석은 음원(즉, 대상)이 이미지의 원하는 부분 내에 있을 때를 결정하기 위해 주요 사운드 성분들의 도착 방향을 결정하는 것에 기초할 수 있거나, 사운드 레벨, 스펙트럼 성분 또는 기본 주파수에서의 임의의 불연속은 추가적인 프로세싱을 위해 하나 이상의 이미지들을 선택하는 선택 알고리즘을 실시하는데 사용될 수 있다.

가장 유망한 시간 순간이 식별될 때, 상기 순간과 연관된 멀티-샷 시리즈의 하나 이상의 이미지들은 최적의 품질 이미지로서 선택될 수 있다. 그후, 최적의 품질 이미지는 가령 출력 이미지로서 선택될 수 있거나, 하나 이상의 이미지들은 더 양호한 품질의 출력 이미지를 생성하기 위한 추가적인 프로세싱을 위해 선택될 수 있다.

분석에 의해 제안된 최적의 품질 이미지인 것과 다른 몇몇의 이미지를 출력 이미지로서 선택하는 가능성이 또한 사용자에게 제공된다. 예를 들면, 도 1의 예에서, 사용자는 경주차가 뷰파인더(viewfinder)의 적절한 부분에 위치될 때 캡처링되는 출력 이미지를 선택할 수 있다. 이러한 방식으로, 캡처링된 이미지는 사용자에게 중요한 장면의 몇몇의 다른 부분들을 포함할 수 있다.

오디오 신호는, 이미지 캡처링 장치 내에 통합되거나 이미지 캡처링 장치에 기능적으로 접속되고 바람직하게 이미지 캡처링 장치에 근접하게 존재하는 하나 이상의 마이크로폰들에 의해 캡처링될 수 있다. 특히, 주요 사운드 성분의 도착 방향이 결정될 필요가 있다면, 2 개 이상의 마이크로폰들로 구성되고 바람직하게 이미지 캡처링 장치 상에 장착된 마이크로폰 어레이가 사용될 수 있다. 그러한 다중-마이크로폰 어레이의 예가 도 2에 제시되고, 도 2는 트래킹된 대상(200)을 도시하고, 상기 대상의 이미지는 이미지 캡처링 장치의 카메라 모듈(204)에 의해 촬영되고, 이러한 이미지는 이미지 캡처링 장치의 뷰파인더(206)에 디스플레이된다. 이미지 캡처링 장치는, 카메라 모듈이 지시하는 방향으로부터 캡처링된 오디오가 가장 방해받지 않고 전달될 수 있도록 바람직하게 배열된 다중-마이크로폰 어레이(202)를 더 포함한다.

방향성 다중-마이크로폰 어레이는 2 개 이상의 마이크로폰들을 포함할 수 있다. 통상적으로, 오디오 소스(대상) 및 상기 어레이 내의 마이크로폰들 중 임의의 마이크로폰 사이의 최소 거리는 마이크로폰들 사이의 최대 거리보다 크다. 따라서, 예를 들면, 3, 4, 5 개 이상의 마이크로폰들의 사용은 개선된 방향 선택성을 제공할 수 있다.

실시예를 구현하기 위한 기능적인 유닛들의 예가 도 3에 기재된다. 이미지 캡처링 유닛(300)은 제어 유닛(302)으로부터 수신된 인스트럭션에 따라 멀티-샷 시리즈의 복수의 이미지들을 캡처링하도록 구성된 이미지 센서를 포함할 수 있다. 제어 유닛(302)은, 결국, 사용자가 셔터 버튼(도시되지 않음)을 누른 것에 응답하여 인스트럭션을 제공한다. 유사한 방식으로, 제어 유닛(302)은 사용자가 셔터 버튼을 누를 때 캡처링을 시작하기 위한 인스트럭션을 오디오 캡처링 유닛(304)에 제공한다. 오디오 캡처링 유닛(304)은 상기 하나 이상의 마이크로폰들 또는 다중-마이크로폰 어레이를 포함할 수 있다. 복수의 캡처링된 이미지들은 메모리(306)에 일시적으로 저장될 수 있거나, 상기 이미지들에는 선택 유닛(308)에서의 즉각적인 선택 프로세스가 실시될 수 있다.

선택 유닛(208) 내의 선택 프로세스는 오디오 분석 유닛(310)으로부터 수신된 정보에 의해 제어되고, 복수의 이미지들과 연관된 캡처링된 오디오 신호는 원하는 출력 이미지에 관련된 청각 이벤트를 결정하기 위해 분석된다. 이러한 분석의 결과로서, 아마도 가장 최상의 품질을 갖는 이미지는 이와 같이 출력 이미지(314)로서 선택 유닛(308)에서 선택될 수 있다. 대안적으로, 멀티-샷 시리즈로부터의 하나 이상의 이미지들은 더 양호한 품질의 출력 이미지(314)를 생성하기 위한 프로세싱 유닛(312)에서의 추가적인 프로세싱을 위해 선택 유닛(308)에서 선택될 수 있다. 프로세싱 유닛(312)에서, 다양한 이미지 프로세싱 알고리즘은 개선된 시각 품질을 갖는 합성된 출력 이미지를 유도하기 위해 선택된 하나 이상의 이미지들에 적용될 수 있거나, 복수의 이미지들이 추가적인 프로세싱을 위해 선택되면, 복수의 이미지들은 개선된 출력 이미지를 획득하도록 조합될 수 있다. 그후, 출력 이미지는, 예를 들면, 저장 수단(도 3에 도시되지 않음)에 저장되거나 디스플레이(도 3에 도시되지 않음) 상에 도시될 수 있다.

도 3의 오디오 분석 유닛(310)을 구현하기 위한 다양한 실시예들, 즉, 원하는 출력 이미지에 관련된 청각 오디오를 결정하기 위해 복수의 이미지들과 연관된 캡처링된 오디오 신호를 분석하기 위한 실시예는 다음에 더욱 상세하게 설명된다.

제 1 실시예에 따라, 음원이 이미지의 원하는 부분 내에 있을 때를 결정하기 위해 오디오 신호의 도착 방향을 추정함으로써 분석이 수행된다. 부가적인 실시예에 따라, 빔포밍으로서 지칭되는 기술이 활용될 수 있고, 다중-마이크로폰 어레이는 오디오 신호의 도착 방향을 추정하는데 사용된다.

오디오 소스의 도착 방향, 즉, 카메라 뷰파인더 내의 대상의 위치는 빔포밍 알고리즘을 사용하여 추출될 수 있다. 빔포머 구성의 복수(M)의 마이크로폰들로 구성된 포괄적인 마이크로폰 어레이가 도 4에 제시된다.

도 4의 마이크로폰 어레이의 출력은 다음과 같이 결정된다.

여기서, H_m(n)은 빔포밍 필터이고, L은 빔포밍 필터들 H₁, H₂,..., H_M의 길이를 나타낸다. 필터들 H₁, H₂,..., H_M의 가장 사소한 선택은 지연 라인들이고, 따라서 다음과 같은 마이크로폰 어레이의 출력을 제공한다.

여기서, τ_m은 각각의 신호 x₁, x₂,..., x_M의 도착 방향에 대응하는 지연이다. 방향성은 또한 주파수 서브-밴드 도메인 또는 예를 들면, DFT(이산 푸리에 변환) 변환 도메인으로 구현될 수 있다. 이러한 경우에, 각각의 마이크로폰에 대한 지연은 주파수-의존형일 수 있다.

뷰파인더 이미지 및 마이크로폰 어레이에 수직인 공칭 축과 비교된 음원(도 2 참조)의 도착 방향은 각각의 마이크로폰 라인에 대한 최적의 지연 값을 탐색함으로써 결정된다. 지연 τ_m은 다음과 같이 소스 및 상이한 마이크로폰들 사이의 거리의 차이로서 이해된다.

여기서, s는 원하는 트래킹된 오디오 소스 위치 좌표들이고, x_m은 마이크로폰 m의 위치이고, x_i는 "제로 지연" 마이크로폰 i의 위치이다. c는 사운드의 속도이다. 이러한 실시예에서, 마이크로폰 i의 지연이 항상 제로로 설정된다는 것을 유의해야 한다. 제로 지연, 즉, 마이크로폰 i은 어레이 내의 마이크로폰들 중 임의의 마이크로폰에 할당될 수 있다.

실시예에 따라, 다중 마이크로폰 빔포머는, 예를 들면, 마이크로폰 어레이 출력 에너지를 최대화하는 필터 계수들을 탐색함으로써 오디오 소스 위치를 검출 시에 적용된다. 가장 사소한 경우에서, 각각의 마이크로폰 라인에 대한 지연 값들은 출력 에너지가 최대화되는 그러한 방식으로 결정된다.

오디오 소스의 도착 방향은, 예를 들면,

의 범위에서 결정될 수 있고, 제로 각도는 마이크로폰 어레이에 수직이다. 각각의 마이크로폰 라인에 대한 최적의 지연에 기초하여, 마이크로폰 위치(마이크로폰들 사이의 거리)의 지식을 사용하여, 원하는 도착 방향이 다음의 수학식으로부터 해결하여 결정될 수 있다.

이러한 접근법에서, 도착 방향은 모든 마이크로폰에 대해 동일하고, 음원의 거리는 마이크로폰들 사이의 거리에 대응하여 상당히 더 큰 것으로 고려된다. 마이크로폰 어레이 설계가 2 차원일 때, 수평 및 수직 양자의 방향에서 시간 지연들의 유사한 결정이 이루어질 수 있다.

도 5는 도 1의 일련의 이미지들에 대응하는 캡처링된 오디오 신호에 대한 사운드 도착 방향 추정의 예를 도시한다. 대응하는 사운드 도착 방향은 이미지가 캡처링되는 매 시간 인스턴트에서 결정된다. 도 5의 시간 축의 스케일은 아래에 예시된 바와 같이 도 1의 것에 대응하고, 도착 방향의 스케일은

이고, 제로 각도는 대략 수직축의 중간 지점에 존재한다.

볼 수 있듯이, 오디오의 도착 방향을 추정하는 곡선은 제 3 이미지의 시간 인스턴트에서 제로 각도 지점(즉, 다중-마이크로폰에 실질적으로 수직으로 존재하는 대상)에 도달하는 것처럼 보인다. 이것은 제 3 사진이 촬영된 시간에서 음원이 뷰파인더의 중간에 있다는 것을 가장 추정할 수 있게 표시하고, 따라서 제 3 이미지는 최적의 출력 이미지에 대한 가장 유망한 후보로 고려될 수 있다.

제 2 실시예에 따라, 복수의 이미지들과 연관된 캡처링된 오디오 신호의 분석은 오디오 신호들의 사운드 레벨을 결정함으로써 수행된다. 이것은 상당히 간단한 접근법이고, 사운드 레벨에서 급격한 변화는 이미지를 캡처링하기 위한 원하는 순간을 나타내는데 사용될 수 있다. 상기 구현은 방향성 마이크로폰 어레이를 요구하지 않지만, 단지 단일의 마이크로폰은 오디오 신호를 캡처링하는데 사용될 수 있다. 마이크로폰 신호 레벨은 다음의 수학식을 사용하여 예에 대한 샘플 단위로 결정될 수 있다.

이로부터 사운드 레벨 추정 대 복수의 이미지들을 캡처링하는데 소요된 시간이 생성될 수 있다.

도 6은 도 1에서의 일련의 이미지들에 대응하는 캡처링된 오디오 신호에 대한 사운드 레벨 추정의 예를 도시한다. 대응하는 사운드 레벨은 이미지가 캡처링되는 각각의 시간 인스턴트에 대해 결정된다. 도 6의 시간축의 스케일은 아래에 예시된 바와 같이 도 1의 것에 대응한다. 볼 수 있듯이, 제 3 이미지의 시간 인스턴트에서, 사운드 레벨 곡선은 급격한 변화를 갖는 것으로 보이고, 제 3 이미지의 시간 인스턴트에서 최대 레벨에 도달한다. 급격한 변화는, 음원이 뷰파인더의 중간에 있다는 표시로서 사용될 수 있거나, 적어도 일부 특별한 이벤트는 제 3 사진이 촬영되는 대략 동일한 시간에 발생한다. 대안적으로, 또는 부가적으로, 최대 사운드 레벨은 제 3 사진이 촬영되는 대략 동일한 시간에서 음원이 뷰파인더의 중간에 있다는 표시로서 사용될 수 있다.

제 3 실시예에 따라, 복수의 이미지들과 연관된 캡처링된 오디오 신호의 분석은, 대상의 사운드의 기본 주파수에서의 변화를 결정함으로써 수행된다. 도플러 효과(Doppler effect)의 물리학으로부터 일반적으로 알려진 바와 같이, 청취자(또는 마이크로폰)에 더 가깝게 근접하는 대상은 청취자로부터 더 멀리 멀어지는 대상과 비교하여 더 높은 주파수로의 주파수 시프트를 갖는다. 따라서, 더 높은 기본 주파수로부터 더 낮은 기본 주파수로의 변화가 발생하는 시간 인스턴트를 결정함으로써, 사운드를 방출하는 대상이 청취자, 즉, 본 문맥에서 이미지 캡처링 장치에 가장 가까울 때가 또한 밝혀질 수 있다.

대상의 사운드의 기본 주파수는 우세한 오디오 소스의 자동 상관(autocorrelation)의 최대값에 대응하는 시간 지연의 역으로서 결정될 수 있다. 따라서, 우세한 오디오 소스의 간단한 상관 분석이 바람직하게 수행되고, 자동 상관을 최대화하는 후보 값들 d의 미리 결정된 범위 내의 지연 τ_n은 다음과 같이 결정된다.

여기서

은 정규화된 상관이다.

여기서,

k는 샘플링 시간 인스턴트이고, s_n는 사운드 신호이다.

이후에, 대상의 사운드의 기본 주파수는 지연 값의 역으로서 결정될 수 있다.

도 7은 도 1의 일련의 이미지들에 대응하는 캡처링된 오디오 신호에 대한 기본 주파수 추정의 예를 도시한다. 대응하는 기본 주파수는 이미지가 캡처링되는 각각의 시간 인스턴트에 대해 결정된다. 다시, 도 7의 시간축의 스케일은 아래에 예시된 바와 같이 도 1의 것에 대응한다. 볼 수 있듯이, 제 1의 2 개의 이미지들 동안에, 기본 주파수는 더 높은 주파수 상에서 일정하여, 대상이 이미지 캡처링 장치의 마이크로폰에 더 가깝게 근접하는 것을 표시한다. 그후, 제 3 이미지의 시간 인스턴트에서, 더 낮은 주파수 레벨에 대한 기본 주파수에서 선형 변화가 존재하고, 이후에 기본 주파수는 일정한 더 낮은 주파수 상에 머물러, 대상이 이미지 캡처링 장치의 마이크로폰으로부터 더 멀리 멀어지는 것을 표시한다. 따라서, 제 3 이미지 동안에 더 높은 기본 주파수에서 더 낮은 주파수로의 변화는, 음원이 이미지 캡처링 장치에 가장 가깝고 가장 추정 가능하게 뷰파인더의 중간에 있다는 것을 표시하거나, 적어도 일부 특별한 이벤트가 제 3 사진이 촬영된 대략 동일한 시간에 발생한다.

실시예에 따라, 기본 주파수 추정은 대상이 이미지 캡처링 장치의 마이크로폰에 더 가깝게 근접하는 이미지, 즉, 더 높은 기본 주파수에 대응하는 이미지를 선택하는데 사용될 수 있다. 정보는, 예를 들면, 대상의 전방 이미지를 획득하는데 활용될 수 있다.

실시예에 따라, 대상이 카메라로부터 상대적으로 멀리 있다면, 사운드의 속도의 제한이 고려될 필요가 있을 수 있다. 대상에 대한 거리가, 예를 들면, 340 미터인 것으로 알려지면, 복수의 이미지들을 캡처링하고 오디오 정보를 복수의 캡처링된 이미지들과 연관시킬 때 대략 1 초의 지연이 고려될 필요가 있다. 물론, 지연은 대상에 대한 실제 또는 추정된 거리에 따라 조정될 수 있고, 예를 들면, 500 m의 거리에서 지연은 대략 1.5초이고, 170 m의 거리에서 지연은 대략 0.5 초이다.

실시예에 따라, 대상에 대한 거리를 표시하는 정보는, 예를 들면, 포커스 정보로부터 추출될 수 있다. 대안적으로, 거리 정보는 입체 카메라에 의해 추정될 수 있고, 2 개의 이미징 센서들이 동일한 장치 내의 특정 거리에 위치되어, 장면의 약간 상이한 뷰들을 도시하는 2 개의 이미지들을 생성한다. 이러한 차이는 장면의 특정 대상에 대한 거리를 추정하는데 이용된다.

특정 실시예가 서로에 대해 단지 대안이라고 명시적으로 또는 암시적으로 언급되지 않는다면, 상술된 실시예들 중 임의의 실시예가 다른 실시예들 중 하나 이상의 실시예들과 조합으로서 구현될 수 있다는 것을 당업자는 인지한다.

카메라 모듈은 이미지 캡처링 장치의 통합 부분, 즉, 임베딩된 구조로서 이미지 캡처링 장치에서 구현될 수 있거나, 카메라 모듈은 개별적인 모듈일 수 있고, 카메라 모듈은 요구된 이미지 및 오디오 캡처링 및/또는 프로세싱 기능을 포함하고, 카메라 모듈은 다양한 종류의 데이터 프로세싱 장치에 부착될 수 있다.

실시예의 기능은, 중앙 처리 장치 CPU 또는 전용 디지털 신호 프로세서 DSP에서 실행될 때, 이미지 캡처링 장치가 본 발명의 절차를 구현하도록 하는 바람직하게 컴퓨터 프로그램으로서 이미지 캡처링 장치로 구현될 수 있다. 컴퓨터 프로그램 SW의 기능은 서로 통신하는 몇몇의 개별적인 프로그램 컴포넌트들에 분산될 수 있다. 컴퓨터 소프트웨어는 PC의 하드 디스크 또는 CD-ROM 디스크와 같은 임의의 메모리 수단에 저장될 수 있고, 이로부터 컴퓨터 소프트웨어는 장치의 메모리에 로딩될 수 있다. 컴퓨터 소프트웨어는, 예를 들면, TCP/IP 프로토콜 스택을 사용하여 네트워크를 통해 또한 로딩될 수 있다.

본 발명의 수단을 구현하기 위해 하드웨어 솔루션 또는 하드웨어 및 소프트웨어 솔루션의 조합을 사용하는 것이 또한 가능하다. 따라서, 상기 컴퓨터 프로그램 제품은 하드웨어 모듈을 전자 장치에 접속하기 위한 접속 수단을 포함하는 하드웨어 모듈에서, 예를 들면, ASIC 또는 FPGA 회로, 또는 하나 이상의 집적 회로 IC와 같은 하드웨어 솔루션으로서 적어도 부분적으로 구현될 수 있고, 하드웨어 모듈 또는 IC는 상기 프로그램 코드 태스크들을 수행하기 위한 다양한 수단을 더 포함하고, 상기 수단은 하드웨어 및/또는 소프트웨어로서 구현된다.

본 발명이 상기에 제시된 실시예로만 제한되지 않고 첨부된 청구항의 범위 내에서 수정될 수 있다는 것이 명백하다.

Claims

이미지 캡처링 장치에 의해 이미지 캡처링을 제어하는 방법에 있어서,
상기 이미지 캡처링 장치의 셔터를 해제하기 위한 의도된 순간을 포함하는 시간 기간에 대응하는 복수의 이미지들을 수신하는 단계와,
오디오 수신 수단을 사용하여 상기 복수의 이미지들과 연관된 오디오 신호를 수신하는 단계와,
원하는 출력 이미지와 연관된 청각 이벤트(auditory event)를 결정하기 위해 상기 수신된 오디오 신호를 분석하는 단계와,
상기 원하는 출력 이미지를 획득하도록, 추가적인 프로세싱을 위한 상기 수신된 오디오 신호의 분석에 기초하여 상기 복수의 이미지들 중 적어도 하나를 선택하는 단계를 포함하고,
상기 수신된 오디오 신호를 분석하는 단계는, 상기 복수의 이미지들로부터, 상기 오디오 신호를 생성하는 대상이 상기 복수의 이미지들을 제공하는 상기 이미지 캡처링 장치에 가장 가까운 적어도 하나의 이미지를 결정하기 위해, 상기 수신된 오디오 신호의 기본 주파수를 추정하는 단계를 포함하는
방법.
제 1 항에 있어서,
상기 복수의 이미지들을 수신하는 단계는, 상기 이미지 캡처링 장치의 사용자가 상기 의도된 순간에 셔터를 해제하라는 명령을 제공하는 것에 응답하여, 이미지 캡처링 유닛을 사용하여 상기 의도된 순간을 포함하는 시간 기간 동안에 상기 복수의 이미지들을 캡처링하는 단계를 포함하고,
상기 오디오 신호를 수신하는 단계는 오디오 캡처링 수단을 사용하여 상기 복수의 이미지들과 연관된 오디오 신호를 캡처링하는 단계를 포함하는
방법.
제 1 항 또는 제 2 항에 있어서,
상기 의도된 순간 전에 제 1 시간 인스턴트(time instant)에 대응하는 복수의 이미지들을 수신하는 단계를 더 포함하는
방법.
제 1 항 또는 제 2 항에 있어서,
상기 의도된 순간 후에 제 2 시간 인스턴트에 대응하는 복수의 이미지들을 수신하는 단계를 더 포함하는
방법.
제 1 항 또는 제 2 항에 있어서,
상기 오디오 수신 수단은 하나 이상의 마이크로폰들을 포함하는
방법.
제 1 항 또는 제 2 항에 있어서,
상기 오디오 수신 수단은 2 개 이상의 마이크로폰들로 구성된 마이크로폰 어레이를 포함하는
방법.
제 6 항에 있어서,
상기 수신된 오디오 신호를 분석하는 단계는, 상기 오디오 신호를 생성하는 대상이 상기 이미지의 원하는 부분 내에 있을 때를 결정하기 위해 상기 오디오 신호의 도착 방향을 추정하는 단계를 포함하는
방법.
제 7 항에 있어서,
상기 마이크로폰 어레이에 수직으로 존재하는 상기 오디오 신호를 생성하는 대상은, 상기 대상이 상기 이미지의 원하는 부분 내에 있을 때를 결정하는데 사용되는
방법.
제 1 항 또는 제 2 항에 있어서,
상기 수신된 오디오 신호를 분석하는 단계는, 상기 복수의 이미지들 내에서 관심 있는 이벤트를 결정하기 위해 상기 수신된 오디오 신호의 에너지를 추정하는 단계를 포함하는
방법.
제 9 항에 있어서,
상기 수신된 오디오 신호의 상기 에너지의 급격한 변화는 상기 관심 있는 이벤트의 원하는 순간을 결정하는데 사용되는
방법.
삭제
제 1 항에 있어서,
상기 오디오 신호를 생성하는 대상이 상기 복수의 이미지들을 제공하는 상기 이미지 캡처링 장치에 근접해 있는 이미지를 선택하기 위해 상기 기본 주파수의 추정을 사용하는 단계를 더 포함하는
방법.
제 1 항 또는 제 2 항에 있어서,
상기 수신된 오디오 신호를 분석하는 단계는,
상기 복수의 이미지들을 제공하는 상기 이미지 캡처링 장치와 상기 오디오 신호를 생성하는 대상 사이의 거리에 관련된 정보를 획득하는 단계와,
상기 거리에 대한 음속에 의해 발생되는 지연으로 상기 오디오 신호의 수신 속도를 조정하는 단계를 포함하는
방법.
이미지 캡처링을 제어하는 장치로서,
이미지 캡처링 장치의 셔터를 해제하기 위한 의도된 순간을 포함하는 시간 기간에 대응하는 복수의 이미지들을 수신하기 위한 이미지 수신 유닛과,
오디오 캡처링 수단을 사용하여 상기 복수의 이미지들과 연관된 오디오 신호를 수신하기 위한 오디오 수신 유닛과,
원하는 출력 이미지와 연관된 청각 이벤트를 결정하기 위해 상기 수신된 오디오 신호를 분석하기 위한 분석 유닛과,
상기 원하는 출력 이미지를 획득하도록, 추가적인 프로세싱을 위한 상기 수신된 오디오 신호의 분석에 기초하여 상기 복수의 이미지들 중 적어도 하나를 선택하기 위한 선택 유닛을 포함하고,
상기 분석 유닛은, 상기 복수의 이미지들로부터, 상기 오디오 신호를 생성하는 대상이 상기 복수의 이미지들을 제공하는 이미지 캡처링 장치에 가장 가까운 적어도 하나의 이미지를 결정하기 위해, 상기 수신된 오디오 신호의 기본 주파수를 추정하도록 구성되는
장치.
제 14 항에 있어서,
적어도 하나의 이미지를 수신하도록 상기 의도된 순간에 셔터를 해제하라는 명령을 제공하는 셔터 릴리즈 수단을 더 포함하되,
상기 이미지 수신 유닛은 상기 의도된 순간을 포함하는 시간 기간 동안에 상기 복수의 이미지들을 캡처링하기 위한 이미지 캡처링 유닛을 포함하고, 상기 장치의 사용자가 상기 의도된 순간에 상기 셔터를 해제하라는 명령을 제공하는 것에 응답하며,
상기 오디오 수신 유닛은 오디오 캡처링 수단을 사용하여 상기 복수의 이미지들과 연관된 오디오 신호를 캡처링하기 위한 오디오 캡처링 유닛을 포함하는
장치.
제 14 항 또는 제 15 항에 있어서,
상기 이미지 수신 유닛은 상기 의도된 순간 전에 제 1 시간 인스턴트에 대응하는 복수의 이미지들을 수신하도록 구성되는
장치.
제 14 항 또는 제 15 항에 있어서,
상기 이미지 수신 유닛은 상기 의도된 순간 후에 제 2 시간 인스턴트에 대응하는 복수의 이미지들을 수신하도록 구성되는
장치.
제 14 항 또는 제 15 항에 있어서,
상기 오디오 수신 유닛은 하나 이상의 마이크로폰들을 포함하는
장치.
제 14 항 또는 제 15 항에 있어서,
상기 오디오 수신 유닛은 2 개 이상의 마이크로폰들로 구성된 마이크로폰 어레이를 포함하는
장치.
제 19 항에 있어서,
상기 분석 유닛은, 상기 오디오 신호를 생성하는 대상이 상기 이미지의 원하는 부분 내에 있을 때를 결정하기 위해 상기 마이크로폰 어레이에 의해 캡처링된 상기 오디오 신호의 도착 방향을 추정하도록 구성되는
장치.
제 20 항에 있어서,
상기 분석 유닛은, 상기 오디오 신호를 생성하는 대상이 상기 마이크로폰 어레이에 수직으로 존재할 때 상기 대상이 상기 이미지의 원하는 부분 내에 있다고 결정하도록 구성되는
장치.
제 14 항 또는 제 15 항에 있어서,
상기 분석 유닛은 상기 복수의 이미지들 내의 관심 있는 이벤트를 결정하기 위해 상기 수신된 오디오 신호의 에너지를 추정하도록 구성되는
장치.
제 22 항에 있어서,
상기 분석 유닛은, 상기 관심 있는 이벤트의 원하는 순간이 상기 수신된 오디오 신호의 상기 에너지의 급격한 변화가 존재할 때라고 결정하도록 구성되는
장치.
삭제
제 14 항에 있어서,
상기 장치는, 상기 오디오 신호를 생성하는 대상이 상기 복수의 이미지들을 제공하는 상기 이미지 캡처링 장치에 근접해 있는 이미지를 선택하기 위해 상기 기본 주파수의 추정을 사용하도록 구성되는
장치.
제 14 항 또는 제 15 항에 있어서,
상기 장치는,
상기 복수의 이미지들을 제공하는 이미지 캡처링 장치와 상기 오디오 신호를 생성하는 대상 사이의 거리에 관련된 정보를 획득하고,
상기 거리에 대한 음속에 의해 발생되는 지연으로 상기 오디오 신호의 수신 속도를 조정하도록 구성되는
장치.
데이터 프로세싱 장치에서 이미지 캡처링을 제어하기 위해 실행 가능한 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능 매체로서,
상기 컴퓨터 프로그램은,
이미지 캡처링 장치의 셔터를 해제하기 위한 의도된 순간을 포함하는 시간 기간에 대응하는 복수의 이미지들을 수신하기 위한 컴퓨터 프로그램 코드 섹션과,
오디오 캡처링 수단을 사용하여 상기 복수의 이미지들과 연관된 오디오 신호를 수신하기 위한 컴퓨터 프로그램 코드 섹션과,
원하는 출력 이미지와 연관된 청각 이벤트를 결정하기 위해 상기 수신된 오디오 신호를 분석하기 위한 컴퓨터 프로그램 코드 섹션과,
상기 원하는 출력 이미지를 획득하도록, 추가적인 프로세싱을 위한 상기 수신된 오디오 신호의 분석에 기초하여 상기 복수의 이미지들 중 적어도 하나를 선택하기 위한 컴퓨터 프로그램 코드 섹션과,
상기 복수의 이미지들로부터, 상기 오디오 신호를 생성하는 대상이 상기 복수의 이미지들을 제공하는 이미지 캡처링 장치에 가장 가까운 적어도 하나의 이미지를 결정하기 위해, 상기 수신된 오디오 신호의 기본 주파수를 추정하는 컴퓨터 프로그램 코드 섹션을 포함하는
컴퓨터 판독 가능 매체.
제 27 항에 있어서,
상기 복수의 이미지들을 수신하기 위한 컴퓨터 프로그램 코드 섹션은, 상기 데이터 프로세싱 장치의 사용자가 상기 의도된 순간에 셔터를 해제하라는 명령을 제공하는 것에 응답하여, 이미지 캡처링 유닛을 사용하여 상기 의도된 순간을 포함하는 시간 기간 동안에 상기 복수의 이미지들을 캡처링하기 위한 컴퓨터 프로그램 코드 섹션을 포함하고,
상기 오디오 신호를 수신하기 위한 컴퓨터 프로그램 코드 섹션은 오디오 캡처링 수단을 사용하여 상기 복수의 이미지들과 연관된 오디오 신호를 캡처링하기 위한 컴퓨터 프로그램 코드 섹션을 포함하는
컴퓨터 판독 가능 매체.
제 27 항 또는 제 28 항에 있어서,
상기 컴퓨터 프로그램은,
상기 의도된 순간 전에 제 1 시간 인스턴트에 대응하는 복수의 이미지들을 수신하기 위한 컴퓨터 프로그램 코드 섹션을 더 포함하는
컴퓨터 판독 가능 매체.
제 27 항 또는 제 28 항에 있어서,
상기 컴퓨터 프로그램은,
상기 의도된 순간 후에 제 2 시간 인스턴트에 대응하는 복수의 이미지들을 수신하기 위한 컴퓨터 프로그램 코드 섹션을 더 포함하는
컴퓨터 판독 가능 매체.
제 27 항 또는 제 28 항에 있어서,
상기 컴퓨터 프로그램은,
상기 오디오 신호를 생성하는 대상이 상기 이미지의 원하는 부분 내에 있을 때를 결정하기 위해, 2 개 이상의 마이크로폰들로 구성된 마이크로폰 어레이로부터 수신된 상기 오디오 신호의 도착 방향을 추정하는 컴퓨터 프로그램 코드 섹션을 더 포함하는
컴퓨터 판독 가능 매체.
제 31 항에 있어서,
상기 컴퓨터 프로그램은,
상기 오디오 신호를 생성하는 대상이 상기 마이크로폰 어레이에 수직으로 존재할 때, 상기 대상이 상기 이미지의 원하는 부분 내에 있다고 결정하기 위한 컴퓨터 프로그램 코드 섹션을 더 포함하는
컴퓨터 판독 가능 매체.
제 27 항 또는 제 28 항에 있어서,
상기 컴퓨터 프로그램은,
상기 복수의 이미지들 내의 관심 있는 이벤트를 결정하기 위해 상기 수신된 오디오 신호의 에너지를 추정하기 위한 컴퓨터 프로그램 코드 섹션을 더 포함하는
컴퓨터 판독 가능 매체.
제 33 항에 있어서,
상기 컴퓨터 프로그램은,
상기 관심 있는 이벤트의 원하는 순간이 상기 수신된 오디오 신호의 상기 에너지의 급격한 변화와 일치한다고 결정하기 위한 컴퓨터 프로그램 코드 섹션을 더 포함하는
컴퓨터 판독 가능 매체.
삭제
제 27 항에 있어서,
상기 컴퓨터 프로그램은,
상기 오디오 신호를 생성하는 대상이 상기 복수의 이미지들을 제공하는 상기 이미지 캡처링 장치에 근접해 있는 이미지를 선택하기 위해 상기 기본 주파수의 추정을 사용하는 컴퓨터 프로그램 코드 섹션을 더 포함하는
컴퓨터 판독 가능 매체.
제 27 항 또는 제 28 항에 있어서,
상기 컴퓨터 프로그램은,
상기 복수의 이미지들을 제공하는 이미지 캡처링 장치 및 상기 오디오 신호를 생성하는 대상 사이의 거리에 관련된 정보를 획득하기 위한 컴퓨터 프로그램 코드 섹션과,
상기 거리에 대한 음속에 의해 발생되는 지연으로 상기 오디오 신호의 수신 속도를 조정하기 위한 컴퓨터 프로그램 코드 섹션을 더 포함하는
컴퓨터 판독 가능 매체.
데이터 프로세싱 장치에 부착 가능한 카메라 모듈로서,
상기 데이터 프로세싱 장치의 사용자가 의도된 순간에 상기 카메라 모듈의 셔터를 해제하라는 명령을 제공하는 것에 응답하여, 상기 셔터를 해제하기 위한 상기 의도된 순간을 포함하는 기간 동안에 복수의 이미지들을 캡처링하기 위한 이미지 캡처링 유닛과,
오디오 캡처링 수단을 사용하여 상기 복수의 이미지들과 연관된 오디오 신호를 캡처링하기 위한 오디오 캡처링 유닛과,
원하는 출력 이미지와 연관된 청각 이벤트를 결정하기 위해 상기 캡처링된 오디오 신호를 분석하기 위한 분석 유닛과,
상기 원하는 출력 이미지를 획득하도록, 추가적인 프로세싱을 위한 상기 캡처링된 오디오 신호의 분석에 기초하여 상기 복수의 이미지들 중 적어도 하나를 선택하기 위한 선택 유닛을 포함하고,
상기 분석 유닛은, 상기 복수의 이미지들로부터, 상기 오디오 신호를 생성하는 대상이 상기 복수의 이미지들을 제공하는 이미지 캡처링 장치에 가장 가까운 적어도 하나의 이미지를 결정하기 위해, 상기 오디오 신호의 기본 주파수를 추정하도록 구성되는
카메라 모듈.