KR20110126377A

KR20110126377A - 자동 음성 초점 기능이 구비된 음향신호 처리 장치 및 그 방법

Info

Publication number: KR20110126377A
Application number: KR1020100046028A
Authority: KR
Inventors: 임동영
Original assignee: 주식회사 에스원
Priority date: 2010-05-17
Filing date: 2010-05-17
Publication date: 2011-11-23
Also published as: KR101106786B1

Abstract

본 발명의 실시예에 따르면, 지향성 마이크를 이용하여 원하는 방향의 음향신호를 취득하여 처리하는 방법에 관한 것이다. 음향신호 처리 장치는 카메라가 촬영한 영상을 입력받아 인물의 얼굴을 검출한다. 그리고 영상에서 인물의 얼굴이 위치하는 방향을 계산한다. 그러면, 지향성 마이크를 이용하여 인물의 얼굴이 위치한 방향에서 발생하는 음성신호만을 취득한다.

Description

자동 음성 초점 기능이 구비된 음향신호 처리 장치 및 그 방법{SOUND SIGNAL PROCESSING UNIT WITH FUNCTION CONTROLLING SOUND FOCUS AND METHOD THEREOF}

본 발명은 자동 음성 초점 기능이 구비된 음향신호 처리 장치 및 그 방법에 관한 것이다. 더욱 상세하는 원하는 방향의 소리만을 입력할 수 있는 지향성 마이크를 이용하여 특정음에 대한 초점을 맞출 수 있는 자동 음성 초점 기능이 구비된 음향신호 처리 장치 및 그 방법에 관한 것이다.

일반적으로, 영상을 촬영하게 되면 취득하고자 하는 소리와 주변 소음이 같이 녹음된다.

이때, 주변 소음을 제거하기 위해 종래에는 지향성 마이크를 이용하여 원하는 방향의 신호만을 수신한다. 하지만, 이런 경우, 원하는 신호가 수신되는 방향으로 그때그때 지향성 마이크의 방향을 변경해 주어야 하는 불편함이 존재한다.

또한, 주변 소음을 제거하는 신호 처리 알고리즘을 사용하는 경우, 이러한 신호 처리 알고리즘이 복잡하여 구현 상의 어려운 문제가 있다. 게다가 제대로 주변 소음이 필터링이 되지 않아 잡음이 심하게 발생하는 문제점이 있다.

본 발명의 한 특징에 따르면 음향신호 처리 장치가 제공된다. 이 장치는, 지향성 마이크를 이용하여 원하는 방향의 음향신호를 취득하여 처리하는 장치에 있어서, 카메라가 촬영한 영상에서 인물의 얼굴을 인식하는 인식부; 상기 영상에서 상기 인물의 얼굴이 위치한 방향을 계산하는 계산부; 및 상기 지향성 마이크를 이용하여 상기 인물의 얼굴이 위치한 방향에서 발생하는 음성신호를 취득하여 처리하는 음성신호 처리부를 포함한다.

본 발명의 다른 특징에 따르면 음향신호 처리 방법이 제공된다. 이 방법은, 지향성 마이크를 이용하여 원하는 방향의 음향신호를 취득하여 처리하는 방법에 있어서, 카메라가 촬영한 영상을 입력받아 상기 영상에서 인물의 얼굴을 검출하는 단계; 상기 영상에서 상기 인물의 얼굴이 위치하는 방향을 계산하는 단계; 및 상기 지향성 마이크를 이용하여 상기 인물의 얼굴이 위치한 방향에서 발생하는 음성신호를 취득하여 처리하는 단계를 포함한다.

본 발명의 실시예에 따르면, 지향성 마이크를 기계적으로 움직이지 않더라도 음성신호가 발생하는 얼굴이 위치한 방향의 마이크의 가중치를 전자적으로 변화시킴으로써, 원하는 방향의 신호만을 선택적으로 입력하고 원하지 않는 방향의 음원을 제거할 수 있다.

또한, 비디오 녹화 장치를 사용하여 일반적인 인물 촬영시 녹화장치 이외의 추가적인 장비 없이 소음을 제거할 수 있다.

또한, 지향성 마이크의 가중치를 선택할 때, 각도 계산없이 화면 중심부로부터 각각의 인물의 얼굴 오브젝트 위치를 구함으로써 연산의 고속화를 가져온다.

도 1은 본 발명의 실시예에 따른 음향신호 처리 장치의 내부 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 음향신호 처리 방법을 나타낸 순서도이다.
도 3은 본 발명의 실시예에 따른 지향성 마이크의 배치도이다.
도 4는 본 발명의 실시예에 따른 영상에서 얼굴 방향을 계산하는 과정을 나타낸 순서도이다.
도 5는 본 발명의 실시예에 따른 영상에서 얼굴의 위치를 나타낸다.
도 6은 본 발명의 실시예에 따른 음향신호 처리 과정을 나타낸 순서도이다.
도 7은 본 발명의 실시예에 따른 룩업 테이블의 구성을 나타낸다.
도 8은 본 발명의 실시예에 따른 룩업 테이블에서 얼굴 위치에 따른 가중치를 선택하는 경우를 나타낸다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

이하, 도면을 참조로 하여 본 발명의 실시예에 따른 자동 음성 초점 기능이 구비된 음향신호 처리 장치 및 그 방법에 대하여 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 음향신호 처리 장치의 내부 구성을 나타낸 블록도이다.

도 1을 참조하면, 촬영부(100) 및 음향신호 처리 장치(200)는 촬영 시스템, 단말장치 등을 비롯한 하나의 장치에서 해당 기능을 수행하는 별개의 구성 요소로 탑재될 수 있다.

여기서, 촬영부(100)는 영상을 촬영하는 카메라(101) 및 복수의 지향성 마이크(103, 105, 107, 109)로 구성되는데, 본 실시예에서는 4개의 지향성 마이크가 사용된 경우로 가정한다.

이때, 복수의 지향성 마이크(103, 105, 107, 109)는 지향각이 서로 다르며, 각각의 지향각에 따른 방향의 소리만을 입력할 수 있게 한다.

또한, 복수의 지향성 마이크(103, 105, 107, 109)는 지향각이 매우 좁은 초지향성 마이크 및 지향각이 상대적으로 넓은 지향성 마이크로 구성될 수 있다.

한편, 음향신호 처리 장치(200)는 촬영부(1000)와 연동하여 동작하고, 및 복수의 지향성 마이크(103, 105, 107, 109)로부터 입력되는 음향신호를 처리한다.

이때, 음향신호 처리 장치(200)는 배치부(201), 입력부(203), 모드 선택부(205), 음향신호 처리부(207), 인식부(209), 계산부(211), 저장부(213), 선택부(215) 및 음성신호 처리부(217)를 포함한다.

배치부(201)는 카메라(101) 및 복수의 지향성 마이크(103, 105, 107, 109)와 연결되고, 복수의 지향성 마이크(103, 105, 107, 109)를 카메라(101)의 화면 상에 배치시킨다.

입력부(203)는 모드 선택부(205)와 연결되고, 사용자의 선택에 따른 촬영 모드를 입력받아 모드 선택부(205)로 전달한다.

모드 선택부(205)는 입력부(203), 음향신호 처리부(207) 및 인식부(209)와 연결되고, 입력부(203)로부터 전달되는 촬영 모드가 풍경 촬영 모드인 경우 음향신호 처리부(207)의 동작을 명령하고, 인물 촬영 모드인 경우 인식부(209)의 동작을 명령한다.

음향신호 처리부(207)는 복수의 지향성 마이크(103, 105, 107, 109)와 각각 연결되고, 복수의 지향성 마이크(103, 105, 107, 109)로부터 입력되는 음향신호를 처리한다.

인식부(209)는 카메라(101), 모드 선택부(205) 및 계산부(211)와 연결되고, 모드 선택부(205)의 동작 명령에 따라 카메라(101)로부터 입력되는 영상에서 인물의 얼굴을 검출하여 계산부(211)로 전달한다.

계산부(211)는 인식부(209) 및 선택부(215)와 연결되고, 인식부(209)로부터 전달받은 인물의 얼굴이 위치한 방향을 계산하여 선택부(215)로 전달한다. 이때, 계산부(211)는 인물의 얼굴로 판단되는 오브젝트 별로 인물의 얼굴 중심을 계산한다. 그리고 화면의 중심부에서 인물의 얼굴 중심에 이르는 가로 거리를 인물의 얼굴이 위치한 방향으로 계산한다.

저장부(213)는 화면을 구성하는 픽셀의 위치 별로 복수의 지향성 마이크 각각에 대한 가중치가 서로 다르게 설정된 룩업 테이블을 저장한다. 여기서, 픽셀의 위치는 화면의 중심부에서 픽셀까지의 가로 거리를 의미한다.

선택부(215)는 저장부(213)에 저장된 룩업 테이블을 검색하여 계산부(211)에서 전달받은 화면의 중심부에서 인물의 얼굴 중심에 이르는 가로 거리에 대응하는 화면의 중심부에서 픽셀까지의 가로 거리 및 가중치를 선택한다.

음성신호 처리부(217)는 복수의 지향성 마이크(103, 105, 107, 109) 및 선택부(215)와 연결된다. 음성신호 처리부(217)는 복수의 지향성 마이크(103, 105, 107, 109)로부터 입력되는 음향신호를 선택부(215)가 선택한 가중치를 이용하여 보정함으로써 인식부(209)가 검출한 인물의 얼굴이 위치하는 방향에서 발생하는 음성신호 만을 취득한다.

이상 설명한 음향신호 처리 장치(200)의 동작에 대해 도 2 내지 도 8을 참조하여 설명한다. 이때, 도 1의 각 구성 요소의 동작을 설명할 때, 도 1과 동일한 도면 부호를 사용한다.

도 2는 본 발명의 실시예에 따른 음성신호 처리 방법을 나타낸 순서도이고, 도 3은 본 발명의 실시예에 따른 지향성 마이크의 배치도이다.

먼저, 도 2를 참조하면, 배치부(201)는 마이크 배치 각도를 계산한다(S101). 이때, 배치부(201)는 촬영부(100)를 구성하는 복수의 지향성 마이크(103, 105, 107, 109)의 수를 계산한다. 그리고 카메라(101)의 화각을 마이크의 수로 나누어 마이크배치 각도를 계산한다.

배치부(201)는 S101 단계에서 계산된 마이크 배치 각도에 따라 화면의 기준선인 중심부로부터 배치 각도 사이의 중앙에 복수의 지향성 마이크(103, 105, 107, 109)를 각각 배치시킨다(S103).

도 3을 참조하여 S101 단계 및 S103 단계를 상세히 설명하면, 예를 들어 화각이 160°라고 가정한다. 이때, 복수의 지향성 마이크(103, 105, 107, 109)의 개수는 4이다. 따라서, 마이크 배치 각도는 40°이다.

배치부(201)는 화면의 중심부 즉 0°를 기준으로 좌측 방향으로 화면을, 40°, 80°로 나누고, 우측 방향으로 -40°, -80°로 나눈다. 그리고 0°~ 40°사이의 중앙 지점인 20°방향, 40°~ 80°사이의 중앙 지점인 60°방향, 0°~ -40°사이의 중앙 지점인 -20°방향 및 -40°~ -80°사이의 중앙 지점인 -60°방향에 복수의 지향성 마이크(103, 105, 107, 109)를 각각 배치시킨다.

이때, 배치부(201)는 화면의 중심부를 기준으로 좌우측 방향에 각각 서로 다른 지향각을 가지는 복수의 지향성 마이크(103, 105, 107, 109)를 배치시킨다. 여기서, 인물의 얼굴은 화면의 중심부에 위치하는 것이 일반적이므로 화면의 중심부에서 가까운 곳에 위치할 수록 마이크의 지향성이 좁은 것을 사용한다. 즉 지향각이 좁은 초지향성 마이크를 화면의 중심부와 가까운 방향에 위치시킨다. 그리고 지향각이 초지향성 마이크의 2배 이상인 지향성 마이크를 화면의 중심부에서 떨어진 가장자리 방향에 위치시킨다.

배치부(201)에 의해 복수의 지향성 마이크(103, 105, 107, 109)의 배치가 완료된 이후, 모드 선택부(203)는 입력부(201)로부터 사용자의 선택에 따른 촬영 모드를 입력받는다(S105).

그러면, 모드 선택부(203)는 S105 단계에서 입력받은 촬영 모드가 인물 촬영 모드인지 또는 풍경 촬영 모드인지를 판단한다(S107).

S107 단계에서 인물 촬영 모드로 판단되는 경우, 인식부(209)는 카메라(101)로부터 입력(S109)받은 영상에서 인물의 얼굴을 인식한다(S111). 이때, 인물의 얼굴 인식은 이미 공개된 다수의 얼굴 인식 해석 알고리즘 중에서 미리 선택 저장된 얼굴 인식 해석 알고리즘을 이용하여 처리된다. 예를 들어, 인식부(209)는 영상으로부터 조명 효과를 제거하고, 조명 효과가 제거된 영상을 벡터 변환하여 특징점을 검출하며, 이러한 특징점을 이용하여 인물의 얼굴을 인식할 수 있다.

이후, 계산부(211)는 인식부(209)로부터 전달받은 인물의 얼굴이 영상에서 위치하는 방향을 계산한다(S113).

그러면, 음성신호 처리부(217)는 복수의 지향성 마이크(103, 105, 107, 109)에서 입력되는 음향신호를 S113 단계에서 계산된 인물의 얼굴 방향을 이용하여 보정하여, 인물의 얼굴 방향에서 발생하는 음성신호만을 검출한다(S115).

한편, S107 단계에서 풍경 촬영 모드로 판단되는 경우, 음향신호 처리 장치(207)가 카메라(101)로부터 입력(S109)받은 영상에서 음향신호를 취득한다(S117). 그리고 복수의 지향성 마이크(103, 105, 107, 109)에서 입력되는 음향신호의 평균치로 보정한다(S119).

이하에서는 S113 단계를 상세히 설명하는데, 도 4는 본 발명의 실시예에 따른 영상에서 얼굴 방향을 계산하는 과정을 나타낸 순서도이고, 도 5는 본 발명의 실시예에 따른 영상에서 얼굴의 위치를 나타낸다.

먼저, 도 4를 참조하면, 인식부(209)는 카메라(101)로부터 입력되는 영상에서 인물의 얼굴이 검출되는지를 판단한다(S201).

이때, 인물의 얼굴이 검출되는 경우, 입력받은 영상에서 인물의 얼굴 및 몸체를 동시에 트랙킹한다(S203). 그리고 얼굴과 매치된 몸체가 화면에서 사라지는지를 판단한다(S205).

S205 단계에서 화면에서 얼굴과 매치된 몸체가 사라지지 않는 경우로 판단되면, 인식부(209)는 인물의 얼굴로 판단되는 오브젝트를 판단한다(S207). 이때, 오브젝트는 하나 이상일 수 있다.

그러면, 계산부(211)는 S207 단계에서 판단된 하나 이상의 오브젝트 별로 인물의 얼굴 중심을 계산한다(S209). 그리고 화면의 중심부에서 인물의 얼굴 중심에 이르는 거리를 계산한다(S211).

이때, S207 단계~S211 단계에 대해 도 5를 참조하여 보다 상세히 설명하면, 다음과 같다.

도 5를 참조하면, 기준선은 화면(300)의 중심부에 위치한다. 기준선을 중심으로 좌측 방향의 화면을 구성하는 픽셀 수는 W이다.

여기서, 좌우측 방향의 화면에는 각각 인물의 얼굴 오브젝트(301)가 검출된다. 이때, 인물의 얼굴 오브젝트(301)에서 사각형(303)의 무게 중심을 인물의 얼굴 중심(305)이라 판단한다.

따라서, 계산부(211)는 기준선에서 인물의 얼굴 중심(305)에 이르는 거리 즉 X를 계산하고, 이를 인물의 얼굴 방향으로 계산해내는 것이다.

한편, 이하에서는 S115 단계를 상세히 설명하는데, 도 6은 본 발명의 실시예에 따른 음성신호 처리 과정을 나타낸 순서도이고, 도 7은 본 발명의 실시예에 따른 룩업 테이블의 구성을 나타내며, 도 8은 본 발명의 실시예에 따른 룩업 테이블에서 얼굴 위치에 따른 가중치를 선택하는 경우를 나타낸다.

먼저, 도 6을 참조하면, 선택부(215)는 계산부(211)가 인물의 얼굴 방향 즉 화면의 중심부에서 인물의 얼굴 중심에 이르는 거리 계산이 완료(S301)되면, 미리 저장된(S303) 룩업 테이블에서 해당되는 가중치를 선택한다(S305). 이때, 룩업 테이블은 도 7과 같이 구성된다.

도 7을 참조하면, 룩업 테이블(400)은 마이크 이름(또는 순번), 가중치 및 인덱스의 항목으로 이루어진다. 이때, 인덱스는 픽셀의 위치이다. 여기서, 픽셀의 위치는 화면의 중심부 즉 기준선에서 픽셀까지의 좌우 가로 방향의 거리를 의미한다. 이때, 인덱스는 전체 픽셀 수와 기준선에서 픽셀까지의 거리 비로 나타낼 수 있으며, 예를 들어 W/2, W/4의 형태로 나타낼 수 있는 것이다.

또한, 룩업 테이블(400)에는 화면을 구성하는 픽셀의 위치 별로 복수의 지향성 마이크(103, 105, 107, 109)의 가중치가 서로 다르게 설정된다.

예를 들어, 기준선에서 우측 방향으로 W 거리에 해당하는 인덱스는 -W이고,가중치는 마이크 1이 0.75, 마이크 2~마이크 4에는 모두 0이 설정된다. 또한, 기준선의 인덱스는 0이고, 가중치는 마이크 1과 마이크 4가 0.25, 마이크 2와 마이크 3가 0.5로 설정된다.

이와 같이, 복수의 지향성 마이크(103, 105, 107, 109) 각각에 대해서 기준선에서 좌우 방향의 픽셀 위치 별로 서로 다른 가중치가 설정되어 있다.

한편, 도 8을 참조하면, 선택부(215)는 계산부(211)가 계산한 기준선에서 인물의 얼굴 중심(305)에 이르는 거리 즉 X이므로, 인덱스 X에 매핑된 가중치들을 검출한다. 이때, 검출되는 가중치는 각각 마이크 1 및 마이크 2에는 0, 마이크 3 및 마이크 4에는 0.75이다.

이후, 음성신호 처리부(217)는 선택부(215)로부터 전달받은 가중치를 복수의 지향성 마이크(103, 105, 107, 109) 중에서 해당되는 지향성 마이크로부터 입력되는 음향신호에 적용한다(S307). 즉 입력되는 음향신호를 해당 가중치를 이용하여 보정함으로써, 인물의 얼굴 방향에서 발생하는 음성신호만을 검출한다(S309).

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

100: 촬영부 101: 카메라
103: 마이크1 105: 마이크2
107: 마이크3 109: 마이크4
200: 음향신호 처리 장치 201: 배치부
203: 입력부; 205: 모드 선택부
207: 음향신호 처리부 209: 인식부
211: 계산부 213: 저장부
215: 선택부 217: 음성신호 처리부

Claims

지향성 마이크를 이용하여 원하는 방향의 음향신호를 취득하여 처리하는 장치에 있어서,
카메라가 촬영한 영상에서 인물의 얼굴을 인식하는 인식부;
상기 영상에서 상기 인물의 얼굴이 위치한 방향을 계산하는 계산부; 및
상기 지향성 마이크를 이용하여 상기 인물의 얼굴이 위치한 방향에서 발생하는 음성신호를 취득하여 처리하는 음성신호 처리부
를 포함하는 음향신호 처리 장치.
제1항에 있어서,
상기 카메라의 화각 및 지향각이 서로 다른 복수의 지향성 마이크를 이용하여 마이크 배치 간격을 산출하고, 상기 마이크 배치 간격을 이용하여 상기 복수의 지향성 마이크를 화면 상에 각각 배치시키는 배치부
를 더 포함하는 음향신호 처리 장치.
제2항에 있어서,
상기 배치부는,
상기 복수의 지향성 마이크 중에서 초지향성 마이크를 상기 화면의 중심 부위에 위치시키고, 상기 초지향성 마이크에 비해 상대적으로 지향각이 넓은 지향성 마이크를 상기 화면의 중심부에서 떨어진 가장자리 방향으로 위치시키는 것을 특징으로 하는 음향신호 처리 장치.
제2항에 있어서,
상기 계산부는,
상기 인식부로부터 전달받은 상기 인물의 얼굴로 판단되는 오브젝트 별로 상기 인물의 얼굴 중심을 계산하고, 상기 화면의 중심부에서 상기 인물의 얼굴 중심에 이르는 거리를 상기 인물의 얼굴이 위치한 방향으로 계산하는 것을 특징으로 하는 음향신호 처리 장치.
제4항에 있어서,
화면을 구성하는 픽셀의 위치-여기서 픽셀의 위치는 상기 화면의 중심부에서 상기 픽셀까지의 가로 거리를 의미함-별로 상기 복수의 지향성 마이크 각각에 대한 가중치가 서로 다르게 설정된 룩업 테이블을 저장하는 저장부; 및
상기 계산부가 계산한 상기 인물의 얼굴이 위치한 방향에 대응하는 픽셀의 위치를 상기 룩업 테이블에서 확인하고, 상기 픽셀의 위치에 설정된 지향성 마이크 및 가중치를 선택하는 선택부를 더 포함하고,
상기 음성신호 처리부는,
상기 선택부가 선택한 가중치를 이용하여 해당 지향성 마이크로부터 입력받은 음향신호를 보정하여 상기 인물의 얼굴이 위치한 방향에서 발생하는 음성신호만을 취득하는 것을 특징으로 하는 음향신호 처리 장치.
제1항에 있어서,
상기 인식부는,
상기 카메라로부터 입력되는 영상에서 인물의 얼굴 및 몸체를 동시에 트랙킹하고, 상기 몸체가 화면에서 사라지지 않는지를 판단하여 사라지지 않는 경우, 상기 인물의 얼굴을 검출하는 것을 특징으로 하는 음향신호 처리 장치.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 지향성 마이크를 통해 입력받은 음향신호의 평균치를 계산하고, 상기 평균치를 이용하여 상기 음향신호를 보정하는 음향신호 처리부; 및
사용자의 입력에 따른 촬영 모드를 선택하고, 상기 촬영 모드가 인물 촬영 모드인 경우 상기 인식부의 동작을 명령하고, 상기 촬영 모드가 풍경 촬영 모드인 경우, 상기 음향신호 처리부의 동작을 명령하는 선택부
를 더 포함하는 음향신호 처리 장치.
지향성 마이크를 이용하여 원하는 방향의 음향신호를 취득하여 처리하는 방법에 있어서,
카메라가 촬영한 영상을 입력받아 상기 영상에서 인물의 얼굴을 검출하는 단계;
상기 영상에서 상기 인물의 얼굴이 위치하는 방향을 계산하는 단계; 및
상기 지향성 마이크를 이용하여 상기 인물의 얼굴이 위치한 방향에서 발생하는 음성신호를 취득하여 처리하는 단계
를 포함하는 음향신호 처리 방법.
제8항에 있어서,
상기 검출하는 단계 이전에,
사용자의 입력에 따른 촬영 모드를 선택하는 단계; 및
상기 촬영 모드가 풍경 촬영 모드인 경우, 상기 지향성 마이크를 통해 입력받은 음향신호의 평균치를 이용하여 상기 음향신호를 보정하는 단계를 더 포함하고,
상기 촬영 모드가 인물 촬영 모드인 경우, 상기 검출하는 단계를 수행하는 것을 특징으로 하는 음향신호 처리 방법.
제8항 또는 제9항에 있어서,
상기 검출하는 단계 이전에,
상기 카메라의 화각 및 지향각이 서로 다른 복수의 지향성 마이크를 이용하여 마이크 배치 간격을 산출하는 단계; 및
상기 마이크 배치 간격을 이용하여 상기 복수의 지향성 마이크를 화면 상에 각각 배치시키는 단계
를 더 포함하는 음향신호 처리 방법.
제10항에 있어서,
상기 배치시키는 단계는,
상기 복수의 지향성 마이크 중에서 초지향성 마이크를 상기 화면의 중심 부위에 위치시키는 단계; 및
상기 초지향성 마이크에 비해 상대적으로 지향각이 넓은 지향성 마이크를 상기 화면의 중심부에서 떨어진 가장자리 방향으로 위치시키는 단계
를 포함하는 음향신호 처리 방법.
제10항에 있어서,
상기 계산하는 단계는,
상기 영상에서 상기 인물의 얼굴로 판단되는 오브젝트를 검출하는 단계;
상기 오브젝트 별로 상기 인물의 얼굴 중심을 계산하는 단계; 및
상기 화면의 중심부에서 상기 인물의 얼굴 중심에 이르는 거리를 상기 인물의 얼굴이 위치한 방향으로 계산하는 단계
를 포함하는 음향신호 처리 방법.
제12항에 있어서,
상기 계산하는 단계와 상기 처리하는 단계 사이에,
기 저장된 룩업 테이블-여기서 룩업 테이블은 상기 화면의 중심부에서 상기 화면을 구성하는 각각의 픽셀까지의 가로 거리마다 상기 복수의 지향성 마이크 각각에 대한 가중치가 서로 다르게 설정됨-을 검색하여 상기 인물의 얼굴이 위치한 방향에 대응하는 상기 픽셀까지의 가로 거리를 확인하는 단계; 및
상기 가로 거리에 설정된 상기 복수의 지향성 마이크 각각에 대한 가중치를 선택하는 단계를 더 포함하고,
상기 처리하는 단계는,
상기 가중치를 이용하여 해당 지향성 마이크로부터 입력받은 음향신호를 보정하여 상기 인물의 얼굴이 위치한 방향에서 발생하는 음성신호만을 취득하는 것을 특징으로 하는 음향신호 처리 방법.
제10항에 있어서,
상기 검출하는 단계는,
상기 카메라로부터 입력되는 영상에서 인물의 얼굴 및 몸체를 동시에 트랙킹하는 단계; 및
상기 몸체가 화면에서 사라지지 않는 경우, 상기 인물의 얼굴을 검출하는 단계
를 포함하는 음향신호 처리 방법.