KR20210087249A

KR20210087249A - 촬영장치 및 그 제어방법

Info

Publication number: KR20210087249A
Application number: KR1020200000277A
Authority: KR
Inventors: 김태현; 맹지찬
Original assignee: 엘지전자 주식회사
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2021-07-12
Also published as: US20210209787A1; US11321866B2

Abstract

본 발명은 5G 통신 네트워크를 통한 사물 인터넷 환경에서 동작할 수 있으며, 기계 학습에 따라 생성되는 신경망 모델을 통해 영상 내 소리를 내는 객체를 인식하여 해당하는 객체 방향으로 마이크의 빔 포밍 방향을 설정할 수 있는 촬영장치 및 그 제어방법을 제공한다.

Description

촬영장치 및 그 제어방법{APPROACH PHOTO GRAPHING DEVICE AND METHOD FOR CONTROLLING THE SAME}

본 발명은 영상에서 오디오가 발생하는 객체를 인식하여 해당하는 객체 방향으로 마이크 빔 포밍이 되도록 하여 오디오 수집의 정확도가 향상될 수 잇는 촬영장치 및 그 제어방법에 관한 것이다.

이하에서 기술되는 내용은 본 발명의 실시 예와 관련되는 배경 정보를 제공할 목적으로 기재된 것일 뿐이고, 기술되는 내용들이 당연하게 종래기술을 구성하는 것은 아니다.

이동 단말기는 다양한 기능을 수행할 수 있도록 구성될 수 있다. 다양한 기능들의 예로 데이터 및 음성 통신 기능, 카메라를 통해 사진이나 동영상을 촬영하는 기능, 음성 저장 기능, 스피커 시스템을 통한 음악 파일 의 재생 기능, 이미지나 비디오의 디스플레이 기능 등이 있다. 일부 이동 단말기는 게임을 실행할 수 있는 추가 적 기능을 포함하고, 다른 일부 이동 단말기는 멀티미디어 기기로서 구현되기도 한다. 더욱이 최근의 이동단말 기는 방송이나 멀티캐스트(multicast) 신호를 수신하여 비디오나 텔레비전 프로그램을 시청할 수 있다.

또한, 이동 단말기는 카메라를 이용하여 피사체를 촬영하기 위한 다양한 기능을 제공하고 있다. 사용자는 카메라의 제어 옵션(control options)을 조작하여 특정 피사체를 중심으로 영상을 확대하거나, 영상의 초점을 수동 또는/및 자동으로 조절하거나 또는 얼굴인식 등을 이용하여 원하는 영상을 촬영을 수행한다.

예를 들어 사용자는 피사체의 위치에 따라 이동 단말기의 전면 혹은 후면 카메라를 선택적으로 사용하여 촬영을 수행할 수 있으며, 특히 장면(scene)에 따라 촬영 모드(인물모드 또는 풍경모드)를 변환하여 촬영을 수행할 수 있다. 또한, 사용자는 재생에도 화면의 특정 영역을 중심으로 선택적으로 확대하거나 초점을 재조정 할 수 있다.

이러한 다양한 촬영 기법을 이용하여 관심 피사체 또는 장면을 촬영할 때 피사체가 발생하는 음성 또는 소 리는 마이크로 폰 어레이에 의해 수음(Capture)되어 저장된다. 하지만, 종래에는 피사체가 발생하는 소리뿐만 아니라 주변의 소리 및 잡음도 함께 수음되는 단점이 있다. 이러한 문제점을 해소하기 위하여 종래에는 터치 또는 레이저 포인터에 의해 화면상의 관심 피사체 혹은 특정 영역을 수동적으로 일일이 포인팅하여, 상기 포인팅 된 피사체나 영역의 소리를 선택적으로 수음하고 있다.

그런데, 종래 수동 포인팅에 의한 수음방법은 촬영영상과의 연동 없이 단지 특정 피사체 또는 영역의 소리를 수음하기 때문에 영상과 소리가 일치하지 않는 한계가 있다. 예를 들어, 동영상 촬영 시 화상 줌 인/아웃을 수행하면 눈에 보이는 피사체 또는 영역이 변경되기 때문에 매번 포인팅 위치를 일일이 수동으로 변경해야 하는 불편함이 있게 된다.

이와 관련하여 한국공개특허 제10-2014-0000585호 “이동 단말기 및 그의 오디오 줌잉방법”에 관한 발명으로 피사체를 촬영할 때, 피사체의 촬영 위치나 범위 또는 촬영 모드를 변경하는 이벤트가 발생되면 해당 이벤트에 따라 수음 각도를 변경하여 수음 범위를 자동 조절하여 피사체의 소리를 수음할 수 있도록 하는 기술을 기재한다.

상술된 발명에서는 사용자가 클로즈업하거나 초점을 맞춘 피사체의 위치와 크기에 자동으로 연동하여 그 피사체의 위치에 지향성을 향하게 하거나 수음 범위를 최적화함으로써 관심 피사체의 소리나 음성을 최적으로 촬영할 수 있는 기술이 기재되어 있다. 그러나, 상술된 발명에서는 영상 내 소리를 내는 객체를 인식하여 해당하는 객체 방향으로 마이크의 빔 포밍 방향을 설정할 수 있는 기술에 대해서는 기재되어 있지 않다는 한계가 있다.

또한, 한국등록특허 10-0835376호는 “이동통신 단말기의 동영상 촬영 방법”에 관한 발명으로, 동영상 촬영 시 비디오와 오디오의 입력을 각각 제어하며 촬영하도록 하여 원하지 않는 영상이나 음향이 동영상에 포함되는 것을 피할 수 있도록 하는 기술이 기재되어 있다.

상술된 발명은 영상 촬영 시 비디오와 오디오의 입력을 각각 제어하며 촬영할 수 있는 기술은 기재되어 있으나, 영상 내 소리를 내는 객체를 인식하여 해당하는 객체 방향으로 마이크의 빔 포밍 방향을 설정할 수 있는 기술을 극복하는 데에는 한계가 있다.

위와 같은 한계를 극복하기 위해, 영상 내 소리를 내는 객체를 인식하고, 소리가 발생하는 객체 방향으로 마이크 방향을 설정할 수 있도록 하는 촬영장치가 제공될 필요가 있다.

한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 발명의 실시 예에 따른 과제는 영상 내 소리를 내는 객체를 인식하여 해당하는 객체 방향으로 마이크의 빔 포밍 방향을 설정할 수 있도록 하는데 있다.

또한, 본 발명의 실시 예에 따른 과제는 일정 수준 이상의 소리가 날 확률의 객체들만을 오디오 줌인 대상으로 처리하여 잡음 획득은 최소화하고 소리 발생이 높은 객체들의 오디오를 중심으로 획득하도록 마이크의 빔 포밍 방향을 설정할 수 있도록 하는데 있다.

본 발명의 목적은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.

본 발명의 촬영장치의 오디오 제어방법은, 촬영장치에서 영상 데이터를 수신하고, 영상 데이터에서 적어도 하나의 객체를 인식한 후, 적어도 하나의 객체 중에서 오디오 발생이 가능한 제1 객체를 판단하고, 제1 객체가 오디오 발생이 가능한 객체라는 판단에 따라, 제1 객체를 향하는 방향으로 촬영장치의 마이크의 빔 포밍 방향을 이동시켜 제1 객체로부터의 오디오를 수집하는 과정으로 이루어질 수 있다.

이로 인해, 영상 내 소리를 내는 객체를 인식하여 해당하는 객체 방향으로 마이크의 빔 포밍 방향을 설정할 수 있다.

또한, 본 발명의 오디오를 제어하는 촬영장치는, 하나 이상의 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하여 구성될 수 있다.

본 발명의 실시 예에 따른 촬영장치의 메모리는 하나 이상의 프로세서에 의해 실행될 때, 촬영장치에서 영상 데이터를 수신하고, 영상 데이터에서 적어도 하나의 객체를 인식한 후, 적어도 하나의 객체 중에서 오디오 발생이 가능한 제1 객체를 판단하고, 제1 객체가 오디오 발생이 가능한 객체라는 판단에 따라, 제1 객체를 향하는 방향으로 촬영장치의 마이크의 빔 포밍 방향을 이동시켜 제1 객체로부터의 오디오를 수집하기 위한 명령이 저장될 수 있다.

이로 인하여 일정 수준 이상의 소리가 날 확률의 객체들만을 오디오 줌인 대상으로 처리하여 잡음 획득은 최소화하고 소리 발생이 높은 객체들의 오디오를 중심으로 획득하도록 마이크의 빔 포밍 방향을 설정할 수 있게 된다.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.

본 발명의 실시 예에 따르면 영상 촬영 중에 줌 인을 실행한 객체의 오디오를 획득하고자 할 경우 오디오 발생이 높은 객체를 선택하여 오디오 발생이 높은 객체를 향해 마이크 빔 포밍 방향을 이동시킴에 따라 오디오 발생이 높은 객체의 소리 취음을 정확하게 실행할 수 있는 효과가 있다.

또한, 영상 촬영 중에 줌 인을 실행한 위치와 소리가 발생한 대상의 방향이 일치하지 않더라도 오디오가 발생한 객체의 소리를 우선 수음하도록 설정함으로써, 오디오 발생이 높은 객체의 소리 수음이 이루어질 수 있게 된다.

또한, 소리 발생이 높은 객체가 복수 개 위치하더라도 촬영장치에 포함된 복수의 마이크를 이용하여 각각의 객체들의 오디오를 수음함에 따라 빠짐 없이 복수의 객체에서 발생하는 오디오의 수음이 이루어질 수 있도록 한다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 실시 예에 따라 오디오가 발생하는 객체 방향으로 마이크의 빔 포밍 방향을 이동하도록 하여 오디오를 수집할 수 있는 방법을 수행하기 위한 환경의 예시도이다.
도 2는 본 발명의 실시 예에 따른 객체 처리용 신경망을 설명하기 위한 생성하기 위한 시스템을 도시한다.
도 3은 본 발명의 실시 예에 따른 객체 처리용 신경망을 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예에 따른 객체 판단 방법을 설명하기 위한 도면이다.
도 5 내지 도 8은 본 발명의 실시 예에 따른 객체의 마이크 빔 포밍을 설명하기 위한 도면이다.
도 9는본 발명의 실시 예에 따른 객체의 마이크 빔 포밍 방법을 설명하기 위한 흐름도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시 예들에 한정되지 않는다. 이하 실시 예에서는 본 발명을 명확하게 설명하기 위해서 설명과 직접적인 관계가 없는 부분을 생략하지만, 본 발명의 사상이 적용된 장치 또는 시스템을 구현함에 있어서, 이와 같이 생략된 구성이 불필요함을 의미하는 것은 아니다. 아울러, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조번호를 사용한다.

이하의 설명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 되며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 또한, 이하의 설명에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

이하의 설명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

도 1은 본 발명의 실시 예에 따라 오디오가 발생하는 객체 방향으로 마이크가 이동하도록 하여 오디오를 수집할 수 있는 방법을 수행하기 위한 환경의 예시도이다.

도 1에서 도시된 바와 같이, 오디오가 발생하는 객체를 인식하여 해당하는 객체 방향으로 마이크의 빔 포밍 방향을 이동시키기 위한 환경은 촬영장치(100), 서버 연산 시스템(200), 트레이닝 연산 시스템(300), 및 이들이 서로 통신할 수 있도록 하는 네트워크(400)를 포함할 수 있다.

촬영장치(100)는 사물 지능 통신(IoT(internet of things), IoE(internet of everything), IoST(internet of small things) 등)을 지원할 수 있으며, M2M(machine to machine) 통신, D2D(device to device) 통신 등을 지원할 수 있다.

촬영장치(100)는 사물 인터넷을 위해 연결된 5G 환경에서 빅데이터, 인공지능(artificial intelligence, AI) 알고리즘 및/또는 기계학습(machine learning) 알고리즘을 이용하여 영상 처리 방식을 결정할 수 있다.

영상 처리 방식이란, 촬영장치(100)를 통해 촬영하는 영상에서 오디오 발생 확률이 높은 객체를 중심으로 영상 촬영이 이루어질 수 있도록 하는 것이다. 예를 들어, 영상 촬영 중에 사람, 동물, 차량 등과 같은 오디오 발생 확률이 높은 객체에서 발생한 오디오를 학습하고, 관련 객체가 촬영될 때, 오디오가 발생한 객체를 향해 촬영장치(100)의 마이크의 빔 포밍 방향을 이동시키도록 하여 사용자가 마이크를 별도로 제어하지 않아도 오디오가 발생하는 객체에서의 오디오를 수음할 수 있도록 하는 것을 의미한다.

촬영장치(100)는 예를 들어, 개인용 컴퓨터, 스마트폰, 태블릿, 게임 콘솔, 웨어러블 기기 등 어떤 종류의 연산 디바이스든 될 수 있다. 촬영장치(100)는 하나 이상의 프로세서들(110) 및 메모리(120)를 포함할 수 있다.

하나 이상의 프로세서들(110)은 데이터를 처리할 수 있는 모든 종류의 장치, 예를 들어 MCU를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다.

이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 개시의 범위가 이에 한정되는 것은 아니다.

메모리(120)는 RAM, ROM, EEPROM, EPROM, 플래시 메모리 디바이스들, 자기 디스크들, 등과 같은 하나 이상의 비-일시적(non-transitory) 저장 매체를 포함할 수 있다. 메모리(120)는 데이터(122) 및 프로세서들(110)에 의해 실행되었을 때 촬영장치(100)로 하여금 동작들을 수행하도록 하는 인스트럭션들(124)을 저장할 수 있다.

또한, 촬영장치(100)는 사용자 인터페이스(140)를 포함해 사용자로부터 명령들을 입력 받을 수 있고, 출력 정보를 사용자에게 전달할 수도 있다. 사용자 인터페이스(140)는 키보드, 마우스, 터치 스크린, 마이크, 카메라 등의 다양한 입력 수단과 모니터, 스피커, 디스플레이 등의 다양한 출력 수단을 포함할 수 있다.

사용자는 사용자 인터페이스(140)를 통해 촬영장치(100)에서 처리되어야 하는 영상을 선택할 수 있다. 예를 들어, 사용자는 마우스, 키보드, 터치 스크린 등을 통해 영상 촬영을 원하는 객체를 선택할 수 있다. 또한, 사용자는 터치 스크린 상에서 핀치-인 또는 핀치-아웃 동작을 수행하여 영상이 촬영되는 화면의 이미지를 축소하거나 확대하기 위한 명령을 생성할 수 있다.

일 실시 예에서, 촬영장치(100)는 인공지능 기술이 적용된 신경망 모델들(130)을 저장하거나 포함할 수 있다. 예를 들어 인공 지능 기술이 적용된 신경망 모델들(130)은 심층 신경망 또는 다른 타입의 머신 러닝 모델들과 같은 다양한 학습 모델들이거나, 이들을 포함할 수 있다.

여기서, 인공 지능(artificial intelligence, AI)은 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미한다.

또한, 인공지능은 그 자체로 존재하는 것이 아니라, 컴퓨터 과학의 다른 분야와 직간접으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공지능적 요소를 도입하여, 그 분야의 문제 풀이에 활용하려는 시도가 매우 활발하게 이루어지고 있다.

머신 러닝(machine learning)은 인공지능의 한 분야로, 컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야이다.

구체적으로 머신 러닝은, 경험적 데이터를 기반으로 학습을 하고 예측을 수행하고 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 연구하고 구축하는 기술이라 할 수 있다. 머신 러닝의 알고리즘들은 엄격하게 정해진 정적인 프로그램 명령들을 수행하는 것이라기보다, 입력 데이터를 기반으로 예측이나 결정을 이끌어내기 위해 특정한 모델을 구축하는 방식을 취한다.

용어 '머신 러닝'은 용어 '기계 학습'과 혼용되어 사용될 수 있다.

기계 학습에서 데이터를 어떻게 분류할 것인가를 놓고, 많은 기계 학습 알고리즘이 개발되었다. 의사결정나무(Decision Tree)나 베이지안 망(Bayesian network), 서포트벡터머신(SVM: support vector machine), 그리고 인공 신경망(ANN: Artificial Neural Network) 등이 대표적이다.

의사결정나무는 의사결정규칙(Decision Rule)을 나무구조로 도표화하여 분류와 예측을 수행하는 분석방법이다.

베이지안 망은 다수의 변수들 사이의 확률적 관계(조건부독립성: conditional independence)를 그래프 구조로 표현하는 모델이다. 베이지안 망은 비지도 학습(unsupervised learning)을 통한 데이터마이닝(data mining)에 적합하다.

서포트벡터머신은 패턴인식과 자료분석을 위한 지도 학습(supervised learning)의 모델이며, 주로 분류와 회귀분석을 위해 사용한다.

인공신경망은 생물학적 뉴런의 동작원리와 뉴런간의 연결 관계를 모델링한 것으로 노드(node) 또는 처리 요소(processing element)라고 하는 다수의 뉴런들이 레이어(layer) 구조의 형태로 연결된 정보처리 시스템이다.

인공 신경망은 기계 학습에서 사용되는 모델로써, 기계학습과 인지과학에서 생물학의 신경망(동물의 중추신경계 중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다.

구체적으로 인공신경망은 시냅스(synapse)의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다.

용어 인공신경망은 용어 뉴럴 네트워크(Neural Network)와 혼용되어 사용될 수 있다.

인공신경망은 복수의 레이어(layer)를 포함할 수 있고, 레이어들 각각은 복수의 뉴런(neuron)을 포함할 수 있다. 또한 인공신경망은 뉴런과 뉴런을 연결하는 시냅스를 포함할 수 있다.

인공 신경망은 일반적으로 다음의 세가지 인자, 즉 (1) 다른 레이어의 뉴런들 사이의 연결 패턴 (2) 연결의 가중치를 갱신하는 학습 과정 (3) 이전 레이어로부터 수신되는 입력에 대한 가중 합으로부터 출력값을 생성하는 활성화 함수에 의해 정의될 수 있다.

인공 신경망은, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network), MLP(Multilayer Perceptron), CNN(Convolutional Neural Network)와 같은 방식의 네트워크 모델들을 포함할 수 있으나, 이에 한정되지 않는다.

본 명세서에서 용어 '레이어'는 용어 '계층'과 혼용되어 사용될 수 있다.

인공신경망은 계층 수에 따라 단층 신경망(Single-Layer Neural Networks)과 다층 신경망(Multi-Layer Neural Networks)으로 구분된다.

일반적인 단층 신경망은, 입력층과 출력층으로 구성된다.

또한 일반적인 다층 신경망은 입력층(Input Layer)과 하나 이상의 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성된다.

입력층은 외부의 자료들을 받아들이는 층으로서, 입력층의 뉴런 수는 입력되는 변수의 수와 동일하며, 은닉층은 입력층과 출력층 사이에 위치하며 입력층으로부터 신호를 받아 특성을 추출하여 출력층으로 전달한다. 출력층은 은닉층으로부터 신호를 받고, 수신한 신호에 기반한 출력 값을 출력한다. 뉴런간의 입력신호는 각각의 연결강도(가중치)와 곱해진 후 합산되며 이 합이 뉴런의 임계치보다 크면 뉴런이 활성화되어 활성화 함수를 통하여 획득한 출력값을 출력한다.

한편 입력층과 출력 층 사이에 복수의 은닉층을 포함하는 심층 신경망은, 기계 학습 기술의 한 종류인 딥 러닝을 구현하는 대표적인 인공 신경망일 수 있다.

한편 용어 '딥 러닝'은 용어 '심층 학습'과 혼용되어 사용될 수 있다.

인공 신경망은 훈련 데이터(training data)를 이용하여 학습(training)될 수 있다. 여기서 학습이란, 입력 데이터를 분류(classification)하거나 회귀분석(regression)하거나 군집화(clustering)하는 등의 목적을 달성하기 위하여, 학습 데이터를 이용하여 인공 신경망의 파라미터(parameter)를 결정하는 과정을 의미할 수 있다. 인공 신경망의 파라미터의 대표적인 예시로써, 시냅스에 부여되는 가중치(weight)나 뉴런에 적용되는 편향(bias)을 들 수 있다.

훈련 데이터에 의하여 학습된 인공 신경망은, 입력 데이터를 입력 데이터가 가지는 패턴에 따라 분류하거나 군집화 할 수 있다.

한편 훈련 데이터를 이용하여 학습된 인공 신경망을, 본 명세서에서는 학습 모델(a trained model)이라 명칭 할 수 있다.

다음은 인공 신경망의 학습 방식에 대하여 설명한다.

인공 신경망의 학습 방식은 크게, 지도 학습, 비 지도 학습, 준 지도 학습(Semi-Supervised Learning), 강화 학습(Reinforcement Learning)으로 분류될 수 있다.

지도 학습은 훈련 데이터로부터 하나의 함수를 유추해내기 위한 기계 학습의 한 방법이다.

그리고 이렇게 유추되는 함수 중, 연속적인 값을 출력하는 것을 회귀분석(Regression)이라 하고, 입력 벡터의 클래스(class)를 예측하여 출력하는 것을 분류(Classification)라고 할 수 있다.

지도 학습에서는, 훈련 데이터에 대한 레이블(label)이 주어진 상태에서 인공 신경망을 학습시킨다.

여기서 레이블이란, 훈련 데이터가 인공 신경망에 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과 값)을 의미할 수 있다.

본 명세서에서는 훈련 데이터가 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과값)을 레이블 또는 레이블링 데이터(labeling data)이라 명칭 한다.

또한 본 명세서에서는, 인공 신경망의 학습을 위하여 훈련 데이터에 레이블을 설정하는 것을, 훈련 데이터에 레이블링 데이터를 레이블링(labeling) 한다고 명칭 한다.

이 경우 훈련 데이터와 훈련 데이터에 대응하는 레이블)은 하나의 트레이닝 셋(training set)을 구성하고, 인공 신경망에는 트레이닝 셋의 형태로 입력될 수 있다.

한편 훈련 데이터는 복수의 특징(feature)을 나타내고, 훈련 데이터에 레이블이 레이블링 된다는 것은 훈련 데이터가 나타내는 특징에 레이블이 달린다는 것을 의미할 수 있다. 이 경우 훈련 데이터는 입력 객체의 특징을 벡터 형태로 나타낼 수 있다.

인공 신경망은 훈련 데이터와 레이블링 데이터를 이용하여, 훈련 데이터와 레이블링 데이터의 연관 관계에 대한 함수를 유추할 수 있다. 그리고, 인공 신경망에서 유추된 함수에 대한 평가를 통해 인공 신경망의 파라미터가 결정(최적화)될 수 있다.

비 지도 학습은 기계 학습의 일종으로, 훈련 데이터에 대한 레이블이 주어지지 않는다.

구체적으로, 비 지도 학습은, 훈련 데이터 및 훈련 데이터에 대응하는 레이블의 연관 관계 보다는, 훈련 데이터 자체에서 패턴을 찾아 분류하도록 인공 신경망을 학습시키는 학습 방법일 수 있다.

비 지도 학습의 예로는, 군집화 또는 독립 성분 분석(Independent Component Analysis)을 들 수 있다.

본 명세서에서 용어 '군집화'는 용어 '클러스터링'과 혼용되어 사용될 수 있다.

비지도 학습을 이용하는 인공 신경망의 일례로 생성적 적대 신경망(GAN: Generative Adversarial Network), 오토 인코더(AE: Autoencoder)를 들 수 있다.

생성적 적대 신경망이란, 생성기(generator)와 판별기(discriminator), 두 개의 서로 다른 인공지능이 경쟁하며 성능을 개선하는 머신 러닝 방법이다.

이 경우 생성기는 새로운 데이터를 창조하는 모형으로, 원본 데이터를 기반으로 새로운 데이터를 생성할 수 있다.

또한 판별기는 데이터의 패턴을 인식하는 모형으로, 입력된 데이터가 원본 데이터인지 또는 생성기에서 생성한 새로운 데이터인지 여부를 감별하는 역할을 수행할 수 있다.

그리고 생성기는 판별기를 속이지 못한 데이터를 입력 받아 학습하며, 판별기는 생성기로부터 속은 데이터를 입력 받아 학습할 수 있다. 이에 따라 생성기는 판별기를 최대한 잘 속이도록 진화할 수 있고, 판별기는 원본 데이터와 생성기에 의해 생성된 데이터를 잘 구분하도록 진화할 수 있다.

오토 인코더는 입력 자체를 출력으로 재현하는 것을 목표로 하는 신경망이다.

오토 인코더는 입력층, 적어도 하나의 은닉층 및 출력층을 포함한다.

이 경우 은닉 계층의 노드 수가 입력 계층의 노드 수보다 적으므로 데이터의 차원이 줄어들게 되며, 이에 따라 압축 또는 인코딩이 수행되게 된다.

또한 은닉 계층에서 출력한 데이터는 출력 계층으로 들어간다. 이 경우 출력 계층의 노드 수는 은닉 계층의 노드 수보다 많으므로, 데이터의 차원이 늘어나게 되며, 이에 따라 압축 해제 또는 디코딩이 수행되게 된다.

한편 오토 인코더는 학습을 통해 뉴런의 연결 강도를 조절함으로써 입력 데이터가 은닉층 데이터로 표현된다. 은닉층에서는 입력층보다 적은 수의 뉴런으로 정보를 표현하는데 입력 데이터를 출력으로 재현할 수 있다는 것은, 은닉층이 입력 데이터로부터 숨은 패턴을 발견하여 표현했다는 것을 의미할 수 있다.

준 지도 학습은 기계 학습의 일종으로, 레이블이 주어진 훈련 데이터와 레이블이 주어지지 않은 훈련 데이터를 모두 사용하는 학습 방법을 의미할 수 있다.

준 지도 학습의 기법 중 하나로, 레이블이 주어지지 않은 훈련 데이터의 레이블을 추론한 후 추론된 라벨을 이용하여 학습을 수행하는 기법이 있으며, 이러한 기법은 레이블링에 소요되는 비용이 큰 경우에 유용하게 사용될 수 있다.

강화 학습은, 에이전트(Agent)가 매 순간 어떤 행동을 해야 좋을지 판단할 수 있는 환경이 주어진다면, 데이터 없이 경험으로 가장 좋을 길을 찾을 수 있다는 이론이다.

강화 학습은 주로 마르코프 결정 과정(MDP: Markov Decision Process)에 의하여 수행될 수 있다.

마르코프 결정 과정을 설명하면, 첫 번째로 에이전트가 다음 행동을 하기 위해 필요한 정보들이 구성된 환경이 주어지며, 두 번째로 그 환경에서 에이전트가 어떻게 행동할지 정의하고, 세 번째로 에이전트가 무엇을 잘하면 보상(reward)을 주고 무엇을 못하면 벌점(penalty)을 줄지 정의하며, 네 번째로 미래의 보상이 최고점에 이를 때까지 반복 경험하여 최적의 정책(policy)을 도출하게 된다.

인공 신경망은 모델의 구성, 활성 함수(Activation Function), 손실 함수(Loss Function) 또는 비용 함수(Cost Function), 학습 알고리즘, 최적화 알고리즘 등에 의해 그 구조가 특정되며, 학습 전에 하이퍼파라미터(Hyperparameter)가 미리 설정되고, 이후에 학습을 통해 모델 파라미터(Model Parameter)가 설정되어 내용이 특정될 수 있다.

예컨대, 인공 신경망의 구조를 결정하는 요소에는 은닉층의 개수, 각 은닉층에 포함된 은닉 노드의 개수, 입력 특징 벡터(Input Feature Vector), 대상 특징 벡터(Target Feature Vector) 등이 포함될 수 있다.

하이퍼파라미터는 모델 파라미터의 초기값 등과 같이 학습을 위하여 초기에 설정하여야 하는 여러 파라미터들을 포함한다. 그리고, 모델 파라미터는 학습을 통하여 결정하고자 하는 여러 파라미터들을 포함한다.

예컨대, 하이퍼파라미터에는 노드 간 가중치 초기값, 노드 간 편향 초기값, 미니 배치(Mini-batch) 크기, 학습 반복 횟수, 학습률(Learning Rate) 등이 포함될 수 있다. 그리고, 모델 파라미터에는 노드 간 가중치, 노드 간 편향 등이 포함될 수 있다.

손실 함수는 인공 신경망의 학습 과정에서 최적의 모델 파라미터를 결정하기 위한 지표(기준)로 이용될 수 있다. 인공 신경망에서 학습은 손실 함수를 줄이기 위하여 모델 파라미터들을 조작하는 과정을 의미하며, 학습의 목적은 손실 함수를 최소화하는 모델 파라미터를 결정하는 것으로 볼 수 있다.

손실 함수는 주로 평균 제곱 오차(MSE: Mean Squared Error) 또는 교차 엔트로피 오차(CEE, Cross Entropy Error)를 사용할 수 있으며, 본 발명이 이에 한정되지는 않는다.

교차 엔트로피 오차는 정답 레이블이 원 핫 인코딩(one-hot encoding)된 경우에 사용될 수 있다. 원 핫 인코딩은 정답에 해당하는 뉴런에 대하여만 정답 레이블 값을 1로, 정답이 아닌 뉴런은 정답 레이블 값이 0으로 설정하는 인코딩 방법이다.

머신 러닝 또는 딥 러닝에서는 손실 함수를 최소화하기 위하여 학습 최적화 알고리즘을 이용할 수 있으며, 학습 최적화 알고리즘에는 경사 하강법(GD: Gradient Descent), 확률적 경사 하강법(SGD: Stochastic Gradient Descent), 모멘텀(Momentum), NAG(Nesterov Accelerate Gradient), Adagrad, AdaDelta, RMSProp, Adam, Nadam 등이 있다.

경사 하강법은 현재 상태에서 손실 함수의 기울기를 고려하여 손실 함수값을 줄이는 방향으로 모델 파라미터를 조정하는 기법이다.

모델 파라미터를 조정하는 방향은 스텝(step) 방향, 조정하는 크기는 스텝 사이즈(size)라고 칭한다.

이때, 스텝 사이즈는 학습률을 의미할 수 있다.

경사 하강법은 손실 함수를 각 모델 파라미터들로 편미분하여 기울기를 획득하고, 모델 파라미터들을 획득한 기울기 방향으로 학습률만큼 변경하여 갱신할 수 있다.

확률적 경사 하강법은 학습 데이터를 미니 배치로 나누고, 각 미니 배치마다 경사 하강법을 수행하여 경사 하강의 빈도를 높인 기법이다.

Adagrad, AdaDelta 및 RMSProp는 SGD에서 스텝 사이즈를 조절하여 최적화 정확도를 높이는 기법이다. SGD에서 모멘텀 및 NAG는 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다. Adam은 모멘텀과 RMSProp를 조합하여 스텝 사이즈와 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다. Nadam은 NAG와 RMSProp를 조합하여 스텝 사이즈와 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다.

인공 신경망의 학습 속도와 정확도는 인공 신경망의 구조와 학습 최적화 알고리즘의 종류뿐만 아니라, 하이퍼파라미터에 크게 좌우되는 특징이 있다. 따라서, 좋은 학습 모델을 획득하기 위하여는 적당한 인공 신경망의 구조와 학습 알고리즘을 결정하는 것뿐만 아니라, 적당한 하이퍼파라미터를 설정하는 것이 중요하다.

통상적으로 하이퍼파라미터는 실험적으로 다양한 값으로 설정해가며 인공 신경망을 학습시켜보고, 학습 결과 안정적인 학습 속도와 정확도를 제공하는 최적의 값으로 설정한다.

위와 같은 방식들을 이용하면 피가열체의 상태에 대한 추정이 더욱 정교해질 수 있다.

상술한 바와 같은 인공 지능 기술이 적용된 신경망 모델들(130)은 먼저 트레이닝 연산 시스템(300)에 의해 트레이닝 단계를 거쳐 생성될 수 있고, 서버 연산 시스템(200)에 저장되었다가 네트워크(400)를 통해 촬영장치(100)로 전송된 것일 수 있다.

신경망 모델들(130)은 영상을 처리할 수 있는 신경망으로서, 영상 속 소리가 발생하는 객체를 인식하여 해당하는 객체 방향으로 마이크 빔 포밍이 되도록 훈련된 학습 모델일 수 있다.

통상적으로 신경망 모델들(130)은 트레이닝 연산 시스템(300)에서 트레이닝 단계를 마치고 오디오가 발생한 객체 또는/및 오디오 발생 확률이 높은 객체를 중심으로 영상 촬영이 된 상태로 촬영장치(100)에 저장될 수 있으나, 일부 실시 예에서 신경망 모델들(130)은 촬영장치(100)에서도 추가적으로 트레이닝을 거쳐 업데이트 또는 업데이트될 수도 있다.

한편, 촬영장치(100)에 저장되는 신경망 모델들(130)은 트레이닝 연산 시스템(300)에서 생성된 신경망 모델들(130) 중 일부일 수 있으며, 필요에 따라 새로운 신경망 모델들이 트레이닝 연산 시스템(300)에서 생성되어 촬영장치(100)로 전달될 수 있다.

다른 예로서, 신경망 모델들(130)은 촬영장치(100)에 저장되는 대신 서버 연산 시스템(200)에 저장되고, 웹 서비스의 형태로 촬영장치(100)에 필요한 기능을 제공할 수도 있다.

서버 연산 시스템(200)은 프로세서들(210) 및 메모리(220)를 포함하며, 일반적으로 촬영장치(100)보다 큰 프로세싱 능력 및 큰 메모리 용량을 가질 수 있다. 따라서, 시스템 구현에 따라, 적용에 보다 많은 프로세싱 능력을 필요로 하는 무거운 신경망 모델들(230)은 서버 연산 시스템(200)에 저장되고, 적용에 보다 적은 프로세싱 능력을 필요로 하는 경량의 신경망 모델들(130)은 촬영장치(100)에 저장되도록 구성될 수도 있다.

촬영장치(100)는 여러 신경망 모델들(130) 중 처리 대상이 되는 영상의 속성에 따라 적합한 신경망 모델을 선택할 수 있다. 일 예에서, 촬영장치(100)는 경량의 신경망 모델들(130)이 필요한 경우에는 촬영장치(100)에 저장되어 있는 신경망 모델들(130)을 사용하고, 중량의 신경망 모델들(230)이 필요한 경우에는 서버 연산 시스템(200)에 저장된 신경망 모델들(230)을 사용하도록 구성될 수도 있다.

촬영장치(100) 또는 서버 연산 시스템(200)이 포함하는 신경망 모델들(130, 230)은 트레이닝 연산 시스템(300)에 의해 생성된 영상 처리용 신경망일 수 있다.

도 2는 본 발명의 실시 예에 따른 객체 처리용 신경망을 설명하기 위한 생성하기 위한 시스템을 도시한다.

트레이닝 연산 시스템(300)은 하나 이상의 프로세서들(310)과 메모리(320)를 포함할 수 있다. 또한, 트레이닝 연산 시스템(300)은 기계 학습 모델들을 트레이닝하기 위한 모델 트레이너(350) 및 트레이닝 데이터(360)를 포함할 수 있다.

트레이닝 연산 시스템(300)은 모델 트레이너(350)를 통해 트레이닝 데이터(360)에 기초하여 다수의 신경망 모델들을 생성할 수 있다.

예시적으로 트레이닝 데이터(360)가 사람으로 레이블된 영상인 경우 트레이닝 연산 시스템(300)은 사람의 경우 오디오 발생 확률이 높은 객체라고 판단하고, 판단된 결과를 기초로 사람을 중심으로 마이크의 빔 포밍 방향을 이동시키도록 하는 신경망 모델을 생성할 수 있다.

이와 반대로, 트레이닝 데이터(360)가 텍스트로 레이블된 영상인 경우, 트레이닝 연산 시스템(300)은 텍스트에서 소리(오디오) 발생 확률이 적다고 판단하여 해당 텍스트는 경우 마이크의 빔 포밍 방향이 이동하지 않도록 하는 신경망 모델을 생성할 수 있다.

즉, 트레이닝 연산 시스템(300)은 사람, 동물, 차량 등 오디오 발생 확률이 높은 다양한 객체에 대해 마이크의 빔 포밍 방향을 이동시키도록 하는 트레이닝을 수행할 수 있으며, 해당 종류의 객체의 오디오를 수음하며 영상이 촬영될 수 있도록 하는 영상 처리용 신경망을 생성할 수 있게 된다.

위와 같은 방식으로 트레이닝 연산 시스템(300)은 객체별 신경망 모델 그룹을 생성할 수 있다. 이러한 신경망 모델 그룹은 사람용 신경망 모델, 동물용 신경망 모델, 차량용 신경망 모델 등 다양한 객체 이미지의 해상도를 향상시키기 위해 특화된 신경망 모델들을 포함할 수 있다.

한편, 트레이닝 연산 시스템(300)은 최초 신경망의 구성에 따라 처리 시간은 오래 걸리지만 보다 향상된 성능을 제공하는 복잡도가 높은 영상 처리용 신경망을 생성할 수도 있고, 보다 낮은 성능을 제공하지만 처리 시간이 단축되는 복잡도가 낮은 영상 처리용 신경망을 생성할 수 있다.

여기서, 영상 처리용 신경망의 복잡도는 입력 노드의 개수, 피쳐의 개수, 채널의 개수와 은닉층의 개수 등에 의해 결정되는 것으로 피쳐의 개수가 많을수록, 채널의 개수가 많을수록, 그리고 은닉층의 개수가 많을수록 복잡도가 높은 것으로 이해될 수 있다. 또한, 채널의 수가 많을수록, 그리고 은닉층의 수가 많을수록 신경망이 무거운 것으로 지칭될 수도 있다. 또한, 신경망의 복잡도는 신경망의 차원수(dimensionality)라고 지칭될 수도 있다.

신경망의 복잡도가 높을수록 영상 처리 방식은 더 우수할 수 있지만, 이미지 처리에 소요되는 시간은 더 길어질 수 있다. 반대로, 신경망이 가벼울수록 이미지 해상도 향상 성능은 상대적으로 낮을 수 있지만, 이미지 처리에 소요되는 시간은 더 짧아질 수 있다.

도 3은 본 발명의 실시 예에 따른 객체 처리용 신경망을 설명하기 위한 도면이다.

영상 처리용 신경망은 입력층과, 은닉층, 그리고 출력층으로 구성될 수 있다. 피처(feature)의 개수에 따라 입력 노드의 개수가 정해지게 되고, 노드의 개수가 많아질수록 신경망의 복잡도 또는 차원수는 증가하게 된다. 또한, 은닉층의 개수가 많아질수록 신경망의 복잡도 또는 차원수가 증가하게 된다.

피처의 개수, 입력 노드의 개수, 은닉층의 개수, 각 층들의 노드의 개수는 신경망 설계자에 의해 정해질 수 있으며, 복잡도가 증가할수록 처리 시간은 더 많이 소요되지만 더 좋은 성능을 보일 수 있다.

초기 신경망 구조가 설계되면, 훈련 데이터를 이용해 신경망을 훈련시킬 수 있다. 오디오가 발생한 객체 또는/및 오디오 발생 확률이 높은 객체를 중심으로 마이크의 빔 포밍 방향을 이동시킬 수 있는 신경망을 구현하기 위해서는 다수의 객체가 촬영된 영상 원본과, 다수의 객체를 오디오 발생 여부로 구분한 객체에 따른 분류 버전 영상이 필요하다.

영상 원본을 수집한 후 해당 영상에서 객체 각각의 종류를 찾고, 객체의 영역을 지정한 뒤, 각 종류를 리스트로 보관할 수 있다.

이러한 리스트들에 대해 대응하는 객체들의 오디오가 저장된 레이블로 연결시키면 영상 촬영 시, 오디오가 발생하는 객체를 향해 마이크의 빔 포밍 방향을 이동시키기 위한 신경망을 트레이닝 시킬 수 있는 트레이닝 데이터가 준비된다.

이때, 많은 양의 트레이닝 데이터를 통해 신경망을 지도학습 방식으로 훈련시키면 다양한 객체가 포함된 영상이 입력되었을 때 다양한 객체 중 선택적으로 마이크 빔 포밍 방향을 이동시키며 영상 촬영이 이루어지도록 하거나, 다양한 객체들을 향해 마이크 빔 포밍 방향을 이동시키며 영상 촬영이 이루어지도록 할 수 있는 영상 처리용 신경망 모델이 생성될 수 있다.

여기서, 트레이닝 데이터로 사람을 포함한 트레이닝 데이터를 사용하면 사람을 중심으로 마이크 빔 포밍 방향을 이동시키며 영상 촬영이 이루어지는데 최적화된 영상 처리용 신경망을 획득할 수 있다. 이와 다르게, 트레이닝 데이터로 로고, 텍스트 등을 포함한 트레이닝 데이터를 사용하면 로고, 텍스트 등은 오디오 발생 확률이 낮은 객체이므로 영상 촬영 시, 마이크 빔 포밍 방향이 이동하지 않도록 영상 처리용 신경망을 획득할 수 있다.

한편, 영상 처리용 신경망의 처리 속도와 처리 성능은 트레이드 오프 관계에 있을 수 있는데, 설계자는 신경망의 초기 구조를 변경함으로써, 처리 속도를 향상시킬 것인지, 처리 성능을 향상시킬 것인지 결정할 수 있다.

설계자는 영상 촬영 시, 마이크 빔 포밍 방향이 이동하도록 객체의 종류를 고려하여 신경망의 구조를 설정할 수 있고, 해당 신경망을 훈련시킬 수 있다. 이에 따라, 각각의 객체 종류에 따라 최적으로 사용될 수 있는 영상 처리용 신경망이 획득될 수 있다.

도 4는 본 발명의 실시 예에 따른 객체 판단 방법을 설명하기 위한 도면이다.

도면을 참고하면, 영상 내 객체를 판단하기 위한 방법으로 우선 촬영되는 영상 내의 복수의 객체를 인식한다. 이때, 촬영되는 영상 내에서 기 학습된 객체뿐 아니라, 학습되지 않은 종류의 객체도 찾아낼 수 있도록 영상 처리 신경망을 사용한다.

또한, 촬영되는 영상 내에서 객체의 바운더리를 인식하도록 객체 각각의 종류를 찾고, 객체 영역을 지정한 뒤, 각 종류를 리스트로 보관할 수 있다.

이때, 영상 데이터에서 소정 시간 동안의 영상 데이터를 이용하여 적어도 하나의 객체 각각의 움직임을 인식한다. 예를 들어, 1sec 내지 3sec 동안의 영상 데이터를 통해 영상 내 객체들의 움직임을 인식하는 것이다.

이후, 영상 데이터에서 소정 시간 동안의 오디오 데이터와 객체 각각의 움직임 사이의 연관성을 추정한다. 즉, 1sec 내지 3sec 동안의 영상 속 발생한 오디오가 각각의 객체 중 어느 객체와 연관성이 있는지를 추정하는 것이다.

정리하면, 영역별로 구분된 객체를 움직임 기반과 소리 발생 유무로 분류할 수 있다. 또한 소정 시간 동안 누적된 음성 데이터에 오디오가 발생한 경우 앞서 지정된 영역내의 변화인 객체의 움직임을 인식하고, 해당 움직임이 오디오가 발생하는 움직임과 연관되는지를 추정할 수 있는 것이다.

이를 위해 장면 이해 신경망(scene understanding)을 기초로 영상 속 발생한 오디오가 각각의 객체 중 어느 객체와 연관성이 발생한 것인지를 추정할 수 있다.

장면 이해 신경망이란, 장면에 포함된 움직임에 따른 오디오의 발생을 확률적으로 추정하도록 훈련된 학습 모델이라고 할 수 있다. 즉, 영상에서 움직이는 물체가 의자라고 할 경우, 학습된 조건에 기초하여 의자의 오디오 발생 확률을 추정할 수 있다.

이때, 영상에서 움직이는 물체가 강아지, 사람인 경우 학습된 조건에 따라 오디오 발생 확률이 높게 추정될 수 있고, 영상 속에서 움직이는 물체가 의자, 책상과 같은 물체인 경우, 오디오 발생 확률이 낮게 추정될 수 있다.

한편, 영상 속 해당 움직임이 오디오가 발생하는 움직임과 연관되는지를 추정할 때, 영상 내 프레임 안의 객체 사이의 관계를 추정하여 발생한 오디오 데이터와 오디오 발생이 높은 확률을 가진 객체를 매칭하거나, 객체 움직임을 오디오 데이터와 매칭할 수도 있다.

구체적으로 매칭이란, 영상 내 프레임 안의 객체가 의자이고, 영상 데이터에서 추출한 오디오 데이터가 의자가 이동하는 소리일 수 있다. 이때, 학습된 의자 이동하는 소리 정보와 영상 내에서 의자가 이동하는 소리가 일치하는 경우 영상 내 프레임 안의 객체가 의자이고, 의자에 의해 발생한 소리라고 판단되어 제1 객체를 의자라고 판단할 수 있다.

다르게는, 영상 속 객체가 공원, 강아지, 나무 등이 포함될 수 있다. 데이터 훈련 과정에서 강아지 음성을 학습하고, 강아지가 오디오 발생 확률이 높은 객체라고 학습한 상태에서 사용자가 영상 속 특정 객체를 지칭하지 않은 경우에 마이크는 강아지를 향해 마이크 빔 포밍 방향을 변경할 수 있다.

즉, 학습 결과로 공원, 나무 등의 객체보다 강아지라는 객체가 오디오 발생 확률이 높기 때문에 강아지가 제1 객체로 설정되어 마이크가 강아지를 중심으로 오디오를 수음하도록 설정하는 것이다.

도 5 내지 도 8은 본 발명의 실시 예에 따른 객체의 마이크 빔 포밍을 설명하기 위한 도면이다.

앞서 설명한 바와 같이 영상 내 객체들을 인식하고, 인식한 객체들 중 오디오 발생 확률을 가진 객체들만을 오디오 줌 인(Audio Zoom In) 대상으로 추출하여 마이크 빔 포밍 방향을 이동시킬 수 있다.

도 5를 참고하면, 촬영장치(100)의 모드가 촬영 모드로 변경되면, 촬영장치(100)에 포함된 카메라는 촬영장치(100)의 카메라가 촬영하고자 하는 객체들을 촬영한다.

카메라에서 촬영된 영상 또는/및 이미지를 통해 촬영되는 객체들 중 오디오 발생 확률이 높은 객체들만을 추출할 수 있다. 예를 들어 촬영장치(100)에서 촬영한 객체들이 사람(A), 식물(B), 자동차(C), 강아지(D)라고 가정하는 경우 객체 사람(A), 강아지(D)가 오디오 발생 확률이 높은 객체라고 판단, 추출할 수 있다.

이렇게 추출된 오디오 발생 확률이 가장 높은 제1 객체인 강아지(D)를 향해 마이크의 빔 포밍 방향을 이동시켜 촬영장치(100)에서 영상 촬영이 이루어질 수 있도록 한다.

특히 제1 객체인 강아지(D)를 향해 마이크 빔 포밍 방향을 이동할 때 제1 객체인 강아지(D)와 인접한 마이크가 빔 포밍 방향을 이동하도록 설정할 수 있다. 예컨대, 촬영장치(100)는 복수의 마이크(예: 3개)를 포함할 수 있다. 도면에 도시된 바와 같이 복수의 마이크를 제1 마이크(m₁), 제2 마이크(m₂) 및 제3 마이크(m₃)라고 가정할 수 있다. 이때, 제3 마이크(m₃)가 제1 객체인 강아지(D)의 오디오 수음 위치가 가장 근접한 위치라고 판단할 때, 제3 마이크(m₃)가 제1 객체인 강아지(D)를 향해 마이크 빔 포밍 이동이 이루어지도록 설정되는 것이다.

이와 다르게, 사용자가 지정한 객체를 제1 객체로 지정할 수도 있다. 앞서 설명한 바와 같이 카메라에서 촬영된 영상 또는/및 이미지를 통해 촬영되는 객체들 중 오디오 발생 확률이 높은 객체들만을 추출한다. 이때, 촬영장치(100)에서 촬영한 객체들 중 사람(A), 강아지(D)가 오디오 발생 확률이 높은 객체라고 판단, 추출할 수 있다.

이때, 사용자가 객체 사람(A)을 지정한 경우 사람(A)이 제1 객체로 판단되어 제1 객체인 사람(A)을 향해 마이크 빔 포밍 방향을 이동시키게 된다. 이때, 사람(A)은 제1 마이크(m₁)와 인접한 위치에 있으므로, 제1 마이크(m₁)의 마이크 빔 포밍 방향 이동이 이루어질 수 있다.

여기서 사용자가 제1 객체를 지정하는 방법은 촬영장치(100)의 촬영 화면을 터치하거나, 손가락을 이용하여 제1 객체를 줌 인하는 방법을 이용하여 지정할 수 있지만, 이외에도 제1 객체를 지정하는 방법은 조건에 따라 변경될 수 있다.

한편, 사용자가 사람(A)을 지정하여 제1 객체를 지정한 상태에서 촬영장치(100)의 촬영 범위에서 이탈될 수 있다. 이는 사용자가 촬영장치(100)를 이동시키거나 촬영 포커스가 변경되는 것 등 중 어느 하나가 실행되는 것을 의미한다.

촬영장치(100)의 촬영 범위가 이탈되어도 사용자가 지정한 제1 객체를 향한 마이크 빔 포빙 방향은 유지할 수 있다. 즉, 도 6을 참고하면, 제1 마이크(m₁)가 사용자가 지정한 제1 객체인 사람(A)을 향해 마이크 빔 포밍 방향을 이동하고 있는 과정에서 촬영장치(100)의 촬영 범위가 변경되어 촬영장치(100)가 객체 자동차(C)를 촬영할 수 있다. 이 경우에도 사용자가 제1 객체의 지정을 변경하지 않았으므로, 제1 객체의 오디오를 수음하는 것을 우선하는 것이다.

이로 인해, 사용자가 원하는 제1 객체의 오디오를 중심으로 수음할 수 있으므로 사용자의 마이크 빔 포밍 사용 효율성이 저하되는 것을 방지할 수 있다.

이와 반대로, 사용자가 제1 객체를 지정하지 않고 촬영장치(100)의 촬영 화면을 줌인 할 수도 있다. 즉, 사용자의 줌인이란, 촬영장치(100)의 촬영 화면 내에서 집중적으로 촬영하고자 하는 객체를 선택한 것으로 의미될 수 있다.

따라서, 사용자가 줌인 행동을 실행하고, 줌인된 화면 내의 객체를 제1 객체라고 판단하여 줌인된 화면 내 객체의 오디오를 수음하기 위한 마이크 빔 포빙 방향이 이동될 수 있도록 한다.

이때, 사용자가 줌인 행동을 실행하여도 줌인된 화면 내에 객체가 존재하지 않을 수도 있다. 이 경우, 기존에 마이크 빔 포밍 방향을 설정한 객체의 오디오를 수음할 수 있도록 마이크 빔 포밍 방향을 변경하지 않는 것이 바람직할 거이다.

설명한 바와 같이 촬영장치(100)는 복수의 마이크를 포함하여 구성될 수 있다. 이때, 제1 객체로 판단된 객체가 복수 개이고 제1 객체로부터 오디오를 수집할 수도 있다.

이 경우 도 7A와 같이 복수 개의 마이크 각각은 복수의 제1 객체들 중 해당 마이크에 가장 가까운 제1 객체를 향하여 마이크 빔 포빙 방향을 결정할 수 있다.

이때, 도 7B와 같이 복수로 판단된 제1 객체와 마이크의 개수가 대응하는 경우, 각각의 마이크에서 제1 객체 각각에서 발생한 오디오를 수집할 수 있다.

예를 들어 제1 마이크(m₁)가 객체 사람(A)과 가장 가까운 것으로 판단되면 제1 마이크(m₁)에서 객체 사람(A)의 오디오를 수집하도록 설정될 수 있다. 이와 유사하게, 제2 마이크(m₂)가 객체 식물(B)과 가장 가까운 것으로 판단되는 경우, 제2 마이크(m₂)에서 객체 식물(B)의 오디오를 수음할 수 있도록 설정할 수 있으며, 제3 마이크(m₃)가 객체 자동차(C)와 가장 가까운 것으로 판단되는 경우 제3 마이크(m₃)에서 객체 자동차(C)의 오디오를 수음하는 것으로 설정하는 것이다.

이와 다르게, 제1 객체로 판단된 객체가 복수 개이되, 제1 객체의 개수가 촬영장치(100)의 마이크 개수보다 많은 경우, 소정 간격 이내에 위치한 서로 다른 제1 객체들을 그룹핑(G)하고, 그룹핑(G)된 그룹에서 발생한 오디오는 촬영장치(100) 마이크 중 어느 하나의 마이크를 통해 수집될 수 있다.

예를 들어 도 7C에 도시된 바와 같이 제1 객체가 4개이고, 객체 A와 객체 B가 인접한 객체라고 판단되는 경우, 객체 A와 객체 B를 하나의 그룹(G)으로 생성한다. 그룹(G)과 가장 가까운 마이크가 제1 마이크(m₁)라고 판단되면 그룹(G)에서 생성된 오디오는 제1 마이크(m₁)에서 수음할 수 있도록 설정한다.

이때, 본 발명의 실시 예에서는 거리가 인접한 객체끼리 그룹핑하는 예를 들지만, 다르게는 종류가 유사한 (예: 사람, 동물) 객체끼리 그룹하여 서로 다른 종류의 객체 오디오가 섞여 수음되는 것을 최소화하도록 설정할 수도 있다.

이로써, 오디오 발생 확률이 높은 객체가 복수 개이더라도 복수의 마이크에서 각각의 객체에서 발생한 오디오를 수음할 수 있도록 하여 빠짐 없이 복수의 객체에서 발생하는 오디오의 수음이 이루어질 수 있도록 한다.

한편, 제1 객체의 오디오 수음이 촬영장치(100)의 마이크가 아닌 외부 마이크(Bm)에서 이루어질 수도 있다.

즉 도 8에 도시된 바와 같이, 객체들 중 오디오 발생 확률이 높은 제1 객체를 판단한 상태에서 객체들 사이에 외부 마이크(Bm)가 위치한 것을 판단할 수 있다.

예를 들어, 외부 마이크(Bm)는 블루투스 마이크가 될 수 있으며, 촬영장치(100)의 통신 인터페이스를 통해 블루투스 마이크와 통신 연결될 수 있다. 블루투스 마이크와 통신 연결되면 촬영장치(100)의 영상에 외부 마이크(Bm)와 연결됨을 알리는 알림창이 확인되어 외부 마이크(Bm) 유무를 판단하게 되는 것이다.

이후, 촬영장치(100)의 마이크와 제1 객체 사이의 거리 및 외부 마이크(Bm)와 제1 객체 사이의 거리를 측정한다. 측정된 거리를 기초로 제1 객체와 가까운 거리에 위치한 마이크를 선택하여 오디오 수음이 실행될 수 있도록 한다.

예컨대 제1 객체가 객체 A인 경우, 객체 A와 외부 마이크(Bm) 사이의 거리보다 객체 A와 촬영장치(100)의 마이크 사이의 거리가 가까운 경우, 객체 A의 오디오는 외부 마이크(Bm)에서 수음하도록 하는 것이다.

이때, 외부 마이크(Bm)와 촬영장치(100)는 입력 및 출력 인터페이스를 포함하여 외부 마이크(Bm)에서 수음한 객체 A의 오디오를 촬영장치(100)로 전송할 수 있다.

여기서, 촬영장치(100)의 마이크와 제1 객체 사이의 거리 및 외부 마이크(Bm)와 제1 객체 사이의 거리를 측정하는 방법은 동일 객체에서 발생한 오디오를 외부 마이크(Bm) 및 촬영장치(100)의 마이크 각각에서 수음한 시간을 측정하여 측정 시간이 짧은 장치가 객체와 가까이 위치한 장치라고 판단하는 예로 설명될 수 있다.

이와 같이 영상 촬영 중 영상 내 포함된 객체들 중에서 소리가 발생할 확률이 높은 객체를 제1 객체라고 판단하고, 판단된 제1 객체를 중심으로 마이크 빔 포밍을 이동시켜 제1 객체의 오디오를 보다 정확하게 수음할 수 있도록 할 수 있다.

도 9는본 발명의 실시 예에 따른 객체의 마이크 빔 포밍 방법을 설명하기 위한 흐름도이다.

도면을 참고하면, 마이크 빔 포밍 과정을 살펴보면 우선 촬영장치(100)의 화면에서 적어도 하나의 객체를 인식할 수 있다(S110). 여기서 적어도 하나의 객체는, 사람, 동물, 식물, 물체(예: 자동차) 등 중 어느 하나가 될 수 있다.

복수의 객체를 인식하면, 객체의 종류에 따라 오디오가 발생하는지에 따라 분류할 수 있다. 또는, 객체의 종류에 따라 오디오가 발생할 확률을 측정하여 오디오 발생이 높은 확률을 가진 객체 순서대로 리스트화할 수 있다.

객체의 종류에 따라 분류하거나, 오디오 발생이 높은 확률을 가진 객체 순서대로 리스트화하면 사용자가 객체를 지정하였는지 판단할 수 있다(S120).

사용자가 객체를 지정하는 것은 영상 화면 내 사용자가 직접 터치, 클릭 등의 방법으로 특정 객체를 지정하는 것을 의미할 수 있으며, 다르게는 사용자가 촬영되는 화면의 일부를 줌 인(Zoom In) 하여 특정 객체가 중심이 되도록 영상 촬영이 이루어질 수 있도록 하는 것을 의미할 수도 있다.

만약 사용자가 객체를 지정한 것으로 판단되면, 특히 사용자가 촬영되는 영상 화면을 줌 인한 경우, 줌 인한 영역 내에 보여지는 객체를 확인할 수 있다(S130, S140).

줌 인한 영역 내에 보여지는 객체를 확인할 때, 줌 인한 영역 내에 보여지는 객체가 오디오 발생 확률이 높은 객체인지 판단한 뒤, 오디오 발생 확률이 높은 제1 객체라고 판단되면, 제1 객체를 향해 마이크 빔 포밍 방향을 이동시켜 제1 객체의 오디오를 수음할 수 있도록 한다(S150, S170).

또한, 사용자가 객체를 지정하여 제1 객체를 선별한 경우, 선별한 제1 객체가 오디오 발생 확률이 높은 객체인지 판단한 후, 선별한 제1 객체를 향해 마이크 빔 포밍 방향을 이동시켜 제1 객체의 오디오를 수음할 수 있도록 한다(S160, S170).

이때, 사용자가 지정한 제1 객체의 오디오 발생 확률이 낮은 객체라고 할 경우에도 사용자가 오디오 수음을 위해 지정한 상태이므로 제1 객체의 오디오 수음을 중지하지 않는 것이 바람직할 것이다.

이와 같이, 영상 촬영 중에 줌 인을 실행한 객체의 오디오를 획득하고자 할 경우 오디오 발생이 높은 객체를 선택하여 오디오 발생이 높은 객체를 향해 마이크 빔 포밍 방향을 이동시킴에 따라 오디오 발생이 높은 객체의 소리 취음을 정확하게 실행할 수 있게 된다.

또한, 영상 촬영 중에 줌 인을 실행한 위치와 소리가 발생한 대상의 방향이 일치하지 않더라도 오디오가 발생한 객체의 소리를 우선 수음하도록 설정함으로써, 오디오 발생이 높은 객체의 소리 수음이 이루어질 수 있다.

또한, 소리 발생이 높은 객체가 복수 개 위치하더라도 촬영장치(100)에 포함된 복수의 마이크를 이용하여 각각의 객체들의 오디오를 수음함에 따라 빠짐 없이 복수의 객체에서 발생하는 오디오의 수음이 이루어질 수 있도록 한다.

이상 설명된 본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.

한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.

본 발명의 명세서(특히 청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.

본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 청구범위뿐만 아니라 이 청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

촬영장치의 오디오 제어방법으로서,
촬영장치에서 영상 데이터를 수신하는 단계;
상기 영상 데이터에서 적어도 하나의 객체를 인식하는 단계;
상기 적어도 하나의 객체 중에서 오디오 발생이 가능한 제1 객체를 판단하는 단계;
상기 제1 객체가 오디오 발생이 가능한 객체라는 판단에 따라, 상기 제1 객체를 향하는 방향으로 상기 촬영장치의 마이크의 빔 포밍 방향을 이동시켜 상기 제1 객체로부터의 오디오를 수집하는 단계를 포함하는,
촬영장치 오디오 제어방법.
제1항에 있어서,
상기 객체를 인식하는 단계는,
객체 분류 신경망을 통해 상기 영상 데이터에 포함된 상기 적어도 하나의 객체를 인식하는 단계를 포함하고,
상기 객체 분류 신경망은 복수의 객체의 이미지에 상기 복수의 객체의 종류가 레이블링된 훈련 데이터를 이용하여 미리 훈련된 신경망 모델인,
촬영장치 오디오 제어방법.
제1항에 있어서,
상기 제1 객체를 판단하는 단계는,
상기 영상 데이터에서 소정 시간 동안의 영상 데이터를 이용하여 상기 적어도 하나의 객체 각각의 움직임을 인식하는 단계; 및
상기 영상 데이터에서 상기 소정 시간 동안의 오디오 데이터와 상기 적어도 하나의 객체 각각의 움직임 사이의 연관성을 추정하는 단계를 포함하고,
상기 연관성을 추정하는 단계는 장면 이해 신경망을 통해 상기 적어도 하나의 객체 각각의 움직임이 오디오를 발생시킬 확률을 추정하는 단계를 포함하는,
촬영장치 오디오 제어방법.
제1항에 있어서,
상기 제1 객체를 판단하는 단계는,
상기 적어도 하나의 객체 중에서 미리 정해진 임계치 이상의 오디오가 발생할 확률을 가진 객체들만을 오디오 줌 인(Audio Zoom In) 대상으로 추출하는 단계를 더 포함하는,
촬영장치 오디오 제어방법.
제1항에 있어서,
상기 제1 객체를 판단하는 단계는,
상기 적어도 하나의 객체 중 사용자가 지정한 객체를 상기 제1 객체로 판단하는 단계를 더 포함하는,
촬영장치 오디오 제어방법.
제5항에 있어서,
상기 제1 객체를 판단하는 단계는,
상기 사용자가 지정한 객체가 상기 촬영장치의 촬영 범위에서 이탈되는지 판단하는 단계;
상기 사용자가 지정한 객체가 상기 촬영 범위에서 이탈된 것으로 판단되는 경우, 상기 사용자가 지정한 객체를 향한 상기 마이크의 빔 포밍 방향을 유지하는 단계를 더 포함하는,
촬영장치 오디오 제어방법.
제1항에 있어서,
상기 촬영장치는 복수 개의 마이크를 포함하고,
상기 제1 객체로 판단된 객체가 복수 개이고,
상기 제1 객체로부터의 오디오를 수집하는 단계는,
상기 복수 개의 마이크 각각은 상기 복수 개의 제1 객체들 중 해당 마이크에 가장 가까운 하나의 객체를 향하여 마이크의 빔 포밍 방향을 결정하는 단계를 포함하는,
촬영장치 오디오 제어방법.
제7항에 있어서,
상기 제1 객체로부터의 오디오를 수집하는 단계는,
복수의 상기 제1 객체의 개수가 복수의 상기 촬영장치의 마이크 개수 보다 많은 것으로 판단되면,
복수의 상기 제1 객체 중 복수의 마이크 중 하나의 마이크로부터 미리 설정된 임계치 이하의 거리에 위치한 복수의 객체를 하나의 제1 그룹으로 그룹핑하는 단계를 포함하는,
촬영장치 오디오 제어방법.
제1항에 있어서,
상기 제1 객체로부터의 오디오를 수집하는 단계는,
상기 제1 객체와 인접하게 배치된 외부 마이크의 유무를 판단하는 단계;
상기 촬영장치의 마이크와 상기 제1 객체 사이의 거리 및 상기 외부 마이크와 상기 제1 객체 사이의 거리를 측정하는 단계;
상기 촬영장치의 마이크와 상기 외부 마이크 중 상기 제1 객체와 가까운 거리의 마이크를 선택하는 단계를 포함하는,
촬영장치 오디오 제어방법.
오디오를 제어하는 촬영장치로서,
하나 이상의 프로세서; 및
상기 프로세서에 연결되는 메모리를 포함하고,
상기 메모리는,
상기 하나 이상의 프로세서에 의해 실행될 때, 촬영장치에서 영상 데이터를 수신하고, 상기 영상 데이터에서 적어도 하나의 객체를 인식한 후, 상기 적어도 하나의 객체 중에서 오디오 발생이 가능한 제1 객체를 판단하고, 상기 제1 객체가 오디오 발생이 가능한 객체라는 판단에 따라, 상기 제1 객체를 향하는 방향으로 상기 촬영장치의 마이크의 빔 포밍 방향을 이동시켜 상기 제1 객체로부터의 오디오를 수집하기 위한 명령을 저장하는,
촬영장치.
제10항에 있어서,
상기 메모리는,
객체 분류 신경망을 통해 상기 영상 데이터에 포함된 상기 적어도 하나의 객체를 인식하기 위한 명령을 저장하는,
촬영장치.
제10항에 있어서,
상기 메모리는,
상기 영상 데이터에서 소정 시간 동안의 영상 데이터를 이용하여 상기 적어도 하나의 객체 각각의 움직임을 인식하고, 상기 영상 데이터에서 상기 소정 시간 동안의 오디오 데이터와 상기 적어도 하나의 객체 각각의 움직임 사이의 연관성을 추정한 후, 상기 연관성을 추정하는 단계는 장면 이해 신경망을 통해 상기 적어도 하나의 객체 각각의 움직임이 오디오를 발생시킬 확률을 추정하기 위한 명령을 저장하는,
촬영장치.
제10항에 있어서,
상기 메모리는,
상기 적어도 하나의 객체 중에서 미리 정해진 임계치 이상의 오디오가 발생할 확률을 가진 객체들만을 오디오 줌 인(Audio Zoom In) 대상으로 추출하기 위한 명령을 저장하는,
촬영장치.
제10항에 있어서,
상기 메모리는,
상기 적어도 하나의 객체 중 사용자가 지정한 객체를 상기 제1 객체로 판단하기 위한 명령을 저장하는,
촬영장치.
제14항에 있어서,
상기 메모리는,
상기 사용자가 지정한 객체가 상기 촬영장치의 촬영 범위에서 이탈되는지 판단하고, 상기 사용자가 지정한 객체가 상기 촬영 범위에서 이탈된 것으로 판단되는 경우, 상기 사용자가 지정한 객체를 향한 상기 마이크의 빔 포밍 방향을 유지하기 위한 명령을 저장하는,
촬영장치.
제10항에 있어서,
상기 메모리는,
상기 촬영장치는 복수 개의 마이크를 포함하고, 상기 제1 객체로 판단된 객체가 복수 개이고, 상기 제1 객체로부터의 오디오를 수집 시, 상기 복수 개의 마이크 각각은 상기 복수 개의 제1 객체들 중 해당 마이크에 가장 가까운 하나의 객체를 향하여 마이크의 빔 포밍 방향을 결정하기 위한 명령을 저장하는,
촬영장치.
제16항에 있어서,
상기 제1 객체로부터의 오디오를 수집하기 위해, 복수의 상기 제1 객체의 개수가 복수의 상기 촬영장치의 마이크 개수 보다 많은 것으로 판단되면, 복수의 상기 제1 객체 중 복수의 마이크 중 하나의 마이크로부터 미리 설정된 임계치 이하의 거리에 위치한 복수의 객체를 하나의 제1 그룹으로 그룹핑하기 위한 명령을 저장하는,
촬영장치.
제10항에 있어서,
상기 메모리는,
상기 제1 객체로부터의 오디오를 수집하기 위해, 상기 제1 객체와 인접하게 배치된 외부 마이크의 유무를 판단하고, 상기 촬영장치의 마이크와 상기 제1 객체 사이의 거리 및 상기 외부 마이크와 상기 제1 객체 사이의 거리를 측정한 후, 상기 촬영장치의 마이크와 상기 외부 마이크 중 상기 제1 객체와 가까운 거리의 마이크를 선택하기 위한 명령을 저장하는,
촬영장치.