KR102437760B1

KR102437760B1 - 컴퓨팅 장치에 의한 음향의 처리 방법, 영상 및 음향의 처리 방법 및 이를 이용한 시스템들

Info

Publication number: KR102437760B1
Application number: KR1020210068128A
Authority: KR
Inventors: 이충열
Original assignee: 이충열
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-08-29
Also published as: EP4325481A1; WO2022250493A1

Abstract

본 개시서에는 마이크로폰 등의 입력원과 같은 음향 입력 장치로부터 획득되는 음향을 처리하는 방법, 그러한 음향을 촬영 장치로부터 획득되는 영상과 함께 처리하는 방법 및 이를 이용한 시스템들이 개시된다. 구체적으로, 본 개시서의 방법에 의하면, 컴퓨팅 장치에 일체화되거나 상기 컴퓨팅 장치와 연동하는 음향 입력 장치로부터 전체 음향을 획득하며, 상기 전체 음향으로부터 맥락을 추론한다.

Description

컴퓨팅 장치에 의한 음향의 처리 방법, 영상 및 음향의 처리 방법 및 이를 이용한 시스템들{METHOD FOR PROCESSING SOUNDS BY COMPUTING APPARATUS, METHOD FOR PROCESSING IMAGES AND SOUNDS THEREBY, AND SYSTEMS USING THE SAME}

휴대 가능 컴퓨팅 장치(portable computing apparatus), 또는 그 약칭인 휴대 단말은 일반적으로 프로세서, 디스플레이, 마이크로폰 및 스피커를 장착하고 있는 장치를 일컫는바, 그 중의 일부는 통신기기의 일종인 휴대 단말로 이용될 수 있다. 휴대 단말은 종래에 키패드, 터치 디스플레이 등 사용자의 접촉이 요구되는 입력 장치를 통하여 사용자의 명령을 입력받았으나, 음성 인식 기술 및 컴퓨터 비전(computer vision) 기술의 발달에 따라 마이크로폰 및 카메라 등의 입력 장치를 통하여 사용자의 명령을 원거리에서 수신하여 그 명령에 따라 상호작용할 수 있다.

그런데 휴대 가능 컴퓨팅 장치는 자체적인 이동력을 갖추지 못하고 있기 때문에 그 물리적 위치에 따라 입출력의 범위가 제한된다.

휴대 가능 컴퓨팅 장치에 탑재된 입력 장치의 물리적 제한의 일 예시로서, 특히, 휴대 가능 컴퓨팅 장치에 탑재된 마이크로폰은 음원의 방향에 따라 수신 감도가 저하될 뿐만 아니라 그 자체로 음원의 방향을 판별하기 어려운 한계가 있는데, 이는 능동적인 상호 작용에 걸림돌로 작용하였다.

따라서, 본 발명자는 전술한 종래 기술의 휴대 가능 컴퓨팅 장치가 가진 한계점 가운데 음성을 포함하는 음향의 입력에 관한 제한을 극복할 수 있는 일 방안으로서, 마이크로폰이 탑재된 휴대 가능 컴퓨팅 장치 또는 휴대 가능 컴퓨팅 장치와 연동하는 마이크로폰 등의 음향 입력 장치에 짐벌을 결합하고 그 컴퓨팅 장치가 그 짐벌을 제어하여 1축 이상으로 회전하게 함으로써 보다 동적으로 음향을 입력받고 이를 처리할 수 있게 하는 기술적 방안을 제시하고자 한다.

공개특허공보 제10-2011-0032244호 공개특허공보 제10-2019-0085464호 공개특허공보 제10-2019-0074011호 공개특허공보 제10-2019-0098091호 공개특허공보 제10-2019-0106943호 공개특허공보 제10-2018-0109499호

Shin, D., & Kim, I. (2018). Deep Image Understanding Using Multilayered Contexts. Mathematical Problems in Engineering, 2018, 1-11. https://doi.org/10.1155/2018/5847460 Buck, M., & Rossler, M. (2001). FIRST ORDER DIFFERENTIAL MICROPHONE ARRAYS FOR AUTOMOTIVE APPLICATIONS.

본 개시서는 종래 기술의 문제점을 해결하여, 휴대 가능 컴퓨팅 장치에 있어서 마이크로폰 등에 의하여 획득한 음향으로부터 객체를 인식 및 추적하고, 그 객체 및 환경의 정보를 능동적으로 획득할 수 있으며, 특히, 음향을 기초로 본 개시서의 시스템을 중심으로 하는 좌표계에서의 객체의 상대적 위치 정보 및 공간의 정보를 파악하여 공간 내 객체의 위치를 확인하는 등 음향을 통한 원거리 입력 등 상호작용을 가능하게 하는 음향 또는 음향 및 영상의 조합에 대한 처리 방법을 제시하는 것을 그 목적으로 한다.

전술한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한 본 발명의 특징적인 구성은 하기와 같다.

본 개시서의 일 태양에 따르면, 컴퓨팅 장치에 의하여 음향을 처리하는 방법이 제공되는바, 그 방법은, 컴퓨팅 장치가, 상기 컴퓨팅 장치에 일체화되거나 상기 컴퓨팅 장치와 연동하는 음향 입력 장치로부터 전체 음향을 획득하는 음향 획득 단계; 및 상기 컴퓨팅 장치가, 맥락 모듈에 의하여 상기 전체 음향으로부터 맥락을 추론하는 맥락 처리 단계를 포함한다.

바람직하게는, 상기 맥락 처리 단계는, 상기 컴퓨팅 장치가, 상기 전체 음향에 나타난 하나 이상의 음향 객체를 검출하고, 검출된 상기 음향 객체 각각의 카테고리를 산출하는 분류를 수행하는 카테고리 분류 단계; 및 상기 컴퓨팅 장치가, 상기 음향 객체 각각에 대한 분석 결과로서 상기 객체의 특성 및 상태를 포함하는 상세 분류 정보를 생성하는 상세 분류 단계를 포함한다.

더 바람직하게는, 상기 맥락 모듈은, 카테고리별 맥락 처리 모델 및 상기 카테고리별 맥락 처리 모델에 연결되는 맥락 처리기를 포함하고, 상기 상세 분류 단계는, 상기 음향 객체의 카테고리에 적합화된 상기 카테고리별 맥락 처리 모델을 선택하는 단계, 및 상기 맥락 처리기에 상기 전체 음향을 입력하여 언어 정보 및 비언어 정보를 획득하는 단계를 포함한다.

더욱 더 바람직하게는, 상기 맥락 처리기는, 상기 전체 음향에 포함된 언어를 해석하여 의미 분류 정보를 검출하는 언어 처리기; 상기 전체 음향에 포함된 비언어 음향을 해석하여 음향 객체의 감정, 우선순위, 위치, 방향 및 성문을 검출하는 비언어 처리기; 및 상기 언어 처리기 및 상기 비언어 처리기의 검출 결과에 기초하여 상기 맥락을 텍스트로 변환하는 STT(speech-to-text) 모델을 포함한다.

유리하게는, 상기 맥락은, 상기 전체 음향에 나타난 개별 음향 객체 각각의 대화 및 음향 중 적어도 하나에 의하여 상기 개별 음향 객체와 상호작용하는 것으로 검출되는 음향 객체인 맥락 상호작용 객체를 포함하는 객체 맥락; 및 상기 전체 음향에 나타난 공간 객체 및 상기 공간 객체 외의 개별 음향 객체 각각으로부터 추론되는 상기 공간 객체의 종류인 장소, 상기 개별 음향 객체 각각의 대화 및 비언어 음향 중 적어도 하나, 상기 상호작용의 주체에 해당하는 개별 음향 객체인 행위자 및 상기 상호작용에 의하여 상기 개별 음향 객체와 상호작용하는 것으로 검출되는 음향 객체인 맥락 상호작용 객체를 포함하는 공간 맥락을 포함한다.

일 실시 예에서, 상기 상세 분류 단계는, 상기 음향 객체의 일부를 이루거나 상기 음향 객체에 귀속된 구성요소인 부분 객체의 검출을 시도하는 단계; 및 상기 부분 객체가 검출되면, 상기 상세 분류 정보의 일부로서, 상기 부분 객체에 대한 특성 및 상태의 분석 결과를 더 생성하는 단계를 포함한다.

다른 실시 예에서, 상기 카테고리 분류 단계는, 상기 객체가 공간 객체이면, 상기 공간 객체가 아닌 타 음향 객체들의 카테고리에 기초하여 상기 공간 객체의 카테고리를 산출하는 단계를 포함한다.

바람직하게는, 상기 카테고리 분류 단계는, 상기 전체 음향을 객체 분류 모델에 입력하여 상기 음향 객체 각각의 (i) 카테고리, 및 (ii) 위치 및 방향 중 적어도 하나를 산출하는 단계를 포함한다.

더 바람직하게는, 상기 상세 분류 단계는, 상기 전체 음향에 나타난 개별 음향 객체가 속한 개별 카테고리에 해당하는 음향 객체 각각의 상기 특성 및 상기 상태를 획득하게끔 상기 개별 카테고리의 음향 분석에 적합화되도록 미리 훈련된 적어도 하나의 모델로 구성된 모델의 집합인 상세 분류 모델을, 분류 모델 선택 모듈을 이용하여 선택하는 단계; 및 상기 개별 음향 객체의 음향인 개별 객체 음향을 선택된 상기 상세 분류 모델에 입력하여 상기 개별 음향 객체의 식별자, 및 상기 식별자를 통하여 상기 개별 음향 객체에 귀속되는 객체 기록으로서, 상기 상세 분류 정보를 포함하는 객체 기록을 생성하는 단계를 포함한다.

더욱 더 바람직하게는, 상기 음향 객체가 공간 객체이면, 상기 카테고리 분류 단계에서, 상기 객체 분류 모델에 의하여 상기 공간 객체의 공간이 실내인지 실외인지를 분류하고, 상기 상세 분류 단계에서, 상기 분류 모델 선택 모듈에 의하여 상기 공간 객체의 공간이 실내이면 실내 상세 분류 모델을 상기 상세 분류 모델로서 선택하고, 상기 공간 객체의 공간이 실외이면 실외 상세 분류 모델을 상기 상세 분류 모델로서 선택한다.

일 실시 예에서, 상기 상세 분류 모델은, 상기 음향 객체의 일부를 이루거나 상기 음향 객체에 귀속된 구성요소인 부분 객체의 정보, 상기 음향 객체의 카테고리를 심화 구분한 심화 분류 정보, 상기 음향 객체의 상기 부분 객체를 지칭하는 정보인 종체, 상기 음향 객체가 타 객체의 부분 객체인 경우에 상기 타 객체를 지칭하는 정보인 주체, 상기 음향 객체의 감정 상태, 상기 음향 객체의 음성으로부터 검출되는 대화, 상기 음향 객체의 음성 또는 비언어적 음향의 특징인 성문, 상기 음향 객체의 위치 및 상기 음향 객체의 자력 이동 가능 여부 중 적어도 하나를 산출하는 심화 특성 모델을 더 포함한다.

유리하게는, 상기 음향 객체의 우선순위는, 상기 음향 객체의 권한에 기초하여 상기 음향 객체 각각에 대하여 지정되는 권한 기반 우선순위, 상기 음향 객체의 특성들 중 적어도 상기 음향 객체의 카테고리 또는 상기 음향 객체의 심화 분류 정보를 포함하는 적어도 하나의 특성에 따라 구분된 객체 집합들 각각에 대하여 지정되는 분류 기반 우선순위, 및 상기 음향 객체의 상태들 중 적어도 상기 음향 객체의 맥락을 포함하는 적어도 하나의 상태에 따라 구분된 객체 집합들 각각에 대하여 지정되는 맥락 기반 우선순위 중 적어도 하나를 포함한다.

일 실시 예에서, 상기 권한 기반 우선순위는, 분석된 상기 음향 객체의 특성에 기초하여 상기 음향 객체가 상기 컴퓨팅 장치를 취급할 수 있도록 미리 정해진 권한자인지 여부를 판별하거나 상기 음향 객체의 음성 인증을 통하여 상기 객체가 상기 권한자인지 여부를 판별하는 단계; 및 상기 음향 객체가 상기 미리 정해진 권한자이면, 상기 권한자에 대하여 미리 정해진 순위를 상기 음향 객체의 상기 권한 기반 우선순위로 설정하는 단계를 수행함으로써 산출된다.

다른 실시 예에서, 상기 맥락 기반 우선순위는, 상기 음향 객체가 상기 전체 음향으로부터 추론된 객체 맥락 및 상기 전체 음향으로부터 추론된 공간 맥락 중 적어도 하나에 의한 행위자 또는 상기 행위자와 상호작용하는 것으로 검출되는 객체인 맥락 상호작용 객체인지 여부에 기초하여 상기 행위자 또는 상기 맥락 상호작용 객체에 상대적으로 높은 우선순위를 설정함으로써 산출된다.

바람직하게, 상기 음향 처리 방법은, 상기 전체 음향에서 객체별 음향이 분류되면, 상기 컴퓨팅 장치는, 음향 추적 컨트롤러에 의하여 입력원을 구별하는 단계를 더 포함한다.

유리하게는, 상기 입력원은 지향성 마이크, 무지향성 마이크, 마이크 어레이(microphone Array), 빔 포밍 마이크(beam forming microphone) 중 적어도 하나를 포함한다.

바람직하게는, 상기 음향 처리 방법은, 상기 컴퓨팅 장치가, 상기 컴퓨팅 장치에 연동하는 촬영 장치 또는 디스플레이 장치에 상대적인 상기 객체별 음향의 방향을 검출하는 방향 검출 단계를 더 포함한다.

일 실시 예에서, 상기 음향 처리 방법은, 상기 컴퓨팅 장치가, 상기 전체 음향으로부터 (예컨대, 우선순위에 따라) 음향 객체를 검출하는 단계; 상기 컴퓨팅 장치가, 상기 입력원별로 상기 음향 객체의 상기 객체별 음향의 음량, 주파수 및 위상 중 적어도 하나를 획득하는 단계; 및 상기 컴퓨팅 장치가, 상기 음향 객체로 하여금 발음을 하도록 유도함으로써 상기 음향 객체를 특정하는 단계를 더 포함한다.

다른 실시 예에서, 상기 컴퓨팅 장치는, 촬영 장치 또는 디스플레이 장치가 장착되어 상기 촬영 장치 또는 디스플레이 장치의 자세를 제어하는 하나 이상의 회전 축을 가진 짐벌(gimbal)과 연동하고, 상기 음향 처리 방법은, 산출된 상기 객체별 음향의 방향에 기초하여 상기 짐벌을 제어하는 짐벌 제어 단계를 더 포함한다.

바람직하게는, 상기 방향 검출 단계에서, 상기 컴퓨팅 장치가, 상기 전체 음향으로부터 (예컨대, 우선순위에 따라) 음향 객체를 검출하고, 상기 짐벌 제어 단계에서, 상기 컴퓨팅 장치가, 상기 음향 객체에 대해 음향의 발생원이 맞는지 여부를 질의하고, 상기 촬영 장치를 제어하는 짐벌을 이용한 영상 추적을 통하여, 발음하는 객체가 상기 음향 객체와 동일한 객체인지 확인한다.

유리하게는, 상기 짐벌 제어 단계에서, 상기 입력원이 지향성 마이크 또는 마이크 어레이인 경우, 상기 컴퓨팅 장치가, 상기 객체별 음향에 기초하여 산출된 음향 객체의 방향에 기초하여 시스템의 방향을 제어한다.

더 유리하게는, 상기 입력원은 2개 이상의 개별 마이크를 포함하는 마이크 어레이이고, 상기 방향 검출 단계는, 상기 컴퓨팅 장치가, 상기 개별 마이크에 의하여 획득된 음향 각각에 대하여 (예컨대, 우선순위에 따라) 음향 객체를 검출하는 단계; 상기 컴퓨팅 장치가, 상기 개별 마이크별로 상기 음향 객체의 상기 객체별 음향의 음량, 주파수 및 위상 중 적어도 하나를 획득하는 단계; 및 상기 컴퓨팅 장치가, 상기 음량, 주파수 및 위상 중 적어도 하나에 기초하여 상기 음향 객체의 위치를 산출하는 단계를 포함한다.

또 다른 실시 예에서, 상기 입력원은 상기 컴퓨팅 장치에 연동하는 짐벌에 직접 장착되거나 상기 촬영 장치 또는 디스플레이 장치에 장착된 지향성 마이크이고, 상기 방향 검출 단계는, 상기 컴퓨팅 장치가, 상기 지향성 마이크에 의하여 획득된 전체 음향으로부터 (예컨대, 우선순위에 따라) 음향 객체를 검출하는 단계; 및 상기 짐벌로써 상기 지향성 마이크의 방향을 제어하면서 상기 음향 객체의 객체별 음향의 음량, 주파수 및 위상 중 적어도 하나를 획득함으로써 상기 음향 객체의 방향 및 위치를 판별하는 단계를 포함한다.

다른 일 실시 예에서, 상기 방향 검출 단계는, 상기 컴퓨팅 장치가, 상기 입력원에 의하여 획득된 전체 음향으로부터 (예컨대, 우선순위에 따라) 음향 객체를 검출하는 단계; 및 (i) 상기 음향 객체의 카테고리 또는 상세 분류 정보와, 상기 촬영 장치로부터 획득된 영상에서 검출되는 영상 객체의 카테고리 또는 상세 분류 정보를 서로 대응시키는 객체 분류 추적, (ii) 상기 영상에서 검출되는 영상 객체의 음향 발생 동작을 포착함으로써 상기 음향 객체와 상기 영상 객체를 서로 대응시키는 음향 발생 동작 추적, 및 (iii) 상기 음향 객체의 객체별 음향과 상기 영상 객체의 음향 발생 동작을 비교함으로써 상기 음향 객체와 상기 영상 객체를 서로 대응시키는 발음 행동 패턴 추적 중 적어도 하나를 이용하여, 상기 음향 객체의 방향 및 위치를 판별하는 단계를 포함한다.

바람직하게는, 상기 객체 분류 추적은, 카테고리 또는 상세 분류 정보가 획득된 음향 객체에 대하여, 상기 카테고리 또는 상기 상세 분류 정보와 동일한 카테고리 또는 상세 분류 정보를 가진 영상 객체를 탐색함으로써 수행된다.

대안으로서, 상기 객체 분류 추적은, 영상 객체를 탐색 또는 모니터링하는 동안 인식되는 음향 객체에 대하여, 상기 영상 객체의 카테고리 또는 상세 분류 정보와 상기 음향 객체의 카테고리 또는 상세 분류 정보가 서로 일치하는지 여부를 비교하고 상기 영상 객체와 상기 음향 객체를 서로 대응시킴으로써 수행될 수 있다.

유리하게는, 상기 음향 발생 동작 추적은, 카테고리 또는 상세 분류 정보가 획득된 음향 객체에 대하여, 상기 카테고리 또는 상기 상세 분류 정보와 동일한 카테고리 또는 상세 분류 정보를 가진 영상 객체를 탐색하는 단계; 상기 영상 객체의 음향 발생 동작을 인식하는 단계; 및 상기 음향 객체가 상기 음향 발생 동작을 하고 있는 상기 영상 객체와 일치하는지 여부를 확인하는 단계를 포함한다.

대안으로서, 상기 음향 발생 동작 추적은, 영상 객체의 음향 발생 동작을 검출하는 단계; 및 상기 음향 발생 동작이 검출된 상기 영상 객체로부터 식별되는 상기 영상 객체의 카테고리 및 상세 분류 정보 중 적어도 하나와, 상기 전체 음향에 나타난 개별 음향 객체 각각의 카테고리 및 상세 분류 정보가 서로 일치하는지 여부를 비교함으로써 상기 음향 발생 동작이 검출된 상기 영상 객체와 상기 개별 음향 객체 중 하나를 서로 대응시키는 단계를 포함할 수 있다.

바람직하게는, 상기 발음 행동 패턴 추적은, 영상 객체의 음향 발생 동작을 인식하는 단계; 상기 음향 객체가 상기 음향 발생 동작을 하고 있는 상기 영상 객체와 일치하는지 여부를 확인하는 단계; 상기 영상 객체와 일치하는 상기 음향 객체에서 상기 음향 발생 동작에 대응하는 발음 부분 객체를 탐색하는 단계; 및 상기 음향 발생 동작의 패턴이 상기 음향 객체의 객체별 음향의 패턴과 일치하는지 확인하는 단계를 포함한다.

대안으로서, 상기 발음 행동 패턴 추적은, 영상 객체의 발음 부분 객체를 인식하는 단계; 상기 발음 부분 객체의 음향 발생 동작을 검출하는 단계; 및 상기 음향 발생 동작의 패턴이 상기 음향 객체의 객체별 음향의 패턴과 일치하는지 비교함으로써 상기 음향 발생 동작이 검출된 상기 영상 객체와 상기 음향 객체를 서로 대응시키는 단계를 포함할 수 있다.

본 발명의 다른 태양에 따르면, 컴퓨팅 장치에 의하여 영상 및 음향을 처리하는 방법이 제공되는바, 그 방법은, 상기 컴퓨팅 장치가, (i) 상기 컴퓨팅 장치에 일체화되거나 상기 컴퓨팅 장치와 연동하는 음향 입력 장치로부터 전체 음향을 획득하고, 상기 전체 음향을 기계 학습 모델에 입력될 수 있는 규격으로 가공하는 전처리를 수행하며, 상기 전체 음향의 세부 처리에 적합화된 적어도 하나의 데이터 인식 모델을 선택하는 음향 입력 프로세스, 및 (ii) 상기 컴퓨팅 장치에 일체화되거나 상기 컴퓨팅 장치와 연동하는 촬영 장치로부터 전체 영상을 획득하고, 상기 전체 영상을 기계 학습 모델에 입력될 수 있는 규격으로 가공하는 전처리를 수행하며, 상기 전체 영상의 세부 처리에 적합화된 적어도 하나의 데이터 인식 모델을 선택하는 영상 입력 프로세스를 수행하는 단계; 상기 전체 음향 및 상기 전체 영상의 데이터로부터 상기 음향 및 상기 영상의 상기 세부 처리에 필요한 데이터를 선별하는 단계; 및 상기 선별된 데이터를 상기 데이터 인식 모델에 적용하여 상기 세부 처리를 수행함으로써 결과값을 도출하는 단계를 포함한다.

바람직하게는, 그 영상 및 음향 처리 방법은, 상기 결과값에 대한 평가치를 기초로 하여 상기 데이터 인식 모델을 갱신하는 단계를 더 포함한다.

본 발명의 또 다른 태양에 따르면, 본 발명에 따른 방법을 수행하도록 구현된 인스트럭션들(instructions)을 포함하는 컴퓨터 프로그램도 제공된다.

본 발명의 다른 일 태양에 따르면, 음향을 처리하는 컴퓨팅 장치가 제공되는바, 그 장치는, 음향 입력 장치와 연동하여 상기 음향 입력 장치로부터 전체 음향을 획득하는 통신부; 및 상기 전체 음향에 나타난 하나 이상의 음향 객체를 검출하고, 검출된 상기 음향 객체 각각의 카테고리를 산출하는 분류를 수행하는 카테고리 분류 프로세스, 및 상기 음향 객체 각각에 대한 분석 결과로서 상기 음향 객체의 특성 및 상태를 포함하는 상세 분류 정보를 생성하는 상세 분류 프로세스를 수행하는 프로세서를 포함한다.

본 발명의 다른 태양에 의하면, 영상 및 음향을 처리하는 컴퓨팅 장치가 제공되는바, 그 장치는, 음향 입력 장치와 연동하여 상기 음향 입력 장치로부터 전체 음향을 획득하며, 촬영 장치와 연동하여 상기 촬영 장치로부터 전체 영상을 획득하는 통신부; 및 상기 전체 음향을 기계 학습 모델에 입력될 수 있는 규격으로 가공하는 전처리를 수행하며, 상기 전체 음향의 세부 처리에 적합화된 적어도 하나의 데이터 인식 모델을 선택하는 음향 입력 프로세스, 상기 전체 영상을 기계 학습 모델에 입력될 수 있는 규격으로 가공하는 전처리를 수행하며, 상기 전체 영상의 세부 처리에 적합화된 적어도 하나의 데이터 인식 모델을 선택하는 영상 입력 프로세스, 상기 전체 음향 및 상기 전체 영상의 데이터로부터 상기 음향 및 상기 영상의 상기 세부 처리에 필요한 데이터를 선별하는 프로세스 및 상기 선별된 데이터를 상기 데이터 인식 모델에 적용하여 상기 세부 처리를 수행함으로써 결과값을 도출하는 프로세스를 수행하는 프로세서를 포함한다.

바람직하게, 상기 장치들은 본 발명에 따른 방법을 수행하도록 구현된 인스트럭션들을 포함하는 컴퓨터 프로그램을 실행할 수 있으며, 이에 의해 전술한 방법들이 수행될 수 있다.

본 개시서의 예시적인 실시 예에 따르면, 음향 또는 음향 및 영상의 조합을 이용하여 하나 이상의 객체를 인식 및 추적할 수 있고, 객체 및 환경의 정보를 능동적으로 획득할 수 있으며, 특히, 객체의 상태 정보를 원거리에서 음향 또는 음향 및 영상의 조합으로 획득할 수 있고, 객체가 상호작용하는 객체를 판별할 수 있어 휴대 가능 컴퓨팅 장치의, 음향 또는 음향 및 영상의 조합을 이용한 원거리 입력 및 출력이 가능해지는 효과가 있다.

본 발명의 실시 예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시 예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 사람(이하 "통상의 기술자"라 함)에게 있어서는 발명에 이르는 노력 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 개시서의 일 실시 예에 따라 컴퓨팅 장치에 의하여 음향을 처리하는 방법(이하 "음향 처리 방법"이라 함)을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 2는 본 개시서의 일 실시 예에 따른 음향 처리 방법을 수행하는 시스템으로서, 컴퓨팅 장치, 마이크로폰 및 짐벌을 포함하는 전체 하드웨어 및 소프트웨어 아키텍처를 예시적으로 도시한 개념도이다.
도 3은 본 개시서의 일 실시 예에 따른 음향 처리 방법을 예시적으로 나타낸 흐름도이며, 도 4는 본 개시서의 일 실시 예에 따른 음향 처리 방법의 각 단계를 수행하는 모듈들을 예시적으로 도시한 블록도이다.
도 5는 본 개시서의 일 실시 예에 따른 음향 처리 방법을 위한 모듈들에서 이용되는 기계 학습 모델들을 예시적으로 도시한 블록도이다.
도 6a 내지 도 6c는 본 개시서에 따른 음향 처리 방법의 방향 검출 단계를 더 구체적으로 예시한 흐름도들이다.
도 7은 본 개시서의 일 실시 예에 따른 음향 처리 방법에서 객체 분류 추적을 이용하여 방향 검출 단계를 수행하는 방식을 설명하기 위하여 예시된 도면이다.
도 8은 본 개시서의 일 실시 예에 따른 음향 처리 방법에서 발음 행동 패턴 추적을 이용하여 방향 검출 단계를 수행하는 방식을 설명하기 위하여 예시된 도면이다.
도 9는 본 개시서의 다른 실시 예에 따라 컴퓨팅 장치에 의하여 영상 및 음향을 처리하는 방법(이하 "영상 및 음향 처리 방법"이라 함)을 예시적으로 나타낸 흐름도이다.

본 개시서에서 인용된 모든 선행문헌들은 마치 본 개시서에 다 제시된 것처럼 그 전체가 참조로써 통합된다. 달리 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 개시서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시 예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시 예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

실시 예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시 예들은 특정한 개시형태로 한정되는 것이 아니며, 본 개시서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

"제1" 또는 "제2" 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 하는바, 어떠한 순서도 시사하고 있지 않기 때문이다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

또한, 제1 구성요소 "및/또는" 제2 구성요소는 제1 구성요소 및 제2 구성요소 중 적어도 하나를 지칭하는 것으로 이해되어야 한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 개시서에서, "포함하다" 또는 "가지다" 등의 용어는 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한 어떤 대상의 "부분" 또는 "일부분"은 그 대상의 전체가 아닌 일부만을 의미하는 것일 수도 있지만, 그 문맥에서 달리 명시되지 않는 한 그 대상의 전체도 포함하는 것으로 이해되어야 한다. 어떤 집합의 부분집합은 그 집합 자체를 포함하는 개념인 것과 마찬가지이다.

본 개시서에서 '모듈'은 본 개시서에서 설명되는 각 명칭에 따른 기능 및 동작을 수행할 수 있는 하드웨어를 의미할 수도 있고, 특정 기능 및 동작을 수행할 수 있는 컴퓨터 프로그램 코드를 의미할 수도 있고, 또는 특정 기능 및 동작을 수행시킬 수 있는 컴퓨터 프로그램 코드가 탑재된 기록 매체를 의미할 수도 있다. 달리 말하자면, 모듈은 본 개시서의 기술적 사상을 수행하기 위한 하드웨어 및/또는 그 하드웨어를 구동하기 위한 소프트웨어의 기능적 및/또는 구조적 결합을 의미할 수 있다. 또한, '컨트롤러'는 제어를 위한 모듈을 의미할 수 있다.

엄밀하게, '모델'은 기계 학습(machine learning)에 의하여 훈련된 대로 입력 데이터로부터 출력 데이터를 산출하도록 구성된 함수를 지칭한다. 그러한 '모델'은 일종의 자료 구조 또는 함수로서 전술한 '모듈'에 의하여 이용될 수 있다.

다만, 인공지능이 적용되는 분야에 속한 통상의 기술자들 중 일부에게서 '모듈'과 '모델'을 서로 혼용하는 습관이 발견되며, 이에 따라 본 개시서에서도 '모듈'과 '모델'이 서로 교환 가능하도록 혼용될 수 있는데, 이는 이들이 서로 간의 개념 혼동 없이 통상의 기술자에게 쉽게 이해될 수 있기 때문이다.

본 개시서에서 언급되는 '모델'은 예를 들어, 인공 신경망(artificial neural network)을 기반으로 한 모델일 수 있다. 인공 신경망 모델 또는 이를 축약하여 지칭한 '인공 신경망'은, 예컨대, DNN(deep neural network), RNN(recurrent neural network), BRDNN(bidirectional recurrent neural network), YOLO2, 심층 Q-네트워크(deep Q-network)와 같은 모델을 포함할 수 있다.

본 개시서에서 '훈련(training)', '학습(learning)'은 절차에 따른 컴퓨팅(computing)을 통하여 기계 학습을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아님을 통상의 기술자는 이해할 수 있을 것이다. 통계학 분야에서 일반적으로 이용되는 의미와 같이 '기계 학습'이라는 용어는 입력 변수들(X)을 출력 변수(Y)에 잘 사상(mapping)시키는 표적 함수(target function)(f)를 만드는 일련의 과정을 지칭하는 데 흔히 이용된다. 표적 함수에 의하여 입력 변수들로부터 출력 변수를 산출하는 것을 '예측(predict)'이라고 지칭하는바, '잘 사상시킨다'는 것은 참값과 예측값의 차이를 합리적으로 줄였다는 의미이다. 단지 그 차이를 최소화하는 것이 아니라 합리적으로 줄이는 이유는 최적화는 이른바 과적합(overfitting) 문제, 즉, 훈련 데이터에서 벗어난 실제 데이터를 적용할 때 예측이 잘 안 맞는 문제를 야기할 우려가 있어 이를 해소하기 위한 적절한 경험적 수단이 강구되기 때문이다.

또한, 본 개시서에서 '추론(inference)'은 기계 학습된 모델에 의하여 입력 데이터로부터 출력 데이터를 산출하는 과정을 일컫는 용어인바, 특히 인간의 정신적 작용을 기계적으로 흉내낸 것을 지칭하는 데 이용된다. 마찬가지로, 본 개시서에서 기계에 의한 '해석(analysis)'은 추론과 마찬가지로 인간의 정신적 작용을 기계적으로 흉내낸 것을 지칭하는 데 이용된다.

본 개시서에서 다뤄지는 데이터는 기계 학습된 모델, 예컨대 신경망 모델을 통하여 처리되며, 각각의 모델의 결과값이 출력되는 종단은 서로 직렬 또는 병렬로 연결되어 최종 결과값이 아닌 중간 결과값인 중간 데이터가 재활용될 수 있다. 어느 한 모델의 처리 결과는 다른 모델의 입력 데이터로 재활용될 수 있다.

더욱이 본 발명은 본 개시서에 표시된 실시 예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 예에 관련하여 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

본 개시서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시 예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 개시서의 일 실시 예에 따른 음향 처리 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.

도 1을 참조하면, 본 개시서의 일 실시 예에 따른 컴퓨팅 장치(100)는, 통신부(110) 및 프로세서(120)를 포함하며, 상기 통신부(110)를 통하여 외부 컴퓨팅 장치(미도시)와 직간접적으로 통신할 수 있다.

구체적으로, 상기 컴퓨팅 장치(100)는, 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터; 프로세서, 메모리, 스토리지(storage), 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS; network-attached storage) 및 스토리지 영역 네트워크(SAN; storage area network)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 명령어들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다. 상기 스토리지는 하드 디스크, USB(Universal Serial Bus) 메모리와 같은 기억 장치뿐만 아니라 클라우드 서버와 같은 네트워크 연결 기반의 저장 장치의 형태를 포함할 수 있다. 여기에서, 메모리는 DDR2, DDR3, DDR4, SDP, DDP, QDP, 자기 하드 디스크, 플래시 메모리 등일 수 있으나 이에 한정되지 않는다.

이와 같은 컴퓨팅 장치의 통신부(110)는 연동되는 타 컴퓨팅 장치, 예컨대 휴대 단말 등과의 사이에서 요청과 응답을 송수신할 수 있는바, 일 예시로서 그러한 요청과 응답은 동일한 TCP(Transmission Control Protocol) 세션(session)에 의하여 이루어질 수 있지만, 이에 한정되지는 않는 바, 예컨대 UDP(User Datagram Protocol) 데이터그램(datagram)으로서 송수신될 수도 있을 것이다.

구체적으로, 통신부(110)는 통신 인터페이스를 포함하는 통신 모듈의 형태로 구현될 수 있다. 이를테면, 통신 인터페이스는 WLAN(Wireless LAN), WiFi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMax(World interoperability for Microwave access), HSDPA(High Speed Downlink Packet Access), 4G, 5G 등의 무선 인터넷 인터페이스와 블루투스(Bluetooth™), RFID(Radio Frequency IDentification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra-WideBand), ZigBee, NFC(Near Field Communication) 등의 근거리 통신 인터페이스를 포함할 수 있다. 뿐만 아니라, 통신 인터페이스는 외부와 통신을 수행할 수 있는 모든 인터페이스(예를 들어, 유선 인터페이스)를 나타낼 수 있다.

예를 들어, 통신부(110)는 이와 같이 적합한 통신 인터페이스를 통해 타 컴퓨팅 장치로부터 데이터를 송수신할 수 있다. 덧붙여, 넓은 의미에서 상기 통신부(110)는 명령어 또는 지시 등을 전달받기 위한 키보드, 마우스, 터치 센서, 터치 스크린의 입력부, 마이크로폰, 비디오 카메라, 또는 LIDAR, 레이더, 스위치, 버튼, 조이스틱 등의 외부 입력 장치, 사운드 카드, 그래픽 카드, 인쇄 장치, 디스플레이, 예컨대, 터치 스크린의 디스플레이부 등의 외부 출력 장치를 포함하거나 이들과 연동될 수 있다. 컴퓨팅 장치, 예컨대 휴대 단말의 사용자에게 적절한 사용자 인터페이스를 표시하여 제공함으로써 사용자와의 상호작용을 가능하게 하기 위하여, 컴퓨팅 장치(100)는 디스플레이 장치를 내장하거나 상기 통신부(110)를 통하여 외부의 디스플레이 장치와 연동될 수 있음이 알려져 있다. 예컨대, 그러한 디스플레이 장치는 터치 입력이 가능한 터치스크린일 수 있다. 터치스크린은 용량성으로나 유도성으로 또는 광학적으로 디스플레이에 접촉 또는 근접하는 손가락, 스타일러스 펜과 같은 물체를 검출할 수 있고, 그 검출된 디스플레이 상의 위치를 결정할 수 있다.

상기 입력 장치에는 마이크로폰이 포함될 수도 있다. 마이크로폰의 종류에는 다이나믹 마이크, 콘덴서 마이크 등이 포함될 수 있고, 전지향성, 단일 지향성, 초지향성 등의 특성을 가진 마이크가 이용될 수 있다. 빔포밍 마이크로폰, 마이크로폰 어레이도 이용될 수 있으나 이에 한정되지 않는다. 마이크로폰 어레이는 음원의 방향을 검출하기 위하여 이용되는 2개 이상의 마이크로폰들을 지칭한다.

상기 출력 장치에는 스피커가 포함될 수도 있다. 스피커의 종류에는 무지향성 스피커, 지향성 스피커, 초음파를 이용한 초지향성 스피커 등이 이용될 수 있으나 이에 한정되지 않는다.

또한, 컴퓨팅 장치의 프로세서(120)는 MPU(micro processing unit), CPU(central processing unit), GPU(graphics processing unit), NPU(neural processing unit), ASIC, CISC, RISC, FPGA, SOC 칩 또는 TPU(tensor processing unit), 캐시 메모리(cache memory), 데이터 버스(data bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.

도 2는 본 개시서의 일 실시 예에 따른 음향 처리 방법을 수행하는 시스템으로서, 컴퓨팅 장치, 마이크로폰 및 짐벌을 포함하는 전체 하드웨어 및 소프트웨어 아키텍처를 예시적으로 도시한 개념도이다.

도 2를 참조하여 본 발명에 따른 방법 및 장치의 구성을 개관하면, 컴퓨팅 장치(100)는 촬영 장치(200)를 포함할 수도 있고, 무선 또는 유선으로 외부의 촬영 장치(200)와 연동할 수도 있다.

또한, 컴퓨팅 장치(100)는 음향 입력 장치(250), 예컨대, 마이크로폰을 포함할 수도 있고, 무선 또는 유선으로 외부의 음향 입력 장치(250)와 연동할 수도 있다.

또한, 컴퓨팅 장치(100)는 촬영 장치(200) 및/또는 음향 입력 장치(250)의 자세를 제어하는 기능을 수행하는 짐벌(gimbal; 300)과 무선 또는 유선으로 연동하거나 이를 포함할 수 있다.

촬영 장치(200) 및/또는 음향 입력 장치(250)의 자세를 제어할 수 있도록 짐벌(300)은 촬영 장치(200) 및/또는 음향 입력 장치(250)를 포함하거나 촬영 장치(200) 및/또는 음향 입력 장치(250)를 고정할 수 있는 소정의 메커니즘(예컨대 흡착판 등)을 구비할 수 있다. 예를 들어, 촬영 장치(200)와 음향 입력 장치(250)는 서로 일체화되거나 결합된 것일 수도 있지만, 서로 분리된 별개의 것일 수도 있는바, 그 경우 짐벌(300)은 촬영 장치(200)의 자세를 제어하고 음향 입력 장치(250)의 자세는 제어하지 않거나, 촬영 장치(200)의 자세를 제어하는 짐벌(300) 외에 음향 입력 장치(250)의 자세를 제어하는 제2 짐벌(350)이 더 구비될 수 있다.

전술한 자세의 제어를 위하여 짐벌(300)은 하나 이상의 회전 축을 가질 수 있는바, 공개특허공보 제10-2019-0036323호에서 그 예시를 찾을 수 있다. 짐벌(300)은 자세 제어를 통하여 촬영 장치(200) 및/또는 음향 입력 장치(250)의 입력 범위를 능동적으로 개선할 수 있다.

짐벌(300)이 하나의 회전 축을 가질 때, 그 회전 축은 요(yaw) 축(Y)일 수 있다. 요 축은 촬영 장치(200) 및/또는 음향 입력 장치(250)로 하여금 최소한의 회전만으로 공간 내에 있는 객체와의 상호작용이 가능해지도록 한다.

짐벌(300)이 두 개의 회전 축을 가질 때, 그 회전 축은 요(yaw) 축 및 피치(pitch) 축(P)일 수 있다. 또한, 짐벌(300)이 세 개의 회전 축을 가질 때, 그 회전 축은 요 축, 피치 축, 및 롤(roll) 축(R)일 수 있다.

짐벌(300)은 그 하드웨어의 구성요소로서 전력 공급 유닛(310)을 포함할 수 있다. 전력 공급 유닛(310)은 유선 또는 무선으로, 그리고 직류 또는 교류 전류로 외부 전력을 공급받을 수 있다. 전력 공급 유닛(310)에 공급된 전력은 짐벌(300) 또는 컴퓨팅 장치(100)에 이용될 수 있다. 덧붙여, 전력 공급 유닛(310)은 짐벌(300)에 내장된 배터리 또는 컴퓨팅 장치에 내장된 배터리를 충전하는 데 이용될 수 있다.

또한, 짐벌(300)은 그 하드웨어의 구성요소로서 적어도 하나의 짐벌 모터(330; 미도시)를 포함할 수 있다. 짐벌 모터(330) 각각은 전술한 회전 축에 따라 촬영 장치(200) 및/또는 음향 입력 장치(250), 혹은 촬영 장치(200) 및/또는 음향 입력 장치(250)가 내장된 컴퓨팅 장치(100)의 방향을 변경할 수 있도록 구성되는바, 짐벌 모터(330)는 DC 모터, 스텝 모터, 브러시리스 모터일 수 있으나 이에 한정되지 않는다. 짐벌(300)은 짐벌 모터(330)뿐만 아니라 모터의 토크를 변환하기 위한 기어를 더 포함할 수 있다.

짐벌(300)의 모터(330)는 짐벌에 부착된 촬영 장치(200) 및/또는 음향 입력 장치(250), 또는 컴퓨팅 장치(100)로 하여금 특정 객체의 방향을 지향하기 위한 것인바, 그 각각의 회전 축은 촬영 장치(200) 및/또는 음향 입력 장치(250), 또는 컴퓨팅 장치(100)의 요, 피치, 롤 축 등 각각의 축에 평행하도록 배치하는 것이 바람직할 것이나 이에 한정될 이유가 없음을 통상의 기술자는 쉽게 이해할 수 있을 것이다.

짐벌(300)은 그 하드웨어 구성요소로서 적어도 하나의 센서(340; 미도시)를 더 포함할 수 있다. 센서(340)는 짐벌(300)의 고정된 부분 또는 모터(330)에 대하여 위치, 각위치, 변위, 각변위, 속도, 각속도, 가속도, 각가속도 중 하나 이상을 검출하는 기능을 수행할 수 있는바, 그러한 센서(340)의 종류에는 가속도 센서, 자이로 센서, 지자기 센서 등의 마그네틱 센서, 홀 센서, 압력 센서, 적외선 센서, 근접 센서, 모션 센서, 감광 센서, 이미지(영상) 센서, GPS 센서, 온도 센서, 습도 센서, 기압 센서, LIDAR 센서 등이 있을 수 있되 이에 한정되지 않는다.

컴퓨팅 장치(100), 특히 휴대 가능 컴퓨팅 장치가 가질 수 있는 무게, 부피에 관한 제한으로 인하여 컴퓨팅 장치(100)에 탑재되지 못한 센서(340)는 짐벌(300)에 탑재될 수 있는바, 이는 짐벌(300) 주위의 정보를 획득하는 데 이용될 수 있다.

이제 도 2를 참조하여 개략적으로 설명된 개별 구성요소들에 의하여 달성될 수 있는 본 발명의 구체적인 기능 및 효과에 관하여 도 3 내지 도 5를 참조하여 상세히 후술하기로 한다. 도 2에 나타난 구성요소들은 설명의 편의상 하나의 컴퓨팅 장치에서 실현되는 것으로 예시되었으나, 본 개시서의 방법을 수행하는 컴퓨팅 장치(100)는 복수개의 장치들이 서로 연동되도록 구성될 수도 있다는 점이 이해될 것이다. 예를 들어, 짐벌(300)이 독립적인 컴퓨팅 장치인 것으로 구성되어 그 짐벌(300)과 컴퓨팅 장치(100), 예컨대, 휴대 단말과 같은 휴대 가능 컴퓨팅 장치가 서로 연동될 수도 있는바, 그 경우에 짐벌(300)이 휴대 단말(100)에 의하여 수행되는 적어도 일부의 기능을 대신 수행할 수도 있다. 즉, 통상의 기술자는 다양한 방식으로 복수개의 장치들이 서로 연동하여 본 개시서의 방법을 수행하도록 구성할 수 있을 것이다.

도 3은 본 개시서의 일 실시 예에 따른 음향 처리 방법을 예시적으로 나타낸 흐름도이며, 도 4는 본 개시서의 일 실시 예에 따른 음향 처리 방법의 각 단계를 수행하는 모듈들을 예시적으로 도시한 블록도이다.

또한, 도 5는 본 개시서의 일 실시 예에 따른 음향 처리 방법을 위한 모듈들에서 이용되는 기계 학습 모델들을 예시적으로 도시한 블록도이다.

도 3을 참조하면, 본 개시서에 따른 음향 처리 방법은, 먼저, 컴퓨팅 장치(100)에 의하여 구현되는 음향 입력 모듈(4150)이, 컴퓨팅 장치(100)에 포함되거나 컴퓨팅 장치(100)의 통신부(110)를 통하여 연동하는 음향 입력 장치(250)로부터 전체 음향을 획득하는 단계인 음향 획득 단계(S1000)를 포함한다.

여기에서 '전체 음향'은 후술하는 객체 음향 등과 같이 전체 음향의 일부인 것과 대비되는 음향을 지칭한다.

다음으로, 상기 음향 처리 방법은, 컴퓨팅 장치(100)에 의하여 구현되는 맥락 모듈(4250)이, 상기 전체 음향으로부터 맥락(context)을 추론하는 맥락 처리 단계(S2000)를 더 포함한다.

맥락 처리 단계(S2000)는, 컴퓨팅 장치(100)가, 상기 전체 음향에 나타난 하나 이상의 음향 객체를 검출하고, 검출된 상기 음향 객체 각각의 카테고리를 산출하는 분류를 수행하는 카테고리 분류 단계(S2100)를 포함할 수 있다.

여기에서 객체의 카테고리란 객체를 사람, 나무, 강아지 등으로 분류한 결과를 지칭한다. 일 예시로서, 한 사람이 언어적 또는 비언어적 음향을 내면 이는 음향 객체이다.

또한, 객체는 그 객체가 존재하는 '공간'에 해당하는 객체인 공간 객체를 포함하는 개념이며, 그 공간 객체의 상세 분류 정보는 해당 공간에 대한 정보를 포함할 수 있다. 공간 객체가 음향에 의하여 다뤄지는 경우, 공간 객체는 음향이 존재하였던 공간에 해당하는 객체이다.

카테고리 분류 단계(S2100)는, 컴퓨팅 장치(100)에 의하여 구현되는 공간 모듈(4252)이, 상기 객체가 공간 객체이면, 상기 공간 객체가 아닌 타 음향 객체들의 카테고리에 기초하여 상기 공간 객체의 카테고리를 산출하는 단계(S2120)를 포함할 수 있다.

또한, 카테고리 분류 단계(S2100)는, 상기 전체 음향을 객체 분류 모델에 입력하여 상기 음향 객체 각각의 (i) 카테고리, 및 (ii) 위치 및 방향 중 적어도 하나를 산출하는 단계(S2140)를 포함할 수 있다. 이 중에서 음향 객체 각각의 위치 및 방향 중 적어도 하나를 산출하는 구체적인 방법에 관하여는 상세히 후술하기로 한다.

계속해서 도 3을 참조하면, 맥락 처리 단계(S2000)는, 컴퓨팅 장치(100)에 의하여 구현되는 상세 분류 모듈(4350)이, 상기 음향 객체 각각에 대한 분석 결과로서 상기 객체의 특성 및 상태를 포함하는 상세 분류 정보를 생성하는 상세 분류 단계(S2200)를 더 포함할 수 있다.

객체의 특성 및 상태

상기 객체의 특성(property)은 시간에 대해 대체로 불변인 객체의 성질을 지칭하는 반면, 상기 객체의 상태(state)는 시간에 따라 대체로 변화 가능한 객체의 성질을 지칭한다.

구체적으로, 상기 객체의 특성은, 상기 객체의 일부를 이루거나 상기 객체의 귀속된 구성요소인 부분 객체의 정보를 포함할 수 있다. 일 예시로서, 사람이 객체로서 검출된다면, 그 사람의 팔, 다리, 눈 등의 부분, 그 사람이 입고 있는 옷 및 신발은 그 객체의 부분 객체들이다.

이러한 부분 객체들의 검출을 위하여, 상세 분류 단계(S2200)는, 컴퓨팅 장치(100)에 의하여 구현되는 부분 객체 분류 모듈(4254)이, 상기 음향 객체의 일부를 이루거나 상기 음향 객체의 귀속된 구성요소인 부분 객체의 검출을 시도하는 단계(S2292); 및 상기 부분 객체가 검출되면, 상기 상세 분류 정보의 일부로서, 상기 부분 객체에 대한 특성 및 상태의 분석 결과를 더 생성하는 단계(S2294)를 포함할 수 있다.

또한, 상기 음향 객체의 특성은, 상기 음향 객체의 성문, 상기 객체의 상기 부분 객체를 지칭하는 정보인 종체, 상기 객체가 타 객체의 부분 객체인 경우에 상기 타 객체를 지칭하는 정보인 주체 및 상기 객체의 자력 이동 가능 여부 중 적어도 하나를 포함할 수 있다. 후술하는 바와 같이 객체의 파악에 영상 데이터가 추가로 활용되는 경우에 상기 음향 객체의 특성은, 상기 객체의 크기, 상기 객체의 주요 재질을 포함하는 상기 객체의 하나 이상의 재질, 상기 객체의 투명도 및 상기 객체의 표면에 나타난 텍스트 중 적어도 하나를 더 포함할 수 있다.

여기에서 상기 객체의 크기는 2차원 계측 또는 3차원 계측으로 측정된 크기일 수 있다. 또한, 상기 객체의 투명도는 그 객체가 유리 창과 같이 투명한 부분을 가지는 물체일 경우에 가질 수 있는 성질로서, 예컨대, 불투명한 물체는 0의 값을, 유리와 같이 투명한 재질의 물체는 양의 값을 가질 수 있다.

한편, 상기 음향 객체의 상태는, 상기 객체의 위치, 상기 객체의 방향 및 상기 객체의 속도 중 적어도 하나를 포함할 수 있다. 객체의 파악에 영상 데이터가 추가로 활용되는 경우에 상기 객체의 상태는 상기 객체의 자세, 상기 객체의 행동, 상기 객체의 바닥 접촉 여부 중 적어도 하나를 더 포함할 수 있다.

여기에서 상기 객체의 위치는 음향을 이용하여 확인 또는 추정되는 위치일 수 있다.

상기 객체의 자세는 상기 객체의 부분 객체들의 위치 정보의 상호 관계에 의하여 추론될 수 있고, 상기 객체의 행동은 시간적으로 연속된 상기 자세로부터 추론될 수 있다.

또한, 상기 객체의 방향은 상기 객체의 위치 정보 또는 상기 객체의 행동에 의하여 추론될 수 있다.

상기 객체의 바닥 접촉 여부는 상기 객체가 그 객체가 속한 공간 객체의 바닥 평면에 접촉하는 상태에 있는지 여부를 나타내며, 그 예시로서, 의자, 책상, 전봇대, 자동차의 타이어 등이 참인 값을 가진다.

상기 객체의 상세 분류 정보는 상기 특성 및 상태뿐만 아니라 그 객체의 시스템 입출력과 관련된 정보를 지칭하는 속성(attribute)을 더 포함할 수 있다. 상기 객체의 속성은 상기 객체의 원시 데이터(raw data)가 최초 입력된 시각을 포함하는 데이터 입력 시각, 및 상기 객체에게 부여된 본 개시서에 따른 시스템에 대한 조작 권한 중 적어도 하나를 포함할 수 있다.

이와 같은 상기 음향 객체의 상세 분류 정보를 생성하기 위하여, 상세 분류 단계(S2200)는, 상기 전체 음향에 나타난 개별 음향 객체가 속한 개별 카테고리에 해당하는 음향 객체 각각의 상기 특성 및 상기 상태를 획득하게끔 상기 개별 카테고리의 음향 분석에 적합화되도록 미리 훈련된 적어도 하나의 모델로 구성된 모델의 집합인 상세 분류 모델(M440)을 분류 모델 선택 모듈(4352)을 이용하여 선택하는 단계(S2220); 및 상기 개별 음향 객체의 음향인 개별 객체 음향을 선택된 상기 상세 분류 모델(M440)에 입력하여 상기 개별 음향 객체의 식별자, 및 상기 식별자를 통하여 상기 개별 음향 객체에 귀속되는 객체 기록으로서, 상기 상세 분류 정보를 포함하는 객체 기록을 생성하는 단계(S2240)를 포함할 수 있다.

여기에서, 상세 분류 모델(M440)은 하나 이상의 객체들을 서로 구분하기 위한 것인바, 달리 말하자면, 상세 분류 모델(M440)에 의해서 생성되는 상세 분류 정보로써, 객체들 각각에 그 객체들 각각을 서로 구분할 수 있는 식별자가 부여될 수 있다.

또한, 여기에서 객체 기록이란 각 객체의 식별자에 귀속된 정보들을 포함하는 기록을 지칭한다. 각 객체의 식별자에 귀속된 정보의 예시로서, 그 객체가 사람이라면, 그 사람의 얼굴 형상, 키, 걸음걸이의 양상, 문신, 헤어 스타일 등을 포함할 수 있고, 그 객체가 개라면, 그 개의 머리 형상, 털의 형태 및 색상, 품종 등을 포함할 수 있다. 객체 기록에는 각 객체의 소유물인 타 객체의 정보가 포함될 수 있는바, 이는 그 타 객체의 식별자일 수 있다.

개별 음향 객체 각각에 대하여 상세 분류 모델(M440)을 선택하는 단계(S2220)는 컴퓨팅 장치(100)에 의하여 구현되는 분류 모델 선택 모듈(4352)에 의하여 수행될 수 있다. 분류 모델 선택 모듈(4352)은 객체의 카테고리가 획득된 후 그 카테고리에 적합한 상세 분류 모델을 그 상세 분류 모델에 적용되는 알고리즘과 함께 선택하는 기능을 수행한다.

일 예시로서, 개별 음향 객체가 공간 객체이면, 카테고리 분류 단계(S2100)에서 객체 분류 모델(M430)에 의하여 상기 공간 객체의 공간이 실내인지 실외인지를 먼저 분류한 후, 상세 분류 단계(S2200)에서 분류 모델 선택 모듈(4352)에 의하여 상기 공간 객체의 공간이 실내이면 실내 상세 분류 모델을 상세 분류 모델(M440)로서 선택하는 반면, 상기 공간 객체의 공간이 실외이면 실외 상세 분류 모델을 상세 분류 모델(M440)로서 선택할 수 있다.

또한, 단계(S2240)에서 상기 음향 객체의 특성을 생성하기 위하여, 상세 분류 모델(M440)은, 상기 음향 객체의 일부를 이루거나 상기 음향 객체에 귀속된 구성요소인 부분 객체의 정보, 상기 음향 객체의 카테고리를 심화 구분한 심화 분류 정보, 상기 음향 객체의 종체, 상기 음향 객체의 주체, 상기 음향 객체의 감정 상태, 상기 음향 객체의 음성으로부터 검출되는 대화, 상기 음향 객체의 음성 또는 비언어적 음향의 특징인 성문, 상기 음향 객체의 위치 및 상기 음향 객체의 자력 이동 가능 여부 중 적어도 하나를 산출하기 위한 심화 특성 모델(M442)을 더 포함할 수 있다.

여기에서 감정 상태는 음성으로부터 파악되는 신남, 화남, 놀람 등의 상태를 지칭한다.

한편, 음향 객체의 위치는 음원의 방향으로부터 추적될 수 있는바, 그 방식을 상세히 후술하기로 한다.

여기에서 상기 객체의 심화 분류 정보는 상기 객체의 카테고리를 심화 구분한 정보를 지칭하는바, 예컨대, 객체의 카테고리가 개라면, 그 심화 분류 정보는 그 개의 품종일 수 있다. 다른 예시로서, 객체의 카테고리가 사람이라면, 그 심화 분류 정보는 특정 개인일 수 있다.

맥락(context)

이제 맥락 모듈(4250)의 구성 및 그 기능에 관하여 상술한다.

맥락은 객체의 상태 및 행위의 목적을 기술한 것이다. 그 일 예시로서, 맥락 모듈(4250)이 음악실에서 리코더 음향을 입력받았다면 맥락 모듈(4250)은 '음악실에 있는 사람이 리코더를 연주하고 있다.'라는 문장 또는 이에 상응하는 신호를 맥락으로 출력할 수 있다.

구체적으로, 맥락 모듈(4250)은 카테고리별 맥락 처리 모델(M410) 및 상기 카테고리별 맥락 처리 모델에 연결되는 맥락 처리기(M420)를 포함할 수 있다. 이 경우, 상세 분류 단계(S2200)는, 상기 음향 객체의 카테고리에 적합화된 상기 카테고리별 맥락 처리 모델(M410)을 선택하는 단계(S2212), 및 맥락 처리기(M420)에 상기 전체 음향을 입력하여 언어 정보 및 비언어 정보를 획득하는 단계(S2214)를 포함할 수 있다.

더 구체적으로, 맥락 처리기(M420)는 상기 전체 음향에 포함된 언어를 해석하여 의미 분류 정보를 검출하는 언어 처리기(M422)를 포함할 수 있다. 언어 처리기(M422)는, 상기 언어에 대응하는 맥락을 검출하는 맥락 검출 모델을 포함할 수 있다.

또한, 맥락 처리기(M420)는 상기 전체 음향에 포함된 비언어 음향을 해석하여 음향 객체의 감정, 우선순위, 위치, 방향 및 성문을 검출하는 비언어 처리기(M424)를 더 포함할 수 있다. 비언어 처리기(M424)는, 예를 들어, 객체 분류 모델, 분류 모델 선택 모델, 심화 특성 모델, 부분 객체 분류 모델, 공간 모델, 맥락 검출 모델을 포함할 수 있다.

그리고 맥락 처리기(M420)는 언어 처리기(M422) 및 비언어 처리기(M424)의 검출 결과에 기초하여 상기 맥락을 텍스트로 변환하는 STT 모델(M426)을 더 포함할 수 있다. STT 모델(M426)은 종래 널리 알려진 기술에서와 같이 단순히 음성 언어를 텍스트와 같은 기호로 변환하는 데 그치지 않고, 맥락을 텍스트로 변환하는 기능을 수행할 수 있으므로, 이를 CTT(context-to-text) 모델(M426)로 호칭할 수도 있다.

구체적으로, 맥락은 상기 전체 음향에 나타난 개별 음향 객체 각각의 대화 및 비언어 음향 중 적어도 하나에 의하여 상기 개별 음향 객체와 상호작용하는 것으로 검출되는 음향 객체인 맥락 상호작용 객체를 포함하는 객체 맥락일 수 있다. 이 맥락 상호작용 객체는 언어 처리기(M422)의 맥락 검출에 의하여 식별되거나 비언어 처리기(M424)의 맥락 검출에 의하여 식별될 수 있고, 언어 처리기(M422) 및 비언어 처리기(M424)의 협력적 맥락 검출에 의하여 식별될 수도 있다.

또한, 맥락은 상기 전체 음향에 나타난 공간 객체 및 상기 공간 객체 외의 개별 음향 객체 각각으로부터 추론되는 상기 공간 객체의 종류인 장소, 상기 개별 음향 객체 각각의 대화 및 비언어 음향 중 적어도 하나, 상기 상호작용의 주체에 해당하는 개별 음향 객체인 행위자 및 상기 상호작용에 의하여 상기 개별 음향 객체와 상호작용하는 것으로 검출되는 음향 객체인 맥락 상호작용 객체를 포함하는 공간 맥락일 수 있다.

일 실시 예에서, 대화 또는 비언어 음향으로부터 맥락을 결정하기 위한 음향과 맥락의 매칭은 인공 신경망 모델을 이용한 지도 학습으로서 구현될 수 있다. 예를 들면, 연속된 음향을 입력 데이터로 삼고, 객체 맥락 및 공간 맥락을 포함하는 언어 해석(즉, 언어로 나타낸 데이터)을 정답인 출력 데이터로 레이블링한 훈련 데이터를 이용하여 인공 신경망 모델을 훈련시킬 수 있다.

우선순위

이제, 객체의 처리 시 그 처리의 순서와 밀접하게 연관되는 객체의 우선순위에 관하여 상술한다. 우선순위를 부여하기 위하여 다뤄지는 값으로서 중요도가 산출될 수 있는바, 통상적으로 각 객체의 중요도를 산출한 후, 그 중요도에 기반하여 매긴 순서를 우선순위로 할 수 있다.

음향 객체의 우선순위에는 상기 음향 객체의 권한에 기초하여 상기 음향 객체 각각에 대하여 지정되는 권한 기반 우선순위가 포함될 수 있다. 이는 분류된 음향 객체 각각의 권한에 따라 우선순위를 지정하는 것인바, 예를 들어, 본 개시서의 시스템에 대해 특정 사용자인 음향 객체가 최고 권한을 가지고 있다면, 그 특정 사용자에 대해 높은 우선순위를 부여할 수 있다.

상기 권한 기반 우선순위는 상세 분류 모델(M440)을 이용하여 분석된 상기 음향 객체의 특성에 기초하여 상기 음향 객체가 상기 컴퓨팅 장치를 취급할 수 있도록 미리 정해진 권한자인지 여부를 판별하거나 상기 음향 객체의 음성 인증을 통하여 상기 음향 객체가 상기 권한자인지 여부를 판별하는 단계, 및 상기 음향 객체가 미리 정해진 권한자라면, 그 권한자에 대하여 미리 정해진 순위를 상기 음향 객체의 상기 권한 기반 우선순위로 설정하는 단계를 수행함으로서 산출될 수 있다.

예컨대, 상기 권한자는 사람일 것으로 기대되므로, 먼저 사람인 음향 객체, 즉, 비언어 음향인 대화가 검출되는 음향 객체를 검출하고, 그 검출된 사람인 음향 객체에 대해서만 권한 기반 우선순위를 설정할 수 있다.

또한, 본 개시서의 컴퓨팅 장치는 전술한 심화 분류 정보를 이용하여 복수 명의 사람 중에서 개개인을 특정할 수 있는바, 그 개개인을 특정하기 위하여 음향 객체의 성문 등 객체에 특유한 특성을 이용하거나 그 부분 객체의 특성, 또는 상기 음향 객체의 객체 기록을 이용할 수 있다.

한편, 음향 객체의 우선순위에는 음향 객체의 특성들 중 적어도 상기 음향 객체의 카테고리 또는 상기 음향 객체의 심화 분류 정보를 포함하는 적어도 하나의 특성에 따라 구분된 객체 집합들 각각에 대하여 지정되는 분류 기반 우선순위가 있을 수 있다.

분류 기반 우선순위는, 사람, 동물, 기타 사물 등의 카테고리 또는 심화 분류 정보에 대하여 미리 설정된 대로 부여되는 우선순위일 수 있는바, 상기 시스템의 권한자는 이를 수동으로 설정할 수 있다. 다른 예시로서, 본 개시서의 컴퓨팅 장치는 상기 시스템의 권한자가 본 개시서의 시스템을 이용하는 패턴에 기초하여 카테고리 또는 심화 분류 정보별 우선순위를 가변적으로 자동 설정할 수도 있다.

다음으로, 음향 객체의 우선순위에는 음향 객체의 상태들 중 적어도 상기 음향 객체의 맥락을 포함하는 적어도 하나의 상태에 따라 구분된 객체 집합들 각각에 대하여 지정되는 맥락 기반 우선순위가 있을 수 있다.

상기 맥락 기반 우선순위에 따르면, 상세 분류 모듈(4350)이 상기 전체 음향에 대한 상태 분석 또는 공간 분석을 수행함으로써 상기 전체 음향으로부터 객체 맥락 및 공간 맥락을 추론하고, 상기 음향 객체가 그 추론된 객체 맥락 및 공간 맥락 중 적어도 하나에 의한 행위자 또는 상기 행위자와 상호작용하는 것으로 검출되는 객체인 맥락 상호작용 객체인지 여부에 기초하여 상기 행위자 또는 상기 맥락 상호작용 객체에 상대적으로 높은 우선순위를 설정할 수 있다.

예를 들어, 공간 맥락이 '아이인 연령대의 사람들이 운동장에서 야구를 하고 있다.'라는 맥락이라면 야구 배트로 공을 친 것으로 검출되는 사람에 상대적으로 높은 우선순위가 부여될 수 있다.

본 개시서에서 설명되는 단계들 및 프로세스들은 논리적으로 모순되거나 맥락상 달리 명시되어 있지 않는 한 기재된 순서대로 수행되어야 함을 의미하는 것이 아니며, 각각의 단계들 및 프로세스들은 동시에 또는 이시(異時)에 수행될 수 있다는 점을 통상의 기술자는 이해할 수 있을 것이다. 또한, 본 개시서에 기재된 참조부호 가운데 수를 포함하는 것들은 그 수의 순서가 단계들 및 프로세스들이 수행되는 순서와 반드시 일치하지 않을 수 있다는 점을 통상의 기술자는 이해할 수 있을 것이다.

또한, 전술한 단계들은 1회 수행될 여지도 있으나, 바람직하게는, 전술한 바와 같이 시간적으로 연속된 영상들을 획득하기 위하여 상기 단계들은 실시간(real-time)으로, 그리고/또는 반복적으로(iteratively) 수행될 수 있다.

즉, 본 개시서의 음향 처리 방법은, 새 전체 음향을 획득하기 위하여, 음향 획득 단계(S1000)로 되돌아가는 단계(S4000)를 더 포함할 수 있고, 더 구체적으로는, 이때 음향 추적 컨트롤러(4450)에 의하여 가용 자원을 제어하면서 음향 획득 단계(S1000)가 다시 수행될 수 있다.

음향 추적

여기에서 음향 추적 컨트롤러(4450)는 음향 입력 모듈(4150), 맥락 모듈(4250) 등과 마찬가지로 특정 기능을 수행하는 모듈을 지칭하는 것인바, 본 개시서의 시스템이 음향 입력 장치(250)로 하여금 목표 객체 또는 목표 공간을 지향할 수 있도록 그 음향 입력 장치의 배향을 조절하는 기능, 즉 방향 추적을 구현하는 기능을 수행하는데, 여기에서 가용 자원이란 음향 입력 장치(250), 짐벌(300) 등을 비롯하여 그러한 추적을 가능하게 하는 하드웨어 및/또는 소프트웨어를 지칭한다.

맥락 상호작용 객체의 식별은 맥락 모듈(4250)에 의하여 이루어질 수 있다. 이러한 기능을 하는 맥락 모듈(4250)의 모델의 일 예시로서 인공 신경망 모델이 지도 학습에 의하여 생성될 수 있음은 비특허문헌인 논문 Shin, D., & Kim, I. (2018). Deep Image Understanding Using Multilayered Contexts. Mathematical Problems in Engineering, 2018, 1-11.에 개시된 바와 같다.

다시 도 3을 참조하면, 본 개시서에 따른 음향 처리 방법은, 컴퓨팅 장치(100)가, 상기 전체 음향에서 객체별 음향을 분류하고, 음향 추적 컨트롤러(4450)에 의하여 상기 객체별 음향 각각에 대응하는 입력원을 구별하는 단계(S3100)를 더 포함할 수 있으나 단일 입력원만 제공되거나 그 단일 입력원만을 이용하도록 설정될 수 있으므로 단계(S3100)가 반드시 포함되는 것은 아니다.

여기에서 상기 입력원에는 지향성 마이크, 무지향성 마이크, 마이크 어레이(microphone Array) 및 빔 포밍 마이크(beam forming microphone)가 포함될 수 있으나 이에 한정되지 않는다.

통상의 기술자에게 잘 알려진 바와 같이 지향성 마이크는 음향을 획득하는 범위가 좁고 길다. 또한, 마이크 어레이는 2개 이상의 마이크를 포함하는 배열체이다. 마이크 어레이의 일 예시로, 빔 포밍 마이크(beam forming microphone)을 들 수 있다. 무지향성 마이크는 방향성이 없이 음향을 획득한다.

계속해서 도 3을 참조하면, 본 개시서에 따른 음향 처리 방법은, 컴퓨팅 장치(100)가, 그 컴퓨팅 장치(100)에 연동하는 촬영 장치(200) 또는 디스플레이 장치(220)에 상대적인 상기 객체별 음향의 방향을 검출하는 방향 검출 단계(S3200)를 더 포함할 수 있다.

또한, 상기 음향 처리 방법에 있어서, 방향 검출 단계(S3200) 후에 컴퓨팅 장치(100)가 상기 전체 음향으로부터, 예컨대 우선순위에 따라, 음향 객체를 검출(S3300)하고, 상기 입력원별로 상기 음향 객체의 상기 객체별 음향의 음량, 주파수 및 위상 중 적어도 하나를 획득(S3400)한 후, 그리고 상기 음향 객체로 하여금 발음을 하도록 유도함으로써 상기 음향 객체를 특정(S3500)할 수 있다.

구체적으로 방향 검출 단계(S3200)에서는 컴퓨팅 장치(100)가 촬영 장치(200) 또는 디스플레이 장치(220)가 장착되어 촬영 장치(200) 또는 디스플레이 장치(220)의 자세를 제어하는 하나 이상의 회전 축을 가진 짐벌(300)과 연동할 수 있다.

짐벌(300)의 활용을 위하여, 상기 음향 처리 방법은, 산출된 상기 객체별 음향의 방향에 기초하여 상기 짐벌을 제어하는 짐벌 제어 단계(S3600)를 더 포함할 수 있다.

더 구체적으로 방향 검출 단계(S3200)에서 컴퓨팅 장치(100)는 상기 전체 음향으로부터, 예컨대 우선순위에 따라, 음향 객체를 검출할 수 있고, 짐벌 제어 단계(S3600)에서 컴퓨팅 장치(100)는 상기 음향 객체에게 음향의 발생원이 맞는지 여부를 질의하고, 촬영 장치(200)를 제어하는 짐벌(300)을 이용한 영상 추적을 통하여, 발음 중인 영상 객체(즉, 영상으로써 식별되는 객체)가 상기 음향 객체와 동일한지 여부를 확인할 수 있다. 여기에서 질의의 대상이 되는 영상 객체는 사람에 한정되지 않는바, 예컨대, 별도의 IoT 기기일 수 있다.

한편, 상기 입력원이 지향성 마이크 또는 마이크 어레이인 경우, 짐벌 제어 단계(S3600)에서, 컴퓨팅 장치(100)는 상기 객체별 음향에 기초하여 산출된 음향 객체의 방향에 따라 시스템의 방향을 제어할 수 있다. 마이크 어레이를 이용하여 음향 객체의 방향을 산출할 수 있음은 비특허문헌인 논문 Buck, M., & Rossler, M. (2001). FIRST ORDER DIFFERENTIAL MICROPHONE ARRAYS FOR AUTOMOTIVE APPLICATIONS.에 설명된 바와 같다.

도 6a 내지 도 6c는 방향 검출 단계(S3200)를 더 구체적으로 예시한 흐름도들이다.

일 실시 예로서, 상기 입력원이 2개 이상의 개별 마이크를 포함하는 마이크 어레이인 경우, 방향 검출 단계(S3200)에서, 컴퓨팅 장치(100)가 상기 개별 마이크에 의하여 획득된 음향 각각에 대하여 적어도 하나의 음향 객체를 검출(S3220a)하고, 상기 개별 마이크별로 상기 음향 객체의 상기 객체별 음향의 음량, 주파수 및 위상 중 적어도 하나를 획득(S3240a)한 후, 상기 음량, 주파수 및 위상 중 적어도 하나에 기초하여 상기 음향 객체의 위치를 산출(S3260a)할 수 있는바, 도 6a에 나타난 바와 같다.

다른 실시 예로서, 상기 입력원이 상기 컴퓨팅 장치에 연동하는 짐벌에 직접 장착되거나 상기 촬영 장치 또는 디스플레이 장치에 장착된 지향성 마이크인 경우, 방향 검출 단계(S3200)에서, 컴퓨팅 장치(100)가, 상기 지향성 마이크에 의하여 획득된 전체 음향으로부터, 예컨대 우선순위에 따라, 음향 객체를 검출(S3220b)하고, 짐벌(300)로써 상기 지향성 마이크의 방향을 제어하면서 상기 음향 객체의 객체별 음향의 음량, 주파수 및 위상 중 적어도 하나를 획득함으로써 상기 음향 객체의 방향 및 위치를 판별(S3260b)할 수 있는바, 도 6b에 나타난 바와 같다. 이는 지향성 마이크가 음향 객체를 향할수록 그 음향 객체로부터 획득되는 음량이 커지는 원리를 이용한 것이다. 음량뿐만 아니라 주파수, 또는 주파수의 위상 차이에 기초하여 상기 음향 객체의 방향 및 위치를 판별할 수 있음은 물론이다.

또 다른 실시 예로서, 방향 검출 단계(S3200)에서, 컴퓨팅 장치(100)가, 상기 입력원에 의하여 획득된 전체 음향으로부터, 예컨대 우선순위에 따라, 음향 객체를 검출(S3220c)한 후, (i) 객체 분류 추적, (ii) 음향 발생 동작 추적, 및 (iii) 발음 행동 패턴 추적 중 적어도 하나를 이용하여 상기 음향 객체의 방향 및 위치를 판별(S3260c)할 수 있는바, 도 6c에 나타난 바와 같다. 여기에서 상기 입력원은, 예를 들어, 무지향성 마이크일 수 있으나 이에 한정되지 않는다.

상기 객체 분류 추적은 영상에 기초한 객체 분류가 음향에 기초한 객체 분류와 동일한지 여부를 판별하기 위한 추적인바, 이를 위하여 상기 음향 객체의 카테고리 또는 상세 분류 정보와, 촬영 장치(200)로부터 획득된 영상에서 검출되는 영상 객체의 카테고리 또는 상세 분류 정보를 서로 대응시킬 수 있다.

도 7은 본 개시서의 일 실시 예에 따른 음향 처리 방법에서 객체 분류 추적을 이용하여 방향 검출 단계를 수행하는 방식을 설명하기 위하여 예시된 도면이다.

도 7에 예시된 바와 같이, 음향 객체인 고양이(710)의 비언어적 음향('야옹'으로 표시됨)이 마이크로폰(250)에 입력되면 컴퓨팅 장치(100)는 음성 객체의 카테고리를 분류하여 고양이임을 식별하거나 상세 분류를 통하여 특정 고양이임을 식별한다. 그러면 컴퓨팅 장치(100)는 촬영 장치(200)에 의하여 획득되는 영상(720)에서 영상 객체들을 탐색(S3242)하여 식별하고, 영상 객체가 동일한 카테고리인 '고양이'에 해당하거나 동일한 상세 분류인 '특정 고양이'에 해당하는지를 확인한다. 즉, 영상 객체와 음향 객체를 서로 대응시킨다.

여기에서 탐색은 짐벌(300)을 회전시켜 촬영 장치(200)의 방향을 제어함으로써 수행될 수 있다.

요컨대, 상기 객체 분류 추적은 카테고리 또는 상세 분류 정보가 획득된 음향 객체에 대하여, 상기 카테고리 또는 상기 상세 분류 정보와 동일한 카테고리 또는 상세 분류 정보를 가진 영상 객체를 탐색함으로써 수행될 수 있다.

대안으로서, 상기 객체 분류 추적은, 영상 객체를 탐색 또는 모니터링하는 동안 인식되는 음향 객체에 대하여, 상기 영상 객체의 카테고리 또는 상세 분류 정보와 상기 음향 객체의 카테고리 또는 상세 분류 정보가 서로 일치하는지 여부를 비교하고 상기 영상 객체와 상기 음향 객체를 서로 대응시킴으로써 수행될 수도 있다.

여기에서 모니터링(monitoring)은 컴퓨팅 장치(100)가 짐벌(300)을 회전시키지 않고 있는 상태에서 촬영 장치(200)를 이용하여 객체의 영상을 획득 및 처리하는 것을 지칭한다.

더 구체적으로, (i) 컴퓨팅 장치(100)가 촬영 장치(200)를 이용하여 영상 객체를 탐색 또는 모니터링하면서, (ii) 음향 객체를 인식하여 음향 객체가 획득된다. (iii) 상기 영상 객체의 카테고리 또는 상세 분류 정보와 상기 음향 객체의 카테고리 또는 상세 분류 정보를 비교한 결과 서로 일치하는 경우, 상기 영상 객체와 상기 음향 객체를 서로 동일한 것으로 대응시킨다.

덧붙여, 만약 상기 (i)과 (ii) 사이의 시간 간격이 소정의 범위 내에 속하거나 소정의 수치와 일치하는 경우에 상기 (iii)에서 비교할 영상 객체 및 음향 객체의 개수를 줄일 수 있다.

뿐만 아니라 상기 (iii)에서의 대응을 보조하기 위하여, 영상 데이터의 처리에 소요되는 시간과 음향 데이터의 처리에 소요되는 시간을 통계적으로 반영하는 방식으로 영상 데이터에서의 시각과 음향 데이터에서의 시각을 서로 동조화(synchronize)할 수 있다.

데이터의 처리에 소요되는 시간뿐만 아니라 촬영 장치(200), 음향 입력 장치(250)와 객체 간의 거리에 따른 상기 영상 객체의 획득에 소요되는 시간과 상기 음향 객체의 획득에 소요되는 시간의 차이를 계산함으로써, 상기 (iii)에서 비교할 음향 객체의 개수를 줄이거나 상기 영상 데이터에서의 시각과 상기 음향 데이터에서의 시각을 서로 일치시킬 수 있다.

예를 들어, 영상 데이터에 대한 영상 계측을 통하여 촬영 장치(200)와 영상 객체 사이의 거리를 측정할 수 있고, 그 영상 객체에서 음향이 발생하는 때, 음향의 공간 전파 속도에 의하여 생기는 음향 입력 장치(250)와 그 영상 객체 간의 거리에 의한 지연 시간, 즉, 음향 지연 시간을 계산할 수 있다. 그렇다면 음향을 획득한 시각과 음향 발생 동작이 발생한 시각과의 차이가 상기 음향 지연 시간과 일치하는 경우 상기 음향에 대응하는 음향 객체와 상기 음향 발생 동작을 발생시킨 영상 객체가 서로 일치한다고 판단할 수 있다.

또한, 상기 음향 발생 동작 추적은 음향 발생 동작을 하는 영상 객체를 식별하여 이와 음향 객체와 동일한지 여부를 판별하기 위한 추적인바, 이를 위하여 상기 영상에서 검출되는 영상 객체의 음향 발생 동작을 포착함으로써 상기 음향 객체와 상기 영상 객체를 서로 대응시킬 수 있다.

구체적으로, 상기 음향 발생 동작 추적은 카테고리 또는 상세 분류가 획득된 음향 객체에 대하여, 상기 카테고리 또는 상기 상세 분류 정보와 동일한 카테고리 또는 상세 분류 정보를 가진 영상 객체를 탐색하고, 상기 영상 객체의 음향 발생 동작을 인식한 후, 상기 음향 객체가 상기 음향 발생 동작을 하고 있는 영상 객체와 동일한 객체인지 여부를 확인함으로써 수행될 수 있다.

여기에서 음향 발생 동작은, 예를 들어, 제스처, 걸음, 말하기, 사물 간의 부딪힘일 수 있으나 이에 한정되지 않는다.

대안으로서, 상기 음향 발생 동작 추적은, 영상으로부터 영상 객체를 탐색 또는 모니터링함으로써 영상 객체의 음향 발생 동작을 검출(인식)하고, 상기 음향 발생 동작이 검출된 상기 영상 객체로부터 식별되는 상기 영상 객체의 카테고리 및 상세 분류 정보 중 적어도 하나와, 상기 전체 음향에 나타난 개별 음향 객체 각각의 카테고리 및 상세 분류 정보가 서로 일치하는지 여부를 비교함으로써 상기 음향 발생 동작이 검출된 상기 영상 객체와 상기 개별 음향 객체 중 하나를 서로 대응시킴으로써 수행될 수 있다.

더 구체적으로, (i) 컴퓨팅 장치(100)가 촬영 장치(200)를 이용하여 영상 객체를 탐색 또는 모니터링함은, (ii) 그 영상 객체가 음향 발생 동작을 취하고 있는지 여부를 모니터링함을 포함하며, (iii) 그 모니터링의 결과로서 음향 발생 동작을 검출함과 병렬적으로 (iv) 음향 객체가 획득된다. (v) 음향 발생 동작을 보이는 영상 객체의 카테고리 또는 상세 분류 정보와 음향 객체의 카테고리 또는 상세 분류 정보를 비교한 결과 서로 일치하는 경우, 상기 영상 객체와 상기 음향 객체를 서로 동일한 것으로 대응시킨다.

덧붙여, 만약 상기 (iii)과 (iv) 사이의 시간 간격이 소정의 범위 내에 속하거나 소정의 수치와 일치하는 경우에 상기 (v)에서 비교할 음향 객체의 개수를 줄일 수 있다.

뿐만 아니라 상기 (v)에서의 대응을 보조하기 위하여, 영상 데이터의 처리에 소요되는 시간과 음향 데이터의 처리에 소요되는 시간을 통계적으로 반영하는 방식으로 영상 데이터에서의 시각과 음향 데이터에서의 시각을 서로 동조화(synchronize)할 수 있다.

데이터의 처리에 소요되는 시간뿐만 아니라 촬영 장치(200), 음향 입력 장치(250)와 객체 간의 거리에 따른 상기 영상 객체의 획득에 소요되는 시간과 상기 음향 객체의 획득에 소요되는 시간의 차이를 계산함으로써, 상기 (v)에서 비교할 음향 객체의 개수를 줄이거나 상기 영상 데이터에서의 시각과 상기 음향 데이터에서의 시각을 서로 일치시킬 수 있다.

그리고 상기 발음 행동 패턴 추적은 영상 객체의 부분 객체가 움직이는 패턴이 발음 패턴과 일치하는지를 확인함으로써 그 영상 객체와 음향 객체가 동일한지 여부를 판별하기 위한 추적인바, 이를 위하여 상기 음향 객체의 객체별 음향과 상기 영상 객체의 음향 발생 동작을 비교함으로써 상기 음향 객체와 상기 영상 객체를 서로 대응시킬 수 있다.

구체적으로, 상기 발음 행동 패턴 추적은 영상 객체의 음향 발생 동작을 인식하며, 상기 음향 객체가 상기 음향 발생 동작을 하고 있는 상기 영상 객체와 일치하는지 여부를 확인하고, 상기 영상 객체와 일치하는 상기 음향 객체에서 상기 음향 발생 동작에 대응하는 발음 부분 객체를 탐색한 후, 상기 음향 발생 동작의 패턴이 상기 음향 객체의 객체별 음향의 패턴과 일치하는지 확인함으로써 수행될 수 있다.

예를 들어, 대화하는 사람을 음향 객체라고 하면 발음 부분 객체는 그 대화하는 사람의 입에 해당할 수 있다.

도 8은 본 개시서의 일 실시 예에 따른 음향 처리 방법에서 발음 행동 패턴 추적을 이용하여 방향 검출 단계를 수행하는 방식을 설명하기 위하여 예시된 도면이다.

도 8에 예시된 바와 같이 음향 객체인 사람(810)의 음성 혹은 대화('서비스'로 표시됨)이 마이크로폰(250)에 입력되면(S3244) 컴퓨팅 장치(100)는, 예컨대, 스피커(260)를 통하여 그 사람(810)을 특정하기 위한 질의(S3246)를 할 수 있다. 도 8에는 "서비스 요청하셨나요?"가 그러한 질의의 예시로서 표시되어 있다.

질의 후, 컴퓨팅 장치(100)는 영상 객체의 입의 움직임을 추적(S3248)하여, 영상 데이터(810a, 810b)로부터 발음되고 있는 음성의 내용을 추출하는 동시에 음향 데이터를 획득함으로써 음향 패턴을 획득한다. 이로써 컴퓨팅 장치(100)는 특정 영상 객체가 '서비스'라는 음성을 발한 음향 객체인지를 확인할 수 있다. 다만, 도 8에 예시된 사항에 발음 행동 패턴 추적이 한정되지는 않는다.

상기 발음 행동 패턴 추적은 단계(S3244)에서와 같이 사람의 음성 혹은 대화에 의하여 촉발(triggering)될 수도 있으나, 컴퓨팅 장치(100)에 대한 영상(사람의 제스처 또는 객체에 표시된 텍스트 등) 입력, 컴퓨팅 장치(100)에 포함되거나 이와 연동되는 디스플레이 장치(예컨대, 터치 스크린) 또는 센서(예컨대, 가속도 센서 또는 압력 센서)에 대한 물리적 터치의 입력, 컴퓨팅 장치(100)의 통신부(110)에 대한 네트워크 신호의 입력에 의하여 촉발될 수도 있다.

일 예시로서, 컴퓨팅 장치(100)에 상기 물리적 터치가 있는 경우 짐벌(300)의 모터에 외력이 가해지므로 짐벌(300)의 센서로 그 짐벌(300) 모터의 회전을 감지할 수 있는바, 짐벌(300)이 그 짐벌에 대한 제어 신호에 의하지 않고 상기 모터가 회전하였음을 감지하는 방식으로 상기 물리적 터치가 검출될 수 있다.

한편, 대안으로서, 상기 발음 행동 패턴 추적은, 영상 객체의 발음 부분 객체를 인식하는 단계; 상기 발음 부분 객체의 음향 발생 동작을 검출하는 단계; 및 상기 음향 발생 동작의 패턴이 상기 음향 객체의 객체별 음향의 패턴과 일치하는지 비교함으로써 상기 음향 발생 동작이 검출된 상기 영상 객체와 상기 음향 객체를 서로 대응시키는 단계를 포함할 수 있다.

더 구체적으로, (i) 컴퓨팅 장치(100)가 촬영 장치(200)를 이용하여 영상 객체를 탐색 또는 모니터링함은, (ii) 그 영상 객체의 발음 부분 객체를 탐색하여 그 발음 부분 객체를 모니터링함을 포함하며, (iii) 그 모니터링의 결과로서 음향 발생 동작 패턴을 검출함과 병렬적으로 (iv) 음향 객체가 획득되고 음향 패턴이 검출된다. (v) 상기 영상 객체의 음향 발생 동작 패턴과 상기 음향 객체의 음향 패턴을 비교한 결과 서로 일치하는 경우, 상기 영상 객체와 상기 음향 객체를 서로 동일한 것으로 대응시킨다.

덧붙여, 만약 상기 (iii)과 (iv) 사이의 시간 간격이 소정의 범위 내에 속하거나 소정의 수치와 일치하는 경우에 상기 (v)에서 비교할 음향 객체의 개수를 줄일 수 있다. 뿐만 아니라 상기 (v)에서의 대응을 보조하기 위하여, 영상 데이터의 처리에 소요되는 시간과 음향 데이터의 처리에 소요되는 시간을 통계적으로 반영하는 방식으로 영상 데이터에서의 시각과 음향 데이터에서의 시각을 서로 동조화(synchronize)할 수 있음은 음향 발생 동작 추적에 관하여 전술한 바와 같다. 음향 발생 동작 추적에 관하여 전술할 상기 음향 지연 시간도 마찬가지로 상기 발음 행동 패턴 추적에 적용될 수 있는바 그 반복적인 설명은 생략한다.

지금까지 음향 객체의 특정에 관하여 상술한 바와 같이 컴퓨팅 장치(100)는 음향에 기반한 객체의 검출 및 처리에 영상 데이터도 함께 이용할 수 있는바, 마찬가지로 도 9는 본 개시서의 다른 실시 예에 따라 영상 및 음향을 처리하는 방법(영상 및 음향 처리 방법)을 예시적으로 나타낸 흐름도이다.

상기 영상 및 음향 처리 방법에 따르면, 컴퓨팅 장치(100)가, 음향 입력 프로세스(S5000a) 및 영상 입력 프로세스(S5000b)를 수행하는 단계(S5000)를 수행한다.

구체적으로, 음향 입력 프로세스(S5000a)는, 음향 입력 장치(250)로부터 전체 음향을 획득하고, 그 전체 음향을 기계 학습 모델에 입력될 수 있는 규격으로 가공하는 과정인 전처리를 수행하며, 상기 전체 음향의 세부 처리에 적합화된 적어도 하나의 데이터 인식 모델을 선택하는 프로세스를 지칭한다.

마찬가지로, 영상 입력 프로세스(S5000b)는, 촬영 장치(200)로부터 전체 영상을 획득하고, 그 전체 영상을 기계 학습 모델이 입력될 수 있는 규격으로 가공하는 과정인 전처리를 수행하며, 상기 전체 영상의 세부 처리에 적합화된 적어도 하나의 데이터 인식 모델을 선택하는 프로세스를 지칭한다.

여기에서 전체 음향의 세부 처리에 적합화된 데이터 인식 모델과 전체 영상의 세부 처리에 적합화된 데이터 인식 모델 각각은 서로 상이하거나 동일하거나 적어도 일부분을 공유하고 있을 수 있다.

다음으로, 컴퓨팅 장치(100)에 의하여 구현되는 영상 인식 데이터 선택 모듈 및 음향 인식 데이터 선택 모듈은 각각 상기 전체 음향 및 상기 전체 영상의 데이터로부터 상기 음향 및 상기 영상 각각의 상기 세부 처리에 필요한 데이터를 선별하는 단계(S6000)를 더 수행한다.

단계(S6000)에 있어서, 상기 영상 인식 데이터 선택 모듈과 상기 음향 인식 데이터 선택 모듈은 서로 연결된 영상 음향 인식 데이터 선택 모듈일 수 있는바, 예컨대, "고양이를 객체로 인식한 경우", 영상 음향 인식 데이터 선택 모듈은 "고양이" 객체의 영상 및 "고양이" 객체의 음향을 선별해낼 수 있다.

선별되는 영상 및 음향의 데이터는 동일한 객체의 것으로 한정되지는 않는다. 예를 들어, 서로 연관되는 객체, 부분 객체 또는 공간 객체가 함께 선별될 수 있다. 그러한 일 예시로서, "야구 배트를 들고 있는 사람"에 해당하는 "야구 선수" 영상 객체가 선별된 경우, "야구 배트가 공에 맞을 때 나는 소리"에 해당하는 "야구 배트" 음향 객체가 함께 선별될 수 있다.

이어서, 컴퓨팅 장치(100)에 의하여 구현되는 영상 데이터 인식 모듈 및 음향 데이터 인식 모듈은 각각 상기 선별된 데이터를 상기 데이터 인식 모델에 적용하여 상기 세부 처리를 수행함으로써 결과값을 도출한다(S7000).

단계(S7000)에 있어서, 상기 영상 데이터 인식 모듈과 상기 음향 데이터 인식 모듈은 서로 연결된 영상 음향 데이터 인식 모듈일 수 있는바, 예컨대, 영상에 관한 데이터 인식 모델과 음향에 관한 데이터 인식 모델의 마지막 층(layer)이 상호 연결되어 서로의 결과값에 영향을 미칠 수 있다. 일 예시로서, "야구를 하는 사람" 영상 객체 및 "야구 배트" 음향 객체에 관하여 그 사람이 배트를 휘두르는 행동과 야구 배트가 공을 충격하는 음향을 서로 연관지어 "사람이 배트로 공을 쳤다."라는 영상에 기초한 맥락 정보 및 "배트가 공을 충격하는 비언어적 음향이 검출되었다."라는 음향에 기초한 맥락 정보가 상기 결과값으로서 도출될 수 있다.

상기 영상 및 음향 처리 방법에 따르면, 컴퓨팅 장치(100)는, 상기 맥락 정보에 따른 명령을 인식하여 그 명령에 대응하는 서비스 대응 절차를 수행할 수 있다(S8000).

그 일 예시로서, 컴퓨팅 장치(100)는 '거실 불을 켜라'라는 사용자의 음향 명령을 인식하고 IoT에 기반하여 거실 조명을 켜는 동작을 수행할 수 있다.

뿐만 아니라, 상기 영상 및 음향 처리 방법에 따르면, 컴퓨팅 장치(100)는, 상기 결과값에 대한 평가치를 기초로 하여 상기 데이터 인식 모델을 갱신할 수 있다(S9000). 단계(S9000)에서는 사용자로부터 평가치를 입력받기 위하여 컴퓨팅 장치(100)가 디스플레이 장치 또는 스피커를 통하여 사용자에게 질의를 할 수 있다.

일 예시로서, 컴퓨팅 장치(100)는 사용자의 제스처(gesture) 명령을 인식하여, '거실 불을 켤까요?'라고 질문할 수 있다. 사용자가 '아니'라고 응답하면 컴퓨팅 장치(100)는 이를 부정적인 평가로 판단하고, 해당 제스처 명령을 '거실 불을 켜라'라는 명령으로 인식하지 않도록 데이터 인식 모델의 가중치를 변경할 수 있는바, 예컨대, 강화학습에 의할 수 있다.

이처럼 본 개시서의 실시 예들에 관하여 전술한 단계들의 수행에 의하여 객체들로부터 획득된 음향, 또는 음향 및 영상의 조합을 처리하는 컴퓨팅 장치가 객체들의 다양한 정보를 파악할 수 있다.

도면들에 나타난 구성요소들은 설명의 편의상 하나의 컴퓨팅 장치, 예컨대, 휴대 단말에서 실현되는 것으로 예시되었으나, 본 발명의 방법을 수행하는 컴퓨팅 장치(100)는 복수개의 장치들이 서로 연동된 것으로 구성될 수도 있다는 점이 이해될 것이다. 따라서 전술한 본 발명 방법의 각 단계는, 휴대 단말 외에도 통신부 및 프로세서를 내장한 짐벌(300)에 의하여 수행될 수 있는바, 이밖에도 하나의 컴퓨팅 장치가 직접 수행하거나 상기 하나의 컴퓨팅 장치가 상기 하나의 컴퓨팅 장치에 연동되는 타 컴퓨팅 장치로 하여금 수행하도록 지원(support)함으로써 수행될 수 있음이 자명하다.

지금까지 설명된 바와 같이 본 개시서의 방법 및 장치는 그 모든 실시 예 및 변형례에 걸쳐, 음향 또는 음향 및 영상의 조합을 이용하여 하나 이상의 객체를 인식 및 추적할 수 있고, 객체 및 환경의 정보를 능동적으로 획득할 수 있으며, 특히, 객체의 상태 정보를 원거리에서 음향 또는 음향 및 영상의 조합으로 획득할 수 있고, 객체가 상호작용하는 객체를 판별할 수 있어 휴대 가능 컴퓨팅 장치의, 음향 또는 음향 및 영상의 조합을 이용한 원거리 입력 및 출력이 가능해지는 장점이 있다.

이상, 본 개시서의 다양한 실시 예들에 관한 설명에 기초하여 해당 기술분야의 통상의 기술자는, 본 발명의 방법 및/또는 프로세스들, 그리고 그 단계들이 하드웨어, 소프트웨어 또는 특정 용례에 적합한 하드웨어 및 소프트웨어의 임의의 조합으로 실현될 수 있다는 점을 명확하게 이해할 수 있다. 상기 하드웨어는 범용 컴퓨터 및/또는 전용 컴퓨팅 장치 또는 특정 컴퓨팅 장치 또는 특정 컴퓨팅 장치의 특별한 모습 또는 구성요소를 포함할 수 있다. 상기 프로세스들은 내부 및/또는 외부 메모리를 가지는, 하나 이상의 프로세서, 예컨대, 마이크로프로세서, 컨트롤러, 예컨대, 마이크로컨트롤러, 임베디드 마이크로컨트롤러, 마이크로컴퓨터, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 예컨대, 프로그래머블 디지털 신호 프로세서 또는 기타 프로그래머블 장치에 의하여 실현될 수 있다. 게다가, 혹은 대안으로서, 상기 프로세스들은 주문형 집적회로(application specific integrated circuit; ASIC), 프로그래머블 게이트 어레이(programmable gate array), 예컨대, FPGA(field programmable gate array), PLU(programmable logic unit) 혹은 프로그래머블 어레이 로직(Programmable Array Logic; PAL) 또는 기타 인스트럭션(instruction)을 실행하고 응답할 수 있는 임의의 다른 장치, 전자 신호들을 처리하기 위해 구성될 수 있는 임의의 다른 장치 또는 장치들의 조합으로 실시될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 인스트럭션(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치에 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 인스트럭션 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 기계 판독 가능 기록 매체에 저장될 수 있다.

더욱이 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 인스트럭션의 형태로 구현되어 기계 판독 가능 매체에 기록될 수 있다. 기계 판독 가능 매체는 프로그램 인스트럭션, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기계 판독 가능한 기록 매체에 기록되는 프로그램 인스트럭션은 실시 예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 기계 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD, Blu-ray와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 인스트럭션을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 인스트럭션의 예에는, 전술한 장치들 중 어느 하나뿐만 아니라 프로세서, 프로세서 아키텍처 또는 상이한 하드웨어 및 소프트웨어의 조합들의 이종 조합, 또는 다른 어떤 프로그램 인스트럭션들을 실행할 수 있는 기계 상에서 실행되기 위하여 저장 및 컴파일 또는 인터프리트될 수 있는, C와 같은 구조적 프로그래밍 언어, C++ 같은 객체지향적 프로그래밍 언어 또는 고급 또는 저급 프로그래밍 언어(어셈블리어, 하드웨어 기술 언어들 및 데이터베이스 프로그래밍 언어 및 기술들)를 사용하여 만들어질 수 있는 바, 기계어 코드, 바이트코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 이에 포함된다.

따라서 본 발명에 따른 일 태양에서는, 앞서 설명된 방법 및 그 조합들이 하나 이상의 컴퓨팅 장치들에 의하여 수행될 때, 그 방법 및 방법의 조합들이 각 단계들을 수행하는 실행 가능한 코드로서 실시될 수 있다. 다른 일 태양에서는, 상기 방법은 상기 단계들을 수행하는 시스템들로서 실시될 수 있고, 방법들은 장치들에 걸쳐 여러 가지 방법으로 분산되거나 모든 기능들이 하나의 전용, 독립형 장치 또는 다른 하드웨어에 통합될 수 있다. 또 다른 일 태양에서는, 위에서 설명한 프로세스들과 연관된 단계들을 수행하는 수단들은 앞서 설명한 임의의 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 그러한 모든 순차 결합 및 조합들은 본 개시서의 범위 내에 속하도록 의도된 것이다.

예를 들어, 상기된 하드웨어 장치는 실시 예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 인스트럭션을 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 인스트럭션들을 실행하도록 구성되는 MPU, CPU, GPU, TPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 인스트럭션들을 전달받기 위한 키보드, 마우스, 기타 외부 입력 장치를 포함할 수 있다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시 예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시 예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 사람이라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니되며, 본 개시서에 첨부된 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그와 같이 균등하게 또는 등가적으로 변형된 것에는, 예컨대 본 발명에 따른 방법을 실시한 것과 동일한 결과를 낼 수 있는, 논리적으로 동치(logically equivalent)인 방법이 포함될 것인 바, 본 발명의 진의 및 범위는 전술한 예시들에 의하여 제한되어서는 아니되며, 법률에 의하여 허용 가능한 가장 넓은 의미로 이해되어야 한다.

Claims

컴퓨팅 장치에 의하여 음향을 처리하는 방법에 있어서,
상기 컴퓨팅 장치가, 상기 컴퓨팅 장치에 일체화되거나 상기 컴퓨팅 장치와 연동하는 음향 입력 장치로부터 전체 음향을 획득하는 음향 획득 단계; 및
상기 컴퓨팅 장치가, 맥락 모듈에 의하여 상기 전체 음향으로부터 맥락을 추론하는 맥락 처리 단계
를 포함하고,
상기 맥락 처리 단계는,
상기 컴퓨팅 장치가, 상기 전체 음향에 나타난 하나 이상의 음향 객체의 존재를 검출하고, 검출된 상기 음향 객체 각각의 카테고리를 산출하는 분류를 수행하는 카테고리 분류 단계; 및
상기 컴퓨팅 장치가, 상기 음향 객체 각각에 대한 분석 결과로서 상기 카테고리를 제외하고 시간에 대해 불변하는 상기 음향 객체의 성질인 특성 및 시간에 대해 가변인 상기 음향 객체의 성질인 상태를 포함하는 상세 분류 정보를 생성하는 상세 분류 단계
를 포함하는 음향 처리 방법.
삭제
제1항에 있어서,
상기 맥락 모듈은,
카테고리별 맥락 처리 모델 및 상기 카테고리별 맥락 처리 모델에 연결되는 맥락 처리기를 포함하고,
상기 상세 분류 단계는,
상기 음향 객체의 카테고리에 적합화된 상기 카테고리별 맥락 처리 모델을 선택하는 단계, 및
상기 맥락 처리기에 상기 전체 음향을 입력하여 언어 정보 및 비언어 정보를 획득하는 단계
를 포함하는, 음향 처리 방법.
제3항에 있어서,
상기 맥락 처리기는,
상기 전체 음향에 포함된 언어를 해석하여 의미 분류 정보를 검출하는 언어 처리기;
상기 전체 음향에 포함된 비언어 음향을 해석하여 음향 객체의 감정, 우선순위, 위치, 방향 및 성문을 검출하는 비언어 처리기; 및
상기 언어 처리기 및 상기 비언어 처리기의 검출 결과에 기초하여 상기 맥락을 텍스트로 변환하는 STT 모델
을 포함하는, 음향 처리 방법.
제1항에 있어서,
상기 맥락은,
상기 전체 음향에 나타난 개별 음향 객체 각각의 대화 및 음향 중 적어도 하나에 의하여 상기 개별 음향 객체와 상호작용하는 것으로 검출되는 음향 객체인 맥락 상호작용 객체를 포함하는 객체 맥락; 및
상기 전체 음향에 나타난 공간 객체 및 상기 공간 객체 외의 개별 음향 객체 각각으로부터 추론되는 상기 공간 객체의 종류인 장소, 상기 개별 음향 객체 각각의 대화 및 비언어 음향 중 적어도 하나, 상기 상호작용의 주체에 해당하는 개별 음향 객체인 행위자 및 상기 상호작용에 의하여 상기 개별 음향 객체와 상호작용하는 것으로 검출되는 음향 객체인 맥락 상호작용 객체를 포함하는 공간 맥락
을 포함하는, 음향 처리 방법.
제1항에 있어서,
상기 상세 분류 단계는,
상기 음향 객체의 일부를 이루거나 상기 음향 객체에 귀속된 구성요소인 부분 객체의 검출을 시도하는 단계; 및
상기 부분 객체가 검출되면, 상기 상세 분류 정보의 일부로서, 상기 부분 객체에 대한 특성 및 상태의 분석 결과를 더 생성하는 단계
를 포함하는, 음향 처리 방법.
제1항에 있어서,
상기 카테고리 분류 단계는,
상기 객체가 공간 객체이면, 상기 공간 객체가 아닌 타 음향 객체들의 카테고리에 기초하여 상기 공간 객체의 카테고리를 산출하는 단계
를 포함하는, 음향 처리 방법.
제1항에 있어서,
상기 카테고리 분류 단계는,
상기 전체 음향을 객체 분류 모델에 입력하여 상기 음향 객체 각각의 (i) 카테고리, 및 (ii) 위치 및 방향 중 적어도 하나를 산출하는 단계
를 포함하는, 음향 처리 방법.
제8항에 있어서,
상기 상세 분류 단계는,
상기 전체 음향에 나타난 개별 음향 객체가 속한 개별 카테고리에 해당하는 음향 객체 각각의 상기 특성 및 상기 상태를 획득하게끔 상기 개별 카테고리의 음향 분석에 적합화되도록 미리 훈련된 적어도 하나의 모델로 구성된 모델의 집합인 상세 분류 모델을, 분류 모델 선택 모듈을 이용하여 선택하는 단계; 및
상기 개별 음향 객체의 음향인 개별 객체 음향을 선택된 상기 상세 분류 모델에 입력하여 상기 개별 음향 객체의 식별자, 및 상기 식별자를 통하여 상기 개별 음향 객체에 귀속되는 객체 기록으로서, 상기 상세 분류 정보를 포함하는 객체 기록을 생성하는 단계
를 포함하는, 음향 처리 방법.
제9항에 있어서,
상기 음향 객체가 공간 객체이면,
상기 카테고리 분류 단계에서, 상기 객체 분류 모델에 의하여 상기 공간 객체의 공간이 실내인지 실외인지를 분류하고,
상기 상세 분류 단계에서, 상기 분류 모델 선택 모듈에 의하여 상기 공간 객체의 공간이 실내이면 실내 상세 분류 모델을 상기 상세 분류 모델로서 선택하고, 상기 공간 객체의 공간이 실외이면 실외 상세 분류 모델을 상기 상세 분류 모델로서 선택하는, 음향 처리 방법.
제9항에 있어서,
상기 상세 분류 모델은,
상기 음향 객체의 일부를 이루거나 상기 음향 객체에 귀속된 구성요소인 부분 객체의 정보, 상기 음향 객체의 카테고리를 심화 구분한 심화 분류 정보, 상기 음향 객체의 상기 부분 객체를 지칭하는 정보인 종체, 상기 음향 객체가 타 객체의 부분 객체인 경우에 상기 타 객체를 지칭하는 정보인 주체, 상기 음향 객체의 감정 상태, 상기 음향 객체의 음성으로부터 검출되는 대화, 상기 음향 객체의 음성 또는 비언어적 음향의 특징인 성문, 상기 음향 객체의 위치 및 상기 음향 객체의 자력 이동 가능 여부 중 적어도 하나를 산출하는 심화 특성 모델을 더 포함하는, 음향 처리 방법.
제4항에 있어서,
상기 음향 객체의 우선순위는,
상기 음향 객체의 권한에 기초하여 상기 음향 객체 각각에 대하여 지정되는 권한 기반 우선순위,
상기 음향 객체의 특성들 중 적어도 상기 음향 객체의 카테고리 또는 상기 음향 객체의 심화 분류 정보를 포함하는 적어도 하나의 특성에 따라 구분된 객체 집합들 각각에 대하여 지정되는 분류 기반 우선순위, 및
상기 음향 객체의 상태들 중 적어도 상기 음향 객체의 맥락을 포함하는 적어도 하나의 상태에 따라 구분된 객체 집합들 각각에 대하여 지정되는 맥락 기반 우선순위 중 적어도 하나를 포함하는, 음향 처리 방법.
제12항에 있어서,
상기 권한 기반 우선순위는,
분석된 상기 음향 객체의 특성에 기초하여 상기 음향 객체가 상기 컴퓨팅 장치를 취급할 수 있도록 미리 정해진 권한자인지 여부를 판별하거나 상기 음향 객체의 음성 인증을 통하여 상기 객체가 상기 권한자인지 여부를 판별하는 단계; 및
상기 음향 객체가 상기 미리 정해진 권한자이면, 상기 권한자에 대하여 미리 정해진 순위를 상기 음향 객체의 상기 권한 기반 우선순위로 설정하는 단계
를 수행함으로써 산출되는, 음향 처리 방법.
제12항에 있어서,
상기 맥락 기반 우선순위는,
상기 음향 객체가 상기 전체 음향으로부터 추론된 객체 맥락 및 상기 전체 음향으로부터 추론된 공간 맥락 중 적어도 하나에 의한 행위자 또는 상기 행위자와 상호작용하는 것으로 검출되는 객체인 맥락 상호작용 객체인지 여부에 기초하여 상기 행위자 또는 상기 맥락 상호작용 객체에 상대적으로 높은 우선순위를 설정함으로써 산출되는, 음향 처리 방법.
제1항에 있어서,
상기 전체 음향에서 객체별 음향이 분류되면, 상기 컴퓨팅 장치는, 음향 추적 컨트롤러에 의하여 상기 전체 음향의 입력원을 구별하는 단계
를 더 포함하는, 음향 처리 방법.
제15항에 있어서,
상기 입력원은 지향성 마이크, 무지향성 마이크, 마이크 어레이(microphone Array), 빔 포밍 마이크(beam forming microphone) 중 적어도 하나를 포함하는, 음향 처리 방법.
제1항에 있어서,
상기 컴퓨팅 장치가, 상기 컴퓨팅 장치에 연동하는 촬영 장치 또는 디스플레이 장치에 상대적인 객체별 음향의 방향을 음향 추적 컨트롤러에 의하여 검출하는 방향 검출 단계를 더 포함하는, 음향 처리 방법.
제17항에 있어서,
상기 컴퓨팅 장치가, 상기 전체 음향으로부터 음향 객체를 검출하는 단계;
상기 컴퓨팅 장치가, 상기 전체 음향의 입력원별로 상기 음향 객체의 상기 객체별 음향의 음량, 주파수 및 위상 중 적어도 하나를 획득하는 단계; 및
상기 컴퓨팅 장치가, 상기 음향 객체로 하여금 발음을 하도록 유도함으로써 상기 음향 객체를 특정하는 단계
를 더 포함하는, 음향 처리 방법.
제17항에 있어서,
상기 컴퓨팅 장치는, 촬영 장치 또는 디스플레이 장치가 장착되어 상기 촬영 장치 또는 디스플레이 장치의 자세를 제어하는 하나 이상의 회전 축을 가진 짐벌(gimbal)과 연동하고,
산출된 상기 객체별 음향의 방향에 기초하여 상기 짐벌을 제어하는 짐벌 제어 단계를 더 포함하는, 음향 처리 방법.
제19항에 있어서,
상기 방향 검출 단계에서,
상기 컴퓨팅 장치가, 상기 전체 음향으로부터 음향 객체를 검출하고,
상기 짐벌 제어 단계에서,
상기 컴퓨팅 장치가, 상기 음향 객체에 대해 음향의 발생원이 맞는지 여부를 질의하고, 상기 촬영 장치를 제어하는 짐벌을 이용한 영상 추적을 통하여, 발음하는 객체가 상기 음향 객체와 동일한 객체인지 확인하는, 음향 처리 방법.
제19항에 있어서,
상기 짐벌 제어 단계에서,
상기 전체 음향의 입력원이 지향성 마이크 또는 마이크 어레이인 경우, 상기 컴퓨팅 장치가, 상기 객체별 음향에 기초하여 산출된 음향 객체의 방향에 기초하여 시스템의 방향을 제어하는, 음향 처리 방법.
제21항에 있어서,
상기 전체 음향의 입력원은 2개 이상의 개별 마이크를 포함하는 마이크 어레이이고,
상기 방향 검출 단계는,
상기 컴퓨팅 장치가, 상기 개별 마이크에 의하여 획득된 음향 각각에 대하여 음향 객체를 검출하는 단계;
상기 컴퓨팅 장치가, 상기 개별 마이크별로 상기 음향 객체의 상기 객체별 음향의 음량, 주파수 및 위상 중 적어도 하나를 획득하는 단계; 및
상기 컴퓨팅 장치가, 상기 음량, 주파수 및 위상 중 적어도 하나에 기초하여 상기 음향 객체의 위치를 산출하는 단계
를 포함하는, 음향 처리 방법.
제17항에 있어서,
상기 전체 음향의 입력원은 상기 컴퓨팅 장치에 연동하는 짐벌에 직접 장착되거나 상기 촬영 장치 또는 디스플레이 장치에 장착된 지향성 마이크이고,
상기 방향 검출 단계는,
상기 컴퓨팅 장치가, 상기 지향성 마이크에 의하여 획득된 전체 음향으로부터 음향 객체를 검출하는 단계; 및
상기 짐벌로써 상기 지향성 마이크의 방향을 제어하면서 상기 음향 객체의 객체별 음향의 음량, 주파수 및 위상 중 적어도 하나를 획득함으로써 상기 음향 객체의 방향 및 위치를 판별하는 단계
를 포함하는, 음향 처리 방법.
제19항에 있어서,
상기 방향 검출 단계는,
상기 컴퓨팅 장치가, 상기 전체 음향의 입력원에 의하여 획득된 전체 음향으로부터 음향 객체를 검출하는 단계; 및
(i) 상기 음향 객체의 카테고리 또는 상세 분류 정보와, 상기 촬영 장치로부터 획득된 영상에서 검출되는 영상 객체의 카테고리 또는 상세 분류 정보를 서로 대응시키는 객체 분류 추적, (ii) 상기 영상에서 검출되는 영상 객체의 음향 발생 동작을 포착함으로써 상기 음향 객체와 상기 영상 객체를 서로 대응시키는 음향 발생 동작 추적, 및 (iii) 상기 음향 객체의 객체별 음향과 상기 영상 객체의 음향 발생 동작을 비교함으로써 상기 음향 객체와 상기 영상 객체를 서로 대응시키는 발음 행동 패턴 추적 중 적어도 하나를 이용하여, 상기 음향 객체의 방향 및 위치를 판별하는 단계
를 포함하는, 음향 처리 방법.
제24항에 있어서,
상기 객체 분류 추적은,
카테고리 또는 상세 분류 정보가 획득된 음향 객체에 대하여, 상기 카테고리 또는 상기 상세 분류 정보와 동일한 카테고리 또는 상세 분류 정보를 가진 영상 객체를 탐색함으로써 수행되는, 음향 처리 방법.
제24항에 있어서,
상기 객체 분류 추적은,
영상 객체를 탐색 또는 모니터링하는 동안 인식되는 음향 객체에 대하여, 상기 영상 객체의 카테고리 또는 상세 분류 정보와 상기 음향 객체의 카테고리 또는 상세 분류 정보가 서로 일치하는지 여부를 비교하고 상기 영상 객체와 상기 음향 객체를 서로 대응시킴으로써 수행되는, 음향 처리 방법.
제24항에 있어서,
상기 음향 발생 동작 추적은,
카테고리 또는 상세 분류 정보가 획득된 음향 객체에 대하여, 상기 카테고리 또는 상기 상세 분류 정보와 동일한 카테고리 또는 상세 분류 정보를 가진 영상 객체를 탐색하는 단계;
상기 영상 객체의 음향 발생 동작을 인식하는 단계; 및
상기 음향 객체가 상기 음향 발생 동작을 하고 있는 상기 영상 객체와 일치하는지 여부를 확인하는 단계
를 포함하는, 음향 처리 방법.
제24항에 있어서,
상기 음향 발생 동작 추적은,
영상 객체의 음향 발생 동작을 검출하는 단계; 및
상기 음향 발생 동작이 검출된 상기 영상 객체로부터 식별되는 상기 영상 객체의 카테고리 및 상세 분류 정보 중 적어도 하나와, 상기 전체 음향에 나타난 개별 음향 객체 각각의 카테고리 및 상세 분류 정보가 서로 일치하는지 여부를 비교함으로써 상기 음향 발생 동작이 검출된 상기 영상 객체와 상기 개별 음향 객체 중 하나를 서로 대응시키는 단계;
를 포함하는, 음향 처리 방법.
제24항에 있어서,
상기 발음 행동 패턴 추적은,
영상 객체의 음향 발생 동작을 인식하는 단계;
상기 음향 객체가 상기 음향 발생 동작을 하고 있는 상기 영상 객체와 일치하는지 여부를 확인하는 단계;
상기 영상 객체와 일치하는 상기 음향 객체에서 상기 음향 발생 동작에 대응하는 발음 부분 객체를 탐색하는 단계; 및
상기 음향 발생 동작의 패턴이 상기 음향 객체의 객체별 음향의 패턴과 일치하는지 확인하는 단계
를 포함하는, 음향 처리 방법.
제24항에 있어서,
상기 발음 행동 패턴 추적은,
영상 객체의 발음 부분 객체를 인식하는 단계;
상기 발음 부분 객체의 음향 발생 동작을 검출하는 단계; 및
상기 음향 발생 동작의 패턴이 상기 음향 객체의 객체별 음향의 패턴과 일치하는지 비교함으로써 상기 음향 발생 동작이 검출된 상기 영상 객체와 상기 음향 객체를 서로 대응시키는 단계
를 포함하는, 음향 처리 방법.
삭제
삭제
컴퓨팅 장치로 하여금, 제1항, 제3항 내지 제30항 중 어느 한 항의 방법을 수행하도록 구현된 명령어(instructions)를 포함하는, 기계 판독 가능한 기록 매체에 저장된, 컴퓨터 프로그램.
음향을 처리하는 컴퓨팅 장치로서,
음향 입력 장치와 연동하여 상기 음향 입력 장치로부터 전체 음향을 획득하는 통신부; 및
상기 전체 음향에 나타난 하나 이상의 음향 객체의 존재를 검출하고, 검출된 상기 음향 객체 각각의 카테고리를 산출하는 분류를 수행하는 카테고리 분류 프로세스, 및 상기 음향 객체 각각에 대한 분석 결과로서 상기 카테고리를 제외하고 시간이 대해 불변하는 상기 음향 객체의 성질인 특성 및 시간에 대해 가변인 상기 음향 객체의 성질인 상태를 포함하는 상세 분류 정보를 생성하는 상세 분류 프로세스를 수행하는 프로세서
를 포함하는 음향 처리 장치.
삭제