KR20170029402A

KR20170029402A - 객체 오디오 녹음 방법, 장치, 전자기기, 프로그램 및 기록매체

Info

Publication number: KR20170029402A
Application number: KR1020167004592A
Authority: KR
Inventors: 룬위 쉬; 치아푸 옌; 훼이 뚜
Original assignee: 시아오미 아이엔씨.
Priority date: 2015-08-11
Filing date: 2015-12-25
Publication date: 2017-03-15
Also published as: CN105070304A; JP2017531213A; EP3139640A2; US9966084B2; KR101770295B1; US20170047076A1; MX364461B; RU2630187C1; MX2016005224A; JP6430017B2; EP3139640A3; WO2017024721A1; CN105070304B

Abstract

본 발명은 객체 오디오 녹음 방법 및 장치, 전자기기에 관한 것이다. 해당 방법은, 복수의 마이크로폰으로 동시에 음향 채집 조작을 실행하여 혼합 음향 신호를 획득하는 단계와, 상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하는 단계와, 각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하는 단계를 포함할 수 있다. 본 발명에 의하면, 객체 오디오를 직접 녹음할 수 있다.

Description

객체 오디오 녹음 방법 및 장치, 전자기기{METHOD AND DEVICE FOR ACHIEVING OBJECT AUDIO RECORDING AND ELECTRONIC APPARATUS}

본 발명은 녹음 기술 분야에 관한 것이며, 특히 객체 오디오 녹음 방법 및 장치, 전자기기에 관한 것이다.

본 출원은 출원번호가 CN201510490373.6이며, 출원일이 2015 년8 월 11일인 중국 특허출원에 기반하여 우선권을 주장하고, 상기 중국 특허출원의 내용 전부를 본 출원에 원용한다.

MPEG(Moving Picture Experts Group, 동영상 전문가 집단)의 차세대 오디오 코덱 기준인 MPEG-H3D Audio는 2015년 2월부터 정식으로 ISO/IEC 23008-3국제 기준이 되었으며, 이 기준에 따르는 새로운 음향 포맷인 객체 오디오(Object Audio)를 이용할 경우 소리의 방위를 표시할 수 있어, 수청자는 수청자가 이용하고 있는 것이 이어폰인지 음향 설비인지와는 관계없이, 또한 음향 설비가 몇개의 스피커를 구비하고 있는지와는 관계없이 특정 방위로 부터 전송되어 오는 소리를 들을 수 있게 된다.

본 발명은 종래 기술에 존재하는 상기와 같은 문제점을 해결하기 위한 객체 오디오 녹음 방법 및 장치, 전자기기를 제공한다.

본 발명의 실시예에 따르는 제1 양태에 의하면,

객체 오디오 녹음 방법에 있어서,

복수의 마이크로폰으로 동시에 음향 채집 조작을 실행하여 혼합 음향 신호를 획득하는 단계와,

상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하는 단계와,

각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하는 단계

를 포함하는 방법을 제공한다.

상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하는 단계는,

각 음원으로부터 출력되는 음향 신호가 각 마이크로폰 사이에서 형성하는 진폭차와 위상차에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하는 단계를 포함할 수 있다.

상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수 및 각 음원의 위치 정보를 식별하는 단계와,

상기 혼합 음향 신호, 마이크로폰 각각의 설치 위치 정보, 그리고 상기 음원의 개수 및 상기 음원의 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 각 음원에 대응하는 객체 음향 신호를 추출하는 단계

를 포함할 수 있다.

상기 혼합 음향 신호, 마이크로폰 각각의 설치 위치 정보, 그리고 상기 음원의 개수 및 상기 음원의 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 각 음원에 대응하는 객체 음향 신호를 추출하는 단계는,

각 음원으로부터 출력되는 음향 신호가 소정의 디멘션(dimension)에서 형성하는 특징량에 기반하여, 대응하는 통계 모델을 구축하는 단계와,

상기 통계 모델을 이용하여 상기 혼합 음향 신호로부터 어느 하나의 음원의 위치 정보를 만족하는 음향 신호를 식별 및 추출하여 상기 어느 하나의 음원에 대응하는 객체 음향 신호로 하는 단계

를 포함할 수 있다.

각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하는 단계는,

각 음원의 배열순서에 따라 해당하는 객체 음향 신호를 조합하여 멀티 객체 오디오 데이터를 획득하는 단계와,

상기 배열순서에 따라 각 음원의 위치 정보를 조합하여 객체 오디오 보조 데이터를 획득하는 단계와,

기설정 파라미터를 포함하는 헤더 파일 정보, 상기 멀티 객체 오디오 데이터 및 상기 객체 오디오 보조 데이터를 순서에 따라 접속하여 상기 객체 오디오 포맷의 오디오 데이터를 획득하는 단계

를 포함할 수 있다.

기설정 파라미터 및 각 프레임의 오디오 데이터의 시간 길이를 포함하는 헤더 파일 정보를 생성하여 소정의 오디오 처리 설비에 송신하는 단계와,

상기 각 프레임의 오디오 데이터의 시간 길이를 만족하는 각 프레임의 객체 오디오 포맷의 오디오 데이터를 생성하여, 각 프레임의 객체 오디오 포맷의 오디오 데이터를 상기 소정의 오디오 처리 설비에 순서에 따라 송신하는 단계

를 포함할 수 있고,

상기 각 프레임의 오디오 데이터의 시간 길이를 만족하는 각 프레임의 객체 오디오 포맷의 오디오 데이터를 생성하는 단계는,

상기 멀티 객체 오디오 데이터와 상기 객체 오디오 보조 데이터를 순서에 따라 접속하여 각 프레임의 객체 오디오 포맷의 오디오 데이터를 획득하는 단계

를 포함할 수 있다.

각 음원의 배열순서에 따라 해당하는 객체 음향 신호를 조합하여 멀티 객체 오디오 데이터를 획득하는 단계는,

소정의 샘플링 주기에 기반하여, 각 샘플링 시점 마다, 각 음원에 대응하는 객체 음향 신호를 각각 샘플링하여, 상기 배열순서에 따라 모든 샘플링 신호를 배열하는 것을 통하여 조합 샘플링 신호를 획득하는 단계와,

샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 신호를 순서에 따라 배열하는 것을 통하여 상기 멀티 객체 오디오 데이터를 획득하는 단계

를 포함할 수 있다.

상기 배열순서에 따라 각 음원의 위치 정보를 조합하여 객체 오디오 보조 데이터를 획득하는 단계는,

소정의 샘플링 주기에 기반하여, 각 샘플링 시점 마다, 각 음원에 대응하는 위치 정보를 각각 샘플링하여, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하는 것을 통하여 조합 샘플링 위치 정보를 획득하는 단계와,

샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 위치 정보를 순서에 따라 배열하는 것을 통하여 상기 객체 오디오 보조 데이터를 획득하는 단계

를 포함할 수 있다.

소정의 샘플링 주기에 기반하여, 각 음원에 대응하는 위치 정보를 각각 샘플링 하는 단계를 포함하되,

현재의 샘플링 포인트가 최초의 샘플링 시점일 경우, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하고,

현재의 샘플링 포인트가 최초의 샘플링 시점이 아닐 경우, 획득된 각 음원의 샘플링 위치 정보를 이미 기록된 동일 음원의 바로 전의 샘플링 위치 정보와 비교하고, 그 비교 결과가 서로 다른 경우, 당해 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록할 수 있다.

본 발명의 실시예에 따르는 제2 양태에 의하면,

객체 오디오 녹음 장치에 있어서,

복수의 마이크로폰으로 동시에 음향 채집 조작을 실행하여 혼합 음향 신호를 획득하기 위한 채집 유닛과,

상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하기 위한 처리 유닛과,

각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하기 위한 조합 유닛

을 포함하는 장치를 제공한다.

상기 처리 유닛은,

각 음원으로부터 출력되는 음향 신호가 각 마이크로폰 사이에서 형성하는 진폭차와 위상차에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수와 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하기 위한 처리 서브 유닛을 포함할 수 있다.

상기 처리 유닛은,

상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수 및 각 음원의 위치 정보를 식별하기 위한 식별 서브 유닛과,

상기 혼합 음향 신호, 마이크로폰 각각의 설치 위치 정보, 그리고 상기 음원의 개수 및 상기 음원의 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 각 음원에 대응하는 객체 음향 신호를 추출하기 위한 추출 서브 유닛

을 포함할 수 있다.

상기 추출 서브 유닛은,

각 음원으로부터 출력되는 음향 신호가 소정의 디멘션에서 형성하는 특징량에 기반하여, 대응하는 통계 모델을 구축하기 위한 모델 구축 모듈과,

상기 통계 모델을 이용하여 상기 혼합 음향 신호로부터 어느 하나의 음원의 위치 정보를 만족하는 음향 신호를 식별 및 추출하여 상기 어느 하나의 음원에 대응하는 객체 음향 신호로 하기 위한 추출 모듈

을 포함할 수 있다.

상기 조합 유닛은,

각 음원의 배열순서에 따라 해당하는 객체 음향 신호를 조합하여 멀티 객체 오디오 데이터를 획득하기 위한 신호 조합 서브 유닛과,

상기 배열순서에 따라 각 음원의 위치 정보를 조합하여 객체 오디오 보조 데이터를 획득하기 위한 위치 조합 서브 유닛과,

기설정 파라미터를 포함하는 헤더 파일 정보, 상기 멀티 객체 오디오 데이터 및 상기 객체 오디오 보조 데이터를 순서에 따라 접속하여 상기 객체 오디오 포맷의 오디오 데이터를 획득하기 위한 제 1 접속 서브 유닛

을 포함할 수 있다.

상기 조합 유닛은,

기설정 파라미터를 포함하고, 또한 신호 조합 서브 유닛, 위치 조합 서브 유닛 및 접속 서브 유닛이 상기 각 프레임의 오디오 데이터의 시간 길이를 만족하는 각 프레임의 객체 오디오 포맷의 오디오 데이터를 생성할 수 있도록 하기 위하여 각 프레임의 오디오 데이터의 시간 길이를 포함하는 헤더 파일 정보를 생성하여, 소정의 오디오 처리 설비에 송신하기 위한 헤더 파일 송신 서브 유닛과,

상기 멀티 객체 오디오 데이터와 상기 객체 오디오 보조 데이터를 순서에 따라 접속하여 각 프레임의 객체 오디오 포맷의 오디오 데이터를 획득하기 위한 제 2 접속 서브 유닛과,

각 프레임의 객체 오디오 포맷의 오디오 데이터를 상기 소정의 오디오 처리 설비에 순서에 따라 송신하기 위한 오디오 데이터 송신 서브 유닛

을 포함할 수 있다.

상기 신호 조합 서브 유닛은,

소정의 샘플링 주기에 기반하여, 각 샘플링 시점 마다, 각 음원에 대응하는 객체 음향 신호를 각각 샘플링하여, 상기 배열순서에 따라 모든 샘플링 신호를 배열하는 것을 통하여 조합 샘플링 신호를 획득하기 위한 신호 샘플링 모듈과,

샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 신호를 순서에 따라 배열하는 것을 통하여 상기 멀티 객체 오디오 데이터를 획득하기 위한 신호 배열 모듈

을 포함할 수 있다.

상기 위치 조합 서브 유닛은,

소정의 샘플링 주기에 기반하여, 각 샘플링 시점 마다, 각 음원에 대응하는 위치 정보를 각각 샘플링하여, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하는 것을 통하여 조합 샘플링 위치 정보를 획득하기 위한 제 1 위치 기록 모듈과,

샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 위치 정보를 순서에 따라 배열하는 것을 통하여 상기 객체 오디오 보조 데이터를 획득하기 위한 위치 배열 모듈

을 포함할 수 있다.

상기 위치 조합 서브 유닛은,

소정의 샘플링 주기에 기반하여, 각 음원에 대응하는 위치 정보를 각각 샘플링하기 위한 위치 샘플링 모듈과,

현재의 샘플링 포인트가 최초의 샘플링 시점일 경우, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하고, 현재의 샘플링 포인트가 최초의 샘플링 시점이 아닐 경우, 획득된 각 음원의 샘플링 위치 정보를 이미 기록된 동일 음원의 바로 전의 샘플링 위치 정보와 비교하고, 그 비교 결과가 서로 다른 경우, 당해 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하기 위한 제 2 위치 기록 모듈

을 포함할 수 있다.

본 발명의 실시예에 따르는 제3 양태에 의하면,

프로세서와,

상기 프로세서에 의해 실행 가능한 인스트럭션을 기억하기 위한 메모리

를 구비하고,

상기 프로세서는,

복수의 마이크로폰으로 동시에 음향 채집 조작을 실행하여 혼합 음향 신호를 획득하고,

상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하고,

각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하도록 구성되는 전자기기를 제공한다.

본 발명의 실시예에 의하면, 이하와 같은 유익한 효과를 얻을 수 있다.

상술한 실시예에 의하면, 본 발명에서는 복수의 마이크로폰을 설치하여 동시에 음향 채집을 실행함으로써, 획득되는 혼합 음향 신호에 각 마이크로폰에 의해 채집된 음향 신호가 포함되도록 하고, 또한 각 마이크로폰 각각의 설치 위치 정보를 결합시키는 것을 통하여, 음원 마다 그에 대응하는 객체 음향 신호를 식별 및 추출할 수 있다. 때문에, 각 음원의 음향 신호를 개별적으로 채집할 필요가 없어, 하드웨어 설비에 대한 의존성과 요구가 낮아지고, 객체 오디오 포맷의 오디오 데이터를 직접 획득할 수 있다.

이상의 일반적인 설명과 이하의 세부적인 설명은 단지 예시적인 것으로서 본 발명에 대한 한정으로서 이해하여서는 아니 된다.

여기에 도시된 도면은, 명세서에 포함되어 명세서의 일부분을 구성하며 본 발명의 실시예에 대한 설명에 사용됨과 동시에 본 발명의 원리를 해석하기 위하여 사용된다.
도1은 종래 기술에 따르는 객체 오디오를 획득하기 위한 방법의 모식도이다.
도2는 종래 기술에 따르는 객체 오디오를 획득하기 위한 다른 방법의 모식도이다.
도3은 본 발명의 예시적인 일 실시예에 따르는 객체 오디오 녹음 방법의 흐름도이다.
도4는 본 발명의 예시적인 일 실시예에 따르는 다른 객체 오디오 녹음 방법의 흐름도이다.
도5는 본 발명의 예시적인 일 실시예에 따르는 음원 신호를 채집하기 위한 방법의 모식도이다.
도6은 본 발명의 예시적인 일 실시예에 따르는 다른 객체 오디오 녹음 방법의 흐름도이다.
도7은 본 발명의 예시적인 일 실시예에 따르는 객체 오디오의 프레임 구성의 모식도이다.
도8은 본 발명의 예시적인 일 실시예에 따르는 객체 오디오의 다른 프레임 구성의 모식도이다.
도9는 본 발명의 예시적인 일 실시예에 따르는 객체 오디오의 다른 프레임 구성의 모식도이다.
도10 내지 도18은 본 발명의 예시적인 일 실시예에 따르는 객체 오디오 녹음 장치의 블럭도이다.
도19는 본 발명의 예시적인 일 실시예에 따르는 객체 오디오 녹음 장치의 구성의 모식도이다.

이하, 예시적 실시예에 대하여 상세히 설명하되 그 예들은 도면에 도시되어 있다. 이하 도면과 관련하여 기술할 경우, 별도의 설명이 없는 이상 다른 도면 중의 동일한 도면부호는 동일하거나 유사한 요소를 나타내는 것으로 한다. 이하의 예시적 실시예에 대해 설명하는 복수의 실시형태는 본 발명에 따르는 모든 실시형태를 대표하는 것은 아니다. 이들은 단지 첨부된 특허청구의 범위에 기재된 본 발명의 일부 양태에 따르는 장치 및 방법의 예에 지나지 않는다.

종래 기술에 있어서는, 객체 오디오(Object Audio)를 직접 녹음하여 획득할 수 없다. 이하, 이해의 편의상 종래 기술에 따르는 전형적인 처리 방식에 대해 소개하도록 한다.

도1은 종래 기술에 따르는 객체 오디오를 획득하기 위한 방법의 모식도이다. 도1에 도시된 바와 같이, 해당 처리 과정에 있어서, 예를 들어 도1의 제1 음향 채널(sound channel) 오디오, 제2 음향 채널 오디오, 제3 음향 채널 오디오 등과 같은 복수의 모노럴 오디오(monaural audio)를 미리 준비할 필요가 있고, 또한 이와 동시에, 예를 들어 제1 음향 채널 오디오에 대응하는 제1 위치, 제2 음향 채널 오디오에 대응하는 제2 위치, 제3 음향 채널 오디오에 대응하는 제3 위치 등과 같은 각 모노럴 오디오에 대응하는 위치 정보를 미리 준비할 필요도 있다. 그리고 나서, 객체 오디오 제작 디바이스를 이용하여 각 채널의 오디오를 그에 대응하는 위치와 조합하여 객체 오디오를 획득한다.

하지만, 도1에 도시된 처리 방식에는 이하와 같은 문제점이 존재한다.

1) 미리 오디오 데이터와 위치 정보를 준비할 필요가 있기에 객체 오디오를 직접 녹음하여 획득할 수 없다.

2) 또한 이와 동시에, 각 채널의 오디오의 위치가 개별적으로 준비되기에 통상 각 채널의 오디오의 진정한 위치를 확실히 반영할 수 없다.

도2는 종래 기술에 따르는 객체 오디오를 획득하기 위한 다른 방법의 모식도이다. 도2에 도시된 바와 같이, 예를 들어, 제1 음원이 제1 MIC(마이크로폰)에 대응하고, 제2 음원이 제2 MIC에 대응하고, 제3 음원이 제3 MIC에 대응하도록 음원 마다 대응하는 MIC을 준비하여, 각 MIC가 자신과 대응하는 음원에 대해서만 음향을 채집하도록 함으로써 대응하는 제1 객체 음향 신호, 제2 객체 음향 신호, 제3 객체 음향 신호등을 각각 획득한다. 또한 이와 동시에, 각 음원의 위치 정보를 미리 준비할 필요가 있다. 그리고 나서, 객체 오디오 제작 디바이스를 이용하여, 각 음원에 대응하는 객체 음향 신호를 위치 정보와 조합하여 객체 오디오를 획득한다.

하지만, 도2에 도시된 처리 방식에는 이하와 같은 문제점이 존재한다.

1) 각 음원 마다 MIC을 개별적으로 준비할 필요가 있기 때문에 하드웨어 코스트가 과도하게 높아진다.

2) MIC인 경우, 음원에 가까이 설치하여 음원을 추종하여 이동하여야 하기 때문에 실현하기가 매우 곤란하고 녹음기재의 코스트가 급증한다.

3) 복수의 MIC에 의해 각각 채집된 객체 음향 신호끼리를 동기 시킬 필요가 있지만, 음원의 개수가 많고 또한 MIC를 음원에 가까이 설치되기에 객체 오디오 제작 디바이스로부터 떨어질 경우, 또는 무선 MIC을 이용하는 경우, 동기를 실현하기가 매우 곤란하다.

4) 음원의 위치 정보인 경우, 별도 개별적으로 획득되며 또한 그 후에 객체 오디오에 첨부되기 때문에, 음원의 개수가 많고 그 이동이 불규칙적인 등 요소의 영향으로, 최종적으로 획득된 객체 오디오가 진정한 음원 위치를 충실하게 표시하기 어렵다.

그래서, 본 발명에서는 객체 오디오의 녹음을 실현하기 위한 기술을 제공함으로써, 종래 기술에 존재하는 상술한 바와 같은 기술 과제를 해결하도록 한다.

도3은 예시적인 일 실시예에 따르는 객체 오디오 녹음 방법의 흐름도이다. 해당 방법은 녹음 설비에 이용되며, 도3에 도시된 바와 같이 이하의 단계를 포함할 수 있다.

단계 302에 있어서, 복수의 마이크로폰으로 동시에 음향 채집 조작을 실행하여 혼합 음향 신호를 획득한다.

단계 304에 있어서, 상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출한다.

예시적인 일 실시예에 있어서, 각 음원으로부터 출력되는 음향 신호가 각 마이크로폰 사이에서 형성하는 진폭차와 위상차등의 특징 정보에 기반하여, 혼합 음향 신호로부터 직접 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출할 수 있다.

예시적인 다른 일 실시예에 있어서, 우선, 상술한 바와 같은 진폭차와 위상차등의 특징 정보에 따라, 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하고, 그 후, 상술한 바와 같은 진폭차와 위상차등의 특징 정보에 따라, 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 혼합 음향 신호로부터 각 음원에 대응하는 객체 음향 신호를 추출할 수 있다.

단계 306에 있어서, 각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득한다.

본 실시예에 있어서, 객체 오디오(Object Audio)란, 일반적으로 오디오 객체(Audio Object)를 표시하기 위한 각종 음향 포맷을 말한다. 여기서, 위치 정보를 구비하는 점 음원, 또는 중심 위치를 대체로 판단할 수 있는 면 음원은 모두 오디오 객체(Audio Object)라 할 수 있다.

본 실시예에 있어서, 객체 오디오는 음원의 위치 및 객체 음향 신호의 두 개의 부분을 포함한다. 그 중, 객체 음향 신호 자신을 모노럴 오디오 신호로 볼 수 있다. 객체 음향 신호의 형식은 PCM(Pulse-code modulation), DSD(Direct Stream Digital)등 비압축 포맷일 수도 있고, MP3(MPEG-1 or MPEG-2 Audio Layer III), AAC(Advanced Audio Coding), Dolby Digital등 압축 포맷일 수도 있지만, 본 발명에서는 이에 대하여 한정하지 않는다.

상술한 실시예로부터 알 수 있는 바와 같이, 본 발명에서는 복수의 마이크로폰을 설치하여 동시에 음향 채집을 실행함으로써, 획득되는 혼합 음향 신호에 각 마이크로폰에 의해 채집된 음향 신호가 포함되도록 하고, 또한 각 마이크로폰 각각의 설치 위치 정보를 결합시키는 것을 통하여, 음원마다 그에 대응하는 객체 음향 신호를 식별 및 추출할 수 있다. 때문에, 각 음원의 음향 신호를 개별적으로 채집할 필요가 없어, 하드웨어 설비에 대한 의존성과 요구가 낮아지고, 객체 오디오 포맷의 오디오 데이터를 직접 획득할 수 있다.

도4는 본 발명의 예시적인 일 실시예에 따르는 다른 객체 오디오 녹음 방법의 흐름도이다. 해당 방법은, 도4에 도시된 바와 같이 이하의 단계를 포함할 수 있다.

단계 402에 있어서, 복수의 MIC에 의해 동시에 음향 채집을 실행하여 혼합 음향 신호를 획득한다.

본 실시예에 있어서, 마이크로폰의 개수가 2개인 경우, 동일 평면내에 존재하는 복수의 음원에 대해서 객체 오디오의 녹음 조작을 실시할 수 있고, 마이크로폰의 개수가 3개 또는 3개 이상인 경우, 임의의 3차원 공간내에 존재하는 복수의 음원에 대해서 객체 오디오의 녹음 조작을 실시할 수 있다. 여기서, 동일한 음원 설정일 경우, 마이크로폰의 개수가 많으면 많을수록, 음원의 개수와 위치 정보를 식별하고 각 음원의 객체 음향 신호를 추출하는데 유리하다.

단계 404에 있어서, 각 MIC의 위치 정황을 획득한다.

본 실시예에 있어서, 도 5에 도시된 바와 같이, 각 MIC가 객체 오디오의 녹음을 실행하는 동안에 위치 정황을 그대로 유지하며, 음원의 위치 정보가 변경되더라도 MIC 자신의 위치 정황을 변경할 필요는 없다. 이것은, 음원의 위치 변화가 채집되는 혼합 음향 신호중에 구현되므로, 후속 단계에서 식별할 수 있기 때문이다. 또한, MIC와 음원은 일대일로 대응되는 것은 아니며, 음원의 개수의 다소와는 관계없이, 적어도 두 개의 MIC를 이용하여 음향 신호를 채집하는 것을 통하여 대응하는 혼합 음향 신호를 획득할 수 있다.

따라서, 도1 및 도2에 도시된 실시예에 비하여, 본 실시예는 더욱 정확하고 확실하게 각 음원의 실제의 위치를 식별할 수 있을 뿐만 아니라, 많은 개수의 MIC가 필요하지 않고, MIC가 음원에 추종하여 동기 이동할 필요도 없기 때문에, 하드웨어 코스트 및 시스템의 복잡정도가 낮아지고, 객체 오디오의 품질을 향상하는데 유리하다.

본 실시예에 있어서, MIC의 위치 정황에는 MIC의 설치 위치 정보가 포함된다. 좌표 방식을 이용하여 각 MIC의 위치 정황을 기록할 수 있다. 예를 들면, 임의의 위치(예를 들어 수청자(Audience)의 위치)를 원점으로 하여 공간 좌표계를 구축할 수 있다. 해당 공간 좌표계는 직각좌표계(O-xyz), 또는 구면 좌표계(O-θγr)일 수 있으며, 이러한 두 좌표계 사이의 변환 관계는 이하와 같다.

여기서, x, y, z은 각각 직각좌표계에서의 MIC 또는 음원(object)의 x축(전후 방향), y축(좌우 방향) 및 z축(상하 방향) 상의 위치 좌표를 표시한다. θ,γ,r는 각각 구면 좌표계에서의 MIC 또는 음원의 수평 방향의 각도(MIC 또는 음원과 원점을 지나는 직선의 수평면상의 투영과 x축이 이루는 각도), 수직 방향의 각도(MIC 또는 음원과 원점을 지나는 직선과 수평면이 이루는 각도), MIC 또는 음원의 원점으로부터의 직선 거리를 표시한다.

물론, 각 MIC의 위치 정황을 개별적으로 기록할 수도 있고, 또는 각 MIC 사이의 상대 위치 정황을 기록하는 것을 통하여, 각 MIC의 개별적인 위치 정황을 추정할 수도 있다.

단계 406에 있어서, 각 MIC의 위치 정황에 기반하여, 혼합 음향 신호로부터 음원을 식별함으로써 음원의 개수 및 각 음원의 위치 정보를 획득한다.

예시적인 일 실시예에 있어서, 각 음원으로부터 출력되는 음향 신호가 각 마이크로폰 사이에서 형성하는 진폭차와 위상차에 기반하여, 음원의 개수와 각 음원의 위치 정보를 식별할 수 있다. 해당 실시예에 있어서, 각 음원으로부터 출력되는 음향 신호가 각 마이크로폰에 도달하는 시간차이를 이용하여 해당하는 위상차를 표시할 수 있다.

실제로, 종래 기술에 따르는 진폭차와 위상차에 기반한 음원 식별(음원이 존재하는지 여부의 판단) 및 음원의 개수, 위치 정보의 식별에 관한 모든 기술은 모두 해당 단계 406의 처리에 적용된다. 예를 들면, MUSIC (Multiple Signal Classfication, 다중 신호 분류) 법, 빔 포밍(Beamforming) 법, CSP (crosspower- spectrum phase, 백색화 상호 상관) 법 등을 예로 들 수 있지만 이것들만이 아니다.

물론, 종래 기술중에는 진폭차와 위상차에 기반하여 음원의 개수, 위치 정보를 식별하는 다른 알고리즘이 더욱 많이 있고, 또한 그 외의 원리에 기반하여 음원의 개수, 위치 정보를 식별하는 알고리즘도 있지만, 이러한 모든 것은 본 발명의 실시예에 적용되며, 본 발명에서는 이들에 대하여 한정하지 않는다.

단계 408에 있어서, 각 MIC의 위치 정황, 그리고 음원의 개수 및 각 음원의 위치 정보에 기반하여, 혼합 음향 신호로부터 각 음원에 대응하는 객체 음향 신호를 추출한다.

예시적인 일 실시예에 있어서, 각 음원으로부터 출력되는 음향 신호가 각 마이크로폰 사이에서 형성하는 진폭차와 위상차에 기반하여, 각 음원에 대응하는 객체 음향 신호를 추출할 수 있다. 예를 들면, 종래 기술에 따르는 빔 포밍(Beam forming) 법, GHDSS (Geometric High-order Decorrelation-based Source Separation) 법 등을 통하여 실현할 수도 있다.

예시적인 다른 일 실시예에 있어서, 각 음원으로부터 출력되는 음향 신호가 소정의 디멘션(dimension)에서 형성하는 특징량에 기반하여, 대응하는 통계 모델을 구축하고, 상기 통계 모델을 이용하여 상기 혼합 음향 신호로부터 어느 하나의 음원의 위치 정보를 만족하는 음향 신호를 식별 및 추출하여 상기 어느 하나의 음원에 대응하는 객체 음향 신호로 할 수 있다. 여기서, 통계 모델은 예를 들어 스펙트럼 차이, 음량차이, 위상차, 기본 주파수 차 및 기본 주파수 에너지 차이, 공진 피크값 차이등 획득 가능한 디멘션과 관련되는 모든 특징량을 사용할 수 있다. 해당 실시 예의 원리는, 통계 모델을 이용하여, 어느 음향 신호가 어느 특정의 사운드 필드 공간(즉, 추정된 음원 위치)에 속하는지 여부를 식별하는 것이다. 예를 들면, GMM (Gaussian Mixture Model, 가우시안 혼합 모델)등 알고리즘을 통하여 실현할 수 있다.

물론, 종래 기술중에는, 진폭차와 위상차, 또는 통계 모델에 기반하여, 객체 음향 신호를 추출하는 다른 알고리즘이 더 있을 수 있고, 또한 그 외의 원리에 기반하여 객체 음향 신호를 추출하는 알고리즘도 있을 수 있지만, 이러한 모든 것은 본 발명의 실시예에 적용되며, 본 발명에서는 이에 대해 한정하지 않는다.

또한, 도4에서는 단계 406과 단계 408을 개별적으로 설명하고 있지만, 실제로, 일부 경우에는, 확실히 단계 406과 단계 408의 처리 과정을 개별적으로 실시할 필요가 있지만, 다른 일부 경우에는, 예를 들어 상술한 빔 포밍법 등 원리에 기반하여, 음원의 개수와 위치 정보의 획득, 및 각 음원의 객체 음향 신호의 추출을 동시에 실현할 수 있으므로, 두 개의 단계로 나누어 개별적으로 실시할 필요는 없다.

단계 410에 있어서, 각 음원의 객체 음향 신호와 위치 정보를 조합하여 객체 오디오를 획득한다.

이하, 단계 410의 조합 조작에 관하여 도6을 참조하여 자세하게 설명하도록한다. 도6은 본 발명의 예시적인 일 실시예에 따르는 다른 객체 오디오 녹음 방법의 흐름도이다. 해당 방법은, 도6에 도시된 바와 같이 이하의 단계를 포함할 수 있다.

단계 602에 있어서, 음원의 개수, 각 음원의 위치 정보 및 각 음원의 객체 음향 신호를 획득한다.

단계 604에 있어서, 유저가 선정한 저장 모드를 확인하고, 파일의 저장 모드가 File Packing Mode이면, 단계 606을 진행하고, Low Delay Mode(로지연 모드)이면, 단계 616을 진행한다.

1. File Packing Mode

단계 606에 있어서, 헤더 파일을 생성한다.

실시예에 있어서, 해당 헤더 파일에는 해당 객체 오디오를 기술하기 위한 기설정 파라미터, 예를 들면 ID정보, 버전 번호등이 포함된다. 예시적인 일 실시예에 있어서, 해당 헤더 파일의 포맷 및 내용은 표 1에 도시된 바와 같다.

단계 608에 있어서, 각 음원의 배열순서에 따라 해당하는 객체 음향 신호를 조합하여 멀티 객체 오디오 데이터를 획득한다.

본 실시예에 있어서, 객체 음향 신호를 조합하는 과정은,

1) 소정의 샘플링 주기에 기반하여, 샘플링 시점 마다, 각 음원에 대응하는 객체 음향 신호를 각각 샘플링하여, 상기 배열순서에 따라 모든 샘플링 신호를 배열하는 것을 통하여 조합 샘플링 신호를 획득하는 단계와,

2) 샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 신호를 순서에 따라 배열하는 것을 통하여 상기 멀티 객체 오디오 데이터를 획득하는 단계

를 포함할 수 있다.

예를 들면, 도 7에 도시된 바와 같이, 예시적인 일 실시예에 따르는 객체 오디오 데이터의 구성에 있어서, t0, t1등은 소정의 샘플링 주기에 대응하는 각 샘플링 시점이다. 샘플링 시점 t0을 예로 들면, A, B, C 및 D의 4개의 음원이 존재하고, 또한 각 음원의 배열순서가 A→B→C→D의 순서라고 하면, 해당 순서에 따라, 4개의 음원에 대해 순서에 따라 샘플링하여 샘플링 신호 A0, 샘플링 신호 B0, 샘플링 신호 C0, 샘플링 신호 D0을 획득함으로써, 대응하는 조합 샘플링 신호 0을 생성한다. 마찬가지로 하여, 각 샘플링 시점에서 같은 방식으로 샘플링하여 각 샘플링 시점 t0, t1등 각각에 대응하는 조합 샘플링 신호 0, 조합 샘플링 신호 1등을 획득할 수 있다. 마지막으로, 각 조합 샘플링 신호에 대응하는 샘플링 순서로 따라서 배열하는 것을 통하여 멀티 객체 오디오 데이터를 획득할 수 있다.

단계 610에 있어서, 각 음원의 배열순서에 따라 각 음원의 위치에 대해 조합을 실시하여 객체 오디오 보조 데이터를 획득한다.

예시적인 일 실시형태에 있어서, 객체 음향 신호를 조합하는 과정은,

1) 소정의 샘플링 주기에 기반하여, 각 샘플링 시점 마다, 각 음원에 대응하는 위치 정보를 각각 샘플링하고, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보, 샘플링 시점 정보와 관련되도록 기록하는 것을 통하여 조합 샘플링 위치 정보를 획득하는 단계와,

2) 샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 위치 정보를 순서에 따라 배열하는 것을 통하여 상기 객체 오디오 보조 데이터를 획득하는 단계

를 포함할 수 있다.

본 실시형태에 따르는 객체 오디오 보조 데이터를 생성하는 과정은, 상술한 멀티 객체 오디오 데이터를 생성하는 과정과 유사하다. 다시 도 7을 예로 들면, 샘플링 시점 t0에 있어서, A, B, C 및 D의 4개의 음원이 존재하고, 또한 각 음원의 배열순서가 A→B→C→D의 순서라고 하면, 해당 순서에 따라, 4개의 음원의 위치 정보에 대해 순서에 따라 샘플링하여 샘플링 위치 정보 a0, 샘플링 위치 정보 b0, 샘플링 위치 정보 c0, 샘플링 위치 정보 d0를 획득함으로써, 대응하는 조합 샘플링 위치 정보 0을 생성한다. 마찬가지로 하여, 각 샘플링 시점에서 같은 방식으로 샘플링하여 각 샘플링 시점 t0, t1등 각각에 대응하는 조합 샘플링 위치 정보 0, 조합 샘플링 위치 정보 1등을 획득할 수 있다. 마지막으로, 각 조합 샘플링 위치 정보와 대응하는 샘플링 순서에 따라 배열하는 것을 통하여 객체 오디오 보조 데이터를 획득할 수 있다.

해당 실시예에 있어서, 모든 음원의 모든 샘플링 시점에서의 위치 정보가 객체 오디오 보조 데이터에 기록되어 있다. 하지만, 음원이 계속 이동하는 것은 아니기 때문에 음원 위치 정보에 대해 차별화 기록을 실시하는 것을 통하여, 객체 오디오 보조 데이터의 데이터량을 줄일 수 있다. 해당 차별화 기록 방식에 관하여 이하의 실시형태를 이용하여 설명하도록 한다.

예시적인 다른 일 실시형태에 있어서, 객체 음향 신호를 조합하는 과정은,

소정의 샘플링 주기에 기반하여, 각 음원에 대응하는 위치 정보를 각각 샘플링 하는 단계를 포함할 수 있다.

여기서,

현재의 샘플링 포인트(sampling points)가 최초의 샘플링 시점일 경우, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하고,

현재의 샘플링 포인트가 최초의 샘플링 시점이 아닐 경우, 획득된 각 음원의 샘플링 위치 정보를 이미 기록된 동일 음원의 바로 전의 샘플링 위치 정보와 비교하고, 그 비교 결과가 서로 다른 경우, 당해 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록한다.

예를 들면, 도 8에 도시된 바와 같이, A, B, C 및 D의 4개의 음원이 존재하고, 또한 각 음원의 배열순서가 A→B→C→D의 순서라고 하면, 샘플링 시점 t0에 있어서, 샘플링 시점 t0이 최초의 샘플링 시점이기 때문에, 도 7에 도시된 실시형태에 따라서 4개의 음원의 위치 정보를 순서에 따라 샘플링하여 샘플링 위치 정보 a0, 샘플링 위치 정보 b0, 샘플링 위치 정보 c0 및 샘플링 위치 정보 d0로 구성되는 조합 샘플링 위치 정보 0을 획득한다.

t0 이외의 다른 샘플링 시점, 예를 들면 샘플링 시점 t1에 있어서, 4개의 음원의 위치 정보를 순서에 따라 샘플링하여 대응하는 샘플링 위치 정보 a1, 샘플링 위치 정보 b1, 샘플링 위치 정보 c1 및 샘플링 위치 정보 d1를 획득할 수 있지만, 만약 음원 A에 대응하는 샘플링 위치 정보 a1이 바로 전의 샘플링 위치 정보 a0과 같으면, 해당 샘플링 위치 정보 a1에 대하여서는 기록할 필요가 없다. 때문에, 만약 샘플링 위치 정보 a1이 샘플링 위치 정보 a0과 같고, 샘플링 위치 정보 d1이 샘플링 위치 정보 d0과 같지만, 샘플링 위치 정보 b1이 샘플링 위치 정보 b0과 다르고, 샘플링 위치 정보 c1이 샘플링 위치 정보 c0과 다르다면, 최종적으로, 샘플링 시점 t1에 대응하는 조합 샘플링 위치 정보 1에는 샘플링 위치 정보 b1과 샘플링 위치 정보 c1만 포함되게 된다.

단계 612에 있어서, 헤더 파일, 멀티 객체 오디오 데이터 및 객체 오디오 보조 데이터를 순서에 따라 접속하여 객체 오디오 포맷의 오디오 데이터를 획득한다.

본 실시예에 있어서, 도7 및 도 8에 도시된 바와 같이, 객체 오디오 포맷의 오디오 데이터는, 순서에 따라 접속되어 있는 헤더 파일, 멀티 객체 오디오 데이터 및 객체 오디오 보조 데이터를 포함한다. 해당 오디오 데이터를 재생 시, 헤더 파일로부터 해당 오디오 데이터의 기술자 및 파라미터를 독취하고, 멀티 객체 오디오 데이터로부터 각 샘플링 시점에 대응하는 조합 샘플링 신호를 순서에 따라 추출함과 동시에 객체 오디오 보조 데이터로부터 각 샘플링 시점에 대응하는 조합 샘플링 위치 정보를 순서에 따라 추출하는 것을 통하여, 해당하는 재생 조작을 실현할 수 있다.

단계 614에 있어서, 획득된 객체 오디오를 저장한다.

2. Low Delay Mode

단계 616에 있어서, 기설정 파라미터 및 각 프레임의 오디오 데이터의 시간 길이를 포함하는 헤더 파일 정보를 생성하여 소정의 오디오 처리 설비에 송신한다.

본 실시예에 있어서, 해당 헤더 파일은 해당 객체 오디오를 기술하기 위한 기설정 파라미터, 예를 들면 ID정보, 버전 번호등을 포함한다. 이 점은 File Packing Mode와 유사하다. 또한, 해당 헤더 파일은, 각 프레임의 오디오 데이터의 시간 길이를 더 포함한다는 점이 File Packing Mode와 다르다. 해당 실시예에서는, 각 프레임의 오디오 데이터의 시간 길이를 미리 정의 및 기록하는 것을 통하여, 객체 오디오를 생성하는 과정에 있어서, 해당 각 프레임의 오디오 데이터의 시간 길이를 단위로 하여 객체 오디오 전체를 몇개 부분으로 분할하고, 분할된 객체 오디오의 각 부분을 오디오 처리 설비에 송신하여, 해당 오디오 처리 설비를 이용하여 실시간으로 재생 또는 기억하는 것을 통하여, 로 지연(Low Delay), 높은 실시간성 등 특성을 발휘할 수 있다.

예시적인 일 실시예에 있어서, 해당 헤더 파일의 포맷 및 내용은 표 2에 도시된 바와 같다.

단계 618에 있어서, 파라미터 i를 이용하여 처리 완료된 프레임에 대해 카운트를 실시한다. 해당 파라미터 i의 초기값을 i=0으로 설정한다. 해당 단계 618에 진입하여, 모든 오디오 데이터가 이미 처리 완료 일 경우, 종료한다. 미처리의 오디오 데이터가 존재할 경우, 파라미터 i의 값에 1을 더한 후 단계 620을 진행한다.

이하의 단계 620 내지 단계 622에 있어서, 파라미터 i의 값에 대응하는 프레임내의 데이터에 대해서만 처리를 실시한다. 여기서, 그 처리 방식은 상술한 단계 608 내지 단계 610과 같기 때문에, 여기서 그 설명을 생략 하도록 한다.

단계 624에 있어서, 단계 620 및 단계 622에서 각각 획득한 일 프레임내의 멀티 객체 오디오 데이터 및 객체 오디오 보조 데이터를 접속하여 일 프레임의 객체 오디오를 획득한다. 그리고, 단계 618에 진입하여, 그 다음의 일 프레임에 대한 처리를 실시하고 나서, 단계 626에 진입하여 오디오 처리를 실시한다.

단계 626에 있어서, 생성된 일 프레임의 객체 오디오를 각각 오디오 처리 설비에 송신하여 실시간으로 재생 또는 기억한다.

상술한 실시예에 의해 획득된 객체 오디오의 구성은, 도 9에 도시된 바와 같이, 헤더부의 헤더 파일 이외의 부분은, 예를 들어 제일 프레임 p0, 제2 프레임 p1등 몇개의 프레임으로 분할되고, 또한 각 프레임은 대응하여 접속되어 있는 멀티 객체 오디오 데이터와 객체 오디오 보조 데이터를 포함한다. 이에 대응하여, 해당 오디오 데이터를 재생 시, 오디오 처리 설비는 헤더 파일로부터 해당 오디오 데이터에 대한 기술자 및 파라미터(각 프레임의 오디오 데이터의 시간 길이를 포함)를 독취하고, 수신된 각 프레임의 객체 오디오로부터 멀티 객체 오디오 데이터와 객체 오디오 보조 데이터를 순서에 따라 추출한 후, 멀티 객체 오디오 데이터로부터 각 샘플링 시점에 대응하는 조합 샘플링 신호를 순서에 따라 추출하고, 객체 오디오 보조 데이터로부터 각 샘플링시 점에 대응하는 조합 샘플링 위치 정보를 순서에 따라 추출하는 것을 통하여, 대응하는 재생 조작을 실현할 수 있다.

본 발명은 상술한 객체 오디오 녹음 방법에 따르는 실시예에 대응하여, 객체 오디오 녹음 장치에 따르는 실시예를 더 제공한다.

도10은 예시적인 일 실시예에 따르는 객체 오디오 녹음 장치의 블럭도이다. 해당 장치는, 도10에 도시된 바와 같이 채집 유닛(1001), 식별 유닛(1002), 추출 유닛(1003) 및 조합 유닛(1004)을 포함한다.

여기서, 채집 유닛(1001)은, 복수의 마이크로폰으로 동시에 음향 채집 조작을 실행하여 혼합 음향 신호를 획득하도록 구성되고,

처리 유닛(1002)은, 상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하도록 구성되고,

조합 유닛(1004)은, 각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하도록 구성된다.

도11은 예시적인 일 실시예에 따르는 또 하나의 객체 오디오 녹음 장치의 블럭도이다. 해당 실시예에서는, 상술한 도10에 도시된 실시예를 기초로 하여, 처리 유닛(1002)이 도11에 도시된 바와 같이 처리 서브 유닛(1002A)을 포함한다.

여기서, 처리 서브 유닛(1002A)은, 각 음원으로부터 출력되는 음향 신호가 각 마이크로폰 사이에서 형성하는 진폭차와 위상차에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하도록 구성된다.

도12는 예시적인 일 실시예에 따르는 또 하나의 객체 오디오 녹음 장치의 블럭도이다. 해당 실시예에서는, 상술한 도10에 도시된 실시예를 기초로 하여, 처리 유닛(1002)이 도12에 도시된 바와 같이 식별 서브 유닛(1002B)과 추출 서브 유닛(1002C)을 포함한다.

여기서, 식별 서브 유닛(1002B)은, 상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수 및 각 음원의 위치 정보를 식별하도록 구성되고,

추출 서브 유닛(1002C)은, 상기 혼합 음향 신호, 마이크로폰 각각의 설치 위치 정보, 그리고 상기 음원의 개수 및 상기 음원의 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 각 음원에 대응하는 객체 음향 신호를 추출하도록 구성된다.

여기서 설명해 두어야 할 점은, 상술한 도12에 도시된 장치의 실시예중의 식별 서브 유닛(1002B)과 추출 서브 유닛(1002C)의 구성은, 상술한 도11에 도시된 장치와 관련되는 실시예에도 포함될 수 있으며, 본 발명은 이에 대해 한정하지 않는다.

도13은 예시적인 일 실시예에 따르는 또 하나의 객체 오디오 녹음 장치의 블럭도이다. 해당 실시예에서는, 상술한 도12에 도시된 실시예를 기초로 하여, 추출 서브 유닛(1002C)이 도13에 도시된 바와 같이 모델 구축 모듈(1002C1)과 추출 모듈(1002C2)을 포함한다.

여기서, 모델 구축 모듈(1002C1)은, 각 음원으로부터 출력되는 음향 신호가 소정의 디멘션에서 형성하는 특징량에 기반하여, 대응하는 통계 모델을 구축하도록 구성되고,

추출 모듈(1002C2)은, 상기 통계 모델을 이용하여 상기 혼합 음향 신호로부터 어느 하나의 음원의 위치 정보를 만족하는 음향 신호를 식별 및 추출하여 상기 어느 하나의 음원에 대응하는 객체 음향 신호로 하도록 구성된다.

도14는 예시적인 일 실시예에 따르는 또 하나의 객체 오디오 녹음 장치의 블럭도이다. 해당 실시예에서는, 상술한 도10에 도시된 실시예를 기초로 하여, 조합 유닛(1003)이 도14에 도시된 바와 같이 신호 조합 서브 유닛(1003A), 위치 조합 서브 유닛(1003B) 및 제 1 접속 서브 유닛(1003C)을 포함한다.

여기서, 신호 조합 서브 유닛(1003A)은, 각 음원의 배열순서에 따라 해당하는 객체 음향 신호를 조합하여 멀티 객체 오디오 데이터를 획득하도록 구성되고,

위치 조합 서브 유닛(1003B)은, 상기 배열순서에 따라 각 음원의 위치 정보를 조합하여 객체 오디오 보조 데이터를 획득하도록 구성되고,

제 1 접속 서브 유닛(1003C)은, 기설정 파라미터를 포함하는 헤더 파일 정보, 상기 멀티 객체 오디오 데이터 및 상기 객체 오디오 보조 데이터를 순서에 따라 접속하여 상기 객체 오디오 포맷의 오디오 데이터를 획득하도록 구성된다.

여기서 설명해 두어야 할 점은, 상술한 도14에 도시된 장치의 실시예중의 신호 조합 서브 유닛(1003A), 위치 조합 서브 유닛(1003B) 및 제 1 접속 서브 유닛(1003C)의 구성은, 상술한 도11 내지 도13에 도시된 장치와 관련되는 실시예에도 포함될 수 있으며, 본 발명에서는 이에 대해 한정하지 않는다.

도15는 예시적인 일 실시예에 따르는 또 하나의 객체 오디오 녹음 장치의 블럭도이다. 해당 실시예에서는, 상술한 도10에 도시된 실시예를 기초로 하여, 조합 유닛(1003)이 도15에 도시된 바와 같이 헤더 파일 송신 서브 유닛(1003D), 신호 조합 서브 유닛(1003A), 위치 조합 서브 유닛(1003B), 제 2 접속 서브 유닛(1003E) 및 오디오 데이터 송신 서브 유닛(1003F)을 포함한다.

헤더 파일 송신 서브 유닛(1003D)은, 기설정 파라미터를 포함하는 헤더 파일 정보를 생성하여 소정의 오디오 처리 설비에 송신하도록 구성된다. 여기서, 상기 헤더 파일 정보는 각 프레임의 오디오 데이터의 시간 길이를 포함함으로써, 신호 조합 서브 유닛, 위치 조합 서브 유닛 및 접속 서브 유닛이 상기 각 프레임의 오디오 데이터의 시간 길이를 만족하는 각 프레임의 객체 오디오 포맷의 오디오 데이터를 생성할 수 있도록 한다.

신호 조합 서브 유닛(1003A)은, 각 음원의 배열순서에 따라 해당하는 객체 음향 신호를 조합하여 멀티 객체 오디오 데이터를 획득하도록 구성된다.

위치 조합 서브 유닛(1003B)은, 상기 배열순서에 따라 각 음원의 위치 정보를 조합하여 객체 오디오 보조 데이터를 획득하도록 구성된다.

제 2 접속 서브 유닛(1003E)은, 상기 멀티 객체 오디오 데이터와 상기 객체 오디오 보조 데이터를 순서에 따라 접속하여 각 프레임의 객체 오디오 포맷의 오디오 데이터를 획득하도록 구성된다.

오디오 데이터 송신 서브 유닛(1003F)은, 각 프레임의 객체 오디오 포맷의 오디오 데이터를 상기 소정의 오디오 처리 설비에 순서에 따라 송신하도록 구성된다.

여기서 설명해 두어야 할 점은, 상술한 도14에 도시된 장치의 실시예중의 헤더 파일 송신 서브 유닛(1003D), 신호 조합 서브 유닛(1003A), 위치 조합 서브 유닛(1003B), 제 2 접속 서브 유닛(1003E) 및 오디오 데이터 송신 서브 유닛(1003F)의 구성은, 상술한 도11 내지 도13에 도시된 장치와 관련되는 실시예에도 포함될 수 있으며, 본 발명에서는 이에 대해 한정하지 않는다.

도16은 예시적인 일 실시예에 따르는 또 하나의 객체 오디오 녹음 장치의 블럭도이다. 해당 실시예에서는, 상술한 도14또는 도15에 도시된 실시예를 기초로 하여, 신호 조합 서브 유닛(1003A)이 도16에 도시된 바와 같이 신호 샘플링 모듈(1003A1)과 신호 배열 모듈(1003A2)을 포함한다.

여기서,

신호 샘플링 모듈(1003A1)은, 소정의 샘플링 주기에 기반하여, 각 샘플링 시점 마다, 각 음원에 대응하는 객체 음향 신호를 각각 샘플링하여, 상기 배열순서에 따라 모든 샘플링 신호를 배열하는 것을 통하여 조합 샘플링 신호를 획득하도록 구성되고,

신호 배열 모듈(1003A2)은, 샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 신호를 순서에 따라 배열하는 것을 통하여 상기 멀티 객체 오디오 데이터를 획득하도록 구성된다.

도17은 예시적인 일 실시예에 따르는 또 하나의 객체 오디오 녹음 장치의 블럭도이다. 해당 실시예에서는, 상술한 도14 또는 도15에 도시된 실시예를 기초로 하여, 위치 조합 서브 유닛(1003B)이 도17에 도시된 바와 같이 제1 위치 기록 모듈(1003B1) 및 위치 배열 모듈(1003B2)을 포함한다.

여기서, 제1 위치 기록 모듈(1003B1)은, 소정의 샘플링 주기에 기반하여, 각 샘플링 시점 마다, 각 음원에 대응하는 위치 정보를 각각 샘플링하여, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하는 것을 통하여 조합 샘플링 위치 정보를 획득하도록 구성되고,

위치 배열 모듈(1003B2)은, 샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 위치 정보를 순서에 따라 배열하는 것을 통하여 상기 객체 오디오 보조 데이터를 획득하도록 구성된다.

도18은 예시적인 일 실시예에 따르는 또 하나의 객체 오디오 녹음 장치의 블럭도이다. 해당 실시예에서는, 상술한 도14 또는 도15에 도시된 실시예를 기초로 하여, 위치 조합 서브 유닛(1003B)이 도18에 도시된 바와 같이 위치 샘플링 모듈(1003B3) 및 제2 위치 기록 모듈(1003B4)을 포함한다.

여기서, 위치 샘플링 모듈(1003B3)은, 소정의 샘플링 주기에 기반하여, 각 음원에 대응하는 위치 정보를 각각 샘플링 하도록 구성되고,

제2 위치 기록 모듈(1003B4)은, 현재의 샘플링 포인트가 최초의 샘플링 시점일 경우, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하고, 현재의 샘플링 포인트가 최초의 샘플링 시점이 아닐 경우, 획득된 각 음원의 샘플링 위치 정보를 이미 기록된 동일 음원의 바로 전의 샘플링 위치 정보와 비교하고, 그 비교 결과가 서로 다른 경우, 당해 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하게끔 구성된다.

상술한 실시예에 따르는 장치에 있어서, 각 모듈이 동작을 실행하는 구체적인 형태에 관하여서는, 그에 해당하는 방법 실시예에 대하여 이미 상세한 설명을 진행하였기에, 여기서 그 상세한 설명을 생략하기로 한다.

장치 실시예인 경우, 방법 실시예와 거의 대응되기 때문에, 그 관련되는 내용에 관하여서는 방법 실시예의 내용을 참조할 수 있다. 이상에 기재된 장치 실시예는 단지 예시적인 것으로써, 분리 가능한 부재로 설명하고 있는 유닛은 물리적으로 분리 가능 또는 분리 불가능한 것일 수도 있다. 유닛으로 보여주는 부재는 물리적인 유닛일 수도 아닐 수도 있다. 즉, 한 위치에 위치할 수도 있고, 복수의 네트워크 유닛에 할당될 수도 있다. 실제 요구에 따라 그 중의 일부 또는 전부의 모듈을 선택하여 본 발명의 목적을 실현할 수 있다. 당업자라면 창조적인 노동을 거치지 않고서도 이해 및 실시할 수 있을 것이다.

이에 대응하여, 본 발명은,

객체 오디오 녹음 장치에 있어서,

프로세서와,

를 포함하고,

상기 프로세서는,

각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하도록 구성되는 장치를 더 제공한다.

이에 대응하여, 본 발명은,

메모리와,

상기 메모리에 기억되는 1개 또는 1개이상의 프로그램

을 포함하고,

상기 1개 또는 1개 이상의 프로그램은,

1개 또는 1개 이상의 프로세서에 의해 실행되도록 구성되고,

각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하는 조작을 진행하기 위한 인스트럭션을 포함하는 단말기를 더 제공한다.

도19는 예시적인 일 실시예에 따르는 객체 오디오 녹음 장치(1900)의 블럭도이다. 예를 들면, 장치(1900)는 휴대 전화, 컴퓨터, 디지털 방송 단말, 메시지 송수신기, 게임기, 태블릿 디바이스, 의료기기, 피트니스 설비, PDA(Personal Digital Assistant) 등일 수 있다.

도19에 도시된 바와 같이, 장치(1900)는, 처리 어셈블리(1902), 메모리(1904), 전원 어셈블리(1906), 멀티미디어 어셈블리(1908), 오디오 어셈블리(1910), 입력/출력(I/O) 인터페이스(1912), 센서 어셈블리(1914) 및 통신 어셈블리(1916) 중의 적어도 하나 이상을 포함할 수 있다..

처리 어셈블리(1902)는 일반적으로 장치(1900)의 전반 조작 예를 들어 표시, 전화 호출, 데이터 통신, 카메라 조작 및 기록 조작에 관련된 조작을 제어할 수 있다. 처리 어셈블리(1902)는 적어도 하나 이상의 프로세서(1920)를 포함하여 인스트럭션을 실행함으로써 상기 방법의 일부 또는 전부 단계를 완성할 수 있다. 또한, 처리 어셈블리(1902)는, 다른 어셈블리와의 인터랙션의 편의상, 적어도 하나 이상의 모듈을 포함할 수 있다. 예를 들면, 처리 어셈블리(1902)는 멀티미디어 어셈블리(19019)와의 인터랙션의 편리를 도모하기 위하여 멀티미디어 모듈을 포함할 수 있다.

메모리(1904)는 장치(1900)의 조작을 지원하기 위하여 각종 데이터를 기억하도록 구성된다. 이러한 데이터는 예를 들어 장치(1900)에 있어서 작동하는 어느 하나의 어플리케이션 또는 방법에 관한 인스트럭션, 연락처 데이터, 전화 번호부 데이터, 메시지, 사진, 동영상등을 포함할 수 있다. 메모리(1904)는 임의의 유형의 휘발성 또는 비휘발성 메모리 예를 들어 SRAM(Static Random Access Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), EPROM(Erasable Programmable Read Only Memory), PROM(Programmable ROM), ROM(Read Only Member), 자기 메모리, 플래쉬 메모리, 자기 디스크 또는 광 디스크 또는 이들의 조합에 의해 실현될 수 있다.

전원 어셈블리(1906)는 장치(1900)의 각 어셈블리에 전력을 공급하기 위한 것이며, 전원 관리 시스템, 적어도 하나 이상의 전원 및 장치(1900)를 위한 전력의 생성, 관리 및 분배에 관련되는 다른 기타 어셈블리를 포함할 수 있다.

멀티미디어 어셈블리(1908)는 장치(1900)와 유저 사이에 출력 인터페이스를 제공하기 위한 스크린을 포함할 수 있다. 일부 실시예에 있어서, 스크린은 액정 디스플레이(LCD) 또는 터치 패널(TP)을 포함할 수 있다. 스크린은, 터치 패널을 포함할 경우, 유저로부터의 입력 신호를 수신할 수 있는 터치 스크린의 형식으로 실현될 수 있다. 또한, 터치 패널은 터치, 슬라이딩 및 터치 패널위에서의 제스처(gesture)를 감지하도록 적어도 하나의 터치 센서를 포함할 수 있다. 상기 터치 센서는 터치나 슬라이딩 동작의 경계위치를 감지할 수 있을 뿐만 아니라, 터치나 슬라이딩 조작에 관련되는 지속 시간이나 압력도 감지할 수 있다. 일부 실시예에 있어서, 멀티미디어 어셈블리(1908)는 프론트 카메라 및/또는 리어 카메라를 포함할 수 있다. 장치(1900)가 예를 들어 촬영 모드나 동영상 모드와 같은 조작 모드에 설정되는 경우, 프론트 카메라 및/또는 리어 카메라는 외부로부터의 멀티미디어 데이터를 수신할 수 있다. 프론트 카메라 및 리어 카메라는 각각 고정된 광학 렌즈 시스템을 구비할 수 있고, 가변 초첨 거리 및 광학 줌 기능을 구비할 수 있다.

오디오 어셈블리(1910)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들면, 오디오 어셈블리(1910)는 마이크(MIC)를 포함할 수 있다. 장치(1900)가 예를 들어 호출 모드, 기록 모드 또는 음성인식 모드와 같은 조작 모드에 설정되어 있는 경우, 마이크는 외부의 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(1904)에 기억되거나 또는 통신 어셈블리(1916)를 통하여 송신될 수 있다. 일부 실시예에 있어서, 오디오 어셈블리(1910)는 오디오 신호를 출력하기 위한 스피커를 더 포함할 수 있다.

I/O인터페이스(1912)는 처리 어셈블리(1902)와 주변 인터페이스 모듈 사이에 인터페이스를 제공하기 위한 것이다. 상기 주변 인터페이스 모듈은 키보드, 클릭 휠, 버튼등일 수 있다. 이러한 버튼은 홈 버튼, 음량 버튼, 시작 버튼, 잠금 버튼일 수 있지만, 이에 한정되지는 않는다.

센서 어셈블리(1914) 는 장치(1900)를 위하여 각 방면의 상태 평가를 제공하기 위한 적어도 하나 이상의 센서를 포함할 수 있다. 예를 들면, 센서 어셈블리(1914)는 장치(1900)의 온/오프 상태나 또는 어셈블리의 상대적인 위치를 검출할 수 있다. 예를 들면, 상기 어셈블리가 장치(1900)의 디스플레이 및 키패드인 경우, 센서 어셈블리(1914) 는 장치(1900) 또는 장치(1900)의 일 어셈블리의 위치 변화, 유저와 장치(1900) 사이의 접촉의 유무, 장치(1900)의 방위 또는 가속/감속, 또는 장치(1900)의 온도 변화를 검출할 수 있다. 센서 어셈블리(1914) 는 아무 물리적 접촉도 없는 상황에서 부근의 물체의 유무를 검출할 수 있도록 구성되는 근접 센서를 포함할 수 있다. 센서 어셈블리(1914) 는 화상 표시 기술 분야에 이용되는 광 센서 예를 들어 CMOS 또는 CCD 이미지 센서를 더 포함할 수 있다. 일부 실시예에 있어서, 해당 센서 어셈블리(1914) 는 가속도 센서, 자이로 스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.

통신 어셈블리(1916)는 장치(1900)와 기타 다른 설비 사이의 무선 또는 유선 통신이 편리하도록 구성된다. 장치(1900)는 통신 표준에 기반하는 무선 네트워크 예를 들어 WiFi, 2G 또는 3G 또는 이들의 조합에 액세스할 수 있다. 예시적인 일 실시예에 있어서, 통신 어셈블리(1916)는 브로드캐스트 채널을 통하여 외부의 브로드캐스트 관리 시스템으로부터의 브로드캐스트 신호 또는 브로드캐스트에 관한 정보를 수신할 수 있다. 예시적인 일 실시예에 있어서, 상기 통신 어셈블리(1916)는 근거리 통신을 촉진하기 위한 근거리 무선 통신(NFC) 모듈을 포함할 수 있다. NFC 모듈은, 예를 들어 RFID(Radio Frequency IDentification) 기술, IrDA(Infrared Data Association) 기술, UWB(Ultra Wide Band) 기술, BT(Bluetooth) 기술 및 기타 다른 기술에 의해 실현될 수도 있다.

예시적인 실시예에 있어서, 장치(1900)는 상술한 방법을 실행하기 위하여 적어도 하나 이상의ASIC( Application Specific Integrated Circuit), DSP( Digital Signal Processor) , DSPD( Digital Signal Processing Device), PLD(Programmable Logic Device), FPGA(Field-Programmable Gate Array), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서, 또는 기타 전자 소자에 의해 실현될 수 있다.

예시적인 실시예에 있어서, 장치(1900)의 프로세서(1920)에 의해 실행되는 것을 통하여 상술한 방법을 실현할 수 있는 인스트럭션이 기억되고 또한 컴퓨터가 판독 가능한 비휘발성 기록 매체, 예를 들어 인스트럭션이 기억되어 있는 메모리(1904)를 더 제공한다. 상기 컴퓨터가 판독 가능한 비휘발성 기록 매체는, 예를 들어 ROM, RAM, CD-ROM, 자기 테이프, 플로피(등록상표) 디스크 및 광 데이터 메모리등일 수 있다.

당업자라면, 본 출원의 명세서를 참조하고 또한 본 출원의 명세서에 공개된 발명을 실시하는 것을 통하여, 본 발명의 기타 다른 실시형태를 용이하게 획득할 수 있을 것이다. 본 출원은, 본 발명의 일반적인 원리에 따르며 또한 본 출원의 명세서에 공개되지 않은 본 기술 분야의 공지상식 또는 통상의 기술 수단을 포함하는 본 발명에 대한 임의의 변형, 용도 또는 적응적인 변경을 포함하는 것을 취지로 한다. 명세서 및 실시예는 단지 예시적인 것에 지나지 않고, 본 발명의 진정한 범위 및 취지는 첨부되는 특허 청구의 범위에 의하여 한정된다.

또한, 본 발명은, 상술한 설명 및 도면에 의해 구현되는 정확한 구성에 한정되지 않으며, 그 범위를 이탈하지 않는 범위에서의 다양한 보정 및 변경을 실시할 수 있는 것을 이해하여야 한다. 본 발명의 범위는 첨부되는 특허 청구의 범위에 의하여서만 한정된다.

Claims

객체 오디오 녹음 방법에 있어서,
복수의 마이크로폰으로 동시에 음향 채집 조작을 실행하여 혼합 음향 신호를 획득하는 단계와,
상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하는 단계와,
상기 각 음원의 위치 정보와 상기 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하는 단계
를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하는 단계는,
각 음원으로부터 출력되는 음향 신호가 각 마이크로폰 사이에서 형성하는 진폭차와 위상차에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하는 단계
를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하는 단계는,
상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수 및 각 음원의 위치 정보를 식별하는 단계와,
상기 혼합 음향 신호, 마이크로폰 각각의 설치 위치 정보, 그리고 상기 음원의 개수 및 상기 음원의 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 각 음원에 대응하는 객체 음향 신호를 추출하는 단계
를 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,
상기 혼합 음향 신호, 마이크로폰 각각의 설치 위치 정보, 그리고 상기 음원의 개수 및 상기 음원의 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 각 음원에 대응하는 객체 음향 신호를 추출하는 단계는,
각 음원으로부터 출력되는 음향 신호가 소정의 디멘션에서 형성하는 특징량에 기반하여, 대응하는 통계 모델을 구축하는 단계와,
상기 통계 모델을 이용하여 상기 혼합 음향 신호로부터 어느 하나의 음원의 위치 정보를 만족하는 음향 신호를 식별 및 추출하여 상기 어느 하나의 음원에 대응하는 객체 음향 신호로 하는 단계
를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하는 단계는,
각 음원의 배열순서에 따라 해당하는 객체 음향 신호를 조합하여 멀티 객체 오디오 데이터를 획득하는 단계와,
상기 배열순서에 따라 각 음원의 위치 정보를 조합하여 객체 오디오 보조 데이터를 획득하는 단계와,
기설정 파라미터를 포함하는 헤더 파일 정보, 상기 멀티 객체 오디오 데이터 및 상기 객체 오디오 보조 데이터를 순서에 따라 접속하여 상기 객체 오디오 포맷의 오디오 데이터를 획득하는 단계
를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하는 단계는,
기설정 파라미터 및 각 프레임의 오디오 데이터의 시간 길이를 포함하는 헤더 파일 정보를 생성하여 소정의 오디오 처리 설비에 송신하는 단계와,
상기 각 프레임의 오디오 데이터의 시간 길이를 만족하는 각 프레임의 객체 오디오 포맷의 오디오 데이터를 생성하여, 각 프레임의 객체 오디오 포맷의 오디오 데이터를 상기 소정의 오디오 처리 설비에 순서에 따라 송신하는 단계
를 포함하고,
상기 각 프레임의 오디오 데이터의 시간 길이를 만족하는 각 프레임의 객체 오디오 포맷의 오디오 데이터를 생성하는 단계는,
각 음원의 배열순서에 따라 해당하는 객체 음향 신호를 조합하여 멀티 객체 오디오 데이터를 획득하는 단계와,
상기 배열순서에 따라 각 음원의 위치 정보를 조합하여 객체 오디오 보조 데이터를 획득하는 단계와,
상기 멀티 객체 오디오 데이터와 상기 객체 오디오 보조 데이터를 순서에 따라 접속하여 각 프레임의 객체 오디오 포맷의 오디오 데이터를 획득하는 단계
를 포함하는 것을 특징으로 하는 방법.
제5항 또는 제6항에 있어서,
각 음원의 배열순서에 따라 해당하는 객체 음향 신호를 조합하여 멀티 객체 오디오 데이터를 획득하는 단계는,
소정의 샘플링 주기에 기반하여, 각 샘플링 시점 마다, 각 음원에 대응하는 객체 음향 신호를 각각 샘플링하여, 상기 배열순서에 따라 모든 샘플링 신호를 배열하는 것을 통하여 조합 샘플링 신호를 획득하는 단계와,
샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 신호를 순서에 따라 배열하는 것을 통하여 상기 멀티 객체 오디오 데이터를 획득하는 단계
를 포함하는 것을 특징으로 하는 방법.
제5항 또는 제6항에 있어서,
상기 배열순서에 따라 각 음원의 위치 정보를 조합하여 객체 오디오 보조 데이터를 획득하는 단계는,
소정의 샘플링 주기에 기반하여, 각 샘플링 시점 마다, 각 음원에 대응하는 위치 정보를 각각 샘플링하여, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하는 것을 통하여 조합 샘플링 위치 정보를 획득하는 단계와,
샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 위치 정보를 순서에 따라 배열하는 것을 통하여 상기 객체 오디오 보조 데이터를 획득하는 단계
를 포함하는 것을 특징으로 하는 방법.
제5항 또는 제6항에 있어서,
상기 배열순서에 따라 각 음원의 위치 정보를 조합하여 객체 오디오 보조 데이터를 획득하는 단계는,
소정의 샘플링 주기에 기반하여, 각 음원에 대응하는 위치 정보를 각각 샘플링 하는 단계를 포함하되,
현재의 샘플링 포인트가 최초의 샘플링 시점일 경우, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하고,
현재의 샘플링 포인트가 최초의 샘플링 시점이 아닐 경우, 획득된 각 음원의 샘플링 위치 정보를 이미 기록된 동일 음원의 바로 전의 샘플링 위치 정보와 비교하고, 그 비교 결과가 서로 다른 경우, 당해 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하는것을 특징으로 하는 방법.
객체 오디오 녹음 장치에 있어서,
복수의 마이크로폰으로 동시에 음향 채집 조작을 실행하여 혼합 음향 신호를 획득하기 위한 채집 유닛과,
상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하기 위한 처리 유닛과,
각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하기 위한 조합 유닛
을 포함하는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 처리 유닛은,
각 음원으로부터 출력되는 음향 신호가 각 마이크로폰 사이에서 형성하는 진폭차와 위상차에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수와 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하기 위한 처리 서브 유닛
을 포함하는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 처리 유닛은,
상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수 및 각 음원의 위치 정보를 식별하기 위한 식별 서브 유닛과,
상기 혼합 음향 신호, 마이크로폰 각각의 설치 위치 정보, 그리고 상기 음원의 개수 및 상기 음원의 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 각 음원에 대응하는 객체 음향 신호를 추출하기 위한 추출 서브 유닛
을 포함하는 것을 특징으로 하는 장치.
제12항에 있어서,
상기 추출 서브 유닛은,
각 음원으로부터 출력되는 음향 신호가 소정의 디멘션에서 형성하는 특징량에 기반하여, 대응하는 통계 모델을 구축하기 위한 모델 구축 모듈과,
상기 통계 모델을 이용하여 상기 혼합 음향 신호로부터 어느 하나의 음원의 위치 정보를 만족하는 음향 신호를 식별 및 추출하여 상기 어느 하나의 음원에 대응하는 객체 음향 신호로 하기 위한 추출 모듈
을 포함하는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 조합 유닛은,
각 음원의 배열순서에 따라 해당하는 객체 음향 신호를 조합하여 멀티 객체 오디오 데이터를 획득하기 위한 신호 조합 서브 유닛과,
상기 배열순서에 따라 각 음원의 위치 정보를 조합하여 객체 오디오 보조 데이터를 획득하기 위한 위치 조합 서브 유닛과,
기설정 파라미터를 포함하는 헤더 파일 정보, 상기 멀티 객체 오디오 데이터 및 상기 객체 오디오 보조 데이터를 순서에 따라 접속하여 상기 객체 오디오 포맷의 오디오 데이터를 획득하기 위한 제 1 접속 서브 유닛
을 포함하는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 조합 유닛은,
기설정 파라미터를 포함하고, 또한 신호 조합 서브 유닛, 위치 조합 서브 유닛 및 접속 서브 유닛이 상기 각 프레임의 오디오 데이터의 시간 길이를 만족하는 각 프레임의 객체 오디오 포맷의 오디오 데이터를 생성할 수 있도록 하기 위하여 각 프레임의 오디오 데이터의 시간 길이를 포함하는 헤더 파일 정보를 생성하여 소정의 오디오 처리 설비에 송신하기 위한 헤더 파일 송신 서브 유닛과,
각 음원의 배열순서에 따라 해당하는 객체 음향 신호를 조합하여 멀티 객체 오디오 데이터를 획득하기 위한 신호 조합 서브 유닛과,
상기 배열순서에 따라 각 음원의 위치 정보를 조합하여 객체 오디오 보조 데이터를 획득하기 위한 위치 조합 서브 유닛과,
상기 멀티 객체 오디오 데이터와 상기 객체 오디오 보조 데이터를 순서에 따라 접속하여 각 프레임의 객체 오디오 포맷의 오디오 데이터를 획득하기 위한 제 2 접속 서브 유닛과,
각 프레임의 객체 오디오 포맷의 오디오 데이터를 상기 소정의 오디오 처리 설비에 순서에 따라 송신하기 위한 오디오 데이터 송신 서브 유닛
을 포함하는 것을 특징으로 하는 장치.
제14항 또는 제15항에 있어서,
상기 신호 조합 서브 유닛은,
소정의 샘플링 주기에 기반하여, 각 샘플링 시점 마다, 각 음원에 대응하는 객체 음향 신호를 각각 샘플링하여, 상기 배열순서에 따라 모든 샘플링 신호를 배열하는 것을 통하여 조합 샘플링 신호를 획득하기 위한 신호 샘플링 모듈과,
샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 신호를 순서에 따라 배열하는 것을 통하여 상기 멀티 객체 오디오 데이터를 획득하기 위한 신호 배열 모듈
을 포함하는 것을 특징으로 하는 장치.
제14항 또는 제15항에 있어서,
상기 위치 조합 서브 유닛은,
소정의 샘플링 주기에 기반하여, 각 샘플링 시점 마다, 각 음원에 대응하는 위치 정보를 각각 샘플링하여, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하는 것을 통하여 조합 샘플링 위치 정보를 획득하기 위한 제 1 위치 기록 모듈과,
샘플링 순서에 따라, 각 샘플링 시점에서 획득한 조합 샘플링 위치 정보를 순서에 따라 배열하는 것을 통하여 상기 객체 오디오 보조 데이터를 획득하기 위한 위치 배열 모듈
을 포함하는 것을 특징으로 하는 장치.
제14항 또는 제15항에 있어서,
상기 위치 조합 서브 유닛은,
소정의 샘플링 주기에 기반하여, 각 음원에 대응하는 위치 정보를 각각 샘플링하기 위한 위치 샘플링 모듈과,
현재의 샘플링 포인트가 최초의 샘플링 시점일 경우, 획득된 각 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하고, 현재의 샘플링 포인트가 최초의 샘플링 시점이 아닐 경우, 획득된 각 음원의 샘플링 위치 정보를 이미 기록된 동일 음원의 바로 전의 샘플링 위치 정보와 비교하고, 그 비교 결과가 서로 다른 경우, 당해 샘플링 위치 정보를 그에 대응하는 음원 정보 및 샘플링 시점 정보와 관련되도록 기록하기 위한 제 2 위치 기록 모듈
을 포함하는 것을 특징으로 하는 장치.
프로세서와,
상기 프로세서에 의해 실행 가능한 인스트럭션을 기억하기 위한 메모리
를 구비하고,
상기 프로세서는,
복수의 마이크로폰으로 동시에 음향 채집 조작을 실행하여 혼합 음향 신호를 획득하고,
상기 혼합 음향 신호 및 마이크로폰 각각의 설치 위치 정보에 기반하여, 상기 혼합 음향 신호로부터 음원의 개수, 각 음원의 위치 정보를 식별하여 각 음원에 대응하는 객체 음향 신호를 추출하고,
각 음원의 위치 정보와 객체 음향 신호를 조합하여 객체 오디오 포맷의 오디오 데이터를 획득하도록 구성되는 것을 특징으로 하는 전자기기.