KR20190091825A

KR20190091825A - 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치

Info

Publication number: KR20190091825A
Application number: KR1020180010877A
Authority: KR
Inventors: 김동준
Original assignee: 김동준
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2019-08-07
Also published as: WO2019147040A1; KR102119240B1

Abstract

스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치가 개시된다. 본 발명의 일실시예에 따른 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법은 스테레오 신호에서 분리된 고음 영역 및 저음 영역을 기반으로 바이노럴 인코딩을 수행하여 바이노럴 출력을 생성하는 단계; 상기 스테레오 신호에서 분리된 중음 영역을 기반으로 스테레오 와이드 프로세싱을 수행하여 와이드 스테레오 출력을 생성하는 단계; 및 상기 스테레오 신호, 상기 바이노럴 출력 및 상기 와이드 스테레오 출력을 합하여 업 믹스 스테레오 출력을 생성하는 단계를 포함한다.

Description

스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치 {METHOD FOR UP-MIXING STEREO AUDIO TO BINAURAL AUDIO AND APPARATUS USING THE SAME}

본 발명은 스테레오 오디오를 바이노럴 오디오로 업 믹싱하는 기술에 관한 것으로, 특히 고음과 저음을 이용한 바이노럴 출력과 중음을 이용한 와이드 스테레오 출력을 합쳐서 스테레오 오디오를 업 믹싱하는 기술에 관한 것이다.

멀티미디어 기술이 향상되면서, 5.1 채널보다 많은 7.1 채널, 10.2 채널, 11.1 채널, 22.2 채널 등의 다채널 오디오 신호를 포함하는 컨텐츠의 사용이 증가하고 있다. 그러나, 컨텐츠를 이용하는 사용자들이 소지하고 있는 사용자 단말들은 대체로 스테레오 스피커나 헤드폰, 이어폰과 같이 스테레오 형태의 오디오 신호를 재생할 수 있기 때문에 고품질의 다채널 오디오 신호는 스테레오 형태의 오디오 신호로 변환될 필요가 있다.

한국 공개 특허 제10-2015-0013073호, 2015년 2월 4일 공개(명칭: 다채널 오디오 신호의 바이노럴 렌더링 방법 및 장치)

본 발명의 목적은 이머시브(immersive)을 수행하지 않고도 기존 스테레오 파일을 이머시브로 업 믹스하는 방법을 제공하는 것이다.

또한, 본 발명의 목적은 스테레오 파일을 이머시브 파일로 믹스하는데 필요한 시간과 비용을 절감하는 것이다.

또한, 본 발명의 목적은 자연스러운 업 믹스를 기반으로 다양한 종류의 컨텐츠들과의 호환성을 향상시키는 것이다.

상기한 목적을 달성하기 위한 본 발명에 따른 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법은 스테레오 신호에서 분리된 고음 영역 및 저음 영역을 기반으로 바이노럴 인코딩을 수행하여 바이노럴 출력을 생성하는 단계; 상기 스테레오 신호에서 분리된 중음 영역을 기반으로 스테레오 와이드 프로세싱을 수행하여 와이드 스테레오 출력을 생성하는 단계; 및 상기 스테레오 신호, 상기 바이노럴 출력 및 상기 와이드 스테레오 출력을 합하여 업 믹스 스테레오 출력을 생성하는 단계를 포함한다.

이 때, 바이노럴 출력은 4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic)에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성되되, 상기 4개의 업 채널들의 위치는 상기 고음 영역을 기반으로 설정되고, 상기 4개의 다운채널들의 위치는 상기 저음 영역을 기반으로 설정될 수 있다.

이 때, 4개의 업 채널들의 위치는 상기 고음 영역에서 트랜션트(Transient)의 크기를 기준으로 검출된 어느 하나의 고음 주파수를 이용하여 설정되고, 상기 4개의 다운채널들의 위치는 상기 저음 영역에서 트랜션트(Transient)의 크기를 기준으로 검출된 어느 하나의 저음 주파수를 이용하여 설정될 수 있다.

이 때, 4개의 업 채널들로 구성되는 3차원 큐빅의 상위 레이어와 상기 4개의 다운채널들로 구성되는 3차원 큐빅의 하위 레이어 사이의 거리는 상기 스테레오 신호의 이퀄라이저 값을 기반으로 설정될 수 있다.

이 때, 와이드 스테레오 출력은 상기 중음 영역에 상응하는 와이드 스테레오 레이어를 기반으로 생성되되, 상기 와이드 스테레오 레이어는 리버브 값과 딜레이 값에 상응하게 이미지 공간이 확장된 스테레오 레이어에 상응할 수 있다.

이 때, 3차원 벡터는 상기 3차원 큐빅의 내부에 위치하는 기준 청취점을 기준으로 생성될 수 있다.

이 때, 바이노럴 출력을 생성하는 단계는 상기 3차원 벡터의 방향 정보를 헤드 트래킹 정보에 상응하게 회전된 상기 3차원 큐빅에 적용하여 상기 바이노럴 출력을 생성할 수 있다.

이 때, 3차원 큐빅은 팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나의 회전 파라미터에 상응하게 회전될 수 있다.

이 때, 바이노럴 출력은 상기 상위 레이어의 기본 주파수를 기준으로 하는 하모닉스를 포함할 수 있다.

이 때, 업 믹스하는 방법은 상기 스테레오 신호를 고음 패스 필터, 중음 패스 필터 및 저음 패스 필터로 각각 입력하여, 상기 스테레오 신호를 상기 고음 영역, 상기 중음 영역 및 상기 저음 영역으로 분리하는 단계를 더 포함할 수 있다.

또한, 본 발명의 일실시예에 따른 업 믹스 장치는, 스테레오 신호에서 분리된 고음 영역 및 저음 영역을 기반으로 바이노럴 인코딩을 수행하여 바이노럴 출력을 생성하고, 상기 스테레오 신호에서 분리된 중음 영역을 기반으로 스테레오 와이드 프로세싱을 수행하여 와이드 스테레오 출력을 생성하고, 상기 스테레오 신호, 상기 바이노럴 출력 및 상기 와이드 스테레오 출력을 합하여 업 믹스 스테레오 출력을 생성하는 프로세서; 및 상기 스테레오 신호, 상기 바이노럴 출력 및 상기 와이드 스테레오 출력을 저장하는 메모리를 포함한다.

이 때, 프로세서는 상기 3차원 벡터의 방향 정보를 헤드 트래킹 정보에 상응하게 회전된 상기 3차원 큐빅에 적용하여 상기 바이노럴 출력을 생성할 수 있다.

이 때, 프로세서는 상기 스테레오 신호를 고음 패스 필터, 중음 패스 필터 및 저음 패스 필터로 각각 입력하여, 상기 스테레오 신호를 상기 고음 영역, 상기 중음 영역 및 상기 저음 영역으로 분리할 수 있다.

본 발명에 따르면, 이머시브(immersive)을 수행하지 않고도 기존 스테레오 파일을 이머시브로 업 믹스하는 방법을 제공할 수 있다.

또한, 본 발명은 스테레오 파일을 이머시브 파일로 믹스하는데 필요한 시간과 비용을 절감할 수 있다.

또한, 본 발명은 자연스러운 업 믹스를 기반으로 다양한 종류의 컨텐츠들과의 호환성을 향상시킬 수 있다.

도 1은 본 발명의 일실시예에 따른 스테레오 오디오 업 믹스 구조를 나타낸 도면이다.
도 2는 본 발명의 일실시예에 따른 업 믹스 장치를 나타낸 블록도이다.
도 3 내지 도 5는 본 발명에 따른 스테레오 신호의 고음 영역, 중음 영역, 저음 영역을 분리하는 필터의 일 예를 나타낸 도면이다.
도 6은 본 발명의 일실시예에 따른 바이노럴 출력을 생성하는 상세한 구조를 나타낸 도면이다.
도 7은 본 발명에 따른 8채널 기반의 3차원 큐빅(Cubic)에서 상위 레이어와 하위 레이어의 일 예를 나타낸 도면이다.
도 8은 본 발명에 따른 스테레오 오디오 업 믹스 효과의 일 예를 개념적으로 나타낸 도면이다.
도 9는 본 발명에 따른 3차원 큐빅에서 상면 레이어와 하면 레이어 간의 거리를 나타낸 도면이다.
도 10은 본 발명에 따른 3차원 벡터의 일 예를 나타낸 도면이다.
도 11은 본 발명에 따른 헤드 트래킹 정보에 상응하게 회전된 3차원 큐빅에 3차원 벡터의 방향 정보를 적용한 일 예를 나타낸 도면이다.
도 12는 본 발명에 따른 회전 파라미터의 일 예를 나타낸 도면이다.
도 13은 본 발명의 일실시예에 따른 와이더 스테레오 출력을 생성하는 상세한 구조를 나타낸 도면이다.
도 14는 본 발명에 따른 스테레오 이미지를 확장하는 일 예를 나타낸 도면이다.
도 15는 본 발명에 따른 3차원 큐빅의 상위 레이어 및 하위 레이어와 와이드 스테레오 레이어를 합한 구조의 일 예를 나타낸 도면이다.
도 16는 본 발명의 일실시예에 따른 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법을 나타낸 동작흐름도이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 스테레오 오디오 업 믹스 구조를 나타낸 도면이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 스테레오 오디오 업 믹스 구조는 2채널에 상응하는 스테레오 신호(110)를 고음 패스 필터(121), 중음 패스 필터(122) 및 저음 패스 필터(123)로 각각 입력시킬 수 있다.

이 때, 고음 패스 필터(121)로 입력된 스테레오 신호(110)에서는 고음 영역만이 통과되어 바이노럴 인코더(130)로 입력될 수 있다. 또한, 중음 패스 필터(122)로 입력된 스테레오 신호(110)에서는 중음 영역만이 통과되어 스테레오 와이더(140)로 입력될 수 있다. 마지막으로, 저음 패스 필터(123)로 입력된 스테레오 신호(110)에서는 저음 영역만 통과되어 고음 영역과 함께 바이노럴 인코더(130)로 입력될 수 있다.

이 때, 바이노럴 인코더(Binaural Encoder)(130)로 입력된 저음 영역은 방향성을 갖지 않지만, 고음 영역은 방향성을 가질 수 있기 때문에 고음 영역과 저음 영역을 분리하고, 이머시브(immersive) 효과를 주기 위한 바이노럴 인코딩을 수행할 수 있다.

예를 들어, 바이노럴 인코더(130)는 고음 영역에 해당하는 스테레오 2채널과 저음 영역에 해당하는 스테레오 2채널을 이용하여 3차원 레이어를 생성할 수 있고, 3차원 레이어에 상응하게 바이노럴 인코딩을 수행할 수 있다.

이 때, 스테레오 와이더(Stereo Wider)(140)로 입력된 중음 영역은 바이노럴 인코딩을 수행하지 않고, 스테레오 이미지 영역을 확장하기 위한 스테레오 와이드 프로세싱을 수행할 수 있다.

이 후, 바이노럴 믹서(Binaural Mixer)(150)에서는 바이노럴 인코더(130)에서 출력되는 바이노럴 출력 및 스테레오 와이더(140)에서 출력되는 와이드 스테레오 출력과 함께 스테레오 신호(110)을 합하여 업 믹스 스테레오 출력을 생성할 수 있다.

이 때, 업 믹스 스테레오 출력은 이머시브(immersive) 효과가 포함된 스테레오 신호 또는 스테레오 오디오에 상응할 수 있다. 즉, 본 발명에 따르면 별도의 이머시브 믹싱(immersive mixing)을 수행하지 않고도 스테레오 오디오 또는 스테레오 오디오 컨텐츠에 이머시브 효과를 연출할 수 있다.

따라서, 종래의 방식대로 이머시브 믹싱을 수행하여 이머시브 컨텐츠 또는 이머시브 오디오를 생성하는 것보다 비용과 시간을 절감할 수 있다.

도 2는 본 발명의 일실시예에 따른 업 믹스 장치를 나타낸 블록도이다.

도 2를 참조하면, 본 발명의 일실시예에 따른 업 믹스 장치는 통신부(210), 프로세서(220) 및 메모리(230)를 포함한다.

통신부(210)는 네트워크와 같은 통신망을 통해 업 믹스 스테레오 오디오를 생성을 위해 필요한 정보를 송수신하는 역할을 한다. 특히, 본 발명의 일실시예에 따른 통신부(210)는 업 믹스 스테레오 오디오 생성을 위해 소스에 해당하는 스테레오 신호 또는 컨텐츠, 바이노럴 인코딩을 위해 헤드 트래킹 모듈이나 사용자 인터페이스를 통해 입력될 헤드 트래킹 정보 등을 수신하고, 업 믹스 스테레오 출력에 상응하는 업 믹스 스테레오 오디오를 제공할 수 있다.

프로세서(220)는 스테레오 신호에서 분리된 고음 영역 및 저음 영역을 기반으로 바이노럴 인코딩을 수행하여 바이노럴 출력을 생성한다.

이 때, 스테레오 신호를 고음 패스 필터, 중음 패스 필터 및 저음 패스 필터로 각각 입력하여, 스테레오 신호를 고음 영역, 중음 영역 및 저음 영역으로 분리할 수 있다.

예를 들어, 도 3 내지 도 5를 참조하면, 프로세서(220)는 고음 패스 필터(300), 중음 패스 필터(400) 및 저음 패스 필터(500)로 각각 2채널에 상응하는 스테레오 신호를 입력할 수 있다.

이 때, 고음 패스 필터(300)는 입력된 스테레오 신호의 음역대 중 고음 영역만을 통과시키는 필터에 상응하는 것으로, 도 3에 도시된 것과 같이 고음 영역의 스테레오 신호를 출력할 수 있다.

이 때, 중음 패스 필터(400)는 입력된 스테레오 신호의 음역대 중 중음 영역만을 통과시키는 필터에 상응하는 것으로, 도 4에 도시된 것과 같이 중음 영역의 스테레오 신호를 출력할 수 있다.

이 때, 저음 패스 필터(500)는 입력된 스테레오 신호의 음역대 중 저음 영역만을 통과시키는 필터에 상응하는 것으로, 도 5에 도시된 것과 같이 저음 영역의 스테레오 신호를 출력할 수 있다.

이 때, 본 발명에서 사용되는 고음 패스 필터(300), 중음 패스 필터(400), 저음 패스 필터(500)는 특정한 필터링 방법에 한정되지 않고, 사용 가능하거나 향후 개발 가능한 기술을 적용하여 동작할 수 있다.

이 때, 바이노럴 출력은 4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic)에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성되되, 4개의 업 채널들의 위치는 고음 영역을 기반으로 설정되고, 4개의 다운채널들의 위치는 저음 영역을 기반으로 설정될 수 있다.

이 때, 8채널 기반의 3차원 큐빅은 3차원 공간 이미지를 만드는 요소에 상응하는 것으로, 4개의 업 채널들로 구성되는 상위 레이어와 4개의 다운채널들로 구성되는 하위 레이어로 구성되는 3차원 레이어에 상응할 수 있다.

예를 들어, 도 6을 참조하면, 3차원 큐빅 방식에 상응하는 바이노럴 인코더(620)를 이용하여 스테레오 신호에서 분리된 고음 영역(611)에 상응하는 2채널 및 저음 영역(612)에 상응하는 2채널에 상응하게 바이노럴 인코딩을 수행할 수 있다.

이 때, 4개의 업 채널들의 위치는 고음 영역(611)에서 트랜션트(Transient)의 크기를 기준으로 검출된 어느 하나의 고음 주파수를 이용하여 설정될 수 있고, 4개의 다운채널들의 위치는 저음 영역(612)에서 트랜션트(Transient)의 크기를 기준으로 검출된 어느 하나의 저음 주파수를 이용하여 설정될 수 있다.

이 때, 트랜션트(Transient)는 소리의 파형에서 소리가 처음 시작될 때 나타나는 초기 진폭 상승 부분을 의미하는 것일 수 있다.

예를 들어, 본 발명에서는 고음 영역(611)과 저음 영역(612)에서 각각 트랜션트가 강한 주파수를 하나씩 검색하고, 검색된 주파수들을 실시간으로 좌우 분리 처리하여 생성된 레프트 채널과 라이트 채널을 기반으로 4개의 업 채널들과 4개의 다운채널들을 생성할 수 있다. 이 때, 스테레오 효과를 높이기 위해서 고음 영역(611)에 상응하는 상위 레이어의 패닝값에 스테레오 인핸스(Stereo Enhance)를 적용하여 자연스러운 소리가 생성되도록 할 수도 있다.

도 7을 참조하면, 먼저, 고음 영역(611)에서 검출된 고음 주파수를 좌우 분리 처리하여 레프트 채널 L과 라이트 채널 R에 상응하는 위치를 획득하고, 도 7에 도시된 것과 같이 레프트 채널의 위치에 스피커(711)을 배치하고, 라이트 채널의 위치에 스피커(712)를 배치할 수 있다. 이 후, 레프트 채널 L과 라이트 채널 R을 'L-(L-R)'에 상응하게 조합한 위치에 스피커(713)을 배치하고, 레프트 채널 L과 라이트 채널 R을 'R-(L-R)'에 상응하게 조합한 위치에 스피커(714)를 배치함으로써 3차원 큐빅의 상위 레이어(710)를 구성할 수 있다.

또한, 저음 영역(612)에서 검출된 저음 주파수를 좌우 분리 처리하여 레프트 채널 L과 라이트 채널 R에 상응하는 위치를 획득하고, 도 7에 도시된 것과 같이 레프트 채널의 위치에 스피커(721)을 배치하고, 라이트 채널의 위치에 스피커(722)를 배치할 수 있다. 이 후, 레프트 채널 L과 라이트 채널 R을' L-(L-R)'에 상응하게 조합한 위치에 스피커(723)을 배치하고, 레프트 채널 L과 라이트 채널 R을 'R-(L-R)'에 상응하게 조합한 위치에 스피커(724)를 배치함으로써 3차원 큐빅의 하위 레이어(720)를 구성할 수 있다.

따라서, 도 6에 도시된 바이노럴 출력(630)은 도 7에 도시된 것과 같이 8개의 스피커(711~714, 721~724)에 상응하는 8채널 기반의 오디오를 바이노럴 인코딩함으로써 생성된 출력에 상응할 수 있고, 도 6에 도시된 것과 같이 2채널에 상응하는 스테레오 형식으로 출력될 수 있다. 이 때, 바이노럴 출력(630)에 상응하는 2채널은 각각 레프트 채널과 라이트 채널에 상응할 수 있다.

즉, 도 8에 도시된 것과 같이, 2채널(810)에 불과했던 고음 영역과 저음 영역의 스테레오 신호를 바이노럴 인코딩함으로써 8채널(820)에 상응하는 바이노럴 효과를 포함하는 바이노럴 출력을 생성할 수 있다.

이 때, 본 발명의 실시예에서는 3차원 레이어로 8채널 기반의 3차원 큐빅을 사용하였으나, 바이노럴 인코딩을 위한 3차원 레이어는 이에 한정되지 않을 수 있다. 즉, 본 발명의 일실시예에 따른 업 믹스 장치는 사용 가능한 다른 3차원 레이어 또는 향후 개발될 3차원 레이어를 포함하여 구성될 수도 있다.

이 때, 4개의 업 채널들로 구성되는 3차원 큐빅의 상위 레이어와 4개의 다운채널들로 구성되는 3차원 큐빅의 하위 레이어 사이의 거리는 스테레오 신호의 이퀄라이저 값을 기반으로 설정될 수 있다.

이 때, 스테레오 신호의 이퀄라이저(equalizer, EQ) 값은 음역대를 조절하여 소리의 공간감을 조정하기 위한 것으로, 도 9에 도시된 3차원 큐빅의 상위 레이어와 하위 레이어간 거리(910)는 이퀄라이저 값에 따라 설정될 수 있다. 즉, 상위 레이어에 해당하는 고음역대의 헤르츠(Hz)를 조절하거나 또는 하위 레이어에 해당하는 저음역대의 헤르츠를 조절하는 방식으로 상위 레이어와 하위 레이어의 거리(910)를 조정하여 수직적으로 이미지 공간을 조정할 수 있습니다.

이 때, 3차원 벡터는 큐빅의 내부에 위치하는 기준 청취점을 기준으로 생성될 수 있다.

예를 들어, 도 10을 참조하면, 사용자 또는 청취자의 위치를 가상으로 표현한 기준 청취점(1010)은 8개의 동적 스피커들을 각 꼭지점으로 하는 3차원 큐빅(1000)의 내부 중심 부분에 위치할 수 있다. 이 때, 바이노럴 포인트(1020)가 도 10에 도시된 것과 같이 3차원 큐빅(1000)의 상위 레이어 상에 위치한다고 가정하면, 바이노럴 출력에 상응하는 3차원 벡터(1030)는 도 10에 도시된 기준 청취점(1010)에서 바이노럴 포인트(1020)를 향하는 방향으로 생성될 수 있다.

이 때, 도 10에 도시된 것과 같이 3차원 큐빅(1000) 상에서 바이노럴 포인트(1020)가 기준 청취점(1010)보다 높게 위치할 경우, 출력되는 소리가 청취자의 상단에 맺힐 수 있다. 또한, 3차원 큐빅(1000) 상에서 바이노럴 포인트(1020)가 기준 청취점(1010)보다 낮게 위치할 경우, 출력되는 소리가 청취자의 하단에 맺힐 수도 있다.

이와 같이, 본 발명에서는 3차원 큐빅(1000)상에서 기준 청취점(1010)을 기준으로 한 바이노럴 포인트(1020)의 위치를 변경함으로써 보다 다양한 오디오를 연출하는 것이 가능할 수 있다.

이 때, 도 10에는 도시하지 아니하였으나, 기준 청취점(1010)은 3차원 큐빅(1000)의 내부에 위치하되, 스테레오 신호의 중음 영역에 상응하는 와이드 스테레오 레이어 상에 위치할 수도 있다. 즉, 2채널 기반의 스테레오 레이어에 상응하는 와이드 스테레오 레이어는 3차원 큐빅(1000)의 상위 레이어와 하위 레이어 사이에 위치할 수 있다.

이 때, 3차원 벡터의 방향 정보를 헤드 트래킹 정보에 상응하게 회전된 3차원 큐빅에 적용하여 바이노럴 출력을 생성할 수 있다. 즉, 바이노럴 포인트는 기준 청취점에 해당하는 청취자의 머리를 기준으로 설정된 위치이므로 청취자의 머리 위치나 각도가 변경되는 경우, 3차원 큐빅 상에서 바이노럴 포인트의 위치도 변경될 수 있다.

예를 들어, 도 10에 도시된 3차원 큐빅(1000)을 헤드 트래킹 정보에 상응하게 도 11에 도시된 것처럼 회전시켰다고 가정할 수 있다. 이 때, 도 10에 도시된 3차원 벡터(1030)의 방향 정보를 그대로 도 11에 도시된 3차원 큐빅에 적용함으로써 회전에 따라 변경된 바이노럴 포인트의 위치를 검출할 수 있다.

이 때, 헤드 트래킹 정보는 사용자나 청취자의 머리 움직임을 트래킹한 데이터에 상응하는 것으로, 별도의 헤드 트래킹 모듈에 기반한 트래킹 입력 및 사용자 인터페이스에 기반한 사용자 입력 중 적어도 하나에 상응하게 획득될 수 있다.

예를 들어, 사용자나 청취자가 헤드 트래킹 모듈을 직접 착용한 상태에서 머리를 움직이면, 헤드 트래킹 모듈에서 사용자의 머리가 움직인 거리나 각도 등을 측정하여 헤드 트래킹 정보로 생성하고 전송할 수 있다.

다른 예를 들어, 헤드 트래킹 정보는 사용자나 청취자가 사용자 인터페이스를 통해 인위적으로 부여할 수도 있다. 즉, 사용자나 청취자가 인위적으로 공간 이미지를 회전시키기 위해, 헤드 트래킹 모듈에 의한 헤드 트래킹 정보의 수신 여부와 상관없이 사용자 인터페이스를 기반으로 헤드 트래킹 정보를 입력할 수도 있다. 이 때, 사용자나 청취자는 업 믹스 스테레오 출력을 생성하는 믹싱과정 또는 입력되는 정보에 따라 변화하는 업 믹스 스테레오 출력을 청취하면서 헤드 트래킹 정보를 입력 및 수정할 수도 있다.

예를 들어, 도 12에 도시된 것과 같이 청취자가 팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나에 상응하게 머리를 회전하는 경우, 이 값을 회전 파라미터로 획득하여 3차원 큐빅에 적용할 수 있다.

이와 같이, 헤드 트래킹 정보에 따라 3차원 큐빅을 회전시키거나 상하좌우로 움직여서 연출되는 효과는 향후 와이드 스테레오 출력 및 스테레오 신호와 믹싱되어 업 믹스 스테레오 출력을 생성할 수 있다. 따라서, 스테레오 레이어를 회전시키거나 이동시키는 종래의 방식보다 효율적으로 헤드 트래킹에 기반한 이머시브(immersive) 효과를 연출할 수 있다.

이 때, 바이노럴 출력은 상위 레이어의 기본 주파수를 기준으로 하는 하모닉스를 포함할 수 있다.

이 때, 하모닉스는 기준 주파수에 해당하는 소리에서 진동수가 정수배 관계에 있는 상음에 상응하는 것으로, 음악적인 자연스러움을 제공하기 위해 바이노럴 출력에 포함되어 믹싱에 활용될 수 있다.

또한, 프로세서(220)는 스테레오 신호에서 분리된 중음 영역을 기반으로 스테레오 와이드 프로세싱을 수행하여 와이드 스테레오 출력을 생성한다.

이 때, 와이드 스테레오 출력은 중음 영역에 상응하는 와이드 스테레오 레이어를 기반으로 생성될 수 있다.

예를 들어, 도 13을 참조하면, 스테레오 와이더(1320)로 입력된 스테레오 신호의 중음 영역(1310)을 기반으로 와이드 스테레오 레이어에 상응하게 스테레오 와이드 프로세싱을 수행할 수 있다. 이 때, 와이드 스테레오 출력(1330)은 도 13에 도시된 것과 같이 2채널에 상응하는 스테레오 형식으로 출력될 수 있다.

이 때, 와이드 스테레오 레이어는 스테레오 이미지를 만드는 요소에 상응하는 것으로, 리버브 값과 딜레이 값에 상응하게 이미지 공간이 확장된 스테레오 레이어에 상응할 수 있다.

예를 들어, 도 14를 참조하면, 스테레오 이미지 영역(1400)은 리버브(Reverb)(1410)와 딜레이 또는 팬(Delay or Pan)(1420)을 기반으로 확장될 수 있다.

이 때, 리버브(1410)는 음원에서 출발한 소리가 벽이나 바닥, 천정 같은 곳에 두번이상 부딪쳐서 귀에 도달한 잔향에 상응하는 것으로, 스테레오 이미지 영역(1400)에 해당하는 공간의 크기를 앞/뒤 방향으로 조절할 수 있는 값에 상응한다. 이 때, 리버브(1410) 값은 원음이 들리고 나서 리버브(1410)가 들리기까지 걸리는 시간에 해당하는 프리 딜레이(Pre Delay) 값을 기반으로 조절될 수 있다. 또한, 프리 딜레이 이외에도 초기 반사음에 해당하는 얼리 리플랙션(Early Reflection)을 파라미터로 조절하여 리버브(1410) 값을 조절할 수도 있다.

이 때, 딜레이 또는 팬(1420)에서 딜레이는, 좌측과 우측 채널에 대한 딜레이 값에 해당하는 것으로 이 값을 서로 다르게 조절함으로써 스테레오 이미지 영역(1400)에 해당하는 공간의 크기를 좌/우 방향으로 조절할 수 있다. 이 때, 팬(Pan)은 수평적으로 소리가 어디까지 퍼지도록 할지를 결정하는 값에 해당하므로, 본 발명에서는 딜레이 또는 팬(1420)을 조절하여 스테레오 이미지 영역(1400)의 해당하는 공간의 좌우 크기를 조절할 수 있다.

이 때, 도 15를 참조하면, 본 발명의 일실시예에 따른 와이드 스테레오 레이어(1530)는 서라운드 형태의 상위 레이어(1510)와 하위 레이어(1520)로 구성된 3차원 큐빅과 조합되어 위치할 수 있다. 이 때, 도 15에 도시된 구조는 일실시예에 상응하는 것으로, 각각의 레이어들을 조합한 구조에 한정되지 않는다.

또한, 프로세서(220)는 스테레오 신호, 바이노럴 출력 및 와이드 스테레오 출력을 합하여 업 믹스 스테레오 출력을 생성한다.

즉, 바이노럴 출력에 의한 이머시브(immersive) 요소와 와이드 스테레오 출력에 의한 확장된 스테레오 효과를 소스로 사용된 스테레오 신호와 함께 믹스함으로써 이머시브 효과가 포함된 업 믹스 스테레오 출력을 생성할 수 있다.

또한, 본 발명은 상기와 같은 기능의 프로세서(220)를 기반으로 자연스러운 업 믹스 기능을 지원할 수 있으므로 다양한 종류의 사운드를 지원하는 컨텐츠 간의 호환성을 향상시킬 수 있다.

메모리(230)는 스테레오 신호, 바이노럴 출력 및 와이드 스테레오 출력을 저장한다.

또한, 메모리(230)는 상술한 바와 같이 본 발명의 일실시예에 따른 업 믹스 스테레오 출력을 생성하는 과정에서 발생되는 다양한 정보를 저장한다.

실시예에 따라, 메모리(230)는 업 믹스 장치와 독립적으로 구성되어 업 믹스 스테레오 오디오 생성 기능을 지원할 수 있다. 이 때, 메모리(230)는 별도의 대용량 스토리지로 동작할 수 있고, 동작 수행을 위한 제어 기능을 포함할 수 있다.

한편, 업 믹스 장치는 메모리가 탑재되어 그 장치 내에서 정보를 저장할 수 있다. 일 구현예의 경우, 메모리는 컴퓨터로 판독 가능한 매체이다. 일 구현 예에서, 메모리는 휘발성 메모리 유닛일 수 있으며, 다른 구현예의 경우, 메모리는 비휘발성 메모리 유닛일 수도 있다. 일 구현예의 경우, 저장장치는 컴퓨터로 판독 가능한 매체이다. 다양한 서로 다른 구현 예에서, 저장장치는 예컨대 하드디스크 장치, 광학디스크 장치, 혹은 어떤 다른 대용량 저장장치를 포함할 수도 있다.

이와 같은 업 믹스 장치를 통해 이머시브(immersive)을 수행하지 않고도 기존 스테레오 파일을 이머시브로 업 믹스할 수 있고, 스테레오 파일을 이머시브 파일로 믹스하는데 필요한 시간과 비용을 절감할 수 있다.

도 16는 본 발명의 일실시예에 따른 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법을 나타낸 동작흐름도이다.

도 16을 참조하면, 본 발명의 일실시예에 따른 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법은 스테레오 신호에서 분리된 고음 영역 및 저음 영역을 기반으로 바이노럴 인코딩을 수행하여 바이노럴 출력을 생성한다(S1610).

또한, 저음 영역(612)에서 검출된 저음 주파수를 좌우 분리 처리하여 레프트 채널 L과 라이트 채널 R에 상응하는 위치를 획득하고, 도 7에 도시된 것과 같이 레프트 채널의 위치에 스피커(721)을 배치하고, 라이트 채널의 위치에 스피커(722)를 배치할 수 있다. 이 후, 레프트 채널 L과 라이트 채널 R을 'L-(L-R)'에 상응하게 조합한 위치에 스피커(723)을 배치하고, 레프트 채널 L과 라이트 채널 R을 'R-(L-R)'에 상응하게 조합한 위치에 스피커(724)를 배치함으로써 3차원 큐빅의 하위 레이어(720)를 구성할 수 있다.

또한, 본 발명의 일실시예에 따른 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법은 스테레오 신호에서 분리된 중음 영역을 기반으로 스테레오 와이드 프로세싱을 수행하여 와이드 스테레오 출력을 생성한다(S1620).

또한, 본 발명의 일실시예에 따른 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법은 스테레오 신호, 바이노럴 출력 및 와이드 스테레오 출력을 합하여 업 믹스 스테레오 출력을 생성한다(S1630).

또한, 본 발명은 상기와 같은 기능을 기반으로 자연스러운 업 믹스 기능을 지원할 수 있으므로 다양한 종류의 사운드를 지원하는 컨텐츠 간의 호환성을 향상시킬 수 있다.

또한, 도 16에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법은 네트워크와 같은 통신망을 통해 업 믹스 스테레오 오디오를 생성을 위해 필요한 정보를 송수신한다. 특히, 업 믹스 스테레오 오디오 생성을 위해 소스에 해당하는 스테레오 신호 또는 컨텐츠, 바이노럴 인코딩을 위해 헤드 트래킹 모듈이나 사용자 인터페이스를 통해 입력될 헤드 트래킹 정보 등을 수신하고, 업 믹스 스테레오 출력에 상응하는 업 믹스 스테레오 오디오를 제공할 수 있다.

또한, 본 발명의 일실시예에 따른 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법은 상술한 바와 같이 본 발명의 일실시예에 따른 업 믹스 스테레오 출력을 생성하는 과정에서 발생되는 다양한 정보를 저장한다.

본 발명의 실시예는 컴퓨터로 구현된 방법이나 컴퓨터에서 실행 가능한 명령어들이 기록된 비일시적인 컴퓨터에서 읽을 수 있는 매체로 구현될 수 있다. 컴퓨터에서 읽을 수 있는 명령어들이 프로세서에 의해서 수행될 때, 컴퓨터에서 읽을 수 있는 명령어들은 본 발명의 적어도 한 가지 측면에 따른 방법을 수행할 수 있다.

이상에서와 같이 본 발명에 따른 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치는 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

110: 스테레오 신호 121, 300: 고음 패스 필터
122, 400: 중음 패스 필터 123, 500: 저음 패스 필터
130, 620: 바이노럴 인코더 140, 1320: 스테레오 와이더
150: 바이노럴 믹서 210: 통신부
220: 프로세서 230: 메모리
611: 고음 영역 신호 612: 저음 영역 신호
630: 바이노럴 출력 710, 1510: 상위 레이어
711~714, 721~724: 스피커 720, 1520: 하위 레이어
810: 2채널 820: 8채널
910: 거리 1000: 3차원 큐브
1010: 기준 청취점 1020: 바이노럴 포인트
1030: 3차원 벡터 1310: 중음 영역 신호
1330: 와이드 스테레오 출력 1400: 스테레오 이미지 영역
1410: 리버브 1420: 딜레이 또는 팬
1530: 와이드 스테레오 레이어

Claims

스테레오 신호에서 분리된 고음 영역 및 저음 영역을 기반으로 바이노럴 인코딩을 수행하여 바이노럴 출력을 생성하는 단계;
상기 스테레오 신호에서 분리된 중음 영역을 기반으로 스테레오 와이드 프로세싱을 수행하여 와이드 스테레오 출력을 생성하는 단계; 및
상기 스테레오 신호, 상기 바이노럴 출력 및 상기 와이드 스테레오 출력을 합하여 업 믹스 스테레오 출력을 생성하는 단계
를 포함하는 것을 특징으로 하는 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법.
청구항 1에 있어서,
상기 바이노럴 출력은
4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic)에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성되되, 상기 4개의 업 채널들의 위치는 상기 고음 영역을 기반으로 설정되고, 상기 4개의 다운채널들의 위치는 상기 저음 영역을 기반으로 설정되는 것을 특징으로 하는 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법
청구항 2에 있어서,
상기 4개의 업 채널들의 위치는 상기 고음 영역에서 트랜션트(Transient)의 크기를 기준으로 검출된 어느 하나의 고음 주파수를 이용하여 설정되고,
상기 4개의 다운채널들의 위치는 상기 저음 영역에서 트랜션트(Transient)의 크기를 기준으로 검출된 어느 하나의 저음 주파수를 이용하여 설정되는 것을 특징으로 하는 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법
청구항 3에 있어서,
상기 4개의 업 채널들로 구성되는 3차원 큐빅의 상위 레이어와 상기 4개의 다운채널들로 구성되는 3차원 큐빅의 하위 레이어 사이의 거리는 상기 스테레오 신호의 이퀄라이저 값을 기반으로 설정되는 것을 특징으로 하는 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법.
청구항 1에 있어서,
상기 와이드 스테레오 출력은
상기 중음 영역에 상응하는 와이드 스테레오 레이어를 기반으로 생성되되, 상기 와이드 스테레오 레이어는 리버브 값과 딜레이 값에 상응하게 이미지 공간이 확장된 스테레오 레이어에 상응하는 것을 특징으로 하는 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법.
청구항 2에 있어서,
상기 3차원 벡터는
상기 3차원 큐빅의 내부에 위치하는 기준 청취점을 기준으로 생성되는 것을 특징으로 하는 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법.
청구항 6에 있어서,
상기 바이노럴 출력을 생성하는 단계는
상기 3차원 벡터의 방향 정보를 헤드 트래킹 정보에 상응하게 회전된 상기 3차원 큐빅에 적용하여 상기 바이노럴 출력을 생성하는 것을 특징으로 하는 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법.
청구항 7에 있어서,
상기 3차원 큐빅은
팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나의 회전 파라미터에 상응하게 회전되는 것을 특징으로 하는 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법.
청구항 4에 있어서,
상기 바이노럴 출력은
상기 상위 레이어의 기본 주파수를 기준으로 하는 하모닉스를 포함하는 것을 특징으로 하는 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법.
청구항 1에 있어서,
상기 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법은
상기 스테레오 신호를 고음 패스 필터, 중음 패스 필터 및 저음 패스 필터로 각각 입력하여, 상기 스테레오 신호를 상기 고음 영역, 상기 중음 영역 및 상기 저음 영역으로 분리하는 단계를 더 포함하는 것을 특징으로 하는 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법.
스테레오 신호에서 분리된 고음 영역 및 저음 영역을 기반으로 바이노럴 인코딩을 수행하여 바이노럴 출력을 생성하고, 상기 스테레오 신호에서 분리된 중음 영역을 기반으로 스테레오 와이드 프로세싱을 수행하여 와이드 스테레오 출력을 생성하고, 상기 스테레오 신호, 상기 바이노럴 출력 및 상기 와이드 스테레오 출력을 합하여 업 믹스 스테레오 출력을 생성하는 프로세서; 및
상기 스테레오 신호, 상기 바이노럴 출력 및 상기 와이드 스테레오 출력을 저장하는 메모리
를 포함하는 것을 특징으로 하는 업 믹스 장치.
청구항 11에 있어서,
상기 바이노럴 출력은
4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic)에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성되되, 상기 4개의 업 채널들의 위치는 상기 고음 영역을 기반으로 설정되고, 상기 4개의 다운채널들의 위치는 상기 저음 영역을 기반으로 설정되는 것을 특징으로 하는 업 믹스 장치.
청구항 12에 있어서,
상기 4개의 업 채널들의 위치는 상기 고음 영역에서 트랜션트(Transient)의 크기를 기준으로 검출된 어느 하나의 고음 주파수를 이용하여 설정되고,
상기 4개의 다운채널들의 위치는 상기 저음 영역에서 트랜션트(Transient)의 크기를 기준으로 검출된 어느 하나의 저음 주파수를 이용하여 설정되는 것을 특징으로 하는 업 믹스 장치.
청구항 13에 있어서,
상기 4개의 업 채널들로 구성되는 3차원 큐빅의 상위 레이어와 상기 4개의 다운채널들로 구성되는 3차원 큐빅의 하위 레이어 사이의 거리는 상기 스테레오 신호의 이퀄라이저 값을 기반으로 설정되는 것을 특징으로 하는 업 믹스 장치.
청구항 11에 있어서,
상기 와이드 스테레오 출력은
상기 중음 영역에 상응하는 와이드 스테레오 레이어를 기반으로 생성되되, 상기 와이드 스테레오 레이어는 리버브 값과 딜레이 값에 상응하게 이미지 공간이 확장된 스테레오 레이어에 상응하는 것을 특징으로 하는 업 믹스 장치.
청구항 12에 있어서,
상기 3차원 벡터는
상기 3차원 큐빅의 내부에 위치하는 기준 청취점을 기준으로 생성되는 것을 특징으로 하는 업 믹스 장치.
청구항 16에 있어서,
상기 프로세서는
상기 3차원 벡터의 방향 정보를 헤드 트래킹 정보에 상응하게 회전된 상기 3차원 큐빅에 적용하여 상기 바이노럴 출력을 생성하는 것을 특징으로 하는 업 믹스 장치.
청구항 17에 있어서,
상기 3차원 큐빅은
팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나의 회전 파라미터에 상응하게 회전되는 것을 특징으로 하는 업 믹스 장치.
청구항 14에 있어서,
상기 바이노럴 출력은
상기 상위 레이어의 기본 주파수를 기준으로 하는 하모닉스를 포함하는 것을 특징으로 하는 업 믹스 장치.
청구항 11에 있어서,
상기 프로세서는
상기 스테레오 신호를 고음 패스 필터, 중음 패스 필터 및 저음 패스 필터로 각각 입력하여, 상기 스테레오 신호를 상기 고음 영역, 상기 중음 영역 및 상기 저음 영역으로 분리하는 것을 특징으로 하는 업 믹스 장치.