KR20210124943A

KR20210124943A - 사용자 및 스피커의 위치를 이용한 오디오 신호 변환 장치 및 그 방법

Info

Publication number: KR20210124943A
Application number: KR1020210130107A
Authority: KR
Inventors: 서정일; 박태진; 강경옥; 장대영
Original assignee: 한국전자통신연구원
Priority date: 2014-05-09
Filing date: 2021-09-30
Publication date: 2021-10-15
Also published as: KR102310240B1; KR20150128616A; KR102455549B1

Abstract

사용자 및 스피커의 위치를 이용한 오디오 신호 변환 장치 및 방법이 개시된다.
오디오 신호 변환 방법은 입력 오디오 신호를 분석하여 입력 오디오 포맷을 결정하는 단계; 스피커들의 위치를 기초로 출력 스피커 포맷을 결정하는 단계; 사용자의 위치를 추정하여 스윗 스팟(Sweet Spot)을 결정하는 단계; 및 상기 스윗 스팟에서 최적의 음향이 재현될 수 있도록 상기 출력 스피커 포맷에 따라 상기 입력 오디오 신호를 변환하는 단계를 포함할 수 있다.

Description

사용자 및 스피커의 위치를 이용한 오디오 신호 변환 장치 및 그 방법{APPARATUS AND METHOD FOR TRANSFORMING AUDIO SIGNAL USING LOCATION OF THE USER AND THE SPEAKER}

본 발명은 사용자 및 스피커의 위치에 따라 오디오 신호를 변환하는 장치 및 방법에 관한 것이다.

기존의 5.1채널 멀티채널 서라운드 포맷의 오디오 재생능력 한계를 극복하기 위한 새로운 오디오 포맷(7.1, 9.1, 10.1, 22.2 채널 등)이 제안되고 있다. 또한, Dolby ATMOS, IOSONO, DTS MDS(Multi-Dimensional Sound와 같이 오디오 객체신호를 포함하는 오디오 포맷이 제안되고 있다.

그리고, 오디오 콘텐츠 포맷의 종류가 스테레오 및 5.1채널에서 7.1, 9.1, 10.2, 22.2채널과 같이 다양해지고 있다. 그러나, 오디오 콘텐츠의 포맷 별로 고유한 스피커 포맷을 가지고 있으므로, 모든 오디오 콘텐츠의 포맷에 대응하는 음향 청취 환경을 구성하기 어려운 실정이다.

또한, 사용자가 스피커들을 설치하는 공간의 크기와 사용자의 취향 및 인테리어에 따라 스피커들의 위치가 스피커 포맷과 일치하지 않을 수 있다. 이때, 스피커들은 사용자에게 최고 품질의 음장을 재현할 수 없다.

따라서, 사용자 별로 오디오 시스템에 포함된 스피커들의 위치가 다른 점을 고려하여 사용자에게 최적화된 음장을 재현하는 방법이 요청되고 있다.

본 발명은 사용자의 오디오 시스템에 최적화된 음장을 재현하는 장치 및 방법을 제공할 수 있다.

본 발명의 일실시예에 따른 오디오 신호 변환 방법은 입력 오디오 신호를 분석하여 입력 오디오 포맷을 결정하는 단계; 스피커들의 위치를 기초로 출력 스피커 포맷을 결정하는 단계; 사용자의 위치를 추정하여 스윗 스팟(Sweet Spot)을 결정하는 단계; 및 상기 스윗 스팟에서 최적의 음향이 재현될 수 있도록 상기 출력 스피커 포맷에 따라 상기 입력 오디오 신호를 변환하는 단계를 포함할 수 있다.

본 발명의 일실시예에 따른 오디오 신호 변환 방법의 출력 스피커 포맷을 결정하는 단계는, 청취 공간에 위치한 마이크로폰 또는 마이크로폰 어레이 신호를 분석하여 추정한 스피커들의 위치를 기초로 출력 스피커 포맷을 결정할 수 있다.

본 발명의 일실시예에 따른 오디오 신호 변환 방법의 스윗 스팟을 결정하는 단계는, 사용자 위치에 설치되어 있는 마이크로폰, 또는 사용자가 소지하는 단말에 구비된 마이크로폰으로 사용자의 위치를 분석하여 사용자의 위치를 추정할 수 있다.

본 발명의 일실시예에 따른 오디오 신호 변환 방법의 스윗 스팟을 결정하는 단계는, 스피커에서 출력된 오디오 신호를 녹음하고, GPS, 무선 Access point 정보, 및 영상 정보 중 적어도 하나와 녹음된 오디오 신호를 이용하여 사용자의 위치를 추정할 수 있다.

본 발명의 일실시예에 따른 오디오 신호 변환 방법의 입력 오디오 신호를 변환하는 단계는, 입력 오디오 포맷에 포함된 채널의 개수보다 출력 스피커 포맷에 대응하는 스피커의 개수가 많은 경우, 입력 오디오 신호에서 추출한 음원과 배경음을 출력 스피커 포맷에 따라 변환할 수 있다.

본 발명의 일실시예에 따른 오디오 신호 변환 방법의 입력 오디오 신호를 변환하는 단계는, 출력 스피커 포맷이 스피커 어레이인 경우, WFS 또는 빔포밍 기법을 이용하여 가상 음장을 형성하는 프로세싱을 수행하여 입력 오디오 신호를 변환할 수 있다.

본 발명의 일실시예에 따른 오디오 신호 변환 방법은 입력 오디오 신호를 분석하여 입력 오디오 포맷을 결정하는 단계; 스피커들의 위치를 추정하여 출력 스피커 포맷을 결정하는 단계; 상기 출력 스피커 포맷에 따라 상기 입력 오디오 신호를 출력 오디오 신호로 변환하는 단계; 사용자의 위치를 추정하는 단계; 추정한 사용자의 위치에 따라 스윗 스팟을 결정하는 단계; 및 상기 스윗 스팟에서 최적의 음향이 재현될 수 있도록 출력 오디오 신호를 변환하는 단계를 포함할 수 있다.

본 발명의 일실시예에 따른 오디오 신호 변환 방법의 사용자의 위치를 추정하는 단계는, 사용자 위치에 설치되어 있는 마이크로폰, 또는 사용자가 소지하는 단말에 구비된 마이크로폰으로 사용자의 위치를 분석하여 사용자의 위치를 추정할 수 있다.

본 발명의 일실시예에 따른 오디오 신호 변환 방법의 사용자의 위치를 추정하는 단계는, 스피커에서 출력된 오디오 신호를 녹음하고, GPS, 무선 Access point 정보, 및 영상 정보 중 적어도 하나와 녹음된 오디오 신호를 이용하여 사용자의 위치를 추정할 수 있다.

본 발명의 일실시예에 의하면, 출력 오디오 신호를 청취하는 사용자의 위치 및 출력 오디오 신호를 출력하는 스피커의 위치에 따라 입력 오디오 신호를 변환함으로써, 사용자의 오디오 시스템에 최적화된 음장을 재현할 수 있다.

도 1은 본 발명의 일실시예에 따른 오디오 신호 변환 장치를 나타내는 도면이다.
도 2은 본 발명의 일실시예에 따라 변환된 오디오 신호가 사운드 바에서 출력되는 일례이다.
도 3은 본 발명의 일실시예에 따라 변환된 오디오 신호가 7.1 채널 스피커 환경에서 출력되는 일례이다.
도 4는 본 발명의 제1 실시예에 따른 프로세서를 나타내는 도면이다.
도 5는 본 발명의 제2 실시예에 따른 프로세서를 나타내는 도면이다.
도 6은 본 발명의 제1 실시예에 따른 오디오 신호 변환 방법을 도시한 플로우차트이다.
도 7은 본 발명의 제2 실시예에 따른 오디오 신호 변환 방법을 도시한 플로우차트이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 오디오 신호 변환 방법은 오디오 신호 변환 장치에 의해 수행될 수 있다.

도 1은 본 발명의 일실시예에 따른 오디오 신호 변환 장치를 나타내는 도면이다.

오디오 신호 변환 장치(100)는 도 1에 도시된 바와 같이 수신기(110), 프로세서(120), 및 송신기(130)를 포함할 수 있다.

수신기(110)는 입력 오디오 신호를 수신할 수 있다. 이때, 입력 오디오 신호는 복수의 채널들로 구성된 다채널 오디오 신호, 스테레오 신호, 또는 모노 신호 중 하나일 수 있다.

프로세서(120)는 스피커들의 위치를 기초로 출력 스피커 포맷을 결정하고, 사용자의 위치를 추정하여 스윗 스팟(Sweet Spot)을 결정할 수 있다. 그리고, 프로세서(120)는 스윗 스팟에서 최적의 음향이 재현될 수 있도록 출력 스피커 포맷에 따라 입력 오디오 신호를 변환하여 출력할 수 있다.

이때, 프로세서(120)는 입력 오디오 신호를 분석하여 입력 오디오 포맷을 결정할 수 있다. 구체적으로, 프로세서(120)는 입력 오디오 신호, 또는 입력 오디오 신호의 헤더 정보나 비트스트림을 분석하여 입력 오디오 포맷을 결정할 수 있다. 또한, 프로세서(120)는 사용자에게 선택된 포맷을 입력 오디오 포맷으로 결정할 수 있다. 그리고, 입력 오디오 신호가 압축 부호화된 비트스트림인 경우, 프로세서(120)는 입력 오디오 신호의 복호화하고, 복호화한 결과를 분석하여 입력 오디오 포맷을 결정할 수 있다. 이때, 입력 오디오 포맷은 입력 오디오 신호의 포맷일 수 있다.

또한, 프로세서(120)는 스피커들의 위치를 추정하여 출력 스피커 포맷을 결정할 수 있다. 예를 들어, 프로세서(120)가 위치를 추정한 스피커들이 7개이며, 스피커들 각각의 위치가 분산된 경우, 프로세서(120)는 출력 스피커 포맷을 7.1 채널로 결정할 수 있다. 또한, 프로세서(120)가 위치를 추정한 스피커들이 7개이며, 스피커들의 위치가 일렬로 배열된 경우, 프로세서(120)는 출력 스피커 포맷을 스피커 어레이로 결정할 수 있다.

이때, 프로세서(120)는 사용자로부터 입력 받은 스피커의 위치, 또는 복수의 출력 스피커 포맷 중에서 사용자에게 선택된 포맷을 기초로 스피커들의 위치를 추정할 수 있다. 또한, 프로세서(120)는 오디오 신호가 출력되는 청취 공간에 설치된 마이크로폰 또는 마이크로폰 어레이 신호를 분석하여 스피커들 위치를 추정할 수 있다. 예를 들어, 마이크로폰은 사용자가 소지하는 단말에 포함된 마이크로폰일 수 있다. 이때, 수신기(110)는 유무선 인터페이스로 사용자가 소지하는 단말이 취득한 음향 정보를 수신하여 프로세서(120)에 전달할 수 있다.

그리고, 프로세서(120)는 사용자의 위치를 추정할 수 있다. 예를 들어, 프로세서(120)는 사용자로부터 사용자의 위치를 입력 받거나, GUI 인터페이스와 같은 사용자 인터페이스를 통해 선택된 사용자의 위치를 입력 받을 수 있다. 또한, 사용자 위치에 설치되어 있는 마이크로폰, 또는 사용자가 소지하는 단말에 구비된 마이크로폰으로 사용자의 위치를 분석하여 사용자의 위치를 추정할 수 있다.

이때, 프로세서(120)는 추정한 사용자의 위치를 이용하여 스윗 스팟의 중심점과 크기를 결정할 수 있다. 이때, 스윗 스팟의 중심점과 크기는 사용자의 선택에 따라 이동되거나 변화될 수 있다.

프로세서(120)는 마이크로폰을 이용하여 스피커에서 출력된 오디오 신호를 녹음할 수 있다. 그리고, 녹음된 오디오 신호를 이용하여 스피커의 위치 및 사용자의 위치를 추정할 수 있다. 또한, 프로세서(120)는 GPS, 무선 Access point 정보, 및 영상 정보 중 적어도 하나를 이용하여 사용자의 위치를 추정할 수 있다. 그리고, 프로세서(120)는 GPS, 무선 Access point 정보, 및 영상 정보 중 적어도 하나를 녹음된 오디오 신호와 함께 이용하여 스피커의 위치 및 사용자의 위치를 추정할 수도 있다.

또한, 프로세서(120)는 채널 수를 변화시키는 업믹스 또는 다운믹스 과정 및, 출력 스피커 포맷을 활용하여 입력 오디오 포맷이 가지고 있는 음질 및 음장감을 최대한 유지할 수 있도록 하는 일련의 필터링 또는 렌더링 과정을 수행하여 입력 오디오 신호를 출력 오디오 신호로 변환할 수 있다.

입력 오디오 포맷에 포함된 채널의 개수보다 출력 스피커 포맷에 대응하는 스피커의 개수가 많을 수 있다. 예를 들어, 출력 스피커 포맷이 7.1 채널 스피커 환경(140)이고, 입력 오디오 포맷이 스테레오 채널일 수 있다. 이때, 프로세서(120)는 입력 오디오 신호를 분석하여 음원과 배경음을 추출할 수 있다. 그리고, 프로세서(120)는 추출한 음원과 배경음을 출력 스피커 포맷에 따라 변환하여 출력 오디오 신호를 출력할 수 있다.

또한, 출력 스피커 포맷이 사운드 바와 같은 스피커 어레이(150)인 경우, 프로세서(120)는 WFS 또는 빔포밍 기법을 이용하여 가상 음장을 형성하는 프로세싱을 수행할 수도 있다.

오디오 신호 변환 장치(100)는 출력 오디오 신호를 청취하는 사용자의 위치 및 출력 오디오 신호를 출력하는 스피커의 위치에 따라 입력 오디오 신호를 변환함으로써, 사용자의 오디오 시스템에 최적화된 음장을 재현할 수 있다.

도 2은 본 발명의 일실시예에 따라 변환된 오디오 신호가 사운드 바에서 출력되는 일례이다.

출력 스피커 포맷이 스피커 어레이(150)인 경우, 오디오 신호 변환 장치(100)는 도 2에 도시된 바와 같이 WFS 또는 빔포밍 기법을 이용하여 스피커 어레이(150)에서 출력된 출력 오디오 신호가 가상 음장을 형성하도록 할 수 있다.

사용자(200)가 스피커 어레이(150)가 설치된 공간의 왼쪽에 위치한 경우, 오디오 신호 변환 장치(100)는 입력 오디오 신호를 케이스 1(Case 1)에 도시된 바와 같이 사용자(200)의 위치에 가상 음장이 집중되도록 하는 출력 오디오 신호로 변환할 수 있다.

또한, 사용자(200)가 스피커 어레이(150)가 설치된 공간의 오른쪽에 위치한 경우, 오디오 신호 변환 장치(100)는 입력 오디오 신호를 케이스 2(Case 2)에 도시된 바와 같이 사용자(200)의 위치에 가상 음장이 집중되도록 하는 출력 오디오 신호로 변환할 수 있다.

즉, 오디오 신호 변환 장치(100)는 출력 오디오 신호에 의하여 가상 음장이 집중되는 위치를 사용자의 위치에 따라 결정함으로써, 스피커 어레이(150)에서 사용자의 위치에 최적화된 가상 음장이 재현되도록 할 수 있다.

도 3은 본 발명의 일실시예에 따라 변환된 오디오 신호가 7.1 채널 스피커 환경에서 출력되는 일례이다.

출력 스피커 포맷이 C(center) 채널(310), R(right) 채널(320), RS(right side) 채널(330), RB(right back) 채널(340), LB(left back) 채널(350), LS(left side) 채널(360), 및 L(left) 채널(370)로 구성된 7.1 채널일 수 있다. 그리고, 각각의 채널에 대응하는 스피커가 출력하는 출력 오디오 신호는 가상 음장을 생성할 수 있다.

이때, 오디오 신호 변환 장치(100)는 도 2에 도시된 바와 같이 사용자(300)의 위치에 따라 스피커가 출력하는 출력 오디오 신호에 의하여 생성되는 가상 음장의 위치를 변경할 수 있다.

사용자(300)가 7.1 채널 스피커 환경이 설치된 공간의 왼쪽에 위치한 경우, 오디오 신호 변환 장치(100)는 입력 오디오 신호를 케이스 1(Case 1)에 도시된 바와 같이 사용자(300)의 위치에 가상 음장이 집중되도록 하는 출력 오디오 신호로 변환할 수 있다.

또한, 사용자(300)가 7.1 채널 스피커 환경이 설치된 공간의 오른쪽에 위치한 경우, 오디오 신호 변환 장치(100)는 입력 오디오 신호를 케이스 2(Case 2)에 도시된 바와 같이 사용자(300)의 위치에 가상 음장이 집중되도록 하는 출력 오디오 신호로 변환할 수 있다.

도 4는 본 발명의 제1 실시예에 따른 프로세서를 나타내는 도면이다.

프로세서(120)는 도 4에 도시된 바와 같이 입력 오디오 포맷 결정부(410), 출력 스피커 포맷 결정부(420), 사용자 위치 추정부(430), 및 오디오 포맷 변환부(440)를 포함할 수 있다.

입력 오디오 포맷 결정부(410)는 입력 오디오 신호나 입력 오디오 신호의 헤더 정보나 비트스트림을 분석하여 입력 오디오 포맷을 결정할 수 있다. 또한, 입력 오디오 포맷 결정부(410)는 사용자로부터 선택된 오디오 포맷을 입력 오디오 포맷으로 결정할 수 있다. 그리고, 입력 오디오 신호가 압축 부호화된 비트스트림인 경우, 입력 오디오 포맷 결정부(410)는 입력 오디오 신호를 복호화하여 오디오 포맷 변환부(440)에 전달할 수 있다.

출력 스피커 포맷 결정부(420)는 사용자로부터 입력 받은 스피커의 위치, 또는 복수의 출력 스피커 포맷들 중 사용자에게 선택된 출력 스피커 포맷을 이용하여 출력 오디오 신호를 출력하는 스피커들의 위치를 추정할 수 있다. 또한, 출력 스피커 포맷 결정부(420)는 청취 공간에 위치한 마이크로폰 또는 마이크로폰 어레이 신호를 분석하여 스피커들의 위치를 추정할 수 있다.

사용자 위치 추정부(430)는 사용자로부터 입력 받은 위치, 또는 GUI 인터페이스 등과 같은 사용자 인터페이스를 통하여 사용자에게 선택된 위치를 기초로 사용자의 위치를 추정할 수 있다. 또한, 사용자 위치 추정부(430)는 사용자의 위치에 설치된 마이크로폰 또는, 사용자가 보유하고 있는 단말에 구비된 마이크로폰으로 수집한 정보를 분석하여 사용자의 위치를 추정할 수 있다. 예를 들어, 마이크로폰으로 수집한 정보는 스피커에서 출력된 오디오 신호일 수 있다. 그리고, 사용자 위치 추정부(430)는 GPS, 무선 Access point 정보, 영상 정보 중 적어도 하나를 마이크로폰으로 수집한 정보와 함께 사용하여 사용자의 위치를 추정할 수 있다.

또한, 사용자 위치 추정부(430)는 추정한 사용자의 위치를 기초로 스윗 스팟 중심점을 결정할 수 있다. 이때, 사용자 위치 추정부(430)가 결정하는 스윗 스팟 중심점과 크기는 사용자의 선택에 따라 이동되거나 변화될 수 있다.

오디오 포맷 변환부(440)는 스윗 스팟 위치에서 최적 음향이 재현될 수 있도록 입력 오디오 신호를 출력 스피커 포맷에 맞게 출력 오디오 신호로 변환할 수 있다.

이때, 오디오 포맷 변환부(440)는 채널 수를 변화시키는 업믹스 또는 다운믹스 과정뿐만 아니라 출력 스피커 포맷을 활용하여 입력 오디오 포맷이 가지고 있는 음질 및 음장감을 최대한 유지할 수 있도록 하는 일련의 필터링 또는 렌더링 과정을 수행하여 입력 오디오 신호를 출력 오디오 신호로 변환할 수 있다.

또한, 출력 스피커 포맷이 사운드바와 같은 스피커어레이인 경우, 오디오 포맷 변환부(440)는 WFS, 빔포밍 기법을 이용하여 가상 음장을 형성하는 프로세싱을 수행하여 입력 오디오 신호를 출력 오디오 신호로 변환할 수 있다.

그리고, 입력 오디오 포맷의 채널 개수보다 출력 스피커 포맷의 스피커 개수가 많은 경우, 오디오 포맷 변환부(440)는 입력 오디오 신호를 분석하거나 음원과 배경음을 추출하여 출력 스피커 포맷에 맞게 변환할 수 있다.

도 5는 본 발명의 제2 실시예에 따른 프로세서를 나타내는 도면이다.

프로세서(120)는 도 5에 도시된 바와 같이 입력 오디오 포맷 결정부(510), 출력 스피커 포맷 결정부(520), 오디오 포맷 변환부(530), 사용자 위치 추정부(540), 스윗 스팟 영역 결정부(550) 및 최적 음장 생성부(560)를 포함할 수 있다.

입력 오디오 포맷 결정부(510)는 입력 오디오 신호나 입력 오디오 신호의 헤더 정보나 비트스트림을 분석하여 입력 오디오 포맷을 결정할 수 있다. 또한, 입력 오디오 포맷 결정부(510)는 사용자로부터 선택된 오디오 포맷을 입력 오디오 포맷으로 결정할 수 있다. 그리고, 입력 오디오 신호가 압축 부호화된 비트스트림인 경우, 입력 오디오 포맷 결정부(510)는 입력 오디오 신호를 복호화하여 오디오 포맷 변환부(530)에 전달할 수 있다.

출력 스피커 포맷 결정부(520)는 사용자로부터 입력 받은 스피커의 위치, 또는 복수의 출력 스피커 포맷들 중 사용자에게 선택된 출력 스피커 포맷을 이용하여 출력 오디오 신호를 출력하는 스피커들의 위치를 추정할 수 있다. 또한, 출력 스피커 포맷 결정부(520)는 청취 공간에 위치한 마이크로폰 또는 마이크로폰 어레이 신호를 분석하여 스피커들의 위치를 추정할 수 있다.

오디오 포맷 변환부(530)는 출력 스피커 포맷에 따라 입력 오디오 신호를 출력 오디오 신호로 변환할 수 있다. 이때, 오디오 포맷 변환부(530)는 채널 수를 변화시키는 업믹스 또는 다운믹스 과정뿐만 아니라 출력 스피커 포맷을 활용하여 입력 오디오 포맷이 가지고 있는 음질 및 음장감을 최대한 유지할 수 있도록 하는 일련의 필터링 또는 렌더링 과정을 수행하여 입력 오디오 신호를 출력 오디오 신호로 변환할 수 있다.

그리고, 입력 오디오 포맷의 채널 개수보다 출력 포맷의 스피커 개수가 많은 경우, 오디오 포맷 변환부(440)는 입력 오디오 신호를 분석하거나 음원과 배경음을 추출하여 출력 스피커 포맷에 맞게 변환할 수 있다.

사용자 위치 추정부(540)는 사용자로부터 입력 받은 위치, 또는 GUI 인터페이스 등과 같은 사용자 인터페이스를 통하여 사용자에게 선택된 위치를 기초로 사용자의 위치를 추정할 수 있다.

또한, 출력 스피커 포맷 결정부(520)에서 스피커들의 위치를 추정하는 과정 및 사용자 위치 추정부(430)에서 사용자의 위치를 추정하는 과정은 사용자의 위치에 설치된 마이크로폰 또는, 사용자가 보유하고 있는 단말에 구비된 마이크로폰으로 녹음한 음향 신호를 이용하여 수행될 수 있다. 이때, 음향 신호는 출력 스피커가 출력하는 음향 신호일 수 있다. 또한, 출력 스피커 포맷 결정부(520)에서 스피커들의 위치를 추정하는 과정 및 사용자 위치 추정부(430)에서 사용자의 위치를 추정하는 과정은 GPS, 무선 Access point 정보, 영상 정보 중 적어도 하나를 마이크로폰으로 수집한 음향 정보와 함께 사용하여 사용자의 위치를 추정할 수 있다.

스윗 스팟 영역 결정부(550)는 사용자 위치 추정부(540)가 추정한 사용자의 위치를 기초로 스윗 스팟 중심점을 결정할 수 있다. 이때, 스윗 스팟 영역 결정부(550)가 결정하는 스윗 스팟 중심점과 크기는 사용자의 선택에 따라 이동되거나 변화될 수 있다. 또한, 스윗 스팟 영역 결정부(550)는 출력 스피커 포맷 결정부(520)가 결정한 출력 스피커 포맷 정보를 참고하여 스윗 스팟의 중심점과 영역을 결정할 수 있다.

최적 음장 생성부(560)는 오디오 포맷 변환부(530)에서 출력 스피커 포맷에 따라 입력 오디오 신호를 변환한 출력 오디오 신호를 스윗 스팟 영역 결정부(550)에서 결정된 스윗 스팟 영역에서 최적 음장이 형성되도록 변환하여 출력할 수 있다.

도 6은 본 발명의 제1 실시예에 따른 오디오 신호 변환 방법을 도시한 플로우차트이다.

단계(610)에서 프로세서(120)는 입력 오디오 신호나 입력 오디오 신호의 헤더 정보나 비트스트림을 분석하여 입력 오디오 포맷을 결정할 수 있다. 또한, 프로세서(120)는 사용자로부터 선택된 오디오 포맷을 입력 오디오 포맷으로 결정할 수 있다.

단계(620)에서 프로세서(120)는 사용자로부터 입력 받은 스피커의 위치, 또는 청취 공간에 위치한 마이크로폰 또는 마이크로폰 어레이 신호를 분석하여 스피커들의 위치를 추정할 수 있다.

단계(630)에서 프로세서(120)는 단계(620)에서 추정한 스피커들의 위치를 기초로 출력 스피커 포맷을 결정할 수 있다. 또한, 사용자가 복수의 출력 스피커 포맷들 중 하나를 선택한 경우, 프로세서(120)는 단계(620)을 패스하고, 사용자에게 선택된 출력 스피커 포맷을 출력 스피커 포맷으로 결정할 수 있다.

단계(640)에서 프로세서(120)는 사용자로부터 입력 받은 위치, 또는 GUI 인터페이스 등과 같은 사용자 인터페이스를 통하여 사용자에게 선택된 위치를 기초로 사용자의 위치를 추정할 수 있다. 그리고, 프로세서(120)는 추정한 사용자의 위치를 기초로 스윗 스팟 중심점을 결정할 수 있다.

단계(650)에서 오디오 포맷 변환부(440)는 단계(640)에서 결정한 스윗 스팟 위치에서 최적 음향이 재현될 수 있도록 입력 오디오 신호를 출력 스피커 포맷에 맞게 출력 오디오 신호로 변환할 수 있다.

단계(660)에서 송신기(130)는 단계(650)에서 변환된 출력 오디오 신호를 스피커로 출력할 수 있다.

도 7은 본 발명의 제2 실시예에 따른 오디오 신호 변환 방법을 도시한 플로우차트이다.

단계(710)에서 프로세서(120)는 입력 오디오 신호나 입력 오디오 신호의 헤더 정보나 비트스트림을 분석하여 입력 오디오 포맷을 결정할 수 있다. 또한, 입력 오디오 포맷 결정부(510)는 사용자로부터 선택된 오디오 포맷을 입력 오디오 포맷으로 결정할 수 있다.

단계(720)에서 프로세서(120)는 사용자로부터 입력 받은 스피커의 위치, 또는 복수의 출력 스피커 포맷들 중 사용자에게 선택된 출력 스피커 포맷을 이용하여 출력 오디오 신호를 출력하는 스피커들의 위치를 추정할 수 있다. 또한, 출력 스피커 포맷 결정부(520)는 청취 공간에 위치한 마이크로폰 또는 마이크로폰 어레이 신호를 분석하여 스피커들의 위치를 추정할 수 있다. 그리고, 프로세서(120)는 추정한 스피커들의 위치를 기초로 출력 스피커 포맷을 결정할 수 있다.

단계(730)에서 프로세서(120)는 출력 스피커 포맷에 따라 입력 오디오 신호를 출력 오디오 신호로 변환할 수 있다. 이때, 오디오 포맷 변환부(530)는 채널 수를 변화시키는 업믹스 또는 다운믹스 과정뿐만 아니라 출력 스피커 포맷을 활용하여 입력 오디오 포맷이 가지고 있는 음질 및 음장감을 최대한 유지할 수 있도록 하는 일련의 필터링 또는 렌더링 과정을 수행하여 입력 오디오 신호를 출력 오디오 신호로 변환할 수 있다.

단계(740)에서 프로세서(120)는 사용자로부터 입력 받은 위치, 또는 GUI 인터페이스 등과 같은 사용자 인터페이스를 통하여 사용자에게 선택된 위치를 기초로 사용자의 위치를 추정할 수 있다.

단계(750)에서 프로세서(120)는 추정한 사용자의 위치를 기초로 스윗 스팟 중심점을 결정할 수 있다. 이때, 프로세서(120)가 결정하는 스윗 스팟 중심점과 크기는 사용자의 선택에 따라 이동되거나 변화될 수 있다. 또한, 프로세서(120)는 단계(720)에서 결정된 출력 스피커 포맷 정보를 참고하여 스윗 스팟의 중심점과 영역을 결정할 수 있다.

단계(760)에서 프로세서(120)는 단계(730)에서 입력 오디오 신호를 변환한 출력 오디오 신호를 단계(750)에서 결정된 스윗 스팟 영역에서 최적 음장이 형성되도록 변환할 수 있다.

단계(770)에서 송신기(130)는 단계(760)에서 변환된 출력 오디오 신호를 스피커로 출력할 수 있다.

본 발명은 출력 오디오 신호를 청취하는 사용자의 위치 및 출력 오디오 신호를 출력하는 스피커의 위치에 따라 입력 오디오 신호를 변환함으로써, 사용자의 오디오 시스템에 최적화된 음장을 재현할 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

120: 프로세서
130: 송신기

Claims

입력 오디오 포맷을 식별하는 단계;
스피커들의 위치를 기초로 출력 스피커 포맷을 결정하는 단계;
상기 입력 오디오 포맷으로부터 출력 스피커 포맷을 변환하는 단계; 및
상기 출력 스피커 포맷에 기초하여 렌더링하는 단계
를 포함하는 오디오 신호 변환 방법.
제1항에 있어서,
상기 변환하는 단계는,
상기 입력 오디오 신호의 포맷과 상기 출력 스피커 포맷이 다른 경우에, 상기 출력 스피커 포맷을 고려하여 입력 오디오 신호를 변환하는 오디오 신호 변환 방법.
제1항에 있어서,
상기 스피커의 위치는,
사용자로부터 입력받은 위치 또는 상기 사용자에 의해 선택된 위치를 통해 식별되는 오디오 신호 변환 방법.
제1항에 있어서,
상기 입력 오디오 신호를 변환하는 단계는,
상기 사용자와 관련된 스윗 스팟과 상기 출력 스피커 포맷에 대응하는 스피커들의 위치에 기초하여 입력 오디오 신호를 변환하는 오디오 신호 변환 방법.