KR100589446B1

KR100589446B1 - 음원의 위치정보를 포함하는 오디오 부호화/복호화 방법및 장치

Info

Publication number: KR100589446B1
Application number: KR1020040049746A
Authority: KR
Inventors: 이철희
Original assignee: 학교법인연세대학교
Priority date: 2004-06-29
Filing date: 2004-06-29
Publication date: 2006-06-14
Also published as: KR20060000780A

Abstract

본 발명에 의한 오디오 부호화 방법은, 외부 음원으로부터 발생한 오디오 신호를 수신하는 단계; 오디오 신호로부터 음원의 위치를 추정하여 음원의 위치정보를 결정하는 단계; 및 오디오 신호에 음원의 위치정보를 포함하여 부호화하는 단계를 구비하는 것을 특징으로 한다.

본 발명의 새로운 오디오 부호화 방법에 의하면 다채널 오디오 신호의 채널의 정보를 포함하여 다채널 오디오 신호를 감소된 수의 채널을 사용하여 부호화함으로써, 저장 또는 전송되는 다채널 오디오 신호의 데이터량을 획기적으로 줄일 수 있다.

앞으로 각광 받을 디지털 오디오 방송, 디지털 멀티미디어 방송 등은 제한된 대역폭 환경하에서 제공된다. 본 발명에 의하면 이러한 제한된 대역폭 환경하에서, 작은 용량의 데이터로도 양질의 오디오 방송을 전송할 수 있게 된다.

또한, 본 발명의 오디오 부호화 방법에서는 워터마크 기법에 의하여, 음원 위치 또는 채널 정보를 삽입함으로써, 기존의 오디오 신호의 호환성을 만족하면서도, 저장 또는 전송되는 다채널 오디오 신호의 데이터량을 획기적으로 줄일 수 있다.

Description

음원의 위치정보를 포함하는 오디오 부호화/복호화 방법 및 장치{Methods and systems for audio coding with sound source information}

도 1, 도 2는 본 발명의 바람직한 실시예에 의한 오디오 부호화 방법을 설명하기 위한 플로우차트이다.

도 3은 원점에 위치한 청자의 위치를 기준으로 하여 음원의 위치를 3차원 벡터로 나타내기 위한 직교 좌표계이다.

도 4는 원점에 위치한 청자의 위치를 기준으로 하여 음원의 위치를 3차원 직교 좌표계 및 구 좌표계에 의해 나타낸 예이다.

도 5는 원점에 위치한 청자를 기준으로 하여 구좌표계에 의하여 3개의 음원의 위치정보를 결정한 예를 나타낸다.

도 6 내지 도 12는 본 발명의 바람직한 실시예들에 의한 오디오 부호화 방법을 설명하기 위한 도면들이다.

도 13은 본 발명의 바람직한 일 실시예에 의한 오디오 복호화 방법을 설명하기 위한 플로우차트이다.

도 14 내지 도 17은 본 발명의 바람직한 실시예들에 의한 오디오 부호화 장치를 설명하기 위한 블록도들이다.

도 18 및 도 19는 본 발명의 바람직한 실시예들에 의한 오디오 복호화 장치 를 설명하기 위한 블록도들이다.

도 20은 본 발명의 바람직한 일 실시예들에 의한 오디오 부호화/복호화 장치를 설명하기 위한 블록도이다.

본 발명은 오디오 부호화/복호화에 관한 것으로서, 특히 다채널 오디오 부호화/복호화 방법 및 장치에 관한 것이다.

3차원 실감 음향재생을 위하여 다채널 오디오 신호가 필요하다. 그러나 다채널 오디오 신호는 많은 양의 데이터를 요구하며, 데이터 전송 시 큰 대역폭을 요구하게 된다.

따라서 제한된 대역폭을 사용하여 서비스를 제공하는 디지털 오디오 방송이나 디지털 멀티미디어 방송 등에 있어서는 일정 수준 이상의 양질의 서비스를 제공하는데 제약이 있다.

따라서, 본 발명이 이루고자 하는 기술적 과제는, 음원의 위치정보를 오디오 신호에 추가하여 부호화함으로써 저장 또는 전송되는 데이터량을 절감할 수 있는 오디오 부호화 방법 및 장치를 제공하는데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는, 상기 부호화 방법 및 장치에 의하여 부호화된 오디오 신호를 복호화하는 오디오 복호화 방법 및 장치를 제공하 는데 있다.

상기한 기술적 과제를 이루기 위한 본 발명에 의한 오디오 부호화 방법은, (a) 외부 음원으로부터 발생한 오디오 신호를 수신하는 단계; (b) 상기 오디오 신호로부터 상기 음원의 위치를 추정하여 상기 음원의 위치정보를 결정하는 단계; 및 (c) 상기 오디오 신호에 상기 음원의 위치정보를 포함하여 부호화하는 단계를 구비하는 것을 특징으로 한다.

상기한 기술적 과제를 이루기 위한 본 발명에 의한 오디오 복호화 방법은, (f) 음원 위치정보가 포함된 부호화된 오디오 신호를 수신하는 단계; (g) 상기 부호화된 오디오 신호를 복호화하여, 상기 음원 위치정보 및 원래의 오디오 신호를 추출하는 단계; 및 (h) 상기 복호화된 오디오 신호를 상기 음원 위치정보에 상응하는 스피커를 통해 출력하는 단계를 구비하는 것을 특징으로 한다.

상기한 기술적 과제를 이루기 위한 본 발명에 의한 오디오 부호화 장치는, 외부 음원으로부터 발생한 오디오 신호를 수신하는 오디오 수신부; 상기 오디오 신호로부터 상기 음원의 위치를 추정하여 상기 음원의 위치정보를 결정하는 음원위치 추정부; 및 상기 오디오 신호에 상기 음원의 위치정보를 포함하여 부호화하는 오디오 부호화부를 구비하는 것을 특징으로 한다.

상기한 기술적 과제를 이루기 위한 본 발명에 의한 오디오 복호화 장치는, 외부로부터 음원위치 정보가 포함된 부호화된 오디오 신호를 수신하는 수신부; 상기 부호화된 오디오 신호를 복호화하는 오디오 복호화부; 및 상기 복호화된 오디오 신호로부터 음원의 위치정보를 추출하고, 상기 음원의 위치정보에 상응하는 외부의 위치를 향하여 복호화된 오디로 신호를 출력하는 음원위치 정보 추출부를 구비하는 것을 특징으로 한다.

상기한 기술적 과제를 이루기 위한 본 발명에 의한 오디오 부호화/복호화 장치는, 외부 음원으로부터 발생한 오디오 신호를 수신하는 오디오 수신부; 상기 오디오 신호로부터 상기 음원의 위치를 추정하여 상기 음원의 위치정보를 결정하는 음원위치 추정부; 상기 오디오 신호에 상기 음원의 위치정보를 포함하여 부호화하는 오디오 부호화부; 상기 부호화된 신호를 외부로 전송하는 전송부; 상기 부호화된 신호를 저장하는 저장부; 외부로부터 음원위치 정보가 포함된 부호화된 오디오 신호를 수신하는 수신부; 상기 부호화된 오디오 신호를 복호화하는 오디오 복호화부; 상기 복호화된 오디오 신호로부터 음원의 위치정보를 추출하고, 상기 음원의 위치정보에 상응하는 외부의 위치로 복호화된 오디로 신호를 출력하는 음원위치 정보 추출부; 및 상기 음원 위치정보 추출부로부터 출력되는 오디오 신호를 수신하여 음향을 재생하는 하나 또는 그 이상의 스피커를 구비하는 것을 특징으로 한다.

이하, 본 발명의 바람직한 실시예에 의한 오디오 부호화/복호화 방법 및 장치의 구성 및 작용을 첨부한 도면들을 참조하여 상세히 설명한다.

일반적으로 현실감을 줄 수 있는 3차원 음향을 재현하기 위하여는 다채널의 오디오 신호가 필요하게 된다. 예로 DVD(digital video disk)의 경우 5.1 채널의 오디오를 지원하고 있다. 이러한 다채널 오디오의 문제점은 채널수에 비례하여 대량의 데이터를 요구하며, 대량의 데이터 전송 시 큰 대역폭이 필요하게 된다는 점 이다. 따라서 디지털 오디오 방송, 디지털 멀티미디어 방송 등과 같이 제한된 대역폭을 갖는 전송 채널을 사용하여 오디오 신호를 전송하려 할 때 많은 제약이 따르게 된다. 본 발명에서는 이러한 문제를 해결하기 위하여 음원의 위치정보를 포함하여 다채널 오디오 신호를 부호화 하는 새로운 오디오 부호화방법을 제시한다.

도 1은 본 발명의 바람직한 일 실시예에 의한 오디오 부호화 방법을 설명하기 위한 플로우차트이다.

도 1의 오디오 부호화 방법은, 먼저 외부의 음원에서 발생한 오디오 신호를 수신한다(S100). 오디오 신호의 음원의 위치를 추정하여 음원의 위치정보를 결정한다(S102). 오디오 신호에 음원의 위치정보를 포함하여 부호화한다(S104).

도 2는 본 발명의 바람직한 다른 실시예에 의한 오디오 부호화 방법을 설명하기 위한 플로우차트이다.

도 2의 오디오 부호화 방법은, 먼저 외부의 음원에서 발생한 오디오 신호를 수신한다(S100). 오디오 신호의 음원의 위치를 추정하여 음원의 위치정보를 결정한다(S102). 오디오 신호에 음원의 위치정보를 포함하여 부호화한다(S104). 음원의 위치정보를 포함하여 부호화된 데이터를 외부로 전송한다(S106).

여기서 S104 단계의 부호화 방법은 도 5 이하에서 상세히 설명하기로 한다.

음원의 위치정보는 위치 좌표계에 의한 정보일 수 있다. 또한 음원의 위치정보는 음원의 인덱스에 의한 위치 정보일 수 있다.

음원의 위치정보가 위치 좌표계에 의한 정보인 경우에, 음원의 위치정보는 직교좌표계 또는 구좌표계 등에 의한 결정될 수 있다.

도 3은 원점(O)에 위치한 청자를 기준으로 하여 음원의 위치정보를 3차원 벡터로 결정하기 위한 직교 좌표계(Cartesian coordinate)이다.

도 3을 참조하면, 청자(O)를 기준으로 한 3차원 공간상의 한 점의 위치를 전(+y), 후(-y), 좌(-x), 우(+x), 상(+z), 하(-z)로 결정할 수 있다.

도 4는 음원(100)의 위치를 3차원 직교 좌표계에 의한 (x, y, z) 좌표 정보, 또는 구좌표계(Spherical coordinate)에 의한 (R, θ, φ) 좌표 정보로 결정한 예를 나타낸다.

도 5는 음원이 3개인 경우에, 원점(O)에 위치한 청자(102)를 기준으로 하여 구표계에 의하여, 3개의 음원(100-1, 100-2, 100-3)의 위치를 각각 (R₁, θ₁, φ ₁), (R₂, θ₂, φ₂), (R₃, θ₃, φ₃)로 결정한 예를 나타낸다. 여기서 구좌표계에 의한 음원의 위치정보는 방향 정보만을 포함할 수 있다. 즉, 구좌표계의 거리(R) 성분을 결정하지 않으면, (θ, φ) 성분만이 남게 되고, 이것은 음원의 방향 정보만을 포함하는 것이 된다. 또한 음원의 위치정보는 전후좌우의 2차원 평면상에서의 방향 정보만을 포함할 수도 있다. 즉 구좌표계에서 φ 성분만을 음원 위치정보로 결정할 수도 있다. 이러한 음원의 위치정보의 정확도는 부호화를 위한 하드웨어의 설계 사양에 의하여 선택적으로 결정될 수 있다.

이러한 음원의 위치 정보는, 다중 마이크로폰 기법 및/또는 영상기반의 움직임 검출기법에 의하여 추정될 수 있다.

이중 널리 알려진 다중 마이크로폰 기법은, 인간의 양이효과(Binaural effect)를 응용하여 음원의 위치를 추적하는 기법으로서, 마이크로폰 어레이의 각 마이크로폰에 도달하는 소리의 강도차 및 시간차를 계산하여 음원까지의 거리 및/또는 음원의 방향을 추정한다.

또한 음원이 화자인 경우에는, 디지털 카메라 등에 의해 입력된 영상에서 화자의 입술의 움직임을 검출하여 음원의 위치를 추정할 수도 있다.

도 6은 본 발명의 바람직한 일 실시예에 의한 음원위치 정보를 포함한 오디오 부호화 방법을 설명하기 위한 도면으로서, 음원의 수보다 작은 수의 채널을 사용하여 음원의 위치정보를 포함한 오디오 신호를 부호화하는 모식도로서, 스테레오 채널을 사용하여 다수 음원의 오디오 신호를 부호화한 예이다.

도 6의 예에서는, 우측채널에는 제1음원의 위치정보 (R₁, θ₁, φ₁)와 제2음원의 위치정보 (R₂, θ₂, φ₂)를 포함하여, 각 음원으로부터 수신된 오디오 신호를 부호화 한다. 좌측채널에는 제3음원의 위치정보 (R₃, θ₃, φ₃)와 제3음원으로부터 수신된 오디오 신호를 부호화한다.

음원의 위치정보는, 임의의 새로운 프로토콜 또는 포멧을 사용하여 오디오 신호에 삽입될 수 있다. 이 경우 기존의 시스템과의 호환성 문제가 발생할 수 있다.

여기서 음원의 위치정보는, 디지털 워터마크(digital watermark) 기법에 의하여 오디오 신호에 삽입될 수 있다. 디지털 워터마크 기법은, 디지털 형식으로 되어 있는 지적재산에 대한 저작권보호를 등의 목적으로 멀티미디어 데이터에 특정 데이터 패턴을 삽입하는 것으로 널리 알려진 기법이다.

도 7은 부호화된 신호에 음원위치 정보가 포함되어 있음을 나타내는 문자열을 포함하는 오디오 부호화 방법을 설명하기 위한 도면이다.

음원의 위치가 워터마크 기법을 이용하여 삽입되어 있다는 것을 인지하는 오디오 재생 시스템은 효율적으로 음원의 위치정보를 재생할 수 있다. 이 때 오디오 신호에 음원의 위치정보가 포함되어 있음을 나타내는 문자열을 워터마크 기법에 의하여 삽입하고, 오디오 재생 시스템은 이러한 문자열이 검출된 경우에, 음원의 위치정보를 추출하도록 구현될 수 있다.

도 7에서는 이러한 문자열을 SSLI(sound source location included)라 표시하고, 오디오 데이터의 초기에 SSLI를 삽입하여 부호화한다.

오디오 재생시스템이 항상 오디오 데이터의 처음부터 재생을 시작하지는 않으므로, 이러한 SSLI 문자열은 오디오 신호에 주기적으로 삽입되어 부호화될 수 있다.

또한 SSLI 신호는 예컨대 SSLI1, SSLI2, ... , SSLIn 과 같이 추가문자/숫자를 삽입하여 음원위치정보를 기록하는 방식에 대한 추가정보를 제공할 수 있다. 즉 음성 위치정보의 표현방식, 사용 좌표계 등의 차이에 따라 예컨대 다음의 표 1과 같이 문자열(SSLI)을 구분할 수 있다.

	좌표계/방식	유지기간 정보	진폭 정보	정보 종류
SSLI1	직교좌표계	Ｘ	Ｘ	음원 위치
SSLI2	직교좌표계	Ｘ	○	음원 위치
SSLI3	직교좌표게	○	○	음원 위치
SSLI4	구좌표계	Ｘ	Ｘ	음원 위치
SSLI5	구좌표계	Ｘ	○	음원 위치
SSLI6	구좌표계	○	○	음원 위치
SSLI7	5.1 채널	Ｘ	Ｘ	채널 정보
SSLI8	5.1 채널	Ｘ	○	채널 정보
SSLI9	5.1 채널	○	○	채널 정보

표 1의 유지기간 정보에 대하여는 도 8, 진폭정보에 대하여는 도 12에서 각각 상세히 설명하기로 한다.

도 8은 본 발명의 바람직한 다른 실시예에 의한 음원위치 정보를 포함한 오디오 부호화 방법을 설명하기 위한 도면으로서, 오디오 신호에 음원의 위치정보 및 해당 음원에서 발생하는 소리의 지속시간에 대한 정보를 포함하여 부호화하는 예를 나타낸다.

도 8의 예에서는, 해당 음원에서 발생하는 소리의 지속시간(음원유지 기간)에 대한 정보(t)를 포함한 (R, θ, φ, t) 형식의 정보를 포함하여 오디오 신호를 부호화한다. (R, θ, φ, t)는 앞으로 t초 동안의 음원의 위치는 (R, θ, φ)임을 의미한다. (R₁, θ₁, φ₁, t₁), (R₂, θ₂, φ₂, t₂), (R₃, θ₃, φ₃, t₃)는 각각 제1음원, 제2음원, 제3음원의 정보를 나타낸다.

본 발명의 오디오 부호화 방법을 이용하여 다채널의 오디오를 감소된 수의 채널을 사용하여 전송할 수 있다. 도 9는 DVD의 5.1채널 중 5채널을 스테레오 신호로 바꾸는 실시예를 보여준다.

예컨대 표 2와 같이 5개의 채널에 고유의 코드를 부여하고, 이 코드를 사용하여 현 신호가 5개의 채널 중 어느 채널에서 왔는지 나타낼 수 있다. 이 경우 3bit의 데이터가 필요하지만 1번 채널에는 2번 채널이 절대로 오지 않고, 2번 채널에는 1번 채널이 절대로 오지 않는다고 가정하면, 2개의 bit를 갖고도 코드를 나타낼 수 있다. 즉 표 2를 참조하면, 우측 전송 채널의 코드 "00"은 채널 1, "01"은 채널 3, "10"은 채널 4, "11"은 채널 5를 나타낸다. 또한 좌측 전송 채널의 코드 "00"은 채널 2, "01"은 채널 3, "10"은 채널 4, "11"은 채널 5를 나타낸다. 우퍼 채널 등과 같은 추가의 채널이 필요할 경우 코드에 추가의 비트를 할당하면 된다. 표 2에서는 우퍼 채널을 나타내지 않았지만, 우퍼 채널 또는 그 이상의 채널 인덱스도 마찬가지로 채널 코드로 나타낼 수 있다.

우측 전송 채널		좌측 전송 채널
채널 코드	채널 인덱스	채널 코드	채널 인덱스
00	채널 1	00	채널 2
01	채널 3	01	채널 3
10	채널 4	10	채널 4
11	채널 5	11	채널 5

도 9를 참조하면, 위치 좌표계에 의한 음원 위치 정보 대신에 채널 코드를 이용하여, 다채널 오디오 신호를 감소된 수의 채널을 사용하여 전송되는 것을 알 수 있다.

우측 채널에는 오디오 신호화 함께 "00", "11", "10" 이 부호화되어, 우측 채널 하나에 3개 채널(채널 1, 채널 5, 채널 4)의 오디오 신호가 전송된다.

좌측 채널에는 오디오 신호화 함께 "00", "01" 이 부호화되어, 좌측 채널 하나에 2개 채널(채널 2, 채널 3)의 오디오 신호가 전송된다.

도 10은 2개 이상의 채널에 동시에 오디오 신호가 발생한 경우를 나타낸다. 즉 동일한 기간에 채널 2, 채널 3, 채널 5에서 신호가 발생한다.

도 11은 도 10의 5채널을 스테레오 채널 신호로 바꾸는 실시예를 보여준다. 도 11의 경우와 같이 2개 이상의 채널에 오디오 신호가 동시에 발생하면 함께 발생한 모든 오디오 신호를 합하여 부호화하고 해당 채널 정보를 모두 첨가한다.

도 11을 참조하면, 3개의 채널의 신호가 동시에 발생하는 기간에 우측채널에는 채널 3과 채널 5의 음원 인덱스를 동시에 부여하고, 좌측채널에는 채널 2의 인덱스만을 부여한다.

이러한 신호를 복호화할 때, 우측채널에 2개의 음원의 인덱스가 검출되면, 그 기간에 우측채널에서 복호화된 오디오 신호를 동일하게 채널 3과 채널 5에 분배하여 재생할 수 있다.

도 11의 경우에는, 원래의 채널 3과 채널 5가 동일한 신호가 아닌 경우에, 2채널의 오디오를 정확하게 분리하여 재생할 수 없다. 단 각 채널의 오디오 특성, 주파수 특성 등을 고려하여 상당부분 분리하는 것이 가능하며, 이러한 오디오 분리 기술은 오래 전부터 연구되고 개발되어 왔다. 이러한 오디오 분리기술을 사용하여 합하여진 오디오 신호를 분리할 수 있으며, 분리에 필요한 주파수 특성 등과 같은 추가의 정보를 워터마크 기법 등을 이용하여 추가로 부호화 할 수 있다. 그러나 일반적으로 2개 이상의 신호가 합하여진 경우, 합한 신호에서 원래의 신호를 분리하는 것은 대부분의 경우 불가능하다.

따라서 이러한 점을 개선하기 위하여 음원의 진폭정보를 포함하여 오디오 신호를 부호화 하는 것이 더욱 바람직하다.

도 12는 둘 이상의 채널에서 동시에 오디오 신호가 발생한 경우에, 각 채널의 진폭 정보를 포함하여 부호화한 실시예이다. 즉 채널 3의 인덱스에 30%, 채널 5의 인덱스에 100%의 진폭정보를 포함한다.

이러한 신호를 복호화할 때, 우측채널에 2개의 음원의 인덱스가 검출되고, 그 기간에 우측채널에서 복호화된 오디오 신호의 진폭의 30%를 채널 3에 분배하고, 그 진폭의 100%를 채널 5에 분배하여 도 11의 경우보다 더 정확히 오디오를 재생할 수 있다. 상기 기술한 방법은 채널 정보뿐만 아니라 음원 위치정보에도 동일하게 적용될 수 있다.

다채널 오디오 신호에서 각 채널을 음원의 위치로 본다면 다채널 오디오 신호를 감소된 채널을 사용하여 채널정보를 포함하여 부호화하는 방법과 음원의 위치를 추정한 후 음원의 위치정보를 포함하여 부호화하는 방법은 동일하게 이해할 수 있다. 즉 다채널 오디오 신호에서는 채널 정보는 음원의 위치정보로 이해하여 부호화하며, 재생 시 해당 채널에 상응하는 스피커 또는 사용 가능한 최적의 스피커로 분배한다. 또한 포함되어 있는 정보를 분별하기 위하여 표 1과 같은 방법을 사용할 수 있다. 따라서 본 발명에서는 음원의 위치정보와 다채널 오디오 신호의 채널 정보는 동일한 맥락에서 이해될 수 있으면, 음원의 위치정보라 함은 문맥과 적용대상에 따라 음원 위치정보 또는 다채널 오디오의 채널 정보로 해석되어야 할 것 이다.

도 13의 오디오 복호화 방법은, 먼저 음원 위치정보가 포함된 부호화된 오디 오 신호를 수신한다(S200). 부호화된 오디오 신호를 복호화하여, 음원 위치정보 및 원래의 오디오 신호를 추출한다(S202). 복호화된 오디오 신호를 음원 위치정보에 상응하는 스피커를 통해 출력한다(S204).

도 8의 실시예에 의한 오디오 부호화 방법에 대응하는 복호화 방법의 실시예로서 S202 단계는, 부호화된 오디오 신호를 복호화하여 음원 위치정보 및 음원 유지 기간의 정보를 추출할 수 있다. 본 발명에서 '음원유지기간'이라 함은 해당 음원에서 소리가 발생하는 지속시간을 의미한다. 이 때, S204 단계는, 복호화된 오디오 신호를 음원 위치정보에 상응하는 스피커를 통해 음원이 유지되는 기간동안 출력할 수 있다.

도 12의 실시예에 의한 오디오 부호화 방법에 대응하는 복호화 방법의 실시예로서 S202 단계는, 부호화된 오디오 신호를 복호화하여 채널 정보 및 채널 진폭정보를 추출하고, 오디오 신호에 진폭정보를 가중하여 해당 채널에 오디오 신호를 재생할 수 있다.

또한, 도 7의 실시예에 의한 오디오 부호화 방법에 대응하는 복호화 방법의 실시예로서 S202 단계는, 음원의 위치정보가 포함되어 있음을 나타내는 문자열(SSLI)이 검출된 경우, 복호기는 음원의 위치정보도 함께 부호화되었음을 인지하고, 복호시 음원위치정보를 찾아 추출한다. 음원의 위치정보가 포함되어 있음을 나타내는 문자열을 사용하지 않고도 음원위치정보를 찾는 것이 가능하지만 이 경우, 불필요한 연산을 발생시킬 수 있다. 또한 표 1과 같은 다양한 방식으로 음원위치를 부호화할 경우, 특수문자를 사용하는 것이 보다 효율적이다.

도 14는 본 발명의 바람직한 일 실시예에 의한 오디오 부호화 장치를 설명하기 위한 블록도로서, 오디오 수신부(200), 음원위치 추정부(202), 오디오 부호화부(204)를 구비한다.

오디오 수신부(200)는 외부 음원으로부터 발생한 오디오 신호를 수신한다. 음원위치 추정부(202)는 오디오 신호로부터 음원의 위치를 추정하여 음원의 위치정보를 결정한다. 오디오 부호화부(204)는 오디오 신호에 음원의 위치정보를 포함하여 부호화한다.

이 중 널리 알려진 다중 마이크로폰 기법은, 인간의 양이효과(Binaural effect)를 응용하여 음원의 위치를 추적하는 기법으로서, 마이크로폰 어레이의 각 마이크로폰에 도달하는 소리의 강도차 및 시간차를 계산하여 음원까지의 거리 및/또는 음원의 방향을 추정한다.

또한 음원이 화자인 경우에는, 디지털 카메라 등에 의해 입력된 영상에서 화자의 입술의 움직임을 검출하여 음원의 위치를 추정할 수도 있다. 음원이 알려진 경우, 음원을 인식하여 위치를 추적할 수도 있다. 또한 사람이 수동적으로 음원의 위치를 찾아 부호화할 수도 있다.

다중 마이크로폰 기법에 의해 음원의 위치를 추정하기 위하여, 오디오 수신부(200)는 둘 이상의 마이크로폰을 구비한다. 본 발명의 부호화 장치는 둘 이상의 마이크로폰이 구비된 마이크로폰 어레이에 의해 음원의 위치를 추정할 수 있다.

음원위치 추정부(202)는, 둘 이상의 마이크로폰에 오디오 신호가 수신되는 시간차를 이용하여, 음원의 방향을 추정할 수 있다. 또한 음원위치 추정부(202)는, 둘 이상의 마이크로폰에 오디오 신호가 수신되는 시간차 및 강도차를 이용하여, 음원의 위치를 추정할 수도 있다. 다중 마이크로폰에 의해 구비된 오디오 수신부(200)는 추가적으로 수신된 오디오 신호의 신호대 잡음비를 높이는 효과를 얻을 수 있다.

도 15는 도 14의 음원위치 추정부의 바람직한 일 실시예를 설명하기 위한 블록도로서, 영상입력부(300), 얼굴검출부(302), 화자 위치 검출부(304)를 구비한다. 도 15의 음원위치 추정부의 실시예는 음원이 화자인 경우에 화자의 위치를 추정하기 위해 구비될 수 있다.

영상입력부(300)는 화자의 영상을 촬영하는 것으로서, 디지털 비디오 카메라 등에 의해 구현될 수 있다. 얼굴검출부(302)는 촬영된 영상에서 얼굴 영역을 검출한다. 화자 위치 검출부(304)는 검출된 얼굴에서 입술의 움직임을 검출하여 화자의 위치를 검출한다.

도 16은 도 14의 변형된 실시예에 의한 오디오 부호화 장치를 설명하기 위한 블록도로서, 오디오 부호화부(204)에 의해 부호화된 신호를 외부로 전송하는 전송부(206)를 더 구비한다.

도 17은 도 16의 변형된 실시예에 의한 오디오 부호화 장치를 설명하기 위한 블록도로서, 오디오 부호화부(204)에 의해 부호화된 신호를 저장하는 저장부(208)를 더 구비한다. 여기서 전송부(206)는 오디오 부호화부(204)에 의해 부호화된 오 디오 신호를 외부(OUT3)로 직접 전송할 수 있고, 또한 저장부(208)로부터 부호화된 오디오 신호를 읽어들여 외부(OUT3)로 전송할 수도 있다.

도 16 및 도 17에서 전송부(206)는, 부호화된 오디오 신호를 소정 전송방식에 의하여 전송되는 신호로 변조하는 변조기(미도시)를 구비할 수 있다. 또한 전송부(206)는, 전송 신호로 변조된 신호를 소정 방식에 의해 다중화하는 다중화기(미도시)를 더 구비할 수 있다.

전송부(206)를 구비한 본 발명의 오디오 부호화 장치는, 디지털 멀티미디어 방송의 송신장치로서 사용될 수 있다. 이 경우 전송부(206)는 디지털 멀티미디어 방송의 전송 규격에 따라, 변조 및 다중화를 수행하기 위한 변조기 및 다중화기를 구비할 수 있다. 디지털 멀티미디어 방송의 전송 규격에는 예컨대 8-VSB(Vestigial Side Bands)방식, COFDM(Coded Orthogonal Frequency Division Multiplex) 방식 등이 있다.

도 18은 본 발명의 바람직한 일 실시예에 의한 오디오 복호화 장치를 설명하기 위한 블록도로서, 수신부(210), 오디오 복호화부(212), 음원 위치정보 추출부(214)를 구비한다. 도 18의 오디오 복호화 장치는 하나 또는 그 이상의 스피커들을 구비한 오디오 재생장치로서 구현될 수 있다.

수신부(210)는 외부로부터 음원위치 정보가 포함된 부호화된 오디오 신호(IN1)를 수신한다.

오디오 복호화부(212)는 부호화된 오디오 신호를 복호화한다.

음원 위치정보 추출부(214)는 복호화된 오디오 신호로부터 음원의 위치정보 를 추출하고, 음원의 위치정보에 상응하는 외부의 위치를 향하여 복호화된 오디로 신호를 출력한다. 여기서 음원위치정보는 경우에 따라 채널정보로 인식될 수 있다.

하나 또는 그 이상의 스피커는 음원 위치정보 추출부(214)로부터 출력되는 오디오 신호를 수신하여 음향을 재생한다.

도 19는 도 18의 변형된 실시예에 의한 오디오 복호화 장치를 설명하기 위한 블록도로서, 수신된 신호를 저장하는 저장부(216)를 더 구비한다. 여기서 오디오 복호화부(212)는 수신부(210) 또는 저장부(216)로부터 입력받은 부호화된 오디오 신호를 복호화한다.

도 20은 본 발명의 바람직한 실시예에 의한 오디오 부호화/복호화 장치를 설명하기 위한 블록도이다.

오디오 수신부(400)는 외부의 복수개의 제1 내지 제n 음원으로부터 발생한 오디오 신호를 수신한다. 음원위치 추정부(402)는 오디오 신호로부터 음원의 위치를 추정하여 음원의 위치정보를 결정한다. 오디오 부호화부(404)는 오디오 신호에 음원의 위치정보를 포함하여 부호화한다. 저장부(408)는 부호화된 신호를 저장한다. 전송부(406)는 부호화된 신호를 외부(OUT)로 전송한다. 여기서 전송될 부호화된 신호는, 오디오 부호화부(404) 또는 저장부(408)로부터 제공된다.

수신부(410)는 외부로부터 음원위치 정보가 포함된 부호화된 오디오 신호(IN)를 수신한다.

오디오 복호화부(412)는 부호화된 오디오 신호를 복호화한다. 여기서 복호화될 오디오 신호는 오디오 부호화부(404), 저장부(408) 또는 수신부(410)로부터 제 공된다.

음원위치 정보 추출부(414)는 복호화된 오디오 신호로부터 음원의 위치정보를 추출하고, 음원의 위치정보에 상응하는 외부의 위치로 복호화된 오디로 신호를 출력한다.

하나 또는 그 이상의 스피커는 음원 위치정보 추출부(414)로부터 출력되는 오디오 신호를 수신하여 음향을 재생한다.

도 20에서는 음원의 개수와 스피커의 개수가 동일하게 n개인 것을 예시하였으나, 이에 한정하는 것은 아니다. 본 발명의 도 18 내지 도 20의 장치들에 구비된 스피커는, 복호화된 다채널 오디오 신호의 채널수와 같은 개수가 구비될 수도 있고, 그렇지 않을 수도 있다. 당업자라면, 복호화된 다채널 오디오 신호의 채널수와 복호화 장치에 구비된 스피커의 개수가 다르다 하더라도, 오디오 신호를 적절하게 재분배하여 음향을 재생할 수 있음은 물론이다.

전술한 본 발명에 의한 오디오 부호화/복호화 방법은, 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 프로그램이나 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광데이터 저장장치 등이 있다. 여기서, 기록매체에 저장되는 프로그램이라 함은 특정한 결과를 얻기 위하여 컴퓨터 등의 정보처리능력을 갖는 장치 내에서 직접 또는 간접적으로 사용되는 일련의 지시 명령으로 표현된 것을 말한다. 따라 서, 컴퓨터라는 용어도 실제 사용되는 명칭의 여하에 불구하고 메모리, 입출력장치, 연산장치를 구비하여 프로그램에 의하여 특정의 기능을 수행하기 위한 정보처리능력을 가진 모든 장치를 총괄하는 의미로 사용된다.

또한, 전술한 본 발명에 의한 오디오 부호화/복호화 방법은, 컴퓨터상에서 스키매틱(schematic) 또는 초고속 집적회로 하드웨어 기술언어(VHDL, Verilog-HDL 등) 등에 의해 작성되고, 컴퓨터에 연결되어 프로그램 가능한 집적회로 예컨대 FPGA(Field Programmable Gate Array)에 의해 구현될 수 있다. 상기 기록매체는 이러한 프로그램 가능한 집적회로를 포함한다. 또한 상기 기록매체는 상기 방법이 집적회로에 의해 구현된 ASIC(application specific integrated circuit)을 포함하는 개념이다.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

상술한 바와 같이, 본 발명의 오디오 부호화/복호화 방법 및 장치에 의하면 다음과 같은 효과를 얻을 수 있다.

일반적으로 현실감을 줄 수 있는 3차원 음향을 재현하기 위하여는 다채널의 오디오 신호가 필요하게 된다. 이러한 다채널 오디오의 문제점은 채널수에 비례하여 대량의 데이터를 요구하며, 따라서 데이터 전송 시 큰 대역폭이 필요하게 된다는 점이다. 따라서 제한된 대역폭을 갖는 전송 채널을 사용하여 오디오 신호를 전송하려 할 때 많은 제약이 따르게 된다.

본 발명의 새로운 오디오 부호화 방법에 의하면 음원 위치정보 또는 채널정보를 포함하여 다채널 오디오 신호를 부호화함으로써, 저장 또는 전송되는 다채널 오디오 신호의 데이터량을 획기적으로 줄일 수 있다.

또한, 본 발명의 오디오 부호화 방법에서는 워터마크 기법에 의하여, 음원의 위치정보를 삽입함으로써, 기존의 오디오 신호의 호환성을 만족하면서도, 저장 또는 전송되는 다채널 오디오 신호의 데이터량을 획기적으로 줄일 수 있다.

본 발명은 이상에서 설명되고 도면들에 표현된 예시들에 한정되는 것은 아니다. 전술한 실시 예들에 의해 가르침 받은 당업자라면, 다음의 특허 청구 범위에 기재된 본 발명의 범위 및 목적 내에서 치환, 소거, 병합 등에 의하여 전술한 실시 예들에 대해 많은 변형이 가능할 것이다.

Claims

(a) 외부 음원으로부터 발생한 오디오 신호를 수신하는 단계;

(b) 상기 오디오 신호로부터 상기 음원의 위치를 추정하여 상기 음원의 위치정보를 결정하는 단계; 및

(c) 상기 오디오 신호에 상기 음원의 위치정보를 포함하여 부호화하는 단계를 구비하는 것을 특징으로 하는 오디오 부호화 방법.
제1항에 있어서,

상기 음원의 위치정보는 위치 좌표계에 의한 정보인 것을 특징으로 하는 오디오 부호화 방법.
제2항에 있어서,

상기 음원의 위치정보는 위치 좌표계에 의한 방향 정보인 것을 특징으로 하는 오디오 부호화 방법.
제1항에 있어서,

상기 음원의 위치정보는 다채널 오디오 신호의 채널 정보인 것을 특징으로 하는 오디오 부호화 방법.
제1항에 있어서, 상기 (b) 단계는,

다중 마이크로폰 기법에 의하여 상기 음원의 위치를 추정하는 것을 특징으로 하는 오디오 부호화 방법.
제1항에 있어서, 상기 (b) 단계는,

상기 음원이 화자인 경우에,

상기 화자의 입술의 움직임을 영상기반으로 검출하여 상기 음원의 위치를 추정하는 것을 특징으로 하는 오디오 부호화 방법.
제1항에 있어서, 상기 (c) 단계는,

워터마크 기법을 사용하여 상기 오디오 신호에 상기 음원의 위치정보를 삽입하여 부호화하는 것을 특징으로 하는 오디오 부호화 방법.
제1항에 있어서, 상기 (c) 단계는,

상기 오디오 신호에 포함된 상기 음원의 위치정보의 형식을 나타내는 문자열을 삽입하는 단계를 구비하는 것을 특징으로 하는 오디오 부호화 방법.
제8항에 있어서,

상기 문자열은 상기 오디오 신호에 주기적으로 삽입되는 것을 특징으로 하는 오디오 부호화 방법.
제8항에 있어서,

상기 문자열은 워터마크 기법에 의하여 상기 오디오 신호에 삽입되는 것을 특징으로 하는 오디오 부호화 방법.
제1항에 있어서,

상기 (b) 단계는 상기 오디오 신호로부터 음원의 위치를 추정하여 음원이 유지되는 기간의 정보를 결정하는 단계를 더 구비하고,

상기 (c) 단계는 상기 오디오 신호에 상기 음원의 위치정보 및 상기 음원이 유지되는 기간의 정보를 포함하여 부호화하는 것을 특징으로 하는 오디오 부호화 방법.
제1항에 있어서,

상기 (b) 단계는 상기 오디오 신호의 상기 각 음원마다의 진폭정보를 결정하는 단계를 더 구비하고,

상기 (c) 단계는 상기 오디오 신호에 상기 음원의 위치정보 및 상기 음원의 진폭정보를 포함하여 부호화하는 것을 특징으로 하는 오디오 부호화 방법.
제1항에 있어서,

(d) 상기 (c) 단계 후에, 상기 부호화된 데이터를 저장하는 단계를 더 구비하는 것을 특징으로 하는 오디오 부호화 방법.
제1항에 있어서,

(e) 상기 (c) 단계 후에, 상기 부호화된 데이터를 외부로 전송하는 단계를 더 구비하는 것을 특징으로 하는 오디오 부호화 방법.
(f) 음원 위치정보가 포함된 부호화된 오디오 신호를 수신하는 단계;

(g) 상기 부호화된 오디오 신호를 복호화하여, 상기 음원 위치정보 및 원래의 오디오 신호를 추출하는 단계; 및

(h) 상기 복호화된 오디오 신호를 상기 음원 위치정보에 상응하는 스피커를 통해 출력하는 단계를 구비하는 것을 특징으로 하는 오디오 복호화 방법.
제15항에 있어서,

상기 (g) 단계는 상기 부호화된 오디오 신호를 복호화하여, 상기 음원 위치정보 및 상기 음원이 유지되는 기간의 정보를 추출하고,

상기 (h) 단계는 상기 복호화된 오디오 신호를 상기 음원 위치정보에 상응하는 스피커를 통해상기 음원이 유지되는 기간동안 출력하는 것을 특징으로 하는 오디오 복호화 방법.
제15항에 있어서, 상기 (g) 단계는

상기 부호화된 오디오 신호를 복호화하여, 상기 음원 위치정보 및 상기 음원의 진폭정보를 추출하고, 상기 오디오 신호에 상기 진폭정보를 가중하여 상기 음원 의 위치에 따른 오디오 신호를 복원하는 것을 특징으로 하는 오디오 복호화 방법.
외부 음원으로부터 발생한 오디오 신호를 수신하는 오디오 수신부;

상기 오디오 신호로부터 상기 음원의 위치를 추정하여 상기 음원의 위치정보를 결정하는 음원위치 추정부; 및

상기 오디오 신호에 상기 음원의 위치정보를 포함하여 부호화하는 오디오 부호화부를 구비하는 것을 특징으로 하는 오디오 부호화 장치.
제18항에 있어서, 상기 오디오 수신부는,

둘 이상의 마이크로폰을 구비하는 것을 특징으로 하는 오디오 부호화 장치.
제18항에 있어서, 상기 음원위치 추정부는,

상기 음원이 화자인 경우에,

상기 화자의 영상을 촬영하는 영상입력부;

상기 촬영된 영상에서 얼굴 영역을 검출하는 얼굴검출부; 및

상기 검출된 얼굴에서 입술의 움직임을 검출하여 상기 화자의 위치를 검출하는 화자 위치 검출부를 구비하는 것을 특징으로 하는 오디오 부호화 장치.
제18항에 있어서, 상기 오디오 부호화부는,

워터마크 기법을 사용하여 상기 오디오 신호에 상기 음원의 위치정보를 삽입 하여 부호화하는 것을 특징으로 하는 오디오 부호화 장치.
제18항에 있어서, 상기 오디오 부호화부는,

상기 오디오 신호에 상기 음원의 위치정보가 포함되어 있음을 나타내는 문자열을 삽입하여 부호화하는 것을 특징으로 하는 오디오 부호화 장치.
제22항에 있어서,

상기 문자열은 상기 오디오 신호에 주기적으로 삽입되는 것을 특징으로 하는 오디오 부호화 장치.
제22항에 있어서,

상기 문자열은 워터마크 기법에 의하여 상기 오디오 신호에 삽입되는 것을 특징으로 하는 오디오 부호화 장치.
제18항에 있어서,

상기 음원위치 추정부는 상기 오디오 신호로부터 음원의 위치를 추정하여 음원이 유지되는 기간의 정보를 결정하고,

상기 오디오 부호화부는 상기 오디오 신호에 상기 음원의 위치정보 및 상기 음원이 유지되는 기간의 정보를 포함하여 부호화하는 것을 특징으로 하는 오디오 부호화 장치.
제18항에 있어서,

상기 음원위치 추정부는 상기 오디오 신호의 상기 각 음원마다의 진폭정보를 결정하고,

상기 오디오 부호화부는 상기 오디오 신호에 상기 음원의 위치정보 및 상기 음원의 진폭정보를 포함하여 부호화하는 것을 특징으로 하는 오디오 부호화 장치.
제18항에 있어서,

상기 부호화된 신호를 외부로 전송하는 전송부를 더 구비하는 것을 특징으로 하는 오디오 부호화 장치.
제27항에 있어서, 상기 전송부는,

상기 부호화된 신호를 소정 전송방식에 의하여 전송되는 신호로 변조하는 변조기를 구비한 것을 특징으로 하는 오디오 부호화 장치.
제28항에 있어서, 상기 전송부는,

상기 변조된 신호를 소정 방식에 의해 다중화하는 다중화기를 더 구비한 것을 특징으로 하는 오디오 부호화 장치.
제18항에 있어서,

상기 부호화된 신호를 저장하는 저장부를 더 구비하는 것을 특징으로 하는 오디오 부호화 장치.
외부로부터 음원위치 정보가 포함된 부호화된 오디오 신호를 수신하는 수신부;

상기 부호화된 오디오 신호를 복호화하는 오디오 복호화부; 및

상기 복호화된 오디오 신호로부터 음원의 위치정보를 추출하고, 상기 음원의 위치정보에 상응하는 외부의 위치를 향하여 복호화된 오디로 신호를 출력하는 음원위치 정보 추출부를 구비하는 것을 특징으로 하는 오디오 복호화 장치.
제31항에 있어서,

상기 수신된 신호를 저장하는 저장부를 더 구비하고,

상기 오디오 복호화부는 상기 수신부 또는 상기 저장부로부터 입력받은 부호화된 오디오 신호를 복호화하는 것을 특징으로 하는 오디오 복호화 장치.
제32항에 있어서,

상기 음원 위치정보 추출부로부터 출력되는 오디오 신호를 수신하여 음향을 재생하는 하나 또는 그 이상의 스피커를 더 구비하는 것을 특징으로 하는 오디오 복호화 장치.
외부 음원으로부터 발생한 오디오 신호를 수신하는 오디오 수신부;

상기 오디오 신호로부터 상기 음원의 위치를 추정하여 상기 음원의 위치정보를 결정하는 음원위치 추정부;

상기 오디오 신호에 상기 음원의 위치정보를 포함하여 부호화하는 오디오 부호화부;

상기 부호화된 신호를 외부로 전송하는 전송부;

상기 부호화된 신호를 저장하는 저장부;

외부로부터 음원위치 정보가 포함된 부호화된 오디오 신호를 수신하는 수신부;

상기 부호화된 오디오 신호를 복호화하는 오디오 복호화부;

상기 복호화된 오디오 신호로부터 음원의 위치정보를 추출하고, 상기 음원의 위치정보에 상응하는 외부의 위치로 복호화된 오디로 신호를 출력하는 음원위치 정보 추출부; 및

상기 음원 위치정보 추출부로부터 출력되는 오디오 신호를 수신하여 음향을 재생하는 하나 또는 그 이상의 스피커를 구비하는 것을 특징으로 하는 오디오 부호화/복호화 장치.
제1항 내지 제17항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.