KR100440454B1

KR100440454B1 - 가상 음향 환경을 처리하는 방법 및 시스템

Info

Publication number: KR100440454B1
Application number: KR10-2000-7004231A
Authority: KR
Inventors: 후오패니에미이이리
Original assignee: 노키아 오와이제이
Priority date: 1997-10-20
Filing date: 1998-10-19
Publication date: 2004-07-14
Also published as: FI974006A0; RU2234819C2; BR9815208B1; FI974006A; JP4684415B2; US6343131B1; FI116990B; AU9543598A; EP1023716B1; WO1999021164A1; CN1282444A; BR9815208A; DE69841162D1; JP2001521191A; ATE443315T1; CN1122964C; KR20010031248A; EP1023716A1

Abstract

가상 음향 환경은 소리를 반사하고 흡수하며 전송하는 표면들을 구비한다. 매개변수화된 필터들은 그 표면들을 나타내는데 사용되고, 필터들의 전송 함수를 규정하는 매개변수들이 매개변수화된 필터들을 나타내기 위해 제공된다.

Description

가상 음향 환경을 처리하는 방법 및 시스템{A method and a system for processing a virtual acoustic environment}

가상 음향 환경은 전기적으로 재생된 소리를 듣고 있는 사람이 자신이 어느 공간에 있는지를 상상할 수 있는데 도움을 주는, 청각적 인상을 말한다. 가상 음향 환경을 만들기 위한 간단한 수단은 반향을 추가하는 것이며, 그에 따라 청취자는 공간에 대한 인상을 얻는다. 복잡한 가상 음향 환경은 흔히 어떤 실제 공간을 모방하려고 하며, 이에 따라 그것은 상기 공간의 청각화로 흔히 불려진다. 이 개념은 예를 들어 엠 클라이너, 비.아이. 달랜벡, 피.스벤슨의 "청각화-개략"이라는,1993년의, J.Audio Eng.Soc., 41권, 11호, 861 내지 875 페이지에 나오는 조항에 설명되어 있다. 청각화는 가상 시각 환경의 생성과 자연스러운 방법으로 결합될 수 있으며, 이에 따라 적합한 디스플레이 장치 및 스피커 또는 이어폰을 갖춘 사용자는 원하는 실제나 상상의 공간을 관찰할 수 있고, 심지어는 그 공간으로 "이동"할 수 있으며, 그에 따라 그의 시청각 인상은 그가 상기 환경의 어느 포인트를 그의 관측 포인트로 선택하느냐에 따라 달라진다.

가상 음향 환경의 생성은 세 가지 요인들로 나눠지며, 이것은 음성 소스에 대한 모델링, 공간에 대한 모델링 및 청취자에 대한 모델링이 된다. 본 발명은 특히 공간 모델링에 관한 것이며, 그에 따라 소리가 어떻게 전파하고 상기 공간에서 어떻게 반사되어 감쇄하는지에 대한 아이디어를 생성하고, 청취자에 의해 사용될 수 있는 전기적 형식으로 이 아이디어를 옮기는 것이 그 목적이 된다. 공간의 음향학을 모델링하는 기존의 방법들은 소위 선-추적(ray-tracing) 및 이미지 소스 방법이다. 전자의 방법은 음성 소스에 의해 발생된 소리가 실질적으로 직진하는 방식으로 전파하는 "소리 선(sound rays)"을 구비한 3차원의 것들로 분리되며, 그리고나서, 처리되는 공간내에서 각 선이 어떻게 전파하는지에 대한 계산이 이뤄진다. 청취자에 의해 획득되는 청각적 인상은, 어떤 주기 동안, 그리고 어떤 최대 개수의 반사들을 통해 청취자에 의해 선택된 관측 포인트에 도달하는 상기 선들로 표현되는 소리를 더함으로써 생성된다. 이미지 소스 방법에 있어, 다수의 가상 이미지 소스들은 최초의 음성 소스에 대해 발생되며, 이에 따라 이들 가상 소스들은 시험된 반사 표면들에 관한 음성 소스의 거울 이미지들이다: 각각의 시험된 반사 표면 뒤에는, 원래의 음성 소스와 반사를 통해 계측된 관측 포인트 사이의 거리와 동일한, 관측 포인트까지의 직거리를 가진 한 개의 이미지 소스가 놓여진다. 또, 그 이미지 소스로부터의 소리는 실제 반사된 음성과 동일한 방향으로부터 관측 포인트로 도달한다. 청각적 인상은 이미지 소스들에 의해 생성된 소리들을 더함으로써 얻어진다.

종래 기술의 방법들은 매우 무거운 산출 부담을 준다. 만약 우리가 가상 환경이 가령 라디오 방송에 의하거나 데이터 네트웍을 통해 사용자에게 전달된다고 가정하면, 사용자의 수신기는 지속적으로 수 만 개 정도나 되는 소리 선들을 추적하거나 수 천 개의 이미지 소스들에 의해 발생된 소리를 더해야 할 것이다. 게다가, 산출의 기준은 사용자가 관측 포인트의 위치를 바꾸려고 결심할 때 마다 항상 바뀐다. 현재의 장치들 및 종래 기술의 방법들을 가지고 청각화된 음성 환경을 전송하는 것은 실제적으로 불가능하다.

본 발명은 청취자에게 어떤 공간에 해당하는 인공적인 청각적 인상을 만들어 줄 수 있는 방법 및 시스템에 관한 것이다. 특히, 본 발명은 사용자에게 제공될 수 있도록 정보를 디지털 형태로 전송, 처리 및/또는 압축하는 시스템에서의 그런 청각적 인상의 전송에 관한 것이다.

도 1은 모델링될 청각적 환경을 도시한다.

도 2는 매개변수화된 필터를 도시한다.

도 3a는 매개변수화된 필터들에 의해 형성된 필터 뱅크를 보인다.

도 3b는 도 3a의 구성의 변형을 도시한다.

도 4는 본 발명을 적용하기 위한 시스템을 도시한다.

도 5a는 도 4의 일부를 보다 상세히 도시한다

도 5b는 도 5a의 일부를 보다 상세히 도시한다.

도 6은 본 발명을 적용학 위한 다른 시스템을 도시한다.

동일한 참조 부호들이 상응하는 구성소자들에 대해 사용된다.

본 발명의 목적은 가상 음성 환경이 합리적인 산출 부담으로 사용자에게 전달될 수 있게 하는 방법 및 시스템을 제공하는 것이다.

본 발명의 목적들은, 모델링 될 환경을, 전송 모델들과 함께 매개변수화된 반사들 및/또는 흡수 모델들이 생성되어 있는 섹션들로 나누고, 데이터 전송시 주로 모델의 매개변수들을 다룸으로써 달성된다.

본 발명에 따른 방법은- 가상 음향 환경에 포함된 표면들이, 음향 신호에 대한 영향이 각 필터와 관련한 매개변수들에 의존하는 필터들로 표현되고- 각 필터와 관련한 매개변수들은 전송 장치에서 수신 장치로 전송됨을 특징으로 한다.본 발명은 또한,- 전송 장치와 수신 장치 및 상기 전송 장치와 수신 장치 사이에 전기적 데이터 전송을 구현하기 위한 수단- 가상 음향 환경에 포함된 표면들을 모델링하기 위해 매개변수화된 필터들을 구비하는 필터 뱅크를 생성하는 수단 및- 상기 전송 장치로부터 상기 수신 장치까지 상기 매개변수화된 필터들을 나타내는 어떤 매개변수들을 전송하는 수단을 포함함을 특징으로 하는 시스템에 관한 것이다.

본 발명에 따르면, 공간의 청각적 특성은, 표면들의 시각적 모델링으로부터 그 자체로서 알려진 원리의 방법으로 모델링될 수 있다. 여기서 표면이란 매우 일반적으로, 시험되는 공간의 객체를 의미하며, 그에 따라 그 객체의 특징은 그 공간에 대해 생성된 모델에 관해 상대적으로 동질적이다. 각각의 시험되는 공간에 있어서 (모델이 만일 시각적 특성을 포함하면, 그 시각적 특성에 더하여) 표면의 청각적 특성을 나타내는 다수의 계수들이 정의되며, 그에 따른 그러한 계수들은 예를 들어, 반사 계수, 흡수 계수 및 전송 계수들이다. 보다 일반적으로 우리는 어떤 매개변수화된 전송 함수가 표면에 대해 정의된다고 말 할 수 있다. 공간에 대해 생성될 모델에서 상기 표면은 상기 전송 함수를 구현하는 필터에 의해 표현된다. 음성 소스로부터 한 소리가 시스템으로의 입력으로 사용될 때, 전송 함수에 의해 발생된 응답은 그것이 상기 표면을 때렸을 때의 소리를 나타낸다. 공간에 대한 청각적 모델은 다수의 필터들에 의해 형성되며, 그 필터들 각각은 공간내 어떤 표면을 나타낸다.

표면의 청각적 특성을 나타내는 필터의 설계 및, 이 필터에 의해 구현되는 매개변수화된 전송 함수가 알려진다면, 어떤 표면에 대한 표현을 위해, 상기 표면을 특징짓는 전송 함수 매개변수들을 제공하기 충분하다. 한 데이터 스트림으로서 가상 환경을 전송하도록 예정된 시스템에는 수신기 및/또는 재생 장치가 있으며, 그것의 메모리 안으로는 그 시스템이 사용하는 전송 함수 및 필터의 종류나 종류들이 저장된다. 그 장치는 자신의 입력 데이터로서 동작하는 데이터 스트림을, 가령 라디오나 텔레비젼 수신기에 의해 수신하거나 인터넷 네트웍과 같은 데이터 네트웍으로부터 다운로드하거나, 기록 수단으로부터 지역적으로 읽어 들임으로써 얻는다. 동작 시작시 장치는 데이터 스트림에서, 생성될 가상 환경내 표면들을 모델링하는데 사용되는 그 매개변수들을 얻는다. 이들 데이터의 도움과 저장된 필터 종류들 및전송 함수 종류들을 가지고, 장치는 생성될 가상 환경의 청각적 특성에 상응하는 필터 뱅크를 만들어 낸다. 동작 중, 디바이스는 데이터 스트림 내에서 사용자에게 재생해줘야 하는 소리를 얻으며, 이에 따라 그 소리를 자신이 생성했던 필터 뱅크안으로 제공하여 그 결과로서 처리된 음성을 얻는다. 이 소리를 듣는 사용자는 원하는 가상 환경의 인상을 지각한다.

전송되는 데이터의 필요량은 어떤 표준 표면들을 구비하고 수신기/재생 장치의 메모리에 저장되는 데이터베이스를 형성함으로써 더 감소될 수 있다. 데이터 베이스는 매개변수들을 포함하며, 이들을 가지고 데이터베이스에 의해 정의된 표준 표면들을 설명하는 것이 가능하다. 만약 생성될 가상 환경이 표준 표면들만을 구비한다면, 데이터베이스의 표준 표면들의 식별자들만이 데이터 스트림안으로 전송되어야 하고, 그에 따라 이들 식별자들에 상응하는 전송 함수들의 매개변수들이 데이터베이스로부터 읽혀질 수 있고 따라서 그들을 수신기/재생 장치로 따로이 전송할 필요가 없을 것이다. 데이터베이스는 또한, 시스템에 일반적으로 사용되는 필터 유형들 및 전송 함수들과 유사하지 않고 필요할 때 데이터 스트림과 함께 전송되어야 할 때 비합리적으로 많은 시스템의 데이터 전송 용량을 소비할, 복잡한 필터 종류들 및/또는 전송 함수들과 같은 정보를 포함할 수도 있다.

이하에서 본 발명은 예로서 제공된 바람직한 실시예들과 첨부된 도면들을 참조하여 보다 상세히 설명될 것이다

도 1은 음성 소스(100), 반사 표면들(101 및 102) 및 관측 포인트(103)를 포함하는 음향 환경을 도시한다. 또, 간섭 음성 소스(104)가 이 음향 환경에 속해 있다. 음성 소스들로부터 관측 포인트까지 전파되는 소리들은 화살표들로 표현된다. 소리(105)는 음성 소스(100)로부터 관측 포인트(103)까지 직접 전파한다. 소리(106)는 벽(101)으로부터 반사되고, 소리(107)는 창(102)로부터 반사된다. 소리(108)는 간섭 음성 소스(104)에 의해 발생된 소리이고 이 소리는 창(102)을 통해 관측 포인트(103)에 도달한다. 모든 소리들은 반사 순간과 창문 유리를 통과한 때를 제외하고, 시험될 음향 환경을 점유한 대기중에 전파한다.

공간의 모델링과 관련하여 도면에 보인 모든 소리들은 서로 다르게 반응한다. 직접적으로 전파하는 소리(105)는 공기에 의한 감쇄 못지 않게, 음성 소스와 관측 포인트 사이의 거리에 의해 야기된 딜레이와 공기중에서의 소리의 속도에 의해영향을 받는다. 벽으로부터 반사된 소리(106)는 딜레이와 공기 감쇄에 의해 야기된 영향에 더하여, 소리의 감쇄 및 소리가 장애물에 부딪쳤을 때 있을 수 있는 위상 쉬프트에 의해서도 영향을 받는다. 동일한 요인들이 창으로부터 반사된 소리(107)에 영향을 끼치지만, 벽과 유리창의 재질이 음향학적으로 서로 다르기 때문에 소리가 반사되어 감쇄되며 위상은 이러한 반사시 서로 다른 방식으로 쉬프트된다. 간섭 음성 소스로부터의 소리(108)는 유리창을 통과하며, 그에따라 관측 포인트에서 그것을 검출할 가능성은 딜레이와 공기의 감쇄의 영향에 더하여 유리창의 전송 특성에 따라 영향을 받는다. 이 예에서 벽은 매우 양호한 음향 분리 특성을 가진다고 가정할 수 있으므로 간섭 음성 소스(104)에 의해 발생된 소리가 벽을 통과하여 관측 포인트까지 가지는 않는다.

도 2는 일반적으로 필터, 즉 어떤 전송 함수 H를 가지고, 시간 종속적인 신호를 처리하도록 된 장치(200)를 도시하고 있다. 시간 종속적인 임펄스 함수 X(t)는 필터(200)에서 시간 종속적 응답 함수 Y(t)로 변환된다. 시간 종속적 함수들이 그들의 Z-변환에 의해 그 자체로서 알려진 방식으로 표현된다면, 전송 함수의 Z-변환 H(z)는 다음의 수학식 1과 같은 비로서 표현될 수 있다.

이에 따라, 매개변수 형식으로 된 임의의 전송 함수를 전송하기 위해 그 Z-변환의 표현시 사용된 계수들 [b₀b₁a₁b₂a₂...]을 충분히 전송해야 한다.

디지털 신호 프로세싱을 이용하는 시스템에서, 필터(200)는 가령 그 자체로서 알려진 필터인 IIR(Infinite Impulse Response) 필터이거나, FIR(Finite Impulse Response) 필터가 될 수 있다. 본 발명과 관련하여, 필터(200)가 매개변수화된 필터로서 정의 될 수 있어야 한다는 것이 필수적이다. 상기 제시된 전송 함수의 정의 보다 간단한 대안은 필터(200)에서 임펄스 신호가 원하는 표면의 특성을 나타내는 일군의 계수들과 곱해진다고 정의하는 것이고, 이에 따라 필터 매개변수들은 가령 신호의 반사 및/또는 흡수 계수, 신호 통과에 대한 신호의 감쇄 계수, 신호의 딜레이 및 신호의 위상 쉬프트가 된다. 매개변수화된 필터는 전송 함수를 구현할 수 있으며, 이것은 항상 동일한 유형이지만, 어떤 매개변수들이 필터에 주어졌는지에 따라, 전송 함수의 서로 다른 부분들의 상대적 분담이 응답시 서로 다르게 나타난다. 만약 계수들로만 정의된 필터(200)의 목적이 소리를 반사하는 표면을 특별히 잘 나타내는 것이고, 만일 임펄스 X(t)가 어떤 음성 신호라면, 필터는 1에 가까운 반사 계수와 0에 가까운 흡수 계수를 매개변수로서 받게 된다. 필터 전송 함수의 매개변수들은 주파수 종속적일 수 있는데, 이는 높은 음성과 낮은 음성들은 흔히 서로 다른 방식으로 반사 및 흡수되기 때문이다.

본 발명의 바람직한 실시예에 따르면, 모델링될 공간의 표면들은 노드들로 분할되며, 모든 필수적인 노드들에는 필터 전송 함수가, 필터에 주어진 매개변수들에 의존하여, 반사되고 흡수되고 전송된 소리를 서로 다른 비율로 표현한 각자의 필터 모델이 형성된다. 도 1에 도시된 모델링될 공간은 단지 몇 개의 노드들만이 있는간단한 모델에 의해 표현될 수 있다. 도 3a는 각 필터가 모델링될 공간의 표면을 나타내는 세 개의 필터들을 구비한 필터 뱅크를 도시한다. 제1필터(301)의 전송 함수는 도 2에 따로 도시되지 않은 반사를 나타낼 수 있고, 제2필터(302)의 전송 함수는 벽으로부터의 소리의 반사를 나타낼 수 있으며, 제3필터(303)의 전송 함수는 유리창으로부터의 소리의 반사와 유리창을 통과한 소리의 경로 모두를 나타낼 수 있다. 음성 소스(100)로부터의 소리가 임펄스 함수 X(t)로서 작용할 때, 필터들(301, 302 및 303)의 매개변수들 r(반사 계수), a(흡수 계수) 및 t(전송 계수)는 필터(301)에 의해 제공된 응답이 도2에 도시되지 않은 표면에 의해 반사된 소리를 나타내고, 필터(302)에 의해 제공된 응답이 벽으로부터 반사된 소리를 나타내며, 필터(303)의 응답이 유리창으로부터 반사된 소리를 나타내도록 설정된다. 만약, 예를 들어, 우리가 벽은 고흡수 물질이고 유리창은 고반사 물질이라고 가정한다면, 도면의 실시예에서 반사 계수 r2는 0에 가깝고, 유리창의 반사 계수 r3는 이에 따라 1에 가깝게 된다. 일반적으로, 어떤 표면의 흡수 계수 및 반사 계수는 서로 의존한다는 것을 알 수 있다: 흡수도가 낮을 수록 반사도는 높아지고 그 반대의 경우는 반대로 된다(수학적으로 그 의존성은형태로 된다). 필터들에 의해 제공된 응답들은 가산기(304)에서 더해지게 된다.

도 1에 도시된 간섭 음성(108)이 도 3a의 필터 뱅크와 함께 모델링되도록 희망될 때, 필터들(301 및 302)의 흡수 계수들 a1 및 a2은 1들로 설정되며, 그에 따라 어떤 간섭 음성의 반사 성분도 형성되지 않게된다. 필터(303)에서, 전송 계수 t3는 한 값으로 설정되고, 그 값을 가지고 필터(303)는 유리창을 통해 전송되었던 소리를나타내도록 만들어 질 수 있다.

도 3a는 또한 서로 다른 경로들을 따라 관측 포인트까지 전파하는 소리 성분들의 상호 시간 차이들을 발생하는 딜레이 소자(305)를 보인다. 직접적으로 전파되었던 소리는 가장 짧은 시간안에 관측 포인트에 도달한 것이며, 이것은 딜레이 소자의 제1단계(305a)에서만 딜레이되고 있는 것으로 표현된다. 벽을 통해 반사된 소리는 딜레이 소자의 두 제1단계들(305a 및 305b)에서 지연되고, 창을 통해 반사된 소리는 딜레이 소자의 모든 단계들(305a, 305b 및 305c)에서 지연된다. 도 1에서 소리로 덮인 거리는 창을 통한 것과 벽을 통한 것이 거의 같기 때문에, 딜레이 수단(305)의 서로 다른 단계들이 서로 다른 크기의 딜레이를 나타낸다는 것을 추리할 수 있다: 제3단계(305c)는 소리를 훨씬 더 딜레이할 수 없다. 대안적 실시예로서 우리는 딜레이 수단의 모든 단계들이 동일한 크기이고 그러나 딜레이 소자들에서 필터들까지의 출력은 원하는 각각의 딜레이에 의존하여 서로 다른 포인트들에서 이뤄질 수 있는 도 3b에 따른 해결법을 고안할 수 있다.

도 4는 전송 장치(401) 및 수신 장치(402)를 포함하는 시스템을 도시한다. 전송 장치(401)는 최소한 한 개의 음성 소스와 적어도 한 공간의 음향적 특성을 포함하는 어떤 가상 음향 환경을 형성하고, 그것을 어떤 형식으로 수신 장치(402)에 전송한다. 그 전송은 예를 들어 라디오나 텔레비젼 방송으로서나 데이터 네트웍을 통한 디지털 형식으로 이뤄질 수 있다. 전송은 또한 전송 장치(401)에 의해 생성된 가상 음향 환경을 기초로 수신 장치의 사용자가 얻은 DVD(Digital Versatile Disk) 디스크와 같은 레코딩을 발생한다. 레코딩으로서 전달된 일반적인 어플리케이션은, 음성 소스가 가상 악기들로 구성된 오케스트라이고 공간은 전기적으로 모델링된 상상이나 실제의 콘서트 홀인, 콘서트일 수 있으며 그에따라 수신 장치의 사용자는 그의 장비를 가지고 그 홀의 서로 다른 포인트들에서 그 연주가 어떻게 소리나는지를 들을 수 있다. 만약 그러한 가상 환경이 시청각적인 것이라면, 그것은 컴퓨터 그래픽에 의해 구현된 시각적 부분도 역시 포함한다. 본 발명은 송수신 장치들이 서로 분리된 장치들이어야 한다고 요구하지는 않지만, 사용자는 하나의 장치에서 어떤 가상 음향 환경을 생성하고 그 장치를 사용하여 그의 창작물을 시험할 수 있다.

도 4에 도시된 실시예에서, 전송 장치의 사용자는 컴퓨터 그래픽 툴(403)을 가지고 콘서트 홀과 같은 어떤 시각적 환경을 만들며, 상응하는 툴(404)을 가지고 가상 오케스트라의 악기 및 음악가들과 같은 비디오 애니메이션을 만든다. 또, 그는 키보드로(405)로 그가 만들었던 환경의 표면들에 대해, 반사 계수들 r, 흡수 계수들 a 및 전송 계수들 t 또는 보다 일반적으로 표면을 나타내는 전송 함수들과 같은 어떤 음향 특성을 입력한다. 가상 악기들의 소리들은 데이터베이스(406)로부터 로드된다. 전송 장치는 사용자가 준 정보를 블록들(407, 408, 409 및 410)에서 비트 스트림들로 처리하고 그 비트스트림들을 멀티플렉서(411)에서 한 개의 데이터 스트림으로 결합한다. 이 데이터 스트림은, 디멀티플렉서(412)가 그 데이터 스트림으로부터 추출하여 환경을 나타내는 비디오 부분은 블록(413)으로 제공하고 시간 종속 비디오 부분 또는 애니메이션은 블록(414)으로 제공하며 시간 종속 음성은 블록(415)으로 제공하고 표면들을 나타내는 계수들은 블록(416)으로 제공하고 있는 수신 장치로 어떤 형식에 따라 전달된다. 비디오 부분들은 디스플레이 구동블록(417)에서 결합되어 디스플레이(418)로 공급된다. 음성 소스에 의해 전송된 소리를 나타내는 신호는 블록(415)으로부터 필터 뱅크(419)로 향하게 되며, 여기서 필터들은 블록(416)으로부터 획득되었던, 표면들의 특성을 나타내는 매개변수들이 제공되어지고 있다. 필터 뱅크(419)는 서로 다른 반사 및 감쇄들을 구비하며 이어폰(420)으로 가게되는 소리를 제공한다.

도 5a 및 도 5b는 본 발명에 따른 방식으로 가상 음향 환경을 구현할 수 있는 수신 장치의 필터 구성을 보다 상세히 도시한다. 딜레이 수단(305)은 도 3a 및 도 3b에 도시된 딜레이 수단에 상응하며, 그것은 서로 다른 소리 성분들(가령 상이한 경로들을 따라 반사된 소리들)의 상호 시간 차들을 발생한다. 필터들(301, 302 및 303)은 본 발명에 따른 방식으로 어떤 매개변수들이 주어진 매개변수화된 필터들이며, 그에 따라 각각의 필터들(301, 302 및 303) 및 도면에서 점으로만 도시된 각각의 다른 상응하는 필터들은 가상 환경의 어떤 표면의 모델을 제공한다. 상기 필터들에 의해 제공된 신호는 갈라져서, 한편은 필터들(501, 502 및 503)로, 다른 한편은 가산기들 및 증폭기(504)를 통해 가산기(505)로 가서, 에코 브랜치들(506, 507, 508 및 509) 및 증폭기들(511, 512, 513 및 514)과 함께 가산기(510)와 합쳐져서 그 자체로 알려진 회로를 형성하며, 이 회로로 어떤 신호의 반향을 발생시키는 것이 가능하게 된다. 필터들(501, 502 및 503)은 그 자체로서 알려진 방향 필터들이며, 이들은 가령 HRTF(Head Related Transfer Function) 모델에 따라 상이한 방향에서의 청취자의 청각 인식의 차이를 고려한다. 필터들(501, 502 및 503)은 또한 소위 ITD(Interaural Time Difference) 딜레이들을 포함하는 것이 가장 바람직하며, 이것은 상이한 방향들로부터 도달하는 소리 성분들의 상호 시간 차들을 나타낸다.

필터들(501, 502 및 503)에서 각 신호 성분은 오른쪽과 왼쪽 채널로 분할되며, 또는 다중 채널 시스템에서 보다 일반적으로 N 채널들로 분할된다. 어떤 채널에 속하는 모든 신호들은 가산기(515 또는 516)에 모아져서 가산기(517 또는 518)로 공급되며, 여기서 각각의 반향이 각 채널 신호에 더해진다. 라인들(519 및 520)은 스피커들 또는 이어폰들로 이어진다. 도 5a에서 필터들(502 및 503) 사이와 마찬가지로 필터들(302 및 303) 사이의 점들은 본 발명이 얼마나 많은 필터들이 수신 장치의 필터 뱅크에 존재하느냐에 대한 제한사항을 부과하지 않는다는 것을 의미한다. 모델링된 가상 음향 환경의 복잡도에 따라, 심지어는 수 백 또는 수 천 개의 필터들이 존재할 수도 있다.

도 5b는 반사 표면을 나타내는 매개변수화된 필터(301)등을 구현하는 하나의 가능성을 보다 상세히 도시하고 있다. 도 5b에서 필터(301)는 세 개의 연속적인 필터링 단계들(530, 531 및 532)을 구비하며, 이 중 제1단계(530)는 매체(일반적으 로 공기)내 전파 감쇄를 나타내고, 제2단계(531)는 반사 물질에서 발생한 흡수를 나타내며, 제3단계(532)는 음성 소스의 방향성을 고려하고 있다. 제1단계(530)에서는 음성 소스에서 반사 표면을 통해 관측 포인트까지 소리가 이동한 거리 및, 공기 중의 습도, 압력 및 온도와 같은 매체의 특성 둘 다를 고려하는 것이 가능하다. 거리를 산출하기 위해 단계(530)는 전송 장치로부터 모델링될 공간의 좌표 시스템에서의 음성 소스의 위치에 대한 정보를 얻고, 수신 장치로부터는 사용자가 관측 포인트가 되어야 한다고 선택했던 포인트의 좌표에 대한 정보를 얻는다. 매체의 특성을 나타내는 정보는 제1단계(530)에서 전송 장치 또는 수신 장치로부터 얻어진다 (수신 장치의 사용자가 그 매체의 원하는 특성을 세팅할 가능성을 가질 수 있다). 디폴트로서 제2단계(531)는 전송 장치로부터 반사 표면의 흡수를 나타내는 계수를 얻는다(비록 이 단계에서도 수신 장치의 사용자가 모델링된 공간의 특성을 바꿀 수 있는 가능성이 주어질 수 있지만 말이다.) 제3단계(532)는 음성 소스에 의해 전송된 소리가 그 음성 소스로부터 모델링될 공간의 상이한 방향들로 어떻게 향하게 되는지와, 필터(301)에 의해 모델링된 반사 표면이 어느 방향에 위치하는지를 고려한다.

위에서 우리는 가상 음향 환경의 특성이 어떻게 매개변수들의 사용에 의해 처리되어 한 장치에서 다른 장치로 전송될 수 있는지에 대해 일반적으로 논의하였다. 다음으로, 우리는 데이터 전송의 특정 형태에 대한 본 발명의 적용을 논의할 것이다. "멀티미디어"는 사용자에게로의 시청각 객체들의 동기화된 프리젠테이션을 의미한다. 대화형 멀티미디어 프리젠테이션은 가령 엔터테인먼트 및 화상회의의 형태와 같이, 미래에 광범위한 용도를 찾게 되리라 생각되고 있다. 종래 기술에는 멀티미디어 프로그램들을 전기적 형식으로 전송하는 상이한 방법들을 정의하는 수많은 표준들이 존재한다. 이 특허 출원에서 우리는 특히 소위 MPEG(Motion Picture Experts Group) 표준을 다룰 것이고, 이 중에서 특히 엠펙-4 표준을 다룰 것인데, 이것은 이 특허 출원이 제출될 때 준비단계에 있으며, 전송된 멀티미디어 프리젠테이션이 함께 어떤 시청각적 환경을 형성하는 실제와 가상의 객체들을 포함할 수 있다는 목표를 가지고 있다. 본 발명은 예를 들어 VRML(Virtual Reality Modelling Language) 표준에 따른 경우들에 추가로 적용가능하다.

엠펙-4 표준에 따른 데이터 스트림은,(어떤 합성된 소리와 같이) 시간에 대해 연속적인 부분과 (모델링될 공간의 음성 소스의 위치와 같은) 매개변수들을 둘 다 포함할 수 있는 다중화된 시청각적 객체들을 포함한다. 이 객체들은 계층적인 것들로서 정의될 수 있으며, 이에 따라 소위 기본적인 객체들이 계층의 하위 레벨에 있게 된다. 객체들에 더해, 엠펙-4 표준에 따른 멀티미디어 프로그램은 소위 장면 설명(scene description)이라는 것을 포함하는데, 이것은 객체들의 상호 관계 및, 실제 객체들과 별개로 인코딩되고 디코딩되는 것이 가장 바람직한 프로그램의 일반적 구성의 배치에 관한 정보등을 포함한다. 장면 설명은 BIFS(BInary Format for Scene description) 부분 이라고도 불려진다. 본 발명에 따른 가상 음향 환경의 전송은 그것과 관련한 정보의 한 일부는 BIFS 부분으로, 그 일부는 엠펙-4 표준에서 정의된 구조화된 오디오 오케스트라 언어/구조화된 오디오 스코어 언어(SAOL/SASL)를 사용함으로써 전송되도록 구현됨이 바람직하다.

기존의 방법에 있어, BIFS 부분은, SFFloat ambientIntensity(주변 명암), SFColor diffuseColor(확산 컬러), SFColor emissiveColor(방사 컬러), SFFloat shininess(밝기), SFColor specularColor(반사 컬러) 및 SFFloat transparency(투명도)와 같은, 표면들을 시각적으로 표현하는 매개변수들의 전송을 위한 필드들을 포함하는, 정의된 표면 설명(물질 노드; Material node)를 포함한다. 본 발명은 음향적 매개변수들의 전송에 적용 가능한 다음의 필드들을 이 설명에 추가함으로써 제공될 수 있다:

SFFloat diffuseSound

필드에 전송된 이 값은 표면으로부터의 음향 반사의 확산도를 결정하는 계수이다. 그 계수의 값은 0에서 1까지의 범위에 있다.

MFFloat reffuncSound

이 필드는 해당 표면으로부터의 음향 반사들을 모델링하는 전송 함수를 정하는 한 개 이상의 매개변수들을 전송한다. 만약 간단한 계수 모델이 사용된다면, 명료성을 위해 이 필드 대신 refcoeffSound라고 다르게 명명된 필드를 전송하는 것이 가능하며, 여기서 전송된 매개변수는 상술한 반사 계수 r 또는 각각이 어떤 소정의 주파수 대역의 반사를 나타내는 일군의 계수들과 동일한 것임이 가장 바람직하다. 만약 더 복잡한 전송 함수가 사용된다면, 예를 들어 수학식 1과 관련하여 위에서 제시된 것과 동일한 방법으로 전송 함수를 정하는 일군의 매개변수들을 여기서 가지게 된다.

MFFloat transfuncSound

이 필드는 이전 매개변수(각 주파수 대역에 대해 한 계수나 계수들이고, 그에 따라 명료성을 위해 필드의 이름은 transcoeffSound가 될 수 있다; 혹은, 전송 함수를 결정하는 매개변수들)와 비유가능한 방법으로 상기 표면을 통해 음향 전송을 모델링하는 전송 함수를 결정하는 한 개 이상의 매개변수들을 전송한다

SFInt MaterialIDSound

이 필드는 데이터베이스안의 어떤 표준 매질을 식별하는 식별자를 전송하며, 그 용도는 위에서 설명하였다. 만약 이 필드에 의해 설명된 표면이 표준 매질이 아니라면, 이 필드의 전송된 매개변수 값은 예를 들어, -1 또는 다른 협의된 값이 될수 있다.

이 필드들은 기존의 물질 노드에 잠정적인 추가물들로서 위에서 설명되었다. 다른 실시예는 예로서 우리가 AcousticMaterial 노드라고 부를 수 있는 새 노드를 정의하고, AcousticMaterial 노드의 일부로서 상술한 필들들 또는 어떤 비슷하거나 기능적으로 동일한 필드들을 사용해야 한다. 그러한 실시예는 기존의 물질 노드를 그래픽 목적들의 예외적 용도로 남겨둘 것이다.

상술한 매개변수들은 항상 어떤 표면과 관련되어 있다. 공간의 음향 모델링에 관해 전체 공간에 대한 어떤 매개변수들을 제공하는 것 역시 바람직하므로, 알려진 BIFS 부분에 AcousticScene 노드를 더하는 것이 있을 수 있으며, 이에 따라 AcousticScene 노드는 매개변수 리스트의 형태로 되고 가령 다음의 매개변수들을 전송하기 위한 필드들을 포함할 수 있다:

MFAudioNode

이 필드는, 어떤 다른 노드들이 AcousticScene 노드에 주어진 정의에 영향을 받는지를 말하는 내용들로 된 테이블이다.

MFFloat reverbtime

이 필드는 반향 시간을 가리키기 위해 한 매개변수 또는 일군의 매개변수들을 전송한다.

SFBool useairabs

이 필드는, 공기에 의해 야기된 감쇄가 가상 반향 환경의 모델링시 사용되는지 안되는지의 여부를 말하는, 예/아니오 유형의 필드이다.

SFBool usematerial

이 필드는, BIFS 부분에 주어진 표면들의 특성이 가상 음향 환경의 모델링시 사용될지 안될지의 여부를 말해주는, 예/아니오 유형의 필드이다.

반향 시간을 가리키는 MFFloat reverbtime은 예를 들어 다음의 방법으로 정의될 수 있다: 만일 이 필드에 단 하나의 값만이 주어진다면 그것은 모든 주파수들에서 사용되는 반향 시간을 나타낸다. 거기에 2n 값들이 존재한다면, 연속적인 값들(제1 및 제2값, 제3 및 제4값, 등등)이 한 쌍을 이루며, 이때 첫번째 값은 주파수 대역을 나타내고 두번째 값은 상기 주파수 대역의 반향 시간을 나타낸다.

엠펙-4 표준 드래프트로부터 우리는 일반적으로 음성 처리를 나타내고 모델링될 공간에서의 청취자의 위치를 나타내는 ListeningPoint(청취점) 노드를 알것이다. 본 발명이 이 노드에 적용될 때 우리는 다음의 필드들을 추가할 수 있다:

SFInt spatialize ID

이 필드에 주어진 매개변수는 식별자를 가리키고, 이것으로 우리는 HRTF 모델과 같은 특정한 어플리케이션 또는 사용자에 관한 청취 포인트와 관련된 함수를 식별한다.

SFInt dirsoundrender

이 필드의 값은 음성 처리 중 어느 레벨이 어떠한 반사도 없이 음성 소스로부터 청취 포인트까지 직접 오는 소리에 대해 적용되는 것인지를 나타낸다. 예로서 우리는 세 개의 가능한 레벨들을 입안할 수 있으며, 이에 따라 소위 진폭 패닝(panning) 기술이 가장 낮은 레벨에 적용되고, ITD 딜레이들은 중간 레벨에서더 관측되고, 가장 높은 레벨에서는 가장 복잡한 계산(예를 들어 HRTF 모델들)이 가장 높은 레벨에 적용된다.

SFInt reflsoundrender

이 필드는 상술한 필드의 레벨 선택과 상응하는 레벨 선택을 나타내지만, 반사들을 거쳐 오는 소리에 관한 매개변수를 전송한다.

스케일링(Scaling)은 가상 음향 환경이 엠펙-4 또는 VRML 표준에 따른 데이터 스트림으로나 본 발명에 따른 방법의 다른 접속으로 전송될 때 고려될 수 있는또 하나의 특징이다. 모든 수신 장치들은 전송 장치에 의해 생성된 총 가상 음향 환경을 반드시 활용할 수는 없는데, 이는 그것이 매우 많은 규정된 표면들을 포함하므로 수신 장치가 그와 같은 수의 필터들을 형성할 수 없거나 수신 장치의 모델 프로세싱이 산출과 관련해 너무 부담스러울 것이기 때문이다. 이것을 고려하기 위해, 표면들을 나타내는 매개변수들은 음향학과 관련한 가장 중요한 표면들이 수신 장치에 의해 분리될 수 있도록 구성될 수 있으며 (표면들은 예를 들어 표면들이 음향적 중요도에 상응하는 순서로 되어 있는 리스트에 정의된다) 그에따라 제한된 용량을 가진 수신 장치는 할 수 있는 한 많은 표면들을 중요도 순으로 처리할 수 있게 된다.

상술한 필드들과 매개변수들의 지정은 물론 예시적인 것일 뿐이며, 본 발명과 관련하여 한정되도록 의도된 것은 아니다.

마지막으로, 우리는 전화 접속에 대한, 혹은 보다 정확하게 공공 전화통신망을 통한 비디오 전화 접속에 대한 본 발명의 적용을 설명할 것이다. 도 6에 이뤄진 참조에는, 전송 전화기(601), 수신 전화기(602) 및 공공 전화 통신망(603)을 통한그들 사이의 통신 접속이 존재한다. 예를 들기 위해, 우리는 두 전화기들이, 마이크로폰(604), 음성 재생 시스템(605), 비디오 카메라(606) 및 디스플레이(607)을 구비하고 있음을 뜻하면서 비디오폰 용도에 대해 갖춰져 있다는 것을 가정할 것이다. 추가적으로 두 전화기들은 명령 및 메시지들을 입력하기 위한 키보드(608)를 구비한다. 소리 재생 시스템은 한 라우드스피커, 일군의 라우드스피커들, 이어폰들(도 6에 있는 것과 같이) 또는 이들의 조합일 수 있다. "전송 전화기" 및 "수신 전화기" 라는 용어들은 다음의 한 방향으로 된 시청각 전송의 단순화된 표현을 말한다; 일반적인 비디오 전화 접속은 당연히 양방향이다. 공공 전화 통신망(603)은 디지털 셀룰라망, 공공 교환 전화망, 종합 정보 통신망(ISDN), 인터넷, 근거리 통신망(LAN), 광역 통신망(WAN) 또는 이들의 어떤 조합일 수 있다.

본 발명을 도 6의 시스템에 적용하는 목적은 수신 전화기(602)의 사용자에게 전송 전화기(601) 사용자의 시청각적 인상이 가능한 한 자연에 가깝도록, 또는 가능한한 어떤 허구적인 목표 인상에 가깝도록 제공하는 것이다. 본 발명을 적용한다는 것은 전송 전화기(601)가 현재 놓여져 있거나 전송 전화 장치의 사용자가 있는 척 하고 싶어하는 음향 환경의 모델을 만든다는 것을 의미한다. 상기 모델은 매개변수화된 전송 함수들로서 모델링된 다수의 반사 표면들로 이뤄진다. 그 모델을 만들 때, 전송 전화기는 다수의 시험 신호들을 내보내고 그들에 대한 현 동작 환경의 응답을 측정함으로써 그 자신의 마이크로폰 및 음성 재생 시스템을 사용할 것이다. 통신 접속 설정 중에, 전송 전화기는 수신 전화기로, 만들어진 모델을 설명하는 매개변수들을 전송한다. 이 매개변수들을 수신하였다는 응답으로서 수신 전화기는 각각 매개변수화된 전송 함수들을 갖는 필터들로 구성된 필터 뱅크를 구성한다. 그리고나서 전송 전화기로부터 들어오는 모든 오디오 신호들은 수신 전화 장치의 음성 재생 시스템에서 해당 음향 신호들을 재생하기 전에, 상기 구성된 필터 뱅크를 통과하며, 따라서 필요한 시청각 인상의 오디오 부분을 발생할 수 있게 된다.

음향 환경의 모델을 만들 때, 몇 가지 기본적인 가정들이 만들어진다. 개인 대 개인 비디오 전화 접속에 참여하는 사용자는 보통 그의 얼굴과 디스플레이 사이에 약 40 내지 80cm의 거리를 둔다. 따라서, 얼굴을 마주보고 말하는 사용자들을 나타내도록 의도된 가상 음향 환경에서, 음성 소스와 청취 포인트 사이의 자연스런 거리는 80과 160 cm 사이이다. 방들의 벽들로부터의 반사가 고려될 수 있도록 사용자가 그의 비디오 전화기와 함께 위치하는 방의 크기에 대한 몇몇 기본적인 가정을 하는 것도 있을 수 있다. 전송 및/또는 수신 전화기들에 원하는 음향 환경의 매개변수들을 수동으로 프로그램하는 것 또한 당연히 가능하다.

Claims

전송 장치와 수신 장치에서 표면들을 구비한 가상 음향 환경을 처리하는 방법에 있어서,

- 가상 음향 환경에 포함된 표면들은 음향 신호에 대한 영향이 각 필터와 관련한 매개변수들에 의존하는 필터들에 의해 나타내지고

- 각 필터와 관련한 매개변수들이 전송 장치에서 수신 장치로 전송됨을 특징으로 하는 가상 음향 환경 처리 방법.
제1항에 있어서, 상기 각 필터와 관련된 매개변수들은,

표면들의 음향 반사 및/또는 흡수 및/또는 전송 특성을 나타내는 계수들임을 특징으로 하는 가상 음향 환경 처리 방법.
제1항에 있어서, 상기 각 필터와 관련된 상기 매개변수들은,

아래의 수학식 1의 비로서 제공된,

[수학식 1]

필터들의 전송 함수의 Z-변환의 계수들[b₀b₁a₁b₂a₂...]임을 특징으로 하는 가상 음향 환경 처리 방법.
제1항에 있어서,

- 전송 장치가, 각 필터와 관련한 매개변수들에 의존하는 음향 신호에 대해 영향을 미치는 필터들로 표현되는 표면들을 가지는 어떤 가상 음향 환경을 생성하는 단계,

-전송 장치는 각 필터와 관련한 상기 매개변수들에 대한 정보를 수신 장치로 전송하는 단계,

- 가상 음향 환경을 재구성하기 위해, 수신 장치는, 각 필터와 관련한 매개변수들에 의존하는 음향 신호에 영향을 주는 필터들을 구비한 필터 뱅크를 만들어, 전송 장치에 의해 전송된 정보에 기초하여 각 필터와 관련한 매개변수들을 생성하는 단계를 포함함을 특징으로 하는 가상 음향 환경 처리 방법.
제4항에 있어서, 전송 장치는 수신 장치로, 엠펙-4(MPEG-4) 표준에 따른 데이터 스트림의 일부로서 각 필터와 관련한 매개변수들에 대한 정보를 전송함을 특징으로 하는 가상 음향 환경 처리 방법.
제5항에 있어서,

전송 장치는 수신 장치로, 각 필터에 관련한 매개변수들에 대한 정보를 엠펙-4 표준에 의한 데이터 스트림에 포함된 BIFS 부분의 일부로서 전송하며, 상기 BIFS 부분은 음향적 매개변수들의 전송에 적합한 어떤 필드들을 구비함을 특징으로 하는 가상 음향 환경 처리 방법.
제4항에 있어서,

- 전송 장치는, 각 필터와 관련한 매개변수들에 의존하는 음향 신호에 대한 영향을 가진 필터들로 표현되는 표면들의 첫번째 집합을 갖는 어떤 가상 음향 환경을 발생하고,

- 전송 장치는, 상기 표면들의 첫번째 집합에 있는 한 표면을 나타내는 각 필터와 관련한 상기 매개변수들에 대한 정보를 수신 장치로 전송하고,

- 가상 음향 환경을 재구성하기 위해 수신 장치는, 상기 표면들의 제1집합의 진부분집합인 표면들의 제2집합을 나타내는 필터들을 구비한 필터 뱅크를 생성하며, 따라서 상기 표면들의 제2집합에 있는 표면들의 개수는 수신 장치의 용량에 따르게 됨을 특징으로 하는 가상 음향 환경 처리 방법.
제1항에 있어서,

각 필터에 관련된 상기 매개변수들은 어떤 표준 표면들을 포함하는 데이터베이스의 표준 표면들에 대한 식별자들이며, 상기 데이터베이스는 수신 장치의 메모리에 저장되어 있고 상기 데이터베이스에 포함된 표면들을 나타내기 적합한 매개변수들을 포함함으로써, 상기 데이터베이스의 어떤 표준 표면들에 대한 식별자들은, 데이터베이스로부터 해당 필터 매개변수들을 읽도록 되어 있는 수신 장치로 전송됨을 특징으로 하는 가상 음향 환경 처리 방법.
제1항에 있어서,

상기 필터들 중 적어도 하나는, 제1필터링 단계(530)가 전송 매체에서의 감쇄를 나타내고, 제2필터링 단계(531)는 반사 물질의 흡수를 나타내며 제3필터링 단계(532)는 음성 소스의 방향성을 고려하는 세 개의 직렬 필터링 단계들(530, 531, 532)로 구성되며, 따라서 상기 제1단계(530)는 음성 소스로부터 반사 표면을 통해 고려할 포인트까지 이동한 거리 및, 습도, 압력 및 온도와 같은 전송 매체의 특성 모두를 고려하도록 되어 있음을 특징으로 하는 음향 환경 처리 방법.
표면들을 구비한 가상 음향 환경을 처리하는 시스템에 있어서,

- 전송 장치와 수신 장치 및 상기 전송 장치와 수신 장치 사이에 전기적인 데이터 전송을 구현하기 위한 수단

- 가상 음향 환경에 포함된 표면들을 모델링하기 위해 매개변수화된 필터들을 구비하는 필터 뱅크를 생성하는 수단 및

- 상기 매개변수화된 필터들을 나타내는 어떤 매개변수들을 상기 전송 장치에서 상기 수신 장치로 전송하는 수단을 포함함을 특징으로 하는 가상 음향 환경 처리 시스템.
제10항에 있어서,

매개변수화된 필터들의 특성을 나타내는 매개변수들을 엠펙-4 표준에 따른 데이터 스트림에 첨부하도록 전송 장치에 멀티플렉싱 수단을 구비하고, 매개변수화된 필터들의 특성을 나타내는 매개변수들을 엠펙-4 표준에 따른 데이터 스트림으로부터 찾아내도록 수신 장치에 디멀티플렉싱 수단을 구비함을 특징으로 하는 가상 음향 환경 처리 시스템.