KR20020039101A

KR20020039101A - 멀티미디어 콘텐츠에서의 2차원 및 3차원 영상과 3차원음향의 영상/음향 실시간 처리 방법

Info

Publication number: KR20020039101A
Application number: KR1020000069006A
Authority: KR
Inventors: 이명진; 이상용; 김정각
Original assignee: 이명진; (주)베스텍
Priority date: 2000-11-20
Filing date: 2000-11-20
Publication date: 2002-05-25

Abstract

본 발명은 멀티미디어 콘텐츠에서의 2차원 및 3차원 영상과 3차원 음향의 영상/음향 실시간 처리 방법에 관한 것이다. 본 발명의 멀티미디어 콘텐츠에서의 2차원 및 3차원 영상과 3차원 음향의 영상/음향 실시간 처리 방법은, 저작툴을 이용하여 2차원 및 3차원 영상을 제작한 후 영상의 움직임에 따라 음향을 실시간으로 처리하는 방법에 있어서, 2차원 및 3차원 영상과 웨이브 데이터를 생성하는 제1단계; 및 2차원 및 3차원 영상에서 캐릭터의 움직임에 따라 HRTF를 이용하여 이동음이나 위치음을 생성하고, 상기 제1단계에서 생성된 웨이브 데이터와 이동음, 위치음을 콘볼루션하여 사용자에게 실제상황과 같은 효과를 주는 완전한 입체음향을 출력하는 제2단계로 이루어지는 것을 특징으로 한다. 따라서, 본 발명에 의하면, 게임, 가상현실, 원격교육/회의, 시뮬레이터, 멀티미디어 등의 분야에서 3차원영상과 입체음향을 실시간으로 처리할 수 있게 되어 실제생활에서와 같이 사용자의 전후좌우, 상하에서 소리가 들리는 입체음향을 구현할 수 있다.

Description

멀티미디어 콘텐츠에서의 2차원 및 3차원 영상과 3차원 음향의 영상/음향 실시간 처리 방법{Method for realtime processing image/sound of 2D/3D image and 3D sound in multimedia content}

본 발명은 멀티미디어 콘텐츠에서의 2차원 및 3차원 영상과 3차원 음향의 영상/음향 실시간 처리 방법에 관한 것으로, 더 자세하게는 멀티미디어 콘텐츠에서 2차원 및 3차원 영상의 위치정보를 기초로 하여 영상의 움직임에 따른 이동음이나 위치음을 생성하여 실시간 영상에 맞춰 소리의 위치 및 이동을 현실감 있게 들려주는 방법에 관한 것이다.

일반적으로, 3차원 영상과 3차원 음향을 매칭시키는 경우, 먼저 3차원 영상을 저작툴을 이용하여 제작한 후, 제작된 영상을 기초로 하여 영상의 움직임이나 위치정보에 맞는 음을 음향에디터를 이용하여 녹음한다. 그 다음, 영상의 움직임과음향을 함께 모니터링하면서 영상에 맞는 음향을 수정하거나 보완하는 방식을 채택하고 있다.

예를 들면, 도 1에 표시한 바와 같이, 원하는 3D 이미지를 저작툴을 이용하여 모델링하고 렌더링하여 애니메이션을 제작한 후, 제작된 애니메이션 캐릭터의 움직임에 따라 마이크로소프트의 DirectX 3D 사운드나 Sensaura(tm)사의 3D 사운드로 입체음향을 생성하여 녹음하고, 애니메이션과 음향을 함께 모니터링하면서 수정하거나 보완하는 방식을 사용하고 있다. 즉, 3차원 영상과 3차원 음향을 실시간으로 동시에 매칭시키는 것이 아니라 영상작업과 음향작업을 개별적으로 한 후 나중에 모니터링을 통해 매칭시키는 방식을 사용하고 있다.

그러나, 이러한 종래의 영상/음향 처리 방법은 단지 하나의 원음만을 입체음향하여 출력하는 방식이므로, 여러개의 원음을 동시에 입체음향으로 재생할 수 없고 하나의 원음을 2개 이상으로 동시에 입체음향으로 재생할 수 없어 3차원 영상과 3차원 음향을 동시에 실시간으로 처리할 수 없었다.

또한, 3차원 입체음향을 사용하는 종래의 국내외 입체음향시스템은 음상범위나 저음보강, 음장감 등을 추가하여 입체감을 주거나 방향감을 느끼게 하고는 있지만 입체감과 범용성이 뒤떨어져 실제 상황에서 들리는 소리와 같은 입체음향을 제공할 수는 없으며, 하드웨어 기반의 입체음향 시스템에서 4채널이상의 입체음향이 구현되고 있긴 하지만 장비가 비싸 상용성이 뒤떨어진다는 문제점이 있다. 그리고, 3차원 입체영상이 상당히 개발되어 있는 데 반해 입체음향의 수준이 낮기 때문에 3차원게임이나 가상현실에서 실제 상황과 같은 현실감이 떨어진다는 문제점도 있다.

게다가, 영상/음향 매칭 작업이 이원화되어 있어 수정/보완 시간이 오래 걸리며 단순한 수정의 경우에도 많은 부분 다시 해야 되는 번거로움이 있을 뿐만 아니라, 이로 인해 인력과 자본이 낭비된다는 문제점이 있다.

따라서, 본 발명은 이러한 문제점을 해결하기 위하여 제안된 것으로서, 본 발명의 목적은 3차원 영상에서 캐릭터를 임의로 이동시킬 때 캐릭터의 위치정보를 기초로 하여 캐릭터의 움직임에 따른 이동음이나 위치음을 생성하여 실제생활에서와 같이 사용자의 전후좌우, 상하에서 소리가 들리는 입체음향을 구현함으로써 실시간으로 3차원영상과 입체음향을 처리할 수 있는 멀티미디어 콘텐츠에서의 2차원 및 3차원 영상과 3차원 음향의 영상/음향 실시간 처리 방법을 제공하는 것이다.

도 1은 종래의 3차원 영상에 따른 음향 매칭방법을 설명하기 위한 도면이다.

도 2는 본 발명에 따른 2차원 및 3차원 영상과 3차원 음향의 영상/음향 실시간 처리 방법을 설명하기 위한 플로우챠트이다.

상기한 목적을 달성하기 위하여, 본 발명의 멀티미디어 콘텐츠에서의 2차원 및 3차원 영상과 3차원 음향의 영상/음향 실시간 처리 방법은, 저작툴을 이용하여 2차원 및 3차원 영상을 제작한 후 영상의 움직임에 따라 음향을 실시간으로 처리하는 방법에 있어서, 2차원 및 3차원 영상과 웨이브 데이터를 생성하는 제1단계; 및 2차원 및 3차원 영상에서 캐릭터의 움직임에 따라 HRTF를 이용하여 이동음이나 위치음을 생성하고, 상기 제1단계에서 생성된 웨이브 데이터와 이동음, 위치음을 콘볼루션하여 사용자에게 실제상황과 같은 효과를 주는 완전한 입체음향을 출력하는 제2단계로 이루어지는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.

도 2는 본 발명에 따른 2차원 및 3차원 영상과 3차원 음향의 영상/음향 실시간 처리 방법을 설명하기 위한 플로우챠트로, 3차원 영상에서의 캐릭터의 위치정보, 머리전달함수(Head Related Transfer fuction, 이하 HRTF 라 칭함) DB, 콘볼루션(Convolution), 인터폴레이션(Interpolation)을 이용하여 2차원 및 3차원 영상에 따라 실시간으로 3차원 음향을 처리하는 것을 나타내고 있다.

여기에서, 머리전달함수(HRTF)는 음원으로부터 귀의 고막으로 전달되는 경로를 모델링한 필터 계수로서, 음원과 머리와의 상대적 위치 관계에 따라 그 값이 달라지는 성질이 있다. 음원이 어떤 임의의 공간에 존재할 때, 음원의 위치와 머리전달함수의 머리응답을 콘볼루션하면 사용자는 실제 음원의 위치에서가 아니라, 임의로 설정된 음원의 위치에서 소리가 나는 것처럼 느끼게 된다. 즉, 음원의 위치를 임의의 3차원 공간의 위치로 이동하는 것이 가능하게 된다. 머리전달함수의 측정은 햇츠(HATS : Head and Torso Simulator) 또는 더미헤더(Dummy Header) 안에 마이크로폰을 설치하고, 무음향실에서 약 1m 거리에 있는 음원으로부터 나온 음파가 고막에서 미치는 음압을 구하기 위해서 음원에서부터 고막에 이르는 임펄스 응답(h(t))을 구한다. 이렇게 구해진 임펄스 응답을 머리임펄스응답(HRIR : Head-Related Impulse Response)이라고 하며, 이 머리임펄스응답을 퓨리에변환하여 음원에서 고막까지의 경로의 함수인 머리전달함수를 구할 수 있다.

우선, 저작툴을 이용하여 2차원 및 3차원 영상을 생성하고, 생성된 2차원 및 3차원 영상에 따른 웨이브 데이터를 소정 크기(바람직하게는 약 100ms의 크기)로블록화시켜 생성한다(제1단계).

그 다음, 캐릭터에 동기화시킬 웨이브 데이타 이름을 로딩하여(S1), 각각의 웨이브 데이타 이름에 ID를 부여한다(S2). 그리고, 게임, VR 등의 어플리케이션으로부터 캐릭터의 위치정보(좌표)를 입력받아(S3), 캐릭터의 위치정보가 변경되었는지를 체크하여 캐릭터의 위치정보가 변경되었으면 이동음 생성단계로 이행하고, 변경되지 않았으면 위치음 생성단계로 이행한다(S4).

상기 단계 S4에서 캐릭터의 위치정보가 변경되지 않은 경우에는, 캐릭터의 위치정보를 이용하여 방위각, 고도각, 좌우 HRTF의 인덱스값을 추출하고(S5), 추출된 HRTF의 인덱스 값을 이용하여 HRTF DB의 값을 추출하여(S6), 추출된 HRTF DB의 값을 FFT 처리를 하여 음향주파수로 변환시키고(S7), 캐릭터의 위치정보를 이용하여 이득을 조절하여 위치음을 생성한다(S8).

상기 단계 S4에서 캐릭터의 위치정보가 변경된 경우에는, 게임, VR 등의 애플리케이션으로부터 소정 구간 동안 이동된 캐릭터의 시점좌표, 종점좌표 값을 입력받아(S9), 캐릭터의 위치정보를 이용하여 방위각, 고도각, 좌우 HRTF의 인덱스값을 추출한다(S10). 추출된 HRTF의 인덱스 값을 이용하여 HRTF DB의 값을 추출하여(S11), 추출된 HRTF DB의 값을 FFT 처리를 하여 음향주파수로 변환시킨다(S12). 캐릭터의 위치정보를 이용하여 이득을 조절하고(S13), HRTF 보간 작업이 필요한지를 확인하여(S14), HRTF 보간 작업이 필요한 경우 HRTF 보간 작업을 수행한 후 단계 S11로 이행한다(S15). 여기에서, 불연속적인 HRTF를 주위의 HRTF를 이용하여 인터폴레이션(보간)하는 HRTF 보간 작업에 의해서, 자연스러운 이동음을 구현할 수 있다.

그 다음, 소정 크기의 웨이브 데이타를 로딩하고(S16), 로딩된 소정 크기의 웨이브 데이터와 위치음 또는 이동음을 콘볼루션하여 완전한 입체음향으로 변환시켜(S17), 소정 크기의 완전한 입체음향을 스피커를 통하여 출력한다(S18).

그리고, 마지막 웨이브 데이터인지를 체크하여 마지막 웨이브 데이터이면 종료하고, 마지막 웨이브 데이터가 아니면 단계 S4로 되돌아간다(S19).

상기 S1~S19 단계로 이루어져 있는 제2단계에 의해서, 2차원 및 3차원 영상에서 캐릭터의 움직임에 따라 HRTF를 이용하여 이동음이나 위치음을 생성하고, 상기 제1단계에서 생성된 웨이브 데이터와 이동음, 위치음을 콘볼루션하여 사용자에게 실제상황과 같은 효과를 주는 완전한 입체음향을 출력할 수 있다.

따라서, 상기 제1단계 및 제2단계에 의하여 여러개의 원음을 실시간으로 동시에 각각 입체음향으로 재생하는 것, 하나의 원음을 2개 이상으로 동시에 입체음향으로 재생하는 것, 여러개의 입체음향과 여러개의 원음을 혼합하여 재생하는 것이 모두 가능하게 되어, 3차원 영상에서 캐릭터를 임의로 이동시킬 때 실제생활에서와 같이 사용자의 전후좌우, 상하에서 소리가 들리는 입체음향을 구현함으로써 실시간으로 3차원 영상과 입체음향을 처리할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

따라서, 본 발명에 의하면, 게임, 가상현실, 원격교육/회의, 시뮬레이터, 멀티미디어 등의 분야에서 3차원영상과 입체음향을 실시간으로 처리할 수 있게 되어 실제생활에서와 같이 사용자의 전후좌우, 상하에서 소리가 들리는 입체음향을 구현할 수 있으므로, 3차원 영상만으로는 느끼기 어려운 현실감을 증대시킬 수 있으며, 이로 인해 각 분야의 응용기술을 활성함으로써 각 분야의 응용기술 발전에 기반적인 역할을 할 수 있는 효과가 있다.

또한, 본 발명의 알고리즘이 오디오, 게임, 홈비디오, 멀티미디어, TV, 영화산업, 대규모 디지털TV, 광고, 애니메이션 분야 등에 적용될 경우, 단순 스테레오 음향재생 수준에서 입체음향 재생이 가능한 제품개발로 차별화된 상품을 생산함으로써 국내외 관련산업을 활성화시킬 수 있는 효과가 있으며, 입체음향 처리기술의 국산화에 따른 신규시장 창출 및 수입대체효과와 수출증대의 효과도 기대할 수 있다.

Claims

저작툴을 이용하여 2차원 및 3차원 영상을 제작한 후 영상의 움직임에 따라 음향을 실시간으로 처리하는 방법에 있어서,

2차원 및 3차원 영상과 웨이브 데이터를 생성하는 제1단계; 및

2차원 및 3차원 영상에서 캐릭터의 움직임에 따라 HRTF를 이용하여 이동음이나 위치음을 생성하고, 상기 제1단계에서 생성된 웨이브 데이터와 이동음, 위치음을 콘볼루션하여 사용자에게 실제상황과 같은 효과를 주는 완전한 입체음향을 출력하는 제2단계로 이루어지는 것을 특징으로 하는 멀티미디어 콘텐츠에서의 2차원 및 3차원 영상과 3차원 음향의 영상/음향 실시간 처리 방법.
제1항에 있어서, 상기 제2단계는,

캐릭터에 동기화시킬 웨이브 데이타 이름을 로딩하여 각각의 웨이브 데이타 이름에 ID를 부여하는 단계(S1~S2);

캐릭터의 위치정보를 입력받는 단계(S3);

캐릭터의 위치정보가 변경되었는지를 체크하여 캐릭터의 위치정보가 변경되었으면 이동음 생성단계로 이행하고, 변경되지 않았으면 위치음 생성단계로 이행하는 단계(S4);

상기 단계 S4에서 캐릭터의 위치정보가 변경되지 않은 경우, 캐릭터의 위치정보, HRTF DB의 값을 이용하여 위치음을 생성하는 위치음 생성단계(S5~S8);

상기 단계 S4에서 캐릭터의 위치정보가 변경된 경우, 이동된 캐릭터의 위치정보, HRTF DB의 값, HRTF 보간(인터폴레이션)을 이용하여 자연스러운 이동음을 생성하는 이동음 생성단계(S9~S15);

소정 크기의 웨이브 데이타를 로딩하는 단계(S16);

로딩된 소정 크기의 웨이브 데이터와 위치음 또는 이동음을 콘볼루션하여 완전한 입체음향으로 변환하는 단계(S17);

상기 단계 S17로부터의 소정 크기의 완전한 입체음향을 스피커를 통하여 출력하는 단계(S18); 및

마지막 웨이브 데이터인지를 체크하여 마지막 웨이브 데이터이면 종료하고, 마지막 웨이브 데이터가 아니면 단계 S4로 되돌아가는 단계(S19)로 이루어져 있는 것을 특징으로 하는 멀티미디어 콘텐츠에서의 2차원 및 3차원 영상과 3차원 음향의 영상/음향 실시간 처리 방법.