KR100251043B1

KR100251043B1 - 화상회의를 위한 오디오 데이터처리 방법, 오디오 소스 데이터 입력방법 및 단위신호 프레임의 오디오 데이터 추출부로의 전송방법

Info

Publication number: KR100251043B1
Application number: KR1019970030155A
Authority: KR
Inventors: 김상욱
Original assignee: 윤종용; 삼성전자주식회사
Priority date: 1997-06-30
Filing date: 1997-06-30
Publication date: 2000-04-15
Also published as: KR19990005933A

Abstract

본 발명은 화상회의에 참석하는 여러 화자들에 대한 오디오 데이터 처리방법, 오디오 소스 데이터 입력방법 및 단위신호 프레임의 오디오 데이터 추출부로의 전송방법을 제공한다. 본 발명에 의한 오디오 데이터 처리 방법은, 화상회의에 참석하는 화자들에 대한 오디오 소스의 총 수를 입력하는 단계(S1)와, 상기 화자들의 수에 따라, 각 오디오 소스의 가상위치 배열에 따른 가중치를 결정하는 단계(S2)와, 상기 오디오 소스의 오디오 신호 데이터를 입력하는 단계(S3)와, 단위시간당 입력되는 오디오 신호 데이터의 파워레벨과 문턱치를 비교하여 오디오 소스의 위치를 파악하는 단계(S4)와, 상기 오디오 소스를 삼차원 공간상의 가상위치에 배열하기 위해, 오른쪽 전송채널과 왼쪽 전송채널에 화자의 음성신호를 특정비율로 배분하는 단계(S5)와, 다른 가상위치에 배열되도록 형성된 화자의 음성신호를 한 데 묶어서, 전송채널의 수를 늘리지 않고도 여러 가상위치에 가상음상을 갖는 오디오 신호를 합성하는 단계(S6)와, 화자에 대한 상기 가상음상의 위치 정보를 가지고 있는 헤더정보와 오디오 신호정보를 함께 묶어 단위신호 프레임을 구성하는 비트 스트림 포맷팅단계(S7)와, 상기 단위신호 프레임내의 정보를 오디오 데이터 추출부에 전송하는 단계(S8)와. 상기 단계(S8)에서 입력된 오디오 데이터가 최종 오디오 데이터인지의 여부를 판정하여 그 판정결과가 '예‘이면 종료하고, '아니오’이면 상기 단계(S3)로 가는 최종 데이터 판정단계(S9)로 이루어지는 오디오 데이터 합성단계(S50);와

상기 오디오 데이터 합성부로부터 전송된 각 화자의 상기 단위신호 프레임을 추출하기 위해 동기신호를 검출하는 단계(S10)와, 상기 단위신호 프레임내의 정보를 추출하여 입력하는 단계(S11)와, 입력된 상기 단위신호 프레임 정보내의 헤더정보를 해석하는 단계(S12)와, 재생되는 화자의 음성을 듣는쪽에서 특정화자의 음성신호에 대한 제어를 요구하는지의 여부를 판정하여, 그 판정결과가 '아니오'이면 단계(S17)로 가고, 그 판정결과가 '예'이면 단계(S14)로 가는 단계(S13)와, 상기 단계(S13)에서의 사용자 제어 요구 명령을 해석하는 단계(14)와, 상기 오디오 데이터 합성부로부터 전달된 화자의 음성신호에 대해 상기 오른쪽 전송채널과 왼쪽 전송채널의 신호비를 계산해서 특정위치에 존재하는 화자들의 음성신호를 추출하는 단계(S15)와, 추출된 음성신호에 대한 유저 제어처리를 하는 단계(S16)와, 추출된 음성신호데이터를 출력하는 단계(S17)와, 출력된 음성신호가 최종 오디오 데이터인지의 여부를 판정하여, 그 판정 결과가 ‘아니오’이면 상기 단계(S10)로 가고,‘예’이면 종료하는 최종 데이터 판정 단계(S18)로 이루어지는 오디오 데이터 추출단계(S100)를 포함하여 이루어지며,

본 발명에 의한 오디오 소스 데이터 입력방법은, 스피커에 전달되는 특정화자의 음성신호를 특정비율로 배분하므로써, 화자에 대한 공간적인 배치느낌을 표현하는 수단을 가지며,

본 발명에 의한 화상회의를 위해 단위신호 프레임을 오디오 데이터 추출부로 전송하는 방법은, 화상회의를 위한 시스템의 오디오 데이터 합성과정 가운데, 오디오 데이터를 오디오 데이터 추출부로 전송하는 경우에 있어서, 수신단측으로 화상회의에 참가하는 사람들의 총수를 단위 신호 프레임에 포함시켜 전달하므로써, 수신단측이 특정 화자의 음성을 추출할 때, 특정 위치의 화자가 회의에 참가하고 있는지 않는지를 확인할 수 있도록 하는 수단을 가지며, 화상회의를 위한 시스템의 오디오 데이터 합성과정 가운데, 오디오 데이터를 오디오 데이터 추출부로 전송하는 경우에 있어서, 수신단측으로 발언하는 화자의 위치정보를 단위 신호 프레임에 포함시켜 전달하므로써, 수신단측이 특정 화자의 음성을 추출할 때, 특정 위치의 화자가 회의에 참가하고 있는지 않는지를 확인할 수 있도록 하는 것을 특징으로 한다.

Description

화상 회의를 위한 오디오 데이터 처리방법, 오디오 소스 데이터 입력방법 및 단위신호 프레임의 오디오 데이터 추출부로의 전송방법

본 발명은 화상회의를 위한 오디오 데이터 처리방법, 오디오 소스 데이터 입력방법 및 단위신호 프레임을 오디오 데이터 추출부로 전송하는 방법에 관한 것으로, 특히, 화자의 공간상에서의 위치를 고려하고 스테레오 채널을 사용하여, 화자의 음성을 표현함과 동시에 특정 화자에 대한 오디오 데이터의 추출 및 재생환경에 적합한 후처리를 할 수 있는, 화상회의를 위한 오디오 데이터 처리방법에 관한 것이다.

종래의 화상회의를 위한 오디오 데이터 처리방법은 미국 특허 제 5,206,721 호, 제 5,453,780 호 및 제 5,473,367 호에 각기 기재되어 있다.

상기한 종래의 기술중 미국 특허 제 5,206,721 호는 텔레비젼 회의시스템에 관한 일본 후지쓰사의 기술로서, 그 구성은 도 1 과 같다.

미국특허 제 5,453,780 호는 벨통신사의 기술로서, 디지탈 비디오 신호처리에 관한 것으로 상기 발명의 신호 결합기(combiner)의 동작과정을 도 2 에 나타내었다.

미국특허 제 5,473,367 호는 통신시스템에 관한 AT&T의 기술로서 특히 비디오 회의능력을 제공하는 원격통신 스위칭 시스템에 관한 것이다. 도 3은 상기 특허의 실시예를 나타내는 블록도이다.

상기한 종래 기술들은 여러 가지 기술적인 장점들을 갖고 있다. 하지만 상기한 기술들은 일반적으로 전송채널이 스테레오인 경우에, 화상회의 참여자들의 음성이 같은 가중치로 함께 스테레오로 녹음되어 있으면 특정화자의 음성을 추출할 수 없다는 문제점을 공통적으로 안고 있다.

즉, 종래의 방법으로는, 송신단에서 입력된 각 화자들의 오디오 데이터를 수신단에서 추출하여 처리할 수 없기 때문에, 입력된 상기 오디오 데이터에 대해 재생환경을 고려한 최적 재생처리를 할 수가 없었다.

종래의 방법에서, 화상회의시 특정화자의 음성을 추출하기 위해선 각 화자들의 음성을 따로따로 전달해 주어야한다.

이때, 음성을 따로따로 전달해 주기위해선 , 전송채널 수를 고정해 놓은 상태에서 여러화자들의 음성을 보내주는 방법과, 전송채널 수를 화자 수에 맞추어서 늘려주는 방법이 있다. 이러한 방법들은 다음과 같은 문제점들을 가지고 있다.

ㄱ) 전송채널 수를 고정해 놓은 상태에서 여러화자들의 음성을 전달해 줄 경우엔, 동시에 여러 화자의 오디오 데이터를 차례대로 전송할 때, 각 화자에 따른 오디오 데이터를 연속적으로 전송해야 하기 때문에 전송시간 지연이 발생한다.

이 결과 각 화자들의 입 모양새와 음성에 동기를 맞추기가 어렵거나, 불가능한 문제가 발생한다.

ㄴ) 전송채널수를 화자들의 수에 여러화자들의 음성을 전달해 줄 경우엔, 여러 화자들의 오디오 데이터 전송에 사용되는 전송채널 수와 화상회의에 참가하는 화자의 수가 같아야 되는 문제가 있다.

이 경우 화자의 음성전송에 사용되는 채널의 수가 많이 필요하게 되어, 전송시간 측면이나 음성전송을 위한 통신선로의 효과적인 사용측면에서 비효율적이다.

따라서, 본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 본 발명의 목적은, 화상회의에 참석하는 여러 화자들의 음성을 스테레오 채널로 표현하고, 동시에 특정화자의 음성신호만을 추출할 수 있는 오디오 데이터 처리 방법을 제공하는 것이다.

본 발명의 또 다른 목적은, 화상회의를 위한 오디오 소스 데이터의 입력방법을 제공하는 것이다.

본 발명의 또 다른 목적은, 화상회의를 위해 단위신호 프레임을 오디오 데이터 추출부로 전송하는 방법을 제공하는 것이다.

제1도는 종래기술에 의한 화상회의 시스템의 구성도.

제2도는 또 다른 종래기술에 의한 화상회의 시스템의 신호 결합기의 동작흐름도.

제3도는 또 다른 종래기술에 의한 화상회의 시스템의 구성도.

제4도는 여러화자가 등장하는 화상회의시 오디오/비디오 데이터 전송 예시도.

제5도는 가상 음원 합성 방법 예시도.

제6도는 가상 음상 형성 예시도.

제7도는 오디오 데이터 합성부의 알고리즘 흐름도.

제8도는 오디오 데이터 추출부의 알고리즘 흐름도.

상기의 제 1 목적을 달성하기 위하여 창안된, 본 발명에 의한 화상회의를 위한 오디오 데이터 처리방법은, 화상회의에 참가하는 화자들에 대한 오디오 소스의 총 수를 입력하는 단계(S1)와, 상기 화자들의 수에 따라, 각 오디오 소스의 가상 위치 배열에 따른 가중치를 결정하는 단계(S2)와, 상기 오디오 소스의 오디오 신호 데이터를 입력하는 단계(S3)와, 단위시간당 입력되는 오디오 신호 데이터의 파워레벨과 문턱치를 비교하여 오디오 소스의 위치를 파악하는 단계(S4)와, 상기 오디오 소스를 삼차원 공간상의 가상위치에 배열하기 위해 화자들의 음성신호에 각 가중치들을 곱하여, 오른쪽 전송채널과 왼쪽 전송채널에 상기 음성신호를 특정비율로 배분하는 단계(S5)와, 다른 가상위치에 배열되도록 형성된 화자의 음성신호를 한 데 묶어서, 전송채널의 수를 늘리지 않고도 여러 위치에 가상 음상을 갖는 오디오 신호를 합성하는 단계(S6)와, 화자의 위치정보를 가진 헤더정보와 오디오 신호정보를 함께 묶어 단위신호 프레임을 구성하는 비트 스트림 포맷팅단계(S7)와, 상기 단위신호 프레임내의 오디오 정보를 오디오 데이터 추출부에 전송하는 단계(S8)와, 상기 단계(S3)에서 입력된 데이터가 최종 데이터인지의 여부를 판정하여 그 판정결과가 '예‘이면 종료하고, '아니오’이면 상기 단계(S3)로 가는 최종 데이터 판정단계(S9)로 이루어지는 오디오 데이터 합성단계(S50);와

상기 오디오 데이터 합성부로 부터 전송된 각 화자의 상기 단위신호 프레임을 추출하기위해 동기신호를 검출하는 단계(S10)와, 상기 단위신호 프레임내의 정보를 추출하여 입력하는 단계(S11)와, 상기 단위신호 프레임 정보내의 헤더정보를 해석하는 단계(S12)와, 재생되는 음성을 듣는쪽에서 특정화자의 음성신호에 대한 제어를 요구하는지의 여부를 판정하여, 그 판정결과가 '예‘이면 단계(S14)로 가고, '아니오’이면 상기 단계(S17)로 가는 단계(S13)와, 상기 단계(S13)에서의 사용자 제어 요구 명령을 해석하는 단계(S14)와, 상기 오디오 데이터 합성부로부터 전달된 화자의 음성신호에 대해 오른쪽 전송채널과 왼쪽 전송채널의 신호비를 계산해서 특정위치의 음성신호를 추출하는 단계(S15)와, 추출된 음성신호에 대한 유저 제어처리를 하는 단계(S16)와, 추출된 음성신호데이터를 출력하는 단계(S17)와, 출력된 음성신호가 최종 오디오 데이터인지의 여부를 판정하여, 그 판정 결과가 ‘아니오’이면 상기 단계(S10)로 가고,‘예’이면 종료하는 최종 데이터 판정 단계 (S18)로 이루어지는 오디오 데이터 추출단계(S100)를 포함하여 이루어진다.

상기한 제 2 목적을 달성하기 위해 본 발명은, 스피커에 전달되는 특정화자의 음성신호를 특정비율로 배분하므로써, 화자에 대한 공간적인 배치느낌을 표현하는 수단을 포함하여 이루어진다.

상기한 제 3 목적을 달성하기 위해 본 발명은, 화상회의를 위한 시스템의 오디오 데이터 합성과정 가운데, 오디오 데이터를 오디오 데이터 추출부로 전송하는 경우에 있어서, 수신단측으로 화상회의에 참가하는 사람들의 총수를 단위 신호 프레임에 포함시켜 전달하므로써, 수신단측이 특정 화자의 음성을 추출할 때, 특정 위치의 화자가 회의에 참가하고 있는지 않는지를 확인할 수 있도록 하는 수단을 갖는 것을 특징으로 한다.

이하, 첨부한 도면을 참조하여 본 발명의 동작원리에 대해 더욱 상세히 설명한다.

제4도는 화상회의시, 3명의 화자들이 쌍방간에 존재할 때, 그 화자들의 음성신호 전송 및 재생환경을 나타낸 예시도이다. 3명의 화자 앞에 마이크를 각각 놓고, 각 화자들의 음성 신호들을 모아 함께 상대방측에 전달한다.

상대방측 위치에서는 두개의 모노 채널로, 즉 듀얼로 재생되거나 하나의 스피커를 이용하여 화자의 음성을 재생한다.

이 경우, 스피커 하나로 재생하면, 특정화자의 음성신호가 상대방측의 재생스피커(스피커1 또는 2 , 스피커3 또는 4)의 위치에 잡히게 되고, 듀얼로 재생하면, 상대방측에서 재생되는 두 스피커(스피커1 및 2 , 스피커3 및 4)사이에 특정화자의 음상이 잡히게 된다. 즉, 상기 방법으로는, 3명의 화자가 앉아있는 공간적인 배치 느낌이 전달되지 않는다.

이것은 제5도와 같이 두 스피커(스피커1 및 2)를 이용하고, 이 두 스피커(스피커1 및 2)에 전달되는 특정화자의 음성신호를 특정비율로 배분하므로써, 화자에 대한 공간적인 배치느낌이 전달되게 할 수 있다.

제5도에선, 특정 화자의 마이크로 모아진 음성신호를 오디오 데이터 합성부의 곱셈부에서 가중치 1 과 2 를 곱해줌으로써, 특정화자의 음상을 공간상에 위치시킨다..

여기서, 가중치 1과 2는 전달되는 특정화자의 음성신호에 대한 오디오 파워를 유지시키기 위해, 합이 1이 되는 것을 특징으로 한다. 가중치 1 과 2가 곱해진 특정화자의 음성신호는 오디오 데이터 추출부의 스피커 1 및 2를 통해 재생된다.

만약, 상기 가중치 1,2가 같다면, 상기 스피커 1 및 2의 출력신호는 같게되고, 그 결과, 스피커 1 및 2 사이의 중앙부에 화자의 가상음상이 잡히게 된다.

또한, 스피커 2로 전달되는 특정화자의 음성신호의 가중치를 2/3로 하고, 스피커 1로 전달되는 상기 가중치를 1/3로 해 준다면, 특정화자의 가상음상은 스피커 2 쪽으로 더 이동하게 된다.

그리고, 스피커 2로 전달되는 신호의 가중치를 1로 하고, 스피커 1로 전달되는 가중치를 0으로 하면, 스피커 2의 위치에 특정화자의 가상음상이 존재하는 것처럼 느끼게 된다.

일반적으로, N명의 화자가 존재할 때, N명의 화자에 대한 가상음상을 2개의 스피커로 표현한다면, N명의 화자중에서 특정화자의 가상음상은 180/(N-1)에 의한 각도차로 2개의 스피커 사이에 위치 시킬 수가 있다.

제6도에선 화자의 수에 따라 2개의 스피커(스피커L , 스피커R)를 사용할 때, 특정화자의 가상음상이 1개 형성되는 경우, 2개 형성되는 경우, 3개 형성되는 경우와 4개 형성되는 경우에 대한 예를 도시한다.

상기 가상음상은 화자의 수에 따라 상이한 가중치를 적용하여 형성된다. 이를 제6a도 내지 제6d도를 참조하여 설명한다.

제6a도에서와 같이, 화자가 A 혼자인 경우, 음상이 하나이므로,상기 L 과 R 스피커에 같은 가중치로 1/2 씩 곱해준 화자의 음성신호를 입력하여 L과 R 스피커의 중앙에 화자 A의 가상음상이 형성되게 한다.

제6b도에서와 같이, 화자가 A와 B 이면, L 스피커의 위치에 화자 A의 가상음상이 형성되게 하고, R 스피커의 위치에 화자 B의 가상음상이 형성되게 한다.

제6c도 및 제6d도는 각각 화자가 3 및 4 인 경우를 나타낸다.

그리고, 화자가 3이상 즉, N이면 , 각각의 L 과 R 스피커에 2명의 화자의 가상음상이 형성되게 하고, 나머지 화자의 음상은 (N-2)/(N-1)의 가중치를 사용하여, L측 스피커에 화자의 가상음상이 형성되게 하고, (1-L)의 가중치를 사용하여 R측 스피커에 나머지 화자의 가상음상이 형성되게 한다.

이제, 제7도 및 제8도를 참조하여 본 발명에 의한 화상회의시 오디오 데이터 처리방법의 각 단계를 더욱 상세히 설명한다.

제7도는 본 발명의 오디오 데이터 합성부에서 화자의 오디오 입력신호를 합성하는 오디오 데이터 합성단계(S50)를 도시한 흐름도이다.

먼저, 단계(S1)에서는, 화상회의에 참가하는 화자의 수와, 화자의 앞에 놓여진 마이크의 입력신호들을 오디오 소스로서 입력받는다. 이때, 화상회의에 참가하는 화자의 수는 오디오 데이터 합성부에서 사람의 입력에 의해 얻을 수도 있고, 비디오로 보이는 화자들의 수, 또는 마이크의 수를 검출하므로써 얻을 수도 있다.

단계(S2)에서는, 상기 단계(S1)에서 입력된 화자들의 수에 따라, 각 화자의 가상위치 배열을 구하고, 이 가상위치 배열에 따라, 입력되는 특정화자의 음성신호에 곱해줄 각 가중치를 구한다.

단계(S3)에서는, 상기 단계(S1)에서 입력된 각 화자에 대한 오디오 소스의 마이크 입력신호에 대해 상기 단계(S2)에서 구한 가중치를 반영하여, 오른쪽 및 왼쪽 전송채널,(L 및, R채널)에 나누어 싣는다. 여기서, 가중치는 공간상의 여러 점들에 각 화자의 가상음상들이 위치하는 효과를 얻는데 사용된다.

즉, 입력되는 각 화자의 모노 오디오 신호를 상기 오른쪽 및 왼쪽 전송채널에 상수배로 나누어 줌으로써 삼차원 공간상에 상기 모노 오디오 신호에 대한 가상음상을 형성시킨다. 각각의 상기 가중치 변화에 따른 상기 가상음상의 위치변화는 상기 도2의 설명에서와 같다.

또한, 가중치는 상기 모노 오디오 신호의 전체 주파수 대역에 같은 가중치를 곱해줌으로써 오디오 데이터 추출부에서 상기 모노 오디오 신호의 추출을 용이하게 한다.

단계(S4)에서는, 상기 단계(S3)에서 입력된 오디오 소스의 마이크 입력 신호에 대해, 특정화자가 말을 하고 있는지 안하고 있는지를 먼저 검출한다. 이 검출은 단위시간당 입력되는 특정화자의 오디오 신호의 파워레벨(s(i))과 문턱치(T)를 비교하여 결정한다. 즉,

‘만일 s(i) 의 총합 > T이면, 음성 신호이고, 그렇지않으면, 잡음 신호이다.’인것으로 표현할 수 있다.

이렇게하여, 특정화자의 음성정보 이외의 오디오 신호들이 오디오 데이터 추출부에 전송되는 것을 방지할 수 있다.

그리고, 특정화자의 음성신호가 입력되는 경우, 이 음성신호의 데이터들은 다음 단계에서 활용을 위해 저장된다. 또한, 단위시간 동안 이야기를 한 화자들의 위치정보를 정리한다.

정리된 상기 위치정보는 아래에서 설명할 단위신호 프레임내의 헤더부분에 위치한다. 이 위치정보는 , 오디오 데이터 추출부에서 특정화자의 음성신호 데이터 추출시, 특정위치에 있는 화자가 화상회의에 참가하고 있는지 않는지를 알 수 있도록, 특정화자의 위치에 대한 정보를 오디오 데이터 추출부에 전달하기 위해 사용된다.

이렇게하여, 오디오 데이터 추출부는 상기 오디오 데이터 전송부로부터 전송된 상기 음성신호 데이터를 특정화자의 음성을 쉽게 추출하는데 활용한다.

일예로 다섯명의 화자가 있을 경우, 상기 음성신호 데이터는 다음과 같은 비트들을 사용한다.

T2 T1 T0 B7 B65 B5 B4 B3 B2 B1 B0

여기서, T2 T1 T0 는 화상회의 참석자 수를 표시하는 비트들로, 본 발명에서는 총수비트라 한다.

B7 B6 B5 B4 B3 B2 B1 B0 는, 각각의 상기 참석자들이 대화에 현재 참여하고 있는지 않는지를 표시하는 플래그 비트들로, 본 발명에서는 참가비트라 한다.

여기서, 참가비트의 총 비트수는 상기 총수비트에 의해 표현되는 최대 참석자수로부터 결정된다. 즉, 총수비트가 3 비트인 경우, 최대 8명까지 처리가 가능하지만, 참석자의 총 수가 5이면, 총수비트의 값을 5로 하고, 뒤에 오는 참가비트는 5개 비트를 사용한다.

단계(S5)에서는, 상기 단계(S4)에서 저장되어 있던, 단위시간 동안에 입력된 화자들의 음성신호에, 각각의 해당 가중치들을 곱하여, 이 음성신호를 상기 오른쪽 전송채널과 왼쪽 전송채널에 특정비율로 배분한다.

여기서, 각각의 상기 해당 가중치를 적용하여 오른쪽과 왼쪽 채널에 화자의 음성신호를 배분하는 정도를 다르게 하는 이유는, 각 화자의 음성신호에 대한 가상음상이 삼차원 공간상에서 서로 다른 가상위치에 형성되도록 하기 위함이다.

특정 음성신호에 대한 각각의 가중치 적용은 상기한 도 3의 설명에서와 같다.

단계(S6)에서는, 화자의 가상음상이 서로 다른 위치에 배열되도록 처리된, 단위시간동안 입력된 모든 화자들의 음성신호를 한 데 묶어준다. 그결과, 화자의 수에 따라 전송채널의 수를 늘리지 않고도 여러 위치에 가상 음상을 갖는 하나의 오디오 신호를 합성할 수가 있다.

그후, 단계(S7)에서는, 상기 단계(S6)에서 합성된 오디오 신호에서 화자에 대한 상기 위치정보를 가지고 있는 헤더정보와 오디오 신호정보를 함께 묶어 단위신호 프레임을 구성한다.

단계(S8)에서는,상기 단계(S7)에서 구성된 단위 신호 프레임을 상기 오디오 데이터 추출부에 전송한다.

여기서, 오디오 데이터 합성 단계(S50)의 상기 단계(S1) 내지 단계(S8)를 요약하여 설명하면 다음과 같다.

먼저, 오디오 데이터 합성부에선, 5명의 화자가 있을 경우에는 다음과 같은 비율로 오른쪽 채널과 왼쪽 채널의 신호값을 전달해 준다.

상기한 바와 같이, 5명의 화자가 있으면 화자의 공간상의 배치에 따른 위치 각도 차이는 180/(5-1) = 45 = π /4 이다. 또한, 각 화자에 대한 가중치는 1, 3/4, 2/4, 1/4,0 로 상기 L 전송채널에 배당된다.

R 전송채널에 대한 가중치들은 L 전송채널에 배당된 각 가중치로부터 계산해준다. R 전송채널의 가중치는 (1-L 전송채널의 가중치)이므로 ,각각 0 , 1/4 , 2/4 ,3/4 , 1 이 된다.

그리고, 5명의 화자가 있을 경우, 화자의 음성신호에 대한 가상음상을 5개 잡아주면 된다. 5명의 화자를 각각 LL, C_L, CNT, C_R, RR 이라고 하고, 각 화자들의 음성신호에 각 가중치를 곱하여 가상 음상의 위치로 상기 음성신호를 이동시킨다.

그후, 상기 음성신호를 함께 묶어줌으로써 합성된 출력값인 L 전송채널신호 L_2ndINPUT 과 R 전송채널신호 R_2ndINPUT을 구한다.

이를 수식으로 표현하면 다음과 같다.

L_2ndINPUT =

1 * LL + 3/4 * C_L + 1/2 * CNT + 1/4 * C_R + 0 * RR ;

R_2ndINPUT =

0 * LL + 1/4 * C_L + 1/2 * CNT + 3/4 * C_R + 1 * RR ;

여기서, 만약에 상기 C_L의 위치와 C_R의 위치에만 음성신호가 있는 경우, 다른 화자의 위치들에 대한 가중치값은 0 이므로,

L_2ndINPUT = 3/4 * C_L + 1/4 * C_R ;

R_2ndINPUT = 1/4 * C_L + 3/4 * C_R ;

과 같이 간략하게 나타낼 수 있다.

단계(S9)에서는, 상기 단계(S3)에서 입력된 데이터가 최종 데이터인지의 여부를 판정하여 그 판정 결과가 ‘아니오’이면 상기 단계(S3)로 가고,‘예’이면 오디오 데이터 추출단계(S50)를 종료한다.

도 8 은 본 발명의 오디오 데이터 추출부에서 동작하는 오디오 데이터 추출단계(S100)를 도시한 흐름도이다.

먼저, 단계(S10)에서는, 오디오 데이터 추출부로 부터 전송된 각 화자의 상기 단위신호 프레임을 추출하기 위해 동기신호를 검출한다.

단계(S11)에서는, 상기 단계(S10)에서 추출된 상기 단위신호 프레임에 존재하는 화자의 위치정보를 입력한다. 상기 단위신호 프레임의 헤더정보에 입력되어있는 상기 위치정보에는 현 단위신호 프레임에 존재하는 화자의 음성신호들이 어떤 가상음상 위치에 있는 음성신호들이고, 모두 몇명의 화자들의 음성신호가 입력되어 있는지에 대한 정보가 포함되어 있다.

단계(S12)에서는, 상기 단계(S11)에서 입력된 상기 단위 신호 프레임내의 헤더정보를 해석한다.

단계(S13)에서는, 화상회의 참석자중 재생되는 음성을 듣는 쪽에서, 특정화자의 음성신호에 대해, 특정화자의 음성신호에 대한 ON/OFF 처리요구와 같은 제어를 요구하는지의 여부를 판정한다.

만일, 특정화자의 음성신호에 대한 제어요구가 없으면, 여러 화자들의 음성신호가 입력된 음성신호를 출력하는 데이터 출력단계(S17)로 가고, 특정화자의 음성신호에 대한 제어요구가 있으면, 단계(S14)로 간다.

단계(S14)에서는 특정화자의 가상음상위치 및 음성신호를 추출하기 위해 상기 단계(S13)의 사용자 제어 요구명령을 해석한다.

특정화자의 음성신호는 상기 오디오 데이터 합성단계(S50)에서, 화자의 모노 오디오 입력신호가 오른쪽 전송채널과 왼쪽 전송채널에 특정비율로 배분되어 전송되도록, 상기 모노 오디오 입력신호에 대해 특정 가중치를 곱해, 오른쪽 전송채널 신호(R_2ndINPUT) 및 왼쪽 전송채널 신호(L_2ndINPUT)를 구하였다.

따라서, 오디오 데이터 추출부에 한 화자의 이야기만 전달될 때에는 오른쪽 채널과 왼쪽 채널의 신호비를 계산한다. 만일 계산결과가 특정 가중치비와 같으면, 그 화자는 특정 가중치비를 갖는 가상 음상위치에 존재하는 화자와 같다고 할 수 있다.

이와같이 하여, 단계((S15)에서는, 오른쪽 전송채널 신호와 왼쪽 전송채널 신호의 크기의 비로써 화자의 특정 음상위치를 검출할 수가 있다. 즉, 특정 음상위치에 존재하는 화자의 음성신호임을 알 수 있다.

또한, 재생되는 소리내에 두명 이상의 화자들이 이야기하고 있는 경우엔, 상기 헤더정보에서 얻은 화자의 위치정보를 이용해, 어떤 가상 음상위치에 존재하는 화자의 음성신호가 전달되었는지를 알 수 있다.

상기 위치정보에는 화상회의 참가자 수 및 삼차원 공간상에 배열된 가상 음상위치에 대한 정보를 포함한다.

단계((S16)에서는, 상기 위치정보를 이용하여 특정 가상 음상위치에 있는 특정화자의 음성신호를 추출한다.

단계(S17)에서는, 상기 단계(S13)에서의 판정결과가 ‘아니오’일 때, 여러 화자들의 음성신호가 입력되어 있는 음성신호의 단위신호프레임에 포함되어 있는 정보중에서, 헤더정보를 제외한 오디오정보를 출력하며, 상기 단계(S13)에서의 판정결과가 ‘예’일 때, 상기 단계(S16)에서 추출된 특정 가상음상위치에 존재하는 특정화자의 음성신호 데이터를 출력한다.

단계(S18)에서는, 상기 단계(S17)에서 추출된 데이터가 최종 데이터인지의 여부를 판정하여, 그 판정결과가 ‘예’이면 종료하고, ‘아니오’이면 상기 단계 (S3)로 간다.

여기서, 오디오 데이터 추출 단계(S100)의 상기 단계(S11) 내지 단계(S18)를 요약하여 설명하면 다음과 같다.

상기 오디오 데이터 추출부로부터 전달된 상기 단위신호 프레임내의 헤더정보에 의해, 5명의 화자가 존재함을 알고, 그 중 1명 또는 2명의 화자의 음성신호가 상기 단위신호 프레임으로 전송될 때, 상기 오디오 데이터 추출부에서 각 화자의 음성신호를 구별하는 것은 다음과 같이 할 수 있다.

일반적으로, 화상회의에서, 많은 사람이 동시에 이야기를 하는 경우는 발생하지 않는다. 따라서, 어떤 순간에는 1명, 많으면 2명이 동시에 대화를 하게된다

5명의 화자가 존재하는 경우, 특정화자의 음성신호에 대해 가상음상 형성을 위한 가중치 연산을 끝낸 뒤, 합성되어 전송되는 L_2ndINPUT , R_2ndINPUT 신호는 상기한 바와 같다. 즉,

L_2ndINPUT =

1 * LL +3/4 * C_L + 1/2 * CNT + 1/4 * C_R + 0 * RR ;

R_2ndINPUT =

0 * LL +1/4 * C_L + 1/2 * CNT + 3/4 * C_R + 1 * RR ;

만약, 어느 순간에 상기 오디오 데이터 합성부로부터 한 화자의 음성신호만이 전달되는 경우엔, 상기 오디오 데이터 추출부에선, 오디오 데이터 합성부로부터 전달되는 L_2ndINPUT , R_2ndINPUT 의 비율에 의해, 특정화자의 음성신호가 삼차원 공간상의 어떤 위치로 이동된 음성신호인지를 검출할 수 있다. 그후, 이동된 음성신호에 대한 위치정보를 이용해, 특정화자의 음성신호를 추출하여 처리할 수 있다.

반면에, 어느 순간에 두 화자의 음성신호가 전달되는 경우엔, 다음과 같이 특정화자의 음성신호를 추출한다.

화자1, 화자2, 화자3 , 화자4 , 화자5가 존재하고, 각각 화자1의 위치를 LL, 화자2의 위치를 C_L, 화자3의 위치를 CNT, 화자4의 위치를 C_R, 화자5의 위치를 RR로 하였을때, 각각의 상기 LL, C_L, CNT, C_R, RR로부터 들어오는 오디오 입력신호를 검사한다.

문턱치와 단위시간내에 입력되는 상기 오디오 입력신호의 파워를 검출해, 오디오 입력신호의 유무 판정을 행한다.

그후, 상기 오디오 입력신호의 유무 판정에 따라, 오른쪽 전송채널신호 (R_2ndINPUT)와, 왼쪽 채널신호(L_2ndINPUT)를 다음 식에 의해 만든다.

L_2ndINPUT =

1 * LL + 3/4 * C_L + 1/2 * CNT + 1/4 * C_R + 0 * RR ;

R_2ndINPUT =

0 * LL + 1/4 * C_L + 1/2 * CNT + 3/4 * C_R + 1 * RR ;

그리고, 상기 오디오 입력신호의 유무판정 정보를 상기 단위신호 프레임내의 헤더 정보에 포함시켜 단위신호 프레임 정보를 만든다.

그후, 이 단위신호 프레임 정보를 상기 오디오 데이터 추출부에 전송한다.

상기 오디오 데이터 추출부는 상기 오디오 데이터 합성부로부터 전송된 상기 R_2ndINPUT와, L_2ndINPUT 신호를 수신한다.

특정화자의 음성신호인 오브젝트 단위의 연산요구를 사용자가 하였는지 확인한다.

상기 오브젝트 단위의 연산요구가 없으면, 단위신호프레임에 포함된 정보중 헤더정보를 제외한 오디오 정보를 출력한다.

오브젝트 단위의 연산 요구가 있으면, 전송된 단위신호 프레임내에 사용자의 오브젝트단위 연산요구에 합당한 처리를 할 오브젝트들이 있는지를 알기위해 헤더정보를 해석한다.

상기 헤더정보를 해석한 결과, RR, C_R의 위치에 있는 음성신호가 전달되었고, 상기 오브젝트 단위의 연산요구가 RR 또는 C_R의 음성신호를 제거하거나 추출하라는 것인 경우엔,

다음 식과 같이 연산하여 특정화자의 음성신호인 L_2ndOUTPUT , R_2ndOUTPUT를 구한다. 즉,

RR신호를 제거하거나 C_R신호만을 추출하는 경우엔,

L_2ndOUTPUT = L_2ndINPUT ;

R_2ndOUTPUT = 3 * L_2ndINPUT ;

과 같이 연산하여 구하고,

C_R신호를 제거하거나 RR신호만을 추출하는 경우,

L_2ndOUTPUT = 0 ;

R_2ndOUTPUT =R_2ndOUTPUT - 3 * L_2ndINPUT ;

과 같이 연산하여 구한다.

상기와 같이 구한 L_2ndOUTPUT , R_2ndOUTPUT 신호를 출력한다.

오디오 데이터 합성부로부터 전송된 화자의 음성신호내에 RR 및 C_R이외의 다른 두명 이상의 화자의 음성신호가 입력되어 있는 경우, 오디오 데이터 추출부에서 상기와 같은 방식으로 특정화자의 음성신호가 추출되는 경우를 설명하면 다음과 같다.

ㄱ) LL , C_L , CNT , C_R, RR 가운데에서 C_L , CNT 에 입력신호가 존재하는 경우엔,

상기 입력신호를 다음 식과 같이 합성하여, 오디오 데이터 추출부로 전송되는 L 전송채널 신호 L_2ndINPUT 과 R 전송채널 신호 R_2ndINPUT 를 구한다.

L_2ndINPUT = 3/4 * C_L + 1/2 * CNT ;

R_2ndINPUT = 1/4 * C_L + 1/2 * CNT ;

C_L 과 CNT에 의해 합성된 상기 L_2ndINPUT , R_2ndINPUT 신호가 있을 때, 오디오 데이터 추출부에서 CNT로 부터 발생된 신호만을 제거하거나, C_L로부터 나온 신호만을 추출하려면,

L_2ndOUTPUT = 2/3 * (L_2ndINPUT - R_2ndINPUT) ;

R_2ndOUTPUT = 1/2 * (L_2ndINPUT - R_2ndINPUT) ;

과 같이 연산하여 구하고,

C_L로부터 발생된 신호만을 제거하거나, CNT신호만을 추출하려면,

L_2ndOUTPUT = 1/2 * (3 * R_2ndINPUT - L_2ndINPUT) ;

R_2ndOUTPUT = 1/2 * (3 * R_2ndINPUT - L_2ndINPUT) ;

과 같이 연산하여 구하면 된다.

상기와 같이 구한 L_2ndOUTPUT 및 R_2ndOUTPUT 신호를 출력한다.

ㄴ) LL , C_L , CNT, C_R , RR 가운데에서 C_L , C_R 에 입력신호가 존재하는 경우,

상기 입력신호를 다음식과 같이 합성하여, 오디오 데이터 추출부로 전송되는 L 전송채널 신호 L_2ndINPUT 와 R 전송채널 신호 R_2ndINPUT 를 구한다.

L_2ndINPUT = 3/4 * C_L + 1/4 * C_R ;

R_2ndINPUT = 1/4 * C_L + 3/4 * C_R ;

C_L 과 C_R 에 의해 합성된 L_2ndINPUT , R_2ndINPUT 신호가 있을 때, 오디오 데이터 추출부에서 C_L로부터 발생된 신호만을 제거하거나, C_R 로부터 나온 신호만을 추출하려면

L_2ndOUTPUT = 1/8 * (3 * R_2ndINPUT - L_2ndINPUT ) ;

R_2ndOUTPUT = 3/8 * (3 * R_2ndINPUT - L_2ndINPUT ) ;

과 같이 연산하여 구하고,

C_R로부터 발생된 신호만을 제거하거나, C_L로부터 나온 신호만을 추출하려면

L_2ndOUTPUT = 1/8 * (3 * L_2ndINPUT - R_2ndINPUT ) ;

R_2ndOUTPUT = 3/8 * (3 * L_2ndINPUT - R_2ndINPUT ) ;

과 같이 연산하여 구한다.

상기와 같이 구한 L_2ndOUTPUT 및 R_2ndOUTPUT 신호를 출력한다.

ㄷ) LL , C_L , CNT, C_R , RR 가운데에서 LL , C_R 에 입력신호가 존재하는 경우,

상기 입력신호를 다음 식과 같이 합성하여, 오디오 데이터 추출부로 전송되는 L 전송채널 신호 L_2ndINPUT 와 R 전송채널 신호 R_2ndINPUT 를 구한다.

L_2ndINPUT = 1 * LL + 1/4 * C_R ;

R_2ndINPUT = 0 * LL + 3/4 * C_R ;

LL 과 C_R 에 의해 합성된 상기 L_2ndINPUT , R_2ndINPUT 신호가 있을 때, 오디오 데이터 추출부에서 C_R로부터 발생된 신호만 제거하거나, LL로부터 나온 신호만 추출하려면,

L_2ndOUTPUT = L_2ndINPUT -1/3 * R_2ndINPUT ;

R_2ndOUTPUT = 0

과 같이 연산하여 구하고

LL로부터 발생된 신호만 제거하거나, C_R로부터 나온 신호만 추출하려면,

L_2ndOUTPUT = 1/3 * R_2ndINPUT;

R_2ndOUTPUT = R_2ndINPUT ;

과 같이 연산하여 구한다.

상기와 같이 구한 L_2ndOUTPUT 및 R_2ndOUTPUT 신호를 출력한다.

ㄹ) LL , C_L , CNT, C_R , RR 가운데에서 RR , C_L 에 입력신호가 존재하는 경우,

상기 입력신호를 다음식과 같이 합성하여, 오디오 데이터 추출부로 전송되는 L 전송채널 신호 L_2ndINPUT 와 R 전송채널 신호 R_2ndNPUT 를 구한다.

L_2ndINPUT = 0 * RR + 3/4 * C_L ;

R_2ndINPUT = 0 * RR + 1/4 * C_L ;

RR과 C_L 에 의해 합성된 상기 L_2ndINPUT , R_2ndINPUT 신호가 있을 때, 오디오 데이터 추출부에서 C_L로부터 발생된 신호만 제거하거나, RR 로부터 나온 신호만 추출하려면,

L_2ndOUTPUT = 0 ;

R_2ndOUTPUT = R_2ndINPUT -1/3 * L_2ndINPUT ; ;

과 같이 연산하여 구하고

RR로부터 발생된 신호만 제거하거나, C_L로부터 나온 신호만 추출하려면,

L_2ndOUTPUT = L_2ndINPUT ;

R_2ndOUTPUT = 1/3 * L_2ndINPUT ;

과 같이 연산하여 구한다.

상기와 같이 구한 L_2ndOUTPUT 및 R_2ndOUTPUT 신호를 출력한다.

ㅁ) LL , C_L , CNT, C_R , RR 가운데에서 RR , CNT 에 입력신호가 존재하는 경우,

L_2ndINPUT = 0 * RR + 1/2 * CNT ;

R_2ndINPUT = 1 * RR + 1/2 * CNT ;

RR과 CNT 에 의해 합성된 L_2ndINPUT , R_2ndINPUT 신호가 있을 때, 오디오 데이터 추출부에서 RR로부터 발생된 신호만 제거하거나, CNT로부터 나온 신호만 추출하려면

L_2ndOUTPUT = L_2ndINPUT ;

R_2ndOUTPUT = L_2ndINPUT ;

과 같이 연산하여 구하고

CNT로부터 발생된 신호만 제거하거나, RR로부터 나온 신호만 추출하려면,

L_2ndOUTPUT = 0 ;

R_2ndOUTPUT = R_2ndINPUT - L_2ndINPUT;

과 같이 연산하여 구한다.

상기와 같이 구한 L_2ndOUTPUT 및 R_2ndOUTPUT 신호를 출력한다.

ㅂ) LL , C_L , CNT, C_R , RR 가운데에서 LL , RR 에 입력신호가 존재하는 경우,

상기 입력신호를 다음 식과 같이 합성하여, 오디오 데이터 추출부로 전송되는 L 전송채널 신호 L_2ndINPUT 와 R 전송채널 신호 R_2ndNPUT를 구한다.

L_2ndINPUT = 1 * LL + 0 * RR ;

R_2ndINPUT = 0 * LL + 1 * RR ;

LL과 RR 에 의해 합성된 상기 L_2ndINPUT , R_2ndINPUT 신호가 있을 때, 오디오 데이터 추출부에서 LL로부터 발생된 신호만 제거하거나, RR로부터 나온 신호만 추출하려면,

L_2ndOUTPUT = 0 ;

R_2ndOUTPUT = R_2ndINPUT ;

과 같이 연산하여 구하고

RR로부터 발생된 신호만 제거하거나, LL로부터 나온 신호만 추출하려면,

L_2ndOUTPUT = L_2ndINPUT ;

R_2ndOUTPUT = 0 ;

과 같이 연산하여 구한다.

상기와 같이 구한 L_2ndOUTPUT 및 R_2ndOUTPUT 신호를 출력한다.

ㅅ) LL , C_L , CNT, C_R , RR 가운데에서 LL , C_L 에 입력신호가 존재하는 경우

상기 입력신호를 다음 식과 같이 합성하여, 오디오 데이터 추출부로 전송되는 L 전송채널 신호 L_2ndINPUT 와 R 전송채널 신호 R_2ndNPUT 를 구한다.

L_2ndINPUT = 1 * LL + 3/4 * C_L ;

R_2ndINPUT = 0 * LL + 1/4 * C_L ;

LL과 C_L에 의해 합성된 L_2ndINPUT , R_2ndINPUT 신호가 있을 때, 오디오 데이터추출부에서 C_L로부터 발생된 신호만 제거하거나, LL로부터 나온 신호만 추출하려면,

L_2ndOUTPUT = L_2ndINPUT - 3 * R_2ndINPUT ;

R_2ndOUTPUT = 0 ;

과 같이 연산하여 구하고

LL로부터 발생된 신호만 제거하거나, C_L로 부터 나온 신호만 추출하려면,

L_2ndOUTPUT = 3 * R_2ndINPUT ;

R_2ndOUTPUT = R_2ndINPUT

과 같이 연산하여 구한다

상기와 같이 구한 L_2ndOUTPUT 및 R_2ndOUTPUT 신호를 출력한다.

ㅇ) LL , C_L , CNT, C_R , RR 가운데에서 LL , CNT 에 입력신호가 존재하는 경우,

L_2ndINPUT = 1 * LL + 1/2 * CNT ;

R_2ndINPUT = 0 * LL + 1/2 * CNT ;

LL과 CNT 에 의해 합성된 L_2ndINPUT , R_2ndINPUT 신호가 있을 때, 오디오 데이터추출부에서

LL로부터 발생된 신호만 제거하거나, CNT로부터 나온 신호만 추출하려면,

L_2ndOUTPUT = R_2ndINPUT ;

R_2ndOUTPUT = R_2ndINPUT ;

과 같이 연산하여 구하고

CNT로부터 발생된 신호만 제거하거나, LL로부터 나온 신호만 추출하려면,,

L_2ndOUTPUT = L_2ndINPUT - R_2ndINPUT ;

R_2ndOUTPUT = 0 ;

과 같이 연산하여 구한다.

상기와 같이 구한 L_2ndOUTPUT 및 R_2ndOUTPUT 신호를 출력한다.

ㅈ) LL , C_L , CNT, C_R , RR 가운데에서 CNT , C_R 에 입력신호가 존재하는 경우,

L_2ndINPUT = 1/2 * CNT + 1/4 * C_R ;

R_2ndINPUT = 1/2 * CNT + 3/4 * C_R ;

CNT과 C_R 에 의해 합성된 L_2ndINPUT , R_2ndINPUT 신호가 있을 때, 오디오 데이터 추출부에서 CNT로부터 발생된 신호만 제거하거나, C_R로부터 나온 신호만 추출하려면

L_2ndOUTPUT = 1/2 * R_2ndINPUT - 1/2 * L_2ndINPUT;

R_2ndOUTPUT = 3/2 * R_2ndINPUT - 3/2 * L_2ndINPUT;

과 같이 연산하여 구하고, C_R로부터 발생된 신호만 제거하거나, CNT로부터 나온 신호만 추출하려면

R_2ndOUTPUT = 3/2 * L_2ndINPUT - 1/2 * R_2ndINPUT;

과 같이 연산하여 구한다.

상기와 같이 구한 L_2ndOUTPUT 및 R_2ndOUTPUT를 출력한다.

상기 ㄱ) 내지 ㅈ)에서 구한 , L 채널값인 L_2ndOUTPUT신호와 R 채널값인 R_2ndINPUT신호를 출력하므로써, 여러화자의 음성신호가 함께 혼합되어 있을 때 특정화자의 음성신호만 추출할 수 있다.

상기한 본 발명의 동작원리를 요약하면 다음과 같다.

오디오 데이터 합성부에서 ; 화자의 모노 오디오 입력신호를 L , R 전송채널에 각각 특정비율로 할당해 줌으로써, 특정 음성신호를 삼차원 공간상에서 가상의 점에 위치시키고, 화상회의 참가자들의 수에 따라 삼차원공간을 배분하여, 화자의 음성신호에 대한 가상음상의 위치를 할당하고, 할당된 가상음상의 위치에 대한 가중치를 구하여, 특정 음성신호를 이동시키기 위한 연산을 행하고, 삼차원 공간상의 여러 가상음상 위치에 놓여진 여러 음성신호들을 함께 혼합하여 하나의 오디오 신호를 합성하고, 화상회의의 화자 수, 화상회의에서 발언하는 화자들의 수 및 화자의 음상위치에 대한 정보를 단위신호 프레임에 포함시켜, 오디오 데이터 추출부에 전달한다. 오디오 데이터 추출부에서 ; 오디오 데이터 합성부로부터 전달된 음성신호에 대해, 현재 처리되어야 할 상기 단위신호 프레임에 존재하는 음성신호들이, 어떤 가상음상 위치에 있는 신호들이고, 모두 몇명의 화자의 음성신호가 입력되어 있는지를 해석하고, 입력된 음성신호에 대해, 특정화자의 음성신호에 대한 제어요구가 입력되면, 이 음성신호를 제어하기 위해 오디오 데이터 합성부에서 사용된 가중치 정보를 이용해서, 특정화자의 음성신호를 추출하여 출력하고, 상기 제어요구가 없으면 오디오 데이터 추출부로부터 전달된 화자의 음성신호를 제어하지 않은 채 출력한다.

화상회의시, 여러 화자의 음성신호가 혼합되어 함께 스테레오로 전송될 때, 특정화자의 음성신호를 추출할 수 있다.

특정화자의 음성신호를 추출하여 처리할 수 있기 때문에, 음성신호에 대한 재생 환경을 고려하여 상기 음성신호에 대한 음색변형등의 최적 음성신호재생 처리를 해 줄 수 있다.

전송채널의 수를 고정해 놓은 상태에서 동시에 여러화자의 음성신호를 함꺼번에 전송하기 때문에, 음성신호의 전송시간지연이 발생하지 않고, 각 화자들의 입 모양새와 음성 신호 사이에 동기를 맞추기가 어렵거나 불가능한 문제가 발생하지 0않는다.

Claims

화상회의에 참가하는 화자들에 대한 오디오 소스의 총 수를 입력하는 단계 (S1)와, 상기 오디오 소스의 각각의 가상위치 배열에 따른 가중치를 결정하는 단계(S2)와, 상기 오디오 소스의 오디오 데이터를 입력하는 단계(S3)와, 입력된 상기 오디오 데이터에 의한 오디오 소스의 위치를 파악하는 단계(S4)와, 입력된 화자의 오디오 데이터중에서 음성신호를 오른쪽 전송채널과 왼쪽 전송채널에 특정비율로 배분하는 단계(S5)와, 여러 가상음상 위치를 갖는 오디오 신호를 합성하는 단계(S6)와, 단위신호 프레임을 구성하는 비트 스트림 포맷팅단계(S7)와, 상기 단계(S7)에서 구성된 단위신호 프레임을 오디오 데이터 추출부에 전송하는 단계(S8)와, 상기 단계(S8)에서 입력된 오디오 데이터가 최종 오디오 데이터인지의 여부를 판정하여, 그 판정 결과가 ‘아니오’이면 상기 단계(S3)로 가고,‘예’이면 종료하는 최종 데이터 판정 단계(S9)로 이루어지는 오디오 데이터 합성단계(S50)와; 상기 오디오 데이터 합성단계(S50)에서 전송된 단위신호 프레임을 추출하기 위해, 동기신호를 검출하는 단계(S10)와, 추출된 상기 단위신호 프레임내의 정보를 입력하는 단계(S11)와, 입력된 상기 단위신호 프레임 정보내의 헤더정보를 해석하는 단계(S12)와, 재생되는 화자의 음성을 듣는쪽에서 특정화자의 음성에 대한 제어를 요구하는지의 여부를 판정하는, 단계(S13)와, 상기 단계(S13)의 판정결과, 특정 화자의 음성에 대한 제어를 요구하는 경우 상기 사용자 제어 요구 명령을 해석하는 단계(S14)와, 특정 음상위치에 있는 음성신호를 인식해서 특정화자의 음성신호를 추출하는 단계(S15)와, 추출된 음성신호에 대한 유저 제어처리를 하는 단계(S16)와, 상기 단계(S16)로부터 추출된 특정 가상 음상 위치에 존재하는 특정 화자의 음성 신호 데이터와, 상기 단계(S13)의 판정 결과 특정 화자의 음성에 대한 제어를 요구하지 않는 경우 여러 화자들의 음성 신호가 입력되어 있는 음성 신호의 단위 신호 프레임에 포함되어 있는 정보중에서 헤더정보를 제외한 오디오 정보를 출력하는 단계(S17)와, 출력된 음성신호가 최종 오디오 데이터인지의 여부를 판정하여, 그 판정 결과가 ‘아니오’이면 상기 단계(S10)로 가고,‘예’이면 종료하는 최종 데이터 판정 단계(S18)로 이루어지는 오디오 데이터 추출단계(S100)를 포함하여 이루어지는 것을 특징으로 하는, 화상회의를 위한 오디오 데이터 처리방법.
청구항 1에 있어서, 상기 오디오 소스의 총 수는 오디오 데이터 합성부측 각 화자 앞에 놓여있는 마이크의 총 수와 같은 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 1에 있어서, 상기 오디오 소스의 총 수는 오디오 데이터 합성부측 각 화자들의 총 수와 같은 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 1에 있어서, 상기 오디오 소스의 총 수는, 상기 오디오 데이터 합성부측의 각 화자 앞에 놓여있는 마이크의 총 수 가운데에서, 파워레벨이 일정시간 안에 특정 문턱값 이상이 되는 마이크 입력신호가 입력되는 마이크의 수와 같은 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 1에 있어서, 상기 단계(S4)는 상기 모노 오디오 입력신호에 대해, 단위시간 동안 입력되는 상기 모노 오디오 입력신호의 파워레벨과 특정 문턱치를 비교해서 특정위치의 화자가 이야기하고 있는지의 여부를 결정하는 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 1에 있어서, 상기 단계(S5)는 입력되는 화자의 모노 오디오 입력신호에 이 모노 오디오 입력신호에 해당하는 각 가중치를 곱하여 상수배로 오른쪽 전송채널과 왼쪽 전송채널에 배분하여 상기 모노 오디오 입력신호의 가상음상을 삼차원 공간상의 특정 위치에 형성시키는 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 1에 있어서, 상기 모노 오디오 입력신호의 가상음상 형성에 사용되는 각 가중치의 상수배 값은 화상회의에 참가하는 화자의 수를 이용해서 결정되는 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 6에 있어서, 상기 상수배 값은 오디오 데이터 추출단계(S100)에서 특정화자의 음성신호를 추출할 수 있도록 전체 주파수 대역의 오디오신호들에 대해 동일한 상수배 값을 사용하는 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 6 에 있어서, 상기 삼차원 공간상의 특정위치에 형성되는 상기 모노 오디오 입력신호의 가상음상의 위치는 화상회의에 참가하는 화자의 수를 이용해서 정해지는 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 6 에 있어서, 오른쪽 채널과 왼쪽 채널에 배분되는 각각의 상기 상수배 값의 합이 1이 되는 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 1에 있어서, 상기 단계(S6)는 오른쪽 전송채널과 왼쪽 전송채널에 특정비율로 배분되어 삼차원 공간상에 여러 가상음상이 형성된 모든 모노 오디오 입력신호들을 한 데 묶어서 상기 여러 가상음상을 가진 하나의 오디오 신호를 합성하는 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 1에 있어서, 상기 단계(S14)는, 상기 오디오 데이터 추출부로부터 상기 오른쪽 전송채널과 왼쪽 전송채널로 입력되는 상기 모노 오디오 입력신호의 상수배 값을 검사하므로써 특정 가상음상의 위치를 알아내는 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 1 에 있어서, 상기 단계(S15)는 여러 가상음상들이 포함된 상기 단위신호프레임내의 정보중에서, 특정 가상음상 위치에 존재하는 음성신호를 추출하는 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
청구항 1 에 있어서, 상기 단계(S16)는 상기 오디오 데이터 추출부에서 전달된 데이터 신호 프레임내에 존재하는 화상회의 참가자 수 및 위치에 대한 정보를 이용해 특정 가상 음상위치의 특정화자의 음성신호를 추출하는 것이 특징인, 화상회의를 위한 오디오 데이터 처리방법.
스피커에 전달되는 특정화자의 음성신호를 특정비율로 배분하므로써, 화자에 대한 공간적인 배치느낌을 표현하는 수단을 갖는 것을 특징으로 하는, 화상회의를 위한 오디오 소스 데이터 입력방법.
청구항 15에 있어서, 특정비율의 사용시 상수 값을 사용해줌으로써, 전달되는 측에서 쉽게 특정 화자의 신호를 뽑아낼수 있도록 하는 것을 특징으로 하는, 화상회의를 위한 오디오 소스 데이터 입력방법.
청구항 15에 있어서, 상기 특정 화자의 음성신호를 특정비율로 배분하기 위하여 모노 오디오 입력신호에 특정 가중치를 곱하여 주는 것을 특징으로 하는, 화상회의를 위한 오디오 소스 데이터 입력방법.
청구항 15에 있어서, 왼쪽 전송채널신호 및 오른쪽 전송채널신호를 만드는 것에 의해 상기 화자에 대한 공간적인 배치느낌을 표현하는 것이 특징인, 화상회의를 위한 오디오 소스 데이터 입력방법.
화상회의를 위한 시스템의 오디오 데이터 합성과정 가운데, 오디오 데이터를 오디오 데이터 추출부로 전송하는 경우에 있어서, 수신단측으로 화상회의에 참가하는 사람들의 총수를 단위 신호 프레임에 포함시켜 전달하므로써, 수신단측이 특정 화자의 음성을 추출할 때, 특정 위치의 화자가 회의에 참가하고 있는지 않는지를 확인할 수 있도록 하는 수단을 갖는 것을 특징으로 하는, 화상회의를 위해 단위신호 프레임을 오디오 데이터 추출부로 전송하는 방법.
화상회의를 위한 시스템의 오디오 데이터 합성과정 가운데, 오디오 데이터를 오디오 데이터 추출부로 전송하는 경우에 있어서, 수신단측으로 발언하는 화자의 위치정보를 단위 신호 프레임에 포함시켜 전달하므로써, 수신단측이 특정 화자의 음성을 추출할 때, 특정 위치의 화자가 회의에 참가하고 있는지 않는지를 확인할 수 있도록 하는 것을 특징으로 하는, 화상회의를 위해 단위신호 프레임을 오디오 데이터 추출부로 전송하는 방법.
청구항 20 에 있어서, 상기 위치정보의 전달시 플래그 비트를 사용하는 것을 특징으로 하는, 화상회의를 위해 단위신호 프레임을 오디오 데이터 추출부로 전송하는 방법.