KR20020027319A

KR20020027319A - 에지포인트 믹싱을 이용한 통신회의 브리지

Info

Publication number: KR20020027319A
Application number: KR1020017014835A
Authority: KR
Inventors: 프랭크씨. 크로스토퍼슨; 에드워드엠. 밀러
Original assignee: 트루채트, 인코퍼레이티드
Priority date: 1999-05-21
Filing date: 2000-05-19
Publication date: 2002-04-13
Also published as: US7006616B1; JP2003500935A; JP3948904B2; JP2006340376A; AU5147400A; WO2000072563A1; AU5277800A; WO2000072560A8; WO2000072560A9; KR100434583B1; EP1188298A1; WO2000072560A1; EP1188298A4

Abstract

본 발명의 원리에 따른 오디오-회의 브리징 시스템 및 방법이 제공된다. 본 발명은 회의용 단일 믹싱 함수의 전통적 표시를 이용하지 않는다. 대신에, 새롭고 탄력적인 본 발명의 설계가 회의의 각 참가자(20)에 대해 구분된 믹싱 함수를 제공한다. 이 새 구조는 "에지포인트 믹싱"(70)이라고 불린다. 에지포인트 믹싱은 참가자의 회의 환경에 대한 각 참가자의 제어를 제공함으로서 전통적 회의 시스템의 제한사항을 극복한다. 에지포인트 믹싱은 가상 회의 세계 내 화자의 위치에 따라 회의로부터 구분되는 믹싱 오디오 신호를 각 참가자로 하여금 수신하게 함으로서 "실제적" 회의의 시뮬레이션을 가능하게 한다.

Description

에지포인트 믹싱을 이용한 통신회의 브리지{TELECONFERENCING BRIDGE WITH EDGEPOINT MIXING}

통신망에서, 여러 참가자가 회의 전화로 함께 연결될 수 있는 회의 장치를 제공하는 것이 필요하다. 회의 브리지(conference bridge)는 통신 회의 구축을 위해 여러 연결 종점을 함께 연결시키는 장치, 또는 시스템이다. 현대의 회의 브리지(conference bridge)는 음성과 데이터 모두를 수용할 수 있고, 그래서 회의 참가자에 의한 문서 상의 공동성과를 나타낼 수 있다.

그러나 역사적으로, 오디오-회의 환경은 여러 참가자가 참여하는 회의의 경우에 특히 좀 부적절하다. 말하는 사람이 누구인지 알기 어렵고, 볼륨 조절이 어려우며, 화자(speaker)의 클리핑, 다른 화자의 말을 자르는 능력, 라인 잡음, 뮤직-온-홀드 상황, 회의 환경 제어에서 최종 사용자의 무능력 등 여러 문제점이 존재한다.

전통적인 시스템에서, 전체 오디오 회의에 대해 오직 한가지 믹싱 함수만이적용된다. 모든 참가자에게 만족할만한 오디오 수준을 제공하려는 시도에서 자동 이득 제어가 사용된다. 그러나, 참가자들은 자신의 전화 사에서의 조절과는 달리, 회의의 오디오 믹싱 수준을 제어할 수 없다. 이와 같이, 개별 회의 참가자 음성의 증폭이나 감쇠가 불가능하다. 더욱이, 전통적인 회의 브리징 기술로, 화자의 이름을 드러내거나 화자의 음성을 인지하지 않고서는, 화자를 식별하기가 어렵다. 추가적으로, 잡음 라인의 분리와 교정이 회의 운영자의 개입을 통해서만 가능하다.

전통적 회의 시스템의 불가변성은 상당한 문제점을 야기한다. 가령, 전통적 회의 시스템은 품질을 달리하는 회의 연결점이나 종점 장치를 가지는 사용자를 완전히 수용할 수 없다. 일부 회의 참가자들은 회의의 연결에 대한 품질이나 종점 회의 장비 때문에, 회의 브리지로부터 고충실도로 믹싱된 오디오 신호를 수신할 수 있다. 그러나 오직 한 개의 믹싱 알고리즘이 전체 회의에 적용되기 때문에, 믹싱 알고리즘은 가장 낮은 수준의 참가자에 대비하여야 한다. 따라서, 믹싱 알고리즘은 회의 참석자가 회의 브리지로부터 보다 높은 충실도의 출력을 수용할 수 있다 할지라도, 일반적으로 단 두사람만이 대화하게 하고 제 3 자는 간섭하게 한다.

추가적으로, 전통적인 오디오 브리징 시스템은 각각의 회의 참가자 음성에 적용되는 이득을 균등화시키려 시도한다. 그러나 거의 변함없이, 일부 참가자들은 라인 품질, 배경 잡음, 화자(speaker) 볼륨, 마이크로폰 감도 등의 변화로 인해 다른 사람들보다 듣기 어렵다. 예를 들어, 업무적 전화회의 중에, 일부 참가자들의 소리는 너무 크고 일부 참가자들의 소리는 너무 작은 경우가 자주 있다. 추가적으로, 전통적 업무 회의 시스템이 어떤 시각적 인터페이스를 제공하지 않기 때문에,어떤 특정 순간에 누가 말하고 있는 지를 알기가 어렵다. 뮤직-온-홀드의 경우, 회의 전화를 온-홀드 상태로 대기중인 어떤 참가자도 회의의 다른 모두에게 음악을 방송할 것이기 때문에, 전통적 시스템에서 뮤직-온-홀드(music-on-hold)가 문제를 일으킬 수 있다. 개별 믹싱 제어없이는, 회의 참가자가 불요한 음악을 묵음(mute)시킬 수 없다.

더 큰 최종 사용자 제어를 필요로하는 특정 오디오-회의 환경은 "가상 채팅방(virtual chat room)"이다. 채팅방은 최근에 인터넷에서 인기를 얻고 있다. 채팅방의 참여자들은 스포츠, 영화 등과 같이 채팅방이 이용되는 특정 토픽에 관하여 통신하고자 인터넷을 통해 동일한 웹사이트에 접속한다. 전통적인 채팅방은 텍스트 기반의 웹사이트로서, 이에 의해, 참여자들은 채팅방의 나머지 참여자들에게 실시간으로 메시지를 타이핑한다. 보다 최근에는, 음성 기반의 채팅이 출현하여 텍스트 채팅에 비해 현실감을 높이고 인기를 얻고 있다. 음성 채팅방에서, 참여자들은 인터넷 웹사이트를 통해 가동되는 음성 모임 내에서 서로 실제로 말할 수 있다. 채팅방 참여자들이 특정 채팅 세션에서 서로를 알지 못하는 것이 일반적이기 때문에, 각각의 참여자들은 "스크린 네임(screen name)"으로 음성 채팅방에서 식별된다.

오디오-회의에서 더 큰 최종 사용자 제어에 대한 필요성이 업무적 회의의 채팅방 설정에서 더욱 공고해진다. 인터넷 사용자들은 폭넓게 변화하는 여러 품질의 서비스를 이용한다. 그중에서도, 서비스 품질은 사용자의 인터넷 서비스 제공자(ISP), 연결 속도, 멀티미디어 연산 속도에 달려있다. 서비스 품질이 음성 채팅방에서 참가자마다 변하기 때문에, 다른 참가자들에게 변화하는 충실도의 회의출력을 제공하는 것이 필요하다. 추가적으로, 최종 사용자의 입력 오디오 신호의 선명도와 볼륨이 그 서비스 품질과 함께 변화한다. 인터넷으로의 광대역 접속 과 고품질 멀티미디어 컴퓨터를 갖춘 참가자는 다이얼-업 접근 및 저품질 개인용 컴퓨터를 이용하는 참가자에 비해 더 선명한 오디오 신호를 음성 채팅방에 전송할 것이다. 그 결과, 인터넷 채팅방에서 들리는 음성의 볼륨 및 선명도가 상당히 변화할 수 있다.

추가적으로, 참가자 발언의 내역이 음성 채팅방에서 대부분 감시받지 않는다. 일부 채팅방은 "마더레이터(moderator)"를 포함한다. 상기 마더레이터는 특정 카테고리에 대해 대화가 적절한 상태를 유지함을 보장하도록 위임받은 휴먼 모니터이다. 예를 들어, 참가자가 아동도서의 토론용 채팅방에 들어갈 경우, 휴먼 마더레이터는 성관계를 얘기하기 시작하는 참가자나 상스런 언행을 하는 참가자를 쫓아낼 수 있다. 그러나 비용적 측면으로 인해 모든 채팅 웹사이트가 휴먼 마더레이터를 사용하는 것은 아니다. 더욱이, 휴먼 마더레이터를 이용하는 채팅방이라도 단순히 성가신 사용자(상스런 사용자에 반함)로부터 참가자를 보호하지는 않는다.

게다가, 개별 믹싱 제어나 가까운 휴먼 모니터링이 없다면, 소리 품질이 얼마나 열악하고 내용이 얼마나 저속하고 성가신 것인지에 상관없이, 채팅방 참가자는 모든 다른 참가자들의 소리에 귀를 기울여야 한다. 더욱이, 전통적인 채팅방은 사용자에게 "현실적" 환경을 제공하지 않는다. 참가자 음성은 각 참가자 음성에 적용되는 이득을 균등화시키고자 하는 의도로 전체 모임 사이에 가해지는 단일 알고리즘에 따라 믹싱되는 것이 일반적이다. 따라서, 회의의 모든 사람은 동일한 오디오-스트림을 수신하고, 이는 채팅하는 사람으로 가득찬 현실적 방과 대조된다. 현실적 "채팅방"에서, 채팅방 내의 모든 사람은 다른 화자에 비해 채팅방 내 위치에 따라 약간씩 다르게 소리를 듣는다.

전통적 전화회의 기술에서의 제한사항을 극복하고자하는 기존의 시도는 완전한 믹싱의 탄력성을 회의 참가자에게 제공하지 못하기 때문에 부적절하다. 견고하면서 탄력적인 오디오-회의 브리징 시스템에 대한 필요성이 여전하다.

본 발명은 통신 시스템에 관한 것이고, 특히, 회의 참가자에게 현실감있는 환경을 제공하면서 회의 매개변수에 대해 높은 수준의 제어를 제공할 수 있는 오디오-회의 시스템에 관한 것이다.

도 1은 본 발명에 따라 기존 믹싱 알고리즘과 에지포인트 믹싱간 차이를 나타내는 단순화된 블록도표.

도 2는 본 발명의 오디오-회의 브리징 시스템과 세 참가자 통신국의 단순화된 블록도표.

도 3은 도 2에 도시되는 시스템에 상응하는 단순화된 블록도표.

도 4는 본 발명의 오디오-회의 브리징 시스템과, 참가자 통신국의 한 예의단순화된 블록도표.

도 5는 본 발명의 오디오-회의 브리징 시스템과, 참가자 통신국의 또다른 예의 단순화된 블록도표.

도 6은 단일 서버상에서 구현될 때 본 발명의 오디오 회의 브리징 시스템의 한 실시예의 블록도표.

도 7은 본 발명의 방법의 기본 단계들을 설정한 순서도.

도 8은 본 발명에 의해 작동되는 가상 채팅방에 대한 잠재적인 시각적 인터페이스의 예.

도 9는 도 8의 가상 채팅방 내에서 발생하는 특정 사건과, 이에 대한 본 시스템의 반응의 한 예를 설명하는 사건도표.

발명의 원칙에 따라, 오디오-회의 브리징 시스템 및 방법이 제공된다. 본 발명은 회의의 단일 믹싱 함수의 전통적 표시를 사용하지 않는다. 대신에, 본 발명의 새롭고 탄력적인 설계가 회의의 각 참가자에 대해 구분된 믹싱 함수를 제공한다. 이 새 구조는 "에지포인트 믹싱(EdgePoint mixing)"이라 불린다.

에지포인트 믹싱은 회의 환경에 대해 각 참가자 제어를 제공함으로서 기존 회의 시스템의 제한사항을 극복한다. 가령, 뮤직-온-홀드는 본 발명에 의해 용이해지는 업무적 전화회의에 대한 문제점이 아니다. 회의 중에 온-홀드 상태인 한 참가자의 신호를 다른 참가자들이 단순히 감쇠시키고, 상기 참가자가 회의에 복귀하면 감쇠를 중단하기만 하면 된다. 마찬가지로, 소리가 잡거나 라인 잡음으로 인해 선명하지 않은 화자의 소리는 타참가자에 의해 개별적으로 증폭될 수 있다.

에지포인트 믹싱은 가상 회의 세계 내의 화장의 위치에 따라 회의로부터 구분되게 믹싱된 오디오 신호를 각각의 참가자가 수신하게 함으로서, 실제적 회의의 시뮬레이션을 가능하게 한다. 회의의 참가자들에게는 가상 회의 세계의 타참가자들의 위치를 보여주는 시각적 인터페이스가 제공된다(선호됨). 믹싱 매개변수는 가상 회의 세계 주변에서 참가자가 움직임으로서 상기 참가자에 대해 변화한다.

본 발명의 선호되는 실시예는 3-단 제어 시스템에 따라 각 참가자의 믹싱 매개변수들을 동적으로 수정하게 한다. 먼저, 표준 믹싱 매개변수가 가상 채팅방에서 거리에 바탕한 감쇠와 같이 한 알고리즘에 따라 설정된다. 알고리즘에 의해 결정된 믹싱 매개변수는 저속한 화자의 소리를 죽이는 등의 시스템-설정이나 참가자-설정 정책에 따라 자동적으로 변경될 수 있다. 마지막으로, 상기 알고리즘이나 정책은 특정 화자의 소리 증폭 요청과 같이 외부적 참가자 요청에 의해 무시될 수 있다.

본 발명은 다른 품질의 서비스를 참가자가 수용한다. 이 방식으로, 고속 연결 및 고충실도 종점 회의 장비를 갖춘 참가자가 저속 연결이나 저충실도 장비를 갖춘 동일한 회의 내의 참가자에 비해 더 양호하게 믹싱된 신호를 수신한다. 각각의 참가자는 연결 및 장비가 허용하는 한 최상의 수준의 회의 환경을 즐길 수 있다.

본 발명의 시스템 및 방법은 회의의 각 참가자에 대해 구분된 믹싱 함수를 제공함으로서 전통적 브리지의 제한사항을 극복한다. 따라서 본 발명은 현실적 회의 환경의 보다 현실적 시뮬레이션을 얻고자 회의 프로그램 및 장치를 지원한다. 실제 대면 회의에서, 각 참가자는 위치 및 방의 음향 환경 등으로 인해 약간씩 다른 소리를 듣는다. 다시 말해서, 각각의 사람은 자신의 청각 시스템에서 구현되는 구분된 믹싱 함수를 가진다. 각각의 회의 참가자에게 구분된 믹싱 함수를 제공함으로서, 본 발명의 현실세계 회의 환경을 재생성시킨다.

본 발명은 회의에서 높은 수준의 최종 사용자 제어를 또한 제공한다. 상기 제어는 잘 들리지 않는 화자의 소리를 증폭시키거나 잡음원을 감쇠시키거나 불요한내용을 제외시키는 등의 일에 사용될 수 있다. 따라서 각각의 참가자는 자신의 요구와 정확하게 부합하는 회의 오디오 품질을 맞출 수 있다. 이 능력은 물론 회의가 커질 때와 같이 실제 회의에서 쉽게 얻을 수 있는 것이 아니다. 따라서, 에지포인트 믹싱은 참가자에게 '실제보다 낳은" 환경을 제공할 수 있다.

에지포인트 믹싱과 기존 믹싱간의 개념적 차이점은 도 1에서 나타난다. 도 1에 도시되는 바와 같이, 전통적으로 믹싱된 회의에서, 각각의 참가자(20)는 자신의 미디어 스트림을 회의 브리지(30)에 전송한다. 회의 브리지(30)는 단일 믹싱 함수를 회의에 적용하고, 각 참가자(20)에게 믹싱된 신호를 출력한다. 단 한 개의 믹싱 함수만이 회의(10)에 적용되기 때문에, 각각의 참가자는 본질적으로 동일한 믹싱 신호를 수신한다.

에지포인트 믹싱은 보다 탄력적이다. 각각의 참가자(20)는 회의 브리지(50)에 자신의 미디어 스트림(60)을 전송한다. 그러나, 회의 브리지(50)는 각 참가자(20)에 대해 구분된 에지포인트 믹서(70)를 포함한다. 추가적으로, 각각의 참가자는 제어 스트림(80)을 오디오 브리지(50)에 전송한다. 제어 스트림(80)에 부분적으로 바탕하여, 오디오 브리지(50)는 각 참가자(20)에게 구분되어 믹싱된 오디오 신호를 되보낸다. 각 참가자의 제어 스트림(80)이 구분될 것이기 때문에, 각 참가자(20)는 구분되고 완전히 맞추어진 회의 환경을 즐길 수 있다.

도 2는 본 발명에 따르는 오디오-회의 브리징 시스템(100)의 블록도표이다. 도시되는 예의 실시예에서, 다수의 회의 참가자 통신국(A, B, C)이 시스템 제어 유닛(200) 및 오디오 브리징 유닛(300)과 인터페이스를 이룬다. 오직 세 개의 참가자통신국(110)이 도시되지만, 어떤 수의 통신국(110)도 본 발명(100)에 연결될 수 있다. 시스템 제어 유닛(200)은 참가자 통신국(110)에 대해 믹싱 제어 데이터(140)를 수신하고 상기 데이터를 믹싱 제어 매개변수(150)로 변환시켜서 오디오 브리징 유닛(300)에 의해 구현되게 한다. 시스템 제어 유닛(200)과 오디오 브리징 유닛(300)이 순수하게 하드웨어적으로 구현될 수 있지만, 두 유닛(200, 300)이 적절한 하드웨어 플랫폼 상에서 구동되는 컴퓨터 프로그램을 포함하는 것이 선호된다.

발명의 선호되는 실시예에서, 회의 참가자 통신국(110)과 시스템 제어 유닛(200) 사이의 인터페이스는 인터넷 프로토콜(IP) 네트워크같은 패킷-스위칭 네트워크를 이용한다. 회의 참가자 통신국(110)과 오디오 브리징 유닛(300)간의 미디어 인터페이스는 공중 스위칭 전화망(PSTN), 패킷 스위칭 네트워크, 또는 PSTN-패킷 스위칭 네트워크 게이트웨이가 가로지르는 두 개의 조합처럼, 구분된 통신망에 놓일 수 있다. 그러나, 참가자 통신국(110)은 근거리 통신망(이더넷 등), 사설망, 회로 스위칭망 등을 포함한 어떤 통신망에 의해서도 본 시스템에 연결될 수 있다.

오디오 브리징 유닛(300)은 다수의 에지포인트 믹서(310)를 포함한다. 선호되는 실시예에서, 각각의 에지포인트 믹서(310)는 오디오 브리징 유닛(300) 상에서 구동되는 소프트웨어 과정이다. 각각의 참가자 통신국(110)(가령, A, B, C)은 에지포인트 믹서(310)에 할당되고, 상기 믹서(310)는 시스템 제어 유닛(200)에 의해 동적으로 공급되는 믹싱 매개변수(150)에 따라 다수의 유입 오디오 신호를 믹싱함으로서 상기 참가자 통신국(110)에 대해 오디오 믹싱을 실행한다. 단순한 시스템에서, 믹싱 매개변수(150)는 나머지 참가자 통신국(110)의 유입 오디오 신호 각각에대한 개별 볼륨이나 이득 제어에 상응할 수 있다.

도 3은 도 2의 오디오-회의 브리징 시스템의 작동의 순서도다. 유입 오디오 신호(325)는 미디어 인터페이스 유닛(MIU)(400)에 의해 오디오-회의 브리징 시스템(100)에 의해 수신되고 송신된다. MIU(400)는 오디오 신호 송/수신을 위해 특정 참가자 통신국(110)에 의해 사용되는 어떤 네트워크와 오디오 브리징 유닛(300)간에 미디어 인터페이스를 제공한다. MIU(400)는 미디어 스트림 패킷화 및 역패킷화, 자동 이득 제어, 음향 에코 소거, 낮은 층 프로토콜 조작(RTP와 TCP/IP 등)과 같은 함수를 실행한다. 한 실시예에서, 참가자 통신국(110)으로부터 오디오 브리지 유닛(300)으로의 유입 오디오 신호(325)는 MIU(400)를 통해 오디오 스트림 듀플리케이터(399)에 수신되고, 여기서 오디오 신호(325)가 복사되고 주어진 회에 대한 에지포인트 믹서(310) 각각에 분배된다. 오디오-스트림 듀플리케이터(399)는 매트릭스 승산의 적절한 이용에 의해 제거될 수 있다.

본 실시예에서, 각각의 에지포인트 믹서(110)는 승산기 함수(311, 312, 313)와 가산기 함수(319)를 포함한다. 승산기(311, 312, 313)는 각 유입 오디오 신호(325)의 각각을, 시스템 제어 유닛(200)에 의해 공급되는 관련 믹싱 제어 매개변수(150)와 곱한다. 가산기 함수(319)는 실제 믹싱을 실행하고 믹싱된 오디오 출력 신호(330)를 생성하기 위해 스케일링된 유입 오디오 신호(325)를 누적한다. 또한, 믹싱 제어 매개변수(150)는 시스템(100)의 기본적 구현에서 간단한 이득 제어일 수 있다. 보다 복잡한 구현에서, 승산기 함수(311)는 다양한 회의 환경 조성을 위해 보다 복잡한 선형/비선형 함수(시간에 따라 변할수도 안변할 수도 있음)로 대체될 수 있다. 가령, 믹싱 제어 매개변수(150)는 매우 복잡할 수 있고, 회의 환경 개선을 위해 지연, 잔향(에코), 주파수 및 위상 편이, 배음, 왜곡, 또는 유입 오디오 신호마다 그외 다른 음향적 처리 함수와 같은 효과를 에지포인트 믹서(310)가 삽입시키도록 지시할 수 있다.

도 4와 5는 본 발명의 오디오-회의 브리징 시스템으로 사용될 참가자 통신국(110)의 선호되는 실시예 도면이다. 참가자 통신국(110)은 오디오-회의 브리징 시스템(110)에 대한 오디오 및 시각적 인터페이스를 참가자(A, B, C 등)에게 제공한다.

도 4에 도시되는 바와 같이, 참가자 통신국(110)은 개인용컴퓨터(PC)(450)와 표준 전하(460)의 조합을 포함할 수 있다. 이 배열에서, PC(450)는 시스템 제어 유닛(200)과 통신하고 참가자 인터페이스의 시각적 부분을 제공하기 위해 패킷-스위칭 네트워크(455)에 저속 연결이나 고속 연결을 가지는 것이 선호된다. 이 시각적 인터페이스는 자바 애플릿, 대화형 게임 프로그램, 본 발명의 시스템(100)과 통신하기 위해 채택된 그외 다른 응용 프로그램처럼, PC(450)에서 구동되는 소프트웨어 응용프로그램을 포함하는 것이 선호된다. 전화(460)는 공중 스위칭 전화망(PSTN)(465)을 통해 오디오 브리징 유닛(300)에 그 연결에 의해 오디오 인터페이스를 제공한다. 참가자 통신국의 본 실시예는 오디오 브리징 유닛(300)과 참가자 통신국의 전화(460) 사이 오디오 연결을 가능하게 하기 위해 시스템의 IP 네트워크(455)의 관리부분에 구현되도록 IP-PSTN 게이트웨이(470)를 사용한다. PSTN/IP 게이트웨어(470)는 CISCO SYSTEMS의 제품이 가용하며, 관리되는 IP 네트워크(455)상에서 오디오 브리징 유닛(300)과 함께 위치할 수도 있고, 또는 오디오 브리징 유닛(300)에 원격으로 연결될 수 있다.

도 4에 도시되는 참가자 통신국(110)은 1) 참가자 PC(450)의 멀티미디어 능력, 2) 패킷 스위칭 네트워크(455) 상의 고품질 서비스, 3) 회사 네트워크 방화벽을 우회하기 위한 균일 데이터 패킷(UDP)을 허용하는 특정 배열 중 어느하나도 참가자가 가질 필요없이 오디오 회의 브리징 시스템(100)에 업무적 참가자가 접근하게 하기 위한 수단을 제공한다.

도 5는 화자(452)와 마이크로폰(453)을 갖춘 멀티미디어 PC(451)를 포함한 또하나의 선호되는 참가자 통신국(110)을 도시한다. 본 실시예에서, PC(451)는 관리되는 IP 네트워크(455)로의 고속 연결을 가지는 것이 선호되며, 이 IP 네트워크(455)에 오디오-회의 브리징 시스템(100)이 연결되고, 오디오 및 시각적/제어 신호가 동일 통신망(455) 상에서 송신된다. 오디오 브리징 유닛(300)에 오디오 신호 정보를, 그리고 시스템 제어 유닛(200)에 제어 정보를 보내기 위해 패킷 헤더에서의 적절한 처리로 오디오 및 시각적/제어 신호가 IP 패킷을 통해 송신된다.

여기서 사용되는 "신호(signal)"란 용어는 아날로그, 디지털, 패킷-스위칭, 또는 본 발명에 의해 요구되는 오디오 및 제어 정보를 송신하기에 충분한 그외 다른 기술을 통한 정보 전파를 포함한다. 추가적으로, "연결(connection)"이라는 용어는 하드-와이어 스위칭 네트워크같이 반드시 전용 물리적 연결을 의미하는 것이 아니다. 차라리 "연결"은 이러한 연결 상에서 전송되는 정보가 모두 동일한 물리적경로를 지나는 지 여부에 상관없이 어떤 통신 세션의 구축을 포함한다.

도 4와 5는 단순한 예로 이해되어야 한다. 여러 다른 참가자 통신국(110) 배치도 가능하다. 예를 들어, "인터넷 폰", PDA, 무선 장치, 셋톱박스, 하이-엔드게임 통신국 등이 있다. 시스템 제어 유닛(200)과 오디오 브리징 유닛(300)과 효율적으로 통신할 수 있는 어떤 장치도 참가자 통신국(110)으로 작용할 수 있다. 추가적으로, 당 분야의 통상의 지식을 가진자는 충분한 대역폭, 방화벽 틈새, 멀티미디어 PC(451) 자원을 갖춘 업무 참가자가 도 5의 "순수한-IP" 실시예를 적용하기 위한 능력을 가진다는 것을 이해할 것이다. 마찬가지로, 도 4에 도시되는 이 PC(450)/전화(460) 조합은 비업무 참가자에 의해 사용될 수 있고, 인터넷과 같은 IP 네트워크(455)에 협대역 접근하는 참가자들에게 특히 이로울 것이다.

도 6은 오디오-회의 브리징 시스템(100)이 단일 서버(600)에서 구현되는 본 발명의 한 실시예를 도시한다. 기술되는 부품의 일부나 전부가 다중 서버나 타하드웨어 사이에 분포될 수 있다. 회의 서버(600)의 본 실시예는 세 개의 주부품을 포함한다. 즉, 시스템 제어 유닛(200), 오디오 브리징 유닛(300), MIU(400)을 포함한다. 회의 서버(600)는 개인용 컴퓨터나 전용 DSP 플랫폼을 포함하여 어떤 수의 서로 다른 하드웨어 배치도 포함할 수 있다.

시스템 제어 유닛(200)은 회의 서버(600)에서 열리는 회의에 대한 함수의 전체적 협력을 제공한다. 시스템 제어 유닛(200)은 참가자 통신국(110)과 통신하여 믹싱 제어 데이터(140)를 얻고, 상기 데이터(140)는 오디오 브리징 유닛(300)에 대해 믹싱 매개변수(150)로 변환된다. 시스템 제어 유닛(200)은 회의 서버(600) 내에완전히 위치할 수 있고, 또는 여러 회의 서버(600) 사이나 참가자 통신국(110) 상에 분포될 수 있다.

가령, 가상 채팅방 응용프로그램에서, 시스템 제어 유닛(200)은 유입 오디오 신호(325)에 적용할 음성 감쇠의 크기를 계산하기 위해 "아바타(aratars)" 사이의 거리 계산을 실행할 수 있다. 그러나, 채팅방에서 각 아바타에 대한 위치, 방향, 대화 활동 표시 벡터가 각 참가가 통신국(110)에 통신되기 때문에, 회의 서버(600) 대신에 거리 계산을 참가자 통신국(110)이 실행하게 할 수 있다.

실제로, 참가자 통신국(110)은 실제 믹싱 매개변수(150)를 계산할 수 있고 오디오 브리징 유닛(300)에 이를 보낼 수 있다. 이 접근법에서의 상당한 잇점은 서버(600) 스케일러빌러티의 증가와, 단순화된 응용프로그램-특징 개발에 있다. 이러한 접근법에서의 결정은 참가자 통신국 처리 요구사항의 약간의 증가와, 참가자 통신국 스크린의 아바타 움직임과 오디오 믹싱의 변화간 시간 래그 증가에 있다. 이 래그 증가는 모든 다른 참가자의 위치 및 볼륨 정보를 참가자 통신국(110)에 전송하는 데 걸리는 시간에 대략 비례한다. 하지만 이는 소위 데드-레크닝 방법(dead-reckoning methods)으로 완화될 수 있다. 참가자 통신국(110)의 일부가 시스템 제어 유닛(200)의 일부를 포함하고 일부는 포함하지 않는 하이브리드 접근법이 또한 가능하다.

오디오 브리징 유닛(300)은 에지포인트 믹서(310)를 포함하고 참가자 통신국(110)으로부터 유입 오디오 신호(325)를 수신하고 참가자 통신국(110)에 구분되어 믹싱된 신호(330)를 출력한다. 에지포인트 믹서(310)는 시스템 제어유닛(200)에 의해 동적으로 공급되는 믹싱 매개변수(150)에 따라 회의의 다수의 유입 오디오 신호(325)를 믹싱함으로서 참가자 통신국(110)에 대한 오디오 믹싱을 실행한다. 주어진 에지포인트 믹서(310)에 공급되는 믹싱 제어 매개변수(150)는 특정 회의에 대해 어떤 다른 에지포인트 믹서(310)에 공급되는 매개변수와는 다르기 쉽다. 따라서, 회의 환경이 회의의 특정 참가자에 따라 독자적이다.

간단한 시스템에서, 믹싱 매개변수(150)는 모든 다른 참가자의 유입 오디오 신호(325)에 대한 간단한 볼륨이나 이득 제어에 상응할 수 있다. 그러나, 오디오 브리징 유닛(300)은 다량의 매트릭스 곱셈을 실행할 것이고, 이와같이 하여 최적화되어야 한다. 오디오 브리징 유닛(300)은 각 믹싱 출력 신호(330)에 대해 어느 유입 오디오 신호(325)가 믹싱되고 있는 중인지를 표시하는, 각 참가자 통신국(110)에 대해 액티브 화자 표시자를 출력한다. 액티브-화자 표시자는 어느 순간에 어느 참가자 음성이 나오고 있는 지를 특정 통신국(110)에 의해 시각적 표시로 변환될 수 있다.

오디오 브리징 유닛(300)은 DSP 플랫폼에서나 리눅스 운영체제에서 구동되는 인텔 기반 PC와 같이 범용 연산 플랫폼에서 잠재적으로 구동될 수 있는 한 개 이상의 소프트웨어 처리를 포함한다. 오디오 브리징 유닛(300)은 에지포인트 믹서(310)를 구현하기 위해 회의 서버(600) 상에서 충분한 자원을 회의의 각 참가자 통신국(110)에게 각각 할당한다(선호됨). 가령, 회의 서버(600)가 DSP 플랫폼일 경우, 각각의 에지포인트 믹서(310)는 구분된 DSP에 할당될 수 있다. 대안으로, 매트릭스 수학적 연산을 실행할만한 충분한 처리 능력을 갖춘 DSP는 다수의 에지포인트믹서(310)를 수용할 수 있다.

또다른 실시예에서, 에지포인트 믹서(310)의 일부나 전부가 참가자 통신국(110)에 분포될 수 있다. 그러나 이는 모든 참가자 통신국(110)이 자신의 오디오 신호 입력(325)을 분포된 에지포인트 믹서(310)에 방송하는 점을 필요로할 것이다. 이는 모든 참가자 통신국(110) 사이에 초고속 연결없이는 불가능하다. 에지포인트 믹서(310)를 중앙화한 장점은 각 참가자 통신국(110)이 단일 오디오 신호의 송수신만을 필요로한다.

도 6에 도시되는 단일-서버 실시예에서, 각 에지포인트 믹서(310)는 다음의 정보를 입력으로 수용하도록 적응되는 것이 현재 선호된다.

- 16비트 펄스 코드 변조(PCM) 비압신 유입 오디오 신호(325) 샘플, 8000 샘플/초/참가자. 8비트 PCM이 전화에 대한 표준이지만, 16비트 요구사항은 미래의 광대역 코덱의 추가를 가능하게 한다.

- 10회/초의 표준 속도로 갱신되는 모든 회의 참가자에 대한 감쇠/증폭 믹싱 매개변수(150). 갱신 속도는 동적으로 조절가능한 매개변수임이 선호된다.

- 믹싱 알고리즘을 수정하는 시스템 제어 유닛(200)으로부터의 그외 다른 믹싱 매개변수(150)로서, 아래의 사항을 포함함.

- 동시에 믹싱되는 화자의 최대숫자(N). 시스템이나 시스템 운영자는 각 참가자 통신국(110)의 용량을 수용하거나 성능을 최적화시키기 위해 이 매개변수를 조절한다.

- 감쇠/증폭 수준에 대한 갱신 속도. 시스템이나 시스템 운영자는 성능 최적화(가령, 10회/초)를 위해 이 매개변수를 조절하는 것이 선호된다.

- 액티브-화자 표시자에 대한 갱신속도. 시스템이나 시스템 운영자는 성능 최적화를 위해 이 매개변수를 조절한다(가령, 10회/초).

- 스피치 활동 감지(SAD) 작동/정지. 각각의 참가자 통신국(110)은 회의 환경에 대해 SAD를 작동시키거나 정지시킬 수 있다. SAD가 정지되면, 상부 N개의 묵음(mute)되지 않은 유입 오디오 신호(325)가 달성되는 어떤 한계에 독립적으로 믹싱될 것이다.

각각의 에지포인트 믹서(310)는 다음의 데이터를 출력하는 것이 선호된다. 즉, 16비트 펄스 코드 변조(PCM) 비-압신 믹싱 오디오 신호(330) 스피치(소리) 샘플, 각 참가자 통신국(110)에 대해 8000 샘플/초. 들을 수 있는 현 화자(현재 믹싱중인 화자)를 식별하는 액티브 화자 표시자를 출력하는 것이 선호된다.

시스템 제어 유닛(200)과 오디오 브리징 유닛(300)은 참가자 통신국(110)과 같이 외부 자원과 통신하기 위해 미디어 인터페이스 유닛(MIU)(400)을 사용한다. MIU(400)는 회의 서버(600)와 참가자 통신국(110) 사이 적절한 통신을 위해 필요한 모든 프로토콜과 대화 메카니즘을 포함하는 소프트웨어 모듈이다(선호됨). 예를 들어, MIU(400)는 코딩/디코딩(610), 자동 이득 제어(615), RTP 패킷 패킹/언패킹(620)의 전통적인 오디오 처리 함수를 실행한다. MIU(400)는 특정 회의에 사용되는 IP상의 음성(VOIP) 프로토콜(630)에 대한 프로토콜 처리를 또한 실행한다. 시스템 제어 유닛(200)과 오디오 브리징 유닛(300)으로, MIU(400)는 네트워크에서 서로 다른 서버(600) 사이에 분포될 수 있다.

미국특허 5,513,328 호("Apparatus for inter-process/device communication for multiple systems of asynchronous devices")에 설명되는 시스템에 의해 IP 루팅이 달성되는 것이 선호된다. 상기 시스템은 사건에 의해 구동되는 소프트웨어 구조에 부착됨으로서 처리 자원을 효율적으로 이용하고, 새로운 플러그-인 장치로의 효율적 확장을 가능하게 한다.

오디오-회의 브리징 시스템에 대한 통신의 선호되는 설립은 인터넷 프로토콜(IP)이다. 이 프로토콜의 우산 내에서, 서브-프로토콜(가령, TCP, UDP)과, 수퍼-프로토콜(가령, RTP, RTCP)가 필요한 대로 사용된다. MIU(400)는 SIP와 H.323와 같은 표준 VOIP 프로토콜(630)을 또한 지원한다. 그러나, 어떤 VOIP 프로토콜(630)도 사용될 수 있다. VOIP 프로토콜 스택(630)은 Radvision의 제품이 가용하며, 다른 회사의 제품도 물론 사용할 수 있다.

실시간 프로토콜(RTP)과 실시간 제어 프로토콜(RTCP)(620)은 VOIP 네트워크의 미디어 전송을 위한 표준 매개물이다. MIU(400)는 회의 참가자 통신국(110) 각각에 대한 RTP 입력 및 출력 스트림의 패킹 및 언패킹을 실행한다. RTP 조작(620)은 VOIP 프로토콜 스택(630)과 함께 포함된 함수이다. 추가적으로, 압축된 RTP는 헤더-데이터 비를 제한하고 생산성을 향상시키도록 VOIP 미디어를 전송하는 데 사용된다.

참가자 통신국과 통신하기 위해, 시스템 제어 유닛(200)은 미디어 인터페이스 유닛(400)에 의해 변환가능한 커스텀 프로토콜("TrueChat Protocol"로 도 6에 명시됨)(640)로 이용한다. TrueChat 프로토콜(640)은 프로그램 의존적이며, 참가자통신국(110)으로부터 유입되는 정보를 처리하는 방법을 시스템 제어 유닛(200)에게 지시하기 위해 속성값 쌍과 같은 간단한 식별자를 포함한다. TrueChat 프로토콜(640)은 RTP에서 캡슐화될 수 있고, 이때 지정 RTP 페이로드 헤더 타입을 갖춘다. TrueChat 프로토콜(640)이 대역폭에 인텐시브하지는 않으나 시간에 민감하기 때문에 이는 적절하다. 프로토콜을 RTP에 캡슐화하는 것은 2차 RTP 세션을 간단히 구축함으로서 케이블랩 패킷 케이블(CableLabs Packet Cable) 구조와 같이 VOIP 구조에 내재한 QoS 제어 메카니즘을 이용한다.

MIU는 미디어 변환 유닛(650)을 또한 포함한다. 오디오 브리징 유닛(300)은 16비트 선형 유입 오디오 신호(325)를 수용하는 것이 선호된다. 그러나, 표준 전화 코덱(G.711)과 가장 압축된 코덱은 비선형이다. G.711의 경우에, 신호-잡음비 개선과 동적 범위 확장을 위해 미디어 변환 유닛(650)에 의해 비선형 압신 함수가 적용된다. 전화 타입 코덱의 경우에, 선형 PCM 스피치 샘플을 오디오 브리징 유닛(300)에 공급하기 위해, 미디어 변환 유닛(650)은 유입 오디오 신호(325)를 먼저 G.711로 변환하고, 이어, 역-압신 함수를 적용한다. 이 함수는 표 탐색 함수를 통해 달성된다(선호됨). 출력되는 믹싱 오디오 신호(330)의 경우에, 미디어 변환 유닛(650)은 반대의 작동을 실행한다. 미디어 변환 유닛(650)은 따라서 여러 다른 코덱을 16비트 선형으로, 그리고 다시 역으로, 변환할 수 있는 트랜스코더를 포함한다(선호됨).

앞서 기술한 바와 같이, 본 발명은 관리되는 IP 네트워크(455)(도 5) 상에서 구현되는 것이 선호된다. 그러나, 서비스 품질(QoS) 능력을 가진, 고도로 관리되는IP 네트워크(455)는 간혹적인 패킷 손실과 오류 도달을 일으킬 가능성이 크다. 음성 통신은 호출에 극히 민감하기 때문에, 손실된 패킷의 재전송은 데이터 전송 오류에 대한 존립가능한 치료가 아니다. 응용프로그램 측면에서, 순방향 오류 교정(FEC)은 이 문제에 대한 가능한 해법이다. 그러나, FEC는 이중 정보의 연속 전송을 필요로한다. 이는 대역폭 및 처리 측면으로부터 고가의 과정이다. 절충안으로서, 대부분의 VOIP 프로그램은 패킷 운반 문제로 인해 손실되는 스피치 샘플을 추정하기 위해 수신기 기반의 방법을 향해 움직인다. 샘플 하나를 잃은 경우에, 간단한 알고리즘은 이전 샘플을 반복하거나, 선형으로 보간한다. 여러 샘플을 잃어버린 경우에, ETSI TIPHON에 의해 추천되는 보간 방법처럼 보다 적극적인 보간법이 취해져야 한다. 가령, ANSI T1.521-1999에서 규정된 방법이 G.711 코덱 조작에 적절하다.

MIU(400)는 에코 소거한 자동 이득 제어(AGC)(615)를 또한 포함한다. AGC(615)는 G.711이나 타코덱으로의 변호나 이전에 적용된다. AGC(615)는 표준 전화 코덱에 대해 16비트에서 8비트로 오디오 브리징 유닛(300)으로부터의 출력을 정규화한다.

MIU는 스피치 인지 모듈(660)을 또한 포함한다. 후에 기술되겠지만, 스피치 인지 모듈(660)은 (타참가자에 의한 저속한 표현의 제거처럼) 일부 믹싱 정책 구현을 위해 본 발명과 연계하여 사용될 수 있다. IBM의 Via Voice와 같은 기존 스피치 인지 소프트웨어가 사용될 수 있다.

도 7은 본 발명의 기본 방법을 설명하는 것으로서, 도 2와 3에 기술되는 시스템과 연계하여 기술될 것이다. 먼저, 오디오-회의 브리징 시스템(100)은 오디오 회의 브리지를 동적으로 발생시킨다(700). 이는 시스템 제어 유닛(200)과 오디오 브리징 유닛(300)을 포함하면서 서버 상에서 구동되는 소프트웨어 처리이다. 도 2와 3의 선호되는 실시예에서 이는 다음과 같이 달성된다. 참가자 통신국(110)은 시스템 제어 유닛(200)을 갖춘 제어 세션을 독립적으로 구축한다. 시스템 제어 유닛(200)은 각각의 참가자 통신국(110)에 세션 식별자, 또는 SID를 제공하며, 이는 상기 참가자 통신국(110)에 독자적인 것이다. 시스템 제어 유닛(110)은 오디오 브리징 유닛(300)에 SID를 또한 제공하고, SID가 동일 회의에서 그룹을 형성하였음을 상기 유닛(300)에 알린다. 이 함수 구현 시에, 독자성을 보존하고 특정 SID를 특정 회의와 상관시키는 처리를 단순화하기 위해 회의 ID와 참가자 통신국 ID를 들어 SID를 표현하는 것이 이로울 것이다. 대안으로, SID가 단순히 참가자 통신국(110)의 IP 어드레스와 포트 어드레스를 포함할 수 있다.

제어 세션 구축 후, 각각의 참가자 통신국(110)은 오디오 브리징 유닛(300)과의 오디오 연결을 구축하고, 적절한 SID를 통신한다. SID는 참가자 통신국(110)에 의해 자동적으로 통신할 수도 있고, 오디오 브리징 유닛(300)에 의해 나타난 후 참가자(A,B,C)에 의해 수동으로 통신할 수도 있다. 가령, 도 4에 도시되는 바와 같이 참가자 통신국(110)을 이용하여 어떤자가 오디오 브리징 유닛(300)에 연결하는 데 잔신의 전화(460)를 사용하려할 수 있고, DTMF 톤을 통해 오디오 브리징 유닛(300)에 자신의 SID를 수동으로 제공하려할 수도 있다. 이때부터 회의 종료시까지, SID는 시스템 제어 유닛(200)에 의해 참고로 사용되고, 상기 시스템 제어 유닛(200)은 믹싱 제어 매개변수(150)를 갖춘 SID를 오디오 브리징 유닛(300)에 보낸다. 이는 오디오 브리징 유닛(300)이 여러 참가자 통신국(110)으로부터의 유입 오디오 신호(325)를 적절한 에지포인트 믹서와 상관시키고 적절한 믹싱 매개변수(150)를 적용하게 한다.

그 다음에, 시스템 제어 유닛(200)은 참가자 통신국(110)에 대한 믹싱 제어 데이터(140)를 수신한다(710). 각 참가자 통신국(110)에 대한 믹싱 제어 데이터(140)는 나머지 참가자 통신국(110)으로부터 두 개 이상의 유입 오디오 신호(325)에 적용될 개별 믹싱 매개변수(150)를 도출하기 위해 시스템 제어 유닛(200)에 의해 사용되는 데이터를 포함한다. 믹싱 제어 데이터(140)의 배치는 참가자 통신국(110)에서 분포된 제어의 수준과 회의 프로그램에 따라 여러 형태를 취할 수 있다. 가상 채팅방의 예에서, 각 참가자 통신국(110)으로부터 수신한 믹싱 제어 데이터(140)는 가상 회의 시계 내의 참가자 아바타(avatar)의 좌표일 수 있다. 또다른 예에서, 믹싱 제어 데이터(140)는 참가자 통신국(110)이 "친권적 제어" 함수를 가동(저속한 표현의 삭제 등)하였다는 통지를 단순히 포함할 수 있다. 또다른 예에서, 믹싱 제어 데이터(140)는 참가자로부터 명백한 믹싱 명령을 포함할 수 있다(가령, 참가자 c의 유입 오디오 신호(325)에서 볼륨을 증가).

그러나 일반적으로, "믹싱 제어 데이터"(140)는 믹싱 제어 매개변수(150) 연산에 사용되는 어떤 정보도 포함한다. 일부 예에서, 참가자 통신국(110)은 그 믹싱 매개변수(150)를 계산하도록 작동될 수 있고, 이 경우에, 믹싱 제어 데이터(140)는 그 자체가 매개변수(150)로 규정된다. 더욱이, 시스템 제어 유닛(200)에 의해 계산된 최종 믹싱 제어 매개변수(150)는 타시스템 자원으로부터의 데이터에 의존할 것이다(가령, 특정 참가자가 저속한 표현을 사용하였을 때 MIU(400)에서 스피치 인지 모듈(660)로부터의 경보).

시스템 제어 유닛(200)이 믹싱 제어 데이터(140)를 수신함에 따라, 오디오 브리징 유닛(300)은 참가자 통신국(110)으로부터 유입 오디오 신호(325)를 수신한다(720). 시스템 제어 유닛(200)은 참가자 통신국(110)에 대해 수신된 믹싱 제어 데이터(140)를 바탕으로 각 에지포인트 믹서(110)에 대한 믹싱 제어 매개변수(150)를 설정한다(730). 믹싱 제어 매개변수(150)는 3-단 제어 시스템에 따라 설정된다(그리고 주기적으로 갱신된다). 먼저, 표준 믹싱 매개변수가 알고리즘에 따라 설정되고, 가상 채팅방에서 거리에 기반한 감쇠를 예로들 수 있다. 알고리즘에 의해 결정되는 믹싱 매개변수는 저속한 화자의 소리를 묵음시키는 것처럼 시스템-설정이나 참가자-설정 정책에 따라 자동적으로 변경될 수 있다. 마지막으로, 상기 알고리즘이나 정책은 특정 화자의 음성을 증폭하고자하는 요청처럼 명백한 참가자 요청에 의해 무시될 수 있다.

가령, 3차원 회의 프로그램에서, 관련 표준 알고리즘은 시뮬레이팅된 3차원 환경에서 소리의 현실적 전파를 재생성하고자 한다. 이 경우에, 참가자 통신국(110) 각각으로부터 수신된 믹싱 제어 데이터(140)는 참가자가 마주치는 방향과 가상 환경 내 참가자 위치를 포함할 수 있다(왜냐하면 듣기와 말하기가 방향성을 가지기 때문). 작동 중에, 각각의 참가자 통신국(110)은 참가자의 현 위치와 방향으로 시스템 제어 유닛(200)을 주기적으로 갱신하여, 믹싱 제어 매개변수(150)가 갱신될 수 있다. 시스템 제어 유닛(200)은 이 정보를 취하고, 이를 믹싱 알고리즘에 적용하여 각 참가자 통신국의 지정 에지포인트 믹서(310)에 대해 적절한 믹싱 제어 매개변수(150)를 연산하며, 그후, 믹싱이 적절하게 실행되도록 오디오 브리징 유닛(300)에 상기 매개변수(150)를 전송한다. 참가자 위치 정보, 믹싱 제어 매개변수(150), 적절한 에지포인트 믹서(310)의 적절한 관계가 앞서 언급한 SID를 이용하여 달성된다.

본 예의 거리-기반 감쇠 알고리즘은 시스템이나 참가자 정책의 실행에 의해 자동적으로 변경될 수 있다. 예를 들어, 특정 참가자 통신국의 정책이 회의에서 일부 저속한 표현을 제거하는 것일 경우, 상기 참가자 통신국의 "친권적 제어" 플랙이 설정되고, 참가자 통신국의 믹싱 제어 데이터(140)의 일부로 시스템 제어 유닛(200)에 통지가 전송된다. MIU(400)는 스피치 인지 모듈(660)의 이용을 찾고자 한 세트의 공격적 어휘로 로딩된다. 공격적 어휘가 감지될 때마다, MIU(400)는 시스템 정보 유닛(200)에 이를 알려서, 일시적으로 공격적 화자에 대한 감쇠 매개변수를 100%로 설정하고, 그래서 바람직하지 못한 대화를 효과적으로 차단한다.

이 감쇠는 하부 알고리즘(이 경우엔 거리-기반 알고리즘)이 참가자의 믹싱된 오디오 신호 출력(330)에 공격적 화자의 음성이 포함되었는 지에 따라 발생한다. 이 감쇠는 이러한 정책을 작동시키는 참가자 통신국(110)에만 영향을 미친다. 정책을 작동시키지 않는 참가자는 말하여지는 모든 사항을 듣는다. 일부 응용에서, 시스템 관리자는 모든 참가자 통신국(110)으로부터 저속한 표현을 자동적으로 여과하고자 할 수 있다. 여러 다른 조율의 시스템 및 참가자 정책 구현은 본 발명에 의해작동되고, 당 분야의 통상의 지식을 가진 자들에게 명백하다.

표준 믹싱 알고리즘은 참가자 통신국(110)으로부터의 명백한 믹싱 명령을 포함하는 믹싱 제어 데이터(140)에 의해 바로 무시될 수도 있다. 명백한 믹싱 명령은 시스템 제어 유닛(200)에 의해 시행되는 여러 형태의 알고리즘 계산을 일시적으로나 영구적으로 무시할 수 있다. 예들 들어, 참가자는 믹싱 알고리즘에 의해 지시되는 이상으로 회의 내 또다른 참가자의 소리를 증폭시키도록 요청할 수 있다. 이는 예를 들어 3차원 채팅방에서 먼 거리에서의 대화를 엿듣고 싶을 때 유용할 것이다. 이와 유사한 요청은 자신의 대화를 타참가자가 엿듣지 못하도록 참가자 통신국(110)을 속삭임 모드나 사적 모드로 위치시킬 수 있다. 여러 다른 종류의 참가자 제어 요청은 본 발명에 의해 작동하고, 당 분야의 통상의 지식을 가진 자에게 있어 명백하다. 추가적으로, 믹싱 제어 매개변수(150)는 간단하기보다는 복잡하고, 선형 계수이며, 왜곡, 에코 등과 같은 효과를 생성하는 비선형 함수를 포함할 수 있다.

믹싱 제어 데이터(140)는 어떤 특정 참가자 통신국(110)에 대해 믹싱된 유입 오디오 신호(325)의 최대 숫자를 최적화하기 위해 사용되는 정보를 또한 포함할 수 있다. 논의되는 바와 같이, 참가자 통신국(110)은 본 오디오-회의 브리징 시스템(100)으로의 연결과 장비 모두의 품질을 작동 중에 변화시킬 것이다. 예를 들어, 도 4에 도시되는 참가자 통신국(110)은 PSTN(465) 상에서 오디오 브리징 유닛(300)에 연결되는 전화(460)의 오디오 인터페이스를 포함한다. 전화(460)와 PSTN(465)의 충실도가 제한되는 경우에, 본 발명은 상기 참가자 통신국(110)에 대해 믹싱될 수 있는 유입 오디오 신호(325)의 최대 수를 감소시키는 것이 선호된다.

고출력 멀티미디어 PC(451), 풀 스테레오 스피커(452), 관리되는 IP 네트워크(451)로의 고속 접속을 갖춘 순수한-IP 참가자 통신국(110)(가령, 도 5)은 많은 음성을 효과적으로 믹싱할 수 있고, 이때, 저충실도 참가자 통신국(110)(가령, 도 4)이 이를 처리하지 못할 수 있다. 본 시스템(100)은 동일한 회의 내에서조차 완전한 충실도를 가능하게 한다. 고출력 사용자는 완전한 충실도의 환경을 가질 것이고, 저출력 최종 사용자는 그렇지 못할 것이다. 하지만 둘 모두는 자신의 장비와 네트워크 연결로부터 대부분을 얻을 것이고 주어진 환경에서 그들이 기대한 서비스를 얻을 것이다. 이는 모든 다른 품질의 참가자 통신국(110)이 동일한 모임에 참여하게하고 서로 다르지만 동일하게 만족하는 환경을 가지게하는 상당한 장점이다.

각각의 참가자 통신국(110)에 대한 이 충실도 조절은 시스템 제어 유닛(200)에 의해 구현되는 알고리즘일 수 있다. 시스템 제어 유닛(200)은 상기 참가자 통신국(110)에 대한 믹싱을 위해 유입 오디오 신호의 최대 최적 숫자를 자동적으로, 또는 사용자 입력에 따라 결정하는 것이 선호된다. 한 실시예에서, 관련 믹싱 제어 데이터(140)는 참가자 통신국(110)으로부터 명백한 명령을 포함한다. 가령, 참가자 통신국(110)에서 구동되는 프로그램은 연결 속도, 오디오 장비 등을 바탕으로 이 매개변수들이 설정되는 방법을 참가자에게 제안할 수 있다. 이 매개변수는 회의 중 동적으로 수정될 수도 있으며, 그래서 참가자가 원 설정에 만족하지 못할 경우 믹싱된 최대 숫자의 유입 신호(325)를 참가자가 변경할 수 있다. 또다른 실시예에서, 시스템 제어 유닛(200)은 네트워크 지터(network jitter), 패킷 손실, 서비스 품질, 연결 속도, 호출 등을 포함하여 네트워크 조건 감시를 통해 믹싱 제어 데이터(140)를 자동적으로 모음으로서 각 참가자 통신국(110)에 대한 최대 숫자의 믹싱 유입 신호(325)를 최적화할 수 있다.

믹싱 제어 매개변수(150)가 연산될 경우, 이는 시스템 제어 유닛(200)에 의해 오디오 브리징 유닛(300)에 전송된다. 오디오 브리징 유닛(300)은 에지포인트 믹서(310)를 이용하여 각 참가자 통신국의 믹싱 제어 매개변수(150)에 따라 유입 오디오 신호(325)를 믹싱한다(740). 각 참가자 통신국(110)에는 구분된 에지포인트 믹서(310)가 할당되고, 시스템 제어 유닛(200)은 믹싱 제어 매개변수(150)을 갖춘 참가자 통신국(110)에 SID를 전송하여 오디오 브리징 유닛(300)에 의해 적절한 교정을 시행한다.

믹싱의 선호되는 방법은 도 3의 배치를 역참고하여 기술될 것이다. 단순화를 위해, 참가자 통신국(110)에 의해 명백하게 공급되는, 동적으로 갱신되는 감쇠값에 따라 모든 음성을 믹싱하는 매우 수월한 믹싱 알고리즘을 가정해보자. 추가적으로, 도 3의 여러 입력 신호와 출력 신호에 대해 다음의 라벨을 가정해보자.

SI(1) = 참가자 통신국 A로부터의 유입 오디오 신호

SI(2) = 참가자 통신국 B로부터의 유입 오디오 신호

SI(3) = 참가자 통신국 C로부터의 유입 오디오 신호

SO(1) = 참가자 통신국 A에 출력되는 믹싱 오디오 신호

SO(2) = 참가자 통신국 B에 출력되는 믹싱 오디오 신호

SO(3) = 참가자 통신국 C에 출력되는 믹싱 오디오 신호

A(1,1) = 참가자 A의 입력 신호에 대해 참가자 A에 의해 선택되는 증폭(가상 환경이 에코를 포함하지 않을 경우 이는 일반적으로 0이 됨)

A(1,2) = 참가자 B의 입력 신호에 대해 참가자 A에 의해 선택되는 증폭

A(1,3) = 참가자 C의 입력 신호에 대해 참가자 A에 의해 선택되는 증폭

A(2,1) = 참가자 A의 입력 신호에 대해 참가자 B에 의해 선택되는 증폭

A(2,2) = 참가자 B의 입력 신호에 대해 참가자 B에 의해 선택되는 증폭(가상 환경이 에코를 포함하지 않을 경우 이는 일반적으로 0이 됨)

A(2,3) = 참가자 C의 입력 신호에 대해 참가자 B에 의해 선택되는 증폭

A(3,1) = 참가자 A의 입력 신호에 대해 참가자 C에 의해 선택되는 증폭

A(3,2) = 참가자 B의 입력 신호에 대해 참가자 C에 의해 선택되는 증폭

A(3,3) = 참가자 C의 입력 신호에 대해 참가자 C에 의해 선택되는 증폭(가상 환경이 에코를 포함하지 않을 경우 이는 일반적으로 0이 됨)

출력 신호에 대한 공식은 입력 신호의 함수로 단순하게 나타낼 수 있다.

SO(1) = A(1,1)*SI(1) + A(1,2)*SI(2) + A(1,3)*SI(3)

SO(2) = A(2,1)*SI(1) + A(2,2)*SI(2) + A(2,3)*SI(3)

SO(3) = A(3,1)*SI(1) + A(3,2)*SI(2) + A(3,3)*SI(3)

이 계산은 간단한 매트릭스 연산으로 달성될 수 있다. 가령, SI가 참가자 입력 신호(325)의 입력 열 벡터를 나타내고 A가 증폭 매트릭스를 나타내고, SO가 믹싱된 오디오 신호 출력(350)의 출력 벡터를 나타낼 경우,

SO는 A x SI, 이때 x는 매트릭스 곱셈을 표시한다.

유입 오디오 신호(325)가 항상 변하며 증폭 매트릭스는 주기적으로 갱신되고 그래서 이 계산은 출력되는 믹싱 오디오 신호(330)의 단일한 샘플만을 나타낸다. G.711과 같은 전형적인 PCM 기반 코덱에서, 이 동작은 초다 8000회 실행된다. 에지포인트 믹싱 연산을 매트릭스 연산으로 구현함으로서, 명백한 스트림 듀플리케이터(399)(도 3)에 대한 필요성이 제거된다.

앞서의 예는 소수의 참가자 통신국(110)과 단순한 믹싱 알고리즘을 가정한다. 그러나 보다 복잡한 실시예의 경우, 회의당 세 개를 넘는 참가자 통신국(110)이 존재할 것이고 믹싱 알고리즘은 보다 복잡할 것이다. 따라서 에지포인트 믹싱 연산이 연산 오버헤드를 제한하도록 최적화된다. 예를 들어, 상대적으로 큰 채팅방이 대화에 활발히 참여하는 50개의 참가자 통신국(110)을 가진다고 가정해보자. 또한 표준 믹싱 알고리즘이 8명의 화자까지 믹싱한다고 가정해보자. 먼저, 오디오-회의 시스템(100)은 어느 유입 오디오 신호(325)가 각각의 참가자 통신국(110)에 대해 믹싱되어야 하는 지를 결정하여야 한다. 그후, 믹싱 계산은 관련된 매트릭스 연산의 복잡도를 감소시키도록 최적화되어야 한다.

오디오 브리징 유닛(300)으로의 선호되는 실시간 입력은 미디어 인터페이스 유닛(400)을 통해 수신되는 유입 오디오 신호(325)로부터 취해지는 PCM 스피치 샘플 벡터(SI)와 시스템 제어 유닛(200)으로부터 증폭 매트릭스(A)이다. 두 간단한 단계들은 어느 화자의 소리가 믹싱되어야 하는 지를 결정하는 조합으로 사용될 수 있다. 첫 번째 단계는 가능성의 숫자를 감소시키는 수단으로 현 활발한 화자를 결정하기 위해 스피치 활동 감지(SAD)를 이용하며, 두 번째로는 믹싱을 위해 상부 N개의 소스를 선택하기 위해 신호 강도 및 증폭값을 평가한다.

선호되는 과정에서 첫 번째 단계는 유입 오디오 신호(325)에 대한 SAD 값을 주기적으로 연산하는 것이다. 스피치 활동 감지 알고리즘은 상대적으로 표준적인 구축 블록으로서, 여기서 기술되지 않을 것이다. 그러나 SAD는 미디어 변환 유닛(650)과 연계하여 MIU(400)의 일부로 구현되는 것이 선호된다. 유입 스피치 샘플의 주파수(가령, 초당 8000회)에 비해, 스피치 활동 감지는 상대적으로 정적이다(가령 초당 10번 갱신). SAD 함수의 출력은 일반적으로 0이나 1(Boolean value)이다. 여러 유입 오디오 신호(325)가 비활성(침묵하거나 작은 잡음뿐)일 것이기 때문에, 증폭 매트릭스(A)의 열의 수와 스피치 입력 벡터(SI)의 행의 수는 급히 감소할 수 있고, 따라서 필요한 매트릭스 연산의 양에 상당한 감소가 있을 것이다. 이 감소된 매트릭스는 (a)와 (si)로 각각 불릴 것이다.

본 선호되는 처리에서 두 번째 단계는 (참가자 통신국(110) 당) 강도에 따라 증폭된 유입 신호(325)를 정렬시키고 그후, 상기 참가자 통신국(110)에 출력되는 최종 믹싱 신호에 대해 상부 N개의 신호만을 더하는 데 사용될 수 있다. 최종 합산을 위해 선택된 증폭된 신호는 각각의 참가자 통신국(110)에 대해 변할 수 있다. 이는 감소된 증폭 매트릭스(a)와 입력 신호 벡터(si)의 매트릭스 곱셈이 일련의 수정된 벡터 도트 프로덕트로 추가적으로 감소되는 것을 의미하며, 이때 단일 매트릭스 곱셈 대신에 각각의 행은 구분되어 연산된다. 최종 덧셈 이전에 발생하는 소팅 처리가 있기 때문에 벡터 도트 프로덕트는 수정된다. 오디오 브리징 유닛(300)은 도트 프로덕트와 관련된 곱셈을 실행하며, 상부 N(가령 8)개의 값을 얻을때까지 내림차순 소팅을 실행한다. 상부 N개의 값은 바람직한 출력 믹싱 신호(330)를 얻기 위해 더해진다.

유입 오디오 신호(325)가 믹싱 제어 매개변수(150)에 따라 적절히 믹싱될 때(740), 구분되어 믹싱된 오디오 신호(330)가 오디오 브리징 유닛(300)으로부터 각각의 참가자 통신국(110)까지 출력된다(750). 믹싱된 오디오 신호(330)의 출력(750)은 통신망 사이에서 각각의 참가자 통신국(110)까지 믹싱된 오디오 신호(330)를 송신하는 오디오 브리징 유닛(300)을 통상적으로 포함할 것이다. 그러나 오디오 브리징 유닛(300)의 일부가 참가자 통신국(110)에 분포되는 실시예(일부 참가자 통신국(110)이 고유 에지포인트 믹서(310)를 포함함)에서, 출력 단계(750)는 믹싱된 오디오 신호(330)를 화자에게 보내는 과정을 포함할 수 있다.

도 8은 본 발명의 오디오-회의 브리징 시스템(100)을 이용하는 가상 채팅방(800)에 대한 가능한 시각적 인터페이스의 한 예를 도시한다. 도 8에 도시되는 응용 프로그램의 예는 2차원 가상 채팅방(800)을 나타내며, 이때 참가자 A-F를 나타내는 아바타(810)가 위치한다. 이 특정 채팅방(800)은 산에서의 장면을 나타내고, 실외 스포츠 등의 토론에 어울린다. 참가자에 추가하여, 도 8은 쥬크박스(820)에 대한 아이콘과, 이 경우에 하와이를 테마로 하는 채팅방인 분리된 가상 채팅방으로의 하이퍼텍스트 링크(830)의 아이콘을 포함한다. 이 채팅방(800)은 시스템 제어 유닛(200)과 오디오 브리징 유닛(300)으로 동일 서버(600)에서 열리는 인터넷 웹사이트일 수 있다. 본 실시예에서, 채팅방(800)의 시각적 인터페이스가 참가자 통신국(110)에서 구동되는 자바 애플릿에 의해 참가자 통신국(110)에 제공될 수 있다. 거의 무한하게 많은 다른 종류의 시각적 인터페이스가 물론 가능하다. 그러나 여기서 도시되는 채팅방(800)은 본 발명의 오디오-회의 브리징 시스템(100)을 이용한 가상 채팅 세션의 예를 기술하기 위해 도 9와 연계하여 사용된다.

도 9는 도 8에 도시되는 가상 채팅방에서 채팅 세션의 한 예를 나타내는 사건 차트이다. 논의되는 바와 같이, 여러 믹싱 알고리즘이 가능하다. 가상 채팅방 프로그램(800)에서, 관련된 믹싱 알고리즘은 시뮬레이팅된 환경에서 거리에 기반한 소리 전파를 현실적으로 재생성하고자 할 수 있다. 이 환경은 2차원일수도, 3차원일 수도 있다. 3차원의 경우에, 각 참가자 통신국(110)에 의해 전송된 믹싱 제어 데이터(140)는 방내에서의 참가자 위치, 참가자의 방향, 참가자 머리의 회전정도를 포함할 수 있다. 이 정보를 갖추었을 경우, 시스템 제어 유닛(200)은 화자의 방향과 거리를 바탕으로 감쇠되는 오디오 브리징 유닛(300)으로부터 믹싱된 오디오 신호(330)를 출력할 믹싱 제어 매개변수(150)를 계산한다(가령, 참가자의 아바타 좌측에 있는 화자는 참가자 통신국의 좌측 스테레오 스피커로부터 주로 출력되는 믹싱된 음성을 가질 수 있다). 그러나 단순화를 위해 도 9에 도시되는 예는 방향, 머리 회전 등에 상관없이 간단한 거리-기반 알고리즘을 가정한다.

첫 번째 "사건"(900)은 참가자 A, B, C가 채팅방(800)에 위치한다는 것이다(이미 회의 세션을 구축하였음). 도 8이 축적대로 그려지지는 않았으나, 최초에 A, B, C가 서로로부터 등거리라고 가정하자. 추가적으로, 다음의 초기 가정이 이루어진다. 1) 방(800)에 최초에는 참가자 D, E, F 중 누구도 없었다. 2) 모든 참가자는 동일한 오디오 수준에서 연속적으로 말한다고 가정된다. 3) 참가자 C만이 저속한언어 삭제 등과 같은 친권적 제어가 가능하다. 4) 어느 순간에서도 믹싱될 수 있는 유입 오디오 신호의 표준 최대 숫자가 4이다.

참가자 A, B, C가 방(800) 내에 있을 때, 그 참가자 통신국(110)은 방(800) 내의 위치를 포함하여 믹싱 제어 데이터(140)로 시스템 제어 유닛(200)을 주기적으로 갱신한다(이 논의를 위해, 참가자 아바타(810)의 위치는 참가자 자체의 위치로 언급된다). 시스템 제어 유닛(200)은 구체화된 믹싱 알고리즘을 믹싱 제어 데이터(140)에 적용하여, 각 참가자 통신국(110)에 대해 믹싱 매개변수(150)를 계산한다. 오디오 브리징 유닛(300)이 개별 믹싱 매개변수(150)를 바탕으로 각 참가자 통신국(110) 각각에 대해 구분된 출력 신호(330)를 믹싱한다. 이 경우에, 참가자 A, B, C가 서로로부터 등거리에 위치하고 간단한 거리기반 믹싱 알고리즘이 적용되고 있기 때문에, 각각의 참가자 통신국(110)은 나머지 두 참가자의 입력의 동등한 믹스를 수신한다(가령, A의 믹싱된 신호 = 50%(B) + 50%(C)).

도 9에 도시되는 백분율이 유입 오디오 신호(325)의 성분 믹스임을 이해하여야 한다. 그러나 이것이 반드시 신호 강도를 표시할 필요는 없다. 차라리 본 실시예에서, 이득은 화자 볼륨 입력과 아바타(810)간의 거리의 함수이다. 한 실시예에서, 아바타(810)간의 거리의 제곱이 증가함에 따라 이득은 감소한다(실제 세계에서도 대략 사실과 같다). 그러나 일부 프로그램에서, 아바타(810)간 인접도의 선형 함수로 이득을 계산하는 것처럼 낮은 속도의 거리 기반의 "붕괴"를 이용하는 것이 바람직할 수 있다. 또다른 실시예에서, 아바타(810)간 거리에 상관없이 가상 채팅방(800) 내의 대화를 가청 수준으로 증폭시키는 것이 항상 바람직할 수 있다. 본실시예에서, 간단한 거리기반 알고리즘이 사용되고 모든 참가자가 동일한 유입 수준으로 끊임없이 말하며, 그래서 어떤 특정 참가자에 대한 "상부 유입 신호(325)도 거리상 가장 가까운 세명의 나머지 참가자이다.

다음으로, 참가자 A가 참가자 B에 가깝게 이동하고(910), 참가자 A와 B는 참가자 C와 등거리를 유지한다(도 8은 각 참가자의 시작점만을 도시함). 시스템 제어 유닛(200)은 참가자 A, B, C의 갱신된 위치를 수신하고, 각 참가자 통신국(110)에 대한 믹싱 제어 매개변수(150)를 재계산한다. 오디오 브리징 유닛(300)은 시스템 제어 유닛(200)으로부터 수신되는 갱신된 믹싱 제어 매개변수(150)를 바탕으로 각 참가자 통신국(110)에 대한 유입 오디오 신호(325)를 다시 믹싱한다. 본 예에서, 참가자 A가 B와 C의 유입 오디오 신호(325)간에 각각 70%-30%로 분리된 값을 수신하도록 참가자간 거리가 변하였다고 가정하자. B는 A와 C의 유입 오디오 신호(325)간 유사하게 분리된 값을 수신한다. 그러나 C는 A와 B의 유입 오디오 신호(325) 사이 50%-50%로 분리된 값을 수신한다. 왜냐하면 A와 B 참가자들은 C와 등거리에 위치하기 때문이다.

다음에 기술되는 사건(920)은 참가자 B가 저속한 말을 내뱉은 경우이다. 저속함은 MIU(400) 내의 스피치 인지 모듈(660)에 의해 감지되고, 이는 B의 유입 오디오 신호(325) 내에 내장된 저속함을 시스템 제어 유닛(200)에 알린다. 참가자 C가 친권적 제어를 가동시키는 유일한 참가자임을 기억하라. 시스템 제어 유닛(200)은 참가자 통신국 C에 대한 믹싱 제어 매개변수(150)를 재계산하고 갱신된 매개변수(150)를 오디오 브리징 유닛(300)으로 전송한다. 오디오 브리징 유닛(300)은 일시적으로(어떤 경우에는 영구적으로) C의 믹싱된 신호(330)로부터 B의 유입 신호(325)를 묵음시켜야 한다. 여기서, B의 유입 신호(325)가 C의 믹싱된 신호(330)로부터 영구적으로 묵음된다고 가정한다. 이와 같이, C는 참가자 A로부터의 오디오 입력만을 수신한다. A와 B로부터의 믹싱 제어 데이터(140)가 변하지 않았다고 가정할 경우, A와 B에 출력되는 믹싱된 신호(330)는 동일하게 유지된다(그리고 A는 B가 내뱉은 저속한 언어를 들을 것이다).

그 다음으로, 참가자 D와 E가 채팅방(800)에 들어오고 도 8에 도시되는 위치로 이동한다. 앞서 논의한 바와 같이, 채팅방(800)에 들어오기 위하여, 참가자 D와 E는 오디오 브리징 유닛(300)과의 미디어 연결과 시스템 제어 유닛(200)과의 제어 세션을 가질 것이다. D와 E가 도 5에 도시되는 "순수한 IP" 참가자 통신국(110)을 이용한다고 가정할 경우, 참가자 D와 E는 시스템 제어 유닛(200)에 의해 제공되는 SID에 수동으로 들어가지 않으면서 채팅방(800)에 이음새없이 들어갈 수 있다.

참가자 D와 E가 채팅방(800)에 들어갈 경우(930), 시스템 제어 유닛(200)은 모든 참가자의 위치를 포함하는 믹싱 제어 데이터(140)의 주기적 갱신값을 수신한다. 두 참가자의 추가는 시스템 제어 유닛(200)으로 하여금 기존 참가자 A, B, C와 새 참가자 D, E에 대한 믹싱 매개변수(150)를 재계산하게 한다. 오디오 브리징 유닛(300)은 새 믹싱 매개변수(150)를 바탕으로 각 참가자 통신국(110)에 대해 유출 믹싱 신호(330)를 리믹싱한다. 도 9에 도시되는 바와 같이, 본 예에서, 참가자 A, B, C는 D와 E로부터 유입 오디오 신호(325)의 상당한 감쇠 수준을 수신한다. 왜냐하면 참가자 D와 E가 서로 상당히 떨어져있기 때문이다(참가자 E가 참가자 B보다좀더 멀리 위치한다). 마찬가지로, 참가자 D와 E는 각각 다른 유입 오디오 신호(325)를 대부분 수신하고 참가자 A, B, C로부터 유입 오디오 신호(325)의 크게 감쇠된 부분을 가진다.

다음으로, 참가자 A는 참가자 D와 E의 거리가 먼 대화를 스캔하도록 명백하게 요청한다(940). 이 요청은 참가자 D와 E 사이의 공간에 마우스 포인터를 참가자 A가 직접 클릭하는 것을 포함하여 여러 방식으로 이루어질 수 있다. 시스템 제어 유닛은 참가자 A로부터 믹싱 제어 데이터(140)의 부분으로 이 요청을 수신한다. 시스템 제어 유닛(200)은 참가자 A가 참가자 A의 마우스 포인터에 의해 클릭되는 점에 위치한 것처럼 A의 믹싱 제어 매개변수(150)를 재계산한다(선호됨). 나머지 참가자가 참가자 A의 유입 오디오 신호(325)를 믹싱하기 위해, A는 자신의 이전 위치에 있다고 가정된다. 오디오 브리징 유닛(300)은 새 믹싱 제어 매개변수(150)에 따라 참가자 A의 유출 믹싱 신호(330)를 리믹싱한다(D와 E간 대화에 좀더 비중을 두는 A로의 믹싱된 신호 출력(330)을 유발함). 다른 참가자에게로의 믹싱된 오디오 신호(330)는 본 사건에 의해 변화하지 않는다.

다음으로 설명되는 사건(950)은 도 4에 도시되는 것과 유사한 참가자 통신국(110)을 이용하여 회의에 참여하고자 하는 참가자 F로부터의 요청이다(가령, 시각적 PC 인터페이스와 오디오 PSTN 전화 인터페이스). 참가자 F로부터의 요청은 자신의 PC(450)나 그외 다른 시각적 인터페이스를 통해 이루어진다. 시스템 제어 유닛(200)은 오디오 브리징 유닛(300)에 SID를 또한 전송하고, 이는 SID를 현 회의에 상관시키고 참가자 F가 오디오 연결 구축을 기다리게 한다. 참가자 F가 실제 회의에 참가할 때까지, 기존 참가자 통신국(110)에 대한 믹싱된 오디오 신호는 변하지 않는다.

한 실시예에서, 참가자 F가 무료 장거리 전화를 함으로서 오디오 연결을 구축한다. 이는 PSTN-IP 게이트웨이(470)를 통해 오디오 브리징 유닛(300)에 참가자 통신국 F를 연결한다. 오디오 브리징 유닛(300)은 시스템 제어 유닛(200)에 의해 제공되는 SID에 참가자 F를 즉시 들어가게 한다. SID에 들어가면, 오디오 브리징 유닛(300)은 참가자 통신국 F에 에지포인트 믹서(310)를 제공하고 이를 현 회의에 연결한다.

참가자 F가 오디오 연결을 구축하고 회의에 들어갈 경우(도 8에 도시되는 위치)(960), 시스템 제어 유닛(200)은 채팅방(800) 내 참가자 F의 초기 위치를 포함한 모든 참가자 위치의 주기적 갱신값을 수신하고 각 참가자 통신국(110)에 대해 갱신된 믹싱 제어 매개변수(150)를 계산한다. 이 회의에 대해 믹싱된 오디오 신호의 표준 최대 숫자가 4라고 가정되었던 사실을 기억해보라. 이제 6명의 참가자가 존재하기 때문에, 각각의 참가자는 나머지 참가자의 유입 오디오 신호(325) 중 한 개 이상을 포함하지 않는 믹싱된 신호(330)를 수신한다. 예를 들어, 참가자 C가 (참가자 D와 E 사이) 참가자 A의 엿듣는 위치로부터 멀리 위치하기 때문에, A의 믹싱된 신호(330)는 C로부터의 어떤 입력도 포함하지 않는다. 마찬가지로, 참가자 B의 믹싱된 신호(330)는 참가자 E로부터의 어떤 입력도 포함하지 않는다(참가자 A는 참가자 A의 엿들음에도 불구하고 타참가자의 믹싱 목적을 위해 참가자 A와 B에 의해 자신의 위치를 유지하는 것으로 간주됨을 기억하라). 저속함 때문에 참가자 B의입력을 이미 묵음처리하였기 때문에, 참가자 C는 참가자 F의 추가에 의해 어떤 추가적 신호 입력을 잃지 않는다.

그러나, 본 시스템(100)에 대한 참가자 F의 PSTN 연결(465)의 충실도가 제한될 때, 시스템 제어 유닛(200)은 참가자 F에 대해 믹싱된 유입 오디오 신호의 수를 세 개로 제한하는 것이 선호된다. 충실도 및 속도 제한으로 인해, 참가자 F의 오디오 연결 및 장비는 네 개의 믹싱된 음성을 가지는 유출 믹싱 신호(300)를 실시간으로 선명하게 수신할 수 없다. 따라서, 제어 시스템은 참가자 통신국 F가 최적으로 조작할 수 있는 충실도 수준으로 참가자 F를 수용한다. 논의되는 바와 같이, 이 충실도 제한은 시스템 제어 유닛(200)에 의해 자동적으로 도출되거나 참가자 통신국(110)으로부터 명백하게 수신되는 믹싱 제어 데이터(140)를 바탕으로 시스템 제어 유닛(200)으로부터 믹싱 제어 매개변수(150)로 포함되는 것이 선호된다.

참가자 A는 가상 채팅방(800)의 구석의 쥬크박스(820)를 켠다(970). 이 가상 쥬크박스(820)는 여러 형태를 취할 수 있고, 또다른 서버에서 지원하는 스트리밍 오디오 서비스로의 링크를 포함할 수 있다. 그러나 음악이 가상 채팅방(800)으로 유입되기 때문에, 쥬크박스(820)가 믹싱을 위한 또다른 참가자로 다루어지는 것이 선호된다. 다시 말해서, 쥬크박스(820)에 가까운 참가자들은 거리가 먼 참가자들에 비해 더 큰 음악을 들을 것이다. 따라서, 시스템 제어 유닛(200)은 또다른 잠재적 유입 오디오 신호(325)의 소스로 쥬크박스(820)를 꼽으며, 이에 바탕하여 거리에 기반한 믹싱 제어 매개변수(150)를 계산한다. 오디오 브리징 유닛(300)은 쥬크박스(820)의 작동에 의해 영향받는 참가자에 대해 구분되어 믹싱되는 오디오신호를 리믹싱한다. 이 경우에, 참가자 A, D, E F만이, 이전에 믹싱되었던 네 유입 오디오 신호(325) 중 하나를 쥬크박스(820)로부터의 음악이 대체하도록 쥬크박스에 충분히 가깝다.

마지막으로, 참가자 A는 가상 채팅방(800)의 구석에 있는 "하와이" 표시(830)와 충돌할 것을 결정한다(980). 이는 다른 채팅방으로의 편리한 입구이다. 이는 현 채팅방(800) 내의 하이퍼텍스트 링크로 구현될 수 있고, 다른 여러 메카니즘에 의해 구현될 수도 있다. 이러한 링크와 아바타의 충돌같은 사건을 다루기 위한 선호되는 방법은 "Automatic Teleconferencing Control System"의 명칭을 가지는 1999년 7월 17일 미국출원된 미국특허출원 60/139,616 호에 설명된다.

한 참가자 A가 하이퍼텍스트 링크와 충돌하고(980), 시스템 제어 유닛(200)은 참가자 A에게 다른 SID를 할당하며, 오디오 브리징 유닛(300)에 상기 SID를 전송한다. 오디오 브리징 유닛(300)은 SID를 하와이 모임에 상관시키고, 참가자 A를 상기 모임에 연결하며, 또다른 에지포인트 믹서(310)가 상기 용도로 제공된다. 시스템 제어 유닛(200)은 하와이 모임에서 참가자 A에 대한 초기 믹싱 매개변수(150)를 계산하고, 이를 오디오 브리징 유닛(300)에 보낸다. 오디오 브리징 유닛(300)은 하와이 모임에서 타참가자의 다른 에지포인트 믹서(310)에 A의 유입 오디오 신호(325)를 연결하고, A의 믹싱 제어 매개변수(150)에 따라 나머지 하와이 모임 참가자의 유입 오디오 신호(325)를 믹싱한다.

도 9에 설명되는 예가 한정적인 것은 아니다. 여럿 중에, 모든 참가자가 어떤 한 순간에 말하고 있다는 가정은 가망이 없다. 따라서, 믹싱될 유입 오디오 신호(325)의 적절한 선택은 도 7과 연계하여 기술되는 방법과 연계하여 쉽게 이루어질 것이다. 더욱이, 기술하는 바와 같이, 믹싱 형태는 거리 기반 감쇠 알고리즘, 선택적 참가자 묵음 처리, 그리고 비방향성 단청 프로그램에 대한 선택적 참가자 증폭보다 훨씬 복잡할 것이다. 이 기본적 믹싱 공식에 대한 논리적 확장은 대화의 방향성, 스테레오나 3차원 환경, 방향성 청취 능력 등을 추가할 수 있다.

추가적으로, 본 발명의 오디오-회의 브리징 시스템(100)은 대화형 게임 프로그램과 연계하여 사용되기 쉽다. 이 경우에, 에코, 데드스페이스(dead space), 잡음, 왜곡과 같이 오디오 믹싱 능력에 "룸 효과"를 추가하는 것이 바람직해질 수 있다. 또한, 도 8에 도시되는 채팅방(800)의 제 3자적 관측에 추가하여, 일부 게임 프로그램이 3차원의 1인칭 관찰을 추가할 것이다. 여기서 사용되는 바와 같이, 아바타(810)는 1인칭이나 3인칭 관찰인지에 상관없이 참가자나 참가자 통신국(110)의 시각적 표현을 나타낸다는 것을 이해하여야 한다. 더욱이, 사무 회의나 일부 오락 프로그램에서, 광대역 오디오 믹싱이 회의 환경에 상당한 가치를 부여할 수 있다.

추가적으로, 본 발명은 간단한 오디오-회의 분야에 제한되지 않는다. 다른 종류의 데이터 스트림도 물론 수용될 수 있다. 예들 들어, 아바타는 참가자의 비디오 표현을 포함할 수 있다. 추가적으로, 보 발명은 실시간의 문서 공동 작업에 사용될 수 있다.

Claims

오디오 회의를 촉진시키기 위한 방법으로서, 상기 방법은,

- 제 1 참가자 통신국과 다수의 다른 참가자 통신국을 포함하여 오디오 회의에서 참가자 통신국을 작동가능하게 연결하는 오디오-회의 브리지를 발생시키고, 참가자 통신국으로부터 유입 오디오 신호를 수신하도록 적응되며,

- 나머지 참가자 통신국으로부터 두 개 이상의 유입 오디오 신호에 대한 개별 믹싱 매개변수를 도출하는 데 필요한 데이터를 포함하여 제 1 참가자 통신국에 대해 제 1 믹싱 제어 데이터를 수신하며,

- 다수의 참가자 통신국으로부터 유입 오디오 신호를 수신하고,

- 제 1 참가자 통신국에 대해 수신되는 제 1 믹싱 제어 데이터를 바탕으로 오디오 회의 믹싱 매개변수들의 제 1 세트를 설정하며,

- 제 1 믹싱 오디오 신호를 생성하고자 제 1 세트의 오디오-회의 믹싱 매개변수에 따라 N개의 유입 오디오 신호를 믹싱하고, 이때 N은 1보다 큰 정수이며,

- 제 1 믹싱 오디오 신호를 출력하는, 이상의 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 제 1 믹싱 오디오 신호를 출력하는 상기 단계가 제 1 믹싱 오디오 신호를 제 1 참가자 통신국에 전송하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 제 1 참가자 통신국이 제 1 통신망에 연결되고 오디오-브리지 회로는 제 2 통신망에 연결되며, 오디오-회의 브리지를 발생시키는 상기 단계는 제 1 통신망과 제 2 통신망 사이 게이트웨이를 통해 오디오-회의 브리지에 제 1 참가자 통신국을 작동가능하게 연결하는 단계를 포함하는 것을 특징으로 하는 방법.
제 3 항에 있어서,

제 1 참가자 통신국은 상기 제 2 통신망에 작동가능하게 연결되고,

제 1 참가자 통신국은 제 1 통신망을 통해 제 1 믹싱 오디오 신호를 수신하며,

제 1 참가자 통신국은 제 2 통신망을 통해 제 1 믹싱 오디오 신호를 송신하는 것을 특징으로 하는 방법.
제 4 항에 있어서, 제 1 통신망은 공중 스위칭 전화망, 무선 통신망, 위성 통신망 중 한 개 이상을 포함하는 것을 특징으로 하는 방법.
제 4 항에 있어서, 제 2 통신망은 인터넷, 광지역 통신망(WAN), 근거리 통신망(LAN) 중 한 개 이상을 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 믹싱 제어 데이터는 제 1 참가자 통신국으로부터의 명백한 믹싱 명령을 포함하는 것을 특징으로 하는 방법.
제 7 항에 있어서,

제 2 참가자 통신국은 오디오 회의 브리지에 오디오 신호를 송신하고,

믹싱 명령은 제 2 참가자 통신국에 의해 송신되는 오디오 신호에 대한 이득을 증가시키는 과정을 포함하는 것을 특징으로 하는 방법.
제 7 항에 있어서,

상기 제 2 참가자 통신국은 오디오 회의 브리지에 오디오 신호를 송신하고,

상기 믹싱 명령은 제 2 참가자 통신국에 의해 송신되는 오디오 신호를 완전히 묵음시키지 않으면 제 2 참가자 통신국에 의해 송신되는 오디오 신호에 대한 이득을 감소시키는 과정을 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,

믹싱 제어 데이터는 제 1 참가자 통신국에 관련된 제 1 변수의 값을 포함하고,

상기 제 1 세트의 오디오 회의 믹싱 매개변수 설정 단계는 제 1 변수의 값에 따라 제 1 세트의 믹싱 매개변수를 자동으로 계산하는 단계를 포함하는 것을 특징으로 하는 방법.
제 10 항에 있어서,

제 1 참가자 통신국과 관련된 제 1 참가자는 가상 회의 세계 내 제 1 아바타(avatar)에 의해 시각적으로 표시되고, 이때 제 1 변수는 가상 회의 세계 내의 아바타 위치를 포함하는 것을 특징으로 하는 방법.
제 11 항에 있어서, 가상 회의 세계 내 제 1 아바타의 위치를 제 1 참가자가 제어하는 것을 특징으로 하는 방법.
제 11 항에 있어서, 가상 회의 세계가 3차원인 것을 특징으로 하는 방법.
제 11 항에 있어서,

제 2 참가자 통신국과 관련된 제 2 참가자는 가상 회의 세계 내 제 2 아바타에 의해 시각적으로 표시되고,

제 2 참가자 통신국은 오디오 회의 브리지에 오디오 신호를 송신하며, 상기 방법은,

- 제 1 아바타와 제 2 아바타가 서로 가까워짐에 따라 제 2 참가자 통신국에 의해 송신되는 오디오 신호에 대한 이득을 증가시키도록 제 1 세트의 오디오-회의 믹싱 매개변수를 갱신하는, 단계를 추가로 포함하는 것을 특징으로 하는 방법.
제 2 항에 있어서, 나머지 참가자 통신국은 제 2 참가자 통신국을 포함하고, 상기 방법은,

- 제 1, 2 참가자 통신국과는 다른 참가자 통신국들로부터 유입 오디오 신호 중 두 개 이상에 대한 개별 믹싱 매개변수를 도출하는 데 필요한 데이터를 포함하여 제 2 참가자 통신국으로부터 제 2 믹싱 제어 데이터를 수신하고,

- 제 2 믹싱 제어 데이터를 바탕으로 하여 제 2 세트의 오디오-회의 믹싱 매개변수를 설정하며,

- 제 2 믹싱 오디오 신호를 생성하고자 제 2 세트의 오디오-회의 믹싱 매개변수에 따라 N개의 유입 오디오 신호를 믹싱하고, 이때 N은 1보다 큰 정수이며,

- 제 2 참가자 통신국에 제 2 믹싱 오디오 신호를 송신하며, 이때 제 1 세트와 제 2 세트의 오디오-회의 믹싱 매개변수가 구분되는, 이상의 단계를 추가로 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 제 1 믹싱 제어 데이터는 제 1 세트의 믹싱 매개변수를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 제 1 세트의 오디오-회의 믹싱 매개변수를 설정하는 단계는 유입 오디오 신호를 감시하고, 기설정된 사건이 오디오 신호에서 감지될 경우 제 1 세트의 오디오-회의 믹싱 매개변수를 재설정하는 단계를 포함하는 것을 특징으로 하는 방법.
제 17 항에 있어서, 기설정된 사건은 공격적 언어를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 오디오-회의 브리지를 발생시키는 상기 단계는,

- 제 1 참가자 통신국과의 제어 연결을 구축하고,

- 제 1 참가자 통신국에 세션 식별자를 할당하며,

- 제 1 참가자 통신국과 오디오 연결을 구축하고,

- 세션 식별자를 통해 제어 연결 및 오디오 연결을 상관시키는, 이상의 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 제 1 세트의 오디오-회의 믹싱 매개변수는 제 1 믹싱 오디오 신호를 생성하고자 믹싱되는 유입 신호의 최대 숫자 N을 제한하는 매개변수를 포함하는 것을 특징으로 하는 방법.
오디오 회의에서 다수의 참가자 통신국을 함께 브리징하기 위한 오디오-회의 브리징 시스템으로서,

상기 시스템은 오디오-회의 브리지 발생 수단, 제 1 믹싱 제어 데이터 수신 수단, 유입 오디오 신호 수신 수단, 제 1 세트의 오디오-회의 믹싱 매개변수 설정 수단, 유입 오디오 신호 믹싱 수단, 제 1 믹싱 오디오 신호 출력 수단을 포함하고,

상기 오디오-회의 브리지 발생 수단은 제 1 참가자 통신국과 다수의 다른 참가자 통신국을 포함하여 오디오 회의 내 참가자 통신국을 작동가능하게 연결하는 오디오-회의 브리지를 발생시키며, 참가자 통신국으로부터 유입 오디오 신호를 수신하도록 적응되며,

상기 제 1 믹싱 제어 데이터 수신 수단은 나머지 참가자 통신국으로부터 유입 오디오 신호 중 두 개 이상에 대해 개별 믹싱 매개변수를 도출하는 데 필요한 데이터를 포함하여 제 1 참가자 통신국에 대한 제 1 믹싱 제어 데이터를 수신하며,

상기 유입 오디오 신호 수신 수단은 다수의 참가자 통신국으로부터 유입 오디오 신호를 수신하고,

상기 제 1 세트의 오디오-회의 믹싱 매개변수 설정 수단은 제 1 참가자 통신국에 대해 수신된 제 1 믹싱 제어 데이터를 바탕으로 하여 제 1 세트의 오디오-회의 믹싱 매개변수를 설정하며,

상기 유입 오디오 신호 믹싱 수단은 제 1 믹싱 오디오 신호를 생성하고자 제 1 세트의 오디오-회의 믹싱 매개변수에 따라 N개의 유입 오디오 신호를 믹싱하고,

제 1 믹싱 오디오 신호 출력 수단은 제 1 믹싱 오디오 신호를 출력하는 것을 특징으로 하는 시스템.
다수의 참가자 통신국 사이에서 오디오 회의 처리를 촉진시키고자 컴퓨터 시스템을 제어하기 위한 명령을 포함하는 컴퓨터-판독 매체로서, 상기 처리는,

- 제 1 참가자 통신국과 다수의 다른 참가자 통신국을 포함하여 오디오 회의에서 참가자 통신국을 작동가능하게 연결하는 오디오-회의 브리지를 발생시키고, 참가자 통신국으로부터 유입 오디오 신호를 수신하도록 적응되며,

- 나머지 참가자 통신국으로부터 유입 오디오 신호 중 두 개 이상에 대해 개별 믹싱 매개변수를 도출하는 데 필요한 데이터를 포함하여 제 1 참가자 통신국에 대해 제 1 믹싱 제어 데이터를 수신하며,

- 다수의 참가자 통신국으로부터 유입 오디오 신호를 수신하고,

- 제 1 참가자 통신국에 대해 수신된 제 1 믹싱 제어 데이터를 바탕으로 제 1 세트의 오디오-회의 믹싱 매개변수를 설정하며,

- 제 1 믹싱 오디오 신호를 생성하고자 제 1 세트의 오디오-회의 믹싱 매개변수에 따라 N개의 유입 오디오 신호를 믹싱하고, 이때 N은 1보다 큰 정수이며,

- 제 1 믹싱 오디오 신호를 출력하는, 이상의 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 매체.
오디오 회의에서 다수의 참가자 통신국을 함께 브리징하기 위한 오디오 회의 브리징 시스템으로서,

상기 시스템은 시스템 제어 유닛과 오디오 브리징 유닛을 포함하고,

상기 시스템 제어 유닛은 제 1 참가자 통신국과 다수의 다른 참가자 통신국을 포함하는 다수의 참가자 통신국으로부터 믹싱 제어 데이터를 수신하도록 적응되고, 제 1 참가자 통신국으로부터 수신되는 제 1 믹싱 제어 데이터를 바탕으로 하여제 1 세트의 오디오-회의 믹싱 매개변수를 생성하도록 적응되며, 상기 제 1 믹싱 제어 데이터는 나머지 참가자 통신국으로부터 두 개 이상의 유입 오디오 신호에 대해 개별 믹싱 매개변수를 도출하는 데 필요한 데이터를 포함하고,

상기 오디오 브리징 유닛은 시스템 제어 유닛에 작동가능하게 연결되어, 다수의 참가자 통신국으로부터 다수의 오디오 신호를 수신하도록 적응되고 시스템 제어 유닛으로부터 제 1 세트의 오디오-회의 믹싱 매개변수를 수신하도록 적응되며,

상기 오디오 브리징 유닛은 제 1 에지포인트 믹서를 포함하고, 상기 제 1 에지포인트 믹서는 제 1 믹싱 오디오 신호를 생성하고자 제 1 세트의 오디오-회의 믹싱 매개변수에 따라 다수의 오디오 신호 중 N개를 믹싱하도록 적응되고, 이때 N은 1보다 큰 정수이고,

상기 오디오 브리징 유닛은 제 1 믹싱 오디오 신호를 출력하도록 적응되는, 이상의 단계를 포함하는 것을 특징으로 하는 시스템.
오디오 회의에서 다수의 참가자 통신국을 브리징하기 위한 오디오-회의 브리징 시스템으로서, 이때 참가자 통신국은 가상 회의 세계를 묘사하는 시각적 인터페이스를 포함하고 가상 회의 세계는 참가자 통신국과 관련된 참가자를 나타내는 아바타를 포함하며, 상기 시스템은,

- 다수의 가입자 통신국으로부터 오디오 신호를 수신하기 위한 수단,

- 가상 회의 세계 내 아바타 위치를 나타내는 데이터를 포함한 믹싱 제어 데이터를 다수의 참가자 통신국으로부터 수신하기 위한 수단,

- 믹싱 제어 데이터를 바탕으로 다수의 참가자 통신국 각각에 대해 구분된 믹싱 제어 매개변수를 설정하기 위한 수단,

- 참가자 통신국 각각에 대해 구분된 믹싱 오디오 신호를 생성하고자 믹싱 제어 매개변수에 따라 오디오 신호를 믹싱하기 위한 수단,

- 참가자 통신국에 믹싱 오디오 신호를 출력하기 위한 수단을 포함하는 것을 특징으로 하는 시스템.
다수의 참가자 통신국을 브리징하는 오디오 회의를 촉진시키기 위한 방법으로서, 이때 참가자 통신국은 가상 회의 세계를 묘사하는 시각적 인터페이스를 포함하고, 가상 회의 세계는 참가자 통신국과 연계된 참가자를 나타내는 아바타를 포함하며, 상기 방법은,

- 다수의 참가자 통신국으로부터 오디오 신호를 수신하고,

- 다수의 참가자 통신국으로부터 믹싱 제어 데이터를 수신하며, 이때 상기 믹싱 제어 데이터는 가상 회의 세계 내 아바타 위치를 나타내는 데이터를 포함하며,

- 믹싱 제어 데이터를 바탕으로 하여 다수의 참가자 통신국 각각에 대해 구분된 믹싱 제어 매개변수를 설정하고,

- 참가자 통신국 각각에 대해 구분된 믹싱 오디오 신호를 생성하고자 믹싱 제어 매개변수에 따라 오디오 신호를 믹싱하며,

- 참가자 통신국에 믹싱 오디오 신호를 출력하는, 이상의 단계를 포함하는것을 특징으로 하는 방법.