KR20150042628A

KR20150042628A - 분산 텔레프레즌스 서비스 제공 방법 및 장치

Info

Publication number: KR20150042628A
Application number: KR20130121514A
Authority: KR
Inventors: 김현우
Original assignee: 한국전자통신연구원
Priority date: 2013-10-11
Filing date: 2013-10-11
Publication date: 2015-04-21
Also published as: US20150106097A1; KR102069695B1; US9368127B2

Abstract

분산 텔레프레즌스 서비스에 참여하는 제1 단말에 의해 수행되는 주화자 결정방법이 제공된다. 본 발명의 일 실시례에 따른 주화자 결정방법은 음성 입력 신호로부터 제1 주화자 결정 특징 정보를 획득하는 단계, 상기 분산 텔레프레즌스 서비스에 참여하는 제2 단말로부터 상기 제2 단말의 제2 주화자 결정 특징 정보를 획득하는 단계 및 상기 제1 주화자 결정 특징 정보 및 상기 제2 주화자 결정 특징 정보를 기반으로 텔레프레즌스에 참여하여 발언하고 있는 주화자의 영상 및 음성을 제공하는 주화자 단말을 결정하는 단계를 포함한다.

Description

분산 텔레프레즌스 서비스 제공 방법 및 장치 {Method and apparatus of providing a distributed telepresense service}

본 발명은 네트워크 통신에 관한 것으로서, 보다 상세하게는 분산 텔레프레즌스 서비스에서 주화자를 결정하는 방법 및 장치에 관한 것이다.

텔레프레즌스(telepresence)는 관점에 따라 여러가지 정의가 사용되고 있으나, 일반적으로 인터넷 등의 네트워크를 통해 매개된 환경 속에 있는 시청자들이 가상환경을 실제와 유사하게 느끼거나, 혹은 실제와 동일시하는 인지적 몰입 상태를 제공하는 기술을 의미한다. 텔레프레즌스는 실제 환경과 같이 느낄 수 있도록 고화질 대화면, 입체 음향 등을 지원하는 실감형 영상회의 서비스에 많이 응용되고 있다.

텔레프레즌스 서비스의 목표는 기존 화상 회의 서비스와 달리 원거리에 있는 다수의 화자가 동일한 공간에 실제로 존재하는 느낌을 연출하는 것이다. 이를 위해 고성능의 시청각 장비와 감성 기술을 사용하여 텔레프레즌스 참여자에게 몰입감과 현장감을 전달한다. 특히 고품질 영상 기술은 텔레프레즌스 참여자가 느낄 수 있는 실감 효과에 큰 영향을 미치는 요소가 될 수 있다.

종래의 텔레프레즌스 시스템들은 중앙 집중적인 구조를 채택하고 있다. 중앙 집중적인 구조를 채택한 텔레프레즌스 시스템은 중앙 서버가 모든 사용자 클라이언트의 호 제어 패킷과 미디어(영상과 음향) 패킷을 처리한다. 중앙 집중적인 구조는 기능의 구현이 단순하다는 장점이 있으나, 모든 트래픽이 중앙 서버가 설치된 통신 노드에 집중되어 최대 서비스 용량이 제한되는 단점이 있다.

이러한 문제점을 해결하기 위해 중앙 서버의 호처리 기능과 미디어 처리 기능을 통신망에 분산하여 처리하는 분산 텔레프레즌스 시스템에 대한 고려가 늘어나고 있다. 분산 텔레프레즌스 시스템은 사용자와 통신망의 계위 상 가장 근접한 접속 노드에서 처리함으로써 기존 기술의 문제점인 미디어 트래픽의 부하 증가와 혼잡을 획기적으로 감소시킬 수 있다. 그러나, 중앙 서버의 부재로 인하여 다양한 기능 구현이 일정부분 제한을 받을 수 있으며, 이러한 제약은 텔레프레즌스 시스템의 현실감, 몰입감 강화에 일정한 한계로 작용할 수 있다.

본 발명이 해결하고자 하는 과제는 분산형 텔레프레즌스 서비스에서 주화자를 결정하는 방법 및 장치를 제공하는 것이다.

본 발명의 일 양태에 있어서, 본 발명의 실시예에 따른 분산 텔레프레즌스 서비스에 참여하는 제1 단말에 의해 수행되는 주화자 결정방법은 음성 입력 신호로부터 제1 주화자 결정 특징 정보를 획득하는 단계, 상기 분산 텔레프레즌스 서비스에 참여하는 제2 단말로부터 상기 제2 단말의 제2 주화자 결정 특징 정보를 획득하는 단계 및 상기 제1 주화자 결정 특징 정보 및 상기 제2 주화자 결정 특징 정보를 기반으로 텔레프레즌스에 참여하여 발언하고 있는 주화자의 영상 및 음성을 제공하는 주화자 단말을 결정하는 단계를 포함한다.

상기 제1 주화자 결정 특징 정보는 상기 음성 입력 신호에서 음성과 잡음의 우도값 비율을 기반으로 얻어질 수 있다.

상기 주화자 결정 방법은 상기 제1 주화자 결정 특징 정보를 상기 제2 단말에게 전송하는 단계를 더 포함할 수 있다.

상기 제1 주화자 결정 특징 정보는 상기 음성 입력 신호의 피치, 피치이득, 톤 유무, 에너지의 변화량 중 적어도 어느 하나를 더 포함할 수 있다.

상기 주화자 결정 방법은 상기 제2 단말로부터 상기 제2 단말이 결정한 주화자 단말의 식별자를 획득하는 단계를 더 포함할 수 있다.

상기 제2 단말이 결정한 주화자 단말의 식별자 및 제2 주화자 결정 특징 정보는상기 제2 단말이 전송하는 영상 및 음성과 함께 수신될 수 있다.

상기 주화자 결정 방법은 상기 주화자 단말에게 고화질 영상 전송을 요청하는 단계 및 상기 요청에 따라 상기 주화자 단말로부터 전송된 고화질 영상을 상기 주화자 단말을 제외한 나머지 단말로부터 수신한 영상과 구별하여 디스플레이하는 단계를 더 포함할 수 있다.

본 발명의 각 실시례 및 그 조합에 따른 분산형 텔레프레즌스 서비스는 중앙 집중형 텔레프레즌스에 비해 미디어 트래픽의 부하 증가와 혼잡을 획기적으로 감소시킬 수 있다. 더불어, 분산형 텔레프레즌스 서비스에서 현재 발언하고 있는 주화자를 결정하는 방법을 제공하여 주화자의 변경에 따라 적응적으로 참여자 단말의 화면을 전환하여, 참여자의 편익을 증진함과 동시에 화상 회의에 대한 몰입감을 높여준다. 추가적인 실시례에서 주화자의 음성 신호에 대한 처리를 통해 몰입감을 더욱 증진시킬 수 있다.

상대적으로 적은 대역폭을 이용하여 끊김없는 영상 및 음향을 참여자에게 제공할 수 있으며, 한정된 대역폭을 이용하여 보다 많은 사용자에게 텔레프레즌스 서비스를 제공할 수 있다.

도 1은 본 발명의 일 실시례에 따른 분산 텔레프레즌스 서비스에서 주화자 결정 및 화면 전환을 나타낸 구성도이다.
도 2는 참여자의 선택에 의해 화면 전환이 이루어지는 실시례를 예시한 그림이다.
도 3은 본 발명의 실시례에 따른 주화자 결정 과정을 보여주는 블록도이다.
도 4는 본 발명의 실시례에 따른 주화자 결정 과정을 정리한 순서도이다.
도 5a 및 도 5b는 주화자 결정 특징 정보로부터 주화자를 결정하는 과정을 나타낸 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면 번호에 상관없이 동일한 수단에 대해서는 동일한 참조 번호를 사용하기로 한다.

도 1은 본 발명의 일 실시례에 따른 분산 텔레프레즌스 서비스에서 주화자(main speaker) 결정 및 화면 전환을 나타낸 구성도이다.

일반적으로 텔레프레즌스 서비스 참여자는 각각의 개별 시점에서 발언을 하고 있은 주화자(main speaker)에게 보다 많은 관심을 보인다. 주화자는 발언 과정에서 음성 신호로 전송되는 발언 이외에 표정, 몸짓 등을 통하여 의사를 전달할 수 있다. 또한 다양한 시청각 자료를 제공할 수도 있다. 텔레프레즌스 서비스에서 참여자들에게 보다 높은 현실감을 주고 몰임감을 강화하기 위해서 각각의 시점에서 주화자를 결정하고 결정된 주화자가 제공하는 영상과 음향을 보다 효과적으로 전달하는 것이 필요하다.

중앙 집중형 텔레프레즌스 시스템은 모든 미디어 데이터를 동시에 하나의 통신 노드(e.g. 서비스 관리 서버의 통신 노드)에서 접근하여 주화자를 결정하고, 주화자의 영상을 모든 참여자에게 전송하는 구조를 갖는다. 이에 반하여 본 발명의 실시례에 따른 분산형 텔레프레즌스 시스템은 중앙 집중형 텔레프레즌스 시스템의 관리 서버가 담당하던 호처리 기능과 미디어 처리 기능을 통신망에 분산하여 처리할 수 있다. 이러한 분산 구조는 미디어 트래픽 부하의 증가와 혼잡을 감소시킬 수 있다. 반면 중앙 집중형 텔레프레즌스 시스템의 MCU(Multipoint Control Unit)와 같은 중앙 서버가 존재하지 아니하므로 종래의 모든 미디어 데이터를 동시에 접근하여 주화자를 결정하고, 주화자에게 고화질 HD 영상을 요청하여 모든 참여자에게 전송하는 구조가 적용될 수 없다.

도 1은 4개의 단말이 본 발명의 일 실시례에 따른 분산형 텔레프레즌스 서비스에 참여한 상황을 예시한 것이다. 도 1의 예에서 단말1 내지 단말 4는 각각 단말의 사용자의 영상 및 음성을 서비스에 참여한 다른 단말에게 전송하고 다른 단말로부터 해당 단말의 사용자의 영상 및 음성을 수신하여 사용자에게 제공하는 기능을 수행할 수 있다. 이하에서 설명의 편의를 위하여 단말 4의 관점에서 설명하기로 한다. 도 1의 예에서 단말 1이 주화자의 영상과 음향을 제공하는 단말이라 하면, 단말 4에는 단말 1이 제공하는 영상이 단말 4의 주화면을 통해 제공될 수 있다.

도 1의 예에는 전체 화면을 통해서 주화자의 단말이 제공하는 영상을 제공하고, 화면의 일부에 소화면으로 주화자 이외의 텔레프레즌스 참여자의 단말이 제공하는 화면을 제공하는 예를 예시하고 있으나, 도 1의 화면의 구성이나 화면 분할 비율 등은 단지 설명을 위한 예시에 불과하다. 화면의 구성이나 각 단말로부터 제공되는 영상의 배치, 화면 분할 비율은 실시례에 따라 다양하게 구성될 수 있다.

텔레프레즌스 서비스에서 각 단말에 제공되는 영상은 보다 높은 현실감 제공과 몰입도를 위해 고화질 영상으로 제공되는 것이 바람직하다. 그러나 네트워크 대역폭의 한계와 사용자의 디스플레이 개수 제한으로 모든 상대방의 고화질 영상을 제공하는 것에 일정한 제약이 존재할 수 있다.

본 발명의 실시례에 따른 텔레프레즌스 서비스에 있어서 각 참여자 단말에 제공되는 영상의 화질은 실시례에 따라 다양하게 설정될 수 있으나, 상술한 텔레프레즌스 시스템의 성격상 주화자의 화면이 다른 참여자의 화면에 비하여 보다 고화질로 제공될 수 있다. 즉, 주화자의 영상만을 고화질로 제공하고 다른 참여자의 영상은 저화질로 제공하는 방법이 적용될 수 있다.

본 발명의 실시례에 따른 텔레프레즌스 서비스에서는 각 참여 단말에서 주화자를 결정할 수 있다. 각 참여 단말을 결정된 주화자의 영상을 제공하는 단말에 대하여 고화질 영상을 전송하도록 요청할 수 있다.

도 1의 예에서 주화자의 영상 및 음향을 제공하는 단말은 단말1이므로, 단말4의 디스플레이부에서는 단말1의 고화질 영상을 주화면(큰 화면)으로, 모든 참여 단말이 제공하는 단말이 제공하는 저화질 영상을 부화면(작은 화면)으로 디스플레이하고 있다. 여기에서 화질의 차이는 상대적인 것으로 실시례에 따라서는 동일한 화질의 영상을 화면의 구성에 따라 크기를 달리하여 제공할 수도 있다. 실시의 일례에서 주 화면의 주화자의 영상은 HD급 고화질 영상으로 제공하고, 부 화면의 영상은 QCIF(Quarter Common Intermediate Format) 영상 또는 QVGA(Quarter Video Graphic Array) 영상일 수 있다.

실시의 일례에서, 부 화면을 통해 제공되는 참여자들의 각 영상 중 주화자의 영상은 다른 참여자의 영상과 구별되도록 배치되거나, 표시(e.g. 화면 창에 대한 하이라이트 표시)될 수 있다.

도 1의 예에서 단말4는 주화자의 영상을 제공하는 단말1로부터 고화질 영상과 저화질 영상을 동시에 수신하고, 다른 참여자 단말인 단말2와 단말3으로부터 저화질 영상을 수신하고 있다

이때 단말 2의 사용자가 발언을 시작하면, 즉 주화자가 단말 1의 사용자에서 단말2의 사용자로 변경되어야 하는 경우, 텔레프레즌스 시스템은 단말2를 주화자 영상을 제공하는 단말로 결정해야 한다. 이러한 상황에서 중앙 집중형 텔레프레즌스 시스템은 MCU, 컨퍼런스 브릿지와 같은 중앙 서버에서 단말2를 주화자의 영상을 제공하는 단말로 결정하고 단말2에게 고화질 HD 영상을 요청하는 방식을 적용할 수 있다. 그러나, 상술한 바와 같이 분산형 텔레프레즌스 시스템은 중앙 서버가 존재하지 아니하므로 중앙 집중형 텔레프레즌스 시스템과 동일한 방식이 적용될 수 없다.

본 발명의 실시례에 따른 분산형 텔레프레즌스 시스템에서 주화자 결정은 각 참여 단말에 의해 수행될 수 있다. 즉, 단말4는 다른 참여 단말들(단말1, 단말2, 단말3)에서 전송된 주화자 결정 특징 정보와 자신의 주화자 결정 특징 정보를 바탕으로 단말2를 주화자로 결정할 수 있다. 주화자 결정 특징 정보를 이용한 주화자 결정 방법은 이하에서 다시 상세히 설명하기로 한다.

주화자를 결정한 단말4는 프로토콜 서버를 통해 단말2에게 고화질 영상 전송을 요청하고 단말1에게 고화질 전송 중단을 요청한다. 단말4의 디스플레이에서 보여주는 주화면은 단말2로부터 새롭게 전송 받은 고화질 영상으로 자동으로 전환된다. 그리고 단말2를 제외한 다른 상대 단말의 저화질 영상은 부화면에 위치하게 된다. 이러한 자동 화면 전환은 자연스럽게 발화하는 사람에게 집중을 할 수 있어서 화상 회의의 몰입감을 증대시킬 수 있다.

다른 일 실시례에서, 네트워크 대역폭이 허용하는 경우 다양한 사용자 요구 사항을 충족시키기 위해 개인적으로 관심이 있는 다른 참여자의 고화질 HD 영상을 선택할 수 있다. 예컨대 단말4의 사용자가 관심이 있는 단말3의 고화질 영상을 보고 싶으면 부화면에 있는 단말3의 영상을 선택한다.

사용자에 의해 특정 부화면의 영상이 선택되면 자동으로 주화자 결정이 된 것과 마찬가지로 프로토콜 서버를 통해 단말3에게 고화질 영상 전송을 요청한다. 수신된 단말3의 고화질 영상으로 주화면을 교체하고 다른 단말들의 저화질 영상을 부화면에 보여준다. 주화자가 아닌 다른 참여자가 주화면에 표시되는 경우라 하여도, 상술한 실시례에서와 같이 부 화면에 표시되는 영상중 주화자의 영상이 구별되도록 표시되는 실시례에서는 수동 선택 모드에서도 현재 화상회의에서 발화하고 있는 주화자가 누군지를 파악할 수 있다. 도 2는 참여자의 선택에 의해 화면 전환이 이루어지는 상술한 실시례를 예시한 그림이다.

참여 단말은 텔레프레즌스에 참여 하고 있는 동안에 주화면 설정의 자동/수동 선택 여부와 무관하게 이하에서 상세히 설명할 주화자 결정을 수행하게 되므로, 수동 모드가 해제되면 즉시 현재의 주화자 고화질 영상으로 주화면이 바뀔 수 있다. 수동 선택에 의한 화면 설정은 텔레프레즌스 참여자의 참여도 및 만족도를 더 높일 수 있다. 이러한 점은 주화자 결정이 각 단말에 의해 수행되는 본 발명의 실시례에 의해 보다 쉽게 구현될 수 있다.

도 3은 본 발명의 실시례에 따른 주화자 결정 과정을 보여주는 블록도이고, 도 4는 결정 과정을 정리한 순서도이다.

본 발명의 실시례에 따른 단말에 의해 수행되는 주화자 결정은 사용자 단말에서 입력을 받은 마이크로폰 신호를 분석하여 주화자 결정을 위한 특징 정보를 추출하여 획득하고, 다른 참여 단말로부터 주화자 결정을 위한 특징 정보를 획득하고, 획득한 주화자 결정을 위한 특징 정보를 기반으로 주화자를 결정하는 과정을 포함한다.

일 실시례에서 주화자 결정에 이용되는 주화자 결정 특징 정보는 음성과 잡음의 우도값 비율의 기하평균을 로그를 취한 값 (

)일 수 있다. 음성 신호

와 잡음 신호

이 더해져 음성 신호

로 입력된다 가정하면, 입력 음성 신호에 음성이 존재하지 않을 경우(

)와 존재할 경우(

)는 수식 1과 같이 나타낼 수 있다.

[수 1]

이때, 각 주파수 빈은 서로 독립적이고, 음성 신호 및 잡음 신호가 서로 독립적이며 평균이 0인 정규분포를 이룬다 가정하면 k번째 주파수 빈에서 마이크로폰 신호(음성 입력 신호)의 확률 분포는 수식 2로 나타낼 수 있다.

[수 2]

여기서

는 주파수 빈의 총 개수이고

와

는 각각

번째 주파수 빈에서의 음성 신호와 잡음 신호 분산이다.

이때,

번째 주파수 빈에서의 음성 신호와 잡음 신호의 우도값 비율

는 수식 3과 같다.

[수 3]

여기서

와

는 각각 사전 SNR와 사후 SNR이다.

주화자 결정 특징 정보는 각 주파수 빈에서의 우도값 비율의 기하 평균을 구하고 로그를 취한 값이 이용될 수 있는데, 이는 수 4와 같이 얻어질 수 있다.

[수 4]

상술한 실시례에서 음성 신호, 잡음 신호가 정규 분포를 이룸을 가정하였으나, 실시례에 따라서는 라플라시안(Laplacian), 감마(Gamma) 분포를 가정하여 적용할 수 있다.

다른 실시례에서 연산량을 줄이기 위해서 주화자 결정 특징 정보로 우도값 비율 대신에 수식 5의 산술평균 서브밴드 SNR(

)이 이용될 수 있다.

[수 5]

보다 구체적인 실시의 일례에서, 기하평균 우도값 비율이나 산술평균 서브밴드 SNR을 16비트로 표현하고 추정된 잡음 신호의 분산 값(

)은 16비트로 표현할 수 있다. 실시례에 따라서는 주화자 결정 특징 정보는 상술한 두 정보 외에도 피치, 피치이득, 톤 유무, 에너지의 변화량 등 부가 정보를 더 포함할 수 있다.

그런데, 텔레프레즌스에 참여한 단말간 서로 다른 단말을 주화자 영상 제공 단말로 결정되는 경우 텔레프레즌스 시스템에 의해 사용되는 네트워크 대역폭이 급증하는 문제가 발생할 수 있다.

도 1의 예에서 단말4는 다른 참여 단말들이 전송한 주화자 결정 특징 정보를 바탕으로 단말2를 주화자로 결정한다. 동일한 과정으로 단말1, 단말2, 단말3에서도 주화자를 결정한다. 이 때 네트워크 및 단말의 지연, 패킷(Packet) 손실 발생, 비동기화 된 단말 등으로 인하여 각 참여 단말에서 서로 다른 참여자가 주화자로 선택되면, 텔레프레즌스 시스템은 복수의 고화질 영상이 송수신되어 필요 대역폭이 늘어나게 된다. 따라서 참여 단말들이 서로 동일하지 않은 주화자를 결정하였을 때 빠르게 정정하는 것이 필요하다.

본 발명의 일 실시례에 따르면, 참여 단말은 자신이 선택한 주화자 식별 정보를 다른 참여 단말에게 전송하여 참여 단말들간 주화자 설정의 불일치 문제를 해결하도록 할 수 있다.

텔레프레즌스 서비스에서 화상 회의가 시작할 때 회의에 참가하는 단말은 모두 고유의 식별자를 부여 받고 다른 단말의 자신의 식별자 정보를 알려 준다. 일 실시례에서, 부호화된 오디오 비트열과 주화자 결정 특징 정보를 다른 참여 단말에 전송할 때 주화자 단말로 결정된 단말의 식별자를 함께 전송할 수 있다. 주화자 결정 특징 정보와 단말의 식별자의 전송은 RTP(real time protocol) 패킷을 통해 전송될 수 있다.

주화자 단말로 결정된 단말의 식별자(식별 정보)를 수신한 참여 단말은 자신이 주화자로 결정한 단말과 다른 단말로부터 수신한 주화자 단말과 비교하여, 전체 단말의 70% 이상이 같은 주화자를 선택한 경우, 그 결과에 따라 주화자 단말 결정을 변경할 수 있다. 이러한 실시례 의하면 일부 패킷이 손실되어 주화자 결정 특징 정보가 수신되지 않더라도 올바른 주화자 결정을 할 수 있게 한다.

보다 구체적인 실시의 일례로, 텔레프레즌스 최대 참여자수를 32명으로 제한하고 이전 주화자의 식별자를 6비트로 표현하는 경우를 가정하여 설명한다. 주화자 결정 특징 정보 32비트와 이전 주화자 식별자 6비트 총 38비트를 오디오 비트열과 다중화한다. 앞서 설명한 바와 같이 모든 참여 단말이 같은 주화자를 선택하지 않으면 서비스에 필요한 대역폭이 늘어나게 된다. 따라서 화상 회의에 시작에 앞서 단말간의 시간 동기화가 선행되어야 한다. 동기화를 위하여 인터넷에서 컴퓨터 사이의 시간을 동기화하는 데 널리 사용되는 NTP(Network Time Protocol)이 사용될 수 있다.

단말은 회의에 참가할 때 NTP 서버에 정확한 현재 시간을 교환할 것을 요청한다. NTP 타임스탬프(Timestamp)는 64비트로 구성될 수 있는데, 앞의 32비트는 초 단위를 뒤의 32비트는 밀리초(Fractional second)를 표현한다.

단말은 현재 시간 교환을 통해 단말과 서버의 시간 차이를 계산하고 연결 지연 시간을 추정한다. 연결 지연 시간 추정을 통해 단말의 시간과 서버에 있는 시간을 일치하도록 조정할 수 있다.

단말은 화상 회의 시작한 이후 일정 시간마다 NTP 서버와의 시간 동기화를 통해 단말간의 동기화를 수행할 수 있다. 단말은 동기화된 시간 정보를 RTP 헤더(Header) 안에 있는 32비트 타임스탬프에 사용한 후, 다중화된 정보를 RTP 페이로드(Payload)에 실어서 상대 단말들에 전송할 수 있다.

수신된 RTP 패킷의 페이로드에 있는 데이터를 오디오 코덱, 주화자 단말의 식별자, 주화자 결정 특징 정보로 역다중화하고 RTP 헤더 안에 있는 타임스탬프 정보를 저장한다. 단말은 같은 타임스탬프를 갖는 특징 정보를 사용하여 주화자를 결정한다. 여기서 텔레프레즌스에 참여하는 전체 주화자를 결정하는 것이기 때문에, 전송 받은 특징 정보뿐만 아니라 본 단말에서의 특징 정보도 필요하다.

일 실시례에서, 주화자에 가중치를 두어 주화자의 음성 신호를 믹싱하여 보다 높은 몰입도를 제공할 수 있다. 현재 주화자 채널이 이전 주화자 채널과 동일하다면 수신된 오디오 신호

에 다음의 수식 6과 같이 가중치를 줄 수 있다. 가중치를 반영한 새로운 주화자 음성 신호는 수식 6과 같이 나타낼 수 있다.

[수 6]

여기서

은 텔레프레즌스 참가자 수이고

은 프레임 크기이며

는 가중치 인자이다.

이때, 주화자의 변화에 따른 갑작스러운 에너지 레벨 변화로 인한 틱(tic) 잡음이 발생할 수 있는데, 일 실시례에서 틱 잡음 발생을 방지하기 위하여 스무딩(smoothing) 효과를 더할 수 있다. 수식 7은 스무딩 효과를 더한 주화자 음성 신호를 나타낸 것이다.

[수 7]

도 5a 및 도 5b는 주화자 결정 특징 정보로부터 주화자를 결정하는 과정을 나타낸 순서도이다.

도 5의 과정은 도 3의 주화자 결정 블록에서 수행될 수 있다.

주화자 특징 결정 정보(실시례에 따라서 상술한 바와 같이 기하평균 우도값 비율이나 산술평균 서브밴드 SNR, 잡음의 에너지가 될 수 있다)로부터 각 단말의 음성 활성 유무를 수식 8과 같이 검출한다.

[수 8]

여기서 임계값

와

는 잡음의 에너지로부터 얻어질 수 있다. 잡음의 에너지가 커질수록 임계값도 커질 수 있다. 주화자를 결정하는 단말은 주화자 결정 특징 정보(기하평균 우도값 비율, 산술평균 서브밴드 SNR)가 임계값보다 크면 음성이 활성 되어 있는 상태로 임계값보다 작으면 비활성 되어 있는 상태로 판단할 수 있다.

주화자 결정 특징 정보로부터 음성 활성 여부를 검출한 후, 각 상대방 단말의 연속 음성 개수(

)와 연속 묵음 개수(

)를 계산하고 이를 토대로 초기 주화자(

)를 결정한다.

이 때 잘못된 음성 활성 검출과 불필요한 음성 활성 검출이 발생할 수 있다. 일례로, 배블(babble) 잡음이나 음악 잡음 구간에서 세 프레임 이상의 구간을 음성으로 잘못 판정할 수 있고, “예”, “음”과 같이 음성이지만 매우 짧고 무의미한 구간이어서 주화자로 결정해서는 안 되는 경우가 발생할 수 있다.

이러한 오류를 시정하기 위한 본 발명의 일 실시례로, 최소 발화 길이(

)를 설정할 수 있다. 단말은 사용자의 발화 길이가 최소 발화 길이보다 짧은 경우 새로운 주화자로 선택하지 아니할 수 있다.

또한, 지나치게 잦은 주화자와 고화질 영상의 변경은 사용자를 피로하게 하고 회의에 집중하지 못하게 한다. 또 다른 실시의 일례로, 단말은 새로운 주화자 화면이 선택되면 최소한의 시간(

)동안 다른 주화자로 변경하지 못하도록 할 수 있다. 또한 상기 결정된 주화자가 말 중간 사이에 다른 주화자로 변경되어 화면 전환이 일어나지 않도록 최소한 휴지 기간(

)을 설정할 수 있다. 즉, 묵음이 최소 휴지 기간보다 큰 경우에 한하여 새로운 주화자 설정 절차를 진행할 수 있다.

일 실시례에서 현재 발언중인 회의 참가자를 결정함에 있어서, 발언자가 둘 이상이면 가장 먼저 발언한 사람에게 우선권을 줄 수 있다. 즉, 현재 말하고 있는 사람이 없을 경우에는 이전 프레임의 주화자 결정을 유지한다. 중간에 상대방 단말의 접속이 끝나면 연속 음성 개수와 연속 묵음 개수를 0으로 설정한다. 상술한 바와 같이 결정된 초기 주화자를 다른 단말들로부터 수신된 주화자 정보들과 비교하여 정정되는 과정이 수행될 수 있다.

상술한 주화자 결정 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리에 저장되고, 프로세서에 의해 실행될 수 있다. 메모리는 프로세서 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다.

단말은 상술한 주화자 결정 방법을 실행하도록 설정된 프로세서를 포함할 수 있다. 프로세서는 ASIC(applicationspecific integrated circuit), 다른 칩셋, 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리는 ROM(readonly memory), RAM(random access memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다.

상술한 실시예들은 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합을 기술할 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.

Claims

분산 텔레프레즌스 서비스에 참여하는 제1 단말에 의해 수행되는 주화자 결정방법에 있어서,
음성 입력 신호로부터 제1 주화자 결정 특징 정보를 획득하는 단계;
상기 분산 텔레프레즌스 서비스에 참여하는 제2 단말로부터 상기 제2 단말의 제2 주화자 결정 특징 정보를 획득하는 단계; 및
상기 제1 주화자 결정 특징 정보 및 상기 제2 주화자 결정 특징 정보를 기반으로 텔레프레즌스에 참여하여 발언하고 있는 주화자의 영상 및 음성을 제공하는 주화자 단말을 결정하는 단계;를 포함하는 방법.
제1 항에 있어서,
상기 제1 주화자 결정 특징 정보를 상기 제2 단말에게 전송하는 단계;를 더 포함하는 방법.
제2 항에 있어서,
상기 제1 주화자 결정 특징 정보는
상기 음성 입력 신호에서 음성과 잡음의 평균 우도값 비율을 기반으로 얻어지는 방법.
제3 항에 있어서,
상기 제1 주화자 결정 특징 정보는 잡음의 에너지를 더 포함하고;
상기 주화자 단말 결정은 상기 평균 우도값 비율을 상기 잡음의 에너지로부터 계산되는 임계값과 비교하여 상기 제1 단말 및 상기 제2 단말의 음성 활성 유무의 결정을 기반으로 얻어지는 방법.
제4 항에 있어서,
상기 주화자 단말 결정은 상기 제1 단말 및 상기 제2 단말의 음성 활성 유무로부터 상기 제1 단말 및 상기 제2 단말의 연속 음성 개수와 연속 묵음 개수의 계산을 기반으로 얻어지는 방법.
제5 항에 있어서,
상기 주화자 단말 결정은 주화자 단말의 상기 연속 묵음 개수가 사전에 설정한 최소 묵음 개수보다 큰 경우, 상기 제1 단말 및 상기 제2 단말의 상기 연속 음성 개수가 사전에 설정한 최소 연속 음성 개수보다 큰 단말을 새로운 주화자 단말로 선택하는 것을 포함하는 방법.
제6 항에 있어서,
상기 주화자 단말 결정은 상기 제1 단말 및 상기 제2 단말의 상기 연속 음성 개수가 사전에 설정한 최소 연속 음성 개수보다 큰 단말이 복수인 경우, 상기 연속 음성 개수가 가장 큰 단말을 새로운 주화자 단말로 선택하는 것을 포함하는 방법.
제7 항에 있어서,
상기 주화자 단말 결정은 사전에 설정한 최소 시간 동안 주화자 변경을 못하게 하는 것을 포함하는 방법.
제3 항에 있어서,
상기 제1 주화자 결정 특징 정보는 상기 음성 입력 신호의 피치, 피치이득, 톤 유무, 에너지의 변화량 중 적어도 어느 하나를 더 포함하는 방법.
제1 항에 있어서,
상기 제2 단말로부터 상기 제2 단말이 결정한 주화자 단말의 식별자를 획득하는 단계;를 더 포함하는 방법.
제10 항에 있어서,
상기 제2 단말이 결정한 주화자 단말의 식별자 및 제2 주화자 결정 특징 정보는 상기 제2 단말이 전송하는 영상 및 음성과 함께 수신되는 방법.
제11 항에 있어서,
상기 제2 단말이 결정한 주화자 단말의 식별자와 상기 제1 단말이 결정한 주화자 단말의 식별자를 비교하여 상기 제1 단말의 주화자 단말을 정정하는 방법.
제1 항에 있어서,
분산 텔레프레즌스 회의에 접속할 때 상기 제1 단말과 상기 제2 단말이 시간을 동기화하는 단계; 및
상기 제1 단말의 상기 음성 입력 신호를 획득한 시간을 상기 제2 단말에게 전송하는 단계;를 더 포함하는 방법.
제13 항에 있어서,
동일한 시간을 갖는 상기 제1 주화자 결정 특징 정보 및 상기 제2 주화자 결정 특징 정보를 기반으로 주화자 단말을 결정하는 방법
제1 항에 있어서,
상기 주화자 단말에게 고화질 영상 전송을 요청하는 단계; 및
상기 요청에 따라 상기 주화자 단말로부터 전송된 고화질 영상을 상기 주화자 단말을 제외한 나머지 단말로부터 수신한 영상과 구별하여 디스플레이하는 단계;를 더 포함하는 방법.
음성 입력 신호로부터 제1 주화자 결정 특징 정보를 획득하고,
상기 분산 텔레프레즌스 서비스에 참여하는 제2 단말로부터 상기 제2 단말의 제2 주화자 결정 특징 정보를 획득하고,
상기 제1 주화자 결정 특징 정보 및 상기 제2 주화자 결정 특징 정보를 기반으로 텔레프레즌스에 참여하여 발언하고 있는 주화자의 영상 및 음성을 제공하는 주화자 단말을 결정하도록 설정된 프로세서를 포함하는 분산 텔레프레즌스 서비스를 제공하는 단말.