KR20090019825A

KR20090019825A - 다중-참가자 화상 회의 방법 및 로직

Info

Publication number: KR20090019825A
Application number: KR1020087030003A
Authority: KR
Inventors: 팀 엠. 무어; 달리보르 쿠코레카; 웨이 종; 워렌 브이. 바클리; 대니 레빈
Original assignee: 마이크로소프트 코포레이션
Priority date: 2006-06-16
Filing date: 2007-02-21
Publication date: 2009-02-25
Also published as: CN101467423B; CA2652400A1; BRPI0712228A2; WO2007145686A1; US7822811B2; EP2033460A1; US20070294346A1; CN101467423A; RU2008149526A

Abstract

컨퍼런스 서버는 회의 참가자가 가장 적극적인 참가자로 되는지를 결정한 것에 응답하여 그 회의 참가자에게 키 프레임(key frame)을 요청할 수 있고, 컨퍼런스 서버는 회의 참가자로부터 키 프레임을 수신한 것에 응답하여 그 회의 참가자를 가장 적극적인 참가자가 되게 할 수 있다.

컨퍼런스 서버, 키 프레임, 화상 회의, 암호화, 복호화

Description

다중-참가자 화상 회의 방법 및 로직{PERFORMANCE ENHANCEMENTS FOR VIDEO CONFERENCING}

컨퍼런스 서버는 통상적으로 회의 진행 중에 다수의 참가자로부터 정보를 받고 이 정보를 처리하여 다시 참가자들에게 내보낸다. 컨퍼런스 서버의 일례는 오디오/비디오 컨퍼런스 서버이다. 오디오/비디오 컨퍼런스 서버는 통상적으로 다수의 회의 참가자로부터 오디오 및/또는 비디오 스트림을 받아서, 오디오를 믹싱하고, 다른 참가자들에게 디스플레이하기 위한 하나 이상의 참가자들에 대한 비디오 스트림을 선택한다. 다른 참가자들에게 보여주기 위해 선택된 참가자를 때때로 가장 적극적인 참가자라고 하는데, 그 이유는 그 참가자 가장 크게 말하거나 "발언권을 얻는" 참가자일 수 있기 때문이다.

컨퍼런스 서버, 특히 오디오/비디오 컨퍼런스 서버의 설계 및 동작에서 성능이 주된 문제이다. 더 많은 참가자가 회의에 참가함에 따라, 오디오 믹싱, 비디오 디코딩 및 인코딩, 대역폭 스케일링, 암호화 및 복호화를 제공하기 위해 컨퍼런스 서버에 가해지는 부담이 늘어난다.

<발명의 요약>

이하의 요약은 개시된 실시예들의 일부 양태들을 강조 및 소개하기 위한 것이며 청구범위의 범위를 제한하기 위한 것이 아니다. 이후에, 예시된 실시예들의 상세한 설명이 제공되며, 이 설명은 당업자가 다양한 실시예들을 제조 및 사용할 수 있게 한다.

비디오 디스플레이를 새로운 가장 적극적인 참가자로 전환시키는 것을 가속시켜 성능을 향상시키기 위해, 컨퍼런스 서버는 회의 참가자가 적어도 하나의 가장 적극적인 참가자로 되는지를 결정한 것에 응답하여 적어도 하나의 회의 참가자에게 키 프레임을 요청할 수 있다. 상기 컨퍼런스 서버는 상기 키 프레임의 전부 또는 거의 전부를 수신한 것에 응답하여 상기 회의 참가자를 가장 적극적인 참가자로 되게 할 수 있다.

성능을 더욱 향상시키기 위해, 상기 컨퍼런스 서버는 하나 이상의 스트림 프레임의 유형 및 범위를 결정하기 위해 하나 이상의 스트림 패킷 각각의 작은 부분만을 복호화할 수 있다. 상기 컨퍼런스 서버는 하나 이상의 회의 참가자에 적절한 대역폭 스케일링을 수행하기 위해 상기 스트림으로부터 프레임들을 누락시킬 수 있다. 상기 컨퍼런스 서버는 비디오 메타데이터 정보의 작은 부분을 복호화하고 상기 스트림을 더 낮은 비트 레이트로 디코딩 및 재인코딩하는 대신에 상기 메타데이터로부터 식별된 프레임들을 누락시킬 수 있다. 이와 같이, 상기 서버에의 낮은 대역폭 접속을 갖는 참가자들에 대해 대역폭 스케일링을 수행하는 데 필요한 디코딩 및 재인코딩의 양을 제한함으로써 상기 컨퍼런스 서버의 성능이 향상될 수 있다.

성능을 향상시키는 다른 방식은 상기 컨퍼런스 서버가 가장 적극적이지는 않은 다른 회의 참가자들에게 상기 컨퍼런스 서버에 스트림 정보를 전달하는 것을 중 단하라고 신호하는 단계를 포함한다. 이것은 상기 컨퍼런스 서버가, 가장 적극적인 참가자를 결정하기 위해 다른 참가자들로부터 오디오 정보를 계속 수신하여 이 오디오 정보를 처리하면서, 다른 참가자들에게 비디오 스트림 정보를 전달하는 것을 중단하라고 신호하는 단계를 포함할 수 있다.

성능을 향상시키는 또 다른 방식은 동일한 암호화 키를 사용하기 위해 모든 회의 참가자들을 동기시키는 단계, 및 회의 참가자들로부터의 하나 이상의 스트림의 복호화 및 재암호화를 수행하지 않고 상기 스트림을 컨퍼런스 서버를 통과시키는 단계를 포함할 수 있다. 하나 이상의 기존의 회의 참가자들의 암호화 키가 새로 들어온 회의 참가자에게 제공될 수 있다. 상기 컨퍼런스 서버는 또한 동일한 복호화 키를 사용하기 위해 모든 회의 참가자들을 동기시킬 수 있다. 이와 같이, 스트림을 복호화 및 재암호화하기 위해 상기 컨퍼런스 서버에서 해야 할 처리가 상당히 감소될 수 있다.

다른 시스템/방법/장치 양태들이 본 출원을 구성하는 본문(예를 들어, 상세한 설명 및 청구 범위) 및 도면에 기술되어 있다.

도면에서, 동일한 참조 번호 및 두문자는 용이한 이해를 위해 또한 편의상 동일한 또는 유사한 기능을 갖는 구성요소 또는 동작을 식별한다. 특정의 구성요소 또는 동작에 대한 설명을 쉽게 알아보기 위해, 참조 번호에서 선두 숫자 또는 숫자들은 그 구성요소가 처음으로 소개되는 도면 번호를 말한다.

도 1은 오디오-비디오 컨퍼런스 시스템의 일 실시예의 블록도이다.

도 2는 새로운 가장 적극적인 참가자로 전환하는 것의 일 실시예의 흐름도이다.

도 3은 새로운 가장 적극적인 참가자로 전환하는 것의 일 실시예의 동작 흐름도이다.

도 4는 회의 참가자들의 암호화-복호화 키를 동기화시키는 것의 일 실시예의 흐름도이다.

"하나의 실시예" 또는 "일 실시예"라고 말하는 것이 동일한 실시예일 수도 있지만, 이들이 반드시 동일한 실시예를 말하는 것은 아니다.

문맥이 명백히 달리 해석되지 않는 한, 이 설명 및 청구항들에 걸쳐, 단어 "포함한다", "포함하는" 등은 배타적 또는 전수적 의미가 아니라 포함적 의미로 해석되어야 하는데, 즉 "포함하지만 그에 제한되지 않는다"는 의미로 해석되어야 한다. 단수 또는 복수를 사용하는 단어들도 각각 복수 또는 단수를 포함한다. 또한, 단어 "본 명세서에", "이상에서", "이하에서" 및 유사한 의미의 단어들은, 이 출원에서 사용될 때, 이 출원의 어느 특정 부분이 아니라 이 출원을 전체로서 말하는 것이다. 청구항에서 2개 이상의 항목들의 목록과 관련하여 단어 "또는"이 사용할 때, 이 단어는 이하의 해석들, 즉 목록에 있는 항목들 중 임의의 것, 목록에 있는 항목들 전부, 및 목록에 있는 항목들의 임의의 조합 모두를 포괄한다.

"로직"은 장치의 동작에 영향을 주기 위해 적용될 수 있는 신호 및/또는 정보를 말한다. 소프트웨어, 하드웨어 및 펌웨어는 로직의 예들이다. 하드웨어 로직은 회로로 구현될 수 있다. 일반적으로, 로직은 소프트웨어, 하드웨어, 및/또는 펌웨어의 조합을 포함할 수 있다.

오디오/비디오 컨퍼런스 시스템

도 1은 오디오/비디오 컨퍼런스 시스템의 일 실시예의 블록도이다.

이 시스템은 컨퍼런스 서버(102), 제1 네트워크(106), 제2 네트워크(107), 및 회의 참가자 클라이언트 장치(109, 110, 111)를 포함할 수 있다.

컨퍼런스 서버(102)(예를 들어, 다지점 컨퍼런스 서버 또는 MCU)는 2명 이상의 회의 참가자(109-111) 간의 멀티미디어 통신을 가능하게 한다. 통상적인 실시예에서, 참가자들 각각은 각각의 클라이언트 위치로부터 오는 믹싱된 오디오를 포함하는 오디오를 듣는다. 오디오 믹싱은 통상적으로 컨퍼런스 서버(102)에 의해 수행된다. 통상적으로, 컨퍼런스 서버(102)는 믹싱된 합성 오디오를 각각의 참가자(109-111)에게 전송되는 출력으로서 제공한다. 일부 구현에서, 가장 적극적인 참가자의 오디오는 가장 적극적인 참가자에게로 보내지는 오디오 믹스(audio mix)에 포함되어 있지 않다.

또한, 몇명의 또는 모든 회의 참가자가 참가자 위치들 중 하나 또는 아마도 그 위치들 중 2개 이상으로부터의 비디오를 포함하는 비디오 스트림을 볼 수 있다. 통상적인 실시예에서, 비록 컨퍼런스 서버와 참가자 장소 간의 대역폭 제약조건과 같은 실제적인 이유로 제공 품질이 다를 수도 있지만, 모든 참가자가 동일한 비디오 컨텐츠를 본다. 예를 들어, 특정의 위치에 이용가능한 대역폭이 제한되어 있는 경우, 그 위치로 전달되는 비디오는 해상도가 낮거나, 초당 프레임 수가 더 적거나, 색조가 떨어질 수 있다.

회의 참가자에게 제공되는 비디오 스트림은 하나 이상의 적극적인 회의 참가자 위치로부터의 비디오를 포함할 수 있다. 예를 들어, 10개의 참가자 위치가 있을 수 있지만, 하나 이상의 위치가 발언의 대부분을 하고 있을 수도 있다. 컨퍼런스 서버(102)는 주어진 순간에 누가 가장 크게 말하고 있는지 및/또는 "가장 적극적"인지에 기초하여 비디오를 제공할 위치(들)을 선택할 수 있다. 다른 대안으로서, 회의 사회자가 어느 참가자 비디오를 제공할지를 선택할 수 있다.

회의 참가자(109-111)로부터 컨퍼런스 서버(102)로 또한 컨퍼런스 서버(102)로부터 참가자(109-111)로의 오디오 및 비디오 스트림 둘다를 암호화함으로써 회의가 안전하게 제공될 수 있다.

오디오/비디오 회의의 참가자(109-111)는 많은 서로 다른 통신 기술을 사용하여 컨퍼런스 서버(102)에 접속될 수 있다. 네트워크를 통한 접속이 가장 흔하다. 도 1에서, 컨퍼런스 서버(102)는 2개의 네트워크에 접속되어 있는 것으로 도시되어 있다. 2개의 네트워크가 도시되어 있지만, 컨퍼런스 서버(102)는 이것보다 더 적은 네트워크 인터페이스를 지원할 수 있다. 컨퍼런스 서버(102)는 다양한 통신 인터페이스 및 속도(예를 들어, 19kbps 내지 초당 10 기가비트 이상)를 지원할 수 있다. 2개의 네트워크(106, 107)는 그 각자의 참가자 장치(109-111)에 대해 서로 다른 대역폭 용량을 가질 수 있다. 따라서, 컨퍼런스 서버(102)는 다양한 참가자에 대해 비디오 및/또는 오디오 스트림의 대역폭 스케일링을 수행하도록 요구받을 수 있다.

참가자 장치(109, 110, 111)는 컨퍼런싱을 지원하는 로직, 처리, 메모리 및 통신 기능을 갖는 퍼스널 컴퓨터, 랩톱, PDA(personal digital assistant), 셀룰러 전화, 또는 기타 장치와 같은 다양한 기술을 포함할 수 있다. 컨퍼런싱이 안전하게 수행되는 경우, 클라이언트 장치는 비디오 및 오디오 스트림의 암호화 및 복호화를 지원할 수 있다. 클라이언트 장치는 전용 컨퍼런싱 장비, 즉 컨퍼런싱을 제공하는 것을 주 목적으로 구축된 장비를 포함할 수 있다. 편의상, 클라이언트 장치를 본 명세서에서는 더 긴 용어인 회의 참가자 장치를 사용하기 보다는 회의 참가자라고 한다. 문맥에 따라, 용어 "회의 참가자"는 장치 또는 이 장치를 사용하는 하나 이상의 사람을 말할 수 있다.

컨퍼런스 서버(102)는 본 명세서에 기술되는 다양한 동작들을 수행하는 로직(104)을 포함할 수 있다.

새로운 가장 적극적인 참가자로의 전환

도 2는 새로운 가장 적극적인 참가자로 전환하는 것의 실시예의 흐름도이다.

단계(202)에서, 회의에 새로운 가장 적극적인 참가자가 있는지를 결정한다. 새로운 가장 적극적인 참가자가 있는 것으로 결정된 경우, 단계(204)에서, 컨퍼런스 서버는 새로운 가장 적극적인 참가자에 대한 비디오 키 프레임을 요청한다. 비디오 키 프레임은 키 프레임에 대한 차이로서 정의되는 후속 프레임 또는 선행 프레임에 대한 기초로서 사용될 수 있는 비디오의 전체 프레임이다. 예를 들어, MPEG-2(Motion Picture Experts Group publication ISO/IEC 13818) 키 프레임은 'I-프레임'이라고 할 수 있으며, 차이로서 정의되는 후속 프레임은 'P-프레임'이라고 한다. I-프레임 이후에 전송되는 첫번째 P-프레임은 선행 I-프레임과의 차이(어느 픽셀이 변화되었는지)로서 정의된다. 그 다음 후속 P-프레임은 선행 P-프레임과의 차이로서 정의되며, 이하 마찬가지이다. 선행 I-프레임과의 차이로서 정의된 프레임은, 중간 P-프레임들을 갖는 경우, '수퍼 P-프레임'이라고 할 수 있다. 키 프레임에 대한 요청이 컨퍼런스 서버로부터 새로운 가장 적극적인 참가자인 것으로 식별된 참자가의 클라이언트 장치로 제공될 수 있다.

단계(206)에서, 컨퍼런스 서버는 요청된 비디오 키 프레임을 수신했는지를 판정한다. 수신한 경우, 단계(208)에서, 컨퍼런스 서버는 새로운 가장 적극적인 참자가를 보여주기 위해 컨퍼런스 디스플레이(즉, 출력 비디오 스트림)를 전환한다.

일부 경우에, 가장 적극적인 회의 참가자가 컨퍼런스 디스플레이를 수신하지 못하고 그 대신에 가장 적극적인 회의 참가자 카메라(들)에 의해 생성된 비디오의 로컬 버전을 디스플레이할 수 있다. 이것은 가장 적극적인 참자가로부터 비디오 스트림을 수신하여 처리한 다음에, 디스플레이하기 위해, 이 비디오 스트림을 다시 가장 적극적인 회의 참가자에게로 전송하는 데 컨퍼런스 서버에 의해 이용되는 리소스를 절감하기 위해 행해질 수 있다. 그러나, 출력 비디오 스트림이 2명 이상의 참자가에 대한 비디오를 포함하고 있는 경우 또는 소정의 다른 방식으로 가장 적극적인 참자가로부터 서버로 전송되는 비디오 스트림과 내용이 다른 경우(예를 들어, 4분 또는 분할 화면 디스플레이), 컨퍼런스 서버는 컨퍼런스 디스플레이를 가장 적극적인 참자가에게 전송할 수 있다.

단계(210)에서, 컨퍼런스 서버는 하나 이상의 회의 참가자들에게 통신 및 처리 대역폭을 절감하기 위해 비디오 패킷을 전송하는 것을 중단하라고 신호할 수 있다. 통상적으로, 회의 참가자는 오디오 패킷을 전송하는 것을 중단하라고는 신호받지 않는다. 컨퍼런스 서버는 모든 참자가들로부터의 오디오를 계속 믹싱하여 믹싱된 오디오를 모든 참자가들에게 제공할 수 있다. 컨퍼런스 서버는 새로운 가장 적극적인 회의 참가자로의 전환을 해야 할지를 결정하기 위해 모든 참자가들로부터의 오디오를 계속 처리할 수 있다.

단계(212)에서, 프로세스가 종료된다.

일부 실시예들에서, 다수의 가장 적극적인 참자가가 선택된다. 예를 들어, 컨퍼런스 서버는 2명의 적극적인 참자가를 보여주는 분할된 화면을 갖는 컨퍼런스 디스플레이를 제공할 수 있다.

단계(202)에서, 새로운 가장 적극적인 참자가가 전혀 없을 것인지 또는 하나 또는 아마도 몇명의 새로운 적극적인 참자가가 있을 것인지가 판정될 수 있다. 단계(204)에서, 키 프레임 요청이 각각의 새로운 가장 적극적인 참자가에게 전송될 수 있다. 단계(206)에서, 컨퍼런스 서버는 새로운 가장 적극적인 참자가의 비디오의 디스플레이가 시작될 수 있도록 그 참가자가 키 프레임 전부 또는 거의 전부를 제공했는지를 판정한다. 단계(208)에서, 컨퍼런스 서버는 컨퍼런스 하나 이상의 새로운 가장 적극적인 참자가에 대한 비디오를 디스플레이 상에 제공한다.

일부 실시예들에서는, 단계(210)에서, 컨퍼런스 서버가 한명 이상의 가장 적극적인 회의 참가자에게 비디오 P-프레임의 전송을 중단하고 적어도 I-프레임을 보통의 빈도수로 또는 더 적은 빈도수로 계속 전송하라고 신호할 수 있다. 그 상황에서, 수신된 I-프레임이 나중에 비디오 전환 동안에 사용할 수 있기 위해 컨퍼런스 서버에 의해 캐싱될 수 있다.

비디오 디스플레이를 위한 회의 참가자 결정하기

회의 참가자가 적어도 하나의 가장 적극적인 참자가로 되는지를 결정하는 단계는 회의 참가자가 회의의 가장 적극적인 발표자인지를 판정하는 단계를 포함할 수 있다. 이것은 회의 참가자가 하나 이상의 일정한 또는 가변적인 측정 구간에 걸쳐 모든 또는 대부분의 참자가들 중에서 가장 많은 오디오 에너지를 생성하는지를 판정하는 단계를 포함할 수 있다. 예를 들어, 2명의 발언자가 2분의 구간에 걸쳐 아주 적극적일 수 있고, 한명의 참자가가 디스플레이를 위해 선택될 수 있다. 한명이 더 힘있게(더 크게) 말하고 있고 따라서 가장 많은 에너지를 갖는 오디오 스트림을 제공하는 경우, 그 사람의 비디오가 디스플레이를 위해 선택될 수 있다. 2개 이상의 측정 구간이 필요할 수 있다. 예를 들어, (2분의 예와 같은) 소정의 더 긴 구간에 걸쳐 에너지가 측정될 수 있지만, 결정 알고리즘에서 (마지막 30초와 같은) 더 짧은 가장 최근의 구간에 측정된 에너지에 더 많은 가중치가 제공될 수 있다. 너무 자주 전환하여 비디오를 보는 회의 참가자가 너무 빈번한 전환으로 괴롭게 되는 것을 피하기 위해 측정 구간이 선택될 수 있다.

회의 참가자가 가장 적극적인 발언자인지를 판정하는 다른 방법은 참가자가 하나 이상의 일정한 또는 가변적인 측정 구간에 걸쳐 모든 또는 대부분의 다른 참자가들 중에 가장 많은 말을 하고 있는지를 판정하는 단계를 포함할 수 있다. 예를 들어, 2명의 발언자가 측정 구간에 걸쳐 아주 적극적일 수 있으며, 이 경우 한명의 가장 적극적인 참자가가 선택되어 그의 비디오가 컨퍼런스 디스플레이 상에 제공된다. 제1 발언자가 가장 많은 단어를 부드럽게 말하는 경우, 다른 발언자가 더 큰 오디오 에너지를 가지고 있을지라도 그 사람이 선택될 수 있다.

일부 상황에서, 회의 참가자가 적어도 하나의 가장 적극적인 참자가로 되는지를 결정하는 단계는 단지 회의 사회자가 다른 회의 참가자들에게 디스플레이할 회의 참가자를 선택했는지를 결정하는 단계를 포함할 수 있다.

새로운 회의 참가자로의 디스플레이 전환의 가속화

적어도 한명의 회의 참가자가 적어도 한명의 가장 적극적인 참자가로 되는 것으로 결정한 것에 응답하여, 컨퍼런스 서버는 그 회의 참가자에게 키 프레임을 요청할 수 있다. 회의 참가자로부터 요청된 키 프레임의 전부 또는 거의 전부를 수신한 것에 응답하여, 컨퍼런스 서버는 회의 참가자를 가장 적극적인 참자가로 되게 할 수 있다.

회의 참가자로부터 요청된 키 프레임의 전부 또는 거의 전부를 수신한 것에 응답하여, 컨퍼런스 서버는 회의 참가자의 비디오가 다른 회의 참가자들에게 보이도록 할 수 있다.

적어도 한명의 회의 참가자에게 키 프레임을 요청하는 단계는 컨퍼런스 서버가 회의 참가자에게 비디오 I-프레임을 컨퍼런스 서버에게 제공하라고 신호하는 단계를 포함할 수 있다. 회의 참가자가 현재 P-프레임 또는 수퍼-P 프레임에 위치한 비디오 스트림을 발생하고 있을지라도, 회의 참가자는 그다지 지연 없이 I-프레임을 제공할 것으로 예상된다. 이와 같이, 새로운 가장 적극적인 회의 참가자의 디스플레이로의 전환이 가속화될 수 있는데, 그 이유는 컨퍼런스 서버가 새로운 가장 적극적인 참가자의 비디오를 더 빨리 디스플레이할 수 있고 새로운 가장 적극적인 회의 참가자의 비디오 스트림의 자연스런 진행 동안 키 프레임이 나오기를 기다릴 필요가 없기 때문이다.

일부 실시예들에서, 컨퍼런스 서버는 가장 적극적인 회의 참가자가 아닌 적어도 한명의 회의 참가자의 적어도 하나의 키 프레임을 버퍼링할 수 있다. 회의 참가자가 적어도 한명의 가장 적극적인 참자가로 되는지를 결정한 것에 응답하여, 컨퍼런스 서버는 적어도 한명의 회의 참가자에게 수퍼-P 프레임을 요청할 수 있다. 수퍼-P 프레임이 수신되면, 이는 회의 참가자의 비디오 이미지를 생성하기 위해 컨퍼런스 서버에 의해 버퍼링된 키 프레임과 결합될 수 있다. 이 비디오 이미지는 이어서 다른 회의 참가자들에게 제공될 수 있다. 이와 같이, 새로운 가장 적극적인 회의 참가자의 디스플레이로의 전환이 가속화될 수 있는데, 그 이유는 컨퍼런스 서버가 새로운 가장 적극적인 참가자의 비디오를 더 빨리 디스플레이할 수 있기 때문이다. 이 경우에, 컨퍼런스 서버는 새로운 가장 적극적인 회의 참가자의 비디오 스트림의 자연스런 진행 동안에 키 프레임이 나오기를 기다릴 필요가 없고 그 대신에 요청된 수퍼-P 프레임을 버퍼링된 I-프레임과 결합하여 새로운 가장 적극적인 참가자의 디스플레이가능한 비디오를 생성할 수 있다.

일부 구현예들은 피어-투-피어 구성을 필요로 할 수 있으며, 이 경우 한명의 회의 참가자가 컨퍼런스 서버의 기능을 제공하고 오디오/비디오 컨퍼런스를 가능하게 하기 위해 다른 참자가들의 활동을 감독한다. 예를 들어, 컨퍼런스 서버로서 역할하는 한명의 참가자는 다른 참자가가 가장 적극적인지를 판정할 수 있고, 본 명세서에 기술된 바와 같이 가속된 비디오 전환을 가능하게 하기 위해 다른 참자가들에게 메시지/신호를 발행할 수 있다. 예를 들어, 회의를 위한 컨퍼런스 서버로서 역할하는 참자가는 현재의 가장 적극적인 참자가에게 다른 참자가들에게로 비디오를 전송하는 것을 중단하도록 지시할 수 있고 새로운 가장 적극적인 참자가에게 I-프레임을 전송하고 비디오 전송을 시작하도록 신호할 수 있다. 또한, 또는 다른 대안으로서, 컨퍼런스 서버로서 역할하는 참자가는 다른 참자가들에게 현재 가장 적극적인 참자가로부터의 비디오를 디스플레이하는 것을 중단하고 새로운 가장 적극적인 참자가로부터의 비디오를 디스플레이하기 시작하라고 신호할 수 있다.

컨퍼런스 서버로서 역할하는 참가자 및/또는 다른 참자가들은, 그 내용이 여기에 참조로 포함된, 2005년 5월 9일자로 출원된 발명의 명칭이 "Method and System for Providing and Interface Through Which an Application can Access a Media Stack(애플리케이션이 미디어 스택에 액세스하는 데 사용될 수 있는 인터페이스 및 이를 제공하는 방법 및 시스템)"인 미국 특허 출원 제11/124,902호에 기술된 하나 이상의 인터페이스를 사용하여, 오디오/비디오 입력과 출력, 및/또는 그에 의해 생성된 데이터와 인터페이스할 수 있다.

처리 및 통신 대역폭의 절감

컨퍼런스 서버는 가장 적극적이지는 않은 회의의 다른 참자가들에게 컨퍼런스 서버로 스트림 정보를 전달하는 것을 중단하라고 신호할 수 있다. 이것은, 예를 들어, 사용되지 않는 들어오는 비디오 패킷을 처리해야 하는 포트 드라이버의 부담을 덜어줌으로써 서버 상의 통신 대역폭 및 처리 대역폭을 절감시킬 수 있다.

컨퍼런스 서버는 다른 참자가들에게 비디오 스트림 정보를 전달하는 것을 중단하라고 신호할 수 있지만 다른 참자가들로부터의 오디오 스트림 정보를 계속 수신할 수 있고 이 오디오 정보를 처리하여 가장 적극적인 참자가를 판정할 수 있다.

새로운 가장 적극적인 참자가로의 전환

도 3은 새로운 가장 적극적인 참자가로 전환하는 것의 일 실시예의 동작 흐름도이다. 동작(302)에서, 참자가 'A'는 컨퍼런스 서버에 오디오를 제공한다. 동작(304)에서, 참자가 'B'는 컨퍼런스 서버에 오디오 및 비디오를 제공하고 가장 적극적인 회의 참가자이다. 동작(306)에서, 참자가 'C'는 컨퍼런스 서버에 오디오를 제공한다. 비록 설명을 위해 순차적으로 도시되어 있지만, 동작(302-306)은 실제로 거의 동시에 행해질 수 있다.

동작(306)에서, 참자가 'C'는 새로운 가장 적극적인 참자가인 것으로 결정된다.

동작(308)에서, 컨퍼런스 서버는 참자가 'C'에게 프레임 요청을 제공한다. 이 프레임 요청은 I-프레임에 대한 것일 수 있거나, 일부 실시예들에서는, 수퍼-P 프레임에 대한 것일 수 있다. 프레임을 요청하는 단계는 또한 통상적으로 참자가 'C'로 하여금 그의 비디오 스트림의 전달을 시작 또는 재시작하게 하는 단계를 포함한다.

동작(310)에서, 참자가 'C'는 컨퍼런스 서버에 키 프레임을 제공한다. 동작(312)에서, 컨퍼런스 서버는 비디오 중단 신호를 참자가 'A'에 제공한다. 이 예에서, 참자가 'A'는 이 시점에서 비디오를 전송하고 있지 않은데, 그 이유는 참자가 'A'가 가장 적극적인 회의 참가자가 아니기 때문이다. 따라서, 일부 실시예들에서, 참자가 'A'에게 비디오 중단 신호를 전송하는 동작이 일어나지 않을 수 있다.

동작(314)에서, 컨퍼런스 서버는 참자가 'B'에 비디오 중단 신호를 제공한다. 동작(316)에서, 참자가 'A'는 컨퍼런스 서버에 오디오 스트림을 계속 제공하고, 동작(318)에서, 참자가 'B'는 컨퍼런스 서버에 오디오 스트림을 계속 제공한다. 설명을 위해 순차적으로 도시되어 있지 않지만, 동작(316-318)은 실제로 거의 동시에 일어날 수 있다.

동작(320)에서, 새로운 가장 적극적인 참자가인 참자가 'C'는 컨퍼런스 서버에 오디오 및 비디오 스트림 둘다를 제공한다. 참자가 'A', 'B' 및 'C'의 오디오 스트림이 복호화, 디코딩 및 믹싱된다. 참자가 'B'에 대한 적은 양의 비디오 프레임 정보가 동작(326)에서 복호화되고, 이 복호화된 정보가 적어도 비디오 프레임의 유형을 결정하는 데 사용된다. 예를 들어, 적은 양의 비디오 '메타데이터' 정보가 디코딩되어 프레임 유형을 결정하는 데 사용될 수 있다. 동작(328)에서, 프레임 유형 정보는, 예를 들어, 참자가 'B'가 저대역폭 링크를 통해 컨퍼런스 서버에 연결되어 있는 경우, 대역폭 스케일링을 제공하기 위해 참자가 'B'에 제공되는 비디오 스트림으로부터 선택된 프레임들을 누락시키는 데 사용될 수 있다. 비디오 프레임을 누락시키는 것은 또한 컨퍼런스 서버에서 스트림에서 에러가 검출될 때 이 에러를 전파시키는 것을 방지하는 데 도움이 될 수 있다.

예를 들어, 일부 상황에서, 프레임 유형 정보는 암호화된 데이터의 처음 2 바이트로부터 확인될 수 있다. 프레임 패킷을 복호화하는 데 소요되는 시간은 패킷별 복호화 키를 발생하는 시간 및 그 패킷을 실제로 복호화하는 시간을 포함할 수 있다. 두번째 시간은 복호화될 데이터의 양에 비례한다. SRTP (Secure Real-Time Transport Protocol) 및 많은 다른 형태의 암호화의 경우, 패킷별 복호화 키를 알고 있는 경우, 이 복호화는 데이터의 처음부터 비트별로 행해진다. 이러한 이유는, 복호화를 수행하기 위해, 패킷별 키로부터 의사 랜덤 비트 스트림이 발생되어 암호화된 데이터와 XOR될 수 있기 때문이다.

일부 실시예들에서, 프레임 유형을 구하기 위해, 패킷별 키가 먼저 발생된다. 이어서, 패킷의 길이에 대해 의사 랜덤 스트림을 발생하기 보다는, 그 대신에 프레임 유형을 포함하는 처음 몇 바이트(예를 들어, 처음 2 바이트)에 대해 발생된다. 이 2 바이트는 이어서 나머지 패킷을 복호화하지 않고 나머지 패킷에 대해 의사 랜덤 비트스트림을 발생할 필요없이 복호화될 수 있다.

동작(322)에서, 컨퍼런스 서버는 믹싱된 오디오 및 비디오를 참자가 'A'에 제공한다. 동작(324)에서, 컨퍼런스 서버는 믹싱된 오디오 및 비디오를 참가자 'B'에 제공한다. 동작(332)에서, 컨퍼런스 서버는 믹싱된 오디오를 참자가 'C'에 제공한다(비디오가 제공되지 않는 이유는 참자가 'C'가 가장 적극적인 회의 참가자이고 비디오를 로컬적으로 디스플레이할 수 있기 때문이다). 설명을 위해 순차적으로 도시되어 있지만, 동작(322-332)이 실제로 거의 동시에 일어날 수 있다.

회의 참가자의 암호화/복호화 키의 동기화

도 4는 회의 참가자들의 암호화/복호화 키를 동기화시키는 프로세스의 일 실시예의 흐름도이다.

단계(402)에서, 새로운 참자가가 회의에 들어온다. 단계(404)에서, 이 새로운 참자가가 첫번째 회의 참가자인지에 관한 판정이 행해진다. 단계(404)에서 새로운 참자가가 첫번째 회의 참가자인 것으로 판정되는 경우, 단계(406)에서 컨퍼런스 서버와 새로운 참자가 사이에서 컨퍼런스 암호화/복호화 키가 협상될 수 있다. 그렇지 않은 경우, 단계(408)에서, 새로운 참자가는 컨퍼런스 서버 및 기존의 참자가들에 의해 이미 사용 중인 암호화/복호화 키를 제공받는다. 단계(410)에서, 프로세스가 종료된다.

처리 대역폭을 절감하기 위한 비디오 스트림 통과시키기

모든 회의 참가자들을 동일한 암호화 키를 사용하도록 동기시키고 회의 참가자로부터의 하나 이상의 스트림을 복호화 및 재암호화를 수행하지 않고 컨퍼런스 서버를 통과시킴으로써 컨퍼런스 서버의 처리 대역폭이 절감될 수 있다. 암호화 및 복호화는 종종 처리-집중적인 동작이며, 따라서 적은 암호화/복호화 처리는 처리 대역폭의 절감을 위한 진보이다.

암호화 키의 동기화는 하나 이상의 기존의 회의 참가자의 암호화 키를 새로 들어온 회의 참가자에게 제공함으로써 용이하게 될 수 있다. 키 동기화는 다양한 공지의 키 교환 프로토콜을 사용하여 달성될 수 있다.

회의 참가자들은 또한, 예를 들어, 하나 이상의 기존의 회의 참가자의 복호화 키를 새로 들어온 회의 참가자에게 제공함으로써 동일한 복호화 키를 사용하기 위해 동기될 수 있다.

이상의 상세한 설명은 블록도, 흐름도, 및/또는 예들을 사용하여 장치 및/또는 프로세스의 다양한 실시예들에 대해 기술하고 있다. 이러한 블록도, 흐름도, 및/또는 예들이 하나 이상의 기능 및/또는 동작을 포함하고 있는 한, 당업자라면 이러한 블록도, 흐름도 또는 예 내의 각각의 기능 및/또는 동작이, 광범위한 하드웨어, 소프트웨어, 펌웨어 또는 이들의 거의 모든 조합에 의해, 개별적으로 및/또는 전체적으로 구현될 수 있다는 것을 잘 알 것이다. 본 명세서에 기술된 발명 대상의 몇몇 부분들이 ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array), DSP(digital signal processor) 또는 기타 집적된 형식을 통해 구현될 수 있다. 그러나, 당업자라면 본 명세서에 기술된 실시예들의 일부 양태들이 전체로서 또는 부분적으로 표준 집적 회로에서, 하나 이상의 컴퓨터에서 실행되는 하나 이상의 컴퓨터 프로그램으로서(예를 들어, 하나 이상의 컴퓨터 시스템에서 실행되는 하나 이상의 프로그램으로서), 하나 이상의 프로세서에서 실행되는 하나 이상의 프로그램으로서(예를 들어, 하나 이상의 마이크로프로세서에서 실행되는 하나 이상의 프로그램으로서), 펌웨어로서, 또는 이들의 거의 모든 조합으로서 똑같이 구현될 수 있다는 것과 소프트웨어 및/또는 펌웨어에 대한 회로를 설계하는 것 및/또는 코드를 작성하는 것이 본 명세서를 고려하여 당업자에 의해 용이하게 안출될 수 있다는 것을 잘 알 것이다. 또한, 당업자라면 본 명세서에 기술된 발명 대상의 메커니즘이 다양한 형태로 프로그램 제품으로서 배포될 수 있다는 것과 본 명세서에 기술된 발명 대상의 예시적인 실시예가 이 배포를 실제로 수행하는 데 사용되는 특정 유형의 신호 전달 매체에 상관없이 똑같이 적용된다는 것을 잘 알 것이다. 신호 전달 매체의 예로는, 플로피 디스크, 하드 디스크 드라이브, CD-ROM, 디지털 테이프 및 컴퓨터 메모리 등의 기록가능 유형 매체, 및 TDM 또는 IP 기반 통신 링크(예를 들어, 패킷 링크)를 사용하는 디지털 및 아날로그 통신 링크 등의 전송 유형 매체가 있지만, 이에 제한되는 것은 아니다.

일반적으로, 당업자라면 광범위한 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합에 의해 개별적으로 및/또는 전체적으로 구현될 수 있는 본 명세서에 기술된 다양한 양태들이 다양한 유형의 "전기 회로"로 이루어져 있는 것으로 볼 수 있다는 것을 잘 알 것이다. 따라서, 본 명세서에서 사용되는 바와 같이, "전기 회로"는 적어도 하나의 이산 전기 회로를 갖는 전기 회로, 적어도 하나의 집적 회로를 갖는 전기 회로, 적어도 하나의 ASIC을 갖는 전기 회로, 컴퓨터 프로그램에 의해 구성되는 범용 컴퓨터 장치(예를 들어, 적어도 부분적으로 본 명세서에 기술된 프로세스 및/또는 장치를 수행하는 컴퓨터 프로그램에 의해 구성되는 범용 컴퓨터, 또는 적어도 부분적으로 본 명세서에 기술된 프로세스 및/또는 장치를 수행하는 컴퓨터 프로그램에 의해 구성되는 마이크로프로세서)를 형성하는 전기 회로, 메모리 장치(예를 들어, 여러 형태의 랜덤 액세스 메모리)를 형성하는 전기 회로, 및/또는 통신 장치(예를 들어, 모뎀, 통신 스위치, 또는 광-전기 장비)를 형성하는 전기 회로를 포함하지만, 이에 제한되는 것은 아니다.

Claims

컨퍼런스 서버가 회의 참가자가 가장 적극적인 참가자로 되는지를 결정한 것에 응답하여 상기 회의 참가자에게 키 프레임을 요청하는 단계; 및

상기 컨퍼런스 서버가 상기 회의 참가자로부터 상기 키 프레임을 수신한 것에 응답하여 상기 회의 참가자를 가장 적극적인 참가자로 되게 하는 단계

를 포함하는 다중-참가자 화상 회의 방법.
제1항에 있어서, 컨퍼런스 서버가 상기 회의 참가자가 가장 적극적인 참가자로 되는지를 결정한 것에 응답하여 상기 회의 참가자에게 키 프레임을 요청하는 단계는,

상기 컨퍼런스 서버가 상기 회의 참가자에게 상기 컨퍼런스 서버에 I-프레임을 제공하도록 신호하는 단계

를 더 포함하는 다중-참가자 화상 회의 방법.
제1항에 있어서, 상기 회의 참가자가 가장 적극적인 참가자로 되는지를 결정하는 단계는,

상기 회의 참가자가 상기 회의의 가장 적극적인 발표자인지를 결정하는 단계

를 더 포함하는 다중-참가자 화상 회의 방법.
제1항에 있어서,

컨퍼런스 서버가 하나 이상의 스트림 프레임의 유형을 결정하기 위해 하나 이상의 스트림 프레임 패킷 각각의 2 바이트만을 복호화하는 단계; 및

상기 컨퍼런스 서버가 하나 이상의 다른 회의 참가자에 적절한 대역폭 스케일링을 수행하기 위해 상기 회의 참가자에 의해 제공되는 비디오 스트림으로부터 상기 하나 이상의 프레임을 누락시키는 단계

를 더 포함하는 다중-참가자 화상 회의 방법.
제4항에 있어서, 상기 컨퍼런스 서버가 하나 이상의 스트림 프레임의 유형 및 범위를 결정하기 위해 하나 이상의 스트림 패킷 각각의 작은 부분만을 복호화하는 단계는,

상기 컨퍼런스 서버가 비디오 메타데이터 정보의 작은 부분을 복호화하는 단계

를 더 포함하는 다중-참가자 화상 회의 방법.
제4항에 있어서, 상기 컨퍼런스 서버가 하나 이상의 회의 참가자에 적절한 대역폭 스케일링을 수행하기 위해 상기 스트림으로부터 프레임들을 누락시키는 단계는,

상기 컨퍼런스 서버가 사실상 더 낮은 비트 레이트의 스트림을 제공하기 위해 프레임들을 누락시키는 단계

를 더 포함하는 다중-참가자 화상 회의 방법.
제1항에 있어서,

상기 컨퍼런스 서버가 적어도 하나의 다른 회의 참가자에게 상기 컨퍼런스 서버에 스트림 정보를 전달하는 것을 중단하라고 신호하는 단계

를 더 포함하는 다중-참가자 화상 회의 방법.
제7항에 있어서, 상기 컨퍼런스 서버가 가장 적극적이지는 않은 상기 회의의 다른 참가자들에게 상기 컨퍼런스 서버에 스트림 정보를 전달하는 것을 중단하라고 신호하는 단계는,

상기 컨퍼런스 서버가 상기 다른 참가자들에게 비디오 스트림 정보를 전달하는 것을 중단하라고 신호하고 상기 컨퍼런스 서버가 상기 다른 참가자들로부터 오디오 정보를 계속 수신하여 가장 적극적인 참가자를 결정하기 위해 상기 오디오 정보를 처리하는 단계

를 더 포함하는 다중-참가자 화상 회의 방법.
제1항에 있어서,

동일한 암호화 키를 사용하기 위해 모든 회의 참가자들을 동기시키는 단계; 및

상기 회의 참가자들로부터의 하나 이상의 스트림을 복호화 및 재암호화하지 않고 상기 스트림을 컨퍼런스 서버를 통과시키는 단계

를 더 포함하는 다중-참가자 화상 회의 방법.
제9항에 있어서, 동일한 암호화 키를 사용하기 위해 모든 회의 참가자들을 동기시키는 단계는,

새로 들어온 회의 참가자에게 하나 이상의 기존의 회의 참가자들의 암호화 키를 제공하는 단계

를 더 포함하는 다중-참가자 화상 회의 방법.
제1항에 있어서,

동일한 복호화 키를 사용하기 위해 모든 회의 참가자들을 동기시키는 단계

를 더 포함하는 다중-참가자 화상 회의 방법.
제11항에 있어서, 동일한 복호화 키를 사용하기 위해 모든 회의 참가자들을 동기시키는 단계는,

새로 들어온 회의 참가자에게 하나 이상의 기존의 회의 참가자들의 복호화 키를 제공하는 단계

를 더 포함하는 다중-참가자 화상 회의 방법.
컨퍼런스 서버가 가장 적극적인 회의 참가자가 아닌 회의 참가자의 적어도 하나의 키 프레임을 버퍼링하는 단계; 및

상기 회의 참가자가 가장 적극적인 참가자로 되는지를 결정한 것에 응답하여 상기 회의 참가자에게 수퍼-P 프레임(super-P frame)을 요청하는 단계

를 포함하는 다중-참가자 회의 방법.
제13항에 있어서,

상기 회의 참가자의 비디오 이미지를 생성하기 위해 상기 버퍼링된 키 프레임과 상기 수퍼-P 프레임을 결합하는 단계; 및

상기 비디오 이미지를 다른 회의 참가자에게 제공하는 단계

를 더 포함하는 다중-참가자 회의 방법.
다수의 회의 참가자들에게 서비스를 제공하는 컨퍼런스 서버의 동작에 영향을 주기 위해 적용될 때,

상기 컨퍼런스 서버가 회의 참가자가 가장 적극적인 참가자로 되는지를 결정한 것에 응답하여 회의 참가자에게 키 프레임을 요청하는 단계; 및

상기 컨퍼런스 서버가 상기 회의 참가자로부터 상기 키 프레임의 전부 또는 거의 전부를 수신한 것에 응답하여 상기 회의 참가자를 가장 적극적인 참가자로 되게 하는 단계

를 수행하는 로직.
제15항에 있어서, 상기 컨퍼런스 서버의 동작에 영향을 주기 위해 적용될 때,

상기 컨퍼런스 서버가 하나 이상의 스트림 프레임의 유형을 결정하기 위해 하나 이상의 스트림 프레임 패킷 각각의 2 바이트만을 복호화하는 단계; 및

상기 컨퍼런스 서버가 하나 이상의 다른 회의 참가자에 대해 대역폭 스케일링을 수행하기 위해 상기 회의 참가자에 의해 제공되는 비디오 스트림으로부터 상기 하나 이상의 스트림 프레임을 누락시키는 단계

를 더 수행하는 로직.
제16항에 있어서, 컨퍼런스 서버의 동작에 영향을 주기 위해 적용될 때,

상기 컨퍼런스 서버가 하나 이상의 스트림 프레임의 유형 및 범위를 결정하기 위해 하나 이상의 스트림 패킷 각각의 작은 부분만을 복호화하는 단계는,

상기 컨퍼런스 서버가 비디오 메타데이터 정보의 작은 부분을 복호화하는 단계

를 더 포함하는 로직.
제16항에 있어서, 컨퍼런스 서버의 동작에 영향을 주기 위해 적용될 때,

상기 컨퍼런스 서버가 사실상 더 낮은 비트 레이트의 스트림을 제공하기 위해 프레임들을 누락시키는 단계

를 더 수행하는 로직.
제15항에 있어서, 컨퍼런스 서버의 동작에 영향을 주기 위해 적용될 때,

상기 컨퍼런스 서버가 다른 참가자들에게 상기 컨퍼런스 서버에 스트림 정보를 전달하는 것을 중단하라고 신호하는 단계

를 더 수행하는 로직.
제15항에 있어서, 컨퍼런스 서버의 동작에 영향을 주기 위해 적용될 때,

상기 컨퍼런스 서버가 회의 참가자들에 의한 동일한 암호화 키의 사용의 동기화를 용이하게 하는 단계; 및

상기 컨퍼런스 서버가 상기 회의 참가자들로부터의 하나 이상의 스트림의 복호화 및 재암호화를 수행하지 않고 상기 스트림을 통과시키는 단계

를 더 수행하는 로직.