KR20170071251A

KR20170071251A - 회의 서비스를 제공하는 다중 접속 제어 장치

Info

Publication number: KR20170071251A
Application number: KR1020150179364A
Authority: KR
Inventors: 문종배; 조정현; 장종현
Original assignee: 한국전자통신연구원
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2017-06-23

Abstract

회의 서비스를 제공하는 다중 접속 제어 장치가 제공된다. 이 다중 접속 제어 장치는, WebRTC 서비스 기반의 회의 서비스를 제공하기 위해, 다수의 전자 장치들과 세션 생성, 세션 연결, 세션 관리를 위한 세션 제어 메시지를 교환하여, 시그널링 채널과 고해상도의 주화자 영상을 전송하는 제1 미디어 채널과 저해상도의 참여자 영상을 전송하는 제2 미디어 채널을 생성하는 WebRTC 서버 모듈, 상기 다수의 전자 장치들 중 주화자에 해당하는 전자 장치로부터 상기 고해상도의 주화자 영상과 필드값을 포함하는 SIP 패킷을 수신하고, 상기 수신된 SIP 패킷에 포함된 필드값을 분석하여, 상기 전자 장치가 주화자인지를 판단하는 필드값 분석부, 상기 전자 장치가 주화자로 판단된 경우, 다른 전자 장치들에게 저해상도의 참여자 영상들을 요청하는 요청 메시지를 생성하는 메시지 생성부, 상기 요청 메시지에 따라, 상기 제2 미디어 채널을 통해 다른 전자 장치들로부터 수신한 저해상도의 참여자 영상과 상기 고해상도의 주화자 영상을 믹싱하여, 믹싱된 영상을 상기 WebRTC 서버 모듈을 통해 상기 다수의 전자 장치들로 전송하는 믹싱부를 포함한다.

Description

회의 서비스를 제공하는 다중 접속 제어 장치{MULTI-POINT CONTROL UNIT FOR PROVIDING CONFERENCE SERVICE}

본 발명은 회의 서비스(conference service)를 제공하는 다중 접속 제어 장치에 관한 것으로서, 특히 WebRTC(Web Real-Time communication) 기반의 회의 서비스를 제공하는 다중 접속 제어 장치에 관한 것이다.

WebRTC(Web Real-Time Communication)는 브라우저 어플리케이션들을 통해 추가적인 플러그인(Plug-In) 설치 없이 음성 통화(Voice Call), 화상 채팅(Video Chatting), 화상 통화(Video Telephone: VT, or Video Call), 화상 회의(video conference), 파일 전송(File Transfer) 등을 제공하는 기술이다.

WebRTC 기반의 화상 채팅 및 화상 회의는 서버와 같은 중간 매개체 없이 P2P 방식으로 구현되는 데, 하나의 화상회의에 참여할 수 있는 인원은 10명 내외로 고화질 화상회의나 다수의 화상 회의 시스템을 구축하기에는 부족한 점이 많다.

이런 문제를 해결하기 위해, WebRTC를 지원하는 서버기반 다자간 영상 회의 서비스를 제공할 수 있는 다지점 접속 제어 시스템(MCU; Multi-point Control Unit)이 필요하다.

다자간 영상 회의 서비스에서는, MCU는 회의 진행을 위해 모든 참여자 영상 화면을 하나의 영상 화면으로 믹싱하고, 믹싱된 영상 화면을 회의에 참석한 모든 참여자의 단말들로 전송한다. 이 때 MCU는 효과적인 회의를 위해 격자모양의 틀에 맞도록 수신된 영상을 축소하여 믹싱하고, 주화자(Main Speaker)의 영상 화면은 그 사이즈를 크게 하고 나머지 참여자들의 영상 화면들은 축소된 영상으로 믹싱한다.

이 때의 문제점은 다지점 접속 제어시스템에서 모든 회의 참여자들의 단말에서 동일한 크기의 고해상도 영상을 수신하여 하나의 영상으로 믹싱하려면 격자 크기에 맞추어 축소하는 영상 처리를 수행하는데, 이 축소하는 영상 처리 과정에서 많은 부하가 발생하며 그만큼 필요 없는 영상 전송을 위한 네트워크 대역폭이 소모된다.

또한, WebRTC 기반 영상 회의에 참여하는 단말은 자신과 연결된 웹캠과 같은 영상 출력 장치를 이용하여 참여자의 영상을 획득하는 데, 이때, 참여자의 영상을 MCU로 전송할 때, 해당 단말은 참여자 영상을 인코딩하여 전송한다. 이 때 해당 단말이 영상 획득 수단으로부터 획득한 영상을 인코딩 하는 과정에서 부하가 발생한다.

고해상도를 요청할 때에는 처리능력이 부족한 저 사양의 단말에서는 영상을 인코딩하는 데 자원을 많이 사용함으로써 우수한 표시품질로 화상 회의를 진행할 수 없다.

또한 WebRTC 기반 MCU에서는 세션을 관리하기 위한 시그널링(signaling)을 위한 처리를 수행해야 하는데, 현재 WebRTC API에서는 시그널링(Signaling)에 대한 표준이 아직 정의되어 있지 않기 때문에, WebRTC 개발자들은 주로 세션 개시 프로토콜(Session Initiation Protocol: SIP)을 이용하여 시그널링 서비스를 위한 메커니즘을 구축하고 있다. 그런데, SIP 기반의 시그널링 서비스에서는 세션 연결을 유지한 상태에서 재협상을 진행할 수 없다.

때문에, 주화자가 변경될 때마다 영상 화면의 크기를 변경하려면, 세션 연결을 끊고 새로운 세션 연결을 시도해야 한다. 이때, 영상 화면의 끊김 현상이 발생한다.

따라서, 본 발명의 목적은 영상 처리 과정에서 발생하는 부하를 줄이고, 주화자가 변경될 때마다 화면이 끊기는 현상을 방지하는 회의 서비스를 제공하는 다중 접속 제어 장치를 제공하는 데 있다.

상술한 목적을 달성하기 위한 본 발명의 일면에 따른 회의 서비스를 제공하는 다중 접속 제어 장치는 WebRTC 서비스 기반의 회의 서비스를 제공하기 위해, 다수의 전자 장치들과 세션 생성, 세션 연결, 세션 관리를 위한 세션 제어 메시지를 교환하여, 시그널링 채널과 고해상도의 주화자 영상을 전송하는 제1 미디어 채널과 저해상도의 참여자 영상을 전송하는 제2 미디어 채널을 생성하는 WebRTC 서버 모듈; 상기 다수의 전자 장치들 중 주화자에 해당하는 전자 장치로부터 상기 고해상도의 주화자 영상과 필드값을 포함하는 SIP 패킷을 수신하고, 상기 수신된 SIP 패킷에 포함된 필드값을 분석하여, 상기 전자 장치가 주화자인지를 판단하는 필드값 분석부; 상기 전자 장치가 주화자로 판단된 경우, 다른 전자 장치들에게 저해상도의 참여자 영상들을 요청하는 요청 메시지를 생성하는 메시지 생성부; 및 상기 요청 메시지에 따라, 상기 제2 미디어 채널을 통해 다른 전자 장치들로부터 수신한 저해상도의 참여자 영상과 상기 고해상도의 주화자 영상을 믹싱하여, 믹싱된 영상을 상기 WebRTC 서버 모듈을 통해 상기 다수의 전자 장치들로 전송하는 믹싱부를 포함한다.

본 발명에 따르면, 기존 WebRTC 기반의 다지점 영상회의 서비스에서는, 참여자의 수가 10명 내외이지만 본 발명에서는 WebRTC를 지원하는 서버 기반 MCU를 이용하여 서버의 구성 및 성능에 따라 참여자 수가 계속 증가할 수 있는 확장성 있는 시스템을 제공할 수 있다.

또한, 단말에 연결된 영상 획득 수단에 내장된 인코더를 이용하여 저사양 단말에서도 고화질 영상 회의가 가능하도록 하는 이점이 있다.

또한, 주화자가 아닌 다른 참여자들의 영상을 축소하여 전송받아 믹싱하기 때문에 다지점 영상 회의의 표시 품질 저하를 방지할 수 있다.

도 1은 본 발명의 실시 예에 따른 WebRTC(Web Real-Time Communication)에서 회의 서비스를 제공하는 전체 네트워크 환경을 도시한 도면이다.
도 2는 도 1에 도시한 제1 전자 장치의 시스템 구성을 도시한 도면이다.
도 3은 도 2에 도시한 WebRTC 모듈의 시스템 구성을 도시한 도면이다.
도 4는 도 1에 도시한 MCU 서버의 시스템 구성을 도시한 도면이다.
도 5는 본 발명의 일 실시 예에 따른 주화자의 변경에 따라 전자 장치와 MCU 서버 간에 주고 받는 정보들의 흐름을 도시한 흐름도이다.

이하, 본 발명의 다양한 실시 예가 첨부된 도면과 연관되어 기재된다. 본 발명의 다양한 실시 예는 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나 이는 본 발명의 다양한 실시 예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.

본 발명의 다양한 실시 예에서 사용될 수 있는 "포함한다" 또는 "포함할 수 있다" 등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 발명의 다양한 실시예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명의 다양한 실시예에서 사용된 "제 1," "제2", "첫째" 또는 "둘째," 등의 표현들은 다양한 실시예들의 다양한 구성요소들을 수식할 수 있지만, 해당 구성요소들을 한정하지 않는다. 예를 들어, 상기 표현들은 해당 구성요소들의 순서 및/또는 중요도 등을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들어, 제1 사용자 기기와 제2 사용자 기기는 모두 사용자 기기이며, 서로 다른 사용자 기기를 나타낸다. 예를 들어, 본 발명의 다양한 실시 예의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.

본 발명의 실시 예에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명의 실시 예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명의 실시 예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 다양한 실시 예에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명의 실시 예에 따른 사용자 단말은, 통신 기능이 포함된 장치일 수 있다. 예를 들면, 사용자 단말은 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 비디오 전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 또는 스마트 와치(smart watch))중 적어도 하나를 포함할 수 있다.

도 1은 본 발명의 실시 예에 따른 WebRTC(Web Real-Time Communication)에서 회의 서비스를 제공하는 전체 네트워크 환경을 도시한 도면이다.

도 1을 참조하면, 본 발명의 실시 예에 따른 네트워크 환경은 제1 전자 장치(101), 적어도 하나의 제2 전자 장치(103), MCU(Multi-point Control Unit) 서버(200) 및 네트워크(300)를 포함한다.

제1 전자 장치(101)과 제2 전자 장치(103)는 WebRTC 서비스를 지원하는 웹 브라우저가 실행되는 장치이고, MCU 서버(200)는 다자간 영상 회의 서비스를 제공하기 위해 제1 및 제2 전자 장치(101, 103)를 영상 회의 중계하는 웹 서버일 수 있다.

제1 전자 장치(101)는 회의 서비스를 주화자(main speaker)의 역할을 수행하고, 제2 전자 장치(103)는 회의 서비스의 참가자(participants)의 역할을 수행할 수 있다. 반대로, 제1 전자 장치(101)가 참가자로, 제2 전자 장치(103)가 주화자로 역할을 수행할 수 있다.

제1 전자 장치(101), 제2 전자 장치(103) 및 MCU 서버(200)는 네트워크(300)에 의해 서로 통신 가능하도록 네트워크(300)에 접속할 수 있다.

제1 전자 장치(101), 제2 전자 장치(103) 및 MCU 서버(200)는 각각 시그널링 채널(S-CH)과 미디어 채널(M-CH)를 포함하는 통신 채널에 의해 네트워크(300)에 접속한다.

전자 장치(101 또는 103)과 MCU 서버(200)은 시그널링 채널(S-CH)을 이용하여 세션 제어 메시지, 미디어 메타 데이터, 네트워크 데이터, 각종 요청 메시지를 SIP(Session Initiation Protocol) 형태로 교환할 수 있다. 여기서, 세션 제어 메시지는 세션 생성, 세션 연결, 세션 종료, 세션 관리 등을 포함하고, 미디어 메타 데이터는 코덱, 코덱 설정, 대역폭, 미디어 타입 등을 포함할 수 있다. SIP는 IP 네트워크를 통한 음성 통화, 비디오 통화 등의 멀티미디어 통신 세션을 제어하기 위해 사용되는 시그널링 통신 프로토콜로서, SIP(Session Initiation Protocol)는 IP 네트워크 상에서 통신하고자 하는 MCU 서버(200)와 전자 장치(또는 제1 전자 장치와 제2 전자 장치들)이 서로를 식별하여 그 위치를 찾고, 그들 상호 간에 멀티미디어 통신 세션을 생성하거나 삭제 변경하기 위한 절차를 명시한 응용 계층의 시그널링 프로토콜. 인터넷 기반 회의, 전화, 음성 메일, 이벤트 통지, 인스턴트 메시징 등 멀티미디어 서비스 세션의 생성, 수정, 종료를 제어하는 request/response 구조로서 TCP와 UDP에 모두 사용할 수 있으며, 각 사용자들을 구분하기 위해 이메일 주소와 비슷한 SIP URL을 사용함으로써 IP주소에 종속되지 않고 서비스를 제공받는다.

미디어 채널(M-CH)은 전자 장치(101 또는 103)과 MCU 서버(200) 간에 영상을 교환하는 통신 채널로서, MCU 서버(200)가 고해상도의 사용자 영상(주화자 영상)을 사용자 단말(101 또는 103)로 송수신하는 제1 미디어 채널(M-CH1)과 저해상도의 사용자 영상(참여자 영상)을 사용자 단말(100 또는 200)로 전송하는 제2 미디어 채널(M-CH2)을 포함한다.

네트워크(300)는 통신 네트워크(telecommunications network)일 수 있다. 상기 통신 네트워크는 컴퓨터 네트워크(computer network), 인터넷(internet), 사물 인터넷(internet of things), 전화망(telephone network) 등의 적어도 하나를 포함할 수 있다.

도 2는 도 1에 도시한 제1 전자 장치의 시스템 구성을 도시한 도면으로서, 제1 전자 장치와 제2 전자 장치는 동일한 시스템 구성을 가지며, 이에, 제2 전자 장치(103)의 시스템 구성에 대한 설명은 이하의 제1 전자 장치(101)의 시스템 구성에 대한 설명으로 대신한다.

도 2를 참조하면, 제1 전자 장치(101)는 영상 출력 장치(110)와 사용자 단말(120)을 포함한다.

영상 출력 장치(110)는 사용자 단말(120)의 사용자(주화자 또는 참여자)를 촬영하여 사용자 영상을 출력하는 구성으로, 웹캠일 수 있다.

이를 위해, 영상 출력 장치(110)는 영상 촬영부(111) 및 인코더(113)를 포함한다. 영상 촬영부(111)는 사용자 단말(120)의 사용자(주화자 또는 참여자)를 촬영하여 고해상도의 사용자 영상(주화자 영상)을 생성하는 고성능의 카메라일 수 있다. 인코더(113)는 상기 고해상도의 사용자 영상(고해상도의 주화자 영상)을 다운 스케일 하여 저해상도의 사용자 영상으로 변환(인코딩)한다. 상기 영상 출력 장치(110)는 사용자 단말(120)의 요청에 따라 상기 고해상도의 사용자 영상 또는 저해상도의 사용자 영상을 상기 사용자 단말(120)로 전송한다.

상기 사용자 단말(120)은 버스(121), 프로세서(122), 메모리(123), 입출력 인터페이스(124), 디스플레이(125), 통신 인터페이스(126), WebRTC 서비스 제공 모듈(127), 외부 장치 인터페이스(128) 및 오디오 모듈(129)을 포함할 수 있다.

상기 버스(121)는 상기 구성들(121, 122, 123, 124, 125, 126, 128 및 129)을 서로 연결하고, 구성들 간의 통신(예: 제어 메시지)을 전달하는 회로일 수 있다.

상기 프로세서(122)는 상기 버스(1211)를 통해 전술한 다른 구성들(121, 122, 123, 124, 125, 126, 128 및 129)로부터 명령을 수신하여, 수신된 명령을 해독하고, 해독된 명령에 따른 연산이나 데이터 처리를 실행할 수 있다.

상기 메모리(123)는 상기 프로세서(122) 또는 다른 구성 요소들로부터 수신되거나 상기 프로세서(122) 또는 다른 구성 요소들에 의해 생성된 명령 또는 데이터를 저장할 수 있다. 상기 메모리는, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API: application programming interface) 또는 어플리케이션 등의 프로그래밍 모듈들을 포함할 수 있다. 여기서, 상기 API는 상기 어플리케이션이 상기 커널 또는 상기 미들웨어에서 제공되는 기능을 제어하기 위한 인터페이스로, 예를 들면, 파일 제어, 창 제어, 이미지 처리, 문자 제어 등의 적어도 하나를 위한 적어도 하나의 인터페이스 또는 함수(예: 명령어)를 포함할 수 있다.

상기 입출력 인터페이스(124)는, 입출력 장치(예: 센서, 키보드, 터치 스크린 등의 적어도 하나)를 통하여 사용자(주화자 또는 참여자)로부터 입력된 명령 또는 데이터를, 예를 들면, 상기 버스(121)를 통해 상기 프로세서(122), 상기 메모리(123), 상기 통신 인터페이스(126), 상기 WebRTC 서비스 제공 모듈(127) 등의 적어도 하나에 전달할 수 있다.

상기 디스플레이(125)는 사용자(주화자 또는 참여자)에게 각종 정보(멀티미디어 데이터, 텍스트 데이터 등의 적어도 하나)을 표시할 수 있다.

상기 통신 인터페이스(126)는 상기 MCU 서버(200, 또는 제2 전자 장치(103) 간의 통신을 연결할 수 있다. 예를 들면, 상기 통신 인터페이스(126)는 무선 통신 또는 유선 통신을 통해서 네트워크(도 1의 300)에 접속하여 상기 외부 전자 장치와 통신할 수 있다. 상기 무선 통신은, 예를 들어, WiFi(wireless fidelity), WiFi 다이렉트, BT(Bluetooth), NFC(near field communication), GPS(global positioning system), 셀룰러(cellular) 통신(예: LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro 또는 GSM 등) 등의 적어도 하나를 포함할 수 있다. 상기 유선 통신은, 예를 들어, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232), POTS(plain old telephone service) 등의 적어도 하나를 포함할 수 있다.

상기 WebRTC 서비스 제공 모듈(127)은 WebRTC 서비스를 제공하기 위한 기능들을 제공하며, 이에 대한 설명은 도 3을 참조하여 설명한다.

외부 장치 인터페이스(128)은 영상 출력 장치(110)와의 인터페이싱 기능을 수행하는 구성으로서, 예를 들면, HDMI(high-definition multimedia interface, 1272), USB(universal serial bus, 1274), 광 인터페이스(optical interface, 1276) 또는 D-sub(D-subminiature, 1278)를 포함할 수 있다. 상기 인터페이스(1270)는, 예를 들면, 도 1에 도시된 통신 인터페이스(160)에 포함될 수 있다. 추가적으로 또는 대체적으로, 상기 외부 장치 인터페이스(128)는, 예를 들면, MHL(mobile high-definition link) 인터페이스, SD(secure Digital) 카드/MMC(multi-media card) 인터페이스 또는 IrDA(infrared data association) 규격 인터페이스를 포함할 수 있다.

오디오 모듈(129)은 소리(sound)와 전기신호를 쌍방향으로 변환시키는 구성으로서, 예를 들면, 스피커, 리시버, 이어폰, 마이크 등의 적어도 하나를 통해 입력 또는 출력되는 주화자(또는 참여자)의 음성 정보를 처리할 수 있다.

도 3은 도 2에 도시한 WebRTC 모듈의 시스템 구성을 도시한 도면이다.

도 3을 참조하면, 본 발명의 일 실시 예에 따른 WebRTC 서비스 제공 모듈(127)은 전술한 바와 같이, WebRTC 서비스를 제공하기 위한 기능들을 제공하며, 이를 위해, WebRTC 모듈(127-1), 외부 장치 상태 판단 모듈(127-3), 영상 수집 모듈(127-5), 프로토콜 확장 모듈(127-7) 및 영상 전환 모듈(127-9)을 포함한다.

WebRTC 모듈(127-1)은 WebRTC 서비스에서 제공하는 기능들을 제공하며, 이를 위해, 시그널링 처리 모듈(127-1A), getUserMedia API 모듈(127-1B 또는 MediaStream API 모듈), PeerConnection API 모듈(127-1C)을 포함한다.

시그널링 처리 모듈(127-1A)은 세션 생성, 세션 연결, 세션 관리 등의 세션 연관 기능을 수행할 수 있다. 세션은 전자 장치(101)와 MCU 서버(200)(또는 전자 장치(101)와 다른 전자 장치(103)) 간의 반영구적 인터랙티브 정보 교환을 위해 제공될 수 있으며, 전자 장치(101)와 MCU 서버(200) (또는 전자 장치(101)와 다른 전자 장치(103))각각은 통신을 위해 상기 세션의 히스토리에 대한 정보(즉, 세션 정보)를 저장할 수 있다. 상기 세션 정보는 고유한 세션 ID, 사용자 선호 사항들 등의 적어도 하나를 포함할 수 있다. 시그널링은 세션 정보를 송신 또는 수신하는 것을 의미할 수 있으며, 시그널링에서의 세션 정보는 지원하는 포맷, 전송 대상, 연결/네트 워크 정보를 포함하는 세션 제어 메시지를 포함할 수 있다.

이러한 세션 제어 메시지는 통신을 조정하고 제어 메시지를 보내기 위해 신호(예를 들어, SIP 또는 XMPP, 및 임의의 적절한 이중(양방향) 통신 채널과 같은 메시징 프로토콜)를 사용할 수 있다. 일 실시예에서, 신호는 세 유형의 정보를 교환하는데 사용된다: 세션 제어 메시지(예를 들어, 초기화 또는 통신 종료 및 오류 보고를 위한), 네트워크 구성(예를 들어, IP 주소 및 포트 정보), 및 미디어 기능 (예를 들어, 어떤 코덱과 해상도가 브라우저에 의해 처리될 수 있는지 및 통신하고자 하는 상대방이 어떤 브라우저인지).

getUserMedia API 모듈(127-1B 또는 MediaStream API 모듈)은 미디어의 동기화된 스트림을 처리하는 모듈로서, 예를 들어, 카메라 및 마이크 입력으로부터 획득한 스트림(영상 스트림과 음성 스트림)은 비디오 및 오디오 트랙과 동기화 하는 과정을 처리한다.

PeerConnection API 모듈(127-1C)은 피어 사이(전자 장치(101)와 MCU 서버(200) 사이/전자 장치(101)와 전자 장치(103) 사이)의 스트리밍 데이터의 안정적이고 효율적인 통신을 처리하고, 이를 위해, 고해상도의 사용자 영상(주화자 영상)을 교환하기 위한 제1 미디어 채널(M-CH1)과 저해상도의 사용자 영상(참여자 영상)을 교환하기 위한 제2 미디어 채널(M-CH2)을 설정(또는 생성)한다.

외부 장치 상태 판단부(127-3)는 외부 장치 인터페이스(128)에 연결된 영상 출력 장치(110)가 하드웨어 인코딩을 지원하는 여부를 판단한다. 이를 위해, 외부 장치 상태 판단부(127-3)는 외부 장치 인터페이스(128)를 통해 수신된 음성 출력 장치(110)의 하드웨어 정보를 수집하고, 수집된 하드웨어 정보로부터 하드웨어 인코딩을 지원하는 여부를 판단할 수 있다.

영상 수집부(127-5)는 외부 장치 상태 판단부(127-3)의 판단 결과에 따라 영상 출력 장치(110)가 하드웨어 인코딩을 지원하는 경우, 인코딩된(또는 다운 스케일링된) 사용자 영상을 수집한다. 동시에 영상 수집부(127-5)는 인코딩되지 않은 고해상도의 사용자 영상도 수집한다.

프로토콜 확장 모듈(127-7)은 자신(전자 장치(101))이 주화자로 변경된 경우, 자신이 주화자임을 상기 MCU 서버(200)는 물론 전자 장치(103)를 포함하는 다른 전자 장치들에게 알리기 위해, 자신이 주화자임을 지시하는 필드값을 SIP 기반의 패킷에 추가하여, SIP 기반의 프로토콜을 확장한다. 이를 위해, SIP 기반의 패킷에는 자신이 주화자임을 지시하는 필드값이 기록되는 필드가 추가된다(또는 추가로 정의된다). 이러한 필드의 추가는 SIP 기반 프로토콜의 확장을 의미하며, 제1 전자 장치(101)와 MCU 서버(200) 또는 전자 장치(101)와 제2 전자 장치(103) 간의 세션 연결을 종료하지 않고, 상호 교환되는 영상 품질에 대한 재협상을 가능케 한다.

영상 전환 모듈(127-9)은 임의의 전자 장치가 참여자에서 주화자로 변경된 경우, 임의의 전자 장치로부터 수신되는 저해상도의 참여자 영상을 고해상도의 주화자 영상으로 전환한다. 이때, 저해상도의 참여자 영상에서 고해상도의 주화자 영상으로 전환되는 과정은 세션 연결의 종료 없이 진행되므로, 종래와 같이, 화면이 끊기는 현상은 발생하지 않는다.

실시 예에 따르면, 전술한 외부장치 상태 판단 모듈(127-3), 영상 수집 모듈(127-5), 프로토콜 확장 모듈(127-7) 및 영상 전환 모듈(127-9)에서 수행되는 각 기능들은 시그널링 처리 모듈(127-1A), getUserMedia API 모듈(127-1B 또는 MediaStream API 모듈) 또는 PeerConnection API 모듈(127-1C) 각각에서 수행하는 일부 기능에 포함될 수 있다. 이 경우, 이들 구성들(127-3, 127-5, 127-7, 127-9)의 설계는 삭제될 수 있다.

도 4는 도 1에 도시한 MCU 서버의 시스템 구성을 도시한 도면이다.

도 4를 참조하면, 본 발명의 실시 예에 따른 MCU 서버(200)는 WebRTC 서버 모듈(210), 믹싱부(220), 메시지 생성부(230) 및 필드값 분석부(240)를 포함한다.

WebRTC 서버 모듈(210)은 전자 장치들(101, 103)에서 구현되는 WebRTC 기반의 회의 서비스를 지원하기 위해, 전자 장치들(101, 103)의 회의 중계한다. 이를 위해, WebRTC 서버 모듈(210)은 전술한 WebRTC 모듈(127-1)에서 수행하는 적어도 일부 기능을 수행하거나 지원한다.

즉, WebRTC 서버 모듈(210)은 전자 장치들(101, 103)과의 세션 생성, 세션 연결, 세션 관리 등의 세션 연관 기능을 수행하기 위한 세션 제어 메시지를 교환할 수 있고, 이러한 세션 제어 메시지를 교환하기 위해, 전자 장치들(101, 103)의 협의를 통해 시그널링 채널(S-CH) 및 미디어 채널(M-CH)을 생성할 수 있다.

믹싱부(220)는 제2 전자 장치(103)를 포함하는 다수의 전자 장치들로부터 수신된 사용자 영상들을 믹싱한다. 즉, 믹싱부(220)는 다자간 화상 회의를 지원하기 위해 주화자에 해당하는 전자 장치로부터 수신된 고해상도의 주화자 영상과 참여자들에 해당하는 전자 장치들로부터 수신된 저해상도의 참여자 영상들을 격자 형태로 배치하는 방식으로 믹싱한다. 이때, 주화자 영상이 배치되는 격자의 제1 크기는 참여자 영상들이 배치되는 격자의 제2 크기보다 크게 설정된다.

메시지 생성부(230)는 SIP를 기반으로 하는 각종 요청 메시지를 생성한다. 예를 들면, 메시지 생성부(230)는 주화자의 전자 장치에게 제1 크기의 주화자 영상을 요청하는 고해상도 영상 요청 메시지를 생성하고, 참여자의 전자 장치에게 제2 크기의 참여자 영상을 요청하는 저해상도 영상 요청 메시지를 생성하고, 또한 주화자에서 참여자로 변경된 전자 장치에게 고해상도 영상의 전송을 중단하는 고해상도 영상 전송 중단 메시지를 생성한다. 메시지 생성부(230)에 의해 생성된 메시지들은 WebRTC 서버 모듈(210)에 제어에 따라 시그널링 채널(S-CH)을 통해 해당 전자 장치들로 전송된다.

필드값 분석부(240)는 전자 장치로부터 수신된 고해상도의 주화자 영상을 포함하는 SIP 패킷에 추가된 필드값을 분석하여 해당 전자 장치가 주화자인지를 판단한다.

도 5는 본 발명의 일 실시 예에 따른 주화자의 변경에 따라 전자 장치와 MCU 서버 간에 주고 받는 정보들의 흐름을 도시한 흐름도이다.

도 5에는 MCU 서버, 제1 및 제2 참여자 장치 및 주화자 장치가 도시된다. 주화자 장치는 영상 회의 진행 과정에서 참여자에서 주화자로 변경된 전자 장치로 정의하고, 제2 참여자 장치는 주화자에서 참여자로 변경된 전자 장치로 정의한다. 그리고 제1 참여자 장치는 영상 회의 진행 과정에서 계속 참여자로 기능하는 전자 장치로 정의한다.

도 5를 참조하면, 먼저, 제1 참여자 장치, MCU 서버, 주화자 장치 및 제2 참여자 장치는 시그널링 처리 과정을 통해 세션 연결이 이루어진다(510).

이어, 주화자 장치는 고해상도의 주화자 영상을 포함하는 SIP 패킷에 자신이 주화자임을 지시하는 필드값을 추가하고(520), 고해상도의 주화자 영상과 필드값을 포함하는 SIP 패킷을 제1 미디어 채널(M-CH1)을 통해 MCU 서버로 전송한다(530).

이어, MCU 서버는 상기 수신된 SIP 패킷에 포함된 필드값을 분석하여(540), 주화자 장치가 주화자임을 판단하면, 제1 참여자 장치에게 저해상도의 제1 참여자 영상을 요청하고(550), 제2 참여자 장치에게 저해상도의 제2 참여자 영상을 요청한다(560).

이어, 제1 참여자 장치는 저해상도의 제1 참여자 영상을 요청하는 요청 메시지에 응답하여 저해상도의 제1 참여자 영상을 제2 미디어 채널(M-CH2)을 통해 상기 MCU 서버로 전송하고(570), 제2 참여자 장치는 저해상도의 제2 참여자 영상을 요청하는 요청 메시지에 응답하여 저해상도의 제2 참여자 영상을 제2 미디어 채널(M-CH2)을 통해 상기 MCU 서버로 전송한다(580).

이어, MCU 서버는 주화자 장치로부터 수신한 고해상도의 주화자 영상과 제1 및 제2 참여자 장치로부터 각각 수신한 저해상도의 제1 및 제2 참여자 영상을 격자 형태로 배치하는 방식으로 믹싱하고(S590), 믹싱한 영상을 제1 및 제2 참여자 장치로 전송한다(595).

이상 설명한 바와 같이, 본 발명에 따른 WebRTC 기반 회의 서비스를 제공하는 다중 접속 제어 장치에서는 시그널링 처리 과정을 진행한 이후, 2개의 미디어 채널(M-CH)을 생성한다.

하나의 미디어 채널(M-CH1)은 고해상도의 미디어 전송을 위해 연결하고 다른 하나의 미디어 채널(M-CH2)은 저해상도의 미디어 전송을 위해 생성한다.

본 발명에 따른 WebRTC 기반 회의 서비스를 제공하는 다지점 접속 제어 장치(MCU)에서는 다자간 화상 회의를 지원하기 위하여 믹싱될 화면의 영상 배치를 격자모양으로 정한다. 이 때 주화자가 나오는 영상 화면과 나머지 참여자를 고려하여 배치한다. 그리고 그 격자의 크기만큼을 각 전자 장치에 요청한다. 주화자에 해당하는 전자 장치에게만 고해상도 비디오 영상을 요청하고, 나머지 참여자에 해당하는 전자 장치에게는 격자의 크기만큼 비디오 영상을 요청한다.

본 발명에 따른 WebRTC 기반 회의 서비스를 제공하는 다지점 접속 제어 장치(MCU)와 전자 장치는 요청된 정보를 사용자 단말에서 적용할 수 있도록 SIP 기반 프로토콜을 확장하여 시그널링 하도록 한다.

전술한 바와 같이, 기존 SIP 방식에서는 연결된 세션을 유지하면서 재협상을 할 수 없다. 이때 SIP 패킷에 주화자 여부를 확인할 수 있는 필드를 추가하여 사용한다. 또한, 세션이 연결된 상태에서 해상도 품질 정도만 협상할 수 있도록 하여 화면이 끊기는 것을 방지하도록 한다.

동적 시그널링 메시지를 받은 사용자 단말에서는 주화자일 경우 이미 생성된 고화질 영상 전송용 미디어 채널(M-CH1)을 이용하여 고해상도 비디오 영상을 전송하면 된다. 주화자가 아닐 경우 요청된 격자 크기만큼의 영상으로 다운 스케일링하여 저화질 전송용 미디어 채널(M-CH2)로 비디오 영상을 전송하면 된다.

본 발명의 일 실시 예에 따른 전자 장치에서는 고해상도 영상을 얻어서 다지점 접속 제어 장치(MCU)에 전송할 때에 기존 브라우저의 WebRTC를 이용하면 소프트웨어를 이용하여 해당 코덱으로 인코딩 하기 때문에 단말에 부하가 발생한다.

따라서 본 발명의 일 실시 예에서는 영상 출력 장치(예, 웹캠 등)가 하드웨어 인코딩을 지원한다면 인코딩된 영상을 바로 받아서 전송할 수 있도록 한다. 영상 출력 장치에 접속된 사용자 단말은 연결된 영상 출력 장치(웹캠)가 하드웨어 인코딩을 지원하는지 확인하고 지원한다면 인코딩되지 않은 영상뿐만 아니라 하드웨어 인코딩된 영상도 같이 전송하도록 한다.

이상에서 본 발명에 대하여 실시 예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 본 발명의 실시 예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

WebRTC 서비스 기반의 회의 서비스를 제공하기 위해, 다수의 전자 장치들과 세션 생성, 세션 연결, 세션 관리를 위한 세션 제어 메시지를 교환하여, 시그널링 채널과 고해상도의 주화자 영상을 전송하는 제1 미디어 채널과 저해상도의 참여자 영상을 전송하는 제2 미디어 채널을 생성하는 WebRTC 서버 모듈;
상기 다수의 전자 장치들 중 주화자에 해당하는 전자 장치로부터 상기 고해상도의 주화자 영상과 필드값을 포함하는 SIP 패킷을 수신하고, 상기 수신된 SIP 패킷에 포함된 필드값을 분석하여, 상기 전자 장치가 주화자인지를 판단하는 필드값 분석부;
상기 전자 장치가 주화자로 판단된 경우, 다른 전자 장치들에게 저해상도의 참여자 영상들을 요청하는 요청 메시지를 생성하는 메시지 생성부; 및
상기 요청 메시지에 따라, 상기 제2 미디어 채널을 통해 다른 전자 장치들로부터 수신한 저해상도의 참여자 영상과 상기 고해상도의 주화자 영상을 믹싱하여, 믹싱된 영상을 상기 WebRTC 서버 모듈을 통해 상기 다수의 전자 장치들로 전송하는 믹싱부를 포함하는 회의 서비스를 제공하는 다중 접속 제어 장치.