KR102619761B1

KR102619761B1 - 텔레프리젠테이션 화상 회의 시스템을 위한 서버

Info

Publication number: KR102619761B1
Application number: KR1020220052056A
Authority: KR
Inventors: 김영대
Original assignee: (주)다림시스템
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2024-01-03
Also published as: KR20230152882A

Abstract

본 발명에 따른 텔레프리젠테이션 회의 시스템의 영상 합성부는, 강의자 촬영 이미지, 수강자 촬영 이미지, 강의자료 및 강의자로부터 선택된 3D 가상 스튜디오 이미지를 합성하여 텔레프리젠테이션 영상을 생성하고, 생성된 텔레프리젠테이션 영상을 강의자 단말기 및 수강자 단말기로 전송하되, 기 설정된 초기 설정 화면에 따라 강의자가 선택한 3D 가상 스튜디오 이미지에 3D 가상 스튜디오의 제1 영역에 수강자들의 이미지를 합성하고, 3D 가상 스튜디오의 제2 영역에 강의 자료를 합성하며, 3D 가상 스튜디오의의 제3 영역에 강의자의 이미지를 합성한, 초기 합성 영상을 바탕으로 제1 카메라 또는 강의자 단말기로부터 입력받은 강의자의 입력에 따라 또는 소정 시간 경과에 따라 미리 설정된 화면 전환 기법을 통해 텔레프리젠테이션 영상 내의 합성 영역의 전환 및 3D 가상 스튜디오의 가상 카메라 위치의 전환을 통해 가변되는 상기 텔레프리젠테이션 영상를 합성한다.

Description

텔레프리젠테이션 화상 회의 시스템을 위한 서버{Server for TelePresentation video Conference System}

본 발명은 프리젠테이션을 화상회의로 가능하게 하여 텔레프레즌스(TelePresence)를 구현하는 원격 프리젠테이션 회의 시스템인 텔레프리젠테이션 화상회의 시스템에 관한 것이다. 구체적으로는 이러한 텔레프리젠테이션 화상회의 시스템의 기능을 수행하는 서버에 관한 것이다.

일반적인 프리젠테이션은 강의실/교실에서 강사가 칠판, 전자칠판 또는 프로젝터 등을 사용하여, 피교육자 혹은 수강자들이 강의자와 칠판, 전자칠판 또는 프로젝터를 각자 판단하여 보는 대상을 결정하여 왔다. 즉 강의자를 보가나 칠판만 보며 수업을 듣고, 질문하는 수강자가 있을 때에는 질문하는 수강자를 보는 방식으로 청취 대상을 각각의 수강자가 판단하여 바라보는 대상을 보면서 들어야 하는 방식을 이용해왔다.

한편 최근 들어 사용되고 있는 비대면 강의 또는 온라인 강의 방법에서는 교실 수업 청취와 같은 수업을 받도록 하기 위해서 스위처 믹서 기술을 사용하여 교실에서 스위칭 믹서를 통해 수강자들이 보아야 할 장면들 만들어 이를 비대면 수강자들에게 보내주는 방식을 사용한다. 그러나 이는 강의자가 장비를 작동할 수 없어 추가 전문 인력이 있어야 하고, 비록 방송 장비와 기술진이 있다고 해도 대부분의 강의실에서 강의가 녹화 되어 전송되는 방식을 이용하여 실시간 원격 수업이 이루어 지지 못해 왔다. 또한 원격지 교실 또는 수강자들은 강의실에서 효과적으로 보여줄 수 없어 강의실의 수강자들과 원격지 수강자들이 함께 강의를 듣는 강의가 잘 이루어지지 못하는 단점이 존재하였다.

최근 코로나의 펜데믹 현상 등으로 인해 비대면 강의가 필요해지고, 단순히 서로의 장면을 공유하는 화상 강의 방식이 아닌, 수업 또는 강의 효과를 증대시킬 수 있는 효과적인 방식의 필요성과 함께, 이러한, 프리젠테이션을 화상회의로 가능하게 하여 텔레프레즌스(TelePresence)를 구현하는 원격 프리젠테이션 회의 시스템인 텔레프리젠테이션(TelePresentation) 화상회의 시스템의 구현의 필요성이 대두되고 있다.

본 발명은 대면 또는 비대면 강의에서 강의 자료와 강의자를 수강자들이 강의 자료와 강의자 및 다른 수강자의 내용을 동시에 볼 수 있도록 하는 새로운 방식의 화상회의 원격 강의 시스템을 제공하는 것을 그 목적으로 한다.

또한 본 발명은 비대면 강의인 경우일 때에도, 수강자들이 단조로운 화면으로 인해 지루해하지 않도록, 방송국 스튜디오에서 와 같이 다양하게 화면 구성이 변경되어, 수강자의 흥미를 제공하고 원격 수업이 질적 저하가 없이 오히려 더 몰입 수업이 될 수 있는 원격 프리젠테이션 화상회의 시스템을 제공하는 것을 그 목적으로 한다.

또한 본 발명은 강의 내용에 따라 강의 자료를 강조하거나 제공되는 화면에 필기를 할 수 있도록 하여 강의 효과를 올릴 수 있는 텔레프리젠테이션 회의 시스템을 제공하는 것을 그 목적으로 한다.

상기의 목적을 달성하기 위한 본 발명의 일 실시예에 따르면, 화상 회의를 위한 텔레프리젠테이션 회의 시스템은, 강의자를 촬영하기 위한 제1 카메라; 상기 제1 카메라로부터의 강의자 촬영 영상과 상기 강의자의 강의 자료를 서버로 전달하고, 복수의 영상 화면을 가상 교실 그래픽 안에 합성한 합성장면의 프리젠테이션 영상을 상기 강의자에게 디스플레이 하기 위한 강의자 단말기; 한 명 이상의 수강자를 촬영하기 위한 한 대 이상의 제2 카메라; 상기 텔레프리젠테이션 영상을 상기 수강자들에게 디스플레이 하기 위한 한 대 이상의 수강자 단말기; 및 강의자 촬영 이미지, 수강자 촬영 이미지, 강의 자료를 이용하여 상기 텔레프리젠테이션 영상을 생성하여 전달하는 서버; 를 포함하며, 상기 서버는, 상기 강의자를 촬영한 강의자 촬영 이미지를 상기 제1카메라 또는 상기 강의자 단말기로부터 입력받는 제1 입력부; 상기 수강자를 촬영한 수강자 촬영 이미지를 상기 제2 카메라 또는 상기 수강자 단말기로부터 입력받는 제2 입력부; 상기 강의자료를 상기 강의자 단말기로부터 입력받는 제3 입력부; 다수의 3D 또는 2D 가상 프리젠테이션 스튜디오 이미지를 생성하여 저장하기 위한 스튜디오 이미지 저장부; 및 상기 강의자 촬영 이미지, 상기 수강자 촬영 이미지, 상기 강의자료 및 상기 강의자로부터 선택된 3D 가상 강의실 스튜디오 이미지를 합성하여 상기 텔레프리젠테이션 영상을 생성하고, 생성된 상기 텔레프리젠테이션 영상을 상기 강의자 단말기 및 상기 수강자 단말기로 전송하되, 기 설정된 초기 설정 화면에 따라 상기 강의자가 선택한 3D 가상 스튜디오 이미지에 상기 3D 가상 스튜디오의 제1 영역에 상기 수강자들의 이미지를 합성하고, 상기 3D 가상 스튜디오의 제2 영역에 상기 강의 자료를 합성하며, 상기 3D 가상 스튜디오의의 제3 영역에 상기 강의자 이미지를 합성한, 초기 합성 영상을 바탕으로 상기 제1 카메라 또는 상기 강의자 단말기로부터 입력받은 상기 강의자의 입력에 따라 또는 소정 시간 경과에 따라 미리 설정된 화면 전환 기법을 통해 상기 텔레프리젠테이션 영상 내의 합성 영역의 전환 및 상기 3D 가상 스튜디오의 가상 카메라 위치의 전환을 통해 가변되는 상기 텔레프리젠테이션 영상를 합성하는 영상 합성부;를 포함한다.

일 실시예에서, 상기 영상 합성부는, 상기 제1 카메라로부터 입력되는 상기 강의자 촬영 이미지로부터 상기 강의자의 제스처를 인식하고, 인식된 상기 강의자의 제스처를 바탕으로 상기 제1 영역 내지 상기 제3 영역 사이의 화면 전환, 상기 3D 가상 스튜디오 이미지를 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나로 대체하는 화면 전환, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 화면 확대 및 가상 카메라 시점 변경을 수행하여 가변되는 상기 텔레프리젠테이션 영상를 합성하며, 상기 제1 카메라로부터 입력되는 상기 강의자 촬영 이미지로부터 인식된 상기 강의자의 제스처가 없다고 판단하는 경우, 기 설정된 소정 시간이 경과할 때마다, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 기 설정된 화면 시점 변경 기법에 따라 화면 확대 및 가상 카메라 시점 변경을 수행한다.

일 실시예에서, 상기 영상 합성부는, 상기 강의자의 자세 인식, 상기 강의자의 얼굴 방향 인식, 상기 강의자의 눈 응시 방향 인식 중 적어도 하나를 통해 상기 강의자의 제스처를 인식하고, 상기 강의자의 제스처에 응답하여 다수의 강의 자료 중 상기 인식된 제스처의 방향에 대응하는 강의 자료를 상기 텔레프리젠테이션 영상의 합성 대상으로 선택하며, 상기 선택된 강의 자료를 강의 텔레프리젠테이션 영상의 주요 화면으로 합성한다.

다른 실시예에서, 상기 영상 합성부는, 상기 강의자 단말기로부터 입력되는 소정의 키 입력, 마우스 입력 및 포인터 입력 중 적어도 하나의 입력을 바탕으로, 상기 제1 영역 내지 상기 제3 영역 사이의 화면 전환, 상기 3D 가상 스튜디오 이미지를 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나로 대체하는 화면 전환, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 화면 확대 및 가상 카메라 시점 변경을 수행하여 가변되는 상기 텔레프리젠테이션 영상를 합성하며, 상기 강의자 단말기로부터 기 설정된 소정 시간 내에 소정의 키 입력, 마우스 입력 및 포인터 입력 중 적어도 하나의 입력이 없는 경우, 기 설정된 소정 시간이 경과할 때마다, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 기 설정된 화면 시점 변경 기법에 따라 화면 확대 및 가상 카메라 시점 변경을 수행한다.

일 실시예에서, 상기 영상 합성부는 상기 제1 카메라 또는 상기 강의자 단말기로부터 인식되는 상기 강의자의 포인터 입력 또는 전자 펜 입력을 인식하고, 인식된 입력 내용이 상기 강의자의 필기 입력으로 판단되는 경우, 상기 필기 입력을 상기 강의 자료 영상에 합성하여 상기 텔레프리젠테이션 영상을 합성한며, 상기 영상 합성부는, 상기 강의자 단말기로부터 전자 펜 또는 포인터 입력을 감지하면, 포인터 입력에 대응하는 전자 칠판 화면을 활성화하고, 상기 전자 칠판에 상기 전자 펜 또는 포인터 입력에 다른 필기 내용을 상기 전자 칠판에 합성하거나, 상기 강의 자료 내용에 합성한다.

일 실시예에서, 상기 영상 합성부는 상기 제1 카메라로부터 입력되는 상기 강의자 촬영 이미지로부터 크로마키 또는 뎁스(depth) 방식으로 상기 강의자만을 추출하거나 AR 합성을 위한 제1 카메라의 크롭, 에지 프레임 또는 투명도 처리 방식으로 가장자리 저리를 통한 합성을 통해, 상기 강의자 촬영 이미지를 변형하여 상기 텔레프리젠테이션 영상을 합성한다.

본 발명에 따른 대면 또는 비대면 강의를 위한 텔레프리젠테이션 회의 시스템은, 3D 가상 스튜디오에서 강의자와 강의 자료를 동시에 합성하여 제공하여, 실제 교실에서 강의하는 것과 같은 효과를 제시하여, 대면 또는 비대면 강의에서 강의 자료와 강의자를 수강자들이 강의 자료와 강의자 및 다른 수강자의 내용을 동시에 볼 수 있도록 하는 효과를 갖는다.

또한 본 발명에 따른 대면 또는 비대면 강의를 위한 텔레프리젠테이션 회의 시스템은, 시간마다 가상 카메라의 방향이나 거리를 조절하고, 강의자의 선택에 따라 다양한 강의 합성 화면을 제공하여, 비대면 강의인 경우일 때에도, 수강자들이 단조로운 화면으로 인해 지루해하지 않도록, 다향하게 화면 구성이 변경되어, 수강자의 흥미를 제공하는 효과가 있다.

또한 본 발명에 따른 대면 또는 비대면 강의를 위한 텔레프리젠테이션 회의 시스템은, 강의 내용에 따라 강의 자료를 강조하거나 제공되는 화면에 필기를 할 수 있도록 하여 강의 효과를 올릴 수 있다.

도 1은 본 발명의 일 실시예에 따른 텔레프리젠테이션 회의 시스템의 개략적인 구성을 나타낸다.
도 2는 본 발명의 일 실시예에 따른 텔레프리젠테이션 회의 시스템의 서버의 개략적인 내부 구성을 나타낸다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 텔레프리젠테이션 회의 시스템의 예시적인 화면 구성을 나타낸다.

이하 첨부된 도면을 참조하면서 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 만 한다.

따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

다자간 회의 장치 또는 텔레프레즌스(TelePresence) 화상회의 장치들은 강의자 (발표자)와 강의자료(발표 자료)를 2개의 화면에 나누어 보이는 방식으로 프리젠테이션을 원격으로 하는 방식으로 이루어 지고 있다. 이들은 강의자와 강의 자료가 따로 전송되고 화상회의 서버에서는 발표자 와 참석자들이 배경화면을 바꾸어 가상장소처럼 만들어 보내고 이들을 서버에서 합성해 다수자 CCTV 화면같이 다양한 장면으로 보이게 하여 이를 참석자들의 요청에 따라 보내주도록 서버 단 합성을 하고 있다. 이들은 발표자료는 화면 공유 방식으로 하여 추가의 스트림으로 보내서 발표자/참석자 영상과, 발표자료를 2개로 각자 보거나 발표자료만을 보는 방식으로 화상회의 서버가 사용이 되어 지고 있어왔다.

이러한 발표자와 발표자료를 두개 화면에 보이는 텔레프리젠터 방식의 화상회의는 화면공유를 통한 자료와 발표자들을 따로 보이는 화상 프리젠테이션 방식으로 참석자들이 2개의 동영상 스트림을 받아 2개의 화면에 아래와 같이 보여 지고 이때 참석자들이 두 화면을 번갈아 보며 화면을 눈으로 스위칭하면서 발표를 보는 방식을 이용한다.

본 발명에서는 그동안 화상회의 서버에서 여러 명의 영상을 합성하여 보내는 기능에 추가로 강의자와 참석자, 발표 자료를 새롭게 합성하도록 하는 가상 스튜디오 방식이나 메타 버스 방식의 서버 환경에서 강의자와 발표 자료 및 참석자를 가상의 그래픽 (2D, 3D) 환경에서 합성해 보이는 방식의 기능을 활용할 수 있도록 하고, 더 나아가 가상 교실에 익명의 아바타 참석자들이 올 수 있도록 하는 메타 버스가 가능하게 하는 새로운 가상 교실 혹은 메타버스 화상회의 방식을 사용하도록 하는 방식을 제안한다. 이에 따라, 발표자나 참석자가 기존의 화상회의 방식과 차별화 없이 발표를 해도 자동으로 가상교실 내지 AR합성 교실, 혹은 메타 버스 교실의 수업을 참석하는 것처럼 참석자들이 하나의 화면에 실시간 합성으로 보여 지도록 하는 방식의 서버를 제공한다.

일반 화상회의에서 화면 공유 방식으로 발표자가 발표를 할 때 강의자 카메라와 발표 자료가 화상회의 서버로 오게 되고 화상회의 서버에서는 강의자 영상과 발표자료, 그리고 참석자들 영상을 실시간으로 합성할 수 있도록 하는 기능을 통해 선택된 가상교실 배경에 발표자, 참석자들 및 발표 자료를 보여 주는 가상 프로젝터 나 가상 TV에 보여 주게 한다. 그리고 이 가상 강의실에 배치된 복수의 가상 카메라들을 통해 참석자들이 가상카메라를 선택하여 볼 수 있게 하거나 자동으로 강의자가 강의실 인공지능방식으로 이들이 보여 지게 하는 화상회의 서버 기능을 제공한다.

이때, 강의자가 자유로이 선택하여 디자인을 할 수 있는 가상 교실 혹은 메타 버스 강의실에 자유로이 강의자와 강의 자료, 학생들의 영상이나 아바타가 참석 할 수 있도록 하는 기능을 제공하며, 이 가상교실 혹은 메타 버스 교실에 자유로이 배치하는 가상 카메라들을 강의자 혹은 참석자가 배치 할 수 있도록 하여 자신이 보고 싶은 위치에서 강의를 들을 수 있도록 한다. 그리고 이들의 장면을 각 가상 카메라 별로 가상 프로젝터 화면이나 가상 TV화면을 자유로이 배치 할 수 있는 기능을 제공하여 원하는 장면을 참석자나 강의자가 만들어 각 가상 카메라 별로 설정하고 이를 참석자 혹은 발표자가 선택하여 보면서 수강을 할 수 있도록 하는 기능을 제공하는 합성엔진을 제공한다. 또한 이들의 장면의 전환이 발표자의 포인터로 전송되어 화상회의 서버에서 자동으로 장면전환이 되는 가상카메라 스위칭이 되도록 하는 자동 PD기능을 사용할 수 있도록 한다.

이와 같은 가상 카메라별 가상 스크린을 통한 발표자료를 보이는 방향에 따라 자유롭게 가상 카메라에 따라 재 배치 할 수 있도록 가상카메라로 보이는 장면을 하나의 합성화면이 구성되게 한다. 그리고 이들 가상카메라를 다수 개 설정하여 다양한 방향 및 각도로 보여 지게 하는 방식을 제공하고 자동 스위칭 혹은 참석자들이 자유로이 그 방향 또는 가상 카메라를 선택하여 볼 수 있도록 프리뷰 스위처를 제공한다.

일반적인 교실 수업에서 강의자의 표정과 포인터에 따라 참석자가 발표자와 칠판을 번갈아 보는 것과 같은 효과를 제공하기 위해, 본 발명의 가상 카메라 중 1개는 발표자가 크게 하고 발표자료가 작게 보이게 하는 가상 강의실 카메라를 배치하고 아울러 가상교실 칠판을 배치한다. 또 다른 가상 카메라는 강의자가 작게 화면에 구성되게 가상 카메라를 멀리서 보게 하되 발표자료가 보이는 가상 칠판을 크게 배치 하도록 하여 가상카메라로 보는 가상 교실의 장면이 발표자료가 주가 되고 발표자가 작게 보이게 한다. 즉 카메라 위치 및 자료 크기를 설정해 주는 방식으로 2개의 화면 합성장면이 교실 수업에서 발표자, 자료를 보는 것의 효과를 하나의 스마트 폰으로 보거나 컴퓨터 모니터로 보여 지도록 하는 방식의 화상회의 시스템이 구성되게 한다.

또한 이러한 장면의 가상카메라 선택 역할을 자동으로 하여, 장면 스위칭 즉 가상카메라 스위칭을 하게 하는 보여주게 하는 방식을 통해, 실제 교실에서와 같이 강의자의 포인터가 발표자료에서 움직일 때는 자료를 크게 하고, 움직임이 없고 참석자들을 응시할 때는 참석자들에게 발표자를 크게 하는 방식으로 가상 카메라가 자동으로 보여지게 한다. 따라서 참석자가 발표자의 표정이나 포인터를 보고 교실서 발표자나 칠판을 선택해 보는 것과 같은 자동 스위칭이 가상 교실의 가상 카메라로 이루어 지도록 하는 자동 혹은 인공지능방식의 스위칭 기능을 제공한다.

도 1은 본 발명의 일 실시예에 따른 텔레프리젠테이션 회의 시스템의 개략적인 구성을 나타낸다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 텔레프리젠테이션 회의 시스템(100)은 제1 카메라(120), 강의자 단말기(130), 제2 카메라(140), 수강자 단말기(150) 및 서버(110)를 포함한다.

제1 카메라(120)는 대면 또는 비대면 강의를 수행하는 강의자를 촬영하기 위한 장치이며, 강의자 단말기(130)는 강의자가 강의 자료를 서버(110)로 전달하고, 텔레프리젠테이션 영상을 강의자에게 디스플레이하는 장치이다.

한편, 제1 카메라(120)는 강의자 단말기(130)와 서로 독립된 장치일 수도 있으며, 강의자 단말기(130) 내의 부속 장치로 구현될 수도 있을 것이다.

또한, 제2 카메라(140)는 한 명 이상의 수강자를 촬영하기 위한 한 대 이상의 카메라이며, 수강자들의 수에 대응하여 존재할 수도 있고, 다수의 수강자들을 한꺼번에 촬영하는 경우에는 수강자들보다 적은 수로 존재할 수도 있다.

수강자 단말기(150)는 텔레프리젠테이션 영상을 수강자들에게 디스플레이하기 위한 것으로 1대 이상 존재한다.

한편, 제2 카메라(140)는 수강자 단말기(150)와 서로 독립된 장치일 수도 있으며, 수강자 단말기(150) 내의 부속 장치로 구현될 수도 있을 것이다.

도 2는 본 발명의 일 실시예에 따른 텔레프리젠테이션 회의 시스템의 서버의 개략적인 내부 구성을 나타낸다.

도 2를 참조하면, 텔레프리젠테이션 회의 시스템의 서버(110)는 제1 입력부(111), 제2 입력부(112), 제3 입력부(113), 스튜디오 이미지 저장부(114) 및 영상 합성부(115)를 포함한다.

제1 입력부(111)는 강의자를 촬영한 강의자 촬영 이미지를 제1 카메라(120) 또는 강의자 단말기(130)로부터 입력받으며, 제2 입력부(112)는 수강자를 촬영한 수강자 촬영 이미지를 제2 카메라(150) 또는 수강자 단말기(150)로부터 입력 받는다.

그리고 제3 입력부(113)는 대면 또는 비대면 강의를 위한 강의자의 강의자료를 강의자 단말기(130)로부터 입력받는 기능을 한다.

그리고 스튜디오 이미지 저장부(114)는 다수의 3D 가상 스튜디오 이미지를 생성하여 저장하기 위한 구성요소이다. 스튜디오 이미지 저장부에 저장되는 3D 가상 스튜디오 이미지는 3D 모델링 이미지 일 수도 있고, 2D 사진 이미지 일 수도 있을 것이다.

영상 합성부(115)는 상기 강의자 촬영 이미지, 상기 수강자 촬영 이미지, 상기 강의자료 및 상기 강의자로부터 선택된 3D 가상 스튜디오 이미지를 합성하여 상기 텔레프리젠테이션 영상을 생성하고, 생성된 상기 텔레프리젠테이션 영상을 상기 강의자 단말기 및 상기 수강자 단말기로 전송하는 기능을 한다. 또한, 영상 합성부(115)는 기 설정된 초기 설정 화면에 따라 상기 강의자가 선택한 3D 가상 스튜디오 이미지에 상기 3D 가상 스튜디오의 제1 영역에 상기 수강자들의 이미지를 합성하고, 상기 3D 가상 스튜디오의 제2 영역에 상기 강의 자료를 합성하며, 상기 3D 가상 스튜디오의의 제3 영역에 상기 강의자 이미지를 합성한, 초기 합성 영상을 바탕으로 상기 제1 카메라 또는 상기 강의자 단말기로부터 입력받은 상기 강의자의 입력에 따라 또는 소정 시간 경과에 따라 미리 설정된 화면 전환 기법을 통해 상기 텔레프리젠테이션 영상 내의 합성 영역의 전환 및 상기 3D 가상 스튜디오의 가상 카메라 위치의 전환을 통해 가변되는 상기 텔레프리젠테이션 영상를 합성하는 기능을 수행한다.

도 3 및 도 4는 본 발명의 일 실시예에 따른 텔레프리젠테이션 회의 시스템의 예시적인 화면 구성을 나타낸다.

먼저 도 3을 참조하면, 영상 합성부(115)는 초기 프리셋 설정 화면으로 전체 화면을 사용자가 선택한 3D 가상 스튜디오 이미지를 배경으로 하고, 우측의 제1 영역에는 다수의 수강자 촬영 이미지를 배치시키고, 좌측의 제2 영역에는 강의 자료를 배치시키고, 3D 가상 스튜디오 이미지 내의 가상 데스크 뒤에 있는 제3 영역에는 제1 카메라로부터 입력되는 상기 강의자 촬영 이미지로부터 크로마키 또는 뎁스(depth) 방식으로 상기 강의자만을 추출하거나 AR 합성을 위한 제1 카메라의 크롭, 에지 프레임 또는 투명도 처리 방식으로 가장자리 저리를 통한 합성을 통해, 상기 강의자 촬영 이미지를 변형하여 상기 텔레프리젠테이션 영상을 합성시킨다.

이러한 텔레프리젠테이션 영상은 사용자의 설정이나 제어 입력에 따라 다양하게 변형시킬 수 있다.

예를 들어, 상기 영상 합성부(115)는, 상기 제1 카메라(120)로부터 입력되는 상기 강의자 촬영 이미지로부터 상기 강의자의 제스처를 인식하고, 인식된 상기 강의자의 제스처를 바탕으로 상기 제1 영역 내지 상기 제3 영역 사이의 화면 전환, 상기 3D 가상 스튜디오 이미지를 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나로 대체하는 화면 전환, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 화면 확대 및 가상 카메라 시점 변경을 수행하여 가변되는 상기 텔레프리젠테이션 영상를 합성할 수 있다.

이때, 상기 영상 합성부(115)는, 상기 제1 카메라(120)로부터 입력되는 상기 강의자 촬영 이미지로부터 인식된 상기 강의자의 제스처가 없다고 판단하는 경우, 기 설정된 소정 시간이 경과할 때마다, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 기 설정된 화면 시점 변경 기법에 따라 화면 확대 및 가상 카메라 시점 변경을 수행한다. 이 경우 영상 합성부(115)는 상기 강의자의 자세 인식, 상기 강의자의 얼굴 방향 인식, 상기 강의자의 눈 응시 방향 인식 중 적어도 하나를 통해 상기 강의자의 제스처를 인식할 수 있을 것이다.

또한, 다른 실시예에서, 상기 영상 합성부(115)는, 상기 강의자 단말기(130)로부터 입력되는 소정의 키 입력, 마우스 입력 및 포인터 입력 중 적어도 하나의 입력을 바탕으로, 상기 제1 영역 내지 상기 제3 영역 사이의 화면 전환, 상기 3D 가상 스튜디오 이미지를 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나로 대체하는 화면 전환, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 화면 확대 및 가상 카메라 시점 변경을 수행하여 가변되는 상기 텔레프리젠테이션 영상를 합성할 수 있다.

이때, 상기 영상 합성부(115)는, 상기 강의자 단말기(130)로부터 기 설정된 소정 시간 내에 소정의 키 입력, 마우스 입력 및 포인터 입력 중 적어도 하나의 입력이 없는 경우, 기 설정된 소정 시간이 경과할 때마다, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 기 설정된 화면 시점 변경 기법에 따라 화면 확대 및 가상 카메라 시점 변경을 수행할 수 있을 것이다.

또한, 다른 실시예에서, 상기 영상 합성부(115)는 상기 제1 카메라(120) 또는 상기 강의자 단말기(130)로부터 인식되는 상기 강의자의 포인터 입력 또는 전자 펜 입력을 인식하고, 인식된 입력 내용이 상기 강의자의 필기 입력으로 판단되는 경우, 상기 필기 입력을 상기 강의 자료 영상에 합성하여 상기 텔레프리젠테이션 영상을 합성할 수 있다.

즉, 본 발명에 따른 대면 또는 비대면 강의를 위한 텔레프리젠테이션 회의 시스템에서는, 3D 가상 스튜디오 교실에 2개 이상의 영역 또는 스크린 화면이 존재하고, 한 스크린에는 기존의 강의 자료가 보여지거나 실시간 합성 화면이 보여 지게 하여 강의자가 이를 보며 포인터로 수업을 진행할 수 있게 하고, 이 화면이 자동으로 강의자가 수강자를 볼 때는 강의자의 이미지가 커지고, 강의 자료를 볼 때는 자동으로 강의 자료가 보여 지도록 하는 자동으로 장면을 합성하게 할 수 있다. 또한 본 발명의 텔레프리젠테이션 회의 시스템에서는 각 영역의 이미지를 상호 전환시키는 방식을 이용한다. 이러한 합성 화면을 클라우드 서버로 실시간 스트리밍을 하고, 이를 각 원격지 수강자 혹은 수강자가 있는 교실로 전송하여 보여 지게 하고 동시에 원격지 강의자 혹은 교실의 카메라들을 중앙 서버에서 각 원격지로 스트리밍하고, 이들을 함께 볼 수 있도록 수강자들의 영상을 재배치하여 한화면 혹은 멀티 화면에 보여 지도록 한다.

또한, 도 4를 참조하면, 4개의 가상 카메라를 배치한 경우의 자동 장면 전환 방식을 적용한 화상 회의 예시 모습을 나타낸다.

도 4를 참조하면, 본 발명에 따른 텔레프리젠테이션 회의 시스템에서는, 좀더 전문 PD들의 기능을 다양하게 제공 할 수 있게 되는데, 도 4에 도시된 바와 같이 복수의 참석자, 발표자료, 발표자가 화상 발표 회의를 하는 경우 4개의 가상 카메라 화면의 자동 전환 방식을 보여주는 방식이다. 예를 들어, 화면에 포인터를 발표자료에 가면 발표자료가 크게 되는 장면을 보이는 가상카메라로 이동되고, 다시 참석자들이 질문 등을 한다면, 질문자의 화면이 확대되는 장면으로 자동으로 가상카메라가 스위칭이 되게 한다. 이경우 발표자가 화면공유 화면과 가상 카메라 즉 강의 합성 화면 보며 참석자들이 보는 화면과 같은 화면을 보며 수업을 진행하게 된다.

또한 본 발명에서는 발표자가 발표 화면 즉 PPT 등 화면공유와 참석자 들을 2개의 화면 혹은 2개 이상의 화면에 보이고 출력 화면을 보지 않고 일반 수업을 하듯이 하게 하기 위해, 발표자료와 참석자들의 화면에 포인터가 위치하면 화상회의 서버에서 이를 자동으로 강의자료가 큰 가상 카메라, 혹은 발표 자료가 크게 되는 화면으로 이동이 되도록 하게 한다. 이를 위해 마우스나 포인터가 자유로이 발표자의 컴퓨터의 화면 구성에 해당 모니터에 움직이면 자동전환이 되도록 컴퓨터의 마우스의 위치 및 해당 모니터가 참석자인지 발표자료 인지 여부를 인식하게 하는 기능을 포함하여 자동으로 이들 장면 전환이 되도록 한다.

이때 발표자료나 참석자가 확대되게 하는 텔레프리젠테이션 영상의 가상 카메라 기능과 강의자를 확대해 보이는 장면으로 자동 스위칭 되게 하는 인공지능의 기능을 적용하며, 이를 위해 강의자의 주시 방향, 제스쳐 인식을 활용하는 방식과, 영상내 포인터의 위치 인식 방식에 따른 장면 자동 전환이 되도록 자동 장면 전환이 되게 한다.

일 실시예에서, 강의자가 마우스나 포인터의 이동이 없이 고정되고 강의자가 발표자를 응시하거나 대면 학생을 응시하는 경우 자동으로 가상 카메라 중 강의자를 크게 보이는 카메라로 스위칭이 되게 하는 기능을 제공하고, 이러한 상태가 지속되면 지루한 영상이 되지 않도록 일정시간 이상이 되면 다른 카메라 각도 혹은 와이드(Wide) 장면으로 전환이 되도록 한다. 이들 장면 상태에서 발표자가 다시 발표 자료를 응시 혹은 포인터가 움직이면 발표자료 모드로 전환이 되고, 발표자료 모드에서 일정시간 참석자를 응시하면 강의자를 크게 하는 장면이 되게 한다. 대면 혹은 비대면에서의 질의 등이 이루어 지면 참석자 스크린으로 자동으로 만들어 지게 된다.

즉 본 발명에서는 한 개의 화면에 발표자, 발표자료, 청중이 합성되어 보여 지고, 보아야 할 대상은 자동으로 크게 확대되도록 합성이 되는 텔레프리젠테이션 영상을 만들 수 있고 아울러 이를 다양한 종류, 예를 들어 강사가 확대되고 자료가 축소된 화면과, 강사가 축소되고 발표 자료가 확대된 화면을 강사의 포인터나 응시 각도에 따라 자동으로 만들어 지게 한다.

즉, 본 발명에 따른 텔레프리젠테이션 회의 시스템에서는, 강의자의 강의 장면 합성 화면 생성에 있어 VR방식의 공간상의 배치를 누구나 쉽게 할 수 있도록 하는 장면 편집기를 제공하되, 이 장면 편집기는 마우스 클릭만으로 강의자의 제1 카메라 입력을 크롭, 스케일 회전을 자유롭게 하고 이를 화면의 일정 지역에 배치할 수 있게 하며, 강의 자료 스크린의 크기, 위치 회전을 자유롭게 하는 기능을 제공한다.

아울러 강의 자료나 화면에 포인터가 작동될 때 해당 화면이 메인 화면이 되도록 장면 전환이 자동으로 이루어 진다. 이러한 장면 전환은 강의자의 응시 방향에 따라 자동으로 될 수 있도록 하는 방식이 사용되어 강의자 제스처, 응시 방향, 포인터 위치나 방향이동을 이용한 장면전환으로 설정된 키 장면의 화면이 보이게 한다. 이때 강의 자료 화면이 커지는 것과 강의자가 커지는 장면에서도 일정 시간이 될 때 가상 카메라의 장면의 변화가 줄 수 있도록 복수의 장면을 배치하고 이들이 전환이 마치 전문 PD가 일정한 시간에 카메라 스위칭이 되도록 하듯, 가상 카메라들의 장면이 자동 스위칭이 되게 하는 것이 제공 될 수 있다.

또한 복수의 강의자료, 즉 PPT, 프로그램설명 스크린, 혹은 원격지 비대면 수강자나 대면 수강자를 촬영하는 카메라들을 보여 주는 장면을 합성화면에 배치하고 이들을 포인터로 혹은 대면 수강자나 비대면 수강자가 실제 강의실에 보여지는 곳을 처다 보면 자동으로 이 화면이 합성화면에 보여 지게 하는 자동 전환의 기능을 적용한다. 즉, 교실의 비대면 원격교실 스크린들을 볼 때 해당 스크린 화면이 자동으로 가상 카메라의 장면에 자동 스위칭이 되게 하는 교실자동 스위칭 기능이 제공되어 마우스로 클릭이나 포인터를 옮기지 않아도 비대면 수강자들이 편하게 이들 장면이 보여 지게 하는 텔레프리젠테이션 회의 시스템 구성이 되게 한다.

또한, 본 발명에 다른 텔레프리젠테이션 회의 시스템에서는, 강의자가 칠판, 프로젝터, 전자칠판을 사용하여 강의 자료를 보여 주는 방식의 기존의 교실 수업에서 학습 자료 영상과, 강의자 영상을 합성하는 장면을 다양하게 구성하여 강의자의 모습이 크게 확대되거나 학습 자료가 크게 확대하여 보여 지도록 구현하되 이들 장면 전환을 정해진 2개 이상의 장면, 즉 강의자가 크게 보이는 장면, 강의 자료가 크게 보이는 장면, 더 나아가 강의자가 크게 확대된 화면을 복수개로 하거나, 강의 자료가 크게 확대된 화면을 복수개로 할 수도 있다. 또한, 자동으로 강의자 중심 화면과, 강의자료 중심화면을 너무 오래 보여지지 않게 자동으로 일정 시간에 따라 자동 장면이 마치 지미집 카메라가 움직이도록 하는 영상 합성 애니메이션이 이루어 지도록 하는 방식으로 실시간 합성을 하게 할 수 있다.

이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술 사상과 아래에 기재될 청구범위의 균등 범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.

100 : 텔레프리젠테이션 회의 시스템
110 : 서버 120: 제1 카메라
130: 강의자 단말기 140 ; 제2 카메라
150 : 수강자 단말기
111: 제1 입력부 112 : 제2 입력부
113 : 제3 입력부 114: 스튜디오 이미지 저장부
115 : 영상 합성부

Claims

강의자 촬영 이미지, 수강자 촬영 이미지, 강의 자료를 이용하여 텔레프리젠테이션 영상을 생성하여 전달하는 텔레프리젠테이션 회의 시스템을 위한 서버에 있어서,
상기 서버는
강의자를 촬영하기 위한 제1카메라 또는 상기 서버와 주고 받으며, 복수의 영상 화면을 가상 교실 그래픽 안에 합성한 합성장면의 프리젠테이션 영상을 상기 강의자에게 디스플레이 하기 위한 강의자 단말기로부터, 상기 강의자를 촬영한 강의자 촬영 이미지와 강의자료를 입력받는 제1 입력부;
한 명 이상의 수강자를 촬영하기 위한 한 대 이상의 제2 카메라 또는 상기 텔레프리젠테이션 영상을 상기 수강자들에게 디스플레이 하기 위한 한 대 이상의 수강자 단말기로부터 상기 수강자를 촬영한 수강자 촬영 이미지를 입력받는 제2 입력부;
상기 강의자료를 상기 강의자 단말기로부터 입력받는 제3 입력부;
다수의 3D 또는 2D 가상 프리젠테이션 스튜디오 이미지를 생성하여 저장하기 위한 스튜디오 이미지 저장부; 및
1) 상기 강의자 촬영 이미지, 상기 수강자 촬영 이미지, 상기 강의자료 및 상기 강의자로부터 선택된 3D 가상 스튜디오 이미지를 합성하여 상기 텔레프리젠테이션 영상을 생성하고, 생성된 상기 텔레프리젠테이션 영상을 상기 강의자 단말기 및 상기 수강자 단말기로 전송하는 기능을 수행하되,
2) 기 설정된 초기 설정 화면에 따라 상기 강의자가 선택한 3D 가상 스튜디오 이미지에 상기 3D 가상 스튜디오의 제1 영역에 상기 수강자들의 이미지를 합성하고, 상기 3D 가상 스튜디오의 제2 영역에 상기 강의 자료를 합성하고, 상기 3D 가상 스튜디오의의 제3 영역에 상기 강의자의 이미지를 합성한, 초기 합성 영상을 생성하고,
3) 생성된 상기 초기 합성 영상을 바탕으로 상기 제1 카메라 또는 상기 강의자 단말기로부터 입력받은 상기 강의자의 입력에 따라 또는 소정 시간 경과에 따라 미리 설정된 화면 전환 기법을 통해 상기 텔레프리젠테이션 영상 내의 합성 영역의 전환 및 상기 3D 가상 스튜디오의 가상 카메라 위치의 전환을 통해 가변되도록 상기 텔레프리젠테이션 영상를 합성하되,
4) 상기 제1 카메라로부터 입력되는 상기 강의자 촬영 이미지로부터 크로마키 또는 뎁스(depth) 방식으로 상기 강의자만을 추출하거나 AR 합성을 위한 제1 카메라의 크롭, 에지 프레임 및 투명도 처리 방식 중 어느 한 방식으로 가장자리 처리를 통한 합성을 통해, 상기 강의자 촬영 이미지를 변형하여 상기 텔레프리젠테이션 영상을 합성하고,
5) 상기 강의자 단말기로부터 입력되는 소정의 키 입력, 마우스 입력, 전자 펜 및 포인터 입력 중 적어도 하나의 입력을 바탕으로, 상기 제1 영역 내지 상기 제3 영역 사이의 화면 전환, 상기 3D 가상 스튜디오 이미지를 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나로 대체하는 화면 전환, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 화면 확대 및 가상 카메라 시점 변경을 수행하여 가변되는 상기 텔레프리젠테이션 영상를 합성하며,
6) 상기 강의자 단말기로부터 전자 펜 또는 포인터 입력을 감지하면, 전자 펜 또는 포인터 입력에 대응하는 전자 칠판 화면을 활성화하고, 상기 전자 칠판에 상기 전자 펜 또는 포인터 입력에 다른 필기 내용을 상기 전자 칠판에 합성하거나, 상기 강의 자료 내용에 합성하고,
7) 상기 제1 카메라 또는 상기 강의자 단말기로부터 인식되는 강의자 촬영 이미지로부터 상기 강의자의 포인터 입력 또는 전자 펜 입력을 인식하고, 인식된 입력 내용이 상기 강의자의 필기 입력으로 판단되는 경우, 상기 필기 입력을 상기 강의 자료 영상에 합성하여 상기 텔레프리젠테이션 영상을 합성하고,
8) 상기 강의자 단말기로부터 기 설정된 소정 시간 내에 소정의 키 입력, 마우스 입력 및 포인터 입력 중 적어도 하나의 입력이 없는 경우, 기 설정된 소정 시간이 경과할 때마다, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 기 설정된 화면 시점 변경 기법에 따라 화면 확대 및 가상 카메라 시점 변경을 수행하는,
영상 합성부; 를 포함하는 것을 특징으로 하는 텔레프리젠테이션 회의 시스템을 위한 서버.
제1 항에 있어서,
상기 영상 합성부는,
상기 제1 카메라로부터 입력되는 상기 강의자 촬영 이미지로부터 상기 강의자의 제스처를 인식하고, 인식된 상기 강의자의 제스처를 바탕으로 상기 제1 영역 내지 상기 제3 영역 사이의 화면 전환, 상기 3D 가상 스튜디오 이미지를 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나로 대체하는 화면 전환, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 화면 확대 및 가상 카메라 시점 변경을 수행하여 가변되는 상기 텔레프리젠테이션 영상를 합성하는 것을 특징으로 하는 텔레프리젠테이션 회의 시스템을 위한 서버.
제2 항에 있어서,
상기 영상 합성부는,
상기 제1 카메라로부터 입력되는 상기 강의자 촬영 이미지로부터 인식된 상기 강의자의 제스처가 없다고 판단하는 경우, 기 설정된 소정 시간이 경과할 때마다, 상기 3D 가상 스튜디오 이미지, 상기 강의자료, 상기 강의자 촬영 이미지 및 상기 수강자 촬영 이미지 중 어느 하나의 기 설정된 화면 시점 변경 기법에 따라 화면 확대 및 가상 카메라 시점 변경을 수행하는 것을 특징으로 하는 텔레프리젠테이션 회의 시스템을 위한 서버.
제2 항에 있어서,
상기 영상 합성부는,
상기 강의자의 자세 인식, 상기 강의자의 얼굴 방향 인식, 상기 강의자의 눈 응시 방향 인식 중 적어도 하나를 통해 상기 강의자의 제스처를 인식하고, 상기 강의자의 제스처에 응답하여 다수의 강의 자료 중 상기 인식된 제스처의 방향에 대응하는 강의 자료를 상기 텔레프리젠테이션 영상의 합성 대상으로 선택하며, 상기 선택된 강의 자료를 강의 텔레프리젠테이션 영상의 주요 화면으로 합성하는 것을 특징으로 하는 텔레프리젠테이션 회의 시스템을 위한 서버.
삭제
삭제
삭제