KR20230018641A

KR20230018641A - 음성 처리 장치를 포함하는 다중 그룹 수업 시스템

Info

Publication number: KR20230018641A
Application number: KR1020210100427A
Authority: KR
Inventors: 김정민
Original assignee: 주식회사 아모센스
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-02-07
Also published as: KR102636238B1

Abstract

화자들을 포함하는 복수의 그룹에 대한 다중 그룹 수업 시스템이 개시된다. 다중 그룹 수업 시스템은 각 그룹 내의 화자들의 음성에 응답하여, 화자들의 공간 상의 위치를 나타내는 공간 위치 정보 및 화자들 각각의 음성과 연관된 분리 음성 신호를 생성하고, 분리 음성 신호를 텍스트 데이터로 변환하도록 구성되는 음성 처리 장치, 각 그룹의 화자들을 촬영한 영상과 연관된 입력 영상 데이터, 공간 위치 정보 및 텍스트 데이터를 이용하여, 각 그룹에 대해, 화자들의 음성에 대응하는 텍스트가 화자들의 영상 내 위치에 표시된 출력 영상을 생성하도록 구성되는 영상 처리 장치 및 영상 처리 장치에 의해 생성된 각 그룹에 대한 출력 영상들을 합성하여 통합 영상을 생성하도록 구성되는 영상 합성 장치를 포함한다.

Description

음성 처리 장치를 포함하는 다중 그룹 수업 시스템{MULTIPLE GROUP CLASS SYSTEM INCLUDING SERVER AND VOICE PROCESSING DEVICE}

본 발명의 실시 예들은 음성 처리 장치를 포함하는 다중 그룹 수업 시스템에 관한 것이다.

마이크(microphone)는 음성을 인식하고, 인식된 음성을 전기적인 신호인 음성 신호로 변환하는 장치이다. 회의실이나 교실과 같이 복수의 화자(speaker)들이 위치하는 공간 내에 마이크가 배치되는 경우, 상기 마이크는 복수의 화자들로부터 나온 음성들을 모두 수신하고, 복수의 화자들의 음성에 연관된 음성 신호들을 생성한다. 따라서, 복수의 화자들이 동시에 발언하는 경우, 복수의 화자들의 음성 신호들을 분리하는 것이 필요하다. 나아가, 분리된 음성 신호들 각각이 어느 화자에 의한 것인지 파악할 필요가 있다.

본 발명이 해결하고자 하는 과제는 화자들의 음성이 각 화자들의 영상 위치에 텍스트로 나타난 출력 영상을 제공할 수 있는 다중 그룹 수업 시스템을 제공하는 것에 있다.

본 발명이 해결하고자 하는 과제는 복수의 그룹 내의 화자들의 음성이 각 화자들의 영상 위치에 텍스트로 나타난 출력 영상들을 하나의 통합 영상으로 구성하여 제공할 수 있는 다중 그룹 수업 시스템을 제공하는 것에 있다.

본 발명의 실시 예들에 따른 화자들을 포함하는 복수의 그룹에 대한 다중 그룹 수업 시스템은 각 그룹 내의 화자들의 음성에 응답하여, 화자들의 공간 상의 위치를 나타내는 공간 위치 정보 및 화자들 각각의 음성과 연관된 분리 음성 신호를 생성하고, 분리 음성 신호를 텍스트 데이터로 변환하도록 구성되는 음성 처리 장치, 각 그룹의 화자들을 촬영한 영상과 연관된 입력 영상 데이터, 공간 위치 정보 및 텍스트 데이터를 이용하여, 각 그룹에 대해, 화자들의 음성에 대응하는 텍스트가 화자들의 영상 내 위치에 표시된 출력 영상을 생성하도록 구성되는 영상 처리 장치 및 영상 처리 장치에 의해 생성된 각 그룹에 대한 출력 영상들을 합성하여 통합 영상을 생성하도록 구성되는 영상 합성 장치를 포함한다.

본 발명의 실시 예들에 따른 다중 그룹 수업 시스템은 화자들의 음성이 각 화자들의 영상 위치에 텍스트로 나타난 출력 영상을 제공할 수 있는 효과가 있다.

본 발명의 실시 예들에 따른 다중 그룹 수업 시스템은 복수의 그룹 내의 화자들의 음성이 각 화자들의 영상 위치에 텍스트로 나타난 출력 영상들을 하나의 통합 영상으로 구성하여 제공할 수 있는 효과가 있다.

도 1은 본 발명의 실시 예들에 따른 다중 그룹 수업 시스템을 나타낸다.
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치 및 영상 처리 장치와 이에 대응하는 그룹을 나타낸다.
도 3은 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다.
도 4는 본 발명의 실시 예들에 따른 영상 처리 장치를 나타낸다.
도 5 내지 도 10은 본 발명의 실시 예들에 따른 다중 그룹 수업 시스템의 작동을 설명하기 위한 도면이다.
도 11은 본 발명의 실시 예들에 따른 영상 합성 장치의 동작을 설명하기 위한 도면이다.
도 12는 본 발명의 실시 예들에 따른 영상 합성 장치의 작동을 설명하기 위한 도면이다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 설명한다.

도 1은 본 발명의 실시 예들에 따른 다중 그룹 수업 시스템을 나타낸다. 도 1을 참조하면, 다중 그룹 수업 시스템(10)은 복수의 음성 처리 장치들(100-1~100-N, N은 자연수, 이하 통칭하여 100), 복수의 영상 처리 장치들(200-1~200-N; 통칭하여 200) 및 영상 합성 장치(300)를 포함할 수 있다.

다중 그룹 수업 시스템(10)은 복수의 학습 그룹들(G1~GN)에 대한 영상 및 음성을 관리자(ADMIN)에게 제공할 수 있다. 본 발명의 실시 예들에 따르면, 다중 그룹 수업 시스템(10)은 각 그룹(G1~GN)의 화자들이 나타난 영상의 화자들 각각의 위치에, 화자들의 음성에 대응하는 텍스트(즉, 자막)이 배치된 출력 영상을 생성할 수 있고, 각 그룹들에 대한 출력 영상을 합성하여 하나의 통합 영상(CIMG)으로 구성하여, 관리자(ADMIN)에게 제공할 수 있다. 이에 따라, 관리자(ADMIN)는 각 그룹(G1~GN)의 화자들이 수업을 잘 듣고 있는지 여부를 확인할 수 있다.

다중 그룹 수업 시스템(10)은 각 그룹(G1~GN)의 화자들의 음성을 기초로 화자들의 위치 및 화자들 각각의 음성을 구별하여 식별하고, 이를 이용하여 화자들이 촬영된 영상에서의 화자들 각각의 위치에 화자들의 발언을 텍스트로 나타낼 수 있다. 예컨대, 다중 그룹 수업 시스템(10)은 제1화자의 음성과 연관된 제1분리 음성 신호를 이용하여, 영상에서의 제1화자의 위치에 제1화자의 음성을 텍스트로 나타낼 수 있다. 예컨대, 텍스트는 말풍선(speech bubble)의 형태로 나타날 수 있다.

음성 처리 장치(100)는 다수 화자들(speakers)의 음성을 처리할 수 있는 장치일 수 있다. 실시 예들에 따라, 음성 처리 장치(100)는 그룹들 각각에 포함된 화자들의 음성을 처리할 수 있다.

음성 처리 장치(100)는 화자들의 음성과 연관된 음성 신호로부터, 공간 상의 화자들 각각의 위치를 나타내는 공간 위치 정보, 화자들 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 즉, 음성 처리 장치(100)는 화자들의 음성을 화자들 각각 별로 분리하여 인식할 수 있다. 복수의 화자들이 동시에 발화하는 경우 음성에는 발화한 여러 명의 화자들의 음성이 모두 포함되어 있다. 화자들 각각의 음성을 정확히 처리하기 위해서는, 여러 명의 화자들의 음성이 모두 포함된 음성으로부터 각 화자 만의 음성을 분리하는 것이 필요하다.

본 발명의 실시 예들에 따른 음성 처리 장치(100)는, 여러 명의 화자들의 음성과 연관된 음성 신호로부터, 화자들의 음성들 각각의 음원 위치를 판단하고, 음원 위치에 기초하여 음원 분리를 수행함으로써, 음성 신호로부터 화자들 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다.

실시 예들에 따라, 음성 처리 장치(100)는 음성들의 음원 위치(즉, 화자의 위치)에 기초하여, 각 위치에 위치한 화자들의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 음성 처리 장치(100)는 음성 신호의 성분들을 위치별로 분류하고, 각 위치에 대응하는 분류된 성분들을 이용하여 각 위치에서 발화된 음성과 연관된 분리 음성 신호를 생성할 수 있다.

예컨대, 음성 처리 장치(100)는 음성 신호에 기초하여, 제1위치에서 발화한 제1화자의 음성과 연관된 제1분리 음성 신호를 생성할 수 있다. 이 때, 제1분리 음성 신호는 화자들의 음성들 중 제1화자의 음성과 가장 높은 연관도를 가지는 음성 신호일 수 있다. 다시 말하면, 제1분리 음성 신호에 포함된 음성 성분 중에서 제1화자의 음성 성분의 비중이 가장 높을 수 있다.

영상 처리 장치(200)는 각 그룹(G1~GN)의 화자들의 음성으로부터 식별된 화자들의 위치를, 화자들을 촬영한 영상 내에서의 영상 위치로 변환하고, 변환된 영상 위치에 해당하는 화자의 음성을 텍스트로 변환하여 표시할 수 있다.

영상 처리 장치(200)는 각 그룹(G1~GN)의 화자들을 촬영하는 카메라로부터 입력 영상 데이터를 수신하고, 음성 처리 장치(100)로부터 공간 위치 정보 및 분리 음성 신호를 수신하고, 입력 영상 데이터, 공간 위치 정보 및 분리 음성 신호를 이용하여, 화자들 각각의 음성이 텍스트로 나타난 출력 영상을 생성할 수 있다. 영상 처리 장치(200)는 상기 출력 영상과 연관된 출력 영상 데이터를 생성할 수 있다.

영상 합성 장치(300)는 각 영상 처리 장치(200)으로부터 수신된 출력 영상 데이터를 이용하여, 그룹들(G1~GN) 중 적어도 일부를 나타내는 통합 영상 데이터를 생성할 수 있다.

각 그룹(G1~GN)에 대응하는 영상 처리 장치(200)는 그룹들(G1~GN)에 대응되도록 복수 개 일 수 있으나, 실시 예들에 따라, 영상 처리 장치(200)는 영상 합성 장치(300)와 일체로 구현될 수 있고, 영상 합성 장치(300)는 각 그룹(G1~GN)을 촬영한 입력 영상 데이터와, 음성 처리 장치들(100)로부터 전송된 공간 위치 정보, 분리 음성 신호를 이용하여, 통합 영상 데이터를 생성할 수 있다.

도 2는 본 발명의 실시 예들에 따른 음성 처리 장치 및 영상 처리 장치와 이에 대응하는 그룹을 나타낸다. 도 2를 참조하면, 각 그룹(G1~GN)은 화자들(SPK1~SPK4)을 포함하며, 화자(SPK1~SPK4)는 각 위치(P1~P4)에 위치할 수 있다. 실시 예들에 따라, 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)는 음성을 발화(pronounce)할 수 있다.

음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성에 응답하여, 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 생성할 수 있다. 음성 처리 장치(100)는 또한, 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호로부터, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다.

또한, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호로부터, 화자들(SPK1~SPK4) 각각에 의해 발화된 음성의 음원 위치를 결정함으로써, 화자들(SPK1~SPK4) 각각의 공간 상의 위치(P1~P4)를 나타내는 공간 위치 정보를 생성할 수 있다. 즉, 공간 위치 정보는 화자(SPK1~SPK4)의 공간 좌표계 상에서의 공간 위치(position in space)를 나타낸다.

카메라(CAM)는 영상을 촬영(capture)하고, 촬영 결과에 따라 영상 데이터를 생성할 수 있다. 실시 예들에 따라, 카메라(CAM)는 정지 영상(still image) 또는 동영상(moving image)을 촬영할 수 있다. 예컨대, 카메라(CAM)는 화자들(SPK1~SPK4)이 있는 공간을 촬영할 수 있다.

실시 예들에 따라, 카메라(CAM)는 적어도 하나의 렌즈, 상기 적어도 하나의 렌즈를 통해 입력된 영상에 대응하는 영상 신호를 생성하는 이미지 센서, 상기 이미지 센서로부터 생성된 영상 신호를 처리함으로써 영상 데이터를 생성하는 영상 신호 처리기(image signal processor (ISP))를 포함할 수 있다.

실시 예들에 따라, 예컨대, 카메라(CAM)는 캠코더, 스마트폰, 태블릿, 노트북 또는 TV의 형태로 구현될 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.

카메라(CAM)는 영상 촬영에 따라 생성된 영상 데이터를 영상 처리 장치(200)로 전송할 수 있다. 영상 처리 장치(200)로 전송되는 영상 데이터는 입력 영상 데이터로서 지칭될 수 있다.

영상 처리 장치(200)는 카메라(CAM)에 의해 촬영된 영상 내에서, 화자들(SPK1~SPK4) 각각이 나타난 위치에, 화자들(SPK1~SPK4) 각각의 음성을 텍스트로 변환하여 나타낼 수 있다.

실시 예들에 따라, 영상 처리 장치(200)는 카메라(CAM)로부터 화자들(SPK1~SPK4)이 촬영된 입력 영상 데이터를 수신하고, 입력 영상 데이터와 음성 처리 장치(100)로부터 수신된 분리 음성 신호 및 공간 위치 정보를 이용하여, 입력 영상 데이터에서 화자들(SPK1~SPK4) 각각이 나타난 위치에, 화자들(SPK1~SPK4) 각각의 음성과 대응하는 텍스트가 삽입된 출력 영상 데이터를 생성할 수 있다.

영상 처리 장치(200)는 출력 영상 데이터를 영상 합성 장치(300)로 전송할 수 있다.

도 3은 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다. 도 3을 참조하면, 음성 처리 장치(100)는 마이크(110), 통신 회로(120), 프로세서(130) 및 메모리(140)를 포함할 수 있다. 실시 예들에 따라, 음성 처리 장치(100)는 스피커(150)를 더 포함할 수 있다.

마이크(110)는 발생한 음성에 응답하여 음성 신호를 생성할 수 있다. 실시 예들에 따라, 마이크(110)는 음성으로 인한 공기의 진동을 검출하고, 검출 결과에 따라 진동에 대응하는 전기적인 신호인 음성 신호를 생성할 수 있다. 예컨대, 마이크(110)는 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성을 전기적인 신호인 음성 신호들로 변환할 수 있다.

실시 예들에 따라, 마이크(110)는 복수일 수 있고, 복수의 마이크들(110) 각각은 음성에 응답하여 음성 신호를 생성할 수 있다. 이 때, 복수의 마이크들(110) 각각이 배치된 위치는 서로 다를 수 있으므로, 마이크들(110) 각각으로부터 생성된 음성 신호들은 서로 위상 차(또는 시간 지연)을 가질 수 있다.

한편, 본 명세서에서는 음성 처리 장치(100)가 마이크(110)를 포함하고, 마이크(110)를 이용하여 화자들(SPK1~SPK4)의 음성들과 연관된 음성 신호를 직접 생성하는 것으로 설명하나, 실시 예들에 따라, 마이크는 음성 처리 장치(100)와 분리되어 외부에 구성될 수 있고, 음성 처리 장치(100)는 분리되어 구성된 마이크로부터 음성 신호를 수신하여, 수신된 음성 신호를 처리 또는 이용할 수 있다. 예컨대, 음성 처리 장치(100)는 분리된 마이크로부터 수신된 음성 신호로부터 분리 음성 신호를 생성할 수 있다.

다만, 설명의 편의상, 별도의 언급이 없는 한 음성 처리 장치(100)가 마이크(110)를 포함하는 것을 가정하고 설명한다.

통신 회로(120)는 무선 통신 방식에 따라 외부 장치와 데이터를 주고받을 수 있다. 실시 예들에 따라, 통신 회로(120)는 다양한 주파수의 전파를 이용하여, 외부 장치와 데이터를 주고받을 수 있다.

프로세서(130)는 음성 처리 장치(100)의 전반적인 동작을 제어할 수 있다. 실시 예들에 따라, 프로세서(130)은 연산 처리 기능을 갖는 프로세서를 포함할 수 있다. 별도의 언급이 없는 한, 본 명세서에서 설명되는 음성 처리 장치(100)의 동작은 프로세서(130)의 동작으로 이해될 수 있다.

프로세서(130)는 마이크(110)에 의해 생성된 음성 신호들을 처리할 수 있다. 예컨대, 프로세서(130)는 마이크(110)에 의해 생성된 아날로그 타입의 음성 신호를 디지털 타입의 음성 신호로 변환하고, 변환된 디지털 타입의 음성 신호를 처리할 수 있다. 이 경우, 신호의 타입(아날로그 또는 디지털)이 바뀌는 것이므로, 본 발명의 실시 예들에 대한 설명에 있어서, 디지털 타입의 음성 신호와 아날로그 타입의 음성 신호를 혼용하여 설명하도록 한다.

실시 예들에 따라, 프로세서(130)는 마이크(110)에 의해 생성된 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다. 실시 예들에 따라, 프로세서(130)는 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 분리 음성 신호는 음성 데이터 또는 텍스트 데이터의 형태일 수 있다.

프로세서(130)는 음성 신호들 사이의 시간 지연(또는 위상 지연)을 이용하여 음성들의 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 결정할 수 있다. 예컨대, 프로세서(130)는 음성 처리 장치(100)에 대한 음원(즉, 화자들(SPK1~SPK4))의 상대적인 위치를 결정할 수 있다.

프로세서(130)는 결정된 음원 위치에 기초하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 실시 예들에 따라, 프로세서(130)는 음성 신호의 성분들을 음원 위치(P1~P4)별로 분류하고, 각 위치(P1~P4)에 대응하는 분류된 성분들을 이용하여 각 음원 위치(P1~P4)에서 발화된 음성과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 프로세서(130)는 음성들의 음원 위치에 기초하여, 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호를 생성할 수 있다.

실시 예들에 따라, 프로세서(130)는 결정된 음원 위치를 나타내는 공간 위치 정보를 분리 음성 신호와 매칭하여 저장할 수 있다. 예컨대, 프로세서(130)는 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호 및 제1화자(SPK1)의 음성의 음원 위치를 나타내는 제1공간 위치 정보를 매칭하여 메모리(140)에 저장할 수 있다. 즉, 음원의 위치가 곧 화자들(SPK1~SPK4) 각각의 위치와 대응되므로, 공간 위치 정보는 화자들(SPK1~SPK4) 각각의 위치를 식별하기 위한 화자 위치 정보로 기능할 수도 있다.

프로세서(130)는 통신 회로(120)를 이용하여, 분리 음성 신호 및 공간 위치 정보를 영상 처리 장치(200)로 전송할 수 있다. 실시 예들에 따라, 프로세서(130)는 분리 음성 신호를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터와 공간 위치 정보를 영상 처리 장치(200)로 전송할 수 있다.

본 명세서에서 설명되는 프로세서(130) 또는 음성 처리 장치(100)의 동작은 컴퓨팅 장치에 의해 실행 가능한 프로그램의 형태로 구현될 수 있다. 예컨대, 프로세서(130)는 메모리(140)에 저장된 애플리케이션을 실행하고, 애플리케이션의 실행에 따라 특정 작동들을 지시하는 명령어들에 대응하는 작동들을 수행할 수 있다.

메모리(140)는 음성 처리 장치(100)의 동작에 필요한 데이터를 저장할 수 있다. 예컨대, 메모리(140)는 비휘발성 메모리 및 휘발성 메모리 중 적어도 하나를 포함할 수 있다.

실시 예들에 따라, 메모리(140)는 화자들(SPK1~SPK4) 각각의 위치와 관련됨 공간 위치 정보 및 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 저장할 수 있다.

도 4는 본 발명의 실시 예들에 따른 영상 처리 장치를 나타낸다. 도 4를 참조하면, 영상 처리 장치(200)는 통신 회로(210), 프로세서(220) 및 메모리(230)를 포함할 수 있다.

통신 회로(210)는 무선 통신 방식에 따라 외부 장치와 데이터를 주고받을 수 있다.

실시 예들에 따라, 통신 회로(210)는 카메라(CAM)로부터 입력 영상 데이터를 수신할 수 있고, 음성 처리 장치(100)로부터 텍스트 데이터와 각 화자들(SPK1~SPK4)의 위치를 나타내는 공간 위치 정보를 수신할 수 있다.

프로세서(220)는 영상 처리 장치(200)의 전반적인 동작을 제어할 수 있다. 실시 예들에 따라, 프로세서(220)은 연산 처리 기능을 갖는 프로세서를 포함할 수 있다. 별도의 언급이 없는 한, 본 명세서에서 설명되는 영상 처리 장치(200)의 동작은 프로세서(220)의 동작으로 이해될 수 있다.

프로세서(220)는 화자(SPK1~SPK4)의 공간 위치를, 카메라(CAM)에 의해 촬영된 영상 내에서의 화자(SPK1~SPK4)의 영상 위치(position on image)로 변환할 수 있다. 실시 예들에 따라, 프로세서(220)는 화자(SPK1~SPK4)의 공간 좌표계 상의 공간 위치를, 카메라(CAM)에 의해 촬영된 영상의 영상 좌표계로 투영시킴으로써, 영상 위치로 변환할 수 있다.

프로세서(220)는 변환 파라미터를 이용하여, 화자(SPK1~SPK4)의 공간 좌표계 상의 공간 위치를 나타내는 공간 위치 정보를, 카메라(CAM)에 의해 촬영된 영상의 영상 좌표계 상의 영상 위치를 나타내는 영상 위치 정보로 변환할 수 있다.

변환 파라미터는 공간 상의 공간 좌표계를 카메라(CAM)에 의해 촬영된 영상 내에서의 영상 좌표계로 투영시키기 위한 파라미터이다. 즉, 변환 파라미터는 공간 내의 특정 물체의 위치와, 상기 물체가 카메라(CAM)에 의해 촬영됨으로써 생성된 영상 내에서의 특정 물체의 위치 사이의 관계를 나타내는 파라미터이다.

예컨대, 메모리(230)는 카메라(CAM)의 공간 좌표계 상에서의 위치, 카메라(CAM)의 촬영 방향(또는 각도), 카메라(CAM)의 초점 거리, 카메라(CAM)의 주점(principal point), 카메라(CAM)의 비대칭 계수 각각에 대응하는 변환 파라미터를 저장할 수 있다.

프로세서(220)는 입력 영상 데이터의 영상 내에서의 화자(SPK1~SPK4)의 영상 위치와 대응하는 위치에, 대응하는 화자(SPK1~SPK4)의 음성과 연관된 콘텐츠(예컨대, 텍스트)를 삽입함으로써 출력 영상 데이터를 생성할 수 있다. 다시 말하면, 프로세서(220)는 입력 영상 데이터의 영상 내에서의 화자(SPK1~SPK4)의 영상 위치와 대응하는 위치에, 대응하는 화자(SPK1~SPK4)의 음성과 연관된 콘텐츠를 표시하기 위한 출력 영상 데이터를 생성할 수 있다.

예컨대, 프로세서(220)는 입력 영상 데이터에 출력 음성 데이터와 연관된 콘텐츠를 영상 위치 정보에 의해 지시되는 영상 위치에 따라 삽입함으로써 출력 영상 데이터를 생성할 수 있다. 예컨대, 영상 위치에 따라 입력 영상 데이터와 콘텐츠를 합성할 수 있다.

프로세서(220)는 통신 회로(210)를 이용하여, 출력 영상 데이터를 영상 합성 장치(300)로 전송할 수 있다.

도 5 내지 도 10은 본 발명의 실시 예들에 따른 다중 그룹 수업 시스템의 작동을 설명하기 위한 도면이다. 설명의 편의상, 음성 처리 장치(100) 및 영상 처리 장치(200)는 도시 생략하였다.

도 5를 참조하면, 화자들(SPK1~SPK4) 및 카메라(CAM)의 공간 좌표계 상에서의 공간 위치(P1, P2, P3, P4, C)가 나타나 있다. 도 5에 나타난 공간 위치(P1, P2, P3, P4, C)는 기준점(O)을 기준으로 한 위치이고, 이 때, 기준점(O)은 음성 처리 장치(100)의 위치를 나타낼 수 있다. 예컨대, 도 3에 나타난 기준점(O)은 음성 처리 장치(100)의 마이크(110)의 위치를 나타낼 수 있다.

도 6을 참조하면, 카메라(CAM)에 의해 촬영된 화자들(SPK1~SPK4)의 촬영 영상(IMG)이 나타나 있다. 촬영 영상(IMG)에는 화자들(SPK1~SPK4)이 표시될 수 있다. 이 때, 공간 상의 기준이 되는 공간 좌표계와 영상 상의 기준이 되는 영상 좌표계가 상이하기 때문에, 영상 내에서의 화자들(SPK1~SPK4)의 각 위치(즉, 영상 위치)는 공간 내에서의 위치(즉, 공간 위치)와는 상이하게 된다. 예컨대, 제1화자(SPK1)의 제1공간 위치(P1)와 제1영상 위치(Q1)는 다를 수 있다. 따라서, 영상 내에서의 화자들(SPK1~SPK4)의 영상 위치를 계산하기 위해 화자들(SPK1~SPK4)의 공간 위치를 적절히 변환하는 것이 필요하다.

본 발명의 실시 예들에 따른 영상 처리 장치(200)는 화자(SPK1~SPK4)의 공간 위치들을 영상(IMG) 상에서의 화자들(SPK1~SPK4)의 영상 위치로 변환하고, 화자들(SPK1~SPK4)의 영상 위치와 대응하는 위치에 화자(SPK1~SPK4)의 음성과 연관된 텍스트를 표시하기 위한 출력 영상 데이터를 생성할 수 있다.

도 7을 참조하면, 제1화자(SPK1)가 음성 "◎◎◎"을 발화하고, 제2화자(SPK2)가 음성 "☆☆☆"을 발화한다.

음성 처리 장치(100)는 화자들(SPK1 및 SPK2)의 음성과 연관된 음성 신호를 생성할 수 있다. 또한, 음성 처리 장치(100)는 음성 신호로부터 제1화자(SPK1)의 제1공간 위치(P1)를 나타내는 제1공간 위치 정보 및 제2화자(SPK2)의 제2공간 위치(P2)를 나타내는 제2공간 위치 정보를 생성할 수 있다. 한편, 비록 도 7에는 공간 위치(P1 및 P2)가 하나의 점의 형태로 도시되어 있으나, 실시 예들에 따라 공간 위치(P1 및 P2)는 하나 또는 그 이상의 점들의 집합, 즉, 일정 범위의 영역을 의미할 수 있다.

또한, 음성 처리 장치(100)는 공간 위치 정보를 이용하여, 음성 신호로부터 제1공간 위치(P1)에서 발화된 음성(즉, 제1화자(SPK1)의 음성) "◎◎◎"과 연관된 제1분리 음성 신호 및 제2공간 위치(P2)에서 발화된 음성(즉, 제2화자(SPK2)의 음성) "☆☆☆"과 연관된 제2분리 음성 신호를 생성할 수 있다.

음성 처리 장치(100)는 분리 음성 신호들을 텍스트 데이터로 변환하고, 변환된 텍스트 데이터 및 화자들(SPK1~SPK4)의 공간 위치 정보를 영상 처리 장치(200)로 전송할 수 있다.

도 8을 참조하면, 영상 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 공간 위치를 나타내는 공간 위치 정보를, 카메라(CAM)로 촬영된 영상(IMG) 상에서의 화자들(SPK1~SPK4)의 위치를 나타내는 영상 위치 정보로 변환할 수 있다. 실시 예들에 따라, 영상 처리 장치(200)는 저장된 변환 파라미터를 이용하여, 공간 위치 정보를 영상 위치 정보로 변환할 수 있다.

영상 처리 장치(200)는 공간 좌표계(SCS) 상의 공간 위치를 나타내는 공간 위치 정보를 영상 좌표계(ICS) 상의 영상 위치를 나타내는 영상 위치 정보로 변환할 수 있다.

영상 처리 장치(200)는 공간 상의 공간 좌표계(SCS) 상의 공간 위치를 영상(IMG) 상의 영상 좌표계(ICS) 상의 영상 위치로 변환할 수 있다. 예컨대, 영상 처리 장치(200)는 공간 좌표계(SCS) 상의 제1공간 위치(P(X1,Y1,Z1))를 영상 좌표계(ICS) 상의 제1영상 위치(Q1(x1,y1))로 변환할 수 있다.

실시 예들에 따라, 영상 처리 장치(200)는 공간 좌표계(SCS) 상의 제1공간 위치(P(X1,Y1,Z1))를 카메라 좌표계(CCS) 상의 제1카메라 위치(R1)로 변환하고, 카메라 좌표계(CCS) 상의 제1카메라 위치(R1)를 영상 좌표계(ICS) 상의 제1영상 위치(Q1(x1,y1))로 변환할 수 있다.

예컨대, 영상 처리 장치(200)는 카메라(CAM)의 공간 좌표계 상에서의 위치 및 카메라(CAM)의 촬영 방향(또는 각도) 중 적어도 하나에 의해 결정되는 외부 변환 파라미터에 기초하여, 공간 좌표계(SCS) 상의 제1공간 위치(P(X1,Y1,Z1))를 카메라 좌표계(CCS) 상의 제1카메라 위치(R1)로 변환할 수 있다.

예컨대, 영상 처리 장치(200)는 카메라(CAM)의 초점 거리, 카메라(CAM)의 주점(principal point) 및 카메라(CAM)의 비대칭 계수 중 적어도 하나에 의해 결정되는 내부 변환 파라미터에 기초하여, 카메라 좌표계(CCS) 상의 제1카메라 위치(R1)를 영상 좌표계(ICS) 상의 제1영상 위치(Q1(x1,y1))로 변환할 수 있다.

본 발명의 실시 예들에 따르면, 영상 처리 장치(200)는 화자들(SPK1~SPK4)의 공간 위치를 영상(IMG) 상에서의 영상 위치로 변환할 수 있다.

도 9를 참조하면, 영상 처리 장치(200)는 카메라(CAM)로부터 전송된 입력 영상 데이터를 이용하여, 입력 영상 데이터에 대응하는 영상(IMG)에 화자(SPK1~SPK4)의 음성과 연관된 텍스트가 표시된 출력 영상(IMG')을 생성할 수 있다. 실시 예들에 따라, 영상 처리 장치(200)는 카메라(CAM)에 의해 촬영된 입력 영상에, 영상 위치 정보에 대응하는 영상 위치에 화자(SPK1~SPK4)의 음성과 연관된 텍스트를 삽입함으로써 출력 영상(IMG')과 연관된 출력 영상 데이터를 생성할 수 있다.

본 발명의 실시 예들에 따르면, 영상 처리 장치(200)는 카메라(CAM)에 의해 촬영된 입력 영상에, 화자(SPK1~SPK4)의 음성과 연관된 텍스트를 영상(IMG) 내에서의 화자(SPK1~SPK4)의 위치(즉, 영상 위치)에 삽입함으로써 출력 영상 데이터를 생성할 수 있다. 이에 따라, 관리자(ADMIM)는 영상에 표시된 텍스트의 위치를 통해, 해당 텍스트에 대응하는 음성을 발화한 화자가 누구인지 쉽게 식별할 수 있는 효과가 있다.

또한, 예컨대, 제2화자(SPK2)의 적어도 일부가 영상 표시 영역의 우측에 위치하는 경우, 영상 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2텍스트(TXT2)와 함께 제2화자(SPK2)를 식별하기 위한 텍스트를 입력 영상에 삽입함으로써 출력 영상 데이터를 생성할 수 있다. 제2화자(SPK2)가 영상에 표시되지 않는 경우, 제2텍스트(TXT2)의 표시 위치로는 제2화자(SPK2)가 누구인지 식별할 수 없으므로, 제2텍스트(TXT2)와 함께 제2화자(SPK2)를 식별하기 위한 텍스트(예컨대, 이름)을 같이 표시한다.

영상 처리 장치(200)는 입력 영상 데이터에 대응하는 입력 영상(IMG)의 제1화자(SPK1)의 제1영상 위치(Q1)와 대응하는 위치에 제1화자(SPK1)의 음성 "◎◎◎"과 연관된 제1텍스트(TXT1)를 삽입하고, 제2화자(SPK2)의 제2영상 위치(Q2)와 대응하는 위치에 제2화자(SPK2)의 음성"☆☆☆"과 연관된 제2텍스트(TXT2)를 삽입함으로써 출력 영상 데이터를 생성할 수 있다. 예컨대, 영상 처리 장치(200)는 제1영상 위치 정보에 대응하는 제1영상 위치와 일정 오프셋을 가지는 위치에 제1텍스트(TXT1)를 삽입할 수 있다.

영상 처리 장치(200)는 제1영상 위치(Q1)를 나타내는 제1영상 위치 정보에 기초하여, 제1화자(SPK1)의 음성 "◎◎◎"과 연관된 제1텍스트(TXT1)가 표시될 영역의 크기, 위치, 형태 및 모양을 결정하기 위한 제1설정 데이터를 생성할 수 있다.

영상 처리 장치(200)는 생성된 출력 영상 데이터를 저장할 수 있고, 영상 데이터 출력 회로(250)는 영상 처리 장치(200)의 제어에 의해 출력 영상 데이터를 디스플레이 장치(400)로 전송할 수 있다.

디스플레이 장치(400)는 출력 영상 데이터를 이용하여 영상을 표시할 수 있고, 출력 영상 데이터에 의해 표시되는 영상에서는, 제1화자(SPK1)의 제1영상 위치(Q1)와 대응하는 위치에 제1화자(SPK1)의 제1화자(SPK1)의 음성 "◎◎◎"과 연관된 제1텍스트(TXT1)가 표시되고, 제2화자(SPK2)의 제2영상 위치(Q2)와 대응하는 위치에 제2화자(SPK2)의 음성"☆☆☆"과 연관된 제2텍스트(TXT2)가 표시될 수 있다.

실시 예들에 따라, 영상 처리 장치(200)는 텍스트(TXT1 및 TXT2)가 말풍선(speech bubble)의 형태로 나타난 출력 영상 데이터를 생성할 수 있다. 예컨대, 영상 처리 장치(200)는 각 화자(SPK1 및 SPK2)의 영상(IMG) 내에서의 영상 위치(Q1 및 Q2)에 기초하여 말풍선의 크기, 말풍선이 표시될 위치, 말풍선의 방향 등을 결정할 수 있다.

본 발명의 실시 예들에 따른 영상 처리 장치(200)는 화자들(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 이용하여 화자들(SPK1~SPK4) 각각의 공간 위치를 결정하고, 공간 위치에 기초하여 영상 내의 영상 위치를 결정하고, 화자들(SPK1~SPK4) 각각의 음성과 연관된 텍스트를 화자들(SPK1~SPK4)의 영상 내의 영상 위치와 대응하는 위치에 표시할 수 있다.

도 10은 본 발명의 실시 예들에 따른 다중 그룹 수업 시스템의 작동을 설명하기 위한 도면이다. 도 10을 참조하면, 영상 처리 장치(200)는 화자(SPK1~SPK4)의 영상 위치가 영상(IMG')이 표시되는 영역(이하, “영상 표시 영역”이라 함)의 밖에 위치하더라도, 화자(SPK1~SPK4)의 음성과 연관된 텍스트(TXT1 및 TXT2)를 입력 영상에 삽입함으로써 출력 영상 데이터를 생성할 수 있다.

도 10을 참조하면, 제2화자(SPK2)는 영상(IMG 또는 IMG')에 표시되지 않더라도, 영상 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2텍스트(TXT2)를 입력 영상에 삽입하여 출력 영상(IMG')을 생성할 수 있다.

영상 처리 장치(200)는 입력 영상 데이터와 제2화자(SPK2)의 제2영상 위치(Q2)를 이용하여, 제2화자(SPK2)의 적어도 일부가 영상 표시 영역의 외부(예컨대, 우측)에 표시되는지 여부를 판단할 수 있다. 실시 예들에 따라, 영상 처리 장치(200)는 제2화자(SPK2)의 제2영상 위치(Q2)를 나타내는 제2영상 위치 데이터와 입력 영상 데이터를 이용하여, 제2영상 위치(Q2)가 영상 표시 영역의 외부(예컨대, 우측)에 존재하는지 여부를 판단할 수 있다.

제2화자(SPK2)의 적어도 일부가 영상 표시 영역의 외부(예컨대, 우측)에 표시되는 경우, 영상 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2텍스트(TXT2)를 입력 영상에 삽입함으로써 출력 영상 데이터를 생성할 수 있다. 예컨대, 영상 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2텍스트(TXT2)를 영상 표시 영역 중 제2영상 위치(Q2)와 인접한 위치에 삽입할 수 있다. 예컨대, 제2화자(SPK2)의 적어도 일부가 영상 표시 영역의 우측에 위치하는 경우, 영상 처리 장치(200)는 제2텍스트(TXT2)를 영상 표시 영역의 우측편에 삽입할 수 있다.

제1화자(SPK1)의 제1영상 위치(Q1)가 영상 표시 영역의 내부에 위치하고, 제2화자(SPK2)의 제2영상 위치(Q2)가 영상 표시 영역의 외부에 위치하는 경우, 영상 처리 장치(200)는 입력 영상에 제1화자(SPK1)의 제1화자(SPK1)의 음성 "◎◎◎"과 연관된 제1텍스트(TXT1)를 제1표시 타입으로 삽입할 수 있고, 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2텍스트(TXT2)를 제2표시 타입으로 삽입할 수 있다. 실시 예들에 따라, 제1표시 타입과 제2표시 타입은 다를 수 있다. 예컨대, 도 10에 도시된 바와 같이, 제1텍스트(TXT1)는 실선의 말풍선에 표시될 수 있는 반면, 제2텍스트(TXT2)는 파선의 말풍선에 표시될 수 있다.

도 11은 본 발명의 실시 예들에 따른 영상 합성 장치의 동작을 설명하기 위한 도면이다. 도 11을 참조하면, 영상 합성 장치(300)는 그룹들(G1~G4)의 출력 영상들(IMG1'~IMG4')를 이용하여 통합 영상(CIMG)을 생성할 수 있다. 실시 예들에 따라, 영상 합성 장치(300)는 각 그룹(G1~G4)으로부터 출력 영상 데이터를 수신하고, 출력 영상 데이터를 이용하여, 그룹들(G1~G4)을 나타내는 통합 영상(CIMG)과 연관된 통합 영상 데이터를 생성할 수 있다.

한편, 실시 예들에 따라, 영상 합성 장치(300)는 영상 처리 장치(200)와 일체로 구현될 수 있다. 즉, 실시 예들에 따라 영상 합성 장치(300)는 도 1 내지 도 10을 참조하여 설명한 영상 처리 장치(200)의 기능을 수행할 수 있다. 이 경우, 영상 합성 장치(300)가 각 그룹(G1~GN)에 대한 영상 데이터, 각 그룹(G1~GN)의 화자들의 분리 음성 데이터 및 공간 위치 정보를 이용하여, 각 그룹(G1~GN)에 대응하는 출력 영상 데이터를 생성할 수 있다.

예컨대, 영상 합성 장치(300)는 각 그룹(G1~GN)에 대응하는 변환 파라미터를 이용하여, 각 그룹(G1~GN) 내의 화자들의 공간 위치를 영상 위치로 변환하고, 변환된 영상 위치를 이용하여 각 그룹(G1~GN)의 화자들의 발언이 텍스트로 나타난 출력 영상들을 생성하고, 출력 영상들을 합성하여 하나의 영상으로 구성할 수 있다.

도 12는 본 발명의 실시 예들에 따른 영상 합성 장치의 작동을 설명하기 위한 도면이다. 도 12를 참조하면, 영상 합성 장치(300)는 각 그룹(G1~GN)에 대한 영상 데이터, 화자들의 분리 음성 데이터 및 공간 위치 정보를 이용하여, 각 그룹(G1~GN) 중에서 영상 표시 영역의 밖에서 발화하는 화자들이 존재하는 그룹을 식별할 수 있다.

실시 예들에 따라, 영상 합성 장치(300)는 각 그룹(G1~GN)의 화자들에 대한 공간 위치 정보를 영상 위치 정보로 변환하고, 영상 위치 정보에 기초하여 각 그룹(G1~GN) 중에서 영상 표시 영역의 밖에서 발화하는 화자들이 존재하는 그룹을 식별할 수 있다.

실시 예들에 따라, 영상 합성 장치(300)는 그룹(G1~GN) 중에서 영상 표시 영역의 밖에서 발화하는 화자들이 존재하는 그룹을 식별하고, 영상 표시 영역의 밖에서 발화하는 화자들이 존재하는 그룹의 출력 영상을, 영상 표시 영역의 밖에서 발화하는 화자들이 존재하지 않는 그룹의 출력 영상과 구별되도록(예컨대, 시각적 또는 청각적으로), 통합 영상(CIMG) 상에 나타낼 수 있다. 예컨대, 도 12에 도시된 바와 같이, 영상 합성 장치(300)는 그룹들(G1~G4) 중에서 영상 표시 영역의 밖에서 발화하는 화자들이 존재하는 그룹(G2 및 G3)을 식별하고, 이들 식별된 그룹들(G2 및 G3)을 나머지 그룹(G1 및 G4)와 구별되도록 통합 영상(CIMG) 상에서 표시할 수 있다. 예컨대, 이들 식별된 그룹들(G2 및 G3)은 통합 영상(CIMG) 상에서 테두리가 더 굵게 표시될 수 있으나, 이에 한정되는 것은 아니다.

이상과 같이 실시 예들이 비록 한정된 실시 예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

10: 다중 그룹 수업 시스템
100-1~100-N: 음성 처리 장치
200-1~200-N: 영상 처리 장치
300: 영상 합성 장치
CIMG: 통합 출력 영상

Claims

화자들을 포함하는 복수의 그룹에 대한 다중 그룹 수업 시스템에 있어서,
각 그룹 내의 화자들의 음성에 응답하여, 화자들의 공간 상의 위치를 나타내는 공간 위치 정보 및 화자들 각각의 음성과 연관된 분리 음성 신호를 생성하고, 상기 분리 음성 신호를 텍스트 데이터로 변환하도록 구성되는 음성 처리 장치;
각 그룹의 화자들을 촬영한 영상과 연관된 입력 영상 데이터, 상기 공간 위치 정보 및 상기 텍스트 데이터를 이용하여, 각 그룹에 대해, 상기 화자들의 음성에 대응하는 텍스트가 상기 화자들의 영상 내 위치에 표시된 출력 영상을 생성하도록 구성되는 영상 처리 장치; 및
영상 처리 장치에 의해 생성된 각 그룹에 대한 출력 영상들을 합성하여 통합 영상을 생성하도록 구성되는 영상 합성 장치를 포함하는,
다중 그룹 수업 시스템.
제1항에 있어서, 상기 음성 처리 장치는,
복수의 마이크로폰들을 포함하고,
상기 복수의 마이크로폰들 사이의 거리 및 상기 화자들의 음성이 상기 복수의 마이크로폰에 의해 수신되는 시점에 기초하여, 화자들의 공간 상의 위치를 결정하고, 상기 공간 위치 정보를 생성하는,
다중 그룹 수업 시스템.
제1항에 있어서, 상기 음성 처리 장치는,
상기 공간 위치 정보에 따라, 상기 화자들의 음성을 음원 위치에 따라 분리함으로써 상기 화자들 각각의 음성과 연관된 분리 음성 신호를 생성하는,
다중 그룹 수업 시스템.
제1항에 있어서, 상기 영상 처리 장치는,
공간 좌표계를 상기 영상 상의 영상 좌표계로 투영시키기 위한 변환 파라미터를 저장하고,
상기 변환 파라미터 및 상기 공간 위치 정보를 이용하여, 상기 화자들의 영상 내에서의 위치를 나타내는 영상 위치 정보를 생성하고,
상기 입력 영상 데이터, 상기 영상 위치 정보 및 상기 텍스트 데이터를 이용하여, 상기 출력 영상을 생성하는,
다중 그룹 수업 시스템.
제4항에 있어서, 상기 변환 파라미터는,
상기 공간 좌표계를 상기 영상을 촬영한 카메라 상의 카메라 좌표계로 변환하기 위한 외부 변환 파라미터; 및
상기 카메라 좌표계를 상기 영상 좌표계로 변환하기 위한 내부 변환 파라미터에 기초하여 결정된 파라미터인,
다중 그룹 수업 시스템.
제5항에 있어서,
상기 내부 변환 파라미터는 카메라의 상기 공간 좌표계 상에서의 위치 및 상기 카메라의 촬영 방향 중 적어도 하나에 기초하여 결정되고,
상기 외부 변환 파라미터는 상기 카메라의 초점 거리, 상기 카메라의 주점(principal point) 및 상기 카메라의 비대칭 계수 중 적어도 하나에 기초하여 결정되는,
다중 그룹 수업 시스템.
제4항에 있어서, 상기 영상 처리 장치는,
상기 영상 위치 정보를 이용하여, 상기 텍스트가 표시될 영역의 위치, 크기 및 형태를 결정하기 위한 설정 데이터를 생성하고,
상기 설정 데이터에 따라, 상기 텍스트를 상기 입력 영상에 삽입함으로써 상기 출력 영상을 생성하는,
다중 그룹 수업 시스템.
제1항에 있어서, 상기 영상 처리 장치는,
상기 공간 위치 정보에 대응하는 각 화자의 공간 위치가 상기 영상이 표시되는 영상 표시 영역 내에 위치하는지 여부를 판단하고,
각 화자의 공간 위치가 상기 영상 표시 영역의 내부에 위치할 때, 상기 입력 영상에 상기 각 화자의 음성과 연관된 텍스트를 제1표시 타입으로 삽입하고,
각 화자의 공간 위치가 상기 영상 표시 영역의 외부에 위치할 때, 상기 입력 영상에 상기 각 화자의 음성과 연관된 텍스트를 상기 제1표시 타입과 다른 제2표시 타입으로 삽입하는,
다중 그룹 수업 시스템.
제1항에 있어서, 상기 영상 처리 장치는,
각 화자의 영상 위치 정보에 기초하여, 복수의 그룹들 중에서 상기 영상이 표시되는 영상 표시 영역 외부에서 발화하는 화자들이 있는 제1그룹을 식별하고,
상기 제1그룹의 출력 영상을, 상기 복수의 그룹들 중 상기 제1그룹을 제외한 제2그룹의 출력 영상과 상기 통합 영상에서 시각적으로 구별되도록, 상기 통합 영상을 생성하는,
다중 그룹 수업 시스템.