KR101858895B1 - 영상 회의 서비스 제공 방법 및 이를 수행하는 장치들 - Google Patents

영상 회의 서비스 제공 방법 및 이를 수행하는 장치들 Download PDF

Info

Publication number
KR101858895B1
KR101858895B1 KR1020170030782A KR20170030782A KR101858895B1 KR 101858895 B1 KR101858895 B1 KR 101858895B1 KR 1020170030782 A KR1020170030782 A KR 1020170030782A KR 20170030782 A KR20170030782 A KR 20170030782A KR 101858895 B1 KR101858895 B1 KR 101858895B1
Authority
KR
South Korea
Prior art keywords
video
audio signal
video signal
signal
contribution
Prior art date
Application number
KR1020170030782A
Other languages
English (en)
Inventor
강진아
윤현진
지덕구
장종현
한미경
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170030782A priority Critical patent/KR101858895B1/ko
Priority to US15/917,313 priority patent/US20180262716A1/en
Application granted granted Critical
Publication of KR101858895B1 publication Critical patent/KR101858895B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • G06K9/00221
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/005
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems

Abstract

영상 회의 서비스 제공 방법 및 이를 수행하는 장치들이 개시된다. 일 실시예에 따른 영상 회의 서비스 제공 방법은 영상 회의에 참여하는 복수의 참여자 장치들 각각의 제1 비디오 신호 및 오디오 신호에 기초하여 상기 복수의 참여자 장치들의 영상 회의에 대한 기여도를 결정하는 단계와 상기 기여도에 기초하여 상기 복수의 참여자 장치들에게 전송하는 제2 비디오 신호 및 오디오 신호를 생성하는 단계를 포함한다.

Description

영상 회의 서비스 제공 방법 및 이를 수행하는 장치들{METHOD OF PROVIDING VIDEO CONFERENCING SERVICE AND APPARATUSES PERFORMING THE SAME}
아래 실시예들은 영상 회의 서비스 제공 방법 및 이를 수행하는 장치들에 관한 것이다.
차세대 영상 회의 서비스는 서로 다른 곳에 있는 회의 참여자들이 같은 공간에 있는 것과 같은 느낌을 가질 수 있도록 연출하는 것이다.
비디오 및 오디오의 품질은 실감 효과에 큰 영향을 미친다. 이에, 비디오 및 오디오의 품질은 UHD(ultra-high definition) 및 SWB(super wideband) 급이다.
최근 영상 회의 서비스는 원격교육과 같이 참여자수가 많은 서비스에도 적용된다. 이에, 회의 참여자들의 단말들은 초고품질의 비디오 및 오디오 데이터를 영상 회의 서버에 전송한다. 또한, 영상 회의 서버는 전송된 비디오 및 오디오 데이터를 가공, 믹싱하여 회의 참여자들의 단말에 전송한다.
실시예들은 영상 회의에 참여하는 복수의 참여자들 각각의 비디오 신호 및 오디오 신호를 이용하여 복수의 참여자들의 영상 회의에 대한 기여도를 결정하고, 기여도에 기초하여 상기 복수의 참여자들에게 전송하기 위한 비디오 신호 및 오디오 신호를 생성하는 기술을 제공할 수 있다.
실시예들은 영상 회의에 참여하는 참여자의 기여도에 따라 비디오 신호 및 오디오 신호의 믹싱 순서나 배열, 믹싱 크기 등을 다르게 제공함으로써 복수의 참여자들 각각이 느끼는 몰입감과 현장감을 높이는 영상 회의 기술을 제공할 수 있다.
일 실시예에 따른 영상 회의 서비스 제공 방법은 영상 회의에 참여하는 복수의 참여자 장치들 각각의 제1 비디오 신호 및 오디오 신호에 기초하여 상기 복수의 참여자 장치들의 영상 회의에 대한 기여도를 결정하는 단계와 상기 기여도에 기초하여 상기 복수의 참여자 장치들에게 전송하는 제2 비디오 신호 및 오디오 신호를 생성하는 단계를 포함한다.
상기 결정하는 단계는 상기 제1 비디오 신호 및 오디오 신호를 분석하는 단계와 상기 제1 비디오 신호 및 오디오 신호의 특징값들을 추정하는 단계와 상기 특징값들에 기초하여 상기 기여도를 결정하는 단계를 포함할 수 있다.
상기 분석하는 단계는 상기 제1 비디오 신호 및 오디오 신호의 비트스트림을 추출하여 복호화하는 단계를 포함할 수 있다.
상기 제1 비디오 신호의 특징값들은 얼굴의 수, 얼굴 별 크기, 얼굴 별 위치, 얼굴 별 시선, 얼굴 별 입 모양 중에서 적어도 하나를 포함할 수 있다.
상기 제1 오디오 신호의 특징값들은 음성의 존재 여부, 음성의 크기 및 음성의 연속 시간 중에서 적어도 하나를 포함할 수 있다.
상기 생성하는 단계는 상기 영상 회의에 참여하는 상기 복수의 참여자 장치들 각각의 제1 비디오 신호 및 오디오 신호를 믹싱하여 상기 제2 비디오 신호 및 오디오 신호를 생성하는 단계를 포함할 수 있다.
상기 생성하는 단계는 상기 기여도에 기초하여 상기 제1 비디오 신호 및 오디오 신호에 대한 믹싱 품질 및 믹싱 방법 중에서 적어도 하나를 결정하는 단계를 더 포함할 수 있다.
상기 제1 비디오 신호에 대한 믹싱 방법은 영상 배치 순서 및 영상 배치 크기 중에서 적어도 하나를 제어할 수 있다.
상기 제1 오디오 신호에 대한 믹싱 방법은 음성 차단 여부 및 음량의 레벨 중에서 적어도 하나를 제어할 수 있다.
상기 생성하는 단계는 상기 제2 비디오 신호 및 오디오 신호를 부호화 및 패킷화하는 단계를 더 포함할 수 있다.
일 실시예에 따른 영상 회의 서비스 제공 장치는 영상 회의에 참여하는 복수의 참여자 장치들 각각의 제1 비디오 신호 및 오디오 신호를 수신하는 송수신기와 상기 영상 회의에 참여하는 상기 복수의 참여자 장치들 각각의 제1 비디오 신호 및 오디오 신호에 기초하여 상기 복수의 참여자 장치들의 영상 회의에 대한 기여도를 결정하고, 상기 기여도에 기초하여 상기 복수의 참여자 장치들에게 전송하는 제2 비디오 신호 및 오디오 신호를 생성하는 컨트롤러를 포함한다.
상기 컨트롤러는 상기 제1 비디오 신호 및 오디오 신호를 분석하고, 상기 제1 비디오 신호 및 오디오 신호의 특징값들을 추정하는 분석부와 상기 특징값들에 기초하여 상기 기여도를 결정하는 결정부를 포함할 수 있다.
상기 분석부는 상기 제1 비디오 신호 및 오디오 신호의 비트스트림을 추출하여 복호화할 수 있다.
상기 제1 비디오 신호의 특징값들은 얼굴의 수, 얼굴 별 크기, 얼굴 별 위치, 얼굴 별 시선, 얼굴 별 입 모양 중에서 적어도 하나를 포함할 수 있다.
상기 제1 오디오 신호의 특징값들은 음성의 존재 여부, 음성의 크기 및 음성의 연속 시간 중에서 적어도 하나를 포함할 수 있다.
상기 컨트롤러는 상기 영상 회의에 참여하는 상기 복수의 참여자 장치들 각각의 제1 비디오 신호 및 오디오 신호를 믹싱하는 믹싱부와 상기 제2 비디오 신호 및 오디오 신호를 생성하는 생성부를 더 포함할 수 있다.
상기 믹싱부는 상기 기여도에 기초하여 상기 제1 비디오 신호 및 오디오 신호에 대한 믹싱 품질 및 믹싱 방법 중에서 적어도 하나를 결정할 수 있다.
상기 제1 비디오 신호에 대한 믹싱 방법은 영상 배치 순서 및 영상 배치 크기 중에서 적어도 하나를 제어할 수 있다.
상기 제1 오디오 신호에 대한 믹싱 방법은 음성 차단 여부 및 음량의 레벨 중에서 적어도 하나를 제어할 수 있다.
상기 생성부는 상기 제2 비디오 신호 및 오디오 신호를 부호화 및 패킷화할 수 있다.
도 1은 일 실시예에 따른 영상 회의 서비스 제공 시스템의 개략적인 블록도를 나타낸다.
도 2는 도 1에 도시된 영상 회의 서비스 제공 장치의 개략적인 블록도를 나타낸다.
도 3은 도 2에 도시된 컨트롤러의 개략적인 블록도를 나타낸다.
도 4는 도 1에 도시된 참여자 장치들의 화면 구성의 예들을 나타낸다.
도 5는 도 3에 도시된 분석부 및 결정부의 동작을 설명하기 위한 일 예를 나타낸다.
도 6a는 도 3에 도시된 비디오 분석부 및 결정부의 동작을 설명하기 위한 순서도를 나타낸다.
도 6b는 비디오 신호의 예들을 나타낸다.
도 6c는 도 3에 도시된 비디오 분석부의 동작을 설명하기 위한 예들을 나타낸다.
도 6d는 도 3에 도시된 비디오 분석부의 동작을 설명하기 위한 다른 예들을 나타낸다.
도 6e는 도 3에 도시된 비디오 결정부의 동작을 설명하기 위한 예들을 나타낸다.
도 7a는 도 3에 도시된 오디오 분석부 및 결정부의 동작을 설명하기 위한 순서도를 나타낸다.
도 7b는 오디오 신호의 예들을 나타낸다.
도 7c는 도 3에 도시된 오디오 분석부의 동작을 설명하기 위한 예들을 나타낸다.
도 7d는 도 3에 도시된 결정부의 동작을 설명하기 위한 예들을 나타낸다.
도 8a는 도 3에 도시된 결정부의 동작을 설명하기 위한 일 예를 나타낸다.
도 8b는 도 3에 도시된 결정부의 동작을 설명하기 위한 다른 예를 나타낸다.
도 9는 도 1에 도시된 영상 회의 서비스 제공 장치를 설명하기 위한 순서도를 나타낸다.
본 명세서에서 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 “~사이에”와 “바로~사이에” 또는 “~에 이웃하는”과 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, “포함하다” 또는 “가지다” 등의 용어를 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따른 영상 회의 서비스 시스템의 개략적인 블록도를 나타낸다.
도 1을 참조하면, 영상 회의 서비스 시스템(a video conference service system; 10)은 복수의 참여자 장치들(a plural of participants; 100) 및 영상 회의 서비스 제공 장치(a video conference service providing apparatus; 200)를 포함한다.
복수의 참여자 장치들(100) 각각은 영상 회의 서비스 제공 장치(200)와 통신할 수 있다. 복수의 참여자 장치들(100) 각각은 영상 회의 서비스 제공 장치(200)로부터 영상 회의 서비스를 제공받을 수 있다. 예를 들어, 영상 회의 서비스는 영상 회의에 관련된 모든 서비스를 포함할 수 있다.
복수의 참여자 장치들(100) 각각은 제1 참여자 장치(100-1) 내지 제n 참여자 장치(100-n)를 포함할 수 있다. 예를 들어, n은 1이상의 자연수일 수 있다.
복수의 참여자 장치들(100) 각각은 전자 장치로 구현될 수 있다. 예를 들어, 전자 장치는 PC(personal computer), 데이터 서버, 또는 휴대용 장치로 구현될 수 있다.
휴대용 전자 장치는 랩탑(laptop) 컴퓨터, 이동 전화기, 스마트 폰(smart phone), 태블릿(tablet) PC, 모바일 인터넷 디바이스(mobile internet device(MID)), PDA(personal digital assistant), EDA(enterprise digital assistant), 디지털 스틸 카메라(digital still camera), 디지털 비디오 카메라(digital video camera), PMP(portable multimedia player), PND(personal navigation device 또는 portable navigation device), 휴대용 게임 콘솔(handheld game console), e-북(e-book), 스마트 디바이스(smart device)으로 구현될 수 있다. 스마트 디바이스는 스마트 워치(smart watch) 또는 스마트 밴드(smart band)로 구현될 수 있다.
복수의 참여자 장치들(100) 각각은 제1 비디오 신호 및 오디오 신호를 영상 회의 서비스 제공 장치(200)에 전송할 수 있다. 예를 들어, 제1 비디오 신호는 복수의 참여자 장치들(100) 각각을 사용하여 영상 회의에 참여하는 참여자를 촬영하여 생성된 비디오 데이터를 포함할 수 있다. 제1 오디오 신호는 영상 회의에 참여하는 참여자가 영상 회의에서 전달하는 음성에 대한 음성 데이터를 포함할 수 있다.
영상 회의 서비스 제공 장치(200)는 복수의 참여자 장치들(100) 각각의 제1 비디오 신호 및 오디오 신호에 기초하여 복수의 참여자 장치들(100)에게 전송하기 위한 제2 비디오 신호 및 오디오 신호를 생성할 수 있다. 영상 회의 서비스 제공 장치(200)는 영상 회의 다지점 제어 장치(multipoint control unit; MCU)로 구현될 수 있다.
예를 들어, 영상 회의 서비스 제공 장치(200)는 제1 비디오 신호 및 오디오 신호에 기초하여 복수의 참여자 장치들(100) 각각을 사용하여 영상 회의에 참여하는 복수의 참여자들의 영상 회의의 참여에 대한 기여도를 결정할 수 있다. 이후에, 영상 회의 서비스 제공 장치(200)는 결정된 기여도에 기초하여 제2 비디오 신호 및 오디오 신호를 생성할 수 있다. 제2 비디오 신호 및 오디오 신호는 영상 회의에 참여하는 복수의 참여자들 중에서 적어도 하나의 참여자에 대한 비디오 및/또는 오디오를 포함할 수 있다.
구체적으로, 영상 회의 서비스 제공 장치(200)는 기여도가 높아 현재 영상 회의에서 중요한 역할을 하고 있는 참여자 장치의 정보가 보다 명확하게 전달되도록 참여자 장치의 참여자의 비디오 및/또는 오디오를 명확히 보여주도록 제2 비디오 신호 및 오디오 신호를 생성할 수 있다. 또한, 영상 회의 서비스 제공 장치(200)는 현재 자리를 비우거나 실제 영상 회의에 참여하고 있지 않은 기여도가 낮은 참여자의 비디오 및/또는 오디오를 제외시킴으로써 제2 비디오 신호 및 오디오 신호를 생성할 수 있다.
이에, 영상 회의 서비스 제공 장치(200)는 영상 회의 몰입도를 높일 수 있는 영상 회의 서비스를 복수의 참여자 장치들(100)에 제공할 수 있다.
도 2는 도 1에 도시된 영상 회의 서비스 제공 장치의 개략적인 블록도를 나타내고, 도 3은 도 2에 도시된 컨트롤러의 개략적인 블록도를 나타낸다.
도 2 및 도 3을 참조하면, 영상 회의 서비스 제공 장치(200)는 송수신기(transceiver; 210), 컨트롤러(controller; 230) 및 메모리(memory; 250)를 포함한다.
송수신기(210)는 복수의 참여자 장치들(100) 각각과 통신할 수 있다. 예를 들어, 송수신기(210)는 OFDMA(Orthogonal Frequency Division Multiple Access), SC-FDMA(Single Carrier Frequency Division Multiple Access), GFDM(Generalized Frequency Division Multiplexing), UFMC(Universal Filtered Multi-Carrier), FBMC(Filter Bank Multicarrier), BFDM(Biorthogonal Frequency Division Multiplexing), NOMA(Non-Orthogonal multiple access), CDMA(Code Division Multiple Access) 및 IOT(Internet Of Things) 등 다양한 통신 프로토콜 기반으로 복수의 참여자 장치들(100) 각각과 통신할 수 있다.
송수신기(210)는 복수의 참여자 장치들(100) 각각으로부터 전송된 제1 비디오 신호 및 오디오 신호를 수신할 수 있다. 이때, 제1 비디오 신호 및 오디오 신호는 부호화 및 패킷화된 비디오 신호 및 오디오 신호일 수 있다.
송수신기(210)는 복수의 참여자 장치들(100) 각각에 비디오 신호 및 오디오 신호를 전송할 수 있다. 이때, 비디오 신호 및 오디오 신호는 컨트롤러(230)에서 생성된 재2 비디오 신호 및 오디오 신호일 수 있다.
컨트롤러(230)는 영상 회의 서비스 제공 장치(200)의 전반적인 동작을 제어할 수 있다. 예를 들어, 컨트롤러(230)는 각 구성(210 및 250)의 동작을 제어할 수 있다.
컨트롤러(230)는 송수신기(210)를 통해 수신된 제1 비디오 신호 및 오디오 신호를 획득할 수 있다. 이때, 컨트롤러(230)는 제1 비디오 신호 및 오디오 신호를 메모리(250)에 저장할 수 있다.
컨트롤러(230)는 복수의 참여자 장치들(100) 각각의 기여도를 결정할 수 있다. 예를 들어, 컨트롤러(230)는 복수의 참여자 장치들(100) 각각의 제1 비디오 신호 및 오디오 신호에 기초하여 복수의 참여자 장치들(100)의 영상 회의에 대한 기여도를 결정할 수 있다. 이때, 복수의 참여자 장치들(100) 각각은 영상 회의에 참여하는 참여자 또는 복수의 참여자들이 사용하는 장치일 수 있다. 또한, 기여도는 영상 회의에 대한 회의 기여도 및 회의 참여도 중에서 적어도 하나를 포함할 수 있다.
컨트롤러(230)는 복수의 참여자 장치들(100) 각각에 디스플레이되는 비디오 신호 및 오디오 신호를 생성할 수 있다. 예를 들어, 컨트롤러(230)는 복수의 참여자 장치들(100) 각각의 영상 회의에 대한 기여도에 기초하여 제2 비디오 신호 및 오디오 신호를 생성할 수 있다. 이때, 컨트롤러(230)는 제2 비디오 신호 및 오디오 신호를 메모리(250)에 저장할 수 있다.
컨트롤러(230)는 분석부(231), 결정부(233), 믹싱부(235) 및 생성부(237)을 포함한다. 이때, 분석부(231)는 오디오 분석부(231a) 및 비디오 분석부(231b)를 포함하고, 믹싱부(235)는 오디오 믹싱부(235a) 및 비디오 믹싱부(235b)를 포함하고, 생성부(237)는 오디오 생성부(237a) 및 비디오 생성부(237b)를 포함한다.
분석부(231)는 제1 비디오 신호 및 오디오 신호를 분석하여 제1 비디오 신호 및 오디오 신호의 특징값들 출력할 수 있다. 분석부(231)는 오디오 분석부(231a) 및 비디오 분석부(231b)를 포함할 수 있다.
오디오 분석부(231a)는 제1 오디오 신호의 비트스트림을 추출하여 제1 오디오 신호를 복호화할 수 있다.
오디오 분석부(231a)는 복호화된 제1 오디오 신호의 특징점을 분석할 수 있다. 예를 들어, 특징점은 음성 파형일 수 있다.
또한, 오디오 분석부(231a)는 특징점에 대한 분석에 기초하여 제1 오디오 신호의 특징값들을 추정할 수 있다. 예를 들어, 특징값들은 음성의 존재 여부, 음성의 크기 및 음성의 연속 시간(또는 음성의 연속 발화 시간) 중에서 적어도 하나일 수 있다. 이때, 오디오 분석부(231a)는 특징값들을 평활화할 수 있다.
비디오 분석부(231b)는 제1 비디오 신호의 비트스트림을 추출하여 제1 비디오 신호를 복호화할 수 있다. 비디오 분석부(231b)는 복호화된 제1 비디오 신호의 특징점을 분석할 수 있다. 예를 들어, 특징점은 영상 회의에 참여하는 참여자 및 복수의 참여자들의 얼굴의 수, 얼굴 별 눈썹, 얼굴 별 눈, 얼굴 별 동공, 얼굴 별 코 및 얼굴 별 입술 중에서 적어도 하나일 수 있다.
또한, 비디오 분석부(231b)는 제1 비디오 신호의 특징점에 대한 분석에 기초하여 제1 비디오 신호의 특징값들을 추정할 수 있다. 예를 들어, 특징값들은 영상 회의에 참여하는 참여자 및 복수의 참여자들의 얼굴 별 크기, 얼굴 별 위치(또는, 얼굴 별 화면 중앙으로부터 얼굴까지의 거리), 얼굴 별 시선(또는, 얼굴 별 정면 응시 정도) 및 얼굴 별 입술 모양 중에서 적어도 하나일 수 있다. 이때, 비디오 분석부(231b)는 특징값들을 평활화할 수 있다.
결정부(233)는 제1 비디오 신호 및 오디오 신호의 특징값들에 기초하여 복수의 참여자 장치들(100) 각각의 영상 회의에 대한 기여도를 결정할 수 있다. 이때, 제1 비디오 신호 및 오디오 신호의 특징값들은 평활화된 특징값들일 수 있다.
일 예로, 결정부(233)는 제1 비디오 신호 및 오디오 신호 중에서 적어도 하나의 특징값들에 기초하여 복수의 참여자 장치들(100) 각각의 발화(speaking 또는 speech) 여부를 결정하여 영상 회의에 대한 기여도를 결정할 수 있다. 기여도는 제1 비디오 신호 및 오디오 신호의 특징값들 중에서 적어도 하나에 비례하여 감가산된 영상 회의에 대한 기여도일 수 있다.
다른 예로, 결정부(233)는 제1 비디오 신호 및 오디오 신호의 특징값들을 결합하고 복수의 참여자 장치들(100) 각각의 발화 여부를 결정하여 영상 회의에 대한 기여도를 결정할 수 있다. 이때, 기여도는 제1 비디오 신호 및 오디오 신호의 특징값들에 비례하여 감가산된 영상 회의에 대한 기여도일 수 있다.
믹싱부(235)는 복수의 참여자 장치들(100) 각각의 제1 비디오 신호 및 오디오 신호를 믹싱할 수 있다. 이때, 믹싱부(235)는 제1 비디오 신호 및 오디오 신호에 대한 믹싱 품질 및 믹싱 방법 중에서 적어도 하나를 결정할 수 있다. 믹싱부(235)는 오디오 믹싱부(235a)와 비디오 믹싱부(235b)를 포함할 수 있다.
오디오 믹싱부(235a)는 기여도에 기초하여 제1 오디오 신호에 대한 믹싱 품질 및 믹싱 방법 중에서 적어도 하나를 결정하고, 결정된 적어도 하나를 이용하여 제1 오디오 신호를 믹싱할 수 있다. 예를 들어, 제1 오디오 신호에 대한 믹싱 방법은 음성 차단 여부 및 음량의 레벨 중에서 적어도 하나를 제어하는 믹싱 방법일 수 있다.
비디오 믹싱부(235b)는 기여도에 기초하여 제1 비디오 신호에 대한 믹싱 품질 및 믹싱 방법 중에서 적어도 하나를 결정하고, 결정된 적어도 하나를 이용하여 제1 비디오 신호를 믹싱할 수 있다. 예를 들어, 제1 비디오 신호에 대한 믹싱 방법은 영상 배치 순서 및 영상 배치 크기 중에서 적어도 하나 제어하는 믹싱 방법일 수 있다.
생성부(237)는 제2 비디오 신호 및 오디오 신호를 생성할 수 있다. 생성부(237)는 오디오 생성부(237a) 및 비디오 생성부(237b)를 포함할 수 있다.
오디오 생성부(237a)는 믹싱된 제1 오디오 신호를 부호화 및 패킷화하여 제2 오디오 신호로 생성하고, 비디오 생성부(237b)는 믹싱된 제1 비디오 신호를 부호화 및 패킷화하여 제2 비디오 신호로 생성할 수 있다.
도 4는 도 1에 도시된 참여자 장치들의 화면 구성의 예들을 나타낸다.
도 4에서는 설명의 편의를 위해 영상 회의에 참여하고 있는 복수의 참여자 장치들(100)의 개수를 20개인 것으로 가정한다.
도 4를 참조하면, 복수의 참여자 장치들(100)의 화면 구성은 CASE1, CASE2 및 CASE 3과 같을 수 있다.
CASE1은 20 개의 참여자 장치들(100) 각각의 제1 비디오 신호에 대한 화면의 크기가 동일하게 구성된 제2 비디오 신호의 화면 구성이다. 또한, CASE1의 화면의 배치는 20 개의 참여자 장치들(100)이 영상 회의에 접속한 접속 순서에 기초하여 구성된 화면 배치이다.
CASE2 및 CASE3은 20 개의 참여자 장치들(100) 각각의 영상 회의에 대한 기여도에 기초하여 제1 비디오 신호의 화면의 배치 및 화면의 크기가 동일하지 않게 구성된 제2 비디오 신호의 화면 구성이다.
CASE2의 화면 구성은 얼굴 수, 얼굴 별 크기, 얼굴 별 시선 및 음성의 존재 여부에 기초하여 화면 배치 및 화면의 크기가 결정된 화면 구성일 수 있다.
구체적으로, CASE2의 화면 구성은 영상 회의에 대한 기여도가 높은 10개의 제1 비디오 신호를 순서대로 좌측 상단에서 우측 하단으로 구성된 화면 구성일 수 있다. 또한, CASE2의 화면 구성은 영상 회의에 대한 기여도가 낮은 10개의 제1 비디오 신호가 하단에 구성된 화면 구성일 수 있다.
CASE3의 화면 구성은 얼굴 수, 얼굴 별 크기, 얼굴 별 시선 및 음성의 존재 여부에 기초하여 화면 배치 및 화면의 크기가 결정된 화면 구성일 수 있다.
구체적으로, CASE3의 화면 구성은 영상 회의에 대한 기여도가 높은 10 개의 제1 비디오 신호만으로 구성된 화면 구성일 수 있다. 이때, CASE3의 화면 구성은 얼굴 별 시선에 대한 기여도가 높은 6개의 제1 비디오 신호를 좌측에 배치하고 기여도가 낮은 4개의 제1 비디오 신호를 우측에 배치한 화면 구성일 수 있다.
이에, CASE3의 화면 구성은 일정 시간 자리를 비운 복수의 참여자들의 제1 비디오 신호 및 오디오 신호가 포함되지 않고, 영상 회의에 대한 기여도가 높은 복수의 참여자 장치들(100)의 제1 오디오 신호는 음량을 높여 포함된 화면 구성일 수 있다.
따라서, 영상 회의 서비스 제공 장치(200)는 CASE3을 통해 복수의 참여자 장치들(100)의 수가 많고, 네트워크 대역폭이 부족한 환경에서 효과적일 수 있다.
즉, 영상 회의 서비스 제공 장치(200)는 영상 회의에 참여하는 참여자의 기여도에 따라 비디오 신호 및 오디오 신호의 믹싱 순서나 배열, 믹싱 크기 등을 다르게 제공함으로써 복수의 참여자들 각각이 느끼는 몰입감과 현장감을 높일 수 있다.
도 5는 도 3에 도시된 분석부 및 결정부의 동작을 설명하기 위한 일 예를 나타낸다.
도 5를 참조하면, 분석부(231)는 제1 참여자 장치(100-1) 내지 제n 참여자 장치(100-n) 각각으로부터 제1 비디오 신호 및 오디오 신호를 수신하고, 제1 비디오 신호 및 오디오 신호를 분석할 수 있다.
오디오 분석부(231a)는 제1 참여자 장치(100-1) 내지 제n 참여자 장치(100-n) 각각으로부터 전송된 제1 오디오 신호의 특징점, 예를 들어 음성 파형을 분석 및 판단할 수 있다. 오디오 분석부(231a)는 분석 및 판단된 제1 오디오 신호의 음성 파형에 기초하여 제1 오디오 신호의 특징값들을 추정할 수 있다. 이때, 오디오 분석부(231a)는 추정된 특징값들을 평활화할 수 있다.
비디오 분석부(231b)는 제1 참여자 장치(100-1) 내지 제n 참여자 장치(100-n) 각각으로부터 전송된 제1 비디오 신호의 특징점, 예를 들어 참여자들 얼굴의 수를 분석 및 판단할 수 있다. 비디오 분석부(231b)는 분석 및 판단된 제1 비디오 신호의 참여자들 얼굴의 수에 기초하여 제1 비디오 신호의 특징값들을 추정할 수 있다. 이때, 비디오 분석부(231b)는 추정된 특징값들을 평활화할 수 있다.
결정부(233)는 특징값들에 기초하여 제1 참여자 장치(100-1) 내지 제n 참여자 장치(100-n) 각각의 영상 회의에 대한 기여도를 결정할 수 있다.
예를 들어, 결정부(233)는 제1 오디오 신호의 음성 파형에 기초하여 추정된 특징 값과 제1 비디오 신호의 얼굴 수에 기초하여 추정된 특징 값을 이용하여 기여도를 결정할 수 있다. 결정부(233)는 제1 참여자 장치(100-1)의 기여도를 6으로, 제2 참여자 장치(100-2)의 기여도를 8로, 제3 참여자 장치(100-3)의 기여도를 5로, 제n 참여자 장치(100-n)의 기여도를 0으로 결정할 수 있다.
도 6a는 도 3에 도시된 비디오 분석부 및 결정부의 동작을 설명하기 위한 순서도를 나타내고, 도 6b는 비디오 신호의 예들을 나타내고, 도 6c는 도 3에 도시된 비디오 분석부의 동작을 설명하기 위한 예들을 나타내고, 도 6d는 도 3에 도시된 비디오 분석부의 동작을 설명하기 위한 다른 예들을 나타내고, 도 6e는 도 3에 도시된 결정부의 동작을 설명하기 위한 예들을 나타낸다.
도 6a 내지 도 6e를 참조하면, 비디오 분석부(231b)는 제1 비디오 신호를 수신할 수 있다(S601). 예를 들어, 비디오 분석부(231b)는 N 개의 참여자 장치들(100) 중에서 n 번째 참여자 장치(100-n)의 제1 비디오 신호를 수신할 수 있다. 이때, n 은 N 개의 참여자 장치들(100)의 순번이고, N은 참여자 장치들(100)의 수이다. 또한, n 의 범위는 0 < n ≤ N 이고, 자연수이다.
구체적으로, 비디오 분석부(231b)는 도 6b의 첫 번째 참여자 장치(100-1)의 제1 비디오 신호(611), 두 번째 참여자 장치(100-2)의 제1 비디오 신호(613), 세 번째 참여자 장치(100-3)의 제1 비디오 신호(615) 및 n 번째 참여자 장치(100-n)의 제1 비디오 신호(617)를 수신할 수 있다.
비디오 분석부(231b)는 제1 비디오 신호를 분석할 수 있다(S602a). 예를 들어, 비디오 분석부(231b)는 N 개의 참여자 장치들(100) 중에서 n 번째 참여자 장치(100-n)의 제1 비디오 신호를 분석할 수 있다. 이때, n 은 첫 번째 참여자 장치(100-1)일 경우 1일 수 있다.
비디오 분석부(231b)는 분석된 제1 비디오 신호에 기초하여 제1 비디오 신호의 얼굴의 수(K)를 판단할 수 있다(S602b). 예를 들어, 비디오 분석부(231b)는 분석된 n 번째 참여자 장치(100-n)의 제1 비디오 신호에 기초하여 제1 비디오 신호의 k 번째 참여자의 얼굴의 수(
Figure 112017024259879-pat00001
)를 판단할 수 있다. 이때, k 는 n 번째 참여자 장치(100-n)의 제1 비디오 신호의 참여자 수이다. 또한, k 의 범위는 0 < k ≤ K 이고, 자연수이다.
구제적으로, 비디오 분석부(231b)는 도 6c의 첫 번째 참여자 장치(100-1)의 제1 비디오 신호(611)의 얼굴의 수(
Figure 112017024259879-pat00002
; 631)를 5로 판단하고, 두 번째 참여자 장치(100-2)의 제1 비디오 신호(613)의 얼굴의 수(
Figure 112017024259879-pat00003
; 633)를 1로 판단하고, 세 번째 참여자 장치(100-3)의 제1 비디오 신호(615)의 얼굴의 수(
Figure 112017024259879-pat00004
; 635)를 3으로 판단하고, n 번째 참여자 장치(100-n)의 제1 비디오 신호(617)의 얼굴의 수(
Figure 112017024259879-pat00005
; 637)를 0으로 판단할 수 있다.
비디오 분석부(231b)는 특징점을 분석할 수 있다(S603a). 이때, 특징점은 눈썹, 눈, 동공, 코 및 입술일 수 있다. 예를 들어, 비디오 분석부(231b)는 n 번째 참여자 장치(100-n)의 제1 비디오 신호의 k 번째 참여자의 특징점을 분석할 수 있다. 이때, k 는 첫 번째 참여자일 경우 1일 수 있다.
비디오 분석부(231b)는 특징값을 추정할 수 있다(S603b). 이때, 특징값은 n 번째 참여자 장치(100-n)의 제1 비디오 신호의 k 번째 참여자의 화면 중앙으로부터 얼굴까지의 거리(
Figure 112017024259879-pat00006
), 정면 응시 정도(
Figure 112017024259879-pat00007
) 및 입술 모양(
Figure 112017024259879-pat00008
)일 수 있다.
일 예로, 비디오 분석부(231b)는 도 6d의 첫 번째 참여자 장치(100-1)의 k 번째 참여자의
Figure 112017024259879-pat00009
(651)을 추정할 수 있다. 구체적으로 비디오 분석부(231b)는 첫 번째 참여자 장치(100-1)의 첫 번째, 두 번째, 세 번째, 네 번째 및 다섯 번째 참여자의
Figure 112017024259879-pat00010
을 추정할 수 있다.
다른 예로, 비디오 분석부(231b)는 도 6d의 첫 번째 참여자 장치(100-1)의 k 번째 참여자의
Figure 112017024259879-pat00011
(653)을 추정할 수 있다. 구체적으로 비디오 분석부(231b)는 첫 번째 참여자 장치(100-1)의 첫 번째 참여자의
Figure 112017024259879-pat00012
을 -12도로 추정하고, 두 번째 및 네 번째 참여자의
Figure 112017024259879-pat00013
를 12도로 추정하고, 세 번째 참여자의
Figure 112017024259879-pat00014
을 0도로 추정하고, 다섯 번째 참여자의
Figure 112017024259879-pat00015
를 0도로 추정할 수 있다.
또 다른 예로, 비디오 분석부(231b)는 도 6d의 첫 번째 참여자 장치(100-1)의 k 번째 참여자의
Figure 112017024259879-pat00016
(655)를 추정할 수 있다. 구체적으로 비디오 분석부(231b)는 첫 번째 참여자 장치(100-1)의 k 번째 참여자의
Figure 112017024259879-pat00017
을 열림 및 닫힘으로 추정할 수 있다.
결정부(233)는 발화 여부를 결정할 수 있다(S604). 예를 들어, 결정부(233)는 첫 번째 참여자 장치(100-1)의 k 번째 참여자의 입술 모양(
Figure 112017024259879-pat00018
)에 기초하여 제1 비디오 신호(611)의 k 번째 참여자의 발화 여부(655)를 결정할 수 있다. 구체적으로, 결정부(233)는 첫 번째 참여자 장치(100-1)의 제1 비디오 신호(611)의 k 번째 참여자의 입술 모양(
Figure 112017024259879-pat00019
)이 열림이면 발화로 결정하고, 입술 모양(L)이 닫힘이면 비 발화로 결정할 수 있다.
결정부(233)는 특징값들에 기초하여 참여자 기여도를 결정할 수 있다(S605a). 예를 들어, 결정부(233)는 제1 비디오 신호의 발화 여부가 발화인 경우
Figure 112017024259879-pat00020
,
Figure 112017024259879-pat00021
Figure 112017024259879-pat00022
에 기초하여 n 번째 참여자 장치(100-n)의 k 번째 참여자 기여도(
Figure 112017024259879-pat00023
)를 결정할 수 있다. 구체적으로, 결정부(233)는 n 번째 참여자 장치(100-n)의 k 번째 참여자의
Figure 112017024259879-pat00024
가 작을수록
Figure 112017024259879-pat00025
를 가산하고,
Figure 112017024259879-pat00026
가 0 에 근접할수록
Figure 112017024259879-pat00027
를 가산하고,
Figure 112017024259879-pat00028
가 열림으로 연속 발화인 경우 연속 발화 시간(
Figure 112017024259879-pat00029
)이 길수록
Figure 112017024259879-pat00030
를 가산하여 참여자 기여도(
Figure 112017024259879-pat00031
)를 결정할 수 있다.
결정부(233)는 참여자 기여도를 0 으로 결정할 수 있다(S605b). 예를 들어, 결정부(233)는 제1 비디오 신호의 발화 여부가 비 발화이고 제1 비디오 신호의 얼굴의 수(K)가 0인 경우 제1 비디오 신호의 참여자 기여도(
Figure 112017024259879-pat00032
)를 0으로 결정할 수 있다.
결정부(233)는 k 및
Figure 112017024259879-pat00033
의 크기를 판단할 수 있다(S606a). 즉, 결정부(233)는 참여자 순번(k)과 얼굴의 수(
Figure 112017024259879-pat00034
)의 크기를 판단할 수 있다.
결정부(233)는 k 가
Figure 112017024259879-pat00035
보다 작은 경우 k+1=k 로 업데이트할 수 있다(S606b). 예를 들어, 결정부(233)는 첫 번째 참여자 장치(100-1)의
Figure 112017024259879-pat00036
이 5이고 k 가 1인 경우 k 를 k+1=k 로 업데이트하여 첫 번째 참여자 장치(100-1)의 두 번째 참여자(k=2)에 대한 S603a 내지 S606a의 과정을 수행할 수 있다. 즉, 결정부(233)는 k 가
Figure 112017024259879-pat00037
과 같아질 때까지 S603a 내지 S606a 과정을 반복적으로 수행할 수 있다. 이에, 결정부(233)는 첫 번째 참여자 장치(100-1)의 복수의 참여자들에 대한 참여자 기여도를 모두 결정할 수 있다.
결정부(233)는 k 가
Figure 112017024259879-pat00038
과 같아지는 경우 n 및 N 을 비교할 수 있다(S607a). 즉, 결정부(233)는 N 개의 참여자 장치들(100)의 순번(n)과 N 개의 참여자 장치들(100)의 수(N)를 비교할 수 있다.
결정부(233)는 n 이 N 보다 작은 경우 n+1=n 으로 업데이트할 수 있다(S607b). 예를 들어, 결정부(233)는 참여자 장치들(100)의 수(N)가 20 개이고, 참여자 장치들의 순번(n)이 1인 경우, n을 n+1=n 으로 업데이트하여 두 번째 참여자 장치에 대한 S602a 내지 S607a 과정을 수행할 수 있다. 즉, 결정부(233)는 n 이 N 과 같아질 때까지 S602a 내지 S607a 과정을 반복적으로 수행할 수 있다. 이에, 결정부(233)는 N 개의 참여자 장치들(100)의 복수의 참여자들에 대한 참여자 기여도를 모두 결정할 수 있다.
결정부(233)는 n 이 N 과 같아지는 경우 복수의 참여자 장치들(100) 각각의 영상 회의에 대한 기여도를 결정할 수 있다(S608). 예를 들어, N 개의 참여자 장치들(100) 중에서 n 번째 참여자 장치(100-n)의 영상 회의에 대한 기여도(
Figure 112017024259879-pat00039
) 는 n 번째 참여자 장치(100-n)의 복수의 참여자 기여도 중에서 최대 참여자 기여도(
Figure 112017024259879-pat00040
)일 수 있다. 구체적으로, 결정부(233)는 도 6e의 첫 번째 참여자 장치(100-1)의 영상 회의에 대한 기여도(671)를 3으로 결정하고, 두 번째 참여자 장치(100-2)의 영상 회의에 대한 기여도(673)를 4로 결정하고, 세 번째 참여자 장치(100-3)의 영상 회의에 대한 기여도(675)를 2로 결정하고, n 번째 참여자 장치(100-n)의 영상 회의에 대한 기여도(677)를 0으로 결정할 수 있다.
도 7a는 도 3에 도시된 오디오 분석부 및 결정부의 동작을 설명하기 위한 순서도를 나타내고, 도 7b는 오디오 신호의 예들을 나타내고, 도 7c는 도 3에 도시된 오디오 분석부의 동작을 설명하기 위한 예들을 나타내고, 도 7d는 도 3에 도시된 결정부의 동작을 설명하기 위한 예들을 나타낸다.
도 7a 내지 도 7d를 참조하면, 오디오 분석부(231a)는 제1 오디오 신호를 수신할 수 있다(S701). 예를 들어, 오디오 분석부(231a)는 N 개의 참여자 장치들(100) 중에서 n번째 참여자 장치(100-n)의 제1 오디오 신호를 수신할 수 있다. 이때, n 은 N 개의 참여자 장치들(100)의 순번이고, N 은 복수의 참여자 장치들(100)의 수이다. 또한, n 의 범위는 0 < n ≤ N 이고, 자연수이다.
구체적으로, 도 7b의 오디오 분석부(231a)는 도 7b의 첫 번째 참여자 장치(100-1)의 제1 오디오 신호(711), 두 번째 참여자 장치(100-2)의 제1 오디오 신호(713), 세 번째 참여자 장치(100-3)의 제1 오디오 신호(715) 및 n 번째 참여자 장치(100-n)의 제1 오디오 신호(717)를 수신할 수 있다.
오디오 분석부(231a)는 특징점을 분석할 수 있다(S702). 예를 들어, 오디오 분석부(231a)는 N 개의 참여자 장치들(100) 중에서 n 번째 참여자 장치(100-n)의 제1 오디오 신호의 특징점을 분석할 수 있다. 이때, 특징점은 음성 파형일 수 있다. 또한, n 은 첫 번째 참여자 장치(100-1)의 제1 오디오 신호일 경우 1일 수 있다.
오디오 분석부(231a)는 특징값들을 추정할 수 있다(S703). 예를 들어, 오디오 분석부(231a)는 N 개의 참여자 장치들(100) 중에서 n 번째 참여자 장치(100-n)의 제1 오디오 신호의 특징값을 추정할 수 있다. 이때, 특징값은 음성의 존재 유무일 수 있다. 구제적으로, 오디오 분석부(231a)는 음성이 존재하는 구간을
Figure 112017024259879-pat00041
로 추정하고(S703a), 음성이 존재하지 않는 구간을
Figure 112017024259879-pat00042
로 추정할 수 있다(S703b).
오디오 분석부(231a)는 특징값들의 변동 유무를 결정할 수 있다. 예를 들어, 오디오 분석부(231a)는
Figure 112017024259879-pat00043
가 1일 경우에는
Figure 112017024259879-pat00044
가 0일 때 증가시키는 프레임 카운터인
Figure 112017024259879-pat00045
을 0으로 초기화한 후(S704a)에
Figure 112017024259879-pat00046
가 1일 때 증가시키는 프레임 카운트인
Figure 112017024259879-pat00047
을 증가시킴으로써(S704c)
Figure 112017024259879-pat00048
가 연속으로 1로 추정되는 프레임 수가
Figure 112017024259879-pat00049
를 초과하는지 확인하고(S704e), 반대로
Figure 112017024259879-pat00050
가 0일 경우에는
Figure 112017024259879-pat00051
을 0으로 초기화한 후(S704b)
Figure 112017024259879-pat00052
을 증가시킴으로써(S704d)
Figure 112017024259879-pat00053
가 연속으로 0으로 추정되는 프레임 수가
Figure 112017024259879-pat00054
를 초과하는지 확인한다(S704f).
이에, 오디오 분석부(231a)는 평활화된 특징값들을 추정할 수 있다. 예를 들어, 오디오 분석부(231a)는
Figure 112017024259879-pat00055
가 1이면서
Figure 112017024259879-pat00056
Figure 112017024259879-pat00057
이하인 경우 및
Figure 112017024259879-pat00058
가 0이면서
Figure 112017024259879-pat00059
Figure 112017024259879-pat00060
이하인 경우에 평활화된 특징값들을 이전
Figure 112017024259879-pat00061
로 추정할 수 있다(S705a). 반대로,
Figure 112017024259879-pat00062
가 1이면서
Figure 112017024259879-pat00063
Figure 112017024259879-pat00064
보다 크거나
Figure 112017024259879-pat00065
가 0이면서
Figure 112017024259879-pat00066
Figure 112017024259879-pat00067
보다 클 경우에는
Figure 112017024259879-pat00068
Figure 112017024259879-pat00069
로 추정할 수 있다(S705b, S705c). 구체적으로, 오디오 분석부(231a)는 도 7c의 두 번째 참여자 장치(100-2)의 평활화된 특징값(733)을 구간별로
Figure 112017024259879-pat00070
Figure 112017024259879-pat00071
로 추정할 수 있다.
오디오 분석부(231a)는 특징값이 이전 특징값과 같을 경우에는 프레임 카운터를 업데이트할 수 있다. 예를 들어, 오디오 분석부(231a)는
Figure 112017024259879-pat00072
가 1이면서
Figure 112017024259879-pat00073
Figure 112017024259879-pat00074
과 같으면
Figure 112017024259879-pat00075
Figure 112017024259879-pat00076
=
Figure 112017024259879-pat00077
+ 1로 업데이트하고(S704c),
Figure 112017024259879-pat00078
가 0이면서
Figure 112017024259879-pat00079
Figure 112017024259879-pat00080
과 같으면
Figure 112017024259879-pat00081
Figure 112017024259879-pat00082
=
Figure 112017024259879-pat00083
+ 1로 업데이트할 수 있다(S704d).
오디오 분석부(231a)는 프레임 카운터를 임계치와 비교할 수 있다. 예를 들어, 오디오 분석부(231a)는
Figure 112017024259879-pat00084
Figure 112017024259879-pat00085
보다 큰지 판단하고(S704e),
Figure 112017024259879-pat00086
Figure 112017024259879-pat00087
보다 큰지 판단할 수 있다(S704f).
이에, 오디오 분석부(231a)는 평활화된 특징값들을 추정할 수 있다.
일 예로, 오디오 분석부(231a)는
Figure 112017024259879-pat00088
Figure 112017024259879-pat00089
보다 큰 경우 평활화된 특징값들을
Figure 112017024259879-pat00090
에서
Figure 112017024259879-pat00091
까지
Figure 112017024259879-pat00092
로 추정하고(S705c),
Figure 112017024259879-pat00093
Figure 112017024259879-pat00094
보다 작은 경우에는 S705a를 수행한다.
다른 예로, 오디오 분석부(231a)는
Figure 112017024259879-pat00095
Figure 112017024259879-pat00096
보다 큰 경우 평활화된 특징값들을
Figure 112017024259879-pat00097
에서
Figure 112017024259879-pat00098
까지
Figure 112017024259879-pat00099
로 추정하고(S705b),
Figure 112017024259879-pat00100
Figure 112017024259879-pat00101
보다 작은 경우에는 S705a를 수행한다.
오디오 분석부(231a)는 일정 주기에 기초하여 평활화가 진행된 시간을 판단할 수 있다(S706). 예를 들어, 오디오 분석부(231a)는 평활화가 진행된 시간(t)을 일정 주기(T)로 나눈 결과가 0인지 아닌지를 판단하여 평활화된 특징값이 일정 주기(T)를 지났는지 여부를 확인할 수 있다.
오디오 분석부(231a)는
Figure 112017024259879-pat00102
인 경우 평활화된 특징값들에 기초하여 최종 특징값들을 추정할 수 있다(S707). 즉, 오디오 분석부(231a)는 일정 주기(T)로 최종 특징값들을 추정할 수 있다. 이때, 최종 특징값들은 음성의 크기 및 음성의 연속 발화 시간이고, 복수의 참여자 장치들(100) 각각의 최종 특징값들일 수 있다.
일 예로, 오디오 분석부(231a)는 N 개의 참여자 장치들(100) 중에서 n 번째 참여자 장치(100-n)의 평활화된 특징값들에 기초하여 구간별 음성의 연속 발화 시간을 추정할 수 있다. 또한, 오디오 분석부(231a)는 추정된 구간별 음성의 연속 발화 시간을 합산하여 최종 특징값을 추정할 수 있다. 이때, 최종 특징값은 N 개의 참여자 장치들(100) 중에서 n 번째 참여자 장치(100-n)의 음성의 연속 발화 시간에 대한 특징값들을 합산한 특징값(
Figure 112017024259879-pat00103
)일 수 있다.
다른 예로, 오디오 분석부(231b)는 N 개의 참여자 장치들(100) 중에서 n 번째 참여자 장치(100-n)의 평활화된 특징값들에 기초하여 구간별 음성의 크기를 추정할 수 있다. 또한, 오디오 분석부(231a)는 추정된 구간별 음성의 크기를 평균화하여 최종 특징값을 추정할 수 있다. 이때, 최종 특징값은 N 개의 참여자 장치들(100) 중에서 n 번째 참여자 장치(100-n)의 음성의 크기에 대한 특징값들을 평균화한 특징값(
Figure 112017024259879-pat00104
)일 수 있다.
결정부(233)는 최종 특징값들에 기초하여 복수의 참여자 장치들(100) 각각의 영상 회의에 대한 기여도를 결정할 수 있다(S708). 예를 들어, 결정부(233)는
Figure 112017024259879-pat00105
Figure 112017024259879-pat00106
에 비례하여 N 개의 참여자 장치들(100) 중에서 n 번째 참여자 장치(100-n)의 영상 회의에 대한 기여도(
Figure 112017024259879-pat00107
)를 가산 및 결정할 수 있다. 구체적으로, 결정부(233)는 도 7d의 첫 번째 참여자 장치(100-1)의 영상 회의에 대한 기여도(751)를 5로 결정하고, 두 번째 참여자 장치(100-2)의 영상 회의에 대한 기여도(753)를 7로 결정하고, 세 번째 참여자 장치(100-3)의 영상 회의에 대한 기여도(755)를 2로 결정하고, n 번째 참여자 장치(100-n)의 영상 회의에 대한 기여도(757)를 9로 결정할 수 있다.
결정부(233)는
Figure 112017024259879-pat00108
가 아닌 경우 n 및 N 을 비교할 수 있다(S709a). 예를 들어, 결정부(233)는 N 개의 참여자 장치들(100)의 순번(n)과 N 개의 참여자 장치들(100)의 수(N)를 비교할 수 있다.
결정부(233)는 n이 N보다 작은 경우 n+1=n 으로 업데이트할 수 있다(S709b). 예를 들어, 결정부(233)는 참여자 장치들(100)의 수(N)가 20 개이고, 참여자 장치들의 순번(n)이 1인 경우, n 을 n+1=n 으로 업데이트하여 두 번째 참여자 장치에 대한 S702 내지 S709a 과정을 수행할 수 있다. 즉, 결정부(233)는 n 이 N 보다 크거나 같아질 때까지 S702 내지 S709a 과정을 반복적으로 수행할 수 있다. 이에, 결정부(233)는 N 개의 참여자 장치들(100)의 각각의 영상 회의에 대한 기여도를 모두 결정할 수 있다.
도 8a는 도 3에 도시된 결정부의 동작을 설명하기 위한 일 예를 나타낸다.
도 8a를 참조하면, CASE4은 발화 및 비 발화 구간을 모두 포함한 제1 비디오 신호 및 오디오 신호를 나타낸다.
CASE4인 경우, 결정부(233)는 제1 비디오 신호 및 오디오 신호의 특징값에 기초하여 발화 여부 결정 방법 1(811) 및 발화 여부 결정 방법 2(813)을 통해 발화 여부를 결정할 수 있다. 이때, 제1 비디오 신호의 특징값은 입 모양이고, 제1 오디오 신호의 특징값은 음성의 존재 여부이다.
일 예로, 결정부(233)는 발화 여부 결정 방법 1(811)을 통해 발화 여부를 결정할 수 있다. 이때, 발화 여부 결정 방법 1(811)은 제1 비디오 신호 및 오디오 신호의 특징값에 기초하여 제1 비디오 신호 및 오디오 신호가 모두 발화인 구간을 발화로 결정하고, 제1 비디오 신호 및 오디오 신호 중에서 적어도 하나가 발화인 구간을 비 발화로 결정하는 방법일 수 있다.
다른 예로, 결정부(233)는 발화 여부 결정 방법 2(813)을 통해 발화 여부를 결정할 수 있다. 이때, 발화 여부 결정 방법 2(813)는 제1 비디오 신호 및 오디오 신호의 특징값에 기초하여 제1 비디오 신호 및 오디오 신호 중에서 적어도 하나가 발화인 구간을 발화로 결정하고, 제1 비디오 신호 및 오디오 신호가 모두 비 발화인 구간을 비 발화로 결정하는 방법일 수 있다.
따라서, 영상 회의 서비스 제공 장치(200)는 발화 여부 결정 방법 1(811)을 통해 제1 비디오 신호 및 오디오 신호의 특징값을 모두 고려한 영상 회의에 대한 기여도를 결정할 수 있다.
도 8b는 도 3에 도시된 결정부의 동작을 설명하기 위한 다른 예를 나타낸다.
도 8b를 참조하면, CASE5는 발화 구간만을 포함하는 제1 오디오 신호 및 비 발화 구간만을 포함한 제1 비디오 신호를 나타낸다. CASE5인 경우, 결정부(233)는 제1 비디오 신호 및 오디오 신호의 특징값에 기초하여 발화 여부 결정 방법 3(831) 및 발화 여부 결정 방법 4(833)를 통해 발화 여부를 결정할 수 있다. 이때, 제1 비디오 신호의 특징값은 입 모양이고, 제1 오디오 신호의 특징값은 음성의 존재 여부이다.
일 예로, 결정부(233)는 발화 여부 결정 방법 3(831)을 통해 발화 여부를 결정할 수 있다. 이때, 발화 여부 결정 방법 3(831)은 제1 비디오 신호 및 오디오 신호의 특징값에 기초하여 제1 비디오 신호 및 오디오 신호 중에서 적어도 하나가 발화인 구간을 발화로 결정하는 방법일 수 있다.
다른 예로, 결정부(233)는 발화 여부 결정 방법 4(833)를 통해 발화 여부를 결정할 수 있다. 이때, 발화 여부 결정 방법 4(833)는 제1 비디오 신호 및 오디오 신호의 특징값에 기초하여 제1 비디오 신호 및 오디오 신호 중에서 적어도 하나가 비발화인 구간을 비 발화로 결정하는 방법일 수 있다.
따라서, 영상 회의 서비스 제공 장치(200)는 발화 여부 결정 방법 4(833)를 통해 잡음으로 인한 기여도가 포함되지 않은 영상 회의에 대한 기여도를 결정할 수 있다.
도 9는 도 1에 도시된 영상 회의 서비스 제공 장치를 설명하기 위한 순서도를 나타낸다.
도 9를 참조하면, 영상 회의 서비스 제공 장치(200)는 복수의 참여자 장치들(100) 각각의 제1 비디오 신호 및 오디오 신호의 특징점을 분석할 수 있다(S1001).
영상 회의 서비스 제공 장치(200)는 제1 비디오 신호 및 오디오 신호의 특징점에 대한 분석에 기초하여 제1 비디오 신호 및 오디오 신호의 특징값들을 추정할 수 있다(S1003). 이때, 영상 회의 서비스 제공 장치(200)는 추정된 제1 비디오 신호 및 오디오 신호의 특징값들을 평활화할 수 있다.
영상 회의 서비스 제공 장치(200)는 제1 비디오 신호 및 오디오 신호의 특징값들에 기초하여 복수의 참여자 장치들(100) 각각의 영상 회의에 대한 기여도를 결정할 수 있다(S1005).
영상 회의 서비스 제공 장치(200)는 복수의 참여자 장치들(100) 각각의 영상 회의에 대한 기여도에 기초하여 복수의 참여자 장치들(100) 각각의 제1 비디오 신호 및 오디오 신호를 믹싱할 수 있다(S1007).
영상 회의 서비스 제공 장치(200)는 믹싱된 복수의 참여자 장치들(100) 각각의 제1 비디오 신호 및 오디오 신호를 부호화 및 패킷화하여 제2 비디오 신호 및 오디오 신호를 생성할 수 있다(S1009).
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (22)

  1. 영상 회의에 참여하는 복수의 참여자 장치들 각각의 제1 비디오 신호의 특징점을 분석하여 상기 제1 비디오 신호의 특징값을 추정하는 단계;
    상기 복수의 참여자 장치들 각각의 제1 오디오 신호의 특징점을 분석하여 상기 제1 오디오 신호의 특징값을 추정하는 단계;
    상기 제1 비디오 신호의 특징값 및 상기 제1 오디오 신호의 특징값 중에서 적어도 하나에 기초하여 상기 복수의 참여자 장치들의 영상 회의에 대한 기여도를 결정하는 단계; 및
    상기 기여도에 따라 상기 제1 비디오 신호 및 상기 제1 오디오 신호를 믹싱하여 상기 복수의 참여자 장치들에게 전송하는 제2 비디오 신호 및 오디오 신호를 생성하는 단계
    를 포함하고,
    상기 결정하는 단계는,
    상기 제1 비디오 신호의 특징값 및 상기 제1 오디오 신호의 특징값 중에서 적어도 하나에 기초하여 상기 복수의 참여자 장치들의 발화(speaking) 여부를 결정하는 단계; 및
    상기 발화 여부에 기초하여 상기 기여도를 결정하는 단계
    를 포함하고,
    상기 발화 여부를 결정하는 단계는,
    상기 제1 비디오 신호에 포함된 입술 모양이 발화이고, 상기 제1 오디오 신호에 포함된 음성의 존재 여부가 유인 경우, 상기 발화 여부를 발화로 결정하는 단계
    를 포함하고,
    상기 기여도는 상기 복수의 참여자 장치들 각각을 이용하여 상기 영상 회의에 참여하는 하나 이상의 참여자들 각각의 기여도 중에서 가장 높은 기여도인 영상 회의 서비스 제공 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 제1 비디오 신호 및 오디오 신호의 비트스트림을 추출하여 복호화하는 단계
    를 더 포함하는 영상 회의 서비스 제공 방법.
  4. 제1항에 있어서,
    상기 제1 비디오 신호의 특징값은,
    얼굴의 수, 얼굴 별 크기, 얼굴 별 위치, 얼굴 별 시선, 얼굴 별 입 모양 중에서 적어도 하나
    를 더 포함하는 영상 회의 서비스 제공 방법.
  5. 제1항에 있어서,
    상기 제1 오디오 신호의 특징값은,
    음성의 존재 여부, 음성의 크기 및 음성의 연속 시간 중에서 적어도 하나
    를 포함하는 영상 회의 서비스 제공 방법.
  6. 삭제
  7. 제1항에 있어서,
    상기 생성하는 단계는,
    상기 기여도에 기초하여 상기 제1 비디오 신호 및 오디오 신호에 대한 믹싱 품질 및 믹싱 방법 중에서 적어도 하나를 결정하는 단계
    를 포함하는 영상 회의 서비스 제공 방법.
  8. 제7항에 있어서,
    상기 제1 비디오 신호에 대한 믹싱 방법은,
    영상 배치 순서 및 영상 배치 크기 중에서 적어도 하나를 제어하는 영상 회의 서비스 제공 방법.
  9. 제7항에 있어서,
    상기 제1 오디오 신호에 대한 믹싱 방법은,
    음성 차단 여부 및 음량의 레벨 중에서 적어도 하나를 제어하는 영상 회의 서비스 제공 방법.
  10. 제1항에 있어서,
    상기 생성하는 단계는,
    상기 제2 비디오 신호 및 오디오 신호를 부호화 및 패킷화하는 단계
    를 포함하는 영상 회의 서비스 제공 방법.
  11. 영상 회의에 참여하는 복수의 참여자 장치들 각각의 제1 비디오 신호 및 오디오 신호를 수신하는 송수신기; 및
    상기 제1 비디오 신호의 특징점을 분석하여 상기 제1 비디오 신호의 특징값을 추정하고, 상기 제1 오디오 신호의 특징점을 분석하여 상기 제1 오디오 신호의 특징값을 추정하고, 상기 제1 비디오 신호의 특징값 및 상기 제1 오디오 신호의 특징값 중에서 적어도 하나에 기초하여 상기 복수의 참여자 장치들의 영상 회의에 대한 기여도를 결정하고, 상기 기여도에 따라 상기 제1 비디오 신호 및 상기 제1 오디오 신호를 믹싱하여 상기 복수의 참여자 장치들에게 전송하는 제2 비디오 신호 및 오디오 신호를 생성하는 컨트롤러
    를 포함하고,
    상기 컨트롤러는,
    상기 제1 비디오 신호의 특징값 및 상기 제1 오디오 신호의 특징값 중에서 적어도 하나에 기초하여 상기 복수의 참여자 장치들의 발화(speaking) 여부를 결정하고, 상기 발화 여부에 기초하여 상기 복수의 참여자 장치들의 영상 회의에 대한 기여도를 결정하고,
    상기 제1 비디오 신호에 포함된 입술 모양이 발화이고, 상기 제1 오디오 신호에 포함된 음성의 존재 여부가 유인 경우, 상기 발화 여부를 발화로 결정하고,
    상기 기여도는 상기 복수의 참여자 장치들 각각을 이용하여 상기 영상 회의에 참여하는 하나 이상의 참여자들 각각의 기여도 중에서 가장 높은 기여도인 영상 회의 서비스 제공 장치.
  12. 제11항에 있어서,
    상기 컨트롤러는,
    상기 제1 비디오 신호 및 오디오 신호를 분석하고, 상기 제1 비디오 신호 및 상기 제1 오디오 신호의 특징값을 추정하는 분석부; 및
    상기 특징값에 기초하여 상기 기여도를 결정하는 결정부
    를 포함하는 영상 회의 서비스 제공 장치.
  13. 제12항에 있어서,
    상기 분석부는,
    상기 제1 비디오 신호 및 오디오 신호의 비트스트림을 추출하여 복호화하는 영상 회의 서비스 제공 장치.
  14. 제11항에 있어서,
    상기 제1 비디오 신호의 특징값은,
    얼굴의 수, 얼굴 별 크기, 얼굴 별 위치, 얼굴 별 시선, 얼굴 별 입 모양 중에서 적어도 하나
    를 더 포함하는 영상 회의 서비스 제공 장치.
  15. 제11항에 있어서,
    상기 제1 오디오 신호의 특징값은,
    음성의 존재 여부, 음성의 크기 및 음성의 연속 시간 중에서 적어도 하나
    를 포함하는 영상 회의 서비스 제공 장치.
  16. 제11항에 있어서,
    상기 컨트롤러는,
    상기 영상 회의에 참여하는 상기 복수의 참여자 장치들 각각의 제1 비디오 신호 및 오디오 신호를 믹싱하는 믹싱부; 및
    상기 제2 비디오 신호 및 오디오 신호를 생성하는 생성부
    를 더 포함하는 영상 회의 서비스 제공 장치.
  17. 제16항에 있어서,
    상기 믹싱부는,
    상기 기여도에 기초하여 상기 제1 비디오 신호 및 오디오 신호에 대한 믹싱 품질 및 믹싱 방법 중에서 적어도 하나를 결정하는 영상 회의 서비스 제공 장치.
  18. 제17항에 있어서,
    상기 제1 비디오 신호에 대한 믹싱 방법은,
    영상 배치 순서 및 영상 배치 크기 중에서 적어도 하나를 제어하는 영상 회의 서비스 제공 장치.
  19. 제17항에 있어서,
    상기 제1 오디오 신호에 대한 믹싱 방법은,
    음성 차단 여부 및 음량의 레벨 중에서 적어도 하나를 제어하는 영상 회의 서비스 제공 장치.
  20. 제16항에 있어서,
    상기 생성부는,
    상기 제2 비디오 신호 및 오디오 신호를 부호화 및 패킷화하는 영상 회의 서비스 제공 장치.
  21. 제1항에 있어서,
    상기 발화 여부를 결정하는 단계는,
    상기 제1 비디오 신호와 상기 제1 오디오 신호가 모두 발화인 구간 및 상기 제1 비디오 신호와 상기 제1 오디오 신호 중에서 적어도 하나가 발화인 구간 중에서 어느 하나를 발화로 결정하는 단계; 및
    상기 제1 비디오 신호와 상기 제1 오디오 신호가 모두 비발화인 구간 및 상기 제1 비디오 신호와 상기 제1 오디오 신호 중에서 적어도 하나가 비발화인 구간 중에서 어느 하나를 비발화로 결정하는 단계
    를 더 포함하는 영상 회의 서비스 제공 방법.
  22. 제11항에 있어서,
    상기 컨트롤러는,
    상기 제1 비디오 신호와 상기 제1 오디오 신호가 모두 발화인 구간 및 상기 제1 비디오 신호와 상기 제1 오디오 신호 중에서 적어도 하나가 발화인 구간 중에서 어느 하나를 발화로 결정하고, 상기 제1 비디오 신호와 상기 제1 오디오 신호가 모두 비발화인 구간 및 상기 제1 비디오 신호와 상기 제1 오디오 신호 중에서 적어도 하나가 비발화인 구간 중에서 어느 하나를 비발화로 결정하는 영상 회의 서비스 제공 장치.
KR1020170030782A 2017-03-10 2017-03-10 영상 회의 서비스 제공 방법 및 이를 수행하는 장치들 KR101858895B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170030782A KR101858895B1 (ko) 2017-03-10 2017-03-10 영상 회의 서비스 제공 방법 및 이를 수행하는 장치들
US15/917,313 US20180262716A1 (en) 2017-03-10 2018-03-09 Method of providing video conference service and apparatuses performing the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170030782A KR101858895B1 (ko) 2017-03-10 2017-03-10 영상 회의 서비스 제공 방법 및 이를 수행하는 장치들

Publications (1)

Publication Number Publication Date
KR101858895B1 true KR101858895B1 (ko) 2018-05-16

Family

ID=62451864

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170030782A KR101858895B1 (ko) 2017-03-10 2017-03-10 영상 회의 서비스 제공 방법 및 이를 수행하는 장치들

Country Status (2)

Country Link
US (1) US20180262716A1 (ko)
KR (1) KR101858895B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022065663A1 (ko) * 2020-09-25 2022-03-31 삼성전자(주) 전자장치 및 그 제어방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7225631B2 (ja) * 2018-09-21 2023-02-21 ヤマハ株式会社 画像処理装置、カメラ装置、および画像処理方法
US11277462B2 (en) * 2020-07-14 2022-03-15 International Business Machines Corporation Call management of 5G conference calls
US11451593B2 (en) * 2020-09-09 2022-09-20 Meta Platforms, Inc. Persistent co-presence group videoconferencing system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003189273A (ja) * 2001-12-20 2003-07-04 Sharp Corp 発言者識別装置及び該発言者識別装置を備えたテレビ会議システム
JP2016046705A (ja) * 2014-08-25 2016-04-04 コニカミノルタ株式会社 会議録編集装置、その方法とプログラム、会議録再生装置、および会議システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8289363B2 (en) * 2006-12-28 2012-10-16 Mark Buckler Video conferencing
US8947493B2 (en) * 2011-11-16 2015-02-03 Cisco Technology, Inc. System and method for alerting a participant in a video conference
US20140341280A1 (en) * 2012-12-18 2014-11-20 Liu Yang Multiple region video conference encoding
US9369668B2 (en) * 2014-03-14 2016-06-14 Cisco Technology, Inc. Elementary video bitstream analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003189273A (ja) * 2001-12-20 2003-07-04 Sharp Corp 発言者識別装置及び該発言者識別装置を備えたテレビ会議システム
JP2016046705A (ja) * 2014-08-25 2016-04-04 コニカミノルタ株式会社 会議録編集装置、その方法とプログラム、会議録再生装置、および会議システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022065663A1 (ko) * 2020-09-25 2022-03-31 삼성전자(주) 전자장치 및 그 제어방법

Also Published As

Publication number Publication date
US20180262716A1 (en) 2018-09-13

Similar Documents

Publication Publication Date Title
KR101858895B1 (ko) 영상 회의 서비스 제공 방법 및 이를 수행하는 장치들
US9763002B1 (en) Stream caching for audio mixers
US11115541B2 (en) Post-teleconference playback using non-destructive audio transport
Wu et al. Time domain audio visual speech separation
EP3459077B1 (en) Permutation invariant training for talker-independent multi-talker speech separation
Chung et al. Facefilter: Audio-visual speech separation using still images
US9407869B2 (en) Systems and methods for initiating conferences using external devices
CN110709924A (zh) 视听语音分离
US20140369528A1 (en) Mixing decision controlling decode decision
WO2022039967A1 (en) Training speech recognition systems using word sequences
US10269371B2 (en) Techniques for decreasing echo and transmission periods for audio communication sessions
CN103339670A (zh) 确定多通道音频信号的通道间时间差
EP4099709A1 (en) Data processing method and apparatus, device, and readable storage medium
US10432687B1 (en) Biometric masking
CN112399023A (zh) 利用语音会议的非对称信道的音频控制方法及系统
Friedland et al. Dialocalization: Acoustic speaker diarization and visual localization as joint optimization problem
CN111354367A (zh) 一种语音处理方法、装置及计算机存储介质
ES2928736T3 (es) Características de bajo nivel compensadas por canal para el reconocimiento de hablantes
Chen et al. VoiceCloak: Adversarial Example Enabled Voice De-Identification with Balanced Privacy and Utility
US11574622B2 (en) Joint automatic speech recognition and text to speech conversion using adversarial neural networks
Wark et al. The use of temporal speech and lip information for multi-modal speaker identification via multi-stream HMMs
Lin et al. Focus on the sound around you: Monaural target speaker extraction via distance and speaker information
Ding et al. UltraSpeech: Speech Enhancement by Interaction between Ultrasound and Speech
ALMAIAH et al. A NOVEL FEDERATED-LEARNING BASED ADVERSARIAL FRAMEWORK FOR AUDIO-VISUAL SPEECH ENHANCEMENT
Xiang et al. A two-stage deep representation learning-based speech enhancement method using variational autoencoder and adversarial training

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant