KR20230066362A - 지속적 공존 그룹 화상 회의 시스템 - Google Patents

지속적 공존 그룹 화상 회의 시스템 Download PDF

Info

Publication number
KR20230066362A
KR20230066362A KR1020237008589A KR20237008589A KR20230066362A KR 20230066362 A KR20230066362 A KR 20230066362A KR 1020237008589 A KR1020237008589 A KR 1020237008589A KR 20237008589 A KR20237008589 A KR 20237008589A KR 20230066362 A KR20230066362 A KR 20230066362A
Authority
KR
South Korea
Prior art keywords
user
client device
audio
conversation
users
Prior art date
Application number
KR1020237008589A
Other languages
English (en)
Inventor
일로나 파파바
아리에 셀렉맨
니콜라스 존 시어러
안드레아 셀라게아
Original Assignee
메타 플랫폼스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 메타 플랫폼스, 인크. filed Critical 메타 플랫폼스, 인크.
Publication of KR20230066362A publication Critical patent/KR20230066362A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1822Conducting the conference, e.g. admission, detection, selection or grouping of participants, correlating users to one or more conference sessions, prioritising transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • H04L51/043Real-time or near real-time messaging, e.g. instant messaging [IM] using or handling presence information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1069Session establishment or de-establishment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1083In-session procedures
    • H04L65/1093In-session procedures by adding participants; by removing participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/401Support for services or applications wherein the services involve a main real-time session and one or more additional parallel real-time or time sensitive sessions, e.g. white board sharing or spawning of a subconference
    • H04L65/4015Support for services or applications wherein the services involve a main real-time session and one or more additional parallel real-time or time sensitive sessions, e.g. white board sharing or spawning of a subconference where at least one of the additional parallel sessions is real time or time sensitive, e.g. white board sharing, collaboration or spawning of a subconference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/563User guidance or feature selection
    • H04M3/564User guidance or feature selection whereby the feature is a sub-conference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

다수의 사람들과 함께 온라인 회의실에 연결하기 위한 시스템이 개시된다. 제1 사용자의 제1 클라이언트 디바이스는 온라인 회의실에 대한 연결을 개시한다. 해당 연결이 개시된 후에, 제1 클라이언트 디바이스는 온라인 회의실에 연결된 한 명 이상의 다른 사용자의 하나 이상의 클라이언트 디바이스로부터 비디오 데이터 및 오디오 데이터를 수신하기 시작한다. 온라인 회의실에 연결되어 있는 동안, 제1 클라이언트 디바이스는 온라인 회의에 연결된 한 명 이상의 다른 사용자의 하나 이상의 클라이언트 디바이스로부터의 수신된 비디오 데이터에 기초하여 비디오 스트림을 디스플레이한다. 제1 사용자와의 대화를 시작하기 위한 요청을 제2 사용자로부터 수신할 시에, 제1 클라이언트 디바이스는 제2 사용자의 클라이언트 디바이스로부터 수신되는 오디오 데이터에 기초하여 오디오 스트림을 재생한다.

Description

지속적 공존 그룹 화상 회의 시스템
본 개시내용은 일반적으로 온라인 화상 회의에 관한 것이며, 보다 구체적으로는 온라인 회의실에 연결된 사용자들을 위해 가상 존재(virtual presence)를 에뮬레이션하는 것에 관한 것이다.
온라인 화상 회의 시스템들은 사용자들이 다른 사람들과 원격으로 연결하고 오디오 및 비주얼 수단을 사용하여 서로 통신할 수 있게 한다. 그렇지만, 화상 회의 시스템들은 현실 세계 환경을 효과적으로 에뮬레이션하지 못한다. 예를 들어, 화상 회의에서, 각각의 사용자는 캡처된 오디오 피드를 중앙집중식 서버에게 송신한다. 중앙 집중식 서버는 이어서 오디오 피드들 모두를 단일 오디오 스트림으로 결합하고 화상 회의에 연결된 각각의 사용자에게 오디오 스트림을 송신한다. 이에 따라, 모든 사용자는 대화를 나누고 있는 사용자들 모두의 말을 들을 수 있다. 그러나 각각의 사용자가 단일 오디오 스트림을 수신하므로, 다수의 사람들이 동시에 대화를 나누는 경우, 화상 회의에 연결된 사용자들에게 송신되는 오디오 스트림은 대화를 나누고 있는 양쪽 사용자들 모두의 오디오 피드들의 중첩을 포함한다.
더욱이, 각각의 사용자에게 송신되는 오디오 스트림이 화상 회의에 연결된 다른 모든 사용자의 오디오 피드들의 중첩을 포함하므로, 한 번에 하나의 대화만이 수행될 수 있다. 화상 회의에 연결된 두 명의 사용자가 그들 사이에 별도의 대화를 가지길 원할 경우, 해당 사용자들은 화상 회의로부터 연결을 끊고 새로운 세션을 시작해야 한다. 따라서, 프로세스를 비효율적으로 만든다.
마지막으로, 화상 회의 시스템을 통해 두 명 이상의 사용자 사이의 대화가 시작되기 전에, 두 명 이상의 사용자가 각각 화상 회의 시스템에 연결해야 한다. 예를 들어, 사용자들 각각은 합의된 시간에 화상 회의 시스템의 특정 주소에 연결할 수 있다. 이것은 회의의 날짜 및 시간과 같은 사전 계획을 필요로 하는 것은 물론, 연결이 설정될 수 있기 전에 화상 회의 시스템을 연결하기 위한 주소가 각각의 사용자에게 제공되어야 한다. 다른 예에서, 제1 사용자는 제2 사용자에게 전화를 걸 수 있다. 제2 사용자의 통신 시스템은 제1 사용자가 통화를 시작했다는 표시를 디스플레이하고 통화를 수락할지 여부를 제2 사용자에게 요청할 수 있다. 이것은 제2 사용자가 전화를 받을 수 있는지 여부를 추측하도록 제1 사용자에게 요구한다. 더욱이, 이것은 제1 사용자가 전화를 걸고 있다는 표시를 보고 통화를 명시적으로 수락하도록 제2 사용자에게 요구한다.
이러한 단점들은 사람들이 물리적으로 상이한 장소에 위치할 때 서로 협업하기 위한 마찰 수준(level of friction)을 증가시킨다. 따라서, 물리적으로 상이한 장소들에 위치하는 사용자들이 서로 보다 쉽게 협업할 수 있게 하기 위해 원격 사용자의 존재를 가상으로 에뮬레이션하는 시스템을 갖는 것이 유리할 것이다.
실시예들은 다수의 사람들과 함께 온라인 회의실에 연결하기 위한 시스템을 포함한다. 제1 사용자와 연관된 제1 클라이언트 디바이스는 온라인 회의실에 대한 연결을 개시한다. 상기 연결이 개시된 후에, 상기 제1 클라이언트 디바이스는 상기 온라인 회의실에 또한 연결된 한 명 이상의 다른 사용자의 하나 이상의 클라이언트 디바이스로부터 비디오 데이터 및 오디오 데이터를 수신하기 시작한다. 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스는 제2 사용자와 연관된 제2 클라이언트 디바이스를 포함한다. 상기 온라인 회의실에 연결되어 있는 동안, 상기 제1 클라이언트 디바이스는 상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 비디오 스트림을 디스플레이한다. 상기 제2 클라이언트 디바이스로부터 요청을 수신할 시에, 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터 상기 비디오 데이터 및 오디오 데이터를 수신하는 동안, 상기 제1 사용자와 대화를 시작하기 위해, 상기 제1 클라이언트 디바이스는 상기 제2 클라이언트 디바이스로부터 수신되는 상기 오디오 데이터에 기초하여 오디오 스트림을 재생한다.
일부 실시예들에서, 상기 온라인 회의실에 연결된 특정 사용자에 대응하는 비디오를 디스플레이하기 전에, 상기 제1 클라이언트 디바이스는 상기 사용자의 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 사람의 존재를 검출한다. 사람이 검출되는 경우, 상기 제1 클라이언트 디바이스는 상기 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터를 상기 디스플레이되는 비디오 스트림에 포함시킨다. 반대로, 사람이 검출되지 않는 경우, 상기 제1 클라이언트 디바이스는 상기 사용자가 자리 비움(away) 상태에 있다는 표시를 디스플레이한다.
일부 실시예들에서, 상기 온라인 회의실에 연결된 각각의 사용자에 대해, 상기 제1 클라이언트 디바이스는 사용자의 대화 상태에 적어도 부분적으로 기초하여 상기 사용자에 대응하는 오디오 피드를 재생할지 여부를 결정한다. 예를 들어, 상기 대화 상태가 상기 제1 사용자가 제2 사용자와 활성 대화(active conversation)에 있다는 것을 나타내는 경우, 상기 제1 클라이언트 디바이스는 상기 제2 사용자에 대응하는 상기 오디오 피드를 재생하고, 상기 제2 클라이언트 디바이스는 상기 제1 사용자의 상기 오디오 피드를 재생한다. 이와 달리, 상기 대화 상태가 상기 제1 사용자가 상기 제2 사용자와 활성 대화에 있지 않다는 것을 나타내는 경우, 상기 제1 클라이언트 디바이스는 상기 제2 사용자에 대응하는 상기 오디오 피드를 재생하지 않고, 상기 제2 클라이언트 디바이스는 상기 제1 사용자의 상기 오디오 피드를 재생하지 않는다.
일부 실시예들에서, 상기 온라인 회의실에 연결된 각각의 사용자에 대해, 상기 제1 클라이언트 디바이스는 감쇠 인자를 할당한다. 상기 제1 클라이언트 디바이스는 상기 대응하는 사용자의 상기 대화 상태에 기초하여 상기 감쇠 인자를 결정한다. 예를 들어, 상기 대화 상태가 상기 제1 사용자가 상기 제2 사용자와 활성 대화에 있다는 것을 나타내는 경우, 상기 제1 클라이언트 디바이스는 1(또는 100%)의 값을 상기 제2 사용자의 상기 감쇠 인자에 할당한다. 이와 달리, 상기 대화 상태가 상기 제1 사용자가 상기 제2 사용자와 활성 대화에 있지 않다는 것을 나타내는 경우, 상기 제1 클라이언트 디바이스는 0(또는 0%)의 값을 상기 제2 사용자의 상기 감쇠 인자에 할당한다. 상기 제1 클라이언트 디바이스는 이어서 각각의 사용자에 대한 상기 오디오 데이터를 대응하는 감쇠 인자와 곱하고 상기 감쇠된 오디오 데이터를 결합하여 출력 오디오 스트림을 생성한다.
본 개시내용의 제1 양상에 따르면, 방법이 제공되며, 상기 방법은: 제1 사용자와 연관된 제1 클라이언트 디바이스에서: 온라인 회의실에 대한 연결을 개시하는 단계; 상기 온라인 회의실에 또한 연결된 한 명 이상의 다른 사용자의 하나 이상의 클라이언트 디바이스로부터 비디오 데이터 및 오디오 데이터를 수신하는 단계 - 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스는 제2 사용자와 연관된 제2 클라이언트 디바이스를 포함함 -; 상기 온라인 회의실에 연결되는 것에 응답하여, 상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 비디오 스트림을 디스플레이하는 단계; 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터 상기 비디오 데이터 및 오디오 데이터를 수신하는 동안, 상기 하나 이상의 클라이언트 디바이스 중 상기 제2 클라이언트 디바이스로부터 상기 제1 사용자와 대화를 시작하기 위한 요청을 수신하는 단계; 및 상기 요청을 수신하는 것에 응답하여, 상기 제2 클라이언트 디바이스로부터 수신되는 상기 오디오 데이터에 기초하여 오디오 스트림을 재생하는 단계를 포함한다.
일부 실시예들에서, 상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 단계는: 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해: 상기 다른 사용자의 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 사람의 존재를 검출하는 단계, 및 상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 상기 사람의 상기 존재를 검출하는 것에 응답하여, 상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에 기초하여 상기 다른 사용자에 대응하는 비디오 피드를 디스플레이하는 단계를 포함한다.
일부 실시예들에서, 상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 단계는: 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해: 상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 상기 사람의 상기 존재를 검출하지 않는 것에 응답하여, 상기 다른 사용자가 자리를 비웠다는 표시를 디스플레이하는 단계를 더 포함한다.
일부 실시예들에서, 상기 방법은: 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해: 상기 다른 사용자와 상기 제1 사용자 사이의 대화 상태에 기초하여 상기 다른 사용자에 대응하는 오디오 피드를 재생할지 여부를 결정하는 단계를 더 포함한다.
일부 실시예들에서, 상기 방법은: 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해: 상기 다른 사용자와 상기 제1 사용자 사이의 대화 상태에 기초하여 상기 다른 사용자에 대응하는 감쇠 인자를 할당하는 단계, 및 상기 할당된 감쇠 인자에 기초하여, 상기 다른 사용자에 대응하는 오디오 피드를 감쇠시키는 단계; 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대응하는 상기 감쇠된 오디오 피드들을 결합하는 단계; 및 상기 결합된 감쇠된 오디오 피드를 재생하는 단계를 더 포함한다.
일부 실시예들에서, 상기 다른 사용자와 상기 제1 사용자 사이의 대화 상태에 기초하여 상기 다른 사용자에 대응하는 감쇠 인자를 결정하는 단계는: 상기 다른 사용자가 상기 제1 사용자와 활성 대화에 있지 않을 때 0의 값을 상기 감쇠 인자에 할당하는 단계; 및 상기 다른 사용자가 상기 제1 사용자와 활성 대화에 있을 때 1의 값을 상기 감쇠 인자에 할당하는 단계를 포함한다.
일부 실시예들에서, 상기 온라인 회의실에 대한 상기 연결을 개시하는 단계는: 미리 설정된 시간에서 상기 온라인 회의실에 자동으로 연결하는 단계를 포함한다.
일부 실시예들에서, 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자는 제3 사용자 및 제4 사용자를 포함하고, 여기서 상기 방법은: 상기 제3 사용자가 상기 제4 사용자와 활성 대화에 있다는 표시를 수신하는 것에 응답하여: 상기 제3 사용자가 상기 제4 사용자와 활성 대화에 있다는 상기 표시를 디스플레이하는 단계, 및 상기 제4 사용자가 상기 제3 사용자와 활성 대화에 있다는 상기 표시를 디스플레이하는 단계를 더 포함한다.
일부 실시예들에서, 상기 방법은: 상기 제1 사용자가 상기 제3 사용자 또는 상기 제4 사용자와 활성 대화에 있지 않다고 결정하는 것에 응답하여, 상기 제3 사용자 및 상기 제4 사용자에 대응하는 오디오 피드를 음소거(muting)하는 단계를 더 포함한다.
일부 실시예들에서, 상기 방법은: 상기 제3 사용자와 상기 제4 사용자 사이의 상기 대화에 참여하기 위한 표시를 수신하는 단계; 상기 제3 사용자와 상기 제4 사용자 사이의 상기 대화에 참여하기 위한 상기 표시를 수신하는 것에 응답하여: 상기 대화에 참여하기 위한 요청을 상기 제3 사용자의 상기 클라이언트 디바이스 및 상기 제4 사용자의 상기 클라이언트 디바이스에게 송신하는 단계, 및 상기 제3 사용자의 상기 클라이언트 디바이스 및 상기 제4 사용자의 상기 클라이언트 디바이스로부터 수신되는 상기 오디오 데이터에 기초하여 오디오 스트림을 재생하는 단계를 더 포함한다.
본 개시내용의 제2 양상에 따르면, 방법이 제공되며, 상기 방법은: 온라인 회의실에 연결된 복수의 클라이언트 디바이스들로부터 데이터 스트림을 수신하는 단계 - (i) 상기 복수의 클라이언트 디바이스들은 복수의 사용자들과 연관되고, (ii) 상기 데이터 스트림은 오디오 데이터 및 상태 데이터를 포함하며, (iii) 상기 상태 데이터는 대응하는 사용자가 상기 온라인 회의실에 연결된 다른 사용자와 활성 대화에 있는지 여부를 나타냄 -; 상기 복수의 클라이언트 디바이스들의 각각의 클라이언트 디바이스에 대해, 상기 사용자의 상기 데이터 스트림에 포함된 상기 상태 데이터에 기초하여 대응하는 사용자가 상기 온라인 회의실에 연결된 다른 사용자와 활성 대화에 있는지 여부를 결정하는 단계; 상기 복수의 사용자들 중 제1 사용자가 상기 복수의 사용자들 중 제2 사용자와 활성 대화에 있다고 결정하는 것에 응답하여: 상기 제1 사용자가 상기 제2 사용자와 활성 대화에 있다는 표시를 디스플레이하는 단계, 및 상기 제2 사용자가 상기 제1 사용자와 활성 대화에 있다는 표시를 디스플레이하는 단계; 상기 제1 사용자와 상기 제2 사용자 사이의 상기 대화에 참여하기 위한 표시를 수신하는 단계; 상기 제1 사용자와 상기 제2 사용자 사이의 상기 대화에 참여하기 위한 상기 표시를 수신하는 것에 응답하여: 상기 대화에 참여하기 위한 요청을 상기 제1 사용자의 클라이언트 디바이스 및 상기 제2 사용자의 클라이언트 디바이스에게 송신하는 단계, 및 상기 제1 사용자 및 상기 제2 사용자에 대응하는 상기 오디오 스트림을 재생하는 단계를 포함한다.
일부 실시예들에서, 상기 제1 사용자 및 상기 제2 사용자에 대응하는 상기 오디오 스트림을 재생하는 단계는: 상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자에게 감쇠 인자를 할당하는 단계 - 상기 제1 사용자 및 상기 제2 사용자에게 할당되는 상기 감쇠 인자는 0이 아닌 값을 갖고, 상기 온라인 회의실에 연결된 상기 복수의 사용자들 중 다른 모든 사용자에게 할당되는 상기 감쇠 인자는 0의 값을 가짐 -, 및 상기 할당된 감쇠 인자에 기초하여, 상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자에 대응하는 오디오 피드를 감쇠시키는 단계; 상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자에 대응하는 상기 감쇠된 오디오 피드들을 결합하는 것에 의해 오디오 스트림을 생성하는 단계; 및 상기 생성된 오디오 스트림을 재생하는 단계를 포함한다.
일부 실시예들에서, 상기 방법은: 상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자의 상기 클라이언트 디바이스로부터 비디오 데이터를 수신하는 단계; 상기 온라인 회의실에 연결된 것에 응답하여, 상기 온라인 회의에 연결된 상기 복수의 사용자들의 각각의 사용자의 상기 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 비디오 스트림을 디스플레이하는 단계를 더 포함한다.
일부 실시예들에서, 상기 온라인 회의에 연결된 상기 복수의 사용자들의 각각의 사용자의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 단계는: 상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자에 대해: 상기 사용자의 상기 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 사람의 존재를 검출하는 단계, 및 상기 사용자의 상기 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 사람의 상기 존재를 검출하는 것에 응답하여, 상기 사용자의 상기 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에 기초하여 상기 사용자에 대응하는 비디오 피드를 디스플레이하는 단계를 포함한다.
일부 실시예들에서, 상기 온라인 회의에 연결된 상기 복수의 사용자들의 각각의 사용자의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 단계는: 상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자에 대해: 상기 사용자의 상기 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 사람의 상기 존재를 검출하지 않는 것에 응답하여, 상기 사용자가 자리를 비웠다는 표시를 디스플레이하는 단계를 더 포함한다.
본 개시내용의 제3 양상에 따르면, 비일시적 컴퓨터 판독 가능 저장 매체가 제공되며, 상기 비일시적 컴퓨터 판독 가능 저장 매체는 제1 사용자와 연관된 제1 클라이언트 디바이스의 하나 이상의 프로세서에 의해 실행되도록 구성된 하나 이상의 프로그램을 저장하며, 상기 하나 이상의 프로그램은, 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 제1 클라이언트 디바이스로 하여금: 온라인 회의실에 대한 연결을 개시하게 하고; 상기 온라인 회의실에 또한 연결된 한 명 이상의 다른 사용자의 하나 이상의 클라이언트 디바이스로부터 비디오 데이터 및 오디오 데이터를 수신하게 하며 - 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스는 제2 사용자와 연관된 제2 클라이언트 디바이스를 포함함 -; 상기 온라인 회의실에 연결되는 것에 응답하여, 상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 비디오 스트림을 디스플레이하게 하고; 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터 상기 비디오 데이터 및 오디오 데이터를 수신하는 동안, 상기 하나 이상의 클라이언트 디바이스 중 상기 제2 클라이언트 디바이스로부터 상기 제1 사용자와 대화를 시작하기 위한 요청을 수신하게 하며; 상기 요청을 수신하는 것에 응답하여, 상기 제2 클라이언트 디바이스로부터 수신되는 상기 오디오 데이터에 기초하여 오디오 스트림을 재생하게 한다.
일부 실시예들에서, 상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 명령어들은 상기 제1 클라이언트 디바이스로 하여금: 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해: 상기 다른 사용자의 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 사람의 존재를 검출하게 하고, 상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 상기 사람의 상기 존재를 검출하는 것에 응답하여, 상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에 기초하여 상기 다른 사용자에 대응하는 비디오 피드를 디스플레이하게 한다.
일부 실시예들에서, 상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 명령어들은 추가로 상기 제1 클라이언트 디바이스로 하여금: 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해: 상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 상기 사람의 상기 존재를 검출하지 않는 것에 응답하여, 상기 다른 사용자가 자리를 비웠다는 표시를 디스플레이하게 한다.
일부 실시예들에서, 상기 명령어들은 추가로 상기 제1 클라이언트 디바이스로 하여금: 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해: 상기 다른 사용자와 상기 제1 사용자 사이의 대화 상태에 기초하여 상기 다른 사용자에 대응하는 오디오 피드를 재생할지 여부를 결정하게 한다.
일부 실시예들에서, 상기 명령어들은 추가로 상기 제1 클라이언트 디바이스로 하여금: 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해: 상기 다른 사용자와 상기 제1 사용자 사이의 대화 상태에 기초하여 상기 다른 사용자에 대응하는 감쇠 인자를 할당하게 하고, 상기 할당된 감쇠 인자에 기초하여, 상기 다른 사용자에 대응하는 오디오 피드를 감쇠시키게 하며; 상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대응하는 상기 감쇠된 오디오 피드들을 결합하게 하고; 상기 결합된 감쇠된 오디오 피드를 재생하게 한다.
도 1a는 실시예에 따른, 통신 시스템(120)에 대한 시스템 환경(100)의 블록 다이어그램을 예시한다.
도 1b는 실시예에 따른, 통신 시스템(120)의 블록 다이어그램이다.
도 2a는 일 실시예에 따른, 통신 시스템을 사용하는 가상 존재 화상 회의의 다이어그램을 예시한다.
도 2b는 일 실시예에 따른, 회의실에 연결된 사용자의 비디오 피드를 디스플레이하는 그래픽 사용자 인터페이스를 예시한다.
도 3a는 일 실시예에 따른, 회의실에 연결된 다수의 사용자들 사이의 대화를 가능하게 하는 오디오 출력의 생성을 예시하는 다이어그램을 예시한다.
도 3b는 일 실시예에 따른, 회의실에 연결된 사용자들의 오디오 출력의 타이밍 다이어그램을 예시한다.
도 4는 일 실시예에 따른, 회의실에 연결된 사용자들을 위해 채널을 켜거나 끄기 위한 방법의 흐름 다이어그램을 예시한다.
도 5a는 일 실시예에 따른, 회의실에 연결된 사용자와 대화를 시작하기 위한 방법의 흐름 다이어그램을 예시한다.
도 5b는 일 실시예에 따른, 회의실에 연결된 사용자와의 대화를 종료하기 위한 방법의 흐름 다이어그램을 예시한다.
도 6은 일 실시예에 따른, 회의실에 연결된 사용자와의 활성 대화에 참여하기 위한 방법의 흐름 다이어그램을 예시한다.
도면들은 예시 목적으로만 다양한 실시예들을 묘사한다. 본 기술 분야의 통상의 기술자는, 본 명세서에서 설명되는 원리들을 벗어나지 않으면서, 본 명세서에서 예시되는 구조들 및 방법들의 대안적인 실시예들이 이용될 수 있다는 것을 이하의 논의로부터 즉각 인식할 것이다.
시스템 아키텍처
도 1a는 실시예에 따른, 통신 시스템(120)에 대한 시스템 환경(100)의 블록 다이어그램을 예시한다. 일 실시예에 따르면, 시스템 환경은 온라인 회의실에 연결된 8 명의 사용자(190A 내지 190H)를 포함한다. 시스템 환경(100)은 통신 서버(105), 하나 이상의 클라이언트 디바이스(115)(예를 들면, 클라이언트 디바이스들(115A, 115B)) 및 네트워크(110)를 더 포함한다. 대안적인 구성들에서, 상이한 및/또는 추가적인 컴포넌트들이 시스템 환경(100)에 포함될 수 있다. 예를 들어, 시스템 환경(100)은 추가적인 클라이언트 디바이스들(115), 추가적인 통신 서버들(105) 또는 추가적인 통신 시스템들(120)을 포함할 수 있다.
실시예에서, 통신 시스템(120)은 독립형 네트워크 지원 디바이스(standalone network-enabled device)로서 작동하는 통합된 컴퓨팅 디바이스를 포함한다. 다른 실시예에서, 통신 시스템(120)은 텔레비전 또는 다른 외부 디스플레이 및/또는 오디오 출력 시스템과 같은 외부 미디어 디바이스에 결합하기 위한 컴퓨팅 디바이스를 포함한다. 이 실시예에서, 통신 시스템은 무선 인터페이스 또는 유선 인터페이스(예를 들면, HDMI 케이블)를 통해 외부 미디어 디바이스에 결합될 수 있고, 외부 미디어 디바이스의 다양한 기능들, 예컨대, 그의 디스플레이, 스피커들 및 입력 디바이스들을 활용할 수 있다. 여기서, 통신 시스템(120)은 특별히 통신 시스템(120)과 상호 작용하기 위한 특수 소프트웨어, 펌웨어 또는 하드웨어를 갖지 않는 일반 외부 미디어 디바이스와 호환되도록 구성될 수 있다. 통신 시스템(120)은 도 1b와 관련하여 아래에서 보다 상세히 설명된다.
각각의 사용자(190)는 통신 시스템(120)을 사용하여 회의실에 연결한다. 일부 실시예들에서, 회의실에 연결하기 위해, 통신 디바이스는 요청을 통신 서버(105)에게 송신하고, 통신 서버(105)는 회의실에 연결된 사용자들 각각 사이의 통신을 용이하게 한다. 예를 들어, 각각의 사용자의 통신 시스템(120)은 통합된 카메라와 마이크로폰을 사용하여 비디오 및 오디오 데이터를 캡처하고, 캡처된 비디오 및 오디오 데이터를 통신 서버(105)에게 송신한다. 통신 서버(105)는 이어서 비디오 및 오디오 데이터를 회의실에 연결된 다른 사용자들에게 포워딩한다.
일부 실시예들에서, 통신 시스템들(120) 각각은 미리 설정된 시간에서 특정 회의실에 연결하도록 구성된다. 예를 들어, 각각의 통신 시스템(120A 내지 120H)은 주중에 매일 오전 10시에 회의실에 연결하도록 구성된다. 더욱이, 통신 시스템들(120) 각각은 미리 설정된 시간에서 회의실로부터 연결을 끊도록 구성된다.
클라이언트 디바이스들(115)은 사용자 입력을 수신할 수 있는 것은 물론 네트워크(110)를 통해 데이터를 전송 및/또는 수신할 수 있는 하나 이상의 컴퓨팅 디바이스이다. 일 실시예에서, 클라이언트 디바이스(115)는, 데스크톱 또는 랩톱 컴퓨터와 같은, 종래의 컴퓨터 시스템이다. 대안적으로, 클라이언트 디바이스(115)는, PDA(personal digital assistant), 모바일 전화, 스마트폰, 태블릿, 사물 인터넷(IoT) 디바이스, 화상 회의 디바이스, 통신 시스템(120)의 다른 인스턴스, 또는 다른 적합한 디바이스와 같은, 컴퓨터 기능을 갖는 디바이스일 수 있다. 클라이언트 디바이스(115)는 네트워크(110)를 통해 통신하도록 구성된다. 일 실시예에서, 클라이언트 디바이스(115)는 음성 통화, 화상 통화, 데이터 공유 또는 다른 상호 작용들을 가능하게 하는 것에 의해 클라이언트 디바이스(115)의 사용자가 통신 시스템(120)과 상호 작용할 수 있도록 하는 애플리케이션을 실행한다. 예를 들어, 클라이언트 디바이스(115)는 네트워크(110)를 통해 클라이언트 디바이스(115)와 통신 시스템(105) 사이의 상호 작용들을 가능하게 하기 위해 브라우저 애플리케이션을 실행한다. 다른 실시예에서, 클라이언트 디바이스(115)는, IOS® 또는 ANDROID™와 같은, 클라이언트 디바이스(115)의 고유 운영 체제(native operating system) 상에서 실행되는 애플리케이션을 통해 통신 시스템(105)과 상호 작용한다.
통신 서버(105)는 네트워크(110)를 통한 클라이언트 디바이스(115)와 통신 시스템(120)의 통신을 용이하게 한다. 예를 들어, 통신 서버(105)는 음성 또는 화상 통화가 요청될 때 통신 시스템(120)과 클라이언트 디바이스(115) 사이의 연결들을 용이하게 할 수 있다. 추가적으로, 통신 서버(105)는 네트워크(110)를 통해 이용 가능한 다양한 외부 애플리케이션들 또는 서비스들에 대한 통신 시스템(120)의 액세스를 제어할 수 있다. 실시예에서, 통신 서버(105)는 새로운 버전들의 소프트웨어 또는 펌웨어가 이용 가능해질 때 업데이트들을 통신 시스템(120)에 제공할 수 있다. 다른 실시예들에서, 통신 시스템(120)에 속하는 것으로 아래에서 설명되는 다양한 기능들이 그 대신에 통신 서버(105)에서 전체적으로 또는 부분적으로 수행될 수 있다. 예를 들어, 일부 실시예들에서, 다양한 프로세싱 또는 저장 작업들이 통신 시스템(120)으로부터 오프로드(offload)되고 그 대신에 통신 서버(120) 상에서 수행될 수 있다.
네트워크(110)는, 유선 및/또는 무선 통신 시스템들을 사용하는, 로컬 영역 및/또는 광역 네트워크들의 임의의 조합을 포함할 수 있다. 일 실시예에서, 네트워크(110)는 표준 통신 기술들 및/또는 프로토콜들을 사용한다. 예를 들어, 네트워크(110)는 이더넷, 802.11(WiFi), WiMAX(worldwide interoperability for microwave access), 3G, 4G, 5G, CDMA(code division multiple access), DSL(digital subscriber line), 블루투스, NFC(Near Field Communication), USB(Universal Serial Bus), 또는 프로토콜들의 임의의 조합과 같은 기술들을 사용하는 통신 링크들을 포함한다. 일부 실시예들에서, 네트워크(110)의 통신 링크들의 전부 또는 일부는 임의의 적합한 기술 또는 기술들을 사용하여 암호화될 수 있다.
도 1b는 실시예에 따른, 통신 시스템(120)의 블록 다이어그램이다. 통신 시스템(120)은 하나 이상의 사용자 입력 디바이스(122), 마이크로폰 서브시스템(124), 카메라 서브시스템(126), 네트워크 인터페이스(128), 프로세서(130), 저장 매체(150), 디스플레이 서브시스템(160), 및 오디오 서브시스템(170)을 포함한다. 다른 실시예들에서, 통신 시스템(120)은 추가적인, 보다 적은 또는 상이한 컴포넌트들을 포함할 수 있다.
사용자 입력 디바이스(122)는 사용자가 통신 시스템(120)과 상호 작용할 수 있게 하는 하드웨어를 포함한다. 사용자 입력 디바이스(122)는, 예를 들어, 터치스크린 인터페이스, 게임 컨트롤러, 키보드, 마우스, 조이스틱, 음성 명령 컨트롤러, 제스처 인식 컨트롤러, 원격 제어 수신기 또는 다른 입력 디바이스를 포함할 수 있다. 실시예에서, 사용자 입력 디바이스(122)는 원격 제어 디바이스를 포함할 수 있으며, 원격 제어 디바이스는 사용자 입력 디바이스(122)와 물리적으로 분리되어 있고, 통신 시스템(120)과 통합되거나 통신 시스템(120)에 다른 방식으로 연결될 수 있는 원격 제어 수신기(예를 들면, 적외선(IR) 또는 다른 무선 수신기)와 상호 작용한다. 일부 실시예들에서, 디스플레이 서브시스템(160)과 사용자 입력 디바이스(122)는, 터치스크린 인터페이스에서와 같이, 함께 통합된다. 다른 실시예들에서, 사용자 입력들은 클라이언트 디바이스(115)로부터 네트워크(110)를 통해 수신될 수 있다. 예를 들어, 클라이언트 디바이스(115) 상에서 실행되는 애플리케이션은 클라이언트 디바이스(115)와의 사용자 상호 작용들에 기초하여 통신 시스템(120)을 제어하기 위해 네트워크(110)를 통해 명령들을 송신할 수 있다. 다른 실시예들에서, 사용자 입력 디바이스(122)는 외부 텔레비전에 연결된 포트(예를 들면, HDMI 포트)를 포함할 수 있으며 이 포트는 텔레비전의 입력 디바이스와의 사용자 상호 작용들에 응답하여 사용자 입력들이 텔레비전으로부터 수신될 수 있게 한다. 예를 들어, 텔레비전은 텔레비전에 의해 수신되는 사용자 입력들에 기초하여 CEC(Consumer Electronics Control) 프로토콜을 통해 사용자 입력 명령들을 통신 시스템(120)에게 송신할 수 있다.
마이크로폰 서브시스템(124)은 사운드를 통신 시스템(120)의 다른 컴포넌트들에 의해 저장되거나 프로세싱될 수 있는 전기 신호들로 변환하는 것에 의해 주변 오디오 신호들을 캡처하는 하나 이상의 마이크로폰(또는 외부 마이크로폰들에 대한 연결들)을 포함한다. 캡처된 오디오 신호들은 오디오/화상 통화 동안 또는 오디오/비디오 메시지로 클라이언트 디바이스들(115)에게 전송될 수 있다. 추가적으로, 캡처된 오디오 신호들은 통신 시스템(120)의 기능들을 제어하기 위한 음성 명령들을 식별하기 위해 프로세싱될 수 있다. 일 실시예에서, 마이크로폰 서브시스템(124)은 하나 이상의 통합된 마이크로폰을 포함한다. 대안적으로, 마이크로폰 서브시스템(124)은 통신 링크(예를 들면, 네트워크(110) 또는 다른 직접 통신 링크)를 통해 통신 시스템(120)에 결합된 외부 마이크로폰을 포함할 수 있다. 마이크로폰 서브시스템(124)은 단일 마이크로폰 또는 마이크로폰 어레이를 포함할 수 있다. 마이크로폰 어레이의 경우에, 마이크로폰 서브시스템(124)은 다수의 마이크로폰들로부터의 오디오 신호들을 프로세싱하여 특정 방향(또는 방향 범위)과 각각 연관된 하나 이상의 빔포밍된 오디오 채널을 생성할 수 있다.
카메라 서브시스템(126)은 이미지들 및/또는 비디오 신호들을 캡처하는 하나 이상의 카메라(또는 하나 이상의 외부 카메라에 대한 연결들)를 포함한다. 캡처된 이미지들 또는 비디오는 화상 통화 동안 또는 멀티미디어 메시지로 클라이언트 디바이스(115)에게 송신될 수 있거나, 통신 시스템(120)의 다른 컴포넌트들에 의해 저장 또는 프로세싱될 수 있다. 게다가, 실시예에서, 카메라 서브시스템(126)으로부터의 이미지들 또는 비디오는 얼굴 검출, 얼굴 인식, 제스처 인식, 또는 통신 시스템(120)의 기능들을 제어하기 위해 활용될 수 있는 다른 정보를 위해 프로세싱될 수 있다. 실시예에서, 카메라 서브시스템(126)은 주변 환경의 광시야, 파노라마 시야 또는 구형 시야를 캡처하기 위한 하나 이상의 광각 카메라를 포함한다. 카메라 서브시스템(126)은 다수의 카메라들로부터의 이미지들을 함께 스티칭하기 위해 또는 줌잉(zooming), 패닝(panning), 디워핑(de-warping) 또는 다른 기능들과 같은 이미지 프로세싱 기능들을 수행하기 위해 통합 프로세싱을 포함할 수 있다. 실시예에서, 카메라 서브시스템(126)은 입체(예를 들면, 3차원) 이미지들을 캡처하도록 위치된 다수의 카메라들을 포함할 수 있거나, 캡처된 이미지들 또는 비디오에서의 픽셀들에 대한 깊이 값들을 캡처하는 깊이 카메라를 포함할 수 있다.
네트워크 인터페이스(128)는 네트워크(110)에 대한 통신 시스템(120)의 연결을 용이하게 한다. 예를 들어, 네트워크 인터페이스(130)는 음성 및 화상 통화들 또는 통신 시스템(120) 상에서 실행되는 다양한 애플리케이션들의 다른 동작을 가능하게 하기 위해 하나 이상의 클라이언트 디바이스(115)와의 음성, 비디오 및/또는 다른 데이터 신호들의 통신을 용이하게 하는 소프트웨어 및/또는 하드웨어를 포함할 수 있다. 네트워크 인터페이스(128)는 네트워크 인터페이스(128)가 네트워크(110)를 통해 통신하는 것을 가능하게 하는 임의의 종래의 유선 또는 무선 통신 프로토콜들에 따라 작동할 수 있다.
디스플레이 서브시스템(160)은 이미지들 또는 비디오 콘텐츠를 제시하기 위한 전자 디바이스 또는 전자 디바이스에 대한 인터페이스를 포함한다. 예를 들어, 디스플레이 서브시스템(160)은 LED 디스플레이 패널, LCD 디스플레이 패널, 프로젝터, 가상 현실 헤드셋, 증강 현실 헤드셋, 다른 유형의 디스플레이 디바이스, 또는 위에서 설명된 디스플레이 디바이스들 중 임의의 것에 연결하기 위한 인터페이스를 포함할 수 있다. 실시예에서, 디스플레이 서브시스템(160)은 통신 시스템(120)의 다른 컴포넌트들과 통합되는 디스플레이를 포함한다. 대안적으로, 디스플레이 서브시스템(120)은 통신 시스템을 외부 디스플레이 디바이스(예를 들면, 텔레비전)에 결합시키는 하나 이상의 포트(예를 들면, HDMI 포트)를 포함한다.
오디오 출력 서브시스템(170)은 수신된 오디오 신호들에 기초하여 주변 오디오를 생성하는 하나 이상의 스피커 또는 하나 이상의 외부 스피커에 결합하기 위한 인터페이스를 포함한다. 실시예에서, 오디오 출력 서브시스템(170)은 통신 시스템(120)의 다른 컴포넌트들과 통합되는 하나 이상의 스피커를 포함한다. 대안적으로, 오디오 출력 서브시스템(170)은 통신 시스템(120)을 하나 이상의 외부 스피커(예를 들면, 전용 스피커 시스템 또는 텔레비전)와 결합시키기 위한 인터페이스(예를 들면, HDMI 인터페이스 또는 광학 인터페이스)를 포함한다. 오디오 출력 서브시스템(120)은 듣는 사람에게 오디오와 연관된 방향감(sense of directionality)을 제공하는 빔포밍된 오디오 신호들을 생성하기 위해 다수의 채널들로 오디오를 출력할 수 있다. 예를 들어, 오디오 출력 서브시스템은 스테레오 오디오 출력 또는 2.1, 3.1, 5.1, 7.1 또는 다른 표준 구성과 같은 다중 채널 오디오 출력으로서 오디오 출력을 생성할 수 있다.
통신 시스템(120)이 텔레비전과 같은 외부 미디어 디바이스에 결합되는 실시예들에서, 통신 시스템(120)은 통합된 디스플레이 및/또는 통합된 스피커가 없을 수 있고, 그 대신에 외부 미디어 디바이스의 디스플레이 및 스피커 시스템을 통해 출력하기 위해 오디오/비주얼 데이터를 통신하기만 할 수 있다.
프로세서(130)는 본 명세서에서 설명되는 통신 시스템(120)에 속하는 다양한 기능들을 수행하기 위해 저장 매체(150)(예를 들면, 비일시적 컴퓨터 판독 가능 저장 매체)와 함께 작동한다. 예를 들어, 저장 매체(150)는 프로세서(130)에 의해 실행 가능한 명령어들로서 구체화되는 하나 이상의 모듈 또는 애플리케이션(예를 들면, 사용자 인터페이스(152), 통신 모듈(154), 사용자 애플리케이션들(156))을 저장할 수 있다. 명령어들은, 프로세서에 의해 실행될 때, 프로세서(130)로 하여금 본 명세서에서 설명되는 다양한 모듈들 또는 애플리케이션들에 속하는 기능들을 수행하게 한다. 실시예에서, 프로세서(130)는 단일 프로세서 또는 다중 프로세서 시스템을 포함할 수 있다.
실시예에서, 저장 매체(150)는 사용자 인터페이스 모듈(152), 통신 모듈(154) 및 사용자 애플리케이션들(156)을 포함한다. 대안적인 실시예들에서, 저장 매체(150)는 상이한 또는 추가적인 컴포넌트들을 포함할 수 있다.
사용자 인터페이스 모듈(152)은 통신 시스템(120)과의 사용자 상호 작용을 가능하게 하기 위한 비주얼 및/또는 오디오 요소들 및 컨트롤들을 포함한다. 예를 들어, 사용자 인터페이스 모듈(152)은 사용자가 통신 시스템(120)의 다양한 기능들을 선택할 수 있게 하는 입력들을 사용자 입력 디바이스(122)로부터 수신할 수 있다. 예시적인 실시예에서, 사용자 인터페이스 모듈(152)은 통신 시스템(120)이 네트워크(110)를 통해 음성 및/또는 화상 통화들을 하거나 수신할 수 있게 하는 통화 인터페이스(calling interface)를 포함한다. 통화를 하기 위해, 사용자 인터페이스 모듈(152)은 사용자가 통화하기 위한 하나 이상의 연락처를 선택하고, 통화를 개시하며, 통화 동안 다양한 기능들을 제어하고, 통화를 종료할 수 있게 하는 컨트롤들을 제공할 수 있다. 통화를 수신하기 위해, 사용자 인터페이스 모듈(152)은 사용자가 착신 통화를 수락하고, 통화 동안 다양한 기능들을 제어하며, 통화를 종료할 수 있게 하는 컨트롤들을 제공할 수 있다. 화상 통화들의 경우, 사용자 인터페이스 모듈(152)은 볼륨 컨트롤, 통화 종료 컨트롤, 또는 수신된 비디오가 디스플레이되는 방법 또는 수신된 오디오가 출력되는 방법에 관한 다양한 컨트롤들과 같은 다양한 제어 요소들과 함께 클라이언트(115)로부터의 원격 비디오를 디스플레이하는 화상 통화 인터페이스를 포함할 수 있다.
사용자 인터페이스 모듈(152)은 게다가 사용자가 사용자 애플리케이션들(156)에 액세스하거나 통신 시스템(120)의 다양한 설정들을 제어하는 것을 가능하게 할 수 있다. 실시예에서, 사용자 인터페이스 모듈(152)은 사용자 기본설정들(user preferences)에 따라 사용자 인터페이스의 맞춤화를 가능하게 할 수 있다. 여기서, 사용자 인터페이스 모듈(152)은 통신 시스템(120)의 상이한 사용자들에 대한 상이한 기본설정들을 저장할 수 있고, 현재 사용자에 따라 설정들을 조정할 수 있다.
통신 모듈(154)은 음성 및/또는 화상 통화들을 위해 클라이언트들(115)과 통신 시스템(120)의 통신을 용이하게 한다. 예를 들어, 통신 모듈(154)은 통화를 개시하라는 사용자 인터페이스 모듈(152)로부터의 명령들에 응답하여 연락처들의 디렉토리를 유지하고 해당 연락처들에 대한 연결들을 용이하게 할 수 있다. 게다가, 통신 모듈(154)은 착신 통화들의 표시들을 수신하고, 착신 통화의 수신을 용이하게 하기 위해 사용자 인터페이스 모듈(152)과 상호 작용할 수 있다. 통신 모듈(154)은 게다가, 견고한 연결을 유지하고 다양한 통화 중 기능(in-call function)들을 용이하게 하기 위해, 통화들 동안 착신 및 발신 음성 및/또는 비디오 신호들을 프로세싱할 수 있다.
통신 모듈(154)은 오디오 믹싱 모듈(182) 및 비디오 모듈(184)을 포함한다. 오디오 믹싱 모듈(182)은 통신 시스템(120)과 연결된 상이한 사용자에 각각 대응하는 다수의 오디오 피드들을 수신하고, 오디오 피드들을 결합하여 출력 오디오 스트림을 생성한다. 출력 오디오 스트림은 이어서 재생을 위해 오디오 출력 서브시스템(170)에게 송신된다. 비디오 모듈(184)은 통신 시스템(120)과 연결된 상이한 사용자에 각각 대응하는 다수의 비디오 피드들을 수신하고, 비디오 피드들을 결합하여 출력 비디오 스트림을 생성한다. 출력 비디오 스트림은 이어서 디스플레이를 위해 디스플레이 서브시스템(160)에게 송신된다.
사용자 애플리케이션들(156)은 통신 시스템(120)의 다양한 기능들을 용이하게 하기 위해 사용자 인터페이스 모듈(152)을 통해 사용자에 의해 액세스 가능할 수 있는 하나 이상의 애플리케이션을 포함한다. 예를 들어, 사용자 애플리케이션들(156)은 인터넷 상의 웹 페이지들을 브라우징하기 위한 웹 브라우저, 이미지들을 보기 위한 사진 뷰어, 비디오 또는 오디오 파일들을 재생하기 위한 미디어 재생 시스템, 사용자 요청들에 응답하여 다양한 작업들 또는 서비스들을 수행하기 위한 지능형 가상 어시스턴트, 또는 다양한 기능들을 수행하기 위한 다른 애플리케이션들을 포함할 수 있다. 실시예에서, 사용자 애플리케이션들(156)은 사용자의 소셜 네트워킹 계정과 통신 시스템(120)의 통합을 가능하게 하는 소셜 네트워킹 애플리케이션을 포함한다. 여기서, 예를 들어, 통신 시스템(120)은 보다 개인화된 사용자 경험을 용이하게 하기 위해 사용자의 소셜 네트워킹 계정으로부터 다양한 정보를 획득할 수 있다. 게다가, 통신 시스템(120)은 사용자가, 게시물들을 보거나 작성하고, 피드들에 액세스하며, 친구들과 상호 작용하는 등에 의해, 소셜 네트워크와 직접 상호 작용할 수 있도록 할 수 있다. 추가적으로, 사용자 기본설정들에 기초하여, 소셜 네트워킹 애플리케이션은 소셜 네트워크 상에서의 활동과 관련하여 사용자가 관심을 가질 수 있는 다양한 경보들 또는 통지들의 검색을 용이하게 할 수 있다. 실시예에서, 사용자들은 통신 시스템(120)의 작동을 맞춤화하기 위해 애플리케이션들(156)을 추가하거나 제거할 수 있다.
가상 존재 화상 회의
도 2a는 일 실시예에 따른, 통신 시스템을 사용하는 가상 존재 화상 회의의 다이어그램을 예시한다. 통신 시스템(120)은 회의실에 연결된 다른 사용자들에 의해 캡처되는 오디오 비주얼 데이터를 수신하고, 회의실에 연결된 사용자들의 비디오 피드를 디스플레이한다. 도 2a의 예에서는, 8 명의 사용자가 디스플레이된다. 그렇지만, 임의의 수의 사용자들이 회의실에 연결되고 통신 시스템(120)을 통해 디스플레이될 수 있다. 일부 실시예들에서, 통신 시스템(120)은 시간/날짜 또는 통신 시스템(120)의 주변에 있는 사용자의 존재의 식별에 기초하여 회의실에 자동으로 연결된다. 예를 들어, 통신 시스템(120)은 주중에 매일 오전 10시에 특정 회의실에 연결하도록 구성될 수 있다.
일단 통신 시스템(120)이 회의실에 연결되면, 통신 시스템(120)은 비디오(예를 들면, 통합된 카메라를 사용함) 및 오디오(예를 들면, 통합된 마이크로폰을 사용함)를 캡처하기 시작하고, 캡처된 비디오 및 오디오를 회의실에 연결된 다른 사용자들의 통신 시스템(120)에게 전송한다.
더욱이, 일단 통신 시스템(120)이 회의실에 연결되면, 통신 시스템(120)은 회의실에 연결된 다른 사용자들의 통신 시스템들(120)에 의해 캡처되는 비디오 및 오디오 데이터를 수신하기 시작한다. 각각의 사용자로부터의 오디오 및 비디오 데이터는 개별적인 피드들로서 수신되므로, 각각의 오디오 및 비디오 피드는 독립적으로 조작될 수 있다. 예를 들어, 회의실에 있는 각각의 사용자에 대응하는 오디오 피드들 각각은 독립적으로 조작될 수 있다. 사용자들 각각으로부터의 각각의 오디오 피드는 상이한 값으로 감쇠되거나 증폭될 수 있다. 통신 시스템은 감쇠된 사용자들로부터 수신되는 오디오 피드가 재생되지 않도록 해당 오디오 피드들을 음소거하기 위해 하나 이상의 사용자에 대응하는 오디오 피드들에 감쇠 기능을 적용할 수 있다. 상이한 예에서, 오디오 피드들 각각은 회의에 있는 사용자들 각각에 대해 재생되는 사운드 볼륨을 균등화하기 위해 상이한 강도로 증폭될 수 있다.
일부 실시예들에서, 통신 시스템(120)은 회의실에 연결된 모든 사용자의 수신된 비디오 데이터에 대응하는 비디오 피드를 디스플레이하지만 회의실에 연결된 모든 사용자의 수신된 오디오 데이터에 대응하는 오디오 피드를 음소거하도록 구성된다. 즉, 모든 사용자로부터의 오디오 피드들은 화상 회의의 시작 시에 음소거된 상태로 자동으로 설정된다. 통신 시스템(120)은 이어서 통신 시스템(120)의 사용자로부터 입력을 수신하는 것에 응답하여 또는 회의실에 연결된 다른 사용자의 통신 시스템(120)으로부터 신호를 수신하는 것에 응답하여 오디오 피드들 중 하나 이상을 음소거 해제된 상태로 설정한다.
도 2b는 일 실시예에 따른, 회의실에 연결된 사용자의 비디오 피드를 디스플레이하는 그래픽 사용자 인터페이스를 예시한다. 사용자 인터페이스(210)는 적어도 비디오 피드(220) 및 대화 상태 표시기(230)를 포함한다.
비디오 피드(220)는 회의실에 연결된 대응하는 사용자로부터 수신되는 비디오 피드의 적어도 일 부분을 디스플레이한다. 도 2b의 예에서, 사용자 1의 비디오 피드가 디스플레이된다. 일부 실시예들에서, 통신 시스템(120)은 사용자 인터페이스(210)에 비디오 피드를 디스플레이하기 전에 비디오 피드를 수정한다. 예를 들어, 통신 시스템(120)은 사용자 인터페이스(210)의 종횡비(aspect ratio)에 기초하여 비디오 피드를 크로핑(crop)할 수 있다. 일부 실시예들에서, 통신 시스템(120)은 얼굴 검출을 수행하고, 비디오 피드에서의 검출된 얼굴이 사용자 인터페이스(120)의 중심 부근에 있도록 비디오 피드를 크로핑한다.
일부 실시예들에서, 통신 시스템(120)은 비디오 피드 내에서 사람의 존재를 검출하고, 비디오 피드 내에서 사람의 존재가 검출되는 경우 사용자 인터페이스(210)에 비디오 피드를 디스플레이한다. 이와 달리, 비디오 피드 내에서 사람의 존재가 검출되지 않는 경우, 통신 시스템(120)은 사용자 인터페이스(210)에 대응하는 사용자가 자리를 비웠다는 메시지를 디스플레이한다. 일부 실시예들에서, 사용자 인터페이스(210)는 대응하는 사용자의 비디오 피드를 디스플레이하는 대신에 대응하는 사용자의 프로필 사진 또는 아바타를 디스플레이할 수 있다.
일부 실시예들에서, 사용자는 "방해 금지(do not disturb)" 또는 "바쁨(busy)" 상태를 수동으로 설정할 수 있다. 사용자가 방해 금지 상태를 설정했을 때, 다른 사용자들은 해당 사용자와 대화를 시작하는 것이 금지된다. 일부 실시예들에서, 통신 시스템(120)은 상태가 바쁨 또는 방해 금지로 설정된 사용자들에 대해 바쁨 또는 방해 금지 아이콘 또는 메시지를 함께 디스플레이한다.
대화 상태 표시기(230)는 사용자가 회의실에 있는 다른 사용자와 현재 활성 대화에 있는지 여부를 표시를 제공한다. 일부 실시예들에서, 이 표시는 대화 상태 표시기(230)의 색상 변화로서 제공된다. 예를 들어, 사용자 인터페이스에 대응하는 사용자가 회의실에 있는 임의의 다른 사용자와 임의의 활성 대화에 있지 않을 때 대화 상태 표시기는 적색 점일 수 있다. 더욱이, 대화 상태 표시기(230)가 상이한 색상으로 바뀐다. 예를 들어, 사용자가 회의실에 있는 다른 사용자와 대화를 시작할 때 사용자에 대한 대화 상태 표시기(230)는 청색으로 바뀐다. 일부 실시예들에서, 상태 표시기의 색상은 사용자가 누구와 대화하고 있는지를 나타낸다. 예를 들어, 두 명의 사용자의 상태 표시기들이 청색인 경우, 해당 두 명의 사용자가 서로 대화를 하고 있다는 것을 나타낼 수 있다. 제3 사용자가 해당 대화에 참여하는 경우, 세 명의 사용자 모두가 대화를 하고 있다는 것을 나타내기 위해 제3 사용자의 상태 표시기도 청색으로 바뀔 것이다. 일단 대화가 종료되면, 해당 사용자들이 더 이상 활성 대화를 갖고 있지 않다는 것을 나타내기 위해 상태 표시기(230)는 비활성 상태(예를 들면, 적색 점)로 돌아간다.
일부 실시예들에서, 다수의 개별 대화들이 동시에 활성이다. 예를 들어, 제1 사용자(190A)와 제2 사용자(190B)는 제1 활성 대화를 가질 수 있는 반면, 제3 사용자(190C)와 제4 사용자(190D)는, 제1 활성 대화와는 별개인, 제2 활성 대화를 가질 수 있다. 이 경우에, 제1 사용자(190A)의 통신 시스템(120)은 제2 사용자(190B)의 오디오 스트림을 재생하지만, 제3 또는 제4 사용자의 오디오 스트림을 재생하지 않는다. 유사하게, 제2 사용자(190B)의 통신 시스템(120)은 제1 사용자(190A)의 오디오 스트림을 재생하지만, 제3 또는 제4 사용자의 오디오 스트림을 재생하지 않는다. 더욱이, 제3 사용자(190C)의 통신 시스템(120)은 제4 사용자(190D)의 오디오 스트림을 재생하지만, 제1 또는 제2 사용자의 오디오 스트림을 재생하지 않는다. 제4 사용자(190D)의 통신 시스템(120)은 제3 사용자(190C)의 오디오 스트림을 재생하지만, 제1 또는 제2 사용자의 오디오 스트림을 재생하지 않는다. 다른 사용자들(190E 내지 190H)이 회의실에 연결된 경우, 해당 사용자들의 통신 시스템들은 어떤 사용자의 오디오 스트림도 재생하지 않는다.
이 실시예에서, 제1 및 제2 사용자들의 상태 표시기(230)는 (예를 들면, 제1 색상으로 변하는 것에 의해) 제1 및 제2 사용자들이 서로 대화를 하고 있다는 것을 나타낸다. 유사하게, 제3 및 제4 사용자들의 상태 표시기(230)는 (예를 들면, 제2 색상으로 변하는 것에 의해) 제3 및 제4 사용자들이 서로 대화를 하고 있다는 것을 나타낸다. 더욱이, 상태 표시기들(230)은 2 개의 개별 활성 대화가 일어나고 있다는 것을 나타낼 수 있다. 상태 표시기들의 색상(또는 임의의 다른 속성)이 2 개의 대화 간에 상이하기 때문에, 제1, 제2, 제3 및 제4 사용자들에 대한 상태 표시기들을 보고 있는 사용자는 어느 사용자들이 서로 대화하고 있는지를 결정할 수 있다.
사용자 인터페이스(210)는 통신 시스템(120)의 사용자로부터 수신되는 입력들에 반응한다. 일부 실시예들에서, 사용자 인터페이스(210)는 통신 시스템(120)의 사용자가 회의실에 연결된 다른 사용자와의 대화를 시작하거나, 대화에 참여하거나 대화를 종료할 수 있도록 한다. 사용자가 대화 중이 아니고 사용자가 특정 사용자에 대응하는 사용자 인터페이스의 임의의 부분을 누르는 경우, 통신 시스템(120)은 특정 사용자와의 새로운 대화를 시작한다. 이와 달리, 사용자가 이미 대화 중인 경우, 사용자 인터페이스(210)와 상호 작용하는 것은 활성 대화를 종료시킨다. 사용자가 이미 활성 대화에 있는 사용자에 대응하는 사용자 인터페이스(210)와 상호 작용하는 경우, 통신 시스템(120)은 해당 활성 대화에 참여한다.
예를 들어, 선택된 사용자(190)에 대응하는 사용자 인터페이스(210)와 상호 작용하는 사용자 입력을 수신할 시에, 통신 시스템(120)은 선택된 사용자(190)와 활성 대화를 시작하도록 구성된다. 선택된 사용자(190)와 대화를 시작할 때, 통신 시스템(120)은 선택된 사용자(190)에 대응하는 오디오 피드를 음소거 해제하거나 오디오 피드의 감쇠를 감소시킨다. 더욱이, 통신 시스템(120)은 대화의 시작을 나타내는 요청을 선택된 사용자(190)의 통신 시스템(120)에게 송신한다. 해당 요청을 수신할 시에, 선택된 사용자(190)의 통신 시스템(120)은 대화를 개시하는 사용자에 대응하는 오디오 피드를 음소거 해제하거나 오디오 피드의 감쇠를 감소시킨다.
즉, 예를 들어, 제1 사용자(190A)가 제2 사용자(190B)에 대응하는 사용자 인터페이스(210B)와 상호 작용하는 경우, 제1 사용자(190A)의 통신 시스템(120A)은 제2 사용자(190B)의 통신 시스템(120B)으로부터 수신되는 오디오 피드를 음소거 해제하고, 요청을 제2 사용자(190B)의 통신 시스템(120B)에게 송신한다. 해당 요청을 수신할 시에, 제2 사용자(190B)의 통신 시스템(120B)은 제1 사용자(190A)의 통신 시스템(120A)으로부터 수신되는 오디오 피드를 음소거 해제한다. 더욱이, 제1 사용자의 통신 시스템(120A)은 제2 사용자(190B)에 대응하는 대화 상태 표시기(230B)를 수정하고, 제2 사용자의 통신 시스템(120B)은 제1 사용자(190A)에 대응하는 대화 상태 표시기(230A)를 수정한다.
일부 실시예들에서, 선택된 사용자(190)에 대응하는 사용자 인터페이스(210)와 상호 작용하는 입력을 수신할 시에, 통신 시스템은 선택된 사용자(190)와의 대화의 시작의 표시를 회의실에 연결된 다른 사용자들에게 송신한다. 즉, 예를 들어, 제1 사용자(190A)가 제2 사용자(190B)와 대화를 시작하는 경우, 제1 사용자(190A)의 통신 시스템(120A)은 제1 사용자(190A)와 제2 사용자(190B) 사이의 대화의 개시를 식별해 주는 표시를, 다른 사용자들(190C 내지 190H)의 통신 시스템(120)에게, 송신한다. 해당 표시를 수신할 시에, 다른 사용자들(190C 내지 190H)의 통신 시스템(120)은 제1 사용자와 제2 사용자 사이의 활성 대화 시작을 반영하기 위해 제1 사용자(190A) 및 제2 사용자(190B)에 대응하는 대화 상태 표시기를 변경한다.
일부 실시예들에서, 대화를 시작하거나 대화에 참여할 때, 통신 시스템(120)은 대화를 제어하기 위한 버튼들을 추가하기 위해 사용자 인터페이스를 수정한다. 예를 들어, 버튼들은 대화를 종료하거나 대화에서 나가기 위한 버튼, 대화를 일시적으로 음소거하기 위한 버튼, 대화를 녹음하기 위한 버튼 등을 포함할 수 있다.
일부 실시예들에서, 대화를 시작하거나 대화에 참여할 시에, 통신 시스템(120)은 대화에 참여하고 있는 사용자들에 대응하는 비디오 피드를 확대하기 위해 사용자 인터페이스를 수정한다. 일 실시예에서, 통신 시스템(120)은 활성 대화에 현재 참여하고 있는 사용자들만을 디스플레이한다. 대화가 종료되거나 사용자가 대화에서 나갈 때, 통신 시스템은 회의실에 있는 다른 사용자들의 비디오 피드를 복원한다.
도 3a는 일 실시예에 따른, 회의실에 연결된 다수의 사용자들 사이의 대화를 가능하게 하는 오디오 출력의 생성을 예시하는 다이어그램을 예시한다. 제1 사용자(190A)의 통신 시스템(120)은 회의실에 연결된 각각의 사용자의 통신 시스템(120)으로부터 데이터 스트림(310)을 수신한다. 도 3a의 예에서, 제1 사용자(190A)의 통신 시스템(120A)은 사용자들(190B 내지 190E)의 통신 시스템들(120B 내지 120E)로부터 데이터 스트림(310)을 수신한다. 각각의 데이터 스트림은 통신 시스템(120)이 회의실에 연결된 사용자들 각각의 비디오 데이터 또는 오디오 데이터를 독립적으로 수정할 수 있도록 개별적인 채널로서 수신된다.
통신 시스템들(120) 각각으로부터 수신되는 데이터 스트림(310)은 비디오 데이터, 오디오 데이터 및 상태 데이터를 포함한다. 일 실시예에서, 오디오 믹싱 모듈(182)은 수신된 데이터 스트림들 각각으로부터 오디오 데이터를 수신하고, 데이터 스트림(310)의 상태 데이터에 따라 오디오 데이터를 수정한다. 특정 사용자에 대한 상태 데이터가 특정 사용자가 통신 시스템(120)의 사용자와 활성 대화에 있지 않다는 것을 나타내는 경우, 통신 시스템(120)은 특정 사용자의 오디오 데이터를 감쇠시킴으로써 해당 오디오 데이터가 통신 시스템(120)에 의해 재생되지 않도록 한다.
즉, 제1 사용자(190A)의 통신 시스템(120A)의 오디오 믹싱 모듈(182)은 제2 사용자(190B)의 통신 시스템(120B)으로부터 수신되는 상태 데이터가 제2 사용자(190B)가 제1 사용자(190A)와 활성 대화에 있다는 것을 나타내는지 여부를 결정한다. 제2 사용자(190B)가 제1 사용자(190A)와 활성 대화에 있지 않는 경우, 제1 사용자(190A)의 통신 시스템(120)의 오디오 믹싱 모듈(182)은 제2 사용자(190B)에 대응하는 오디오 데이터를 감쇠시키거나 음소거한다. 유사하게, 제1 사용자(190A)의 통신 시스템(120)의 오디오 믹싱 모듈(182)은 다른 사용자들(190C, 190D, 및 190E)의 상태 데이터를 분석하고, 그에 따라 해당 사용자들의 오디오 스트림을 수정한다.
오디오 믹싱 모듈(182)은 수정된 오디오 스트림을 결합하여 오디오 출력 서브시스템(170)에 의해 재생하기 위한 출력 오디오 피드를 생성한다. 이에 따라, 감쇠되지 않은 오디오 데이터만이 오디오 출력 서브시스템(170)에 의해 재생된다. 즉, 오디오 출력 서브 시스템(170)은 제1 사용자(190A)와의 활성 대화에 참여하는 사용자들의 오디오 데이터만을 재생한다.
다른 실시예들에서, 오디오 데이터를 감쇠시키는 대신에, 오디오 믹싱은 제1 사용자(190A)와 활성 대화를 갖는 사용자들을 식별하고, 제1 사용자(190A)와 활성 대화를 갖는 것으로 식별되는 사용자들의 오디오 데이터를 결합한다.
도 3b는 일 실시예에 따른, 회의실에 연결된 사용자들의 오디오 출력의 타이밍 다이어그램을 예시한다. 도 3b의 예에서, 5 명의 사용자(190A 내지 190E)가 회의실에 연결되어 있다. 타이밍 다이어그램은 5 개의 시간 기간(T1 내지 T5)으로 분할된다.
제1 시간 기간(T1) 및 제5 시간 기간(T5) 동안, 사용자들 중 아무도 활성 대화를 하고 있지 않다. 제1 시간 기간(T1) 및 제5 시간 기간(T5) 동안, 모든 사용자에 대한 채널들 모두가 꺼진다. 일부 실시예들에서, 이것은 회의가 시작될 때의 기본 상태이다.
제2 시간 기간(T2) 동안, 제1 사용자(190A)와 제2 사용자(190B)는 활성 대화를 시작한다. 제1 사용자(190A)와 제2 사용자(190B) 사이의 대화는 제4 시간 기간(T4)의 끝에서 종료된다. 제2 시간 기간(T2) 동안, 제1 사용자(190A)의 통신 시스템(120A)은 제2 사용자(190B)에 대응하는 채널을 켜고(예를 들면, 감쇠시키는 것을 중단하고), 제2 사용자(190B)의 통신 시스템(120B)은 제1 사용자(190A)에 대응하는 채널을 켠다. 이에 따라, 제1 사용자(190A)는 제2 사용자(190B)로부터의 오디오를 들을 수 있고, 제2 사용자(190B)는 제1 사용자(190A)로부터의 오디오를 들을 수 있다. 더욱이, 제1 사용자(190A) 및 제2 사용자(190B)는 제3 사용자(190C), 제4 사용자(190D) 및 제5 사용자(190E)에 대응하는 채널들을 유지한다.
제3 시간 기간(T3) 동안, 제3 사용자(190C)는 제5 사용자(190F)와 새로운 대화를 시작한다. 제3 사용자(190C)와 제5 사용자(190E)의 대화는 제3 시간 기간(T3)의 끝에서 종료된다. 따라서, 제3 시간 기간(T3) 동안, 제1 사용자(190A)와 제2 사용자(190B)는 제1 대화를 하고 있는 반면, 제3 사용자(190C)와 제5 사용자(190F)는 제1 대화와는 별개인 제2 대화를 하고 있다. 제3 시간 기간(T3) 동안, 제3 사용자(190C)의 통신 시스템(120C)은 제5 사용자(190E)에 대응하는 채널을 켜고, 제5 사용자(190E)의 통신 시스템(120E)은 제3 사용자(190C)에 대응하는 채널을 켠다. 이에 따라, 제3 사용자(190C)는 제5 사용자(190E)로부터의 오디오를 들을 수 있고, 제5 사용자(190E)는 제3 사용자(190C)로부터의 오디오를 들을 수 있다.
더욱이, 제1 사용자(190A)의 통신 시스템(120A)에서는 제2 사용자에 대응하는 채널이 온 상태이고, 제2 사용자(190B)의 통신 시스템(120B)에서는 제1 사용자에 대응하는 채널이 온 상태이므로, 제1 사용자(190A)와 제2 사용자 사용자(190B)는 서로의 말을 들을 수 있다. 제1 사용자(190A)의 통신 시스템(120A)과 제2 사용자(190B)의 통신 시스템(120B)이 제3 사용자(190C)와 제5 사용자(190E)에 대응하는 채널들을 유지하므로, 제1 사용자(190A)와 제2 사용자(190B)는 제3 사용자(190C)와 제5 사용자(190E) 사이의 대화를 들을 수 없다.
제4 시간 기간(T4) 동안, 제4 사용자(190D)는 제1 사용자(190A) 및 제2 사용자(190B)와의 제1 대화에 참여한다. 제4 사용자(190D)가 제1 사용자(190A)와 제2 사용자(190B) 사이의 대화에 참여하기 위한 요청을 송신할 때, 제4 사용자(190D)의 통신 시스템(120D)은 제1 사용자(190A)와 제2 사용자(190B)에 대응하는 채널들을 켜서, 제4 사용자(190D)가 제1 사용자(190A) 및 제2 사용자(190B)의 통신 시스템(120)에 의해 전송되는 오디오를 들을 수 있게 한다. 제4 사용자의 통신 시스템(120D)으로부터 해당 요청을 수신할 시에, 제1 사용자(190A) 및 제2 사용자(190B)의 통신 시스템(120)은 제4 사용자(190D)에 대응하는 채널을 켠다. 이에 따라, 세 명의 사용자가 서로의 말을 들을 수 있다.
도 4는 일 실시예에 따른, 회의실에 연결된 사용자들을 위해 채널을 켜거나 끄기 위한 방법의 흐름 다이어그램을 예시한다. 제1 사용자(190A)의 통신 시스템(120A)은 회의실에 대한 연결을 개시한다(410). 일부 실시예들에서, 회의실에 등록된 각각의 사용자의 통신 시스템들(120)은 미리 결정된 시간 및 날짜에 연결을 자동으로 개시한다. 예를 들어, 특정 회의실에 등록된 모든 통신 시스템(120)은 주중에 매일 오전 10시에 회의실과의 연결을 개시한다.
일단 회의실에 연결되면, 통신 시스템(120A)은 비디오 및 오디오를 캡처하여 회의실에 연결된 다른 사용자들(190)의 통신 시스템(120)에게 전송한다(420). 더욱이, 통신 시스템(120A)은 회의실에 연결된 다른 사용자들(190)의 통신 시스템(120)으로부터 비디오, 오디오 및 상태 데이터를 포함하는 데이터 스트림(310)을 수신한다(430).
회의실에 연결된 각각의 사용자에 대해, 통신 시스템(120A)이 데이터 스트림(310)을 수신함에 따라, 통신 시스템(120A)은 수신된 비디오 데이터에 대응하는 비디오 피드를 디스플레이한다(440). 일부 실시예들에서, 디스플레이된 비디오 피드는 수신된 비디오 데이터의 크로핑된 버전이다. 일부 실시예들에서, 통신 시스템(120A)은 비디오 피드를 디스플레이할지 여부를 결정하기 위해 존재 검출 알고리즘을 수행한다.
더욱이, 회의실에 연결된 각각의 사용자에 대해, 통신 시스템(120A)이 데이터 스트림(310)을 수신함에 따라, 통신 시스템(120A)은 제1 사용자(190A)가 수신된 데이터 스트림(310)에 대응하는 사용자(190)와 활성 대화에 있는지를 결정하고 해당 결정을 고려하여 오디오 데이터를 수정한다. 일부 실시예들에서, 해당 결정은 데이터 스트림(310)에 포함된 상태 데이터에 기초하여 수행된다. 통신 시스템(120A)이 제1 사용자(190A)가 수신된 데이터 스트림(310)에 대응하는 사용자(190)와 활성 대화에 있지 않다고 결정하는 경우, 통신 시스템(120A)은 사용자(190)에 대응하는 오디오 데이터와 연관된 오디오 피드를 음소거한다(455). 예를 들어, 통신 시스템(120A)은 사용자(190)에 대응하는 오디오 데이터와 연관된 오디오 피드를 감쇠시킨다. 대안적으로, 통신 시스템(120A)이 제1 사용자(190A)가 수신된 데이터 스트림(310)에 대응하는 사용자(190)와 활성 대화에 있다고 결정하는 경우, 통신 시스템(120A)은 사용자(190)에 대응하는 오디오 데이터와 연관된 오디오 피드를 재생한다(450).
도 5a는 일 실시예에 따른, 회의실에 연결된 사용자와 대화를 시작하기 위한 방법의 흐름 다이어그램을 예시한다. 제1 사용자(190A)의 통신 시스템(120A)은 회의실에 대한 연결을 개시한다(510A). 유사하게, 제2 사용자(190B)의 통신 시스템(120B)은 회의실에 대한 연결을 개시한다(510B). 일부 실시예들에서, 제1 사용자(190A)의 통신 시스템(120A)은 미리 설정된 시간에서 회의실에 자동으로 연결한다. 예를 들어, 통신 시스템(120A)은 평일에 매일 오전 10시에 회의실에 자동으로 연결한다. 더욱이, 일부 실시예들에서, 통신 시스템(120A)은 미리 설정된 시간에서 회의실로부터 자동으로 연결 해제한다. 예를 들어, 통신 시스템(120A)은 연결된 지 8 시간 후에 회의실로부터 자동으로 연결 해제한다.
일단 회의실에 연결되면, 통신 시스템(120A)은 비디오 및 오디오를 캡처하여 회의실에 연결된 다른 사용자들(190)의 통신 시스템(120)에게 전송한다(520A). 더욱이, 통신 시스템(120A)은 회의실에 연결된 다른 사용자들(190)의 통신 시스템(120)으로부터 비디오, 오디오 및 상태 데이터를 포함하는 데이터 스트림(310)을 수신한다(525A).
제1 사용자(190A)의 통신 시스템(120A)은, 사용자 인터페이스(210)를 통해, 제2 사용자(190B)와 대화를 시작하기 위한 표시를 수신한다(530). 예를 들어, 통신 시스템(120A)은 제2 사용자(190B)에 대응하는 비디오 피드에 대한 터치 입력을 수신한다.
제1 사용자(190A)로부터 해당 표시를 수신할 시에, 제1 사용자(190A)의 통신 시스템(120A)은 대화를 시작하기 위한 요청을 제2 사용자(190B)의 통신 시스템(120B)에게 송신한다(540). 일부 실시예들에서, 해당 요청은 제1 사용자(190A)의 통신 시스템(120A)에 의해 전송되는 데이터 스트림(310A)에 포함된 상태 데이터의 변화로서 송신된다. 더욱이, 통신 시스템(120A)은 제2 사용자(190B)에 대응하는 오디오 채널을 자동으로 음소거 해제한다(550A). 일부 실시예들에서, 제1 사용자(190A)의 통신 시스템(120A)은 제2 사용자에 대응하는 오디오 채널을 음소거 해제하기 전에 제2 사용자(190B)의 통신 시스템(120B)으로부터 확인응답을 수신할 때까지 대기한다.
제2 사용자(190B)의 통신 시스템(120B)은 대화를 시작하기 위한 요청을, 제1 사용자(190A)의 통신 시스템(120A)으로부터, 수신한다(545). 제2 사용자(190B)의 통신 시스템(120B)은 제1 사용자에 대응하는 오디오 채널을 자동으로 음소거 해제한다(550B).
도 5b는 일 실시예에 따른, 회의실에 연결된 사용자와의 대화를 종료하기 위한 방법의 흐름 다이어그램을 예시한다. 제1 사용자(190A)와 제2 사용자(190B) 사이의 대화가 설정된 후에, 제1 사용자의 통신 시스템(120A)은 제2 사용자와의 대화를 종료하기 위한 표시를 수신한다(560). 예를 들어, 통신 시스템(120A)은 제2 사용자(190B)에 대응하는 비디오 피드에 대한 터치 입력을 수신한다.
제1 사용자(190A)로부터 해당 표시를 수신할 시에, 제1 사용자(190A)의 통신 시스템(120A)은 대화를 종료하기 위한 요청을 제2 사용자(190B)의 통신 시스템(120B)에게 송신한다(570). 일부 실시예들에서, 해당 요청은 제1 사용자(190A)의 통신 시스템(120A)에 의해 전송되는 데이터 스트림(310A)에 포함된 상태 데이터의 변화로서 송신된다. 더욱이, 통신 시스템(120A)은 제2 사용자(190B)에 대응하는 오디오 채널을 자동으로 음소거한다(580A). 일부 실시예들에서, 제1 사용자(190A)의 통신 시스템(120A)은 제2 사용자에 대응하는 오디오 채널을 음소거하기 전에 제2 사용자(190B)의 통신 시스템(120B)으로부터 확인응답을 수신할 때까지 대기한다.
제2 사용자(190B)의 통신 시스템(120B)은 대화를 종료하기 위한 요청을, 제1 사용자(190A)의 통신 시스템(120A)으로부터, 수신한다(575). 제2 사용자(190B)의 통신 시스템(120B)은 제1 사용자에 대응하는 오디오 채널을 자동으로 음소거한다(580B).
도 5b의 예는 제1 사용자(190A)가 대화를 종료하기 위한 표시를 제공하는 것을 도시하지만, 일부 실시예들에서, 대화를 종료하기 위한 표시는 대화에 참여하는 임의의 사용자에 의해 송신될 수 있다. 일 실시예에서, 다수의 사용자들이 대화에 참여하고 있는 경우, 한 사용자는 대화에서 빠지기 위해 요청들을 송신한다. 이 실시예에서, 대화 중인 다른 사용자들은 대화를 유지하지만, 대화에서 빠지기 위해 요청을 송신한 사용자에 대응하는 오디오 채널을 음소거한다. 더욱이, 대화에서 빠지기 위해 요청을 송신한 사용자는 대화 중인 모든 사용자에 대응하는 오디오 채널을 음소거한다.
도 6은 일 실시예에 따른, 회의실에 연결된 사용자와의 활성 대화에 참여하기 위한 방법의 흐름 다이어그램을 예시한다.
제2 사용자(190B)와의 대화를 시작하기 위한 표시를 제1 사용자(190A)로부터 수신할 시에, 제1 사용자(190A)의 통신 시스템(120A)은 대화를 시작하기 위한 표시를 제2 사용자(190B)의 통신 시스템(120B)에게 송신한다(610). 일부 실시예들에서, 해당 표시는 제1 사용자(190A)의 통신 시스템(120A)에 의해 전송되는 데이터 스트림(310A)에 포함된 상태 데이터의 변화로서 송신된다.
제3 사용자(190C)의 통신 시스템(120C)은 제1 사용자(190A)와 제2 사용자(190B) 사이의 대화의 시작의 표시를 수신한다(615). 제3 사용자(190C)의 통신 시스템(120C)은 제1 사용자(190A)와 제2 사용자(190B) 사이의 대화의 표시를 디스플레이한다. 해당 표시는 제1 사용자(190A) 및 제2 사용자(190B)에 대응하는 대화 상태 표시기(230)의 변화를 디스플레이할 수 있다. 예를 들어, 제1 사용자(190A) 및 제2 사용자(190B)에 대응하는 상태 표시기들은 특정 색상을 갖도록 수정된다.
제3 사용자(190C)의 통신 시스템(120C)은 제1 사용자(190A)와 제2 사용자(190C)의 대화에 참여하기 위한 표시를 수신한다(630). 예를 들어, 통신 시스템(120C)은 제1 사용자(190A) 또는 제2 사용자(190B)에 대응하는 비디오 피드에 대한 터치 입력을 수신한다.
제3 사용자(190C)로부터 해당 표시를 수신할 시에, 제3 사용자(190C)의 통신 시스템(120C)은 대화에 참여하기 위한 요청을 제1 사용자(190A)의 통신 시스템(120A) 및 제2 사용자(190B)의 통신 시스템(120B)에게 송신한다(640). 일부 실시예들에서, 해당 요청은 제3 사용자(190C)의 통신 시스템(120C)에 의해 전송되는 데이터 스트림(310C)에 포함된 상태 데이터의 변화로서 송신된다. 더욱이, 통신 시스템(120C)은 제1 사용자(190A) 및 제2 사용자(190B)에 대응하는 오디오 채널을 자동으로 음소거 해제한다(550C). 일부 실시예들에서, 제3 사용자(190C)의 통신 시스템(120C)은 제1 사용자(190A)의 통신 시스템(120A) 및 제2 사용자(190B)의 통신 시스템(120B)으로부터 확인응답을 수신할 때까지 대기한 후에 제1 사용자 및 제2 사용자에 대응하는 오디오 채널을 음소거 해제한다.
제1 사용자(190A)의 통신 시스템(120A)은 대화에 참여하기 위한 요청을, 제3 사용자(190C)의 통신 시스템(120C)으로부터, 수신한다(545A). 제1 사용자(190A)의 통신 시스템(120A)은 제3 사용자에 대응하는 오디오 채널을 자동으로 음소거 해제한다(550A). 유사하게, 제2 사용자(190B)의 통신 시스템(120B)은 대화에 참여하기 위한 요청을, 제3 사용자(190C)의 통신 시스템(120C)으로부터, 수신한다(545B). 제2 사용자(190B)의 통신 시스템(120B)은 제3 사용자에 대응하는 오디오 채널을 자동으로 음소거 해제한다(550B).
추가적인 고려 사항들
실시예들에 대한 전술한 설명은 예시 목적으로 제시되었으며; 전수적이거나 특허권을 개시된 정확한 형태들로 제한하려는 것으로 의도되어 있지 않다. 관련 기술 분야의 통상의 기술자는 이상의 개시내용을 바탕으로 많은 수정들 및 변형들이 가능하다는 것을 알 수 있다.
이 설명의 일부 부분들은 정보에 대한 동작들의 알고리즘들 및 심벌 표현들로 실시예들을 설명한다. 이러한 알고리즘적 설명들 및 표현들은 데이터 프로세싱 분야의 통상의 기술자에 의해 본 기술분야의 다른 통상의 기술자에게 자신의 연구의 내용을 효과적으로 전달하기 위해 흔히 사용된다. 이 동작들은, 기능적으로, 계산적으로, 또는 논리적으로 설명되었지만, 컴퓨터 프로그램들 또는 동등한 전기 회로들, 마이크로코드 등에 의해 구현되는 것으로 이해된다. 게다가, 일반성을 잃지 않고, 이러한 동작 배열들을 모듈들로서 지칭하는 것이 때로는 편리하다는 것이 또한 입증되었다. 설명된 동작들 및 그들과 연관된 모듈들은 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 임의의 조합들로 구체화될 수 있다.
본 명세서에서 설명되는 단계들, 동작들, 또는 프로세스들 중 임의의 것이 하나 이상의 하드웨어 또는 소프트웨어 모듈로, 단독으로 또는 다른 디바이스들과 조합하여, 수행되거나 구현될 수 있다. 일 실시예에서, 소프트웨어 모듈은 설명된 단계들, 동작들, 또는 프로세스들 중 일부 또는 전부를 수행하기 위해 컴퓨터 프로세서에 의해 실행될 수 있는 컴퓨터 프로그램 코드를 포함하는 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품으로 구현된다.
실시예들은 또한 본 명세서에서의 동작들을 수행하기 위한 장치에 관한 것일 수 있다. 이 장치는 요구된 목적들을 위해 특별히 구성될 수 있고/있거나, 컴퓨터에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성되는 범용 컴퓨팅 디바이스를 포함할 수 있다. 그러한 컴퓨터 프로그램은, 컴퓨터 시스템 버스에 결합될 수 있는, 비일시적 유형적 컴퓨터 판독 가능 저장 매체, 또는 전자 명령어들을 저장하기에 적합한 임의의 유형의 매체들에 저장될 수 있다. 게다가, 본 명세서에서 언급되는 임의의 컴퓨팅 시스템들은 단일 프로세서를 포함할 수 있거나, 증대된 컴퓨팅 능력을 위해 다수의 프로세서 설계들을 이용하는 아키텍처들일 수 있다.
실시예들은 또한 본 명세서에서 설명되는 컴퓨팅 프로세스에 의해 생성되는 제품에 관한 것일 수 있다. 그러한 제품은 컴퓨팅 프로세스로부터 결과되는 정보 - 이 정보는 비일시적 유형적 컴퓨터 판독 가능 저장 매체에 저장됨 - 를 포함할 수 있고, 본 명세서에서 설명되는 컴퓨터 프로그램 제품 또는 다른 데이터 조합의 임의의 실시예를 포함할 수 있다.
마지막으로, 본 명세서에서 사용되는 표현은 원칙적으로 가독성 및 교육 목적으로 선택되었으며, 특허권을 한정하거나 제한하기 위해 선택되지 않았을 수 있다. 따라서, 특허권의 범위는 이 상세한 설명에 의해서가 아니라 오히려 그에 기초한 출원에 나오는 임의의 청구항들에 의해 제한되는 것으로 의도되어 있다. 그에 따라, 실시예들의 개시는 이하의 청구항들에서 제시되는 특허권의 범위를 제한하는 것이 아니라 예시적인 것으로 의도되어 있다.

Claims (15)

  1. 방법으로서,
    제1 사용자와 연관된 제1 클라이언트 디바이스에서:
    온라인 회의실에 대한 연결을 개시하는 단계;
    상기 온라인 회의실에 또한 연결된 한 명 이상의 다른 사용자의 하나 이상의 클라이언트 디바이스로부터 비디오 데이터 및 오디오 데이터를 수신하는 단계 - 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스는 제2 사용자와 연관된 제2 클라이언트 디바이스를 포함함 -;
    상기 온라인 회의실에 연결되는 것에 응답하여, 상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 비디오 스트림을 디스플레이하는 단계;
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터 상기 비디오 데이터 및 오디오 데이터를 수신하는 동안, 상기 하나 이상의 클라이언트 디바이스 중 상기 제2 클라이언트 디바이스로부터 상기 제1 사용자와 대화를 시작하기 위한 요청을 수신하는 단계; 및
    상기 요청을 수신하는 것에 응답하여, 상기 제2 클라이언트 디바이스로부터 수신되는 상기 오디오 데이터에 기초하여 오디오 스트림을 재생하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 단계는:
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해:
    상기 다른 사용자의 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 사람의 존재를 검출하는 단계, 및
    상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 상기 사람의 상기 존재를 검출하는 것에 응답하여, 상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에 기초하여 상기 다른 사용자에 대응하는 비디오 피드를 디스플레이하는 단계
    를 포함하는 것인, 방법.
  3. 제2항에 있어서,
    상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 단계는:
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해:
    상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 상기 사람의 상기 존재를 검출하지 않는 것에 응답하여, 상기 다른 사용자가 자리를 비웠다는 표시를 디스플레이하는 단계
    를 더 포함하는 것인, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해:
    상기 다른 사용자와 상기 제1 사용자 사이의 대화 상태에 기초하여 상기 다른 사용자에 대응하는 오디오 피드를 재생할지 여부를 결정하는 단계
    를 더 포함하는, 방법.
  5. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해:
    상기 다른 사용자와 상기 제1 사용자 사이의 대화 상태에 기초하여 상기 다른 사용자에 대응하는 감쇠 인자를 할당하는 단계, 및
    상기 할당된 감쇠 인자에 기초하여, 상기 다른 사용자에 대응하는 오디오 피드를 감쇠시키는 단계;
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대응하는 상기 감쇠된 오디오 피드들을 결합하는 단계; 및
    상기 결합된 감쇠된 오디오 피드를 재생하는 단계
    를 더 포함하는, 방법.
  6. 제5항에 있어서,
    상기 다른 사용자와 상기 제1 사용자 사이의 대화 상태에 기초하여 상기 다른 사용자에 대응하는 감쇠 인자를 결정하는 단계는:
    상기 다른 사용자가 상기 제1 사용자와 활성 대화에 있지 않을 때 0의 값을 상기 감쇠 인자에 할당하는 단계; 및
    상기 다른 사용자가 상기 제1 사용자와 활성 대화에 있을 때 1의 값을 상기 감쇠 인자에 할당하는 단계
    를 포함하는 것인, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 온라인 회의실에 대한 상기 연결을 개시하는 단계는:
    미리 설정된 시간에서 상기 온라인 회의실에 자동으로 연결하는 단계
    를 포함하는 것인, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자는 제3 사용자 및 제4 사용자를 포함하며,
    상기 방법은:
    상기 제3 사용자가 상기 제4 사용자와 활성 대화에 있다는 표시를 수신하는 것에 응답하여:
    상기 제3 사용자가 상기 제4 사용자와 활성 대화에 있다는 상기 표시를 디스플레이하는 단계, 및
    상기 제4 사용자가 상기 제3 사용자와 활성 대화에 있다는 상기 표시를 디스플레이하는 단계
    를 더 포함하고; 바람직하게는:
    상기 제1 사용자가 상기 제3 사용자 또는 상기 제4 사용자와 활성 대화에 있지 않다고 결정하는 것에 응답하여, 상기 제3 사용자 및 상기 제4 사용자에 대응하는 오디오 피드를 음소거하는 단계를 더 포함하며; 바람직하게는:
    상기 제3 사용자와 상기 제4 사용자 사이의 상기 대화에 참여하기 위한 표시를 수신하는 단계;
    상기 제3 사용자와 상기 제4 사용자 사이의 상기 대화에 참여하기 위한 상기 표시를 수신하는 것에 응답하여:
    상기 대화에 참여하기 위한 요청을 상기 제3 사용자의 상기 클라이언트 디바이스 및 상기 제4 사용자의 상기 클라이언트 디바이스에게 송신하는 단계, 및
    상기 제3 사용자의 상기 클라이언트 디바이스 및 상기 제4 사용자의 상기 클라이언트 디바이스로부터 수신되는 상기 오디오 데이터에 기초하여 오디오 스트림을 재생하는 단계
    를 더 포함하는, 방법.
  9. 방법으로서,
    온라인 회의실에 연결된 복수의 클라이언트 디바이스들로부터 데이터 스트림을 수신하는 단계 - (i) 상기 복수의 클라이언트 디바이스들은 복수의 사용자들과 연관되고, (ii) 상기 데이터 스트림은 오디오 데이터 및 상태 데이터를 포함하며, (iii) 상기 상태 데이터는 대응하는 사용자가 상기 온라인 회의실에 연결된 다른 사용자와 활성 대화에 있는지 여부를 나타냄 -;
    상기 복수의 클라이언트 디바이스들의 각각의 클라이언트 디바이스에 대해, 상기 사용자의 상기 데이터 스트림에 포함된 상기 상태 데이터에 기초하여 대응하는 사용자가 상기 온라인 회의실에 연결된 다른 사용자와 활성 대화에 있는지 여부를 결정하는 단계;
    상기 복수의 사용자들 중 제1 사용자가 상기 복수의 사용자들 중 제2 사용자와 활성 대화에 있다고 결정하는 것에 응답하여:
    상기 제1 사용자가 상기 제2 사용자와 활성 대화에 있다는 표시를 디스플레이하는 단계, 및
    상기 제2 사용자가 상기 제1 사용자와 활성 대화에 있다는 표시를 디스플레이하는 단계;
    상기 제1 사용자와 상기 제2 사용자 사이의 상기 대화에 참여하기 위한 표시를 수신하는 단계;
    상기 제1 사용자와 상기 제2 사용자 사이의 상기 대화에 참여하기 위한 상기 표시를 수신하는 것에 응답하여:
    상기 대화에 참여하기 위한 요청을 상기 제1 사용자의 클라이언트 디바이스 및 상기 제2 사용자의 클라이언트 디바이스에게 송신하는 단계, 및
    상기 제1 사용자 및 상기 제2 사용자에 대응하는 상기 오디오 스트림을 재생하는 단계
    를 포함하는, 방법.
  10. 제9항에 있어서,
    상기 제1 사용자 및 상기 제2 사용자에 대응하는 상기 오디오 스트림을 재생하는 단계는:
    상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자에게 감쇠 인자를 할당하는 단계 - 상기 제1 사용자 및 상기 제2 사용자에게 할당되는 상기 감쇠 인자는 0이 아닌 값을 갖고, 상기 온라인 회의실에 연결된 상기 복수의 사용자들 중 다른 모든 사용자에게 할당되는 상기 감쇠 인자는 0의 값을 가짐 -, 및
    상기 할당된 감쇠 인자에 기초하여, 상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자에 대응하는 오디오 피드를 감쇠시키는 단계;
    상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자에 대응하는 상기 감쇠된 오디오 피드들을 결합하는 것에 의해 오디오 스트림을 생성하는 단계; 및
    상기 생성된 오디오 스트림을 재생하는 단계
    를 포함하는 것인, 방법.
  11. 제9항 또는 제10항에 있어서,
    상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자의 상기 클라이언트 디바이스로부터 비디오 데이터를 수신하는 단계;
    상기 온라인 회의실에 연결된 것에 응답하여, 상기 온라인 회의에 연결된 상기 복수의 사용자들의 각각의 사용자의 상기 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 비디오 스트림을 디스플레이하는 단계를 더 포함하며; 바람직하게는 상기 온라인 회의에 연결된 상기 복수의 사용자들의 각각의 사용자의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 단계는:
    상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자에 대해:
    상기 사용자의 상기 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 사람의 존재를 검출하는 단계, 및
    상기 사용자의 상기 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 사람의 상기 존재를 검출하는 것에 응답하여, 상기 사용자의 상기 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에 기초하여 상기 사용자에 대응하는 비디오 피드를 디스플레이하는 단계를 포함하고; 바람직하게는 상기 온라인 회의에 연결된 상기 복수의 사용자들의 각각의 사용자의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 단계는:
    상기 온라인 회의실에 연결된 상기 복수의 사용자들의 각각의 사용자에 대해:
    상기 사용자의 상기 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 사람의 상기 존재를 검출하지 않는 것에 응답하여, 상기 사용자가 자리를 비웠다는 표시를 디스플레이하는 단계
    를 더 포함하는, 방법.
  12. 비일시적 컴퓨터 판독 가능 저장 매체로서, 제1 사용자와 연관된 제1 클라이언트 디바이스의 하나 이상의 프로세서에 의해 실행되도록 구성된 하나 이상의 프로그램을 저장하며, 상기 하나 이상의 프로그램은, 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 제1 클라이언트 디바이스로 하여금:
    온라인 회의실에 대한 연결을 개시하게 하고;
    상기 온라인 회의실에 또한 연결된 한 명 이상의 다른 사용자의 하나 이상의 클라이언트 디바이스로부터 비디오 데이터 및 오디오 데이터를 수신하게 하며 - 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스는 제2 사용자와 연관된 제2 클라이언트 디바이스를 포함함 -;
    상기 온라인 회의실에 연결되는 것에 응답하여, 상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 비디오 스트림을 디스플레이하게 하고;
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터 상기 비디오 데이터 및 오디오 데이터를 수신하는 동안, 상기 하나 이상의 클라이언트 디바이스 중 상기 제2 클라이언트 디바이스로부터 상기 제1 사용자와 대화를 시작하기 위한 요청을 수신하게 하며;
    상기 요청을 수신하는 것에 응답하여, 상기 제2 클라이언트 디바이스로부터 수신되는 상기 오디오 데이터에 기초하여 오디오 스트림을 재생하게 하는
    것인, 비일시적 컴퓨터 판독 가능 저장 매체.
  13. 제12항에 있어서,
    상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 명령어들은 상기 제1 클라이언트 디바이스로 하여금:
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해:
    상기 다른 사용자의 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 사람의 존재를 검출하게 하고,
    상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 상기 사람의 상기 존재를 검출하는 것에 응답하여, 상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에 기초하여 상기 다른 사용자에 대응하는 비디오 피드를 디스플레이하게 하며; 바람직하게는 상기 온라인 회의에 연결된 상기 한 명 이상의 다른 사용자의 상기 하나 이상의 클라이언트 디바이스로부터의 상기 수신된 비디오 데이터에 기초하여 상기 비디오 스트림을 디스플레이하는 명령어들은 추가로 상기 제1 클라이언트 디바이스로 하여금:
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해:
    상기 다른 사용자의 상기 각자의 클라이언트 디바이스로부터 수신되는 상기 비디오 데이터에서 상기 사람의 상기 존재를 검출하지 않는 것에 응답하여, 상기 다른 사용자가 자리를 비웠다는 표시를 디스플레이하게 하는
    것인, 비일시적 컴퓨터 판독 가능 저장 매체.
  14. 제12항 또는 제13항에 있어서,
    상기 명령어들은 추가로 상기 제1 클라이언트 디바이스로 하여금:
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해:
    상기 다른 사용자와 상기 제1 사용자 사이의 대화 상태에 기초하여 상기 다른 사용자에 대응하는 오디오 피드를 재생할지 여부를 결정하게 하는
    것인, 비일시적 컴퓨터 판독 가능 저장 매체.
  15. 제12항 또는 제13항에 있어서,
    상기 명령어들은 추가로 상기 제1 클라이언트 디바이스로 하여금:
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대해:
    상기 다른 사용자와 상기 제1 사용자 사이의 대화 상태에 기초하여 상기 다른 사용자에 대응하는 감쇠 인자를 할당하게 하고,
    상기 할당된 감쇠 인자에 기초하여, 상기 다른 사용자에 대응하는 오디오 피드를 감쇠시키게 하며;
    상기 온라인 회의실에 연결된 상기 한 명 이상의 다른 사용자의 각각의 다른 사용자에 대응하는 상기 감쇠된 오디오 피드들을 결합하게 하고;
    상기 결합된 감쇠된 오디오 피드를 재생하게 하는
    것인, 비일시적 컴퓨터 판독 가능 저장 매체.
KR1020237008589A 2020-09-09 2021-08-26 지속적 공존 그룹 화상 회의 시스템 KR20230066362A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063076307P 2020-09-09 2020-09-09
US63/076,307 2020-09-09
US17/354,544 2021-06-22
US17/354,544 US11451593B2 (en) 2020-09-09 2021-06-22 Persistent co-presence group videoconferencing system
PCT/US2021/047702 WO2022055715A1 (en) 2020-09-09 2021-08-26 Persistent co-presence group videoconferencing system

Publications (1)

Publication Number Publication Date
KR20230066362A true KR20230066362A (ko) 2023-05-15

Family

ID=80470360

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237008589A KR20230066362A (ko) 2020-09-09 2021-08-26 지속적 공존 그룹 화상 회의 시스템

Country Status (6)

Country Link
US (1) US11451593B2 (ko)
EP (1) EP4211895A1 (ko)
JP (1) JP2023544483A (ko)
KR (1) KR20230066362A (ko)
CN (1) CN116057896A (ko)
WO (1) WO2022055715A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11803817B2 (en) * 2020-09-03 2023-10-31 Ciena Corporation Virtual hallway conversations for remote collaboration
US20230199041A1 (en) * 2021-12-21 2023-06-22 Nevolane Business Gmbh Remote collaboration platform

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8416715B2 (en) 2009-06-15 2013-04-09 Microsoft Corporation Interest determination for auditory enhancement
US8717409B2 (en) 2010-05-13 2014-05-06 Lifesize Communications, Inc. Conducting a direct private videoconference within a videoconference
US20120017149A1 (en) * 2010-07-15 2012-01-19 Jeffrey Lai Video whisper sessions during online collaborative computing sessions
US8832284B1 (en) * 2011-06-16 2014-09-09 Google Inc. Virtual socializing
US8730295B2 (en) 2011-06-21 2014-05-20 Broadcom Corporation Audio processing for video conferencing
KR101858895B1 (ko) * 2017-03-10 2018-05-16 한국전자통신연구원 영상 회의 서비스 제공 방법 및 이를 수행하는 장치들
US20210352244A1 (en) * 2020-05-11 2021-11-11 Sony Interactive Entertainment LLC Simulating real-life social dynamics in a large group video chat

Also Published As

Publication number Publication date
EP4211895A1 (en) 2023-07-19
CN116057896A (zh) 2023-05-02
JP2023544483A (ja) 2023-10-24
WO2022055715A1 (en) 2022-03-17
US11451593B2 (en) 2022-09-20
US20220078218A1 (en) 2022-03-10

Similar Documents

Publication Publication Date Title
US9819902B2 (en) Proximate resource pooling in video/audio telecommunications
US7574474B2 (en) System and method for sharing and controlling multiple audio and video streams
US8230012B2 (en) Internet video conferencing on a home television
US8923649B2 (en) System and method for calibrating display overscan using a mobile device
US20060215585A1 (en) Conference system, conference terminal, and mobile terminal
US20040008249A1 (en) Method and apparatus for controllable conference content via back-channel video interface
JP2007068198A (ja) 電気通信システム
US11451593B2 (en) Persistent co-presence group videoconferencing system
US8786631B1 (en) System and method for transferring transparency information in a video environment
WO2022241022A1 (en) Customized audio mixing for users in virtual conference calls
WO2023283257A1 (en) User-configurable spatial audio based conferencing system
US10764535B1 (en) Facial tracking during video calls using remote control input
CN116114251A (zh) 视频通话方法及显示设备
US20220353462A1 (en) Managing a call on a communication system with an external display device
US11838331B2 (en) Endpoint control over a text channel of a real-time communication session
US11202148B1 (en) Smart audio with user input
JP2006339869A (ja) 映像信号と音響信号の統合装置
US10893139B1 (en) Processing interaction requests with user specific data on a shared device
KR102164833B1 (ko) 멀티미디어 콘텐츠 송출을 위한 장치 및 방법
US20120300126A1 (en) Electronic apparatus and tv phone method
JP7312337B1 (ja) 会議システム、制御装置、制御方法、プログラム、および記録媒体
US20240114311A1 (en) Video and audio splitting that simulates in-person conversations during remote conferencing
US20240056328A1 (en) Audio in audio-visual conferencing service calls
WO2013066290A1 (en) Videoconferencing using personal devices
KR20230015870A (ko) 정보 처리 시스템, 정보 처리 장치 및 프로그램

Legal Events

Date Code Title Description
A201 Request for examination