KR102613040B1 - 영상 통화 방법 및 이를 구현하는 로봇 - Google Patents

영상 통화 방법 및 이를 구현하는 로봇 Download PDF

Info

Publication number
KR102613040B1
KR102613040B1 KR1020190093717A KR20190093717A KR102613040B1 KR 102613040 B1 KR102613040 B1 KR 102613040B1 KR 1020190093717 A KR1020190093717 A KR 1020190093717A KR 20190093717 A KR20190093717 A KR 20190093717A KR 102613040 B1 KR102613040 B1 KR 102613040B1
Authority
KR
South Korea
Prior art keywords
video
user
robot
time
processor
Prior art date
Application number
KR1020190093717A
Other languages
English (en)
Other versions
KR20190098096A (ko
Inventor
박지환
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020190093717A priority Critical patent/KR102613040B1/ko
Publication of KR20190098096A publication Critical patent/KR20190098096A/ko
Priority to US16/557,310 priority patent/US10629208B2/en
Priority to US16/824,124 priority patent/US10878822B2/en
Application granted granted Critical
Publication of KR102613040B1 publication Critical patent/KR102613040B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • H04M3/569Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/62Control of parameters via user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • H04N23/661Transmitting camera control signals through networks, e.g. control via the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/50Telephonic communication in combination with video communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Telephone Function (AREA)
  • Manipulator (AREA)

Abstract

영상 통화 방법 및 이를 구현하는 로봇이 개시된다. 개시된 로봇은 영상 통화를 위한 제1 동영상을 획득하는 카메라, 소리 신호를 수신하는 다채널 마이크, 하나 이상의 명령을 저장하는 메모리 및 상기 명령을 실행하는 프로세서를 포함하되, 상기 프로세서는, 상기 소리 신호에 포함된 복수 개의 음성 신호의 발생 위치를 산출하고, 상기 제1 동영상 내의 N(2 이상의 정수)명의 사용자의 위치를 산출하고, 상기 복수 개의 음성 신호 중에서 상기 N명의 사용자의 위치와 동일한 위치에서 발생된 N개의 음성 신호를 선택하고, 제1 시점의 이전 시간 구간에서의 상기 N개의 음성 신호 각각의 파형에서 음성이 검출되는 시간의 비율을 산출하고, 상기 시간의 비율에 기초하여 상기 제1 시점에서의 상기 영상 통화의 메인 사용자를 결정한다.

Description

영상 통화 방법 및 이를 구현하는 로봇{VIDEO COMMUNICATION METHOD AND ROBOT FOR IMPLEMENTING THEREOF}
본 발명은 영상 통화 방법 및 이를 구현하는 로봇에 관한 기술이다.
통신 관련 기술이 급속히 발전함에 따라, 상대방의 얼굴을 보면서 발신자와 착신자가 통화할 수 있는 영상 통화 기능이 활성화 되고 있다. 영상 통화 기능은 발신 단말기 및 착신 단말기 각각의 카메라에 의해 촬영된 동영상을 서로 송수신하면서 통화를 수행한다.
카메라, 스피커, 마이크, 통신부 및 디스플레이부를 구비한 로봇을 통해 영상 통화 기능이 수행될 수 있다. 로봇은 상대방 로봇에게 자신이 획득한 제1 동영상을 전송하고, 상대방 로봇으로부터 제2 동영상을 수신하여 디스플레이부에 표시하며, 이를 통해 영상 통화를 수행할 수 있다.
한편, 복수의 사용자가 하나의 로봇을 통해 영상 통화를 수행하는 경우가 발생할 수 있으며, 특히 디스플레이 화면에 존재하지 않는 사용자가 출력한 음성 신호가 상대방 사용자에게 전달되는 상황이 발생할 수 있다. 이 경우, 화면에 존재하지 않는 사용자의 음성 신호에 의해 영상 통화의 품질이 떨어지는 단점이 있다.
또한, 화면 내에 2 이상의 사용자가 존재하는 경우, 어떤 사용자가 영상 통화에 대한 주 화자인지를 결정하기가 어려운 단점이 있다.
본 발명의 목적은 다수의 사용자가 영상 통화를 수행하는 경우 영상 통화의 품질을 높일 수 있는 영상 통화 방법 및 이를 구현하는 로봇을 제공하는 것이다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
본 발명의 일 실시예에 의한 영상 통화를 수행하는 로봇은, 영상 통화를 위한 제1 동영상을 획득하는 카메라, 소리 신호를 수신하는 다채널 마이크, 하나 이상의 명령을 저장하는 메모리 및 상기 명령을 실행하는 프로세서를 포함하되, 상기 프로세서는, 상기 소리 신호에 포함된 복수 개의 음성 신호의 발생 위치를 산출하고, 상기 제1 동영상 내의 N(2 이상의 정수)명의 사용자의 위치를 산출하고, 상기 복수 개의 음성 신호 중에서 상기 N명의 사용자의 위치와 동일한 위치에서 발생된 N개의 음성 신호를 선택하고, 제1 시점의 이전 시간 구간에서의 상기 N개의 음성 신호 각각의 파형에서 음성이 검출되는 시간의 비율을 산출하고, 상기 시간의 비율에 기초하여 상기 제1 시점에서의 상기 영상 통화의 메인 사용자를 결정한다.
본 발명의 일 실시예에 의한 로봇을 이용한 영상 통화 방법은, 카메라가 영상 통화를 위한 제1 동영상을 획득하는 단계, 다채널 마이크가 소리 신호를 수신하는 단계, 상기 프로세서가 상기 소리 신호에 포함된 복수 개의 음성 신호의 발생 위치 및 상기 제1 동영상 내의 N(2 이상의 정수)명의 사용자의 위치를 산출하는 단계, 상기 프로세서가 상기 복수 개의 음성 신호 중에서 상기 N명의 사용자의 위치와 동일한 위치에서 발생된 N개의 음성 신호를 선택하는 단계, 상기 프로세서가 제1 시점의 이전 시간 구간에서의 상기 N개의 음성 신호 각각의 파형에서 음성이 검출되는 시간의 비율을 산출하는 단계 및 상기 프로세서가 상기 시간의 비율에 기초하여 상기 제1 시점에서의 상기 영상 통화의 메인 사용자를 결정하는 단계를 포함한다.
본 발명에 따르면, 다수의 사용자가 영상 통화를 수행하는 경우에도 영상 통화의 품질을 높일 수 있는 장점이 있다.
본 발명의 효과는 전술한 효과에 한정되지 않으며, 본 발명의 당업자들은 본 발명의 구성에서 본 발명의 다양한 효과를 쉽게 도출할 수 있다.
도 1는 본 발명의 일 실시예에 의한 로봇의 외관을 보여주는 도면이다.
도 2는 본 발명의 일 실시예에 따른 로봇의 주요 구성들 간의 제어관계를 도시한 블록도이다.
도 3은 본 발명의 제1 실시예에 따른 로봇을 이용한 영상 통화 방법의 흐름도를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 사용자의 음성 신호에서의 음성 출력 구간 및 음성 비출력 구간의 개념을 도시한 도면이다.
도 5는 본 발명의 제2 실시예에 따른 로봇을 이용한 영상 통화 방법의 흐름도를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 이전 시간 구간들의 개념을 설명하기 위한 도면이다.
도 7은 본 발명의 제3 실시예에 따른 로봇과 상대방 로봇 간의 영상 통화 방법의 흐름도를 도시한 도면이다.
이하, 도면을 참조하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다. 또한, 본 발명의 일부 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가질 수 있다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다.
본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질, 차례, 순서 또는 개수 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 다른 구성 요소가 "개재"되거나, 각 구성 요소가 다른 구성 요소를 통해 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
또한, 본 발명을 구현함에 있어서 설명의 편의를 위하여 구성요소를 세분화하여 설명할 수 있으나, 이들 구성요소가 하나의 장치 또는 모듈 내에 구현될 수도 있고, 혹은 하나의 구성요소가 다수의 장치 또는 모듈들에 나뉘어져서 구현될 수도 있다.
이하, 본 명세서에서 설명하는 로봇은 스스로 보유한 능력에 의해 주어진 일을 자동으로 처리하거나 작동하는 기계를 의미할 수 있다. 특히, 환경을 인식하고 스스로 판단하여 동작을 수행하는 기능을 갖는 로봇을 지능형 로봇이라 칭할 수 있다.
로봇은 사용 목적이나 분야에 따라 산업용, 의료용, 가정용, 군사용 등으로 분류할 수 있다.
로봇은 액츄에이터 또는 모터를 포함하는 구동부를 구비하여 로봇 관절을 움직이는 등의 다양한 물리적 동작을 수행할 수 있다. 또한, 이동 가능한 로봇은 구동부에 휠, 브레이크, 프로펠러 등이 포함되어, 구동부를 통해 지상에서 주행하거나 공중에서 비행할 수 있다.
도 1는 본 발명의 일 실시예에 의한 로봇의 외관을 보여주는 도면이다.
도 1에서는 로봇(100)을 이동하지 않는 고정형 로봇으로 도시하였으나, 본 발명은 이에 한정되지 않으며, 이동형 로봇에서도 아래에서 설명하는 내용이 적용될 수 있다.
도 1을 참조하면, 로봇(100)는 하부 측에 배치되는 제1 바디부(102) 및 제1 바디부(104)의 상부 측에 배치되는 제2 바디부(104)를 포함한다.
여기서, 제1 바디부(102)는 고정되어 배치된다. 그리고, 제2 바디부(104)는 제1 바디부(102) 상에서 좌우 방향으로 회전하고 상하 방향으로 각도 조절(즉 틸팅)된다.
제2 바디부(104)의 상면에는 카메라(106)가 부착된다. 따라서, 카메라(106)는 제2 바디부(104)의 회전 및 틸팅에 따라 함께 회전 및 틸팅된다. 또한, 카메라(106)의 초점 거리는 조절될 수 있고, 이를 통해 영상의 줌 기능이 사용 가능하다.
마이크(108), 스피커(110) 및 디스플레이부(112) 역시 제2 바디부(104)에 부착된다. 한편, 제2 바디부(104)의 외부에는 센서부가 부착될 수 있으며, 내부에는 통신부, 메모리 및 프로세서가 배치될 수 있다.
도 2는 본 발명의 일 실시예에 따른 로봇(100)의 주요 구성들 간의 제어관계를 도시한 블록도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 로봇(100)는 영상 통화를 수행하는데 사용될 수 있는 전자 기기로서, 앞서 언급한 바와 같이 카메라(106), 마이크(108), 스피커(110), 디스플레이부(112), 통신부(114), 센서부(116), 메모리(118) 및 프로세서(120)를 포함한다.
이하, 각 구성 요소 별 기능을 상세하게 설명한다.
카메라(106)는 공간에 대한 동영상을 획득한다. 여기서, 공간은 실내의 공간일 수도 있고 실외의 공간일 수도 있다. 한편, 앞서 언급한 바와 같이, 제2 바디부(104)의 회전 및 틸팅에 따라 카메라(106)는 좌우 방향으로 회전할 수 있고 틸팅될 수도 있으며, 초점 거리가 조절될 수 있다.
마이크(108)는 공간에서 출력된 음성 신호를 수신한다. 한편, 앞서 언급한 바와 같이, 마이크(108)는 다채널 마이크일 수 있다.
스피커(110)는 영상 통화 시에 사용될 수 있으며, 영상 통화의 상대방 로봇 또는 단말기(이하, 설명의 편의를 위해 "상대방 로봇"으로 호칭함)가 전송한 동영상에 포함된 음원 신호를 상기한 공간으로 출력한다.
디스플레이부(112)는 액정 디스플레이(LCD), 발광 다이오드 디스플레이(LED), 유기 발광 다이오드 디스플레이(OLED) 등으로 구성될 수 있으며, 사용자에게 영상 내지 영상 프레임을 표시할 수 있는 장치이다. 특히, 디스플레이부(108)는 터치 소자를 포함하는 터치 디스플레이일 수 있다.
통신부(114)는 상대방 단말기와 통신을 수행한다. 즉. 통신부(114)는 로봇(100)에서 생성된 동영상을 상대방 단말기로 전송하고, 상대방 단말기에서 전송된 동영상을 수신한다.
이 때, 통신부(114)는 이동통신 모듈, 근거리 통신 모듈 등을 포함할 수 있다.
이동통신 모듈은, 이동통신을 위한 기술표준들 또는 통신방식, 예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등에 따라 구축된 이동 통신망 상에서 기지국, 외부의 단말 장치, 통신 서버 중 적어도 하나와 무선 신호를 송수신한다.
근거리 통신 모듈은 근거리 통신(Short range communication)을 위한 것으로서, 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 포함할 수 있다.
센서부(116)는 적어도 하나의 센서를 포함할 수 있으며, 로봇(100)의 외부 환경에 대한 특정 정보를 센싱한다. 일례로서, 센서부(116)는 로봇(100)의 인근에 위치하는 객체(사용자 등)까지의 거리를 측정하기 위한 라이더 센서, 레이더 센서, 적외선 센서, 초음파 센서, RF 센서 등을 포함할 수 있으며, 기타 지자기 센서, 관성 센서, 광 센서 등 다양한 센서를 포함할 수 있다.
메모리(118)는 휘발성 및/또는 비휘발성 메모리일 수 있고, 단말 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령(instruction) 또는 데이터를 저장한다. 특히, 메모리(118)는 영상 통화를 수행하기 위한 컴퓨터 프로그램 내지 기록 매체에 관계된 명령 또는 데이터를 저장할 수 있다.
프로세서(120)는 중앙처리장치, 애플리케이션 프로세서, 또는 커뮤니케이션 프로세서 중 하나 또는 그 이상을 포함할 수 있다. 프로세서(120)는 로봇(100)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있으며, 컴퓨터 프로그램의 실행에 관계된 명령을 실행할 수 있다.
이하, 도 3을 참조하여 로봇(100)을 이용한 영상 통화 방법의 실시예를 보다 상세하게 설명한다.
도 3은 본 발명의 제1 실시예에 따른 로봇(100)을 이용한 영상 통화 방법의 흐름도를 도시한 도면이다.
한편, 영상 통화를 시작하는 시점에서, 로봇(100)은 공간에 위치하는 복수의 사용자 중 어느 하나의 사용자의 방향으로 로봇(100)의 얼굴이 향하는 것으로 가정한다. 이 때, 어느 하나의 사용자는 로봇(100)과 가장 거리가 가까운 사용자일 수 있다.
그리고, 영상 통화가 시작되는 경우, 로봇(100)는 상대방 단말기(로봇)로부터 상대방 영상인 제2 동영상을 수신받고, 이를 디스플레이부(112)에 표시하고, 제2 동영상 내의 음원 신호를 수신하는 것으로 가정한다.
이하, 각 단계 별로 수행되는 과정을 상세하게 설명한다.
단계(S302)에서, 카메라(106)는 영상 통화를 위하여 공간에 대한 동영상을 획득한다. 이하, 로봇(100)에서 획득된 동영상을 제1 동영상이라 호칭하기로 한다.
한편, 카메라(106)는 좌우로 회전하거나 상하로 틸팅할 수 있으며, 이에 따라, 공간의 전 방향에 대한 제1 동영상의 촬영이 가능하다.
단계(S304)에서, 마이크(108)는 공간에서 출력된 소리 신호를 수신한다.
이 때, 소리 신호는 공간에 존재하는 복수의 사용자 각각이 출력한 음성 신호를 포함할 수 있다.
단계(S306)에서, 프로세서(120)는 소리 신호에 포함된 복수 개의 음성 신호의 발생 위치를 측정한다. 이 때, 음성 신호의 발생 위치는 로봇(100)의 위치를 기준으로 한 음성 신호의 발생 각도일 수 있다.
일례로서, 프로세서(120)는 다채널 마이크를 통해 수신된 소리 신호를 SSL(Sound Source Localization) 알고리즘에 적용하여 복수 개의 음성 신호의 발생 위치(각도)를 산출할 수 있다.
단계(S308)에서, 프로세서(120)는 획득된 제1 동영상 내의 N(2 이상의 정수)명의 사용자의 위치를 산출한다. 즉, 프로세서(120)는 동영상의 분석하고 센서부(116)에서 센싱된 정보를 이용하여 N명의 사용자의 위치를 산출한다.
이 때, 제1 동영상 내의 N명의 사용자는 카메라(106)가 특정 방향에서 동영상을 촬영할 때, 카메라(106)의 화각 내에 존재하는 사용자로서, 제1 동영상 내에 존재하는 사용자이다.
단계(S310)에서, 프로세서(120)는 복수 개의 음성 신호 중에서 제1 동영상 내에 존재하는 N명의 사용자의 위치와 동일한 위치에서 발생된 N개의 음성 신호를 선택한다. 즉, 프로세서(120)는 복수 개의 음성 신호 중에서 카메라(106)의 화각 내에서 발생하는 N개의 음성 신호를 선택한다. N개의 음성 신호는 N개의 사용자가 출력한 음성 신호이다.
단계(S312)에서, 프로세서(120)는 N개의 음성 신호에서 잡음을 제거한다. 다양한 잡음 제거 기술이 단계(S312)에 적용될 수 있다.
단계(S314)에서, 프로세서(120)는 제1 시점의 이전 시간 구간에서의 N개의 음성 신호 각각의 파형에서 음성이 검출되는 시간의 비율을 산출한다.
이 때, 제1 시점은 현재 시점일 수 있다. 그리고, 이전 시간 구간은 제1 시점을 기준으로 한 이전의 특정 시간 구간일 수 있다. 일례로, 이전 시간 구간의 시간 값은 2초 또는 3초일 수 있다. 또한, 상기 음성이 검출되는 시간의 비율은 사용자가 이전 시간 구간에서 음성을 발화한 전체 시간 값을 의미한다.
본 발명의 일 실시예에 따르면, 이전 시간 구간에서의 N개의 음성 신호의 파형 각각은 적어도 하나의 음성 출력 구간 및 적어도 하나의 음성 비출력 구간을 포함할 수 있으며, 프로세서(120)는 이전 시간 구간에서의 총 시간 값을 기준으로 한 적어도 하나의 음성 출력 구간의 총 시간 값의 비율을 산출할 있다. 이 때, 산출된 비율은 상기 파형에서 음성이 검출되는 시간의 비율과 대응된다.
이하, 아래의 도면을 참조하여, 단계(S314)의 과정을 보다 상세하게 설명한다.
도 4는 본 발명의 일 실시예에 따른 사용자의 음성 신호에서의 음성 출력 구간 및 음성 비출력 구간의 개념을 도시한 도면이다.
보다 상세하게, 도 4의 (a)에서는 특정 사용자의 음성 신호의 시간 영역에서의 파형의 일례를 도시하고 있다.
도 4의 (a)를 참조하면, 사용자의 음성 신호의 시간 영역에서의 파형은 신호의 세기가 강한 적어도 하나의 구간 및 신호의 세기가 약한 적어도 하나의 구간을 포함한다. 이 때, 신호의 세기가 강한 구간은 사용자가 음성을 발화하는 구간, 즉 음성 출력 구간이고, 신호의 세기가 약간 구간은 사용자가 음성을 발화하지 않는 구간, 즉 음성 비출력 구간이다.
한편, 프로세서(120)는 음성 출력 구간과 음성 비출력 구간을 구분하기 위해 미리 설정된 임계 세기를 사용할 수 있다. 즉, 프로세서(120)는 사용자의 음성 신호의 파형에 기초하여, 상기 파형의 전체 시간의 시점에서 음성 신호의 세기가 기 설정된 임계 세기 이상인지 여부를 판단한다. 이 때, 임계 세기는 실험적으로 결정될 수 있으며, 일례로 아주 작은 신호의 세기일 수 있다.
따라서, 프로세서(120)는, 음성 신호의 세기가 임계 세기 이상인 구간을 음성 출력 구간으로 결정할 수 있고, 음성 신호의 세기가 임계 세기 미만인 구간을 음성 비출력 구간으로 결정할 수 있다.
도 4의 (b)는 음성 신호의 파형에 기초한 음성 출력 구간/음성 비출력 구간을 포함하는 그래프를 도시하고 있다.
여기서, 그래프의 x축은 상기 파형의 x축과 동일하며, 그래프의 y축은 0 또는 1의 값을 가진다. y축이 0인 구간은 음성 비출력 구간과 대응되고, y축이 1인 구간은 음성 출력 구간과 대응된다. 따라서, 프로세서(120)는 상기 그래프를 이용하여 적어도 하나의 음성 출력 구간의 총 시간 값을 산출하고, 산출된 총 시간 값에 기초하여 음성 신호의 파형에서 음성이 검출되는 시간의 비율을 산출할 수 있다.
다시, 도 3을 참조하면, 단계(S316)에서, 프로세서(120)는 상기 산출된 시간의 비율에 기초하여 제1 시점에서의 영상 통화의 메인 사용자를 결정한다. 즉, 단계(S316)는 카메라(106)의 화각에 존재하는 N명의 사용자 중 영상 통화의 주 화자인 메인 사용자를 결정하는 단계이다.
본 발명의 일 실시예에 따르면, 프로세서(120)는 N명의 음성 신호 각각의 상기 산출된 시간의 비율 중 최대의 시간의 비율을 가지는 제1 사용자를 영상 통화의 메인 사용자(주 화자)로 설정할 수 있다.
즉, 프로세서(120)는 제1 시점의 이전 시간 구간에서 발화를 가장 많이 한 사용자, 즉 주도적으로 발화를 하는 사용자를 제1 사용자로 설정할 수 있다. 다시 말해, 이전 시간 구간에서 발화를 가장 많이 한 사용자는 상대방과 대화를 주도적으로 대화를 나누는 사용자이므로, 이 사용자를 메인 사용자로 결정할 수 있다.
한편, 이전 시간 구간에서 발화를 가장 많이 제1 사용자가 2명 이상인 경우가 발생할 수 있다. 이 경우, 로봇(100)는 메인 사용자를 결정하지 못하게 된다.
상기한 경우를 방지하기 위해, 본 발명의 일 실시예에 따르면, 프로세서(120)는, 로봇(100)과의 거리가 최소인 제1 사용자를 메인 사용자로 결정할 수 있다.
즉, 로봇(100)에 가장 가까이 있는 사람은 영상 통화에 가장 관심을 가진 사람일 가능성이 높다. 따라서, 프로세서(120)는 2명 이상의 제1 사용자 중 로봇(100)과의 거리가 최소인 제1 사용자를 메인 사용자로 결정할 수 있다.
이 때, 센서부(116)가 존재하지 않거나 동작하지 않는 경우, 프로세서(120)는 제1 동영상을 분석하여 로봇(100)과의 거리가 최소인 제1 사용자를 결정할 수 있다. 즉, 프로세서(120)는 2명 이상의 제1 사용자 중에서 제1 동영상에서의 얼굴 크기가 최대인 제1 사용자를 메인 사용자로 추정할 수 있다.
보다 상세하게, 원근법에 의해 동영상 내에서 얼굴 크기가 제일 큰 사람은 로봇(100)과 제일 가까운 사람으로 추정된다. 따라서, 프로세서(120)는 제1 사용자들의 얼굴을 인식하고, 인식된 제1 사용자들의 얼굴의 대각선의 길이를 산출하여 제1 사용자들의 얼굴 크기를 산출하고, 산출된 제1 사용자의 얼굴 크기를 동공 거리를 통해 정규화하며, 정규화된 제1 사용자들의 얼굴 크기가 최대인 제1 사용자를 메인 사용자로 결정할 수 있다.
계속하여, 단계(S318)에서, 프로세서(120)는 메인 사용자가 제1 동영상의 중앙에 위치하도록 카메라(106)의 제1 동영상의 획득 동작을 제어한다.
단계(S320)에서, 프로세서(120)는 제1 동영상과 매칭되는 제1 음원 신호를 생성한다. 즉, 제1 음원 신호는 제1 동영상과 함께 상대방 로봇에서 출력되는 음원 신호이다. 단계(S322)에서, 통신부(114)는 프로세서(120)의 제어 하에 제1 음원 신호를 제1 동영상과 함께 상대방 로봇으로 전송한다.
이 때, 프로세서(120)는, N개의 음성 신호를 포함하고 복수 개의 음성 신호 중 N개의 음성 신호를 제외한 나머지 음성 신호는 포함되지 않도록 제1 음원 신호를 생성할 수 있다.
즉, 영상 통화의 품질을 높이기 위해서는 제1 동영상에 존재하지 않는 사용자, 즉 카메라(106)의 화각 이내에 존재하지 않는 사용자의 음성 신호는 제거하는 것이 바람직하다. 따라서, 프로세서(120)는 소리 신호에 포함된 복수의 음성 신호의 발생 위치를 산출하고, 복수의 음성 신호를 카메라(106)의 화각 이내에 존재하는 N개의 음성 신호 및 카메라(106)의 화각 이내에 존재하지 않는 나머지 음성 신호를 구분하고, N개의 음성 신호만이 포함되도록 제1 음원 신호를 생성할 수 있다.
요컨대, 본 발명은 상기에서 설명한 내용에 기초하여 영상 통화의 메인 사용자를 결정하고, 제1 동영상에 존재하지 않는 음성 신호를 제거함으로써 영상 통화의 품질을 높일 수 있다.
도 5는 본 발명의 제2 실시예에 따른 로봇(100)을 이용한 영상 통화 방법의 흐름도를 도시한 도면이다.
이하, 각 단계 별로 수행되는 과정을 상세하게 설명한다.
먼저, 단계(S502)에서는 제1 동영상 내의 존재하는 N명의 사용자의 위치와 매칭되는 N개의 음성 신호를 선택하고, N개의 음성 신호의 잡음을 제거한다. 단계(S502)는 앞서 설명한 도 3의 단계(S302) 내지 단계(S312)과 동일하므로, 상세한 설명은 생략하기로 한다.
단계(S504)에서, 프로세서(120)는 제1 시점의 제1 이전 시간 구간에서의 N개의 음성 신호 각각의 파형에서 음성이 검출되는 시간의 비율 및 제1 시점의 제2 이전 시간 구간에서의 N개의 음성 신호 각각의 파형에서 음성이 검출되는 시간의 비율을 산출한다. 단계(S504)의 과정은 앞서 설명한 도 3의 단계(S314)의 과정과 유사할 수 있다.
여기서, 제1 이전 시간 구간 및 제2 이전 시간 구간 각각은 제1 시점을 기준으로 한 이전의 특정 시간 구간으로서, 제1 이전 시간 구간의 길이는 제2 이전 시간 구간의 길이보다 크다. 제1 이전 시간 구간은 비교적 긴 시간 구간에서 주도적으로 발화를 수행한 사용자를 결정하기 위해 이용되는 이전 시간 구간이고, 제2 이전 시간 구간은 비교적 짧은 시간 구간에서 주도적으로 발화를 수행한 사용자를 결정하기 위해 이용된다.
도 6에서는 제1 이전 시간 구간 및 제2 이전 시간 구간의 개념을 도시하고 있다. 제1 시점이 x축의 "2초"의 시점인 경우, 제1 이전 시간 구간은 제1 시점을 기준으로 1.5초의 시간 길이를 가지는 구간이고, 제2 이전 시간 구간은 제1 시점을 기준으로 0.5초의 시간 길이를 가지는 구간일 수 있다.
다시, 도 5를 참조하면, 단계(S506)에서, 프로세서(120)는 제1 이전 시간 구간에서 산출된 시간의 비율에 기초하여 N개의 사용자 중에서 제1 이전 시간 구간에서의 상기 시간이 비율이 최대인 제2 사용자를 선택한다. 그리고, 단계(S508)에서, 프로세서(120)는 제2 이전 시간 구간에서 산출된 시간의 비율에 기초하여 N개의 사용자 중에서 제2 이전 시간 구간에서의 상기 시간이 비율이 최대인 제3 사용자를 선택한다.
그 후, 단계(S510)에서, 프로세서(120)는 제2 사용자와 제3 사용자가 동일한 사용자인지 여부를 판단한다.
만약, 제2 사용자와 제3 사용자가 동일한 사용자인 경우, 단계(S512)에서, 프로세서(120)는 제2 사용자를 메인 사용자로 결정한다. 이 경우, 단계(S514)에서, 프로세서(120)는 제2 사용자가 제1 동영상의 중앙에 위치하도록 카메라(106)의 제1 동영상의 획득 동작을 제어한다.
즉, 제2 사용자와 제3 사용자가 동일한 상황은, 하나의 사용자가 긴 구간 및 짧은 구간 모두에서 주도적으로 발화를 수행하는 상황이다. 따라서, 카메라(106)는 화각의 중앙에 제2 사용자가 위치하도록 제1 동영상을 획득할 수 있다.
반대로, 제2 사용자와 제3 사용자가 상이한 사용자인 경우, 단계(S516)에서, 프로세서(120)는 제3 사용자를 메인 사용자로 결정한다. 이 경우, 단계(S518)에서, 프로세서(120)는 기 설정된 시간 동안 제3 사용자가 제1 동영상의 중앙에 위치하도록 한 후에 제2 사용자가 제1 동영상의 중앙에 위치하도록 카메라(106)의 제1 동영상의 획득 동작을 제어한다.
즉, 제2 사용자와 제3 사용자가 상이한 상황은, 제2 사용자가 긴 구간에서 주도적으로 발화를 수행하되, 제1 시점의 최근 시점에서 제3 사용자가 갑자기 발화를 많이 수행하는 상황이다. 따라서, 카메라(106)는 짧은 시간 동안 제3 사용자가 제1 동영상의 중앙에 위치하도록 제1 동영상을 획득하고, 그 후 제2 사용자가 제1 동영상의 중앙에 위치하도록 제1 동영상을 획득할 수 있다.
한편, 제2 사용자가 2명 이상인 경우, 단계(S518)에서는 제1 동영상에서의 얼굴 크기가 최대인 제2 사용자 또는 로봇(100)과의 거리가 최소인 제2 사용자를 선택할 수 있다. 또한, 제3 사용자가 2명 이상인 경우, 단계(S510)에서는 제1 동영상에서의 얼굴 크기가 최대인 제3 사용자 또는 로봇(100)과의 거리가 최소인 제3 사용자를 선택할 수 있다. 그리고, 2명 이상의 제3 사용자 중 하나의 제3 사용자가 제2 사용자가 동일한 사용자인 경우 단계(S512)에서는 제2 사용자와 제3 사용자가 동일한 것으로 판단한다.
단계(S520)에서, 프로세서(120)는 제1 동영상과 매칭되는 제1 음원 신호를 생성하고, 단계(S522)에서, 통신부(114)는 프로세서(120)의 제어 하에 제1 음원 신호를 제1 동영상과 함께 상대방 로봇으로 전송한다.
도 7은 본 발명의 제3 실시예에 따른 로봇(100)과 상대방 로봇(700) 간의 영상 통화 방법의 흐름도를 도시한 도면이다.
단계(S702)에서, 로봇(100)과 상대방 로봇(700)은 서로 통신 연결된다. 따라서, 로봇(100)은 상대방 로봇(700)으로부터 실시간으로 동영상을 송수신할 수 있다.
단계(S704)에서, 로봇(100)은 사용자로부터 특정한 터치 이벤트를 입력받는다.
일례로서, 터치 이벤트는 사용자가 터치 디스플레이를 상하좌우 중 어느 한 방향으로 스와이프하는 동작일 수 있다. 다른 일례로서, 터치 이벤트는 터치 디스플레이에 터치된 사용자의 두 개의 손가락 사이의 거리를 증가시키는 동작 또는 감소시키는 동작일 수 있다.
단계(S706)에서, 로봇(100)은 입력된 터치 이벤트에 기초하여 상대방 로봇(700)의 동작 제어 명령을 생성한다.
일례로서, 터치 이벤트가 스와이프하는 동작인 경우, 동작 제어 명령은 스와이프가 수행된 방향으로 상대방 로봇(700)의 각도를 조절하기 위한 명령일 수 있다.
다른 일례로서, 터치 이벤트가 손가락 사이의 거리 증가 동작인 경우, 동작 제어 명령은 상대방 로봇(700)에 구비된 카메라의 줌 인 동작을 위한 초점 거리의 제어 명령일 수 있다.
또 다른 일례로서, 터치 이벤트가 손가락 사이의 거리 감소 동작인 경우, 동작 제어 명령은 상대방 로봇(700)에 구비된 카메라의 줌 아웃 동작을 위한 초점 거리의 제어 명령일 수 있다.
단계(S708)에서, 로봇(100)은 동작 제어 명령을 상대방 로봇(700)으로 전송한다. 단계(S710)에서, 상대방 로봇(700)은 동작 제어 명령에 기초하여 동작이 제어될 수 있다.
요컨대, 본 발명은 상기한 로봇 간의 인터랙션을 통해 사용자가 영상 통화의 재미를 느낄 수 있다.
한편, 동작 제어 명령에 기초하여 상대방 로봇(700)의 동작이 제어됨에 따라, 상대방 로봇(700)의 카메라의 화각 내에 위치한 N명의 사용자 중에서 M(1 이상의 정수)명의 사용자가 화각 밖으로 나가는 경우, 즉 동영상에서 사라지는 경우가 발생할 수 있다.
이 경우, 상대방 로봇(700)의 프로세서는, M명의 사용자가 출력한 M개의 음성 신호의 세기를 감소시켜 제2 음원 신호를 생성하고, 이를 로봇(100)으로 전송할 수 있다. 즉, 사라짐의 효과를 상대방 사용자에게 전달하기 위해 상대방 로봇(700)은 사라지는 사용자의 음성 세기를 감소시킬 수 있다.
본 발명의 일 실시예에 따르면, 상대방 로봇(700)의 프로세서는 카메라의 중심축과 M명의 사용자의 위치 간의 각도 차 각각을 이용하여 M개의 음성 신호의 세기를 감소할 수 있다. 일례로서, 카메라의 중심축과 사라지는 사용자의 각도 차는 감소되는 신호의 세기와 반비례할 수 있다.
한편, 감소된 음성 신호의 세기는 동영상 내의 존재하는 사용자의 최소 음성 신호의 세기보다 작을 수 있다. 이에 따라 사라짐의 효과를 상대방 사용자에게 명확하게 전달할 수 있다.
또한, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니며, 본 발명의 목적 범위 내에서 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 반도체 기록소자를 포함하는 저장매체를 포함한다. 또한 본 발명의 실시예를 구현하는 컴퓨터 프로그램은 외부의 장치를 통하여 실시간으로 전송되는 프로그램 모듈을 포함한다.
이상에서는 본 발명의 실시예를 중심으로 설명하였지만, 통상의 기술자의 수준에서 다양한 변경이나 변형을 가할 수 있다. 따라서, 이러한 변경과 변형이 본 발명의 범위를 벗어나지 않는 한 본 발명의 범주 내에 포함되는 것으로 이해할 수 있을 것이다.
100: 로봇 102: 제1 바디부
104: 제2 바디부 106: 카메라
108: 마이크 110: 스피커
112: 디스플레이부 114: 통신부
116: 센서부 118: 메모리
120: 프로세서

Claims (17)

  1. 영상 통화를 위한 제1 동영상을 획득하는 카메라;
    소리 신호를 수신하는 다채널 마이크;
    하나 이상의 명령을 저장하는 메모리; 및
    상기 명령을 실행하는 프로세서;를 포함하되,
    상기 프로세서는,
    상기 소리 신호에 포함된 복수 개의 음성 신호의 발생 위치를 산출하고, 상기 제1 동영상 내의 N(2 이상의 정수)명의 사용자의 위치를 산출하고, 상기 복수 개의 음성 신호 중에서 상기 N명의 사용자의 위치와 동일한 위치에서 발생된 N개의 음성 신호를 선택하고,
    제1 시점의 이전 시간 구간에서의 상기 N개의 음성 신호 각각의 파형에서 음성이 검출되는 시간의 비율을 산출하고, 상기 시간의 비율에 기초하여 상기 제1 시점에서의 상기 영상 통화의 메인 사용자를 결정하고,
    상기 이전 시간 구간에서의 상기 N개의 음성 신호의 파형 각각은 적어도 하나의 음성 출력 구간 및 적어도 하나의 음성 비출력 구간을 포함하되,
    상기 음성 출력 구간은 상기 음성 신호의 세기가 기 설정된 임계 세기 이상인 파형 내에서의 구간이고, 상기 음성 비출력 구간은 상기 음성 신호의 세기가 상기 임계 세기 미만인 파형 내에서의 구간이며,
    상기 시간의 비율은 상기 이전 시간 구간에서의 총 시간 값을 기준으로 한 상기 적어도 하나의 음성 출력 구간의 총 시간 값의 비율인, 영상 통화를 수행하는 로봇.
  2. 삭제
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 N명의 사용자 중에서 상기 이전 시간 구간에서의 상기 시간의 비율이 최대인 제1 사용자를 상기 메인 사용자로 결정하는, 영상 통화를 수행하는 로봇.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 제1 사용자가 2명 이상 존재하는 경우,
    상기 2명 이상의 제1 사용자 중 상기 제1 동영상에서의 얼굴 크기가 최대인 제1 사용자를 상기 메인 사용자로 결정하거나, 상기 2명 이상의 제1 사용자 중 상기 로봇과의 거리가 최소인 제1 사용자를 상기 메인 사용자로 결정하는, 영상 통화를 수행하는 로봇.
  5. 제3항에 있어서,
    상기 카메라는 회전 및 틸딩 가능하고,
    상기 프로세서는 상기 제1 사용자가 상기 제1 동영상의 중앙에 위치하도록 상기 카메라의 동영상 획득 동작을 제어하는, 영상 통화를 수행하는 로봇.
  6. 영상 통화를 위한 제1 동영상을 획득하는 카메라;
    소리 신호를 수신하는 다채널 마이크;
    하나 이상의 명령을 저장하는 메모리; 및
    상기 명령을 실행하는 프로세서;를 포함하되,
    상기 프로세서는,
    상기 소리 신호에 포함된 복수 개의 음성 신호의 발생 위치를 산출하고, 상기 제1 동영상 내의 N(2 이상의 정수)명의 사용자의 위치를 산출하고, 상기 복수 개의 음성 신호 중에서 상기 N명의 사용자의 위치와 동일한 위치에서 발생된 N개의 음성 신호를 선택하고,
    제1 시점의 이전 시간 구간에서의 상기 N개의 음성 신호 각각의 파형에서 음성이 검출되는 시간의 비율을 산출하고, 상기 시간의 비율에 기초하여 상기 제1 시점에서의 상기 영상 통화의 메인 사용자를 결정하고,
    상기 이전 시간 구간은 제1 이전 시간 구간 및 제2 이전 시간 구간을 포함하되,
    상기 제1 이전 시간 구간의 길이는 상기 제2 이전 시간 구간의 길이보다 큰, 영상 통화를 수행하는 로봇.
  7. 제6항에 있어서,
    상기 프로세서는,
    상기 N명의 사용자 중에서 상기 제1 이전 시간 구간에서의 상기 시간의 비율이 최대인 제2 사용자 및 상기 N명의 사용자 중에서 상기 제2 이전 시간 구간에서의 상기 시간의 비율이 최대인 제3 사용자를 선택하되,
    상기 제2 사용자와 상기 제3 사용자가 동일한 사용자인 경우, 상기 제2 사용자를 상기 메인 사용자로 결정하고,
    상기 제2 사용자와 상기 제3 사용자가 다른 사용자인 경우, 상기 제3 사용자를 상기 메인 사용자로 결정하는, 영상 통화를 수행하는 로봇.
  8. 제7항에 있어서,
    상기 카메라는 회전 및 틸딩 가능하고,
    상기 프로세서는,
    상기 제2 사용자가 상기 메인 사용자인 경우, 상기 제2 사용자가 상기 제1 동영상의 중앙에 위치하도록 상기 카메라의 영상 획득 동작을 제어하고,
    상기 제3 사용자가 상기 메인 사용자인 경우, 기 설정된 시간 동안 상기 제3 사용자가 상기 제1 동영상의 중앙에 위치하도록 한 후에 상기 제2 사용자가 상기 제1 동영상의 중앙에 위치하도록 상기 카메라의 영상 획득 동작을 제어하는, 영상 통화를 수행하는 로봇.
  9. 제1항에 있어서,
    상대방 로봇으로부터 전송된 상기 영상 통화를 위한 제2 동영상을 수신하는 통신부; 및
    상기 제2 동영상을 표시하는 터치 디스플레이;를 포함하되,
    상기 프로세서는, 사용자가 입력한 상기 터치 디스플레이의 터치 이벤트에 기초하여 상기 상대방 로봇의 동작 제어 명령을 생성하고, 상기 동작 제어 명령을 상기 상대방 로봇으로 전송하도록 상기 통신부를 제어하며,
    상기 상대방 로봇은 상기 동작 제어 명령에 의해 동작이 제어되는, 영상 통화를 수행하는 로봇.
  10. 제9항에 있어서,
    상기 터치 이벤트는 상기 사용자가 상기 터치 디스플레이를 상하좌우 중 어느 한 방향으로 스와이프하는 동작이고,
    상기 동작 제어 명령은 상기 어느 한 방향으로 상기 상대방 로봇의 각도를 조절하기 위한 명령인, 영상 통화를 수행하는 로봇.
  11. 제9항에 있어서,
    상기 터치 이벤트는 상기 터치 디스플레이에 터치된 상기 로봇의 사용자의 두 개의 손가락 사이의 거리를 증가시키는 동작이고,
    상기 동작 제어 명령은 상기 상대방 로봇에 구비된 카메라의 줌 인 동작을 위한 초점 거리의 제어 명령인, 영상 통화를 수행하는 로봇.
  12. 제9항에 있어서,
    상기 터치 이벤트는 상기 터치 디스플레이에 터치된 상기 로봇의 사용자의 2개의 손가락 사이의 거리를 감소시키는 동작이고,
    상기 동작 제어 명령은 상기 상대방 로봇에 구비된 카메라의 줌 아웃 동작을 위한 초점 거리의 제어 명령인, 영상 통화를 수행하는 로봇.
  13. 제1항에 있어서,
    상대방 로봇과 통신을 수행하는 통신부;를 더 포함하되,
    상기 프로세서는, 상기 소리 신호를 이용하여 상기 제1 동영상과 매칭되는 제1 음원 신호를 생성하고, 상기 제1 음원 신호를 상기 제1 동영상과 함께 상대방 로봇으로 전송하도록 상기 통신부를 제어하되,
    상기 제1 음원 신호는 상기 N개의 음성 신호를 포함하고, 상기 복수 개의 음성 신호 중 상기 N개의 음성 신호를 제외한 나머지 음성 신호는 포함되지 않도록 생성되는, 영상 통화를 수행하는 로봇.
  14. 영상 통화를 위한 제1 동영상을 획득하는 카메라;
    소리 신호를 수신하는 다채널 마이크;
    하나 이상의 명령을 저장하는 메모리; 및
    상기 명령을 실행하는 프로세서;를 포함하되,
    상기 프로세서는,
    상기 소리 신호에 포함된 복수 개의 음성 신호의 발생 위치를 산출하고, 상기 제1 동영상 내의 N(2 이상의 정수)명의 사용자의 위치를 산출하고, 상기 복수 개의 음성 신호 중에서 상기 N명의 사용자의 위치와 동일한 위치에서 발생된 N개의 음성 신호를 선택하고,
    제1 시점의 이전 시간 구간에서의 상기 N개의 음성 신호 각각의 파형에서 음성이 검출되는 시간의 비율을 산출하고, 상기 시간의 비율에 기초하여 상기 제1 시점에서의 상기 영상 통화의 메인 사용자를 결정하고,
    상대방 로봇과 통신을 수행하는 통신부;를 더 포함하되,
    상기 프로세서는, 상기 소리 신호를 이용하여 상기 제1 동영상과 매칭되는 제2 음원 신호를 생성하고, 상기 제2 음원 신호를 상기 제1 동영상과 함께 상대방 로봇으로 전송하도록 상기 통신부를 제어하되,
    상기 통신부를 통해 수신된 상기 로봇의 동작 제어 명령에 따라서 상기 제1 동영상에서 상기 N명의 사용자 중 적어도 하나의 사용자가 사라지는 경우, 상기 프로세서는, 상기 적어도 하나의 사용자가 출력한 적어도 하나의 음성 신호의 세기를 감소시키고, 상기 세기가 감소된 적어도 하나의 음성 신호가 포함된 제2 음원 신호를 생성하고, 상기 제2 음원 신호를 상기 제1 동영상과 함께 상대방 로봇으로 전송하도록 상기 통신부를 제어하는, 영상 통화를 수행하는 로봇.
  15. 제14항에 있어서,
    상기 프로세서는, 상기 카메라의 중심축과 상기 적어도 하나의 사용자의 위치 간의 각도 차 각각을 이용하여 상기 적어도 하나의 음성 신호의 세기를 감소하되,
    상기 감소된 음성 신호의 세기는 상기 제1 동영상 내의 존재하는 사용자의 음성 신호의 세기의 최소값 보다 작은, 영상 통화를 수행하는 로봇.
  16. 로봇에 의해 수행되는 영상 통화 방법에 있어서,
    카메라가 영상 통화를 위한 제1 동영상을 획득하는 단계;
    다채널 마이크가 소리 신호를 수신하는 단계;
    프로세서가 상기 소리 신호에 포함된 복수 개의 음성 신호의 발생 위치 및 상기 제1 동영상 내의 N(2 이상의 정수)명의 사용자의 위치를 산출하는 단계;
    상기 프로세서가 상기 복수 개의 음성 신호 중에서 상기 N명의 사용자의 위치와 동일한 위치에서 발생된 N개의 음성 신호를 선택하는 단계;
    상기 프로세서가 제1 시점의 이전 시간 구간에서의 상기 N개의 음성 신호 각각의 파형에서 음성이 검출되는 시간의 비율을 산출하는 단계; 및
    상기 프로세서가 상기 시간의 비율에 기초하여 상기 제1 시점에서의 상기 영상 통화의 메인 사용자를 결정하는 단계;를 포함하고,
    상기 이전 시간 구간에서의 상기 N개의 음성 신호의 파형 각각은 적어도 하나의 음성 출력 구간 및 적어도 하나의 음성 비출력 구간을 포함하되,
    상기 음성 출력 구간은 상기 음성 신호의 세기가 기 설정된 임계 세기 이상인 파형 내에서의 구간이고, 상기 음성 비출력 구간은 상기 음성 신호의 세기가 상기 임계 세기 미만인 파형 내에서의 구간이며,
    상기 시간의 비율은 상기 이전 시간 구간에서의 총 시간 값을 기준으로 한 상기 적어도 하나의 음성 출력 구간의 총 시간 값의 비율인, 로봇의 영상 통화 방법.
  17. 삭제
KR1020190093717A 2019-08-01 2019-08-01 영상 통화 방법 및 이를 구현하는 로봇 KR102613040B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190093717A KR102613040B1 (ko) 2019-08-01 2019-08-01 영상 통화 방법 및 이를 구현하는 로봇
US16/557,310 US10629208B2 (en) 2019-08-01 2019-08-30 Video communication method and robot for implementing the method
US16/824,124 US10878822B2 (en) 2019-08-01 2020-03-19 Video communication method and robot for implementing the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190093717A KR102613040B1 (ko) 2019-08-01 2019-08-01 영상 통화 방법 및 이를 구현하는 로봇

Publications (2)

Publication Number Publication Date
KR20190098096A KR20190098096A (ko) 2019-08-21
KR102613040B1 true KR102613040B1 (ko) 2023-12-11

Family

ID=67808287

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190093717A KR102613040B1 (ko) 2019-08-01 2019-08-01 영상 통화 방법 및 이를 구현하는 로봇

Country Status (2)

Country Link
US (2) US10629208B2 (ko)
KR (1) KR102613040B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113660448B (zh) * 2021-08-23 2022-07-15 珠海格力电器股份有限公司 通话处理方法、装置、终端设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101888058B1 (ko) * 2018-02-09 2018-08-13 주식회사 공훈 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6914622B1 (en) * 1997-05-07 2005-07-05 Telbotics Inc. Teleconferencing robot with swiveling video monitor
US8189807B2 (en) * 2008-06-27 2012-05-29 Microsoft Corporation Satellite microphone array for video conferencing
US8130257B2 (en) * 2008-06-27 2012-03-06 Microsoft Corporation Speaker and person backlighting for improved AEC and AGC
US10904658B2 (en) * 2008-07-31 2021-01-26 Nokia Technologies Oy Electronic device directional audio-video capture
KR101232216B1 (ko) * 2010-12-08 2013-02-12 주식회사 나무가 양방향 동시대화 방법 및 양방향 동시대화가 가능한 화상회의시스템
US9794511B1 (en) * 2014-08-06 2017-10-17 Amazon Technologies, Inc. Automatically staged video conversations
US9542603B2 (en) * 2014-11-17 2017-01-10 Polycom, Inc. System and method for localizing a talker using audio and video information
US20180070008A1 (en) * 2016-09-08 2018-03-08 Qualcomm Incorporated Techniques for using lip movement detection for speaker recognition in multi-person video calls
KR20180063515A (ko) * 2016-12-02 2018-06-12 두산로보틱스 주식회사 로봇 교시장치 및 이의 교시방법
KR20180079824A (ko) * 2017-01-02 2018-07-11 엘지전자 주식회사 홈 로봇 및 그 동작 방법
JP6788845B2 (ja) * 2017-06-23 2020-11-25 パナソニックIpマネジメント株式会社 遠隔通信方法、遠隔通信システム及び自律移動装置
US10091412B1 (en) * 2017-06-30 2018-10-02 Polycom, Inc. Optimal view selection method in a video conference

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101888058B1 (ko) * 2018-02-09 2018-08-13 주식회사 공훈 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치

Also Published As

Publication number Publication date
KR20190098096A (ko) 2019-08-21
US20200219516A1 (en) 2020-07-09
US20190385616A1 (en) 2019-12-19
US10878822B2 (en) 2020-12-29
US10629208B2 (en) 2020-04-21

Similar Documents

Publication Publication Date Title
US20210211579A1 (en) Query response by a gimbal mounted camera
KR102150013B1 (ko) 음향신호를 위한 빔포밍 방법 및 장치
US10083710B2 (en) Voice control system, voice control method, and computer readable medium
JP6551507B2 (ja) ロボット制御装置、ロボット、ロボット制御方法およびプログラム
CN105163061A (zh) 远端视频交互系统
KR20160142217A (ko) 음성 신호 최적화 방법 및 그 장치, 프로그램 및 저장매체
JP2009166184A (ja) ガイドロボット
JP6750697B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20160323499A1 (en) Method and apparatus for forming images and electronic equipment
US10464214B2 (en) Voice interaction device and control method therefor
US20210152750A1 (en) Information processing apparatus and method for controlling the same
WO2019155735A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN107148614B (zh) 信息处理设备、信息处理方法和程序
KR102613040B1 (ko) 영상 통화 방법 및 이를 구현하는 로봇
CN109249386B (zh) 语音对话机器人及语音对话系统
KR20190090281A (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
US20210152731A1 (en) Information processing apparatus and control method therefor
JP2019072787A (ja) 制御装置、ロボット、制御方法、および制御プログラム
CN110919699B (zh) 视听感知系统和设备以及机器人系统
US11400607B2 (en) Image processing device, robot, image processing method, and recording medium
US20210034079A1 (en) Personal space creation system, personal space creation method, personal space creation program
JP6993802B2 (ja) 画像処理装置
US20210044856A1 (en) Information processing device, information processing method, and recording medium
CN111432155A (zh) 视频通话方法、电子设备及计算机可读存储介质
CN115476366A (zh) 足式机器人的控制方法、装置、控制设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant