KR20190094677A - 카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법 - Google Patents

카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법 Download PDF

Info

Publication number
KR20190094677A
KR20190094677A KR1020180014117A KR20180014117A KR20190094677A KR 20190094677 A KR20190094677 A KR 20190094677A KR 1020180014117 A KR1020180014117 A KR 1020180014117A KR 20180014117 A KR20180014117 A KR 20180014117A KR 20190094677 A KR20190094677 A KR 20190094677A
Authority
KR
South Korea
Prior art keywords
motor
face
camera
control mode
electronic device
Prior art date
Application number
KR1020180014117A
Other languages
English (en)
Inventor
김현근
서석호
조순희
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020180014117A priority Critical patent/KR20190094677A/ko
Priority to US16/967,716 priority patent/US11363189B2/en
Priority to PCT/KR2019/001165 priority patent/WO2019151734A1/ko
Publication of KR20190094677A publication Critical patent/KR20190094677A/ko

Links

Images

Classifications

    • H04N5/23219
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06K9/00228
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/51Housings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • H04N23/661Transmitting camera control signals through networks, e.g. control via the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/667Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • H04N5/23245
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Abstract

전자 장치와 관련된 다양한 실시예들이 기술된 바, 한 실시예에 따르면, 전자 장치에 있어서, 카메라, 적어도 하나의 마이크, 상기 카메라를 적어도 하나의 축을 기준으로 회전시키기 위한 적어도 하나의 모터 및 적어도 하나의 프로세서를 포함하고, 상기 프로세서는 상기 적어도 하나의 마이크를 통한 음성 및 상기 카메라를 통한 영상을 수신하고, 제1 모터 제어 모드에 적어도 기반하여 상기 적어도 하나의 모터를 의 제1 제어하고, 상기 제1 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 수신된 영상을 이용한 제 1 페이스 트래킹을 수행하고, 상기 제1 트래킹 수행 중 제2 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제 2 제어하고, 상기 제 2 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행하도록 설정될 수 있으며, 이 외에도 다른 실시예가 가능할 수 있다.

Description

카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING VOICE AND FACE BASED ON CHANGING OF CAMARA MODE}
다양한 실시예들은 음성 및 얼굴 인식 장치 및 방법에 관한 것이다.
인터넷은 인간이 정보를 생성하고 소비하는 인간 중심의 연결 망에서, 사물 등 분산된 구성 요소들 간에 정보를 주고 받아 처리하는 사물인터넷 (Internet of Things, IoT) 망으로 진화하고 있다. IoE (Internet of Everything) 기술은 클라우드 서버 등과의 연결을 통한 빅데이터 (Big data) 처리 기술 등이 사물인터넷에 결합된 하나의 예가 될 수 있다. IoT 망을 구축하기 위해서는 센싱 기술, 유무선 통신 및 네트워크 인프라, 서비스 인터페이스 기술, 및 보안 기술 등이 필요하며, 최근에는 사물간의 연결을 위한 센서 네트워크 (sensor network), 사물 통신 (Machine to Machine, M2M), MTC (Machine Type Communication) 등의 기술이 연구되고 있다. IoT 환경에서는 연결된 사물들 간에 생성된 데이터들이 수집 및 분석되어, 인간의 삶에 새로운 가치를 창출하는 지능형 IT (Internet Technology) 서비스가 제공될 수 있다. IoT 망은 기존의 IT 기술 또는 다양한 산업 간의 융합 및 복합을 통하여 스마트홈, 스마트 빌딩, 스마트 시티, 스마트 카 혹은 커넥티드 카, 스마트 그리드, 헬스 케어, 스마트 가전, 첨단의료서비스 등의 분야에 응용될 수 있다. IoT 망은 가정 내의 다양한 전자 장치들을 연결하고, 연결된 다양한 전자 장치들을 원격으로 제어하는데 이용될 수 있다. 예를 들어, 사용자는 프로세서 및 통신 인터페이스를 포함하는 전자 장치를 이용하여, IoT 망을 통해 연결된 다양한 객체들을 이용한 기능을 수행할 수 있다.
전자 장치는 마이크를 통해 수신된 음성 신호 및 카메라에 의해 촬영된 사용자 영상에 기반하여 음성 및 얼굴을 인식하고, 음성 및 얼굴 인식에 따른 기능을 수행할 수 있다. 예를 들면, 하나의 가정 내에는 복수의 조명들, 복수의 음향 장치들 또는 복수의 디스플레이들과 같은 다양한 객체들이 존재할 수 있으며, 전자 장치는 마이크를 통해 수신된 음성 신호 및 카메라에 의해 촬영된 사용자 영상에 기반하여 음성 및 얼굴을 인식하고, 인식 결과 특정 얼굴의 사용자로부터 "불켜"와 같은 음성 명령이 수신되는 경우, 전자 장치는 IoT 망에 연결된 다양한 객체들 중 램프를 켜도록 제어하는 기능을 수행할 수 있다.
전자 장치는 음성 및 얼굴 인식 시 카메라를 이용하여 사용자의 얼굴을 따라가며 촬영하는 페이스 트래킹을 수행할 수 있다. 전자 장치는 페이스 트래킹을 수행하면서 사용자의 얼굴을 인식하고, 마이크를 통해 수신되는 신호들 중 사용자의 얼굴에 대응된 음성 신호를 인식할 수 있다. 전자 장치는 적어도 하나의 모터를 이용하여 전자 장치 자체를 회전하거나 이동하면서 페이스 트래킹을 수행하거나, 전자 장치의 일부 예를 들면, 카메라 또는 카메라가 포함된 구성 요소를 회전하거나 이동시키면서 페이스 트래킹을 수행할 수 있다.
이와 같이 페이스 트래킹을 수행하면서 음성 및 얼굴을 인식하는 경우, 전자 장치 또는 카메라를 회전 또는 이동시키기 위해 동작하는 모터에 의해 소음 및 진동이 발생할 수 있다. 모터에 의한 소음은 사용자로부터 발화된 음성 신호와 함께 마이크로 수신될 수 있으며, 마이크를 통해 수신된 신호에 모터에 의한 소음이 포함되어 음성 인식 성능이 저하될 수 있다. 또한 모터에 의한 진동은 카메라를 흔들리게 할 수 있으며, 카메라가 흔들림에 따라 카메라에 의해 촬영된 영상에 블로우(blow) 현상 등 이 발생되어 얼굴 인식 성능이 저하될 수 있다.
다양한 실시예들에 따르면 음성 및 얼굴 인식 시 페이스 트래킹에 의한 모터의 소음 및 진동을 줄일 수 있는 카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법을 제공할 수 있다.
다양한 실시예들에 따르면 제1 모터 제어 모드 기반의 페이스 트래킹을 통해 얼굴을 검출하고, 얼굴이 검출되면 제1 모터 제어 모드보다 모터의 소음 및 진동이 적게 발생하는 제2 모터 제어 모드 기반의 페이스 트래킹 모드를 통해 음성 및 얼굴 인식을 수행함으로써 음성 및 얼굴 인식 성능을 높일 수 있는 카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법을 제공할 수 있다.
다양한 실시예들에 따르면 전자 장치에 있어서, 카메라, 적어도 하나의 마이크, 상기 카메라를 적어도 하나의 축을 기준으로 회전시키기 위한 적어도 하나의 모터 및 적어도 하나의 프로세서를 포함하고, 상기 프로세서는 상기 적어도 하나의 마이크를 통한 음성 및 상기 카메라를 통한 영상을 수신하고, 제1 모터 제어 모드에 적어도 기반하여 상기 적어도 하나의 모터를 의 제1 제어하고, 상기 제1 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 수신된 영상을 이용한 제 1 페이스 트래킹을 수행하고, 상기 제1 트래킹 수행 중 제2 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제 2 제어하고, 상기 제 2 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행하도록 설정될 수 있다.
다양한 실시예들에 따르면 전자 장치에서 음성 또는 얼굴 인식 방법에 있어서, 적어도 하나의 마이크를 통한 음성 및 카메라를 통한 영상을 수신하는 동작, 제1 모터 제어 모드에 적어도 기반하여 적어도 하나의 모터를 제1 제어하고, 상기 제1 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 수신된 영상을 이용한 제1 페이스 트래킹을 수행하는 동작, 상기 제1 페이스 트래킹 수행 중 제2 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제2 제어하고, 상기 제2 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 명령들을 저장하고 있는 저장 매체에 있어서, 상기 명령들은 적어도 하나의 회로에 의하여 실행될 때에 상기 적어도 하나의 회로로 하여금 적어도 하나의 동작을 수행하도록 설정된 것으로서, 상기 적어도 하나의 동작은, 적어도 하나의 마이크를 통한 음성 및 카메라를 통한 영상을 수신하는 동작, 제1 모터 제어 모드에 적어도 기반하여 적어도 하나의 모터를 제1 제어하고, 상기 제1 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 수신된 영상을 이용한 제1 페이스 트래킹을 수행하는 동작 및 상기 제1 페이스 트래킹 수행 중 제2 모터 제어 모드에 적어도 기반하여 상기 적어도 하나의 모터를 제2 제어하고, 상기 제2 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면 전자 장치에서 제1 모터 제어 모드 기반의 페이스 트래킹을 통해 얼굴을 검출하고, 얼굴이 검출되면 제1 모터 제어 모드보다 모터의 소음 및 진동이 적게 발생하는 제2 모터 제어 모드 기반의 페이스 트래킹 모드를 통해 음성 및 얼굴 인식을 수행함으로써 음성 및 얼굴 인식 성능을 높일 수 있다.
다양한 실시예들에 따르면 전자 장치에서 제2 모터 제어 모드 기반의 페이스 트래킹 모드를 통해 음성 및 얼굴 인식이 실패한 경우 제2 모터 제어 모드보다 모터의 소음 및 진동이 적게 발생하는 제3 모터 제어 모드 기반의 페이스 트래킹 모드를 통해 음성 및 얼굴 인식을 수행함으로써 음성 및 얼굴 인식 성능을 높일 수 있다.
도 1은 다양한 실시예들에 따른, 카메라 구동 방식을 적응적으로 변경하여 음성 및 얼굴을 인식하기 위한, 전자 장치와 외부 전자 장치를 나타낸 도면이다.
도 2a 및 도 2b는 다양한 실시예들에 따른 전자 장치의 사시도이다.
도 3은 다양한 실시예에 따른 전자 장치의 블록 구성도이다.
도 4a 및 도 4b는 다양한 실시예에 따른 전자 장치에서 음성 및 얼굴 인식 방법에 대한 흐름도이다.
도 5a 내지 도 5c는 다양한 실시예에 따른 제1 모터 제어 모드 내지 제3 모터 제어 모드 각각에 대응된 페이스 트래킹을 설명하기 위한 도면이다.
도 6은 다양한 실시예에 따른 적어도 하나의 모터를 제어하기 위한 구성을 나타낸 도면이다.
도 7a 내지 도 7c는 다양한 실시예에 따른 제1 내지 제3 모터 제어 모드별 실제 얼굴 이동 속도와 페이스 트래킹 속도를 나타낸 도면이다.
도 8a 내지 도 8c는 다양한 실시예에 따른 전자 장치에서 음성 및 얼굴 인식 일예를 나타낸 도면이다.
도 9a 및 도 9b는 다양한 실시예에 따른 전자 장치에서 음성 인식 구간 및 얼굴 인식 구간을 설명하기 위한 도면이다.
도 1은, 다양한 실시예들에 따른, 네트워크 환경(100) 내의 전자 장치(101)의 블럭도이다. 도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제 1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(102)와 통신하거나, 또는 제 2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(104) 또는 서버(108)와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 장치(150), 음향 출력 장치(155), 표시 장치(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 표시 장치(160) 또는 카메라 모듈(180))가 생략되거나, 하나 이상의 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들은 하나의 통합된 회로로 구현될 수 있다. 예를 들면, 센서 모듈(176)(예: 지문 센서, 홍채 센서, 또는 조도 센서)은 표시 장치(160)(예: 디스플레이)에 임베디드된 채 구현될 수 있다
프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)을 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 로드하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서), 및 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치, 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 추가적으로 또는 대체적으로, 보조 프로세서(123)은 메인 프로세서(121)보다 저전력을 사용하거나, 또는 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다.
보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 표시 장치(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성 요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다.
메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서모듈(176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
프로그램(140)은 메모리(130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 어플리케이션(146)을 포함할 수 있다.
입력 장치(150)는, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 장치(150)은, 예를 들면, 마이크, 마우스, 또는 키보드를 포함할 수 있다.
음향 출력 장치(155)는 음향 신호를 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 장치(155)는, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있고, 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일실시예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.
표시 장치(160)는 전자 장치(101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 표시 장치(160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일실시예에 따르면, 표시 장치(160)는 터치를 감지하도록 설정된 터치 회로(touch circuitry), 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로(예: 압력 센서)를 포함할 수 있다.
오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일실시예에 따르면, 오디오 모듈(170)은, 입력 장치(150)를 통해 소리를 획득하거나, 음향 출력 장치(155), 또는 전자 장치(101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102)) (예: 스피커 또는 헤드폰))를 통해 소리를 출력할 수 있다.
센서 모듈(176)은 전자 장치(101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일실시예에 따르면, 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
인터페이스(177)는 전자 장치(101)이 외부 전자 장치(예: 전자 장치(102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일실시예에 따르면, 인터페이스(177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(178)는, 그를 통해서 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일실시예에 따르면, 연결 단자(178)은, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일실시예에 따르면, 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일실시예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.
전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리할 수 있다. 일실시예에 따르면, 전력 관리 모듈(388)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.
배터리(189)는 전자 장치(101)의 적어도 하나의 구성 요소에 전력을 공급할 수 있다. 일실시예에 따르면, 배터리(189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108))간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일실시예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제 1 네트워크(198)(예: 블루투스, WiFi direct 또는 IrDA(infrared data association) 같은 근거리 통신 네트워크) 또는 제 2 네트워크(199)(예: 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부 전자 장치와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성 요소(예: 단일 칩)으로 통합되거나, 또는 서로 별도의 복수의 구성 요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크 내에서 전자 장치(101)를 확인 및 인증할 수 있다.
안테나 모듈(197)은 신호 또는 전력을 외부(예: 외부 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일실시예에 따르면, 안테나 모듈(197)은 하나 이상의 안테나들을 포함할 수 있고, 이로부터, 제 1 네트워크 198 또는 제 2 네트워크 199와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(190)에 의하여 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(190)과 외부 전자 장치 간에 송신되거나 수신될 수 있다.
상기 구성요소들 중 적어도 일부는 인접 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))를 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일실시예에 따르면, 명령 또는 데이터는 제 2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 전자 장치(102, 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 외부 전자 장치들(102, 104, or 108) 중 하나 이상의 외부 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.
본 문서에 개시된 다양한 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치 (예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치 중 적어도 하나를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 명령어를 포함하는 소프트웨어(예: 프로그램(140))로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(101))를 포함할 수 있다. 상기 명령이 프로세서(예: 프로세서(120))에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
일실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
도 2a 및 도 2b는 다양한 실시 예에 따른 전자 장치의 사시도이다.
도 2a 및 도 2b를 참조하면, 전자 장치(200)(예: 도 1의 전자 장치(100))는 로봇의 형태로 구현될 수 있다. 전자 장치(200)는 헤드(head)부(210) 및 바디(body)부(220)를 포함할 수 있다. 헤드부(210)는 바디부(220)의 상측에 배치될 수 있다. 헤드부(210) 및 바디부(220)는, 일 실시 예에서 사람의 헤드와 바디에 대응되는 형상으로 구현될 수 있다. 다양한 실시예에 따르면 헤드부(210) 및 바디부(220) 중 적어도 일부에 전면 커버(211), 디스플레이(212), 마이크(214), 카메라(216), 스피커(222), 모터(230)를 포함할 수 있다.
도 2a를 참조하면, 전면 커버(211)는 사람의 얼굴의 형상에 대응되도록 하는 위치에 배치될 수 있으며, 투명 재질 또는 반투명 재질로 구성될 수 있다. 전면 커버(211)는 임의의 화면을 표시할 수 있는 소자일 수도 있으며, 이 경우에 전면 커버(211) 및 디스플레이(212)는 하나의 하드웨어로 구현될 수도 있다. 전면 커버(211)는 사용자와 인터랙션하는 방향을 나타내는 곳으로서, 이미지 센싱을 위한 적어도 하나 이상의 다양한 센서와, 기구적인 눈 구조, 화면 출력을 위한 디스플레이 일 수 있으며, 방향 구분이 되지 않는 형태에서는 불빛 또는 일시적인 기구 변경을 통하여 표시 할 수도 있고, 사용자와 인터랙션 할 때 사용자 방향으로 향하는 적어도 하나 이상의 H/W 또는 기구 구조를 포함할 수 있다.
디스플레이(212)는 전면 커버(211)에 대응되도록 전면 커버(211)의 내측에 배치될 수 있다. 디스플레이(216)는, 터치 스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치, 제스쳐, 근접, 또는 호버링 입력을 수신할 수 있다.
마이크(214)는 헤드부(210)의 상부면의 적어도 일부에 배치될 수 있으며, 하나 또는 복수의 마이크를 포함할 수 있다. 예를 들면, 마이크(214)는 복수개인 경우 7개의 마이크를 포함할 수 있다. 마이크(214)는 복수개인 경우 전자 장치(200)는 복수개의 마이크들 중 사용자의 방향에 대응된 적어도 하나 이상의 마이크를 통해서만 선택적으로 음성 신호를 수신할 수 있다.
카메라(216)는 외부 환경을 촬영할 수 있다. 전자 장치(200)는 카메라(216)를 통해 획득된 적어도 하나의 이미지를 이용하여 사용자 또는 다른 전자 장치를 식별할 수 있다. 일 실시예에 따르면 전자 장치(200)는 카메라(216)를 통해 획득된 적어도 하나의 이미지에 기초하여, 사용자의 얼굴을 검출할 수 있고, 검출된 얼굴을 인식할 수 있다. 예를 들면, 전자 장치(200)는 검출된 얼굴의 사용자가 누구인지 식별할 수 있다. 일 실시예에 따르면 전자 장치(200)는 사용자의 위치 또는 움직임을 식별하거나 다른 전자 장치들의 상대적인 위치 또는 움직임 등을 식별할 수 있다. 다양한 실시예에 따르면 카메라(216)는 사용자의 얼굴을 따라가며 촬영하는 페이스 트래킹을 수행할 수 있다.
스피커(222)는 전자 장치(200)에서 생성된 데이터에 대응된 소리를 출력할 수 있다. 다양한 실시예에 따르면 헤드부(210) 및 바디부(220)의 적어도 일부는 센서, 통신 인터페이스, 메모리, 프로세서를 더 포함할 수 있다.
도 2b를 참조하면, 모터(230)는 적어도 하나의 모터를 포함할 수 있다. 전자 장치(200)는 적어도 하나의 모터를 통해 헤드부(210)를 움직일 수 있으며 헤드부(210)의 정면이 향하는 방향을 변경할 수 있다. 다양한 실시예에 따르면 적어도 하나의 모터는 헤드부(210)가 적어도 하나의 축을 기준으로 회전하도록 동작할 수 있다. 다양한 실시예에 따르면 적어도 하나의 모터는 제1 모터(231), 제2 모터(233), 제3 모터(235)를 포함할 수 있다. 제1 모터(231)는 헤드부(210)가 피치(pitch)축을 기준으로 회전하도록 동작할 수 있고, 제2 모터(233)는 헤드부(210)가 롤(roll)축을 기준으로 회전하도록 동작할 수 있고, 제3 모터(235)는 헤드부(210)가 요(yaw)축을 기준으로 회전하도록 동작할 수 있다. 예를 들면, 헤드부(210)가 피치(pitch)축을 기준으로 회전하는 경우 헤드부(210)는 정면 방향 기준으로 사람의 고개를 좌우로 움직이듯이 움직일 수 있고, 헤드부(210)가 롤(roll)축을 기준으로 회전하는 경우 헤드부(210)는 정면 방향 기준으로 사람의 고개를 앞뒤로 움직이듯이 움직일 수 있고, 헤드부(210)가 요(yaw)축을 기준으로 회전하는 경우 헤드부(210)는 사람의 고개를 돌리는 것과 같이 움직일 수 있다.
다양한 실시예에 따르면 전자 장치(200)가 로봇 형태로 구현된다는 것은 단순히 예시적인 것이며, 그 구현 형태에는 제한이 없다. 예를 들어, 전자 장치(200)는 로봇 하나의 개체로 형성되는 스탠드얼론(Standalone) 타입으로 구현될 수 있다. 전자 장치(200)는 태블릿 PC 또는 스마트폰을 고정시키는 도킹 스테이션(docking station) 타입으로 구현될 수도 있다. 또한, 전자 장치(200)는 이동성 여부에 따라서 고정/이동형 타입으로 구분될 수도 있으며, 이동형 타입에는 바퀴(wheel)를 이용한 이동형 타입, 캐터필러(caterpillar)를 이용한 이동형 타입, 다리 움직임(leg moving)을 이용한 이동형 타입(2족, 4족 모두 포함), 날아다니는(flying) 이동형 타입이 있을 수 있다.
다양한 실시예들에 따르면 전자 장치(예: 도 1의 전자 장치(100), 또는 도 2a 및 도 2b의 전자 장치(200))는 카메라(예: 도 1의 카메라 모듈(180) 또는 도 2의 카메라(216)), 적어도 하나의 마이크(예: 도 1의 입력 장치(150) 또는 도 2의 마이크(214)), 상기 카메라를 적어도 하나의 축을 기준으로 회전시키기 위한 적어도 하나의 모터 및 적어도 하나의 프로세서를 포함하고, 상기 프로세서는 상기 적어도 하나의 마이크를 통한 음성 및 상기 카메라를 통한 영상을 수신하고, 제1 모터 제어 모드에 적어도 기반하여 상기 적어도 하나의 모터를 의 제1 제어하고, 상기 제1 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 수신된 영상을 이용한 제 1 페이스 트래킹을 수행하고, 상기 제1 트래킹 수행 중 제2 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제 2 제어하고, 상기 제 2 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행할 수 있다.
다양한 실시예에 따르면 상기 프로세서는, 상기 제1 페이스 트래킹 수행 중 음성 인식 구간 또는 얼굴 인식 구간에서 제2 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제2 제어하도록 설정될 수 있다. 다양한 실시예에 따르면, 상기 프로세서는, 상기 음성 인식 또는 얼굴 인식이 실패 시, 제3 모터 제어 모드에 따른 상기 적어도 하나의 모터를 제 3 제어하고, 상기 제 3 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 음성 인식 또는 얼굴 인식을 더 수행하도록 설정될 수 있다.
다양한 실시예에 따르면, 상기 프로세서는 상기 음성 인식 또는 얼굴 인식이 성공 시, 인식된 음성 또는 인식된 얼굴과 연관되어 지정된 기능을 수행하도록 더 설정될 수 있다.
다양한 실시예에 따르면, 상기 프로세서는 상기 적어도 하나의 마이크를 통해 지정된 음성 신호가 수신될 경우, 상기 제1 페이스 트래킹을 수행하도록 설정될 수 있다.
다양한 실시예에 따르면, 상기 프로세서는, 상기 제 1 페이스 트래킹하기 위한 얼굴이 복수개인 경우, 상기 복수개의 얼굴 중 상기 수신된 영상의 중앙 영역에 더 근접한 얼굴을 기반으로 상기 제 1 페이스 트래킹을 수행하도록 설정될 수 있다.
다양한 실시예에 따르면, 상기 제1 모터 제어 모드는 상기 적어도 하나의 모터가 적어도 하나의 축을 기준으로 상기 카메라를 제1 속도로 회전시키도록 설정된 모드를 포함하고, 상기 제2 모터 제어 모드는 상기 적어도 하나의 모터가 상기 적어도 하나의 축을 기준으로 상기 카메라를 상기 제2 속도로 회전시키도록 설정된 모드를 포함하고, 상기 제3 모터 제어 모드는 상기 적어도 하나의 모터가 상기 적어도 하나의 축을 기준으로 상기 카메라를 상기 제3 속도로 회전시키도록 설정된 모드를 포함할 수 있다.
다양한 실시예에 따르면, 상기 제2 속도는 제1 속도보다 느린 속도이고, 제3 속도는 상기 제2 속도보다 느린 속도일 수 있다.
다양한 실시예에 따르면, 상기 전자 장치는 상기 적어도 하나의 모터와 상기 프로세서 사이에 연결된 적어도 하나의 필터를 더 포함하고, 상기 프로세서는 상기 적어도 하나의 필터를 통해 상기 제1 모터 제어 모드에 따라 상기 적어도 하나의 필터의 주파수를 제1 주파수로 조절하거나, 상기 제2 모터 제어 모드에 대응하여 상기 적어도 하나의 필터의 주파수를 제2 주파수로 조절하거나, 상기 제3 모터 제어 모드에 대응하여 상기 적어도 하나의 필터의 주파수를 제3 주파수로 조절하도록 설정될 수 있다.
다양한 실시예에 따르면, 상기 적어도 하나의 모터는 제1 모터, 제2 모터 및 제3 모터를 포함하고, 상기 적어도 하나의 필터는 제1 필터, 제2 필터 및 제3 필터를 포함하고, 상기 프로세서는 상기 제1 모터 제어 모드에 대응하여 상기 제1 필터, 제2 필터, 및 제3 필터 각각의 임계주파수를 제1 주파수로 조절하거나, 상기 제2 모터 제어 모드에 대응하여 상기 제1 필터, 제2 필터, 및 제3 필터 각각의 임계주파수를 제2 주파수로 조절하거나 상기 제3 모터 제어 모드에 대응하여 상기 제1 필터, 제2 필터, 및 제3 필터 각각의 임계주파수를 제3 주파수로 조절하도록 설정될 수 있다.
다양한 실시예에 따르면, 상기 제1 모터는 피치(pitch)축을 기준으로 상기 카메라를 회전시키도록 동작하고, 상기 제2 모터는 롤(roll)축을 기준으로 상기 카메라를 회전시키도록 동작하고, 상기 제3 모터는 요(yaw)축을 기준으로 상기 카메라를 회전시키도록 동작할 수 있다.
도 3은 다양한 실시예에 따른 전자 장치의 블록 구성도이다.
도 3을 참조하면, 전자 장치(300)(예: 도 1의 전자 장치(100), 또는 도 2a 및 도 2b의 전자 장치(200))는 카메라(310), 마이크(320), 모터(330), 디스플레이(340), 스피커(350), 센서(360), 통신 인터페이스(370), 프로세서(380), 메모리(390)를 포함할 수 있다.
카메라(310)(예: 도 1의 카메라 모듈(180) 또는 도 2의 카메라(216))는 외부 환경을 촬영할 수 있다. 카메라(310)는 촬영된 이미지를 프로세서(380)로 제공할 수 있다.
마이크(320)(예: 도 1의 입력 장치(150) 또는 도 2의 마이크(214))는 하나 또는 복수의 마이크를 포함할 수 있다. 하나 또는 복수의 마이크 각각은 음성 신호를 수신하여 프로세서(380)로 제공할 수 있다. 예를 들면, 마이크(320)는 복수개인 경우 7개의 마이크를 포함할 수 있다. 마이크(320)는 복수개인 경우 복수개의 마이크들 중 사용자의 방향에 대응된 적어도 일부 마이크만 음성 신호를 수신하여 프로세서(380)로 제공할 수 있다.
모터(330)(예: 도 2의 모터(230))는 적어도 하나의 모터를 포함할 수 있다. 다양한 실시예에 따르면 적어도 하나의 모터는 제1 모터(332), 제2 모터(334), 및 제3 모터(336)를 포함할 수 있다. 제1 모터(332), 제2 모터(334), 및 제3 모터(336) 각각은 프로세서(380)의 제어 신호에 따라 동작할 수 있다.
일 실시예에 따르면 제1 모터(332)는 카메라(310) 또는 카메라(310)를 포함하는 헤드부(예: 도 2의 헤드부(210))가 피치(pitch)축을 기준으로 회전하도록 동작할 수 있고, 제2 모터(332)는 카메라(310) 또는 카메라(310)를 포함하는 헤드부가 롤(roll)축을 기준으로 회전하도록 동작할 수 있고, 제3 모터(336)는 카메라(310) 또는 카메라(310)를 포함하는 헤드부가 요(yaw)축을 기준으로 회전하도록 동작할 수 있다. 예를 들면, 카메라(310) 또는 카메라(310)를 포함하는 헤드부가 피치(pitch)축을 기준으로 회전하는 경우 카메라(310) 또는 카메라(310)를 포함하는 헤드부는 정면 방향 기준으로 사람의 고개를 좌우로 움직이듯이 움직일 수 있고, 카메라(310) 또는 카메라(310)를 포함하는 헤드부가 롤(roll)축을 기준으로 회전하는 경우 카메라(310) 또는 카메라(310)를 포함하는 헤드부는 정면 방향 기준으로 사람의 고개를 앞뒤로 움직이듯이 움직일 수 있고, 카메라(310) 또는 카메라(310)를 포함하는 헤드부가 요(yaw)축을 기준으로 회전하는 경우 카메라(310) 또는 카메라(310)를 포함하는 헤드부는 사람의 고개를 돌리는 것과 같이 움직일 수 있다.
다양한 실시예에 따르면 제1 모터(332), 제2 모터(334), 및 제3 모터(336) 각각은 프로세서(380)의 제어에 따라 제1 모터 제어 모드, 제2 모터 제어 모드, 및 제3 모터 제어 모드 중 어느 하나의 모드로 동작할 수 있다.
일 실시예에 따르면 제1 모터 제어 모드는 카메라(310) 또는 카메라(310)를 포함하는 헤드부가 제1 속도에 기반하여 피치(pitch)축, 롤(roll)축, 및 요(yaw)축을 기준으로 회전하도록 제1 모터(332), 제2 모터(334), 및 제3 모터(336) 각각을 제어하는 모드일 수 있다. 예를 들면, 제1 속도는 롤(roll)축 기준 200dgree/sec이고, 요(yaw)축 기준 200dgree/sec이고, 피치(pitch)축 기준 20dgree/sec일 수 있다. 제1 속도는 피치(pitch)축, 롤(roll)축, 및 요(yaw)축 각각에 대해 상기 속도외에 다른 속도로 지정될 수도 있다.
일 실시예에 따르면 제2 모터 제어 모드는 카메라(310) 또는 카메라(310)를 포함하는 헤드부가 제1 속도보다 느린 제2 속도에 기반하여 피치(pitch)축, 롤(roll)축, 및 요(yaw)축을 기준으로 회전하도록 제1 모터(332), 제2 모터(334), 및 제3 모터(336) 각각을 제어하는 모드일 수 있다.
일 실시예에 따르면 제3 모터 제어 모드는 카메라(310) 또는 카메라(310)를 포함하는 헤드부가 제2 속도보다 느린 제3 속도에 기반하여 피치(pitch)축, 롤(roll)축, 및 요(yaw)축을 기준으로 회전하도록 제1 모터(332), 제2 모터(334), 및 제3 모터(336) 각각을 제어하는 모드일 수 있다.
디스플레이(340)(예: 도 1의 표시 장치(160) 또는 도 2의 디스플레이(212)는 터치 스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치, 제스쳐, 근접, 또는 호버링 입력을 수신할 수 있다. 다양한 실시예에 따르면 디스플레이(340)는 프로세서(380)에 의해 생성된 다양한 표시 데이터를 화면상에 표시할 수 있다.
스피커(350)(예: 도 1의 음향 출력 장치(155) 또는 도 2의 스피커(222))는 전자 장치(200)에서 생성된 데이터에 대응된 소리를 출력할 수 있다.
센서(360)(예: 도 1의 센서 모듈(176))은 하나 또는 둘 이상의 센서를 포함할 수 있고, 외부 환경에 대한 적어도 하나의 정보를 획득할 수 있다. 예를 들어, 센서는 전자 장치(300)에 사용자 또는 다른 전자 장치가 근접함을 센싱할 수 있다. 센서(360)는 근접 정보에 따라 사용자 또는 다른 전자 장치의 근접을 센싱할 수도 있다. 또는, 센서(360)는 사용자가 이용하는 전자 장치로부터의 신호에 기초하여 사용자의 근접을 센싱할 수도 있다. 뿐만 아니라, 센서(360)는 사용자의 움직임 또는 위치를 센싱할 수도 있다.
통신 인터페이스(370)(예: 도 1의 통신 모듈(190))는 송신 장치(예: 도 1의 전자 장치(102), 전자 장치(104), 또는 서버(108))로부터 다양한 데이터를 수신할 수 있으며, 수신 장치(예: 도 1의 전자 장치(102), 전자 장치(104), 또는 서버(108))에 전자 장치(200)에서 생성된 데이터를 송신할 수도 있다.
프로세서(380)는 카메라(310)를 통해 획득된 적어도 하나의 이미지를 이용하여 사용자를 식별하거나 다른 전자 장치를 식별할 수 있다. 다양한 실시예에 따르면 전자 장치(300)는 카메라 모듈(310)을 통해 획득된 적어도 하나의 이미지에 기반하여 사용자의 얼굴을 검출할 수 있고, 검출된 얼굴을 인식할 수 있다. 일 실시예에 따르면, 전자 장치(300)는 카메라 모듈(310)을 통해 획득된 적어도 하나의 이미지에 기반하여 얼굴을 검출하고 페이스 트래킹을 수행할 수 있고, 페이스 트래킹을 수행하면서 얼굴 인식을 수행할 수 있다. 예를 들면, 얼굴 인식은 검출된 얼굴의 사용자를 식별하는 것일 수 있다. 예를 들면, 프로세서(380)는 메모리(390)에 저장된 적어도 하나의 사용자 얼굴 데이터를 이용하여 검출된 얼굴의 사용자를 식별할 수 있다. 일 실시예에 따르면 전자 장치(300)는 사용자의 위치 또는 움직임을 식별하거나 다른 전자 장치들의 상대적인 위치 또는 움직임 등을 더 식별할 수 있다. 프로세서(380)는 마이크(320)를 통해 입력된 음성 신호를 수신할 수 있다. 다양한 실시예에 따르면 프로세서(380)는 마이크(320)가 복수개의 마이크를 포함하는 경우 복수개의 마이크들 중 사용자의 방향에 대응된 적어도 일부 마이크를 통해 입력되는 음성 신호만 수신할 수도 있다.
프로세서(380)는 사용자의 얼굴을 따라가며 촬영하도록 카메라(310)를 제어하여 촬영된 얼굴 이미지들을 기반으로 페이스 트래킹을 수행할 수 있다. 프로세서(380)는 페이스 트래킹을 수행하면서 사용자의 얼굴을 인식하고, 마이크(320)를 통해 수신되는 신호들 중 사용자의 얼굴에 대응된 음성을 인식할 수 있다. 프로세서(380)는 모터(330)를 이용하여 카메라(310) 또는 카메라(310)를 포함하는 헤드부를 적어도 하나의 축을 기준으로 회전시켜 카메라(310)가 사용자의 얼굴을 따라가며 촬영하도록 하거나, (310) 또는 카메라(310)를 포함하는 헤드부를 움직여 카메라(310)가 사용자의 얼굴을 따라가며 촬영하도록 할 수 있다.
다양한 실시예에 따르면 프로세서(380)는 마이크(320)를 통해 수신되는 음성 신호를 기반으로 웨이크 업 여부를 판단하고, 웨이크 업 시 마이크(320)를 통한 음성 및 카메라(310)를 통한 영상을 수신하고, 제1 모터 제어 모드에 기반한 모터(330) 제어를 통해 페이스 트래킹을 수행할 수 있다. 프로세서(380)는 페이스 트래킹 수행 중 음성 인식 또는 얼굴 인식 구간에서 제2 모터 제어 모드에 기반하여 모터를 제어하면서 음성 인식 또는 얼굴 인식을 수행할 수 있다. 프로세서(380)는 제2 모터 제어 모드에 기반한 음성 또는 얼굴 인식 실패 시 제3 모터 제어 모드에 기반하여 모터(330)를 제어하면서 음성 또는 얼굴 인식을 수행할 수 있다.
다양한 실시예에 따르면 제1 모터 제어 모드는 제1 모터(332), 제2 모터(334), 및 제3 모터(336) 각각이 카메라(310) 또는 카메라(310)가 포함된 헤드부를 제1 속도에 기반하여 적어도 하나의 축을 기준으로 회전하도록 하는 모드이고, 제2 모터 제어 모드는 제1 모터(332), 제2 모터(334), 및 제3 모터(336) 각각이 카메라(310) 또는 카메라(310)가 포함된 헤드부를 제2 속도에 기반하여 적어도 하나의 축을 기준으로 회전하도록 하는 모드이고, 제3 모터 제어 모드는 제1 모터(332), 제2 모터(334), 및 제3 모터(336) 각각이 카메라(310) 또는 카메라(310)가 포함된 헤드부를 제3 속도에 기반하여 적어도 하나의 축을 기준으로 회전하도록 하는 모드일 수 있다. 예를 들면, 제2 속도는 제1 속도보다 느린 속도이고, 제3 속도는 제2 속도보다 느린 속도일 수 있다. 프로세서(380)는 음성 또는 얼굴 인식 성공 시 인식된 음성 또는 얼굴과 연관된 기능을 수행할 수 있다. 예를 들면, 프로세서(380)는 음성 인식 결과 "불켜"와 같은 음성 명령이 수신되는 경우, 전자 장치는 IoT 망에 연결된 다양한 객체들 중 램프를 켜도록 제어하는 기능을 수행할 수 있다. 예를 들면, 프로세서(380)는 얼굴 인식 결과에 대응된 사용자를 식별하고, 식별된 사용자 정보를 외부 서버로 제공하는 기능을 수행할 수 있다. 일 실시예에 따르면 외부 서버는 전자 장치로부터 수신된 사용자 정보를 기반으로 전자 장치가 페이스 트래킹 중인 사용자 정보를 업데이트하거나, 페이스 트래킹 중인 사용자와 연관된 정보를 획득하여 전자 장치에 전달할 수 있다.
메모리(390)는 프로세서(380)가 동작할 수 있도록 하는 명령어들 및 연관 데이터들을 저장할 수 있다. 메모리(390)는 음성 인식을 위해 필요한 음성 데이터 베이스를 저장할 수 있고, 얼굴 인식을 위해 필요한 적어도 하나의 사용자 얼굴 관련 데이터 데이터 베이스를 저장할 수 있다. 예를 들면, 프로세서(380)는 SIFT(Scale Invariant Feature Transform), SURF(Speeded Up Robust Features) 등과 같은 알고리즘을 통해 입력 이미지 데이터 베이스에 등록된 얼굴을 비교하여 얼굴을 인식할 수 있다.
다양한 실시예들에 따르면 전자 장치(예: 도 1의 전자 장치(100), 도 2a 및 2b의 전자 장치(200), 또는 도 3의 전자 장치(300))에서 음성 또는 얼굴 인식 방법은 적어도 하나의 마이크(예: 도 1의 입력 장치(150), 도 2의 마이크(214), 또는 도 3의 마이크(320))를 통한 음성 및 카메라(예: 도 1의 카메라 모듈(180), 도 2의 카메라(216), 또는 도 3의 카메라(310))를 통한 영상을 수신하는 동작, 제1 모터 제어 모드에 적어도 기반하여 적어도 하나의 모터(예: 도 2의 모터(230) 또는 도 3의 모터(330))를 제1 제어하고, 상기 제1 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 수신된 영상을 이용한 제1 페이스 트래킹을 수행하는 동작, 및 상기 제1 페이스 트래킹 수행 중 제2 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제2 제어하고, 상기 제2 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행하는 동작을 포함할 수 있다.
다양한 실시예에 따르면, 상기 제1 페이스 트래킹 수행중 음성 인식 구간 또는 얼굴 인식 구간에서 제2 제 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제2 제어할 수 있다.
다양한 실시예에 따르면 상기 방법은 상기 음성 인식 또는 얼굴 인식이 실패 시, 제3 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제3 제어하고, 상기 제3 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행하는 동작을 더 포함할 수 있다.
다양한 실시예에 따르면, 상기 방법은 상기 음성 인식 또는 얼굴 인식이 성공 시, 인식된 음성 또는 인식된 얼굴과 연관되어 지정된 기능을 수행하는 동작을 더 포함할 수 있다.
다양한 실시예에 따르면, 상기 방법은 상기 적어도 하나의 마이크를 통해 지정된 음성 신호가 수신될 경우, 상기 제1 페이스 트래킹을 수행할 수 있다.
다양한 실시예들에 따르면, 상기 제1 페이스 트래킹하기 위한 얼굴이 복수개인 경우 복수개의 얼굴 중 상기 수신된 영상의 중앙 영역에 더 근접한 얼굴을 기반으로 페이스 트래킹이 수행될 수 있다.
다양한 실시예들에 따르면, 상기 제1 모터 제어 모드는 상기 적어도 하나의 모터가 적어도 하나의 축을 기준으로 상기 카메라를 제1 속도로 회전시키도록 설정된 모드를 포함할 수 있고, 상기 제2 모터 제어 모드는 상기 적어도 하나의 모터가 상기 적어도 하나의 축을 기준으로 상기 카메라를 상기 제2 속도로 회전시키도록 설정된 모드를 포함할 수 있고, 상기 제3 모터 제어 모드는 상기 적어도 하나의 모터가 상기 적어도 하나의 축을 기준으로 상기 카메라를 상기 제3 속도로 회전시키도록 설정된 모드를 포함할 수 있으며, 상기 제2 속도는 상기 제1 속도보다 느린 속도이고, 상기 제3 속도는 상기 제2 속도보다 느린 속도일 수 있다.
다양한 실시예들에 따르면, 상기 제1 모터 제어 모드에 따라 상기 적어도 하나의 모터와 연관된 적어도 하나의 필터의 주파수를 제1 주파수로 조절하거나, 상기 제2 모터 제어 모드에 대응하여 상기 적어도 하나의 필터의 주파수를 제2 주파수로 조절하거나, 상기 제3 모터 제어 모드에 대응하여 상기 적어도 하나의 필터의 주파수를 제3 주파수로 조절할 수 있다.
다양한 실시예들에 따르면, 상기 적어도 하나의 모터는 제1 모터, 제2 모터, 제3 모터를 포함하고, 상기 적어도 하나의 필터는 제1 필터, 제2 필터, 제3 필터를 포함하고, 상기 전자 장치는 상기 제1 모터 제어 모드에 대응하여 상기 제1 필터, 제2 필터, 및 제3 필터 각각의 임계주파수를 제1 주파수로 조절하거나, 상기 제2 모터 제어 모드에 대응하여 상기 제1 필터, 제2 필터, 및 제3 필터 각각의 임계주파수를 제2 주파수로 조절하거나 상기 제3 모터 제어 모드에 대응하여 상기 제1 필터, 제2 필터, 및 제3 필터 각각의 임계주파수를 제3 주파수로 조절할 수 있다.
다양한 실시예들에 따르면, 상기 제1 모터는 피치(pitch)축을 기준으로 상기 카메라를 회전시키도록 동작하고, 상기 제2 모터는 롤(roll)축을 기준으로 상기 카메라를 회전시키도록 동작하고, 상기 제3 모터는 요(yaw)축을 기준으로 상기 카메라를 회전시키도록 동작할 수 있다.
도 4a 및 도 4b는 다양한 실시예에 따른 전자 장치에서 음성 및 얼굴 인식 방법에 대한 흐름도이다.
도 4a를 참조하면, 전자 장치(예: 도 1의 전자 장치(100), 도 2a 및 2b의 전자 장치(200), 또는 도 3의 전자 장치(300))의 프로세서(예: 도 1의 프로세서(120), 또는 도 3의 프로세서(380), 이하 도 3의 프로세서(380)를 예를 들어 설명함)는 402 동작에서 마이크(320)를 통해 입력된 음성 신호를 수신하고 카메라(330)를 통해 촬영된 영상을 수신할 수 있다.
프로세서(380)는 404 동작에서 제1 모터 제어 모드에 적어도 기반하여 적어도 하나의 모터를 제1 제어하고, 제1 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 수신된 영상을 이용한 제1 페이스 트래킹을 수행할 수 있다. 다양한 실시예에 따르면 프로세서(380)는 수신되는 음성 신호의 방향을 향하고 있는 카메라(330)를 통해 촬영된 영상 내의 얼굴 이동 방향으로 카메라(310) 또는 카메라(310)가 포함된 헤드부가 따라가도록 제1 모터 제어 모드에 기반하여 모터(330)를 제1 제어하고, 카메라(310) 또는 카메라(310)가 포함된 헤드부가 얼굴을 따라가면서 촬영하도록 하는 제1 페이스 트래킹을 수행할 수 있다. 예를 들면, 프로세서(380)는 제1 모터(332), 제2 모터(334) 또는 제3 모터(336) 중 적어도 하나를 이용하여 카메라(310) 또는 카메라(310)가 포함된 헤드부가 제1 제어에 적어도 기반한 제1 속도에 기반하여 얼굴을 따라가면서 촬영하도록 할 수 있다.
프로세서(380)는 406 동작에서 제1 페이스 트래킹 수행 중 제2 모터 제어 모드에 기반하여 적어도 하나의 모터를 제2 제어하고, 제2 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행할 수 있다. 다양한 실시예에 따르면, 프로세서(380)는 음성 인식 구간에서 제1 모터(332), 제2 모터(334), 또는 제3 모터(336) 중 적어도 하나가 카메라(310) 또는 카메라(310)가 포함된 헤드부가 제1 속도보다 느린 제2 속도에 기반하여 얼굴을 따라가면서 촬영하도록 하는 제2 페이스 트래킹을 수행하면서 음성 인식을 수행할 수 있다. 프로세서(380)는 얼굴 인식 구간에서 제1 모터(332), 제2 모터(334), 또는 제3 모터(336) 중 적어도 하나가 카메라(310) 또는 카메라(310)가 포함된 헤드부가 제1 속도보다 느린 제2 속도에 기반하여 얼굴을 따라가면서 촬영하도록 하는 제2 페이스 트래킹을 수행하면서 얼굴 인식을 수행할 수 있다.
도 4b를 참조하면, 전자 장치(예: 도 1의 전자 장치(100), 도 2a 및 2b의 전자 장치(200), 또는 도 3의 전자 장치(300))의 프로세서(예: 도 1의 프로세서(120), 또는 도 3의 프로세서(380), 이하 도 3의 프로세서(380)를 예를 들어 설명함)는 410 동작에서 마이크(320)를 통해 입력된 음성 신호를 수신하고 카메라(330)를 통해 촬영된 영상을 수신할 수 있다. 다양한 실시예에 따르면 프로세서(380)는 웨이크업 여부를 판단하고, 웨이크 업 시 마이크(320)를 통한 음성 및 카메라(310)를 통한 영상을 수신할 수 있다. 일 실시예에 따르면 프로세서(380)는 마이크(320)가 활성화된 상태에서 마이크(320)를 통해 지정된 키워드(keword)(예를 들면, "bixby") 또는 지정된 음성 명령에 대응된 음성 신호가 수신된 경우 웨이크 업 하도록 설정될 수 있다. 웨이크 업 상태가 됨에 따라, 프로세서(380)는 카메라(310) 또는 카메라(310)가 포함된 헤드부가 상기 수신된 음성 신호 방향으로 향하도록 한 후, 마이크(320)를 통해 입력된 음성 신호를 수신하고 카메라(310)를 통해 촬영된 영상을 수신할 수 있다.
프로세서(380)는 420 동작에서 수신된 영상을 기반으로 얼굴을 검출하고 제1 모터 제어 모드에 기반한 페이스 트래킹을 수행할 수 있다. 다양한 실시예에 따르면 프로세서(380)는 수신되는 음성 신호의 방향을 향하고 있는 카메라(330)를 통해 촬영된 영상으로부터 얼굴을 검출하고, 얼굴이 검출되면 이미지 내의 얼굴 이동 방향으로 카메라(310) 또는 카메라(310)가 포함된 헤드부가 따라가도록 제1 모터 제어 모드에 기반하여 모터(330)를 제어하고, 카메라(310) 또는 카메라(310)가 포함된 헤드부가 얼굴을 따라가면서 촬영하도록 하는 페이스 트래킹을 수행할 수 있다. 예를 들면, 프로세서(380)는 제1 모터(332), 제2 모터(334) 또는 제3 모터(336) 중 적어도 하나를 이용하여 카메라(310) 또는 카메라(310)가 포함된 헤드부가 제1 속도에 기반하여 얼굴을 따라가면서 촬영하도록 할 수 있다. 다양한 실시예에 따르면 프로세서(380)는 페이스 트래킹 수행 중 음성 신호 수신 시 음성 인식을 수행할 수 있으며, 페이스 트래킹 수행 시작부터 지정된 주기 또는 지정된 프레임률 마다 얼굴 인식을 수행할 수 있다. 예를 들면, 지정된 주기는 1초의 시간 범위일 수 있고, 지정된 프레임률은 30 fps(frame per sec)일 수 있다.
프로세서(380)는 430 동작에서 음성 인식 또는 얼굴 인식 구간에서 제2 모터 제어 모드에 기반한 페이스 트래킹을 통해 음성 인식 또는 얼굴 인식을 수행할 수 있다. 다양한 실시예에 따르면, 프로세서(380)는 음성 인식 구간에서 제1 모터(332), 제2 모터(334), 또는 제3 모터(336) 중 적어도 하나가 카메라(310) 또는 카메라(310)가 포함된 헤드부가 제1 속도보다 느린 제2 속도에 기반하여 얼굴을 따라가면서 촬영하도록 하는 페이스 트래킹을 수행하면서 음성 인식을 수행할 수 있다. 프로세서(380)는 얼굴 인식 구간에서 제1 모터(332), 제2 모터(334), 또는 제3 모터(336) 중 적어도 하나가 카메라(310) 또는 카메라(310)가 포함된 헤드부가 제1 속도보다 느린 제2 속도에 기반하여 얼굴을 따라가면서 촬영하도록 하는 페이스 트래킹을 수행하면서 얼굴 인식을 수행할 수 있다.
프로세서(380)는 440 동작에서 상기 제2 모터 제어 모드에 기반한 페이스 트래킹 중 음성 인식 또는 얼굴 인식 성공 여부를 판단할 수 있다.
프로세서(380)는 450 동작에서 상기 제2 모터 제어 모드에 기반한 페이스 트래킹 중 음성 인식 또는 얼굴 인식 실패 시 제3 모터 제어 모드에 기반한 페이스 트래킹을 통해 음성 인식 또는 얼굴 인식을 수행할 수 있다. 다양한 실시예에 따르면, 프로세서(380)는 음성 인식 구간에서 제1 모터(332), 제2 모터(334), 또는 제3 모터(336) 중 적어도 하나가 카메라(310) 또는 카메라(310)가 포함된 헤드부가 제2 속도보다 느린 제3 속도에 기반하여 얼굴을 따라가면서 촬영하도록 하는 페이스 트래킹을 수행하면서 음성 인식을 수행할 수 있다. 프로세서(380)는 얼굴 인식 구간에서 제1 모터(332), 제2 모터(334), 또는 제3 모터(336) 중 적어도 하나가 카메라(310) 또는 카메라(310)가 포함된 헤드부가 제2 속도보다 느린 제3 속도에 기반하여 얼굴을 따라가면서 촬영하도록 하는 페이스 트래킹을 수행하면서 얼굴 인식을 수행할 수 있다.
프로세서(380)는 460 동작에서 상기 제3 모터 제어 모드에 기반한 페이스 트래킹을 통한 음성 인식 또는 얼굴 인식 성공 여부를 판단할 수 있다.
프로세서(380)는 상기 제3 모터 제어 모드에 기반한 페이스 트래킹 중 음성 인식 또는 얼굴 인식 성공 시 470 동작에서 인식된 음성 또는 얼굴과 연관된 기능을 수행할 수 있다. 예를 들면, 프로세서(380)는 음성 또는 얼굴 인식 결과 특정 얼굴의 사용자가 인식되고 "불켜"와 같은 음성 명령이 인식되는 경우, 전자 장치는 IoT 망에 연결된 다양한 객체들 중 램프를 켜도록 제어하는 기능을 수행할 수 있다. 예를 들면, 프로세서(380)는 얼굴 인식 결과에 대응된 사용자를 식별하고, 식별된 사용자 정보를 외부 서버로 제공하는 기능을 수행할 수 있다. 일 실시예에 따르면 외부 서버는 전자 장치로부터 수신된 사용자 정보를 기반으로 전자 장치가 페이스 트래킹 중인 사용자 정보를 업데이트하거나, 페이스 트래킹 중인 사용자와 연관된 정보를 획득하여 전자 장치에 전달할 수 있다. 다양한 실시예에 따르면 프로세서(380)는 상기 제3 모터 제어 모드에 기반한 페이스 트래킹 중 음성 인식 또는 얼굴 인식 실패 시 페이스 트래킹을 종료할 수 있다. 다른 실시예에 따르면 프로세서(380)는 상기 제3 모터 제어 모드에 기반한 페이스 트래킹 중 음성 인식 또는 얼굴 인식 실패 시 상기 제3 속도보다 느린 제4 속도에 기반하여 얼굴을 따라가면서 촬영하도록 하는 페이스 트래킹을 수행하면서 음성 인식 또는 얼굴 인식을 더 시도할 수도 있다.
다양한 실시예에 따르면 프로세서(380)는 상기 제2 모터 제어 모드에 기반한 페이스 트래킹 중 음성 인식 또는 얼굴 인식 성공 시 및 상기 제3 모터 제어 모드에 기반한 페이스 트래킹 중 음성 인식 또는 얼굴 인식 성공 시 제1 모터 제어 모드에 기반한 페이스 트래킹 모드로 복귀할 수 있다.
도 5a 내지 도 5c는 다양한 실시예에 따른 제1 모터 제어 모드 내지 제3 모터 제어 모드를 설명하기 위한 도면이다.
도 5a 내지 도 5c를 참조하면, 전자 장치(예: 도 1의 전자 장치(100), 도 2a 및 2b의 전자 장치(200), 또는 도 3의 전자 장치(300))의 프로세서(예: 도 1의 프로세서(120), 또는 도 3의 프로세서(380), 이하 도 3의 프로세서(380)를 예를 들어 설명함)는 감도(sensitivity)를 기반으로 제1 모터 제어 모드 내지 제3 모터 제어 모드를 설정할 수 있다. 일 실시예에 따르면 감도는 페이스 트래킹 속도를 의미할 수 있으며, 페이스 트래킹 속도가 빠른 경우 민감하고, 페이스 트래킹 속도가 느린 경우 둔감한 것을 의미할 수 있다. 일 실시예에 따르면 페이스 트래킹 속도는 각 모터에 의한 카메라(310) 또는 카메라(310)를 포함하는 헤드부의 적어도 하나의 축을 기반으로 하는 회전 각속도일 수 있다.
도 5a를 참조하면, 전자 장치(예: 도 1의 전자 장치(100), 도 2a 및 2b의 전자 장치(200), 또는 도 3의 전자 장치(300))의 프로세서(예: 도 1의 프로세서(120), 또는 도 3의 프로세서(380), 이하 도 3의 프로세서(380)를 예를 들어 설명함)는 제1 모터 제어 모드에서 제1 감도에 대응하는 제1 속도를 기반으로 모터(330)를 제어할 수 있다. 다양한 실시예에 따르면 제1 속도는 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴 간(512 및 513)의 위치 이동 각도가 중앙(510)을 기준으로 제1 각도(θ1)(degree) 차이 발생 시 모터(330)가 제1 각도만큼 카메라(310)를 적어도 하나의 축을 기준으로 회전 시키도록 설정된 각속도일 수 있다. 예를 들면, 제1 각도는 1도(degree)일 수 있다. 일 실시예에 따르면, 프로세서(380)는 제1 속도를 기반으로 제1 모터(332), 제2 모터(334), 또는 제3 모터(336) 중 적어도 하나가 각각 피치(pitch)축, 롤(roll)축, 및 요(yaw)축을 기준으로 1도만큼 카메라(310) 또는 카메라(310)를 포함하는 헤드부를 회전 시키도록 설정된 값일 수 있다.
도 5b를 참조하면, 프로세서(380)는 제2 모터 제어 모드에서 제2 감도에 대응하는 제2 속도를 기반으로 모터(330)를 제어할 수 있다. 다양한 실시예에 따르면 제2 속도는 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴 간(514 및 515)의 위치 이동 각도가 중앙(510)을 기준으로 제2 각도(θ2)(degree) 차이 발생 시 모터(330)가 제2 각도만큼 카메라(310)를 적어도 하나의 축을 기준으로 회전 시키도록 설정된 속도일 수 있다. 예를 들면, 제2 각도는 3도(degree)일 수 있다. 일 실시예에 따르면, 프로세서(380)는 제2 속도를 기반으로 제1 모터(332), 제2 모터(334), 또는 제3 모터(336) 중 적어도 하나가 각각 피치(pitch)축, 롤(roll)축, 및 요(yaw)축을 기준으로 3도만큼 카메라(310) 또는 카메라(310)를 포함하는 헤드부를 회전 시키도록 설정된 속도일 수 있다.
도 5c를 참조하면, 프로세서(380)는 제3 모터 제어 모드에서 제3 감도에 대응하는 제3 속도를 기반으로 모터(330)를 제어할 수 있다. 다양한 실시예에 따르면 제3 속도는 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴(516 및 517) 간의 위치 이동 각도가 중앙(510)을 기준으로 제3 각도(θ3)(degree) 차이 발생 시 모터(330)가 제3 각도만큼 카메라(310)를 적어도 하나의 축을 기준으로 회전 시키도록 설정된 속도일 수 있다. 예를 들면, 제3 각도는 5도(degree)일 수 있다. 일 실시예에 따르면, 프로세서(380)는 제3 속도를 기반으로 제1 모터(332), 제2 모터(334), 또는 제3 모터(336) 중 적어도 하나가 각각 피치(pitch)축, 롤(roll)축, 및 요(yaw)축을 기준으로 5도만큼 카메라(310) 또는 카메라(310)를 포함하는 헤드부를 회전 시키도록 설정된 속도일 수 있다.
제1 모터 제어 모드에서는 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴 간의 위치 이동 각도가 비교적 차이가 적은 제1 각도(예를 들면, 1도) 차이 발생 시 모터(330)를 제어하므로 모터(330) 구동 횟수가 많아져 소음 및 진동이 많이 발생할 수 있다. 제2 모터 제어 모드에서는 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴 간의 위치 이동 각도가 제1 각도보다 많은 차이가 나는 제2 각도 차이 발생 시 모터(330)를 제어하므로 모터(330) 구동 횟수가 제1 모터 제어 모드 모다 적어져 제1 모터 제어 모드 보다 소음 및 진동이 적게 발생할 수 있다. 제3 모터 제어 모드에서는 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴 간의 위치 이동 각도가 제2 각도보다 많은 차이가 나는 제3 각도 차이 발생 시 모터(330)를 제어하므로 모터(330) 그동 횟수가 제2 모터 제어 모드 모다 적어져 제2 모터 제어 모드 보다 소음 및 진동이 적게 발생할 수 있다.
따라서 다양한 실시예들에 따르면 전자 장치(예: 도 1의 전자 장치(100), 도 2a 및 2b의 전자 장치(200), 또는 도 3의 전자 장치(300))는 제1 모터 제어 모드를 기반으로 페이스 트래킹을 수행하다가 소음 및 진동에 민감한 음성 인식 또는 얼굴 인식 구간에서는 제1 모터 제어 모드보다 소음 및 진동 발생이 적은 제2 모터 제어 모드 기반의 페이스 트래킹을 수행하고, 제2 모터 제어 모드 기반의 음성 인식 또는 얼굴 인식이 실패한 경우 소음 및 진동 발생이 더 적은 제3 모터 제어 모드 기반의 페이스 트래킹을 통해 음성 인식 또는 얼굴 인식을 수행함으로써 음성 인식 또는 얼굴 인식 성능을 높일 수 있다.
도 6은 다양한 실시예에 따른 적어도 하나의 모터를 제어하기 위한 구성을 나타낸 도면이다.
도 6을 참조하면, 전자 장치(예: 도 1의 전자 장치(100), 도 2a 및 2b의 전자 장치(200), 또는 도 3의 전자 장치(300))는 제1 필터(621), 제2 필터(623), 및 제3 필터(625)를 포함하고, 프로세서(610)(예: 도 1의 프로세서(120), 도 3의 프로세서 (380))는 제1 필터(621), 제2 필터(623), 및 제3 필터(625) 각각을 이용하여 제1 모터(622), 제2 모터(624), 및 제3 모터(626)를 각각을 제어할 수 있다.
다양한 실시예에 따르면, 제1 필터(621), 제2 필터(623), 및 제3 필터(625) 각각은 로우 패스 필터(low pass filter)를 포함할 수 있다. 일 실시예에 따르면 프로세서(610)는 제1 필터(621), 제2 필터(623), 및 제3 필터(625) 각각의 컷 오프 주파수(cut off frequency)를 조절하여 이용하여 제1 모터(622), 제2 모터(624), 및 제3 모터(626) 각각을 제어할 수 있다. 예를 들면, 각각의 컷 오프 주파수(cut off frequency)는 제1 필터(621), 제2 필터(623), 및 제3 필터(625) 각각의 통과 주파수일 수 있다.
일 실시예에 따르면 프로세서(610)는 제1 모터 제어 모드에서 제1 필터(621), 제2 필터(623), 또는 제3 필터(625) 중 적어도 하나의 필터의 컷 오프 주파수(cut off frequency)를 제1 주파수 예를 들면, 1hz로 조절하여 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴 간의 위치 이동 각도가 중앙(510)을 기준으로 1도 차이 발생 시 피치(pitch)축, 롤(roll)축, 또는 요(yaw)축 중 적어도 하나의 축을 기준으로 1도만큼 카메라(310) 또는 카메라(310)를 포함하는 헤드부(210)를 회전 시키도록 제어할 수 있다.
일 실시예에 따르면 프로세서(610)는 제2 모터 제어 모드에서 제1 필터(621), 제2 필터(623), 또는 제3 필터(625) 중 적어도 하나의 필터의 컷 오프 주파수(cut off frequency)를 제2 주파수 예를 들면, 3hz로 조절하여 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴 간의 위치 이동 각도가 중앙(510)을 기준으로 3도 차이 발생 시 피치(pitch)축, 롤(roll)축, 또는 요(yaw)축 중 적어도 하나의 축을 기준으로 3도만큼 카메라(310) 또는 카메라(310)를 포함하는 헤드부를 회전시키도록 제어할 수 있다.
일 실시예에 따르면 프로세서(610)는 제3 모터 제어 모드에서 제1 필터(621), 제2 필터(623), 또는 제3 필터(625) 중 적어도 하나의 필터의 컷 오프 주파수(cut off frequency)를 제3 주파수 예를 들면, 5hz로 조절하여 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴 간의 위치 이동 각도가 중앙(510)을 기준으로 5도 차이 발생 시 피치(pitch)축, 롤(roll)축, 또는 요(yaw)축 중 적어도 하나의 축을 기준으로 5도만큼 카메라(310) 또는 카메라(310)를 포함하는 헤드부를 회전시키도록 제어할 수 있다.
도 7a 내지 도 7c는 다양한 실시예에 따른 제1 내지 제3 모터 제어 모드별 실제 얼굴 이동 속도와 페이스 트래킹 속도를 나타낸 도면이다.
도 7a를 참조하면, 세로축은 속도(dgree/sec)를 나타내고 가로축은 시간(t)을 나타낼 수 있으며, 제1 모터 제어 모드에서 시간에 따른 실제 얼굴 이동 속도(712)와 페이스 트래킹 속도(714)의 변화를 도시하고 있다. 제1 모터 제어 모드에서는 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴 간의 위치 이동 각도가 비교적 차이가 적은 제1 각도(예를 들면, 1도) 차이 발생 시 모터(330)를 제어하므로 실제 얼굴 이동 속도(712)와 페이스 트래킹 속도(714)간의 차이가 적어 실제 얼굴 이동 속도(712)와 가깝게 페이스 트래킹이 이루어질 수 있지만 모터(330) 구동 횟수가 많아져 소음 및 진동이 많이 발생할 수 있다.
도 7b를 참조하면, 제2 모터 제어 모드에서 시간에 따른 실제 얼굴 이동 속도(722)와 페이스 트래킹 속도(724)의 변화를 도시하고 있다. 제2 모터 제어 모드에서는 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴 간의 위치 이동 각도가 제1 각도보다 많은 차이가 나는 제2 각도 차이 발생 시 모터(330)를 제어하므로 실제 얼굴 이동 속도(722)와 페이스 트래킹 속도(724)간의 차이가 제1 모터 제어 모드 보다 많아 실제 얼굴 이동 속도(722)와 제1 모터 제어 모드보다 덜 가깝게 페이스 트래킹이 이루어질 수 있지만 모터(330) 구동 횟수가 제1 모터 제어 모드 모다 적어져 제1 모터 제어 모드 보다 소음 및 진동이 적게 발생할 수 있다.
도 7c를 참조하면, 제3 모터 제어 모드에서 시간에 따른 실제 얼굴 이동 속도(732)와 페이스 트래킹 속도(734)의 변화를 도시하고 있다. 제3 모터 제어 모드에서는 카메라(310)를 통해 촬영된 영상들 각각에 포함된 얼굴 간의 위치 이동 각도가 제2 각도보다 많은 차이가 나는 제3 각도 차이 발생 시 모터(330)를 제어하므로 실제 얼굴 이동 속도(732)와 페이스 트래킹 속도(734)간의 차이가 제2 모터 제어 모드 보다 많아 실제 얼굴 이동 속도(722)와 제2 모터 제어 모드보다 덜 가깝게 페이스 트래킹이 이루어질 수 있지만 모터(330) 그동 횟수가 제2 모터 제어 모드 모다 적어져 제2 모터 제어 모드 보다 소음 및 진동이 적게 발생할 수 있다.
따라서 다양한 실시예들에 따르면 전자 장치(예: 도 1의 전자 장치(100), 도 2a 및 2b의 전자 장치(200), 또는 도 3의 전자 장치(300))는 제1 모터 제어 모드를 기반으로 페이스 트래킹을 수행하다가 소음 및 진동에 민감한 음성 인식 또는 얼굴 인식 구간에서는 제1 모터 제어 모드보다 소음 및 진동 발생이 적은 제2 모터 제어 모드 기반의 페이스 트래킹을 수행하고, 제2 모터 제어 모드 기반의 음성 인식 또는 얼굴 인식이 실패한 경우 소음 및 진동 발생이 더 적은 제3 모터 제어 모드 기반의 페이스 트래킹을 통해 음성 인식 또는 얼굴 인식을 수행함으로써 음성 인식 또는 얼굴 인식 성능을 높일 수 있다.
도 8a 내지 도 8c는 다양한 실시예에 따른 전자 장치에서 음성 및 얼굴 인식 일예를 나타낸 도면이다.
도 8a를 참조하면, 전자 장치(800)(예: 도 1의 전자 장치(100), 도 2a 및 2b의 전자 장치(200), 또는 도 3의 전자 장치(300))은 적어도 하나의 마이크(814)가 활성화된 상태에서 웨이크업을 위한 음성 신호 대기 중 사용자(801)에 의해 발화된 지정된 키워드(keword)(예를 들면, "bixby") 또는 지정된 음성 명령에 대응된 음성 신호가 수신된 경우 웨이크 업 상태가 될 수 있다.
전자 장치(800)는 웨이크 업 상태가 됨에 따라 상기 수신된 음성 신호 방향으로 카메라(816) 또는 카메라(816)가 포함된 헤드부(810)가 향하도록 한 후 적어도 하나의 마이크(814)를 통해 입력된 음성 신호를 수신하고 카메라(816)를 통해 촬영된 영상을 수신할 수 있다. 전자 장치(800)는 카메라(816)로부터 수신된 영상을 기반으로 사용자(801)의 얼굴을 검출할 수 있다.
도 8b를 참조하면, 전자 장치(800)는 복수의 사용자 얼굴들(801-1, 801-2, 801-2)이 검출된 경우 카메라(816)에 의해 촬영된 영상의 중앙과 가장 근접한 얼굴(801-2)에 대해 제1 모터 제어 모드에 기반한 페이스 트래킹을 수행할 수 있다.
도 8c를 참조하면, 전자 장치(800)는 제1 모터 제어 모드에 대응된 제1 속도로 카메라(816)가 사용자(801)의 얼굴을 따라가며 촬영할 수 있도록 카메라(816) 또는 카메라(816)를 포함하는 헤드부(810)를 제1 속도에 기반하여 피치(pitch)축, 롤(roll)축, 또는 요(yaw)축 중 적어도 하나의 축을 기준으로 회전할 수 있다. 예를 들면, 제1 속도는 롤(roll)축 기준 200dgree/sec이고, 요(yaw)축 기준 200dgree/sec이고, 피치(pitch)축 기준 20dgree/sec일 수 있다. 제1 속도는 피치(pitch)축, 롤(roll)축, 및 요(yaw)축 각각에 대해 상기 속도외에 다른 속도로 지정될 수도 있다.
다양한 실시예에 따르면, 전자 장치(800)는 페이스 트래킹 수행 중 음성 인식 또는 얼굴 인식 구간에서 제2 모터 제어 모드에 대응된 제2 속도로 카메라(816)가 사용자(801)의 얼굴을 따라가며 촬영할 수 있도록 카메라(816) 또는 카메라(816)를 포함하는 헤드부(810)를 제2 속도에 기반하여 피치(pitch)축, 롤(roll)축, 또는 요(yaw)축 중 적어도 하나의 축을 기준으로 회전할 수 있다.
다양한 실시예에 따르면, 전자 장치(800)는 상기 제2 모터 제어 모드에 기반한 페이스 트래킹 중 음성 인식 또는 얼굴 인식 성공 여부를 판단할 수 있다. 전자 장치(800)는 상기 제2 모터 제어 모드에 기반한 페이스 트래킹 중 음성 인식 또는 얼굴 인식 실패 시 제3 모터 제어 모드에 기반한 페이스 트래킹을 통해 음성 인식 또는 얼굴 인식을 수행할 수 있다.
다양한 실시예에 따르면, 전자 장치(800)는 제3 모터 제어 모드에 기반하여 카메라(816) 또는 카메라(816)를 포함하는 헤드부(810)를 제2 속도보다 느린 제3 속도에 기반하여 얼굴을 따라가면서 촬영하도록 하는 페이스 트래킹을 수행하면서 음성 인식 또는 얼굴 인식을 수행할 수 있다.
전자 장치(800)는 제2 또는 제3 모터 제어 모드에 기반한 페이스 트래킹을 통한 음성 인식 또는 얼굴 인식 성공 시 인식된 음성 또는 얼굴과 연관된 기능을 수행할 수 있다. 예를 들면, 전자 장치(800)는 음성 또는 얼굴 인식 결과 특정 얼굴의 사용자가 인식되고 "불켜"와 같은 음성 명령이 인식되는 경우, 전자 장치는 IoT 망에 연결된 다양한 객체들 중 램프를 켜도록 제어하는 기능을 수행할 수 있다. 예를 들면, 전자 장치(800)는 얼굴 인식 결과에 대응된 사용자를 식별하고, 식별된 사용자 정보를 외부 서버로 제공하는 기능을 수행할 수 있다. 일 실시예에 따르면 외부 서버는 전자 장치(800)로부터 수신된 사용자 정보를 기반으로 전자 장치가 페이스 트래킹 중인 사용자 정보를 업데이트하거나, 페이스 트래킹 중인 사용자와 연관된 정보를 획득하여 전자 장치에 전달할 수 있다.
다양한 실시예에 따르면 전자 장치(800)는 상기 제3 모터 제어 모드에 기반한 페이스 트래킹 중 음성 인식 또는 얼굴 인식 실패 시 상기 제3 속도보다 느린 제4 속도에 기반하여 얼굴을 따라가면서 촬영하도록 하는 페이스 트래킹을 수행하면서 음성 인식 또는 얼굴 인식을 더 시도할 수도 있다.
도 9a 및 도 9b는 다양한 실시예에 따른 전자 장치에서 음성 인식 구간 및 얼굴 인식 구간을 설명하기 위한 도면이다.
도 9a를 참조하면, 전자 장치(예: 도 1의 전자 장치(100), 도 2a 및 2b의 전자 장치(200) 도 3의 전자 장치(300), 또는 도 8의 전자 장치(800))는 웨이크 업 후, 음성 인식 구간 진입 조건이 만족하면 음성 인식 구간으로 진입할 수 있다. 다양한 실시예에 따르면 전자 장치(800)는 웨이크 업 후 수신되는 음성 신호 방향으로 카메라(816) 또는 카메라(816)가 포함된 헤드부(810)가 향하도록 한 후 음성 인식 구간으로 진입할 수도 있고, 웨이크업 후 음성 수신 즉시 음성 인식 구간으로 진입할 수도 있고, 웨이크 업 후 지정된 시간 기간 후 음성 인식 구간으로 진입할 수도 있다. 음성 인식 구간 진입 조건은 다양한 조건으로 지정될 수 있다. 음성 인식 구간은 수신된 음성 신호에 대응된 정보나 명령을 식별하는 구간일 수 있다. 음성 인식 구간의 종료는 음성 인식 구간 진입 시간부터 지정된 시간이 지나면 자동으로 종료될 수도 있고, 음성 인식 성공 시 종료되거나 음성 인식 실패 시 종료될 수 있다. 전자 장치(800)는 음성 인식 구간에서 제2 모터 제어 모드 또는 제3 모터 제어 모드 기반으로 동작하고, 음성 인식 구간이 아닌 구간에서 제1 모터 제어 모드로 동작할 수 있다.
도 9b를 참조하면, 전자 장치(예: 도 1의 전자 장치(100), 도 2a 및 2b의 전자 장치(200) 도 3의 전자 장치(300), 또는 도 8의 전자 장치(800))는 웨이크 업 후, 얼굴 인식 구간 진입 조건이 만족하면 얼굴 인식 구간으로 진입할 수 있다. 다양한 실시예에 따르면 전자 장치(800)는 웨이크 업 후 수신되는 음성 신호 방향으로 카메라(816) 또는 카메라(816)가 포함된 헤드부(810)가 향하도록 한 후 페이스 트래킹을 시작하고, 페이스 트래킹 시작과 동시에 얼굴 인식 구간으로 진입하거나, 페이스 트래킹 중 지정된 시간 간격 마다 얼굴 인식 구간으로 진입하거나, 페이스 트래킹 중 얼굴 검출 시 얼굴 인식 구간으로 진입할 수 있다. 얼굴 인식 구간은 촬영된 이미지 내의 얼굴의 사용자를 식별하는 구간일 수 있다. 얼굴 인식 구간의 종료는 얼굴 인식 구간 진입 시간부터 지정된 시간이 지나면 자동으로 종료될 수도 잇고, 얼굴 인식 성공 시 종료되거나 음성 인식 실패 시 종료될 수 있다. 전자 장치(800)는 얼굴 인식 구간에서 제2 모터 제어 모드 또는 제3 모터 제어 모드 기반으로 동작하고, 얼굴 인식 구간이 아닌 구간에서 제1 모터 제어 모드로 동작할 수 있다.
본 문서에서 기술된 구성요소들 각각은 하나 또는 그 이상의 부품(component)으로 구성될 수 있으며, 해당 구성요소의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 다양한 실시예에서, 전자 장치는 본 문서에서 기술된 구성요소 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 또한, 다양한 실시예에 따른 전자 장치의 구성요소들 중 일부가 결합되어 하나의 개체(entity)로 구성됨으로써, 결합되기 이전의 해당 구성요소들의 기능을 동일하게 수행할 수 있다.
본 문서에서 사용된 용어 "모듈"은, 예를 들면, 하드웨어, 소프트웨어 또는 펌웨어(firmware) 중 하나 또는 둘 이상의 조합을 포함하는 단위(unit)를 의미할 수 있다. "모듈"은, 예를 들면, 유닛(unit), 로직(logic), 논리 블록(logical block), 부품(component), 또는 회로(circuit) 등의 용어와 바꾸어 사용(interchangeably use)될 수 있다. "모듈"은, 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들면,"모듈"은, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays) 또는 프로그램 가능 논리 장치(programmable-logic device) 중 적어도 하나를 포함할 수 있다.
다양한 실시예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서(예: 프로세서(120))에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 메모리(130)가 될 수 있다.
다양한 실시 예에 따르면, 명령들을 저장하고 있는 저장 매체에 있어서, 상기 명령들은 적어도 하나의 회로에 의하여 실행될 때에 상기 적어도 하나의 회로로 하여금 적어도 하나의 동작을 수행하도록 설정된 것으로서, 상기 적어도 하나의 동작은, 적어도 하나의 마이크를 통한 음성 및 카메라를 통한 영상을 수신하는 동작, 제1 모터 제어 모드에 적어도 기반하여 적어도 하나의 모터를 제1 제어하고, 상기 제1 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 수신된 영상을 이용한 제1 페이스 트래킹을 수행하는 동작 및 상기 제1 페이스 트래킹 수행 중 제2 모터 제어 모드에 적어도 기반하여 상기 적어도 하나의 모터를 제2 제어하고, 상기 제2 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행하는 동작 포함할 수 있다.
컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(magnetic media)(예: 자기테이프), 광기록 매체(optical media)(예: CD-ROM(compact disc read only memory), DVD(digital versatile disc), 자기-광 매체(magneto-optical media)(예: 플롭티컬 디스크(floptical disk)), 하드웨어 장치(예: ROM(read only memory), RAM(random access memory), 또는 플래시 메모리 등) 등을 포함할 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 다양한 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.
다양한 실시예에 따른 모듈 또는 프로그램 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상에서 설명한 본 발명의 다양한 실시예의 전자 장치는 전술한 실시 예 및 도면에 의해 한정되는 것은 아니고, 본 발명의 기술적 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

Claims (20)

  1. 전자 장치에 있어서
    카메라;
    적어도 하나의 마이크;
    상기 카메라를 적어도 하나의 축을 기준으로 회전시키기 위한 적어도 하나의 모터; 및
    적어도 하나의 프로세서를 포함하고,
    상기 프로세서는 상기 적어도 하나의 마이크를 통한 음성 및 상기 카메라를 통한 영상을 수신하고,
    제1 모터 제어 모드에 적어도 기반하여 상기 적어도 하나의 모터를 제1 제어하고, 상기 제1 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 수신된 영상을 이용한 제 1 페이스 트래킹을 수행하고,
    상기 제1 페이스 트래킹 수행 중 제2 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제 2 제어하고, 상기 제 2 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행하도록 설정된 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 페이스 트래킹 수행 중 음성 인식 구간 또는 얼굴 인식 구간에서 상기 제2 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제2 제어하도록 설정된 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 음성 인식 또는 얼굴 인식이 실패 시, 제3 모터 제어 모드에 따른 상기 적어도 하나의 모터를 제 3 제어하고, 상기 제 3 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 음성 인식 또는 얼굴 인식을 더 수행하도록 설정된 전자 장치.
  4. 제3항에 있어서,
    상기 프로세서는 상기 음성 인식 또는 얼굴 인식이 성공 시, 인식된 음성 또는 인식된 얼굴과 연관되어 지정된 기능을 수행하도록 더 설정된 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는 상기 적어도 하나의 마이크를 통해 지정된 음성 신호가 수신될 경우, 상기 제1 페이스 트래킹을 수행하도록 설정된 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는, 상기 제 1 페이스 트래킹하기 위한 얼굴이 복수개인 경우, 상기 복수개의 얼굴 중 상기 수신된 영상의 중앙 영역에 더 근접한 얼굴을 기반으로 상기 제 1 페이스 트래킹을 수행하도록 설정된 전자 장치.
  7. 제3항에 있어서,
    상기 제1 모터 제어 모드는 상기 적어도 하나의 모터가 적어도 하나의 축을 기준으로 상기 카메라를 제1 속도로 회전시키도록 설정된 모드를 포함하고,
    상기 제2 모터 제어 모드는 상기 적어도 하나의 모터가 상기 적어도 하나의 축을 기준으로 상기 카메라를 상기 제2 속도로 회전시키도록 설정된 모드를 포함하고,
    상기 제3 모터 제어 모드는 상기 적어도 하나의 모터가 상기 적어도 하나의 축을 기준으로 상기 카메라를 상기 제3 속도로 회전시키도록 설정된 모드를 포함하는 전자 장치.
  8. 제7항에 있어서,
    상기 제2 속도는 제1 속도보다 느린 속도이고, 제3 속도는 상기 제2 속도보다 느린 속도인 전자 장치.
  9. 제7항에 있어서,
    상기 적어도 하나의 모터와 상기 프로세서 사이에 연결된 적어도 하나의 필터를 더 포함하고,
    상기 프로세서는 상기 적어도 하나의 필터를 통해
    상기 제1 모터 제어 모드에 따라 상기 적어도 하나의 필터의 주파수를 제1 주파수로 조절하거나, 상기 제2 모터 제어 모드에 대응하여 상기 적어도 하나의 필터의 주파수를 제2 주파수로 조절하거나, 상기 제3 모터 제어 모드에 대응하여 상기 적어도 하나의 필터의 주파수를 제3 주파수로 조절하도록 설정된 전자 장치.
  10. 제9항에 있어서,
    상기 적어도 하나의 모터는 제1 모터, 제2 모터, 및 제3 모터를 포함하고, 상기 제1 모터는 피치(pitch)축을 기준으로 상기 카메라를 회전시키도록 동작하고, 상기 제2 모터는 롤(roll)축을 기준으로 상기 카메라를 회전시키도록 동작하고, 상기 제3 모터는 요(yaw)축을 기준으로 상기 카메라를 회전시키도록 동작하는 전자 장치.
  11. 전자 장치에서 음성 또는 얼굴 인식 방법에 있어서,
    적어도 하나의 마이크를 통한 음성 및 카메라를 통한 영상을 수신하는 동작;
    제1 모터 제어 모드에 적어도 기반하여 적어도 하나의 모터를 제1 제어하고, 상기 제1 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 수신된 영상을 이용한 제1 페이스 트래킹을 수행하는 동작; 및
    상기 제1 페이스 트래킹 수행 중 제2 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제2 제어하고, 상기 제2 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행하는 동작을 포함하는 방법.
  12. 제11항에 있어서,
    상기 제1 페이스 트래킹 수행중 음성 인식 구간 또는 얼굴 인식 구간에서 상기 제2 모터 제어 모드에 기반하여 상기 적어도 하나의 모터를 제2 제어하는 방법.
  13. 제11항에 있어서,
    상기 음성 인식 또는 얼굴 인식이 실패 시, 제3 모터 제어 모드에 따른 상기 적어도 하나의 모터를 제3 제어하고, 상기 제3 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 음성 인식 또는 얼굴 인식을 수행하는 동작을 더 포함하는 방법.
  14. 제13항에 있어서,
    상기 음성 인식 또는 얼굴 인식이 성공 시, 인식된 음성 또는 인식된 얼굴과 연관되어 지정된 기능을 수행하는 동작을 더 포함하는 방법.
  15. 제11항에 있어서,
    상기 적어도 하나의 마이크를 통해 지정된 음성 신호가 수신될 경우, 상기 제1 페이스 트래킹을 수행하는 방법.
  16. 제11항에 있어서,
    상기 제1 페이스 트래킹하기 위한 얼굴이 복수개인 경우, 상기 복수개의 얼굴 중 상기 수신된 영상의 중앙 영역에 더 근접한 얼굴을 기반으로 상기 제1 페이스 트래킹을 수행하는 방법.
  17. 제13항에 있어서,
    상기 제1 모터 제어 모드는 상기 적어도 하나의 모터가 적어도 하나의 축을 기준으로 상기 카메라를 제1 속도로 회전시키도록 설정된 모드를 포함하고, 상기 제2 모터 제어 모드는 상기 적어도 하나의 모터가 상기 적어도 하나의 축을 기준으로 상기 카메라를 상기 제2 속도로 회전시키도록 설정된 모드를 포함하고, 상기 제3 모터 제어 모드는 상기 적어도 하나의 모터가 상기 적어도 하나의 축을 기준으로 상기 카메라를 상기 제3 속도로 회전시키도록 설정된 모드를 포함하고,
    상기 제2 속도는 상기 제1 속도보다 느린 속도이고, 상기 제3 속도는 상기 제2 속도보다 느린 속도인 방법.
  18. 제17항에 있어서,
    상기 제1 모터 제어 모드에 따라 상기 적어도 하나의 모터와 연관된 적어도 하나의 필터의 주파수를 제1 주파수로 조절하거나, 상기 제2 모터 제어 모드에 대응하여 상기 적어도 하나의 필터의 주파수를 제2 주파수로 조절하거나, 상기 제3 모터 제어 모드에 대응하여 상기 적어도 하나의 필터의 주파수를 제3 주파수로 조절하는 방법.
  19. 제18항에 있어서,
    상기 적어도 하나의 모터는 제1 모터, 제2 모터, 및 제3 모터를 포함하고,
    상기 제1 모터는 피치(pitch)축을 기준으로 상기 카메라를 회전시키도록 동작하고, 상기 제2 모터는 롤(roll)축을 기준으로 상기 카메라를 회전시키도록 동작하고, 상기 제3 모터는 요(yaw)축을 기준으로 상기 카메라를 회전시키도록 동작하는 방법.
  20. 명령들을 저장하고 있는 저장 매체에 있어서, 상기 명령들은 적어도 하나의 회로에 의하여 실행될 때에 상기 적어도 하나의 회로로 하여금 적어도 하나의 동작을 수행하도록 설정된 것으로서, 상기 적어도 하나의 동작은,
    적어도 하나의 마이크를 통한 음성 및 카메라를 통한 영상을 수신하는 동작;
    제1 모터 제어 모드에 적어도 기반하여 적어도 하나의 모터를 제1 제어하고, 상기 제1 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 상기 수신된 영상을 이용한 제1 페이스 트래킹을 수행하는 동작; 및
    상기 제1 페이스 트래킹 수행 중 제2 모터 제어 모드에 적어도 기반하여 상기 적어도 하나의 모터를 제2 제어하고, 상기 제2 제어에 적어도 기반한 적어도 하나의 모터를 이용하여 음성 인식 또는 얼굴 인식을 수행하는 동작을 포함하는 저장 매체.
KR1020180014117A 2018-02-05 2018-02-05 카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법 KR20190094677A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020180014117A KR20190094677A (ko) 2018-02-05 2018-02-05 카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법
US16/967,716 US11363189B2 (en) 2018-02-05 2019-01-28 Apparatus and method for recognizing voice and face on basis of change in camera driving method
PCT/KR2019/001165 WO2019151734A1 (ko) 2018-02-05 2019-01-28 카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180014117A KR20190094677A (ko) 2018-02-05 2018-02-05 카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20190094677A true KR20190094677A (ko) 2019-08-14

Family

ID=67479783

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180014117A KR20190094677A (ko) 2018-02-05 2018-02-05 카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법

Country Status (3)

Country Link
US (1) US11363189B2 (ko)
KR (1) KR20190094677A (ko)
WO (1) WO2019151734A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102427469B1 (ko) * 2021-02-10 2022-07-29 한남대학교 산학협력단 페이스 포커싱 스마트폰 거치대

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220022380A (ko) * 2020-08-18 2022-02-25 현대자동차주식회사 차량 및 그의 제어방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8935006B2 (en) * 2005-09-30 2015-01-13 Irobot Corporation Companion robot for personal interaction
JP4241742B2 (ja) 2006-01-31 2009-03-18 パナソニック株式会社 自動追尾装置及び自動追尾方法
JP2009044463A (ja) * 2007-08-08 2009-02-26 Sanyo Electric Co Ltd 電子カメラ及び被写界像再生装置
US9024566B2 (en) 2010-11-05 2015-05-05 Mitsubishi Electric Corporation Motor control device
US20130329003A1 (en) * 2012-06-06 2013-12-12 Aver Information Inc. Video camera positioning system and control method thereof
US9321173B2 (en) 2012-06-22 2016-04-26 Microsoft Technology Licensing, Llc Tracking and following people with a mobile robotic device
CN104870147B (zh) 2012-08-31 2016-09-14 睿信科机器人有限公司 机器人安全工作的系统和方法
EP4198626A1 (en) * 2015-05-27 2023-06-21 GoPro, Inc. Camera system using stabilizing gimbal
JP6145782B1 (ja) * 2016-02-10 2017-06-14 パナソニックIpマネジメント株式会社 監視カメラ
KR101741661B1 (ko) 2016-03-07 2017-05-30 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량 및 그 제어방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102427469B1 (ko) * 2021-02-10 2022-07-29 한남대학교 산학협력단 페이스 포커싱 스마트폰 거치대

Also Published As

Publication number Publication date
WO2019151734A1 (ko) 2019-08-08
US11363189B2 (en) 2022-06-14
US20210044739A1 (en) 2021-02-11

Similar Documents

Publication Publication Date Title
KR102582863B1 (ko) 사용자 의도 기반 제스처 인식 방법 및 장치
US11216655B2 (en) Electronic device and controlling method thereof
KR20170100332A (ko) 화상 통화 방법 및 장치
KR20200094396A (ko) 전자 장치 및 복수의 액션들을 포함하는 태스크를 결정하는 방법
CN112805663A (zh) 电子装置及其姿势识别方法
KR20190096189A (ko) 시선에 기반한 관심 영역 검출 방법 및 이를 위한 전자 장치
KR102580837B1 (ko) 사용자에 대응하는 사용 패턴 정보에 기반하여 외부 전자 장치를 제어 하기 위한 전자 장치 및 방법
US20200133275A1 (en) Electronic device and method of operating the same
KR20190134863A (ko) 외부 전자 장치를 제어하는 전자 장치 및 방법
US11363189B2 (en) Apparatus and method for recognizing voice and face on basis of change in camera driving method
US11780516B2 (en) Electronic device and method for operating same
CN113766127A (zh) 移动终端的控制方法及装置、存储介质及电子设备
KR20200076438A (ko) 사용자의 액티비티를 추적하는 전자 장치 및 전자 장치의 동작 방법
KR20190098594A (ko) 전자 장치 및 전자 장치의 제어 방법
US20210180976A1 (en) Device and method for providing vibration
CN115035187A (zh) 声源方向确定方法、装置、终端、存储介质及产品
US11113215B2 (en) Electronic device for scheduling a plurality of tasks and operating method thereof
CN113843814A (zh) 机械臂设备的控制系统、方法、装置和存储介质
KR20200092481A (ko) 장착된 외부 전자 장치의 기능과 관련된 동작을 수행하는 전자 장치 및 방법
US11443135B2 (en) Method for monitoring object and electronic device for supporting the same
US11144791B2 (en) Electronic apparatus for recognizing user and controlling method thereof
KR20200095691A (ko) 밀리미터 웨이브를 이용한 객체 인식 방법 및 이를 지원하는 전자 장치
KR20190027704A (ko) 전자 장치 및 전자 장치의 지문 인식 방법
CN110164450B (zh) 登录方法、装置、播放设备及存储介质