KR20210116838A - 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법 - Google Patents

제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR20210116838A
KR20210116838A KR1020200032848A KR20200032848A KR20210116838A KR 20210116838 A KR20210116838 A KR 20210116838A KR 1020200032848 A KR1020200032848 A KR 1020200032848A KR 20200032848 A KR20200032848 A KR 20200032848A KR 20210116838 A KR20210116838 A KR 20210116838A
Authority
KR
South Korea
Prior art keywords
voice input
electronic device
image
gesture
information
Prior art date
Application number
KR1020200032848A
Other languages
English (en)
Inventor
예브헨니 야키신
올렉산드르 시츄르
올렉산드르 비아트차니노브
발러리 드쥬블리욱
아나스타시아 스미에로바
레브게니 로마니악
미카일로 즐롯닉
발렌틴 키드럭
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200032848A priority Critical patent/KR20210116838A/ko
Priority to PCT/KR2020/003917 priority patent/WO2021187653A1/ko
Publication of KR20210116838A publication Critical patent/KR20210116838A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음성 입력 및 상기 음성 입력과 대응되는 제스처를 획득하고, 제스처가 가리키는 방향에 기초하여, 전자 장치의 주변 환경을 포함하는 영상을 획득하고, 영상으로부터, 음성 입력과 관련된 부가 정보를 추출하고, 부가 정보에 기초하여, 음성 입력에 의해 전자 장치로 요청된 동작에 관한 요청 정보를 획득하고, 요청 정보에 기초하여, 음성 입력을 처리하는 전자 장치에서, 제스처에 기초하여, 음성 입력을 처리하는 방법이 제공된다.

Description

제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법 {Electronic device and operating method for processing a voice input based on a gesture}
본 개시는, 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법에 관한 것이다.
사용자는 음성 명령을 통해 전자 장치에 다양한 동작을 수행하도록 요청할 수 있다. 예를 들면, 사용자는 전자 장치가 아닌 주변 사람들과 대화하는 방식으로, 음성 명령을 수행할 수 있다.
일상 대화에서, 사용자가 대화에서 요청하고자 하는 대상을 명확하게 지시하지 않더라도, 대화의 상대방은, 사용자의 제스처와 주변 상황을 함께 고려하여, 사용자의 대화에 포함된 요청사항을 명확하게 인식할 수 있다.
따라서, 사용자가 일상적으로 대화하는 방식으로 음성 명령을 하는 경우에, 음성 명령에서 요청하는 대상을 명확하게 지시하지 않더라도, 사용자의 음성 명령에 따른 동작을 사용자의 의도에 맞게 수행할 수 있는 방법이 필요하다.
본 개시가 해결하고자 하는 과제는 전술한 문제를 해결하기 위한 것으로서, 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법을 제공하기 위한 것이다.
또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 전자 장치에서, 제스처에 기초하여, 음성 입력을 처리하는 방법에 있어서, 음성 입력 및 상기 음성 입력과 대응되는 제스처를 획득하는 단계; 상기 제스처가 가리키는 방향에 기초하여, 상기 전자 장치의 주변 환경을 포함하는 영상을 획득하는 단계; 상기 영상으로부터, 상기 음성 입력과 관련된 부가 정보를 추출하는 단계; 상기 부가 정보에 기초하여, 상기 음성 입력에 의해 상기 전자 장치로 요청된 동작에 관한 요청 정보를 획득하는 단계; 및 상기 요청 정보에 기초하여, 상기 음성 입력을 처리하는 단계를 포함하는, 방법을 제공할 수 있다.
또한, 본 개시의 제2 측면은, 제스처에 기초하여, 음성 입력을 처리하는 전자 장치에 있어서, A/V 입력부; 상기 음성 입력을 처리한 결과를 출력하는 출력부; 및 상기 A/V 입력부를 제어하여, 음성 입력을 획득하고, 상기 음성 입력과 대응되는 제스처를 획득하고, 상기 A/V 입력부를 제어하여, 상기 제스처가 가리키는 방향에 기초하여, 상기 전자 장치의 주변 환경을 포함하는 영상을 획득하고, 상기 영상으로부터, 상기 음성 입력과 관련된 부가 정보를 추출하고, 상기 부가 정보에 기초하여, 상기 음성 입력에 의해 상기 전자 장치로 요청된 동작에 관한 요청 정보를 획득하고, 상기 요청 정보에 기초하여, 상기 음성 입력을 처리하는, 적어도 하나의 프로세서를 포함하는, 전자 장치를 제공할 수 있다.
또한, 본 개시의 제3 측면은, 제1 측면의 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 제공할 수 있다.
일 실시 예에 의하면 음성 입력에 포함된 정보가 명확하지 않은 경우에도, 사용자의 제스처 및 주변 환경에 기초하여, 음성 입력을 명확하게 해석함으로써, 사용자 의도에 맞는 동작이 수행될 수 있다.
도 1은 일 실시 예에 의한 음성 입력을 수신하는 일 예를 나타내는 도면이다.
도 2는 일 실시 예에 의한 제스처가 가리키는 방향에 따라 주변 환경 영상을 촬영하는 일 예를 나타낸 도면이다.
도 3은 일 실시 예에 의한 주변 환경 영상이 촬영되는 일 예를 나타낸 도면이다.
도 4 는 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.
도 5은 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.
도 6은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리하는 방법을 나타낸 순서도이다.
도 7은 일 실시 예에 의한 제스처에 기초하여, 영상으로부터 요청 정보를 획득하는 일 예를 나타낸다.
도 8은 일 실시 예에 의한 제스처에 기초하여 주변 환경을 포함하는 영상을 획득하는 일 예를 나타내는 도면이다.
도 9는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리하는 일 예를 나타낸 도면이다.
도 10은 일 실시 예에 의한 제스처의 일 예를 나타낸 도면이다.
도 11은 일 실시 예에 의한 영상으로부터 음성 입력과 대응되는 요청 정보를 획득하는 일 예를 나타낸 도면이다.
도 12는 제스처에 기초하여 음성 입력을 처리하는 일 예를 나타낸 도면이다.
도 13은 일 실시 예에 의한 제스처에 기초하여, 영상을 획득함으로써, 음성 입력을 처리하는 일 예를 나타내는 도면이다.
도 14는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 15는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 주변 환경 정보를 획득하는 일 예를 나타낸 도면이다.
도 16은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 정보를 수집하고, 수집된 정보에 기초하여 동작을 수행하는 일 예를 나타낸 도면이다.
도 17은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 18은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 19는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.
도 20은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.
도 21은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.
도 22는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 23은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 영상을 촬영하는 동작을 수행하는 일 예를 나타낸 도면이다.
도 24는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 25는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 26는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.
도 27은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 외부 장치를 제어하는 일 예를 나타낸 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 일 실시 예에 의한 음성 입력을 수신하는 일 예를 나타내는 도면이다.
도 1을 참조하면, 전자 장치(1000)는 음성 입력을 수신함에 따라, 음성 입력과 대응되는 동작을 수행할 수 있다.
일 실시 예에 의한 전자 장치(1000)는 사용자의 음성 입력에 대응하여, 응답을 제공하는 장치의 일 예로서, 음성 제어 기능이 탑재되어 사용자의 입력에 따른 동작을 수행할 수 있는 전자 장치일 수 있다.
일 실시예에 따른 전자 장치(1000)는 다양한 형태로 구현될 수 있다. 예를 들어, 본 명세서에서 기술되는 전자 장치(1000)는, 디지털 카메라, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 차량(vehicle) 등이 있을 수 있으나, 이에 한정되는 것은 아니다. 본 명세서에서 기술되는 전자 장치(1000)는 사용자에 의해 착용될 수 있는 장치(wearable device)일 수 있다. 웨어러블 디바이스는 액세서리 형 장치(예컨대, 시계, 반지, 팔목 밴드, 발목 밴드, 목걸이, 안경, 콘택트 렌즈), 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형 장치(예: 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 이하에서는, 설명의 편의상, 전자 장치(1000)가 인공지능 스피커 장치 또는 스마트 폰인 경우를 예로 들어 설명하기로 한다.
일 실시 예에 의하면, 전자 장치(1000)는 대화형 인터페이스를 통해 사용자의 음성 입력을 수신하고, 사용자의 음성 입력에 대한 동작을 수행하는 장치일 수 있다. 대화형 인터페이스는 사용자로부터의 음성 입력을 수신하고, 사용자로부터의 음성 입력에 대한 응답을 제공하는 사용자를 위한 인터페이스일 수 있다. 일 실시예에 의하면, 대화형 인터페이스는 가상 비서(Virtual assistant), 인공지능 비서 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 가상 비서 또는 인공지능 비서는 사용자가 요구하는 작업을 처리하고 사용자에게 특화된 서비스를 제공하는 소프트웨어 에이전트일 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 음성 입력이 수신될 때, 사용자의 제스처(121, 122, 123)를 포함하는 영상과, 사용자의 제스처가 가리키는 방향에 기초하여 촬영된, 주변 환경 영상을 촬영할 수 있다. 일 실시 예에 의한 제스처(121, 122, 123)와 제스처(121, 122, 123)가 가리키는 방향에 존재하는 주변 환경은 하나의 영상에 함께 포함되어 촬영될 수도 있고, 각각 따로 촬영된 복수 개의 영상에 각각 포함될 수도 있다.
일 실시 예에 의한 제스처(121, 122, 123)는 사용자가 전자 장치(1000)에 입력을 인가하기 위한 다양한 형태의 움직임을 의미할 수 있다. 일 실시 예에 의한 제스처는, 사용자의 손, 발, 머리 등 다양한 부위의 움직임, 사용자의 시선, 사용자의 자세 등 사용자의 다양한 형태의 움직임을 포함할 수 있다.
일 실시 예에 따라 제스처(121, 122, 123)를 포함하여 촬영된 영상은, 사용자에 의해 수행된 제스처를 획득하는데 이용될 수 있다. 따라서, 일 실시 예에 의한 제스처(121, 122, 123)는, 촬영된 영상을 통해 획득되는 것에 한하지 않고, 다양한 방법에 따라 획득될 수 있다. 예를 들면, 일 실시 예에 의한 제스처(121, 122, 123)는, 제스처가 입력될 수 있는 다양한 수단으로서, 리모콘, 가속도 센서(Acceleration sensor), 기울기 센서(tilt sensor), 자이로 센서(Gyro sensor), 자기장 센서(3-axis Magnetic sensor), 스타일러스 펜 등에 의해 획득될 수도 있다.
일 실시 예에 따른 전자 장치(1000)의 주변 환경을 포함한 주변 환경 영상은, 전자 장치(1000)에서 획득된 제스처가 가리키는 방향에 기초하여 촬영될 수 있다. 예를 들면, 주변 환경 영상은, 제스처가 가리키는 방향에 존재하는 일 공간이 전자 장치(1000)에 의해 촬영됨으로써, 획득될 수 있다.
일 실시 예에 의한 전자 장치(1000)는 주변 환경 영상으로부터 음성 입력과 관련된 부가 정보를 추출함으로써, 음성 입력에 의해 전자 장치(1000)로 요청되는 정보인 요청 정보를 획득할 수 있다. 따라서, 일 실시 예에 의하면, 제스처가 가리키는 방향에 기초하여 촬영된 영상에 기초하여, 음성 입력에 의해 전자 장치(1000)로 요청된 정보가 명확하게 결정됨에 따라서, 사용자 의도에 맞는 동작이 수행될 수 있다.
일 실시 예에 의한 부가 정보는 상기 주변 환경 영상으로부터 추출될 수 있는 다양한 종류의 정보 중 음성 입력과 관련된 정보를 포함할 수 있다. 예를 들어, 음성 입력이 "이것(it)"의 상태를 묻는 질문을 포함하는 경우, 부가 정보는, 주변 환경 영상으로부터 추출된 "이것"에 관한 정보를 포함할 수 있다. 일 실시 예에 의한 부가 정보는, "이것"을 명확하게 식별하는데 이용될 수 있는 정보로서, 예를 들면, "이것"이 존재하는 위치에 관한 정보(ex. 거실 중앙의 1번 테이블 위, 또는 위치를 나타내는 좌표 값), "이것"과 대응되는 주변 환경 영상의 영역에 관한 정보 등을 포함할 수 있다. 따라서, 일 실시 예에 의한 전자 장치(1000)는, 부가 정보에 기초하여, 음성 입력에 의한 동작의 대상인, "이것"이 무엇인지를 명확하게 식별함으로써, 음성 입력에 대응하는 요청 정보를 생성할 수 있다.
일 실시 예에 의한 요청 정보를 생성하는데 있어서, 동작의 대상(ex. "이것")이 명확히 결정됨에 따라, 음성 입력에 대응하여 전자 장치(1000)에서 수행될 동작도 대상의 특징에 따라서 결정될 수 있다. 예를 들면, 동작의 대상이, 가전 제품인 경우, 동작은 가전 제품의 온오프 상태를 판단하는 것으로 결정될 수 있다. 또한, 동작의 대상이, 사람인 경우, 동작은, 사람에 대한 건강 상태를 검색하는 것으로 결정될 수 있다. 상술한 예에 한하지 않고, 동작의 대상에 따라 다양한 동작이 결정될 수 있다.
따라서, 일 실시 예에 의한 요청 정보는, 모호한 정보를 포함하는, 음성 입력과는 달리, 부가 정보에 기초하여 결정된, 전자 장치(1000)에서 수행될 동작 및 그 대상에 관한 구체적이고 명확한 정보를 포함할 수 있다.
일 실시 예에 의한 전자 장치(1000)는 요청 정보에 기초하여, 동작을 수행할 수 있다. 일 실시 예에 의한 요청 정보는, 영상의 부가 정보에 기초하여, 결정된 동작에 관한 정보를 포함할 수 있다. 따라서, 일 실시 예에 의하면, 음성 입력에 포함된 사용자의 요청이 명확하지 않은 경우에도, 제스처 및 제스처에 따라 촬영된 영상에 기초하여, 음성 입력에 대응하여 수행될 동작이 명확하게 결정될 수 있다.
도 2는 일 실시 예에 의한 제스처가 가리키는 방향에 따라 주변 환경 영상을 촬영하는 일 예를 나타낸 도면이다.
도 2를 참조하면, 일 실시 예에 의한 제스처가 가리키는 방향에 따라 촬영되는 주변 환경 영상은, 사용자가 바라보고 있는 일 공간 중에서, 사용자의 제스처가 가리키는 방향의 공간이 포함되도록 영상이 촬영됨으로써, 획득될 수 있다.
일 실시 예에 의하면, 음성 입력을 발화하는 사용자의 시선의 각도(210)에 관한 정보 및 자세(220)에 관한 정보에 기초하여, 사용자가 바라보고 있는 일 공간이 추측될 수 있다.
일 실시 예에 의한 시선의 각도(210)에 관한 정보는, 수평면을 기준으로, 사용자의 시선이 향하는 방향에 대한 각도(ex. 15도)를 나타낼 수 있다. 예를 들면, 시선의 각도(210)에 관한 정보는, 눈동자의 움직임, 또는 사용자의 얼굴 정면이 향하는 방향 등 사용자의 움직임으로부터 획득된 다양한 정보에 기초하여 획득될 수 있다. 일 실시 예에 의한 시선의 각도(210)에 관한 정보는, 제스처를 획득하기 위하여 사용자의 모습이 촬영된 영상에 기초하여 획득될 수 있다.
또한, 일 실시 예에 의한 자세(220)에 관한 정보는, 사용자의 자세를 나타내는 스켈레톤 정보를 포함할 수 있다. 예를 들면, 스켈레톤 정보는, 제스처를 획득하기 위하여 사용자의 모습이 촬영된 영상에 기초하여, 사용자의 관절 움직임이 추출됨으로써, 획득될 수 있다.
일 실시 예에 의하면 시선의 각도(210)에 관한 정보 및 자세(220)에 관한 정보에 기초하여, 사용자가 바라보고 있는 일 공간이 추측될 수 있다. 상술한 예에 한하지 않고, 사용자가 바라보고 있는 일 공간은, 다양한 방법을 통해 추측될 수 있다.
또한, 일 실시 예에 의한 제스처의 방향(230)에 관한 정보는 제스처를 획득하기 위하여 사용자가 촬영된 영상에 기초하여, 사용자의 손가락 끝이 가리키는 방향을 나타내는 정보를 포함할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 시선의 각도(210)에 관한 정보, 자세(220)에 관한 정보 및 제스처의 방향(230)에 관한 정보 등, 제스처와 관련된 사용자의 다양한 움직임에 관한 정보에 기초하여, 주변 환경 영상을 촬영할 수 있다. 예를 들어, 사용자의 다양한 움직임에 관한 정보에 기초하여, 사용자의 의도에 맞는 동작을 수행하는데 필요한 정보를 추출할 수 있는 일 공간을 포함하는 주변 환경 영상이 촬영될 수 있다.
도 3은 일 실시 예에 의한 주변 환경 영상이 촬영되는 일 예를 나타낸 도면이다.
도 3을 참조하면, 전자 장치(1000-1, 1000-2, 1000-3)는, 제스처가 가리키는 방향에 기초하여, 전자 장치(1000-1, 1000-2, 1000-3)의 주변 환경을 포함하는 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000-1, 1000-2, 1000-3)는, 도 1의 전자 장치(1000)와 대응되는 장치로서, 각각 스마트 글래스, 스마트 폰 또는 태블릿, 주행 로봇 등으로 구현될 수 있는 장치이다.
310을 참조하면, 전자 장치(1000-1)는 사용자의 제스처가 가리키는 방향에 기초하여, 311의 공간을 포함하는 영상을 촬영할 수 있다. 일 실시 예에 의한 전자 장치(1000-1)는, 스마트 글래스로서, 사용자의 머리에 착용되어, 사용자의 시선을 기준으로 하는, 1인칭 시점으로 영상을 촬영할 수 있다.
일 실시 예에 의한 전자 장치(1000-1)는, 전자 장치(1000-1)에 의해 촬영 가능한 공간인, 점선으로 나뉘어진 여러 공간 중 사용자의 제스처가 가리키는 방향과 대응되는 311의 공간을 포함하는 영상을 촬영함으로써, 전자 장치(1000-1)의 주변 환경을 포함하는 영상을 획득할 수 있다.
예를 들면, 전자 장치(1000-1)에 의해 촬영될 수 있는 공간 중, 사용자의 제스처가 가리키는 방향에 따라, 311의 공간에 대해 확대된 영상을 촬영함으로써, 전자 장치(1000-1)의 주변 환경을 포함하는 영상을 획득할 수 있다.
또한, 다른 예를 들면, 전자 장치(1000-1)에 구비된 복수 개의 카메라 중에서, 사용자의 제스처가 가리키는 방향에 따라, 311의 공간을 촬영할 수 있는 카메라에 의해, 전자 장치(1000-1)의 주변 환경을 포함하는 영상이 획득될 수 있다. 상술한 예에 한하지 않고, 전자 장치(1000-1)는, 다양한 방법을 통하여, 사용자의 제스처가 가리키는 방향에 따라, 311의 공간을 포함하는, 영상을 획득할 수 있다.
320을 참조하면, 전자 장치(1000-2)는 사용자의 제스처가 가리키는 방향에 기초하여 321의 공간을 포함하는 영상을 촬영할 수 있다. 일 실시 예에 의한 전자 장치(1000-2)는 태블릿 또는 스마트폰으로서, 사용자의 시점을 기준으로 하는 1인칭 시점으로 영상을 촬영할 수 있다.
일 실시 예에 의하면, 전자 장치(1000-2)에 의해 촬영될 수 있는 공간 중에서, 사용자의 제스처가 가리키는 방향에 따라, 321의 공간을 포함하는 영상을 촬영함으로써, 전자 장치(1000-2)의 주변 환경을 포함하는 영상을 획득할 수 있다.
예를 들면, 전자 장치(1000-2)는, 340에 도시된 예와 같이, 제스처(341)의 방향에 따라서, 제스처(341)가 가리키는 방향에 존재하는 오브젝트(342)가 포함되도록 주변 환경 영상을 촬영할 수 있다.
일 실시 예에 의하면, 사용자가 전자 장치(1000-2)에 가하는 움직임에 따라서, 촬영된 영상의 영역 중, 제스처가 가리키는 방향에 따라 설정된 일부 영역의 영상이, 주변 환경을 포함하는 영상으로 획득될 수 있다.
일 실시 예에 의한 사용자의 제스처는, 전자 장치(1000-2)에 구비된 카메라나, 다양한 센서에 의해 획득될 수 있으나, 이에 한하지 않고, 외부 장치(미도시)의 카메라나 센서에 의하여 획득될 수도 있다.
330을 참조하면, 전자 장치(1000-3)는 사용자의 제스처가 가리키는 방향에 기초하여 사용자의 제스처가 가리키는 일 공간인, 331의 공간을 포함하는 영상을 촬영할 수 있다. 일 실시 예에 의한 전자 장치(1000-3)는 로봇 청소기 또는 주행 로봇으로서, 외부의 시점인, 3인칭 시점으로 영상을 촬영할 수 있다.
일 실시 예에 의한 전자 장치(1000-3)는, 사용자의 모습을 촬영함으로써, 촬영된 영상으로부터 사용자의 제스처가 가리키는 방향에 관한 정보를 획득할 수 있다. 일 실시 예에 의한 제스처가 가리키는 방향에 관한 정보는, 사용자의 시선, 사용자의 자세, 사용자의 손가락이 가리키는 방향 등 영상으로부터 추출된 사용자의 다양한 움직임에 기초하여 획득될 수 있다.
따라서, 일 실시 예에 의한 전자 장치(1000-2)는, 전자 장치(1000-2)에 의해 촬영될 수 있는 공간 중에서, 사용자의 제스처가 가리키는 방향에 따라, 331의 공간을 포함하는 영상을 촬영함으로써, 전자 장치(1000-2)의 주변 환경을 포함하는 영상을 획득할 수 있다.
도 4 는 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.
도 5은 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.
도 4를 참조하면, 전자 장치(1000)는, 프로세서(1300), 출력부(1200) 및 A/V 입력부(1600)을 포함할 수 있다. 그러나, 도 4에 도시된 구성 요소 모두가 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 4에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 도 4에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있다.
예를 들면, 전자 장치(1000)는 도 5에 도시된 바와 같이, 일 실시예에 따른 전자 장치(1000)는, 프로세서(1300), 출력부(1200) 및 A/V 입력부(1600) 이외에 사용자 입력부(1100), 센싱부(1400), 통신부(1500), 출력부(1200) 및 메모리(1700)를 더 포함할 수도 있다.
사용자 입력부(1100)는, 사용자가 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
일 실시 예에 의하면, 사용자 입력부(1100)는, 제스처에 기초하여, 음성 입력을 처리하기 위한 사용자의 다양한 형태의 입력을 수신할 수 있다. 예를 들면, 사용자 입력부(1100)는, 제스처에 기초하여, 음성 입력을 처리하기 위한 사용자의 터치 입력 또는 키 입력을 수신할 수 있다. 상술한 예에 한하지 않고, 사용자 입력부(1100)는 다양한 형태의 사용자 입력을 수신할 수 있다.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.
디스플레이부(1210)는 전자 장치(1000)에서 처리되는 정보를 표시 출력한다. 일 실시 예에 의하면, 디스플레이부(1210)는 제스처에 기초하여, 음성 입력을 처리한 결과를 표시할 수 있다.
한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 전자 장치(1000)의 구현 형태에 따라 전자 장치(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다.
음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 일 실시 예에 의하면, 음향 출력부(1220)는 제스처에 기초하여, 음성 입력을 처리한 결과를 출력할 수 있다.
진동 모터(1230)는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다. 일 실시 예에 의하면, 진동 모터(1230)는 제스처에 기초하여, 음성 입력을 처리한 결과를 출력할 수 있다.
프로세서(1300)는, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다.
전자 장치(1000)는 적어도 하나의 프로세서(1300)를 포함할 수 있다. 예를 들면, 전자 장치(1000)는 CPU(Central Processing Unit), GPU(Graphics Processing Unit), NPU(Neural Processing Unit) 등의 다양한 종류의 프로세서를 포함할 수 있다.
프로세서(1300)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1700)로부터 프로세서(1300)에 제공되거나, 통신부(1500)를 통해 수신되어 프로세서(1300)로 제공될 수 있다. 예를 들면 프로세서(1300)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.
일 실시 예에 의한 프로세서(1300)는 음성 입력 및, 음성 입력과 대응되는 제스처를 획득하고, 제스처가 가리키는 방향에 기초하여, 전자 장치(1000)의 주변 환경을 포함하는 영상을 획득할 수 있다. 또한, 프로세서(1300)는 영상으로부터 음성 입력과 관련된 부가 정보를 추출할 수 있다. 일 실시 예에 의한, 부가 정보는, 음성 입력 처리를 위하여, 영상으로부터 추출될 수 있는 정보로, 예를 들면, 음성 입력과 대응하는 동작이 수행되는 대상(ex. 오브젝트, 일정 범위의 영역)을 명확하게 식별하기 위한 정보를 포함할 수 있다.
일 실시 예에 의한 프로세서(1300)는, 부가 정보에 기초하여, 음성 입력에 의해 전자 장치(1000)로 요청된 동작에 관한 요청 정보를 획득할 수 있다. 일 실시 예에 의한 요청 정보는, 음성 입력이 부정확한 경우에도, 영상으로부터 추출된 정보인 부가 정보에 기초하여 획득됨에 따라서, 동작을 수행하기 위한 명확한 정보를 포함할 수 있다. 일 실시 예에 의한 요청 정보는, 음성 입력과 대응되는 정보로서, 음성 입력에 포함된 정보 중 부정확한 정보가, 영상으로부터 추출된 부가 정보에 기초하여 대체된 명확한 정보를 포함할 수 있다.
일 실시 예에 의한 프로세서(1300)는, 요청 정보에 기초하여, 음성 입력을 처리하기 위한 동작을 수행할 수 있다.
센싱부(1400)는, 전자 장치(1000)의 상태 또는 전자 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다.
센싱부(1400)는, 지자기 센서(Geomagnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시 예에 의한 센싱부(1400)는, 다양한 센서에 의해 감지된 정보에 기초하여, 음성 입력과 대응되는 제스처를 획득하는데 이용될 수 있다.
통신부(1500)는, 전자 장치(1000)가 서버(2000) 또는 외부 장치(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(1510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 전자 장치(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.
일 실시 예에 의한, 통신부(1500)는 제스처에 기초하여 음성 입력을 처리하는데 필요한 다양한 데이터를 송수신할 수 있다. 예를 들어, 외부 장치(미도시)에 의해 음성 입력과 대응되는 제스처가 입력되는 경우, 통신부(1500)는 외부 장치(미도시)로부터 제스처 입력을 수신할 수 있다.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
일 실시 예에 의한 카메라(1610)는 음성 입력과 대응되는 제스처를 포함하는 영상을 촬영할 수 있다. 일 실시 예에 의하면, 카메라(1610)에 의해 촬영된 영상에 기초하여, 음성 입력과 대응되는 제스처가 획득될 수 있다.
또한, 일 실시 예에 의한 카메라(1610)는, 제스처가 가리키는 방향에 기초하여, 전자 장치(1000)의 주변 환경을 포함하는 영상을 촬영할 수 있다.
일 실시 예에 의한 마이크로폰(1620)은 사용자의 음성 입력을 수신할 수 있다. 일 실시 예에 의하면, 마이크로폰(1620)에 의해 사용자의 음성 입력이 감지됨에 따라서, 카메라(1610)에 의해 음성 입력과 대응되는 제스처를 포함하는 영상과, 제스처가 가리키는 방향에 기초하여, 전자 장치(1000)의 주변 환경을 포함하는 영상 중 적어도 하나의 영상이 촬영될 수 있다. 마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다.
일 실시 예에 의한 음성 입력, 제스처를 포함하는 영상 및 전자 장치(1000)의 주변 환경을 포함하는 영상 중 적어도 하나는, 전자 장치(1000)의 A/V 입력부(1600)에 의해 획득될 수 있으나, 이에 한하지 않고, 외부 장치(미도시)에 의해 획득되어, 통신부(1500)를 통해 수신될 수도 있다.
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다.
일 실시 예에 의한 메모리(1700)는 제스처에 기초하여, 음성 입력을 처리하는데 필요한 데이터를 저장할 수 있다. 예를 들면, 메모리(1700)는, 영상으로부터 음성 입력과 관련된 부가 정보를 추출하고, 부가 정보에 기초하여, 요청 정보를 획득하기 위하여, 미리 학습된 인공지능 모델을 저장할 수 있다.
일 실시 예에 의한 부가 정보를 추출하기 위한 인공지능 모델은, 영상으로부터 오브젝트 또는 일정 범위의 영역을 식별하고, 식별된 오브젝트 또는 일정 범위의 영역에 대한 위치 정보(ex. 좌표 값)를 획득함으로써, 부가 정보를 획득하는데 이용될 수 있다.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.
UI 모듈(1710)은, 애플리케이션 별로 전자 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 터치스크린의 터치를 감지하기 위한 센서의 일례로 촉각 센서가 있다. 촉각 센서는 사람이 느끼는 정도로 또는 그 이상으로 특정 물체의 접촉을 감지하는 센서를 말한다. 촉각 센서는 접촉면의 거칠기, 접촉 물체의 단단함, 접촉 지점의 온도 등의 다양한 정보를 감지할 수 있다.
사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.
알림 모듈(1730)은 전자 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.
도 6은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리하는 방법을 나타낸 순서도이다.
도 6을 참조하면, 단계 610에서, 일 실시 예에 의한 전자 장치(1000)는, 음성 입력 및 음성 입력과 대응되는 제스처를 획득할 수 있다. 일 실시 예에 의한 제스처는, 음성 입력을 발화하는 사용자에 의한 움직임에 기초하여 획득될 수 있다.
일 실시 예에 의한 제스처는, 사용자의 여러 신체 부위의 움직임뿐만 아니라, 사용자의 시선, 자세, 등 다양한 형태의 움직임에 기초하여, 획득될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보가 불명확한 경우에도, 제스처를 이용하여, 추가적인 정보를 획득함으로써, 사용자의 의도에 맞는 동작을 수행할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 음성 입력이 감지됨에 따라서, 음성 입력과 대응되는 제스처를 획득하기 위해, 사용자의 제스처를 포함한 영상을 촬영함으로써, 제스처를 획득할 수 있다. 상술한 예에 한하지 않고, 전자 장치(1000)는, 영상 촬영 이외 다양한 방법에 따라서, 사용자의 제스처를 획득할 수 있다.
단계 620에서, 일 실시 예에 의한 전자 장치(1000)는, 제스처의 방향에 기초하여, 주변 환경을 포함하는 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 제스처가 가리키는 방향에 따라, 음성 입력과 관련된 공간을 식별하고, 음성 입력과 관련된 공간을 포함하도록, 영상을 촬영할 수 있다.
단계 630에서, 일 실시 예에 의한 전자 장치(1000)는, 단계 620에서 촬영된 영상으로부터 음성 입력과 관련된 부가 정보를 추출할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 대해 음성 인식을 수행함으로써, 음성 입력과 대응되는 적어도 하나의 텍스트를 획득하고, 획득된 텍스트 중에서, 모호한 정보를 나타내는 텍스트를 판단할 수 있다. 일 실시 예에 의한 부가 정보는, 음성 입력에 포함된 모호한 정보를 명확히 하는데 이용될 수 있는 다양한 종류의 정보를 포함할 수 있다.
예를 들어, 음성 입력에 포함된 정보 중, 동작이 수행되는 대상이 "이것(this)" 또는 "저곳"과 같이 모호한 경우, 전자 장치(1000)는, 영상으로부터 동작이 수행되는 대상으로 판단되는 오브젝트 또는 영역을 결정하고, 결정된 오브젝트 또는 영역과 대응되는 식별 정보 및 위치 정보 중 적어도 하나를 부가 정보로서 추출할 수 있다.
단계 640에서, 일 실시 예에 의한 전자 장치(1000)는, 단계 630에서 추출된 부가 정보에 기초하여, 모호한 정보가 명확한 정보로 대체된 요청 정보를 획득할 수 있다. 예를 들어, 음성 입력과 대응되는 텍스트 중에서, "저곳"이 부가 정보에 포함된 정보인, "(저곳과 대응되는 위치 정보)"로 대체된, 요청 정보가 획득될 수 있다. 일 실시 예에 의한 요청 정보는, 음성 입력에 의해 전자 장치(1000)로 요청된 동작에 관한 정보를 포함할 수 있다.
따라서, 단계 650에서, 전자 장치(1000)는, 명확한 정보를 포함하는, 요청 정보에 기초하여, 음성 입력을 처리할 수 있다. 일 실시 예에 의한 요청 정보는, 모호한 정보가 사용자의 의도를 나타내는 제스처에 기초하여, 명확한 정보로 대체된 정보를 포함할 수 있다. 따라서, 일 실시 예에 의한 전자 장치(1000)는, 요청 정보에 기초하여, 사용자의 의도에 맞게 동작을 수행함으로써, 음성 입력을 처리할 수 있다.
도 7은 일 실시 예에 의한 제스처에 기초하여, 영상으로부터 요청 정보를 획득하는 일 예를 나타낸다.
도 7을 참조하면, 사용자의 제스처(710, 720, 730, 740)에 따라 획득된 영상에 기초하여, 음성 입력과 대응되는 요청 정보가 획득될 수 있다.
일 실시 예에 의하면, 사용자의 제스처(710)의 방향에 따라, 영상 중 711의 영역과 대응되는 영상이 획득될 수 있다. 음성 입력이 "이것이 무슨 색이지?(What color is it?)"인 경우, 음성 입력의 텍스트 중 "이것(it)"이 무엇인지 명확하지 않으므로, 711의 영상에 기초하여, "이것(it)"에 관한 식별 정보가 부가 정보로서 획득될 수 있다. "이것(it)"은, 상대적으로 근거리의 물체를 가리키는 표현이므로, 711의 영상에 포함된 오브젝트들 중, 상대적으로 가까운 "빨간 토마토"와 대응되는 식별 정보를 포함한 부가 정보에 기초하여, 요청 정보가 획득될 수 있다.
또한, 일 실시 예에 의한 음성 입력이 "저것이 무슨 색이지?(What color is it?)"인 경우, 음성 입력의 텍스트 중 "저것(that)"이 무엇인지 명확하지 않으므로, "저것(that)"이 711의 영상에 기초하여 "저것(that)"에 관한 식별 정보가 부가 정보로서 획득될 수 있다. "저것(that)"은 상대적으로 원거리의 물체를 가리키는 표현이므로, 711의 영상에 포함된 오브젝트들 중, 상대적으로 먼거리에 위치한 "노란 토마토"와 대응되는 식별 정보를 포함한 부가 정보에 기초하여, 요청 정보가 획득될 수 있다.
일 실시 예에 의하면, 각각의 제스처(720, 730, 740)의 방향에 따라, 영상 중 721, 731, 741의 영역과 각각 대응되는 영상이 획득될 수 있다. 음성 입력이 "그녀는 손에 얼마나 쥐고 있나?(How many she holds?)"인 경우, 음성 입력의 텍스트 중 "그녀(she)"가 무엇인지 명확하지 않으므로, 각각의 제스처가 가리키는 영역에 따라서, 음성 입력의 "그녀(she)"가 721, 731, 또는 741의 영상에 기초하여, "그녀(she)"에 관한 식별 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 제스처(720, 730, 740)에 대응하는 음성 입력의 "그녀(she)"는 각각 차례대로, 왼쪽에서 두번째, 세번째 및 네번째의 여자 아이를 나타내는 식별 정보를 포함한 부가 정보에 기초하여, 요청 정보가 획득될 수 있다.
도 8은 일 실시 예에 의한 제스처에 기초하여 주변 환경을 포함하는 영상을 획득하는 일 예를 나타내는 도면이다.
도 8을 참조하면, 810, 820 및 830에서, 각각의 제스처가 가리키는 방향에 존재하는 공간이 포함되도록 영상이 촬영될 수 있다.
810에서, 음성 입력으로, "이것은 뭐지?(What is this?)", "이건 램프야, 화분이야?(Is it a lamp or a plant?)", "이거 스위치가 켜져있나?(Is it switch on/off?)" 등이 음성 입력으로 수신될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "이것(this, it)"이 무엇인지 명확하지 않음에 따라, 주변 환경이 촬영된 영상으로부터, "이것(this, it)"과 대응될 수 있는 오브젝트(811)의 식별 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "이것(this, it)"이 오브젝트(811)의 식별 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.
820에서, 음성 입력으로, "얼마나 많은 사람이 여기 있지?(How many people is here?)", "이 사람들은 남자인가?(These people are men?)", "이 사람들은 뭘 하고 있지?(What these people doing?)" 등이 음성 입력으로 수신될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중 "여기(here)"과 "이 사람들(these people)"가 무엇인지 명확하지 않음에 따라서, 주변 환경이 촬영된 영상으로부터, "여기(here)"와 대응되는 영상의 영역을 나타내는 식별 정보와, "이 사람들(these people)"와 대응되는 오브젝트들(821, 822)의 식별 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "여기(here)"과 "이 사람들(these people)"가 각각 영상 영역의 식별 정보와 오브젝트들(821, 822)의 식별 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.
820에서, 음성 입력으로, "그는 어디에 앉아있지?(Where is he sitting?)", "그녀의 가방은 어디있지?(Where is she's bag?)" 등이 음성 입력으로 수신될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "그(he)"와 "그녀(she)"이 무엇인지 명확하지 않음에 따라, 주변 환경이 촬영된 영상으로부터, "그(he)" 및 "그녀(she)"와 각각 대응될 수 있는 822 및 821의 오브젝트들에 대한 식별 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "그(he)" 및 "그녀(she)"가 822 및 821의 오브젝트들을 나타내는 식별 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.
830에서, 음성 입력으로, "이 사람들은 부모인가?(These people are parents?)" 및 "이 사람들은 바쁜가?(Is they are busy?)" 등이 음성 입력으로 수신될 수 있다. 일 실시 예에 의하면, 주변 환경 영상은, 제스처의 방향에 따라 841 및 842의 오브젝트가 포함되도록 촬영될 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "이 사람들(these, they)"가 무엇인지 명확하지 않음에 따라, 주변 환경이 촬영된 영상으로부터, "이 사람들(these, they)"와 대응될 수 있는 831 및 832의 오브젝트에 대한 식별 정보가 부가 정보로서 획득될 수 있다. 다만, 제스처의 방향에 따라서, 부가 정보의 획득에서, 843의 오브젝트는 제외될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "이 사람들(these, they)"가 831 및 832의 오브젝트들을 나타내는 식별 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.
도 9는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리하는 일 예를 나타낸 도면이다.
도 9를 참조하면, 910에서, 사용자의 제스처가 이동하면서 입력됨에 따라, 주변 환경 영상이, 이동하는 제스처가 각각 가리키는 방향의 공간을 포함하도록, 촬영될 수 있다.
일 실시 예에 의하면, 음성 입력으로 "여기 청소해(Clean here)"가 수신되었을 때, 음성 입력과 대응되는 제스처가 가리키는 방향에 따라서, 911의 공간을 포함하는 주변 환경 영상이 촬영될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "여기(here)"가 무엇인지 명확하지 않음에 따라, 주변 환경이 촬영된 영상으로부터, "여기(here)"와 대응될 수 있는 911 공간에 대한 위치 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "여기(here)"가 911 공간에 대한 위치 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.
또한, 일 실시 예에 의하면, 제스처가 이동하면서, 음성 입력으로 "여기는?(Here?)"가 수신되었을 때, 음성 입력과 대응되는 제스처가 각각 가리키는 방향에 따라서, 912 및 913의 공간을 포함하는 주변 환경 영상이 촬영될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "여기는?(Here?)"가 무엇인지 명확하지 않음에 따라, 주변 환경이 촬영된 영상으로부터, "여기는?(Here?)"와 대응될 수 있는 912 및 913 공간에 대한 위치 정보가 부가 정보로서 획득될 수 있다. 일 실시 예에 의하면, 부가 정보에 기초하여, 음성 입력의 "여기는?(Here?)"가 912 및 913 공간에 대한 위치 정보로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.
일 실시 예에 의하면, 920에서, 사용자의 제스처에 따라서, 주변 환경 영상으로부터 부가 정보가 획득될 수 있다. 음성 입력으로 "볼륨을 이정도로?(Volume like that?)"이 수신된 경우, 제스처가 가리키는 방향에 따라 오브젝트(920)를 포함하는 주변 환경 영상이 촬영될 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "이정도(that)"이 무엇인지 명확하지 않음에 따라, "이정도(that)"과 관련된 대상으로서, 주변 환경이 촬영된 영상에 포함된 오브젝트(920)에 관한 식별 정보(ex. 거실TV)가, 부가 정보로서 획득될 수 있다.
일 실시 예에 의하면, 부가 정보에 기초하여, "이정도(that)"이 오브젝트(920)에 대해 수행될 수 있는 동작과 관련된 정보를 나타내는 것으로 판단될 수 있다. 예를 들면, 미리 설정된 화살표 방향으로 손가락을 움직이는 제스처에 대응되는 동작에 따라서, 920의 제스처는 음량 크기를 조절하는 동작인 것으로 판단될 수 있다. 따라서, "이정도(that)"이 제스처와 대응되는 음량 크기를 나타내는 값으로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.
일 실시 예에 의하면, 930에서, 사용자의 제스처에 따라서, 주변 환경 영상으로부터 부가 정보가 획득될 수 있다. 음성 입력으로 "이런 피자 주문해(Order that pizza?)"가 수신된 경우, 제스처가 가리키는 방향에 따라 오브젝트(931)를 포함하는 주변 환경 영상이 촬영될 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 음성 입력에 포함된 정보 중, "이런(that)"이 무엇인지 명확하지 않음에 따라, "이런(that)"과 관련된 대상으로서, 주변 환경이 촬영된 영상에 포함된 오브젝트(931)에 관한 식별 정보가, 부가 정보로서 획득될 수 있다.
일 실시 예에 의하면, 부가 정보에 기초하여, "이런(that)"이 오브젝트(931)에 대하여, 수행될 수 있는 동작과 관련된 정보를 나타내는 것으로 판단될 수 있다. 예를 들면, 미리 설정된 화살표 방향으로 손을 움직이는 제스처에 대응되는 동작에 따라서, 930의 제스처는 피자를 나타내는 것으로 판단될 수 있다. 따라서, "이런(that)"이 제스처와 대응되는 "피자"로 대체된, 요청 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.
도 10은 일 실시 예에 의한 제스처의 일 예를 나타낸 도면이다.
도 10을 참조하면, 적어도 하나의 제스처에 대해 음성 입력 중 미리 설정된 텍스트와 대응되도록 미리 설정 수 있다. 예를 들어, 일 실시 예에 의한 제스처는 아래 표 1과 같은 텍스트들로 미리 설정될 수 있다.
전치 한정사 지시대명사 소유대명사 수량사
모두(all, all of), 반(half), 둘다(both), 두개(double, twice), 꽤(quite), 보다(rather), 이런(such), 어떤(what) 등 이것(this, these, that, those) 나의(my), 우리의(our), 너의(your), 그의(his), 그녀의(her), 그것의(its), 그들의(their) 많은(much), 적은(some), 없음(no), 어떤(any), 많이(many), 충분(enough), 몇몇의(several), 많은(lot of, plenty of), 적은(little, few), 모두(all), 둘다(both), 다른(another), 등
1010 내지 1040은, 모두 손으로 어떤 대상을 포인팅하는 제스처로서, 음성 입력에 포함된 텍스트 중에서, 표 1의 전치 한정사, 지시 대명사 및 소유 대명사에 해당되는 텍스트와 대응되는 제스처로 미리 설정될 수 있다. 따라서, 1010 내지 1040의 제스처들은 전치 한정사, 지시 대명사 및 소유 대명사로 표현될 수 있는, 대상을 가리키기 위한 제스처로서 이용될 수 있다.
1050 및 1060은, 각각 고개의 방향 및 시선의 방향으로서 표현될 수 있는 제스처로서, 1010 내지 1040과 마찬가지로, 표 1의 전치 한정사, 지시 대명사 및 소유 대명사에 해당되는 텍스트와 대응되는 제스처로 미리 설정될 수 있다. 따라서, 1050 및 1060의 제스처들은 전치 한정사, 지시 대명사 및 소유 대명사로 표현될 수 있는, 대상을 가리키기 위한 제스처로서 이용될 수 있다.
1070 내지 1080은, 화살표 방향에 따라 손이 이동함으로써 표현될 수 있는 제스처로서, 표 1의 수량사에 해당되는 텍스트와 대응되는 제스처로 미리 설정될 수 있다. 따라서, 1070 내지 1080의 제스처들은 수량을 나타내기 위한 제스처로서 이용될 수 있다.
도 11은 일 실시 예에 의한 영상으로부터 음성 입력과 대응되는 요청 정보를 획득하는 일 예를 나타낸 도면이다.
도 11을 참조하면, 1110에서, 일 실시 예에 의한 전자 장치(1000)는, 영상으로부터 추출된 정보에 기초하여, 음성 입력과 대응되는 적어도 하나의 텍스트를 대체함으로써, 요청 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 음성 입력과 대응되는 적어도 하나의 텍스트인, "어린이가 어디에 앉아 있지?(Where is the child sitting?)" 중에서, 영상에 기초하여, 대체할 텍스트 부분인 "어린이(child)"(1114)를 검출할 수 있다. 예를 들면, 적어도 하나의 텍스트 중에서, 음성 입력과 대응되는 동작이 수행될 대상을 나타내는 텍스트가, 영상에 기초하여 대체될 텍스트 부분으로 검출될 수 있다. 상술한 예에 한하지 않고, 다양한 기준 및 방법에 따라서, 영상에 기초하여 대체될 텍스트 부분이 검출될 수 있다.
일 실시 예에 의한 전자 장치(1000)는 영상에서 적어도 하나의 오브젝트(1111, 1112, 1113)를 검출할 수 있다. 또한, 전자 장치(1000)는 검출된 각각의 오브젝트(1111, 1112, 1113)에 대한 특징을 분석한 결과 및 제스처가 가리키는 방향 중 적어도 하나에 기초하여, "어린이(child)"(1114)와 대응되는 오브젝트(1111)를 결정할 수 있다.
1120에서, 전자 장치(1000)는, "어린이(child)"(1114)와 대응되는 오브젝트(1111)에 기초하여, "어린이(child)"(1114)를 오브젝트(1111)와 대응되는 정보를 가지는 "그(he)"(1121)로 대체함으로써, 요청 정보를 획득할 수 있다. 일 실시 예에 의하면 전자 장치(1000)는 텍스트에 대한 처리가 용이하도록, "어린이(child)"(1114)를 더 간단한 표현인 "그(he)"(1121)로 대체할 수 있다. 상술한 예에 한하지 않고, 오브젝트(1111)와 대응되는 텍스트는, 오브젝트(1111)에 기초하여 다양한 표현으로 대체될 수 있다.
따라서, 일 실시 예에 의한 요청 정보는, 적어도 하나의 텍스트뿐만 아니라, 영상에서, 텍스트와 대응되는 오브젝트(1111)의 영역에 관한 정보를 더 포함할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 음성 입력과 대응되는 요청 정보에 기초하여, 영상으로부터 추출된 특징을 분석함으로써, 음성 입력을 처리할 수 있다.
도 12는 제스처에 기초하여 음성 입력을 처리하는 일 예를 나타낸 도면이다.
도 12를 참조하면, 일 실시 예에 의한 전자 장치(1000)는, 주변 환경을 포함하는 적어도 하나의 영상(1202)과, 음성 입력과 대응되는 텍스트를 포함하는 요청 정보(1201), 및 제스처(1203)에 관한 정보에 기초하여, 음성 입력을 처리하는 동작을 수행할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 주변 환경을 포함하는 영상을 이용하여, 상기 음성 입력을 처리하는 동작을 수행할 수 있다. 다만, 일 실시 예에 의한 전자 장치(1000)는, 상기 음성 입력을 처리하는데 필요한 정보를 더 획득하기 위해서, 상기 영상과는 다른 장면을 포함하는, 전자 장치(1000)의 주변 환경을 포함한 영상을, 추가적으로 획득할 수 있다. 따라서, 일 실시 예에 의한 전자 장치(1000)는, 제스처에 따라 획득된 영상뿐만 아니라, 상기 영상과는 다른 장면을 포함하는, 추가적으로 획득된 영상을 더 이용하여, 음성 입력을 처리하는 동작을 수행할 수 있다.
일 실시 예에 의한 전자 장치(1000)는 요청 정보에 기초하여, 추가적인 영상을 더 획득할 지 여부를 판단할 수 있다. 예를 들어, 요청 정보에 포함된 동작의 대상 중 주변 환경 영상에 포함되어 있지 않은 대상이 존재하는 것으로 판단된 경우, 상기 대상을 포함하는 추가적인 영상이 더 획득됨으로써, 음성 입력이 처리될 수 있다.
상술한 예에 한하지 않고, 전자 장치(1000)는, 다양한 방법으로 획득된 적어도 하나의 주변 환경의 영상(1202)과, 음성 입력과 대응되는 요청 정보(1101)에 기초하여, 음성 입력을 처리할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 요청 정보(1201)의 적어도 하나의 텍스트로부터 추출된 텍스트 특징과, 상기 요청 정보(1201)와 대응되는 영상으로부터 추출된 영상 특징에 기초하여, VQA(Visual Question Answering) 기술을 이용함으로써, 상기 요청 정보(1201)에 대한 응답을 추출할 수 있다.
예를 들면, VQA 기술에 따라, 전자 장치(1000)는, 요청 정보(1201)의 텍스트로부터 추출된 텍스트 특징 및 적어도 하나의 영상(1202)으로부터 추출된 영상 특징에 기초하여, 상기 요청 정보(1201)에 대응하는 결과 값을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는 텍스트 및 영상(1202)으로부터 추출된 특징들을 VQA 기술에 따라서 결합(fusion)함으로써, 요청 정보(1201)에 대한 응답을 획득할 수 있다.
상술한 예에 한하지 않고, 전자 장치(1000)는, VQA 기술 이외의 다양한 방법에 따라서, 요청 정보(1201) 및 영상(1202)에 기초하여, 요청 정보(1201)에 대응하는 응답 정보를 획득할 수 있다.
일 실시 예에 의하면, 1221로 입력되는 요청 정보(1201)는, 적어도 하나의 텍스트를 포함할 수 있다. 또한, 요청 정보(1201)가 텍스트가 아닌 정보를 포함하는 경우, 상기 정보가 텍스트로 변환되거나 삭제된 후, 1221로 입력될 수 있다.
예를 들어, 요청 정보(1201)가, 동작 대상과 관련된 주변 환경 영상의 영역에 관한 정보를 포함하는 경우, 상기 정보는 삭제되고, 1211에 1202 영상 전체의 영역 대신에, 동작 대상과 관련된 주변 환경 영상의 영역과 대응되는 영상이 입력될 수 있다. 따라서, 일 실시 예에 의하면 요청 정보(1201)가 텍스트가 아닌 정보를 포함하는 경우, 상기 정보를 요청 정보(1201)에서 삭제하고, 1211에 입력되는 영상에 상기 정보를 반영하여 입력시킴으로써, VQA 기술에 따라 1221 및 1222에서, 텍스트 특징 추출 및 영상 특징 추출이 수행될 수 있다.
또한, 동작 대상과 관련된 주변 환경 영상의 영역에 관한 정보가 변환된 텍스트가 요청 정보(1201)에 음성 명령으로서, 포함됨으로써, 1221에 요청 정보(1201)가 입력될 수 있다. 예를 들어, 요청 정보(1201)의 음성 명령에서, 텍스트로 표현된 동작 대상의 위치 정보가 삽입됨으로써, 텍스트가 아닌 정보가 텍스트로 변환된 후 처리될 수 있다.
또한 일 실시 예에 의하면, 1221에 요청 정보(1201) 대신, 사용자의 음성 명령이 직접 입력될 수도 있다. 예를 들면, 이하 VQA 기술에 따라서, 결합된 특징을 추출(1224)하여, 결과를 출력(1231)하는 동작에서, 영상 특징으로부터 획득된 정보에 기초하여, 텍스트 특징이 보정될 수 있고, 영상 특징 및 보정된 텍스트 특징에 기초하여, 1224에서, 결합된 특징이 추출될 수 있다.
일 실시 예에 의한 요청 정보(1201)의 텍스트 중에서, 텍스트 특징이 추출될 텍스트가 식별될 수 있다. 예를 들어, 텍스트 중, 질문 또는 명령문의 특징을 가지는 텍스트가, 미리 학습된 미리 학습된 인공지능 모델(ex. RNN)에 의하여, 결정할 수 있다.
일 실시 예에 의하면, 질문 또는 명령문의 특징을 가지는 텍스트에 대하여, 결합된 특징에 기초한 응답 정보가 생성될 수 있도록, 요청 정보(1201)로부터 획득될 수 있다. 상술한 예에 한하지 않고, 요청 정보(1201)의 텍스트에 기초하여, 다양한 방법에 따라서 응답 정보가 생성될 수 있다.
1221 내지 1224에서, 일 실시 예에 의한 전자 장치(1000)는, 영상(1202) 및 요청 정보(1201)의 텍스트로부터 검출된 특징들을 결합함으로써, 요청 정보(1201)에 대한 응답 정보를 획득할 수 있다.
1221에서, 일 실시 예에 의한 전자 장치(1000)는, 요청 정보(1201)의 적어도 하나의 텍스트로부터 텍스트 특징을 추출할 수 있다.
1211에서, 일 실시 예에 의한 전자 장치(1000)는, 영상(1202)에서 요청 정보(1201)를 처리하기 위한 오브젝트를 검출할 수 있다. 일 실시 예에 의한 요청 정보(1201)는, 적어도 하나의 텍스트를 포함할 수 있으며, 각각의 텍스트와 대응되는 오브젝트 영역의 영상 특징에 기초하여, 결합된 특징이 추출될 수 있다.
예를 들면, 전자 장치(1000)는, 도 11에 따라, 영상(1202)에서, 요청 정보(1201) 중, 상기 텍스트 특징이 추출된 적어도 하나의 텍스트와 대응되는 오브젝트를 포함하는 영역을 검출할 수 있다.
상술한 예에 한하지 않고, 영상(1202)으로부터 오브젝트를 검출하기 위하여 미리 학습된 인공지능 모델(ex. Faster R-CNN(Region of Convolutional Neural Network))에 의해 적어도 하나의 오브젝트가 검출될 수도 있다.
1222에서, 일 실시 예에 의한 전자 장치(1000)는, 1211에서 검출된 오브젝트의 영역으로부터 영상 특징을 추출할 수 있다. 예를 들면, 전자 장치(1000)는 영상 영역으로부터 영상 특징을 추출하기 위하여 미리 학습된 인공지능 모델(ex. RNN)을 이용하여, 오브젝트를 포함하는 영상 영역으로부터 여러가지 특징들을 추출할 수 있다.
1212에서, 일 실시 예에 의한 전자 장치(1000)는 영상(1202) 및 1211에서 검출된 오브젝트와 대응되는 제스처를 획득할 수 있다. 일 실시 예에 의하면 1223에서, 제스처의 종류에 따라, 특징 결합 시 요청 정보(1201) 및 오브젝트에 각각 적용될 가중치 값이 결정될 수 있다.
예를 들어, 제스처가, 도 10의 1010 내지 1060과 같이, 단순히, 영상(1202)의 오브젝트를 가리키는 포인팅 제스처인 경우, 1221의 텍스트 특징에 대한 가중치가 더 높게 결정될 수 있다. 반면, 제스처가, 도 10의 1070 내지 1090과 같이, 영상(1202)의 오브젝트와 관련성이 있는 정보를 포함하는 제스처, 예를 들어, 도 10의 1070, 1080, 1090의 제스처와 같이, 제스처 자체에 동작과 관련된 정보(ex. 수량, 형태 정보)를 포함하는 제스처인 경우, 1222에서 획득된 영상 특징에 대한 가중치가 더 높게 결정될 수 있다.
상술한 예에 한하지 않고, 일 실시 예에 의하면, 영상 특징 및 텍스트 특징에 대해, 제스처에 기초하여 다양한 방법으로 결정된 가중치가 적용된 후, 결합된 특징이 추출될 수 있다.
1224에서, 일 실시 예에 의한 전자 장치(1000)는 가중치가 적용된 영상 특징 및 텍스트 특징으로부터, 결합된 특징을 추출할 수 있다. 일 실시 예에 의한 전자 장치(1000)는 제스처에 기초하여, 영상 특징 중 제스처가 가리키는 영역과 대응되는 영역의 영상 특징으로부터 결합된 특징이 추출될 수도 있다.
예를 들어, 1211에서 검출된 오브젝트의 영역이 넓은 경우, 오브젝트의 영역 중 제스처가 가리키는 일부 영역에 포함된 영상 특징에 기초하여, 결합된 특징이 추출될 수 있다. 상술한 예에 한하지 않고, 가중치가 적용된 영상 특징 및 텍스트 특징으로부터, 다양한 방법에 따라 결합된 특징이 추출될 수 있다.
1231에서, 일 실시 예에 의한 전자 장치(1000)는, 결합된 특징에 기초하여, 요청 정보(1201)에 대한 응답 정보를 음성 입력을 처리한 결과로서 출력할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)의 사용자에 대한 상황(context)에 관한 정보, 예를 들면, 사용자의 특징, 선호도, 상태 등에 관한 정보에 더 기초하여, 상기 결합된 특징에 따라 상기 음성 입력이 처리된 결과인 응답 정보가 출력될 수 있다.
도 13은 일 실시 예에 의한 제스처에 기초하여, 영상을 획득함으로써, 음성 입력을 처리하는 일 예를 나타내는 도면이다.
도 13의 1310은, 전자 장치(1000)에 의해, 제스처(1311)와 전자 장치(1000)의 주변 환경이 촬영된 영상을 나타낸 것이다. 일 실시 예에 의하면, 제스처(1311)의 손가락이 가리키는 방향에 따라서, 영상 중 1312의 영역에 기초하여, 음성 입력이 처리될 수 있다. 예를 들면, 1312의 영상 영역에 기초하여 추출된 부가 정보에 기초하여 획득된 요청 정보에 따라서, 음성 입력이 처리될 수 있다. 또한, 요청 정보 및 1312의 영상 영역에 기초하여, VQA 기술에 따라 응답 정보가 획득됨으로써, 음성 입력이 처리될 수 있다.
1320은, 전자 장치(1000)에 의해, 제스처(1321)와 전자 장치(1000)의 주변 환경이 촬영된 영상을 나타낸 것이다. 일 실시 예에 의하면, 음성 입력(1323)에 대하여, 제스처(1321)의 손가락이 가리키는 방향에 따라서, 영상에 포함된 오브젝트(1322)가 음성 입력과 관련된 오브젝트로서 추출될 수 있다. 일 실시 예에 의하면, 오브젝트(1322)에 관한 정보에 따라서, 부가 정보가 추출될 수 있고, 부가 정보에 기초하여, 음성 입력(1323)과 대응되는 요청 정보가 획득될 수 있다. 또한, 요청 정보 및 추출된 오브젝트(1322)를 포함하는 영상 영역에 기초하여, VQA 기술에 따라 응답 정보가 획득됨으로써, 음성 입력(1323)이 처리될 수 있다.
1330은, 전자 장치(1000)에 의해, 제스처(1334)와 전자 장치(1000)의 주변 환경이 촬영된 영상을 나타낸 것이다. 일 실시 예에 의하면, 음성 입력(1331)에 대하여, 제스처(1334)의 손가락이 가리키는 방향(1335)에 따라서, 영상에 포함된 오브젝트(1333)가 음성 입력과 관련된 오브젝트로서 추출될 수 있다. 또한, 전자 장치(1000)에 대한 사용자의 터치 입력에 따라서, 상기 영상에서, 음성 입력(1331)과 관련된 ROI(region of interest) 영역이 추가적으로 설정될 수 있다. 따라서, 상기 오브젝트(1333)는 제스처의 방향(1335)뿐만 아니라 추가적으로 설정된 ROI 영역에 기초하여, 전자 장치(1000)에 의해 촬영된 영상에서 식별될 수 있다. 일 실시 예에 의하면, 오브젝트(1333)에 관한 정보에 따라서, 부가 정보가 추출될 수 있고, 부가 정보에 기초하여, 음성 입력(1331)과 대응되는 요청 정보가 획득될 수 있다. 또한, 요청 정보 및 추출된 오브젝트(1333)를 포함하는 영상 영역에 기초하여, VQA 기술에 따라 응답 정보가 획득됨으로써, 음성 입력(1331)이 처리될 수 있다. 일 실시 예에 의한 응답 정보에 따른 결과(1336)는, 1330에 도시된 예와 같이, 오브젝트(1333)에 대하여, 전자 장치(1000)에서 출력될 수 있다.
도 14는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 14를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1404)을 수신함에 따라서, 사용자의 시선 및 손가락이 향하는 방향에 기초한 제스처(1401, 1402)를 획득할 수 있다. 도 14의 전자 장치(1000)는, 가게 내부를 이동하면서, 손님 안내를 수행할 수 있는 주행 로봇일 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1401, 1402)가 가리키는 방향에 따라서 음성 입력(1404)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 획득된 영상에 기초하여 사용자의 음성 입력(1404)을 처리할 수 있다.
예를 들면, 전자 장치(1000)는, 사용자의 음성 입력(1404)에 따라서, 사용자의 제스처(1401, 1402)가 가리키는 방향에 존재하는 손님들의 모습(1403)을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력(1404) 중 "저기 손님들(those customers)"와 대응되는 오브젝트 영역으로서, 손님들의 모습(1403)을 포함하는 영상 영역을 획득할 수 있다. 따라서, 전자 장치(1000)는 상기 영상 영역으로부터 획득된 정보에 기초하여, 요청 정보를 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 요청 정보에 따라서, 손님들의 위치(1403)로 이동하여, 손님 접대를 위한 동작을 수행할 수 있다.
도 15는 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 주변 환경 정보를 획득하는 일 예를 나타낸 도면이다.
도 15를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1503)을 수신함에 따라서, 사용자의 시선 및 손가락이 향하는 방향에 기초한 제스처(1501, 1502)를 획득할 수 있다. 도 15의 전자 장치(1000)는, 집 내부를 이동하면서, 다양한 정보를 수집할 수 있는 주행 로봇일 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1501, 1502)가 가리키는 방향에 따라서 음성 입력(1503)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 획득된 영상에 기초하여 사용자의 음성 입력(1503)을 처리할 수 있다.
예를 들면, 전자 장치(1000)는, 사용자의 음성 입력(1503)에 따라서, 사용자의 제스처(1501, 1502)가 가리키는 방향에 존재하는 사람(1504)을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력(1503) 중 "아들 프레디(son Freddy)"와 대응되는 오브젝트 영역으로서, 아기(1504)를 포함하는 영상 영역을 획득할 수 있다. 예를 들면, 전자 장치(1000)는, 음성 입력(1503) 중 "아들 프레디(son Freddy)"가 발화될 때, 사용자의 제스처(1501, 1502)가 가리키는 방향에 따라서, 아기(1504)를 포함하는 영상을 획득할 수 있다. 따라서, 전자 장치(1000)는 상기 영상으로부터 획득된 정보에 기초하여, 요청 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 요청 정보에 따라서, 사용자의 음성 입력(1503)에 따른, 정보를 수집하는 동작을 수행할 수 있다. 예를 들면, 전자 장치(1000)는 사용자의 음성 입력(1503)에 따라서, 아기(1504)를 포함하는 영상으로부터 추출된 정보를 수집하는 동작을 수행할 수 있다.
도 16은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 정보를 수집하고, 수집된 정보에 기초하여 동작을 수행하는 일 예를 나타낸 도면이다.
도 16을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1604, 1606)을 수신함에 따라서, 사용자의 시선 및 손가락이 향하는 방향에 기초한 제스처(1602, 1603)를 획득할 수 있다. 도 16의 전자 장치(1000)는, 집 내부를 이동하면서, 다양한 정보를 수집할 수 있는 주행 로봇일 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1602, 1603)가 가리키는 방향에 따라서 음성 입력(1604, 1606)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 획득된 영상에 기초하여 사용자의 음성 입력(1604, 1606)에 따라, 주변 환경에 관한 정보를 수집할 수 있다.
예를 들면, 전자 장치(1000)는, 사용자의 음성 입력(1604, 1606)에 따라서, 사용자의 제스처(1602, 1603)가 가리키는 방향에 존재하는 물체들(1605, 1607)을 각각 포함하도록 촬영된 영상들을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 영상에 기초하여, 부가 정보를 추출하고, 추출된 부가 정보에 기초하여, 음성 입력(1604, 1606)에 포함된 "이것(this)"와 대응되는 물체(1605, 1607)에 관한 정보를 요청 정보로서, 획득할 수 있다. 일 실시 예에 의하면, 요청 정보에 기초하여, 음성 입력(1604, 1606)을 처리할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 음성 입력(1604)에 따라, 영상에 포함된 물체(1605)가 "위험(dangerous)"한 물체인 것으로 미리 저장해두는 동작을 수행함으로써, 음성 입력(1604)을 처리할 수 있다. 또한, 전자 장치(1000)는, 사용자의 음성 입력(1606)에 따라, 영상에 포함된 물체(1607)가 "장난감(toy)"인 것으로 미리 저장해두는 동작을 수행함으로써, 음성 입력(1606)을 처리할 수 있다.
1611에서, 전자 장치(1000)는, 1601의 사용자의 음성 입력(1604, 1606)에 따라 미리 저장해둔 물체들(1605, 1607)에 관한 정보에 기초하여, 동작을 수행할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 미리 저장한 물체들(1605, 1607)에 관한 정보에 기초하여, 주변 환경을 촬영한 영상에서, 미리 저장한 물체들(1605, 1607)을 감지함에 따라, 동작을 수행할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 미리 저장한 물체 중 "위험"한 물체로 저장된 물체(1605)가 감지됨에 따라서, 감지된 물체(1605)에 기초한 동작을 수행할 수 있다. 예를 들어, 전자 장치(1000)는, "위험"한 물체(1605)와 함께 아기(1612)가 감지된 경우, "위험"한 물체(1605)와 아기(1612)가 가까이에 있음을 사용자에게 알리는 동작을 수행할 수 있다. 또한, 전자 장치(1000)는, 촬영된 영상으로부터 아기(1612)의 행동을 분석하여, 아기(1612)가 현재 위험한 상태인지 여부를 사용자에게 알리는 동작을 추가적으로 수행할 수 있다.
또한, 일 실시 예에 의한 전자 장치(1000)는, 미리 저장한 물체 중 "장난감"으로 저장된 물체(1607)가 감지됨에 따라서, 감지된 물체(1607)에 기초한 동작을 수행할 수 있다. 예를 들어, 전자 장치(1000)는, "장난감"으로 저장된 물체(1607)와 함께 아기(1613)가 감지된 경우, "장난감"으로 저장된 물체(1607)와 아기(1613)가 가까이에 있음을 사용자에게 알리는 동작을 수행할 수 있다. 또한, 전자 장치(1000)는, 촬영된 영상으로부터 아기(1613)의 행동을 분석하여, 아기(1613)의 현재 상태에 관한 정보 사용자에게 알리는 동작을 추가적으로 수행할 수 있다.
도 17은 일 실시 예에 의한 제스처에 기초하여 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 17을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1703)을 수신함에 따라서, 사용자의 시선 및 손가락잉 향하는 방향에 기초한 제스처(1701, 1702)를 획득할 수 있다. 도 17의 전자 장치(1000)는, 집 내부를 이동하면서, 다양한 정보를 수집할 수 있는 주행 로봇일 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1701, 1702)가 가리키는 방향에 따라서, 음성 입력(1703)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처가 가리키는 영역(1704)이 포함되도록 영상을 촬영할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 획득된 영상에 기초하여 사용자의 음성 입력(1703)에 따라, 동작을 수행할 수 있다.
예를 들면, 전자 장치(1000)는 제스처가 가리키는 영역(1704)을 포함하는 영상에 기초하여, 음성 입력(1703) 중 "여기(this)" 및 "이곳(here)"와 대응되는 영역(1704)에 관한 위치 정보를 부가 정보로서 획득할 수 있다. 따라서, 전자 장치(1000)는, 상기 부가 정보에 기초하여, "여기(this)" 및 "이곳(here)"과 대응되는 위치 정보를 포함하도록 요청 정보를 생성하고, 요청 정보에 기초하여, 동작을 수행할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 요청 정보에 따라, 영역(1704)에 대한 동작을 수행할 수 있다.
또한, 일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1707, 1708)가 가리키는 방향에 따라서, 음성 입력(1705)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처가 가리키는 영역(1706)이 포함되도록 영상을 촬영할 수 있다. 또한, 전자 장치(1000)는, 제스처가 가리키는 영역(1706)을 포함하는 영상에 기초하여, 음성 입력(1703) 중 "여기(this)"와 대응되는 영역(1706)에 관한 위치 정보를 부가 정보로 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 부가 정보에 기초하여 획득된 음성 입력(1705)과 대응되는 요청 정보에 따라, 영역(1706)에 대한 동작을 수행할 수 있다.
도 18은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 18을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1803)을 수신함에 따라서, 사용자의 시선 및 손가락이 향하는 방향에 기초한 제스처(1801, 1802)를 획득할 수 있다. 도 18의 전자 장치(1000)는, 집 내부를 이동하면서, 다양한 정보를 수집할 수 있는 주행 로봇일 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 집 내부를 이동하면서, 제스처(1801, 1802)를 포함하는 영상을 촬영함으로써, 음성 입력(1803)과 대응되는 제스처(1801, 1802)를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1801, 1802)가 가리키는 방향에 따라서 음성 입력(1803)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 획득된 영상에 기초하여 사용자의 음성 입력(1803)에 따라, 주변 환경에 관한 정보를 수집할 수 있다.
예를 들면, 전자 장치(1000)는, 제스처(1801, 1802)가 가리키는 영역(1804)을 포함하는 영상에 기초하여, 음성 입력(1803) 중 "이 라인"(this line)과 대응되는 영역에 관한 위치 정보를 부가 정보로서 획득할 수 있다. 따라서, 전자 장치(1000)는, 상기 부가 정보에 기초하여, "이 라인"(this line)과 대응되는 위치 정보를 포함하도록 요청 정보를 생성하고, 요청 정보에 기초하여, 동작을 수행할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 상기 위치 정보와 대응되는 영역에서, "라인"(1804)을 설정하고, 설정된 라인(1804)에 기초하여, 사용자의 음성 입력(1804)에 따른 동작을 수행할 수 있다. 예를 들면, "어린이들은 이 라인(1804)을 넘지 못해(Children can't cross this line)"는 음성 입력(1804)에 따라서, 전자 장치(1000)는, 라인(1804) 근처에 존재하는 어린이들(1805, children)이 라인(1804)을 기준으로 어디에 존재하는지를 판단하고, 판단 결과에 따라 사용자 또는 어린이들(1805)에게, 라인(1804)을 기준으로 어린이들이 위치하는 영역에 관한 정보를 알리는 동작을 수행할 수 있다.
또한, 일 실시 예에 의한 전자 장치(1000)는, 사용자의 음성 입력에 따라 집안 내부에서 이동하는 외부 장치(1808)의 이동 영역을 설정할 수 있다. 예를 들면, 외부 장치(1808)는, 바닥을 청소하며 이동하는, 로봇 청소기일 수 있다.
일 실시 예에 의한 전자 장치(1000)가 "외부 장치(1808)는 이 라인(1804)을 넘지 못한다"는 음성 입력을 수신하는 경우, 전자 장치(1000)는, 라인(1804)을 포함하여 촬영된 영상에 기초하여, 음성 입력에 따른 동작을 수행할 수 있다. 예를 들면, 외부 장치(1808)는, 전자 장치(1000)로부터 수신된 요청에 기초하여, 라인(1804) 내의 영역에서 화살표 방향에 따라 이동할 수 있다.
도 19는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.
도 19를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(1901)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(1902)를 획득할 수 있다. 도 19의 전자 장치(1000)는, 사용자가 손에 들고 이용할 수 있는 스마트폰을 포함한 휴대 장치일 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 제스처(1902)를 포함하는 영상을 촬영함으로써, 음성 입력(1901)과 대응되는 제스처(1902)를 획득할 수 있다.
일 실시 예에 의한 음성 입력(1901)은, 예를 들면, "이것은 무엇인가?(What is this?)", "이것은 신선한가?(Is it fresh?)", "이걸 내가 언제 주문했지?(When I order this?), "이거 주문했나?(Order this?)", "이걸로 어떤 음식을 만들 수 있지?(What can be cooked from this?)", "이거 얼마나 있지?(observe amount of this?)", "이거 보관 온도에 맞게 설정이 되었나?(set temperature to save this?)" 등 냉장고(1905)에 보관된 음식물에 관한 정보를 요청하는 사용자의 입력을 포함할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(1902)가 가리키는 방향에 따라서 음성 입력(1901)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 예를 들면, 전자 장치(1000)는, 제스처(1902)가 가리키는 방향에 따라서, 전자 장치(1000)에서 촬영된 영상 중 1904 영역을 포함하는 영상을 주변 환경 영상으로 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(1901)의 "이것(it)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이것(it)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이것(it)"에 대한 식별 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(1901)에 의해 요청된 정보인 "이것(it)"에 관한 정보를 사용자에게 제공할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 음성 입력(1901)에 따라서, 필요한 경우, 냉장고(1905)에 관한 정보(ex. 온도 설정 정보, 보관된 음식물 정보)를 추가적으로 획득함으로써, 사용자가 요청한 정보를 제공할 수 있다.
도 20은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.
도 20을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2012)을 수신함에 따라서, 사용자의 터치 입력에 따른 제스처(2011)를 획득할 수 있다. 도 20의 전자 장치(1000)는, 사용자가 손에 들고 이용할 수 있는 스마트폰을 포함한 휴대 장치일 수 있다.
일 실시 예에 의한 전자 장치(1000)는 사용자의 제스처(2011)가 터치된 지점에 기초하여, 전자 장치(1000)에서 촬영된 영상 중 쇠고기(2013)를 포함하는 영상 영역을 주변 환경 영상으로 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에 기초하여, 음성 입력(2012)의 "이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이것(this)"에 대한 식별 정보로서, 쇠고기(2013)에 관한 식별 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2012)에 의해 요청된 정보인 "이것(this)"에 관한 정보를 사용자에게 제공할 수 있다. 예를 들어, "이걸로 어떤 요리를 할 수 있지?(What can we cook from this?)"를 포함하는 음성 입력(2012)에 따라서, 쇠고기(2013)에 관한 식별 정보에 기초하여, 쇠고기(2013)로 가능한 요리에 관한 정보가 제공될 수 있다.
또한, 일 실시 예에 의한 전자 장치(1000)는, 음성 입력(2012)에 대한 응답 정보를 제공한 후, "이걸 추가하면?(If add this?)"이란 음성 입력(2022)을 추가적으로 수신할 수 있다. 전자 장치(1000)는 음성 입력(2022)을 수신함에 따라, 감자(2023)와 대응되는 영역을 터치하는 사용자의 제스처를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는 사용자의 제스처가 터치된 지점에 기초하여, 전자 장치(1000)에서 촬영된 영상 중 감자(2023)를 포함하는 영상 영역을 주변 환경 영상으로 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에 기초하여, 음성 입력(2022)의 "이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이것(this)"에 대한 식별 정보로서, 감자(2023)에 관한 식별 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2022)에 의해 요청된 정보인 "이것(this)"에 관한 정보를 사용자에게 제공할 수 있다. 예를 들어, "이걸 더 추가하면?(If add this?)"를 포함하는 음성 입력(2022)에 따라서, 쇠고기(2013)에 더해, 감자(2023)에 관한 식별 정보에 기초하여, 쇠고기(2013) 및 감자(2023)로 가능한 요리에 관한 정보가 제공될 수 있다.
또한, 일 실시 예에 의한 전자 장치(1000)는, 음성 입력(2022)에 대한 응답 정보를 제공한 후, "요리가 이것과 같이 먹을만 할까?(The resulting dish is compatible with this)"이란 음성 입력(2032)을 추가적으로 수신할 수 있다. 전자 장치(1000)는 음성 입력(2032)을 수신함에 따라, 공기밥(2033)와 대응되는 영역을 터치하는 사용자의 제스처를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는 사용자의 제스처가 터치된 지점에 기초하여, 전자 장치(1000)에서 촬영된 영상 중 공기밥(2033)를 포함하는 영상 영역을 주변 환경 영상으로 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에 기초하여, 음성 입력(2032)의 "이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이것(this)"에 대한 식별 정보로서, 공기밥(2033)에 관한 식별 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2032)에 의해 요청된 정보인 "이것(this)"에 관한 정보를 사용자에게 제공할 수 있다. 예를 들어, "요리가 이것과 같이 먹을만 할까?(The resulting dish is compatible with this)"를 포함하는 음성 입력(2032)에 따라서, 쇠고기(2013) 및 감자(2023)로 가능한 요리가 공기밥(2032)과 함께 먹기 괜찮은지에 관한 정보가 제공될 수 있다.
도 21은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.
도 21을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2111, 2121)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2112, 2122)를 획득할 수 있다. 도 21의 전자 장치(1000)는, 사용자가 손에 들고 이용할 수 있는 스마트폰을 포함한 휴대 장치일 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 제스처(2112, 2122)를 포함하는 영상을 촬영함으로써, 음성 입력(2111, 2121)과 각각 대응되는 제스처(2112, 2122)를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2112, 2122)가 가리키는 방향에 따라서 음성 입력(2111, 2121)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 예를 들면, 전자 장치(1000)는, 제스처(2112, 2122)가 가리키는 방향에 따라서, 전자 장치(1000)에서 촬영된 영상 중 2123 영역을 포함하는 영상을 주변 환경 영상으로 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2111, 2121)의 "이, 이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이, 이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이, 이것(this)"에 대한 식별 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(1901)에 의해 요청된 정보인 "이, 이것(this)"에 관한 정보를 사용자에게 제공할 수 있다.
예를 들면, 전자 장치(1000)는, 2110에서, 음성 입력(2111)에 따라서, 제스처(2112)가 가리키는 수도관의 부품에 관한 정보를 제공할 수 있다. 또한, 전자 장치(1000)는, 2120에서, 음성 입력(2121)에 따라, 제스처(2122)가 가리키는 자동차 엔진의 부품에 관한 정보를 제공할 수 있다.
도 22는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 22를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2211, 2221)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2212, 2222)를 획득할 수 있다. 도 22의 전자 장치(1000)는, 사용자가 손에 들고 이용할 수 있는 스마트폰을 포함한 휴대 장치일 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 제스처(2212, 2222)를 포함하는 영상을 촬영함으로써, 음성 입력(2211, 2221)과 각각 대응되는 제스처(2212, 2222)를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2212, 2222)가 가리키는 방향에 따라서 음성 입력(2211, 2221)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 예를 들면, 전자 장치(1000)는, 제스처(2212, 2222)가 가리키는 방향에 따라서, 전자 장치(1000)에서 촬영된 영상 중 일부 영역을 포함하는 영상을 주변 환경 영상으로 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2211, 2221)의 "이, 이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이, 이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이, 이것(this)"에 대한 식별 정보를 획득할 수 있다.
예를 들면, 2210 및 2220에서, 전자 장치(1000)는, 제스처(2212, 2222)가 가리키는, 텍스트를 인식한 결과에 관한 정보를 부가 정보로서 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2211, 2221)에 따라 "이것(this)"에 관한 동작을 수행할 수 있다.
예를 들면, 2210에서, 전자 장치(1000)는, "이 텍스트 복사해(copy this text)"를 포함한 음성 입력(2211)에 따라서, 제스처(2212)가 가리키는 적어도 하나의 텍스트를 인식할 수 있다. 전자 장치(1000)는 상기 인식된 적어도 하나의 텍스트를 전자 장치(1000)에 저장해두고, 사용자의 요청에 따라서, 저장된 텍스트를 이용한 다양한 동작을 수행할 수 있다.
또한, 2220에서, 전자 장치(1000)는 "이거 번역해(translate this)"를 포함한 음성 입력(2221)에 따라서, 제스처(2222)가 가리키는 적어도 하나의 텍스트를 인식할 수 있다. 전자 장치(1000)는, 상기 인식된 적어도 하나의 텍스트에 대한 번역 결과를 사용자에게 제공할 수 있다.
도 23은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 영상을 촬영하는 동작을 수행하는 일 예를 나타낸 도면이다.
도 23을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2311, 2321)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2313, 2322)를 획득할 수 있다. 도 23의 전자 장치(1000)는, 사용자가 손에 들고 영상을 촬영하는데 이용할 수 있는 스마트폰, 디지털 카메라 등의 장치일 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 사용자가 촬영하고자 하는 장면을 포함하는 영상(2312)을 촬영할 때, 촬영된 영상에 포함된 제스처(2313, 2322)를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2313, 2322)가 가리키는 방향에 따라서 음성 입력(2311, 2321)과 관련된 주변 환경을 포함하도록 촬영된 영상을 획득할 수 있다. 예를 들면, 전자 장치(1000)는, 제스처(2313, 2322)가 가리키는 방향에 따라서, 전자 장치(1000)에서 촬영된 영상 중 일부 영역(2314, 2323)을 포함하는 영상을 주변 환경 영상으로 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2311, 2321)의 "여기(here)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "여기(here)"와 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "여기(here)"에 대한 식별 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2311, 2321)에 따라 "여기(here)"에 관한 동작을 수행할 수 있다.
예를 들면, 2310에서, 전자 장치(1000)는, "여기에 포커스를 맞춰(Focus here)"를 포함한 음성 입력(2311)에 따라서, 제스처(2313)가 가리키는 오브젝트를 식별할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 식별된 오브젝트의 특징을 고려하여, 식별된 오브젝트의 영역을 기준으로 초점을 조절함으로써, 오브젝트를 포함한 영상(2312)을 표시할 수 있다. 예를 들어, 식별된 오브젝트가 전자 장치(1000)에서, 먼 거리에 존재하는 물체인 것으로 판단된 경우, 먼거리의 오브젝트가 최적으로 촬영될 수 있도록 초점을 조절하여, 영상(2312)을 표시할 수 있다.
또한, 2321에서, 전자 장치(1000)는, "여기를 더 밝게 해(More light here)"를 포함한 음성 입력(2321)에 따라서, 제스처(2323)가 가리키는 오브젝트를 식별할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 식별된 오브젝트의 특징을 고려하여, 오브젝트가 포함된 영역의 밝기를 조절함으로써, 오브젝트가 촬영된 영상을 표시할 수 있다. 예를 들어, 전자 장치(1000)는, 식별된 오브젝트가 사람임을 고려하여, 인물 사진이 최적으로 촬영될 수 있도록, 밝기를 조절함으로써, 촬영된 영상을 표시할 수 있다.
도 24는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 24를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2401, 2402)을 수신함에 따라서, 사용자의 터치 입력에 따른 제스처(미도시)를 획득할 수 있다. 도 24의 전자 장치(1000)는, 공장 내부를 주행하며, 제품들을 옮기는 주행 로봇일 수 있다.
일 실시 예에 의한 전자 장치(1000)는 음성 입력(2401, 2402)에 따라 함께 획득된 사용자의 제스처에 기초하여, 전자 장치(1000)에서 촬영된 영상 중 제품(2403, product)을 포함하는 영상 영역을 주변 환경 영상으로 획득할 수 있다.
예를 들면, 전자 장치(1000)는 각각 "저기 ID는 뭐지?(What ID is located there)?" 및 "이 제품을 저기로 옮겨..(Transfer this product to there..)"를 포함한 음성 입력(2401, 2402)을 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에 기초하여, 음성 입력(2401, 2402)의 "저기(there)" 및 "이것(this)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "저기(there)" 및 "이것(this)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "저기(there)" 및 "이것(this)"에 대한 식별 정보로서, 제품(2403)에 관한 식별 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2401, 2402)에 따라 요청된 동작을 수행할 수 있다. 예를 들면, 전자 장치(1000)는, 제품(2403)의 ID에 관한 정보를 사용자에게 제공하거나, 제품(2403)을 옮겨 "저기(there)"와 대응되는 위치로 이동시킬 수 있다.
도 25는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 동작을 수행하는 일 예를 나타낸 도면이다.
도 25를 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2501, 2503)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2502, 2504)를 획득할 수 있다. 도 25의 전자 장치(1000)는, 사용자가 탑승 중인 이동체(vehicle, ex. 자동차, 오토바이, 자전거 등)일 수 있다.
예를 들면, 전자 장치(1000)는, "이차와의 거리를 유지하고.. 이 속도를 유지해, 이건 뭐지?(Keep distance between this car, Keep this speed, What this?)"를 포함하는 음성 입력(2501)과, "여기는 어디지? 이 길로 가자(What is the place here? Turn this way)"를 포함하는 음성 입력(2503)을 수신할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자를 촬영하는 카메라 장치(2505)를 이용하여, 제스처(2502, 2504)를 포함하는 영상을 촬영함으로써, 음성 입력(2501, 2503)과 각각 대응되는 제스처(2502, 2504)를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2502, 2504)가 가리키는 방향에 따라서 음성 입력(2501, 2503)과 관련된 주변 환경을 포함하도록 촬영된 영상을, 주변 환경을 촬영하는 카메라 장치(2507)를 이용하여 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2501, 2503)의 "이 차(this car)", "이, 이것(this)"과, "여기(here)", "이 길(this way)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이 차(this car)", "이, 이것(this)"과, "여기(here)", "이 길(this way)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이 차(this car)", "이, 이것(this)"과, "여기(here)", "이 길(this way)"에 대한 식별 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2501, 2503)에 대응하는 동작을 수행할 수 있다.
예를 들면, 전자 장치(1000)는, 음성 입력(2501)에 따라, 제스처(2502)가 가리키는 방향에 존재하는 "차", "속도계의 눈금", "외부의 물체" 등을 식별하고, 식별된 결과에 기초하여, 자동차의 주행 속도를 조절하거나, "외부의 물체"에 관한 정보를 제공할 수 있다. 또한, 전자 장치(1000)는, 음성 입력(2503)에 따라, 제스처(2504)가 가리키는 방향에 존재하는, "건물", "거리" 등을 식별하고, 식별된 결과에 기초하여, "건물"에 관한 정보를 제공하거나, 자동차의 주행 방향을 조절할 수 있다.
도 26는 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 사용자가 요청한 정보를 제공하는 일 예를 나타낸 도면이다.
도 26을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2601, 2603)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2602, 2604)를 획득할 수 있다. 도 26의 전자 장치(1000)는, 사용자가 안경과 같이 착용할 수 있는 장치인, 웨어러블 글래스일 수 있다.
예를 들면, 전자 장치(1000)는, "이 거리 이름이 뭐지? (What is the name of this street?)"를 포함하는 음성 입력(2601)과, "이거 호텔인가? 이 빌딩 번호가 뭐지? (Is it a hotel? What this building number)"를 포함하는 음성 입력(2603)을 수신할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 전자 장치(1000)에 구비된 카메라(미도시)를 이용하여, 제스처(2602, 2604)를 포함하는 영상을 촬영함으로써, 음성 입력(2601, 2603)과 각각 대응되는 제스처(2602, 2604)를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2602, 2604)가 가리키는 방향에 따라서 음성 입력(2601, 2603)과 관련된 주변 환경을 포함하는 영상을 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2601, 2603)의 "이 거리(this street)", "이거(this)", "이 빌딩(this building)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "이 거리(this street)", "이거(this)", "이 빌딩(this building)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "이 거리(this street)", "이거(this)", "이 빌딩(this building)"에 대한 식별 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2601, 2603)에서 요청된 정보를 사용자에게 제공할 수 있다.
예를 들어, 전자 장치(1000)는, 음성 입력(2601)에 따라, 제스처(2602)가 가리키는 방향에 존재하는 거리의 이름을 식별하고, 식별된 결과를 사용자에게 제공할 수 있다. 또한, 전자 장치(1000)는, 음성 입력(2603)에 따라, 제스처(2604)가 가리키는 방향에 존재하는 호텔 이름 또는 빌딩의 번호에 관한 정보를 획득하고, 획득된 정보를 사용자에게 제공할 수 있다.
도 27은 일 실시 예에 의한 제스처에 기초하여, 음성 입력을 처리함으로써, 외부 장치를 제어하는 일 예를 나타낸 도면이다.
도 27을 참조하면, 전자 장치(1000)는, 사용자의 음성 입력(2701, 2703)을 수신함에 따라서, 사용자의 손가락이 향하는 방향에 기초한 제스처(2702, 2704)를 획득할 수 있다. 도 27의 전자 장치(1000)는, 사용자가 안경과 같이 착용할 수 있는 장치인, 웨어러블 글래스일 수 있다.
예를 들면, 전자 장치(1000)는, "저기 불을 켜 (Switch on that lights)"를 포함하는 음성 입력(2701)과, "이 벽에 가상 TV를 놓자(Put virtual TV on this wall)"를 포함하는 음성 입력(2703)을 수신할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 전자 장치(1000)에 구비된 카메라(미도시)를 이용하여, 제스처(2702, 2704)를 포함하는 영상을 촬영함으로써, 음성 입력(2701, 2703)과 각각 대응되는 제스처(2702, 2704)를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 사용자의 제스처(2702, 2704)가 가리키는 방향에 따라서 음성 입력(2701, 2703)과 관련된 주변 환경을 포함하는 영상을 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 주변 환경 영상에 기초하여, 음성 입력(2701, 2703)의 "저기 불(that lights)", "이 벽(this wall)"에 대한 식별 정보를, 부가 정보로서, 획득할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경 영상에서, "저기 불(that lights)", "이 벽(this wall)"과 대응되는 오브젝트를 식별하기 위하여, 미리 학습된 인공지능 모델(ex. CNN)을 이용함으로써, "저기 불(that lights)", "이 벽(this wall)"에 대한 식별 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 획득된 부가 정보에 기초하여, 음성 입력(2701, 2703)에서 요청된 정보를 사용자에게 제공할 수 있다.
예를 들어, 전자 장치(1000)는, 음성 입력(2701)에 따라, 제스처(2702)가 가리키는 방향에 존재하는, 적어도 하나의 전등(light)을 식별하고, 식별된 전등을 제어할 수 있다. 또한, 전자 장치(1000)는, 음성 입력(2703)에 따라, 제스처(2704)가 가리키는 방향에 존재하는, 벽을 식별하고, 식별된 벽에 가상 TV를 표시할 수 있는 빔 프로젝터(beam projector)를 식별할 수 있다. 따라서, 전자 장치(1000)는 식별된 벽에 가상 TV를 표시할 수 있도록, 식별된 빔 프로젝터를 제어할 수 있다.
일 실시 예에 의하면 음성 입력에 포함된 정보가 명확하지 않은 경우에도, 사용자의 제스처 및 주변 환경에 기초하여, 음성 입력을 명확하게 해석함으로써, 사용자 의도에 맞는 동작이 수행될 수 있다.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 전자 장치에서, 제스처에 기초하여, 음성 입력을 처리하는 방법에 있어서,
    음성 입력 및 상기 음성 입력과 대응되는 제스처를 획득하는 단계;
    상기 제스처가 가리키는 방향에 기초하여, 상기 전자 장치의 주변 환경을 포함하는 영상을 획득하는 단계;
    상기 영상으로부터, 상기 음성 입력과 관련된 부가 정보를 추출하는 단계;
    상기 부가 정보에 기초하여, 상기 음성 입력에 의해 상기 전자 장치로 요청된 동작에 관한 요청 정보를 획득하는 단계; 및
    상기 요청 정보에 기초하여, 상기 음성 입력을 처리하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 부가 정보는,
    상기 영상으로부터 추출된, 상기 음성 입력과 관련된 적어도 하나의 오브젝트 또는 영역에 관한 식별 정보 및 위치 정보 중 적어도 하나를 포함하는, 방법.
  3. 제1항에 있어서, 상기 요청 정보를 획득하는 단계는
    상기 음성 입력과 대응되는 적어도 하나의 텍스트를 획득하는 단계;
    상기 부가 정보에 기초하여, 상기 적어도 하나의 텍스트 중 적어도 하나를 다른 텍스트로 대체하는 단계; 및
    상기 대체된 텍스트를 포함하는, 상기 적어도 하나의 텍스트에 기초하여, 상기 요청 정보를 획득하는 단계를 포함하는, 방법.
  4. 제3항에 있어서, 상기 다른 텍스트로 대체하는 단계는
    상기 제스처에 더 기초하여, 상기 적어도 하나의 텍스트 중 적어도 하나를 다른 텍스트로 대체하는 단계를 포함하는, 방법.
  5. 제1항에 있어서, 상기 요청 정보에 기초하여, 상기 음성 입력을 처리하는 단계는,
    상기 요청 정보와 대응되는 적어도 하나의 텍스트로부터 텍스트 특징을 추출하는 단계;
    상기 영상에 포함된, 상기 적어도 하나의 텍스트와 대응되는 오브젝트의 영역에 기초하여, 영상 특징을 추출하는 단계;
    상기 텍스트 특징 및 상기 영상 특징에 기초하여, 결합된 특징을 획득하는 단계; 및
    상기 결합된 특징에 기초하여, 상기 음성 입력을 처리하는 단계를 포함하는, 방법.
  6. 제5항에 있어서, 상기 결합된 특징을 획득하는 단계는
    상기 제스처의 종류에 따라 상기 텍스트 특징 및 상기 영상 특징에 대한 가중치를 결정하는 단계;
    상기 텍스트 특징 및 상기 영상 특징에 각각 대응되는 가중치를 적용하는 단계; 및
    상기 가중치가 각각 적용된 상기 텍스트 특징 및 상기 영상 특징에 기초하여, 상기 결합된 특징을 획득하는 단계를 포함하는, 방법.
  7. 제1항에 있어서, 상기 부가 정보는, 상기 영상에서 상기 음성 입력과 대응되는 오브젝트가 식별됨으로써, 추출되고,
    상기 오브젝트는, 상기 제스처가 가리키는 방향 및 상기 영상에서 사용자의 입력에 따라 설정된 ROI 영역에 기초하여, 상기 영상에서 식별되는, 방법.
  8. 제스처에 기초하여, 음성 입력을 처리하는 전자 장치에 있어서,
    A/V 입력부;
    상기 음성 입력을 처리한 결과를 출력하는 출력부; 및
    상기 A/V 입력부를 제어하여, 음성 입력을 획득하고, 상기 음성 입력과 대응되는 제스처를 획득하고,
    상기 A/V 입력부를 제어하여, 상기 제스처가 가리키는 방향에 기초하여, 상기 전자 장치의 주변 환경을 포함하는 영상을 획득하고,
    상기 영상으로부터, 상기 음성 입력과 관련된 부가 정보를 추출하고,
    상기 부가 정보에 기초하여, 상기 음성 입력에 의해 상기 전자 장치로 요청된 동작에 관한 요청 정보를 획득하고,
    상기 요청 정보에 기초하여, 상기 음성 입력을 처리하는, 적어도 하나의 프로세서를 포함하는, 전자 장치.
  9. 제8항에 있어서, 상기 부가 정보는,
    상기 영상으로부터 추출된, 상기 음성 입력과 관련된 적어도 하나의 오브젝트 또는 영역에 관한 식별 정보 및 위치 정보 중 적어도 하나를 포함하는, 전자 장치.
  10. 제8항에 있어서, 상기 적어도 하나의 프로세서는
    상기 음성 입력과 대응되는 적어도 하나의 텍스트를 획득하고,
    상기 부가 정보에 기초하여, 상기 적어도 하나의 텍스트 중 적어도 하나를 다른 텍스트로 대체하고,
    상기 대체된 텍스트를 포함하는, 상기 적어도 하나의 텍스트에 기초하여, 상기 요청 정보를 획득하는, 전자 장치.
  11. 제10항에 있어서, 상기 제스처에 더 기초하여, 상기 적어도 하나의 텍스트 중 적어도 하나를 다른 텍스트로 대체하는, 전자 장치.
  12. 제8항에 있어서, 상기 적어도 하나의 프로세서는
    상기 요청 정보와 대응되는 적어도 하나의 텍스트로부터 텍스트 특징을 추출하고,
    상기 영상에 포함된, 상기 적어도 하나의 텍스트와 대응되는 오브젝트의 영역에 기초하여, 영상 특징을 추출하고,
    상기 텍스트 특징 및 상기 영상 특징에 기초하여, 결합된 특징을 획득하고,
    상기 결합된 특징에 기초하여, 상기 음성 입력을 처리하는, 전자 장치.
  13. 제12항에 있어서, 상기 적어도 하나의 프로세서는
    상기 제스처의 종류에 따라 상기 텍스트 특징 및 상기 영상 특징에 대한 가중치를 결정하고,
    상기 텍스트 특징 및 상기 영상 특징에 각각 대응되는 가중치를 적용하고,
    상기 가중치가 각각 적용된 상기 텍스트 특징 및 상기 영상 특징에 기초하여, 상기 결합된 특징을 획득하는, 전자 장치.
  14. 제8항에 있어서, 상기 부가 정보는, 상기 영상에서 상기 음성 입력과 대응되는 오브젝트가 식별됨으로써, 추출되고,
    상기 오브젝트는, 상기 제스처가 가리키는 방향 및 상기 영상에서 사용자의 입력에 따라 설정된 ROI 영역에 기초하여, 상기 영상에서 식별되는, 전자 장치.
  15. 제1항 내지 제7항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
KR1020200032848A 2020-03-17 2020-03-17 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법 KR20210116838A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200032848A KR20210116838A (ko) 2020-03-17 2020-03-17 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법
PCT/KR2020/003917 WO2021187653A1 (ko) 2020-03-17 2020-03-23 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200032848A KR20210116838A (ko) 2020-03-17 2020-03-17 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
KR20210116838A true KR20210116838A (ko) 2021-09-28

Family

ID=77771064

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200032848A KR20210116838A (ko) 2020-03-17 2020-03-17 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법

Country Status (2)

Country Link
KR (1) KR20210116838A (ko)
WO (1) WO2021187653A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101789619B1 (ko) * 2010-11-22 2017-10-25 엘지전자 주식회사 멀티미디어 장치에서 음성과 제스쳐를 이용한 제어 방법 및 그에 따른 멀티미디어 장치
KR20140086302A (ko) * 2012-12-28 2014-07-08 현대자동차주식회사 음성과 제스처를 이용한 명령어 인식 장치 및 그 방법
US8744645B1 (en) * 2013-02-26 2014-06-03 Honda Motor Co., Ltd. System and method for incorporating gesture and voice recognition into a single system
KR20160071732A (ko) * 2014-12-12 2016-06-22 삼성전자주식회사 음성 입력을 처리하는 방법 및 장치
CN108181992A (zh) * 2018-01-22 2018-06-19 北京百度网讯科技有限公司 基于手势的语音唤醒方法、装置、设备及计算机可读介质

Also Published As

Publication number Publication date
WO2021187653A1 (ko) 2021-09-23

Similar Documents

Publication Publication Date Title
US11580711B2 (en) Systems and methods for controlling virtual scene perspective via physical touch input
US20220229534A1 (en) Coordinating cursor movement between a physical surface and a virtual surface
US10127723B2 (en) Room based sensors in an augmented reality system
US11816256B2 (en) Interpreting commands in extended reality environments based on distances from physical input devices
US9671873B2 (en) Device interaction with spatially aware gestures
KR102414602B1 (ko) 데이터 인식 모델 구축 장치 및 이의 데이터 인식 모델 구축 방법과, 데이터 인식 장치 및 이의 데이터 인식 방법
CN112181152A (zh) 基于mr眼镜的广告推送管理方法、设备及应用
US11407106B2 (en) Electronic device capable of moving and operating method thereof
KR20160037074A (ko) 전환 거울을 구비한 장치의 이미지 디스플레이 방법 및 그 장치
WO2022170223A1 (en) User interactions in extended reality
US20230362573A1 (en) Audio enhanced augmented reality
US11908175B2 (en) Electronic device training image recognition model and operation method for same
WO2023076341A1 (en) Method and a system for interacting with physical devices via an artificial-reality device
KR20210116838A (ko) 제스처에 기초하여, 음성 입력을 처리하는 전자 장치 및 그 동작 방법
KR20210158695A (ko) 영상에서 평면을 검출하는 전자 장치 및 그 동작 방법
CN111919250A (zh) 传达非语言提示的智能助理设备
US11863963B2 (en) Augmented reality spatial audio experience
KR20220149803A (ko) 정보를 공유하기 위한 전자 장치 및 그 동작 방법