KR20210097428A - 전자장치 및 그 제어방법 - Google Patents

전자장치 및 그 제어방법 Download PDF

Info

Publication number
KR20210097428A
KR20210097428A KR1020200011108A KR20200011108A KR20210097428A KR 20210097428 A KR20210097428 A KR 20210097428A KR 1020200011108 A KR1020200011108 A KR 1020200011108A KR 20200011108 A KR20200011108 A KR 20200011108A KR 20210097428 A KR20210097428 A KR 20210097428A
Authority
KR
South Korea
Prior art keywords
electronic device
voice command
interface unit
processor
server
Prior art date
Application number
KR1020200011108A
Other languages
English (en)
Inventor
신기훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200011108A priority Critical patent/KR20210097428A/ko
Priority to US17/142,688 priority patent/US11688397B2/en
Priority to EP21151396.5A priority patent/EP3859517A1/en
Publication of KR20210097428A publication Critical patent/KR20210097428A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Selective Calling Equipment (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 전자장치 및 그 제어방법에 관한 것으로서, 전자장치는, 인터페이스부; 및 인터페이스부를 통해, 수신된 음성명령의 정보와 음성명령에 대응되는 장치의 정보를 서버로 전송하고, 인터페이스부를 통해, 복수의 형식 중 장치에 대응하는 형식의 음성명령의 응답메시지를 서버로부터 수신하고, 장치를 통해 수신된 응답메시지가 출력되도록 제어하는 프로세서를 포함한다.

Description

전자장치 및 그 제어방법{ELECTRONIC APPARATUS AND METHOD OF CONTROLLING THE SAME}
본 발명은 전자장치 및 그 제어방법에 관한 것으로서, 보다 상세하게는 사용자의 음성명령에 대응되는 동작이 수행되도록 하는 전자장치 및 그 제어방법에 관한 것이다.
전자기술의 발달에 힘입어 다양한 유형의 전자제품들이 개발 및 보급되고 있다. 예를 들어, 스마트폰, 태블릿, PC 등의 단말장치나, 가정 내 가전기기 등 다양한 전자장치의 사용이 점차 확대되고 있다.
전자장치들의 사용이 늘면서 좀 더 다양한 기능에 대한 사용자 니즈(needs)도 증대되었다. 이에 따라, 사용자 니즈에 부합하기 위한 각 제조사들의 노력도 커져서, 종래에 없던 새로운 기능을 갖춘 제품들이 속속 등장하고 있다.
가정에서는 단말장치뿐 아니라, 텔레비전(TV), 냉장고, 세탁기, 에어컨 등과 같은 가전기기를 포함하여 다양한 전자장치를 사용하고 있으며, 전자장치들을 네트워크로 연결하여 제어하고자 하는 홈 네트워크 시스템이 상용화되는 추세이다.
이러한 홈 네트워크 시스템은 음성 인식 기능을 지원할 수 있으며, 사용자는 음성명령을 발화하여 대응되는 전자장치가 원하는 동작을 수행하도록 할 수 있다.
본 발명은, 사용자로부터 발화된 음성명령에 기반하여 복수의 전자장치를 제어할 수 있는 전자장치 및 그 제어방법을 제공한다.
본 발명 일 실시예에 따른 전자장치는, 인터페이스부; 및 인터페이스부를 통해, 수신된 음성명령의 정보와 음성명령에 대응되는 장치의 정보를 서버로 전송하고, 인터페이스부를 통해, 복수의 형식 중 장치에 대응하는 형식의 음성명령의 응답메시지를 서버로부터 수신하고, 장치를 통해 수신된 응답메시지가 출력되도록 제어하는 프로세서를 포함한다.
프로세서는, 전자장치 및 인터페이스부를 통해 연결될 수 있는 적어도 하나의 외부장치 중에서 전자장치를 대표장치로 지정할 수 있다.
프로세서는, 사용자입력에 따라 대표장치를 지정할 수 있다. 프로세서는, 디스플레이에 표시된 GUI를 이용하여 대표장치를 지정할 수 있다. 프로세서는, 적어도 하나의 영역 별로 대표장치가 각각 지정되도록 할 수 있다.
프로세서는, 대표장치의 마이크를 활성화하고, 다른 장치의 마이크를 비활성화하도록 할 수 있다. 프로세서는, 활성화된 마이크를 통해 음성명령을 수신하도록 할 수 있다.
응답메시지의 형식은, 음성명령에 대응되는 장치의 메시지 출력 형식에 대응할 수 있다.
프로세서는, 서버로부터 음성명령에 대응하는 제어명령을 더 수신하고, 수신된 제어명령을 인터페이스부를 통해 음성명령의 타겟장치로 전송할 수 있다.
제어명령은 수신된 음성명령의 STT(Speech to Text)에 대한 인식 결과에 기초하여 사용자 의도에 따라 분류된 카테고리에 대응하는 장치의 제어명령을 포함할 수 있다.
프로세서는, 수신된 음성명령의 STT를 획득하고, 획득된 STT를 서버로 전송할 수 있다.
프로세서는, 전자장치 및 적어도 하나의 외부장치 중에서 전자장치가 대표장치로 지정되었음을 나타내는 정보를 인터페이스부를 통해 외부장치로부터 수신할 수 있다.
한편, 전자장치의 제어방법은, 인터페이스부를 통해, 수신된 음성명령의 정보와 음성명령에 대응되는 장치의 정보를 서버로 전송하는 단계; 인터페이스부를 통해, 복수의 형식 중 장치에 대응하는 형식을 가지는 음성명령의 응답메시지를 서버로부터 수신하는 단계; 및 수신된 응답메시지가 장치를 통해 출력되도록 제어하는 단계를 포함한다.
전자장치 및 인터페이스부를 통해 연결될 수 있는 적어도 하나의 외부장치 중에서 전자장치를 대표장치로 지정하는 단계를 더 포함할 수 있다.
대표장치로 지정하는 단계는, 사용자입력에 따라 또는 디스플레이에 표시된 GUI를 이용하여 수행될 수 있다.
대표장치로 지정하는 단계는, 적어도 하나의 영역 별로 대표장치가 각각 지정되도록 할 수 있다.
대표장치의 마이크를 활성화하고, 다른 장치의 마이크를 비활성화하도록 하는 단계를 더 포함하며, 활성화된 마이크를 통해 음성명령을 수신하도록 할 수 있다.
응답메시지의 형식은, 음성명령에 대응되는 장치의 메시지 출력 형식에 대응할 수 있다.
서버로부터 음성명령에 대응하는 제어명령을 수신하는 단계; 및 수신된 제어명령을 인터페이스부를 통해 음성명령의 타겟장치로 전송하는 단계를 더 포함할 수 있다.
제어명령은 수신된 음성명령의 STT(Speech to Text)에 대한 인식 결과에 기초하여 사용자 의도에 따라 분류된 카테고리에 대응하는 장치의 제어명령을 포함할 수 있다.
상기한 바와 같은 본 발명의 전자장치 및 그 제어방법에 따르면, 복수의 전자장치를 그룹화하고, 대표장치를 통해 음성을 수신 및 그 음성에 기초하여 타겟장치가 동작되도록 제어함으로써, 음성수신 기능이 없는 전자장치도 음성명령을 통한 제어가 가능하므로, 사용자 편의가 향상되는 효과가 있다.
또한, 동일 영역에서 대표장치 외의 장치들에서는 마이크를 비활성화함으로써, 사용자음성이 발화되는 경우, 사용자가 의도와는 다르게, 음성 수신이 가능한 마이크가 구비된 복수의 장치에서 동시에 반응이 발생하여, 혼란을 야기하거나 오인식이 발생하는 사용자 불편을 해소할 수 있다.
도 1은 본 발명 일 실시예에 따른 음성인식 시스템을 도시한다.
도 2는 본 발명 일 실시예에 따른 음성인식 시스템을 구성하는 제1영역의 전자장치들을 도시한다.
도 3은 본 발명 일 실시예에 따른 음성인식 시스템을 구성하는 제2영역의 전자장치들을 도시한다.
도 4는 본 발명 일 실시예에 따라 복수의 전자장치 중에서 대표장치를 지정하는 과정을 설명하기 위한 도면이다.
도 5는 본 발명 일 실시예에 의한 제1전자장치의 구성을 도시한 블록도이다.
도 6은 본 발명 일 실시예에 의한 제2전자장치의 구성을 도시한 블록도이다.
도 7은 본 발명 일 실시예에 따라 대표장치를 지정하는 방법을 도시한 흐름도이다.
도 8은 본 발명 일 실시예에 따라 음성명령을 수신하고, 음성명령에 대응하는 응답메시지를 출력하는 방법을 도시한 흐름도이다.
도 9는 본 발명 일 실시예에 따라 음성명령의 정보를 서버로 전송하고, 그에 기초한 응답메시지를 획득하는 과정을 설명하기 위한 도면이다.
도 10은 도 9의 실시예에서 음성명령의 상세의도를 분석하는 과정을 설명하기 위한 도면이다.
도 11은 본 발명 일 실시예에 따라 음성명령에 기초한 제어 동작이 이루어지는 일례를 도시한 도면이다.
이하에서는 첨부 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 도면에서 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 지칭하며, 도면에서 각 구성요소의 크기는 설명의 명료성과 편의를 위해 과장되어 있을 수 있다. 다만, 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 이하의 실시예에 설명된 구성 또는 작용으로만 한정되지는 않는다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
본 발명의 실시예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 발명의 실시예에서, '구성되다', '포함하다', '가지다' 등의 용어는 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 또한, 본 발명의 실시예에서, '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있으며, 적어도 하나의 모듈로 일체화되어 구현될 수 있다. 또한, 본 발명의 실시예에서, 복수의 요소 중 적어도 하나(at least one)는, 복수의 요소 전부뿐만 아니라, 복수의 요소 중 나머지를 배제한 각 하나 혹은 이들의 조합 모두를 지칭한다.
도 1은 본 발명 일 실시예에 따른 음성인식 시스템을 도시한다.
본 발명 일 실시예에 따르면, 음성인식 시스템(1)은 복수의 전자장치(101, 102, 103, 104)와, 서버(500)를 포함할 수 있다.
복수의 전자장치(101, 102, 103, 104)는, 이른 바 홈 네트워크 시스템을 구성하는 장치들로서, 예를 들어, 텔레비전(TV), 에어컨, 세탁기, 냉장고 등의 가전기기를 포함할 수 있다. 또한, 복수의 전자장치(101, 102, 103, 104)는 헬스케어, 원격검침, 스마트홈, 스마트카 등 사물인터넷(IoT) 기술을 기반으로 동작하는 사물(things 또는 smarthings)로서 마련되는 다양한 종류의 전자기기를 포함할 수 있다.
복수의 전자장치(101, 102, 103, 104)는 각각이 표준화된 소정 프로토콜, 예를 들면, 와이파이(Wi-Fi), 블루투스(bluetooth), 지그비(Zigbee), UWB(Ultra-Wideband), NFC(Near Field Communication), 이더넷(Ethernet) 등에 의해 연결되어, 유선 또는 무선 네트워크 통신을 수행할 수 있다.
복수의 전자장치(101, 102, 103, 104)는 사용자로부터 발화된 음성명령에 대응하여 동작할 수 있다. 구체적으로, 복수의 전자장치(101, 102, 103, 104)는 사용자의 음성명령에 대응하여 서버(500)로부터 제공된 제어명령에 기초한 동작을 수행할 수 있다.
일 실시예에서, 복수의 전자장치(101, 102, 103, 104) 중 적어도 하나에는 사용자로부터 발화된 음성명령을 수신할 수 있는 음성수신부로서 마이크(microphone)가 마련될 수 있다.
서버(500)는 복수의 전자장치(101, 102, 103, 104) 중 적어도 하나와 통신을 수행할 수 있다.
일 실시예에서, 서버(500)는, 도 1에 도시된 바와 같이, 복수의 전자장치(101, 102, 103, 104) 중에서 제1전자장치(101)와 통신을 수행할 수 있다.
여기서, 제1전자장치(101)는 대표장치(representative device)로서 지정되어, 제1전자장치(101) 및 다른 전자장치들(102, 103, 104) 중에서 어느 하나를 타겟으로 하는 음성명령을 수신할 수 있다.
대표장치로 지정된 제1전자장치(101)는 마이크(도 5의 140)를 통해 음성명령을 수신하는 마스터장치(master device)로서의 역할을 수행하고, 다른 전자장치들(102, 103, 104)은 슬레이브장치(slave device)로서의 역할을 수행할 수 있다. 그러나, 이는 역할에 따라 장치를 구분하기 위한 편의적인 용어일 뿐이며, 장치들의 명칭이 각 장치의 기능을 한정하는 것은 아니다.
본 발명 일 실시예에 따른 음성인식 시스템(1)은, 이렇게 각 전자장치(101, 102, 103, 104)가 마스터장치 또는 슬레이브장치로 설정되어 그룹화, 다시 말해, 함께 묶여짐으로써, 음성명령을 수신하고 수신된 음성명령에 대응하여 제어동작을 수행할 수 있도록 구현된다. 다시 말해, 마스터장치는 자신이 거느린 슬레이브장치를 대표한다.
일 실시예에서 대표장치, 즉, 마스터장치로 지정된 제1전자장치(101)에는 슬레이브장치에 해당하는 전자장치들(102, 103, 104)의 정보가 저장 및 관리된다. 일례로, 제1전자장치(101)의 저장부(도 5의 160)에는, 제2전자장치(102), 제3전자장치(103), … , 제N 전자장치(104)의 식별정보로서 각각의 아이디(ID)가 저장될 수 있다. 다른 예로서, 제1전자장치(101)의 저장부(도 5의 160)에는 그룹화된 장치리스트로서, 마스터장치인 제1전자장치(101) 및 마스터장치와 함께 묶인 슬레이브장치인 제2전자장치(102), 제3전자장치(103), … , 제N 전자장치(104) 각각의 식별정보를 포함하는 장치리스트가 저장될 수 있다.
또한, 마스터장치로 지정된 제1전자장치(101)의 마이크(140)는 활성화되며, 그를 제외한 슬레이브장치인 다른 전자장치들(102, 103, 104)의 마이크는 비활성화될 수 있다. 여기서, 활성화는 마이크(140)를 턴 온시키는 것을 포함하며, 비활성화는 마이크(140)를 턴 오프시키는 것을 포함할 수 있다.
그에 따라, 제1전자장치(101)의 마이크를 통해 마스터장치뿐 아니라 슬레이브장치를 타겟으로 하는 음성명령이 수신이 가능하다. 여기서, 마이크가 마련되지 않은 슬레이브장치를 타겟으로 하는 음성명령도 제1전자장치(101)의 마이크를 통해 수신 가능하게 된다.
마스터장치로서 제1전자장치(101)는 음성명령이 수신되면, 마스터장치와 슬레이브장치를 포함하는 복수의 전자장치(101, 102, 103, 104) 중 해당 음성명령에 대응하는 타겟장치를 식별할 수 있다. 제1전자장치(101)는 수신된 음성명령의 정보를 서버(500)로 전송할 수 있다.
또한, 제1전자장치(101)는 서버(500)로부터 음성명령에 대응하여 생성된 응답신호(또는 응답데이터)를 수신할 수 있다.
일 실시예는 응답신호는, 응답메시지와 타겟장치에 대한 제어명령을 포함할 수 있다. 제1전자장치(101)는, 서버(500)로부터 수신된 응답신호로부터 응답메시지와 제어명령을 추출하고, 그 제어명령에 대한 타겟장치를 식별할 수 있다. 여기서, 응답메시지와 제어명령은 소정 형식의 데이터로서 함께 수신되거나, 경우에 따라 별도의 데이터로서 수신될 수 있다.
제1전자장치(101)는 식별 결과에 기초하여, 제어명령에 대응하는 동작을 직접 수행하거나 또는 다른 전자장치들(102, 103, 104) 중 어느 하나로 제어명령을 전송할 수 있다.
본 발명 일 실시예에 따르면, 대표장치는, 음성인식 시스템(1)을 구성하는 적어도 하나의 공간, 즉, 지역 또는 영역 별로 지정될 수 있다.
도 2는 본 발명 일 실시예에 따른 음성인식 시스템을 구성하는 제1영역의 전자장치들을 도시하며, 도 3은 본 발명 일 실시예에 따른 음성인식 시스템을 구성하는 제2영역의 전자장치들을 도시한다.
일 실시예에서 음성인식 시스템은, 도 2에 도시된 바와 같이, 제1영역(20), 예를 들면, 가정 내 거실(living room)에 위치하는 복수의 전자장치(201, 202, 203, 204)를 포함할 수 있다.
도 2에서는, 복수의 전자장치(201, 202, 203, 204)가 텔레비전(TV), 에어컨, 공기정청기 및 청소로봇에 각각 대응하는 경우를 예로 들어 도시하였으나, 각 전자장치(201, 202, 203, 204)의 구현 형태는 도시된 바에 한정되지 않으며, 적어도 하나의 전자장치가 추가 또는 배제되는 형태로 구현될 수도 있다.
일 실시예에서 제1영역(20), 다시 말해, 거실에 위치한 복수의 전자장치(201, 202, 203, 204) 중 어느 하나, 예를 들면, TV(201)이 대표장치, 즉, 마스터장치로 지정될 수 있다.
마스터장치인 TV(201)는, 자체 또는 리모컨에 마련된 마이크를 통해 사용자로부터 발화된 음성명령(21)을 수신할 수 있다. 수신된 음성명령(21)는 마스터장치와 슬레이브장치를 포함하는 복수의 전자장치(201, 202, 203, 204) 중 어느 하나를 타겟으로 할 수 있다.
일 실시예에서 음성인식 시스템(1)은, 도 3에 도시된 바와 같이, 제2영역(30), 예를 들면, 가정 내 주방(kitchen)에 위치하는 복수의 전자장치(301, 302, 303)를 포함할 수 있다.
도 3에서는, 복수의 전자장치(301, 302, 303, 304)가 냉장고, 전자레인지, 세탁기에 각각 대응하는 경우를 예로 들어 도시하였으나, 각 전자장치(301, 302, 303)의 구현 형태는 도시된 바에 한정되지 않으며, 적어도 하나의 전자장치가 추가 또는 배제되는 형태로 구현될 수도 있다.
일 실시예에서 제2영역(30), 다시 말해, 주방에 위치한 복수의 전자장치(301, 302, 303) 중 어느 하나, 예를 들면, 냉장고(301)이 대표장치, 즉, 마스터장치로 지정될 수 있다.
마스터장치인 냉장고(301)는, 자체적으로 마련된 마이크를 통해 사용자로부터 발화된 음성명령(31)을 수신할 수 있다. 수신된 음성명령(31)은 마스터장치와 슬레이브장치를 포함하는 복수의 전자장치(301, 302, 303) 중 어느 하나를 타겟으로 할 수 있다.
도 4는 본 발명 일 실시예에 따라 복수의 전자장치 중에서 대표장치를 지정하는 과정을 설명하기 위한 도면이다.
일 실시예에서 사용자는 복수의 전자장치(101, 102, 103, 104)와 통신 가능한 외부장치로서 단말장치(400)를 이용하여 복수의 전자장치(101, 102, 103, 104) 중 어느 하나를 대표장치, 즉, 마스터장치로서 지정할 수 있다.
단말장치(400)는 스마트폰(smart phone), 태블릿(tablet)과 같은 스마트패드(smart pad), 스마트워치(smart watch), 휴대용 미디어 플레이어(portable media player) 등의 모바일장치로 구현될 수 있다. 다만, 본 발명에서 단말장치(400)의 구현 형태는 한정되는 것이 아니며, 복수의 전자장치(101, 102, 103, 104)와 통신 가능한 다양한 장치, 예를 들면, 데스크탑(desktop) 또는 랩탑(laptop)과 같은 컴퓨터(personal computer, PC)로 구현될 수도 있다.
단말장치(400)에는 IoT 기술을 기반으로 하는 스마트 홈 서비스를 제공하도록 마련된 적어도 하나의 프로그램, 예를 들면, 스마트 홈 어플리케이션이 저장 및 설치될 수 있다. 스마트 홈 어플리케이션은 단말장치(400)에서 실행됨으로써, 사용자가 가정 내 다양한 기기, 다시 말해, 복수의 전자장치(101, 102, 103, 104)를 용이하게 관리 및 제어할 수 있도록 하며, 사용자와의 상호작용 즉, 인터랙션(interaction)을 통하여 복수의 전자장치(101, 102, 103, 104)를 이용한 다양한 서비스를 제공할 수 있도록 한다.
일 실시예에서 사용자는 단말장치(400)에서 스마트 홈 어플리케이션을 실행하고, 디스플레이에 표시된 GUI(graphic user interface)를 이용하여 복수의 전자장치(101, 102, 103, 104) 중 대표장치, 즉, 마스터장치를 지정할 수 있다.
단말장치(400)의 디스플레이에는, 도 4에 도시된 바와 같이, 가정 내 각 영역 별로, 예를 들면, 거실, 주방, 침실 등의 각 영역에 대해 마스터장치를 지정할 수 있는 GUI가 표시될 수 있다. 도 4는 가정 내 복수의 영역 중 제1 영역으로서, 거실에 대해 마스터장치를 지정하는 GUI를 일례로 도시한 것으로, 사용자는 적어도 하나의 다른 영역에 대해서도 같은 방식으로 GUI를 이용하여 마스터장치를 지정할 수 있다.
구체적으로, 단말장치(400)의 디스플레이에는, 제1 영역, 다시 말해, 거실에 대해 마스터장치를 선택하도록 안내하는 메시지(401)와 선택 가능한 전자장치에 대응하는 복수의 메뉴항목(402, 403, 404)이 표시될 수 있다.
사용자는 복수의 메뉴항목(402, 403, 404) 중 어느 하나(403)를 선택하여, 선택된 메뉴항목(403)에 대응하는 전자장치, 예를 들면, 제1전자장치(101)인 TV를 제1 영역의 마스터장치로서 지정할 수 있다. 제1전자장치(101)를 제외한 제1영역의 다른 전자장치들(102, 203, 204)은 슬레이브장치가 된다.
단말장치(400)의 디스플레이에는 TV가 마스터장치로 선택되었음을 통지하는 메시지(405)가 표시될 수 있다.
단말장치(400)는 메뉴항목(402, 403, 404)에 대응하는 각 전자장치에 마스터/슬레이브 설정에 대응하여 마이크의 활성화 또는 비활성화와 관련된 제어신호를 전송할 수 있다.
예를 들어, 마스터장치에 대응하는 TV에는 마이크를 활성화시키는 제어신호가 전송되고, 슬레이브장치에 대응하는 에어컨과 공기청정기에는 마이크를 비활성화시키는 제어신호가 전송될 수 있다.
그에 따라, 제어신호를 수신한 복수의 전자장치에 대해, 마스터장치의 마이크가 활성화되고, 슬레이브장치의 마이크가 비활성화됨으로써, 마스터/슬레이브 설정이 완료될 수 있다.
이렇게 마스터/슬레이브 설정이 완료되면, 단말장치(400)의 디스플레이에는 마스터장치인 TV를 통한 음성명령을 안내하는 메시지(406)가 표시될 수 있다.
한편, 다른 실시예로서, 상기와 같은 복수의 전자장치(101, 102, 103, 104)에 대한 마스터/슬레이브 설정은 복수의 전자장치(101, 102, 103, 104) 중 어느 하나를 통해 이루어질 수도 있다.
예를 들면, 사용자는 제1전자장치(101), 즉, TV를 이용하여 제1전자장치(101) 또는 다른 전자장치들(102, 103, 104) 중 어느 하나를 대표장치, 다시 말해, 마스터장치로서 지정할 수 있다.
이 경우, 제1전자장치(101)에는 스마트 홈 어플리케이션이 저장 및 설치될 수 있다. 제1전자장치(101)는, 스마트 홈 어플리케이션이 실행되는 것에 기초하여, 디스플레이(도 5의 110)에, 도 4와 같은 마스터/슬레이브 설정을 위한 GUI가 표시되도록 할 수 있다. GUI는 복수의 전자장치(101, 102, 103, 104)에 대응하는 복수의 메뉴항목을 포함할 수 있다.
사용자는 리모컨과 같은 사용자입력부(도 5의 130)를 이용하여 복수의 메뉴항목 중 어느 하나를 선택함으로써, 선택된 메뉴항목에 대응하는 장치, 예를 들면, 제1전자장치(101)를 제1영역의 마스터장치로 지정할 수 있다. 제1전자장치(101)를 제외한 제1영역의 다른 전자장치들(102, 203, 204)은 슬레이브장치가 된다.
그리고, 제1전자장치(101)는 마스터장치로 지정된 자신의 마이크(140)를 활성화시키고, 인터페이스부(도 5의 120)를 통해 다른 전자장치들(102, 103, 104)로 마이크를 비활성화시키는 제어신호를 전송할 수 있다.
그에 따라, 복수의 전자장치(101, 102, 103, 104)에 대해, 마스터장치의 마이크가 활성화되고, 슬레이브장치의 마이크가 비활성화됨으로써, 마스터/슬레이브 설정이 완료될 수 있다.
본 발명 일 실시예에서는, 상기와 같이 복수의 전자장치(101, 102, 103, 104) 중 어느 하나 또는 외부장치인 단말장치(400)의 GUI를 이용하여 마스터/슬레이브에 대한 사용자 설정의 편의를 제공할 수 있다.
이하에서는, 복수의 전자장치(101, 102, 103, 104) 중 제1전자장치(101)를 대표장치(마스터장치)로 지정하고, 제1전자장치(101)에 의해 사용자의 음성명령을 수신 및 서버(500)로 송신하고, 제1전자장치(101)가 서버(500)로부터 제어명령을 수신하여, 복수의 전자장치(101, 102, 103, 104) 중 어느 하나에 대응하는 타겟(마스터장치와 슬레이브장치 중 적어도 하나)에서 제어명령에 기초한 동작이 수행되는 실시예를 중심으로 본 발명에 관해 설명하기로 한다. 그러나, 본 발명은 제시되는 실시예에 한정되는 것이 아니므로, 다른 전자장치, 예를 들면, 제2전자장치(102) 또는 제3전자장치(103)를 대표장치로 지정하는 경우도 본 발명에 포함되며, 이 경우 해당 대표장치의 동작은 제1전자장치(101)에 대응하는 것으로 이해될 것이다.
도 5는 본 발명 일 실시예에 의한 제1전자장치의 구성을 도시한 블록도이다.
도 5는 마스터장치로서 동작하는 제1전자장치(101)의 구성을 예로 들어 도시한 것으로, 다른 전자장치가 마스터장치인 경우에도 해당 장치는 도 5와 같은 구성을 가지는 것으로 이해될 것이다.
일 실시예에서, 제1전자장치(101)는 영상을 표시할 수 있는 디스플레이(110)가 마련된 디스플레이장치로서 구현될 수 있다. 그러나, 제1전자장치(101)의 구현 형태는 한정되는 것이 아니므로, 다른 실시예로서, 제1전자장치(101)는, 연결된 별도의 디스플레이로 신호를 전송하는 셋탑박스와 같은 영상처리장치로서 구현될 수도 있다.
일 실시예에서 디스플레이장치로 구현된 제1전자장치(101)는 방송국의 송출장비로부터 수신되는 방송신호, 방송정보, 또는 방송데이터 중 적어도 하나에 기초한 방송 영상을 처리할 수 있는 텔레비전(TV)으로 구현될 수 있다. 이 경우, 제1전자장치(101)에는 방송신호를 채널 별로 튜닝하기 위한 튜너가 마련될 수 있다.
제1전자장치(101)가 텔레비전인 경우, 제1전자장치(101)는 직접 또는 제1전자장치(101)와 케이블 등에 의해 연결될 수 있는 부가기기, 예를 들면, 셋탑박스(set-top box, STB), OC 박스(one-connect box), 미디어박스 등을 통해 방송국의 송출장비로부터 수신되는 방송신호, 방송정보, 또는 방송데이터 중 적어도 하나에 기초한 방송 컨텐트를 수신할 수 있다. 여기서, 제1전자장치(101)와 부가기기의 연결 방식은 케이블에 한정되는 것은 아니며, 다양한 유무선 인터페이스가 적용될 수 있다.
제1전자장치(101)는, 예를 들면 방송국으로부터 송출되는 RF(radio frequency) 신호로서 방송 컨텐트를 무선으로 수신할 수 있으며, 이를 위해 제1전자장치(101)에는 신호를 수신할 수 있는 안테나가 마련될 수 있다.
제1전자장치(101)에서, 방송 컨텐트는 지상파, 케이블, 위성 등을 통해서 수신 가능하며, 신호공급원은 방송국에 한정되지 않는다. 즉, 데이터의 송수신이 가능한 장치 또는 스테이션이라면 본 발명의 영상소스에 포함될 수 있다.
제1전자장치(101)에서 수신되는 신호의 규격은 장치의 구현 형태에 대응하여 다양한 방식으로 구성될 수 있으며, 제1전자장치(101)는 인터페이스부(120)의 구현 형태에 대응하여, HDMI(High Definition Multimedia Interface), HDMI-CEC(Consumer Electronics Control), 디스플레이 포트(display port, DP), DVI, 컴포지트(composite) 비디오, 컴포넌트(component) 비디오, 슈퍼 비디오(super video), DVI(Digital Visual Interface), 썬더볼트(Thunderbolt), RGB 케이블, SCART(Syndicat des Constructeurs d'Appareils Radiorecepteurs et Televiseurs), USB(universal serial bus) 등의 규격에 대응하는 신호를 영상 컨텐트로서 유선으로 수신할 수 있다.
일 실시예에서, 제1전자장치(101)는 스마트 TV 또는 IP TV(Internet Protocol TV)로 구현될 수 있다. 스마트 TV는 실시간으로 방송신호를 수신하여 표시할 수 있고, 웹 브라우징 기능을 가지고 있어 실시간 방송신호의 표시와 동시에 인터넷을 통하여 다양한 컨텐트 검색 및 소비가 가능하고 이를 위하여 편리한 사용자 환경을 제공할 수 있는 TV이다. 또한, 스마트 TV는 개방형 소프트웨어 플랫폼을 포함하고 있어 사용자에게 양방향 서비스를 제공할 수 있다. 따라서, 스마트 TV는 개방형 소프트웨어 플랫폼을 통하여 다양한 컨텐트, 예를 들어 소정의 서비스를 제공하는 어플리케이션의 컨텐트를 사용자에게 제공할 수 있다. 이러한 어플리케이션은 다양한 종류의 서비스를 제공할 수 있는 응용 프로그램으로서, 예를 들어 SNS, 금융, 뉴스, 날씨, 지도, 음악, 영화, 게임, 전자 책 등의 서비스를 제공하는 어플리케이션을 포함한다.
그러나, 본 발명의 사상이 제1전자장치(101)의 구현 예시에 한정되지 않는 바, 제1전자장치(101)는 TV 이외에도 영상을 처리 가능한 다양한 종류의 구현 예시, 예를 들어, 데스크탑(desktop) 또는 랩탑(laptop)과 같은 컴퓨터(personal computer, PC)의 모니터 등에도 적용될 수 있다.
제1전자장치(101)는 내부/외부의 저장매체에 저장된 신호/데이터에 기초한 동영상, 정지영상, 어플리케이션(application), OSD(on-screen display), 다양한 동작 제어를 위한 유저 인터페이스(user interface, UI) 등을 화면에 표시하도록 신호를 처리할 수 있다.
제1전자장치(101)는 컨텐트 제공을 위해 마련된 컨텐트 프로바이더를 포함한 다양한 외부장치들로부터 유선 또는 무선 네트워크 통신에 의해 컨텐트를 제공받을 수 있으며, 통신의 종류는 한정되지 않는다.
구체적으로, 제1전자장치(101)는 인터페이스부(120)의 구현 형태에 대응하여 와이파이(Wi-Fi), 와이파이 다이렉트(Wi-Fi Direct), 블루투스(bluetooth), 블루투스 저에너지(bluetooth low energy), 지그비(Zigbee), UWB(Ultra-Wideband), NFC(Near Field Communication) 등의 규격에 대응하는 신호를 영상 컨텐트로서 무선 네트워크 통신을 통해 수신할 수 있다. 또한, 제1전자장치(101)는 이더넷(Ethernet) 등과 같은 유선 네트워크 통신을 통해 컨텐트 신호를 수신할 수 있다.
본 발명 일 실시예에 따른 제1전자장치(101)는, 도 5에 도시된 바와 같이, 디스플레이(110), 인터페이스부(120), 사용자입력부(130), 마이크(140), 스피커(150), 저장부(160) 및 프로세서(170)를 포함한다. 인터페이스부(120)는 유선 인터페이스부(111)와 무선 인터페이스부(112)를 포함할 수 있다.
다만, 도 5에 도시된 본 발명의 일 실시예에 의한 제1전자장치(101)의 구성은 하나의 예시일 뿐이며, 다른 실시예에 의한 제1전자장치는 도 5에 도시된 구성 외에 다른 구성으로 구현될 수 있다. 즉, 본 발명의 제1전자장치(101)는 도 5에 도시된 구성 외 다른 구성이 추가되거나, 혹은 도 5에 도시된 구성 중 적어도 하나가 배제된 형태로 구현될 수 있다. 또한, 본 발명의 제1전자장치(101)는, 도 5에 구성된 구성의 일부가 변경되는 형태로 구현될 수도 있다.
디스플레이(110)는 영상을 디스플레이할 수 있다.
디스플레이(110)의 구현 방식은 한정되지 않으며, 예를 들면 액정(liquid crystal), 플라즈마(plasma), 발광 다이오드(light-emitting diode), 유기발광 다이오드(organic light-emitting diode), 면전도 전자총(surface-conduction electron-emitter), 탄소 나노 튜브(carbon nano-tube), 나노 크리스탈(nano-crystal) 등의 다양한 디스플레이 방식으로 구현될 수 있다. 일 실시예에서, 디스플레이(110)는 영상을 표시하는 디스플레이 패널을 포함하며, 그 구현 방식에 따라서 부가적인 구성, 예를 들면 구동부(driver)를 더 포함할 수 있다.
일 실시예에서 디스플레이(110)에는 복수의 전자장치(101, 102, 103, 104)에 대한 마스터/슬레이브 설정을 위한 GUI가 표시될 수 있다. 여기서, 복수의 전자장치(101, 102, 103, 104)는 가정 내 소정 영역, 예를 들어, 거실, 주방, 침실 등에 위치된 것을 일례로 한다. GUI는 복수의 전자장치(101, 102, 103, 104)에 대응하며 사용자 선택이 가능한 복수의 메뉴항목을 포함할 수 있다. 사용자로부터 복수의 메뉴항목 중 어느 하나를 선택하는 사용자 입력이 수신되면, 선택된 메뉴항목에 대응하는 전자장치가 마스터, 즉, 대표장치로 지정될 수 있다.
일 실시예에서 디스플레이(110)에는, 음성명령에 대응하여 서버(500)로부터 수신한 응답메시지가 표시될 수 있다. 응답메시지는, 예를 들어, 음성명령에 대한 처리 결과를 사용자에게 통지하는 GUI를 포함할 수 있다. 그에 따라, 슬레이브로서 동작하는 전자장치들(102, 103, 104)에 디스플레이(110)가 마련되지 않은 경우라도, 마스터로서 동작하는 제1전자장치(101)를 이용하여 음성명령의 처리 결과가 영상으로서 사용자에게 제공될 수 있다.
인터페이스부(120)는, 제1전자장치(101)가 다른 전자장치들(102, 103, 104), 서버(500) 또는 단말장치(400)를 포함하는 다양한 외부의 장치와 통신할 수 있도록 한다.
인터페이스부(120)는 유선 인터페이스부(121)를 포함할 수 있다. 유선 인터페이스부(121)는 HDMI, HDMI-CEC, USB, 컴포넌트(Component), 디스플레이 포트(DP), DVI, 썬더볼트, RGB 케이블 등의 규격에 따른 신호/데이터를 송/수신하는 연결부를 포함할 수 있다. 여기서, 유선 인터페이스부(121)는 이들 각각의 규격에 대응하는 적어도 하나 이상의 커넥터, 단자 또는 포트를 포함할 수 있다.
유선 인터페이스부(121)는 영상소스 등으로부터 신호를 입력받는 입력 포트를 포함하는 형태로 구현되며, 경우에 따라 출력 포트를 더 포함하여 양방향으로 신호를 송수신 가능하게 마련될 수 있다.
유선 인터페이스부(121)는 지상파/위성방송 등 방송규격에 따른 방송신호를 수신할 수 있는 안테나가 연결되거나, 케이블 방송 규격에 따른 방송신호를 수신할 수 있는 케이블이 연결될 수 있도록, HDMI 포트, DisplayPort, DVI 포트, 썬더볼트, 컴포지트(composite) 비디오, 컴포넌트(component) 비디오, 슈퍼 비디오(super video), SCART 등과 같이, 비디오 및/또는 오디오 전송규격에 따른 커넥터 또는 포트 등을 포함할 수 있다. 다른 예로서, 제1전자장치(101)는 방송신호를 수신할 수 있는 안테나를 내장할 수도 있다.
제1전자장치(101)는 인터페이스부(120)를 통해 수신하는 비디오/오디오신호가 방송신호인 경우, 수신된 방송신호를 채널 별로 튜닝하는 튜너(tuner)를 더 포함할 수 있다. 튜너는 튜닝된 특정 채널의 방송신호를 복조하여 트랜포트스트림(transport stream, TS) 형태의 신호로 출력하는 디모듈레이터를 포함할 수 있다. 다시 말해, 튜너와 디모듈레이터는 통합된 형태의 단일 칩으로 설계되거나, 상호 분리된 2개의 칩으로 각각 구현될 수 있다.
유선 인터페이스부(121)는 USB 포트 등과 같은 범용 데이터 전송규격에 따른 커넥터 또는 포트 등을 포함할 수 있다. 유선 인터페이스부(121)는 광 전송규격에 따라 광게이블이 연결될 수 있는 커넥터 또는 포트 등을 포함할 수 있다. 유선 인터페이스부(121)는 외부 마이크 또는 마이크를 구비한 외부 오디오기기가 연결되며, 오디오기기로부터 오디오 신호를 수신 또는 입력할 수 있는 커넥터 또는 포트 등을 포함할 수 있다. 인터페이스부(121)는 헤드셋, 이어폰, 외부 스피커 등과 같은 오디오기기가 연결되며, 오디오기기로 오디오 신호를 전송 또는 출력할 수 있는 커넥터 또는 포트 등을 포함할 수 있다. 유선 인터페이스부(121)는 이더넷(Ethernet) 등과 같은 네트워크 전송규격에 따른 커넥터 또는 포트를 포함할 수 있다. 예컨대, 유선 인터페이스부(121)는 라우터 또는 게이트웨이에 유선 접속된 랜카드 등으로 구현될 수 있다.
유선 인터페이스부(121)는 상기 커넥터 또는 포트를 통해 셋탑박스, 광학미디어 재생장치와 같은 외부기기, 또는 외부 디스플레이장치나, 스피커, 서버 등과 1:1 또는 1:N (N은 자연수) 방식으로 유선 접속됨으로써, 해당 외부기기로부터 비디오/오디오 신호를 수신하거나 또는 해당 외부기기에 비디오/오디오 신호를 송신한다. 유선 인터페이스부(121)는, 비디오/오디오 신호를 각각 별개로 전송하는 커넥터 또는 포트를 포함할 수도 있다.
유선 인터페이스부(121)는 다양한 종류의 통신 프로토콜에 대응하는 무선 통신모듈(S/W module, chip 등)을 포함하는 통신회로(communication circuitry)로서 구현될 수 있다.
일 실시예에서 유선 인터페이스부(121)는 제1전자장치(101)에 내장되나, 동글(dongle) 또는 모듈(module) 형태로 구현되어 제1전자장치(101)의 커넥터에 착탈될 수도 있다.
인터페이스부(120)는 무선 인터페이스부(122)를 포함할 수 있다. 무선 인터페이스부(122)는 제1전자장치(101)의 구현 형태에 대응하여 다양한 방식으로 구현될 수 있다. 예를 들면, 무선 인터페이스부(122)는 통신방식으로 RF(radio frequency), 지그비(Zigbee), 블루투스(Bluetooth, BT), 블루투스 저에너지(Bluetooth Low Energy, BLE), 와이파이(Wi-Fi), 와이파이 다이렉트, UWB(Ultra WideBand) 및 NFC(Near Field Communication) 등 무선통신을 사용할 수 있다.
무선 인터페이스부(122)는 다양한 종류의 통신 프로토콜에 대응하는 무선 통신모듈(S/W module, chip 등)을 포함하는 통신회로(communication circuitry)로서 구현될 수 있다.
일 실시예에서 무선 인터페이스부(122)는 무선랜유닛을 포함한다. 무선랜유닛은 프로세서(170)의 제어에 따라 억세스 포인트(access point, AP)를 통해 무선으로 외부장치와 연결될 수 있다. 무선랜유닛은 와이파이 모듈을 포함한다.
일 실시예에서 무선 인터페이스부(122)는 억세스 포인트 없이 무선으로 제1전자장치(101)와 외부장치 사이에 1 대 1 다이렉트 통신을 지원하는 무선통신모듈을 포함한다. 무선통신모듈은 와이파이 다이렉트, 블루투스, 블루투스 저에너지 등의 통신방식을 지원하도록 구현될 수 있다. 제1전자장치(101)가 외부장치와 다이렉트로 통신을 수행하는 경우, 저장부(160)에는 통신 대상 기기인 외부장치에 대한 식별정보(예를 들어, MAC address 또는 IP address)가 저장될 수 있다.
본 발명 일 실시예에 따른 제1전자장치(101)에서, 무선 인터페이스부(122)는 성능에 따라 무선랜유닛과 무선통신모듈 중 적어도 하나에 의해 외부장치와 무선 통신을 수행하도록 마련된다.
다른 실시예에서 무선 인터페이스부(122)는 LTE와 같은 이동통신, 자기장을 포함하는 EM 통신, 가시광통신 등의 다양한 통신방식에 의한 통신모듈을 더 포함할 수 있다.
무선 인터페이스부(122)는 적외선 통신규격에 따라 IR(Infrared) 신호를 송신 및/또는 수신할 수 있는 IR송신부 및/또는 IR수신부를 포함할 수 있다. 일례로, 무선 인터페이스부(122)는 IR송신부 및/또는 IR수신부를 통해 리모컨 또는 다른 외부기기로부터 리모컨신호를 수신 또는 입력하거나, 다른 외부기기로 리모컨신호를 전송 또는 출력할 수 있다. 다른 예로서, 제1전자장치(101)는 와이파이(Wi-Fi), 블루투스(bluetooth) 등 다른 방식의 무선 인터페이스부(122)를 통해 리모컨 또는 다른 외부기기와 리모컨신호를 송수신할 수 있다.
일 실시예에서 무선 인터페이스부(122)는 마이크(140)를 통해 수신된 음성명령의 정보로서 소정 데이터를 서버(500)와 같은 외부의 장치로 전송할 수 있다. 여기서, 전송되는 데이터의 형태/종류는 한정되지 않으며, 예를 들면, 사용자로부터 발화된 음성에 대응하는 오디오신호나, 오디오신호로부터 추출된 음성특징 등을 포함할 수 있다.
또한, 무선 인터페이스부(122)는 서버(500)와 같은 외부의 장치로부터 해당 음성명령의 처리 결과에 대응하는 응답신호를 수신할 수 있다. 제1전자장치(101)는 수신된 신호에 기초하여, 음성 처리결과에 대응하는 영상을 디스플레이(110)를 통해 표시하거나, 또는 음성 처리결과에 대응하는 사운드를 내부 또는 외부의 스피커를 통해 출력할 수 있다.
본 발명 일 실시에에 따른 제1전자장치(101)에서, 무선 인터페이스부(122)는, 마스터장치인 제1전자장치(101) 및 슬레이브장치인 다른 전자장치들(102, 103, 104)중 하나를 타겟으로 하여 수신된 음성명령의 정보를 서버(500)로 전송하고, 서버(500)로부터 음성명령의 처리 결과에 대응하는 응답신호를 수신할 수 있다.
여기서, 음성명령의 정보와 함께 장치 정보, 예를 들면, 타겟장치 또는 대표장치 중 적어도 하나의 식별정보가 서버(500)로 전송될 수 있으며, 서버(500)로부터 응답신호와 타겟장치의 식별정보가 함께 수신될 수 있다. 응답신호는 음성명령에 대한 처리 결과를 사용자에게 통지하는 응답메시지 또는 타겟장치에 대한 제어명령 중 적어도 하나를 포함할 수 있다.
다만, 상기한 실시예는 예시로서, 음성명령의 정보를 서버(500)로 전송하지 않고, 제1전자장치(101) 내에서 자체적으로 처리할 수도 있다. 즉, 다른 실시예에서는 제1전자장치(101)가 STT 서버의 역할을 수행하도록 구현 가능하다.
상기와 같은 음성인식과 관련된 구체적인 과정들에 관해서는 후술하는 도 9의 실시예에서 보다 상세하게 설명하기로 한다.
제1전자장치(101)는 무선 인터페이스부(122)를 통해 리모컨과 같은 입력장치와 통신을 수행하여, 입력장치로부터 사용자음성에 대응하는 소리 신호를 수신할 수 있다.
일 실시예의 제1전자장치(101)에서, 외부의 서버(500) 등과 통신하는 통신모듈과 리모컨과 통신하는 통신모듈은 서로 다를 수 있다. 예를 들어, 제1전자장치(101)는, 서버(500)와 이더넷 모뎀 또는 와이파이 모듈을 통해 통신을 수행하고, 리모컨과 블루투스 모듈을 통해 통신을 수행할 수 있다.
다른 실시예의 제1전자장치(101)에서, 외부의 서버(500) 등과 통신하는 통신모듈과 리모컨과 통신하는 통신모듈은 같을 수 있다. 예를 들어, 제1전자장치(101)는 블루투스 모듈을 통해 서버(500) 및 리모컨과 통신을 수행할 수 있다.
사용자입력부(130)는 사용자의 입력에 의해, 기설정된 다양한 제어 커맨드 또는 한정되지 않은 정보를 프로세서(170)에 전달한다.
사용자입력부(130)는 제1전자장치(101) 본체에 마련된 전원키, 숫자키, 메뉴키 등의 버튼을 포함하는 키패드(또는 입력패널)를 포함한다.
일 실시예에서 사용자입력부(130)는 제1전자장치(101)를 원격으로 제어 가능하게 기설정된 커맨드/데이터/정보/신호를 생성하여 제1전자장치(101)로 전송하는 입력장치를 포함한다. 입력장치는 리모컨(remote control), 키보드(keyboard), 마우스(mouse) 등을 포함하며, 제1전자장치(101) 본체와 이격 분리되어, 사용자 입력을 수신할 수 있다. 리모컨에는 사용자의 터치입력을 수신하는 터치 감지부 및/또는 사용자에 의한 자체 모션을 감지하는 모션 감지부가 마련될 수 있다. 입력장치는 리모컨 어플리케이션이 설치된 스마트 폰과 같은 단말장치를 포함하며, 이 경우 터치스크린을 통한 사용자의 터치입력이 수신 가능하다.
입력장치는 제1전자장치(101)와 무선통신이 가능한 외부장치가 되며, 무선통신은 블루투스, 적외선 통신, RF 통신, 무선랜, 와이파이 다이렉트 등을 포함한다.
마이크(microphone)(140)는 소리 즉, 음파를 수신할 수 있다.
일 실시예에서 마이크(140)는, 사용자로부터 발화된 음성에 대응하는 음파를 수신할 수 있다.
일 실시예에서 마이크(140)는 원거리 음성인식을 지원할 수 있으며, 복수 개의 마이크 어레이 형태로 구현될 수 있다.
마이크(140)를 통해 입력된 소리, 즉, 사운드는 신호변환부에 의해 전기적인 신호로 변환된다. 일 실시예에서 신호변환부는 아날로그 음파를 디지털 신호로 변환하는 AD 변환부를 포함할 수 있다.
본 발명 일 실시예에서 마이크(140)는 제1전자장치(101)에 자체적으로 마련되도록 구현되며, 제1전자장치(101)에 마련되는 마이크의 개수, 형태 및 설치 위치는 한정되지 않는다.
다른 실시예로서 제1전자장치(101)는, 별도의 장치에 마련된 마이크(140)를 포함할 수 있다. 예를 들면, 제1전자장치(101)가 텔레비전과 같은 디스플레이장치인 경우, 사용자입력이 수신 가능하게 마련되는 리모컨에 설치된 마이크(140)를 통해 음파가 수신되고, 그에 대응하는 소리 신호가 리모컨으로부터 제1전자장치(101)로 전송될 수 있다. 여기서, 리모컨의 마이크(140)를 통해 수신된 아날로그 음파는 디지털 신호로 변환되어 제1전자장치(101)로 전송될 수 있다.
사용자로부터 발화된 음성명령은, 일례로 마스터장치인 제1전자장치(101)를 타겟으로 할 수 있으나, 다른 예로서 슬레이브장치인 전자장치들(102, 103, 104) 중 어느 하나를 타겟으로 할 수 있다. 즉, 슬레이브로서 동작하는 전자장치들(102, 103, 104)에 마이크(140)가 마련되지 않은 경우라도, 마스터로서 동작하는 제1전자장치(101)를 이용하여 사용자가 음성명령을 할 수 있다.
스피커(150)는 음향 즉, 사운드를 출력한다.
스피커(150)는, 예를 들어, 가청주파수인 20Hz 내지 20KHz 대역의 사운드를 출력 가능한 적어도 하나의 라우드스피커(loudspeaker)로서 구현될 수 있다. 스피커(150)는 복수의 채널의 오디오신호/소리신호에 대응하는 사운드를 출력할 수 있다.
일 실시예에서 스피커(150)는 마이크(140)를 통해 수신되는 음성명령에 대응하는 소리 신호의 처리에 따라 생성된 사운드를 출력할 수 있다.
여기서, 스피커(150)에서 출력되는 사운드에 대응하는 소리 신호는, 마이크(140)를 통해 수신된 음성명령의 처리 결과로서 서버(500)로부터 수신된 응답메시지에 포함될 수 있다. 출력 사운드는, 일례로 마스터장치인 제1전자장치(101)를 타겟으로 하는 제어명령에 대응할 수 있으나, 다른 예로서 슬레이브장치인 전자장치들(102, 103, 104) 중 어느 하나를 타겟으로 하는 제어명령에 대응할 수 있다. 즉, 슬레이브로서 동작하는 전자장치들(102, 103, 104)에 스피커(150)가 마련되지 않은 경우라도, 마스터로서 동작하는 제1전자장치(101)를 이용하여 음성명령의 처리 결과가 사운드로서 사용자에게 제공될 수 있다.
저장부(160)는 제1전자장치(101)의 다양한 데이터를 저장하도록 구성된다.
저장부(160)는 제1전자장치(101)에 공급되는 전원이 차단되더라도 데이터들이 남아있어야 하며, 변동사항을 반영할 수 있도록 쓰기 가능한 비휘발성 메모리(writable ROM)로 구비될 수 있다. 즉, 저장부(160)는 플래쉬 메모리(flash memory), EPROM 또는 EEPROM 중 어느 하나로 구비될 수 있다. 저장부(160)는 제1전자장치(101)의 읽기 또는 쓰기 속도가 비휘발성 메모리에 비해 빠른 DRAM 또는 SRAM과 같은 휘발성 메모리(volatile memory)를 더 구비할 수 있다.
저장부(160)에 저장되는 데이터는, 예를 들면 제1전자장치(101)의 구동을 위한 운영체제를 비롯하여, 이 운영체제 상에서 실행 가능한 다양한 프로그램, 어플리케이션, 영상데이터, 부가데이터 등을 포함한다.
구체적으로, 저장부(160)는 프로세서(170)의 제어에 따라 각 구성요소들의 동작에 대응되게 입/출력되는 신호 또는 데이터를 저장할 수 있다. 저장부(160)는 제1전자장치(101)의 제어를 위한 제어 프로그램, 제조사에서 제공되거나 외부로부터 다운로드 받은 어플리케이션과 관련된 UI, UI를 제공하기 위한 이미지들, 사용자 정보, 문서, 데이터베이스들 또는 관련 데이터들을 저장할 수 있다.
일 실시예에서, 저장부(160)에는 음성인식 기능을 수행하기 위한 음성인식 어플리케이션이 저장 및 설치될 수 있다. 음성인식 어플리케이션은 사용자로부터 미리 정의된 시작어(이하, 트리거 워드 또는 웨이크 업 워드(wake-up word, WUW) 라고도 한다.)의 입력/발화에 응답하여 활성화, 예를 들면, 백그라운드 모드로부터 포그라운드 모드로 전환되어, 음성인식을 위한 동작을 개시하도록 구현될 수 있다.
일 실시예에서, 저장부(160)에 저장된 어플리케이션은 미리 수행된 학습에 기반하여 동작하는 머신 러닝 어플리케이션 또는 딥 러닝 어플리케이션을 포함할 수 있다.
저장부(160)에는 프로세서(170)가 소정 학습 알고리즘을 적용한 연산을 수행할 수 있도록 하는 학습데이터가 더 저장될 수 있다. 여기서, 학습데이터의 일례로서, 알고리즘을 이용하여 사용자의 음성명령에 관해 학습된 모델이 저장부(160)에 저장될 수 있다.
일 실시예에서, 제1전자장치(101)는 장치 자체에 임베디드된 저장부(160)의 데이터를 기반으로 한 학습 및 그 학습에 따른 알고리즘 모델을 적용하는 연산을 수행하는, 온디바이스 환경에서 AI 동작하도록 구현될 수 있다. 다만, 본 발명에서 제1전자장치(101)의 실시 형태는 온 디바이스 AI 장치로 한정되는 것이 아니며, 다른 실시예에서 제1전자장치(101)는 인터페이스부(110)를 통해 접속 가능한 별도의 서버에 마련된 데이터베이스에 저장된 데이터를 기반으로 한 학습 및 그 학습에 따른 알고리즘 모델을 적용하는 연산을 수행하도록 구현될 수 있다.
일 실시예에서 대표장치로서 동작하는 제1전자장치(101)의 저장부(160)에는, 그룹화에 따라 함께 묶여진 적어도 하나의 슬레이브장치, 일례로 제2전자장치(102), 제3전자장치(103), ... , 제N 전자장치(104)의 식별정보, 즉 아이디(ID)가 저장될 수 있다.
일 실시예에서, 제1전자장치(101)에서 표시되는 영상은 플래시메모리, 하드디스크 등과 같은 비휘발성의 저장부(160)에 저장된 데이터로부터 기인한 것일 수 있다. 저장부(160)는 제1전자장치(101)의 내부 또는 외부에 마련될 수 있으며, 외부에 마련되는 경우 저장부(160)는 유선 인터페이스부(121)를 통해 제1전자장치(101)에 연결될 수 있다.
본 발명의 실시예에서 저장부 라는 용어는 저장부(160), 프로세서(170) 내 롬(ROM)(도시되지 아니함), 램(RAM)(도시되지 아니함) 또는 제1전자장치(101)에 장착 가능한 메모리 카드(도시되지 아니함)(예를 들어, micro SD 카드, 메모리 스틱)를 포함하는 것으로서 정의된다.
프로세서(170)는 제1전자장치(101)의 제반 구성들이 동작하기 위한 제어를 수행한다. 프로세서(170)는 이러한 제어 동작을 수행할 수 있도록 하는 제어프로그램(혹은 인스트럭션)과, 제어프로그램이 설치되는 비휘발성의 메모리, 설치된 제어프로그램의 적어도 일부가 로드되는 휘발성의 메모리 및 로드된 제어프로그램을 실행하는 적어도 하나의 범용 프로세서, 예를 들면 마이크로 프로세서(microprocessor), 응용 프로세서(application processor) 혹은 CPU(central processing unit)를 포함할 수 있다.
프로세서(170)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다. 프로세서(170)는 복수의 프로세서, 예를 들어, 메인 프로세서(main processor) 및 슬립 모드(sleep mode, 예를 들어, 대기 전원만 공급되고 디스플레이장치로서 동작하지 않는)에서 동작하는 서브 프로세서(sub processor)를 포함할 수 있다. 또한, 프로세서, 롬 및 램은 내부 버스(bus)를 통해 상호 연결될 수 있다.
일 실시예에서, 프로세서(170)는 다양한 외부장치로부터 수신된 컨텐트 데이터에 대해 기 설정된 다양한 프로세스를 수행하는 영상처리부를 포함할 수 있다. 프로세서(170)는 영상처리를 수행하여 생성 또는 결합한 출력 신호를 디스플레이(110)에 출력함으로써, 디스플레이(110)에 영상신호에 대응하는 영상이 표시되게 할 수 있다.
영상처리부는 영상신호를 제1전자장치(101)의 영상 포맷에 대응하도록 디코드하는 디코더(decoder), 영상신호를 디스플레이(110)의 출력규격에 맞도록 조절하는 스케일러(scaler)를 포함할 수 있다.
일 실시예에서, 디코더는 예를 들어, H.264 디코더인 것을 일례로 하지만 이에 한정되는 것은 아니다. 즉, 본 발명 실시예에 따른 비디오 디코더는 MPEG(Moving Picture Experts Group) 디코더 또는 HEVC(High Efficiency Video Codec) 디코더 등 다양한 압축 표준에 따른 디코더로서 구현 가능하다.
또한, 본 발명에서 영상처리부가 처리하는 컨텐트의 종류는 한정되지 않는다. 예를 들어, 영상처리부에서 처리 가능한 컨텐트는 비디오와 같은 동영상뿐 아니라, JPEG 파일과 같은 사진, 배경화면 등의 정지화상, GUI(graphic user interface) 등을 더 포함할 수 있다.
본 발명의 영상처리부가 수행하는 영상처리 프로세스의 종류는 한정되지 않는바, 예를 들면 인터레이스(interlace) 방식의 방송신호를 프로그레시브(progressive) 방식으로 변환하는 디인터레이싱(de-interlacing), 영상 화질 개선을 위한 노이즈 감소(noise reduction), 디테일 강화(detail enhancement), 프레임 리프레시 레이트(frame refresh rate) 변환, 라인 스캐닝(line scanning) 다양한 프로세스 중 적어도 하나를 수행할 수 있다.
일 실시예에서 영상처리부는 이러한 각 프로세스를 수행하기 위한 다양한 칩셋, 메모리, 전자부품, 배선 등의 회로 구성이 인쇄회로기판(PCB) 상에 실장된 영상보드로 구현될 수 있다. 이 경우, 제1전자장치(101)에는 튜너, 영상처리부를 포함하는 프로세서(170)가 단일의 영상보드에 마련될 수 있다. 물론, 이는 일례에 불과하고 서로 통신 가능하게 연결된 복수의 인쇄회로기판에 배치될 수도 있다.
일 실시예에서 프로세서(170)는, 오디오 신호 즉, 소리 신호를 처리하는 신호처리부를 포함할 수 있다. 신호처리부에서 처리된 소리 신호는 스피커(150)를 통해 출력될 수 있다.
다만, 영상처리부와 신호처리부의 구현 형태는 한정되는 것이 아니므로, 다른 실시예에서 영상처리부 또는 신호처리부는 프로세서(170)와 구분된 별도의 마이크로 프로세서로 구현될 수도 있다.
일 실시예에서 프로세서(170)는 제1전자장치(101)에 내장되는 PCB 상에 실장되는 메인 SoC(Main SoC)에 포함되는 형태로서 구현 가능하다.
제어프로그램은, BIOS, 디바이스드라이버, 운영체계, 펌웨어, 플랫폼 및 어플리케이션 중 적어도 하나의 형태로 구현되는 프로그램(들)을 포함할 수 있다. 일 실시예로서, 어플리케이션은, 제1전자장치(101)의 제조 시에 제1전자장치(101)에 미리 설치 또는 저장되거나, 혹은 추후 사용 시에 외부로부터 어플리케이션의 데이터를 수신하여 수신된 데이터에 기초하여 제1전자장치(101)에 설치될 수 있다. 어플리케이션의 데이터는, 예를 들어, 어플리케이션 마켓과 같은 외부 서버로부터 제1전자장치(101)로 다운로드될 수도 있다. 이와 같은 외부 서버는, 본 발명의 컴퓨터프로그램제품의 일례이나, 이에 한정되는 것은 아니다.
제어프로그램은 컴퓨터와 같은 기기로 읽을 수 있는 저장매체에 기록될 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 일례로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예로서, 상기와 같은 프로세서(170)의 동작은 제1전자장치(101)와 별도로 마련되는 컴퓨터프로그램제품(미도시)에 저장된 컴퓨터프로그램으로 구현될 수도 있다.
이 경우, 컴퓨터프로그램제품은 컴퓨터프로그램에 해당하는 인스트럭션이 저장된 메모리와, 프로세서를 포함한다. 인스트럭션은, 프로세서에 의해 실행되면, 음성명령의 정보와 음성명령에 대응되는 장치의 정보를 인터페이스부(120)를 통해 서버(500)로 전송하고, 인터페이스부(120)를 통해 서버(500)로부터 음성명령의 응답메시지를 수신하여, 수신된 응답메시지가 음성명령에 대응되는 장치를 통해 출력되도록 하는 것을 포함한다. 여기서, 음성명령에 대응되는 장치는, 음성명령에 대응하여 동작을 수행하는 타겟장치 또는 음성명령을 수신하는 대표장치 중 적어도 하나를 포함할 수 있으며, 응답메시지는 복수의 형식 중 음성명령에 대응되는 장치의 메시지 출력 형식에 대응할 수 있다.
이에 따라, 제1전자장치(101)는 별도의 컴퓨터프로그램제품에 저장된 컴퓨터프로그램을 다운로드 및 실행하여, 프로세서(170)의 동작을 수행할 수 있다.
도 6은 본 발명 일 실시예에 의한 제2전자장치의 구성을 도시한 블록도이다.
도 6은 슬레이브장치로서 동작하는 제2전자장치(102)의 구성을 예로 들어 도시한 것으로, 다른 전자장치가 슬레이브인 경우에도 해당 장치는 도 6과와 같은 구성을 가지는 것으로 이해될 것이다. 예를 들면, 도 5에 도시된 제3전자장치(103)의 구성은, 도 6에 도시된 제2전자장치(102)의 구성에 대응할 수 있다.
일 실시예에서, 제2전자장치(102)는 에어컨으로서 구현될 수 있다. 그러나, 제2전자장치(102)의 구현 형태는 한정되는 것이 아니므로, 다른 실시예로서, 제2전자장치(102)는, 공기청정기나 냉장고 또는 텔레비전(TV) 등의 다른 가전기기로서 구현될 수도 있다.
본 발명 일 실시예에 따른 제2전자장치(102)는, 도 6에 도시된 바와 같이, 디스플레이(210), 인터페이스부(220), 사용자입력부(230), 마이크(240), 스피커(250), 저장부(260) 및 프로세서(270)를 포함한다. 인터페이스부(220)는 유선 인터페이스부(211)와 무선 인터페이스부(212)를 포함할 수 있다.
다만, 도 6에 도시된 본 발명의 일 실시예에 의한 제2전자장치(102)의 구성은 하나의 예시일 뿐이며, 다른 실시예에 의한 제2전자장치는 도 6에 도시된 구성 외에 다른 구성으로 구현될 수 있다. 즉, 본 발명의 제2전자장치(102)는 도 6에 도시된 구성 외 다른 구성이 추가되거나, 혹은 도 6에 도시된 구성 중 적어도 하나가 배제된 형태로 구현될 수 있다. 또한, 본 발명의 제2전자장치(102)는, 도 6에 구성된 구성의 일부가 변경되는 형태로 구현될 수도 있다.
본 발명에서는, 도 6에 도시된 제2전자장치(102)의 구성요소 중, 도 5에 도시된 제1전자장치(101)와 동일한 동작을 수행하는 구성요소에 대해서는 동일한 명칭을 사용하기로 하며, 중복되는 부분에 대해서는 설명이 생략될 수 있다.
디스플레이(210)는 영상을 디스플레이할 수 있다. 디스플레이(210)의 구현 방식은 한정되지 않는다.
일 실시예에서 디스플레이(210)는 사용자의 터치입력을 수신할 수 있는 터치스크린을 포함할 수 있다.
일 실시예에서 디스플레이(210)에는 복수의 전자장치(101, 102, 103, 104)에 대한 마스터/슬레이브 설정을 위한 GUI가 표시될 수 있다. 여기서, 복수의 전자장치(101, 102, 103, 104)는 가정 내 소정 영역, 예를 들어, 거실, 주방, 침실 등에 위치된 것을 일례로 한다.
GUI는 복수의 전자장치(101, 102, 103, 104)에 대응하며 사용자 선택이 가능한 복수의 메뉴항목을 포함할 수 있다. 사용자로부터 복수의 메뉴항목 중 어느 하나를 선택하는 사용자 입력이 수신되면, 선택된 메뉴항목에 대응하는 전자장치가 마스터, 즉, 대표장치로 지정될 수 있다.
인터페이스부(220)는, 제2전자장치(102)가 제1전자장치(101) 또는 단말장치(400)를 포함하는 다양한 외부의 장치와 통신할 수 있도록 한다.
인터페이스부(220)는 유선 인터페이스부(221)를 포함할 수 있다.
유선 인터페이스부(221)는 USB 포트 등과 같은 범용 데이터 전송규격에 따른 커넥터 또는 포트 등을 포함할 수 있다.
유선 인터페이스부(221)는 다양한 종류의 통신 프로토콜에 대응하는 무선 통신모듈(S/W module, chip 등)을 포함하는 통신회로(communication circuitry)로서 구현될 수 있다.
인터페이스부(220)는 무선 인터페이스부(222)를 포함할 수 있다. 무선 인터페이스부(222)는 제2전자장치(102)의 구현 형태에 대응하여 다양한 방식으로 구현될 수 있다. 예를 들면, 무선 인터페이스부(222)는 통신방식으로 RF(radio frequency), 지그비(Zigbee), 블루투스(Bluetooth, BT), 블루투스 저에너지(Bluetooth Low Energy, BLE), 와이파이(Wi-Fi), 와이파이 다이렉트, UWB(Ultra WideBand) 및 NFC(Near Field Communication) 등 무선통신을 사용할 수 있다.
무선 인터페이스부(222)는 다양한 종류의 통신 프로토콜에 대응하는 무선 통신모듈(S/W module, chip 등)을 포함하는 통신회로(communication circuitry)로서 구현될 수 있다.
일 실시예에서 무선 인터페이스부(222)는 무선랜유닛을 포함한다. 무선랜유닛은 프로세서(270)의 제어에 따라 억세스 포인트(access point, AP)를 통해 무선으로 외부장치와 연결될 수 있다. 무선랜유닛은 와이파이 모듈을 포함한다.
일 실시예에서 무선 인터페이스부(222)는 억세스 포인트 없이 무선으로 제2전자장치(102)와 외부장치 사이에 1 대 1 다이렉트 통신을 지원하는 무선통신모듈을 포함한다. 무선통신모듈은 와이파이 다이렉트, 블루투스, 블루투스 저에너지 등의 통신방식을 지원하도록 구현될 수 있다. 제2전자장치(102)가 외부장치와 다이렉트로 통신을 수행하는 경우, 저장부(260)에는 통신 대상 기기인 외부장치에 대한 식별정보(예를 들어, MAC address 또는 IP address)가 저장될 수 있다.
본 발명 일 실시예에 따른 제2전자장치(102)에서, 무선 인터페이스부(222)는 성능에 따라 무선랜유닛과 무선통신모듈 중 적어도 하나에 의해 외부장치와 무선 통신을 수행하도록 마련된다.
무선 인터페이스부(222)는 적외선 통신규격에 따라 IR(Infrared) 신호를 송신 및/또는 수신할 수 있는 IR송신부 및/또는 IR수신부를 포함할 수 있다. 일례로, 무선 인터페이스부(222)는 IR송신부 및/또는 IR수신부를 통해 리모컨 또는 다른 외부기기로부터 리모컨신호를 수신 또는 입력하거나, 다른 외부기기로 리모컨신호를 전송 또는 출력할 수 있다. 다른 예로서, 제2전자장치(102)는 와이파이(Wi-Fi), 블루투스(bluetooth) 등 다른 방식의 무선 인터페이스부(222)를 통해 리모컨 또는 다른 외부기기와 리모컨신호를 송수신할 수 있다.
일 실시예의 제2전자장치(102)에서, 외부의 서버 등과 통신하는 통신모듈과 리모컨과 통신하는 통신모듈은 서로 다를 수 있다. 예를 들어, 제2전자장치(102)는, 서버와 이더넷 모뎀 또는 와이파이 모듈을 통해 통신을 수행하고, 리모컨과 블루투스 모듈을 통해 통신을 수행할 수 있다.
다른 실시예의 제2전자장치(102)에서, 외부의 서버 등과 통신하는 통신모듈과 리모컨과 통신하는 통신모듈은 같을 수 있다. 예를 들어, 제2전자장치(102)는 블루투스 모듈을 통해 서버 및 리모컨과 통신을 수행할 수 있다.
일 실시예에서 제2전자장치(102)는, 제1전자장치(101)로부터 인터페이스부(220)를 통해 제2전자장치(102)를 타겟으로 하는 제어명령을 수신할 수 있다. 제어명령은 타겟장치, 예를 들면, 제2전자장치(102)의 동작 제어가 가능한 제어코드를 포함하며, 서버(500)에서 음성명령에 기초하여 생성된 응답신호에 포함될 수 있다.
일 실시예에서 제2전자장치(102)는 제1전자장치(101)로부터 음성명령의 처리결과로서 스피커(250)에 의해 출력되는 사운드에 대응하는 오디오신호 또는 음성명령에 대한 처리 결과를 사용자에게 통지하는 GUI를 더 수신할 수 있다.
사용자입력부(230)는 사용자의 입력에 의해, 기설정된 다양한 제어 커맨드 또는 한정되지 않은 정보를 프로세서(270)에 전달한다.
사용자입력부(230)는 제2전자장치(102) 본체에 마련된 전원키, 숫자키, 메뉴키 등의 버튼을 포함하는 키패드(또는 입력패널)를 포함한다.
일 실시예에서 사용자입력부(230)는 제2전자장치(102)를 원격으로 제어 가능하게 기설정된 커맨드/데이터/정보/신호를 생성하여 제2전자장치(102)로 전송하는 리모컨과 같은 입력장치를 포함한다. 입력장치는 리모컨 어플리케이션이 설치된 스마트 폰과 같은 단말장치를 포함하며, 이 경우 터치스크린을 통한 사용자의 터치입력이 수신 가능하다.
입력장치는 제2전자장치(102)와 무선통신이 가능한 외부장치가 되며, 무선통신은 블루투스, 적외선 통신, RF 통신, 무선랜, 와이파이 다이렉트 등을 포함한다.
마이크(microphone)(240)는 소리 즉, 음파를 수신할 수 있다. 일 실시예에서 마이크(240)는, 사용자로부터 발화된 음성에 대응하는 음파를 수신할 수 있다. 다만, 도 6은 제2전자장치(102)가 슬레이브장치로 동작하는 경우를 예로 들어 도시한 바, 제2전자장치(102)의 마이크(240)는 비활성화될 수 있다.
스피커(250)는 음향 즉, 사운드를 출력한다. 스피커(250)는, 예를 들어, 가청주파수인 20Hz 내지 20KHz 대역의 사운드를 출력 가능한 적어도 하나의 라우드스피커(loudspeaker)로서 구현될 수 있다. 스피커(250)는 복수의 채널의 오디오신호/소리신호에 대응하는 사운드를 출력할 수 있다.
일 실시예에서 스피커(250)는 음성명령에 대응하는 소리 신호의 처리에 따라 생성된 사운드를 출력할 수 있다. 여기서, 스피커(250)에서 출력되는 사운드에 대응하는 소리 신호는, 제1전자장치(101)로부터 수신되는 응답 신호/데이터에 포함될 수 있다.
저장부(260)는 제2전자장치(102)의 다양한 데이터를 저장하도록 구성된다.
저장부(260)에 저장되는 데이터는, 예를 들면 제2전자장치(102)의 구동을 위한 운영체제를 비롯하여, 이 운영체제 상에서 실행 가능한 다양한 프로그램, 어플리케이션, 영상데이터, 부가데이터 등을 포함한다.
프로세서(270)는 제2전자장치(102)의 제반 구성들이 동작하기 위한 제어를 수행한다. 프로세서(270)는 이러한 제어 동작을 수행할 수 있도록 하는 제어프로그램(혹은 인스트럭션)과, 제어프로그램이 설치되는 비휘발성의 메모리, 설치된 제어프로그램의 적어도 일부가 로드되는 휘발성의 메모리 및 로드된 제어프로그램을 실행하는 적어도 하나의 범용 프로세서, 예를 들면 마이크로 프로세서(microprocessor), 응용 프로세서(application processor) 혹은 CPU(central processing unit)를 포함할 수 있다.
이하, 도면들을 참조하여, 본 발명에 따라 복수의 전자장치를 포함하는 음성인식 시스템에서 음성명령을 수신하고, 그 음성명령에 기초한 동작이 수행되는 실시예들에 관해 설명한다.
도 7은 본 발명 일 실시예에 따라 대표장치를 지정하는 방법을 도시한 흐름도이다.
본 발명 일 실시에에 따르면, 댁 내의 소정 영역, 일례로, 제1영역으로서 거실에 위치하는 복수의 전자장치(101, 102, 103, 104) 중에서 어느 하나가 대표장치, 다시 말해, 마스터장치로 지정될 수 있다. 이러한 대표장치의 지정은, 외부장치, 예를 들면, 스마트 폰과 같은 단말장치(400)를 이용하거나, 또는 복수의 전자장치(101, 102, 103, 104) 중 어느 하나, 예를 들면, 제1전자장치(101)에 의해 이루어질 수 있으며, 이하에서는 제1전자장치(101)에서 수행되는 경우를 예로 들어 설명하기로 한다.
도 7에 도시된 바와 같이, 제1전자장치(101)의 프로세서(170)는 복수의 전자장치(101, 102, 103, 104) 중 어느 하나를 대표장치로 지정하는 사용자선택을 수신할 수 있다(601).
단계 601에서, 프로세서(170)는 도 4와 같은 복수의 전자장치(101, 102, 103, 104)에 대응하며 사용자에 의해 선택 가능한 복수의 메뉴항목을 표시하도록 디스플레이(110)를 제어하고, 복수의 메뉴항목 중 어느 하나를 선택하는 사용자선택이 사용자입력부(130)에 의해 수신되는 것을 식별할 수 있다.
선택된 메뉴항목에 대응하는 전자장치, 일례로, 제1전자장치(101)는 대표장치, 다시 말해, 마스터장치로 지정되며, 그 외의 전자장치들(102, 103, 104)은 슬레이브장치가 된다.
단계 601에서, 프로세서(170)는 슬레이브장치, 예를 들어, 제2전자장치(102), 제3전자장치(103), … , 제N 전자장치(104)에 대한 정보가 저장부(160)에 저장되도록 할 수 있다.
프로세서(170)는 단계 601에서 대표장치, 즉, 마스터장치로 지정된 제1전자장치(101)의 마이크(104)를 활성화하고, 다른 장치, 즉, 슬레이브장치인 전자장치들(102, 103, 104)의 마이크를 비활성화하도록 제어할 수 있다(602). 프로세서(170)는 전자장치들(102, 103, 104)에 마이크를 비활성화시키는 커맨드를 포함하는 제어신호를 전송하도록 인터페이스부(120)를 제어할 수 있다.
단계 602에 따라, 복수의 전자장치(101, 102, 103, 104) 중 마스터장치인 제1전자장치(101)의 마이크(140)만 활성화되고, 다른 전자장치들(102, 103, 104)의 마이크는 비활성화된다.
그에 따라, 동일 영역 내에서 시작어(WUW)를 포함하는 사용자음성이 발화되는 경우, 복수의 장치에서 마이크가 동시에 반응하거나, 시작어에 대한 오인식이 증가되는 등의 혼란이 야기되지 않도록 할 수 있다.
그리고, 프로세서(170)는 단계 602에서 활성화된 마이크(104)를 통해 사용자로부터 발화된 음성명령을 수신할 수 있다(603).
도 8은 본 발명 일 실시예에 따라 음성명령을 수신하고, 음성명령에 대응하는 응답메시지를 출력하는 방법을 도시한 흐름도이다.
본 발명 일 실시예에 따르면, 복수의 전자장치(101, 102, 103, 104) 중에서 대표장치, 다시 말해, 마스터장치로 지정된 어느 하나의 전자장치에 의해 사용자의 음성명령이 수신될 수 있으며, 이하에서는 제1전자장치(101)에서 이루어지는 경우를 예로 들어 설명하기로 한다.
도 8에 도시된 바와 같이, 제1전자장치(101)의 프로세서(170)는 사용자로부터 발화된 음성명령의 정보와, 음성명령에 대응되는 장치의 정보를 서버(500)로 전송할 수 있다(701).
여기서, 마스터장치로서 제1전자장치(101)는 마이크(140)를 통해, 자신을 타겟으로 하는 음성명령 및 그룹화된 다른 장치인 슬레이브장치 중 어느 하나를 타겟으로 하는 음성명령을 수신할 수 있다.
프로세서(170)는 사용자로부터 발화된 음성명령의 수신이 마이크(140)에서 감지되는 것에 기초하여, 음성명령의 정보와 그 음성명령에 대응되는 장치의 정보, 다시 말해, 음성명령에 대응하여 동작을 수행하는 타겟장치 또는 음성명령을 수신하는 대표장치 중 적어도 하나의 정보를 인터페이스부(120)를 통해 서버(500)로 전송할 수 있다.
구체적으로, 프로세서(170)는, 음성명령에 대응하여 동작을 수행하는 타겟장치의 정보(슬레이브장치의 정보) 또는 음성명령을 수신하는 대표장치의 정보(마스터장치의 정보) 중 적어도 하나를 인터페이스부(120)를 통해 서버(500)로 전송할 수 있다.
일 실시예에서, 프로세서(170)는, 음성명령에 대응되는 장치의 정보로서, 마스터 및 슬레이브 장치를 포함하는 그룹화된 장치리스트를 수신된 음성명령의 정보와 함께 서버(500)로 전송할 수 있다. 그룹화된 장치리스트는, 마스터장치인 제1전자장치(101) 및 마스터장치와 묶인 슬레이브장치인 제2전자장치(102), 제3전자장치(103), … , 제N 전자장치(104)의 식별정보를 포함할 수 있다. 이 경우, 서버(500)에서 음성명령에 대한 사용자 의도의 인식 결과에 기초하여, 장치리스트로부터 타겟장치가 식별될 수 있다.
다른 실시예에서, 프로세서(170)는, 음성명령을 수신하는 장치의 정보로서 마스터장치의 식별정보를 인터페이스부(120)를 통해 서버(500)로 전송할 수 있다. 또한, 프로세서(170)는, 음성명령에 대응되는 동작을 수행하는 장치의 정보로서 타겟장치의 식별정보를 인터페이스부(120)를 통해 서버(500)로 더 전송할 수 있다. 여기서, 타겟장치는 마스터장치 또는 슬레이브장치 중 어느 하나가 될 수 있다.
도 9는 본 발명 일 실시예에 따라 음성명령의 정보를 서버로 전송하고, 그에 기초한 응답메시지를 획득하는 과정을 설명하기 위한 도면이고, 도 10은 도 9의 실시예에서 음성명령의 상세의도를 분석하는 과정을 설명하기 위한 도면이다.
일 실시예에서, 마스터장치로부터 수신된 음성명령 정보를 처리하도록 마련된 서버(500)는, 음성인식모듈(810), 도메인 식별모듈(820), 의도분석모듈(830)을 포함할 수 있다.
다른 실시예에서, 서버(500)는 복수 개 마련되어 음성인식모듈(810), 도메인 식별모듈(820), 의도분석모듈(830)이 복수의 서버에 분산된 형태로 구현될 수도 있다.
또 다른 실시예에서, 음성인식모듈(810), 도메인 식별모듈(820), 의도분석모듈(830) 중 적어도 하나, 예를 들면, 음성인식모듈(810)이 마스터장치인 제1전자장치(101)에 마련되어, 제1전자장치(101)가 STT 서버의 역할을 수행하도록 구현될 수 있다.
도 9에 도시된 바와 같이, 제1전자장치(101)로부터 출력된 음성명령의 정보와 음성명령에 대응되는 장치의 정보는 음성인식모듈(810)로 전달될 수 있다.
일 실시예에서 음성인식모듈(810)은 ASR(automatic speech recognition) 엔진을 포함하며, 사용자로부터 발화된 음성명령을 텍스트로 변환하는 STT(Speech-to-Text)를 수행하여, 음성명령에 대응하는 텍스트를 생성할 수 있다.
음성인식모듈(810)은 음성 신호를 텍스트로 변환하기 위한 모듈로서, 다양한 ASR 알고리즘을 이용하여 음성 신호를 텍스트로 변환할 수 있다.
음성인식모듈(810)은 클라우드 형태의 서버(500)에 포함되게 구현되는 것을 일례로 한다.
다만, 음성인식모듈(810)의 구현 형태는 한정되는 것이 아니므로, 전술한 바와 같이 마스터장치인 제1전자장치(101)에 마련되어, 제1전자장치(101)가 STT 서버의 역할을 수행할 수도 있다. 이 경우, 제1전자장치(101)의 프로세서(170)가 하드웨어, 소프트웨어 또는 이들의 조합 중 어느 하나로 구현된 음성인식모듈을 포함할 수 있으며, 제1전자장치(101)에서 음성명령을 텍스트로 변환한 STT가 음성명령에 대응되는 장치의 정보와 함께 서버(500)로 전송될 수 있다.
음성인식모듈(810)에서 텍스트로 변환된 음성명령의 정보, 즉, STT와 음성명령에 대응되는 장치의 정보는 도메인 식별모듈(820)로 전달된다.
일 실시예에서, 음성인식모듈(810)은 텍스트로 변환된 음성명령으로부터 하나 이상의 발화요소를 추출하여, 추출된 발화요소를 STT 로서 도메인 식별모듈(820)로 전달할 수 있다. 발화요소는 음성명령 내에서 사용자가 요청한 동작을 수행하기 위한 키워드로서, 예를 들면, 실행 명령(user action)을 나타내는 제1 발화요소와, 주요 특징(feature)을 나타내는 제2 발화요소를 포함할 수 있다.
일 실시예에서 STT는 미리 정의된 형식, 예를 들면 제이슨(JSON, JavaScript Object Notation) 형식의 데이터로서 출력될 수 있다.
도메인 식별모듈(820)은, 음성인식모듈(810)로부터 획득된 음성명령의 STT를 인식하여, 사용자 의도에 대응하는 카테고리를 식별할 수 있다. 도메인 식별모듈(820), 예를 들면, 음성명령의 STT로서 적어도 하나의 발화요소를 분석하여, 카테고리를 식별할 수 있다.
도메인 식별모듈(820)은, 음성명령의 STT에 대해, 예를 들면, 결정 트리(Decision Tree) 기법을 이용하여, 사용자 의도에 따라 대략적인 카테고리, 즉, 도메인을 분류하는 DC(Domain Classifier)를 포함할 수 있다.
일 실시예에서 DC는 음성명령의 STT, 예를 들면 하나 이상의 발화 요소에 대한 패턴 분석을 수행하여 음성명령의 대략적인 내용을 구분하는 1차 판독을 수행할 수 있다. DC는 이러한 1차 판독 결과에 기초하여, 수신된 음성명령에 대한 질의의 종류를 파악함으로써, 그에 대응하여 카테고리가 식별되도록 할 수 있다.
각 카테고리에는 하나 이상의 전자장치가 매칭될 수 있다. 예를 들어, 날씨 카테고리(또는 날씨 도메인)에는 TV, 에어컨, 공기청정기가 매칭될 수 있다. 다른 예로서, 뉴스 카테고리(또는 뉴스 도메인)에는 TV가 매칭될 수 있다. 또 다른 예로서, 방송 프로그램이나, 영화 등의 영상 컨텐트 카테고리(또는 영상 컨텐트 도메인)에는 TV 가 매칭될 수 있다.
일 실시예에서 도메인 식별모듈(820)은 음성인식모듈(810)로부터 획득된 음성명령의 STT를 인식하여 사용자 의도에 대응하는 카테고리를 식별하고, 그 식별된 카테고리에 매칭되는 장치를 장치리스트로부터 선택할 수 있다.
도메인 식별모듈(820)은 STT의 인식 결과에 기초하여, 음성명령의 STT와 장치 정보를 의도분석모듈(830)로 전달한다. 여기서, 장치 정보는, 수신된 음성명령에 대응되는 장치의 정보로서, 대표장치인 마스터장치의 정보 또는 타겟장치인 슬레이브장치의 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에서 음성명령의 STT는 미리 정의된 형식, 예를 들면 제이슨 형식의 데이터로서 출력될 수 있다.
일 실시예에서, 음성명령의 STT는 하나 이상의 발화요소로서 출력될 수 있다.
의도분석모듈(830)은 상세의도분석기(831), 음성모델(832), 응답생성기(833)를 포함할 수 있다.
일 실시예에서 의도분석모듈(830)은, 도 10에 도시된 바와 같이, STT의 인식 결과에 따른 사용자 의도에 대응하는 카테고리, 즉, 도메인 별로 구분하여 관리되며, 각 도메인에 대해 상세의도분석기(831), 음성모델(832), 응답생성기(833)가 마련될 수 있다.
각 도메인에는, 도 10에 도시된 바와 같이, 하나 이상의 대상장치가 매칭될 수 있다.
의도분석모듈(830)이 이렇게 사용자 의도에 대응하고 대상장치 별로 구분하여 관리되게 구현된 본 발명 실시예에서, 복수의 도메인, 구체적으로, 제1 도메인, 제2 도메인, 제3 도메인, 제4 도메인, ... , 제N 도메인 각각은 캡슐(capsule)이라고 명명될 수 있다.
도메인 식별모듈(820)은, STT의 인식 결과에 기초하여, 복수의 도메인 중 사용자 의도에 대응하여 식별된 카테고리에 대응하는 도메인, 일례로, 제2 도메인(캡슐)에 대응하여 마련된 상세의도분석기(831)로 음성명령의 STT와 장치 정보를 전달할 수 있다.
본 발명 일 실시예에서는, 상기와 같이, 사용자 의도에 대응하면서, 대상장치 별로 구분된 각 도메인/캡슐을 이용한 상세 의도 분석을 수행하도록 함으로써, 빠른 음성 처리에 따른 음성 인식의 효율성을 높이고, 음성 인식의 정확도를 향상시킬 수 있다.
일 실시예에서 상세의도분석기(831)는, 음성명령의 STT에 대한 상세 분석을 수행할 수 있는 NLU(natural language understanding)를 포함할 수 있다.
상세의도분석기(831)는, 해당 도메인(캡슐)에 대해 마련된 음성모델(832)(Language Model, LM)을 이용하여 음성명령에 대한 세부적 의도 파악이 가능하도록 구현될 수 있다.
응답생성기(833)는, 상세의도분석기(831)의 분석 결과에 기초하여 응답신호(또는 응답데이터)를 생성할 수 있다. 응답신호는 미리 정의된 형식, 예를 들면 제이슨 형식의 데이터로서 출력될 수 있다.
응답신호는, 응답메시지와 타겟장치에 대한 제어명령을 포함할 수 있다. 제어명령은 수신된 음성명령의 STT에 대한 인식 결과에 기초하여 사용자 의도에 따라 분류된 카테고리에 대응하는 장치의 제어명령을 포함할 수 있다.
응답메시지와 제어명령은 소정 형식의 단일 데이터에 포함되거나, 경우에 따라 별도의 데이터로서 생성될 수 있다.
응답메시지는 음성명령의 처리결과로서 스피커(150, 250)에 의해 출력되는 사운드에 대응하는 오디오신호 또는 디스플레이(110, 210)에 의해 출력 가능한 영상, 예를 들면, GUI를 포함할 수 있다.
여기서, 응답메시지로서 사운드/영상은 대표장치인 제1전자장치(101)의 스피커(150)/디스플레이(110)를 통해 출력되거나, 또는 경우에 따라 타겟장치, 일례로 제2전자장치(102)의 스피커(250)/디스플레이(110)를 통해 출력될 수도 있다.
그에 따라, 타겟장치에 스피커/디스플레이가 마련되지 않은 경우라도, 사운드/영상이 대표장치인 제1전자장치(101)의 스피커(150)/디스플레이(110)를 통해 출력될 수 있다.
응답생성기(833)는 음성명령에 대응되는 장치, 즉, 음성명령을 수신하는 대표장치 또는 음성명령에 대응하여 동작을 수행하는 타겟장치의 출력 형태에 대응하여 최적화된 응답메시지를 포함하는 응답신호가 송신되도록 하는 UI 레이아웃(layout) 모듈을 포함할 수 있다. UI 레이아웃 모듈은, 음성명령에 대한 응답메시지가 질의의 종류와 대상 기기에 부합하도록 생성될 수 있도록 한다.
일 실시예에서, 응답생성기(833)는 대표장치인 제1전자장치(101)의 메시지 출력 형식에 대응하는 형식의 응답메시지를 생성할 수 있다.
일례로, 대표장치가 TV 이면, 응답메시지는 디스플레이(110)에 표시 가능한 GUI와 스피커(150)를 통해 출력 가능한 사운드를 포함할 수 있다. 다른 예로서, 대표장치가 AI 스피커인 경우, 응답메시지는 사운드를 포함할 수 있다.
다른 실시예에서, 응답생성기(833)는 타겟장치의 메시지 출력 형식에 대응하는 응답메시지를 생성할 수 있다. 이 경우, 대표장치는 서버(500)로부터 응답메시지를 수신하여, 타겟장치로 전달하는 역할을 수행할 수 있다.
응답메시지와 제어명령을 포함하는 응답신호는, 장치정보와 함께 마스터장치인 제1전자장치(101)로 출력될 수 있다. 여기서, 장치정보는 타겟장치에 대한 식별정보를 포함할 수 있다.
그에 따라, 도 8에 도시된 바와 같이, 마스터장치로서 제1전자장치(101)의 프로세서(170)는 인터페이스부(120)를 통해 서버(500)로부터, 음성명령의 응답신호를 수신할 수 있다(702). 수신된 응답신호는 응답메시지와 제어명령을 포함할 수 있다.
프로세서(170)는, 단계 702에서 수신된 응답신호에 포함된 응답메시지가, 음성명령에 대응되는 장치, 즉, 음성명령에 대응하여 동작을 수행하는 타겟장치 또는 음성명령을 수신하는 대표장치 중 적어도 하나를 통해 출력되도록 제어할 수 있다(703).
일례로, 응답메시지가 오디오신호를 포함하는 경우, 프로세서(170)는 응답메시지로부터 오디오신호를 추출하여 그에 대응하는 사운드를 대표장치로서 제1전자장치(101)의 스피커(150)를 통해 출력할 수 있다. 또한, 응답메시지가 영상신호를 포함하는 경우, 프로세서(170)는 응답메시지로부터 영상신호를 추출하여 그에 대응하는 영상, 예를 들면, GUI가 대표장치로서 제1전자장치(101)의 디스플레이(110)에 표시되도록 할 수 있다.
프로세서(170)는, 단계 702에서 수신된 응답신호에 포함된 제어명령에 기초한 동작이 타겟장치에 의해 수행되도록 제어할 수 있다(704).
일 실시예에서, 타겟장치가 마스터장치인 경우, 제1전자장치(101)는 수신된 제어명령에 기초한 제어 동작을 수행할 수 있다. 즉, 프로세서(170)는 응답신호로부터 제어명령을 추출하고, 그 추출된 제어명령에 기초한 동작을 수행할 수 있다.
다른 실시예에서, 타겟장치가 슬레이브장치인 경우, 제1전자장치(101)는 수신된 응답신호로부터 제어명령을 추출하여, 그 추출된 제어명령을 인터페이스부(120)를 통해 타겟장치로 전송할 수 있다.
상기와 같은 본 발명 일 실시예에서는, 대표장치가 서버(500)로부터 응답메시지와 제어명령을 포함하는 응답신호를 수신하여, 타겟장치가 그 제어명령에 기초한 동작을 수행하고 있으나, 본 발명은 경우에 따라 타겟장치가 서버(500)로부터 직접 응답메시지 또는 제어명령을 수신하도록 구현될 수도 있다. 다시 말해, 대표장치가 타겟장치를 대신하여 음성명령을 수신하되, 그 음성명령을 분석하여 생성된 응답신호는 타겟장치로 직접 전송되도록 하는 경우도, 본 발명의 실시예로서 포함될 수 있을 것이다.
도 11은 본 발명 일 실시예에 따라 음성명령에 기초한 제어 동작이 이루어지는 일례를 도시한 도면이다.
도 11에 도시된 바와 같이, 사용자로부터 복수의 전자장치(101, 102, 103, 104) 중 어느 하나를 타겟으로 하는 음성명령(901)이 발화될 수 있다.
도 11의 실시예에서 복수의 전자장치(101, 102, 103, 104)는 댁 내 제1영역으로서, 예를 들면, 거실에 위치될 수 있으며, 제1 전자장치(101)인 TV가 대표장치(마스터장치)로 지정되고, 다른 전자장치들(102, 103, 104)가 슬레이브장치로 설정된 경우를 예로 들어 도시한다.
사용자로부터 발화되는 음성명령(901)의 내용은 한정되지 않으며, 일례로, 도 11에 도시된 바와 같이, "에어컨 온도 올려줘"인 경우, 타겟장치는 제2전자장치(102)인 에어컨이 될 수 있다. 다른 예로서, "영화 나오는 채널 알려줘"인 경우, 타겟장치는 제1전자장치(101)인 TV 가 될 수 있다. 즉, 본 발명에서는, 타겟장치가 대표장치와 동일한 경우와, 타겟장치와 대표장치와 상이한 경우 모두 구현 가능한 실시예에 포함된다.
도 11에서 발화된 음성명령(901)은, 대표장치인 제1전자장치(101)의 마이크(140)에 의해 수신될 수 있다(902).
대표장치, 즉, 제1전자장치(101)는 수신된 음성명령과 장치정보를 서버(500)로 전송할 수 있다(903). 여기서, 장치정보는 마스터/슬레이브를 포함하는 그룹화된 장치리스트인 것을 일례로 하며, 다른 예로서, 대표장치인 제1전자장치(101)의 식별정보 또는 타겟장치인 제2전자장치(102)의 식별정보 중 적어도 하나가 서버(500)로 전송될 수도 있다.
서버(500)는, 대표장치인 제1전자장치(101)로부터 수신한 음성명령에 대해 STT(Speech-to-Text)를 수행하여, 텍스트를 생성할 수 있다(904). 이러한 STT는 ASR(automatic speech recognition) 엔진을 포함하게 구현된 음성인식모듈(810)에 의해 수행될 수 있다.
도 11의 실시예는, STT가 서버(500)에서 이루어지는 경우를 도시하고 있으나, 이는 일례로서, 본 발명의 다른 실시예에서는, 제1전자장치(101)가 STT 서버의 역할을 수행할 수 있다. 이 경우, STT는 대표장치인 제1전자장치(101)에 수행된 뒤, 텍스트로 변환된 음성명령의 정보가 제1전자장치(101)로부터 서버(500)로 전송될 수 있다.
서버(500)는 텍스트로 변환된 음성명령의 정보, 즉, STT 에 기초하여, 사용자 의도에 대응하는 카테고리, 즉, 도메인을 식별할 수 있다(905). 이러한 카테고리/도메인 식별은, DC(Domain Classifier)를 포함하게 구현된 도메인 식별모듈(820)에 의해 수행될 수 있다.
서버(500)는, 사용자 의도에 대응하는 것으로 식별된 카테고리 즉, 도메인에 대하여 의도분석모듈(830)에 의해 음성명령의 STT에 기초한 상세의도분석이 이루어지도록 한다(906). 이러한 상세의도분석은, 음성명령의 STT에 대한 세부적 의도 파악이 가능하도록 해당 도메인(캡슐)에 대해 마련되며, NLU(natural language understanding)를 포함하도록 구현된 상세의도분석기(831)에 의해, 대응하는 음성모델(LM)(832)을 참조하여 이루어질 수 있다.
서버(500)는, 음성명령에 대한 상세의도분석에 기초하여 응답신호를 생성할 수 있다(907). 이러한 응답신호의 생성은, 대표장치 또는 타겟장치의 출력 형태에 대응하여 최적화된 응답신호가 송신되도록 하는 UI 레이아웃 모듈을 포함하도록 구현된 응답생성기(833)에 의해 수행될 수 있다. 생성된 응답신호는 응답메시지와 제어명령 중 적어도 하나를 포함할 수 있다.
응답메시지는 음성명령에 대응되는 장치, 즉, 음성명령에 대응하여 동작을 수행하는 타겟장치 또는 음성명령을 수신하는 대표장치 중 적어도 하나의 메시지 출력 형식에 대응할 수 있으며, 도 11의 실시예에서 응답메시지는 그 형식이 음성명령을 수신하는 대표장치의 메시지 출력 형식에 대응할 수 있다.
서버(500)는, 응답신호를 장치 정보와 함께 대표장치, 즉, 제1전자장치(101)로 전송할 수 있다(908).
대표장치, 즉, 제1전자장치(101)는 응답메시지를 출력할 수 있다(910).
일 실시예에서, 대표장치인 제1전자장치(102)가 TV인 경우, 응답메시지는 디스플레이(110)에 표시 가능한 영상신호와 스피커(150)에 의해 출력 가능한 오디오신호를 포함할 수 있다.
예를 들면, 도 11에 도시된 바와 같이, 음성명령으로서 "에어컨 온도 올려줘"가 발화된 경우, 응답메시지로서, 제1전자장치(101)의 디스플레이(110)에는 에어컨에 해당 명령을 전달했음을 나타내는 GUI가 표시되고, 스피커(150)를 통해 "에어컨에 명령을 전달했습니다." 또는 "에어컨의 설정 온도가 00으로 변경됩니다" 와 같은 사운드가 출력될 수 있다.
대표장치로서 제1전자장치(101)는, 응답신호에 포함된 제어명령을 그 제어명령을 수행할 장치인 타겟장치로 전송할 수 있다(910). 여기서, 제1전자장치(101)는 수신된 응답메시지로부터 제어명령을 추출하고, 추출된 제어명령을 타겟장치인 제2전자장치(102)로 전송할 수 있다.
제어명령은 타겟장치, 예를 들면, 제2전자장치(102)의 동작 제어가 가능한 제어코드를 포함할 수 있다. 일례로 제어명령은, 타겟장치로서 제2전자장치(102), 예를 들면, 에어컨이 대응되는 동작을 수행할 수 있도록 하는 제어코드를 포함할 수 있다.
타겟장치로서 제2전자장치(102)는, 수신된 제어명령에 대응하는 동작을 수행할 수 있다(911). 일례로, 타겟장치로서 제2전자장치(102), 예를 들면, 에어컨은 제어명령을 수신하고, 그에 기초하여 대응되는 동작으로서 에어컨의 설정 온도를 올리는 동작을 수행할 수 있다.
상기와 같이 본 발명 실시예에 따르면, 복수의 전자장치(101, 102, 103, 104)를 그룹화하고, 대표장치(101)를 통해 사용자로부터 발화되는 음성을 수신하고, 그 음성에 기초하여 타겟장치(102)가 동작되도록 제어함으로써, 음성수신 기능이 없는 전자장치도 음성명령을 통한 제어가 가능하므로, 사용자 편의가 향상될 수 있다.
또한, 대표장치(101)를 통해 응답메시지가 출력되도록 함으로써, 디스플레이나 스피커가 구비되지 않은 타겟장치에 대한 음성명령에 대한 피드백을사용자에게 제공 가능한 장점이 있다.
또한, 동일 영역에서 대표장치(101) 외의 다른 장치(들)에서는 마이크는 비활성화되도록 함으로써, 사용자음성의 발화에 대해, 마이크가 구비된 복수의 장치에서 동시에 반응이 발생함으로써, 혼란을 야기하는 사용자 불편을 해소할 수 있다.
또한, 사용자 의도에 대응하면서, 대상장치 별로 구분된 각 도메인/캡슐을 이용하여 음성명령에 대한 상세 의도 분석을 수행하도록 함으로써, 빠른 음성 처리에 따른 음성 인식의 효율성을 높이고, 음성 인식의 정확도를 향상시킬 수 있게 된다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며 특허청구범위 내에서 다양하게 실시될 수 있다.
101 : 제1전자장치 110 : 디스플레이
120 : 인터페이스부 121 : 유선 인터페이스부
122 : 무선 인터페이스부 130 : 사용자입력부
140 : 마이크 150 : 스피커
160: 저장부 170 : 프로세서
102 : 제2전자장치 500 : 서버

Claims (20)

  1. 전자장치에 있어서,
    인터페이스부; 및
    상기 인터페이스부를 통해, 수신된 음성명령의 정보와 상기 음성명령에 대응되는 장치의 정보를 서버로 전송하고,
    상기 인터페이스부를 통해, 복수의 형식 중 상기 장치에 대응하는 형식의 상기 음성명령의 응답메시지를 상기 서버로부터 수신하고,
    상기 장치를 통해 상기 수신된 응답메시지가 출력되도록 제어하는
    프로세서를 포함하는 전자장치.
  2. 제1항에 있어서,
    상기 프로세서는, 상기 전자장치 및 상기 인터페이스부를 통해 연결될 수 있는 적어도 하나의 외부장치 중에서 상기 전자장치를 대표장치로 지정하는 전자장치.
  3. 제2항에 있어서,
    상기 프로세서는, 사용자입력에 따라 상기 대표장치를 지정하는 전자장치.
  4. 제2항에 있어서,
    상기 프로세서는, 디스플레이에 표시된 GUI를 이용하여 상기 대표장치를 지정하는 전자장치.
  5. 제2항에 있어서,
    상기 프로세서는, 적어도 하나의 영역 별로 상기 대표장치가 각각 지정되도록 하는 전자장치.
  6. 제2항에 있어서,
    상기 프로세서는, 상기 대표장치의 마이크를 활성화하고, 다른 장치의 마이크를 비활성화하도록 하는 전자장치.
  7. 제6항에 있어서,
    상기 프로세서는, 상기 활성화된 마이크를 통해 상기 음성명령을 수신하도록 하는 전자장치.
  8. 제1항에 있어서,
    상기 응답메시지의 형식은, 상기 음성명령에 대응되는 장치의 메시지 출력 형식에 대응하는 전자장치.
  9. 제1항에 있어서,
    상기 프로세서는, 상기 서버로부터 상기 음성명령에 대응하는 제어명령을 더 수신하고, 상기 수신된 제어명령을 상기 인터페이스부를 통해 상기 음성명령의 타겟장치로 전송하는 전자장치.
  10. 제9항에 있어서,
    상기 제어명령은 상기 수신된 음성명령의 STT(Speech to Text)에 대한 인식 결과에 기초하여 사용자 의도에 따라 분류된 카테고리에 대응하는 장치의 제어명령을 포함하는 전자장치.
  11. 제10항에 있어서,
    상기 프로세서는, 상기 수신된 음성명령의 STT를 획득하고, 상기 획득된 STT를 상기 서버로 전송하는 전자장치.
  12. 제1항에 있어서,
    상기 프로세서는, 상기 전자장치 및 적어도 하나의 외부장치 중에서 상기 전자장치가 대표장치로 지정되었음을 나타내는 정보를 상기 인터페이스부를 통해 외부장치로부터 수신하는 전자장치.
  13. 전자장치의 제어방법에 있어서,
    인터페이스부를 통해, 수신된 음성명령의 정보와 상기 음성명령에 대응되는 장치의 정보를 서버로 전송하는 단계;
    상기 인터페이스부를 통해, 복수의 형식 중 상기 장치에 대응하는 형식의 상기 음성명령의 응답메시지를 상기 서버로부터 수신하는 단계; 및
    상기 수신된 응답메시지가 상기 장치를 통해 출력되도록 제어하는 단계를 포함하는 전자장치의 제어방법.
  14. 제13항에 있어서,
    상기 전자장치 및 상기 인터페이스부를 통해 연결될 수 있는 적어도 하나의 외부장치 중에서 상기 전자장치를 대표장치로 지정하는 단계를 더 포함하는 전자장치의 제어방법.
  15. 제14항에 있어서,
    상기 대표장치로 지정하는 단계는, 사용자입력에 따라 또는 디스플레이에 표시된 GUI를 이용하여 수행되는 전자장치의 제어방법.
  16. 제14항에 있어서,
    상기 대표장치로 지정하는 단계는, 적어도 하나의 영역 별로 상기 대표장치가 각각 지정되도록 하는 전자장치의 제어방법.
  17. 제14항에 있어서,
    상기 대표장치의 마이크를 활성화하고, 다른 장치의 마이크를 비활성화하도록 하는 단계를 더 포함하며,
    상기 활성화된 마이크를 통해 상기 음성명령을 수신하도록 하는 전자장치의 제어방법.
  18. 제13항에 있어서,
    상기 응답메시지의 형식은, 상기 음성명령에 대응되는 장치의 메시지 출력 형식에 대응하는 전자장치의 제어방법.
  19. 제13항에 있어서,
    상기 서버로부터 상기 음성명령에 대응하는 제어명령을 수신하는 단계; 및
    상기 수신된 제어명령을 상기 인터페이스부를 통해 상기 음성명령의 타겟장치로 전송하는 단계를 더 포함하는 전자장치의 제어방법.
  20. 제19항에 있어서,
    상기 제어명령은 상기 수신된 음성명령의 STT(Speech to Text)에 대한 인식 결과에 기초하여 사용자 의도에 따라 분류된 카테고리에 대응하는 장치의 제어명령을 포함하는 전자장치의 제어방법.
KR1020200011108A 2020-01-30 2020-01-30 전자장치 및 그 제어방법 KR20210097428A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200011108A KR20210097428A (ko) 2020-01-30 2020-01-30 전자장치 및 그 제어방법
US17/142,688 US11688397B2 (en) 2020-01-30 2021-01-06 Electronic apparatus and method of controlling the same
EP21151396.5A EP3859517A1 (en) 2020-01-30 2021-01-13 Electronic apparatus and method of controlling the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200011108A KR20210097428A (ko) 2020-01-30 2020-01-30 전자장치 및 그 제어방법

Publications (1)

Publication Number Publication Date
KR20210097428A true KR20210097428A (ko) 2021-08-09

Family

ID=74181033

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200011108A KR20210097428A (ko) 2020-01-30 2020-01-30 전자장치 및 그 제어방법

Country Status (3)

Country Link
US (1) US11688397B2 (ko)
EP (1) EP3859517A1 (ko)
KR (1) KR20210097428A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230050390A1 (en) 2021-08-12 2023-02-16 Dish Network L.L.C. System and method for generating a video signal

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
KR102471499B1 (ko) 2016-07-05 2022-11-28 삼성전자주식회사 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체
US20180204331A1 (en) * 2016-07-21 2018-07-19 Gopro, Inc. Subject tracking systems for a movable imaging system
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker

Also Published As

Publication number Publication date
US11688397B2 (en) 2023-06-27
US20210241764A1 (en) 2021-08-05
EP3859517A1 (en) 2021-08-04

Similar Documents

Publication Publication Date Title
USRE49493E1 (en) Display apparatus, electronic device, interactive system, and controlling methods thereof
JP7293365B2 (ja) 映像表示装置及びその動作方法
US20170223301A1 (en) Image processing apparatus, voice acquiring apparatus, voice recognition method thereof and voice recognition system
US11317169B2 (en) Image display apparatus and method of operating the same
JP2014096153A (ja) ディスプレイ装置、音声取得装置およびその音声認識方法
TW202025090A (zh) 顯示器裝置以及控制其的方法
US11907616B2 (en) Electronic apparatus, display apparatus and method of controlling the same
US11688397B2 (en) Electronic apparatus and method of controlling the same
US10992273B2 (en) Electronic device and operation method thereof
KR20210087760A (ko) 전자장치 및 그 제어방법
KR20210097545A (ko) 전자장치 및 그 제어방법
KR20210078682A (ko) 전자장치 및 그 제어방법
KR20210078218A (ko) 전자장치 및 그 제어방법
US10089060B2 (en) Device for controlling sound reproducing device and method of controlling the device
KR102462880B1 (ko) 디스플레이장치, 그 제어방법 및 기록매체
KR102673735B1 (ko) 영상 표시 장치 및 그 동작방법
KR20210103277A (ko) 전자장치 및 그 제어방법

Legal Events

Date Code Title Description
A201 Request for examination