KR102471493B1 - 전자 장치 및 음성 인식 방법 - Google Patents

전자 장치 및 음성 인식 방법 Download PDF

Info

Publication number
KR102471493B1
KR102471493B1 KR1020170134572A KR20170134572A KR102471493B1 KR 102471493 B1 KR102471493 B1 KR 102471493B1 KR 1020170134572 A KR1020170134572 A KR 1020170134572A KR 20170134572 A KR20170134572 A KR 20170134572A KR 102471493 B1 KR102471493 B1 KR 102471493B1
Authority
KR
South Korea
Prior art keywords
information
electronic device
function
electronic devices
voice recognition
Prior art date
Application number
KR1020170134572A
Other languages
English (en)
Other versions
KR20190042919A (ko
Inventor
최찬희
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170134572A priority Critical patent/KR102471493B1/ko
Priority to EP18200652.8A priority patent/EP3474273B1/en
Priority to PCT/KR2018/012265 priority patent/WO2019078617A1/en
Priority to CN201880054657.2A priority patent/CN111033610B/zh
Priority to US16/162,996 priority patent/US11437030B2/en
Publication of KR20190042919A publication Critical patent/KR20190042919A/ko
Application granted granted Critical
Publication of KR102471493B1 publication Critical patent/KR102471493B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

전자 장치가 개시된다. 본 전자 장치는 통신을 수행하는 통신부, 음성을 입력받는 마이크, 및 마이크를 통해 입력된 음성에 대한 음성 인식을 수행하고, 수행된 음성 인식 결과에 포함된 기기 정보 및 기능 정보 중 적어도 하나의 기초하여 대상 기기를 결정하고, 결정된 대상 기기에 음성 인식 결과에 대응되는 제어 명령을 전송하도록 통신부를 제어하는 프로세서를 포함한다.

Description

전자 장치 및 음성 인식 방법{ELECTRONIC APPARATUS AND METHOD FOR VOICE RECOGNITION}
본 개시는 전자 장치 및 음성 인식 방법에 관한 것으로, 보다 상세하게는 음성 인식 가능한 복수의 전자 장치 중 음성 인식으로 제어할 전자 장치를 자동으로 결정하는 전자 장치 및 음성 인식 방법에 관한 것이다.
전자 장치는 사용자의 제어 명령에 따라 다양한 기능을 수행하는 장치이다. 최근의 전자 장치는 키패드, 리모컨 등의 입력 장치를 통하여 제어 명령을 입력받는 것뿐만 아니라, 사용자 음성을 통하여 제어 명령을 입력받는 음성 인식 기능이 채용되고 있다.
한편, 이러한 음성 인식 기능은 다양한 방식으로 활성화되어 동작 가능하였다. 예를 들어, 사용자가 특정 버튼을 누르는 경우에 음성 인식 기능을 활성화되는 방식이나, 사용자가 특정 시작 명령어(예를 들어, 빅스비)를 발화하면, 특정 시작 명령어에 반응하여 음성 인식 기능을 활성화하는 방법 등이 있었다.
만약, 특정 시작 명령에 반응하여 음성 인식 기능이 활성화되는 전자 장치가 하나의 공간 내에 복수개 위치하는 경우, 복수의 전자 장치가 동시에 음성 인식 기능이 활성화될 뿐만 아니라, 복수의 전자 장치가 각자 수행한 음성 인식 기능에 따른 결과를 개별적으로 수행하였다.
그러나 사용자는 특정 장치에서만 특정 기능을 수행할 목적으로 음성 인식을 수행하는 것이 일반적이라는 점에서, 사용자의 의도에 따라 사용자가 제어하고자 하는 장치에서만 음성 인식 기능에 따른 기능 수행이 가능한 방법이 요구되었다.
따라서, 본 개시의 목적은 음성 인식 가능한 복수의 전자 장치 중 음성 인식으로 제어할 전자 장치를 자동으로 결정하는 전자 장치 및 음성 인식 방법을 제공하는 데 있다.
상술한 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는 통신을 수행하는 통신부, 음성을 입력받는 마이크, 및 상기 마이크를 통해 입력된 음성에 대한 음성 인식을 수행하고, 상기 수행된 음성 인식 결과에 포함된 기기 정보 및 기능 정보 중 적어도 하나의 기초하여 대상 기기를 결정하고, 상기 결정된 대상 기기에 상기 음성 인식 결과에 대응되는 제어 명령을 전송하도록 상기 통신부를 제어하는 프로세서를 포함한다.
이 경우, 본 전자 장치는 상기 전자 장치의 장치 정보 및 상기 전자 장치가 연결 가능한 타 전자 장치의 장치 정보를 저장하는 메모리를 더 포함하고, 상기 프로세서는, 상기 수행된 음성 인식 결과에 포함된 기기 정보 및 기능 정보 중 적어도 하나에 기초하여 상기 전자 장치 및 상기 타 전자 장치 중 대상 기기를 결정할 수 있다.
이 경우, 상기 프로세서는 상기 음성 인식 결과에 기기 정보를 포함하면, 상기 전자 장치 및 상기 타 전자 장치 중에서 상기 기기 정보에 대응되는 대상 기기를 결정할 수 있다.
한편, 상기 프로세서는 상기 음성 인식 결과에 기능 정보를 포함하면, 상기 전자 장치의 장치 정보 및 타 전자 장치의 정보에 기초하여 상기 기능 정보에 대응되는 기능을 수행 가능한 대상 기기를 결정할 수 있다.
이 경우, 상기 프로세서는 상기 기능을 수행 가능한 대상 기기가 복수 기기이면, 상기 전자 장치 및 상기 타 전자 장치의 이력 정보에 기초하여 하나의 대상 기기를 결정할 수 있다.
이 경우, 상기 프로세서는 상기 전자 장치 및 상기 타 전자 장치 각각에서 수행한 음성 인식 이력 정보에 기초하여 상기 복수 기기 중 하나의 대상 기기를 결정할 수 있다.
한편, 상기 프로세서는 현재 시간 정보 및 이력 정보에 기초하여 상기 복수 기기 중 하나의 대상 기기를 결정할 수 있다.
한편, 상기 프로세서는 상기 기능을 수행 가능한 대상 기기가 복수 기기이면, 기설정된 우선 순위에 기초하여 상기 복수의 기기 중 하나의 대상 기기를 결정할 수 있다.
한편, 상기 프로세서는 기설정된 시점에 상기 전자 장치의 장치 정보 및 상기 타 전자 장치의 장치 정보를 업데이트할 수 있다.
한편, 상기 프로세서는 상기 결정된 대상 기기가 상기 전자 장치이면, 상기 음성 인식 결과에 대응되는 기능을 수행할 수 있다.
이 경우, 상기 프로세서는 상기 결정된 대상 기기가 상기 전자 장치이고, 타 전자 장치로부터 제어 명령이 수신되면, 상기 음성 인식 결과 및 상기 수신된 제어 명령을 비교하여 상기 수신된 제어 명령에 따른 기능의 추가 수행 여부를 결정할 수 있다.
한편, 상기 프로세서는 상기 마이크를 통해 입력된 음성에 시작 명령어가 감지되면, 상기 마이크를 통해 입력된 음성에 대한 음성 인식을 수행할 수 있다.
한편, 상기 프로세서는 상기 마이크를 통해 입력된 음성을 서버에 전송되도록 상기 통신부를 제어하고, 상기 서버로부터 상기 전송된 음성에 대한 음성 인식 결과를 이용하여 대상 기기를 결정할 수 있다.
한편, 본 개시의 일 실시 예에 따른 전자 장치에서의 음성 인식 방법은 입력된 음성에 대한 음성 인식을 수행하는 단계, 상기 수행된 음성 인식 결과에 포함된 기기 정보 및 기능 정보 중 적어도 하나의 기초하여 대상 기기를 결정하는 단계, 및 상기 결정된 대상 기기에 상기 음성 인식 결과에 대응되는 제어 명령을 전송하는 단계를 포함한다.
이 경우, 상기 결정하는 단계는 상기 수행된 음성 인식 결과에 포함된 기기 정보 및 기능 정보 중 적어도 하나에 기초하여 상기 전자 장치 및 상기 전자 장치가 연결 가능한 타 전자 장치 중 대상 기기를 결정할 수 있다.
이 경우, 상기 결정하는 단계는 상기 음성 인식 결과에 기기 정보를 포함하면, 상기 전자 장치 및 상기 타 전자 장치 중에서 상기 기기 정보에 대응되는 대상 기기를 결정할 수 있다.
한편, 상기 결정하는 단계는 상기 음성 인식 결과에 기능 정보를 포함하면, 상기 전자 장치의 장치 정보 및 타 전자 장치의 정보에 기초하여 상기 기능 정보에 대응되는 기능을 수행 가능한 대상 기기를 결정할 수 있다.
한편, 상기 결정하는 단계는, 상기 기능을 수행 가능한 대상 기기가 복수 기기이면, 상기 전자 장치 및 상기 타 전자 장치의 이력 정보에 기초하여 하나의 대상 기기를 결정할 수 있다.
한편, 상기 결정하는 단계는 상기 기능을 수행 가능한 대상 기기가 복수 기기이면, 기설정된 우선 순위에 기초하여 상기 복수의 기기 중 하나의 대상 기기를 결정할 수 있다.
한편, 본 개시의 일 실시 예에 따른 전자 장치에서의 음성 인식 방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록 매체에 있어서, 상기 음성 인식 방법은 입력된 음성에 대한 음성 인식을 수행하는 단계, 상기 수행된 음성 인식 결과에 포함된 기기 정보 및 기능 정보 중 적어도 하나의 기초하여 대상 기기를 결정하는 단계, 및 상기 결정된 대상 기기에 상기 음성 인식 결과에 대응되는 제어 명령을 전송하는 단계를 포함한다.
도 1은 본 개시의 일 실시 예에 따른 음성 인식 시스템의 구성을 도시한 도면,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 간략한 구성을 나타내는 블럭도,
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 나타내는 블럭도,
도 4는 복수의 전자 장치 간의 음성 인식 동작의 연동 동작을 설명하기 위한 도면,
도 5는 복수의 전자 장치 간의 초기 설정 동작을 설명하기 위한 도면,
도 6은 복수의 전자 장치 각각에 대한 기설정된 우선 순위의 예를 도시한 도면,
도 7은 문장 내의 제어 대상 정보를 이용하여 복수의 전자 장치 중 음성 인식 결과를 수행할 장치를 선정하는 동작을 설명하기 위한 도면,
도 8은 장치 정보를 이용하여 복수의 전자 장치 중 음성 인식 결과를 수행할 장치를 선정하는 동작을 설명하기 위한 도면,
도 9는 복수의 전자 장치에서 동시에 음성 인식이 수행된 경우의 동작을 설명하기 위한 도면,
도 10은 본 개시의 일 실시 예에 따른 음성 인식 방법을 설명하기 위한 흐름도, 그리고,
도 11은 본 개시의 다른 실시 예에 따른 음성 인식 방법을 설명하기 위한 흐름도이다.
본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다." 또는 "구성되다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
실시 예에 있어서 ‘모듈’ 혹은 ‘부’는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 ‘모듈’ 혹은 복수의 ‘부’는 특정한 하드웨어로 구현될 필요가 있는 ‘모듈’ 혹은 ‘부’를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
이하에서, 첨부된 도면을 이용하여 본 개시에 대하여 구체적으로 설명한다.
도 1은 본 개시의 일 실시 예에 따른 음성 인식 시스템의 구성을 도시한 도면이다.
도 1을 참조하면, 음성 인식 시스템(1000)은 복수의 전자 장치(100-1, 100-2), 100-3)로 구성될 수 있다.
복수의 전자 장치(100-1, 100-2, 100-3)는 음성 인식 기능을 수행하고, 음성 인식 결과에 따른 기능을 수행할 수 있는 장치이다. 여기서, 음성 인식이란 입력된 음성의 음향학적 신호를 단어나 문장으로 변환시키는 기술을 의미한다.
복수의 전자 장치(100-1, 100-2, 100-3)는 동일한 음성 인식 처리 방식을 갖는바, 이하에서는 하나의 전자 장치에서의 동작을 기준으로 설명한다.
전자 장치(100)는 사용자 발화 음성을 입력받고, 입력받은 음성에 대한 음성 인식을 수행할 수 있다. 구체적으로, 전자 장치(100)는 시작 명령어(Wake Up Word, WUW)를 감지할 때 음성 인식을 수행하는 기기이다. 여기서 시작 명령어는 음성 인식 기능을 활성화하는 트리거 음성 명령이다.
이때, 전자 장치(100)는 시작 명령어가 감지되면, 음성 인식 수행 여부를 결정할 수 있다. 구체적으로, 전자 장치(100)는 시작 명령어의 감지 여부를 타 전자 장치와 공유하고, 시작 명령어가 감지된 전자 장치 중 우선순위가 가장 높은 전자 장치는 음성 인식을 수행하는 것으로 결정하고, 낮은 우선순위를 갖는 전자 장치는 음성 인식을 수행하지 않는 것으로 결정할 수 있다.
그리고 음성 인식을 수행한 전자 장치(100)는 시작 명령어가 감지되면 입력된 음성에 대한 음성 인식을 수행하고, 수행된 음성 인식 결과에 따른 기능을 어떠한 장치에서 수행할 것인지를 결정할 수 있다.
이때, 전자 장치(100)는 각 장치의 장치 정보, 각 장치에서의 이력 정보 등을 이용하여 음성 인식 결과에 따른 기능을 어떠한 장치에서 수행할 것인지를 결정할 수 있다. 보다 구체적인 판단 동작에 대해서는 도 2를 참조하여 후술한다.
그리고 전자 장치(100)는 결정된 대상 기기에서 음성 인식 결과를 수행하도록 할 수 있다. 예를 들어, 제1 전자 장치(100-1)가 음성 인식에 따른 기능을 수행하는 것으로 결정되면, 제2 전자 장치(100-2, 100-3)는 음성 인식에 따른 제어 명령을 제1 전자 장치(100-1)에 전송할 수 있다. 그리고 제1 전자 장치(100-1)는 수신된 제어 명령 및 자체적으로 인식한 음성 인식 결과에 기초하여 음성 인식 결과에 따른 기능을 수행할 수 있다.
이상과 같이 본 실시 예에 따른 음성 인식 시스템(1000)은 인식된 결과에 기초하여 음성 인식 결과를 수행할 전자 장치를 결정하고, 그에 대응되는 결정된 전자 장치에서만 기능을 수행하는바, 사용자 의도에 보다 부합한 동작 수행이 가능하다.
한편, 도 1을 도시함에 있어서, 음성 인식 시스템에 3대의 전자 장치가 구비되는 것으로 설명하였지만, 2개의 전자 장치로 구성될 수도 있으며 4대 이상의 전자 장치로 구성될 수도 있다.
또한, 도시된 예에서는 각 전자 장치가 서로 다른 종류의 장치인 것으로 도시하였지만, 구현시에 적어도 두 대의 장치는 동일한 종류의 장치일 수도 있다.
한편, 도 1을 설명함에 있어서, 복수의 전자 장치 중 시작 명령어를 감지한 전자 장치 중 우선 순위가 높은 전자 장치만이 음성 인식을 수행하는 것으로 설명하였지만, 구현시에는 우선 순위가 상관없이 시작 명령어를 감지한 전자 장치는 음성 인식를 수행하고, 음성 인식 결과를 공유할 수 있다.
예를 들어, 사용자의 발화 위치 및 주변 노이즈에 따라 음성 인식 시스템을 구성하는 전자 장치 각각은 서로 다른 음성 인식 결과를 출력할 수 있다. 따라서, 음성 인식 결과를 높이기 위하여, 즉, 보다 높은 음성 인식을 위하여 시작 명령어를 감지한 모든 전자 장치가 음성 인식을 수행하고 그 결과를 공유하는 형태로도 구현할 수 있다.
이하에서는 상술한 전자 장치의 구체적인 구성을 통하여 상술한 동작을 보다 자세히 설명한다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 간략한 구성을 나타내는 블럭도이다.
도 2를 참조하면, 전자 장치(100)는 마이크(110), 통신부(120) 및 프로세서(130)를 포함한다. 여기서 전자 장치(100)는 PC, TV, 모바일 장치, 셋탑 박스, 냉장고, 세탁기, 전자레인지, 스피커 등일 수 있으며, 음성 인식 기능을 지원한다면 상술한 장치뿐만 아니라 상술한 장치 이외의 다른 전자 장치일 수도 있다.
마이크(110)는 음성을 입력받을 수 있다. 구체적으로, 마이크(110)는 음성을 입력받아 전자 장치(100)에서 처리할 수 있은 음성 신호로 변환할 수 있다. 한편, 도시된 예에서는 마이크(110)가 전자 장치(100)에 내장되는 것으로 설명하였지만, 구현시에 마이크는 전자 장치의 외부 장치로 구현될 수 있다. 즉, 외부의 마이크로부터 음성 신호를 수신하여 이용하는 형태로도 구현될 수 있다.
통신부(120)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행하는 구성이다. 구체적으로, 통신부(120)는 타 전자 장치와 통신을 수행할 수 있으며, 외부 네트워크(예를 들어, 인터넷, 서버 등)와 통신을 수행할 수도 있다. 이러한 동작을 위하여, 통신부(120)는 와이파이칩, 블루투스 칩을 포함할 수 있다.
예를 들어, 블루투스 칩을 이용하여 음성 인식 시스템(1000) 내의 타 전자 장치와 통신을 수행할 수 있으며, 와이파이 칩을 통하여 음성 인식 시스템 외부의 장치와 통신을 수행할 수 있다. 한편, 구현시에는 와이파이 칩을 통하여 음성 인식 시스템(100) 내의 타 전자 장치와의 통신도 가능할 수 있다.
한편, 전자 장치(100)가 외부 서버를 이용하여 음성 인식 기능을 처리하는 경우, 통신부(120)는 마이크(110)에서 수신한 음성 신호를 외부 서버(미도시)에 전송하고, 외부 서버(미도시)로부터 인식 결과를 수신할 수 있다.
그리고 통신부(120)는 음성 인식 시스템을 구성하는 타 전자 장치의 장치 정보 및 자신의 전자 장치를 공유를 위한 통신을 수행할 수 있다. 여기서, 장치 정보는 장치명, 장치 모델명, 장치종류 등의 장치를 식별할 수 있는 정보뿐만 아니라, 장치에 설치된 앱 정보, 장치에서 수행 가능한 기능 정보 등의 기능 정보와 장치에서 수행한 이력 정보(특정 시간에서 사용자가 수행한 기능 또는 앱 수행 이력 정보, 특정 앱에서 수행한 음성 인식 결과(특정 기능 버튼의 입력을 통하여 해당 장치에서만 수행한 음성 인식)를 포함할 수 있다.
그리고 통신부(120)는 시작 명령어가 감지되면, 시작 명령어의 감지 여부를 타 전자 장치에 통지할 수 있다. 또한, 통신부(120)는 인식된 음성 인식 내용을 타 장치와 공유할 수 있다.
그리고 통신부(120)는 음성 인식 결과에 대응되는 제어 명령을 결정된 대상 장치에 전송할 수 있다. 또한, 통신부(120)는 타 전자 장치에서 전송되는 음성 인식 결과에 따른 제어 명령을 수신할 수도 있다.
한편, 통신부(120)는 마이크(110) 및 프로세서(130)만 활성화된 대기 모드에서는 비활성화 상태이다가, 마이크(110)를 통해 음성이 입력되면, 프로세서(130)의 제어에 의해 활성화될 수 있다. 이후, 전자 장치(100)가 입력된 음성에 대한 음성 인식을 수행하지 않는 것으로 결정되면, 통신부(120)는 프로세서(130)의 제어에 의해 다시 비활성화될 수 있다.
그리고 통신부(120)는 외부 장치로부터 안테나, 케이블 또는 포트와 같은 유선 방식을 통하여 영상 신호, 오디오 신호 및 입력된 음성에 대한 정보를 수신하거나, 와이파이(Wi-Fi), 블루투스와 같은 무선 방식을 통하여 영상 신호, 오디오 신호 및 기타 입력된 음성에 대한 정보를 수신할 수 있다.
그 밖에, 도 2에 도시하지는 않았으나, 실시 예에 따라서는, 통신부(120)는 USB 커넥터가 연결될 수 있는 USB 포트나, 헤드셋, 마우스, LAN 등과 같은 다양한 외부 단자와 연결하기 위한 다양한 외부 입력 포트, DMB(Digital Multimedia Broadcasting) 신호를 수신하여 처리하는 DMB 칩 등을 더 포함할 수 있음은 물론이다.
프로세서(130)는 전자 장치(100) 내의 전반적인 동작을 제어한다. 구체적으로, 전자 장치(100)는 연결 가능한 타 전자 장치를 감지할 수 있다. 이를 위하여, 프로세서(130)는 연결 가능한 타 전자 장치가 감지되도록 통신부(120)를 제어할 수 있다.
그리고 프로세서(130)는 연결 가능한 타 장치에 대한 정보를 메모리(165)에 저장할 수 있다. 그리고 프로세서(130)는 기설정된 시점에 저장된 자신의 장치 정보 및 타 전자 장치의 정보를 업데이트할 수 있다.
여기서 기설정된 시점은 연결 가능한 새로운 장치가 검색된 시점일 수 있으며, 각 장치에서 새로운 기능 또는 어플리케이션이 변경된 시점일 수 있다. 즉, 기존에 음성 인식 시스템 내에 3대의 전자 장치가 위치하였다가, 새로운 장치가 추가된 경우, 각 장치들은 상술한 장치 정보를 공유하거나 공유한 데이터를 업데이트할 수 있다.
또한, 구현시에는 특정의 이벤트가 발생한 시점뿐만 아니라 주기적인 시간대에 기저장된 장치 정보를 업데이트할 수도 있다.
그리고 프로세서(130)는 마이크(110)로부터 시작 명령어가 입력되면, 음성 인식 기능을 활성화할 수 있다. 구체적으로, 프로세서(130)는 전자 장치(100)의 동작 모드가 절전 모드인 경우, 전자 장치(100)의 동작 모드를 노멀 모드 또는 다른 절전 모드(보다 구체적으로 타 전자 장치와 통신할 수 있는 절전 모드)로 전환할 수 있다.
이때, 프로세서(130)는 시작 명령어가 입력되면, 음성 인식을 수행할지 여부에 대한 결정을 수행할 수 있다. 구체적으로, 프로세서(130)는 시작 명령어가 감지된 장치 중 자신의 우선 순위가 낮으면 음성 인식을 수행하지 않은 것으로 결정하고, 자신의 우선 순위가 가장 높으면 음성 인식을 수행하는 것으로 결정할 수 있다. 또한, 이를 위하여, 프로세서(130)는 시작 명령어가 감지되면, 시작 명령어의 감지 여부를 타 전자 장치와 공유할 수 있다.
그리고 프로세서(130)는 입력된 음성에 대한 음성 인식을 수행할 수 있다. 이때, 프로세서(130)는 자체적인 음성 인식 모듈을 이용하여 음성 인식을 수행할 수도 있으며, 외부 서버(미도시)에 수신된 음성 신호를 전송하고 그 결과를 수신하여 음성 인식을 수행할 수도 있다.
그리고 프로세서(130)는 수행된 음성 인식 결과에 기초하여 음성 인식 결과에 따른 기능을 수행할 대상 기기를 결정할 수 있다. 구체적으로, 프로세서(130)는 수행된 음성 인식 결과를 분석하여 키워드(또는 단어 등)를 추출하고, 추출된 키워드에서 특정 기기를 특정하거나 특정 기능을 특정하는데 필요한 키워드를 검색할 수 있다.
그리고 프로세서(130)는 검색된 키워드에 기초하여 음성 인식 시스템(1000)을 구성하는 복수의 전자 장치 중 검색된 키워드에 대응되는 기기 또는 기능의 수행이 가능한 전자 장치를 결정할 수 있다.
예를 들어, 키워드에 특정 기기를 식별할 수 있는 키워드(예를 들어, 장치 명, 장치 종류, 장치 모델명)가 포함되어 있으며, 프로세서(130)는 해당 키워드를 기초로 대상 기기를 결정할 수 있다.
만약, 특정 기기를 식별할 수 있는 키워드가 포함되어 있지 않으면, 프로세서(130)는 기능을 식별할 수 있는 키워드를 기초로 대상 기기를 결정할 수 있다.
만약, 추출된 키워드에 특정 기기 및 특정 기능을 식별할 수 있는 키워드가 모두 포함되어 있는 경우, 프로세서(130)는 특정 기기에 대응되는 대상 기기를 후보 기기로 우선적으로 결정하고, 결정된 후보 기기가 특정 기능을 수행할 수 있는지를 검증할 수 있다.
검증 결과 후보 기기가 특정 기능을 수행할 수 있다면, 프로세서(130)는 해당 후보 기기를 대상 기기로 결정할 수 있다.
반대로, 후보 기기가 특정 기능을 수행할 수 없다면, 프로세서(130)는 특정 기능을 수행할 수 있는 타 기기를 후보 기기 대신에 대상 기기로 결정할 수 있다.
한편, 상술한 과정에서 대상 기기가 복수개 검색된 경우, 예를 들어, 사용자가 "TV에서 OO 방송 틀어줘"라고 발화하였으나, 음성 인식 시스템 내에 복수의 TV가 포함되어 있는 경우, 프로세서(130)는 현재의 동작 상태에 기초하여 복수의 대상 기기 중 하나를 음성 인식 결과를 수행할 기기로 수행할 수 있다. 예를 들어, 복수의 TV 중 하나만 현재 영상을 출력 중인 경우, 프로세서(130)는 현재 동작 중인 TV를 대상 기기로 결정할 수 있다.
또한, 프로세서(130)는 사용자의 이력 정보에 기초하여 복수의 대상 기기 중 하나를 음성 인식 결과를 수행할 기기로 수행할 수 있다. 이때, 복수의 TV 모두 특정 방송을 재생한 이력을 모두 있는 경우, 현재 시간 대에 사용자가 보다 자주 사용한 장치를 대상 기기를 결정하거나, 특정 기기에서의 개별적으로 수행할 음성 인식 결과를 이용하여 결정할 수 있다.
또한, 기설정된 우선 순위(장치가 자동으로 설정한 순위) 또는 사용자가 설정한 우선 순위에 기초하여 복수의 대상 기기 중 하나의 대상 기기를 결정할 수도 있다.
만약, 추출된 키워드에 특정 기기를 식별할 수 있는 키워드나 특정 기능을 식별할 수 있는 키워드 모두가 포함되어 있지 않은 경우, 프로세서(130)는 기설정된 우선 순위가 높은 기기를 대상 기기로 결정할 수 있다.
그리고 프로세서(130)는 결정된 대상 기기에 음성 인식 결과에 대응되는 제어 명령을 전송할 수 있다. 구체적으로, 프로세서(130)는 결정된 대상 기기가 타 전자 장치인 경우, 타 전자 장치에 음성 인식 결과에 대응되는 제어 명령이 전송되도록 통신부(120)를 제어할 수 있다.
이때, 전자 장치(100)가 음성 인식 전에 절전 모드이었던 경우, 프로세서(130)는 전자 장치의 동작 모드가 다시 절전 모드로 전환되도록 할 수 있다.
만약, 결정된 대상 기기가 자신인 경우, 프로세서(130)는 음성 인식 결과에 따른 기능을 수행할 수 있다.
그리고 프로세서(130)는 전자 장치(100)의 동작 모드를 결정한다. 구체적으로, 프로세서(130)는 사용자로부터 TV 표시 명령 또는 컨텐츠 표시 명령을 입력받았으면, 일반 영상을 표시하는 동작 모드인 것으로 결정할 수 있다. 여기서 동작 모드는 일반적인 영상을 표시하는 동작 상태이다.
이상에서는 전자 장치(100)의 간략한 구성만을 설명하였으나, 전자 장치(100)는 도 2에 도시된 바와 같은 구성을 추가 포함할 수 있다. 전자 장치(100)의 구체적인 구성에 대해서는 도 2를 참조하여 이하에서 설명한다.
한편, 이상에서는 전자 장치(100)가 시작 명령어가 감지되고, 자신의 우선 순위가 높은 경우에만 음성 인식 기능을 수행하는 것으로 설명하였지만, 구현시에는 우선 순위와 상관없이 음성 인식 기능을 수행할 수 있다. 그리고 프로세서(130)는 음성 인식 결과를 타 전자 장치와 공유하고, 우선 순위가 높은 전자 장치가 공유된 음성 인식 결과에 기초하여 제어 명령을 전송하는 기능을 대표로 수행할 수도 있다.
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 나타내는 블럭도이다.
도 3을 참조하면, 본 실시 예에 따른 전자 장치(100)는 마이크(110), 통신부(120), 프로세서(130), 방송 수신부(140), 신호 분리부(145), A/V 처리부(150), 영상 처리부(160), 오디오 출력부(155), 영상 처리부(160), 메모리(165), 디스플레이(170), 조작부(175)로 구성될 수 있다.
마이크(110) 및 통신부(120)의 구성은 도 2의 구성과 동일한바 중복 설명은 생략한다.
방송 수신부(140)는 방송국 또는 위성으로부터 유선 또는 무선으로 방송을 수신하여 복조한다. 구체적으로, 방송 수신부(140)는 안테나 또는 케이블을 통하여 전송 스트림을 수신하고 복조하여 디지털 전송 스트림 신호를 출력할 수 있다.
신호 분리부(145)는 방송 수신부(140)에서 제공된 전송 스트림 신호를 영상 신호, 오디오 신호, 부가정보 신호로 분리한다. 그리고 신호 분리부(145)는 영상 신호 및 오디오 신호를 A/V 처리부(150)로 전송한다.
한편, 방송 수신부(140) 및 신호 분리부(145)는 전자 장치(100)가 TV로 구현되는 경우의 구성으로, 전자 장치(100)가 모니터로 구성되는 경우, 상술한 방송 수신부(140)와 신호 분리부(145)는 생략될 수 있다.
A/V 처리부(150)는 방송 수신부(140) 및 메모리(165)로부터 입력된 영상 신호 및 오디오 신호에 대해 비디오 디코딩, 비디오 스케일링, 오디오 디코딩 등의 신호처리를 수행한다. 한편, 본 실시 예에서는 비디오 디코딩 및 비디오 스케일링이 A/V 처리부(150)에서 수행되는 것으로 설명하였지만, 상술한 동작은 영상 처리부(160)에서 수행될 수 있다. 그리고 A/V 처리부(150)는 영상 신호를 영상 처리부(160)로 출력하고, 오디오 신호를 오디오 출력부(155)로 출력한다.
반면, 수신된 영상 및 오디오 신호를 메모리(165)에 저장하는 경우, A/V 처리부(150)는 영상과 오디오를 압축된 형태로 메모리(165)에 출력할 수 있다.
오디오 출력부(155)는 A/V 처리부(150)에서 출력되는 오디오 신호를 사운드로 변환하여 스피커(미도시)를 통해 출력시키거나, 외부 출력단자(미도시)를 통해 연결된 외부기기로 출력한다.
영상 처리부(160)는 사용자에게 제공하기 위한 GUI(Graphic User Interface)를 생성한다. 이러한 GUI는 OSD(On Screen Display)일 수 있으며, 영상 처리부(160)는 DSP(Digital signal processor)로 구현될 수 있다.
구체적으로, 영상 처리부(160)는 음성 인식이 수행되고, 음성 인식 결과 대상 장치가 전자 장치(100)인 것으로 결정되면 음성 인식 결과에 대한 정보를 GUI로 표시할 수 있다.
그리고 영상 처리부(160)는 생성된 GUI를 후술할 A/V 처리부(150)에서 출력된 영상에 부가할 수 있다. 그리고 영상 처리부(160)는 GUI가 부가된 영상에 대응되는 영상 신호를 디스플레이(170)에 제공할 수 있다. 이에 따라, 디스플레이(170)는 전자 장치(100)에서 제공하는 각종 정보(예를 들어, 음성 인식 결과 정보) 및 영상 신호 제공부(160)에서 전달된 영상을 표시한다.
메모리(165)는 영상 컨텐츠를 저장할 수 있다. 구체적으로, 메모리(165)는 A/V 처리부(150)로부터 영상과 오디오가 압축된 영상 컨텐츠를 제공받아 저장할 수 있으며, 프로세서(130)의 제어에 따라 저장된 영상 컨텐츠를 A/V 처리부(150)에 출력할 수 있다.
메모리(165)는 전자 장치의 장치 정보를 저장한다. 또한, 메모리(165)는 타 장치의 장치 정보를 저장할 수 있다. 그리고 이러한 전자 장치의 장치 정보 및 타 장치의 장치 정보는 기설정된 시점에 업데이트 될 수 있다. 한편, 메모리(165)는 비휘발성 메모리(ex, 하드디스크, SSD(Solid state drive), 플래시 메모리), 휘발성 메모리 등으로 구현될 수 있다.
디스플레이(170)는 영상을 표시한다. 이러한 디스플레이(170)는 LCD(Liquid Crystal Display), PDP(Plasma Display Panel), OLED(Organic light emitting diodes), QLED(Quantum dot light-emitting diodes) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. LCD로 구성되는 경우, 디스플레이(170) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(170)는 터치 센서부와 결합하여 터치 스크린으로 구현될 수 있다.
LCD로 구성되는 경우, 디스플레이(170)는 백라이트를 포함한다. 여기서 백라이트는 복수의 광원으로 구성되는 점광원으로, 로컬 디밍을 지원할 수 있다.
여기서 백라이트를 구성하는 광원은 냉음극형광램프(Cold Cathode Fluorescent Lamp: CCFL) 또는 발광 다이오드(Light Emitting Diode: LED)로 구성될 수 있다. 이하에서는 백라이트를 발광 다이오드와 발광 다이오드 구동 회로로 구성되는 것으로 도시하고 설명하나, 구현시에는 LED 이외에 다른 구성으로 구현될 수도 있다. 그리고 백라이트를 구성하는 복수의 광원은 다양한 형태로 배치될 수 있으며 다양한 로컬 디밍 기술이 적용될 수 있다. 예를 들어, 백라이트는 복수의 광원이 매트릭스 형태로 배치되어 액정화면 전체에 균일하게 배치되는 직하형(Direct type) 백라이트일 수 있다. 이 경우, 백라이트는 Full-Array 로컬 디밍 또는 Direct 로컬 디밍으로 동작할 수 있다. 여기서 Full-Array 로컬 디밍은 LCD 화면 뒤에 전체적으로 광원이 고르게 전체적으로 배치되며, 각 광원별 휘도 조절을 수행하는 디밍 방식이다. 그리고 Direct 로컬 디밍은 Full-Array 로컬 디밍 방식과 유사하나 보다 작은 광원의 개수로 각 광원별 휘도 조절을 수행하는 디밍 방식이다.
또한, 백라이트는 거나 LCD의 테두리 부분에만 복수의 광원이 배치되는 엣지형(Edge type) 백라이트일 수 있다. 이 경우, 백라이트는 Edge-lit 로컬 디밍으로 동작할 수 있다. 여기서 Edge-lit 로컬 디밍은 복수의 광원이 패널의 가장자리에만 배치되며, 좌/우에만 배치되거나, 상/하에만 배치되거나, 좌/우/상/화에 배치되는 것도 가능하다.
조작부(175)는 터치 스크린, 터치패드, 키 버튼, 키패드 등으로 구현되어, 전자 장치(100)의 사용자 조작을 제공한다. 본 실시 예에서는 전자 장치(100)에 구비된 조작부(175)를 통하여 제어 명령을 입력받는 예를 설명하였지만, 조작부(175)는 외부 제어 장치(예를 들어, 리모컨)로부터 사용자 조작을 입력받을 수도 있다.
프로세서(130)는 전자 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(130)는 동작 모드 시에는 조작부(175)를 통하여 입력받은 제어 명령에 따른 영상이 표시되도록 영상 처리부(160), 디스플레이(170)를 제어할 수 있다.
프로세서(130)는 ROM(131), RAM(132), GPU(Graphic Processing Unit)(133), CPU(134) 및 버스를 포함할 수 있다. ROM(131), RAM(132), GPU(Graphic Processing Unit)(133), CPU(134) 등은 버스를 통해 서로 연결될 수 있다.
CPU(134)는 메모리(165)에 액세스하여, 메모리(165)에 저장된 운영체제(O/S)를 이용하여 부팅을 수행한다. 그리고 CPU(134)는 메모리(165)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행할 수 있다. 이러한 CPU(134)의 동작은 도 2의 프로세서(130)의 동작 동일한바 중복 설명은 생략한다.
ROM(131)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴온 명령이 입력되어 전원이 공급되면, CPU(134)는 ROM(131)에 저장된 명령어에 따라 메모리(165)에 저장된 O/S를 RAM(132)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU(134)는 메모리(165)에 저장된 각종 프로그램을 RAM(132)에 복사하고, RAM(132)에 복사된 프로그램을 실행시켜 각종 동작을 수행한다.
GPU(133)는 전자 장치(100)의 부팅이 완료되면, 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성할 수 있다. 이러한, GPU 구성은 영상 처리부(160)와 같은 별도의 구성으로 구성될 수 있으며, 프로세서(130) 내의 CPU와 결합된 SoC와 같은 구성으로 구현될 수도 있다.
한편, 도 3을 도시함에 있어서, 프로세서(130)가 하나의 프로세서만을 포함하는 것으로 설명하였지만, 구현시에 프로세서(130)는 복수의 프로세서를 포함할 수 있으며, 그 중 하나는 음성 인식 기능만을 수행하는 음성 인식 전용의 프로세서일 수도 있다. 이와 같은 예에 대해서는 도 4를 참조하여 후술한다.
이상과 같이 본 실시 예에 따른 전자 장치(100)는 인식된 결과에 기초하여 음성 인식 결과를 수행할 장치를 결정하고, 그에 대응되는 기기에서만 기능을 수행하는바, 사용자 의도에 보다 부합한 동작 수행이 가능하다. 또한, 본 실시 예에 다른 전자 장치(100)는 타 장치에서의 인식 결과도 활용하여 기능을 수행할 수 있는바, 음성 인식 범위를 확장이 가능하다.
한편, 이상에서는 디스플레이(150)가 필수적인 구성인 것으로 기재되어 있으나, 전자 장치(100)가 셋탑 박스 등 신호 처리만 수행하는 경우에는 디스플레이(150)는 생략될 수 있으며, 프로세서(130)는 UI 화면을 외부 디스플레이 장치가 표시하도록 UI 화면에 대한 정보를 외부 디스플레이 장치에 전송할 수 있다.
또한, 전자 장치(100)가 세탁기, 냉장고 등인 경우, 해당 기기에서의 특정 기능을 수행하기 위한 추가적인 구성이 더 포함될 수도 있다.
한편, 도 1 내지 도 3을 설명함에 있어서, 복수의 전자 장치 각각이 장치 정보를 미리 저장하여 이용하는 것으로 설명하였지만, 구현시에 복수의 전자 장치는 음성 인식이 필요한 시점에 장치 정보를 요청하여 이용할 수 있다. 또한, 복수의 전자 장치 중 하나(예를 들어, 이동이 불가한 장치 예를 들어, TV, 냉장고 등)만이 복수의 전자 장치의 장치 정보(이력 정보를 포함)등을 관리할 수 있다.
도 4는 복수의 전자 장치 간의 음성 인식 동작의 연동 동작을 설명하기 위한 도면이다.
도 4를 참조하면, 음성 인식 시스템(1000)은 제1 전자 장치(100-1), 제2 전자 장치(100-2)로 구성된다.
이하에서는 두 전자 장치의 공통적인 구성을 먼저 설명하고, 두 전자 장치의 연동 동작을 이후에 설명한다.
전자 장치(100-1, 100-2)는 음성 입력부(110), 통신부(120), 프로세서(130), 기능부(170)로 구성될 수 있다.
음성 입력부(110)는 사용자의 발화를 입력받는다. 구체적으로, 마이크를 이용하여 사용자 발화 음성을 입력받거나, 외부의 마이크로부터 음성 신호를 수신할 수 있다.
프로세서(130)는 입력된 음성 신호에 대한 음성 인식을 수행한다. 구체적으로 프로세서(130)는 음성 인식 프로세서(131) 및 음성 인식 처리 프로세서(133)로 구성될 수 있다.
음성 인식 프로세서(131)는 시작 명령어를 감지한다.
그리고 음성 인식 프로세서(131)는 시작 명령어 이후의 입력된 음성 신호에 대한 음성 인식을 수행한다. 구체적으로, 음성 인식 프로세서(130)는 음성 신호의 파형을 분석하여 사용자 발화 음성에 대응되는 텍스트 문장을 생성할 수 있다. 한편, 구현시에 음성 인식 프로세서(131)는 자체적으로 저장하고 있는 음성 인식 알고리즘을 이용하여 텍스트 문장을 생성할 수도 있고, 네트워크 기반에 서버에 음성 신호를 제공하고 그 결과를 수신하여 이용하는 형태로도 구현될 수 있다.
음성 인식 처리 프로세서(133)는 음성 인식 프로세서(131)에서 시작 명령어가 감지되면, 음성 인식 동작의 수행 여부를 결정할 수 있다. 이를 위하여, 음성 인식 처리 프로세서(133)는 시작 명령어가 감지되었음을 타 전자 장치에 통지되도록 통신부(120)를 제어하고, 시작 명령어를 감지한 전자 장치 중 우선순위가 가장 높은 장치이면 음성 인식이 수행되는 것으로 결정할 수 있다.
한편, 사용자의 발화 명령은 시작 명령어 발화 이후 바로 연속하여 입력될 수 있다. 따라서, 음성 인식 프로세서(131)는 상술한 결정 동작과 별개로 음성 인식 결과를 진행하고, 음성 인식 처리 프로세서(133)는 해당 전자 장치(100-1)가 음성 인식을 수행하는 것으로 결정되면 상술한 처리가 지속하도록 하고, 만약 타 전자 장치(100-2)가 음성 인식을 수행하는 것으로 결정되면 상술한 음성 인식 처리의 동작이 중단되도록 할 수 있다.
음성 인식 처리 프로세서(133)는 음성 인식 프로세서(131)에 생성된 텍스트 문자를 기초로 대상 기기를 결정한다. 구체적으로, 음성 인식 처리 프로세서(1330)는 생성된 텍스트 문자에서 키워드를 추출하고, 추출된 키워드에서 장치 및 기능을 식별하는데 이용 가능한 키워드를 검색하고, 검색된 키워드와 기저장된 장치 정보를 이용하여 대상 기기를 결정할 수 있다. 이와 같은 동작은 도 2의 프로세서(130)에서 상술하였는바, 중복 설명은 생략한다.
대상 기기가 결정되면, 프로세서(130)는 대상 기기에서 해당 동작이 수행되도록 통신부(120) 또는 기능부(170)를 제어할 수 있다.
통신부(120)는 전자 장치의 장치 정보를 상호 공유하고, 생성된 제어 명령을 상호 공유할 수 있다. 이러한 통신부(120)는 블루투스 모듈로 구성될 수 있다.
기능부(170, 150)는 생성된 제어 명령 또는 수신된 제어 명령에 대응되는 기능을 수행할 수 있다. 예를 들어, 제어 명령이 특정 컨텐츠의 표시 기능인 경우, 기능부(170)는 특정 컨텐츠를 표시하는 동작을 수행할 수 있다. 만약, 제어 명령이 특정 컨텐츠의 소리 출력이었으면, 기능부(150)는 특정 컨텐츠에 대응되는 음향을 출력하는 동작을 수행할 수 있다.
이하에서는, 시작 명령어가 감지된 경우의 두 전자 장치(100-1, 100-2)의 연동 동작을 설명한다.
예를 들어, 사용자가 시작 명령어를 발화한 경우, 두 전자 장치(100-1, 100-2)는 음성 인식 기능을 활성화할 수 있다. 만약, 두 전자 장치 중 하나의 장치(100-1)만 시작 명령어를 감지한 경우, 제1 전자 장치(100-1)는 사용자 발화 음성에 대한 음성 인식을 수행하고, 그에 대한 대상 기기의 결정 및 제어 동작을 모두 수행할 수 있다.
한편, 사용자가 시작 명령어를 발화하고, 두 전자 장치(100-1, 100-2) 시작 명령어를 감지한 경우, 기설정된 우선 순위에 따라 하나의 전자 장치(100-2)에서만 음성 인식을 수행할 수 있다.
한편, 이상에서는 시작 명령어의 감지 여부를 공유하고, 그에 따라 어느 하나의 전자 장치에서만 음성 인식을 수행하는 것으로 결정하였지만, 공유 단계는 다른 시점일 수 있다.
예를 들어, 전자 장치(100-1, 100-2)는 시작 명령어가 감지되면 개별적으로 음성 인식을 수행하고, 두 전자 장치(100-1, 100-2)는 음성 인식 결과인 텍스트를 상호 공유할 수도 있으며, 그에 따른 최종 결과인 제어 명령만을 공유할 수도 있다. 또한, 구현시에는 최종 결과인 제어 명령만을 공유하고, 두 전자 장치(100-1, 100-2)에서 생성한 제어 명령이 상이하면, 음성 인식 결과를 공유하여 서로 다른 제어 명령 중 하나를 수정할 수도 있다.
한편, 두 전자 장치(100-1, 100-2)는 인식 결과를 수행할 대상 기기를 결정하기 위해서는 장치 정보를 공유하여야 한다. 이러한 장치 정보는 미리 공유되어 있을 수 있다. 이러한 동작에 대해서는 도 5를 참조하여 후술한다.
도 5는 복수의 전자 장치 간의 초기 설정 동작을 설명하기 위한 도면이다.
도 5를 참조하면, 음성 인식 시스템(1000)은 제1 전자 장치(100-1), 제2 전자 장치(100-2), 제3 전자 장치(100-3)로 구성된다.
음성 인식 시스템(1000)이 초기 설정되는 경우, 또는 새로운 장치가 음성 인식 시스템(1000)에 추가되는 경우나 기설정된 시점에 음성 인식 시스템(1000) 내의 각 장치는 자신의 장치 정보를 상호 공유한다.
예를 들어, 제1 전자 장치(100)는 자신의 장치를 식별하는데 필요한 정보, 설치된 앱 정보, 이력 정보 등을 기저장하고 있으면, 공유가 필요하면, 타 전자 장치(100-2, 100-3)에 해당 자신의 정보를 전송할 수 있다.
반대로 제1 전자 장치(100-1)는 타 전자 장치의 장치 정보를 수신하여 저장할 수 있다.
동일한 동작은 제2 전자 장치(100-2), 제3 전자 장치(100-3) 상에서도 수행될 수 있다.
또한, 상술한 복수의 전자 장치 간의 음성 인식을 수행할 우선 순위가 미리 결정될 수 있다. 이러한 우선 순위는 상술한 음성 인식 시스템에 포함된 시간 순서에 따라 결정될 수 있으며, 각 전자 장치의 음성 인식의 성공률에 기초하여 결정될 수도 있다. 또한, 사용자가 직접 우선 순위를 설정해 놓을 수 도 있다.
한편, 가정집을 고려하면, 가정집은 많은 방을 포함하며, 방마다 다른 전자 장치가 구비될 수 있다. 가정집에 10대의 음성 인식이 가능한 전자 장치가 여러 방에 분포되어 있는 경우, 10대의 전자 장치 모두가 서로 장치 정보를 공유한다면 각 장치에 저장 공간에 무리를 줄 수 있다.
이 경우, 복수의 전자 장치를 복수의 그룹으로 구분하고, 그룹별로 장치 정보가 공유되도록 구현될 수 있다. 예를 들어, 거실에 구비되는 전자 장치들 간에만 장치 정보를 공유할 수 있으며, 안방에 구비되는 전자 장치들 간에만 장치 정보를 공유할 수도 있다.
또는 10대는 전자 장치 중 어느 하나의 전자 장치가 서버 역할을 하여, 하나의 장치에서만 모든 장치의 장치 정보를 저장하고, 타 전자 장치에서는 서버 역할을 하는 장치 정보에서 필요시마다 정보를 제공받아 이용할 수 있다. 이때, 서버 역할을 하나는 전자 장치는 각 장치의 위치 정보도 포함하고, 정보 제공시에 동일한 위치에 위치하는 장치 정보만을 제공할 수 있다. 예를 들어, 거실에 위치하는 전자 장치가 타 장치 정보를 요청하면, 거실에 위치하는 타 전자 장치의 장치 정보만을 장치 정보를 요청한 장치에 제공할 수도 있다.
도 6은 복수의 전자 장치 각각에 대한 기설정된 우선 순위의 예를 도시한 도면이다.
도 6을 참조하면, 음성 인식 시스템을 구성하는 복수의 전자 장치 및 각 전자 장치의 우선 순위에 대한 정보를 도시한다.
이러한 우선 순위는 사용자가 미리 설정해 놓을 수 있으며, 사용자의 기기 사용 이력, 또는 음성 인식 활용이 높은 기기 이력 정보에 기초하여 설정될 수 있다. 또한, 우선 순위가 높은 장치에서 음성 인식이 주로 수행되는바, 음성 인식의 성공률 등의 음성 인식과 관련된 성능 지표에 기초하여 우선순위가 결정될 수도 있다.
이러한 우선 순위는 사용자의 발화 내용을 기초로 특정 기기를 특정하기 어려운 경우나, 동일한 기능을 지원하는 복수의 기기가 존재하는 경우에 이용될 수 있다.
구체적으로, 사용자는 동일한 시작 명령어를 가진 기기들을 블루투스로 연결할 수 있으며, 이때 음성인식의 우선 순위를 지정할 수 있다.
이 우선 순위를 바탕으로 사용자의 음성 명령을 처리할 대상 기기가 선정되며, 음성인식 결과를 수행해야 할 대상을 특정할 수 없을 때 명령 실행의 기준으로도 활용될 수 있다.
예를 들어 “빅스비”를 시작명령어로 하는 TV, 스마트폰이 있을 때 “빅스비 TV에서 뉴스 틀어줘”라고 사용자가 발화할 경우 TV와 스마트폰에서 동시에 인식되었다 할지라도 사용자에 의한 음성인식 우선 순위가 스마트폰이 높을 경우 일차적으로 스마트폰에서 사용자의 음성 명령을 처리하여 TV에서 동작하도록 명령을 전달할 수 있다. 이와 같은 동작에 대해서는 도 7을 참조하여 후술한다.
또한 “빅스비 음악 틀어줘”라고 발화하였을 경우와 같이 특정 기기를 추정하기 어려울 경우 설정된 우선 순위에 맞춰 음성 인식을 실행한다. 이와 같은 동작에 대해서는 도 8을 참조하여 후술한다.
도 7은 문장 내의 제어 대상 정보를 이용하여 복수의 전자 장치 중 음성 인식 결과를 수행할 장치를 선정하는 동작을 설명하기 위한 도면이다.
한편, 상술한 우선 순위는 음성 인식을 수행할 장치를 결정하는데 이용될 수 있으며, 최종 음성 인식에 따른 기능을 수행할 장치를 결정하는데도 이용될 수 있다. 이하에서는 먼저, 음성 인식을 수행하는 장치를 결정하는 경우의 동작을 우선 적으로 설명한다.
도 7을 참조하면, 음성 인식 시스템(100) 내의 복수의 전자 장치(100-1, 100-2, 100-3)는 사용자의 발화가 입력되었을 때 각 전자 장치(100-1, 100-2, 100-3)는 사용자의 발화를 분석하여 입력이 시작 명령어인지 아닌지를 감지할 수 있다.
그리고 각 전자 장치(100-1, 100-2, 100-3)는 사용자의 발화가 시작 명령어로 판단되었을 때 시작 명령어 인식에 성공하였다는 정보를 공유할 수 있다.
이때 각 전자 장치(100-1, 100-2, 100-3)는 연결된 기기들의 인식 여부와 음성인식 우선 순위를 알 수 있으므로 음성 명령어의 분석을 어떤 전자 장치에서 수행할지 결정할 수 있다.
예를 들어, 제1 전자 장치(100-1)가 우선 순위가 높으며, 시작 명령어를 감지한 경우, 사용자가 발화한 음성에 대한 음성 인식을 수행하고, 수행된 음성 인식 결과에 특정 장치를 식별할 수 있는 키워드 TV를 이용하여 제1 전자 장치(100)를 대상 기기를 결정할 수 있다.
한편, 음성 인식을 수행한 장치가 대상 기기인바, 제1 전자 장치(100)는 음성 인식 결과에 대한 동작을 바로 수행할 수 있다.
한편, 제1 전자 장치(100-1)가 우선 순위가 가장 높으나, 시작 명령어를 인지하지 못하였으면, 다음 순위의 제2 전자 장치(100-2)가 사용자가 발화한 음성에 대한 음성 인식을 수행할 수 있다. 제2 전자 장치(100-2)는 수행된 음성 인식 결과에 특정 장치를 식별할 수 있는 키워드 TV를 이용하여 제1 전자 장치(100)를 대상 기기로 결정할 수 있다.
이러한 경우, 제2 전자 장치(100-2)는 제1 전자 장치(100)에서의 뉴스 재생과 관련된 제어 명령을 생성하고, 생성된 제어 명령을 제1 전자 장치(100)에 전송할 수 있다. 이때, 생성되는 제어 명령은 특정 기기에서만 인식 가능한 명령, 예를 들어, 채널 11로 채널 전환, TV 온 및 채널 11 전환일 수 있으며, 음성 인식 결과, 즉 "뉴스 틀어줘"일 수 있다.
한편, 이상에서는 우선 순위에 따라 특정 장치에서만 음성 인식을 수행하는 것으로 설명하였지만, 구현시에는 시작 명령어를 감지한 모든 장치가 음성 인식을 수행할 수도 있다.
즉, 시작 명령어 인식에 성공한 모든 전자 장치가 음성 인식을 수행하고, 음성 인식 결과(예를 들어, TV에서 뉴스 틀어줘)를 공유하는 형태로 수행할 수도 있다.
또한, 상술한 우선 순위는 음성 인식 기능을 수행할 기기를 결정하는데 이용할 뿐만 아니라, 사용자의 음성에 다른 기능을 복수에서 수행 가능한 경우, 어느 하나를 특정하는데 이용할 수도 있다. 이에 대해서는 도 8을 참조하여 이하에서 설명한다.
도 8은 장치 정보를 이용하여 복수의 전자 장치 중 음성 인식 결과를 수행할 장치를 선정하는 동작을 설명하기 위한 도면이다.
도 8을 참조하면, 음성 인식 시스템(100) 내의 복수의 전자 장치(100-1, 100-2, 100-3)는 사용자의 발화가 입력되었을 때 각 전자 장치(100-1, 100-2, 100-3)는 사용자의 발화를 분석하여 입력이 시작 명령어인지를 감지할 수 있다.
그리고 각 전자 장치(100-1, 100-2, 100-3)는 사용자의 발화가 시작 명령어로 판단되었을 때, 이에 대한 시작 명령어의 감지 사실을 공유할 수 있다.
공유 결과 우선 순위가 높은 전자 장치에서 음성 인식 기능을 수행한다. 예를 들어, 제1 전자 장치(100-1)가 높은 우선 순위를 가지면, 제1 전자 장치(100-1)에서 음성 인식을 수행하고, 인식 결과에 따른 대상 기기를 결정할 수 이다.
예를 들어, 사용자의 발화 음성에 SNS 앱이라는 기능 수행과 관련된 키워드가 포함되어 있으며, SNS 앱이 제1 전자 장치(100-1)와 제2 전자 장치(100-2)에서 수행 가능하고, 제1 전자 장치(100-1)가 우선 순위가 높은 경우면, 제1 전자 장치(100-1)는 자신이 SNS 앱을 실행하는 것으로 결정할 수 있다.
이때, 제1 전자 장치(100-1)는 자신이 수행하는 것으로 결정되었는바, 인식 결과에 따른 동작을 수행할 수 있다.
한편, 이상에서는 특정 기능을 복수의 전자 장치에서 수행 가능한 경우에 기설정된 우선 순위에 기초하여 대상 기기를 결정하는 것으로 설명하였지만, 구현시에는 우선 순위를 고려하기 전에 사용자의 이력 정보에 기초하여 대상 기기를 결정하고, 대상 기기를 특정하기 어려운 경우에만 우선 순위를 고려하는 형태도 가능하다.
도 9는 서로 다른 동작 모드로 동작하는 복수의 전자 장치에서의 음성 인식 동작을 설명하기 위한 도면이다.
여기서, 제1 전자 장치(100-1)는 마이크(110), 프로세서(120) 및 통신부(130)에 전원이 공급되는 제1 절전 상태이고, 제2 전자 장치(100-2)는 마이크(110) 및 프로세서(120)에만 전원이 공급되는 제2 절전 상태이고, 제3 전자 장치(100-3)는 모든 구성에 전원이 공급되는 노멀 상태이다.
여기서, 나머지 구성(101)은 설명의 편의를 위하여 도입한 용어로, 전자 장치(100)를 구성하는 모든 구성 중 마이크(110), 프로세서(130), 통신부(140)를 제외한 구성을 의미하는 것일 수 있다.
이와 같은 상태에서 사용자가 시작 명령어를 발화하면, 각 전자 장치(100-1, 100-2, 100-3)의 마이크는 사용자 음성을 입력받고, 프로세서(130)는 음성 인식 기능의 트리거인 시작 명령어가 감지되었음을 확인할 수 있다.
시작 명령어가 감지되면, 각 전자 장치(100-1, 100-2, 100-3)는 통신 기능이 활성화되도록 하고, 시작 명령어의 감지 여부를 타 장치와 공유한다.
그리고 시작 명령어가 감지되고, 타 장치와의 시작 명령어의 감지 여부를 기초로 음성 인식을 수행할 장치를 결정할 수 있다.
그리고 음성 인식을 수행하는 것으로 결정된 장치(100-1)는 음성 인식을 수행할 수 있다.
만약, 제1 전자 장치(100-1)가 대상 기기로 결정되면, 해당 제1 전자 장치(100)는 동작 모드를 노멀 모드로 전환하여 동작을 전환할 수 있다. 이 경우, 제2 전자 장치(100-2)는 대상 기기가 아닌바, 활성화된 통신부를 다시 비활성화된 상태로 전환할 수 있다.
도 10은 본 개시의 일 실시 예에 따른 음성 인식 방법을 설명하기 위한 흐름도이다.
입력된 음성에 대한 음성 인식을 수행한다(S1010). 구체적으로, 기저장된 음성 인식 알고리즘을 이용하여 음성 인식을 수행하거나, 서버에 입력된 음성 신호를 전송하여 음성 인식 결과를 수신할 수 있다. 한편, 구현시에는 시작 명령어가 감지되면, 시작 명령어의 감지 여부를 타 전자 장치와 공유하고, 시작 명령어가 감지된 전자 장치 중 우선 순위가 높은 전자 장치에서만 음성 인식을 수행할 수 있다.
수행된 음성 인식 결과에 포함된 기기 정보 및 기능 정보 중 적어도 하나의 기초하여 대상 기기를 결정한다(S1020). 구체적으로, 수행된 음성 인식 결과에 포함된 기기 정보 및 기능 정보 중 적어도 하나에 기초하여 전자 장치 및 전자 장치가 연결 가능한 타 전자 장치 중 대상 기기를 결정할 수 있다. 예를 들어, 음성 인식 결과에 기기 정보를 포함하면, 전자 장치 및 타 전자 장치 중에서 기기 정보에 대응되는 대상 기기를 결정할 수 있다. 또는 음성 인식 결과에 기능 정보를 포함하면, 전자 장치의 장치 정보 및 타 전자 장치의 정보에 기초하여 기능 정보에 대응되는 기능을 수행 가능한 대상 기기를 결정할 수 있다.
만약, 기능을 수행 가능한 대상 기기가 복수 기기이면, 전자 장치 및 타 전자 장치의 이력 정보에 기초하거나, 기설정된 우선 순위에 기초하여 하나의 대상 기기를 결정할 수도 있다.
결정된 대상 기기에 음성 인식 결과에 대응되는 제어 명령을 전송한다(S1030). 만약, 결정된 대상 기기가 장치 자신이면, 인식 결과에 대응되는 동작을 수행할 수 있다.
이상과 같이 본 실시 예에 따른 음성 인식 방법은 인식된 결과에 기초하여 음성 인식 결과를 수행할 장치를 결정하고, 그에 대응되는 기기에서만 기능을 수행하는바, 사용자 의도에 보다 부합한 동작 수행이 가능하다. 도 10과 같은 음성 인식 방법은 도 2 또는 도 3의 구성을 가지는 전자 장치 상에서 실행될 수 있으며, 그 밖의 구성을 가지는 전자 장치 상에서도 실행될 수 있다.
한편, 상술한 실시 예에 따른 음성 인식 방법은 프로그램으로 구현되어 디스플레이 장치에 제공될 수 있다. 특히, 디스플레이 방법을 포함하는 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
도 11은 본 개시의 다른 실시 예에 따른 음성 인식 방법을 설명하기 위한 흐름도이다.
도 11을 참조하면, 사용자 시작 명령어를 감지한다(S1110).
감지 결과 사용자 시작 명령어를 감지한 장치가 복수개인지를 판단한다(S1120). 이를 위하여, 시작 명령어가 감지되면, 시작 명령의 감지 사실 여부를 다른 전자 장치와 공유할 수 있다.
판단 결과, 복수의 전자 장치에서 시작 명령어를 감지한 경우, 우선 순위가 높은 전자 장치가 음성 인식을 수행하는 것으로 결정할 수 있다(S1130). 이때, 복수의 전자 장치가 시작 명령어를 감지하였으며, 자신이 낮은 우선 순위를 가지면 음성 인식 동작은 수행되지 않을 수 있다.
만약, 현재 장치에서만 시작 명령어를 감지한 경우, 음성 인식을 수행하는 것으로 결정할 수 있다(S1140).
이때, 음성 명령어의 분석은 백그라운드 동작으로 실행하여 사용자가 시청하고 있는 화면에 인터럽트를 발생시키지 않을 수 있다.
음성 인식 결과 음성 명령을 실행할 디바이스 특정이 가능한지를 판단한다(S1150). 판단 결과 명령어를 실행할 디바이스가 연결된 기기로 존재할 경우 해당 디바이스에서 명령어를 실행하며(S1150), 없을 경우 음성 명령어를 분석한 디바이스에서 해당 명령어에 대한 기본 동작을 수행할 수 있다(S1160).
이상과 같이 본 실시 예에 따른 음성 인식 방법은 인식된 결과에 기초하여 음성 인식 결과를 수행할 장치를 결정하고, 그에 대응되는 기기에서만 기능을 수행하는바, 사용자 의도에 보다 부합한 동작 수행이 가능하다. 도 10과 같은 음성 인식 방법은 도 2 또는 도 3의 구성을 가지는 전자 장치 상에서 실행될 수 있으며, 그 밖의 구성을 가지는 전자 장치 상에서도 실행될 수 있다.
한편, 상술한 실시 예에 따른 음성 인식 방법은 프로그램으로 구현되어 디스플레이 장치에 제공될 수 있다. 특히, 디스플레이 방법을 포함하는 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안 될 것이다.
1000: 음성 인식 시스템 100: 전자 장치
110: 마이크 120: 통신부
130: 프로세서

Claims (20)

  1. 전자 장치에 있어서,
    복수의 외부 장치와 통신을 수행하는 통신부;
    사용자 음성 입력을 수신하는 마이크;
    상기 전자 장치의 장치 정보 및 상기 복수의 외부 전자 장치의 장치 정보를 저장하는 메모리; 및
    상기 수신된 사용자 음성 입력에 기초하여, 음성 인식에 대응하는 기능을 수행하고,
    상기 기능 수행의 결과에 기초하여, 상기 사용자 음성 입력에 대응하는 제어 명령을 획득하고,
    대상 기기가 상기 전자 장치로 식별된 경우, 상기 획득된 제어 명령을 수행하고, 상기 대상 기기가 상기 복수의 외부 전자 장치 중에서 식별된 경우, 상기 획득된 제어 명령을 상기 대상 기기에 전송하도록 상기 통신부를 제어하는 프로세서;를 포함하며,
    상기 프로세서는,
    상기 기능 수행의 결과에 기초하여, 상기 사용자 음성 입력에 기기 정보가 포함 되었는지 식별하고,
    상기 사용자 음성 입력에 상기 기기 정보가 포함된 경우, 상기 전자 장치의 장치 정보 및 상기 복수의 외부 전자 장치의 장치 정보에 기초하여, 상기 전자 장치 및 상기 복수의 외부 전자 장치 중 상기 기기 정보에 대응되는 전자 장치가 한 개인 것으로 식별되면, 상기 기기 정보에 대응되는 전자 장치를 상기 대상 기기로 결정하고, 상기 기기 정보에 대응되는 전자 장치가 복수 개인 것으로 식별되면, 상기 전자 장치의 이력 정보 및 상기 복수의 외부 전자 장치의 이력 정보에 기초하여 상기 식별된 복수 개의 전자 장치 중 하나의 전자 장치를 상기 대상 기기로 결정하고,
    상기 기능 수행의 결과에 기초하여, 상기 사용자 음성 입력에 상기 기기 정보가 포함되지 않는 경우, 상기 사용자 음성 입력에 기능 정보가 포함되었는지 식별하고,
    상기 사용자 음성 입력에 상기 기능 정보가 포함된 경우, 상기 전자 장치의 장치 정보 및 상기 복수의 외부 전자 장치의 장치 정보에 기초하여, 상기 전자 장치 및 상기 복수의 외부 전자 장치 중 상기 기능 정보에 대응되는 전자 장치가 한 개인 것으로 식별되면, 상기 식별된 한 개의 전자 장치를 상기 대상 기기로 결정하고, 상기 기능 정보에 대응되는 전자 장치가 복수 개인 것으로 식별되면, 기 설정된 우선 순위에 기초하여 상기 식별된 복수 개의 전자 장치 중 하나의 전자 장치를 상기 대상 기기로 결정하고,
    상기 기능 수행 결과에 기초하여, 상기 사용자 음성 입력에 상기 기기 정보 및 상기 기능 정보가 포함되지 않은 경우, 상기 전자 장치 및 상기 복수의 외부 장치 중 기 설정된 우선 순위에 기초하여 대상 기기를 식별하는, 전자 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 제1항에 있어서,
    상기 프로세서는,
    현재 시간 정보 및 이력 정보에 기초하여 상기 복수의 기기 중 하나의 대상 기기를 식별하는 전자 장치.
  8. 삭제
  9. 제1항에 있어서,
    상기 프로세서는,
    기설정된 시점에 상기 전자 장치의 장치 정보 및 상기 외부 전자 장치의 장치 정보를 업데이트하는 전자 장치.
  10. 제1항에 있어서,
    상기 프로세서는,
    상기 식별된 대상 기기가 상기 전자 장치이면, 상기 기능 수행의 결과에 대응되는 기능을 수행하는 전자 장치.
  11. 제10항에 있어서,
    상기 프로세서는,
    상기 식별된 대상 기기가 상기 전자 장치이고, 외부 전자 장치로부터 제어 명령이 수신되면, 상기 기능 수행의 결과 및 상기 수신된 제어 명령을 비교하여 상기 수신된 제어 명령에 따른 기능의 추가 수행 여부를 식별하는 전자 장치.
  12. 제1항에 있어서,
    상기 프로세서는,
    상기 마이크를 통해 입력된 음성에 시작 명령어가 감지되면, 상기 마이크를 통해 입력된 음성에 대한 음성 인식을 수행하는 전자 장치.
  13. 제1항에 있어서,
    상기 프로세서는,
    상기 마이크를 통해 입력된 음성을 서버에 전송되도록 상기 통신부를 제어하고, 상기 서버로부터 상기 전송된 음성에 대한 음성 인식 결과를 이용하여 대상 기기를 식별하는 전자 장치.
  14. 전자 장치에서의 음성 인식 방법에 있어서,
    사용자 음성 입력을 수신하는 단계;
    상기 수신한 사용자 음성 입력에 기초하여, 음성 인식에 대응하는 기능을 수행하는 단계;
    상기 기능 수행 결과에 기초하여, 상기 사용자 음성 입력에 대응하는 제어 명령을 획득하는 단계;
    상기 기능 수행 결과에 기초하여, 대상 기기를 식별하는 단계; 및
    상기 대상 기기가 상기 전자 장치로 식별된 경우, 상기 획득된 제어 명령을 수행하고, 상기 대상 기기가 상기 복수의 외부 전자 장치 중에서 식별된 경우, 상기 획득된 제어 명령을 상기 식별된 대상 기기에 전송하는 단계;를 포함하고,
    상기 식별하는 단계는,
    상기 기능 수행의 결과에 기초하여, 상기 사용자 음성 입력에 기기 정보가 포함되었는지 식별하는 단계;
    상기 사용자 음성 입력에 상기 기기 정보가 포함된 경우, 상기 전자 장치의 장치 정보 및 상기 복수의 외부 전자 장치의 장치 정보에 기초하여, 상기 전자 장치 및 상기 복수의 외부 전자 장치 중 상기 기기 정보에 대응되는 전자 장치의 개수를 식별하는 단계;
    상기 기기 정보에 대응되는 전자 장치의 개수가 한 개인 것으로 식별되면, 상기 기기 정보에 대응되는 전자 장치를 상기 대상 기기로 결정하는 단계;
    상기 기기 정보에 대응되는 전자 장치가 복수 개인 것으로 식별되면, 상기 전자 장치의 이력 정보 및 상기 복수의 외부 전자 장치의 이력 정보에 기초하여 상기 식별된 복수 개의 전자 장치 중 하나의 전자 장치를 상기 대상 기기로 결정하는 단계;
    상기 기능 수행의 결과에 기초하여, 상기 사용자 음성 입력에 상기 기기 정보가 포함되지 않는 경우, 상기 사용자 음성 입력에 기능 정보가 포함되었는지 식별하는 단계;
    상기 사용자 음성 입력에 상기 기능 정보가 포함된 경우, 상기 전자 장치의 장치 정보 및 상기 복수의 외부 전자 장치의 장치 정보에 기초하여, 상기 전자 장치 및 상기 복수의 외부 전자 장치 중 상기 기능 정보에 대응되는 전자 장치의 개수를 식별하는 단계;
    상기 기능 정보에 대응되는 전자 장치의 개수가 한 개인 것으로 식별되면, 상기 식별된 한 개의 전자 장치를 상기 대상 기기로 결정하는 단계;
    상기 기능 정보에 대응되는 전자 장치가 복수 개인 것으로 식별되면, 기 설정된 우선 순위에 기초하여 상기 식별된 복수 개의 전자 장치 중 하나의 전자 장치를 상기 대상 기기로 결정하는 단계; 및
    상기 기능 수행 결과에 기초하여, 상기 사용자 음성 입력에 상기 기기 정보 및 상기 기능 정보가 포함되지 않은 경우, 상기 전자 장치 및 상기 복수의 외부 장치 중 기 설정된 우선 순위에 기초하여 대상 기기를 식별하는 단계;를 포함하는, 음성 인식 방법.
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 전자 장치에서의 음성 인식 방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록 매체에 있어서,
    전자 장치에서의 음성 인식 방법에 있어서,
    사용자 음성 입력을 수신하는 단계;
    상기 수신한 사용자 음성 입력에 기초하여, 음성 인식에 대응하는 기능을 수행하는 단계;
    상기 기능 수행 결과에 기초하여, 상기 사용자 음성 입력에 대응하는 제어 명령을 획득하는 단계;
    상기 기능 수행 결과에 기초하여, 대상 기기를 식별하는 단계; 및
    상기 대상 기기가 상기 전자 장치로 식별된 경우, 상기 획득된 제어 명령을 수행하고, 상기 대상 기기가 상기 복수의 외부 전자 장치 중에서 식별된 경우, 상기 획득된 제어 명령을 상기 식별된 대상 기기에 전송하는 단계;를 포함하고,
    상기 식별하는 단계는,
    상기 기능 수행의 결과에 기초하여, 상기 사용자 음성 입력에 기기 정보가 포함되었는지 식별하는 단계;
    상기 사용자 음성 입력에 상기 기기 정보가 포함된 경우, 상기 전자 장치의 장치 정보 및 상기 복수의 외부 전자 장치의 장치 정보에 기초하여, 상기 전자 장치 및 상기 복수의 외부 전자 장치 중 상기 기기 정보에 대응되는 전자 장치의 개수를 식별하는 단계;
    상기 기기 정보에 대응되는 전자 장치의 개수가 한 개인 것으로 식별되면, 상기 기기 정보에 대응되는 전자 장치를 상기 대상 기기로 결정하는 단계;
    상기 기기 정보에 대응되는 전자 장치가 복수 개인 것으로 식별되면, 상기 전자 장치의 이력 정보 및 상기 복수의 외부 전자 장치의 이력 정보에 기초하여 상기 식별된 복수 개의 전자 장치 중 하나의 전자 장치를 상기 대상 기기로 결정하는 단계;
    상기 기능 수행의 결과에 기초하여, 상기 사용자 음성 입력에 상기 기기 정보가 포함되지 않는 경우, 상기 사용자 음성 입력에 기능 정보가 포함되었는지 식별하는 단계;
    상기 사용자 음성 입력에 상기 기능 정보가 포함된 경우, 상기 전자 장치의 장치 정보 및 상기 복수의 외부 전자 장치의 장치 정보에 기초하여, 상기 전자 장치 및 상기 복수의 외부 전자 장치 중 상기 기능 정보에 대응되는 전자 장치의 개수를 식별하는 단계;
    상기 기능 정보에 대응되는 전자 장치의 개수가 한 개인 것으로 식별되면, 상기 식별된 한 개의 전자 장치를 상기 대상 기기로 결정하는 단계;
    상기 기능 정보에 대응되는 전자 장치가 복수 개인 것으로 식별되면, 기 설정된 우선 순위에 기초하여 상기 식별된 복수 개의 전자 장치 중 하나의 전자 장치를 상기 대상 기기로 결정하는 단계; 및
    상기 기능 수행 결과에 기초하여, 상기 사용자 음성 입력에 상기 기기 정보 및 상기 기능 정보가 포함되지 않은 경우, 상기 전자 장치 및 상기 복수의 외부 장치 중 기 설정된 우선 순위에 기초하여 대상 기기를 식별하는 단계;를 포함하는, 컴퓨터 판독가능 기록 매체.





KR1020170134572A 2017-10-17 2017-10-17 전자 장치 및 음성 인식 방법 KR102471493B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020170134572A KR102471493B1 (ko) 2017-10-17 2017-10-17 전자 장치 및 음성 인식 방법
EP18200652.8A EP3474273B1 (en) 2017-10-17 2018-10-16 Electronic apparatus and method for voice recognition
PCT/KR2018/012265 WO2019078617A1 (en) 2017-10-17 2018-10-17 ELECTRONIC APPARATUS AND VOICE RECOGNITION METHOD
CN201880054657.2A CN111033610B (zh) 2017-10-17 2018-10-17 电子装置及语音识别方法
US16/162,996 US11437030B2 (en) 2017-10-17 2018-10-17 Electronic apparatus and method for voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170134572A KR102471493B1 (ko) 2017-10-17 2017-10-17 전자 장치 및 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20190042919A KR20190042919A (ko) 2019-04-25
KR102471493B1 true KR102471493B1 (ko) 2022-11-29

Family

ID=63878378

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170134572A KR102471493B1 (ko) 2017-10-17 2017-10-17 전자 장치 및 음성 인식 방법

Country Status (5)

Country Link
US (1) US11437030B2 (ko)
EP (1) EP3474273B1 (ko)
KR (1) KR102471493B1 (ko)
CN (1) CN111033610B (ko)
WO (1) WO2019078617A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI651714B (zh) * 2017-12-22 2019-02-21 隆宸星股份有限公司 語音選項選擇系統與方法以及使用其之智慧型機器人
KR102323656B1 (ko) 2019-06-04 2021-11-08 엘지전자 주식회사 홈 어플라이언스 제어 장치 및 방법, 홈 어플라이언스 및 홈 어플라이언스 동작 방법
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
WO2021002611A1 (en) 2019-07-03 2021-01-07 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
KR20210008696A (ko) * 2019-07-15 2021-01-25 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
KR102244156B1 (ko) * 2019-10-14 2021-04-27 주식회사 아이포바인 블루투스 메쉬 네트워크를 이용한 음성명령 처리 방법
KR20220037846A (ko) * 2020-09-18 2022-03-25 삼성전자주식회사 음성 인식을 수행하기 위한 전자 장치를 식별하기 위한 전자 장치 및 그 동작 방법
CN112201236B (zh) * 2020-09-22 2024-03-19 北京小米松果电子有限公司 终端唤醒方法、装置及计算机可读存储介质
KR102309509B1 (ko) * 2021-02-04 2021-10-06 경상국립대학교산학협력단 인공지능 기기 상호간의 호출을 활용한 IoT 디바이스를 제어하는 방법 및 시스템
US20220293109A1 (en) * 2021-03-11 2022-09-15 Google Llc Device arbitration for local execution of automatic speech recognition
EP4089523A1 (en) 2021-05-10 2022-11-16 Koninklijke Philips N.V. Medical system and method
KR20230086500A (ko) * 2021-12-08 2023-06-15 엘지전자 주식회사 인공 지능 장치

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116787A (ja) 2000-07-10 2002-04-19 Matsushita Electric Ind Co Ltd 優先順位決定装置、優先順位決定方法及び優先順位決定プログラム
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
US20130073293A1 (en) * 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same
US8825020B2 (en) * 2012-01-12 2014-09-02 Sensory, Incorporated Information access and device control using mobile phones and audio in the home environment
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
KR20130135410A (ko) * 2012-05-31 2013-12-11 삼성전자주식회사 음성 인식 기능을 제공하는 방법 및 그 전자 장치
KR101309794B1 (ko) * 2012-06-27 2013-09-23 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
KR101990037B1 (ko) * 2012-11-13 2019-06-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
US9189196B2 (en) * 2013-03-14 2015-11-17 Google Inc. Compartmentalized self registration of external devices
JP6522503B2 (ja) * 2013-08-29 2019-05-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器制御方法、表示制御方法及び購入決済方法
KR102146462B1 (ko) * 2014-03-31 2020-08-20 삼성전자주식회사 음성 인식 시스템 및 방법
US9632748B2 (en) * 2014-06-24 2017-04-25 Google Inc. Device designation for audio input monitoring
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
KR102246900B1 (ko) 2014-07-29 2021-04-30 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
KR102346302B1 (ko) 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
KR102585228B1 (ko) 2015-03-13 2023-10-05 삼성전자주식회사 음성 인식 시스템 및 방법
US9911416B2 (en) * 2015-03-27 2018-03-06 Qualcomm Incorporated Controlling electronic device based on direction of speech
US20170032783A1 (en) * 2015-04-01 2017-02-02 Elwha Llc Hierarchical Networked Command Recognition
EP3300074B1 (en) * 2015-05-19 2019-08-21 Sony Corporation Information processing apparatus
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
JP2017107333A (ja) 2015-12-08 2017-06-15 キヤノン株式会社 通信機器及び通信機器の制御方法
KR20170086814A (ko) * 2016-01-19 2017-07-27 삼성전자주식회사 음성 인식 기능을 제공하는 전자 장치 및 그 동작 방법
KR102642666B1 (ko) * 2016-02-05 2024-03-05 삼성전자주식회사 음성인식 장치 및 방법, 음성인식시스템
US10271093B1 (en) * 2016-06-27 2019-04-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
WO2018100743A1 (ja) * 2016-12-02 2018-06-07 ヤマハ株式会社 制御装置および機器制御システム
US10735479B2 (en) * 2017-03-30 2020-08-04 Intel Corporation Methods, systems and apparatus to enable voice assistant device communication
US10546583B2 (en) * 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration

Also Published As

Publication number Publication date
US11437030B2 (en) 2022-09-06
US20190115025A1 (en) 2019-04-18
KR20190042919A (ko) 2019-04-25
CN111033610A (zh) 2020-04-17
EP3474273A1 (en) 2019-04-24
CN111033610B (zh) 2023-10-27
EP3474273B1 (en) 2022-11-30
WO2019078617A1 (en) 2019-04-25

Similar Documents

Publication Publication Date Title
KR102471493B1 (ko) 전자 장치 및 음성 인식 방법
US11727951B2 (en) Display apparatus, voice acquiring apparatus and voice recognition method thereof
KR102169520B1 (ko) 전자장치, 서버 및 그 제어방법
US11488598B2 (en) Display device and method for controlling same
KR20190129222A (ko) 전자 장치 및 그 제어 방법
US20170193962A1 (en) Display apparatus and method for controlling the same
KR20150054490A (ko) 음성인식 시스템, 음성인식 서버 및 디스플레이 장치의 제어방법
US11907616B2 (en) Electronic apparatus, display apparatus and method of controlling the same
US11169774B2 (en) Electronic apparatus and control method thereof
US11462214B2 (en) Electronic apparatus and control method thereof
US9143752B2 (en) Method and electronic system for playing videos
US11455990B2 (en) Electronic device and control method therefor
US20200310745A1 (en) Electronic device and method for controlling same
US9294706B2 (en) Method and apparatus for playing back a moving picture
KR20230024712A (ko) 발화 의도를 고려하여 검색하는 디스플레이 장치 및 방법
KR20200095442A (ko) 디스플레이장치, 음성취득장치 및 그 음성인식방법
KR20200001192A (ko) 전자 장치, 이의 모바일 장치 제어 방법 및 컴퓨터 판독가능 기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant