WO2022102893A1

WO2022102893A1 - 전자 장치, 시스템 및 그 제어 방법

Info

Publication number: WO2022102893A1
Application number: PCT/KR2021/006973
Authority: WO
Inventors: 오형래; 류종엽; 류성한; 이은지
Original assignee: 삼성전자주식회사
Priority date: 2020-11-11
Filing date: 2021-06-03
Publication date: 2022-05-19
Also published as: CN116097348A; EP4141864A1; US11915697B2; US20240153503A1; US20220351723A1; EP4141864A4

Abstract

전자 장치, 시스템 및 그 제어 방법이 개시된다. 음성 인식을 수행하는 전자 장치는 발화를 입력받는 단계, 입력된 발화를 분석하여 도메인 정보 및 의도 정보가 추출 가능한지 판단하는 단계, 도메인 정보 및 의도 정보 중 적어도 하나가 추출되지 않은 경우, 이전의 발화 관련 정보를 요청하는 신호를 전자 장치와 동일 네트워크에 연결된 적어도 하나 이상의 외부 장치로 브로드캐스팅하는 단계, 적어도 하나의 외부 장치로부터 이전의 발화 관련 정보를 수신하는 단계, 수신된 이전의 발화 관련 정보와 입력된 발화를 기반으로 도메인 정보 및 의도 정보를 추출하는 단계 및 추출된 도메인 정보 및 의도 정보를 기반으로 응답 결과를 획득하여 출력한다.

Description

전자 장치, 시스템 및 그 제어 방법

본 개시는 전자 장치, 시스템 및 그 제어 방법에 관한 것으로, 예를 들어, 사용자의 위치와 상관없이 사용자의 음성을 인식하여 응답하는 전자 장치, 시스템 및 그 제어 방법에 관한 것이다.

전자 기술의 발전에 따라 기존의 전통적인 전자 장치도 사용자의 음성을 인식하여 동작 또는 응답을 수행할 수 있다. 예를 들어, 가정에는 각 방, 거실, 주방 등에 다양한 전자 장치가 배치될 수 있고, 각 전자 장치는 사용자의 음성을 인식하여 동작 또는 응답을 수행할 수 있다.

사용자가 고정된 위치에서 하나의 전자 장치에 발화를 하는 경우, 사용자의 발화에 대응되는 음성 데이터를 입력받은 전자 장치는 사용자의 발화에 따라 동작을 수행하거나 응답을 할 수 있다. 그러나, 사용자가 첫번째 발화 후 이동을 하여 두번째 발화를 하는 경우 문제가 발생할 수 있다. 예를 들어, 사용자는 거실에 위치한 TV에 첫번째 발화를 하고, 주방으로 이동하여 주방에 위치한 냉장고에 두번째 발화를 할 수 있다. 이 경우, 냉장고는 사용자의 두번째 발화를 이해하지 못하거나, 이해를 하더라도 사용자의 발화에 대응되는 적절한 동작이나 응답을 할 수 없다.

따라서, 사용자의 발화가 서로 다른 전자 장치에서 입력되더라도 끊김없이 사용자의 발화에 대응되는 적절한 동작이나 응답을 수행할 수 있는 기술에 대한 필요성이 존재한다.

본 개시는 사용자의 연속된 발화가 서로 다른 전자 장치에서 입력되더라도 복수 전자 장치 간의 협력을 통해 사용자의 발화를 정확히 인식하여 응답하는 전자 장치, 시스템 및 그 제어 방법을 제공함에 있다.

본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은 발화에 대응되는 음성 데이터를 입력받는 단계, 상기 입력된 발화를 분석하여 도메인 정보 및 의도 정보가 추출 가능한지 판단하는 단계, 상기 판단 결과, 도메인 정보 및 의도 정보 중 적어도 하나가 추출되지 않은 경우, 이전의 발화 관련 정보를 요청하는 신호를 상기 전자 장치와 동일 네트워크에 연결된 적어도 하나 이상의 외부 장치로 브로드캐스팅하는 단계, 상기 적어도 하나의 외부 장치로부터 상기 이전의 발화 관련 정보를 수신하는 단계, 상기 수신된 이전의 발화 관련 정보와 상기 입력된 발화를 기반으로 도메인 정보 및 의도 정보를 추출하는 단계 및 상기 추출된 도메인 정보 및 의도 정보를 기반으로 응답 결과를 획득하여 출력하는 단계를 포함한다.

본 개시의 일 실시 예에 따른 전자 장치는 발화에 대응되는 음성 데이터를 입력받는 마이크, 외부 장치와 통신을 수행하는 통신 회로를 포함하는 통신 인터페이스, 스피커 및 프로세서를 포함하고, 상기 프로세서는 상기 입력된 발화를 분석하여 도메인 정보 및 의도 정보가 추출 가능한지 판단하고, 상기 판단 결과, 도메인 정보 및 의도 정보 중 적어도 하나가 추출되지 않은 경우, 이전의 발화 관련 정보를 요청하는 신호를 상기 전자 장치와 동일 네트워크에 연결된 적어도 하나 이상의 외부 장치로 브로드캐스팅하고, 상기 적어도 하나의 외부 장치로부터 상기 이전의 발화 관련 정보를 수신하도록 상기 통신 인터페이스를 제어하며, 상기 수신된 이전의 발화 관련 정보와 상기 입력된 발화를 기반으로 도메인 정보 및 의도 정보를 추출하고, 상기 추출된 도메인 정보 및 의도 정보를 기반으로 응답 결과를 획득하여 출력하도록 상기 스피커를 제어한다.

본 개시의 일 실시 예에 따른 시스템은 발화에 대응되는 음성 데이터를 입력받고, 상기 입력된 발화를 분석하여 도메인 정보 및 의도(intent) 정보가 추출 가능한지 판단하며, 도메인 정보 및 의도 정보 중 적어도 하나가 추출되지 않은 경우, 이전의 발화 관련 정보를 요청하는 신호를 상기 전자 장치와 동일 네트워크에 연결된 적어도 하나 이상의 외부 장치로 브로드캐스팅하는 제1 전자 장치 및 상기 제1 전자 장치로부터 상기 이전의 발화 관련 정보를 요청하는 신호를 수신하고, 상기 이전의 발화 관련 정보를 상기 제1 전자 장치로 전송하는 제2 전자 장치를 포함하고, 상기 제1 전자 장치는 상기 제2 전자 장치를 포함하는 적어도 하나의 외부 장치로부터 상기 이전의 발화 관련 정보를 수신하고, 상기 수신된 이전의 발화 관련 정보와 상기 입력된 발화를 기반으로 도메인 정보 및 의도 정보를 추출하며, 상기 추출된 도메인 정보 및 의도 정보를 기반으로 응답 결과를 획득하여 출력한다.

도 1은 본 개시의 다양한 실시 예에 따른 시스템의 동작을 설명하는 도면이다.

도 2는 본 개시의 다양한 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.

도 3은 본 개시의 다양한 실시 예에 따른 프로세서의 구성을 설명하는 도면이다.

도 4는 본 개시의 다양한 실시 예에 따른 전자 장치의 동작을 설명하는 흐름도이다.

도 5는 본 개시의 다양한 실시 예에 따른 대상 장치를 판단하는 과정을 설명하는 도면이다.

도 6은 본 개시의 다양한 실시 예에 따른 대상 장치로 발화를 전달하는 과정을 설명하는 도면이다.

도 7a는 본 개시의 다양한 실시 예에 따른 전자 장치가 발화를 해석하는 과정을 설명하는 도면이다.

도 7b는 발화를 해석하는 다양한 실시 예를 나타내는 도면이다.

도 8은 본 개시의 다양한 실시 예에 따른 발화에 포함된 정보를 판단하는 과정을 설명하는 도면이다.

도 9a는 본 개시의 다양한 실시 예에 따른 타 전자 장치에서 처리할 수 있는 발화인지 판단하는 과정을 설명하는 도면이다.

도 9b는 타 장치에서 처리할 수 있는 발화인지 판단하는 다양한 실시 예를 나타내는 도면이다.

도 10은 본 개시의 다양한 실시 예에 따른 발화의 종류를 판단하는 과정을 설명하는 도면이다.

도 11은 본 개시의 다양한 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이다.

이하에서는 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세하게 설명한다. 본 명세서에 기재된 실시 예는 다양하게 변형될 수 있다. 특정한 실시 예가 도면에서 묘사되고 상세한 설명에서 자세하게 설명될 수 있다. 그러나, 첨부된 도면에 개시된 특정한 실시 예는 다양한 실시 예를 쉽게 이해하도록 하기 위한 것일 뿐이다. 따라서, 첨부된 도면에 개시된 특정 실시 예에 의해 기술적 사상이 제한되는 것은 아니며, 개시의 사상 및 기술 범위에 포함되는 모든 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 상술한 용어에 의해 한정되지는 않는다. 상술한 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

한편, 본 명세서에서 사용되는 구성요소에 대한 "모듈" 또는 "부"는 적어도 하나의 기능 또는 동작을 수행한다. 그리고, "모듈" 또는 "부"는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합에 의해 기능 또는 동작을 수행할 수 있다. 또한, 특정 하드웨어에서 수행되어야 하거나 적어도 하나의 프로세서에서 수행되는 "모듈" 또는 "부"를 제외한 복수의 "모듈들" 또는 복수의 "부들"은 적어도 하나의 모듈로 통합될 수도 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다. 그리고 본 명세서에서 "A 또는 B"라고 기재한 것은 A와 B 중 어느 하나를 선택적으로 가리키는 것뿐만 아니라 A와 B 모두를 포함하는 것도 의미하는 것으로 정의된다. 또한, 본 명세서에서 "포함"이라는 용어는 포함하는 것으로 나열된 요소 이외에 추가로 다른 구성요소를 더 포함하는 것도 포괄하는 의미를 가진다.

본 명세서에서는 본 개시의 설명에 필요한 필수적인 구성요소만을 설명하며, 본 개시의 본질과 관계가 없는 구성요소는 언급하지 아니한다. 그리고 언급되는 구성요소만을 포함하는 배타적인 의미로 해석되어서는 아니되며 다른 구성요소도 포함할 수 있는 비배타적인 의미로 해석되어야 한다.

그 밖에도, 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다. 한편, 각 실시 예는 독립적으로 구현되거나 동작될 수도 있지만, 각 실시 예는 조합되어 구현되거나 동작될 수도 있다.

시스템(1000)은 제1 전자 장치(100-1) 및 제2 전자 장치(100-2)를 포함하는 복수의 전자 장치를 포함할 수 있다. 예를 들어, 전자 장치는 AI 스피커, TV, 냉장고, 세탁기, 전자레인지, 오븐, 에어컨, 스마트폰, 태블릿 PC, 랩탑 컴퓨터, 데스크탑 컴퓨터 등을 포함할 수 있으며, 여기에 한정되는 것은 아니다. 그리고, AI 스피커, TV 및 에어컨은 거실에 위치할 수 있고, 냉장고, 전자레인지, 오븐은 주방에 위치할 수 있다. 데스크탑 컴퓨터는 방에 위치할 수 있고, 세탁기는 다용도실에 위치할 수 있다. 복수의 전자 장치 각각은 전자 장치 자신의 정보를 저장할 수 있다. 또한, 복수의 전자 장치 각각은 주변에 위치하는 외부 전자 장치의 정보를 저장할 수 있다. 예를 들어, 집 안에 냉장고, TV, AI 스피커가 위치하는 경우, 냉장고는 냉장고의 정보, TV의 정보 및 AI 스피커의 정보를 저장할 수 있다. 또한, TV는 TV의 정보, 냉장고의 정보 및 AI 스피커의 정보를 저장할 수 있고, AI 스피커는 AI 스피커의 정보, 냉장고의 정보 및 TV의 정보를 저장할 수 있다. 전자 장치의 정보는 장치 타입, 장치 위치, 도메인 등의 정보를 포함할 수 있으며, 여기에 한정되는 것은 아니다. 도메인은 사용자의 발화를 처리할 수 있는 발화 처리 요소를 포함할 수 있다. 일 실시 예로서, 도메인은 기상 도메인, 지역 정보 도메인, 음악 도메인, 영상 도메인 등과 같이 서비스에 따라 분류될 수 있으며, 여기에 한정되는 것은 아니다. 또는, 도메인은 a 어플리케이션, b 어플리케이션, c 어플리케이션 등과 같이 어플리케이션에 따라 분류될 수 있으며, 여기에 한정되는 것은 아니다. 또는, 예를 들어, 도메인은 TV 도메인, 냉장고 도메인, 스피커 도메인 등과 같이 디바이스에 따라 분류될 수 있다. 도메인은 캡슐, 서비스 카테고리 등으로 지칭될 수도 있다.

일 실시 예로서, 냉장고는 자신의 정보로서 장치 타입은 냉장고, 장치 위치는 주방, 도메인은 냉장고 도메인 또는 음식 관련 어플리케이션 도메인 등의 정보를 저장할 수 있다. 또한, 냉장고는 AI 스피커의 장치 정보로서 장치 타입은 스피커, 장치 위치는 거실, 도메인은 스피커 도메인, 검색 도메인, 음악 도메인 등의 정보를 저장하고, TV의 장치 정보로서 장치 타입은 TV, 장치 위치는 거실, 도메인은 TV 도메인, 영상 도메인 등의 정보를 저장할 수 있다. 그러나, 다양한 장치에 저장되는 정보는 위에 열거된 예에 한정되지 않으며, 다양한 다른 정보 또는 더 적은 정보를 포함할 수 있다.

제1 전자 장치(100-1)는 사용자(1)의 제1 발화를 입력받을 수 있다. 예를 들어, 제1 전자 장치(100-1)는 “서울 날씨 알려줘”와 같은 발화를 입력받을 수 있다. 사용자의 발화는 루트(root) 발화 및/또는 연속(continuation) 발화를 포함할 수 있다. 예를 들어, 루트 발화는 태스크(task)를 시작하기 위한 첫번째 발화를 의미할 수 있다. 일 실시 예로서, 루트 발화는 “오늘 서울 날씨 알려줘”, “a 프로그램 실행시켜 줘” 등을 명령하는 발화를 포함할 수 있다.

예를 들어, 연속 발화는 이전 발화와 연관성을 가지는 발화를 의미할 수 있다. 연속 발화는 메타 커맨드(meta command) 발화, 프롬프트(prompt) 발화, 시퀀스(sequence) 발화 등을 포함할 수 있다. 예를 들어, 메타 커맨드 발화는 전자 장치의 종류에 상관없이 기본적인 기능을 수행하는 발화를 의미한다. 일 실시 예로서, 메타 커맨드 발화는 “첫번째 것”, “두번째 것”, “취소”, “실행” 등을 명령하는 발화를 포함할 수 있다. 예를 들어, 프롬프트 발화는 태스크를 수행하기 위해 디바이스가 요청한 추가 정보에 대한 사용자의 응답 발화를 의미한다. 일 실시 예로서, 사용자(1)가 최초 “날씨 알려줘”라고 발화했을 때, 전자 장치는 “지역이 어디신가요?”라는 추가 정보를 요청할 수 있다. 이때, 사용자(1)는 “서울”이라고 응답할 수 있고, “서울”이라는 응답 발화가 프롬프트 발화이다. 시퀀스 발화는 하나의 태스크가 완료된 후, 완료된 하나의 태스크와 연관된 추가 태스크를 요청하는 발화를 의미한다. 일 실시 예로서, 사용자(1)의 “오늘 서울 날씨 알려줘”라는 요청에 대해 전자 장치는 오늘 서울 날씨에 대한 정보를 음성으로 출력할 수 있다. 사용자(1)는 전자 장치에게“내일은?”이라는 발화를 할 수 있다. 사용자의 “내일은?”이라는 발화의 의미는 이전에 요청했던 오늘 서울 날씨와 연관된 발화로서 내일 서울 날씨에 대한 요청 발화이다. 이때, “내일은?”이라는 요청 발화가 시퀀스 발화이다.

상술한 바와 같이, 제1 전자 장치(100-1)는 입력된 “서울 날씨 알려줘”의 제1 발화에 대해 오늘 서울 날씨를 검색하고, 날씨 정보를 출력할 수 있다. 사용자(1)는 제1 전자 장치(100-1)에 날씨 정보를 요청하는 제1 발화를 한 후 다른 장소(예, 주방)로 이동할 수 있다. 사용자는 제1 전자 장치(100-1)로부터 오늘 서울의 날씨 정보를 듣고, 제2 전자 장치(100-2)에게 제2 발화를 할 수 있다. 사용자(1)의 제2 발화는 루트 발화일 수 있고, 연속 발화일 수 있다. 만일, 도 1에 도시된 바와 같이, 사용자(1)가 제1 발화에 대한 응답을 듣고, 제2 전자 장치(100-2)에게 제1 발화와 관련된 제2 발화를 할 수 있다.

예를 들어, 사용자(1)는 제2 전자 장치(100-2)에게 “내일은?”이라는 발화를 할 수 있다. 제2 전자 장치(100-2)는 사용자(1)의 제2 발화를 입력받을 수 있다. 예를 들어, 제2 전자 장치(100-2)는 사용자의 발화를 입력받을 수 있다. 제1 및 제2 전자 장치(100-1, 100-2)는 주변 전자 장치의 정보를 저장할 수 있다. 그리고, 제1 및 제2 전자 장치(100-1, 100-2) 각각은 자신에게 입력된 발화 관련 정보(예, 대화 상태 정보)를 저장할 수 있다. 발화 관련 정보는 이전 마지막 사용자의 발화를 처리 시간을 나타내는 타임스탬프, 발화 태스크와 관련된 정보(예, 아이들(idle), 프롬프트, 태스크 완료 등), 발화 히스토리, 사용자 발화와 관련된 도메인 정보, 사용자 발화와 관련된 의도 정보 등을 포함할 수 있으며, 여기에 한정되는 것은 아니다.

사용자(1)의 제2 발화를 입력받은 제2 전자 장치(100-2)는 제2 발화로부터 대상 장치에 대한 정보가 포함되어 있는지 식별할 수 있다. 예를 들어, “내일은?”이라는 사용자(1)의 제2 발화에는 대상 장치에 대한 정보가 포함되지 않았다. 사용자(1)의 제2 발화에 대상 장치에 대한 정보가 포함되지 않은 경우, 제2 전자 장치(100-2)는, 예를 들어, 저장된 발화 관련 정보, 발화에 포함된 도메인 정보 및 발화에 포함된 의도 정보에 기초하여 제2 발화를 해석할 수 있는지 여부를 식별할 수 있다. 예를 들어, “내일은?”이라는 사용자(1)의 제2 발화에는 도메인 및 의도에 대한 정보가 포함되지 않았다. 사용자(1)의 제2 발화가 해석 불가로 식별되는 경우, 제2 전자 장치(100-2)는 발화 관련 정보를 요청하는 신호를 복수의 전자 장치로 브로드캐스팅할 수 있다. 발화 관련 정보를 요청하는 신호를 수신한 복수의 전자 장치 각각은 저장된 발화 관련 정보를 제2 전자 장치(100-2)로 전송할 수 있다. 발화 관련 정보가 존재하지 않는 전자 장치는 제2 전자 장치(100-2)의 요청을 무시할 수 있다.

제2 전자 장치(100-2)는 복수의 전자 장치 중 적어도 하나의 외부 장치로부터 발화 관련 정보를 수신할 수 있다. 제2 전자 장치(100-2)는 수신된 발화 관련 정보 중 일정한 기준에 따라 제2 발화와 관련된 하나의 발화 관련 정보 및 전자 장치를 식별할 수 있다. 예를 들어, 제2 전자 장치(100-2)는 수신된 발화 관련 정보 중 타임스탬프가 가장 최근인 발화 관련 정보를 제2 발화와 관련된 발화 관련 정보로 식별할 수 있다. 예를 들어, 제1 전자 장치(100-1)의 발화 관련 정보에는 가장 최근의 타임스탬프가 포함될 수 있다. 따라서, 제1 전자 장치(100-1)가 전송한 발화 관련 정보를 제2 발화와 관련된 발화 관련 정보로 식별할 수 있다. 제2 전자 장치(100-2)는 전자 장치의 위치 정보를 함께 고려하여 발화 관련 정보를 식별할 수 있다. 그리고, 식별된 발화 관련 정보를 전송한 제1 전자 장치(100-1)를 대상 장치로 식별할 수 있다.

또한, 제2 전자 장치(100-2)는 식별된 발화 관련 정보에 기초하여 입력된 제2 발화가 루트 발화인지 또는 연속 발화인지 식별할 수 있다. 그리고, 제2 전자 장치(100-2)는 입력된 제2 발화가 연속 발화이고 식별된 발화 관련 정보가 태스크 완료 상태인 경우, 입력된 제2 발화를 시퀀스 발화로 식별할 수 있다. 그리고, 제2 전자 장치(100-2)는 식별된 시퀀스 발화를 전송할 제1 전자 장치(100-1)를 식별할 수 있다. 예를 들어, 제1 전자 장치(100-1)로부터 수신된 발화 관련 정보의 발화 태스크와 관련된 정보는 태스크 완료 상태일 수 있다. 태스크 완료 상태는 이전 태스크가 존재하였고, 이전 태스크가 완료된 태스크라는 것을 의미할 수 있다. 따라서, 제2 전자 장치(100-2)는 제2 발화를 연속 발화로 식별할 수 있다.예를 들어, 이전 태스크가 완료된 태스크이므로 제2 전자 장치(100-2)는 제2 발화를 연속 발화 중 시퀀스 발화로 식별할 수 있다. 또한, 제2 전자 장치(100-2)는 식별된 발화 관련 정보가 제1 전자 장치(100-1)로부터 수신되었으므로 제1 전자 장치(100-1)를 식별된 시퀀스 발화를 전송할 대상 장치로 식별할 수 있다.

제2 전자 장치(100-2)는 식별된 시퀀스 발화를 제1 전자 장치(100-1)로 전송할 수 있다. 제1 전자 장치(100-1)는 수신된 제2 발화와 관련된 발화 상태 정보를 저장하고 있으므로 제2 발화를 처리할 수 있다. 예를 들어, 사용자(1)의 제1 발화는 “오늘 서울 날씨 알려줘”이고, 제2 발화는 “내일은?”이다. 따라서, 제1 전자 장치(100-1)는 저장된 발화 관련 정보에 기초하여 제2 발화의 의미가 내일 서울 날씨에 대한 정보를 요청하는 발화로 식별할 수 있다. 제1 전자 장치(100-1)는 내일 서울 날씨를 검색할 수 있다. 그리고, 제1 전자 장치(100-1)는 내일 서울 날씨에 대한 응답 신호를 제2 전자 장치(100-2)로 전송할 수 있다. 제2 전자 장치(100-2)는 제1 전자 장치(100-1)에서 시퀀스 발화를 처리한 응답 신호를 수신하고, 음성으로 출력할 수 있다.

예를 들어, 제2 전자 장치(100-2)는 식별된 발화 관련 정보 및 입력된 제2 발화에 기초하여 제2 발화의 도메인 정보 및 의도 정보를 추출할 수 있다. 그리고, 추출된 도메인 정보가 제2 전자 장치(100-2)에서 처리할 수 있는 도메인인 경우, 제2 전자 장치(100-2)는 추출된 도메인 정보 및 의도 정보에 기초하여 응답 결과를 획득하고, 획득된 응답 결과를 음성으로 출력할 수 있다.

도 2를 참조하면, 전자 장치(100)는 마이크(110), 통신 인터페이스(예를 들어, 통신 회로를 포함)(120), 스피커(130) 및 프로세서(예를 들어, 프로세싱 회로를 포함)(140)를 포함할 수 있다.

마이크(110)는 사용자의 발화를 입력받을 수 있다. 그리고, 통신 인터페이스(120)는 다양한 통신 회로를 포함하고, 외부 장치와 통신을 수행할 수 있다. 통신 인터페이스(120)는 외부 장치로부터 유무선 통신 방식을 이용하여 정보를 송수신 할 수 있다. 예를 들어, 통신 인터페이스(120)는 3G, LTE(Long Term Evolution), 5G, 와이파이, 블루투스, LAN(Local Area Network) 등의 방식으로 통신을 수행할 수 있는 모듈을 포함할 수 있다. 또한, 통신 인터페이스(120)는 GPS(Global Positioning System) 모듈을 포함할 수 있다. 외부 장치와 통신을 수행하는 통신 인터페이스(120)는 통신부, 통신 모듈, 송수신부 등으로 불릴 수도 있다. 통신 인터페이스(120)는 이전의 발화 관련 정보를 요청하는 신호를 전자 장치와 동일 네트워크에 연결된 모든 외부 장치로 브로드캐스팅할 수 있다. 그리고, 외부 장치로부터 이전의 발화 관련 정보 또는 사용자 발화와 관련된 응답 결과를 수신할 수 있다. 일 실시 예로서, 발화 관련 정보는 이전 마지막 사용자의 발화를 처리 시간을 나타내는 타임스탬프, 발화 태스크와 관련된 정보(예, 아이들(idle), 프롬프트, 태스크 완료 등), 발화 히스토리, 사용자 발화와 관련된 도메인 정보, 사용자 발화와 관련된 의도 정보 등을 포함할 수 있다. 또한, 통신 인터페이스(120)는 특정된 대상 장치(타겟 장치)로 입력된 사용자의 발화를 전송할 수 있다.

스피커(130)는 음성 처리가 수행된 음성 신호를 출력한다. 즉, 스피커(130)는 입력된 발화를 기반으로 획득된 응답 결과를 출력하거나 입력된 발화와 관련된 동작을 수행하고 수행된 동작에 대한 결과를 출력할 수 있다.

프로세서(140)는 다양한 프로세싱 회로를 포함하고, 전자 장치(100)의 각 구성을 제어할 수 있다. 예를 들어, 프로세서(140)는 다양한 정보(또는, 데이터)를 송수신하도록 통신 인터페이스(120)를 제어할 수 있다. 그리고, 프로세서(140)는 사용자의 발화를 입력받도록 마이크(110)를 제어하고, 발화와 관련된 결과를 출력하도록 스피커(130)를 제어할 수 있다.

프로세서(140)는 입력된 발화를 분석하여 도메인 정보 및 의도 정보가 추출 가능한지 판단할 수 있다. 프로세서(140)는 도메인 정보 및 의도 정보 중 적어도 하나가 추출되지 않은 경우, 이전의 발화 관련 정보를 요청하는 신호를 주변의 전자 장치로 브로드캐스팅하고, 주변의 전자 장치로부터 이전의 발화 관련 정보를 수신하도록 상기 통신 인터페이스를 제어할 수 있다. 그리고, 프로세서(140)는 수신된 이전의 발화 관련 정보와 입력된 발화를 기반으로 도메인 정보 및 의도 정보를 추출하고, 추출된 도메인 정보 및 의도 정보를 기반으로 응답 결과를 획득하여 출력하도록 스피커(130)를 제어할 수 있다.

프로세서(140)는 외부 장치로부터 수신된 이전의 발화 관련 정보에 포함된 타임스탬프에 기초하여 가장 최근의 발화 관련 정보를 식별할 수 있다. 프로세서(140)는 식별된 가장 최근의 발화 관련 정보에 기초하여 도메인 정보 및 의도 정보를 추출할 수 있다. 또한, 프로세서(140)는 식별된 가장 최근의 발화 관련 정보에 기초하여 입력된 발화가 루트 발화인지 연속 발화인지 식별할 수 있다. 예를 들어, 연속 발화는 메타 커맨드 발화, 프롬프트 발화 또는 시퀀스 발화 등을 포함할 수 있다. 입력된 발화가 메타 커맨드 발화 또는 프롬프트 발화인 경우, 프로세서(140)는 입력된 발화에 기초하여 대응되는 동작을 수행하고 동작에 대한 응답 결과를 출력하도록 상기 스피커(130)를 제어할 수 있다. 입력된 발화가 시퀀스 발화인 경우, 프로세서(140)는 추출된 도메인 정보, 의도 정보 및 입력된 발화를 기반으로 응답 결과를 획득하여 출력하도록 스피커(130)를 제어할 수 있다.

프로세서(140)는 입력된 발화에 특정 정보가 포함된 경우, 특정 정보에 대응되는 동작을 수행할 수 있다. 예를 들어, 입력된 발화에 대상 장치의 이름 정보가 포함된 경우, 프로세서(140)는 입력된 발화를 대상 장치로 전송하도록 통신 인터페이스(120)를 제어할 수 있다. 입력된 발화에 대상 장치의 위치에 대한 정보 및 도메인에 대한 정보가 포함된 경우, 프로세서(140)는 발화에 포함된 위치에 배치된 대상 장치 중 도메인을 포함하는 하나의 대상 장치로 입력된 발화를 전송하도록 통신 인터페이스(120)를 제어할 수 있다. 또한, 프로세서(140)는 추출된 도메인 정보가 전자 장치(100) 자신이 수행할 수 없는 도메인 정보인 경우, 식별된 가장 최근의 발화 관련 정보를 전송한 대상 장치로 입력된 발화를 전송하도록 통신 인터페이스(120)를 제어할 수 있다.

도 2에는 도시되지 않았으나, 전자 장치(100)는 메모리(미도시)를 포함할 수 있다. 메모리는 전자 장치(100)의 기능을 수행하는 데이터 등을 저장하고, 전자 장치(100)에서 구동되는 프로그램, 명령어 등을 저장할 수 있다. 그리고, 메모리는 자신 및 주변의 전자 장치에 대한 정보, 전자 장치(100)로 입력된 사용자의 발화와 관련된 발화 관련 정보 등을 저장할 수 있다. 또한, 메모리는 사용자의 발화를 식별하고 처리하는 모듈을 저장할 수 있다. 예를 들어, 메모리에 저장된 모듈은 디바이스/도메인 디스패처(device/domain dispatcher), 디바이스 분류 모듈(device classifier), 도메인 분류 모듈(domain classifier), 의도 분류 모듈(intent classifier), 히스토리 검색 모듈(history discovery), 타겟 장치 선택 모듈(target device selector), 도메인(domain) 등을 포함할 수 있다. 메모리에 저장된 각 모듈은 프로세서로 로딩되어 사용자의 발화를 식별하고 처리할 수 있다. 일 실시 예로서, 메모리는 롬, 램, HDD, SSD, 메모리 카드 등의 타입으로 구현될 수 있다.

도 3을 참조하면, 프로세서(140)는 디바이스/도메인 디스패처(예를 들어, 프로세싱 회로 및/또는 실행 가능한 프로그램 요소)(141), 디바이스 분류 모듈(예를 들어, 프로세싱 회로 및/또는 실행 가능한 프로그램 요소)(142), 도메인 분류 모듈(예를 들어, 프로세싱 회로 및/또는 실행 가능한 프로그램 요소)(143), 의도 분류 모듈(예를 들어, 프로세싱 회로 및/또는 실행 가능한 프로그램 요소)(144), 히스토리 검색 모듈(예를 들어, 프로세싱 회로 및/또는 실행 가능한 프로그램 요소)(145), 타겟 장치 선택 모듈(예를 들어, 프로세싱 회로 및/또는 실행 가능한 프로그램 요소)(146), 도메인(147-1, 147-n) 등을 포함할 수 있다.

디바이스/도메인 디스패처(141)는 다양한 프로세싱 회로 및/또는 실행 가능한 프로그램 요소를 포함하고, 입력된 사용자의 발화를 분석할 수 있다. 예를 들어, 디바이스/도메인 디스패처(141)는 입력된 사용자의 발화로부터 전자 장치 타입, 전자 장치의 위치 정보, 도메인 정보 등을 식별할 수 있다.

디바이스 분류 모듈(142)은 다양한 프로세싱 회로 및/또는 실행 가능한 프로그램 요소를 포함하고, 루트 분류 모듈(root classifier)(142-1) 및 연속 분류 모듈(continuation classifier)(142-2)을 포함할 수 있다. 디바이스 분류 모듈(142)은 식별된 발화 관련 정보에 기초하여 입력된 발화가 루트 발화인지 또는 연속 발화인지 식별할 수 있다. 또한, 디바이스 분류 모듈(142)은 입력된 발화를 해석할 수 있는 전자 장치를 식별할 수 있다. 예를 들어, 디바이스 분류 모듈(142)은 입력된 발화가 연속 발화이고 식별된 발화 관련 정보가 태스크 완료 상태인 경우, 입력된 발화를 시퀀스 발화로 식별할 수 있다. 태스크 완료 상태는 이전 태스크가 존재하였고, 이전 태스크가 완료된 태스크라는 것을 의미할 수 있다. 따라서, 디바이스 분류 모듈(142)은 입력된 발화를 연속 발화 중 시퀀스 발화로 식별할 수 있다. 또한, 디바이스 분류 모듈(142)은 식별된 발화 관련 정보를 전송한 외부 장치를 식별할 수 있다.

입력된 발화에 대상 장치에 대한 정보가 포함되지 않은 경우, 도메인 분류 모듈(143)은 저장된 발화 관련 정보 및 발화에 포함된 도메인 정보에 기초하여 입력된 발화를 해석할 수 있는지 여부를 식별할 수 있다. 도메인 분류 모듈(143)은 다양한 프로세싱 회로 및/또는 실행 가능한 프로그램 요소를 포함하고, 루트 분류 모듈(143-1) 및 연속 분류 모듈(143-2)를 포함할 수 있다. 따라서, 도메인 분류 모듈(143)도 저장된 발화 관련 정보에 기초하여 입력된 발화가 루트 발화인지 또는 연속 발화인지 식별할 수 있다. 예를 들어, 도메인 분류 모듈(143)은 입력된 발화가 연속 발화이고 저장된 발화 관련 정보가 태스크 완료 상태인 경우, 입력된 발화를 시퀀스 발화로 식별할 수 있다. 전자 장치(100)는 도메인 분류 모듈(143)과 함께 의도 분류 모듈(144)을 이용하여 입력된 발화를 해석할 수 있는지 여부를 식별할 수 있다

의도 분류 모듈(144)은 다양한 프로세싱 회로 및/또는 실행 가능한 프로그램 요소를 포함하고, 입력된 발화에 포함된 의도 정보에 기초하여 입력된 발화를 해석할 수 있는지 여부를 식별할 수 있다. 즉, 전자 장치(100)는 도메인 분류 모듈(143) 및 의도 분류 모듈(144)를 이용하여 입력된 발화를 해석할 수 있는지 여부를 식별할 수 있다.

예를 들어, “내일은?”이라는 사용자의 발화에는 도메인 및 의도에 대한 정보가 포함되지 않았다. 입력된 발화가 해석 불가로 식별되는 경우, 전자 장치(100)는 이전의 발화 관련 정보를 요청하는 신호를 복수의 전자 장치로 브로드캐스팅할 수 있다.

히스토리 검색 모듈(145)은 다양한 프로세싱 회로 및/또는 실행 가능한 프로그램 요소를 포함하고, 수신된 발화 관련 정보 중 일정한 기준에 따라 입력된 발화와 관련된 하나의 발화 관련 정보를 식별할 수 있다. 예를 들어, 전자 장치(100)는 수신된 발화 관련 정보 중 타임스탬프가 가장 최근인 발화 관련 정보를 입력된 발화와 관련된 발화 관련 정보로 식별할 수 있다. 예를 들어, 제1 전자 장치의 발화 관련 정보에는 가장 최근의 타임스탬프가 포함될 수 있다. 따라서, 전자 장치는 제1 전자 장치가 전송한 발화 관련 정보를 입력된 발화와 관련된 발화 관련 정보로 식별할 수 있다. 또는, 전자 장치는 자신의 위치 정보를 함께 고려하여 발화 관련 정보를 식별할 수 있다.

타겟 장치 선택 모듈(146)은 다양한 프로세싱 회로 및/또는 실행 가능한 프로그램 요소를 포함하고, 식별된 발화 관련 정보를 전송한 제1 전자 장치를 대상 장치로 식별할 수 있다. 따라서, 전자 장치(100)는 입력된 발화를 전송할 필요가 있는 경우, 대상 장치로 식별된 제1 전자 장치로 입력된 발화를 전송할 수 있다.

전자 장치(100)는 스스로 입력된 발화를 처리할 수 있다. 전자 장치(100)는 복수의 도메인(147-1, 147-n)을 포함할 수 있다. 전자 장치(100)가 입력된 발화를 처리하는 도메인(147-1)을 포함하는 경우, 입력된 발화를 처리하는 도메인(147-1)에 기초하여 입력된 발화로부터 의도(intent) 및 엔티티(entity)를 식별하고, 입력된 발화에 대응되는 응답을 출력할 수 있다. 도메인(147-1)은 사용자의 발화를 처리할 수 있는 발화 처리 요소일 수 있다. 일 실시 예로서, 도메인(147-1)은 기상 도메인, 지역 정보 도메인, 음악 도메인, 영상 도메인 등과 같이 서비스에 따라 분류될 수 있다. 또는, 도메인(147-1)은 a 어플리케이션, b 어플리케이션, c 어플리케이션 등과 같이 어플리케이션에 따라 분류될 수 있다. 또는, 도메인(147-1)은 TV 도메인, 냉장고 도메인, 스피커 도메인 등과 같이 디바이스에 따라 분류될 수 있다. 예를 들어, 도메인은 캡슐, 서비스 카테고리 등으로 지칭될 수도 있다.

도메인(147-1)은 의도 식별기(1481), 엔티티 추출기(1482) 및 실행기(1483)를 포함할 수 있다. 의도 식별기(1481)는 다양한 프로세싱 회로 및/또는 실행 가능한 프로그램 요소를 포함하고, 사용자가 요청하는 서비스(사용자의 의도)를 식별하고, 엔티티 추출기(1482)는 다양한 프로세싱 회로 및/또는 실행 가능한 프로그램 요소를 포함하고, 사용자가 요청하는 서비스의 세부 정보(엔티티)를 식별할 수 있다. 일 실시 예로서, 사용자가 “오늘 서울 날씨 알려줘”라고 발화한 경우, 기상 도메인이 발화를 처리하여 응답할 수 있다. 전자 장치(100)는 사용자의 발화로부터 “날씨”라는 단어를 획득할 수 있다. 의도 식별기(1481)는 사용자가 날씨 정보를 요청한다는 것을 식별할 수 있다. 또한, 전자 장치(100)는 사용자의 발화로부터 “오늘”, “서울”이라는 단어를 획득할 수 있다. 엔티티 추출기(1482)는 사용자가 시간적으로 오늘, 장소적으로 서울에 관한 정보를 요청한다는 것을 식별할 수 있다. 상술한 의도(intent)는 목적(goal), 엔티티(entity)는 슬롯(slot) 등으로 지칭될 수 있다. 입력된 발화를 처리할 수 있는 도메인을 포함하는 전자 장치 의도 식별기(1481)에서 서비스를 식별하고 엔티티 추출기(1482)에서 세부 정보를 식별한 후, 실행기(1483)를 통해 응답을 출력할 수 있다. 일 실시 예로서, 전자 장치(100)는 “서울 날씨 알려줘”라는 사용자의 발화에 대응하여 “맑고, 섭씨 22도 입니다.”라고 응답할 수 있다.

지금까지 전자 장치의 구성의 예를 설명하였다. 아래에서는 전자 장치의 동작 과정의 예를 구체적으로 설명한다.

도 4는 본 개시의 다양한 실시 예에 따른 전자 장치의 동작을 설명하는 흐름도이고, 도 5는 본 개시의 다양한 실시 예에 따른 대상 장치를 판단하는 과정을 설명하는 도면이며, 도 6은 본 개시의 다양한 실시 예에 따른 대상 장치로 발화를 전달하는 과정을 설명하는 도면이고, 도 7a 및 도 7b는 본 개시의 다양한 실시 예에 따른 전자 장치가 발화를 해석하는 과정을 설명하는 도면이며, 도 8은 본 개시의 다양한 실시 예에 따른 발화에 포함된 정보를 판단하는 과정을 설명하는 도면이고, 도 9a 및 도 9b는 본 개시의 다양한 실시 예에 따른 타 전자 장치에서 처리할 수 있는 발화인지 판단하는 과정을 설명하는 도면이다. 도 4 내지 도 9b를 참조하여 설명한다.

도 4를 참조하면, 전자 장치는 사용자의 발화를 입력받을 수 있다(S105). 전자 장치는 사용자의 발화에 기초하여 대상 장치를 판단할 수 있다(S110). 도 5에 도시된 일 실시 예와 같이, 전자 장치는 “거실 TV에서 AAA 서비스로 최신 영화 검색해 줘”라는 사용자의 발화를 입력받을 수 있다. 전자 장치의 디바이스/도메인 디스패처(141)는 입력된 사용자의 발화를 분석할 수 있다. 전자 장치는 각 장치의 정보 및 각 장치에서 제공되는 도메인 정보를 메모리(150)에 저장할 수 있다. 그리고, 전자 장치의 디바이스/도메인 디스패처(141)는 저장된 정보 및 입력된 발화에 기초하여 입력된 사용자의 발화로부터 전자 장치의 타입은 TV, 전자 장치의 위치는 거실, 서비스는 AAA 서비스, 사용자 발화는 최신 영화 검색이라고 분석할 수 있다. 즉, 전자 장치는 거실에 위치한 TV를 대상 장치로 판단할 수 있다.

전자 장치가 대상 장치를 판단할 수 있는 경우(S110-Y), 대상 장치를 선택할 수 있다(S115). 그리고, 전자 장치는 선택된 대상 장치로 입력된 발화를 전달할 수 있다(S120). 도 6에 도시된 바와 같이, 전자 장치는 분석된 정보에 기초하여 위치를 기반으로 대상 장치를 검색할 수 있다(S210). 만일, 동일 공간에 다수의 대상 장치가 존재하는 경우, 전자 장치는 사용자의 선택에 따라 하나의 대상 장치를 선택할 수 있다(S220). 또는, 분석된 위치에 대상 장치가 존재하지 않는 경우, 전자 장치는 다른 공간을 포함해서 대상 장치를 재검색 할 수도 있다. 대상 장치가 검색되면, 전자 장치는 통신 인터페이스(120)를 통해 사용자의 발화(또는, 발화 관련 정보)를 대상 장치로 전송할 수 있다.

만일, 전자 장치가 대상 장치를 판단할 수 없는 경우(S110-N), 발화가 입력된 전자 장치(listener)에서 해석할 수 있는지 판단할 수 있다(S125). 도 7a에 도시된 바와 같이, 전자 장치는 도메인 분류 모듈(143) 및 의도 분류 모듈(144)을 이용하여 입력된 발화의 해석 가부를 판단할 수 있다. 도 7b에 도시된 바와 같이, 전자 장치는 입력된 발화의 도메인을 불가(reject)로 판단하고, 저장된 발화 관련 정보에 기초하여 발화 태스크와 관련된 정보를 아이들, 태스크 완료로 판단하는 경우, 입력된 발화를 해석할 수 없는 발화로 판단할 수 있다(reject). 또는, 전자 장치는 입력된 발화의 도메인을 가능(accept)로 판단하더라도, 인텐트를 불가(reject)로 판단하고 발화 태스크와 관련된 정보를 아이들, 태스크 완료로 판단하는 경우, 입력된 발화를 해석할 수 없는 발화로 판단할 수 있다(reject).

전자 장치가 입력된 발화를 해석할 수 있는 경우(S125-Y), 입력된 발화에 모든 정보를 포함하는지 판단할 수 있다(S130). 도 8에 도시된 바와 같이, 전자 장치는 슬롯 추출 모듈(또는, 엔티티 추출 모듈)(1491) 및 역할 라벨러(role labeler)(1492)를 이용하여 판단할 수 있다. 슬롯 추출 모듈(1491)은 다양한 프로세싱 회로 및/또는 실행 가능한 프로그램 요소를 포함하고, 엔티티 추출기와 동일한 역할을 수행할 수 있다. 역할 라벨러(1492)는 다양한 프로세싱 회로 및/또는 실행 가능한 프로그램 요소를 포함하고, 입력된 발화의 구조 및 의미를 판단할 수 있다. 예를 들어, 역할 라벨러(1492)는 입력된 발화로부터 대상, 도구, 위치, 시간, 방법, 원인 등을 식별할 수 있다. 전자 장치는 저장된 발화 관련 정보(또는, 발화 태스크와 관련된 정보)에 기초하여 입력된 발화를 처리할 수 있는 모든 정보가 포함되어 있는지 판단할 수 있다.

입력된 발화에 모든 정보가 포함된 경우(S130-Y), 전자 장치는 입력된 발화를 해석하고 응답 결과를 획득하여 출력할 수 있다(S135). 또는, 입력된 발화에 모든 정보가 포함되지 않은 경우(S130-N), 전자 장치는 사용자에게 재질의(re-asking)를 할 수 있다(S140). 도 8에 도시된 바와 같이, 입력된 발화가 “채널 변경해 줘”일 때, 전자 장치는 어느 채널로 변경할지에 대한 정보가 부족하다고 판단할 수 있다. 이 경우, 전자 장치는 연산 결과를 자연어로 표현하는 NLG(Natural Language Generation)(예를 들어, 다양한 프로세싱 회로 및/또는 실행 가능한 프로그램 요소를 포함)(1493)를 통해 사용자에게 추가 정보를 문의할 수 있다.

전자 장치가 입력된 발화를 해석할 수 없는 경우(S125-N), 타 장치에서 처리할 수 있는지 판단할 수 있다(S145). 도 9a에 도시된 바와 같이, 전자 장치는 디바이스 분류 모듈(142)을 이용하여 타 장치에서 처리할 수 있는지 판단할 수 있다. 즉, 전자 장치는 외부 전자 장치로부터 이전의 발화 관련 정보를 수신할 수 있다. 그리고, 전자 장치는 수신된 이전의 발화 관련 정보 중 가장 최근의 발화 관련 정보를 식별할 수 있다. 도 9b에 도시된 일 실시 예와 같이, 전자 장치는 디바이스 분류 모듈(142) 및 식별된 발화 관련 정보에 기초하여 타 장치에서 처리할 수 있는지 판단할 수 있다.

입력된 발화가 타 장치에서 처리될 수 있는 경우(S145-Y), 전자 장치는 입력된 발화를 타 장치로 전송할 수 있다(S150). 즉, 전자 장치는 타겟 장치 선택 모듈(146)을 이용하여 대상 장치(타겟 장치)를 선택할 수 있다. 그리고, 전자 장치는 통신 인터페이스(120)를 통해 입력된 발화(또는, 입력된 발화 관련 정보)를 대상 장치로 전송할 수 있다. 전자 장치로부터 입력된 발화를 수신한 대상 장치는 입력된 발화를 처리하여 응답 결과를 획득하고, 음성으로 출력할 수 있다. 또는, 대상 장치는 획득된 응답 결과를 전자 장치로 전송하고, 전자 장치가 수신한 응답 결과를 음성으로 출력할 수도 있다. 입력된 발화가 타 장치에서도 처리될 수 없는 경우(S145-N), 전자 장치는 입력된 발화에 대한 응답을 거절할 수 있다(S155).

도 10을 참조하면, 디바이스 분류 모듈은 발화를 입력받는다. 디바이스 분류 모듈은 패턴 기반 분류기, 인공 신경망 기법 등 다양한 방식을 이용하여 학습될 수 있다. 그리고, 디바이스 분류 모듈은 대상 장치의 예측 점수가 임계 값과 비교할 수 있다(S310). 디바이스 분류 모듈은 예측 점수가 임계 값보다 크거나 같은 경우(S310-Y) 연속 발화(이전 도메인과 동일)로 판단할 수 있다(S320). 디바이스 분류 모듈은 입력된 발화를 연속 발화로 판단하고, 후보 대상 장치를 출력할 수 있다. 또는, 디바이스 분류 모듈은 예측 점수가 임계 값보다 작은 경우(S310-N) 루트 발화로 판단할 수 있다(S330). 디바이스 분류 모듈은 도메인을 예측하거나 거절 여부를 판단하고, 결과를 출력할 수 있다.

지금까지 전자 장치의 구성 및 동작 과정의 다양한 실시 예를 설명하였다. 아래에서는 전자 장치의 제어 방법을 설명한다.

도 11을 참조하면, 전자 장치는 사용자의 발화를 입력받고(S410), 입력된 발화를 분석하여 도메인 정보 및 의도 정보의 추출 가부를 판단한다(S420). 전자 장치는 도메인 정보 및 의도 정보 중 적어도 하나가 추출되지 않은 경우, 이전의 발화 관련 정보를 요청하는 신호를 전자 장치와 동일 네트워크에 연결된 적어도 하나 이상의 외부 장치로 브로드캐스팅한다(S430). 입력된 발화에 대상 장치의 이름 정보가 포함된 경우, 전자 장치는 입력된 발화를 대상 장치로 전송할 수 있다. 또는, 입력된 발화에 대상 장치의 위치에 대한 정보 및 도메인에 대한 정보가 포함된 경우, 전자 장치는 위치에 배치된 대상 장치 중 도메인을 포함하는 하나의 대상 장치로 입력된 발화를 전송할 수도 있다.

전자 장치는 적어도 하나의 외부 장치로부터 이전의 발화 관련 정보를 수신하고(S440), 수신된 이전의 발화 관련 정보와 입력된 발화를 기반으로 도메인 정보 및 의도 정보를 추출한다(S450). 전자 장치는 적어도 하나의 외부 장치로부터 수신된 이전의 발화 관련 정보에 포함된 타임스탬프에 기초하여 가장 최근의 발화 관련 정보를 식별할 수 있다. 그리고, 전자 장치는 식별된 가장 최근의 발화 관련 정보에 기초하여 도메인 정보 및 상기 의도 정보를 추출할 수 있다. 전자 장치는 식별된 가장 최근의 발화 관련 정보에 기초하여 입력된 발화가 루트 발화인지 연속 발화인지 식별할 수 있다. 일 실시 예로서, 연속 발화는 메타 커맨드 발화, 프롬프트 발화 또는 시퀀스 발화를 포함할 수 있다.

전자 장치는 추출된 도메인 정보가 전자 장치에서 수행되는 도메인 정보가 아닌 경우, 식별된 가장 최근의 발화 관련 정보를 전송한 대상 장치로 입력된 발화를 전송할 수 있다.

전자 장치는 추출된 도메인 정보 및 의도 정보를 기반으로 응답 결과를 획득하여 출력한다(S460). 예를 들어, 전자 장치는 입력된 발화가 메타 커맨드 발화 또는 프롬프트 발화인 경우, 입력된 발화에 기초하여 대응되는 동작을 수행하고 동작에 대한 응답 결과를 출력할 수 있다. 또는, 전자 장치는 입력된 발화가 시퀀스 발화인 경우, 추출된 도메인 정보, 의도 정보 및 입력된 발화를 기반으로 응답 결과를 획득하여 출력할 수 있다.

상술한 다양한 실시 예에 따른 전자 장치의 제어 방법은 컴퓨터 프로그램 제품으로 제공될 수도 있다. 컴퓨터 프로그램 제품은 S/W 프로그램 자체 또는 S/W 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)를 포함할 수 있다.

비일시적 판독 가능 매체란 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 예를 들어, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

전자 장치의 제어 방법에 있어서,

발화를 입력받는 단계;

상기 입력된 발화를 분석하여 도메인 정보 및 의도(intent) 정보가 추출 가능한지 판단하는 단계;

상기 판단 결과, 도메인 정보 및 의도 정보 중 적어도 하나가 추출되지 않은 경우, 이전의 발화 관련 정보를 요청하는 신호를 상기 전자 장치와 동일 네트워크에 연결된 적어도 하나 이상의 외부 장치로 브로드캐스팅하는 단계;

상기 적어도 하나의 외부 장치로부터 상기 이전의 발화 관련 정보를 수신하는 단계;

상기 수신된 이전의 발화 관련 정보와 상기 입력된 발화를 기반으로 도메인 정보 및 의도 정보를 추출하는 단계; 및

상기 추출된 도메인 정보 및 의도 정보를 기반으로 응답 결과를 획득하여 출력하는 단계;를 포함하는 전자 장치의 제어 방법.
제1항에 있어서,

상기 입력된 발화에 대상 장치의 이름 정보가 포함된 경우, 상기 입력된 발화를 상기 대상 장치로 전송하는 단계;를 더 포함하는 전자 장치의 제어 방법.
제1항에 있어서,

상기 입력된 발화에 대상 장치의 위치에 대한 정보 및 도메인에 대한 정보가 포함된 경우, 상기 위치에 배치된 대상 장치 중 상기 도메인을 포함하는 하나의 대상 장치로 상기 입력된 발화를 전송하는 단계;를 더 포함하는 전자 장치의 제어 방법.
제1항에 있어서,

상기 도메인 정보 및 의도 정보를 추출하는 단계는,

상기 적어도 하나의 외부 장치로부터 수신된 상기 이전의 발화 관련 정보에 포함된 타임스탬프에 기초하여 가장 최근의 발화 관련 정보를 식별하고, 식별된 가장 최근의 발화 관련 정보에 기초하여 상기 도메인 정보 및 상기 의도 정보를 추출하는, 전자 장치의 제어 방법.
제4항에 있어서,

상기 식별된 가장 최근의 발화 관련 정보에 기초하여 상기 입력된 발화가 루트(root) 발화인지 연속(continuation) 발화인지 식별하는 단계;를 더 포함하는 전자 장치의 제어 방법.
제5항에 있어서,

상기 연속 발화는,

메타 커맨드(meta command) 발화, 프롬프트(prompt) 발화 또는 시퀀스(sequence) 발화 중 적어도 하나를 포함하는, 전자 장치의 제어 방법.
제5항에 있어서,

상기 출력하는 단계는,

상기 입력된 발화가 메타 커맨드 발화 또는 프롬프트 발화인 경우, 상기 입력된 발화에 기초하여 대응되는 동작을 수행하고 상기 동작에 대한 응답 결과를 출력하는, 전자 장치의 제어 방법.
제5항에 있어서,

상기 출력하는 단계는,

상기 입력된 발화가 시퀀스 발화인 경우, 상기 추출된 도메인 정보, 의도 정보 및 입력된 발화를 기반으로 응답 결과를 획득하여 출력하는, 전자 장치의 제어 방법.
제4항에 있어서,

상기 추출된 도메인 정보가 상기 전자 장치에서 수행되는 도메인 정보가 아닌 경우, 상기 식별된 가장 최근의 발화 관련 정보를 전송한 대상 장치로 상기 입력된 발화를 전송하는 단계;를 더 포함하는 전자 장치의 제어 방법.
전자 장치에 있어서,

발화를 입력받는 마이크;

외부 장치와 통신을 수행하는 통신 회로를 포함하는 통신 인터페이스;

스피커; 및

프로세서;를 포함하고,

상기 프로세서는,

상기 입력된 발화를 분석하여 도메인 정보 및 의도(intent) 정보가 추출 가능한지 판단하고,

상기 판단 결과, 도메인 정보 및 의도 정보 중 적어도 하나가 추출되지 않은 경우, 이전의 발화 관련 정보를 요청하는 신호를 상기 전자 장치와 동일 네트워크에 연결된 적어도 하나 이상의 외부 장치로 브로드캐스팅하고, 상기 적어도 하나의 외부 장치로부터 상기 이전의 발화 관련 정보를 수신하도록 상기 통신 인터페이스를 제어하며,

상기 수신된 이전의 발화 관련 정보와 상기 입력된 발화를 기반으로 도메인 정보 및 의도 정보를 추출하고,

상기 추출된 도메인 정보 및 의도 정보를 기반으로 응답 결과를 획득하여 출력하도록 상기 스피커를 제어하는, 전자 장치.
제10항에 있어서,

상기 프로세서는,

상기 입력된 발화에 대상 장치의 이름 정보가 포함된 경우, 상기 입력된 발화를 상기 대상 장치로 전송하도록 상기 통신 인터페이스를 제어하는, 전자 장치.
제10항에 있어서,

상기 프로세서는,

상기 입력된 발화에 대상 장치의 위치에 대한 정보 및 도메인에 대한 정보가 포함된 경우, 상기 위치에 배치된 대상 장치 중 상기 도메인을 포함하는 하나의 대상 장치로 상기 입력된 발화를 전송하도록 상기 통신 인터페이스를 제어하는, 전자 장치.
제10항에 있어서,

상기 프로세서는,

상기 적어도 하나의 외부 장치로부터 수신된 상기 이전의 발화 관련 정보에 포함된 타임스탬프에 기초하여 가장 최근의 발화 관련 정보를 식별하고, 식별된 가장 최근의 발화 관련 정보에 기초하여 상기 도메인 정보 및 상기 의도 정보를 추출하는, 전자 장치.
제13항에 있어서,

상기 프로세서는,

상기 식별된 가장 최근의 발화 관련 정보에 기초하여 상기 입력된 발화가 루트 발화인지 연속 발화인지 식별하는, 전자 장치.
발화를 입력받고, 상기 입력된 발화를 분석하여 도메인 정보 및 의도(intent) 정보가 추출 가능한지 판단하며, 도메인 정보 및 의도 정보 중 적어도 하나가 추출되지 않은 경우, 이전의 발화 관련 정보를 요청하는 신호를 동일 네트워크에 연결된 적어도 하나 이상의 외부 장치로 브로드캐스팅하는 제1 전자 장치; 및

상기 제1 전자 장치로부터 상기 이전의 발화 관련 정보를 요청하는 신호를 수신하고, 상기 이전의 발화 관련 정보를 상기 제1 전자 장치로 전송하는 제2 전자 장치;를 포함하고,

상기 제1 전자 장치는,

상기 제2 전자 장치를 포함하는 적어도 하나의 외부 장치로부터 상기 이전의 발화 관련 정보를 수신하고, 상기 수신된 이전의 발화 관련 정보와 상기 입력된 발화를 기반으로 도메인 정보 및 의도 정보를 추출하며, 상기 추출된 도메인 정보 및 의도 정보를 기반으로 응답 결과를 획득하여 출력하는, 시스템.