WO2020091187A1

WO2020091187A1 - 전자 장치 및 그 제어 방법

Info

Publication number: WO2020091187A1
Application number: PCT/KR2019/008468
Authority: WO
Inventors: 유영준; 진장호
Original assignee: 삼성전자주식회사
Priority date: 2018-10-31
Filing date: 2019-07-10
Publication date: 2020-05-07
Also published as: CN112912954A; EP3836137A1; US11893982B2; EP3836137A4; KR20200048976A; US20220005467A1; CN112912954B

Abstract

본 개시에서는 전자 장치 및 그 제어 방법이 제공된다. 본 개시의 전자 장치는, 제1 모델 및 제2 모델이 저장된 메모리 및 사용자 음성이 수신되면, 제1 모델 및 제2 모델을 기초로 판단된 수신된 사용자 음성의 완결 여부에 대응하여 사용자 음성에 대한 응답을 생성하는 프로세서를 포함한다. 여기에서, 제1 모델은, 복수의 완결된 문장의 문형을 학습 데이터로 한 모델이고, 제2 모델은, 복수의 완결된 문장 및 상기 복수의 완결된 문장과 대응된 의도(intent)를 학습 데이터로 한 모델이다. 특히, 제1 모델 및 제2 모델은 기계학습, 신경망 또는 딥러닝 알고리즘 중 적어도 하나에 따라 학습된 인공지능 모델일 수 있다.

Description

전자 장치 및 그 제어 방법

본 개시는 전자 장치 및 그 제어 방법으로, 더욱 상세하게는 수신한 사용자의 음성의 완결 여부를 판단하는 전자 장치 및 그 제어 방법에 관한 발명이다.

음성인식기술이 발전함에 따라, 음성인식기술을 탑재한 전자 장치들이 증가하고 있다. 음성인식기술을 탑재한 전자 장치는 사용자가 발화한 음성명령을 입력으로 받아 사용자의 음성에 따른 기능을 실행한다.

전자 장치가 사용자의 음성에 따른 기능을 제대로 수행하기 위하여, 전자 장치는 완결된 사용자 음성을 수신하여야 한다.

종래에는 완결된 사용자 음성을 수신하기 위하여, 사용자가 전자 장치의 버튼을 누른 상태에서 발화를 하는 버튼 릴리즈(Button Release) 방식, 일정 시간 동안 사용자의 발화가 없으면 발화가 완료된 것으로 판단하는 타임아웃(Timeout) 방식 등이 사용되었다.

이러한 종래 방식의 경우, 사용자가 발화를 하면서 버튼을 놓치거나, 사용자가 잠시 발화를 멈춰 기설정된 일정 시간 동안 완결된 형태의 발화가 입력되지 않은 경우, 전자 장치는 사용자가 버튼을 놓치기 전까지 또는 기설정된 일정 시간 동안 입력된 발화에 대하여 음성 인식을 수행한다. 이러한 경우 실제로 사용자는 완결된 발화를 하지 않았기 때문에 음성 인식 결과는 오류가 날 가능성이 높으며, 사용자는 다시 동일한 발화를 하여야 하는 번거로움이 있다.

본 개시는 상술한 문제점에서 도출된 것으로, 본 개시의 목적은 사용자가 발화한 음성의 의미를 기초로 사용자의 음성이 완결되었는지 판단하는 전자 장치 및 그 제어 방법을 제공함에 있다.

본 개시의 일 실시 예에 따른 전자 장치는, 제1 모델 및 제2 모델이 저장된 메모리; 및 상기 제1 모델 및 제2 모델을 기초로 판단된 수신된 사용자 음성의 완결 여부에 대응하여 상기 사용자 음성에 대한 응답을 생성하는 프로세서;를 포함하며, 상기 제1 모델은, 복수의 완결된 문장의 문형을 학습 데이터로 한 학습된 모델이고, 상기 제2 모델은, 복수의 완결된 문장 및 상기 복수의 완결된 문장과 대응된 의도(intent)를 학습 데이터로 한 이용하여 학습된 모델인, 전자 장치이다.

여기에서, 상기 문형은, 상기 복수의 완결된 문장 각각을 구성하는 적어도 하나의 요소(element)의 품사에 기초하여 결정될 수 있으며, 상기 제1 모델은, 상기 사용자 음성을 구성하는 요소의 품사에 따라 상기 사용자 음성의 완결 여부를 판단하도록, 상기 적어도 하나의 요소의 품사에 기초하여 학습되는 모델일 수 있다.

그리고, 상기 제2 모델은, 상기 사용자 음성의 의도 및 상기 사용자 음성을 구성하는 요소의 품사에 따라 상기 사용자 음성의 완결 여부를 판단하도록, 상기 의도 별로 완결된 문장을 구성하는 요소의 품사에 기초하여 학습되는 모델일 수 있다.

또한, 상기 제1 모델 및 제2 모델은, 컨텍스트(context)에 따라 상기 학습 데이터를 이용하여 학습될 수 있으며, 상기 프로세서는, 상기 제1 모델 및 제2 모델을 이용하여 상기 컨텍스트에 따라 상기 사용자 음성의 완결 여부를 판단할 수 있다.

그리고, 상기 프로세서는, 상기 사용자 음성으로부터 획득한 정보를 상기 제1 모델 및 제2 모델의 입력 데이터로서 이용하여 상기 사용자 음성이 완결된 문장인지에 대한 정보를 상기 제1 모델 및 제2 모델로부터 각각 획득하고, 상기 제1 모델 및 제2 모델로부터 각각 획득된 정보에 기초하여 상기 사용자 음성의 완결 여부를 판단할 수 있다.

여기에서, 상기 프로세서는, 상기 제1 모델 및 제2 모델로부터 각각 획득된 정보에 기초하여 상기 사용자 음성이 완결된 문장인 것으로 판단되고 상기 사용자 음성이 기설정된 예외 문장에 해당하지 않는 경우, 상기 사용자 음성이 완결된 것으로 판단할 수 있다.

또한, 상기 프로세서는, 상기 사용자 음성을 텍스트로 변환하고, 상기 텍스트에 기초하여 상기 사용자 음성의 의도 및 상기 사용자 음성을 구성하는 요소의 품사에 대한 정보를 획득할 수 있다.

여기에서, 상기 프로세서는, 상기 사용자 음성을 구성하는 문장 성분의 품사를 상기 제1 모델의 입력 데이터로 사용하여 상기 사용자 음성의 문장 완결 여부에 대응되는 제1 출력 값을 획득하고, 상기 사용자 음성의 의도 및 상기 사용자 음성을 구성하는 문장 성분의 품사를 상기 제2 모델의 입력 데이터로 사용하여 상기 사용자 음성의 문장 완결 여부에 대응되는 제2 출력 값을 획득하고, 상기 제1 출력 값 및 제2 출력 값에 기초하여 상기 사용자 음성의 완결 여부를 판단할 수 있다.

그리고, 상기 프로세서는, 상기 제1 출력 값에 기설정된 제1 가중치를 적용하고 상기 제2 출력 값에 기설정된 제2 가중치를 적용하고, 상기 제1 가중치가 적용된 상기 제1 출력 값 및 상기 제2 가중치가 적용된 상기 제2 출력 값을 합산하고, 상기 합산된 값에 기초하여 상기 사용자 음성의 완결 여부를 판단할 수 있다.

또한, 상기 프로세서는, 상기 합산된 값이 기설정된 값 이상이고, 상기 사용자 음성이 기설정된 문장에 미 해당시, 상기 사용자 음성이 완결된 형태인 것으로 판단할 수 있다.

한편, 본 발명의 일 실시예에 따른 전자 장치의 제어 방법은, 사용자 음성을 수신하는 단계;, 제1 및 제2 모델을 이용하여 상기 사용자 음성의 완결 여부를 판단하는 단계; 및 상기 제1 모델 및 제2 모델을 기초로 판단된 수신된 사용자 음성의 완결 여부에 대응하여 상기 사용자 음성에 대한 응답을 제공하는 단계;를 포함한다.

여기에서, 상기 제1 모델은, 복수의 완결된 문장의 문형을 학습 데이터로 한 모델이고, 상기 제2 모델은, 복수의 완결된 문장 및 상기 복수의 완결된 문장 및 상기 복수의 완결된 문장과 대응된 의도(intent)를 학습 데이터로서 이용하여 학습된 모델이다.

그리고, 상기 문형은, 상기 복수의 완결된 문장 각각을 구성하는 적어도 하나의 요소(element)의 품사에 기초하여 결정될 수 있으며, 상기 제1 모델은, 상기 사용자 음성을 구성하는 요소의 품사에 따라 상기 사용자 음성의 완결 여부를 판단하도록, 상기 적어도 하나의 요소의 품사에 기초하여 학습되는 모델일 수 있다.

여기에서, 상기 제2 모델은, 상기 사용자 음성의 의도 및 상기 사용자 음성을 구성하는 요소의 품사에 따라 상기 사용자 음성의 완결 여부를 판단하도록, 상기 의도 별로 완결된 문장을 구성하는 요소의 품사에 기초하여 학습되는 모델일 수 있다.

또한, 상기 제1 모델 및 제2 모델은, 컨텍스트(context)에 따라 상기 학습 데이터를 이용하여 학습될 수 있으며, 상기 판단하는 단계는, 상기 제1 모델 및 제2 모델을 이용하여 상기 컨텍스트에 따라 상기 사용자 음성의 완결 여부를 판단할 수 있다.

그리고, 상기 사용자 음성으로부터 획득한 정보를 상기 제1 모델 및 제2 모델의 입력 데이터로서 이용하여 상기 사용자 음성이 완결된 문장인지에 대한 정보를 획득하는 단계;를 더 포함할 수 있고,상기 판단하는 단계는, 상기 제1 모델 및 제2 모델로부터 각각 획득된 정보에 기초하여 상기 사용자 음성의 완결 여부를 판단할 수 있다.

또한, 상기 판단하는 단계는, 상기 제1 모델 및 제2 모델로부터 각각 획득된 정보에 기초하여 상기 사용자 음성이 완결된 형태인 것으로 판단되고 상기 사용자 음성이 기설정된 예외 문장에 해당하지 않는 경우, 상기 사용자 음성이 완결된 것으로 판단할 수 있다.

그리고, 상기 제어 방법은 상기 사용자 음성을 텍스트로 변환하고, 상기 텍스트에 기초하여 상기 사용자 음성의 의도 및 상기 사용자 음성의 구성 요소의 품사에 대한 정보를 획득하는 단계를 더 포함할 수 있다.

또한, 상기 판단하는 단계는, 상기 사용자 음성을 구성하는 문장 성분의 품사를 상기 제1 모델의 입력 데이터로 사용하여 상기 사용자 음성의 문장 완결 여부에 대응되는 제1 출력 값을 획득하고, 상기 사용자 음성의 의도 및 상기 사용자 음성을 구성하는 문장 성분의 품사를 상기 제2 모델의 입력 데이터로 사용하여 상기 사용자 음성의 문장 완결 여부에 대응되는 제2 출력 값을 획득하고, 상기 제1 출력 값 및 제2 출력 값에 기초하여 상기 사용자 음성의 완결 여부를 판단할 수 있다.

그리고, 상기 판단하는 단계는, 상기 제1 출력 값에 기설정된 제1 가중치를 적용하고 상기 제2 출력 값에 기설정된 제2 가중치를 적용하고, 상기 제1 가중치가 적용된 상기 제1 출력 값 및 상기 제2 가중치가 적용된 상기 제2 출력 값을 합산하고, 상기 합산된 값에 기초하여 상기 사용자 음성의 완결 여부를 판단할 수 있다.

여기에서, 상기 판단하는 단계는, 상기 합산된 값이 기설정된 값 이상이고, 상기 사용자 음성이 기설정된 문장에 미 해당시, 상기 사용자 음성이 완결된 것으로 판단할 수 있다.

상술한 바와 같은 본 발명의 다양한 실시 예에 의하면, 사용자가 발화한 음성의 의미를 기초로 사용자의 음성이 아직 완료되지 않았음을 판단함으로써, 사용자는 이전에 발화한 내용을 다시 반복하여 발화하지 않게 되며, 따라서 사용자의 편의성이 향상된다.

도 1은 본 개시의 다양한 실시예에 따른 전자 장치를 포함하는 시스템을 도시한 도면,

도 2는 본 개시의 일 실시예에 따른 전자 장치의 구성을 설명하기 위한 블록도,

도 3은 본 개시의 일 실시예에 따른 전자 장치의 구성을 상세히 설명하기 위한 블록도,

도 4 및 도 5는 본 개시의 일 실시예에 따른 전자 장치를 설명하기 위한 도면 및

도 6 및 도 7은 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

-

본 개시에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.

본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 개시의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

이하에서는 도면을 참조하면 본 개시의 다양한 실시 예들에 대하여 구체적으로 설명하도록 한다.

도 1은 본 개시의 다양한 실시 예에 따른 전자 장치를 포함하는 시스템을 도시한 도면이다.

도 1에 도시된 바와 같이, 시스템(1000)은 전자 장치(100) 및 외부 장치(200)를 포함한다.

외부 전자 장치(200)는 사용자 음성을 수신한다. 이를 위하여 외부 전자 장치(200)는 마이크를 포함할 수 있다. 외부 전자 장치(200)는 사용자 음성 신호를 수신하면, 수신된 사용자 음성 신호를 전자 장치(100)에 전송하고, 전자 장치(100)로부터 사용자 음성 신호에 대한 응답 정보를 수신한다.

이를 위하여 전자 장치(100)는 인공지능 모델을 이용하여 사용자 음성에 대한 응답을 제공할 수 있는 대화 시스템(Dialogue System)을 포함할 수 있다.

구체적으로, 전자 장치(100)는 사용자 음성 신호를 수신하면, 사용자 음성 신호에 대한 전처리를 수행하고, 사용자 음성 신호에 대한 음성 인식을 수행하여 사용자 음성을 텍스트로 변환(Speech to Text, STT)하고, 음성 인식 결과에 기초하여 사용자 음성의 의도(intent) 및 엔티티(entity)를 파악할 수 있다. 그리고, 전자 장치(100)는 자연어 이해 결과에 기초하여 사용자 음성에 대한 응답을 위한 정보를 가령, 웹 서버 등으로부터 획득하고, 획득된 정보에 기초하여 사용자 음성에 대한 응답 정보로서 자연어를 획득할 수 있다. 그리고, 전자 장치(100)는 응답 정보를 외부 전자 장치(200)로 전송할 수 있다.

이를 위해, 전자 장치(100)는 자동 음성 인식(Automatic Speech Recognition, ASR) 모듈, 자연어 이해(Natural Language Understanding, NLU) 모듈, 대화 관리(Dialogue Management, DM) 모듈, 자연어 생성(Natural Language Generation, NLG) 모듈 등을 포함할 수 있다.

한편, 전자 장치(100)는 상술한 모듈들 중 일부만을 포함할 수도 있다. 가령, 전자 장치(100)는 자동 음성 인식 모듈만을 포함하여 사용자 음성을 텍스트로 변환(Speech to Text, STT)하는 기능만을 수행할 수 있다. 이 경우, 전자 장치(100)는 사용자 음성을 텍스트로 변환한 후, 변환된 텍스트를 자연어 처리 등을 수행하는 다른 전자 장치(미도시)에 전송할 수 있다. 그리고, 다른 전자 장치(미도시)로부터 자연어 처리 결과를 수신할 수도 있다.

전자 장치(100)는 사용자 음성에 대한 응답을 생성하고, 이를 외부 전자 장치(200)에 전송할 수 있다. 그리고, 외부 전자 장치(200)는 사용자 음성에 대한 응답을 제공할 수 있다.

예를 들어, 외부 전자 장치(200)는 TTS(Text to Speech)를 통해, 수신된 응답 정보를 음성으로 변환하여 외부 전자 장치(200)의 스피커를 통해 출력하거나 또는 해당 텍스트를 포함하는 유저 인터페이스(User interface)를 외부 전자 장치(200)의 디스플레이를 통해 표시할 수 있다.

이에 의해, 대화 시스템은 사용자 음성에 대한 응답을 제공할 수 있게 되어, 사용자는 외부 전자 장치(200)와 대화를 수행할 수 있게 된다.

한편, 전자 장치(100)는 대화 시스템을 동작하기 위한 인공지능 에이전트를 저장할 수 있다. 구체적으로, 전자 장치(100)는 사용자 음성에 대한 응답으로 자연어를 생성하기 위하여 인공지능 에이전트를 이용할 수 있다. 인공지능 에이전트는 AI(Artificial Intelligence) 기반의 서비스(예를 들어, 음성 인식 서비스, 비서 서비스, 번역 서비스, 검색 서비스 등)를 제공하기 위한 전용 프로그램으로서, 기존의 범용 프로세서(예를 들어, CPU) 또는 별도의 AI 전용 프로세서(예를 들어, GPU 등)에 의해 실행될 수 있다. 특히, 인공지능 에이전트는 다양한 모듈을 제어할 수 있다.

한편, 도 1a에서는 외부 전자 장치(200)가 사용자 음성에 대한 응답을 제공하는 것으로 설명하였으나, 이는 일 예일 뿐이다.

즉, 도 1b와 같이, 외부 전자 장치(200)는 자신과 연결된 다른 외부 전자 장치(300)를 통해 사용자 음성에 대한 응답을 제공할 수도 있다.

구체적으로, 외부 전자 장치(200)는 전자 장치(100)로부터 응답 정보를 수신하면, 수신된 응답 정보를 외부 전자 장치(300)에 전송할 수 있다.

이에 따라, 외부 전자 장치(300)는 수신된 응답 정보를 이용하여, 사용자 음성에 대한 응답을 외부 전자 장치(300)의 스피커 또는 디스플레이를 통해 출력할 수 있다.

한편, 도 1a 및 도 1b에서는 전자 장치(100)가 서버로 구현되는 것으로 설명하였으나, 이는 일 예에 불과하다.

즉, 도 1c와 같이, 전자 장치(100)는 사용자 음성을 수신하고, 수신된 음성에 대한 음성 인식을 수행하여, 사용자 음성에 대한 응답을 제공할 수도 있다.

즉, 전자 장치(100)가 사용자 음성을 수신하면, 사용자 음성을 전처리 하여 사용자 음성 신호로 변환할 수 있다. 그 후, 전자 장치(100)는 자동 음성 인식 모듈을 이용하여 사용자 음성을 텍스트로 변환하고, 자연어 이해 모듈을 이용하여 사용자 음성의 의도를 분석하며, 자연어 생성 모듈을 통하여 사용자 음성에 대한 응답을 생성할 수 있다. 그리고, 전자 장치(100)는 생성된 응답을 출력하여 사용자에게 제공할 수 있다.

한편, 도 1c에는 전자 장치(100)가 TV인 것으로 도시되어 있으나, 이는 일 예에 불과하고, 전자 장치(100)는 다양한 유형의 전자 장치로 구현될 수 있음은 물론이다. 예를 들어, 전자 장치(100)는 디스플레이, 스피커 등을 포함하는 스마트폰, 스피커, 모니터, 에어컨, 냉장고 등으로 구현될 수 있음은 물론이다.

또한, 도 1a 내지 도 1c에서 사용자 음성은 외부 전자 장치(200)가 수신하는 것으로 설명하였으나, 이는 일 예에 불과하다. 예를 들어, 외부 전자 장치(200)는 원격 제어 장치(가령, 리모컨 등)가 획득한 사용자 음성을 사용자 음성을 수신할 수도 있다. 이 경우, 원격 제어 장치(미도시)는 사용자 음성을 수신하기 위하여 마이크를 포함할 수 있다.

사용자 음성을 수신한 원격 제어 장치(미도시)는 수신된 사용자 음성(아날로그 신호)을 디지털 신호로 변환하고, 변환된 디지털 신호를 적외선 통신, 블루투스(Bluetooth), Wi-Fi 등의 무선 통신을 통하여 외부 전자 장치(200)에 전송할 수 있다. 즉, 원격 제어 장치(미도시)는 외부 전자 장치(200)와 통신을 수행하기 위한 통신부(미도시)를 구비할 수 있으며, 외부 전자 장치(200) 또한 원격 제어 장치와 통신을 수행하기 위하여 통신부를 구비할 수 있다. 이때, 외부 전자 장치(200)는 원격 제어 장치(미도시)와 통신하기 위한 통신부(가령, 블루투스 모듈) 및 서버(미도시)나 다른 전자 장치(미도시)와 통신하기 위한 통신부(가령, 이더넷(Ethernet) 모뎀, Wi-Fi 모듈 등) 등 복수의 통신부를 포함할 수 있다. 다만, 이는 일 실시예이며, 전자 장치(100)는 Wi-Fi 모듈을 포함하는 하나의 통신부를 이용하여 원격 제어 장치(200), 서버(미도시) 및 다른 전자 장치(미도시)와 통신할 수도 있다.

원격 제어 장치(미도시)는 리모트 컨트롤러, 스마트폰과 같은 모바일 디바이스, 스마트 워치와 같은 웨어러블 디바이스, 포인팅 디바이스 등으로 구현될 수 있다. 특히, 원격 제어 장치(미도시)에는 외부 전자 장치(200)를 제어하기 위한 어플리케이션이 설치되어 외부 전자 장치(200)를 제어할 수도 있다.

한편, 사용자 음성이 완결된 형태일수록, 사용자 음성에 대한 자연어 이해 정도가 높아진다는 점에서, 전자 장치(100)가 사용자 음성에 대한 올바른 응답 정보를 생성하기 위해서는, 사용자 음성이 완결된 형태일 필요가 있다.

이를 위해, 본 개시의 일 실시 예에 따른 전자 장치(100)는 수신된 사용자 음성의 완결 여부를 판단할 수 있다.

구체적으로, 전자 장치(100)는 제1 모델 및 제2 모델을 기초로 판단된 수신된 사용자 음성의 완결 여부에 대응하여 사용자 음성에 대한 응답을 생성한다. 이때, 제1 모델은 복수의 완결된 문장의 문형을 학습데이터로 한 모델이고, 제2 모델은 복수의 완결된 문장 및 복수의 완결된 문장과 대응된 의도(intent)를 학습 데이터로 한 모델이다.

이에 따라, 본 개시의 다양한 실시 예에 따르면, 완결된 문장의 문형, 완결된 문장 및 사용자의 의도를 학습데이터로 이용하는 제1 모델 및 제2 모델을 이용한다는 점에서, 별도의 구성요소(가령 버튼, 타이머 등) 없이 사용자의 음성의 문형 또는 사용자 의도만으로 사용자 음성이 완결되었는지 판단할 수 있고, 이에 따라, 사용자 음성에 대한 적절한 응답 정보를 제공할 수 있다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.

도 2에 도시된 바와 같이, 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.

메모리(110)는 전자 장치(100)의 동작에 필요한 각종 프로그램 및 데이터 등을 저장하기 위한 구성요소이다.

메모리(110)는, 전자 장치(100)가 수신한 사용자 음성 신호를 음성 인식 하기 위하여, 자동 음성 인식 모듈, 자연어 이해 모듈, 대화 관리 모듈, 자연어 생성 모듈 및 TTS 모듈 등을 포함할 수 있다.

그리고, 메모리(110)는 제1 모델 및 제2 모델을 저장할 수 있다.

이 경우, 프로세서(120)는 제1 및 제2 모델을 사용자 음성이 완결된 형태인지 여부를 판단할 수 있는데, 이러한 모델에 대한 구체적인 설명은 도 3과 함께 후술하도록 한다.

프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어할 수 있다.

구체적으로, 프로세서(120)는 사용자 음성에 대한 음성 인식을 수행하고, 음성 인식 결과에 기초하여 사용자 음성에 대한 응답 정보를 생성할 수 있다.

이 경우, 프로세서(120)는 사용자 음성이 수신되면, 사용자 음성에 대한 음성 인식을 수행하여 사용자 음성을 텍스트로 변환하고, 음성 인식 결과에 기초하여 사용자 음성의 의도 및 엔티티를 파악할 수 있다. 그리고, 프로세서(120)는 자연어 이해 결과에 기초하여, 사용자 음성의 응답을 위한 정보를 가령, 웹 서버 또는 검색 엔진 등으로부터 획득하고, 획득된 정보에 기초하여 사용자 음성에 대한 응답 정보로서 자연어를 획득할 수 있다.

그리고, 프로세서(120)는 응답 정보에 기초하여 사용자 음성에 대한 응답이 제공되도록 전자 장치(100)를 제어할 수 있다.

구체적으로, 프로세서(120)는 응답 정보를 외부 전자 장치(가령, 도 1a 및 도 1c의 외부 전자 장치(200))로 전송하거나, 또는, 응답 정보에 기초한 사용자 음성에 대한 응답을 전자 장치(100)의 스피커 또는 디스플레이를 통해 출력할 수 있다.

한편, 프로세서(120)는 사용자 음성의 완결 여부를 판단하고, 판단 결과에 기초하여 사용자 음성에 대한 응답 정보를 생성할 수도 있다.

구체적으로, 프로세서(120)는 사용자 음성이 수신되면 메모리(110)에 저장된 제1 모델 및 제2 모델을 이용하여 사용자 음성의 완결 여부를 판단하고, 판단 결과에 기초하여 사용자 음성에 대한 응답 정보를 생성할 수 있다.

이 경우, 프로세서(120)는 사용자 음성을 제1 모델 및 제2 모델의 입력 데이터로서 사용하여, 사용자 음성이 완결된 문장인지에 대한 정보를 제1 모델 및 제2 모델로부터 각각 획득하고, 제1 모델 및 제2 모델로부터 각각 획득된 정보에 기초하여 사용자 음성의 완결 여부를 판단할 수 있다.

이에 따라, 프로세서(120)는 사용자 음성이 완결된 경우, 사용자 음성에 대한 응답 정보를 생성하고, 생성된 응답 정보에 기초하여 사용자 음성에 대한 응답을 제공할 수 있다.

그러나, 프로세서(120)는 사용자 음성이 완결되지 않은 경우, 사용자 음성에 대한 응답 정보를 생성하는 대신, 이후에 입력되는 음성을 이전에 입력된 음성과 함께 이용하여, 사용자 음성에 대한 음성 인식을 수행하고, 그에 대한 응답을 제공할 수 있다. 또한, 사용자 음성이 완결된 형태에 해당하지 않는 경우, 프로세서(120)는 재발화를 요청하는 응답 정보를 제공할 수도 있다.

이와 같이, 본 발명의 일 실시 예에 따르면, 전자 장치(100)는 사용자 음성의 완결 여부를 판단하고, 판단 결과에 따라 사용자 음성에 대한 응답을 제공할 수 있다. 이에 따라, 사용자는 동일한 문장을 여러 번 발화하지 않아도 된다는 점에서 사용자의 편의성이 향상될 수 있다.

한편, 이하에서는 도 3을 참조하여, 사용자 음성의 완결 여부를 판단하는 방법에 대해 보다 구체적으로 설명하도록 한다.

도 3은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 상세히 도시한 블록도이다.

도 3에 도시된 바와 같이, 전자 장치(100)는 메모리(110), 프로세서(120), 통신부(130), 디스플레이(140), 마이크(150), 오디오 출력부(160), 사용자 입력부(170)를 포함할 수 있다.

메모리(110)는 전자 장치(100)의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다.

이를 위해, 메모리(110)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(110)는 프로세서(120)에 의해 액세스되며, 프로세서(120)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(110), 프로세서(120) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다.

구체적으로, 메모리(110)는 대화 시스템을 구성하는 다양한 모듈을 포함할 수 있다. 예를 들어, 메모리(110)는 자동 음성 인식 모듈, 자연어 이해 모듈, 대화 관리 모듈, 자연어 생성 모듈 및 TTS 모듈 등을 포함할 수 있다.

자동 음성 인식 모듈(111)은 사용자의 음성에 대한 음성 인식을 수행할 수 있다. 구체적으로, 자동 음성 인식 모듈(111)은 수신된 사용자의 음성을 텍스트로 변환하는 STT(Speech to Text) 기능을 수행할 수 있다.

자연어 이해 모듈(112)은 음성 인식 결과를 바탕으로 사용자 음성의 의미 및 의도를 파악할 수 있다. 이를 위해, 자연어 이해 모듈(112)은 형태소 분석, 구문 분석, 의미 이해 분석 등을 통하여 사용자 음성에 포함된 비정형적인 언어 데이터를 전자 장치가 이해할 수 있는 정형적인 언어 데이터로 변환할 수 있다.

대화 관리 모듈(미도시)은 자연어 이해 결과를 바탕으로 사용자 음성에 대한 응답을 제공하기 위한 정보를 가령, 외부 서버 등으로부터 획득할 수 있다. 그리고, 자연어 생성 모듈은 획득된 정보에 기초하여 사용자 음성에 대한 응답 정보로서, 자연어를 획득할 수 있다.

그리고, TTS 모듈(미도시)은 획득된 자연어를 음성으로 변환할 수 있다.

한편, 전술한 예에서는 모듈들이 소프트웨어로 메모리(110)에 저장된 것으로 설명하였으나, 이는 일 예에 불과하고, 각 모듈들은 하드웨어 칩으로 구현될 수 있음은 물론이다.

또한, 메모리(110)는 제1 모델(113) 및 제2 모델(114)를 포함할 수 있다. 여기에서, 제1 모델(113) 및 제2 모델(114)은 완결된 문장에 대한 정보를 입력 데이터로 사용하여 학습된 인공지능 모델일 수 있다.

예를 들어, 제1 모델(113) 및 제2 모델(114)는 신경망(Neural Network)을 기반으로 하는 모델일 수 있다.

구체적으로, 제1 모델(113) 및 제2 모델(114)은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고 받는 뉴런의 시냅팁(synaptic) 활동을 모의하도록 각각 연결 관계를 형성할 수 있다.

또한, 제1 모델(113) 및 제2 모델(114)은 일 예로, 신경망 모델, 또는 신경망 모델에서 발전한 딥러닝(deep-learning) 모델을 포함할 수 있다. 딥러닝 모델에서 복수의 네트워크 노드들은 서로 다른 깊이(또는, 레이어)에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다. 학습된 인공지능 모델의 예에는 DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 등이 있을 수 있으나 이에 한정되지 않는다.

먼저, 제1 모델(113)은 복수의 완결된 문장의 문형을 학습 데이터로서 이용하여 학습된 모델일 수 있다. 문형은 복수의 완결된 문장 각각을 구성하는 적어도 하나의 요소의 품사에 기초하여 결정될 수 있다. 여기에서, 요소는 문장에서 특정한 의미를 갖는 하나 또는 그 이상의 단어를 포함할 수 있다. 예를 들어, 완결된 문장이 "Find out a romantic movie"의 경우, 해당 문장의 요소는 "Find out", "romantic", "movie"가 될 수 있다. 또한, 완결된 문장이 "Find out a Tom Cruise's movie."인 경우, 문장의 요소는 'Find out', 'Tom Cruise's', 'movie'가 될 수 있다.

이 경우, 완결된 문장의 문형은 완결된 문장을 구성하는 요소에 대한 품사 표기(Part-of-speech tagging, POS tagging)에 의해 나타낼 수 있다. 즉, 품사 표기는 문장을 요소 단위로 구분하고, 요소의 뜻과 문맥을 고려하여 각 요소의 품사 정보, 컨텍스트(context), 개체명(named entity), 요소의 의미 정보 등을 태깅하는 것을 의미할 수 있다.

이때, 요소의 품사 정보는 완결된 문장에 포함되는 요소의 품사(가령, 명사, 형용사, 동사 등)에 관한 정보를 나타내고, 컨텍스트는 요소를 포함하는 완결된 문장이 적용되는 디바이스의 상황을 나타내며, 개체명은 인명, 지명, 기관명 등과 같은 고유명사를 나타내고, 의미 정보는 요소의 문맥적 의미를 나타낸다.

이 경우, 제1 모델(113)은 사용자 음성을 구성하는 요소의 품사에 따라 사용자 음성의 완결 여부를 판단할 수 있도록, 복수의 완결된 문장 각각을 구성하는 적어도 하나의 요소의 품사에 기초하여 학습될 수 있다.

구체적으로, 제1 모델(113)은 완결된 문장을 구성하는 적어도 하나의 요소의 품사 구조를 통해 학습될 수 있다.

예를 들어, 제1 모델(113)이 "Find out a romantic movie.", "Find out a Tom Cruise's movie." 와 같은 완결된 형태의 문장을 통해 학습되는 경우를 가정하도록 한다.

이 경우, 제1 모델(113)은 "Find out a romantic movie." "Find out a Tom Cruise's movie."의 문형을 나타내는 "Find out [ADJ:VIDEO:NE:MOOD] [NOUN:VIDEO:NE:GENRE]”을 학습 데이터로 이용하여 학습할 수 있다.

이때, [ADJ:VIDEO:NE:MOOD]에서 "ADJ"는 해당 요소의 품사가 형용사임을 나타내고, 'VIDEO'는 해당 요소를 포함하는 완결된 문장이 비디오 검색 상황에서 사용될 수 있음을 나타내고, "NE"는 해당 요소가 개체명일 수 있음을 나타내고, "MOOD"는 해당 요소가 분위기와 관련된 요소일 수 있음을 나타내는 것일 수 있다. 즉, [ADJ:VIDEO:NE:MOOD]는 해당 요소가 형용사이고, VIDEO 검색 상황에서 사용될 수 있으며, 개체명일 수 있고, 분위기와 관련된 요소를 나타낼 수 있는 것으로 볼 수 있다.

또한, [NOUN:VIDEO:NE:GENRE]에서 "NOUN"는 해당 요소의 품사가 명사임을 나타내고, "VIDEO"는 해당 요소를 포함하는 완결된 문장이 비디오 검색 상황에서 사용될 수 있음을 나타내고, "NE"는 해당 요소가 개체명일 수 있음을 나타내고, "GENRE"는 해당 요소가 장르와 관련된 요소일 수 있음을 나타내는 것일 수 있다. 즉, [NOUN:VIDEO:NE:GENRE]는 "movie"라는 요소가 명사이고, VIDEO 검색 상황에서 사용될 수 있으며, 개체명일 수 있고, 장르와 관련된 요소를 나타내는 것으로 볼 수 있다.

이에 따라, 제1 모델(113)은 "Find out a romantic movie.", "Find out a Tom Cruise's movie."등의 문형 "Find out [ADJ:VIDEO:NE:MOOD] [NOUN:VIDEO:NE:GENRE]"을 통해, "Find out"이 포함된 완결된 문장에서는 "Find out"이후에 "형용사" 및 "명사"가 순차적으로 배치되는 품사 구조를 갖는다는 것을 학습할 수 있다.

한편, 전술한 예에서는, 제1 모델(113)이 완결된 문장의 모든 요소가 아닌 일부 요소에만 품사 표기가 태깅된 문형을 이용하여 학습되는 것으로 설명하였으나, 이는 일 예에 불과하다.

즉, 제1 모델(113)은 완결된 문장의 모든 요소에 태깅된 품사 표기를 통해 학습될 수도 있다. 예를 들어, 전술한 예와 같이, "Find out a romantic movie.", "Find out a Tom Cruise's movie."의 경우, "[VERB:VIDEO:SEARCH] [ADJ:VIDEO:NE:MOOD] [NOUN:VIDEO:NE:GENRE]"와 같이 나타낼 수 있다. 이 경우, 제1 모델(113)은 완결된 문장에서 "동사" 이후에 "형용사" 및 "명사"가 순차적으로 배치되는 품사 구조를 갖는다는 것을 학습할 수 있다.

한편, 제1 모델(113)은 컨텍스트(context)에 따라학습 데이터를 이용하여 학습될 수 있다.

여기에서, 컨텍스트는 사용자 음성이 적용되는 디바이스의 상황을 의미할 수 있다.

예를 들어, 디바이스(여기에서, 도 1a 및 도 1b의 경우, 디바이스는 외부 전자 장치(200)가 될 수 있고, 도 1c의 경우, 전자 장치(100)가 될 수 있다)가 비디오 검색 상황에 존재하는 경우, 즉, 사용자가 음성을 통해 비디오를 검색하는 상황인 경우, 컨텍스트는 비디오 검색 컨텍스트에 해당할 수 있다. 또한, 사용자가 음성을 통해 디바이스의 기능(가령, 디바이스의 채널을 변경하거나, 볼륨을 변경하는 등)을 제어하는 경우, 컨텍스트는 장치 제어 컨텍스트를 포함할 수 있다. 다만, 비디오 검색 컨텍스트 및 장치 제어 컨텍스트는 일 예에 불과하고, 디바이스의 상황에 따라 다양한 컨텍스트가 존재할 수 있음은 물론이다.

이 경우, 제1 모델(113)은 컨텍스트에 따라 마련된 복수의 완결된 문장의 문형을 학습 데이터로서 이용하여 학습될 수 있다.

예를 들어, 제1 모델(113)은 비디오 검색 컨텍스트에 대해, 완결된 문장인 "Find out a romantic movie"의 문형에 기초하여 학습된다. 비디오 검색 컨텍스트의 경우, 완결된 문장에서 "Find out" 이후에 "형용사" 및 "명사"가 순차적으로 배치되는 품사 구조를 갖는다는 것을 학습할 수 있다. 또한, 제1 모델(113)은 장치 제어 컨텍스트에 대해, 완결된 문장인 "turn down volume"의 문형에 기초하여 학습되어, 장치 제어 컨텍스트의 경우, "turn down" 이후에 "명사"가 배치되는 품사 구조를 갖는다는 것을 학습할 수 있다.

즉, 컨텍스트 별로 이용되는 완결된 문장이 다를 수 있고, 이에 따른 해당 문장의 문형은 서로 다를 수 있다는 점에서, 본 개시의 일 실시 예에서는 제1 모델(113)은 컨텍스트 별로, 완결된 문장의 문형을 학습할 수도 있다.

이와 같이, 제1 모델(113)은 다양한 완결된 문장을 구성하는 요소의 품사에 기초하여, 완결된 문장의 문형을 학습할 수 있다.

한편, 제2 모델(114)은 복수의 완결된 문장(또는, 말뭉치(corpora)) 및 복수의 완결된 문장과 대응된 의도를 학습 데이터로 이용하여 학습된 모델일 수 있다.

구체적으로, 제2 모델(114)은 사용자 음성의 의도 및 사용자 음성을 구성하는 요소의 품사에 따라 사용자 음성의 완결 여부를 판단하도록, 의도 별로, 완결된 문장을 구성하는 요소의 품사에 기초하여 학습될 수 있다. 이 경우, 복수의 완결된 문장에 포함된 의도에 대한 정보는 자연어 이해 모듈(112)을 통해 획득될 수 있다.

예를 들어, 학습데이터로 이용 가능한 복수의 완결된 문장으로 "Find out an action movie.", "Find out a hero movie.", "Find out American drama", "Find out Korean drama."등이 존재한다고 가정한다.

이 경우, 제2 모델(114)은 자연어 이해 모듈(112)을 이용하여, "Find out action movie."는 액션 영화를 검색하려는 의도이고, "Find out hero movie."는 히어로 영화를 검색하려는 의도이며, "Find out Korean drama."는 한국 드라마를 검색하려는 의도이며, "Find out American drama"는 미국 드라마를 검색하려는 의도임을 학습할 수 있다.

그리고, 제2 모델(114)은 영화를 검색하려는 의도일 때 'Find out 'A' movie'문장이 사용될 수 있으며, 이때, 'A'에는 형용사 또는 명사가 위치할 수 있다는 것을 학습할 수 있다. 즉, 제2 모델(114)은 영화를 검색하려는 의도일 때, [동사][형용사 또는 명사][명사]의 요소를 가지는 문장이 사용될 수 있음을 학습할 수 있다.

마찬가지로, 제2 모델(114)은 드라마를 검색하려는 의도일 때 'Find out 'A' drama.'문장이 사용될 수 있으며, 이때 'A'에는 형용사가 위치할 수 있다는 것을 학습할 수 있다. 즉, 제2 모델(114)은 드라마를 검색하려는 의도일 때, [동사][형용사][명사]의 요소를 가지는 문장이 사용될 수 있음을 학습할 수 있다.

이러한 학습 과정을 통하여, 제2 모델(114)은 사용자 음성이 완결된 문장인지 여부를 판단하는 기준을 구축하게 된다.

한편, 제2 모델(114)은 컨텍스트에 따라 학습 데이터를 이용하여 학습될 수 있다.

예를 들어, 제2 모델(114)은 '비디오 검색' 컨텍스트에 대한 복수의 완결된 문장인 "Find out romantic movie.", "Find out kids movie.", "Find out hero movie."등을 학습 데이터로 이용하여, 사용자 음성의 완결 여부를 판단하는 기준을 갖도록 학습될 수 있다.

제2 모델(114)은 '비디오 검색' 컨텍스트에서 "Find out romantic movie"는 [동사][형용사][명사]의 형태이고, "Find out kids movie." 및 "Find out hero movie."은 [동사][명사][명사]의 형태임을 학습할 수 있다.

제2 모델(114)은'비디오 검색'환경에서 사용되는 완결된 문장 형태가 통계적으로 '[동사] [형용사] [명사]', '[동사] [명사] [명사]'등이 될 수 있으며, 완결된 문장의 의도는 드라마 또는 영화를 찾는 것임을 학습할 수 있다.

이와 같이 제1 및 제2 모델(113,114)를 학습시키기 위하여, 메모리(110)는 학습데이터(115)를 포함할 수 있다.

구체적으로 메모리(110)는 제1 모델(113)을 학습시키기 위하여 품사 표기로 나타낸 완결된 문장의 문형 데이터를 포함할 수 있으며, 제2 모델(114)을 학습시키기 위한 완결된 문장 형태를 포함할 수도 있다.

또한, 학습데이터(115)는 컨텍스트에 따라 완결된 문장의 문형 데이터 또는 완결된 문장을 포함할 수 있으며, 프로세서(120)는 제1 모델 및 제2 모델을 이용하여 컨텍스트에 따라 사용자 음성의 완결 여부를 판단할 수 있다.

한편, 학습데이터(115)는 업데이트 될 수 있다. 구체적으로, 학습데이터(115)는 입력된 사용자 음성에 대해 판단된 결과를 반영하여 업데이트 될 수 있다.

가령, 사용자가 발화한 사용자 음성이 'Find out a kids animation'이고 제2 모델(114)이 충분히 학습되지 않은 상태라면, 제2 모델(114)은 'Find out a kids animation'과 같은 형태의 사용자 음성이 완결되었다고 판단하는 기준이 형성되어 있지 않을 수 있다. 반면, 제1 모델(113)은 문형 'Find out [NOUN:VIDEO:NE:MOOD][NOUN:VIDEO:NE:GEMRE]이 완결된 문장이라고 판단하는 기준이 형성되어 있을 수 있다. 이 경우, 사용자 음성 'Find out kids animation'이 문형 'Find out [NOUN:VIDEO:NE:MOOD][NOUN:VIDEO:NE:GEMRE]에 매칭된다는 점에서, 제1 모델(113)은 사용자 음성이 완결되었다고 판단될 수 있다. 그리고, 학습데이터(115)는 이러한 판단 결과를 기초로 업데이트 될 수 있다. 즉, 완결된 형태라고 판단된'Find out a kids animation'가 학습데이터(115)에 추가될 수 있다.

이 경우, 자연어 이해를 통하여 'Find out a kids animation'의 의도는 어린이 애니메이션을 검색하려는 의도이고, 'Find out a kids animation'의 컨텍스트는'비디오 검색' 컨텍스트에 해당된다고 판단될 수 있으며, 이에 따라 '비디오 검색' 컨텍스트에 'Find out a kids animation'문장이 추가될 수 있다. 그리고, 제2 모델(114)은 업데이트된 학습 데이터(115)를 이용하여 재학습될 수 있다. 한편, 이는 일 실시예이며, 경우에 따라 업데이트된 학습 데이터(115)를 이용하여 제1 모델(113)이 재학습될 수도 있다.

이 경우, 제1 모델(113) 또는 제2 모델(114)은 업데이트된 학습데이터(115)를 이용하여 재학습된다는 점에서, 학습데이터(115)가 업데이트 됨에 따라 제1 모델(113) 또는 제2모델(114)의 판단 기준이 좀 더 명확해질 수 있다.

한편, 도 3에서는 학습 데이터가 메모리(110)에 저장되는 것으로 도시되었으나, 이는 일 실시 예일 뿐이다. 즉, 학습 데이터는 메모리(110)가 아닌 전자 장치(100) 내의 별도의 저장공간에 저장되어 있을 수 있거나, 전자 장치(100)가 아닌 별도의 전자 장치(미도시)에 저장되어 있을 수도 있다.

프로세서(120)는 메모리(110)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 예를 들어, 프로세서(120)는 운영 체제 또는 응용 프로그램을 구동하여 프로세서(120)에 연결된 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 또한, 프로세서(120)는 다른 구성요소들 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장할 수 있다.

이를 위해, 프로세서(120)는 해당 동작을 수행하기 위한 전용 프로세서(예, 임베디드 프로세서) 또는 메모리 디바이스에 저장된 하나 이상의 소프트웨어 프로그램을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU 또는 application processor)로 구현될 수 있다.

한편, 프로세서(120)는 제1 모델(113) 및 제2 모델(114)을 이용하여 사용자 음성의 완결 여부를 판단할 수 있다.

구체적으로, 프로세서(120)는 사용자 음성으로부터 획득한 정보를 제1 모델(113) 및 제2 모델(114)의 입력 데이터로서 이용하여 사용자 음성이 완결된 문장인지에 대한 정보를 제1 모델(113) 및 제2 모델(114)로부터 각각 획득하고, 제1 모델(113) 및 제2 모델(114)로부터 각각 획득된 정보에 기초하여 상기 사용자 음성의 완결 여부를 판단할 수 있다.

이와 관련하여, 도 4는 사용자 음성 “Find out an action movie.”가 입력된 경우 입력된 사용자 음성의 완결 여부를 판단하는 방법을 설명하기 위한 도면이다.

사용자 음성이 입력되면, 프로세서(120)는 사용자 음성에 대한 음성 인식을 수행하여 사용자 음성을 텍스트로 변환하고, 텍스트에 기초하여 사용자 음성의 의도 및 사용자 음성을 구성하는 문장 성분의 품사를 판단할 수 있다.

예를 들어, 사용자 음성 “Find out an action movie.”가 입력된 경우, 프로세서(120)는 자동 음성 인식 모듈(111) 및 자연어 이해 모듈(112)을 이용하여, “Find out an action movie.”에 대한 음성 인식을 수행할 수 있다. 그 결과, 프로세서(120)는 사용자 음성 “Find out an action movie.”를 텍스트 “Find out an action movie.”로 변환하고, 텍스트에 기초하여 수신된 사용자 음성은 ‘[동사][명사][명사]’를 포함하며, 사용자 음성에는 액션 영화를 검색하려는 의도가 포함되어 있다는 정보를 획득할 수 있다. 또한, 프로세서(120)는 사용자 음성에 포함된 의도를 이용하여, 사용자 음성에 대한 컨텍스트는 ‘비디오 검색’이라는 점을 획득할 수 있다.

프로세서(120)는 사용자 음성을 구성하는 문장 성분의 품사를 제1 모델(113)의 입력 데이터로 사용하여 사용자 음성의 문장 완결 여부에 대응되는 제1 출력 값을 획득하고, 사용자 음성의 의도 및 사용자 음성을 구성하는 문장 성분의 품사를 제2 모델의 입력 데이터로 사용하여 사용자 음성의 문자 완결 여부에 대응되는 제2 출력 값을 획득할 수 있다. 그리고, 프로세서(120)는 제1 출력 값 및 제2 출력 값에 기초하여 사용자 음성의 완결 여부를 판단할 수 있다.

구체적으로, 프로세서(120)는 제1 모델(113)을 이용하여 사용자 음성의 품사 정보와 학습된 완결된 문장의 문형에 포함된 품사 정보가 일치하는지 판단하고, 그에 따라 사용자 음성이 완결되었는지 판단할 수 있다.

여기에서, 제1 모델(113)은 완결된 문장의 문형을 학습한 결과와 사용자 음성을 구성하는 요소의 품사를 비교하여, 사용자 음성의 문장 완결 여부에 대응되는 제1 출력 값을 출력할 수 있다. 이때, 제1 모델(113)은 완결된 문장의 문형에 기초하여 학습된 완결된 문장이 갖는 품사 배열과 사용자 음성의 품사 배열이 일치하는 경우, 사용자 음성의 형태가 완결된 것으로 판단하는 기준을 가질 수 있다. 반면, 제1 모델(113)은 사용자 음성에 포함된 품사 배열이 학습된 완결된 문장이 갖는 품사 배열과 일치하지 않는 경우, 사용자 음성은 완결되지 않은 것으로 판단하는 기준을 가질 수 있다.

즉, 제1 모델(113)은 사용자 음성에 포함된 품사 배열과 학습된 완결된 문장이 갖는 품사 배열을 1:1로 매칭하여 사용자 음성이 완결된 형태인지 여부를 판단하는 기준을 가진다는 점에서, 입력된 사용자 음성에 대하여 1 또는 0의 값을 출력할 수 있다.

예를 들어, 제1 모델(113)이 ‘Find out’뒤에 ‘명사’및 ‘명사’가 위치하는 형태의 문장은 완결된 문장이라고 학습된 경우, 제1 모델(113)은 사용자 음성 "Find out an action movie"의 품사 배열인‘Find out [명사][명사]’가 학습된 완결된 문장의 “Find out [명사] [명사]”와 일치한다고 판단하는 기준을 가질 수 있다.

이에 따라, 프로세서(120)는 제1 모델(113)로부터 사용자 음성이 완결된 형태임을 나타내는 1의 값을 획득할 수 있다.

그리고, 프로세서(120)는 제2 모델(114)을 이용하여 사용자 음성의 품사 정보와 학습된 완결된 문장의 품사 정보가 일치하는지 판단하고, 그에 따라 사용자 음성이 완결된 형태인지 판단할 수 있다.

제2 모델(114)은 완결된 문장을 학습한 결과와 사용자 음성을 구성하는 요소의 품사를 비교하여, 사용자 음성의 문장 완결 여부에 대응되는 제2 출력 값을 출력할 수 있다. 제2 모델(114)은 복수의 완결된 문장을 학습데이터로 사용하여 통계적으로 학습된 모델이라는 점에서, 제2 모델(114)은 0에서 1 사이의 값을 출력할 수 있다.

가령, 제2 모델(114)이 ‘비디오 검색’ 컨텍스트에서 ‘[동사][명사][명사]’를 포함하는 문장이 완결된 형태일 가능성이 높다고 학습된 경우, 제2 모델(114)은 사용자 음성 "Find out an action movie."의 ‘find out’은 [동사]에 매칭되고, ‘action’ 및 ‘movie’는 각각 [명사] 및 [명사]에 매칭된다고 판단하는 기준을 가질 수 있다. 이때, 제2 모델(114)은 판단된 가능성에 따라 0 내지 1 사이의 값을 출력할 수 있다.

프로세서(120)는 제1 모델(113) 및 제2 모델(114)로부터 획득한 제1 출력값 및 제2 출력값에 기초하여 사용자 음성의 완결 여부를 판단할 수 있다.

가령, 프로세서(120)는 제1 출력값 및 제2 출력값의 합이 1.65를 이상인 경우 사용자 음성을 완결된 형태로 판단하며, 제1 모델(113)은 1을 출력하고 제2 모델(114)는 하면 0.8을 출력하였다고 가정하면, 제1 모델(113)의 제1 출력값 1및 제2 모델(114)의 제2 출력값 0.8의 합인 1.8은 1.65보다 크다. 이 경우, 프로세서(120)는 사용자 음성이 완결되었다고 판단할 수 있다.

한편, 프로세서(120)는 제1 및 제2 모델(113,114)로부터 출력값을 얻은 후 추가적으로 예외 처리를 수행할 수 있다.

구체적으로, 프로세서(120)는 제1 모델 및 제2 모델로부터 획득한 제1 출력값 및 제2 출력 값의 합이 기 설정된 임계 값 이상이고, 사용자 음성이 기설정된 예외 문장에 해당되지 않는다면, 사용자 음성이 완결되었다고 판단할 수 있다. 그러나, 사용자 음성이 기설정된 예외 문장에 해당되는 경우, 프로세서(120)는 사용자 음성이 완결된 형태에 해당하지 않는다고 판단할 수도 있다.

이를 위하여, 예외 문장들은 메모리(110)에 기저장되어 있을 수 있으며, 프로세서(120)는 사용자 음성이 기저장된 예외 문장에 해당되는지 판단하여 사용자 음성이 완결된 형태인지 여부를 판단할 수 있다.

또 다른 실시예로, 프로세서(120)는 제1 모델(113) 및 제2 모델(114)에 서로 다른 가중치를 부여하여, 사용자 음성의 완결 여부를 판단할 수 있다.

구체적으로, 프로세서(120)는 제1 출력 값에 기설정된 제1 가중치를 적용하고 제2 출력 값에 기설정된 제2 가중치를 적용하여, 제1 가중치가 적용된 제1 출력 값 및 제2 가중치가 적용된 제2 출력 값을 합산하고, 합산된 값에 기초하여 사용자 음성의 완결 여부를 판단할 수 있다.

더욱 구체적으로, 프로세서(120)는 합산된 값이 기설정된 임계 값 이상인 경우, 사용자 음성이 완결된 것으로 판단할 수 있다.

가령, 상술한 바와 동일하게, 프로세서(120)는 제1 출력값 및 제2 출력값의 합이 1.65를 이상인 경우 사용자 음성을 완결된 형태로 판단하며, 제1 모델(113)은 1을 출력하고 제2 모델(114)는 하면 0.8을 출력하였다고 가정하자. 프로세서(120)는 제1 모델(113)에 1.5의 가중치를 부여하고, 제2 모델(114)에 2의 가중치를 부여하여, 가중치가 적용된 제1 모델(113)의 제1 출력값으로 1.5를 획득하고, 가중치가 적용된 제2 모델(114)의 가중치로 1.6을 획득할 수 있다. 이 경우 제1 출력값 1.5 및 제2 출력값 1.6의 합인 3.1이 1.65보다 크므로 음성완결 판단부(122)는 사용자 음성이 완결되었다고 판단할 수 있다.

한편, 프로세서(120)는 제1 및 제2 모델(113,114)에 서로 다른 가중치를 부여한 경우에도 추가적으로 예외 처리를 수행할 수 있다. 즉, 프로세서(120)는 제1 모델에 의한 제1 출력값 및 제2 모델에 의한 제2 출력 값이 합산된 값이 기설정된 임계 값 이상이고, 사용자 음성이 기설정된 예외 문장에 해당하지 않는 경우, 사용자 음성이 완결될 것으로 판단할 수 있다.

프로세서(120)는 예외 처리를 수행하는 경우, 제1모델, 제2 모델 및 예외 처리 규칙 간에 서로 다른 가중치를 부여하여 사용자 음성의 완결 여부를 판단할 수 있다.

다시 도 3으로 돌아와서, 통신부(130)는 전자 장치(100)가 외부 전자 장치(미도시)와 통신을 수행하기 위한 구성요소이다. 통신부(130)를 통하여 전자 장치(100)는 외부 장치로부터 사용자 음성 신호를 수신할 수 있다.

이를 위해, 통신부(130)는 유선 통신 모듈(미도시), 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다.

여기에서, 유선 통신 모듈은 유선 이더넷(Ethernet)과 같이 유선 통신 방식에 따라 외부 장치(미도시)와 통신을 수행하기 위한 모듈이다. 그리고, 근거리 무선 통신 모듈이란 블루투스(Bluetooth, BT), BLE(Bluetooth Low Energy), ZigBee 방식 등과 같은 근거리 무선 통신 방식에 따라 근거리에 위치한 외부 장치(미도시)와 통신을 수행하기 위한 모듈이다. 또한, 무선 통신 모듈이란 WiFi, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 외부 장치(미도시) 및 음성 인식 서버(미도시)와 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), LTE-A(LTE Advanced), 5세대 네트워크(5G Networks) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

한편, 통신부(130)는 외부 전자 장치(미도시)뿐만 아니라, 외부 전자 장치(미도시)을 제어하기 위한 원격 제어 장치 즉, 리모컨(미도시)과 통신을 수행할 수도 있다.

예를 들어, 통신부(130)는 블루투스 또는 BLE 등과 같은 근거리 통신 방식에 따라 원격 제어 장치(미도시)와 통신을 수행하여, 다양한 데이터를 송수신할 수 있다.

한편, 또 다른 실시예로, 전자 장치(100)는 외부 장치(미도시)와 연결되어 비디오/오디오 신호를 주고 받기 위한 인터페이스부(미도시)를 포함할 수도 있다. 인터페이스부는 DP(Display Port), HDMI(high definition multimedia interface), HDMI-CEC(consumer electronics control), RGB(Red Green Blue) cable, USB(Universal Serial Bus), DVI(Digital Visual Interface), 썬더볼드(Thunderbolt), 컴포넌트(Component) 등의 규격에 따른 신호/데이터를 송/수신할 수 있으며, 이들 각각의 규격에 대응하는 적어도 하나 이상의 커넥터 또는 단자를 포함한다.

디스플레이(140)는 영상 처리부(미도시)에서 처리한 영상 데이터를 디스플레이 영역(또는, 디스플레이)에 디스플레이할 수 있다. 디스플레이 영역은 전자 장치(100)의 하우징의 일면에 노출된 디스플레이(140)의 적어도 일부를 의미할 수 있다. 디스플레이(140)의 적어도 일부는 플렉서블 디스플레이(flexible display)의 형태로 전자 장치(100)의 전면 영역 및, 측면 영역 및 후면 영역 중 적어도 하나에 결합될 수도 있다. 플렉서블 디스플레이는 종이처럼 얇고 유연한 기판을 통해 손상 없이 휘거나 구부리거나 말 수 있는 것을 특징으로 할 수 있다.

마이크(150)는 제1 및 제2 사용자 음성을 획득할 수 있다. 마이크(150)는 외부에서부터 수신되는 음성 또는 사운드를 전기적인 신호로 생성할 수 있다.

이를 위하여, 마이크는 아날로그 형태의 사용자 음성을 수집하는 마이크, 수집된 사용자 음성을 증폭하는 앰프 회로, 증폭된 사용자 음성을 샘플링하여 디지털 신호로 변환하는 A/D 변환회로, 변환된 디지털 신호로부터 노이즈 성분을 제거하는 필터 회로 등과 같은 다양한 구성을 포함할 수 있다.

마이크(150)에서 생성된 전기적인 신호는 프로세스(120)에 전달될 수 있다. 프로세서(120)는 마이크(150)로부터 수신한 전기적인 음성 신호에 대하여 음성 인식 및 자연어 처리를 수행하여 사용자 음성의 의미 및 의도 등을 판단할 수 있다.

특히, 마이크(150)는 전자 장치(100) 내부에 구비될 수 있으나, 이는 일 실시예에 불과할 뿐, 전자 장치(100)와 전기적으로 연결되어 외부에 구비될 수 있다.

오디오 출력부(160)는 오디오 처리부(미도시)에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 오디오를 출력하는 구성은 스피커(160)로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 출력 단자로 구현될 수 있다.

사용자 입력부(170)는 다양한 사용자 입력을 수신하여 프로세서(120)로 전달할 수 있다. 사용자 입력부(170)는, 예를 들면, 터치 패널, (디지털) 펜 센서 또는 키를 포함할 수 있다. 터치 패널은, 예를 들면, 정전식, 감압식, 적외선 방식, 또는 초음파 방식 중 적어도 하나의 방식을 사용할 수 있다. 또한, 터치 패널은 제어 회로를 더 포함할 수도 있다. 터치 패널은 택타일 레이어(tactile layer)를 더 포함하여, 사용자에게 촉각 반응을 제공할 수 있다. (디지털) 펜 센서는, 예를 들면, 터치 패널의 일부이거나, 별도의 인식용 쉬트를 포함할 수 있다. 키는, 예를 들면, 물리적인 버튼, 광학식 키, 또는 키패드를 포함할 수 있다.

한편, 전자 장치(100)의 구현 예에 따라 도 3에 도시된 전자 장치(100)의 구성요소 중 적어도 일부는 생략될 수 있다.

예를 들어, 전자 장치(100)가 도 1a 및 도 1b에 도시된 바와 같이 서버로 구현되는 경우, 외부 전자 장치(200)에서 사용자 음성을 수신하고, 사용자 음성에 대한 응답 역시 제3 외부 장치(400)에서 출력된다는 점에서, 도 3의 디스플레이(140), 마이크(150) 및 오디오 출력부(160)는 생략될 수 있다.

도 5는 본 개시의 일 실시예에 따른 전자 장치를 설명하기 위한 도면이다.

구체적으로 도 5는 전자 장치(100)가 외부 전자 장치(200)와 연결된 상태에서, 사용자가 발화한 경우 프로세서(120)가 사용자 음성의 완결 여부를 판단하고, 판단된 결과에 따라 수행되는 외부 전자 장치(200)의 동작을 설명하기 위한 도면이다.

외부 전자 장치(200)는 사용자로부터 음성을 수신할 수 있다. 이때 사용자 음성은 외부 전자 장치(200)에 직접 입력되거나, 다른 외부 전자 장치(가령, 리모컨 등)를 통하여 외부 전자 장치(200)에 입력될 수도 있다.

외부 전자 장치(200)는 사용자 음성을 수신하기 위한 UI를 디스플레이 할 수 있다. 가령, 도 5에 도시된 바와 같이, 사용자 음성 입력을 요청하는 텍스트를 디스플레이 하거나, 마이크 등의 그림을 디스플레이 할 수 있다.

사용자 음성을 수신한 외부 전자 장치(200)는 사용자 음성을 전처리하여 사용자 음성 신호로 변환하고, 무선 통신 모듈을 이용하여 사용자 음성 신호를 전자 장치(100)에 전송할 수 있다.

전자 장치(100)는 도 4에서 상술한 바와 같이, 제1 모델(113) 및 제2 모델(114)을 사용하여 사용자 음성 신호의 완결 여부를 판단할 수 있다.

외부 전자 장치(200)는 전자 장치(100)로부터 수신한 판단 결과에 따라 사용자 음성 신호에 따른 동작을 수행할지 여부를 판단할 수 있다.

가령, 사용자가 'Find out an action movie”라고 발화하고, 전자 장치(100)가 사용자 음성이 완결되었다고 판단한 경우, 전자 장치(100)는 외부 전자 장치(200)에 판단 결과를 전송할 수 있다.

외부 전자 장치(200)는 전자 장치(100)로부터 사용자 음성이 완결되었다는 정보를 수신하면, 사용자 음성에 대응하는 제어 명령을 실행할 수 있다. 가령, 외부 전자 장치(200)는 사용자 음성 명령에 따라 액션 영화를 검색하는 기능을 수행할 수 있다.

한편, 또 다른 실시 예로 사용자가 'Find out' 라고 발화하고 잠시 발화를 중단한 경우를 가정한다.

이 경우, 외부 전자 장치(200)가 'Find out' 음성 신호를 수신하여 이를 전자 장치(100)에 전송하면, 전자 장치(100)는 제1 모델(113) 및 제2 모델(114)을 사용하여 사용자 음성이 완결되지 않은 것으로 판단할 수 있다.

전자 장치(100)는 사용자 음성이 완결되지 않았음을 나타내는 신호를 외부 전자 장치(200)에 전송할 수 있으며, 외부 전자 장치(200)는 전자 장치(100)로부터 수신된 신호에 따라 사용자의 음성 입력을 요청하는 UI를 계속 디스플레이할 수 있다. 다만, 이는 일 실시 예이며, 전자 장치(100)로부터 사용자 음성이 완결되지 않은 정보를 수신한 외부 전자 장치(200)는 사용자에게 사용자 음성이 완결되지 않았음을 알릴 수도 있다.

그리고, 사용자의 음성 입력이 추가적으로 입력되면, 전자 장치(100)는 'Find out' 이후에 추가적으로 입력되는 사용자 음성이 'Find out'과 연결되는 문장으로 판단하여, 'Find out' 이후에 입력된 사용자 음성과 'Find out'을 포함하는 사용자 음성이 완결된 형태인지 판단할 수 있다.

이와 같이, 전자 장치(100)가 사용자 음성의 완결 여부를 판단하고, 사용자 음성이 완료된 경우에만 사용자 음성에 대한 동작을 수행하게 함으로써 사용자는 일정 조건 또는 일정 시간 내에 발화를 완료하여야 한다는 불편을 해소할 수 있다.

도 6은 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

우선 전자 장치(100)는 사용자 음성을 수신한다(S610). 전자 장치(100)는 외부 전자 장치(200)로부터 사용자 음성 신호를 수신할 수 있으며, 사용자로부터 직접 사용자 음성을 수신할 수도 있다.

그리고, 전자 장치(100)는 제1 및 제2 모델을 이용하여 사용자 음성의 완결 여부를 판단한다(S620).

제1 모델은 복수의 완결된 문장의 문형을 학습 데이터로 한 모델일 수 있다.

구체적으로, 문형은 복수의 완결된 문장 각각을 구성하는 적어도 하나의 요소(element)의 품사에 기초하여 결정될 수 있으며, 제1 모델은 사용자 음성을 구성하는 요소의 품사에 따라 사용자 음성의 완결 여부를 판단하도록, 적어도 하나의 요소의 품사에 기초하여 학습되는 모델일 수 있다.

한편, 제2 모델은 복수의 완결된 문장 및 복수의 완결된 문장에 포함된 의도(intent)를 학습 데이터로서 이용하여 학습된 모델이 될 수 있다.

구체적으로, 제2 모델은 사용자 음성의 의도 및 사용자 음성을 구성하는 요소의 품사에 따라 사용자 음성의 완결 여부를 판단하도록, 의도 별로 완결된 문장을 구성하는 요소의 품사에 기초하여 학습되는 모델일 수 있다.

이때, 제1 모델 및 제2 모델은, 컨텍스트에 따라학습 데이터를 이용하여 학습될 수 있다.

전자 장치(100)는 제1 모델 및 제2 모델을 이용하여 컨텍스트에 따라 사용자 음성의 완결 여부를 판단할 수 있다.

한편, 전자 장치(100)는 사용자 음성을 텍스트로 변환하고, 텍스트에 기초하여 사용자 음성의 의도 및 사용자 음성에 포함된 요소의 품사에 대한 정보를 획득할 수 있다.

또한, 전자 장치(100)는 사용자 음성으로부터 획득한 정보를 상기 제1 모델 및 제2 모델의 입력 데이터로서 이용하여 상기 사용자 음성이 완결된 문장인지에 대한 정보를 제1 모델 및 제2 모델로부터 각각 획득할 수 있으며, 제1 모델 및 제2 모델로부터 각각 획득된 정보에 기초하여 사용자 음성의 완결 여부를 판단할 수 있다.

이 경우, 전자 장치(100)는 제1 모델 및 제2 모델로부터 각각 획득된 정보에 기초하여 사용자 음성이 완결된 것으로 판단되고 사용자 음성이 기설정된 예외 문장에 해당하지 않는 경우, 사용자 음성이 완결된 것으로 판단할 수 있다.

그리고, 전자 장치(100)는 제1 모델 및 제2 모델을 기초로 판단된 수신된 사용자 음성의 완결 여부에 대응하여 사용자 음성에 대한 응답을 생성한다(S630).

도 7은 본 발명의 일 실시예에 따라 전자 장치가 사용자 음성이 완결되었는지 판단하는 과정을 설명하기 위한 흐름도이다.

전자 장치(100)는 사용자 음성을 수신하고(S710), 수신한 사용자 음성에 대하여 음성 인식을 수행할 수 있다(S720). 전자 장치(100)는 사용자 음성을 텍스트로 변환하고, 텍스트에 기초하여 사용자 음성의 의도 및 사용자 음성을 구성하는 문장 성분의 품사를 판단할 수 있다.

전자 장치(100)는 제1 모델(113)을 이용하여 사용자 음성의 문장 완결 여부에 대응되는 제1 출력값을 획득할 수 있다(S730). 구체적으로, 전자 장치(100)는 사용자 음성을 구성하는 문장 성분의 품사를 제1 모델(113)의 입력 데이터로 사용하여 사용자 음성의 문장 완결 여부에 대응되는 제1 출력값을 획득할 수 있다.

또한, 전자 장치(100)는 제2 모델(114)을 이용하여 사용자 음성의 완결 여부에 대응되는 제2 출력값을 획득할 수 있다(S740). 구체적으로, 전자 장치(100)는 사용자 음성의 의도 및 사용자 음성을 구성하는 문장 성분의 품사를 제2 모델(114)의 입력 데이터로 사용하여 사용자 음성의 문장 완결 여부에 대응되는 제2 출력 값을 획득할 수 있다.

전자 장치(100)는 제1 출력 값 및 제2 출력 값에 기초하여 사용자 음성의 완결 여부를 판단할 수 있다(S750).

구체적으로, 전자 장치(100)는 제1 출력 값에 기설정된 제1 가중치를 적용하고 제2 출력 값에 기설정된 제2 가중치를 적용하고, 제1 가중치가 적용된 제1 출력 값 및 제2 가중치가 적용된 제2 출력 값을 합산하고, 합산된 값에 기초하여 사용자 음성의 완결 여부를 판단할 수 있다.

더욱 구체적으로, 전자 장치(100)는 합산된 값이 기설정된 임계 값 이상이고, 사용자 음성이 기설정된 예외 문장에 해당하지 않는 경우, 사용자 음성이 완결된 것으로 판단할 수 있다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(120) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치에서의 처리 동작을 상기 특정 기기가 수행하도록 한다.

-

Claims

제1 모델 및 제2 모델이 저장된 메모리; 및

상기 제1 모델 및 제2 모델을 기초로 판단된 수신된 사용자 음성의 완결 여부에 대응하여 상기 사용자 음성에 대한 응답을 생성하는 프로세서;를 포함하며,

상기 제1 모델은,

복수의 완결된 문장의 문형을 학습 데이터로 한 모델이고,

상기 제2 모델은,

복수의 완결된 문장 및 상기 복수의 완결된 문장과 대응된 의도(intent)를 학습 데이터로 한 모델인, 전자 장치.
제1항에 있어서,

상기 문형은,

상기 복수의 완결된 문장 각각을 구성하는 적어도 하나의 요소(element)의 품사에 기초하여 결정되며,

상기 제1 모델은,

상기 사용자 음성을 구성하는 요소의 품사에 따라 상기 사용자 음성의 완결 여부를 판단하도록, 상기 적어도 하나의 요소의 품사에 기초하여 학습되는 모델인, 전자 장치.
제1항에 있어서,

상기 제2 모델은,

상기 사용자 음성의 의도 및 상기 사용자 음성을 구성하는 요소의 품사에 따라 상기 사용자 음성의 완결 여부를 판단하도록, 상기 의도 별로 완결된 문장을 구성하는 요소의 품사에 기초하여 학습되는 모델인, 전자 장치.
제1항에 있어서,

상기 제1 모델 및 제2 모델은, 컨텍스트(context)에 따라 상기 학습 데이터를 이용하여 학습되며,

상기 프로세서는,

상기 제1 모델 및 제2 모델을 이용하여 상기 컨텍스트에 따라 상기 사용자 음성의 완결 여부를 판단하는, 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 사용자 음성으로부터 획득한 정보를 상기 제1 모델 및 제2 모델의 입력 데이터로서 이용하여 상기 사용자 음성이 완결된 문장인지에 대한 정보를 상기 제1 모델 및 제2 모델로부터 각각 획득하고, 상기 제1 모델 및 제2 모델로부터 각각 획득된 정보에 기초하여 상기 사용자 음성의 완결 여부를 판단하는, 전자 장치.
제5항에 있어서,

상기 프로세서는,

상기 제1 모델 및 제2 모델로부터 각각 획득된 정보에 기초하여 상기 사용자 음성이 완결된 문장인 것으로 판단되고 상기 사용자 음성이 기설정된 예외 문장에 미 해당 시, 상기 사용자 음성이 완결된 것으로 판단하는, 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 사용자 음성을 텍스트로 변환하고, 상기 텍스트에 기초하여 상기 사용자 음성의 의도 및 상기 사용자 음성을 구성하는 요소의 품사에 대한 정보를 획득하는, 전자 장치.
제7항에 있어서,

상기 프로세서는,

상기 사용자 음성을 구성하는 문장 성분의 품사를 상기 제1 모델의 입력 데이터로 사용하여 상기 사용자 음성의 문장 완결 여부에 대응되는 제1 출력 값을 획득하고, 상기 사용자 음성의 의도 및 상기 사용자 음성을 구성하는 문장 성분의 품사를 상기 제2 모델의 입력 데이터로 사용하여 상기 사용자 음성의 문장 완결 여부에 대응되는 제2 출력 값을 획득하고, 상기 제1 출력 값 및 제2 출력 값에 기초하여 상기 사용자 음성의 완결 여부를 판단하는, 전자 장치.
제8항에 있어서,

상기 프로세서는,

상기 제1 출력 값에 기설정된 제1 가중치를 적용하고 상기 제2 출력 값에 기설정된 제2 가중치를 적용하고, 상기 제1 가중치가 적용된 상기 제1 출력 값 및 상기 제2 가중치가 적용된 상기 제2 출력 값을 합산하고, 상기 합산된 값에 기초하여 상기 사용자 음성의 완결 여부를 판단하는, 전자 장치.
제9항에 있어서,

상기 프로세서는,

상기 합산된 값이 기설정된 값 이상이고, 상기 사용자 음성이 기설정된 문장에 미 해당시, 상기 사용자 음성이 완결된 것으로 판단하는, 전자 장치.
전자 장치의 제어 방법에 있어서,

사용자 음성을 수신하는 단계;

제1 및 제2 모델을 이용하여 상기 사용자 음성의 완결 여부를 판단하는 단계; 및

상기 제1 모델 및 제2 모델을 기초로 판단된 수신된 사용자 음성의 완결 여부에 대응하여 상기 사용자 음성에 대한 응답을 생성하는 단계;를 포함하며,

상기 제1 모델은,

복수의 완결된 문장의 문형을 학습 데이터로 한 모델이고,

상기 제2 모델은,

복수의 완결된 문장 및 상기 복수의 완결된 문장과 대응된 의도(intent)를 학습 데이터로 한, 제어 방법.
제11항에 있어서,

상기 제1 모델 및 제2 모델은, 컨텍스트(context)에 따라 상기 학습 데이터를 이용하여 학습되며,

상기 판단하는 단계는,

상기 제1 모델 및 제2 모델을 이용하여 상기 컨텍스트에 따라 상기 사용자 음성의 완결 여부를 판단하는, 제어 방법.
제11항에 있어서,

상기 사용자 음성으로부터 획득한 정보를 상기 제1 모델 및 제2 모델의 입력 데이터로서 이용하여 상기 사용자 음성이 완결된 문장인지에 대한 정보를 상기 제1 모델 및 제2 모델로부터 각각 획득하는 단계;를 더 포함하고,

상기 판단하는 단계는,

상기 제1 모델 및 제2 모델로부터 각각 획득된 정보에 기초하여 상기 사용자 음성의 완결 여부를 판단하는, 제어 방법.
제13항에 있어서,

상기 판단하는 단계는,

상기 제1 모델 및 제2 모델로부터 각각 획득된 정보에 기초하여 상기 사용자 음성이 완결된 형태인 것으로 판단되고 상기 사용자 음성이 기설정된 예외 문장에 해당하지 않는 경우, 상기 사용자 음성이 완결된 것으로 판단하는, 제어 방법.
제11항에 있어서,

상기 사용자 음성을 텍스트로 변환하고, 상기 텍스트에 기초하여 상기 사용자 음성의 의도 및 상기 사용자 음성에 포함된 요소의 품사에 대한 정보를 획득하는 단계;를 더 포함하는, 제어 방법.