KR20220020723A

KR20220020723A - 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법

Info

Publication number: KR20220020723A
Application number: KR1020200101406A
Authority: KR
Inventors: 최형탁; 류종엽
Original assignee: 삼성전자주식회사
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2022-02-21
Also published as: US20220310096A1; US11984126B2; WO2022035183A1

Abstract

본 개시는 음성 입력을 인식하는 디바이스 및 그 동작 방법을 개시한다. 본 개시의 일 실시예에 따른 디바이스는, ASR 모델을 이용하여 사용자로부터 수신된 음성 입력을 인식함으로써, 음성 입력이 변환될 것으로 예측되는 문자열을 포함하는 적어도 하나의 텍스트 후보(text candidates)를 획득하고, 데이터베이스에 기 저장된 복수의 음성 신호와 상기 음성 입력을 비교함으로써, 데이터베이스로부터 음성 입력에 대응되는 텍스트 이력 정보 정보를 추출(extract)하고, 추출된 텍스트 이력 정보 정보를 이용하여 복수의 텍스트 후보 각각의 가중치(weight)를 조정(adjust)하는 학습(training)을 수행할 수 있다.
한편, 인공지능 모델을 이용하여 상기 디바이스가 음성 입력을 인식하는 방법을 수행할 수도 있다.

Description

사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법 {THE DEVICE FOR RECOGNIZING THE USER'S SPEECH INPUT AND THE METHOD FOR OPERATING THE SAME}

본 개시는 인공 지능 모델을 이용하여 사용자로부터 수신된 음성 입력을 인식하는 디바이스 및 그 동작 방법에 관한 것이다.

음성 인식 기능은, 별도의 버튼 조작 또는 터치 모듈의 접촉에 의하지 않고 사용자의 음성 입력을 인식함으로써 디바이스를 손쉽게 제어하는 기능이다. 최근에는, 인공 지능(Artificial Intelligence, AI) 기술이 발전함에 따라 음성 인식 기능에도 인공 지능 기술이 접목됨으로써, 다양한 발화들에 대해서 빠르고 정확한 음성 인식이 가능해졌다.

인공 지능 기술을 이용하여 사용자의 음성 입력을 인식하는 방법으로는, 마이크로 폰을 통해 아날로그 신호인 음성 신호를 수신하고, ASR(Automatic Speech Recognition)모델을 이용하여 음성 부분을 컴퓨터로 판독 가능한 텍스트로 변환할 수 있다. ASR 모델은 인공지능 모델일 수 있다. 인공지능 모델은 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계된 인공지능 전용 프로세서에 의해 처리될 수 있다. 인공지능 모델은 학습을 통해 만들어 질 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다.

디바이스는 인공 지능 모델을 이용한 음성 인식의 성능 향상을 위하여 서버로부터 신규 모델을 수신하거나, 또는 기존 음성 인식 모델을 업데이트한다. 신규 음성 인식 모델이 다운로드되거나 또는 기존 음성 인식 모델이 업데이트되는 경우, 사용자는 기존과 동일한 목소리, 발음, 억양, 말투, 어조 또는 사투리 등을 그대로 사용하여 발화를 하더라도, 음성 인식 모델이 사용자의 음성 입력을 정확하게 인식하지 못하거나, 또는 기존과 다른 인식 결과를 출력하는 문제점이 있다. 이 경우, 디바이스는 기존과 다른 동작 또는 기능을 수행하게 되고, 사용자는 기존과 같이 동작하거나 기능을 수행하지 않아 불편함을 겪게 된다.

본 개시는, 사용자가 발화를 하기 전의 과거 시점에서의 음성 인식의 이력 정보를 저장하고 있는 데이터베이스를 이용하는 학습(training)을 통해, 사용자의 음성 입력을 인식하고, 해석하며, 음성 인식 결과를 출력하는 디바이스 및 그 동작 방법을 제공하는 것을 목적으로 한다.

상술한 기술적 과제를 해결하기 위하여 본 개시의 일 실시예는, 디바이스가 음성 입력을 인식하는 방법을 제공한다. 상기 방법은, 사용자로부터 음성 입력을 수신하는 단계, ASR 모델을 이용하여 상기 음성 입력을 인식함으로써, 상기 음성 입력이 변환될 것으로 예측되는 문자열을 포함하는 적어도 하나의 텍스트 후보(text candidates)를 획득하는 단계, 상기 음성 입력이 수신되는 시점 이전에 인식되어 데이터베이스에 기 저장된 음성 인식 결과 이력 정보와 상기 음성 입력을 비교함으로써, 상기 데이터베이스로부터 상기 음성 입력에 대응되는 텍스트 이력 정보를 추출(extract)하는 단계, 및 상기 추출된 텍스트 이력 정보를 이용하여 상기 적어도 하나의 텍스트 후보 각각의 가중치(weight)를 조정(adjust)하는 학습(training)을 수행하는 단계를 포함할 수 있다.

본 개시의 일 실시예에서, 상기 데이터베이스에는, 기 획득된 복수의 음성 신호 및 상기 복수의 음성 신호를 상기 ASR 모델을 이용하여 변환함으로써 획득된 복수의 텍스트 이력 정보를 포함하는 상기 음성 인식 결과 이력 정보가 저장되고, 상기 복수의 음성 신호는, 대응되는 상기 복수의 텍스트 이력 정보와 페어링(pairing)되어 상기 데이터베이스에 저장될 수 있다.

본 개시의 일 실시예에서, 상기 음성 입력에 대응되는 텍스트 이력 정보를 추출하는 단계는, 상기 음성 입력과 상기 복수의 음성 신호 간의 유사도(similarity)를 각각 산출하는 단계, 상기 복수의 음성 신호 중 상기 산출된 유사도가 기 설정된 임계치를 초과하는 음성 신호를 식별(identify)하는 단계, 및 상기 복수의 텍스트 이력 정보 중 상기 식별된 음성 신호와 페어링된 텍스트 이력 정보를 추출하는 단계를 포함할 수 있다.

본 개시의 일 실시예에서, 상기 방법은 상기 학습을 통해, 상기 음성 입력을 변환함으로써 출력되는 텍스트를 결정하는 단계를 더 포함할 수 있다.

본 개시의 일 실시예에서, 상기 방법은 자연어 이해 모델(Natural Language Understanding; NLU)을 이용하여 상기 출력된 텍스트를 해석함으로써, 적어도 하나의 텍스트 해석 결과 후보를 획득하는 단계, 상기 획득된 적어도 하나의 텍스트 해석 결과 후보를 상기 데이터베이스에 기 저장된 복수의 텍스트 해석 결과 이력 정보와 비교함으로써, 상기 복수의 텍스트 해석 결과 이력 정보 중 상기 텍스트에 대응되는 텍스트 해석 이력 정보를 추출하는 단계, 상기 추출된 텍스트 해석 이력 정보를 이용하여, 상기 자연어 이해 모델을 통해 상기 텍스트로부터 텍스트 해석 결과 정보를 획득하기 위한 가중치를 학습하는 단계, 및 상기 학습을 통해, 상기 자연어 이해 모델을 업데이트하는 단계를 더 포함할 수 있다.

본 개시의 일 실시예에서, 상기 텍스트 해석 결과 정보는, 상기 자연어 이해 모델을 이용하여 상기 텍스트를 해석함으로써 인식되는 도메인(domain), 인텐트(intent), 및 개체명(named entity)에 관한 정보 중 적어도 하나를 포함할 수 있다.

본 개시의 일 실시예에서, 상기 데이터베이스에는, 기 획득된 복수의 텍스트 및 상기 자연어 이해 모델을 이용하여 상기 복수의 텍스트를 해석함으로써 획득된 복수의 텍스트 해석 이력 정보가 저장되고, 상기 복수의 텍스트는, 대응되는 상기 복수의 텍스트 해석 이력 정보와 페어링되어 상기 데이터베이스에 저장될 수 있다.

본 개시의 일 실시예에서, 상기 텍스트에 대응되는 텍스트 해석 이력 정보를 추출하는 단계는, 상기 텍스트와 상기 데이터베이스에 기 저장된 상기 복수의 텍스트 간의 유사도(similarity)를 각각 산출하는 단계, 상기 복수의 텍스트 중 상기 산출된 유사도가 기 설정된 임계치를 초과하는 텍스트를 식별하는 단계, 및 상기 복수의 텍스트 해석 이력 정보 중 상기 식별된 텍스트와 페어링된 텍스트 해석 이력 정보를 추출하는 단계를 포함할 수 있다.

본 개시의 일 실시예에서, 상기 방법은 상기 가중치를 조정하는 학습을 통해, 상기 음성 입력을 변환함으로써 출력되는 텍스트를 결정하는 상기 ASR 모델을 업데이트하는 단계, 및 상기 ASR 모델의 업데이트 정보를 서버에 전송하는 단계를 더 포함할 수 있다.

상술한 기술적 과제를 해결하기 위하여, 본 개시의 일 실시예는, 음성 입력을 인식하는 디바이스를 제공한다. 디바이스는 사용자로부터 음성 입력을 수신하는 음성 입력부, 상기 음성 입력이 수신되는 시점 이전에 수신된 복수의 음성 신호 및 상기 복수의 음성 신호에 대응되는 복수의 텍스트 이력 정보 정보를 포함하는 음성 인식 결과 이력 정보를 저장하는 데이터베이스, 하나 이상의 명령어들(instructions)을 포함하는 프로그램을 저장하는 메모리, 및 상기 메모리에 저장된 프로그램의 하나 이상의 명령어들을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 음성 입력부로부터 상기 음성 입력을 수신하고, ASR 모델을 이용하여 상기 음성 입력을 인식함으로써, 상기 음성 입력이 변환될 것으로 예측되는 문자열을 포함하는 적어도 하나의 텍스트 후보(text candidates)를 획득하고, 상기 데이터베이스에 기 저장된 상기 복수의 음성 신호와 상기 음성 입력을 비교함으로써, 상기 데이터베이스로부터 상기 음성 입력에 대응되는 텍스트 이력 정보 정보를 추출(extract)하고, 상기 추출된 텍스트 이력 정보 정보를 이용하여 상기 복수의 텍스트 후보 각각의 가중치(weight)를 조정(adjust)하는 학습(training)을 수행할 수 있다.

본 개시의 일 실시예에서, 상기 프로세서는 상기 음성 입력과 상기 데이터베이스에 기 저장된 상기 복수의 음성 신호 간의 유사도(similarity)를 각각 산출하고, 상기 복수의 음성 신호 중 상기 산출된 유사도가 기 설정된 임계치를 초과하는 음성 신호를 식별(identify)하고, 상기 복수의 텍스트 이력 정보 중 상기 식별된 음성 신호와 페어링된 텍스트 이력 정보를 추출할 수 있다.

본 개시의 일 실시예에서, 상기 프로세서는 상기 학습을 통해 상기 음성 입력을 변환함으로써 출력되는 텍스트를 결정할 수 있다.

본 개시의 일 실시예에서, 상기 프로세서는 자연어 이해 모델(Natural Language Understanding; NLU)을 이용하여 상기 출력된 텍스트를 해석함으로써, 적어도 하나의 텍스트 해석 결과 후보를 획득하고, 상기 획득된 적어도 하나의 텍스트 해석 결과 후보를 상기 데이터베이스에 기 저장된 복수의 텍스트 해석 결과 이력 정보와 비교함으로써, 상기 복수의 텍스트 해석 결과 이력 정보 중 상기 텍스트에 대응되는 텍스트 해석 이력 정보를 추출하고, 상기 추출된 텍스트 해석 이력 정보를 이용하여, 상기 자연어 이해 모델을 통해 상기 텍스트로부터 텍스트 해석 결과 정보를 획득하기 위한 가중치를 학습하고, 상기 학습을 통해, 상기 자연어 이해 모델을 업데이트할 수 있다.

본 개시의 일 실시예에서, 상기 프로세서는, 상기 텍스트와 상기 데이터베이스에 기 저장된 상기 복수의 텍스트 간의 유사도(similarity)를 각각 산출하고, 상기 복수의 텍스트 중 상기 산출된 유사도가 기 설정된 임계치를 초과하는 텍스트를 식별하고, 상기 복수의 텍스트 해석 이력 정보 중 상기 식별된 텍스트와 페어링된 텍스트 해석 이력 정보를 추출할 수 있다.

본 개시의 일 실시예에서, 상기 프로세서는, 상기 추출된 텍스트 해석 이력 정보를 이용하는 학습을 통해, 상기 자연어 이해 모델로부터 출력되는 상기 텍스트 해석 결과 정보를 결정할 수 있다.

본 개시의 일 실시예에서, 상기 디바이스는 서버와 데이터 통신을 수행하는 통신 인터페이스를 더 포함하고, 상기 프로세서는 상기 가중치를 조정하는 학습을 통해 상기 음성 입력을 변환함으로써 출력되는 텍스트를 결정하는 상기 ASR 모델을 업데이트하고, 상기 ASR 모델의 업데이트 정보를 서버에 전송하도록 상기 통신 인터페이스를 제어할 수 있다.

상술한 기술적 과제를 해결하기 위하여, 본 개시의 다른 실시예는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

도 1은 본 개시의 일 실시예에 따른 디바이스가 사용자의 음성 입력을 인식함으로써, 텍스트를 출력하는 동작을 도시한 도면이다.
도 2a는 본 개시의 일 실시예에 따른 디바이스가 사용자의 음성 입력을 인식하고, 음성 인식 결과를 출력하는 동작을 도시한 도면이다.
도 2b는 본 개시의 일 실시예에 따른 디바이스가 사용자의 음성 입력을 인식하고, 음성 인식 결과를 출력하는 동작을 도시한 도면이다.
도 3은 본 개시의 일 실시예에 따른 디바이스가 사용자의 음성 입력을 인식하고, 음성 인식 결과를 출력하는 동작을 도시한 도면이다.
도 4는 본 개시의 일 실시예에 따른 디바이스의 구성 요소를 도시한 블록도이다.
도 5는 본 개시의 일 실시예에 따른 디바이스의 동작 방법을 도시한 흐름도이다.
도 6은 본 개시의 일 실시예에 따른 디바이스의 동작 방법을 도시한 흐름도이다.
도 7은 본 개시의 일 실시예에 따른 디바이스 및 서버의 동작 방법을 도시한 흐름도이다.
도 8은 본 개시의 일 실시예에 따른 디바이스 및 서버의 동작 방법을 도시한 흐름도이다.

본 명세서의 실시예들에서 사용되는 용어는 본 개시의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다.

본 개시 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 본 명세서에 기재된 "...부", "...모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

본 명세서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 시스템"이라는 표현은, 그 시스템이 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 개시에서 '문자'는 인간의 언어를 눈에 볼 수 있는 형태로 나타내어 적는데 사용하는 기호를 의미한다. 예를 들어, 문자에는 한글, 알파벳, 한자, 숫자, 발음 부호, 문장 부호 및 기타 기호가 포함될 수 있다.

본 개시에서 '문자열'이란, 문자들의 배열(sequence)을 의미한다.

본 개시에서 '문자소(grapheme)'는 적어도 하나의 문자로 구성되는, 소리를 나타내는 가장 작은 단위이다. 예를 들어, 알파벳 표기 체계의 경우, 하나의 문자가 문자소가 될 수 있으며, 문자열은 문자소들의 배열을 의미할 수 있다.

본 개시에서 '텍스트(text)'는 적어도 하나의 문자소를 포함할 수 있다. 예를 들어, 텍스트는, 형태소 또는 단어를 포함할 수 있다.

본 개시에서 '단어(word)'는 적어도 하나의 문자열로 구성되는, 자립적으로 사용되거나, 또는 문법적 기능을 나타내는 언어의 기본 단위이다.

본 개시에서 '단어 열(word sequence)'은 하나 이상의 단어들의 배열을 의미한다.

본 개시에서 음성 인식 모델이 음성 신호로부터 문자열을 출력함에 있어서, "문자열의 신뢰도(confidence score)"란, 소정 문자열을 출력한 음성 인식 모델이 얼마나 정확하게 음성 인식을 수행하고 있는지의 정도를 나타낸다. 예를 들어, 문자열의 신뢰도는, 소정 문자열로부터 획득되는 가능도(likelihood), 소정 문자열을 추정하는 과정에서 출력되는 부분 가능도 또는 사후 확률 값 등에 기초하여 기설정된 수학식에 따라 산출될 수 있다. 문자열의 신뢰도가 높을수록, 음성 인식 모델이 음성 신호에 관한 문자열을 정확하게 추정하였다고 판단될 수 있다.

본 개시에서 'ASR 모델(Automatic Speech Recognition)'은 사용자의 음성을 인식하는 음성 인식 모델로서, 사용자로부터 수신된 음성 입력을 텍스트로 변환하여 출력하도록 학습된 모델이다. 일 실시예에서, ASR 모델은 음향 모델, 발음 사전 및 언어 모델을 포함하는 인공지능 모델일 수 있다. 다른 실시예에서, ASR 모델은 음향 모델, 발음 사전 및 언어 모델을 별도로 포함하지 않고 통합된 신경망을 포함하는 구조를 가지는 종단간(End-to-End) 음성 인식 모델일 수 있다. 종단간 ASR 모델은 통합된 신경망을 이용함으로써, 음성 신호로부터 음소를 인식한 이후에 음소를 텍스트로 변환하는 과정이 없이, 음성 신호를 텍스트로 변환할 수 있다.

본 개시에서 '자연어 이해 모델(Natural Language Understanding, NLU)'은 음성 신호로부터 변환된 텍스트를 해석하여, 텍스트에 대응하는 도메인(domain) 및 인텐트(intent)를 획득하도록 학습된 모델이다. 자연어 이해 모델은 텍스트를 해석함으로써, 도메인 및 인텐트 뿐만 아니라 슬롯(slot)에 관한 정보를 식별할 수도 있다.

본 개시에서 '도메인(domain)'은 텍스트를 해석하여 식별되는 사용자의 의도와 관련되는 카테고리 또는 영역이다. 도메인은 자연어 이해 모델을 이용하여 텍스트를 해석함으로써 검출될 수 있다. 도메인은 자연어 이해 모델을 이용하여 텍스트로부터 검출되는 인텐트와 관련될 수 있다. 일 실시예에서, 도메인은 텍스트와 관련된 서비스에 따라 분류될 수도 있다. 도메인은 텍스트가 해당되는 카테고리 예를 들어, 영화 도메인, 음악 도메인, 책 도메인, 게임 도메인, 항공 도메인, 음식 도메인, 스포츠 도메인 등 하나 이상의 영역을 포함할 수 있다.

본 개시에서 '인텐트(intent)'는 텍스트를 해석하여 판단되는 사용자의 의도를 나타내는 정보이다. 인텐트는 사용자의 발화 의도를 나타내는 정보로서, 사용자가 디바이스를 이용하여 실행하고자 하는 동작 또는 기능을 나타내는 정보를 포함할 수 있다. 인텐트는 자연어 이해 모델(Natural Language Understanding, NLU) 모델을 이용하여 텍스트를 해석함으로써 결정될 수 있다. 예를 들어, 사용자의 음성 입력으로부터 변환된 텍스트가 "멜론 애플리케이션에서 음악 틀어줘~" 인 경우, 도메인은 '음악'이고, 인텐트는 '음악 컨텐트 재생(play)'일 수 있다. 인텐트는 인텐트 액션(intent action) 및 인텐트 객체(intent object)를 포함할 수 있다.

인텐트는, 사용자의 발화 의도를 나타내는 정보(이하, 의도 정보)뿐 아니라, 사용자의 의도를 나타내는 정보에 대응하는 수치값을 포함할 수 있다. 수치값은 텍스트가 특정 의도를 나타내는 정보와 관련될 확률값으로써, 텍스트가 특정 의도로 해석될 수 있는 신뢰도 값을 나타낼 수 있다. 자연어 이해 모델을 이용하여 텍스트를 해석한 결과, 사용자의 의도를 나타내는 정보가 복수개 획득되는 경우, 각 의도 정보에 대응되는 수치값이 최대인 의도 정보가 인텐트로 결정될 수 있다.

본 개시에서 '슬롯(slot)'은 인텐트와 관련된 세부 정보들을 획득하거나, 세부 동작을 결정하기 위한 변수(variable) 정보를 의미한다. 일 실시예에서, 슬롯을 구성하는 변수 정보는 개체명(named entity)을 포함할 수 있다.

슬롯은 인텐트와 관련된 정보이며, 하나의 인텐트에 복수 종류의 슬롯이 대응될 수 있다. 슬롯은 텍스트가 특정 변수 정보와 관련될 확률값을 나타내는 수치값을 포함할 수 있다. 일 실시예에서, 자연어 이해 모델을 이용하여 텍스트를 해석한 결과, 슬롯을 나타내는 변수 정보가 복수 개 획득될 수 있다. 이 경우, 각 변수 정보에 대응되는 수치값이 최대인 변수 정보가 슬롯으로 결정될 수 있다. 예를 들어, 텍스트가 "멜론 애플리케이션에서 음악 틀어줘~" 인 경우, 텍스트로부터 획득된 슬롯은 '멜론 애플리케이션'일 수 있다.

도메인, 인텐트 및 슬롯은 자연어 이해 모델을 이용하여 자동으로 식별 또는 검출할 수 있지만, 이에 한정되는 것은 아니다. 본 개시의 일 실시예에서, 도메인, 인텐트, 및 슬롯은 디바이스를 통해 입력되는 사용자 입력에 의해 수동으로 각각 지정되거나, 결정될 수 있다.

도 1은 본 개시의 일 실시예에 따른 디바이스(1000a)가 사용자의 음성 입력을 인식함으로써, 텍스트를 출력하는 동작을 도시한 도면이다.

도 1을 참조하면, 디바이스(1000a)는 ASR 모델(1310), 연속성 학습 모델(1330), 음성 인식 결과 이력 데이터베이스(1350), 및 출력부(1500)를 포함할 수 있다. 도 1에는 디바이스(1000a)의 동작을 설명하기 위한 필수적인 구성 요소만 도시되었다. 디바이스(1000a)가 포함하고 있는 구성이 도 1에 도시된 바와 같이 한정되는 것은 아니다.

디바이스(1000a)는 사용자로부터 음성 입력을 수신할 수 있다. 일 실시예에서, 디바이스(1000a)는 마이크로폰과 같은 음성 입력부(1100, 도 4 참조)를 이용하여, 사용자로부터 음성 입력(예를 들어, 사용자의 발화)을 수신하고, 수신된 음성 입력으로부터 음성 신호를 획득할 수 있다. 음성 신호는 웨이브 파일(wave file) 형태일 수 있으나, 이에 한정되지 않는다. 도 1에 도시된 실시예에서, 디바이스(1000a)는 "Play music with Melon application"이라는 사용자의 발화에 관한 음성 신호를 수신할 수 있다.

ASR 모델(1310)은 사용자의 음성을 인식하는 음성 인식 모델로서, 사용자로부터 수신된 음성 신호를 텍스트로 변환하여 출력하도록 학습된 모델이다. 일 실시예에서, ASR 모델(1310)은 음향 모델, 발음 사전 및 언어 모델을 포함하는 인공지능 모델일 수 있다. 그러나, 이에 한정되지 않고, ASR 모델(1310)은 발음 사전 및 언어 모델을 별도로 포함하지 않고 통합된 심층 신경망(Deep Neural Network; DNN)을 포함하는 구조를 가지는 종단간(End-to-End) 음성 인식 모델일 수 있다. 종단 간 ASR 방식은, 음성 신호를 문자열 또는 단어 열로 직접 매핑할 수 있도록 훈련된(trained) 심층 신경망을 이용하는 음성 인식 방식이다. 음향 모델 및 언어 모델 등의 다수의 모델들을 이용하는 다른 음성 인식 방식과는 달리, 종단 간 ASR 방식은 하나의 훈련된 심층 신경망을 이용함으로써 음성 인식 과정을 단순화할 수 있다. 종단 간 ASR 모델(1310)의 하위 실시예로는, 예를 들어 RNN-T 모델, 및 CTC 모델(Connectionist Temporal Classification) 등이 존재한다.

디바이스(1000a)는 ASR 모델(1310)과 관련된 명령어(instructions) 또는 프로그램 코드를 이용하여, 음성 신호를 텍스트로 변환할 수 있다. 일 실시예에서, ASR 모델(1310)은 음성 신호를 프레임(frame) 단위로 동기화된 복수의 문자열을 포함하는 텍스트로 변환할 수 있다. 여기서, '프레임'은 음성 신호의 처리를 위하여 음성 신호가 일정한 시간 간격으로 분할되는 단위, 또는 분할된 음성 신호 그 자체를 의미한다. '프레임 동기화된 문자열'이란, 음성 신호가 ASR 모델(1310)에 의해 문자열로 변환되어 출력됨에 있어서, 음성 신호의 프레임들 각각에 개별적으로 대응하는 문자들을 포함하는 문자열을 의미한다.

ASR 모델(1310)은 음성 신호가 프레임 동기화된 복수의 문자열로 예측될 수 있는 확률 값을 나타내는 신뢰도(confidence score)에 기초하여, 복수의 문자열을 포함하는 적어도 하나의 텍스트 후보를 출력할 수 있다. '문자열의 신뢰도'는 소정 문자열을 출력한 ASR 모델(1310)이 음성 신호를 얼마나 정확하게 인식하였는지의 정도를 나타낸다. 예를 들어, 문자열의 신뢰도는 소정 문자열로부터 획득되는 가능도(likelihood), 소정 문자열을 추정하는 과정에서 출력되는 부분 가능도 또는 사후 확률 값 등에 기초하여 기설정된 수학식에 따라 산출될 수 있다. 일 실시예에서, ASR 모델(1310)에 의해 음성 신호를 인식함으로써 출력된 적어도 하나의 텍스트 후보는 기설정된 임계치를 초과하는 신뢰도를 갖는 N-Best 후보일 수 있다. 예를 들어, 적어도 하나의 텍스트 후보는 "Play music with Mellong application"의 문자열을 포함하는 제1 텍스트 후보, "Play music with Merong application"의 문자열을 포함하는 제2 텍스트 후보, 및 "Play music with Melon application"의 문자열을 포함하는 제3 텍스트 후보를 포함하는 총 3개일 수 있다. 또한, 예를 들어 제1 텍스트 후보의 신뢰도 값은 3.45이고, 제2 텍스트 후보의 신뢰도 값은 3.44이며, 제3 텍스트 후보의 신뢰도 값은 3.41일 수 있다. 그러나, 이는 설명의 편의를 위한 예시일 뿐, 이에 한정되는 것은 아니다. 적어도 하나의 텍스트 후보는 신뢰도 값에 따라 우선 순위가 결정될 수 있다. 예를 들어, 제1 텍스트 후보의 신뢰도 값이 3.45이므로, ASR 모델(1310)은 제1 텍스트 후보를 사용자로부터 수신된 음성 입력에 대응되는 텍스트로서 결정할 수 있다.

ASR 모델(1310)은 음성 신호로부터 변환되어 출력된 적어도 하나의 텍스트 후보를 연속성 학습 모델(1330)에 제공한다.

연속성 학습 모델(1330)은 사용자로부터 수신된 음성 신호 및 ASR 모델(1310)로부터 수신한 적어도 하나의 텍스트 후보를 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 음성 인식 결과 이력 정보와 각각 비교함으로써, 음성 신호에 대응하는 텍스트를 결정하도록 학습(training)된 모델이다. 연속성 학습 모델(1330)은 이력 정보 추출 모듈(1332) 및 가중치 학습 모듈(1334)을 포함할 수 있다.

이력 정보 추출 모듈(1332)은 사용자로부터 수신된 음성 신호를 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 음성 신호와 비교하고, 비교 결과에 기초하여, 음성 신호에 대응되어 기 변환된 텍스트 이력 정보를 추출하도록 구성되는 모듈이다.

음성 인식 결과 이력 데이터베이스(1350)는, 사용자로부터 음성 입력이 수신되는 시점 이전에 기 획득된 음성 신호 및 음성 신호를 변환하여 획득한 텍스트의 이력 정보를 저장하는 데이터베이스이다. 일 실시예에서, 음성 인식 결과 이력 데이터베이스(1350)에는 과거의 시점에 수신된 복수의 음성 신호(1352-1 내지 1352-n) 및 ASR 모델(1310)을 이용한 학습을 통해 복수의 음성 신호(1352-1 내지 1352-n) 각각을 변환함으로써 출력된 복수의 텍스트 이력 정보(1354-1 내지 1354-n)가 저장되어 있을 수 있다. 일 실시예에서, 복수의 음성 신호(1352-1 내지 1352-n)는 대응되는 복수의 텍스트 이력 정보(1354-1 내지 1354-n)와 페어링(pairing)되어 음성 인식 결과 이력 데이터베이스(1350)에 저장될 수 있다.

복수의 음성 신호(1352-1 내지 1352-n)는 웨이브 파일(wave file) 형태일 수 있다. 그러나, 이에 한정되지 않고, 음성 신호는 이진 형태로 인코딩된 바이너리 데이터(binary data) 파일 형태로 음성 인식 결과 이력 데이터베이스(1350)에 저장될 수 있다.

일 실시예에서, 디바이스(1000a)가 사용자 전용이거나, 또는 한정된 사용자만이 사용 가능한 단말인 경우, 복수의 텍스트 이력 정보(1354-1 내지 1354-n)는 디바이스(1000a)의 사용자가 과거 시점에 발화하였던 음성 입력으로부터의 획득된 복수의 음성 신호(1352-1 내지 1352-n) 각각을 ASR 모델(1310)을 이용하여 텍스트로 변환한 이력 정보일 수 있다. 이 경우, 음성 인식 결과 이력 데이터베이스(1350)는 디바이스(1000a)의 사용자의 언어 특성, 예를 들어 나이, 성별, 발음(예컨대, 영어의 경우 영국 영어, 미국 영어, 호주 영어 등), 억양, 사투리 등에 기초하여 커스터마이즈(customized)되고, 개인화된(personalized) 언어 사전(dictionary)의 기능 또는 동작을 수행할 수 있다.

이력 정보 추출 모듈(1332)은 사용자로부터 수신된 음성 신호와 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 음성 신호(1352-1 내지 1352-n) 간의 유사도(similarity)를 측정할 수 있다. 일 실시예에서, 이력 정보 추출 모듈(1332)은 코사인 유사도(cosine similarity) 측정 방법을 이용하여 사용자로부터 수신된 음성 신호와 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 음성 신호(1352-1 내지 1352-n) 간의 유사도를 측정할 수 있다. 그러나, 이에 한정되는 것은 아니고, 이력 정보 추출 모듈(1332)은 공지된 유사도 측정 알고리즘 또는 방법을 이용하여 사용자로부터 수신된 음성 신호와 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 음성 신호(1352-1 내지 1352-n) 간의 유사도를 측정할 수 있다.

이력 정보 추출 모듈(1332)은 복수의 음성 신호(1352-1 내지 1352-n) 중 측정된 유사도가 기설정된 임계치를 초과하는 음성 신호를 식별하며, 식별된 음성 신호에 대응되는 텍스트 이력 정보를 추출할 수 있다. 예를 들어, 이력 정보 추출 모듈(1332)는 사용자로부터 수신된 음성 신호인 "Play music with Melon application"의 음성 신호와 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 음성 신호(1352-1 내지 1352-n) 간의 유사도를 측정하고, 측정된 유사도가 기설정된 임계치를 초과하는 제2 음성 신호(1352-2)를 식별할 수 있다. 이력 정보 추출 모듈(1332)은 음성 인식 결과 이력 데이터베이스(1350)로부터, 제2 음성 신호(1352-2)와 쌍(pair)을 형성하는 제2 텍스트 이력 정보(1354-2)를 추출할 수 있다. 제2 텍스트 이력 정보(1354-2)는 과거 시점에 사용자의 제2 음성 신호(1352-2)를 인식함으로써 변환된 출력 텍스트로서, 예를 들어, "Play music with Melon application"의 문자열을 포함할 수 있다.

이력 정보 추출 모듈(1332)은 ASR 모델(1310)로부터 수신된 적어도 하나의 텍스트 후보와 음성 인식 결과 이력 데이터베이스(1350)로부터 추출된 텍스트 이력 정보를 비교함으로써, 동일 여부를 판단할 수 있다. ASR 모델(1310)로부터 출력된 적어도 하나의 텍스트 후보와 음성 인식 결과 이력 데이터베이스(1350)로부터 추출된 텍스트 이력 정보가 동일하지 않은 경우, 이력 정보 추출 모듈(1332)은 적어도 하나의 텍스트 후보 및 추출된 텍스트 이력 정보를 가중치 학습 모듈(1334)에 제공할 수 있다.

가중치 학습 모듈(1334)은 음성 인식 결과 이력 데이터베이스(1350)로부터 추출된 텍스트 이력 정보를 이용하여, 사용자로부터 수신된 음성 입력에 대응되는 텍스트를 결정하는 가중치를 학습(training)하도록 구성되는 모듈이다. 일 실시예에서, 가중치 학습 모듈(1334)은 음성 신호를 입력받고, 텍스트를 출력 하며, 복수의 신경망 레이어들을 포함하는 심층 신경망 모델로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 가중치 학습 모듈(1334)은 예를 들어, 컨볼루션 신경망 모델(Convolutional Neural Network; CNN), 재귀적 신경망 모델(Recurrent Neural Network; RNN), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 중 적어도 하나로 구성될 수 있으나, 전술한 예시로 한정되는 것은 아니다. 일 실시예에서, 가중치 학습 모듈(1334)은 이력 정보 추출 모듈(1332)에 의해 추출된 텍스트 이력 정보를 사용자로부터 수신된 음성 입력에 관한 정답값(groundtruth)으로 결정하여 가중치를 높게 부가하는 학습을 수행할 수 있다. 가중치 학습 모듈(1334)은 추출된 텍스트 이력 정보를 이용하여 ASR 모델(1310)의 출력 텍스트를 결정함으로써, ASR 모델(1310)의 출력을 업데이트(update)할 수 있다.

예를 들어, 가중치 학습 모듈(1334)은 이력 정보 추출 모듈(1332)로부터 추출된 제2 텍스트 이력 정보(1354-2)에 가중치를 높게 부가하는 학습을 통해 적어도 하나의 텍스트 후보 중 제2 텍스트 이력 정보(1354-2)와 동일한 제3 텍스트 후보를 음성 입력에 대응되는 텍스트로서 결정할 수 있다. 제3 텍스트 후보는 신뢰도 값이 3.41로서, 제1 텍스트 후보 및 제2 텍스트 후보의 신뢰도 값 보다 낮지만, 가중치 학습 모듈(1334)에 의한 학습 결과에 따라 음성 입력에 대응되는 텍스트로 결정될 수 있다.

가중치 학습 모듈(1334)은 결정된 텍스트를 출력부(1500)에 제공한다. 출력부(1500)는 디스플레이부(1510, 도 4 참조) 및 스피커(1520, 도 4 참조)를 포함하고, 가중치 학습 모듈(1334)로부터 수신된 텍스트를 사용자 인터페이스(User Interface) 또는 음향 신호로서 출력할 수 있다.

디바이스(1000a)에 의해 수행되는 음성 인식에서, ASR 모델(1310)과 같은 음성 인식 모델은 성능 향상을 위해 주기적으로 외부 서버로부터 업데이트된다. 음성 인식 모델이 업데이트 되는 경우, 사용자들은 기존과 같이 발음하더라도 음성 인식 모델이 기존과 다르게 이해하거나, 기존과 다른 동작 또는 기능을 수행하는 문제점이 발생될 수 있다. 사용자들은 음성 인식 모델의 성능이 업데이트되더라도, 기존의 자신의 목소리, 발음, 억양, 사투리 등을 그대로 학습하여 이해하고, 동작하며, 답변해주기를 원한다.

본 개시의 일 실시예에 따른 디바이스(1000a)는, 사용자의 기존 음성 신호 및 인식 결과 이력 정보를 음성 인식 결과 이력 데이터베이스(1350)에 저장하고, ASR 모델(1310)의 출력 텍스트 후보를 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 인식 결과 이력 정보와 비교하고, 음성 입력에 대응되는 텍스트 이력 정보를 추출하고, 추출된 텍스트 이력 정보를 이용하여 가중치를 조정(adjust)하는 학습을 통해 음성 입력에 관한 텍스트를 출력할 수 있다. 따라서 본 개시의 디바이스(1000a)는, ASR 모델(1310)의 성능이 업데이트되는 경우에도 사용자의 기존 발음, 억양, 사투리, 성별에 따른 목소리 등을 인식하고, 인식 결과를 제공하는바, 연속성(continuity)을 유지하는 사용자 경험을 제공할 수 있다. 또한, 본 개시의 디바이스(1000a)는 사용자의 기존 발음, 억양, 사투리, 성별에 따른 목소리 등을 인식하여 기 획득된 텍스트 이력 정보를 음성 인식 결과 이력 데이터베이스(1350)에 저장하고, 저장된 텍스트 이력 정보를 이용하여 사용자의 음성 입력에 대응되는 텍스트를 결정하는 가중치를 학습하는바, 음성 인식의 정확도를 향상시킬 수 있다.

도 2는 본 개시의 일 실시예에 따른 디바이스(1000b)가 사용자의 음성 입력을 인식하고, 음성 인식 결과를 출력하는 동작을 도시한 도면이다.

도 2를 참조하면, 디바이스(1000b)는 ASR 모델(1310), 자연어 이해 모델(NLU 모델)(1320), 제1 연속성 학습 모델(1330), 제2 연속성 학습 모델(1340), 제1 음성 인식 결과 이력 데이터베이스(1350), 제2 음성 인식 결과 이력 데이터베이스(1360), 및 출력부(1500)를 포함할 수 있다. 도 2에는 디바이스(1000b)의 동작을 설명하기 위한 필수적인 구성 요소만 도시되었다. 디바이스(1000b)가 포함하고 있는 구성이 도 2에 도시된 바와 같이 한정되는 것은 아니다.

도 2에 도시된 ASR 모델(1310), 제1 연속성 학습 모델(1330) 및 제1 음성 인식 결과 이력 데이터베이스(1350)는 도 1에 도시된 ASR 모델(1310), 연속성 학습 모델(1330) 및 음성 인식 결과 이력 데이터베이스(1350)와 각각 동일한 바, 중복되는 설명은 생략한다.

자연어 이해 모델(Natural Language Understanding; NLU 모델)(1320)은 제1 연속성 학습 모델(1330)로부터 수신된 텍스트를 해석함으로써, 텍스트 해석 결과 정보를 획득하도록 학습된 모델이다. 텍스트 해석 결과 정보는, 텍스트를 해석함으로써 검출되는 도메인(domain), 인텐트(intent), 및 슬롯(slot)에 관한 정보를 포함할 수 있다. 자연어 이해 모델(1320)에 입력되는 텍스트는 사용자로부터 수신된 음성 입력에 대응되는 텍스트일 수 있다.

자연어 이해 모델(1320)은 텍스트를 해석함으로써, 적어도 하나의 텍스트 해석 결과 후보를 출력할 수 있다. 일 실시예에서, 적어도 하나의 텍스트 해석 결과 후보는, 자연어 이해 모델(1320)을 이용하여 텍스트를 해석함으로써 텍스트로부터 예측되는 적어도 하나의 도메인 후보, 적어도 하나의 인텐트 후보, 및 적어도 하나의 슬롯 후보를 포함할 수 있다. 예를 들어, 자연어 이해 모델(1320)은 텍스트를 해석함으로써 식별되는 사용자의 의도와 관련되는 카테고리 또는 영역이 특정 도메인으로 예측되는 확률값에 기초하여 적어도 하나의 도메인 후보를 출력할 수 있다. 다른 예를 들어, 자연어 이해 모델(1320)은 텍스트를 해석함으로써 사용자의 발화 의도를 나타내는 정보가 특정 인텐트로 예측되는 확률값에 기초하여 적어도 하나의 인텐트 후보를 출력할 수 있다. 또한, 자연어 이해 모델(1320)은 텍스트를 해석함으로써, 검출된 개체명(named entity)이 특정 슬롯으로 예측되는 확률값에 기초하여 적어도 하나의 슬롯 후보를 출력할 수 있다. 텍스트로부터 검출된 슬롯이 복수 개인 경우, 자연어 이해 모델(1320)은 복수 개의 슬롯 각각에 관한 적어도 하나의 슬롯 후보를 출력할 수 있다. 여기서, '확률값'은 신뢰도 값(confidence score)을 의미할 수 있다. 일 실시예에서, 자연어 이해 모델(1320)에 의해 텍스트를 해석함으로써 출력된 적어도 하나의 텍스트 해석 결과 후보는 기설정된 임계치를 초과하는 신뢰도를 갖는 N-Best 후보일 수 있다.

제2 연속성 학습 모델(1340)은 텍스트 및 자연어 이해 모델(1320)로부터 수신된 적어도 하나의 텍스트 해석 결과 후보를 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 음성 인식 결과 이력 정보와 각각 비교함으로써, 텍스트에 대응하는 텍스트 해석 결과 정보를 결정하도록 학습(training)된 모델이다. 제2 연속성 학습 모델(1340)은 이력 정보 추출 모듈(1342) 및 가중치 학습 모듈(1344)을 포함할 수 있다.

이력 정보 추출 모듈(1342)은 제1 연속성 학습 모델(1330)로부터 수신된 텍스트를 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트(1362-1 내지 1362-n)와 비교하고, 비교 결과에 기초하여 텍스트와 관련하여 기 획득된 텍스트 해석 이력 정보를 추출하도록 구성되는 모듈이다.

제2 음성 인식 결과 이력 데이터베이스(1360)는, 사용자로부터 음성 입력이 수신되는 시점 이전에 ASR 모델(1310)로부터 출력되어 기 획득된 텍스트 및 기 획득된 텍스트를 해석함으로써 검출된 텍스트 해석 이력 정보를 저장하는 데이터베이스이다. 텍스트 해석 이력 정보는, 텍스트를 해석함으로써 검출된 도메인, 인텐트 및 슬롯에 관한 이력 정보를 포함할 수 있다. 일 실시예에서, 제2 음성 인식 결과 이력 데이터베이스(1360)에는 과거의 시점에 획득된 복수의 텍스트(1362-1 내지 1362-n) 및 자연어 이해 모델(1320)을 이용하여 복수의 텍스트(1362-1 내지 1362-n) 각각을 해석함으로써 검출된 복수의 텍스트 해석 이력 정보(1364-1 내지 1364-n)가 저장될 수 있다. 일 실시예에서, 복수의 텍스트(1362-1 내지 1362-n)는 관련되는 복수의 텍스트 해석 이력 정보(1364-1 내지 1364-n)와 페어링(pairing)되어 제2 음성 인식 결과 이력 데이터베이스(1360)에 저장될 수 있다.

이력 정보 추출 모듈(1342)은 제1 연속성 학습 모델(1330)로부터 수신된 텍스트와 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트(1362-1 내지 1362-n) 간의 유사도(similarity)를 측정할 수 있다. 일 실시예에서, 이력 정보 추출 모듈(1342)은 코사인 유사도(cosine similarity) 측정 방법을 이용하여 제1 연속성 학습 모델(1330)로부터 수신된 텍스트와 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트(1362-1 내지 1362-n) 간의 유사도를 측정할 수 있다. 그러나, 이에 한정되는 것은 아니고, 이력 정보 추출 모듈(1342)은 자카드 유사도(Jaccard similarity), 유클리디언 유사도(Euclidean similarity), 또는 맨하탄 유사도(Manhattan similarity) 측정 방식 또는 알고리즘을 이용하여, 제1 연속성 학습 모델(1330)로부터 수신된 텍스트와 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트(1362-1 내지 1362-n) 간의 유사도를 측정할 수 있다.

이력 정보 추출 모듈(1342)은 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트(1362-1 내지 1362-n) 중 측정된 유사도가 기설정된 임계치를 초과하는 텍스트를 식별할 수 있다. 이력 정보 추출 모듈(1342)은 제2 음성 인식 결과 이력 데이터베이스(1360)로부터, 식별된 텍스트와 쌍(pair)을 형성하는 텍스트 해석 이력 정보를 추출할 수 있다. 예를 들어, 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트(1362-1 내지 1362-n) 중 제1 연속성 학습 모델(1330)로부터 출력된 텍스트와의 유사도가 기설정된 임계치를 초과한 것으로 식별된 텍스트가 제2 텍스트(1362-2)인 경우, 이력 정보 추출 모듈(1342)은 제2 텍스트(1362-2)를 해석함으로써 획득된 제2 텍스트 해석 이력 정보(1364-2)를 추출할 수 있다.

이력 정보 추출 모듈(1342)은 자연어 이해 모델(1320)로부터 출력된 적어도 하나의 텍스트 해석 결과 후보와 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 텍스트 해석 이력 정보를 비교함으로써, 동일 여부를 판단할 수 있다. 일 실시예에서, 이력 정보 추출 모듈(1342)은 텍스트 해석 결과 정보의 종류에 따라 순서대로 동일성을 판단할 수 있다. 예를 들어, 이력 정보 추출 모듈(1342)은 도메인, 인텐트, 슬롯 순서로 적어도 하나의 텍스트 해석 결과 후보와 텍스트 해석 이력 정보 간의 동일성을 판단할 수 있다. 예를 들어, 이력 정보 추출 모듈(1342)은 자연어 이해 모델(1320)로부터 출력된 적어도 하나의 도메인 후보와 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 도메인 이력 정보 간의 동일성을 판단하고, 동일하다고 판단되면 적어도 하나의 인텐트 후보와 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 인텐트 이력 정보 간의 동일성을 판단할 수 있다. 인텐트 간의 동일성 판단이 수행된 이후, 이력 정보 추출 모듈(1342)은 자연어 이해 모델(1320)로부터 출력된 적어도 하나의 슬롯 후보와 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 슬롯 이력 정보 간의 동일성을 판단할 수 있다.

자연어 이해 모델(1320)로부터 출력된 적어도 하나의 텍스트 해석 결과 후보와 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 텍스트 해석 이력 정보가 동일하지 않은 경우, 이력 정보 추출 모듈(1342)은 적어도 하나의 텍스트 해석 결과 후보 및 추출된 텍스트 해석 이력 정보를 가중치 학습 모듈(1344)에 제공할 수 있다.

가중치 학습 모듈(1344)은 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 텍스트 해석 이력 정보를 이용하여, 제1 연속성 학습 모델(1330)으로부터 획득된 텍스트에 대응되는 텍스트 해석 결과 정보를 결정하는 가중치를 학습(training)하도록 구성되는 모듈이다. 일 실시예에서, 가중치 학습 모듈(1344)은 텍스트를 입력받고, 텍스트 해석 결과 정보를 출력하는, 복수의 신경망 레이어들을 포함하는 심층 신경망 모델로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 가중치 학습 모듈(1344)은 예를 들어, 컨볼루션 신경망 모델(Convolutional Neural Network; CNN), 재귀적 신경망 모델(Recurrent Neural Network; RNN), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 중 적어도 하나로 구성될 수 있으나, 전술한 예시로 한정되는 것은 아니다. 일 실시예에서, 가중치 학습 모듈(1344)은 이력 정보 추출 모듈(1342)에 의해 추출된 텍스트 해석 이력 정보를 입력되는 텍스트에 관한 정답값(groundtruth)으로 결정하여 가중치를 높게 부가하는 학습을 수행할 수 있다. 가중치 학습 모듈(1344)은 추출된 텍스트 해석 이력 정보를 이용하여 자연어 이해 모델(1320)로부터 출력되는 텍스트 해석 결과 정보를 결정함으로써, 자연어 이해 모델(1320)의 출력을 업데이트(update)할 수 있다.

가중치 학습 모듈(1344)은 결정된 텍스트 해석 결과 정보를 출력부(1500)에 제공한다. 출력부(1500)는 디스플레이부(1510, 도 4 참조) 및 스피커(1520, 도 4 참조)를 포함하고, 가중치 학습 모듈(1344)로부터 수신된 텍스트 해석 결과 정보를 사용자 인터페이스(User Interface) 또는 음향 신호로서 출력할 수 있다.

본 개시의 일 실시예에 따른 디바이스(1000b)는 과거에 사용자의 발화를 해석한 결과, 예를 들어 음성 신호로부터 검출된 도메인, 인텐트 및 슬롯에 관한 텍스트 해석 이력 정보를 제2 음성 인식 결과 이력 데이터베이스(1360)에 저장하고, 사용자의 음성 입력을 수신되면 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 텍스트 해석 이력 정보를 이용하여 자연어 이해 모델(1320)로부터 출력되는 텍스트 해석 결과 정보를 결정하는 가중치를 조정(adjust)하는 학습을 통해 음성 입력에 대응되는 음성 인식 결과 정보를 제공할 수 있다. 따라서, 도 1에 도시된 디바이스(1000a)가 사용자의 발음, 억양, 사투리, 성별에 따른 목소리 등을 인식하고, 인식된 음성 신호에 관한 텍스트만을 제공하는 반면, 본 개시의 디바이스(1000b)는 텍스트의 해석 결과 정보에 대해서도 과거 시점의 음성 인식 결과와 연속성(continuity)을 유지하는 사용자 경험을 제공할 수 있다.

도 3은 본 개시의 일 실시예에 따른 디바이스(1000c)가 사용자의 음성 입력을 인식하고, 음성 인식 결과를 출력하는 동작을 도시한 도면이다.

도 3을 참조하면, 디바이스(1000c)는 ASR 모델(1310), 자연어 이해 모델(1320), 제3 연속성 학습 모델(1370), 제3 음성 인식 결과 이력 데이터베이스(1380), 및 출력부(1500)를 포함할 수 있다. 도 3에는 디바이스(1000c)의 동작을 설명하기 위한 필수적인 구성 요소만 도시되었다. 디바이스(1000c)가 포함하고 있는 구성이 도 3에 도시된 바와 같이 한정되는 것은 아니다.

도 3에 도시된 ASR 모델(1310) 및 자연어 이해 모델(1320)은 도 2에 도시된 ASR 모델(1310) 및 자연어 이해 모델(1320)과 각각 동일한 바, 중복되는 설명은 생략한다.

도 3에 도시된 디바이스(1000c)는, 도 2에 도시된 디바이스(1000b)와는 달리 자연어 이해 모델(1320)이 ASR 모델(1310)로부터 출력되는 텍스트를 입력받고, 입력받은 텍스트를 해석함으로써 적어도 하나의 텍스트 해석 결과 정보를 출력한다. 즉, 도 3에 도시된 실시예에서는, ASR 모델(1310)과 자연어 이해 모델(1320)이 캐스케이드(cascade) 구조로 연결될 수 있다.

자연어 이해 모델(1320)은 적어도 하나의 텍스트 해석 결과 정보를 연속성 학습 모델(1370)에 제공한다.

제3 연속성 학습 모델(1370)은 사용자로부터 수신된 음성 입력, ASR 모델(1310)에 의해 변환된 텍스트, 및 자연어 이해 모델(1320)에 의해 텍스트를 해석함으로써 출력된 적어도 하나의 텍스트 해석 결과 정보를 제3 음성 인식 결과 이력 데이터베이스(1380)에 기 저장된 음성 인식 결과 이력 정보와 각각 비교함으로써, 음성 입력에 대응되는 텍스트 해석 결과 정보를 결정하도록 학습(training)된 모델이다. 제3 연속성 학습 모델(1370)은 이력 정보 추출 모듈(1372) 및 가중치 학습 모듈(1374)을 포함할 수 있다.

이력 정보 추출 모듈(1372)은 사용자로부터 수신된 음성 입력 및 ASR 모델(1310)로부터 출력된 음성 입력에 대응되는 텍스트를 제3 음성 인식 결과 이력 데이터베이스(1380)에 기 저장된 복수의 음성 신호(1382-1 내지 1382-n) 및 복수의 텍스트(1384-1 내지 1384-n)와 각각 비교하고, 비교 결과에 기초하여 음성 입력 및 텍스트에 대응되어 기 해석된 텍스트 해석 이력 정보를 추출하도록 구성되는 모듈이다.

제3 음성 인식 결과 이력 데이터베이스(1380)는, 사용자로부터 음성 입력이 수신되는 시점 이전에 기 획득된 음성 신호, 음성 신호를 변환하여 획득한 텍스트, 및 텍스트를 해석함으로써 획득된 텍스트 해석 이력 정보를 저장하는 데이터베이스이다. 일 실시예에서, 제3 음성 인식 결과 이력 데이터베이스(1380)에는 과거의 시점에 수신된 복수의 음성 신호(1382-1 내지 1382-n), ASR 모델(1310)에 의해 복수의 음성 신호(1382-1 내지 1382-n)을 변환함으로써 획득된 복수의 텍스트(1384-1 내지 1384-n), 및 자연어 이해 모델(1320)을 이용하여 복수의 텍스트(1384-1 내지 1384-n) 각각을 해석함으로써 획득된 복수의 텍스트 해석 이력 정보(1386-1 내지 1386-n)가 저장될 수 있다. 일 실시예에서, 복수의 음성 신호(1382-1 내지 1382-n), 복수의 텍스트(1384-1 내지 1384-n) 및 복수의 텍스트 해석 이력 정보(1386-1 내지 1386-n)는 관련된 데이터끼리 그룹핑(grouping)되어 제3 음성 인식 결과 이력 데이터베이스(1380)에 저장될 수 있다. 예를 들어, 제1 음성 신호(1382-1), 제1 텍스트(1384-1) 및 제1 텍스트 해석 이력 정보(1386-1)는 제1 그룹을 형성하고, 제2 음성 신호(1382-2), 제2 텍스트(1384-2) 및 제2 텍스트 해석 이력 정보(1386-2)는 제2 그룹을 형성하여 저장될 수 있다.

일 실시예에서, 제3 음성 인식 결과 이력 데이터베이스(1380)는 복수의 음성 신호(1382-1 내지 1382-n)으로부터 복수의 텍스트 해석 이력 정보(1386-1 내지 1386-n) 각각을 획득하는 중간 과정에서 출력되는 데이터를 저장할 수도 있다. 예를 들어, 복수의 음성 신호(1382-1 내지 1382-n)이 복수의 텍스트(1384-1 내지 1384-n)으로 각각 변환되는 과정에서의 특징 벡터(feature vector), 소프트맥스(softmax) 또는 가중치 벡터(weighted vector), 또는 복수의 텍스트(1384-1 내지 1384-n) 각각으로부터 복수의 텍스트 해석 이력 정보(1386-1 내지 1386-n)를 획득하는 과정에서 출력되는 특징 벡터, 소프트맥스 또는 가중치 벡터가 제3 음성 인식 결과 이력 데이터베이스(1380)에 저장될 수 있다.

이력 정보 추출 모듈(1372)은 사용자로부터 수신된 음성 신호와 제3 음성 인식 결과 이력 데이터베이스(1380)에 기 저장된 복수의 음성 신호(1382-1 내지 1382-n) 간의 유사도를 측정함으로써, 음성 신호 유사도를 산출할 수 있다. 이력 정보 추출 모듈(1372)은 ASR 모델(1310)로부터 출력된 텍스트와 제3 음성 인식 결과 이력 데이터베이스(1380)에 기 저장된 복수의 텍스트(1384-1 내지 1384-n) 간의 유사도를 측정함으로써, 텍스트 유사도를 산출할 수 있다. 일 실시예에서, 이력 정보 추출 모듈(1372)은 코사인 유사도(cosine similarity) 측정 방법을 이용하여 음성 신호 간 유사도 및 텍스트 간 유사도를 측정할 수 있다. 그러나, 이에 한정되는 것은 아니고, 이력 정보 추출 모듈(1372)은 예를 들어, 자카드 유사도(Jaccard similarity), 유클리디언 유사도(Euclidean similarity), 또는 맨하탄 유사도(Manhattan similarity) 측정 방식 또는 알고리즘을 이용하여, 음성 신호 간 유사도 및 텍스트 유사도를 측정할 수 있다.

이력 정보 추출 모듈(1372)은 측정된 음성 신호 유사도가 기설정된 제1 임계치를 초과하는 음성 신호 및 텍스트 유사도가 기설정된 제2 임계치를 초과하는 텍스트를 각각 식별하며, 식별된 음성 신호 및 텍스트와 그룹을 형성하는 텍스트 이력 정보를 제3 음성 인식 결과 이력 데이터베이스(1380)로부터 추출할 수 있다. 예를 들어, 제3 음성 인식 결과 이력 데이터베이스(1380)에 기 저장된 복수의 음성 신호(1382-1 내지 1382-n) 중 음성 신호 유사도가 제1 임계치를 초과한 것으로 식별된 음성 신호가 제2 음성 신호(1382-2)이고, 제3 음성 인식 결과 이력 데이터베이스(1380)에 기 저장된 복수의 텍스트(1384-1 내지 1384-n) 중 텍스트 유사도가 제2 임계치를 초과한 것으로 식별된 텍스트가 제2 텍스트(1362-2)인 경우, 이력 정보 추출 모듈(1372)은 제2 음성 신호(1382-2) 및 제2 텍스트(1362-2)와 그룹핑된 제2 텍스트 해석 이력 정보(1364-2)를 추출할 수 있다.

이력 정보 추출 모듈(1372)은 자연어 이해 모델(1320)로부터 출력된 적어도 하나의 텍스트 해석 결과 후보와 제3 음성 인식 결과 이력 데이터베이스(1380)로부터 추출된 텍스트 해석 이력 정보를 비교함으로써, 동일 여부를 판단할 수 있다. 자연어 이해 모델(1320)로부터 출력된 적어도 하나의 텍스트 해석 결과 후보와 제3 음성 인식 결과 이력 데이터베이스(1380)로부터 추출된 텍스트 해석 이력 정보가 동일하지 않은 경우, 이력 정보 추출 모듈(1372)은 적어도 하나의 텍스트 해석 결과 후보 및 추출된 텍스트 해석 이력 정보를 가중치 학습 모듈(1374)에 제공할 수 있다.

가중치 학습 모듈(1374)은 제3 음성 인식 결과 이력 데이터베이스(1380)로부터 추출된 텍스트 해석 이력 정보를 이용하여, 사용자로부터 수신된 음성 입력에 대응되는 텍스트 해석 결과 정보를 결정하는 가중치를 학습(training)하도록 구성되는 모듈이다. 일 실시예에서, 가중치 학습 모듈(1374)은 복수의 신경망 레이어들을 포함하는 심층 신경망 모델로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 가중치 학습 모듈(1374)은 예를 들어, 컨볼루션 신경망 모델(Convolutional Neural Network; CNN), 재귀적 신경망 모델(Recurrent Neural Network; RNN), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 중 적어도 하나로 구성될 수 있으나, 전술한 예시로 한정되는 것은 아니다.

일 실시예에서, 가중치 학습 모듈(1374)은 이력 정보 추출 모듈(1372)에 의해 추출된 텍스트 해석 이력 정보를 사용자로부터 수신된 음성 입력에 관한 정답값(groundtruth)으로 결정하여 가중치를 높게 부가하는 학습을 수행할 수 있다. 가중치 학습 모듈(1374)은 제3 음성 인식 결과 이력 데이터베이스(1380)로부터 추출된 텍스트 해석 이력 정보를 이용하여 음성 입력에 관한 텍스트 해석 결과 정보를 결정함으로써, ASR 모델(1310) 및 자연어 이해 모델(1320)의 출력을 업데이트(update)할 수 있다.

본 개시의 일 실시예에 따른 디바이스(1000c)는 ASR 모델(1310)과 자연어 이해 모델(1320)을 캐스케이드 구조로 연결하고, 하나의 연속성 학습 모델(1370)을 통해 과거에 획득된 음성 신호, 텍스트, 및 텍스트 해석 이력 정보를 이용하여 사용자로부터 수신된 음성 입력에 관한 텍스트 해석 결과 정보를 결정할 수 있다. 도 3에 도시된 실시예에 따른 디바이스(1000c)는, ASR 모델(1310) 및 자연어 이해 모델(1320) 각각에 대하여 별개의 연속성 학습 모델(제1 연속성 학습 모델, 제2 연속성 학습 모델)을 포함하는 도 2의 디바이스(1000b)와는 달리, 하나의 연속성 학습 모델(1370)만을 포함한다. 따라서, 도 3의 실시예에 따른 디바이스(1000c)는, ASR 모델(1310) 및 자연어 이해 모델(1320) 각각의 음성 인식 결과값을 별개로 업데이트하는 경우 발생될 수 있는 에러(error)를 현저하게 감소시킬 수 있다. 또한, 도 3의 실시예에 따른 디바이스(1000c)는, 하나의 연속성 학습 모델(1370)에서의 가중치만을 학습하면 되므로, 학습으로 인하여 소요되는 처리 시간(processing time)을 단축시킬 수 있다.

도 4는 본 개시의 일 실시예에 따른 디바이스(1000)의 구성 요소를 도시한 블록도이다.

디바이스(1000)는 사용자의 음성 입력을 수신하고, 음성 입력을 처리함으로써, 음성 입력을 텍스트로 변환하고, 변환된 텍스트와 관련된 기능 또는 동작을 수행하는 전자 장치이다. 디바이스(1000)는 예를 들어, 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device) 중 적어도 하나로 구성될 수 있다. 그러나, 디바이스(1000)가 전술한 예시로 한정되는 것은 아니다.

디바이스(1000)는 음성 입력부(1100), 프로세서(1200), 메모리(1300), 통신 인터페이스(1400), 및 출력부(1500)를 포함할 수 있다.

음성 입력부(1100)는 사용자로부터 음성 입력을 수신할 수 있다. 일 실시예에서, 음성 입력부(1100)는 마이크로폰을 포함할 수 있다. 음성 입력부(1100)는 마이크로폰을 통해 사용자로부터 음성 입력(예를 들어, 사용자의 발화)을 수신하고, 수신된 음성 입력으로부터 음성 신호를 획득할 수 있다. 일 실시예에서, 디바이스(1000)의 프로세서(1200)는, 마이크로폰을 통해 수신된 소리를 음향 신호로 변환하고, 음향 신호로부터 노이즈(예를 들어, 비음성 성분)를 제거하여 음성 신호를 획득할 수 있다.

도면에는 도시되지 않았지만, 디바이스(1000)는 지정된 음성 입력(예를 들어, '하이 빅스비', '오케이 구글'등과 같은 웨이크 업 입력)을 감지하는 기능 또는 일부 음성 입력으로부터 획득한 음성 신호를 전처리하는 기능을 갖는 음성 전처리 모듈을 포함할 수 있다.

프로세서(1200)는 메모리(1300)에 저장된 프로그램의 하나 이상의 명령어들(instructions)을 실행할 수 있다. 프로세서(1200)는 산술, 로직 및 입출력 연산과 시그널 프로세싱을 수행하는 하드웨어 구성 요소로 구성될 수 있다. 프로세서(1200)는 예를 들어, 중앙 처리 장치(Central Processing Unit), 마이크로 프로세서(microprocessor), 그래픽 프로세서(Graphic Processing Unit), ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), 및 FPGAs(Field Programmable Gate Arrays) 중 적어도 하나로 구성될 수 있으나, 이에 한정되는 것은 아니다.

메모리(1300)에는 음성 입력부(1100)를 통해 수신한 사용자의 음성 입력을 처리하여 텍스트로 변환하고, 변환된 텍스트를 해석함으로써 텍스트 해석 결과 정보를 획득하기 위한 명령어들(instruction)을 포함하는 프로그램이 저장될 수 있다. 메모리(1300)에는 프로세서(1200)가 판독할 수 있는 명령어들 및 프로그램 코드(program code)가 저장될 수 있다. 이하의 실시예에서, 프로세서(1200)는 메모리에 저장된 프로그램의 명령어들 또는 코드들을 실행함으로써 구현될 수 있다.

메모리(1300)에는 ASR 모델(1310), 자연어 이해 모델(1320), 제1 연속성 학습 모델(1330), 제2 연속성 학습 모델(1340), 제1 음성 인식 결과 이력 데이터베이스(1350) 및 제2 음성 인식 결과 이력 데이터베이스(1360) 각각에 대응되는 데이터가 저장되어 있을 수 있다.

메모리(1300)는 예를 들어, 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광 디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

ASR 모델(1310)은 사용자의 음성을 인식하는 음성 인식 모델로서, 사용자로부터 수신된 음성 입력을 텍스트로 변환하여 출력하도록 학습된 모델이다. 일 실시예에서, ASR 모델(1310)은 음향 모델, 발음 사전 및 언어 모델을 포함하는 인공지능 모델일 수 있다. 그러나, 이에 한정되지 않고, ASR 모델(1310)은 발음 사전 및 언어 모델을 별도로 포함하지 않고 통합된 심층 신경망(Deep Neural Network; DNN)을 포함하는 구조를 가지는 종단간(End-to-End) 음성 인식 모델일 수 있다. 종단 간 ASR 방식은, 음성 신호를 문자열 또는 단어 열로 직접 매핑할 수 있도록 훈련된(trained) 심층 신경망을 이용하는 음성 인식 방식이다. 음향 모델 및 언어 모델 등의 다수의 모델들을 이용하는 다른 음성 인식 방식과는 달리, 종단 간 ASR 방식은 하나의 훈련된 심층 신경망을 이용함으로써 음성 인식 과정을 단순화할 수 있다. 종단 간 ASR 모델(1310)의 하위 실시예로는, 예를 들어 RNN-T 모델, 및 CTC 모델(Connectionist Temporal Classification) 등이 존재한다.

프로세서(1200)는 메모리(1300)에 저장된 ASR 모델(1310)에 관한 명령어 또는 프로그램 코드를 이용하여, 음성 입력부(1100)를 통해 수신된 음성 신호를 텍스트로 변환할 수 있다. 일 실시예에서, 프로세서(1200)는 음성 신호가 프레임 동기화된 복수의 문자열로 예측될 수 있는 확률 값을 나타내는 신뢰도(confidence score)에 기초하여, 복수의 문자열을 포함하는 적어도 하나의 텍스트 후보를 획득할 수 있다. '문자열의 신뢰도'는 소정 문자열을 출력한 ASR 모델(1310)이 음성 신호를 얼마나 정확하게 인식하였는지의 정도를 나타낸다. 예를 들어, 문자열의 신뢰도는 소정 문자열로부터 획득되는 가능도(likelihood), 소정 문자열을 추정하는 과정에서 출력되는 부분 가능도 또는 사후 확률 값 등에 기초하여 기설정된 수학식에 따라 산출될 수 있다. 예를 들어, 프로세서(1200)는 비터비(Viterbi) 디코딩 결과 출력되는 가능도(likelihood)에 기초하여 신뢰도를 계산할 수 있다. 다른 예를 들어, 프로세서(1200)는 종단간 ASR 모델(1310)의 경우, 소프트맥스 레이어(softmax layer)로부터 출력되는 사후 확률들(posterior probabilities)에 기초하여 신뢰도를 계산할 수 있다. 또 다른 예를 들어, 프로세서(1200)는 음성 신호에 대한 음성 인식 과정에서 추정되는 복수의 추정 문자열들을 결정하고, 복수의 추정 문자열들의 상관도에 기초하여, 복수의 문자열에 관한 신뢰도를 계산할 수 있다.

일 실시예에서, 프로세서(1200)가 ASR 모델(1310)을 이용하여 음성 신호를 인식함으로써 획득된 적어도 하나의 텍스트 후보는 기설정된 임계치를 초과하는 신뢰도를 갖는 N-Best 후보일 수 있다.

예를 들어, 사용자로부터 수신한 음성 입력이 "Play music with Melon Application"이라는 발화인 경우, 프로세서(1200)는 ASR 모델(1310)을 이용하여 사용자의 발화로부터 추출한 음성 신호로부터 "Play music with Mellong application"의 문자열을 포함하는 제1 텍스트 후보, "Play music with Merong application"의 문자열을 포함하는 제2 텍스트 후보, 및 "Play music with Melon application"의 문자열을 포함하는 제3 텍스트 후보를 포함하는 N-Best 후보를 획득할 수 있다. N-Best 후보 각각은 다른 신뢰도 값을 가질 수 있다. 예를 들어, 제1 텍스트 후보의 신뢰도 값은 3.45이고, 제2 텍스트 후보의 신뢰도 값은 3.44이며, 제3 텍스트 후보의 신뢰도 값은 3.41일 수 있다. 그러나, 이는 설명의 편의를 위한 예시일 뿐, 이에 한정되는 것은 아니다.

제1 연속성 학습 모델(1330)은 사용자로부터 수신된 음성 신호 및 프로세서(1200)에 의해 획득된 적어도 하나의 텍스트 후보, 즉 N-Best 후보를 제1 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 음성 인식 결과 이력 정보와 각각 비교함으로써, 음성 신호에 대응하는 텍스트를 결정하도록 학습(training)된 모델이다. 제1 연속성 학습 모델(1330)은 이력 정보 추출 모듈(1332) 및 가중치 학습 모듈(1334)을 포함할 수 있다.

프로세서(1200)는 이력 정보 추출 모듈(1332)과 관련된 명령어 또는 프로그램 코드를 이용하여, 음성 입력부(1100)를 통해 수신된 음성 신호를 제1 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 음성 신호와 비교하고, 비교 결과에 기초하여 음성 신호에 대응되어 기 변환된 텍스트 이력 정보를 추출할 수 있다.

제1 음성 인식 결과 이력 데이터베이스(1350)는, 사용자로부터 음성 입력이 수신되는 시점 이전에 기 획득된 음성 신호 및 음성 신호를 변환하여 획득한 텍스트의 이력 정보를 저장하는 데이터베이스이다. 제1 음성 인식 결과 이력 데이터베이스(1350)는 도 1에 도시된 음성 인식 결과 이력 데이터베이스(1350)와 동일한 구성 요소인바, 중복되는 설명은 생략한다.

제1 음성 인식 결과 이력 데이터베이스(1350)는 비휘발성 메모리로 구성될 수 있다. 비휘발성 메모리(Non-volatile memory)는 전원이 공급되지 않은 상태에서도 정보를 저장 및 유지하고, 전원이 공급되면 다시 저장된 정보를 사용할 수 있는 기억 매체를 의미한다. 비휘발성 메모리는 예를 들어, 플래시 메모리(flash memory), 하드디스크(hard disk), SSD(Solid State Drive), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 롬(Read Only Memory; ROM), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나를 포함할 수 있다.

도 4에서 제1 음성 인식 결과 이력 데이터베이스(1350)는 디바이스(1000)의 메모리(1300) 내에 포함되는 것으로 도시되었지만, 이에 한정되는 것은 아니다. 일 실시예에서, 제1 음성 인식 결과 이력 데이터베이스(1350)는 메모리(1300)가 아닌, 별개의 구성 요소로서 디바이스(1000)에 포함되거나, 또는 디바이스(1000)에 포함되지 않은 구성 요소로서 통신 인터페이스(1400)를 통해 유무선 통신을 통해 연결될 수도 있다.

일 실시예에서, 프로세서(1200)는 이력 정보 추출 모듈(1332)와 관련된 명령어 또는 프로그램 코드를 이용하여, 음성 입력부(1100)를 통해 입력된 음성 신호와 제1 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 음성 신호 간의 유사도(similarity)를 측정할 수 있다. 일 실시예에서, 프로세서(1200)는 코사인 유사도(cosine similarity) 측정 방법을 이용하여 음성 입력부(1100)를 통해 수신된 음성 신호와 제1 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 음성 신호 간의 유사도를 각각 측정할 수 있다. 그러나, 이에 한정되는 것은 아니고, 프로세서(1200)는 공지의 유사도 측정 알고리즘 또는 방법을 이용하여, 사용자로부터 수신된 음성 신호와 제1 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 음성 신호 간의 유사도를 각각 측정할 수 있다.

일 실시예에서, 프로세서(1200)는 이력 정보 추출 모듈(1332)와 관련된 명령어 또는 프로그램 코드를 이용하여, 음성 입력부(1100)를 통해 획득한 음성 신호와 제1 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 음성 신호 중 측정된 유사도가 기설정된 임계치를 초과하는 음성 신호를 식별하며, 식별된 음성 신호에 대응되는 텍스트 이력 정보를 추출할 수 있다. 예를 들어, 프로세서(1200)는 음성 입력부(1100)를 통해 수신된 사용자의 발화로부터 "Play music with Melon application"의 음성 신호를 획득하고, 획득된 음성 신호와 제1 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 음성 신호 간의 유사도를 각각 측정하며, 측정된 유사도가 기설정된 임계치를 초과하는 음성 신호를 식별할 수 있다. 프로세서(1200)는 제1 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 텍스트 이력 정보 중 식별된 음성 신호와 페어링된 텍스트 이력 정보를 추출할 수 있다. 추출된 텍스트 이력 정보는 예를 들어, "Play music with Melon application"의 문자열을 포함할 수 있다.

프로세서(1200)는 ASR 모델(1310)로부터 획득된 적어도 하나의 텍스트 후보와 제1 음성 인식 결과 이력 데이터베이스(1350)로부터 추출된 텍스트 이력 정보를 비교함으로써, 동일 여부를 판단할 수 있다. ASR 모델(1310)로부터 출력된 적어도 하나의 텍스트 후보와 제1 음성 인식 결과 이력 데이터베이스(1350)로부터 추출된 텍스트 이력 정보가 동일하지 않은 경우, 프로세서(1200)는 적어도 하나의 텍스트 후보 및 추출된 텍스트 이력 정보를 가중치 학습 모듈(1334)에 제공할 수 있다.

가중치 학습 모듈(1334)은 제1 음성 인식 결과 이력 데이터베이스(1350)로부터 추출된 텍스트 이력 정보를 이용하여, 사용자로부터 수신된 음성 입력에 대응되는 텍스트를 결정하는 가중치를 학습(training)하도록 구성되는 모듈이다. 일 실시예에서, 가중치 학습 모듈(1334)은 음성 신호를 입력받고, 텍스트를 출력 하는, 복수의 신경망 레이어들을 포함하는 심층 신경망 모델로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 가중치 학습 모듈(1334)은 예를 들어, 컨볼루션 신경망 모델(Convolutional Neural Network; CNN), 재귀적 신경망 모델(Recurrent Neural Network; RNN), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 중 적어도 하나로 구성될 수 있으나, 전술한 예시로 한정되는 것은 아니다. 일 실시예에서, 가중치 학습 모듈(1334)은 이력 정보 추출 모듈(1332)에 의해 추출된 텍스트 이력 정보를 사용자로부터 수신된 음성 입력에 관한 정답값(groundtruth)으로 결정하여 가중치를 높게 부가하는 학습을 수행할 수 있다.

일 실시예에서, 프로세서(1200)는 가중치 학습 모듈(1334)과 관련된 명령어 또는 프로그램 코드를 이용하여, 제1 음성 인식 결과 이력 데이터베이스(1350)로부터 추출된 텍스트 이력 정보를 이용하여 ASR 모델(1310)의 출력 텍스트를 결정함으로써, ASR 모델(1310)을 업데이트(update)할 수 있다. 예를 들어, 프로세서(1200)는 이력 정보 추출 모듈(1332)을 이용하여 추출된 텍스트 이력 정보에 가중치를 높게 부가하는 학습을 통해 ASR 모델(1310)로부터 획득된 적어도 하나의 텍스트 후보 중 추출된 텍스트 이력 정보와 동일한 제3 텍스트 후보를 음성 입력에 대응되는 텍스트로서 결정할 수 있다. 제3 텍스트 후보는 신뢰도 값이 3.41로서, 제1 텍스트 후보 및 제2 텍스트 후보의 신뢰도 값 보다 낮지만, 가중치 학습 모듈(1334)에 의한 학습 결과에 따라 음성 입력에 대응되는 텍스트로 결정될 수 있다.

제1 연속성 학습 모델(1330)은 결정된 텍스트에 관한 정보를 자연어 이해 모델(1320)에 제공한다.

자연어 이해 모델(1320)은 제1 연속성 학습 모델(1330)로부터 수신된 텍스트를 해석함으로써, 텍스트 해석 결과 정보를 획득하도록 학습된 모델이다. 텍스트 해석 결과 정보는, 텍스트를 해석함으로써 검출되는 도메인(domain), 인텐트(intent), 및 슬롯(slot)에 관한 정보를 포함할 수 있다. 자연어 이해 모델(1320)에 입력되는 텍스트는 음성 입력부(1100)를 통해 사용자로부터 수신된 음성 입력에 대응되는 텍스트일 수 있다.

프로세서(1200)는 자연어 이해 모델(1320)과 관련된 명령어 또는 프로그램 코드를 이용하여 텍스트를 해석함으로써, 적어도 하나의 텍스트 해석 결과 후보를 획득할 수 있다. 일 실시예에서, 적어도 하나의 텍스트 해석 결과 후보는, 자연어 이해 모델(1320)을 이용하여 텍스트를 해석함으로써 텍스트로부터 예측되는 적어도 하나의 도메인 후보, 적어도 하나의 인텐트 후보, 및 적어도 하나의 슬롯 후보를 포함할 수 있다. 예를 들어, 프로세서(1200)은 텍스트를 해석함으로써 식별되는 사용자의 의도와 관련되는 카테고리 또는 영역이 특정 도메인으로 예측되는 확률값에 기초하여 적어도 하나의 도메인 후보를 획득할 수 있다. 다른 예를 들어, 프로세서(1200)는 텍스트를 해석함으로써 사용자의 발화 의도를 나타내는 정보가 특정 인텐트로 예측되는 확률값에 기초하여 적어도 하나의 인텐트 후보를 획득할 수 있다. 또한, 프로세서(1200)는 텍스트를 해석함으로써, 검출된 개체명(named entity)이 특정 슬롯으로 예측되는 확률값에 기초하여 적어도 하나의 슬롯 후보를 획득할 수 있다. 텍스트로부터 검출된 슬롯이 복수 개인 경우, 프로세서(1200)는 복수 개의 슬롯 각각에 관한 적어도 하나의 슬롯 후보를 획득할 수 있다. 여기서, '확률값'은 신뢰도 값(confidence score)을 의미할 수 있다. 일 실시예에서, 프로세서(1200)가 자연어 이해 모델(1320)을 이용하여 텍스트를 해석함으로써 획득한 적어도 하나의 텍스트 해석 결과 후보는 기설정된 임계치를 초과하는 신뢰도를 갖는 N-Best 후보일 수 있다.

예를 들어, 프로세서(1200)가 자연어 이해 모델(1320)을 이용하여 "Play music with Melon application"이라는 텍스트를 해석함으로써 획득한 적어도 하나의 도메인 후보는 '음악'이고, 적어도 하나의 인텐트 후보는 '음악 플레이(play)' 또는 '컨텐트 스트리밍(content streaming)'이며, 적어도 하나의 슬롯 후보는 '멜론 애플리케이션', '과일 멜론', '애플리케이션'일 수 있다. 적어도 하나의 도메인 후보, 적어도 하나의 인텐트 후보, 및 적어도 하나의 슬롯 후보 각각의 신뢰도 값은 다를 수 있다.

프로세서(1200)는 제1 연속성 학습 모델(1330)로부터 획득한 텍스트 및 자연어 이해 모델(1320)을 이용하여 획득한 적어도 하나의 텍스트 해석 결과 후보를 제2 연속성 학습 모델(1340)에 제공할 수 있다. 일 실시예에서, 프로세서(1200)는 제1 연속성 학습 모델(1330)로부터 획득한 텍스트 및 자연어 이해 모델(1320)을 이용하여 획득한 적어도 하나의 텍스트 해석 결과 후보를 출력부(1500)에 제공할 수도 있다.

이력 정보 추출 모듈(1342)은 제1 연속성 학습 모델(1330)로부터 수신된 텍스트를 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트와 비교하고, 비교 결과에 기초하여 텍스트에 대응되어 기 해석된 텍스트 해석 이력 정보를 추출하도록 구성되는 모듈이다.

제2 음성 인식 결과 이력 데이터베이스(1360)는, 사용자로부터 음성 입력이 수신되는 시점 이전에 ASR 모델(1310)로부터 출력되어 기 획득된 텍스트 및 기 획득된 텍스트를 해석함으로써 검출된 텍스트 해석 이력 정보를 저장하는 데이터베이스이다. 제2 음성 인식 결과 이력 데이터베이스(1360)는 도 2에 도시된 제2 음성 인식 결과 이력 데이터베이스(1360)와 동일한 구성 요소인바, 중복되는 설명은 생략한다.

제1 음성 인식 결과 이력 데이터베이스(1350)와 마찬가지로, 제2 음성 인식 결과 이력 데이터베이스(1360)도 비휘발성 메모리로 구성될 수 있다. 비휘발성 메모리에 관한 설명은 제1 음성 인식 결과 이력 데이터베이스(1350)에 관한 설명과 동일한 바, 중복되는 설명은 생략한다. 도 4에 도시된 실시예에서, 제2 음성 인식 결과 이력 데이터베이스(1360)는 디바이스(1000)의 메모리(1300) 내에 포함되는 것으로 도시되었지만, 이에 한정되는 것은 아니다. 일 실시예에서, 제2 음성 인식 결과 이력 데이터베이스(1360)는 메모리(1300)가 아닌, 별개의 구성 요소로서 디바이스(1000)에 포함되거나, 또는 디바이스(1000)에 포함되지 않은 구성 요소로서 통신 인터페이스(1400)를 통해 유무선 통신을 통해 연결될 수도 있다.

일 실시예에서, 프로세서(1200)는 이력 정보 추출 모듈(1342)과 관련된 명령어 또는 프로그램 코드를 이용하여, 제1 연속성 학습 모델(1330)로부터 수신된 텍스트와 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트 간의 유사도(similarity)를 각각 측정할 수 있다. 일 실시예에서, 프로세서(1200)는 코사인 유사도(cosine similarity) 측정 방법을 이용하여 제1 연속성 학습 모델(1330)로부터 수신된 텍스트와 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트 간의 유사도를 각각 측정할 수 있다. 그러나, 이에 한정되는 것은 아니고, 프로세서(1200)는 예를 들어, 자카드 유사도(Jaccard similarity), 유클리디언 유사도(Euclidean similarity), 또는 맨하탄 유사도(Manhattan similarity) 측정 방식 또는 알고리즘을 이용하여, 제1 연속성 학습 모델(1330)로부터 수신된 텍스트와 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트 간의 유사도를 각각 측정할 수 있다.

일 실시예에서, 프로세서(1200)는 이력 정보 추출 모듈(1342)과 관련된 명령어 또는 프로그램 코드를 이용하여, 제2 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트 중 측정된 유사도가 기설정된 임계치를 초과하는 텍스트를 식별하고, 식별된 텍스트에 대응되는 텍스트 해석 이력 정보를 추출할 수 있다. 일 실시예에서, 프로세서(1200)는 제2 음성 인식 결과 이력 데이터베이스(1360)로부터, 식별된 텍스트와 페어링된 텍스트 해석 이력 정보를 추출할 수 있다. 예를 들어, 프로세서(1200)는 식별된 텍스트가 "Play music with Melon application"인 경우, 텍스트와 페어링된 텍스트 해석 이력 정보로서 '음악' 도메인, '음악 플레이'라는 인텐트, 및 '멜론 애플리케이션'이라는 슬롯 정보를 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출할 수 있다.

일 실시예에서, 프로세서(1200)는 자연어 이해 모델(1320)을 이용하여 획득된 적어도 하나의 텍스트 해석 결과 후보와 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 텍스트 해석 이력 정보를 비교함으로써, 동일 여부를 판단할 수 있다. 일 실시예에서, 프로세서(1200)는 텍스트 해석 결과 정보의 종류에 따라 순서대로 동일성을 판단할 수 있다. 예를 들어, 프로세서(1200)는 도메인, 인텐트, 슬롯 순서로 적어도 하나의 텍스트 해석 결과 후보와 텍스트 해석 이력 정보 간의 동일성을 판단할 수 있다. 예를 들어, 프로세서(1200)는 자연어 이해 모델(1320)을 이용하여 획득한 도메인 후보인 '음악'을 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 도메인 이력 정보인 '음악' 간의 동일성을 판단하고, 동일하다고 판단되면 적어도 하나의 인텐트 후보인 '음악 플레이' 및 '컨텐트 스트리밍'과 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 인텐트 이력 정보인 '음악 플레이' 간의 동일성을 판단할 수 있다. 인텐트 간의 동일성 판단이 수행된 이후, 프로세서(1200)는 자연어 이해 모델(1320)로부터 출력된 적어도 하나의 슬롯 후보인 ‘멜론 애플리케이션’, ‘과일 멜론’ 또는 '애플리케이션'과 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 슬롯 이력 정보인 '멜론 애플리케이션' 간의 동일성을 판단할 수 있다.

자연어 이해 모델(1320)로부터 출력된 적어도 하나의 텍스트 해석 결과 후보와 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 텍스트 해석 이력 정보가 동일하지 않은 경우, 프로세서(1200)는 적어도 하나의 텍스트 해석 결과 후보 및 추출된 텍스트 해석 이력 정보를 가중치 학습 모듈(1344)에 제공할 수 있다.

가중치 학습 모듈(1344)은 제2 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 텍스트 해석 이력 정보를 이용하여, 제1 연속성 학습 모델(1330)으로부터 획득된 텍스트에 대응되는 텍스트 해석 결과 정보를 결정하는 가중치를 학습(training)하도록 구성되는 모듈이다. 일 실시예에서, 가중치 학습 모듈(1344)은 텍스트를 입력받고, 텍스트 해석 결과 정보를 출력하는, 복수의 신경망 레이어들을 포함하는 심층 신경망 모델로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 가중치 학습 모듈(1344)은 예를 들어, 컨볼루션 신경망 모델(Convolutional Neural Network; CNN), 재귀적 신경망 모델(Recurrent Neural Network; RNN), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 중 적어도 하나로 구성될 수 있으나, 전술한 예시로 한정되는 것은 아니다.

일 실시예에서, 프로세서(1200)는 가중치 학습 모듈(1344)과 관련된 명령어 또는 프로그램 코드를 이용하여, 이력 정보 추출 모듈(1342)에 의해 추출된 텍스트 해석 이력 정보를 텍스트에 관한 정답값(groundtruth)으로 결정하여 가중치를 높게 부가하는 학습을 수행할 수 있다. 프로세서(1200)는 추출된 텍스트 해석 이력 정보를 이용하여 자연어 이해 모델(1320)로부터 출력되는 텍스트 해석 결과 정보를 결정함으로써, 자연어 이해 모델(1320)을 업데이트(update)할 수 있다. 예를 들어, 프로세서(1200)는 "Play music with Melon application"이라는 텍스트에 관한 정답값을 '음악' 도메인, '음악 플레이'라는 인텐트, 및 '멜론 애플리케이션'이라는 슬롯으로 결정하고, 결정된 정답값에 가중치를 높게 부여하는 학습을 통해 자연어 이해 모델(1320)의 출력 정보, 즉 텍스트 해석 결과 정보를 사용 이력에 기초하여 업데이트할 수 있다.

프로세서(1200)는, 결정된 텍스트 해석 결과 정보를 출력부(1500)에 제공할 수 있다.

통신 인터페이스(1400)는 서버 또는 타 디바이스와 데이터 통신을 수행할 수 있다. 통신 인터페이스(1400)는 예를 들어, 유선 랜, 무선 랜(Wireless LAN), 와이파이(Wi-Fi), 블루투스(Bluetooth), 지그비(zigbee), WFD(Wi-Fi Direct), 적외선 통신(IrDA, infrared Data Association), BLE (Bluetooth Low Energy), NFC(Near Field Communication), 와이브로(Wireless Broadband Internet, Wibro), 와이맥스(World Interoperability for Microwave Access, WiMAX), SWAP(Shared Wireless Access Protocol), 와이기그(Wireless Gigabit Allicance, WiGig) 및 RF 통신을 포함하는 데이터 통신 방식 중 적어도 하나를 이용하여 서버 또는 타 디바이스와 데이터를 송수신할 수 있다.

통신 인터페이스(1400)는 프로세서(1200)의 제어에 의해, 서버로부터 ASR 모델 및 자연어 이해 모델(1320) 중 적어도 하나의 음성 인식 모델을 업데이트하는 데이터를 다운로드할 수 있다. 일 실시예에서, 통신 인터페이스(1400)는 프로세서(1200)의 제어에 의해, 제1 연속성 학습 모델(1330)을 통한 ASR 모델(1310)의 업데이트 정보를 서버에 전송할 수 있다. 일 실시예에서, 통신 인터페이스(1400)는 프로세서(1200)의 제어에 의해, 제2 연속성 학습 모델(1340)을 통한 자연어 이해 모델(1320)의 업데이트 정보를 서버에 전송할 수 있다.

출력부(1500)는 음성 입력에 대응되는 텍스트 또는 텍스트 해석 결과 정보를 출력할 수 있다. 출력부(1500)는 음성 인식이 수행된 결과, 즉 텍스트를 사용자에게 알리거나, 또는 외부 디바이스(예를 들어, 스마트 폰, 가전 제품, 웨어러블 디바이스, 서버 등)에게 전송할 수 있다. 출력부(1500)는 디스플레이부(1510) 및 스피커(1520)를 포함할 수 있다.

디스플레이부(1510)는 음성 입력으로부터 변환된 텍스트를 디스플레이할 수 있다. 일 실시예에서, 디스플레이부(1510)는 프로세서(1200)로부터 수신된 텍스트 해석 결과 정보와 관련된 사용자 인터페이스(User Interface)를 디스플레이할 수 있다. 디스플레이부(1510)는 예를 들어, 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나로 구성될 수 있다.

스피커(1520)는 음성 입력으로부터 변환된 텍스트에 대응되는 오디오 신호를 출력할 수 있다. 일 실시예에서, 스피커(1520)는 텍스트 해석 결과 정보에 응답하여 수행되는 동작 또는 기능과 관련되는 오디오 신호를 출력할 수 있다.

도 5는 본 개시의 일 실시예에 따른 디바이스(1000)의 동작 방법을 도시한 흐름도이다.

단계 S510에서, 디바이스(1000)는 사용자로부터 음성 입력을 수신한다. 일 실시예에서, 디바이스(1000)는 마이크로폰과 같은 음성 입력부(1100, 도 4 참조)를 이용하여, 사용자로부터 음성 입력(예를 들어, 사용자의 발화)을 수신하고, 수신된 음성 입력으로부터 음성 신호를 획득할 수 있다. 음성 신호는 웨이브 파일(wave file) 형태일 수 있으나, 이에 한정되지 않는다. 일 실시예에서, 디바이스(1000)는 웨이브 파일을 이진 형태로 인코딩함으로써, 바이너리 데이터 파일로 변환할 수 있다.

단계 S520에서, 디바이스(1000)는 ASR 모델을 이용하여 음성 입력을 인식함으로써, 음성 입력이 변환될 것으로 예측되는 문자열을 포함하는 적어도 하나의 텍스트 후보(text candidates)를 획득한다. 일 실시예에서, 디바이스(1000)는 ASR 모델을 이용하여 음성 신호를 프레임(frame) 단위로 동기화된 복수의 문자열을 포함하는 텍스트로 변환할 수 있다. 여기서, '프레임'은 음성 신호의 처리를 위하여 음성 신호가 일정한 시간 간격으로 분할되는 단위, 또는 분할된 음성 신호 그 자체를 의미한다. '프레임 동기화된 문자열'이란, 음성 신호가 ASR 모델에 의해 문자열로 변환되어 출력됨에 있어서, 음성 신호의 프레임들 각각에 개별적으로 대응하는 문자들을 포함하는 문자열을 의미한다.

디바이스(1000)는 음성 신호가 프레임 동기화된 복수의 문자열로 예측될 수 있는 확률 값을 나타내는 신뢰도(confidence score)에 기초하여, 복수의 문자열을 포함하는 적어도 하나의 텍스트 후보를 출력할 수 있다. '문자열의 신뢰도'는 소정 문자열을 출력한 ASR 모델이 음성 신호를 얼마나 정확하게 인식하였는지의 정도를 나타낸다. 예를 들어, 문자열의 신뢰도는 소정 문자열로부터 획득되는 가능도(likelihood), 소정 문자열을 추정하는 과정에서 출력되는 부분 가능도 또는 사후 확률 값 등에 기초하여 기설정된 수학식에 따라 산출될 수 있다. 일 실시예에서, 디바이스(1000)가 ASR 모델을 이용하여 음성 신호를 인식함으로써 출력된 적어도 하나의 텍스트 후보는 기설정된 임계치를 초과하는 신뢰도를 갖는 N-Best 후보일 수 있다.

단계 S530에서, 디바이스(1000)는 수신된 음성 입력과 데이터베이스에 기 저장된 음성 인식 결과 이력 정보를 비교함으로써, 데이터베이스로부터 음성 입력에 대응되는 텍스트 이력 정보를 추출(extract)한다. 일 실시예에서, 디바이스(1000)는 음성 인식 결과 이력 데이터베이스(1350, 도 4 참조)를 포함할 수 있다. 음성 인식 결과 이력 데이터베이스(1350)에는, 사용자로부터 음성 입력이 수신되는 시점, 즉 단계 S510이 수행되기 이전에 기 획득된 음성 신호 및 음성 신호를 변환하여 획득한 텍스트의 이력 정보가 저장될 수 있다. 일 실시예에서, 음성 인식 결과 이력 데이터베이스(1350)에는 과거의 시점에 수신된 복수의 음성 신호 및 ASR 모델을 이용한 학습을 통해 복수의 음성 신호 각각을 변환함으로써 출력된 복수의 텍스트 이력 정보가 저장되어 있을 수 있다. 일 실시예에서, 복수의 음성 신호는 대응되는 복수의 텍스트 이력 정보와 페어링(pairing)되어 음성 인식 결과 이력 데이터베이스(1350)에 저장될 수 있다.

디바이스(1000)는 단계 S510에서 수신된 음성 입력과 음성 인식 결과 이력 데이터베이스(1350) 내에 기 저장된 복수의 음성 신호 간의 유사도(similarity)를 각각 산출할 수 있다. 일 실시예에서, 디바이스(1000)는 코사인 유사도(cosine similarity) 측정 방법을 이용하여 사용자로부터 수신된 음성 신호와 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 음성 신호 간의 유사도를 측정할 수 있다. 그러나, 이에 한정되는 것은 아니고, 디바이스(1000)는 공지된 유사도 측정 알고리즘 또는 방법을 이용하여 사용자로부터 수신된 음성 신호와 음성 인식 결과 이력 데이터베이스(1350)에 기 저장된 복수의 음성 신호 간의 유사도를 측정할 수 있다.

디바이스(1000)는 복수의 음성 신호 중 산출된 유사도가 기 설정된 임계치를 초과하는 음성 신호를 식별(identify)할 수 있다. 디바이스(1000)는 음성 인식 결과 이력 데이터베이스(1350)에 저장된 복수의 텍스트 이력 정보 중, 식별된 음성 신호와 페어링되어 저장된 텍스트 이력 정보를 추출할 수 있다.

단계 S540에서, 디바이스(1000)는 추출된 텍스트 이력 정보를 이용하여 적어도 하나의 텍스트 후보 각각의 가중치(weight)를 조정(adjust)하는 학습(training)을 수행한다. 일 실시예에서, 디바이스(1000)는 복수의 신경망 레이어들을 포함하는 심층 신경망 모델을 이용하는 학습을 수행할 수 있다. 디바이스(1000)는 예를 들어, 컨볼루션 신경망 모델(Convolutional Neural Network; CNN), 재귀적 신경망 모델(Recurrent Neural Network; RNN), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 중 적어도 하나를 포함하는 심층 신경망 모델을 이용하여 학습을 수행할 수 있다.

심층 신경망 모델에서, 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 일 실시예에서, 디바이스(1000)는 단계 S530에서 추출된 텍스트 이력 정보를 사용자로부터 수신된 음성 입력에 관한 정답값(groundtruth)으로 결정하여 가중치를 높게 부가하는 학습을 수행할 수 있다.

단계 S550에서, 디바이스(1000)는 학습을 통해 ASR 모델을 업데이트(update)한다. 일 실시예에서, 디바이스(1000)는 추출된 텍스트 이력 정보에 가중치를 높게 부여하는 학습을 수행하고, 학습 결과 추출된 텍스트 이력 정보를 사용자로부터 수신된 음성 입력에 관한 텍스트로 결정하도록 ASR 모델을 업데이트할 수 있다.

도 6은 본 개시의 일 실시예에 따른 디바이스(1000)의 동작 방법을 도시한 흐름도이다. 일 실시예에서, 도 6에 도시된 단계 S610은 도 5의 단계 S550이 수행된 이후에 수행될 수 있다. 그러나, 이에 한정되는 것은 아니고, 단계 S610은 도 5에서 수행된 단계들과는 독립적으로 수행될 수 있다.

단계 S610에서, 디바이스(1000)는 업데이트된 ASR 모델을 이용하여 음성 입력을 텍스트로 변환하여 출력한다.

단계 S620에서, 디바이스(1000)는 자연어 이해 모델(Natural Language Understanding; NLU)을 이용하여 출력된 텍스트를 해석함으로써, 적어도 하나의 텍스트 해석 결과 후보를 획득한다. '텍스트 해석 결과 정보'는, 자연어 이해 모델을 이용하여 텍스트를 해석함으로써 검출되는 도메인(domain), 인텐트(intent), 및 슬롯(slot)에 관한 정보를 포함할 수 있다.

일 실시예에서, 디바이스(1000)는 자연어 이해 모델을 이용하여 텍스트를 해석함으로써 텍스트로부터 예측되는 적어도 하나의 도메인 후보, 적어도 하나의 인텐트 후보, 및 적어도 하나의 슬롯 후보를 획득할 수 있다. 예를 들어, 디바이스(1000)는 텍스트를 해석함으로써 식별되는 사용자의 의도와 관련되는 카테고리 또는 영역이 특정 도메인으로 예측되는 확률값에 기초하여 적어도 하나의 도메인 후보를 획득할 수 있다. 다른 예를 들어, 디바이스(1000)는 텍스트를 해석함으로써 사용자의 발화 의도를 나타내는 정보가 특정 인텐트로 예측되는 확률값에 기초하여 적어도 하나의 인텐트 후보를 획득할 수 있다. 또한, 디바이스(1000)는 텍스트를 해석함으로써, 검출된 개체명(named entity)이 특정 슬롯으로 예측되는 확률값에 기초하여 적어도 하나의 슬롯 후보를 획득할 수 있다. 텍스트로부터 검출된 슬롯이 복수 개인 경우, 디바이스(1000)는 복수 개의 슬롯 각각에 관한 적어도 하나의 슬롯 후보를 획득할 수 있다. 여기서, '확률값'은 신뢰도 값(confidence score)을 의미할 수 있다.

일 실시예에서, 디바이스(1000)가 자연어 이해 모델을 이용하여 텍스트를 해석함으로써 획득한 적어도 하나의 텍스트 해석 결과 후보는 기설정된 임계치를 초과하는 신뢰도를 갖는 N-Best 후보일 수 있다.

단계 S630에서, 디바이스(1000)는 획득된 적어도 하나의 텍스트 해석 결과를 데이터베이스에 기 저장된 복수의 텍스트 해석 결과 이력 정보와 비교함으로써, 텍스트에 대응되는 텍스트 해석 이력 정보를 추출(extract)한다. 일 실시예에서, 디바이스(1000)는 음성 인식 결과 이력 데이터베이스(1360, 도 4 참조)를 포함할 수 있다. 음성 인식 결과 이력 데이터베이스(1360)에는, 사용자로부터 음성 입력이 수신되는 시점 이전, 즉 과거 시점에 기 획득된 텍스트 및 기 획득된 텍스트를 해석함으로써 검출된 텍스트 해석 이력 정보를 저장할 수 있다. '텍스트 해석 이력 정보'는, 텍스트를 해석함으로써 검출된 도메인, 인텐트 및 슬롯에 관한 이력 정보를 포함할 수 있다. 일 실시예에서, 음성 인식 결과 이력 데이터베이스(1360)에는 과거의 시점에 획득된 복수의 텍스트 및 자연어 이해 모델을 이용하여 복수의 텍스트 각각을 해석함으로써 검출된 복수의 텍스트 해석 이력 정보가 저장될 수 있다. 일 실시예에서, 복수의 텍스트는 관련되는 복수의 텍스트 해석 이력 정보와 페어링(pairing)되어 음성 인식 결과 이력 데이터베이스(1360)에 저장될 수 있다.

디바이스(1000)는 단계 S610에서 출력된 텍스트와 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트 간의 유사도(similarity)를 각각 산출할 수 있다. 일 실시예에서, 디바이스(1000)는 코사인 유사도(cosine similarity) 측정 방법을 이용하여 단계 S610에서 출력된 텍스트와 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트 간의 유사도를 측정할 수 있다. 그러나, 이에 한정되는 것은 아니고, 디바이스(1000)는 예를 들어, 자카드 유사도(Jaccard similarity), 유클리디언 유사도(Euclidean similarity), 또는 맨하탄 유사도(Manhattan similarity) 측정 방식 또는 알고리즘을 이용하여, 출력된 텍스트와 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트 간의 유사도를 측정할 수 있다.

디바이스(1000)는 음성 인식 결과 이력 데이터베이스(1360)에 기 저장된 복수의 텍스트 중 측정된 유사도가 기설정된 임계치를 초과하는 텍스트를 식별할 수 있다. 디바이스(1000)는 음성 인식 결과 이력 데이터베이스(1360)로부터, 식별된 텍스트와 쌍(pair)을 형성하는 텍스트 해석 이력 정보를 추출할 수 있다.

단계 S640에서, 디바이스(1000)는 추출된 텍스트 해석 이력 정보를 이용하여, 자연어 이해 모델을 통해 텍스트로부터 텍스트 해석 결과 정보를 획득하기 위한 가중치(weight)를 학습(training)한다. 일 실시예에서, 디바이스(1000)는 심층 신경망 모델을 이용하여, 단계 S610에서 출력된 텍스트에 대응되는 텍스트 해석 결과 정보를 결정하는 가중치를 학습할 수 있다. 일 실시예에서, 심층 신경망 모델은 텍스트를 입력받고, 텍스트 해석 결과 정보를 출력하는, 복수의 신경망 레이어들을 포함할 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 심층 신경망 모델은 예를 들어, 컨볼루션 신경망 모델(Convolutional Neural Network; CNN), 재귀적 신경망 모델(Recurrent Neural Network; RNN), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 중 적어도 하나로 구성될 수 있으나, 전술한 예시로 한정되는 것은 아니다.

일 실시예에서, 디바이스(1000)는 심층 신경망 모델을 이용하여, 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 텍스트 해석 이력 정보를 입력되는 텍스트에 관한 정답값(groundtruth)으로 결정하여 가중치를 높게 부가하는 학습을 수행할 수 있다.

단계 S650에서, 디바이스(1000)는 학습을 통해, 자연어 이해 모델을 업데이트(update)한다. 일 실시예에서, 디바이스(1000)는 음성 인식 결과 이력 데이터베이스(1360)로부터 추출된 텍스트 해석 이력 정보를 이용하여, 자연어 이해 모델을 통해 출력되는 텍스트 해석 결과 정보를 결정함으로써, 자연어 이해 모델의 출력을 업데이트할 수 있다.

도 7은 본 개시의 일 실시예에 따른 디바이스(1000) 및 서버(2000)의 동작 방법을 도시한 도면이다.

도 7을 참조하면, 디바이스(1000)는 음성 인식 모델(1300a) 및 연속성 학습 모델(1300b)를 포함할 수 있다. 음성 인식 모델(1300a)은 ASR 모델(1310) 및 자연어 이해 모델(1320)을 포함할 수 있다. ASR 모델(1310) 및 자연어 이해 모델(1320)은 도 4에 도시된 ASR 모델(1310) 및 자연어 이해 모델(1320)과 동일하므로, 중복되는 설명은 생략한다. 연속성 학습 모델(1300b)은 제1 연속성 학습 모델(1330) 및 제2 연속성 학습 모델(1340)을 포함할 수 있다. 제1 연속성 학습 모델(1330) 및 제2 연속성 학습 모델(1340)은 도 4에 도시된 제1 연속성 학습 모델(1330) 및 제2 연속성 학습 모델(1340)과 동일한 바, 중복되는 설명은 생략한다.

서버(2000)는 디바이스(1000)와 유선 또는 무선 통신 방법을 이용하여 데이터를 송수신할 수 있다. 서버(2000)는 음성 인식 모델(2300a)을 포함할 수 있다. 음성 인식 모델(2300a)은 ASR 모델(2310) 및 자연어 이해 모델(2320)을 포함할 수 있다. ASR 모델(2310)은 음성 신호를 텍스트로 변환하도록 학습된 모델이고, 자연어 이해 모델(2320)은 텍스트를 해석함으로서, 텍스트와 관련된 도메인(domain), 인텐트(intent), 및 슬롯(slot)에 관한 정보를 획득하도록 학습된 모델이다.

서버(2000)에 포함된 음성 인식 모델(2300a)은 디바이스(1000)에 포함되는 음성 인식 모델(1300a)과는 달리, 최신 버전(version)으로 업데이트된 상태일 수 있다. ASR 모델(2310)의 최신 버전은, 예를 들어, 가장 최신의 개체명(named entity)에 관한 정보를 포함함으로써, 사용자로부터 입력된 최신 개체명을 텍스트로 변환할 수 있는 버전일 수 있다. 자연어 이해 모델(2320)의 최신 버전은, 예를 들어, 기존에 없었던 신규 음성 명령에 관한 도메인 정보 또는 인텐트 정보를 검출하거나, 또는 신규 음성 명령에 포함되는 신규 개체명을 슬롯 정보로서 검출할 수 있는 버전일 수 있다.

단계 S710에서, 디바이스(1000)는 사용자 계정 정보 및 디바이스 식별 정보(예를 들어, 디바이스 id)를 서버(2000)에 전송한다. 일 실시예에서, 디바이스(1000)는 사용자 계정 정보 및 디바이스 식별 정보 외에, 음성 인식 모델(1300a)의 버전 정보 및 최신 업데이트 정보 중 적어도 하나를 서버(2000)에 전송할 수 있다. 또한, 디바이스(1000)는, 디바이스(1000)의 IP 주소(IP address), 또는 MAC 주소(MAC address)에 관한 정보를 서버(2000)에 전송할 수 있다.

단계 S720에서, 서버(2000)는 사용자 계정 정보 및 디바이스 식별 정보에 기초하여 디바이스(1000)의 음성 인식 모델(1300a)의 업데이트 여부를 확인한다. 일 실시예에서, 서버(2000)는 디바이스(1000)의 음성 인식 모델(1300a)의 버전 정보를 수신하고, 수신된 음성 인식 모델(1300a)의 버전 정보를 서버(2000)의 음성 인식 모델(2300a)의 버전 정보와 비교함으로써, 디바이스(1000)의 음성 인식 모델(1300a)의 업데이트 필요 여부를 확인할 수 있다.

단계 S730에서, 서버(2000)는 음성 인식 모델(1300a)에 관한 최신 버전의 업데이트 데이터를 디바이스(1000)에 전송한다. 서버(2000)는 디바이스 식별 정보에 기초하여 디바이스(1000)의 타입, 모델 명, 또는 기능 등을 식별하고, 식별된 디바이스(1000)와 관련된 음성 인식 모델(1300a)의 업데이트 데이터 파일을 디바이스(1000)에 전송할 수 있다.

단계 S740에서, 디바이스(1000)는 음성 인식 모델(1300a)을 최신 버전으로 업데이트한다. 일 실시예에서, 디바이스(1000)는 서버(2000)로부터 수신된 업데이트 데이터를 이용하여 음성 인식 모델(1300a)에 포함되는 ASR 모델(1310) 및 자연어 이해 모델(1320)을 최신 버전으로 업데이트할 수 있다. 예를 들어, 디바이스(1000)는 서버(2000)로부터 수신한 최신 버전의 ASR 모델(1310)에 관한 데이터를 이용하여 기존 저장되어 있던 ASR 모델(1310)을 덮어쓰기(overwrite) 방식으로 업데이트할 수 있다. 단계 S740을 통해, 디바이스(1000)의 음성 인식 모델(1300a)과 서버(2000)의 음성 인식 모델(2300a)은 동기화(synchronization)될 수 있다.

디바이스(1000)는 음성 인식 모델(1300a)의 업데이트를 통해 추가, 수정, 또는 삭제된 최신 개체명, 신규 명령어 또는 신규 기능에 관한 음성 입력을 텍스트로 변환하고, 텍스트를 해석함으로써, 도메인, 인텐트, 및 슬롯을 포함하는 정보를 검출할 수 있다.

단계 S750에서, 디바이스(1000)는 연속성 학습 모델(1300b)을 이용하여 음성 인식 결과 가중치를 학습한다. 디바이스(1000)의 음성 인식 모델(1300a)이 업데이트되는 경우, 사용자의 음성 입력에 대한 음성 인식, 즉 음성 입력을 텍스트로 변환하고, 변환된 텍스트로부터 도메인, 인텐트, 및 슬롯을 검출하는 동작이 기존과는 달라질 수 있다. 이 경우, 사용자는 기존과 동일한 목소리, 어조, 말투, 발음, 사투리 등을 그대로 사용하여 발화를 하더라도, 업데이트된 음성 인식 모델(1300a)이 기존과 동일하게 인식 결과를 출력할 수 없다. 디바이스(1000)는 연속성 학습 모델(1300b)에 포함된 음성 인식 결과 이력 데이터베이스(1350, 1360, 도 4 참조)에 기 저장된 음성 인식 이력 정보에 가중치를 상대적으로 높게 부여함으로써, 음성 인식 모델(1300a)의 출력을 업데이트하는 학습(training)을 수행할 수 있다. 단계 S750은 도 5 및 도 6에 도시되고, 설명된 동작 방법과 동일하므로, 중복되는 설명은 생략한다.

단계 S760에서, 디바이스(1000)는 학습 결과에 기초하여, 음성 인식 모델(1300a)을 업데이트한다.

도 7에 도시된 실시예에서, 디바이스(1000)는 서버(2000)에 의해 음성 인식 모델(1300a)이 최신 버전으로 업데이트되더라도, 연속성 학습 모델(1300b)을 이용하여 사용자의 발화, 즉 음성 입력에 관한 동일한 음성 인식 결과를 출력할 수 있는바, 연속성(continuity)을 유지하는 사용자 경험을 제공할 수 있다. 특히, 음성 인식 모델(1300a)이 업데이트되더라도, 사용자의 기존 발음, 억양, 어조, 말투, 또는 사투리 등을 인식할 수 있는바, 사용자의 의도에 따른 음성 인식의 정확도를 향상시킬 수 있다.

도 8은 본 개시의 일 실시예에 따른 디바이스(1000) 및 서버(2000)의 동작 방법을 도시한 흐름도이다.

도 8을 참조하면, 디바이스(1000)는 음성 인식 모델(1300a) 및 연속성 학습 모델(1300b)를 포함할 수 있다. 도 8에 도시된 디바이스(1000)는 도 7에 도시된 디바이스(1000)와 동일한 바, 구성 요소에 관한 중복되는 설명은 생략한다.

서버(2000)는 음성 인식 모델(2300a) 및 연속성 학습 모델(2300b)을 포함할 수 있다. 음성 인식 모델(2300a)은 ASR 모델(2310) 및 자연어 이해 모델(2320)을 포함할 수 있다. 음성 인식 모델(2300a)은 도 7에 도시된 음성 인식 모델(2300a, 도 7 참조)와 동일한 바, 중복되는 설명은 생략한다.

도 7에 도시된 서버(2000)와는 달리, 도 8의 실시예에서 서버(2000)는 연속성 학습 모델(2300b)을 포함할 수 있다. 연속성 학습 모델(2300b)은 제1 연속성 학습 모델(2330) 및 제2 연속성 학습 모델(2340)을 포함할 수 있다.

제1 연속성 학습 모델(2330)은 과거의 시점에 획득된 음성 신호와 음성 신호로부터 검출되었던 텍스트 이력 정보를 이용하여, ASR 모델(2310)의 출력 텍스트를 결정하도록 학습된 모델이다. 일 실시예에서, 제1 연속성 학습 모델(2330)은 디바이스(1000)를 통해 사용자로부터 수신된 음성 신호 및 ASR 모델(2310)을 통해 변환된 적어도 하나의 텍스트 후보를 데이터베이스에 기 저장된 음성 인식 결과 이력 정보와 비교함으로써, 음성 신호에 대응되는 텍스트를 결정할 수 있다.

제2 연속성 학습 모델(2340)은 과거의 시점에 텍스트와 텍스트 해석 이력 정보를 이용하여, 자연어 이해 모델(2320)로부터 출력되는 텍스트 해석 결과 정보를 획득하도록 학습된 모델이다. 일 실시예에서, 제2 연속성 학습 모델(2340)은 자연어 이해 모델(2320)이 텍스트를 해석함으로써 출력한 적어도 하나의 텍스트 해석 결과 후보를 데이터베이스에 기 저장된 텍스트 해석 결과 이력 정보와 각각 비교함으로써, 텍스트에 대응하는 텍스트 해석 결과 정보를 결정할 수 있다.

단계 S810에서, 디바이스(1000)는 사용자 계정 정보 및 디바이스 식별 정보(예를 들어, 디바이스 id)를 서버(2000)에 전송한다.

단계 S820에서, 디바이스(1000)는 사용자 계정 정보 및 디바이스 식별 정보에 기초하여, 디바이스(1000)의 음성 인식 모델(1300a)에 관한 업데이트 여부를 확인한다.

단계 S830에서, 서버(2000)는 음성 인식 모델(1300a)에 관한 최신 버전의 업데이트 데이터를 디바이스(1000)에 전송한다.

단계 S840에서, 디바이스(1000)는 음성 인식 모델(1300a)을 최신 버전으로 업데이트한다.

단계 S850에서, 디바이스(1000)는 연속성 학습 모델을 이용하여 음성 인식 결과 가중치를 학습한다.

단계 S810 내지 단계 S850은 도 7에 도시된 단계 S710 내지 단계 S750과 각각 동일한바, 중복되는 설명은 생략한다.

단계 S860에서, 디바이스(1000)는 연속성 학습 모델(1300b)을 통한 가중치 학습 결과 정보를 서버(2000)에 전송한다. 일 실시예에서, 디바이스(1000)는 학습 결과에 기초하여, 연속성 학습 모델(1300b)을 업데이트할 수 있다. 디바이스(1000)는 연속성 학습 모델(1300b)의 가중치 학습 결과 및 연속성 학습 모델(1300b)의 업데이트 정보를 서버(2000)에 전송할 수 있다. 일 실시예에서, 디바이스(1000)는 사용자 계정 정보 및 디바이스 식별 정보(예를 들어, 디바이스 id)를 업데이트된 연속성 학습 모델(1300b)의 데이터 파일과 함께 서버(2000)에 전송할 수 있다.

단계 S870에서, 서버(2000)는 수신된 가중치 학습 결과 정보를 이용하여, 연속성 학습 모델(2300b)을 디바이스(1000)의 연속성 학습 모델(1300b)과 동기화(synchronization)한다.

디바이스(1000)는 음성 인식 모델(1300a) 및 연속성 학습 모델(1300b)을 포함하는바, 음성 인식 모델(1300a)이 서버(2000)에 의해 업데이트되더라도, 연속성 학습 모델(1300b)을 통한 학습(training)을 통해 사용자의 기존 발음, 억양, 어조, 말투, 또는 사투리 등을 인식할 수 있다. 그러나, 연속성 학습 모델(1300b)이 온 디바이스(On device) 형태로, 디바이스(1000) 내부의 메모리(1300, 도 4 참조)에 저장되어 있기 때문에, 사용자가 디바이스(1000)를 분실하거나, 또는 신규 디바이스를 구입함으로써, 기존 디바이스(1000)를 처분하는 경우, 연속성(continuity)가 유지되지 않는 문제점이 발생될 수 있다. 특히, 신규 디바이스를 구입하는 경우에는, 사용자의 발음, 억양, 어조, 말투, 또는 사투리 등을 인식하지 못하여, 음성 인식 기능의 효율성 및 정확성이 저하되는 문제점이 있다.

도 8에 도시된 실시예에서, 디바이스(1000)는 연속성 학습 모델(1300b)을 통한 학습(training)의 결과 업데이트된 정보를 서버(2000)에 전송함으로써, 사용자가 디바이스를 분실하거나, 또는 새로 구입하더라도 연속성을 그대로 유지하고, 음성 인식 결과의 정확도를 향상시킬 수 있다. 따라서, 본 개시의 실시예는 어떤 디바이스를 사용하는지와 무관하게 사용자에 특화된 음성 인식 모델(1300a)을 제공할 수 있다.

본 개시를 통해 설명된 디바이스(1000)에 의해 실행되는 프로그램은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 프로그램은 컴퓨터로 읽을 수 있는 명령어들을 수행할 수 있는 모든 시스템에 의해 수행될 수 있다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령어(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.

소프트웨어는, 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 컴퓨터 프로그램으로 구현될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체로는, 예를 들어 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.

컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

또한, 본 명세서에 개시된 실시예들에 따른 프로그램은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.

컴퓨터 프로그램 제품은 소프트웨어 프로그램, 소프트웨어 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 디바이스의 제조사 또는 전자 마켓(예를 들어, 구글 플레이 스토어^TM, 앱 스토어^TM)을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로드 가능한 애플리케이션(downloadable application))을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 소프트웨어 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.

컴퓨터 프로그램 제품은, 서버 및 디바이스로 구성되는 시스템에서, 서버의 저장매체 또는 디바이스의 저장매체를 포함할 수 있다. 또는, 서버 또는 디바이스와 통신 연결되는 제3의 디바이스(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3의 디바이스의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 디바이스 또는 제3 디바이스로 전송되거나, 제3 디바이스로부터 디바이스로 전송되는 소프트웨어 프로그램 자체를 포함할 수 있다.

이 경우, 서버, 디바이스 및 제3 디바이스 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 디바이스 및 제3 디바이스 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.

예를 들면, 서버가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 디바이스가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.

또 다른 예로, 제3 디바이스가 컴퓨터 프로그램 제품을 실행하여, 제3 디바이스와 통신 연결된 디바이스가 개시된 실시예에 따른 방법을 수행하도록 제어할 수 있다.

제3 디바이스가 컴퓨터 프로그램 제품을 실행하는 경우, 제3 디바이스는 서버로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제3 디바이스는 프리로드(pre-loaded)된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수도 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 컴퓨터 시스템 또는 모듈 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims

디바이스가 음성 입력을 인식하는 방법에 있어서,
사용자로부터 음성 입력을 수신하는 단계;
ASR 모델을 이용하여 상기 음성 입력을 인식함으로써, 상기 음성 입력이 변환될 것으로 예측되는 문자열을 포함하는 적어도 하나의 텍스트 후보(text candidates)를 획득하는 단계;
상기 음성 입력이 수신되는 시점 이전에 인식되어 데이터베이스에 기 저장된 음성 인식 결과 이력 정보와 상기 음성 입력을 비교함으로써, 상기 데이터베이스로부터 상기 음성 입력에 대응되는 텍스트 이력 정보를 추출(extract)하는 단계; 및
상기 추출된 텍스트 이력 정보를 이용하여 상기 적어도 하나의 텍스트 후보 각각의 가중치(weight)를 조정(adjust)하는 학습(training)을 수행하는 단계;
를 포함하는, 방법.
제1 항에 있어서,
상기 데이터베이스에는, 기 획득된 복수의 음성 신호 및 상기 복수의 음성 신호를 상기 ASR 모델을 이용하여 변환함으로써 획득된 복수의 텍스트 이력 정보를 포함하는 상기 음성 인식 결과 이력 정보가 저장되고,
상기 복수의 음성 신호는, 대응되는 상기 복수의 텍스트 이력 정보와 페어링(pairing)되어 상기 데이터베이스에 저장되는, 방법.
제2 항에 있어서,
상기 음성 입력에 대응되는 텍스트 이력 정보를 추출하는 단계는,
상기 음성 입력과 상기 복수의 음성 신호 간의 유사도(similarity)를 각각 산출하는 단계;
상기 복수의 음성 신호 중 상기 산출된 유사도가 기 설정된 임계치를 초과하는 음성 신호를 식별(identify)하는 단계; 및
상기 복수의 텍스트 이력 정보 중 상기 식별된 음성 신호와 페어링된 텍스트 이력 정보를 추출하는 단계;
를 포함하는, 방법.
제1 항에 있어서,
상기 학습을 통해, 상기 음성 입력을 변환함으로써 출력되는 텍스트를 결정하는 단계;
를 더 포함하는, 방법.
제4 항에 있어서,
자연어 이해 모델(Natural Language Understanding; NLU)을 이용하여 상기 출력된 텍스트를 해석함으로써, 적어도 하나의 텍스트 해석 결과 후보를 획득하는 단계;
상기 획득된 적어도 하나의 텍스트 해석 결과 후보를 상기 데이터베이스에 기 저장된 복수의 텍스트 해석 결과 이력 정보와 비교함으로써, 상기 복수의 텍스트 해석 결과 이력 정보 중 상기 텍스트에 대응되는 텍스트 해석 이력 정보를 추출하는 단계;
상기 추출된 텍스트 해석 이력 정보를 이용하여, 상기 자연어 이해 모델을 통해 상기 텍스트로부터 텍스트 해석 결과 정보를 획득하기 위한 가중치를 학습하는 단계; 및
상기 학습을 통해, 상기 자연어 이해 모델을 업데이트하는 단계;
를 더 포함하는, 방법.
제5 항에 있어서,
상기 텍스트 해석 결과 정보는, 상기 자연어 이해 모델을 이용하여 상기 텍스트를 해석함으로써 인식되는 도메인(domain), 인텐트(intent), 및 개체명(named entity)에 관한 정보 중 적어도 하나를 포함하는, 방법.
제6 항에 있어서,
상기 데이터베이스에는, 기 획득된 복수의 텍스트 및 상기 자연어 이해 모델을 이용하여 상기 복수의 텍스트를 해석함으로써 획득된 복수의 텍스트 해석 이력 정보가 저장되고,
상기 복수의 텍스트는, 대응되는 상기 복수의 텍스트 해석 이력 정보와 페어링되어 상기 데이터베이스에 저장되는, 방법.
제7 항에 있어서,
상기 텍스트에 대응되는 텍스트 해석 이력 정보를 추출하는 단계는,
상기 텍스트와 상기 데이터베이스에 기 저장된 상기 복수의 텍스트 간의 유사도(similarity)를 각각 산출하는 단계;
상기 복수의 텍스트 중 상기 산출된 유사도가 기 설정된 임계치를 초과하는 텍스트를 식별하는 단계; 및
상기 복수의 텍스트 해석 이력 정보 중 상기 식별된 텍스트와 페어링된 텍스트 해석 이력 정보를 추출하는 단계;
를 포함하는, 방법.
제1 항에 있어서,
상기 가중치를 조정하는 학습을 통해, 상기 음성 입력을 변환함으로써 출력되는 텍스트를 결정하는 상기 ASR 모델을 업데이트하는 단계; 및
상기 ASR 모델의 업데이트 정보를 서버에 전송하는 단계;
를 더 포함하는, 방법.
음성 입력을 인식하는 디바이스에 있어서,
사용자로부터 음성 입력을 수신하는 음성 입력부;
상기 음성 입력이 수신되는 시점 이전에 수신된 복수의 음성 신호 및 상기 복수의 음성 신호에 대응되는 복수의 텍스트 이력 정보 정보를 포함하는 음성 인식 결과 이력 정보를 저장하는 데이터베이스;
하나 이상의 명령어들(instructions)을 포함하는 프로그램을 저장하는 메모리; 및
상기 메모리에 저장된 프로그램의 하나 이상의 명령어들을 실행하는 프로세서;
를 포함하고,
상기 프로세서는,
상기 음성 입력부로부터 상기 음성 입력을 수신하고,
ASR 모델을 이용하여 상기 음성 입력을 인식함으로써, 상기 음성 입력이 변환될 것으로 예측되는 문자열을 포함하는 적어도 하나의 텍스트 후보(text candidates)를 획득하고,
상기 데이터베이스에 기 저장된 상기 복수의 음성 신호와 상기 음성 입력을 비교함으로써, 상기 데이터베이스로부터 상기 음성 입력에 대응되는 텍스트 이력 정보 정보를 추출(extract)하고,
상기 추출된 텍스트 이력 정보 정보를 이용하여 상기 복수의 텍스트 후보 각각의 가중치(weight)를 조정(adjust)하는 학습(training)을 수행하는, 디바이스.
제10 항에 있어서,
상기 데이터베이스에는, 기 획득된 복수의 음성 신호 및 상기 복수의 음성 신호를 상기 ASR 모델을 이용하여 변환함으로써 획득된 복수의 텍스트 이력 정보를 포함하는 상기 음성 인식 결과 이력 정보가 저장되고,
상기 복수의 음성 신호는, 대응되는 상기 복수의 텍스트 이력 정보와 페어링(pairing)되어 상기 데이터베이스에 저장되는, 디바이스.
제11 항에 있어서,
상기 프로세서는,
상기 음성 입력과 상기 데이터베이스에 기 저장된 상기 복수의 음성 신호 간의 유사도(similarity)를 각각 산출하고,
상기 복수의 음성 신호 중 상기 산출된 유사도가 기 설정된 임계치를 초과하는 음성 신호를 식별(identify)하고,
상기 복수의 텍스트 이력 정보 중 상기 식별된 음성 신호와 페어링된 텍스트 이력 정보를 추출하는, 디바이스.
제10 항에 있어서,
상기 프로세서는, 상기 학습을 통해 상기 음성 입력을 변환함으로써 출력되는 텍스트를 결정하는, 디바이스.
제13 항에 있어서,
상기 프로세서는,
자연어 이해 모델(Natural Language Understanding; NLU)을 이용하여 상기 출력된 텍스트를 해석함으로써, 적어도 하나의 텍스트 해석 결과 후보를 획득하고,
상기 획득된 적어도 하나의 텍스트 해석 결과 후보를 상기 데이터베이스에 기 저장된 복수의 텍스트 해석 결과 이력 정보와 비교함으로써, 상기 복수의 텍스트 해석 결과 이력 정보 중 상기 텍스트에 대응되는 텍스트 해석 이력 정보를 추출하고,
상기 추출된 텍스트 해석 이력 정보를 이용하여, 상기 자연어 이해 모델을 통해 상기 텍스트로부터 텍스트 해석 결과 정보를 획득하기 위한 가중치를 학습하고,
상기 학습을 통해, 상기 자연어 이해 모델을 업데이트하는, 디바이스.
제14 항에 있어서,
상기 텍스트 해석 결과 정보는, 상기 자연어 이해 모델을 이용하여 상기 텍스트를 해석함으로써 인식되는 도메인(domain), 인텐트(intent), 및 개체명(named entity)에 관한 정보 중 적어도 하나를 포함하는, 디바이스.
제15 항에 있어서,
상기 데이터베이스에는, 기 획득된 복수의 텍스트 및 상기 자연어 이해 모델을 이용하여 상기 복수의 텍스트를 해석함으로써 획득된 복수의 텍스트 해석 이력 정보가 저장되고,
상기 복수의 텍스트는, 대응되는 상기 복수의 텍스트 해석 이력 정보와 페어링되어 상기 데이터베이스에 저장되는, 디바이스.
제16 항에 있어서,
상기 프로세서는,
상기 텍스트와 상기 데이터베이스에 기 저장된 상기 복수의 텍스트 간의 유사도(similarity)를 각각 산출하고,
상기 복수의 텍스트 중 상기 산출된 유사도가 기 설정된 임계치를 초과하는 텍스트를 식별하고,
상기 복수의 텍스트 해석 이력 정보 중 상기 식별된 텍스트와 페어링된 텍스트 해석 이력 정보를 추출하는, 디바이스.
제17 항에 있어서,
상기 프로세서는, 상기 추출된 텍스트 해석 이력 정보를 이용하는 학습을 통해, 상기 자연어 이해 모델로부터 출력되는 상기 텍스트 해석 결과 정보를 결정하는, 디바이스.
제10 항에 있어서,
서버와 데이터 통신을 수행하는 통신 인터페이스;
를 더 포함하고,
상기 프로세서는,
상기 가중치를 조정하는 학습을 통해 상기 음성 입력을 변환함으로써 출력되는 텍스트를 결정하는 상기 ASR 모델을 업데이트하고,
상기 ASR 모델의 업데이트 정보를 서버에 전송하도록 상기 통신 인터페이스를 제어하는, 디바이스.
제1 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.