KR20160013710A

KR20160013710A - 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치

Info

Publication number: KR20160013710A
Application number: KR1020140095870A
Authority: KR
Inventors: 홍석진; 최영상; 최희열; 유상현
Original assignee: 삼성전자주식회사
Priority date: 2014-07-28
Filing date: 2014-07-28
Publication date: 2016-02-05
Also published as: KR102332729B1; US9779730B2; US20160027437A1

Abstract

발음 유사도를 고려한 음성 인식 방법 및 장치가 개시된다. 사용자의 음성 입력을 수신하는 단계; 상기 음성 입력으로부터 도출되는 음소 시퀀스를 음성 인식 엔진에 전송하는 단계; 및 상기 음성 인식 엔진으로부터 음성 인식 결과를 수신하는 단계를 포함하고, 상기 음성 인식 엔진은, 상기 음성 입력으로부터 도출된 음소 시퀀스의 발음 거리를 기반으로 음성 인식 결과를 제공할 수 있다.

Description

발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치{SPEECH RECOGNITION METHOD AND APPARATUS, SPEECH RECOGNITION ENGINE GENERATION METHOD AND APPARATUS BASED ON PRONOUNCE SIMILARITY}

아래 실시예들은 발음 거리를 고려한 음성 인식 방법 및 상기 방법을 수행하는 장치, 음성 인식 엔진 생성 방법 및 상기 방법을 수행하는 장치에 관한 것으로써, 발음의 유사도를 기반으로 음성을 인식하는 기술에 관한 것이다.

디지털 디바이스가 출시된 이후, 디지털 디바이스를 조작하기 위한 인터페이스는 다양하게 발전되어 왔다. 최근에는 평판 디스플레이와 정전식 터치 인터페이스가 스마트폰, 태블릿 등 다양한 개인용 스마트 기기를 조작하기 위한 대표적인 인터페이스로 널리 활용되고 있다.

터치 인터페이스의 장점은 직관적이고, 명령에 대한 피드백을 즉각적으로 받을 수 있다는 점이다. 그러나, 두 손이 자유롭지 않은 경우, 복잡한 명령을 수행하는 경우, 여러 단계의 상호작용을 거쳐 명령을 수행해야 하는 경우, 또는 긴 텍스트를 입력해야 하는 경우 등과 같이 복잡한 인터렉션(interaction)이 필요한 상황에서는 터치 인터페이스의 활용성이 떨어진다는 단점이 있다.

반면에, 음성 인터페이스는 자연스럽고 직관적인 인터페이스로써, 활용성이 떨어진다는 터치 인터페이스의 단점을 보완할 수 있다. 이에 따라, 음성 인터페이스는 차량용 기기 제어, 스마트 기기용 음성 비서 등을 중심으로 활용이 증대되고 있다.

음성 인터페이스에 있어서 가장 핵심은 음성 인식 기술의 정확도이다. 이에 따라, 음성 인식 기술의 정확도를 높이기 위한 다양한 기법들이 제안됨에 따라 음성 인식 기술은 점점 발전하고 있다.

음성 인식 기술의 정확도 향상시키기 위한 기술로써, RDNN(Recurrent Deep Neural Network) 기반의 음성 인식 기술은 학습을 통해 음성 인식 엔진을 구축한다. 이 때, 학습 데이터의 양과 학습의 반복량이 음성 인식 성능에 큰 영향을 미치기 때문에, 대규모의 데이터를 학습하기 위해 학습 시간을 줄이는 것이 매우 중요하다.

일측에 따른 음성 인식 방법은 사용자의 음성 입력을 수신하는 단계; 상기 음성 입력으로부터 도출된 음소 시퀀스를 음성 인식 엔진에 전송하는 단계; 및 상기 음성 인식 엔진으로부터 음성 인식 결과를 수신하는 단계를 포함하고, 상기 음성 인식 엔진은, 상기 음성 입력으로부터 도출된 음소 시퀀스의 발음 거리를 기반으로 상기 음성 인식 결과를 제공할 수 있다.

이 때, 상기 음성 인식 엔진은 N차원 임베딩 스페이스(embedding space) 상에 배치된 임베딩 벡터(embedding vector) 중에서 상기 음성 입력으로부터 도출된 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 상기 음성 인식 결과를 제공할 수 있다.

또한, 상기 단어 간 거리 행렬은 복수의 단어의 음소 시퀀스 간의 발음 유사도에 따라 결정된 단어 간 발음 거리를 행렬로 표현한 단어 간 거리 행렬을 포함할 수 있다.

또한, 상기 음성 인식 엔진은 단어 간 거리 행렬에 다중 차원 스케일링(Multi-Dimensional Scaling) 기법을 적용하여 N차원의 임베딩 스페이스상에 배치된 임베딩 벡터로 구성될 수 있다.

일측에 따른 음성 인식 방법은 사용자의 음성 입력을 수신하는 단계; 상기 음성 입력을 음성 인식 엔진에 전송하는 단계; 및 상기 음성 인식 엔진으로부터 음성 인식 결과를 수신하는 단계를 포함하고, 상기 음성 인식 엔진은, 상기 음성 입력으로부터 음소 시퀀스를 도출하고, 상기 도출한 음소 시퀀스의 발음 거리를 기반으로 상기 음성 인식 결과를 제공할 수 있다.

이 때, 상기 음성 인식 엔진은 N차원 임베딩 스페이스 상에 배치된 임베딩 벡터 중에서 상기 도출한 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 상기 음성 인식 결과를 제공할 수 있다.

또한, 상기 음성 인식 엔진은 복수의 단어의 음소 시퀀스 간의 발음 유사도에 따라 결정된 단어 간 발음 거리를 행렬로 표현한 단어 간 거리 행렬을 포함할 수 있다.

또한, 상기 음성 인식 엔진은 단어 간 거리 행렬에 다중 차원 스케일링 기법을 적용하여 N차원의 임베딩 스페이스상에 배치된 임베딩 벡터로 구성될 수 있다.

일측에 따른 음성 인식 엔진 생성 방법은 복수의 단어에 대해 각각의 음소 시퀀스를 도출하는 단계; 상기 음소 시퀀스를 구성하는 음소 각각을 비교하여 음소 시퀀스 간의 발음 유사도를 결정하는 단계; 상기 결정된 음소 시퀀스 간의 발음 유사도에 따라 상기 복수의 단어 간 발음 거리를 계산하는 단계; 및 상기 결정된 단어 간 발음 거리를 기초로 임베딩 벡터를 생성하는 단계를 포함할 수 있다.

이 때, 상기 계산하는 단계에서는 상기 음소 시퀀스 간의 발음 유사도가 높으면 단어 간 발음 거리를 가깝게 계산할 수 있다.

또한, 상기 결정하는 단계에서는 상기 음소 시퀀스를 구성하는 음소 간의 대체 확률을 계산하는 단계; 및 상기 계산한 음소 간의 대체 확률이 높으면 상기 음소 시퀀스 간의 발음 유사도를 높게 결정하는 단계를 포함할 수 있다.

또한, 상기 생성하는 단계에서는 상기 단어 간 발음 거리를 행렬로 표현한 단어 간 거리 행렬에 다중 차원 스케일링 기법을 적용하여 임베딩 벡터를 생성할 수 있다.

또한, 상기 계산하는 단계에서는 상기 음소 시퀀스를 구성하는 음소 각각을 비교하여 도출된 음소 간 발음 거리에 기초한 거리 계산 기법을 이용하여 단어 간 발음 거리를 계산할 수 있다.

또한, 상기 생성하는 단계에서는 상기 단어 간 거리 행렬에 다중 차원 스케일링을 적용하여 생성한 임베딩 벡터를 이용하여 단어를 예측하는 단계를 더 포함할 수 있다.

일측에 따른 음성 인식 방법은 사용자의 음성 입력으로부터 도출된 음소 시퀀스를 수신하는 단계; N차원 임베딩 스페이스 상에 배치된 복수의 임베딩 벡터 중에서 상기 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터를 선택하는 단계; 및 상기 선택된 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 음성 인식 결과를 출력하는 단계를 포함할 수 있다.

이 때, 상기 임베딩 벡터는 복수의 단어의 음소 시퀀스 간의 발음 유사도에 따라 결정된 단어 간 발음 거리를 기초로 생성될 수 있다.

또한, 상기 임베딩 벡터는 단어 간 발음 거리를 행렬로 표현한 단어 간 거리 행렬에 다중 차원 스케일링 기법을 적용하여 생성될 수 있다.

일측에 따른 음성 인식 방법은 사용자의 음성 입력을 수신하는 단계; 상기 음성 입력으로부터 음소 시퀀스를 도출하는 단계; N차원 임베딩 스페이스 상에 배치된 복수의 임베딩 벡터 중에서 상기 도출한 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터를 선택하는 단계; 및 상기 선택된 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 음성 인식 결과를 출력하는 단계를 포함할 수 있다.

일측에 따른 음성 인식 장치는 프로세서를 포함하고, 상기 프로세서는 사용자의 음성 입력을 수신하는 단계; 상기 음성 입력으로부터 도출된 음소 시퀀스를 음성 인식 엔진에 전송하는 단계; 및 상기 음성 인식 엔진으로부터 음성 인식 결과를 수신하는 단계를 수행하고, 상기 음성 인식 엔진은, 상기 음성 입력으로부터 도출된 음소 시퀀스의 발음 거리를 기반으로 상기 음성 인식 결과를 제공할 수 있다.

이 때, 상기 프로세서는 N차원의 임베딩 스페이스 상에 배치된 임베딩 벡터 중에서 상기 음성 입력으로부터 도출된 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 상기 사용자의 음성 입력을 인식할 수 있다.

일측에 따른 음성 인식 장치는 프로세서를 포함하고, 상기 프로세서는 사용자의 음성 입력을 수신하는 단계; 상기 음성 입력을 음성 인식 엔진에 전송하는 단계; 및 상기 음성 인식 엔진으로부터 음성 인식 결과를 수신하는 단계를 수행하고, 상기 음성 인식 엔진은, 상기 음성 입력으로부터 음소 시퀀스를 도출하고, 상기 도출한 음소 시퀀스의 발음 거리를 기반으로 상기 음성 인식 결과를 제공할 수 있다.

이 때, 상기 음성 인식 엔진은 N차원 임베딩 스페이스 상에 배치된 임베딩 벡터 중에서 상기 음성 입력으로부터 도출한 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 상기 음성 인식 결과를 제공할 수 있다.

일측에 따른 음성 인식 엔진 생성 장치는 프로세서를 포함하고, 상기 프로세서는, 복수의 단어에 대해 각각의 음소 시퀀스를 도출하는 단계; 상기 음소 시퀀스를 구성하는 음소 각각을 비교하여 음소 시퀀스 간의 발음 유사도를 결정하는 단계; 상기 결정된 음소 시퀀스 간의 발음 유사도에 따라 상기 복수의 단어 간 발음 거리를 결정하는 단계; 및 상기 결정된 단어 간 발음 거리를 기초로 임베딩 벡터를 생성하는 단계를 수행할 수 있다.

이 때, 상기 프로세서는 상기 음소 시퀀스 간의 발음 유사도가 높으면 단어 간 발음 거리를 가깝게 계산할 수 있다.

또한, 상기 프로세서는 상기 음소 시퀀스를 구성하는 음소 간의 대체 확률을 계산하고, 상기 계산한 음소 간의 대체 확률이 높으면 상기 음소 시퀀스 간의 발음 유사도를 높게 결정하는 음성 인식 엔진 생성 장치.

또한, 상기 프로세서는 상기 단어 간 거리를 행렬로 표현한 단어 간 거리 행렬에 다중 차원 스케일링을 적용하여 생성한 임베딩 벡터를 기초로 단어를 예측하는 단계를 더 수행할 수 있다.

일측에 따른 음성 인식 장치는 프로세서를 포함하고, 상기 프로세서는, 사용자의 음성 입력으로부터 도출된 음소 시퀀스를 수신하는 단계; N차원 임베딩 스페이스 상에 배치된 복수의 임베딩 벡터 중에서 상기 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터를 선택하는 단계; 및 상기 선택된 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 음성 인식 결과를 출력하는 단계를 수행할 수 있다.

일측에 따른 음성 인식 장치는 프로세서를 포함하고, 상기 프로세서는, 사용자의 음성 입력을 수신하는 단계; 상기 음성 입력으로부터 음소 시퀀스를 도출하는 단계; N차원 임베딩 스페이스 상에 배치된 복수의 임베딩 벡터 중에서 상기 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터를 선택하는 단계; 및 상기 선택된 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 음성 인식 결과를 출력하는 단계를 수행할 수 있다.

도 1은 일실시예에 따른 단어의 음향 임베딩 기반의 단어 인식 네트워크 구조를 도시한 도면이다.
도 2는 일실시예에 따른 음성 인식 엔진을 이용하여 사용자의 음성 입력을 인식하는 방법의 동작 흐름도를 도시한 도면이다.
도 3은 일실시예에 따른 N차원 임베딩 스페이스 상에 모든 단어들을 N차원 임베딩 벡터로 배치하는 방법을 도시한 도면이다.
도 4는 일실시예에 따른 음성 명령의 인식의 정확도를 향상하는 기법을 설명하기 위한 도면이다.
도 5는 일실시예에 따른 단어 간 발음 거리를 기초로 임베딩 벡터를 생성하는 방법의 동작 흐름도를 도시한 도면이다.
도 6은 음소 시퀀스의 발음 거리를 기반으로 음성 인식 결과를 제공하는 음성 인식 엔진 생성 방법의 동작 흐름도를 도시한 도면이다.
도 7은 음성 인식 장치와 음성 인식 엔진 간의 관계를 도시한 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 일실시예에 따른 단어의 음향 임베딩 기반의 단어 인식 네트워크 구조를 도시한 도면이다.

이하에서 설명되는 음성 인식 장치는 음성 인식 엔진을 통해 음성 인식 서비스를 제공하는 장치를 의미한다. 일실시예에 따르면, 음성 인식 장치는 음성 인식 서버를 포함할 수 있다. 다른 예로, 음성 인식 장치는 스마트 폰, PDA와 같은 휴대용 단말, 사용자의 신체에 탈부착이 가능한 웨어러블 디바이스, 및 각종 음성 명령 시스템을 포함하는 단말을 의미한다.

일례로, 음성 명령 시스템을 포함하는 단말은 스마트 TV, 음성 명령 시스템을 포함한 차량 등을 포함할 수 있다. 그러나, 음성 인식 장치는 일실시예에 한정되지 않으며, 음성 명령 시스템을 포함하는 모든 단말을 포함할 수 있다.

도 1에 도시된 RDNN(Recurrent Deep Neural Network)은 음성 인식 네트워크를 의미한다. RDNN은 음성 인식 장치에 포함될 수 있다. 또는. RDNN을 통해 구축된 음성 인식 엔진이 음성 인식 장치에 포함될 수도 있다.

RDNN은 음소 시퀀스와 음소 시퀀스에 대응하는 단어 쌍을 학습 데이터로 이용하여 모든 단어들을 학습함으로써 음성 인식 엔진을 생성할 수 있다. 이에 따라, RDNN은 음성 인식 엔진을 이용하여 입력 받은 음소 시퀀스에 대응하는 단어를 예측할 수 있다.

일실시예에 따르면, 음성 인식 장치와 음성 인식 엔진은 동일한 장치 내에 위치할 수 있으며, 하나의 모듈로 구현될 수도 있다. 다른 예로, 음성 인식 엔진은 음성 인식 장치와는 별개의 장치에 위치할 수도 있다. 이 때, 음성 인식 장치는 음성 인식 엔진과 연동하여 음성 인식 서비스를 제공할 수 있다.

예를 들어, 음성 인식 장치는 음성 인식 센서를 통해 수신한 사용자의 음성 입력을 음성 인식 엔진에 전달할 수 있다. 이에 대응하여, 음성 인식 엔진은 사용자의 음성 입력에 대응하는 음성 인식 결과를 출력하여 음성 인식 장치에 전달할 수 있다. 일실시예로, 음성 인식 장치는 클라우드(cloud) 서비스를 통해 음성 인식 엔진과 연동하여 사용자의 음성 입력과 사용자의 음성 입력에 대응하는 음성 인식 결과를 주고받을 수 있다.

도 1(a)는 1-of-M 표현 방식을 이용하여 출력 노드를 구성하는 RDNN을 도시한 도면이다.

1-of-M 표현 방식은 하나의 단어를 하나의 차원에 배치하는 방식을 의미한다. 이에 따라, 1-of-M 표현 방식은 M(M≥1)개의 단어를 M차원에 배치할 수 있다. 도 1(a)에 도시된 바와 같이 'rewrite'는 두 번째 차원에 해당하므로, 'rewrite'는 1-of-M 표현 방식에 따라 (0, 1, 0, 0, ..., 0)과 같은 M차원 벡터로 표현될 수 있다. 이에 따라, RDNN은 M개의 출력 노드로 구성될 수 있다.

1-of-M 표현 방식은 단어의 수가 증가함에 따라 노드의 수도 증가하여 학습 효율이 떨어지며 학습 시간이 증가한다는 단점이 있다. 또한, 1-of-M 표현 방식은 단어마다 개별적인 클래스로 구성됨에 따라 너무 많은 클래스로 분류(classification)되는 문제가 발생한다는 단점과 단어 간의 관계를 표현할 수 없다는 단점이 있다.

도 1(b)는 임베딩 벡터를 이용하여 출력 노드를 구성하는 RDNN을 도시한 도면이다. 도 1(b)에 도시된 바와 같이, RDNN은 1-of-M 표현 방식을 통한 M차원 벡터를 N차원의 임베딩 벡터로 대체할 수 있다. RDNN은 학습을 통해 임베딩 벡터가 배치된 다차원 임베딩 스페이스를 인식할 수 있다.

임베딩 벡터(embedding vector)는 단어의 음소 시퀀스가 매핑된 벡터를 의미한다. 임베딩 벡터는 N(N≥1)차원의 임베딩 스페이스(embedding space) 상에 한 점으로 표시될 수 있다.

RDNN은 임베딩 벡터를 이용하여 한 차원 내에 1-of-M 표현 방식 보다 더 많은 단어를 배치할 수 있다. 이에 따라, RDNN은 1-of-M 표현 방식보다 더 적은 수의 출력 노드로 구성될 수 있으며, 단어 간의 관계를 표현할 수 있다.

일실시예에 따르면, 도 1(b)에 도시된 바와 같이, RDNN은 100차원의 임베딩 스페이스 상에 임베딩 벡터를 배치할 수 있다. RDNN은 임베딩 벡터를 이용하여 love, lived, live, write, wrote, rewrite, 및 the 등을 하나의 차원에 배치할 수 있다. RDNN은 임베딩 벡터마다 개별적으로 좌표를 설정하여 임베딩 스페이스 상에 배치할 수 있다. 예를 들어, rewrite의 음소 시퀀스가 매핑된 임베딩 벡터는 (0.12, 0.54, 0.98, … 0.05)의 좌표가 설정될 수 있다.

이하에서는 임베딩 벡터의 생성 방법에 대한 대략적인 흐름을 설명한다. 임베딩 벡터의 생성 방법에 대한 구체적인 내용은 후술하도록 한다

Ⅰ. 음소 간 거리 행렬의 결정

이하에서 설명되는 음소는 단어의 의미를 구별 짓게 하는 최소의 소리 단위이다. 단어는 음소로 구성될 수 있다. 이하에서 설명되는 음소 시퀀스는 단어에 포함된 음소의 연속된 배열을 의미한다.

도 1에 도시된 바와 같이, 단어는 음소 시퀀스로 표현될 수 있다. 이 때, 음소 시퀀스는 발음을 기초로 표시될 수 있다. 또한, 음소 시퀀스의 길이는 음소의 개수를 기초로 결정될 수 있다. 예를 들어, rewrite의 음소 시퀀스는 [r iy r ay t]이고, rewrite의 음소 시퀀스의 길이는 5이다.

음성 인식 장치는 모든 단어의 음소 시퀀스를 비교하여 발음 유사도를 판단하고, 판단 결과를 기초로 음소 간의 거리 행렬을 결정할 수 있다.

이하에서 설명되는 음소 간 거리 행렬은 음소 간의 발음 거리를 행렬로 표현한 것이다. 즉, 음소 간 거리 행렬은 각 음소와 다른 모든 음소들 간의 발음 거리를 표현한 행렬을 의미한다. 음소 간의 발음 거리는 음소 간의 대체 확률을 기초로 결정될 수 있다.

일실시예에 따르면, 음성 인식 장치는 음소 간의 대체 확률의 역수 또는 (1-음소 간의 대체 확률)을 음소 간의 발음 거리로 사용할 수 있다. 이하에서 설명되는 음소 간의 대체 확률은 발음에 따라 음소가 대체되는 확률을 의미한다.

즉, 음성 인식 장치는 모든 단어의 음소 시퀀스를 비교하여 음소 간의 발음 거리를 결정하고, 음소 간의 발음 거리를 음소 간 거리 행렬로 표현할 수 있다. 이하에서는 음소 간 거리 행렬에 기초하여 단어 간 거리 행렬을 도출하는 방법에 대해서 설명한다.

Ⅱ. 단어 간 거리 행렬의 도출

이하에서 설명되는 단어 간 거리 행렬은 단어 간의 발음 거리를 행렬로 표현한 것이다. 단어 간의 발음 거리는 단어의 음소 시퀀스 간의 발음 거리를 의미한다. 따라서, 음소 시퀀스에 포함된 음소 간의 대체 확률이 높을수록 단어 간의 발음 거리는 가까울 수 있다. 음성 인식 장치는 음소 간의 대체 확률, 즉 음소 간의 발음 거리를 기반으로 단어 간의 발음 거리를 결정할 수 있다.

일실시예에 따르면, 음성 인식 장치는 리벤슈타인 거리 기법을 변형한 거리 계산 기법을 통해 단어 간의 발음 거리를 계산할 수 있다. 예를 들어, 음성 인식 장치는 문자 당 단위 거리로 '1'대신 '음소 간 발음 거리'를 사용함으로써 리벤슈타인 거리 기법 보다 정확하게 단어 간의 발음 거리를 계산할 수 있다.

즉, 음성 인식 장치는 음소 간 발음 거리를 이용하는 거리 계산 기법을 통해 단어 간의 발음 거리를 계산하고, 단어 간의 발음 거리를 행렬로 표현할 수 있다. 이하에서는 단어 간 거리 행렬에 기초하여 임베딩 벡터를 생성하는 방법에 대해서 설명한다.

Ⅲ. 임베딩 벡터의 생성

음성 인식 장치는 단어 간 거리 행렬을 기초로 임베딩 스페이스 상에서 배치되는 임베딩 벡터를 생성할 수 있다.

일실시예에 따르면, 음성 인식 장치는 단어 간 거리 행렬에 다중 차원 스케일링 기법(Multi-Dimensional Scaling, MDS)을 적용함으로써, N차원 임베딩 스페이스 상에 각 단어가 매핑된 임베딩 벡터를 하나의 점으로 배치할 수 있다.

다중 차원 스케일링 기법은 개체들의 특성을 측정한 후, 측정한 특성들을 이용하여 개체들 사이의 유사성에 따라 개체들을 다차원 공간상의 점으로 배치하는 방법이다. 일실시예에 따르면, 음성 인식 장치는 단어 간 거리 행렬에 cmdscale 함수를 적용함으로써, 단어 간 거리 행렬의 요소들을 임베딩 스페이스 상에서의 좌표로 변환할 수 있다.

cmdscale 함수는 단어 간 거리 행렬을 입력받아 좌표를 반환하는 함수를 의미한다. 음성 인식 장치는 단어 간 거리 행렬에 cmdscale 함수를 적용하여 임베딩 스페이스 상에서의 좌표로 변환할 수 있고, 해당 좌표가 설정된 임베딩 벡터를 임베딩 스페이스 상에 배치할 수 있다.

음성 인식 장치는 임베딩 벡터를 이용하여 모든 단어들의 음소 시퀀스를 N 차원의 임베딩 스페이스 상에 배치할 수 있다. 일실시예에 따르면, 음성 인식 장치는 단어 간의 발음 거리에 따라 임베딩 벡터를 배치할 수 있다. 단어 간의 발음 거리는 단어 간의 발음 유사도를 기반으로 결정될 수 있다. 예를 들어, 음성 인식 장치는 발음상 비슷한 단어들이 가까운 거리에 위치하도록 임베딩 벡터를 배치할 수 있다.

일실시예에 따르면, 도 1에 도시된 바와 같이, 음성 인식 장치는 write, wrote, rewrite 등과 같이 발음상 비슷한 단어들을 N 차원의 임베딩 스페이스 상에서 가까운 거리에 위치하도록 배치할 수 있다. 또한, 음성 인식 장치는 love, lived, live 등과 같이 발음상 비슷한 단어들을 N 차원의 임베딩 스페이스 상에서 가까운 거리에 위치하도록 배치할 수 있다.

일실시예에 따르면, 음성 인식 장치는 음성 인식 센서를 통해 사용자의 음성 입력을 수신할 수 있다. 예를 들어, 음성 인식 센서는 마이크 등을 포함할 수 있으며, 음성 인식 장치는 수신한 음성 입력으로부터 음소 시퀀스를 도출할 수 있다.

음성 인식 장치는 임베딩 스페이스 상에 배치된 임베딩 벡터 중에서 음성 입력으로부터 도출한 음소 시퀀스와 가장 가까운 거리에 배치된 임베딩 벡터를 선택할 수 있다. 음성 인식 장치는 선택한 임베딩 벡터에 대응하는 단어를 통해 사용자의 음성 입력을 예측할 수 있다.

음성 인식 장치는 1-of-M 표현 방식 보다 동일 차원 내에 많은 단어(임베딩 벡터)를 배치함으로써 학습 효율을 높일 수 있다. 음성 인식 장치는 단어 간의 발음 거리를 기초로 사전에 학습하였으므로, 적은 수의 반복 학습(epoch)만으로도 충분한 학습 효과를 가져올 수 있다. 또한, 음성 인식 장치는 단어 간의 발음 거리를 기초로 한 차원 내에 많은 임베딩 벡터를 배치함으로써 단어 간의 관계를 표현할 수 있다는 장점이 있다.

또한, 단어가 추가하거나 삭제하려는 경우, 다차원 임베딩 스페이스에 임베딩 벡터를 새롭게 추가하거나 또는 배치된 임베딩 벡터를 삭제하면 되므로, 음성 인식 장치는 학습 시간을 단축시킬 수 있다. 예를 들어, 새로운 단어를 추가하려는 경우, 기존에 학습된 N차원의 임베딩 스페이스에 추가하려는 임베딩 벡터를 적절한 위치에 배치할 수 있으므로, 음성 인식 장치는 새로 추가하려는 단어에 대해 적응적으로 대응할 수 있다. 이에 따라, 음성 인식 장치는 학습 시간을 단축시킬 수 있다.

도 2는 일실시예에 따른 음성 인식 엔진을 이용하여 사용자의 음성 입력을 인식하는 방법의 동작 흐름도를 도시한 도면이다.

단계(200)에서, 음성 인식 장치는 사용자의 음성 입력을 수신할 수 있다. 음성 인식 장치는 사용자 단말 및 음성 인식 서버를 포함할 수 있다. 예를 들어, 사용자 단말은 스마트 폰, PDA와 같은 휴대용 단말, 및 사용자의 신체에 탈부착이 가능한 웨어러블 디바이스뿐만 아니라 각종 음성 명령 시스템을 포함하는 단말을 의미한다.

일실시예에 따르면, 사용자 단말은 음성 인터페이스를 통해 사용자의 음성 입력을 수신할 수 있다. 다른 예로, 음성 인식 서버는 사용자 단말로부터 사용자의 음성 입력을 전달받을 수 있다.

단계(210)에서, 음성 인식 장치는 음성 인식 엔진을 이용하여 보다 정확한 음성 인식 서비스를 제공할 수 있다.

일실시예에 따르면, 음성 인식 장치는 음성 인식 엔진을 이용하여 음소 시퀀스를 예측할 수 있다. 음성 인식 장치는 음성 인식 엔진에 저장된 N차원의 임베딩 스페이스 상에 N차원의 임베딩 벡터를 배치할 수 있다. 임베딩 벡터는 단어를 한 차원의 점으로 표현한 것이다. 음성 인식 장치는 비슷한 발음을 가지는 단어가 매핑된 임베딩 벡터를 임베딩 스페이스 상에서 가깝게 배치될 수 있다.

음소 시퀀스는 발음을 고려하여 표현될 수 있다. 따라서, 하나의 단어는 하나 이상의 임베딩 벡터로 표현될 수 있다. 예를 들어, live의 음소 시퀀스는 [l ih v], [l ay f], 또는 [l ay v]로 표현될 수 있다. 이에 따라, live는 N차원의 임베딩 스페이스 상에 3개의 임베딩 벡터로 배치될 수 있다. 음성 인식 장치는 임베딩 벡터를 이용하여 N 차원의 임베딩 스페이스 상에 모든 단어들의 음소 시퀀스를 배치할 수 있다.

음소 간의 대체 확률은 음소 간의 발음 거리와 반비례할 수 있다. 즉, 음소 간의 대체 확률이 높을수록, 음소 간의 발음 거리는 가까울 수 있다. 음성 인식 장치는 음소 간의 발음 거리를 기초로 단어 간의 발음 거리를 결정할 수 있다.

음성 인식 장치는 단어 간의 발음 거리를 기초로 임베딩 벡터를 배치할 수 있다. 이에 따라, 음성 인식 장치는 임베딩 벡터를 이용하여 음소 시퀀스에 대응하는 단어를 예측할 수 있다.

음성 인식 장치는 음성 인터페이스를 통해 사용자의 음성 입력을 수신할 수 있다. 이에 따라, 음성 인식 장치는 수신한 음성 입력으로부터 음소 시퀀스를 도출할 수 있다. 일실시예에 따르면, 음성 인식 장치가 도출한 음소 시퀀스는 [s ma r to]일 수 있다.

음성 인식 장치는 도출된 음소 시퀀스와 가장 가까운 위치에 배치된 임베딩 벡터를 선택할 수 있다. 음성 인식 장치는 선택한 임베딩 벡터에 대응하는 단어를 사용자의 음성 입력으로 예측할 수 있다. 예를 들어, 음성 인식 장치는 [s ma r t]를 예측할 수 있다. 즉, 음성 인식 장치는 임베딩 벡터를 이용하여 음소 시퀀스에 대응하는 단어 'smart'를 사용자가 입력한 단어로 예측할 수 있다.

일실시예에 따르면, 음성 인식 서버는 예측된 단어를 기초로 사용자의 음성 명령을 인식하고, 인식 결과를 사용자 단말에 전달할 수 있다. 이에 따라, 사용자 단말은 전달받은 인식 결과에 대응하는 프로세스를 처리할 수 있고, 처리 결과를 사용자에게 제공할 수 있다. 처리 결과는 사용자 단말의 화면을 통해 표시되거나 또는 사용자 단말의 스피커를 통해 출력될 수 있다.

다른 예로, 사용자 단말은 음성 인식 엔진을 이용하여 예측된 단어를 기초로 사용자의 음성 명령을 인식하고, 인식한 음성 명령에 대응하는 프로세스를 처리할 수 있다. 이에 따라, 사용자 단말은 스피커를 통해 처리 결과를 출력하거나 또는 디스플레이를 통해 처리 결과를 표시할 수도 있다.

음성 인식 방법은 다양한 서비스에 이용될 수 있다. 예를 들어, 음성 인식 방법은 스마트 폰 등에서 제공하는 음성 기반 개인 비서 서비스에 이용될 수 있다. 또한, 음성 인식 방법은 문자 전송, 회의록 작성 등과 같이 음성 받아쓰기(dictation)가 요구되는 서비스에 이용될 수 있다. 또한, 음성 인식 방법은 차량, 스마트 TV 등에서 제공하는 음성 인식 명령 시스템에 이용될 수 있다.

도 3은 일실시예에 따른 N차원 임베딩 스페이스 상에 모든 단어들을 N차원 임베딩 벡터로 배치하는 방법을 도시한 도면이다.

이하에서는 음소 간의 대체 확률을 기초로 음소 간의 발음 거리를 구하는 방법에 대해서 설명한다.

도 3을 참고하면, 음성 인식 장치는 각 단어의 음소 간의 대체 확률(substitution probability)을 계산할 수 있다. 구체적으로, 음성 인식 장치는 단어의 음소 시퀀스를 비교할 수 있다. 이에 따라, 음성 인식 장치는 모든 단어들의 음소 시퀀스를 비교하고, 비교 결과를 통해 음소 간의 대체 확률을 계산할 수 있다.

음소 간의 대체 확률은 사용자들이 단어를 발음할 때 단어 내에 포함된 음소가 변형될 확률을 의미한다. 음소 간의 대체 확률은 하기 수학식 1과 같이 표현될 수 있다. 음소 간의 대체 확률은 발음이 변형되는 빈도를 고려하여 결정될 수 있다.

P1, P2는 단어가 음소 시퀀스에 따라 발음되는 확률을 의미한다. 예를 들어, live가 [l ih v]로 발음될 확률은 0.4일 수 있고, [l ay v]로 발음될 확률은 0.2일 수 있다.

음성 인식 장치는 음소 시퀀스 내의 음소 간의 대체 확률을 계산할 수 있다. 음성 인식 장치는 live의 음소 시퀀스 [l ih v]와 [l ay v]에서 [ih]와 [ay] 간의 대체확률을 계산할 수 있다. 음성 인식 장치는 음소 간의 대체 확률을 기초로 음소 간의 발음 거리를 결정할 수 있다.

일실시예에 따르면, 음성 인식 장치는 음소 간의 대체 확률의 역수를 음소 간의 발음 거리로 결정할 수 있다. 다른 예로, 음성 인식 장치는 하기 수학식 2을 통해 음소 간의 발음 거리를 결정할 수 있다.

수학식 2에 표현된 바와 같이, 음소 간의 대체 확률이 높을수록 음소 간의 발음 거리는 가까울 수 있다. 즉, 음소 간의 발음 거리와 음소 간의 대체 확률은 반비례할 수 있다.

음성 인식 장치는 결정한 음소 간의 발음 거리를 기초로 음소 간의 거리 행렬을 계산할 수 있다. 일실시예에 따르면, 음성 인식 장치는 음소 간의 대체확률을 기초로 계산한 음소 간의 거리 행렬을 도 3에 도시된 바와 같이 표현할 수 있다. 즉, 음소 간의 거리 행렬은 각 음소와 다른 음소들 간의 발음 거리 또는 대체확률을 표현한 행렬을 의미한다.

이하에서는 음소 간의 발음 거리를 기초로 단어 간의 거리 행렬을 도출하는 방법을 설명한다.

음성 인식 장치는 음소 간의 거리 행렬을 기초로 모든 단어 간의 거리 행렬을 도출할 수 있다. 단어 간의 거리 행렬은 단어 간의 발음 거리를 행렬로 표현한 것이다. 단어 간의 발음 거리는 음소 시퀀스 간의 발음 거리를 의미한다. 음소 시퀀스 간의 발음 거리는 음소 간의 발음 거리를 기초로 결정될 수 있다.

일실시예에 따르면, 음성 인식 장치는 리벤슈타인 거리(Levenshtein distance) 기법을 기초로 단어 간의 거리 행렬을 도출할 수 있다. 리벤슈타인 기법은 한 단어를 다른 단어로 바꿀 때 몇 번의 변경이 필요한지를 측정하는 기법이다. 예를 들어, 음성 인식 장치는 문자 당 단위 거리를 '1'로 설정하여 단어 간의 발음 거리를 계산할 수 있다.

다른 예로, 음성 인식 장치는 문자 당 단위 거리를 '음소 간의 발음 거리'로 설정하여 단어 간의 발음 거리를 계산할 수 있다. 즉, 음성 인식 장치는 리벤슈타인 거리 기법을 변형한 거리 계산 기법을 이용하여 단어 간의 발음 거리를 계산할 수 있다. 이에 따라, 음성 인식 장치는 단어 간의 발음 거리를 보다 정확히 계산할 수 있다. 그러나, 단어 간의 발음 거리를 도출하는 방법은 일실시예에 한정되지 않으며, 다양한 방법을 통해 단어 간의 발음 거리를 도출할 수 있다.

음성 인식 장치는 단어 내의 특정 문자열이 삭제되거나 추가되는 확률을 고려하여 임베딩 벡터를 배치할 수 있다. 일실시예에 따르면, 음성 인식 장치는 단어로부터 삭제된 특정 문자열, 또는 추가된 문자열 간의 발음 거리를 계산할 수 있다. 예를 들어, '스마트 폰'의 경우, 사용자는 '폰'을 삭제하여 발음할 수도 있다. 이 경우, 음성 인식 장치는 '폰'을 삭제할 확률이 높다고 판단하고, 단어 간의 발음 거리를 가깝게 계산하여 사용자의 음성 명령이 '스마트'라도, 사용자가 전달하고자 하는 음성 명령은 '스마트 폰'에 대응하는 것으로 예측할 수 있다.

이하에서는 단어 간의 거리 행렬로부터 N차원의 임베딩 스페이스 상에 임베딩 벡터를 배치하는 방법에 대해 설명한다.

일실시예에 따르면, 음성 인식 장치는 단어 간 거리 행렬에 다중 차원 스케일링 기법을 적용함으로써 N차원 임베딩 스페이스상에서 각 단어를 한 점의 임베딩 벡터로 배치할 수 있다.

다중 차원 스케일링 기법은 개체들의 특성을 측정한 후, 측정한 특성들을 이용하여 개체들 사이의 유사성에 따라 개체들을 다차원 공간상의 점으로 배치하는 방법이다. 음성 인식 장치는 다중 차원 스케일링 기법을 이용하여 단어 간 거리 행렬의 요소들을 N 차원 임베딩 벡터로 변환할 수 있다. 이에 따라, 도 3에 도시된 바와 같이, 음성 인식 장치는 N차원의 임베딩 스페이스 상에 임베딩 벡터를 배치할 수 있다. 다중 차원 스케일링 기법은 하기 수학식과 같이 표현될 수 있다.

cmdscale 함수는 단어 간 거리 행렬을 입력받아 좌표를 반환하는 함수를 의미한다. 즉, 음성 인식 장치는 모든 단어 간의 발음 거리를 단어 간 거리 행렬로 계산하고, 계산한 단어 간 거리 행렬에 cmdscale 함수를 적용하여 임베딩 스페이스 상에서의 좌표로 변환할 수 있다.

이에 따라, 음성 인식 장치는 N차원의 임베딩 스페이스 상에 모든 단어의 음소 시퀀스가 매핑된 임베딩 벡터를 배치할 수 있다. 동일한 단어라도 의미에 따라 다양하게 발음될 수 있다. 또한, 동일한 단어라도 사용자의 억양에 따라 다르게 발음될 수 있다. 음성 인식 장치는 모든 단어의 음소 시퀀스를 임베딩 벡터와 매핑하여 배치할 수 있다. 이에 따라, 음성 인식 장치는 보다 정확하게 사용자의 음성 명령을 인식할 수 있다.

도 4는 일실시예에 따른 음성 명령 인식의 정확도를 향상하는 기법을 설명하기 위한 도면이다.

도 4에 도시된 바와 같이 음성 인식 장치는 단어 간의 발음 거리를 기반으로 임베딩 벡터를 N차원의 임베딩 스페이스 상의 한 점으로 배치할 수 있다. 도 4를 참고하면, lived, live, live의 음소 시퀀스는 각각 [l ih v], [l ay f], [l ay v] 이다. 각 단어는 복수의 음소 시퀀스를 포함할 수 있다. 예를 들어, live가 [l ih v]로 발음될 확률은 0.4, [l ay f]로 발음될 확률은 0.3 및 [l ay v]로 발음될 확률은 0.2인 경우를 가정한다. 도 4에 도시된 바와 같이, 음성 인식 장치는 N차원의 임베딩 스페이스 상에 음소 시퀀스 [l ih v], [l ay f], 또는 [l ay v]가 매핑된 임베딩 벡터를 개별적으로 배치할 수 있다.

도 4에 도시된 바와 같이 사용자의 음성 명령으로부터 도출된 음소 시퀀스가 N차원의 임베딩 스페이스 상의 X 좌표에 위치하는 경우, 음성 인식 장치는 X 좌표로부터 가장 가까운 거리에 있는 음소 시퀀스 [l ih v]가 매핑된 임베딩 벡터를 선택할 수 있다. 이에 따라, 음성 인식 장치는 [l ih v]에 대응하는 단어 live를 예측할 수 있다. 이에 따라, 음성 인식 장치는 사용자의 음성 명령을 보다 정확하게 예측할 수 있다.

도 5는 일실시예에 따른 단어 간 발음 거리를 기초로 임베딩 벡터를 생성하는 방법의 흐름도를 도시한 도면이다.

단계(500)에서, 음성 인식 장치는 모든 단어의 음소 시퀀스를 비교할 수 있다. 동일한 단어라도 의미에 따라 발음은 달라질 수 있다. 또한, 단어의 발음은 사용자의 억양 등에 의해 변화될 수 있다. 따라서, 음성 인식 장치는 모든 단어의 음소 시퀀스를 비교하여, 발음 유사도를 판단하고, 판단 결과를 기초로 음소 간의 거리 행렬을 결정할 수 있다.

음소 간의 거리 행렬은 음소 간의 발음 거리를 행렬로 표현한 것이다. 음소 간 거리 행렬은 음소 간의 대체 확률을 기초로 결정될 수 있다. 음소 간의 대체 확률이 높다는 것은 음소 간의 발음이 변형될 확률이 높다는 것을 의미한다. 또한, 음소 간의 대체 확률은 음소 간의 발음 거리와 반비례할 수 있다.

단계(510)에서, 음성 인식 장치는 음소 간의 거리 행렬을 기초로 단어 간의 거리 행렬을 도출할 수 있다. 단어 간 거리 행렬은 단어 간의 발음 거리를 행렬로 표현한 것이다. 단어 간의 발음 거리는 단어의 음소 시퀀스 간의 발음 거리를 기초로 결정될 수 있다. 음소 시퀀스에 포함된 음소 간의 대체 확률이 높을수록 단어 간의 발음 거리는 가까울 수 있다.

일실시예에 따르면, 음성 인식 장치는 리벤슈타인 거리 기법에 기초하여 단어 간의 발음 거리를 계산할 수 있다. 이 때, 음성 인식 장치는 '음소 간 발음 거리'를 문자 당 단위 거리로 이용함으로써 보다 정확하게 단어 간의 발음 거리를 계산할 수 있다. 그러나, 단어 간의 발음 거리를 계산하는 방법은 상기 일실시예에 한정되지 않고, 다양한 방법을 통해 단어 간의 발음 거리를 계산할 수 있다. 단계(520)에서, 음성 인식 장치는 단어 간 거리 행렬을 기초로 임베딩 스페이스 상에서 배치되는 임베딩 벡터를 생성할 수 있다. 임베딩 벡터는 단어의 음소 시퀀스가 매핑된 벡터를 의미한다.

일실시예에 따르면, 음성 인식 장치는 다중 차원 스케일링 기법을 이용하여 단어 간 거리 행렬을 임베딩 벡터로 변환하고, 변환한 임베딩 벡터를 N차원의 임베딩 스페이스 상에 배치할 수 있다. 그러나, N차원의 임베딩 스페이스 상에 임베딩 벡터를 배치하는 방법은 일실시예에 한정되지 않고, 다양한 방법을 통해 다차원 공간 상에 배치할 수 있다.

일실시예에 따르면, 음성 인식 장치는 N차원 임베딩 스페이스 상에 배치된 임베딩 벡터 중에서 사용자의 음성 명령으로부터 도출된 음소 시퀀스와 가장 가까운 거리에 위치한 임베딩 벡터를 선택할 수 있다. 이에 따라, 음성 인식 장치는 선택한 임베딩 벡터에 매핑된 음소 시퀀스에 대응하는 단어를 통해 사용자의 음성 명령을 예측할 수 있다. 따라서, 사용자의 억양에 따라 발음이 변형되더라도 음성 인식 장치는 사용자의 음성 명령을 보정하여 보다 정확하게 예측할 수 있다.

일실시예에 따르면, 음성 인식 장치는 인식한 사용자의 음성 명령에 대응하는 프로세스를 처리할 수 있다. 예를 들어, 음성 인식 장치는 프로세서를 통해 사용자의 명령에 대응하는 프로세스를 처리하고, 처리 결과를 제공할 수 있다.

다른 예로, 음성 인식 장치는 인식한 사용자의 음성 명령을 사용자 단말에 전달할 수 있다. 이에 따라, 사용자 단말은 인식한 사용자의 음성 명령에 대응하는 프로세스를 처리하고, 처리 결과를 제공할 수 있다.

도 6은 음소 시퀀스의 발음 거리를 기반으로 음성 인식 결과를 제공하는 음성 인식 엔진 생성 방법의 동작 흐름도를 도시한 도면이다.

이하에서 설명되는 음성 인식 엔진 생성 장치는 음성 인식 엔진을 생성할 수 있는 장치를 의미한다. 일실시예에 따르면, 음성 인식 엔진 생성 장치는 음성 인식 장치 내에 위치할 수 있다. 다른 예로, 음성 인식 엔진 생성 장치는 음성 인식 장치와 별개의 장소에 위치할 수도 있다.

단계(600)에서, 음성 인식 엔진 생성 장치는 복수의 단어 각각의 음소 시퀀스를 도출할 수 있다. 음소 시퀀스는 단어에 포함된 음소의 연속된 배열을 의미한다. 음소 시퀀스는 발음을 기초로 표현될 수 있다. 따라서, 하나의 단어가 복수 개의 발음으로 표현되는 경우, 음성 인식 엔진 생성 장치는 하나의 단어와 관련된 복수 개의 음소 시퀀스를 각각 도출할 수 있다.

단계(610)에서, 음성 인식 엔진 생성 장치는 음소 시퀀스를 구성하는 음소 각각을 비교하여 음소 시퀀스 간의 발음 유사도를 결정할 수 있다. 발음 유사도는 발음의 유사 정도를 의미한다. 일실시예에 따르면, 음성 인식 엔진 생성 장치는 도출한 음소 시퀀스를 비교하고, 비교 결과를 통해 음소 간의 대체 확률을 계산할 수 있다. 음소 간의 대체 확률은 사용자가 단어를 발음할 때 단어 내에 포함된 음소가 변형될 확률을 의미한다.

음성 인식 엔진 생성 장치는 음소 간의 대체 확률에 따라 음소 시퀀스 간의 발음 유사도를 결정할 수 있다. 일실시예에 따르면, 음소 간의 대체 확률이 높을수록 음소 시퀀스 간의 발음 유사도는 높을 수 있다. 즉, 음성 인식 엔진 생성 장치는 복수의 단어 각각의 음소 시퀀스를 비교하여 음소 시퀀스 간의 상대적 관계를 결정할 수 있다.

단계(620)에서, 음성 인식 엔진 생성 장치는 음소 시퀀스 간의 발음 유사도에 따라 복수의 단어 간 발음 거리를 결정할 수 있다. 일실시예에 따르면, 음성 인식 엔진 장치는 음소 시퀀스 간의 발음 유사도에 따라 단어 간 발음 거리를 결정할 수 있다. 음성 인식 엔진 생성장치는 단어 간 발음 거리를 행렬로 표현할 수 있다. 단어간 발음 거리를 행렬로 표현한 것은 단어 간 거리 행렬을 의미한다.

단계(630)에서, 음성 인식 엔진 생성 장치는 단어 간 발음 거리를 기초로 임베딩 벡터를 생성할 수 있다. 일실시예에 따르면, 음성 인식 엔진 생성 장치는 단어 간 발음 거리를 행렬로 표현한 단어 간 거리 행렬의 요소들을 다차원의 임베딩 스페이스 상에 배치할 수 있다. 음성 인식 엔진 생성 장치는 단어 간 거리 행렬에 다중 차원 스케일링 기법을 적용함으로써, 단어 간 거리 행렬의 요소들이 매핑된 벡터를 N차원 임베딩 스페이스 상에 배치할 수 있다. N차원 임베딩 스페이스 상에 배치된 벡터는 임베딩 벡터를 의미한다. 즉, 음성 인식 엔진 생성 장치는 다중 차원 스케일링 기법을 적용하여 단어 간 거리 행렬의 요소들 각각에 대해 좌표를 설정할 수 있다. 이에 따라, 음성 인식 엔진 생성 장치는 N차원의 임베딩 스페이스상에 임베딩 벡터가 배치된 음성 인식 엔진을 생성할 수 있다.

도 7은 음성 인식 장치와 음성 인식 엔진 간의 관계를 도시한 도면이다.

음성 인식 장치와 음성 인식 엔진은 동일한 장치 내에 위치할 수 있으며, 하나의 모듈로 구현될 수도 있다. 다른 예로, 음성 인식 엔진은 음성 인식 장치와는 별개의 장치에 위치할 수도 있다. 이 때, 음성 인식 장치는 음성 인식 엔진과 연동하여 음성 인식 서비스를 제공할 수 있다.

음성 인식 장치는 음성 인터페이스를 통해 사용자의 음성 입력을 수신할 수 있다. 일실시예에 따르면, 음성 인식 장치는 사용자의 음성 입력으로부터 도출한 음소 시퀀스를 음성 인식 엔진에 전달할 수 있다.

다른 예로, 음성 인식 장치는 음성 인식 엔진에 사용자의 음성 입력을 전달할 수 있다. 그러면, 음성 인식 엔진은 사용자의 음성 입력으로부터 음소 시퀀스를 도출할 수 있다.

이하에서는 음성 인식 장치로부터 도출된 음소 시퀀스 또는 음성 인식 엔진으로부터 도출된 음소 시퀀스에 기초하여 음성 인식 엔진이 음성 인식을 수행하는 방법을 설명한다.

음성 인식 엔진은 입력 받은 음소 시퀀스의 발음 거리를 결정할 수 있다. 발음 거리는 발음의 유사도에 따라 결정될 수 있다. 예를 들어, 음소 시퀀스 간의 발음 유사도가 높으면, 발음 거리는 가까울 수 있다. 음소 시퀀스의 발음 거리는 단어의 발음 거리를 의미한다.

일실시예에 따르면, 음성 인식 엔진은 음소 시퀀스의 발음 거리에 기초하여 N차원의 임베딩 스페이스 상에 임베딩 벡터를 배치할 수 있다. 임베딩 벡터는 음소 시퀀스가 매핑된 벡터를 의미한다. 음성 인식 엔진은 복수의 단어 각각에 대해 음소 시퀀스를 비교하여 발음 유사도에 따라 발음 거리를 설정할 수 있다. 예를 들어, 음소 시퀀스 간의 발음 유사도가 높을수록, 음성 인식 엔진은 음소 시퀀스 간의 발음 거리를 가깝게 설정할 수 있다. 이에 따라, 음성 인식 엔진은 임베딩 벡터가 배치된 N차원의 임베딩 스페이스를 생성할 수 있다.

음성 인식 엔진은 N차원의 임베딩 벡터에 매핑된 음소 시퀀스와 입력 받은 음소 시퀀스를 비교하여, 입력 받은 음소 시퀀스의 발음 거리로부터 가장 가까운 곳에 배치된 임베딩 벡터를 선택할 수 있다.

음성 인식 엔진은 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 음성 인식 결과를 출력할 수 있다. 이에 따라, 음성 인식 엔진은 음성 인식 장치에 음성 인식 결과를 전달할 수 있다. 그러면, 음성 인식 장치는 음성 인식 결과에 대응하는 프로세스를 수행할 수 있다.

음성 인식 장치는 음성 인식 결과를 기초로 사용자가 실행하고자 하는 서비스를 실행할 수 있다. 일실시예에 따르면, 음성 인식 장치는 대화 엔진, 음성 명령, SMS 송신, 받아 쓰기, 실시간 통역 등 음성 인식 기능을 사용하는 모든 응용 서비스를 실행할 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

사용자의 음성 입력을 수신하는 단계;
상기 음성 입력으로부터 도출된 음소 시퀀스를 음성 인식 엔진에 전송하는 단계; 및
상기 음성 인식 엔진으로부터 음성 인식 결과를 수신하는 단계
를 포함하고,
상기 음성 인식 엔진은,
상기 음성 입력으로부터 도출된 음소 시퀀스의 발음 거리를 기반으로 상기 음성 인식 결과를 제공하는 음성 인식 방법.
제1항에 있어서,
상기 음성 인식 엔진은,
N차원 임베딩 스페이스(embedding space) 상에 배치된 임베딩 벡터(embedding vector) 중에서 상기 음성 입력으로부터 도출된 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 상기 음성 인식 결과를 제공하는 음성 인식 방법.
제1항에 있어서,
상기 음성 인식 엔진은,
복수의 단어의 음소 시퀀스 간의 발음 유사도에 따라 결정된 단어 간 발음 거리를 행렬로 표현한 단어 간 거리 행렬을 포함하는 음성 인식 방법.
제1항에 있어서,
상기 음성 인식 엔진은,
단어 간 거리 행렬에 다중 차원 스케일링(Multi-Dimensional Scaling) 기법을 적용하여 N차원의 임베딩 스페이스상에 배치된 임베딩 벡터로 구성되는 음성 인식 방법.
사용자의 음성 입력을 수신하는 단계;
상기 음성 입력을 음성 인식 엔진에 전송하는 단계; 및
상기 음성 인식 엔진으로부터 음성 인식 결과를 수신하는 단계
를 포함하고,
상기 음성 인식 엔진은,
상기 음성 입력으로부터 음소 시퀀스를 도출하고, 상기 도출한 음소 시퀀스의 발음 거리를 기반으로 상기 음성 인식 결과를 제공하는 음성 인식 방법.
제5항에 있어서,
상기 음성 인식 엔진은,
N차원 임베딩 스페이스 상에 배치된 임베딩 벡터 중에서 상기 도출한 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 상기 음성 인식 결과를 제공하는 음성 인식 방법.
제5항에 있어서,
상기 음성 인식 엔진은,
복수의 단어의 음소 시퀀스 간의 발음 유사도에 따라 결정된 단어 간 발음 거리를 행렬로 표현한 단어 간 거리 행렬을 포함하는 음성 인식 방법.
제5항에 있어서,
상기 음성 인식 엔진은,
단어 간 거리 행렬에 다중 차원 스케일링 기법을 적용하여 N차원의 임베딩 스페이스상에 배치된 임베딩 벡터로 구성되는 음성 인식 방법.
복수의 단어에 대해 각각의 음소 시퀀스를 도출하는 단계;
상기 음소 시퀀스를 구성하는 음소 각각을 비교하여 음소 시퀀스 간의 발음 유사도를 결정하는 단계;
상기 결정된 음소 시퀀스 간의 발음 유사도에 따라 상기 복수의 단어 간 발음 거리를 계산하는 단계; 및
상기 계산된 단어 간 발음 거리를 기초로 임베딩 벡터를 생성하는 단계
를 포함하는 음성 인식 엔진 생성 방법.
제9항에 있어서,
상기 계산하는 단계에서는,
상기 음소 시퀀스 간의 발음 유사도가 높으면 단어 간 발음 거리를 가깝게 계산하는 음성 인식 엔진 생성 방법.
제9항에 있어서,
상기 결정하는 단계에서는,
상기 음소 시퀀스를 구성하는 음소 간의 대체 확률을 계산하는 단계; 및
상기 계산한 음소 간의 대체 확률이 높으면 상기 음소 시퀀스 간의 발음 유사도를 높게 결정하는 단계
를 포함하는 음성 인식 엔진 생성 방법.
제9항에 있어서,
상기 생성하는 단계에서는,
상기 단어 간 발음 거리를 행렬로 표현한 단어 간 거리 행렬에 다중 차원 스케일링 기법을 적용하여 임베딩 벡터를 생성하는 음성 인식 엔진 생성 방법.
제9항에 있어서,
상기 계산하는 단계에서는,
상기 음소 시퀀스를 구성하는 음소 각각을 비교하여 도출된 음소 간 발음 거리에 기초한 거리 계산 기법을 이용하여 단어 간 발음 거리를 계산하는 음성 인식 엔진 방법.
제9항에 있어서,
상기 생성하는 단계에서는,
상기 단어 간 거리 행렬에 다중 차원 스케일링을 적용하여 생성한 임베딩 벡터를 이용하여 단어를 예측하는 단계
를 더 포함하는 음성 인식 엔진 방법.
사용자의 음성 입력으로부터 도출된 음소 시퀀스를 수신하는 단계;
N차원 임베딩 스페이스 상에 배치된 복수의 임베딩 벡터 중에서 상기 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터를 선택하는 단계; 및
상기 선택된 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 음성 인식 결과를 출력하는 단계
를 포함하는 음성 인식 방법.
제15항에 있어서,
상기 임베딩 벡터는,
복수의 단어의 음소 시퀀스 간의 발음 유사도에 따라 결정된 단어 간 발음 거리를 기초로 생성되는 음성 인식 방법.
제15항에 있어서,
상기 임베딩 벡터는,
단어 간 발음 거리를 행렬로 표현한 단어 간 거리 행렬에 다중 차원 스케일링 기법을 적용하여 생성되는 음성 인식 방법.
사용자의 음성 입력을 수신하는 단계;
상기 음성 입력으로부터 음소 시퀀스를 도출하는 단계;
N차원 임베딩 스페이스 상에 배치된 복수의 임베딩 벡터 중에서 상기 도출한 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터를 선택하는 단계; 및
상기 선택된 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 음성 인식 결과를 출력하는 단계
를 포함하는 음성 인식 방법.
제18항에 있어서,
상기 임베딩 벡터는,
복수의 단어의 음소 시퀀스 간의 발음 유사도에 따라 결정된 단어 간 발음 거리를 기초로 생성되는 음성 인식 방법.
제18항에 있어서,
상기 임베딩 벡터는,
단어 간 발음 거리를 행렬로 표현한 단어 간 거리 행렬에 다중 차원 스케일링 기법을 적용하여 생성되는 음성 인식 방법.
음성 인식 장치에 있어서,
프로세서를 포함하고,
상기 프로세서는
사용자의 음성 입력을 수신하는 단계;
상기 음성 입력으로부터 도출된 음소 시퀀스를 음성 인식 엔진에 전송하는 단계; 및
상기 음성 인식 엔진으로부터 음성 인식 결과를 수신하는 단계
를 수행하고,
상기 음성 인식 엔진은,
상기 음성 입력으로부터 도출된 음소 시퀀스의 발음 거리를 기반으로 상기 음성 인식 결과를 제공하는 음성 인식 장치
제21항에 있어서,
상기 프로세서는,
N차원의 임베딩 스페이스 상에 배치된 임베딩 벡터 중에서 상기 음성 입력으로부터 도출된 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 상기 사용자의 음성 입력을 인식하는 음성 인식 장치.
음성 인식 장치에 있어서,
프로세서를 포함하고,
상기 프로세서는
사용자의 음성 입력을 수신하는 단계;
상기 음성 입력을 음성 인식 엔진에 전송하는 단계; 및
상기 음성 인식 엔진으로부터 음성 인식 결과를 수신하는 단계
를 수행하고,
상기 음성 인식 엔진은,
상기 음성 입력으로부터 음소 시퀀스를 도출하고, 상기 도출한 음소 시퀀스의 발음 거리를 기반으로 상기 음성 인식 결과를 제공하는 음성 인식 장치.
제23항에 있어서,
상기 음성 인식 엔진은,
N차원 임베딩 스페이스 상에 배치된 임베딩 벡터 중에서 상기 도출한 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 상기 음성 인식 결과를 제공하는 음성 인식 장치.
음성 인식 엔진 생성 장치에 있어서,
프로세서를 포함하고,
상기 프로세서는,
복수의 단어에 대해 각각의 음소 시퀀스를 도출하는 단계;
상기 음소 시퀀스를 구성하는 음소 각각을 비교하여 음소 시퀀스 간의 발음 유사도를 결정하는 단계;
상기 결정된 음소 시퀀스 간의 발음 유사도에 따라 상기 복수의 단어 간 발음 거리를 결정하는 단계; 및
상기 결정된 단어 간 발음 거리를 기초로 임베딩 벡터를 생성하는 단계
를 수행하는 음성 인식 엔진 생성 장치.
제25항에 있어서,
상기 프로세서는,
상기 음소 시퀀스 간의 발음 유사도가 높으면 단어 간 발음 거리를 가깝게 계산하는 음성 인식 엔진 생성 장치.
제25항에 있어서,
상기 프로세서는,
상기 음소 시퀀스를 구성하는 음소 간의 대체 확률을 계산하고, 상기 계산한 음소 간의 대체 확률이 높으면 상기 음소 시퀀스 간의 발음 유사도를 높게 결정하는 음성 인식 엔진 생성 장치.
제25항에 있어서,
상기 프로세서는,
상기 단어 간 거리를 행렬로 표현한 단어 간 거리 행렬에 다중 차원 스케일링을 적용하여 생성한 임베딩 벡터를 기초로 단어를 예측하는 단계
를 더 수행하는 음성 인식 엔진 생성 장치.
음성 인식 장치에 있어서,
프로세서를 포함하고,
상기 프로세서는,
사용자의 음성 입력으로부터 도출된 음소 시퀀스를 수신하는 단계;
N차원 임베딩 스페이스 상에 배치된 복수의 임베딩 벡터 중에서 상기 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터를 선택하는 단계; 및
상기 선택된 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 음성 인식 결과를 출력하는 단계
를 수행하는 음성 인식 장치.
제29항에 있어서,
상기 임베딩 벡터는,
복수의 단어의 음소 시퀀스 간의 발음 유사도에 따라 결정된 단어 간 발음 거리를 기초로 생성되는 음성 인식 장치.
음성 인식 장치에 있어서,
프로세서를 포함하고,
상기 프로세서는,
사용자의 음성 입력을 수신하는 단계;
상기 음성 입력으로부터 음소 시퀀스를 도출하는 단계;
N차원 임베딩 스페이스 상에 배치된 복수의 임베딩 벡터 중에서 상기 음소 시퀀스의 발음 거리와 가장 가까운 임베딩 벡터를 선택하는 단계; 및
상기 선택된 임베딩 벡터에 매핑된 음소 시퀀스를 기초로 음성 인식 결과를 출력하는 단계
를 수행하는 음성 인식 장치.
제31항에 있어서,
상기 임베딩 벡터는,
복수의 단어의 음소 시퀀스 간의 발음 유사도에 따라 결정된 단어 간 발음 거리를 기초로 생성되는 음성 인식 장치.