WO2021162362A1

WO2021162362A1 - 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치

Info

Publication number: WO2021162362A1
Application number: PCT/KR2021/001570
Authority: WO
Inventors: 지창진; 황명진
Original assignee: 주식회사 엘솔루
Priority date: 2020-02-11
Filing date: 2021-02-05
Publication date: 2021-08-19
Also published as: US20230055233A1; KR102152902B1

Abstract

본 발명의 일 실시 예에 따른 음성 데이터를 텍스트 데이터로 변환하도록 음성 인식 모델을 학습시키는 방법은, 상기 음성 데이터를 입력받는 단계; 상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호데이터로 변환하는 단계; 상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하는 단계; 상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하는 단계; 및 상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하는 단계를 포함할 수 있다.

Description

음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치

본 발명은 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치에 관한 것이다.

음성 인식(Speech-To-Text)은 입력된 음성에 맞는 텍스트를 생성하는 기술이다.

음성 인식 장치의 학습 과정은 통상적으로, 음성 데이터 및 음성 데이터에 대응되는 텍스트 데이터(음성-텍스트 병렬 데이터)를 확보하는 과정, 텍스트 기호(음소, 자소)를 음성 기호(발음 기호)로 변환하는 P2G(Phoneme-to-Grapheme) 기술을 확보하는 과정, P2G를 이용하여 음성-텍스트 기호 병렬 데이터를 음성-음성 기호 병렬 데이터로 변환하는 과정, 음성 데이터로부터 음성 기호를 생성할 수 있도록 음향 모델을 학습시키는 과정, 대용량 텍스트를 이용하여 언어모델을 학습시키는 과정 등을 거친다.

이때, 음성 데이터에 대응되는 텍스트 기호는 발음기호로 표기되지 않고 통상 표준 표기법에 따른 일반 문자로 표기되는데, 이는 상기 음성-텍스트 기호 병렬 데이터를 음성 기호로 표현한 음성-음성 기호 병렬 데이터를 확보하는 데는 음성-텍스트 병렬 데이터를 확보하는데 비해 몇 배의 비용과 시간이 드는 문제가 있기 때문이다.

하지만 일반 문자로 표기된 음성-텍스트 기호 병렬 데이터를 확보하는 데에도 시간과 비용이 많이 들어 이를 개선할 필요가 있다.

본 발명이 해결하고자 하는 과제는, 따라서, 음성-텍스트 병렬 데이터 및 음성-음성 기호 병렬 데이터를 확보하지 않고도 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 모델을 이용하여 음성 데이터를 텍스트 데이터로 변환하는 음성 인식 장치를 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시 예에 따른 음성 데이터를 텍스트 데이터로 변환하도록 음성 인식 모델을 학습시키는 방법은, 상기 음성 데이터를 입력받는 단계; 상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하는 단계; 상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하는 단계; 상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하는 단계; 및 상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하는 단계를 포함할 수 있다.

상기 하나 이상의 단어 후보들을 생성하는 단계는, 상기 발음기호 데이터로부터 생성된 발음기호열 조각과 일반 텍스트 데이터로부터 생성된 자소열 조각의 매핑에 기초하여 상기 하나 이상의 단어 후보들을 생성할 수 있다.

상기 하나 이상의 단어 후보들을 생성하는 단계는, 상기 발음기호 데이터로부터 생성된 발음기호열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각을 상기 일반 텍스트 데이터로부터 생성된 자소열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 자소열 조각과 매핑하고, 상기 하나 이상의 발음기호열 조각 및 상기 하나 이상의 자소열 조각의 매핑을 이용하여 상기 하나 이상의 단어들을 생성할 수 있다.

상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호 데이터의 생성에 관련된 규칙에 가중치를 부여하는데 이용될 수 있다.

상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호열 조각 및 자소열 조각의 매핑에 관련된 규칙에 가중치를 부여하는 데 이용될 수 있다.

상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 관련된 규칙에 가중치를 부여하는 데 이용될 수 있다.

상기 컨텍스트는 자소, 글자 또는 형태소를 포함하는 문맥, 문장 구조, 품사 및 문장 성분 중에서 하나 이상을 포함할 수 있다.

본 발명의 다른 실시 예에 따른 음성 인식 모델을 실행하여 음성 데이터를 텍스트 데이터로 변환하는 음성 인식 장치는, 상기 음성 데이터를 입력받는 입출력기; 상기 음성 인식 모델에 대한 정보를 저장하는 메모리; 및 상기 음성 인식 모델을 실행하여 상기 음성 데이터를 상기 텍스트 데이터로 변환하는 프로세서를 포함하고, 상기 음성 인식 모델은, 상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하고, 상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하고, 상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하고, 상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여할 수 있다.

본 발명의 실시 예에 의하면, 음성-텍스트 병렬 데이터 및 음성-음성 기호 병렬 데이터를 확보하지 않고도 음성 인식 모델을 학습시킬 수 있으므로, 음성 인식을 수행하는데 필요한 시간 및 비용을 획기적으로 줄일 수 있는 효과가 있다.

도 1은 본 발명의 일 실시 예에 따른 음성 인식 장치를 나타내는 블록도이다.

도 2는 본 발명의 일 실시 예에 따른 음성 인식 모델을 학습시키는 방법을 개념적으로 나타낸 블록도이다.

도 3은 본 발명의 일 실시 예에 따라 발음기호열 조각과 자소열 조각을 매핑하는 방법을 나타낸다.

도 4는 본 발명의 일 실시 예에 따른 음향 모델의 기능을 나타내는 블록도이다.

도 5는 본 발명의 일 실시 예에 따른 조각 생성 및 조각 매핑부의 기능을 나타내는 블록도이다.

도 6은 본 발명의 일 실시 예에 따른 P2G 모델의 기능을 나타내는 블록도이다.

도 7은 본 발명의 일 실시 예에 따른 언어 모델의 기능을 나타내는 블록도이다.

도 8은 본 발명의 일 실시 예에 따라 음성 인식 모델을 학습시키는 방법을 나타내는 흐름도이다.

본 발명은 최선의 형태로,

음성 데이터를 텍스트 데이터로 변환하도록 음성 인식 모델을 학습시키는 방법에 있어서, 상기 음성 데이터를 입력받는 단계; 상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하는 단계; 상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하는 단계; 상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하는 단계; 및 상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하는 단계를 포함하고,

상기 하나 이상의 단어 후보들을 생성하는 단계는,

상기 발음기호 데이터로부터 생성된 발음기호열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각을 일반 텍스트 데이터로부터 생성된 자소열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 자소열 조각과 매핑하고, 상기 하나 이상의 발음기호열 조각 및 상기 하나 이상의 자소열 조각의 매핑을 이용하여 상기 하나 이상의 단어들을 생성하는 음성 인식 모델 학습 방법을 제시한다.

또한, 본 발명은 최선의 형태로,

음성 인식 모델을 실행하여 음성 데이터를 텍스트 데이터로 변환하는 음성 인식 장치에 있어서, 상기 음성 데이터를 입력받는 입출력기; 상기 음성 인식 모델에 대한 정보를 저장하는 메모리; 및 상기 음성 인식 모델을 실행하여 상기 음성 데이터를 상기 텍스트 데이터로 변환하는 프로세서를 포함하고,

상기 음성 인식 모델은,

상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하고,

상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하고,

상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하고,

상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하고,

상기 음성 데이터와는 구분되는 일반 텍스트 데이터를 하나 이상의 자소열 데이터로 변환하고,

상기 발음기호 데이터로부터 생성된 발음기호열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각을 상기 자소열 데이터로부터 생성된 자소열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 자소열 조각과 매핑하고, 상기 하나 이상의 발음기호열 조각 및 상기 하나 이상의 자소열 조각의 매핑을 이용하여 상기 하나 이상의 단어 후보들을 생성하는 음성 인식 장치를 제시한다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1을 참조하면, 음성 인식 장치(100)는 프로세서(110), 입출력기(120) 및 메모리(130)를 포함할 수 있다.

프로세서(110)는 음성 인식 장치(100)의 동작(기능)을 전반적으로 제어할 수 있다.

프로세서(110)는 입출력기(120)를 이용하여 하나 이상의 음성 데이터를 입력받을 수 있다.

입출력기(120)는 하나 이상의 입력기 및/또는 하나 이상의 출력기를 포함할 수 있다. 예컨대, 입출력기는 마이크, 키보드, 마우스, 터치 스크린 등의 입력기 및/또는 디스플레이, 스피커 등의 출력기를 포함할 수 있다.

실시 예에 따라, 프로세서(110)는 송수신기(미도시)를 이용하여 하나 이상의 음성 데이터를 수신할 수 있다.

메모리(130)는 음성 인식 모델(200) 및 음성 인식 모델(200)을 실행하는데 필요한 정보들을 저장할 수 있다.

프로세서(110)는 음성 인식 모델(200)을 실행하기 위하여 메모리(130)로부터 음성 인식 모델(200) 및 음성 인식 모델(200)을 실행하는데 필요한 정보들을 로드할 수 있다.

프로세서(110)는, 음성 인식 모델(200)을 실행하여, 입출력기(120)를 이용하여 입력된 음성 데이터를 대응하는 텍스트 데이터로 변환하고, 변환된 결과를 입출력기(120)를 통해 출력할 수 있다.

음성 인식 모델(200)은 음성 인식을 수행하기 위해 기 학습된 또는 학습 중인 모델(프로그램)이거나, 음성 인식을 수행하기 위해 기 학습된 또는 학습 중인 모델(프로그램)을 포함할 수 있다.

실시 예에 따라, 프로세서(110)는 변환된 결과를 송수신기(미도시)를 통해 전송할 수 있다.

도 2는 본 발명의 일 실시 예에 따른 음성 인식 모델을 학습시키는 방법을 개념적으로 나타낸 블록도이고, 도 3은 본 발명의 일 실시 예에 따라 발음기호열 조각과 자소열 조각을 매핑하는 방법을 나타내고, 도 4는 본 발명의 일 실시 예에 따른 음향 모델의 기능을 나타내는 블록도이고, 도 5는 본 발명의 일 실시 예에 따른 조각 생성 및 조각 매핑부의 기능을 나타내는 블록도이고, 도 6은 본 발명의 일 실시 예에 따른 P2G 모델의 기능을 나타내는 블록도이고, 도 7은 본 발명의 일 실시 예에 따른 언어 모델의 기능을 나타내는 블록도이다.

도 2를 참조하면, 음성 인식 모델(200)은 음향 모델(210), 조각 생성 및 조각 매핑부(220), P2G 모델(230) 및 언어 모델(240)을 포함할 수 있다.

도 2에 도시된 음향 모델(210), 조각 생성 및 조각 매핑부(220), P2G 모델(230) 및 언어 모델(240)은 음성 인식 모델(200)의 기능을 쉽게 설명하기 위하여 음성 인식 모델(200)의 기능을 개념적으로 나눈 것으로서, 이에 한정되지 않는다. 실시 예들에 따라, 음향 모델(210), 조각 생성 및 조각 매핑부(220), P2G 모델(230) 및 언어 모델(240)은 하나의 프로그램에 포함된 일련의 명령어들로 구현될 수 있고, 또는 각각이 하나의 프로그램(소프트웨어)으로 구현될 수도 있다.

본 명세서에서는 설명의 편의를 위해 음성 인식 모델(200)에 포함된 음향 모델(210) 및/또는 P2G 모델(230)이 학습되는 것으로 설명하였지만, 이에 한정되지 않는다. 즉, 실시 예에 따라, 음성 인식 모델(200)의 일부로서 음향 모델(210) 및/또는 P2G 모델(230)이 학습되는 것이 아니라 음성 인식 모델(200) 그 자체가 학습될 수도 있다.

또한, 본 명세서에서 모델이라 함은 본 명세서에서 설명되는 각각의 명칭에 따른 기능과 동작을 수행할 수 있는 명령어들로 구성된 컴퓨터 프로그램을 의미할 수 있다. 즉, 음성 인식 모델(200)은, 프로세서에 의해 실행되고, 메모리에 저장되는 컴퓨터 프로그램(애플리케이션 소프트웨어)의 일종일 수 있다.

도 4을 더 참조하면, 음향 모델(210)은 음성 데이터를 입력받고, 입력된 음성 데이터를 대응하는 발음기호 데이터로 변환할 수 있다. 여기서 발음기호 데이터란, 음성의 형태로 나타내어지는 음성 데이터의 발음을 기호의 형태로 나타낸 데이터를 의미할 수 있다. 예컨대, 음향 모델(210)이 "밥먹는"에 해당하는 음성 데이터를 입력받는 경우, 음향 모델(210)은 "밥먹는"의 발음에 해당하는 {"ㅂ", "ㅏ", "ㅁ", "ㅁ", "ㅓ", "ㅇ", "ㄴ", "ㅡ", "ㄴ"}을 나타내는 발음기호 데이터를 생성할 수 있다. 상기 발음기호 데이터는 하나 이상의 발음기호열을 포함할 수 있다.

실시 예에 따라, 음향 모델(210)은 음성 데이터를 이용하여 복수의 발음기호 데이터를 생성할 수 있다. 즉, 음향 모델(210)의 학습의 정도에 따라 음향 모델(210)이 생성하는 발음기호 데이터가 부정확할 수 있으므로, 음향 모델(210)은 하나의 음성 데이터를 변환한 결과로서 정답의 가능성이 있는 복수의 발음기호 데이터를 생성할 수 있다.

실시 예에 따라, 음향 모델(210)은 기 학습된 또는 학습 중인 인공 신경망일 수도 있고, 확률, 통계, 패턴, 규칙, 확률 그래프 등을 이용하여 학습된(또는 학습 중인) 모델일 수도 있다.

도 5를 더 참조하면, 조각 생성 및 조각 매핑부(220)는 음향 모델(210)에서 생성된 발음기호 데이터로부터 복수의 발음기호열 조각들을 생성할 수 있다. 발음기호 데이터는 하나 이상의 발음기호열을 포함할 수 있고, 발음기호열은 발음기호들을 포함할 수 있다. 조각 생성 및 조각 매핑부(220)는 하나 이상의 발음기호열 각각에 포함된 발음기호들에서 하나 이상의 발음기호들을 추출하여 발음기호열 조각을 생성할 수 있다. 상기 발음기호열 조각은 발음기호열마다 조각의 시작과 끝을 선택하는 경우의 수(nH2, 길이 n의 발음기호열에서 시작 위치 하나와 끝 위치 하나 총 2개의 위치를 선택하는 경우의 수)만큼 생성될 수 있다.

또한, 조각 생성 및 조각 매핑부(220)는 음성 데이터와는 별개의 일반 텍스트 데이터를 입력 받고, 일반 텍스트 데이터를 자소열 데이터로 변환할 수 있다.

조각 생성 및 조각 매핑부(220)는 자소열 데이터로부터 복수의 자소열 조각들을 생성할 수 있다. 상기 자소열 데이터는 하나 이상의 자소열을 포함할 수 있고, 자소열은 자소들을 포함할 수 있다. 조각 생성 및 조각 매핑부(220)는 하나 이상의 자소열 각각에 포함된 자소들에서 하나 이상의 자소들을 추출하여 자소열 조각을 생성할 수 있다. 상기 자소열 조각은 자소열마다 조각의 시작과 끝을 선택하는 경우의 수(nH2, 길이 n의 자소열에서 시작 위치 하나와 끝 위치 하나 총 2개의 위치를 선택하는 경우의 수)만큼 생성될 수 있다.

조각 생성 및 조각 매핑부(220)는 발음기호 데이터에 포함되고 하나 이상의 발음기호로 구성된 발음기호열 조각의 통계와 자소열 데이터에 포함되고 하나 이상의 자소로 구성된 자소열 조각의 통계에 기초하여 발음기호열 조각과 자소열 조각을 매핑할 수 있다. 예컨대, 조각 생성 및 조각 매핑부(220)는 발음기호열 조각의 빈도(개수)와 자소열 조각의 빈도(개수)를 비교하고, 빈도의 순위에 기초하여 발음기호열 조각과 자소열 조각을 매핑할 수 있다. 이는 높은 빈도로 발견되는 발음기호열 조각과 대응되는 자소열 조각 역시 높은 빈도로 발견될 가능성이 높기 때문이다.

예컨대, 조각 생성 및 조각 매핑부(220)는 발음기호 데이터에 포함된 발음기호열 조각 중에서 개수가 가장 많은 발음기호열 조각(또는 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각들)을 일반 텍스트 데이터에 포함된 음소들 중에서 개수가 가장 많은 음소 조각(또는 개수가 가장 많은 순으로 하나 이상의 음소 조각들)과 매핑할 수 있다.

실시 예에 따라, 발음기호열 조각과 자소열 조각의 매핑은 1:1 매핑이 아닐 수 있다. 발음기호열 조각과 자소열 조각의 매핑은 서로 대응될 가능성이 있는 발음기호열 조각과 자소열 조각의 쌍을 추출하는데 있는데, 음성에서 자주 쓰이는 단어는 텍스트에서도 자주 쓰일 것으로 예측할 수 있지만, 음향 모델(210)이 생성한 발음기호 데이터가 부정확할 가능성이 있으며 음성에서 자주 쓰이는 발음기호열과 텍스트에서 자주 쓰이는 자소열이 정확히 일치하지 않을 수 있으므로, 발음기호열 조각과 자소열 조각의 매핑은 1:k 또는 k:1 (여기서, k는 자연수) 매핑일 수 있다.

예컨대, 도 3을 참조하면, 조각 생성 및 조각 매핑부(220)가 발음기호 데이터로부터 생성된 발음기호열 조각들 전체를 i등분(i는 자연수)하여 발음기호열 조각 묶음들(300)을 생성하고, 자소열 데이터로부터 생성된 자소열 조각들 전체를 i등분하여 자소열 조각 묶음들(310)을 생성하는 경우를 가정할 수 있다. 이때, 조각 생성 및 조각 매핑부(220)는 발음기호열 조각 묶음들(300)에서 (j-m)번째 묶음부터 (j+m)번째 묶음까지의 발음기호열 조각들과 자소열 조각 묶음들(310)에서 (j-m)번째 묶음부터 (j+m)번째 묶음까지의 자소열 조각들이 서로 쌍이라고 가정하고, 발음기호열 조각과 자소열 조각의 쌍을 추출할 수 있다.

도 6을 더 참조하면, P2G 모델(230)은 음향 모델(210)에서 생성한 발음기호 데이터가 입력되는 경우 입력되는 발음기호 데이터에 대응되는 하나 이상의 단어 후보를 생성하도록 학습될 수 있다. 여기서, 단어 후보란, 발음 기호 데이터의 기초가 된 음성 데이터를 텍스트로 나타낸 텍스트 데이터의 후보를 의미하는 것으로서, 발음기호 데이터로부터 유추할 수 있는 음성 데이터(또는 음성 데이터에 대응하는 텍스트 데이터)가 유일하지 않음에 기인한 것이다.

실시 예에 따라, P2G 모델(230)은 지도 학습(supervised learning) 방식으로 학습될 수 있다. P2G 모델(230)은 발음기호열 조각과 자소열 조각의 매핑을 이용하여 학습될 수 있다.

예컨대, 발음기호 데이터가 {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}를 나타내는 경우, {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}로부터 유추될 수 있는 음성 데이터(또는 텍스트 데이터)는 "많이", "마니", "만이" 등이 될 수 있으므로, 상기 단어 후보들은 "많이", "마니", "만이"를 포함할 수 있다.

P2G 모델(230)은 음향 모델(210)이 생성한 복수의 발음기호 데이터를 입력받고, 복수의 발음기호 데이터 각각에 대응되는 하나 이상의 단어 후보를 생성할 수 있다.

실시 예에 따라, P2G 모델(230)은 신경망, 확률, 통계, 패턴, 규칙, 확률 그래프 등을 이용하여 학습된(또는 학습 중인) 모델일 수 있다.

도 7을 더 참조하면, 언어 모델(240)은 P2G 모델(230)에서 생성한 하나 이상의 단어 후보들 중에서 어느 하나를 음성 데이터에 대응하는 텍스트 데이터로 결정할 수 있다. 실시 예에 따라, 언어 모델(240)은 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 음성 데이터에 대응하는 텍스트 데이터로 결정할 수 있다. 컨텍스트는 자소, 글자, 단어 등의 문맥, 문장 구조, 품사 및 문장 성분 중에서 하나 이상을 포함할 수 있다. 즉, 언어 모델(240)은 자소, 글자, 단어 등의 문맥, 문장 구조, 품사 및 문장 성분 등에 기초하여 하나 이상의 단어 후보들 중에서 가장 자연스러운 단어 후보를 텍스트 데이터로 결정할 수 있다.

예컨대, 음향 모델(210)에 입력된 음성 데이터가 "나는 과일을 많이 먹습니다"인 경우, 음향 모델(210)은 음성 데이터에 포함된 "많이"에 대해 {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}에 해당하는 발음기호 데이터를 생성하고, P2G 모델(230)은 {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}에 해당하는 발음기호 데이터에 대하여 "많이" 및 "만이"를 포함하는 단어 후보들을 생성할 수 있다. 이때, 언어 모델(240)은 컨텍스트에 기초하여 "많이" 및 "만이" 등의 후보 중에서 "많이"를 텍스트 데이터로 결정할 수 있다.

상기 단어나 단어 후보는 문장의 일부분으로 바꿔 이해할 수 있다. 상기 문장의 일부분의 단위는 자소일 수 있다.

음향 모델(210)에서 생성된 발음기호 데이터가 실제로는 {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}처럼 사람이 유추할 수 있는 형태가 아닐 수 있다. 또한, 학습 초기에는 음성 데이터 '많이'에 대한 발음기호열이 {"ㅓ", "ㅏ", "ㄴ", "ㅡ", "ㅣ"}와 같이 엉뚱하게 생성되는 것도 있을 것이고, 발음기호열이 {"ㅁ", "ㅏ", "ㄴ", "ㅣ"}처럼 정상적으로 나왔더라도 단어 후보가 "ㅓㅏ늬"처럼 엉뚱하게 생성되는 경우도 있다. 다만, 이런 것들은, 언어 모델(240)의 역전파 값을 이용하여, 관련된 생성(변환) 규칙에 부정적인(마이너스) 가중치가 부여되거나 또는 올바르게 생성된(변환된) 데이터에 관련된 생성(변환) 규칙에 긍정적인(플러스) 가중치가 부여됨으로써 학습에서 배제될 수 있다.

전체적으로 학습 초기에는 부적절한 결과가 생성될 수도 있지만 학습 초기에 잘못 형성된 규칙은 도태되고 새로운 올바르게 형성된 규칙이 부각됨으로써, 음향 모델(210) 및/또는 P2G 모델(230)은 더 효율적이고 부작용이 적은 방향으로 학습될 수 있다.

상기 규칙은 신경망이나 확률그래프 등으로 바꿔 이해될 수도 있다.

이를 위해, 언어 모델(240)은, 음향 모델(210) 및/또는 P2G 모델(230)을 학습시키기 위하여, 컨텍스트에 기초하여 결정된 텍스트 데이터에 대한 정보를 포함하는 역전파(back propagation) 값을 음향 모델(210) 및/또는 P2G모델(230)로 전송할 수 있다. 즉, 음향 모델(210)이 복수의 발음기호 데이터를 생성하고, P2G 모델(230)이 복수의 단어 후보들을 생성하는 경우, 음향 모델(210)은 역전파 값에 기초하여 최종 결정된 텍스트 데이터 생성에 기여한 규칙에 가중치를 부여할 수 있고, P2G 모델(230)은 역전파 값에 기초하여 최종 결정된 텍스트 데이터 생성에 기여한 규칙에 가중치를 부여할 수 있다. 따라서, 음향 모델(210) 및 P2G 모델(230)은 언어 모델(240)로부터 수신한 텍스트 데이터에 대한 정보를 이용하여 보다 정확한 발음기호 데이터 및 단어 후보를 생성하도록 훈련될 수 있다.

도 6을 통해 설명한 P2G 모델(230)을 학습시키는 방법은 음성 데이터에서 추출한 발음기호(열)(조각)의 출현 빈도의 순위와 일반 텍스트 데이터에서 추출한 자소(열)(조각)의 출현 빈도의 순위는 유사할 것이라는 가정으로부터 비롯된 것으로서, 이러한 방법을 이용할 경우, 음성 데이터에 대응되는 텍스트 데이터가 확보되지 않더라도 P2G 모델(230)을 학습시킬 학습 데이터를 확보할 수 있다.

도 4 및 도 6을 통해 설명한 P2G 모델(230) 및 음향 모델(210)을 검증하고 모델을 강화시키는 방법은 언어 모델(240)을 통해 P2G의 결과 중 잘 된 것과 잘못된 것을 음향 모델(210) 및/또는 P2G 모델(230)에게 알려줌으로써 음향 모델(210) 및/또는 P2G 모델(230)의 규칙에서 강화시킬 부분과 약화시킬 부분을 확인할 수 있고 결과적으로 정확도를 향상시키는 방향으로 학습을 인도할 수 있다.

도 2 내지 도 8을 참조하면, 음향 모델(210)은 음성 데이터를 입력받고, 입력된 음성 데이터를 하나 이상의 발음기호 데이터로 변환할 수 있다(S800).

조각 생성 및 조각 매핑부(220)는 음성 데이터와는 별개의 일반 텍스트 데이터를 입력 받고, 일반 텍스트 데이터를 자소열 데이터로 변환할 수 있다(S810).

도 8에서는 설명의 편의를 위하여, 발음기호 데이터로의 변환 후에 자소열 데이터로의 변환이 실행되는 것으로 도시하였지만, 이에 한정되지 않는다. 즉, 발음기호 데이터로의 변환과 자소열 데이터로의 변환은 선후가 없을 수 있으며, 자소열 데이터로의 변환이 먼저 수행된 이후에 발음기호 데이터로의 변환이 수행될 수도 있으며, 두 동작이 동시에 수행될 수도 있다.

조각 생성 및 조각 매핑부(220)는 발음기호 데이터로부터 생성된 발음기호열 조각의 통계와 자소열 데이터로부터 생성된 자소열 조각의 통계에 기초하여 발음기호열 조각과 자소열 조각을 매핑할 수 있다(S820).

P2G 모델(230)은 발음기호열 조각과 자소열 조각의 매핑을 입력받고, 발음기호열 조각과 자소열 조각의 매핑에 기초하여 상기 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성할 수 있다(S830).

언어 모델(240)은 컨텍스트에 기초하여 하나 이상의 단어 후보들 중에서 어느 하나를 음성 데이터에 대응하는 텍스트 데이터로 결정할 수 있다(S840).

언어 모델(240)은, 음향 모델(210)이 변환한 하나 이상의 발음기호 데이터에 대한 피드백으로서, 상기 텍스트 데이터에 따른 역전파 값을 음향 모델(210)로 전송할 수 있다. 또한, 언어 모델(240)은 P2G 모델(230)이 생성한 하나 이상의 단어 후보들에 대한 피드백으로서, 상기 텍스트 데이터에 따른 역전파 값을 P2G 모델(230)로 전송할 수 있다.

음향 모델(210), 조각 생성 및 조각 매핑부(220) 및/또는 P2G 모델(230)은 언어 모델(240)로부터 수신한 역전파 값을 이용하여 위의 단계들(S300 내지 S340)에 가중치를 부여함으로써, 더 학습될 수 있다.

즉, 음향 모델(210)은, 상기 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호 데이터의 생성에 관여한 신경망, 규칙, 확률 그래프 등에 가중치를 부여함으로써, 더 학습될 수 있다.

조각 생성 및 조각 매핑부(220)는, 상기 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호열 조각 및 자소열 조각의 매핑에 관여한 신경망, 규칙, 확률 그래프 등에 가중치를 부여함으로써, 더 학습될 수 있다.

P2G 모델(230)은, 상기 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성에 관여한 신경망, 규칙, 확률 그래프 등에 가중치를 부여함으로써, 더 학습될 수 있다.

본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방법으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

음성 데이터를 텍스트 데이터로 변환하도록 음성 인식 모델을 학습시키는 방법에 있어서,

상기 음성 데이터를 입력받는 단계;

상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하는 단계;

상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하는 단계;

상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하는 단계; 및

상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하는 단계를 포함하고,

상기 하나 이상의 단어 후보들을 생성하는 단계는,

상기 발음기호 데이터로부터 생성된 발음기호열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각을 일반 텍스트 데이터로부터 생성된 자소열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 자소열 조각과 매핑하고, 상기 하나 이상의 발음기호열 조각 및 상기 하나 이상의 자소열 조각의 매핑을 이용하여 상기 하나 이상의 단어들을 생성하는 음성 인식 모델 학습 방법.
제1 항에 있어서,

상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호 데이터의 생성에 관련된 규칙에 가중치를 부여하는데 이용되는 음성 인식 모델 학습 방법.
제1 항에 있어서,

상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호열 조각 및 자소열 조각의 매핑에 관련된 규칙에 가중치를 부여하는 데 이용되는 음성 인식 모델 학습 방법.
제1 항에 있어서,

상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 관련된 규칙에 가중치를 부여하는 데 이용되는 음성 인식 모델 합습 방법.
제1 항에 있어서,

상기 컨텍스트는 자소, 글자 또는 형태소를 포함하는 문맥, 문장 구조, 품사 및 문장 성분 중에서 하나 이상을 포함하는 음성 인식 모델 학습 방법.
음성 인식 모델을 실행하여 음성 데이터를 텍스트 데이터로 변환하는 음성 인식 장치에 있어서,

상기 음성 데이터를 입력받는 입출력기;

상기 음성 인식 모델에 대한 정보를 저장하는 메모리; 및

상기 음성 인식 모델을 실행하여 상기 음성 데이터를 상기 텍스트 데이터로 변환하는 프로세서를 포함하고,

상기 음성 인식 모델은,

상기 음성 인식 모델을 이용하여, 상기 음성 데이터를 하나 이상의 발음기호 데이터로 변환하고,

상기 음성 인식 모델을 이용하여, 상기 하나 이상의 발음기호 데이터에 대응되는 하나 이상의 단어 후보들을 생성하고,

상기 음성 인식 모델을 이용하여, 컨텍스트에 기초하여 단어 후보들 중에서 어느 하나를 상기 음성 데이터에 대응하는 상기 텍스트 데이터로 결정하고,

상기 텍스트 데이터에 기초하여 생성된 역전파 값을 이용하여, 상기 텍스트 데이터로 결정된 단어 후보의 생성과 관련된 하나 이상의 규칙에 가중치를 부여하고,

상기 음성 데이터와는 구분되는 일반 텍스트 데이터를 하나 이상의 자소열 데이터로 변환하고,

상기 발음기호 데이터로부터 생성된 발음기호열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 발음기호열 조각을 상기 자소열 데이터로부터 생성된 자소열 조각 중에서 개수가 가장 많은 순으로 하나 이상의 자소열 조각과 매핑하고, 상기 하나 이상의 발음기호열 조각 및 상기 하나 이상의 자소열 조각의 매핑을 이용하여 상기 하나 이상의 단어 후보들을 생성하는 음성 인식 장치.
제6 항에 있어서,

상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호 데이터의 생성에 관련된 규칙에 가중치를 부여하는데 이용되는 음성 인식 장치.
제6 항에 있어서,

상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 기초되는 발음기호열 조각 및 자소열 조각의 매핑에 관련된 규칙에 가중치를 부여하는 데 이용되는 음성 인식 장치.
제6 항에 있어서,

상기 역전파 값은 상기 텍스트 데이터로 결정된 단어 후보에 관련된 규칙에 가중치를 부여하는 데 이용되는 음성 인식 장치.
제6 항에 있어서,

상기 컨텍스트는 자소, 글자 또는 형태소를 포함하는 문맥, 문장 구조, 품사 및 문장 성분 중에서 하나 이상을 포함하는 음성 인식 장치.
컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,

상기 컴퓨터 프로그램은,

제1 항, 제2 항 내지 제5 항 중 어느 한 항에 따른 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.
컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,

상기 컴퓨터 프로그램은,

제1 항, 제2 항 내지 제5 항 중 어느 한 항에 따른 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 프로그램.