KR102615290B1

KR102615290B1 - 발음 사전 학습 방법 및 장치

Info

Publication number: KR102615290B1
Application number: KR1020160112381A
Authority: KR
Inventors: 곽철
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2016-09-01
Filing date: 2016-09-01
Publication date: 2023-12-15
Also published as: KR20180025559A

Abstract

본 발명은 발음 사전 학습 방법 및 장치에 관한 것으로서, 본 발명에 따르면, 제1 언어와 제2 언어가 혼합된 단어 또는 어절에 대한 제1 언어를 기준으로 한 발음열을 생성하려고 할 때, 제1 언어의 발음 기호 및 연음 법칙을 고려하여, 문자소열을 생성 및 변환하고, 상기 문자소열을 기반으로 발음열을 생성함으로써, 기존의 LSTM-CTC 기반 G2P에서의 제한적 요소인 학습데이터의 사전 세분화 과정 및 설정된 문맥길이를 요청하지 않고, 상기 제한적 요소로 인해 발생되는 오류를 감소시킬 수 있어 보다 정확한 발음정보를 가지는 발음사전을 생성할 수 있다.

Description

발음 사전 학습 방법 및 장치{Apparatus and Method for Learning Pronunciation Dictionary}

본 발명은 음성 인식을 위한 발음 사전의 학습 방법 및 장치에 관한 것으로서, 더욱 상세하게는 일 언어를 다른 언어의 발음 기호를 고려하여 발음 사전을 학습하는데 있어서, 일 언어의 언어 체계와 다른 언어의 언어 체계의 차이점을 기반으로, 발음 사전을 학습하여, 다른 언어의 발음에 가까운 발음을 제공할 수 있도록 하는 발음 사전 학습 방법 및 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

음성인식 시스템에서 필요한 단어의 발성 정보를 저장하고 있는 발음 사전을 생성하기 위하여, G2P(Grapheme to Phoneme)이 널리 활용되고 있다.

이러한 G2P를 이용한 발음 사전 생성 방법에는 규칙기반의 G2P를 이용한 발음사전 생성 방법과 데이터 기반의 G2P를 이용한 발음사전 생성 방법, 그리고 LSTM-CTC(Long Short Term Memory - Connectionist Temporal Classification) 기반 G2P를 이용한 발음사전 생성 방법이 있다.

이 중, 규칙 기반의 G2P는 사전 정보를 이용하여 발음열을 생성하나, 이러한 방법은 화자에 따른 다양한 발음열을 생성하는데 한계가 있었다.

또한, 데이터 기반 G2P는 학습 데이터로부터 발음열에 대한 통계적 모델을 생성하고 이 모델을 이용하여 단어에 대한 다양한 발음열을 생성할 수 있지만, 각 프레임에서의 레이블 정보를 가지고 있어야 하므로 사전 세분화된 학습 데이터를 가지고 있어야 하고, 따라서 이러한 사전 세분화 과정에서 발생되는 오류로 인해 G2P의 성능을 저하시켜 부정확한 발음사전을 생성하게 되는 문제점이 있었다.

따라서, 현재에는 G2P를 이용한 발음 사전 학습에는 주로 LSTM-CTC 기반의 G2P 기법을 이용하게 되는데, 이러한 LSTM-CTC 기반 G2P 방법은 사전 세분화된 학습데이터를 요청하지 않고, 동적인 문맥 길이와 어느 시점 이후에 나타나는 문맥 정보를 이용할 수 있으므로 보다 정확한 발음 사전을 생성할 수 있다.

그러나 기존의 LSTM-CTC 기반 G2P는 영어식 발음기호의 음소로 구성된 G2P 모델을 학습시키기 위해 영어를 위한 문자소를 입력으로 사용하여 발음 모델을 학습하였는 바, 입력된 단어가 한국어인 경우에는 발음열을 생성하지 못하여 한국어 단어의 발음사전을 저장할 수 없다는 문제점이 있었다.

한국공개특허 제10-2016-0089210호 (명칭: 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치, 2016.07.27.)

본 발명은 상술한 문제점을 해결하기 위하여 제안된 것으로, 복수의 언어, 예를 들어, 한글 및 영어가 혼합되어 이루어지는 단어 또는 어절에 대해, 특정 언어(한국어)의 발음열을 생성하고자 한 것으로서, 특히 영어의 한국어 발음기호 및 연음 법칙을 고려하여 문자소열을 생성 및 변환하여, 상기 문자소열을 기반으로 발음열을 생성함으로써, 다양한 상황에 있어서, 정확한 발음정보를 가지는 발음 사전을 생성할 수 있는 방법 및 장치를 제공하고자 한다.

그러나, 이러한 본 발명의 목적은 상기의 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 발음 사전 학습 방법은 단어 또는 어절로 이루어지는 제2 언어의 문자열을 문자소로 구분하여 상기 제2 언어의 문자소열을 생성하는 단계, 제1 언어의 발음 기호를 고려하여 설정된 제1 규칙을 기반으로 상기 제2 언어의 문자소열을 변환하는 단계 및 상기 변환된 문자소열을 기반으로 상기 단어 또는 어절에 대응하는 발음열을 생성하는 단계를 포함할 수 있다.

이때, 상기 생성하는 단계 이전에, 상기 제1 언어 및 제2 언어를 함께 포함하는 문자열을 제1 언어의 문자열과 상기 제2 언어의 문자열로 분리하는 단계를 더 포함할 수 있고, 상기 발음열을 생성하는 단계 이전에, 상기 제1 언어의 문자열을 문자소로 구분하여 제1 언어의 문자소열을 생성하는 단계, 상기 제1 언어의 문자소열과 상기 변환된 제2 언어의 문자소열을 결합하여 전체 문자소열을 생성하는 단계 및 연음 법칙을 고려하여 설정된 제2 규칙을 기반으로 상기 결합된 전체 문자소열을 변환하는 단계를 더 포함하고, 상기 발음열을 생성하는 단계는, 상기 전체 문자소열에 대한 발음열을 생성할 수 있다.

또한, 상기 제1 언어가 한글이고, 상기 제2 언어가 영어인 경우, 상기 전체 문자소열을 변환하는 단계는 상기 전체 문자소열 안에서, 자음 알파벳 프레임 다음에 한글 모음 프레임이 위치하거나 한글 종성 프레임 다음에 모음 알파벳 프레임이 위치하는 경우, 상기 자음 알파벳 프레임 또는 상기 한글 종성 프레임에 대응하는 연음 프레임으로 상기 자음 알파벳 프레임 또는 상기 한글 종성 프레임을 변경할 수 있고, 상기 제1 언어가 한글이고, 상기 제2 언어가 영어인 경우, 상기 제2 언어의 문자소열을 변환하는 단계는, 두 개의 연속된 자음 알파벳 프레임의 사이, 또는 상기 문자소열의 마지막에 위치한 자음 알파벳 프레임의 다음에 한글 발음 '으'를 나타내는 기 설정된 프레임을 삽입할 수 있으며, 상기 단어 또는 어절에 대응하는 발음열을 생성하는 단계는 LSTM (Long Short Term Memory) 기법 및 CTC (Connectionist Temporal Classification) 기법 중 적어도 하나를 기반으로 발음열을 생성할 수 있다.

또한, 상기 생성된 발음열을 상기 단어 또는 어절과 매칭하여 저장하는 단계를 더 포함할 수 있다.

한편, 상술한 발음 사전 학습 방법은 상술한 바와 같은 방법을 실행시키도록 구현되어 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로 제공될 수도 있다.

상술한 바와 같은 목적을 달성하기 위한 본 발명에 따른 발음 사전 학습 장치는 단어 또는 어절로 이루어지는 제2 언어의 문자열을 문자소로 구분하여 상기 제2 언어의 문자소열을 생성하는 문자소열 생성 모듈, 제1 언어의 발음 기호를 고려하여 설정된 제1 규칙을 기반으로 상기 제2 언어의 문자소열을 변환하는 문자소열 변환 모듈 및 상기 변화된 문자소열을 기반으로 상기 단어 또는 어절에 대응하는 발음열을 생성하는 발음열 생성모듈을 포함할 수 있다.

이때, 상기 제1 언어 및 제2 언어를 함께 포함하는 문자열을 제1 언어의 문자열과 상기 제2 언어의 문자열로 분리하는 언어 분리 모듈을 더 포함할 수 있고, 상기 문자소열 생성 모듈은 상기 제1 언어의 문자열을 문자소로 구분하여 제1 언어의 문자소열을 더 생성하고, 상기 문자소열 변환 모듈은 상기 제1 언어의 문자소열과 상기 변환된 제2 언어의 문자소열을 결합하여 전체 문자소열을 생성하며, 연음법칙을 고려하여 설정된 제2 규칙을 기반으로 상기 결합된 전체 문자소열을 변환하며, 상기 발음열 생성 모듈은 상기 변환된 전체 문자소열에 대한 발음열을 생성할 수 있다.

본 발명에 따르면, 제1 언어와 제2 언어가 혼합된 단어 또는 어절에 대한 제1 언어를 기준으로 한 발음열을 생성하려고 할 때, 제1 언어의 발음 기호 및 연음 법칙을 고려하여, 문자소열을 생성 및 변환하고, 상기 문자소열을 기반으로 발음열을 생성함으로써, 기존의 LSTM-CTC 기반 G2P에서의 제한적 요소인 학습데이터의 사전 세분화 과정 및 설정된 문맥길이를 요청하지 않고, 상기 제한적 요소로 인해 발생되는 오류를 감소시킬 수 있어 보다 정확한 발음정보를 가지는 발음사전을 생성할 수 있다.

아울러, 상술한 효과 이외의 다양한 효과들이 후술될 본 발명의 실시 예에 따른 상세한 설명에서 직접적 또는 암시적으로 개시될 수 있다.

도1은 본 발명의 실시 예에 따른 발음 사전 학습 방법을 구현하기 위한 시스템을 나타낸 도면이다.
도2는 본 발명에 따른 발음 사전 학습 장치의 구성을 나타낸 블록도이다.
도3은 BLSTM (Bidirectional Long Short Term Memory) 구조를 설명하기 위한 예시도이다.
도4는 본 발명의 실시 예에 따른 발음 사전 학습 장치의 동작 과정을 나타낸 흐름도이다.
도5는 본 발명에 따른 실시 예를 설명하기 위한 예시도이다.
도6은 본 발명의 실시 예가 적용된 음성 인식 시스템의 전체 구조를 설명하기 위한 블록도이다.

본 발명의 과제 해결 수단의 특징 및 이점을 보다 명확히 하기 위하여, 첨부된 도면에 도시된 본 발명의 특정 실시 예를 참조하여 본 발명을 더 상세하게 설명한다.

다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.

이하의 설명 및 도면에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

아울러, 본 발명의 범위 내의 실시 예들은 컴퓨터 실행가능 명령어 또는 컴퓨터 판독가능 매체에 저장된 데이터 구조를 가지거나 전달하는 컴퓨터 판독가능 매체를 포함한다. 이러한 컴퓨터 판독가능 매체는, 범용 또는 특수 목적의 컴퓨터 시스템에 의해 액세스 가능한 임의의 이용 가능한 매체일 수 있다. 예로서, 이러한 컴퓨터 판독가능 매체는 RAM, ROM, EPROM, CD-ROM 또는 기타 광 디스크 저장장치, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터 실행가능 명령어, 컴퓨터 판독가능 명령어 또는 데이터 구조의 형태로 된 소정의 프로그램 코드 수단을 저장하거나 전달하는 데에 이용될 수 있고, 범용 또는 특수 목적 컴퓨터 시스템에 의해 액세스 될 수 있는 임의의 기타 매체와 같은 물리적 저장 매체를 포함할 수 있지만, 이에 한정되지 않는다.

본 발명은 음성 인식에 필요한 단어의 발성 정보를 저장하는 발음 사전을 생성하는데 있어서, 복수의 언어가 혼합된 단어 또는 어절을 특정 언어의 발음열로 나타내고자 하는 것으로서, 이하의 설명 및 특허청구범위에서 본 발명에 따른 단어 또는 어절은 한글 및 영문 알파벳이 혼합된 형태의 단어 또는 어절인 것을 가정하고 설명한다.

즉, 특허청구범위에서 표현되는 제1 언어는 본 상세한 설명에서의 한글과 대응될 수 있으며, 제2 언어는 영문 또는 영문 알파벳과 대응될 수 있다.

또한, 특허청구범위에서 표현되는 제1 언어의 발음 기호는 영어에 대한 한국어 발음기호에 대응될 수 있다.

하지만, 이는 발명의 이해를 돕기 위한 것에 불과하며, 제1 언어 및 제2 언어는 한국어, 영어 이외의 불어, 스페인어, 중국어, 일본어 등 언어학적으로 대응되는 발음 기호의 차이점이 있는 두 언어가 혼합된 단어 또는 음절의 발음열을 생성하기 위한 것이라면, 어떠한 언어이던지 제1 언어 또는 제2 언어가 될 수 있다.

이하, 설명 및 이해의 편의를 돕기 위하여, 한글과 영문이 혼합된 단어 또는 어절의 발음열을 생성하는 것을 기준으로 설명한다.

다만, 앞서 설명하였듯이, 한글과 영문의 혼합 이외에도 서로 다른 두 언어라면, 두 언어 중 어떠한 언어도 제1 언어 또는 제2 언어가 될 수 있음을 유의해야 한다.

또한, 후술할 본 발명에 따른 설명에서 프레임이라는 용어는 발음 사전 학습 장치가 생성하는 문자소열 혹은 발음열을 구성하는 각각의 문자소 혹은 발음 기호를 뜻한다.

즉, 하나의 프레임 내에 하나의 문자소 혹은 하나의 발음기호를 포함할 수 있는 것이다.

그러면 이제 본 발명의 실시 예에 따른 발음 사전 학습 방법에 대하여 도면을 참조하여 상세하게 설명하도록 한다.

도1은 본 발명의 실시 예에 따른 발음 사전 학습 방법을 제공하기 위한 시스템의 구성을 나타내는 도면이다.

도1을 참조하면, 본 실시 예에 따른 발음 사전 학습 방법을 제공하기 위한 시스템은 텍스트 DB(100), 발음사전 학습장치(200) 및 발음사전 저장장치(300)를 포함하여 구성될 수 있다.

그러면 도1을 참조하여 각 구성요소에 대해 개략적으로 설명하도록 한다.

먼저, 텍스트 DB(100)는 외부 장치 또는 사용자로부터 입력받은 영문과 한글이 혼합된 단어 또는 어절을 저장하는 장치이다.

이러한 텍스트 DB(100)는 영문과 한글이 혼합된 특정 단어 또는 특정 어절을 발음 사전 학습 장치(200)로 전달하는 역할을 한다.

발음사전 학습장치(200)는 텍스트 DB(100)로부터 전달받은 특정 단어 또는 특정 어절의 발음열을 생성하는 장치이다. 구체적으로, 발음사전 학습장치(200)는 입력된 단어 또는 어절로부터 문자소열을 생성한 후, 상기 문자소열로부터 발음열을 생성한다. 이때, 본 발명에 있어서 상기 입력된 단어 또는 어절은 영문과 한글이 혼합되어 있을 수 있다.

이에, 상기 발음 사전 학습 장치(200)는 특정 단어 또는 특정 어절에 포함된 한글과 영어를 한글 부분으로 이루어진 제1 문자열과 영어 부분으로 이루어진 제2 문자열로 분리하고, 제1 문자열 부분을 자소 단위 문자소로 구분하여 제1 문자소열을 생성하고, 제2 문자열 부분을 글자 단위 문자소로 구분하여 제2 문자소열을 생성하여, 영어의 한글 발음 기호를 고려하여 설정된 제1 규칙을 기반으로 제2 문자소열을 변환하고, 변환된 제2 문자소열 및 생성된 제1 문자소열을 결합하여, 전체 문자소열을 생성한 다음, 한글의 연음법칙을 고려하여 설정된 제2 규칙을 기반으로 전체 문자소열을 변환하고, LSTM 기법 및 CTC 기법 중 적어도 하나를 기반으로 상기 단어 또는 어절에 대응하는 발음열을 생성하여, 발음사전 저장장치(300)에 상기 생성된 발음열 및 상기 단어 또는 어절을 매칭하여 저장한다.

발음사전 학습장치(200)의 동작에 관한 구체적인 설명은 후술하도록 한다.

발음사전 저장장치(300)는 발음사전 학습장치(200)가 생성한 발음열을 저장하는 장치로서, 상기 생성한 발음열을 상기 생성한 발음열과 대응하는 단어 또는 어절과 매칭하여 저장할 수 있다.

또한, 상기 발음 사전 저장장치(300)는 도 1에서 보는 것과 같이, 발음 사전 학습장치(200)와 구분되어 구현될 수 있지만, 발음사전 학습장치(200)내에 탑재되어 내장될 수도 있다.

도2는 본 발명에 따른 발음사전 학습장치(200)의 구성을 설명하기 위한 블록도이다.

도2를 살펴보면, 발음사전 학습장치(200)는 입력모듈(210), 언어분리모듈(220), 문자소열 생성모듈(230), 문자소열 변환모듈(240), 발음열 생성모듈(250) 및 출력모듈(260)을 포함할 수 있다.

입력모듈(210)은 숫자, 한글, 영어 등의 최소 2개 이상의 언어가 혼합된 단어 또는 어절을 입력받는 장치로서, 입력모듈(210)을 통해 사용자가 상기 혼합된 단어 또는 어절을 직접 입력할 수도 있고, 텍스트 DB(100)를 통해 상기 단어 또는 어절을 전달받는 형태로 입력받을 수도 있다.

입력모듈(210)이 입력받은 단어 또는 어절은 언어분리모듈(220)로 전달된다.

언어분리모듈(220)은 입력모듈(210)로부터 전달받은 단어 또는 어절을 분리하는 장치로서, 각 언어 별로 단어 또는 어절을 분리한다.

예를 들어, 전달받은 단어 또는 어절이 한글과 영어가 조합된 문자열을 한글로 이루어진 부분과 영어로 이루어진 부분을 각각 분리하여, 한글 문자열과 영어 문자열로 분리한다.

이와 마찬가지로, 전달받은 단어 또는 어절이 중국어와 일본어가 조합된 형태라면, 일본어 부분과 중국어 부분을 각각 일본어 문자열과 중국어 문자열로 분리할 것이다.

즉, 제1 언어 및 제2 언어를 함께 포함하는 문자열을 제1 언어의 문자열과 제2 언어의 문자열로 분리하는 것이다.

문자소열 생성 모듈(230)은 상기 분리된 제1 언어의 문자열과 제2 언어의 문자열을 각각 문자소로 구분하여, 제1 언어의 문자소열과 제2 언어의 문자소열을 생성한다.

이때, 문자소열은 제1 언어 및 제2 언어의 특성에 맞게 생성할 수 있는데, 예를 들어, 제1 언어가 한글인 경우, 한글의 특성에 맞게 자소 단위로 문자열을 생성할 수 있고, 제2 언어가 영어인 경우, 영어의 특성에 맞게 문자 단위로 문자열을 생성할 수 있다.

문자소열 변환 모듈(240)은 문자소열 생성 모듈(230)에서 생성된 문자소열을 발음열을 생성하고자 하는 언어 체계와의 차이에 따라 기 설정된 몇 가지 규칙을 기반으로 변환하는 장치이다.

이때, 생성된 문자소열을 변환하는 규칙의 대표적인 예는 발음열을 생성의 기준이 되는 언어의 발음 기호 및 연음 법칙 등이 될 수 있다.

언어의 발음 기호를 기준으로 변환하는 예에 대해 설명하면, 영어의 문자소열이 생성되었고, 이에 대한 한국어 발음열을 생성하기 위해서는 영어의 한글 발음 기호를 고려하여 설정된 제1 규칙에 따라 영어의 문자소열을 변환할 수 있다.

좀 더 구체적인 예시로, 영어에는 한글 '으'에 해당하는 발음 기호가 존재하지 않으므로 영어 문자열을 한글 발음열로 생성하기 위해서는 한글 '으'에 해당하는 발음 기호를 표현해주는 것이 필요하다.

따라서, 영어 발음 열에서 한글 '으'의 발음이 나타날 수 있는 경우, 즉, 영어의 자음 알파벳이 두 개 연속으로 오는 경우, 또는 영어 문자소열의 마지막에 위치한 알파벳이 자음 알파벳인 경우, 연속적인 두 자음 알파벳 사이 혹은 마지막에 위치한 자음 알파벳 다음에 '으'를 나타내는 프레임 혹은 기호를 삽입하여 표현해줄 수 있다.

연음 법칙을 기준으로 변환하는 예에 대해 설명하면, 문자소열 변환 모듈(240)은 자소 단위의 한글 문자소열과 문자 단위의 영어 문자소열을 결합한 전체 문자소열을 생성할 수 있는데, 상기 전체 문자소열을 결합한 이후, 한글과 영어 알파벳 사이에서 발생할 수 있는 연음을 기준으로 제2 규칙을 생성하여, 문자소열을 변환할 수 있다.

좀 더 구체적인 예시로서, 영어의 자음 알파벳 다음에 한글 모음이 위치하거나 한글 종성 다음에 영어의 모음 알파벳이 위치하는 경우, 연음이 발생할 수 있는데, 이때, 해당 위치에서 연음이 발생함을 표시하기 위하여, 상기 자음 알파벳 프레임 또는 한글 종성 프레임에 대응하는 연음 프레임으로 상기 자음 알파벳 프레임 또는 상기 한글 종성 프레임을 변경할 수 있다.

발음열 생성 모듈(250)은 상기 변환된 문자소열을 기반으로 입력된 단어 또는 어절에 대응하는 발음열을 생성하는 장치이다.

이때, 발음열 생성 모듈(250)은 LSTM 기법 및 CTC 기법 중 적어도 하나를 기반으로 발음열을 생성할 수 있다.

특히, LSTM 기법 중, BLSTM(Bidirectional Long Short Term Memory) 구조의 순환 신경망을 이용하면, 순방향 LSTM 구조를 이용하여 동적인 문맥 길이를 사용하고, 역방향 LTSM 구조를 이용하여 향후 문맥을 사용함으로써, 정확한 발음열을 생성할 수 있는데, 도3을 통해 이런 BLSTM 구조의 순환 신경망을 이용한 예시를 간단하게 살펴보면, 도3(a)는 순방향 LSTM의 예시로서, 단어 'ABLE'에서 프레임 'E'는 'ABL' 이전 문맥을 통해 'blank'처리가 되고, 단어 'GET'에서는 프레임 'E'가 이전 문맥인 'G'를 사용하여 'e'의 발음기호로 처리된다.

도3(b)는 역방향 LSTM의 예시로서, 단어 'CARE'에서의 프레임 'A'는 뒤에서 나타나는 'RE'문맥을 사용하여 'e'의 발음 기호로 처리되고, 단어 'CAR'에서의 'A'프레임은 뒤에서 나타나는 'R'문맥을 사용하여 'a'의 발음 기호로 처리된다.

한편, CTC 구조를 이용한 순환 신경망 구조에서는 학습 데이터 레이블을 생성하기 위하여, 단어 또는 어절의 시작과 끝에 blank를 추가하고, 각 프레임 사이에 blank를 삽입한다.

또한, 이러한 학습 데이터를 CTC구조를 통해 인식하기 위하여, 학습된 순환 신경망을 통해 출력된 문자소열에서 중복된 프레임을 제거하고, blank 프레임을 제거할 수 있다.

이러한 LSTM과 CTC기법을 활용하여 발음열을 생성하는 발음열 생성 모듈(250)이 발음열을 생성하는 방법은 종래의 기술과 유사하므로 더 이상의 구체적인 설명은 생략하도록 한다.

출력모듈(260)은 생성된 발음열을 출력하는 장치로서, 발음열 생성 모듈(250)이 생성한 발음열을 전달받아, 사용자에게 출력하거나, 발음사전 저장장치(300)에 저장할 수 있다.

이때, 상기 입력모듈(210)을 통해 입력된 단어 또는 어절과 상기 생성된 발음열을 매칭하여 저장할 수 있다.

이상으로 본 발명에 따른 발음 사전 학습 장치(200)에 대해 설명하였다.

이하, 발음 사전 학습 장치(200)의 동작과정에 대하여 살펴보도록 한다.

도4는 발음 사전 학습 장치(200)의 동작 과정을 설명하기 위한 흐름도이다.

발음 사전 학습 장치(200)에 입력되는 문자열은 각기 다른 2 이상의 언어가 혼합된 문자열이면, 어떠한 문자열이든지 가능하나, 설명의 편의를 위하여 한국어의 한글과 영어의 알파벳이 혼합된 문자열이 입력된 것을 가정하고 설명하도록 한다.

발음 사전 학습 장치(200)에 한글과 알파벳이 혼합된 문자열이 입력되면(S101), 발음 사전 학습 장치(200)는 한국어 부분의 문자열과 영어 부분의 문자열을 분리한다(S103).

그 후, 한국어 부분의 문자열을 자소 단위의 문자소로 구분하여 한국어 문자소열을 생성하고(S105), 영어 부분의 문자열을 문자 단위의 문자소로 구분하여 영어 문자소열을 생성한다(S107).

그 후, 영어의 한국어 발음 기호를 고려하여 설정된 제1 규칙을 기반으로 영어 문자소열을 변환하는데(S109), 예를 들면, 영어의 발음기호에는 '으'에 해당하는 발음기호가 존재하지 않으므로, '으'의 발음이 올 수 있는 연속된 자음 알파벳 프레임 사이, 또는 마지막에 위치한 자음 알파벳 프레임의 다음 등, '으'발음이 표현되어야 하는 위치에 '으'를 나타내는 기 설정된 프레임을 삽입할 수 있다.

이렇게 영어 문자소열을 변환하면, 상기 생성한 한글 문자소열과 변환된 문자소열을 결합하여 전체 문자소열을 생성하고, 연음 법칙을 고려하여 설정된 제 2규칙을 기반으로 전체 문자소열을 변환한다(S111).

이때, 상기 제 2규칙은 영어의 알파벳과 한글이 결합하여 소리가 날 때, 발생할 수 있는 연음 법칙을 고려하여 설정된 것으로, 자음 알파벳 프레임 다음에 한글 모음 프레임이 위치하거나 한글 종성 프레임 다음에 모음 알파벳 프레임이 위치하는 경우, 연음이 발생하므로, 상기 자음 알파벳 프레임 또는 상기 한글 종성 프레임에 대응하는 연음 프레임으로 상기 자음 알파벳 프레임 또는 상기 한글 종성 프레임을 변경할 수 있다.

S111 단계에서 변환된 문자소열에 대해 순방향 LSTM과 역방향 LSTM을 수행하여 발음열을 생성하고, 생성된 발음열을 출력하여, 발음사전 저장장치(300)에 저장할 수 있다(S113~S117).

상기 도4에서 설명한 발음 사전 학습 장치(200)의 동작과정에 대한 구체적인 실시 예를 설명하기 위하여, 도5를 참조하면, 발음 사전 학습 장치(200)에 {미니STOP에}라는 어절이 입력되면(S201), 한글 부분 문자열인 {미니}, {에}와 영여 부분 문자열인 {STOP} 부분으로 분리한다(S203~S205).

그리고, 한글 부분 문자열을 자소 단위의 문자소로 구분하여 {ㅁ,ㅣ,ㄴ,ㅣ}와 {ㅔ}라는 2개의 문자소열을 생성하고(S207), 영어 부분 문자열을 문자 단위의 문자소로 구분하여 {S,T,O,P}의 문자소열을 생성한다(S209).

그리고, 영어 부분의 문자열을 한글 발음에 부합하는 발음열로 생성하기 위하여, {S,T,O,P}의 문자소열을 변환하는데, 'S'와 'T'의 자음 알파벳 프레임이 연속하여 'ㅅ,ㅡ,ㅌ' 형태의 발음을 생성하게 되므로, 한글 발음 '으'를 나타내기 위해 기 설정된 프레임인 'K_EU'를 'S'와 'T'사이에 삽입하여, {S,T,O,P}의 문자소열을 {S,K_EU,T,O,P}의 문자소열로 변환한다(S211).

그 후, 한글 부분의 문자소열과 변환된 영어 문자소열을 결합하여, {ㅁ,ㅣ,ㄴ,ㅣ,S,K_EU,T,O,P,ㅔ}의 전체 문자소열을 생성하고(S213), 자음 알파벳 프레임 'P'다음에 한글 모음 프레임 'ㅔ'가 위치하여, 한글 발음으로는 '미니스타베'와 같이 발음되는 연음 현상이 발생하므로, 이러한 연음 현상이 발생됨을 표시하기 위하여, 자음 알파벳 프레임 'P'를 'P'의 연음 기호인 'P_LK'로 변환한다.

즉, 전체 문자소열을 {ㅁ,ㅣ,ㄴ,ㅣ,S,K_EU,T,O,P_LK,ㅔ}로 변환한다(S215).

그 후, 상기 변환된 전체 문자소열을 기반으로 순방향 LSTM 및 역방향 LSTM을 수행하면(S217~S219), {m,i,n,i,s,eu,t,a,b,e}와 같은 발음열이 생성되고, 상기 발음열을 {미니STOP에}와 매칭하여 저장할 수 있다(S221).

상술한 발음 사전 학습 장치(200) 및 발음사전 저장장치(300), 텍스트 DB(100)는 도6에 표현된 음성 인식 시스템의 일부에 포함되어 구성될 수 있다.

도6에서는 점선으로 표시된 부분이 본 발명에 따른 발음 사전 학습 방법을 구현하기 위한 장치들이 포함되는 부분을 나타낸다.

이 외에도 음성 인식 시스템은 언어모델을 학습하고 저장하는 언어모델 학습장치(420) 및 언어모델 저장장치(410), 사람의 발음 모델을 학습하고 저장하는 음향모델저장장치(510), 음향 모델 학습 장치(520) 및 음향 모델을 도출하기 위한 여러 발음을 저장하는 스피치DB(530), 발음 사전, 언어 모델, 음향 모델을 통합한 통합 모델을 산출하는 통합 모델 산출 장치(600), 사용자의 음성 신호를 수신하여, 통합 모델 산출 장치(600)에서 산출한 통합 모델을 이용하여 상기 음성 신호를 처리하여, 단어열을 생성하는 음성 신호 처리 장치(700)등을 포함하여 구성될 수 있다.

즉, 사용자가 입력한 음성 신호를 발음 사전, 언어 모델 및 음향 모델을 기반으로 분석하여 사용자가 말하는 문장 또는 단어가 무엇인지를 해석하여 출력할 수 있으며, 본 발명에 따른 발음 사전 학습 방법을 사용하면, 2개 이상의 언어가 혼합된 단어나 어절이라고 하더라도 이를 효과적으로 분석하여 사용자가 말하는 문장 또는 단어 및 그 의미를 효과적으로 해석할 수 있다.

이상에서 설명한 바와 같이, 본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다.

또한, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다.

본 기술한 설명은 본 발명의 최상의 모드를 제시하고 있으며, 본 발명을 설명하기 위하여, 그리고 통상의 기술자가 본 발명을 제작 및 이용할 수 있도록 하기 위한 예를 제공하고 있다. 이렇게 작성된 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하는 것이 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 통상의 기술자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다.

따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.

본 발명은 발음 사전 학습 방법 및 장치에 관한 것으로서, 더욱 상세하게는 어느 일국의 언어를 다른 나라 언어의 발음 기호를 고려하여 발음 사전을 학습하고자 하는 경우, 어느 일국의 언어 체계와 다른 나라 언어의 언어 체계의 차이점을 기반으로, 발음 사전을 학습하여, 다른 나라의 발음에 가까운 발음을 제공할 수 있도록 하는 발음 사전 학습 방법 및 장치에 관한 것이다.

따라서, 상기의 발음 사전 학습 방법을 통해 어학 학습 산업 발전에 이바지 할 수 있고, 더불어, 본 발명은 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.

100: 텍스트 DB 200: 발음 사전 학습 장치 300: 발음사전 저장장치
210: 입력모듈 220: 언어분리모듈 230: 문자소열생성모듈
240: 문자소열변환모듈 250: 발음열 생성모듈
260: 출력모듈 410: 언어모델 저장장치 420: 언어모델 학습장치
510: 음향모델 저장장치 520: 음향모델 학습장치 530: 스피치 DB
600: 통합모델 산출장치 700: 음성신호 처리장치

Claims

단어 또는 어절로 이루어지는 제2 언어의 문자열을 문자소로 구분하여 상기 제2 언어의 문자소열을 생성하는 단계;
제1 언어의 발음 기호를 고려하여 설정된 제1 규칙을 기반으로 상기 제2 언어의 문자소열을 변환하는 단계; 및
상기 변환된 문자소열을 기반으로 상기 단어 또는 어절에 대응하는 발음열을 생성하는 단계;
를 포함하고,
상기 단어 또는 어절에 대응하는 발음열을 생성하는 단계는 LSTM (Long Short Term Memory) 기법 및 CTC (Connectionist Temporal Classification) 기법 중 적어도 하나를 기반으로 발음열을 생성하는 것을 특징으로 하는 발음 사전 학습 방법.
제1항에 있어서, 상기 문자소열을 생성하는 단계 이전에,
상기 제1 언어 및 제2 언어를 함께 포함하는 문자열을 제1 언어의 문자열과 상기 제2 언어의 문자열로 분리하는 단계;
를 더 포함하고, 상기 발음열을 생성하는 단계 이전에,
상기 제1 언어의 문자열을 문자소로 구분하여 제1 언어의 문자소열을 생성하는 단계;
상기 제1 언어의 문자소열과 상기 변환된 제2 언어의 문자소열을 결합하여 전체 문자소열을 생성하는 단계; 및
연음 법칙을 고려하여 설정된 제2 규칙을 기반으로 상기 결합된 전체 문자소열을 변환하는 단계;
를 더 포함하고, 상기 발음열을 생성하는 단계는, 상기 전체 문자소열에 대한 발음열을 생성하는 것을 특징으로 하는 발음 사전 학습 방법.
제2항에 있어서, 상기 제1 언어가 한글이고, 상기 제2 언어가 영어인 경우, 상기 전체 문자소열을 변환하는 단계는
상기 전체 문자소열 안에서, 자음 알파벳 프레임 다음에 한글 모음 프레임이 위치하거나 한글 종성 프레임 다음에 모음 알파벳 프레임이 위치하는 경우, 상기 자음 알파벳 프레임 또는 상기 한글 종성 프레임에 대응하는 연음 프레임으로 상기 자음 알파벳 프레임 또는 상기 한글 종성 프레임을 변경하는 것을 특징으로 하는 발음 사전 학습 방법.
제1항에 있어서, 상기 제1 언어가 한글이고, 상기 제2 언어가 영어인 경우, 상기 제2 언어의 문자소열을 변환하는 단계는,
두 개의 연속된 자음 알파벳 프레임의 사이, 또는 상기 문자소열의 마지막에 위치한 자음 알파벳 프레임의 다음에 한글 발음 '으'를 나타내는 기 설정된 프레임을 삽입하는 단계인 것을 특징으로 하는 발음 사전 학습 방법.
삭제
제1항에 있어서,
상기 생성된 발음열을 상기 단어 또는 어절과 매칭하여 저장하는 단계;
를 더 포함하는 것을 특징으로 하는 발음 사전 학습 방법.
제1항 내지 제4항, 제6항 중 어느 하나의 항에 기재된 방법을 실행시키는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
단어 또는 어절로 이루어지는 제2 언어의 문자열을 문자소로 구분하여 상기 제2 언어의 문자소열을 생성하는 문자소열 생성 모듈;
제1 언어의 발음 기호를 고려하여 설정된 제1 규칙을 기반으로 상기 제2 언어의 문자소열을 변환하는 문자소열 변환 모듈; 및
상기 변화된 문자소열을 기반으로 상기 단어 또는 어절에 대응하는 발음열을 생성하는 발음열 생성모듈;
을 포함하고,
상기 발음열 생성모듈은 LSTM (Long Short Term Memory) 기법 및 CTC (Connectionist Temporal Classification) 기법 중 적어도 하나를 기반으로 발음열을 생성하는 것을 특징으로 하는 발음 사전 학습 장치.
제8항에 있어서,
상기 제1 언어 및 제2 언어를 함께 포함하는 문자열을 제1 언어의 문자열과 상기 제2 언어의 문자열로 분리하는 언어 분리 모듈;
을 더 포함하고, 상기 문자소열 생성 모듈은
상기 제1 언어의 문자열을 문자소로 구분하여 제1 언어의 문자소열을 더 생성하고, 상기 문자소열 변환 모듈은
상기 제1 언어의 문자소열과 상기 변환된 제2 언어의 문자소열을 결합하여 전체 문자소열을 생성하며, 연음법칙을 고려하여 설정된 제2 규칙을 기반으로 상기 결합된 전체 문자소열을 변환하며, 상기 발음열 생성 모듈은
상기 변환된 전체 문자소열에 대한 발음열을 생성하는 것을 특징으로 하는 발음 사전 학습 장치.
제9항에 있어서, 상기 문자소열 변환 모듈은
상기 제1 언어가 한글이고, 상기 제2 언어가 영어이고, 상기 전체 문자소열 안에서 자음 알파벳 프레임 다음에 한글 모음 프레임이 위치하거나 한글 종성 프레임 다음에 모음 알파벳 프레임이 위치하는 경우, 상기 자음 알파벳 프레임 또는 상기 한글 종성 프레임에 대응하는 연음 프레임으로 상기 자음 알파벳 프레임 또는 상기 한글 종성 프레임을 변경하는 것을 특징으로 하는 발음 사전 학습 장치.
제8항에 있어서, 상기 문자소열 변환 모듈은
상기 제1 언어가 한글이고, 상기 제2 언어가 영어인 경우, 두 개의 연속된 자음 알파벳 프레임의 사이, 또는 상기 문자소열의 마지막에 위치한 자음 알파벳 프레임의 다음에 한글 발음 '으'를 나타내는 기 설정된 프레임을 삽입하여 상기 제2 언어의 문자소열을 변환하는 것을 특징으로 하는 발음 사전 학습 장치.
삭제