KR100277694B1 - 음성인식시스템에서의 발음사전 자동생성 방법 - Google Patents

음성인식시스템에서의 발음사전 자동생성 방법 Download PDF

Info

Publication number
KR100277694B1
KR100277694B1 KR1019980048201A KR19980048201A KR100277694B1 KR 100277694 B1 KR100277694 B1 KR 100277694B1 KR 1019980048201 A KR1019980048201 A KR 1019980048201A KR 19980048201 A KR19980048201 A KR 19980048201A KR 100277694 B1 KR100277694 B1 KR 100277694B1
Authority
KR
South Korea
Prior art keywords
phoneme
pronunciation dictionary
word
pronunciation
exception
Prior art date
Application number
KR1019980048201A
Other languages
English (en)
Other versions
KR20000031935A (ko
Inventor
김회린
이영직
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019980048201A priority Critical patent/KR100277694B1/ko
Priority to US09/414,350 priority patent/US6236965B1/en
Publication of KR20000031935A publication Critical patent/KR20000031935A/ko
Application granted granted Critical
Publication of KR100277694B1 publication Critical patent/KR100277694B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 음성인식시스템에서의 발음사전 자동생성 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 음성인식시스템에서 대규모로 구축되어 있는 발음사전의 발음패턴을 음성학적 지식의 개입없이 신경망으로 학습하고, 학습된 신경망으로 발음사전을 정확히 생성시킬 수 없는 자소나 단어를 예외 자소 발음사전 및 예외 단어 발음사전을 이용하여 입력된 단어의 발음열을 보다 정확하게 생성하므로써, 단계별 처리에 따른 메모리 및 계산량을 감축시키기 위한 발음사전 자동생성 방법을 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 신경망을 이용하여 다층 퍼셉트론을 학습시켜 예외 단어 발음사전 데이터베이스, 예외 자소 발음사전 데이터베이스, 각 자소별 음소출력 MLP 파라메터 데이터베이스를 구성하는 제 1 단계; 및 전처리된 입력 단어에 대해, 예외 단어 발음사전 데이터베이스, 예외 자소 발음사전 데이터베이스, MLP 파라메터 데이터베이스를 검사하여 해당 단어의 발음열을 후처리한 후에 출력하는 제 2 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 음성인식시스템 등에 이용됨.

Description

음성인식시스템에서의 발음사전 자동생성 방법
본 발명은 음성인식시스템에서 사전(Lexicon)에 미리 등록되어 있지 않은 어휘에 대해 적절한 발음사전을 이용하여 입력된 단어의 발음열을 보다 정확히 생성하므로써, 단계별 처리에 따른 메모리 및 계산량을 감축시킬 수 있도록 한 발음사전 자동생성 방법에 관한 것이다.
도 1 은 일반적인 음성인식시스템의 구성도이다.
일반적인 음성인식시스템의 구성 및 동작은 당해 분야에서 이미 주지된 기술에 지나지 아니하므로 여기에서는 그에 관한 자세한 설명한 생략하기로 한다. 다만, 입력된 음성에 대해 인식결과를 텍스트로 출력하는 과정에 대해 보다 자세히 살펴보고자 한다.
도 1에 도시된 바와 같이, 일반적인 음성인식시스템에 음성이 입려되면, 끝점 검출 및 특징 추출부(11)에서 음성이 존재하는 구간을 검출하고 그 구간에 대한 특징벡터를 추출한다.
한편, 음성인식시스템이 인식할 수 있는 대상 어휘에 대한 정보가 입력되면, 인식 후보단어 목록 변경부(12)에서 이를 이용하여 인식 후보단어 목록을 변경하고, 발음사전 생성부(13)에서 이러한 후보단어 목록으로부터 각 단어의 발음열을 사전에 참조하거나 발음규칙을 토대로 생성한다. 이후에, 단어모델 생성부(15)에서 발음사전 생성부(13)에서 생성된 발음열과 각 음소의 음소모델 데이터베이스(14)를 조합하여 각 후보단어에 대한 단어모델을 생성한다.
마지막으로, 패턴 비교부(16)가 단어모델 생성부(15)에서 생성된 단어모델들과 끝점 검출 및 특징 추출부(11)에서 추출된 입력음성 특징벡터를 비교하여 가장 가까운 후보단어를 인식된 결과로 출력한다.
도 2 는 종래의 영어 단어 발음사전 생성 과정에 대한 흐름도로서, 도 1의 발음사전 생성부(13)에서의 영어 단어 발음사전 생성 절차를 나타낸다.
도 2에 도시된 바와 같이, 종래의 영어 단어 발음사전 생성 과정은, 먼저 인식 후보단어에 대한 텍스트가 입력되면(201), 이로부터 숫자를 해당 알파벳 문자로 바꾸어준다든지 구두점(Puctuation)들을 제거시키는 등의 텍스트 전처리를 수행하여 처리 가능한 알파벳만의 문자열로 변경시킨다(202).
이후, 이렇게 얻어진 영어 단어가 등록된 발음사전 데이터베이스에 있는지를 검사한다(203).
검사결과, 영어 단어가 등록된 발음사전 데이터베이스에 있으면, 영어 단어 발음열을 출력한다(207).
검사결과, 영어 단어가 등록된 발음사전 데이터베이스에 없으면, 다음의 두가지 방법중 어느 하나로 발음열을 생성한다.
첫 번째로, 영어의 발음규칙을 적용하여(204), 영어 단어 발음열을 출력한다(207).
두 번째로, 신경망을 이용하여 각 자소의 전후 문맥에 따라 해당 조음(Articulatory) 특징을 생성하고(205), 조음 특징을 해당 음소에 대응(Mapping)시켜 영어단어 발음열을 출력한다(207).
상기한 바와 같이, 음성인식(Speech Recognition) 기술은 사용자가 발성한 음성을 분석하여 그 발성 내용이 무엇인지를 알아내는 기술이다.
종래의 음성인식시스템은, 인식하고자 하는 인식대상 어휘를 미리 결정해 놓고 결정된 인식 대상 어휘중의 하나 또는 몇 개를 사용자가 발성하면, 입력된 음성이 미리 등록된 어휘중 어느 것에 가장 가까운지를 찾아내어 출력한다.
그러나, 이러한 방식의 인식기는 미리 결정된 등록 어휘내의 음성을 적절히 인식하는데 초점이 맞추어져 있어서 등록되어 있지 않은 새로운 어휘를 인식하고자 할 경우에는 성능이 저하되는 단점이 있다.
이와 같은 인식기를 활용할 때에, 미리 정해놓지 않았던 어휘를 정확히 인식하기 위하여 극복해야 할 기술은 크게 두 가지가 있다.
하나는 인식기의 학습시에 임의의 새로운 어휘에 대한 단어의 기준패턴을 적절히 모델링할 수 있는 음소나 변이음 단위의 모델링 기술이고, 또 하나는 새로운 어휘를 정의된 음소나 변이음 단위의 연결로 자동 생성해주는 발음사전 생성 기술이다.
발음사전 자동 생성을 위한 기술은 다루는 언어에 따라 그 대처 방법이 달라지게 되는데, 예를 들어 한국어의 경우에는 각 단어의 발음사전이 10여 가지의 기본 발성 규칙 및 몇 가지의 예외 규칙에 의하여 대부분 적절히 생성시킬 수 있고, 이 규칙들에 의하여 표현할 수 없는 발음사전은 예외 발음사전으로 가지고 있으면 거의 모든 어휘, 특히 고유명사 등에 대하여 정확한 발음사전을 생성시킬 수 있다.
그러나, 영어의 경우에는 몇 가지 규칙에 의하여 임의의 어휘에 대한 정확한 발음사전을 생성하는 것이 불가능하다.
따라서, 종래에는 10만 단어 이상의 대규모 발음사전을 미리 구축해 놓고, 이에 포함될 수 없는 고유명사나 신조어에 대해서는 그 사전을 갱신하거나, 간단한 발성 규칙으로 발음사전을 생성하였다.
종래의 영어 단어 발음사전 생성 방법은 크게 두가지로 분류되는데, 하나는 몇 가지의 발성 규칙을 프로그램화하여 생성하는 방법이고, 또 하나는 음성합성(Speech Synthesis)에 주로 사용하는 방법으로 각 음소의 조음 특징(Articulatory Features)을 실험 음성학적인 지식을 기반으로 정의하여 이를 토대로 해당 단어의 자소(Grapheme) 입력에 대하여 이에 해당하는 조음 특성을 신경회로망(Neural Network)으로 찾아내고 이를 다시 해당 음소로 대응시키는 방법이다.
그런데, 전자의 방법은 영어가 가지고 있는 발성의 다양성으로 인하여 몇 가지 규칙으로 임의의 단어에 대한 정확한 발음사전을 생성하는데 한계가 있고, 후자의 방법은 부정확한 실험 음성학적 지식 및 이의 음소 대응관계에 기반을 두고 있어서 정확한 발음사전을 생성하기 어려운 문제점이 있었다.
상기한 바와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 음성인식시스템에서 대규모로 구축되어 있는 발음사전의 발음패턴을 음성학적 지식의 개입없이 신경망으로 학습하고, 학습된 신경망으로 발음사전을 정확히 생성시킬 수 없는 자소나 단어를 예외 자소 발음사전, 예외 단어 발음사전을 이용하여 입력된 단어의 발음열을 보다 정확하게 생성하므로써, 단계별 처리에 따른 메모리 및 계산량을 감축시키기 위한 발음사전 자동생성 방법 및 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 일반적인 음성인식시스템의 구성도.
도 2 는 종래의 영어 단어 발음사전 생성 과정에 대한 흐름도.
도 3 은 본 발명에 따른 발음사전을 자동 생성하기 위한 발음사전 학습 과정에 대한 일실시예 흐름도.
도 4 는 본 발명에 따른 발음사전 자동생성 방법에 대한 일실시예 흐름도.
*도면의 주요 부분에 대한 부호의 설명
11 : 끝점 검출 및 특징 추출부 12 : 인식 후보단어 목록 변경부
13 : 발음사전 생성부 14 : 음소모델 데이터베이스
15 ; 단어모델 생성부 16 : 패턴 비교부
상기 목적을 달성하기 위한 본 발명은, 음성인식시스템에 적용되는 발음사전 생성 방법에 있어서, 신경망을 이용하여 각 자소별로 대응되는 음소를 직접 매핑시키는 다층 퍼셉트론을 학습시켜 예외 단어 발음사전 데이터베이스, 예외 자소 발음사전 데이터베이스, 각 자소별 음소출력 다층 퍼셉트론(MLP) 파라메터 데이터베이스를 구성하는 제 1 단계; 및 전처리된 입력 단어에 대해, 상기 예외 단어 발음사전 데이터베이스, 상기 예외 자소 발음사전 데이터베이스, 상기 다층 퍼셉트론 파라메터 데이터베이스를 검사하여 해당 단어의 발음열을 후처리한 후에 출력하는 제 2 단계를 포함한다.
또한, 본 발명은, 프로세서를 구비한 음성인식시스템에, 신경망을 이용하여 각 자소별로 대응되는 음소를 직접 매핑시키는 다층 퍼셉트론을 학습시켜 예외 단어 발음사전 데이터베이스, 예외 자소 발음사전 데이터베이스, 각 자소별 음소출력 다층 퍼셉트론(MLP) 파라메터 데이터베이스를 구성하는 기능; 및 전처리된 입력 단어에 대해, 상기 예외 단어 발음사전 데이터베이스, 상기 예외 자소 데이터베이스, 상기 다층 퍼셉트론 파라메터 데이터베이스를 검사하여 해당 음소들의 단어 발음열을 후처리한 후에 출력하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 3 은 본 발명에 따른 발음사전을 자동 생성하기 위한 발음사전 학습 과정에 대한 일실시예 흐름도이다.
본 발명은 인식 대상 어휘가 미리 정해져 있지 않은 상황에서, 음성인식 시스템의 사전에 미리 등록되어 있지 않은 새로운 인식 대상 어휘가 입력되어도 이를 정확히 인식하기 위한 발음사전 자동생성 방법에 관한 것으로, 사전에 등록되어 있지 않은 단어를 예외 단어 발음사전, 예외 자소 발음사전, 그리고 자소별 다층 퍼셉트론(MLP : Multi-Layer Perceptron)을 이용하여 입력된 단어의 발음열을 보다 정확히 생성시키므로써, 단계별 처리에 따른 메모리 및 계산량을 감축시킬 수 있다.
본 발명에 따른 발음사전 자동생성 방법은, 대규모로 구축되어 있는 발음사전의 발음패턴을 음성학적 지식의 개입없이 신경망으로 학습하고, 학습된 신경망으로 발음사전을 정확히 생성시킬 수 없는 자소나 단어는 예외 자소 발음사전 및 예외 단어 발음사전으로 표현하므로써, 영어 단어 발음사전의 자동생성을 위해 부정확한 실험 음성학적 지식을 사용하지 않으면서도 규칙에 의한 생성 보다 훨씬 우수한 효과가 있다.
10만개 어휘 이상의 대규모로 구축되어 있는 발음사전으로부터 발음패턴을 음성학적 지식의 개입없이 신경망으로 학습하기 위해서는, 우선 각 자소에 대응되는 음소를 해당 자소의 전후 문맥에 따라 일대일로 대응시키는 전처리 과정이 필요하다. 이 과정을 통하여 준비된 학습 데이터에 따라 신경망을 학습하여 각 자소에 대한 MLP 네트워크가 구해지면, 원래의 발음사전에 있는 단어들을 입력하여 그 출력이 발음사전에 정의되어 있는 발음열과 일치하지 않는 것들은 예외 자소 및 단어 발음사전에 등록시키고, 일치하는 것은 자소별 MLP로 생성시키게 된다.
도 3에 도시된 바와 같이, 본 발명에 따른 발음사전을 자동 생성하기 위한 발음사전 학습 과정은, 신경망을 이용하여 각 자소별로 대응되는 음소를 직접 매핑시키는 다층 퍼셉트론을 학습시키기 위해서, 먼저 10만 어휘 이상의 대어휘 표준 영어단어 발음사전으로부터 각각의 자소가 해당 단어내의 어떤 음소로 매핑되는지를 자동으로 구해야 한다.
이를 위해, 영어의 각 자소(Grapheme)와 음소(Phoneme) 사이의 유사도를 지식 및 사례를 토대로 정의하고(301), 이러한 영어의 각 자소 및 음소 사이의 유사도를 이용하여 다이내믹 타임 와핑(DTW : Dynamic Time Warping) 알고리즘에 의해 단어별로 각 자소와 음소 사이의 대응관계를 설정한다(302). 이때, 하나의 자소가 두 개 이상의 음소로 매핑되는 경우에는 추후에 해당 단어 전체를 예외 단어 발음사전에 등록한다(308).
이후, 구해진 각 자소-음소 매핑 데이터를 가지고 각 자소별 MLP를 역전사(Back-Propagation) 방식으로 학습시킨다(303).
학습시에, 입력 노드는 해당 자소 및 그 자소의 전후 각 3개씩의 자소를 입력으로 사용하되, 만일 학습후의 성능이 특별히 낮은 경우에는 전후의 문맥 정보를 추가로 사용하여 전후 4개씩의 자소를 입력으로 사용한다.
그리고, MLP의 중간 계층(Hidden layer)은 각 자소의 출력 가능 음소의 수 및 실험 결과를 토대로 30개에서 50개 사이의 적절한 값을 갖도록 한다. 또한, 출력 노드는 해당 자소가 대응될 수 있는 음소들로 정의한다.
이러한 과정을 거쳐 영어 알파벳 26개에 해당하는 알파벳(자소)별 음소출력 MLP 네트워크를 구성한다(304).
다음으로, 원래의 표준 영어단어 발음사전을 입력하여 구현된 MLP의 자소별 발음출력과 사전이 일치하지 않으면서 항상 한가지 결과를 출력하는지를 분석한다(305).
분석결과, 구현된 MLP의 자소별 발음출력과 사전이 일치하지 않으면서 항상 한가지 결과를 출력하면, 이를 예외 자소 발음사전에 등록하여 예외 자소 발음사전을 구성하고(306), 그렇지 않으면 각 단어의 발음열 출력이 사전과 완전히 일치하는지를 검사한다(307).
검사결과, 일치하지 않으면 예외 단어 발음사전에 등록하여 예외 단어 발음사전을 구성하고(308), 일치하면 각 단어의 발음열 출력이 MLP 출력으로 대체 가능하므로 이를 자소별 음소출력 MLP 파라메터 데이터베이스에 등록하여 자소별 음소출력 MLP 파라메터 데이터베이스를 구성한다(309).
도 4 는 본 발명에 따른 발음사전 자동생성 방법에 대한 일실시예 흐름도이다.
도 4에 도시된 바와 같이, 본 발명에 따른 발음사전 자동생성 방법은, 먼저 인식 후보단어에 대한 텍스트가 입력되면(401), 이로부터 숫자를 해당 알파벳 문자로 바꾸거나 구두점(Puctuation)들을 제거시키는 등의 텍스트 전처리를 수행하여 처리 가능한 알파벳만의 문자열로 변경시킨다(402).
이후, 입력된 단어가 예외 단어 발음사전 데이터베이스에 등록되어 있는지를 분석하여(403) 있으면 등록된 발음열을 출력하고(409), 없으면 단어의 자소가 예외 자소 발음사전 데이터베이스에 등록되어 있는지를 검사한다(404).
검사결과, 입력된 단어가 예외 자소 발음사전 데이터베이스에 등록되어 있으면, 해당 음소를 출력한 후에(405), 입력된 단어의 자소수만큼 수행하였는지를 판단한다(407).
검사결과, 입력된 단어가 예외 자소 발음사전 데이터베이스에 등록되어 있지 않으면, 각 자소별 음소출력 MLP 파라메터 데이터베이스에 의한 MLP로 해당 음소를 출력한 후에(406), 입력된 단어의 자소수만큼 수행하였는지를 판단한다(407).
판단결과, 입력된 단어의 자소수만큼 수행하지 않았으면, 단어의 자소가 예외 자소 발음사전 데이터베이스에 등록되어 있는지를 검사한다(404).
판단결과, 입력된 단어의 자소수만큼 수행하였으면, 발음열중에 동일한 음소가 연결되어 출력된 경우에 이를 하나로 줄여 주거나 묵음의 출력시에 이를 제거하는 등의 발음열 후처리 과정을 수행한 후에(408), 최종적으로 영어 단어 발음열을 출력한다(409).
상기한 바와 같은 본 발명에 따른 발음사전 자동생성 방법은, 발음사전을 신경망으로 학습할 때 음성학적인 지식의 부정확성으로 인해 잘못 학습될 가능성을 줄여서 발음열의 정확도를 향상시키고, 학습된 신경망이 정확히 해당 자소나 단어의 발음열을 생성시키는 경우에 예외 발음사전에서 이를 제외시키므로써 메모리 사용량을 줄이며, 발음열 생성시에 예외 발음사전 검색에 필요한 계산량을 줄일 수 있다
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기한 바와 같은 본 발명은, 대규모 표준 영어단어 발음사전에 등록되어 있지 않은 새로운 어휘에 대하여 보다 정확한 발음열을 출력하므로써, 음성인식 대상 어휘가 수시로 바뀌면서도 사전에 등록되어 있지 않은 어휘를 인식할 때에 높은 인식 성능을 갖는 인식 시스템 구현이 가능하고, 미등록 어휘의 발음열 생성시에 부정확한 발음규칙이나 조음특징에 의존하지 않고 실제 발음사전의 사례를 직접 이용하므로 보다 정확한 발음열 생성이 가능하다. 또한, 본 발명은 예외 자소 발음사전을 추가로 사용하므로써, 예외 단어 발음사전만을 사용할 경우보다 메모리 사용량을 줄이고 검색 시간을 단축시킬 수 있는 효과가 있다.

Claims (7)

  1. 음성인식시스템에 적용되는 발음사전 생성 방법에 있어서,
    신경망을 이용하여 각 자소별로 대응되는 음소를 직접 매핑시키는 다층 퍼셉트론을 학습시켜 예외 단어 발음사전 데이터베이스, 예외 자소 발음사전 데이터베이스, 각 자소별 음소출력 다층 퍼셉트론(MLP) 파라메터 데이터베이스를 구성하는 제 1 단계; 및
    전처리된 입력 단어에 대해, 상기 예외 단어 발음사전 데이터베이스, 상기 예외 자소 발음사전 데이터베이스, 상기 다층 퍼셉트론 파라메터 데이터베이스를 검사하여 해당 단어의 발음열을 후처리한 후에 출력하는 제 2 단계
    를 포함하여 이루어진 발음사전 생성 방법.
  2. 제 1 항에 있어서,
    상기 제 1 단계는,
    단어의 각 자소와 음소 사이의 유사도를 지식 및 사례를 토대로 정의하여 다이내믹 타임 와핑(DTW) 알고리즘에 의해 단어별로 각 자소와 음소 사이의 대응관계를 설정하는 제 3 단계;
    구해진 각 자소-음소 매핑 데이터를 가지고 각 자소별 다층 퍼셉트론을 역전사(Back-Propagation) 방식으로 학습시켜 자소별 음소출력 다층 퍼셉트론 네트워크를 구성하는 제 4 단계;
    이전 발음사전을 입력하여 구현된 다층 퍼셉트론의 자소별 발음출력과 이전 발음사전이 일치하지 않으면서 항상 한가지 결과를 출력하는지를 분석하는 제 5 단계;
    상기 제 5 단계의 분석결과, 구현된 다층 퍼셉트론의 자소별 발음출력과 이전 발음사전이 일치하지 않으면서 항상 한가지 결과를 출력하면, 이를 상기 예외 자소 발음사전 데이터베이스에 등록하여 상기 예외 자소 발음사전 데이터베이스를 구성하고, 그렇지 않으면 각 단어의 발음열 출력이 이전 발음사전과 완전히 일치하는지를 검사하는 제 6 단계; 및
    상기 제 6 단계의 검사결과, 일치하지 않으면 상기 예외 단어 발음사전 데이터베이스에 등록하여 상기 예외 단어 발음사전 데이터베이스를 구성하고, 일치하면 각 단어의 발음열 출력이 다층 퍼셉트론 출력으로 대체 가능하므로 이를 상기 자소별 음소출력 다층 퍼셉트론 파라메터 데이터베이스에 등록하여 상기 자소별 음소출력 다층 퍼셉트론 파라메터 데이터베이스를 구성하는 제 7 단계
    를 포함하여 이루어진 발음사전 생성 방법.
  3. 제 2 항에 있어서,
    상기 제 4 단계의 학습과정은,
    입력 노드를 해당 자소 및 그 자소의 전후 제1 소정의 자소를 입력으로 사용하되, 학습후의 성능이 특별히 낮은 경우에는 전후의 문맥 정보를 추가로 사용하여 전후 제2 소정의 자소를 입력으로 사용하는 것을 특징으로 하는 발음사전 생성 방법.
  4. 제 1 항 내지 제 3 항중 어느 한 항에 있어서,
    상기 제 2 단계는,
    인식 후보단어에 대한 텍스트가 입력되면, 텍스트 전처리 과정을 수행하여 처리 가능한 알파벳만의 문자열로 변경시키는 제 8 단계;
    입력된 단어가 예외 단어 발음사전 데이터베이스에 등록되어 있는지를 분석하여, 있으면 등록된 발음열을 출력하고, 없으면 단어의 자소가 상기 예외 자소 발음사전 데이터베이스에 등록되어 있는지를 검사하는 제 9 단계;
    상기 제 9 단계의 검사결과, 등록되어 있으면 해당 음소를 출력하고, 등록되어 있지 않으면 각 자소별 음소출력 다층 퍼셉트론 파라메터 데이터베이스에 의한 다층 퍼셉트론으로 해당 음소를 출력한 후에, 입력된 단어의 자소수만큼 수행하였는지를 판단하는 제 10 단계; 및
    상기 제 10 단계의 판단결과, 입력된 단어의 자소수만큼 수행하지 않았으면 상기 제 9 단계로 넘어가고, 수행하였으면 발음열 후처리 과정을 수행한 후에, 최종 단어 발음열을 출력하는 제 11 단계
    를 포함하여 이루어진 발음사전 생성 방법.
  5. 제 4 항에 있어서,
    상기 제 11 단계의 발음열 후처리 과정은,
    발음열중에 동일한 음소가 연결되어 출력된 경우에 이를 하나로 줄여 주거나 묵음의 출력시에 이를 제거하는 것을 특징으로 하는 발음사전 생성 방법.
  6. 제 5 항에 있어서,
    상기 각 단어는,
    영어의 알파벳(자소)으로 구성되는 것을 특징으로 하는 발음사전 생성 방법.
  7. 프로세서를 구비한 음성인식시스템에,
    신경망을 이용하여 각 자소별로 대응되는 음소를 직접 매핑시키는 다층 퍼셉트론을 학습시켜 예외 단어 발음사전 데이터베이스, 예외 자소 발음사전 데이터베이스, 각 자소별 음소출력 다층 퍼셉트론(MLP) 파라메터 데이터베이스를 구성하는 기능; 및
    전처리된 입력 단어에 대해, 상기 예외 단어 발음사전 데이터베이스, 상기 예외 자소 발음사전 데이터베이스, 상기 다층 퍼셉트론 파라메터 데이터베이스를 검사하여 해당 단어의 발음열을 후처리한 후에 출력하는 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019980048201A 1998-11-11 1998-11-11 음성인식시스템에서의 발음사전 자동생성 방법 KR100277694B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019980048201A KR100277694B1 (ko) 1998-11-11 1998-11-11 음성인식시스템에서의 발음사전 자동생성 방법
US09/414,350 US6236965B1 (en) 1998-11-11 1999-10-07 Method for automatically generating pronunciation dictionary in speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980048201A KR100277694B1 (ko) 1998-11-11 1998-11-11 음성인식시스템에서의 발음사전 자동생성 방법

Publications (2)

Publication Number Publication Date
KR20000031935A KR20000031935A (ko) 2000-06-05
KR100277694B1 true KR100277694B1 (ko) 2001-01-15

Family

ID=19557865

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980048201A KR100277694B1 (ko) 1998-11-11 1998-11-11 음성인식시스템에서의 발음사전 자동생성 방법

Country Status (2)

Country Link
US (1) US6236965B1 (ko)
KR (1) KR100277694B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019208859A1 (ko) * 2018-04-27 2019-10-31 주식회사 시스트란인터내셔널 발음 사전 생성 방법 및 이를 위한 장치
US10832138B2 (en) 2014-11-27 2020-11-10 Samsung Electronics Co., Ltd. Method and apparatus for extending neural network

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10042943C2 (de) * 2000-08-31 2003-03-06 Siemens Ag Zuordnen von Phonemen zu den sie erzeugenden Graphemen
JP2002358095A (ja) * 2001-03-30 2002-12-13 Sony Corp 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
KR100869878B1 (ko) * 2001-12-31 2008-11-24 주식회사 케이티 지능망 서비스에서 음성 인식 발음 사전 구축 시스템 및서비스 제공 방법
DE10304229A1 (de) * 2003-01-28 2004-08-05 Deutsche Telekom Ag Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten
KR100486735B1 (ko) * 2003-02-28 2005-05-03 삼성전자주식회사 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
US20070100602A1 (en) * 2003-06-17 2007-05-03 Sunhee Kim Method of generating an exceptional pronunciation dictionary for automatic korean pronunciation generator
JP2005031259A (ja) * 2003-07-09 2005-02-03 Canon Inc 自然言語処理方法
US7280963B1 (en) * 2003-09-12 2007-10-09 Nuance Communications, Inc. Method for learning linguistically valid word pronunciations from acoustic data
GB2424742A (en) * 2005-03-31 2006-10-04 Ibm Automatic speech recognition
JP2009525492A (ja) * 2005-08-01 2009-07-09 一秋 上川 英語音、および他のヨーロッパ言語音の表現方法と発音テクニックのシステム
JP2007047412A (ja) * 2005-08-09 2007-02-22 Toshiba Corp 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
US20070150279A1 (en) * 2005-12-27 2007-06-28 Oracle International Corporation Word matching with context sensitive character to sound correlating
JP5040909B2 (ja) * 2006-02-23 2012-10-03 日本電気株式会社 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
KR100932643B1 (ko) * 2007-10-04 2009-12-21 포항공과대학교 산학협력단 한국어 tts 시스템을 위한 형태소, 구문 분석 없는음소열-발음열 변환방법 및 장치
TW200926142A (en) * 2007-12-12 2009-06-16 Inst Information Industry A construction method of English recognition variation pronunciation models
US9202460B2 (en) 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
US9077933B2 (en) 2008-05-14 2015-07-07 At&T Intellectual Property I, L.P. Methods and apparatus to generate relevance rankings for use by a program selector of a media presentation system
US8301446B2 (en) * 2009-03-30 2012-10-30 Adacel Systems, Inc. System and method for training an acoustic model with reduced feature space variation
US9177545B2 (en) * 2010-01-22 2015-11-03 Mitsubishi Electric Corporation Recognition dictionary creating device, voice recognition device, and voice synthesizer
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US9129602B1 (en) * 2012-12-14 2015-09-08 Amazon Technologies, Inc. Mimicking user speech patterns
US20160062979A1 (en) * 2014-08-27 2016-03-03 Google Inc. Word classification based on phonetic features
US10127904B2 (en) * 2015-05-26 2018-11-13 Google Llc Learning pronunciations from acoustic sequences
KR102522924B1 (ko) 2016-03-18 2023-04-19 한국전자통신연구원 음성인식을 위한 초벌학습 장치 및 방법
KR102615290B1 (ko) * 2016-09-01 2023-12-15 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US10943580B2 (en) * 2018-05-11 2021-03-09 International Business Machines Corporation Phonological clustering
CN114026636A (zh) * 2019-06-19 2022-02-08 谷歌有限责任公司 用于语音识别的场境偏置
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
CN112037770B (zh) * 2020-08-03 2023-12-29 北京捷通华声科技股份有限公司 发音词典的生成方法、单词语音识别的方法和装置
CN112141837A (zh) * 2020-09-08 2020-12-29 金陵科技学院 一种基于多层字典学习的智能语音电梯系统
CN112487797B (zh) * 2020-11-26 2024-04-05 北京有竹居网络技术有限公司 数据生成方法、装置、可读介质及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
US5317673A (en) * 1992-06-22 1994-05-31 Sri International Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832138B2 (en) 2014-11-27 2020-11-10 Samsung Electronics Co., Ltd. Method and apparatus for extending neural network
WO2019208859A1 (ko) * 2018-04-27 2019-10-31 주식회사 시스트란인터내셔널 발음 사전 생성 방법 및 이를 위한 장치

Also Published As

Publication number Publication date
US6236965B1 (en) 2001-05-22
KR20000031935A (ko) 2000-06-05

Similar Documents

Publication Publication Date Title
KR100277694B1 (ko) 음성인식시스템에서의 발음사전 자동생성 방법
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US20070219777A1 (en) Identifying language origin of words
CN111696557A (zh) 语音识别结果的校准方法、装置、设备及存储介质
CN112489626B (zh) 一种信息识别方法、装置及存储介质
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
EP2891147B1 (en) Method and system for predicting speech recognition performance using accuracy scores
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
CN112669845A (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
Rahman et al. Arabic Speech Recognition: Advancement and Challenges
Mu et al. Japanese Pronunciation Evaluation Based on DDNN
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Arslan et al. Detecting and correcting automatic speech recognition errors with a new model
CN115424604A (zh) 一种基于对抗生成网络的语音合成模型的训练方法
Aşlyan Syllable Based Speech Recognition
Pranjol et al. Bengali speech recognition: An overview
Vijaya et al. An Efficient System for Audio-Based Sign Language Translator Through MFCC Feature Extraction
CN112997247A (zh) 利用大数据的最佳语言模型生成方法及用于其的装置
KR100404852B1 (ko) 언어모델적응기능을가진음성인식장치및그제어방법
ÖZTÜRK et al. Turkish lexicon expansion by using finite state automata
JP2021529338A (ja) 発音辞書生成方法及びそのための装置
JP2001188556A (ja) 音声認識方法及び装置
Dev et al. CTC-Based End-to-End Speech Recognition for Low Resource Language Sanskrit

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20101001

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee