KR101333194B1 - 통계 기반의 다중 발음 사전 생성 장치 및 방법 - Google Patents

통계 기반의 다중 발음 사전 생성 장치 및 방법 Download PDF

Info

Publication number
KR101333194B1
KR101333194B1 KR1020110072394A KR20110072394A KR101333194B1 KR 101333194 B1 KR101333194 B1 KR 101333194B1 KR 1020110072394 A KR1020110072394 A KR 1020110072394A KR 20110072394 A KR20110072394 A KR 20110072394A KR 101333194 B1 KR101333194 B1 KR 101333194B1
Authority
KR
South Korea
Prior art keywords
pronunciation
word
string
speech
signal file
Prior art date
Application number
KR1020110072394A
Other languages
English (en)
Other versions
KR20130011323A (ko
Inventor
조훈영
김영익
김승희
김동현
박준
김상훈
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110072394A priority Critical patent/KR101333194B1/ko
Publication of KR20130011323A publication Critical patent/KR20130011323A/ko
Application granted granted Critical
Publication of KR101333194B1 publication Critical patent/KR101333194B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명에 따른 통계 기반의 다중 발음 사전 생성 장치는, 발화 및 녹음된 음성 신호 파일들과 각각의 음성 신호 파일에 해당하는 단어 수준의 전사문 및 각각의 음성 신호 파일에 해당하는 화자 정보를 포함하는 데이터베이스; 상기 음성 신호 파일, 상기 단어 수준의 전사문, 및 각 단어 별로 복수 개의 발음열을 포함하는 다중 발음 사전으로부터 음성 인식기의 정렬 기능을 이용하여 상기 음성 신호 파일에 포함된 단어에 대하여 상기 다중 발음 사전에서 가장 가까운 발음열을 검출하는 음성-발음열 정렬부; 상기 가장 가까운 발음열의 검출을 상기 데이터베이스에 저장된 음성 신호 파일들과 단어 수준의 전사문에 적용하여 단어와 발음열의 쌍들을 추출하는 단어-발음열 쌍 추출부; 및 상기 추출된 단어와 발음열의 쌍들을 바탕으로 상기 다중 발음 사전의 각 단어 별 발음열들에 대한 통계 정보를 산출하여 저장하는 발음열 통계정보 추출부를 포함하는 것을 특징으로 한다.

Description

통계 기반의 다중 발음 사전 생성 장치 및 방법{Apparatus and method for generating multiple pronunciation dictionary based on statistics}
본 발명은 음성 인식 또는 음성 합성에 사용되는 다중 발음 사전의 생성에 관한 것으로, 보다 상세하게는 통계 기반의 다중 발음 사전을 생성하는 장치 및 방법에 관한 것이다.
음성 인식기는 방대한 분량의 음성 데이터베이스로부터 통계적인 음향 모델을 학습하고, 생성된 음향 모델과 발음 사전, 그리고 단어들 간의 연결 정보를 이용하여 임의의 입력 음성을 텍스트로 변경한다.
음성 데이터베이스는 수백 시간 내지는 수천 시간 이상의 방대한 음성 데이터를 포함하고 있으며, 수많은 화자들이 발성한 무수한 음성 파일들 및 각 음성 파일의 전사문(transcription)들로 구성되어 있다. HMM(hidden Markov model)에 기반한 음성 인식 기술에서는 음성 데이터베이스에 포함된 각각의 음성 파일들로부터 특징 벡터열을 추출한다. 또한, 각 음성 파일의 전사문을 다중 발음 사전(multiple pronunciation dictionary)을 이용하여 음소열 형태로 변환한 후에, 비터비(Viterbi) 알고리즘 등을 통해 N개의 음소 각각에 해당하는 HMM 음향 모델을 학습한다.
여기서 사용되는 다중 발음 사전은 수만 단어 혹은 수십 만 단어에 대한 단어-발음열 쌍으로 구성되어 있으며, 하나의 단어에 대해 복수 개의 발음열이 존재할 수 있다. 그러나, 일반적으로 복수 개의 발음열 상호 간의 중요도나, 실세계에서의 출현 빈도 등에 대한 정보는 제공되지 않고 있으며, 전문가가 수작업을 통해 중요도 정보를 부가하기도 한다.
음성 인식기는 대규모의 언어 모델(language model)용 텍스트 코퍼스(corpus)를 통해 단어와 단어 간의 연결성에 대한 통계 정보를 계산하여 언어 모델을 구성하며, 학습된 음향 모델과 언어모델, 그리고 다중 발음 사전을 이용하여, 임의의 음성 신호에 대해 탐색 과정(혹은 디코딩)을 통해 문자열로 변환하게 된다.
다중 발음 사전 내부의 다중 발음열 각각에 대한 빈도(frequency of occurrence) 정보가 주어질 경우, 이를 이용하여 음성 인식기의 인식 성능을 향상시킬 수 있을 뿐만 아니라, 탐색 공간에 제약을 가하여 보다 빠르게 인식 결과를 얻을 수 있다. 뿐만 아니라, 최근의 통계 모델에 기반한 음성 합성 시스템에 있어서도 다중 발음의 빈도 정보가 주어질 경우, 이를 활용하여 다양한 음색의 음성 합성이 가능하게 된다.
그러나, 실제로 다중 발음열 각각에 대한 빈도값 정보를 얻거나, 관련 정보를 지속적으로 보완하고 관리하기가 용이하지 않으며, 보다 자동화된 방법을 필요로 한다.
단어나 문장을 발음 기호로 변환하는 발음 사전 기능은 음성인식 또는 합성에 있어서 핵심적인 부분이다. 하나의 어휘에 대해서도 다양한 발음이 존재하므로, 일반적으로 사전에는 각 단어에 대해 하나 이상의 발음을 포함하고 있다. 그러나, 일반적으로 복수 개의 후보 발음열 각각에 대한 중요도, 발생 빈도, 우선 순위 등에 대한 데이터는 제공되지 않는다.
따라서 본 발명에서는 음성인식기의 훈련 과정에서 대규모의 음성 데이터베이스 상에서 출현하는 어휘들에 대한 후보 발음열들의 빈도를 계산하고 출처 정보를 저장하여 이를 활용할 수 있도록 하는, 통계 기반의 다중 발음 사전 생성 장치 및 방법을 제공하고자 한다.
상기 기술적 과제를 해결하기 위하여 본 발명에 따른 통계 기반의 다중 발음 사전 생성 장치는, 발화 및 녹음된 음성 신호 파일들과 각각의 음성 신호 파일에 해당하는 단어 수준의 전사문 및 각각의 음성 신호 파일에 해당하는 화자 정보를 포함하는 데이터베이스; 상기 음성 신호 파일, 상기 단어 수준의 전사문, 및 각 단어 별로 복수 개의 발음열을 포함하는 다중 발음 사전으로부터 음성 인식기의 정렬 기능을 이용하여 상기 음성 신호 파일에 포함된 단어에 대하여 상기 다중 발음 사전에서 가장 가까운 발음열을 검출하는 음성-발음열 정렬부; 상기 가장 가까운 발음열의 검출을 상기 데이터베이스에 저장된 음성 신호 파일들과 단어 수준의 전사문에 적용하여 단어와 발음열의 쌍들을 추출하는 단어-발음열 쌍 추출부; 및 상기 추출된 단어와 발음열의 쌍들을 바탕으로 상기 다중 발음 사전의 각 단어 별 발음열들에 대한 통계 정보를 산출하여 저장하는 발음열 통계정보 추출부를 포함하는 것을 특징으로 한다.
일 실시예에서, 상기 다중 발음 사전 생성 장치는 상기 음성 신호 파일에서 오디오 지문을 추출하고 해시키 값으로 변환하여 상기 통계 정보와 함께 저장하는 해시키 값 생성부를 더 포함할 수 있다.
일 실시예에서, 상기 다중 발음 사전 생성 장치는 임의의 음성 신호 파일에 대하여 생성되는 상기 해시키 값과 이미 저장된 해시키 값을 이용하여 상기 임의의 음성 신호 파일이 상기 통계 정보의 산출에 중복하여 사용되는지 판단하는 중복 사용 검증부를 더 포함할 수 있다.
일 실시예에서, 상기 발음열들에 대한 통계 정보는 각 발음열 별 출현 빈도를 포함할 수 있다.
일 실시예에서, 상기 발음열 통계정보 추출부는, 상기 데이터베이스의 화자 정보를 참조하여 상기 다중 발음 사전의 각 단어 별 발음열들에 대하여 해당 음성 신호를 발성한 화자의 출신 지역 정보를 상기 통계 정보와 함께 저장할 수 있다.
일 실시예에서, 상기 해시키 값 생성부는 음성 신호 파일을 일정 구간으로 나누고 각 구간을 일정 개수의 주파수 부대역으로 나눈 후 각 부대역의 에너지를 구하고 이를 일정 차원의 벡터열로 표현하여 일정 비트의 바이너리 값을 얻어서 상기 해시키 값을 생성할 수 있다.
일 실시예에서, 상기 해시키 값 생성부는 상기 일정 비트의 바이너리 값과 상기 음성-발음 정렬부의 정렬 결과 얻어지는 해당 단어의 음성 신호 파일에서의 시작점 정보의 바이너리 값을 통합하여 상기 해시키 값을 생성할 수 있다.
상기 기술적 과제를 해결하기 위하여 본 발명에 따른 통계 기반의 다중 발음 사전 생성 방법은, 발화 및 녹음된 음성 신호 파일들과 각각의 음성 신호 파일에 해당하는 단어 수준의 전사문 및 각각의 음성 신호 파일에 해당하는 화자 정보를 포함하는 데이터베이스를 마련하는 단계; 상기 음성 신호 파일, 상기 단어 수준의 전사문, 및 각 단어 별로 복수 개의 발음열을 포함하는 다중 발음 사전으로부터 음성 인식기의 정렬 기능을 이용하여 상기 음성 신호 파일에 포함된 단어에 대하여 상기 다중 발음 사전에서 가장 가까운 발음열을 검출하는 단계; 상기 가장 가까운 발음열의 검출을 상기 데이터베이스에 저장된 음성 신호 파일들과 단어 수준의 전사문에 적용하여 단어와 발음열의 쌍들을 추출하는 단계; 및 상기 추출된 단어와 발음열의 쌍들을 바탕으로 상기 다중 발음 사전의 각 단어 별 발음열들에 대한 통계 정보를 산출하여 저장하는 단계를 포함하는 것을 특징으로 한다.
일 실시예에서, 상기 다중 발음 사전 생성 방법은, 상기 음성 신호 파일에서 오디오 지문을 추출하고 해시키 값으로 변환하여 상기 통계 정보와 함께 저장하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 다중 발음 사전 생성 방법은, 임의의 음성 신호 파일에 대하여 생성되는 상기 해시키 값과 이미 저장된 해시키 값을 이용하여 상기 임의의 음성 신호 파일이 상기 통계 정보의 산출에 중복하여 사용되는지 판단하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 발음열들에 대한 통계 정보는 각 발음열 별 출현 빈도를 포함할 수 있다.
일 실시예에서, 상기 통계 정보를 산출하여 저장하는 단계는, 상기 데이터베이스의 화자 정보를 참조하여 상기 다중 발음 사전의 각 단어 별 발음열들에 대하여 해당 음성 신호를 발성한 화자의 출신 지역 정보를 상기 통계 정보와 함께 저장할 수 있다.
일 실시예에서, 상기 해시키 값으로의 변환은, 음성 신호 파일을 일정 구간으로 나누고 각 구간을 일정 개수의 주파수 부대역으로 나눈 후 각 부대역의 에너지를 구하고 이를 일정 차원의 벡터열로 표현하여 일정 비트의 바이너리 값을 얻어서 상기 해시키 값을 생성할 수 있다.
일 실시예에서, 상기 해시키 값으로의 변환은, 상기 일정 비트의 바이너리 값과 상기 음성-발음 정렬부의 정렬 결과 얻어지는 해당 단어의 음성 신호 파일에서의 시작점 정보의 바이너리 값을 통합하여 상기 해시키 값을 생성할 수 있다.
상기된 본 발명에 의하면, 음성 인식기의 훈련 과정에서 대규모의 음성 데이터베이스 상에서 출현하는 어휘들에 대한 후보 발음열들의 빈도를 계산하고 출처 정보를 저장하여 이를 활용할 수 있는 장점이 있다.
또한, 음성 데이터가 발음열의 빈도 정보 추출에 중복적으로 사용되는 것을 방지할 수 있다.
또한, 다중 발음 사전의 통계 정보로서 각 단어 별로 후보 발음열들의 출현 빈도 정보를 얻을 수 있으므로, 최고 빈도 발음열만을 사용하여 음성 인식기의 학습 및 디코딩(decoding) 기능을 수행함으로써 효율을 극대화할 수 있다. 또한, 음성 인식기 사용자의 출신 지역에 따라 해당 지역의 발음만을 발음 사전에서 추출하여 사용함으로써 음성인식 성능을 향상시킬 수 있다. 음성 합성기에서도 이와 마찬가지로 최고 빈도 발음열을 대표 발음으로 사용하여 합성음을 생성하거나, 특정 지역의 화자 발음을 모델링할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 통계 기반의 다중 발음 사전 생성 장치 및 방법의 구성을 나타낸다.
도 2는 데이터베이스(110)에 저장되는 음성 신호 파일(111), 단어 수준의 전사문(112), 화자 정보(113)를 테이블 형태로 표현한 것을 나타낸다.
도 3은 본 발명의 일 실시예에 따른 음성-발음열 정렬부(120)의 구체적인 동작을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 확장된 통계 기반의 다중 발음 사전(180)을 나타낸다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 통계 기반의 다중 발음 사전 생성 장치 및 방법의 구성을 나타낸다.
본 발명의 일 실시예에 따른 통계 기반의 다중 발음 사전 생성 장치는 도시된 바와 같이 데이터베이스(110), 음성-발음열 정렬부(120), 다중 발음 사전(130), 단어-발음열 쌍 추출부(140), 발음열 통계정보 추출부(150), 해시키 값 생성부(160), 중복 사용 검증부(170)를 포함하여 이루어진다.
데이터베이스(110)는 대규모 음성 데이터베이스로서, 발화 및 녹음된 음성 신호 파일들(111)과, 각각의 음성 신호 파일에 해당하는 단어 수준의 전사문(112), 그리고 각각의 음성 신호 파일에 해당하는 화자 정보(113)를 포함한다.
도 2는 데이터베이스(110)에 저장되는 음성 신호 파일(111), 단어 수준의 전사문(112), 화자 정보(113)를 테이블 형태로 표현한 것을 나타낸다. 각각의 음성 신호 파일(111)은 실제 음향 신호를 정수 형태로 샘플링한 값들을 포함한다. 화자 정보(113)는 해당 음성 신호를 발성한 화자의 국적, 성별, 연령대, 출신 지역 등의 정보를 포함할 수 있으며, 화자가 발성한 소음 환경에 대한 정보를 포함할 수 있다. 단어 수준의 전사문(112)는 해당 음성 신호의 발화 내용을 단어 수준에서 텍스트 형태로 기술한 전사문(transcription) 파일이다.
음성-발음열 정렬부(120)는 데이터베이스(110)의 음성 신호 파일(111), 단어 수준의 전사문(112), 그리고 각 단어 별로 복수 개의 발음열을 포함하는 다중 발음 사전(130)으로부터, 음성 인식기의 정렬(alignment) 기능을 이용하여 음성 신호 파일(111)에 포함된 단어에 대하여 다중 발음 사전(130) 내의 각 단어별 복수 개의 후보 발음들 중에서 가장 가까운 발음열을 검출한다.
도 3은 이러한 음성-발음열 정렬부(120)의 구체적인 동작을 나타내는 도면이다. 음성-발음열 정렬부(120)는 음성 신호 파일의 신호 샘플(301)에 대하여 단어 수준의 전사문(302)과 다중 발음 사전(303)을 입력으로 하여 음성 인식을 수행한다. 본 발명의 일 실시예에서, 음성-발음열 정렬부(120)는 음성 인식의 자동 정렬 알고리즘으로 알려진 Forced Alignment 기법을 사용한다. 도 3의 테이블(304)에 도시된 바와 같이, 음성 인식 알고리즘의 수행 결과, 각 단어 별로 시작점과 끝점을 얻을 수 있으며 이와 동시에 특정 단어에 대하여 다중 발음 사전(303)에 나타난 복수 개의 출현 가능한 발음열 중에서 음성 신호 파일(301)이 가장 가까운 것으로 어떤 발음열을 가지고 있는지 검출할 수 있다. 도 3을 참조하면, 음성 신호 파일(301)의 '될까요'라는 단어에 해당하는 4개의 후보 발음열 중에서 'dwe G a jo'라는 발음열이 가장 가까운 발음열로 검출된 것을 나타낸다.
일반적으로 다중 발음 사전(130)은 각 단어 별로 복수 개의 발음열들을 포함하고 있을 뿐, 각 발음열에 대한 통계 정보를 제공하지는 않는다. 본 발명에서는 음성 인식을 통한 정렬 결과를 이용하여 데이터베이스(110)에 포함된 각 음성 신호 파일(111)에 대하여 하나 이상의 단어와 발음열의 쌍을 얻는다. 즉, 단어-발음열 쌍 추출부(140)는 음성-발음열 정렬부(120)의 음성 신호 파일에 포함된 단어에 대한 가장 가까운 발음열의 검출 기능을 데이터베이스(110)에 저장된 음성 신호 파일들(111)과 단어 수준의 전사문(112)에 적용하여 단어와 발음열의 쌍(단어, 발음열)들을 추출한다.
이렇게 추출된 단어와 발음열의 쌍들은 발음열 통계정보 추출부(150)로 제공된다. 발음열 통계정보 추출부(150)는 단어와 발음열의 쌍들을 바탕으로 다중 발음 사전(130)의 각 단어 별 발음열들에 대한 통계 정보(예컨대, 각 단어의 발음열 별 출현 빈도)를 산출하고, 이 통계 정보를 다중 발음 사전(130)에 추가하여, 통계 기반 다중 발음 사전(180)을 생성한다.
나아가, 발음열 통계정보 추출부(150)는 단어와 발음열의 쌍 정보 이외에 부가적으로, 데이터베이스(110)의 화자 정보(113)를 참조하여 각 음성 신호를 발성한 화자의 출신 지역 정보 등의 화자 정보를 부가 정보로 구성하여 통계 기반 다중 발음 사전(180)을 확장할 수 있다.
도 4는 이와 같이 확장된 통계 기반의 다중 발음 사전(180)을 나타낸다. 도 4를 참조하면, 통계 기반의 다중 발음 사전(180)은 단어 별로 복수의 발음열들을 포함하고, 각 발음열의 빈도와 지역 정보를 더욱 포함한다.
다중 발음 사전이 단순히 출현 빈도만을 포함하고 있다면, 추후에 이 출현 빈도 값의 출처를 확인하기 어렵고, 기존에 빈도 값 추출에 이미 사용한 음성 데이터를 추후에 중복하여 사용할 가능성이 있다. 따라서 본 발명의 일 실시예에서는 출현 빈도와 함께 이 출현 빈도 값을 추출한 음성 신호 파일이 어떤 것인지에 대한 정보를 함께 저장한다. 이때 해당 음성 파일에 대한 정보를 단순히 파일명 등으로 할 수 도 있으나, 파일명 등은 변하기 쉬운 정보이므로 본 발명의 일 실시예에서는 음성 신호 파일에서 오디오 지문(fingerprint) 값을 추출하여 N-비트의 해시키 값으로 변환하여 이를 저장한다. 즉, 해시키 값 생성부(160)는 데이터베이스(110)의 음성 신호 파일들(111) 각각에 대하여 오디오 지문을 추출하여 N-비트의 해시키 값으로 표현하여, 단어-발음열 쌍 추출부(140)에 제공하고, 이러한 해시키 값이 통계 기반 다중 발음 사전(180)에 함께 저장된다.
오디오 지문을 추출하여 해시키로 변환하는 방법은 구체적으로 다음과 같다. 본 발명의 일 실시예에서 해시키 값 생성을 위해 오디오 검색 기술분야에서 유사 오디오 신호의 비교를 위해 사용되는 오디오 핑거프린트 추출 기법을 이용한다. 음성 신호 파일을 K개의 일정 구간으로 나누고, 각각을 L개의 주파수 부대역으로 나눈 후, 각 부대역의 에너지를 구하여, 이를 K개의 L차원 벡터열로 표현한다. 그리고 K개의 L차원 벡터열을 평균하여 얻어지는 하나의 대표 L차원 벡터의 각 요소값을 미리 정한 임계치와 비교하여 0 또는 1로 변환하여 L-bit 바이너리 값을 얻는다. 한편, 주어진 음성 신호 파일을 음성-발음열 정렬부(120)를 통과시켜 획득한 정보에는 단어와 발음열 쌍 이외에도 해당 단어가 음성 신호 내에서 발생한 시작점이 R 밀리초라는 정보가 얻어진다. 이 R 값을 M-bit로 표현한 후 상기 L-bit 바이너리 값과 통합하여 N-bit (N=L+M) 바이너리 값으로 표현되는 발음열 출처 정보를 계산하여 저장한다.
도 4를 참조하면, 단어의 각 발음열의 출현 빈도 값과 함께 위와 같이 해시키로 표현되는 출처 정보가 통계 기반 다중 발음 사전(180)에 함께 저장된다.
또한, 본 발명의 일 실시예에 의하면, 발음열의 출현 빈도 정보의 추출에 사용된 음성 신호 파일이 기존에 사용된 적이 있는지에 대한 검증을 수행한다. 중복 사용 검증부(170)는 현재 처리 중인 음성 신호 파일(111)에서 추출된 해시키 값이 통계 기반 다중 발음 사전(180)의 해당 발음열에 기 저장된 해시키 값들 중에 이미 존재하는지 여부를 판단한다. 판단 결과, 만약 이미 존재한다면 중복 사용 검증부(170)는 그러한 사실을 발음열 통계 정보 추출부(150)에 제공하고, 발음열 통계 정보 추출부(150)는 그에 응답하여 해당 음성 신호 파일은 이미 기존에 발음열의 출현 빈도 값 추출에 사용된 것으로 판단하고 통계 정보 추출에 사용하지 않는다.
상술한 본 발명의 실시예에 의하면, 다중 발음 사전의 통계 정보로서 각 단어 별로 후보 발음열들의 출현 빈도 정보를 얻을 수 있으므로, 최고 빈도 발음열만을 사용하여 음성 인식기의 학습 및 디코딩(decoding) 기능을 수행함으로써 효율을 극대화할 수 있다. 또한, 음성 인식기 사용자의 출신 지역에 따라 해당 지역의 발음만을 발음 사전에서 추출하여 사용함으로써 음성인식 성능을 향상시킬 수 있다. 음성 합성기에서도 이와 마찬가지로 최고 빈도 발음열을 대표 발음으로 사용하여 합성음을 생성하거나, 특정 지역의 화자 발음을 모델링할 수 있게 된다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (10)

  1. 발화 및 녹음된 음성 신호 파일들과 각각의 음성 신호 파일의 발화 내용을 텍스트 형태로 기술한 전사문 및 각각의 음성 신호 파일에 해당하는 화자 정보를 포함하는 데이터베이스;
    상기 음성 신호 파일, 상기 전사문, 및 각 단어 별로 복수 개의 발음열을 포함하는 다중 발음 사전으로부터 음성 인식기의 정렬 기능을 이용하여 상기 음성 신호 파일에 포함된 단어에 대하여 상기 다중 발음 사전에서 가장 가까운 발음열을 검출하는 음성-발음열 정렬부;
    상기 가장 가까운 발음열의 검출을 상기 데이터베이스에 저장된 음성 신호 파일들과 상기 전사문에 적용하여 단어와 발음열의 쌍들을 추출하는 단어-발음열 쌍 추출부; 및
    상기 추출된 단어와 발음열의 쌍들을 바탕으로 상기 다중 발음 사전의 각 단어 별 발음열들에 대한 통계 정보를 산출하여 저장하는 발음열 통계정보 추출부를 포함하는 것을 특징으로 하는 통계 기반의 다중 발음 사전 생성 장치.
  2. 제1항에 있어서,
    상기 음성 신호 파일에서 오디오 지문을 추출하고 해시키 값으로 변환하여 상기 통계 정보와 함께 저장하는 해시키 값 생성부를 더 포함하는 것을 특징으로 하는 다중 발음 사전 생성 장치.
  3. 제2항에 있어서,
    임의의 음성 신호 파일에 대하여 생성되는 상기 해시키 값과 이미 저장된 해시키 값을 이용하여 상기 임의의 음성 신호 파일이 상기 통계 정보의 산출에 중복하여 사용되는지 판단하는 중복 사용 검증부를 더 포함하는 것을 특징으로 하는 다중 발음 사전 생성 장치.
  4. 제1항에 있어서,
    상기 발음열들에 대한 통계 정보는 각 발음열 별 출현 빈도를 포함하는 것을 특징으로 하는 다중 발음 사전 생성 장치.
  5. 제1항에 있어서,
    상기 발음열 통계정보 추출부는, 상기 데이터베이스의 화자 정보를 참조하여 상기 다중 발음 사전의 각 단어 별 발음열들에 대하여 해당 음성 신호를 발성한 화자의 출신 지역 정보를 상기 통계 정보와 함께 저장하는 것을 특징으로 하는 다중 발음 사전 생성 장치.
  6. 제2항에 있어서,
    상기 해시키 값 생성부는 음성 신호 파일을 일정 구간으로 나누고 각 구간을 일정 개수의 주파수 부대역으로 나눈 후 각 부대역의 에너지를 구하고 이를 일정 차원의 벡터열로 표현하여 일정 비트의 바이너리 값을 얻어서 상기 해시키 값을 생성하는 것을 특징으로 하는 다중 발음 사전 생성 장치.
  7. 제6항에 있어서,
    상기 해시키 값 생성부는 상기 일정 비트의 바이너리 값과 상기 음성-발음열 정렬부의 정렬 결과 얻어지는 해당 단어의 음성 신호 파일에서의 시작점 정보의 바이너리 값을 통합하여 상기 해시키 값을 생성하는 것을 특징으로 하는 다중 발음 사전 생성 장치.
  8. 발화 및 녹음된 음성 신호 파일들과 각각의 음성 신호 파일의 발화 내용을 텍스트 형태로 기술한 전사문 및 각각의 음성 신호 파일에 해당하는 화자 정보를 포함하는 데이터베이스를 마련하는 단계;
    상기 음성 신호 파일, 상기 전사문, 및 각 단어 별로 복수 개의 발음열을 포함하는 다중 발음 사전으로부터 음성 인식기의 정렬 기능을 이용하여 상기 음성 신호 파일에 포함된 단어에 대하여 상기 다중 발음 사전에서 가장 가까운 발음열을 검출하는 단계;
    상기 가장 가까운 발음열의 검출을 상기 데이터베이스에 저장된 음성 신호 파일들과 상기 전사문에 적용하여 단어와 발음열의 쌍들을 추출하는 단계; 및
    상기 추출된 단어와 발음열의 쌍들을 바탕으로 상기 다중 발음 사전의 각 단어 별 발음열들에 대한 통계 정보를 산출하여 저장하는 단계를 포함하는 것을 특징으로 하는 통계 기반의 다중 발음 사전 생성 방법
  9. 제8항에 있어서,
    상기 음성 신호 파일에서 오디오 지문을 추출하고 해시키 값으로 변환하여 상기 통계 정보와 함께 저장하는 단계를 더 포함하는 것을 특징으로 하는 다중 발음 사전 생성 방법.
  10. 제9항에 있어서,
    임의의 음성 신호 파일에 대하여 생성되는 상기 해시키 값과 이미 저장된 해시키 값을 이용하여 상기 임의의 음성 신호 파일이 상기 통계 정보의 산출에 중복하여 사용되는지 판단하는 단계를 더 포함하는 것을 특징으로 하는 다중 발음 사전 생성 방법.
KR1020110072394A 2011-07-21 2011-07-21 통계 기반의 다중 발음 사전 생성 장치 및 방법 KR101333194B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110072394A KR101333194B1 (ko) 2011-07-21 2011-07-21 통계 기반의 다중 발음 사전 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110072394A KR101333194B1 (ko) 2011-07-21 2011-07-21 통계 기반의 다중 발음 사전 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20130011323A KR20130011323A (ko) 2013-01-30
KR101333194B1 true KR101333194B1 (ko) 2013-11-26

Family

ID=47840308

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110072394A KR101333194B1 (ko) 2011-07-21 2011-07-21 통계 기반의 다중 발음 사전 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101333194B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134390B2 (en) 2015-09-23 2018-11-20 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102582360B1 (ko) * 2018-02-08 2023-09-25 주식회사 케이티 사용자 맞춤형 언어 모델을 생성하는 장치, 단말 및 방법
JP2021529338A (ja) * 2018-04-27 2021-10-28 エル ソルー カンパニー, リミテッドLlsollu Co., Ltd. 発音辞書生成方法及びそのための装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100573870B1 (ko) * 2003-10-15 2006-04-26 한국전자통신연구원 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100573870B1 (ko) * 2003-10-15 2006-04-26 한국전자통신연구원 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134390B2 (en) 2015-09-23 2018-11-20 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof

Also Published As

Publication number Publication date
KR20130011323A (ko) 2013-01-30

Similar Documents

Publication Publication Date Title
KR102413693B1 (ko) 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
JP5322655B2 (ja) 莫大な語彙を有する音声認識システム
Le et al. Automatic speech recognition for under-resourced languages: application to Vietnamese language
Aldarmaki et al. Unsupervised automatic speech recognition: A review
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
Sitaram et al. Bootstrapping text-to-speech for speech processing in languages without an orthography
Lux et al. The IMS Toucan System for the Blizzard Challenge 2023
Droppo et al. Context dependent phonetic string edit distance for automatic speech recognition
KR20090060631A (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
Kurian et al. Continuous speech recognition system for Malayalam language using PLP cepstral coefficient
KR101333194B1 (ko) 통계 기반의 다중 발음 사전 생성 장치 및 방법
KR20180033875A (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
Seng et al. Which unit for acoustic and language modeling for Khmer Automatic Speech Recognition?
Vythelingum et al. Acoustic-dependent Phonemic Transcription for Text-to-speech Synthesis.
Rebai et al. Linto platform: A smart open voice assistant for business environments
Reddy et al. Transcription of Telugu TV news using ASR
JP2012255867A (ja) 音声認識装置
Johnson et al. Leveraging multiple sources in automatic African American English dialect detection for adults and children
Audhkhasi et al. Empirical link between hypothesis diversity and fusion performance in an ensemble of automatic speech recognition systems.
Kurian et al. Automated Transcription System for MalayalamLanguage
Ma et al. Russian speech recognition system design based on HMM

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161027

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171027

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20181030

Year of fee payment: 6