KR101587866B1 - 음성 인식용 발음사전 확장 장치 및 방법 - Google Patents
음성 인식용 발음사전 확장 장치 및 방법 Download PDFInfo
- Publication number
- KR101587866B1 KR101587866B1 KR1020090048847A KR20090048847A KR101587866B1 KR 101587866 B1 KR101587866 B1 KR 101587866B1 KR 1020090048847 A KR1020090048847 A KR 1020090048847A KR 20090048847 A KR20090048847 A KR 20090048847A KR 101587866 B1 KR101587866 B1 KR 101587866B1
- Authority
- KR
- South Korea
- Prior art keywords
- dictionary
- phoneme
- pronunciation
- model
- pronunciation dictionary
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Abstract
Description
본 발명의 실시예들은 음성 인식의 음향 모델 훈련에 이용되는 음성 데이터베이스의 발음 전사 교정을 위한 발음 확장 방법 및 장치에 관한 것이다.
일반적으로 대용량 연속어 음성인식 시스템은 음향 모델, 언어 모델, 발음 사전을 이용하여 음성인식을 할 수 있으며, 이중 음향 모델은 음성 신호의 특징을 인식하는 중요한 구성 요소이다.
음향 모델은 통계적 모델이 사용되고 있으며, 이러한 통계 모델을 사용하기 위해서는 대용량의 음성 데이터베이스(DB)가 필요하며, 이 음성 DB로부터 특징을 추출, 인식 단위의 음향 모델로 훈련하는 과정이 필요하다.
음향 모델의 학습에 사용되는 음성 DB는 음성을 나타내는 소리와 해당 음성이 나타내는 문자 데이터로 구성이 되어 있다. 정확한 음향 모델링을 위해서는 소리와 문자가 정확히 일치해야 하며, 그렇지 않을 경우 최적화된 음향 모델을 얻을 수가 없으므로, 음성인식 시스템의 성능 저하가 발생한다.
음성 DB는 다양한 화자가 참여하여 사전에 선택된 문장을 읽음으로써 구축된 다. 이때 발성의 대상이 되는 문장은 연음, 변이음과 같은 언어학적 현상에 따라 글자 그대로 읽혀지지 않을 수 있다. 이에 대한 해결 방법으로 음향 모델을 훈련할 때 사용되는 발음 사전을 언어학적 현상을 반영, 구축하여 사용하고 있다.
그러나, 발음 사전이 언어학적 현상을 반영하여 구축되었다 하더라도 모든 발음 변이 현상을 표현하기는 어려우며, 같은 문장이라 할지라도 화자에 따라 다르게 발성될 수 있다. 예를 들어, 화자의 교육 수준, 성장 배경, 연령 등에 따라 비언어학적 현상이 나타나고, 음성 데이터 녹음 시 화자가 문장을 정확히 발음하지 않는 경우가 발생할 수 있다.
본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치는, 입력 발화 문장에 대한 음성 정보를 수신하는 수신부, 상기 수신된 음성 정보를 하나 이상의 음소로 분할하고, 상기 분할된 하나 이상의 음소에 대한 분할 정보를 수집하여, 상기 수집된 분할 정보를 기반으로 상기 분할된 하나 이상의 음소에 대한 발음변이를 분석하는 발음변이 감지부 및 상기 발음변이가 분석된 하나 이상의 음소에 대한 대체 가능한 음소 후보군을 선택하여 발음사전을 확장하는 발음사전 확장부를 포함한다.
또한, 본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 방법은, 입력 발화 문장에 대한 음성 정보를 수신하는 단계, 상기 수신된 음성 정보를 하나 이상의 음소로 분할하는 단계, 상기 분할된 하나 이상의 음소에 대한 분할 정보를 수집하는 단계, 상기 수집된 분할 정보를 기반으로 상기 분할된 하나 이상의 음소에 대한 발음변이를 분석하는 단계 및 상기 발음변이가 분석된 하나 이상의 음소에 대한 대체 가능한 음소 후보군을 선택하여 발음사전을 확장하는 단계를 포함한다.
본 발명의 일실시예에 따르면, 음성 데이터베이스의 다양한 발음변이 현상을 사용자의 개입 없이 자동으로 찾아내어 발음을 확장함으로써, 음성 데이터와 전사 데이터의 불일치를 보정할 수 있다.
또한, 본 발명의 일실시예에 따르면, 음성인식 모델의 음소 사이의 분별력을 강화시켜 보다 향상된 음성인식 시스템을 제공할 수 있다.
또한, 본 발명의 일실시예에 따르면, 다양한 화자의 특성을 반영한 음성인식용 발음 사전을 구축할 수 있으며, 데이터에 나타나는 많은 발음 변이 현상에 대해 대처할 수 있는 발음사전을 구축할 수 있다.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.
한편, 본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 상세한 설명을 생략할 것이다. 그리고, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 사용자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치의 구성을 도시한 블록도이다.
본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치는 크게, 수신부(100), 음성인식 처리부(200), 음성 데이터베이스(DB)(300) 및 출력부(400)로 구성된다. 또한, 본 발명의 일실시예에 따른 발음변이 처리부(200)는 다시 발화문장 선택부(210), 발음변이 감지부(220) 및 발음사전 확장부(230)로 구성된다.
본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치는 수신부(100)를 통하여 입력 발화 문장에 대한 음성 정보를 수신하고, 음성인식 처리부(200)에 포함된 발음변이 발음변이 감지부(220)를 이용하여 상기 수신된 음성 정보를 하나 이상의 음소로 분할하고, 상기 분할된 하나 이상의 음소에 대한 분할 정보를 수집하여, 상기 수집된 분할 정보를 기반으로 상기 분할된 하나 이상의 음소에 대한 발음변이를 분석한다.
이때, 본 발명의 일실시예에 따르면, 상기 분할 정보는 상기 분할된 하나 이상의 음소에 대한 음향 점수 등을 포함하며, 상기 음향 점수를 수집하여 상기 분할된 하나 이상의 음소에 대한 발음변이를 분석할 수 있다.
최종적으로, 본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치는, 음성인식 처리부(200)에 포함된 발음사전 확장부(230)를 이용하여 상기 발음변이가 분석된 하나 이상의 음소에 대한 대체 가능한 음소 후보군을 선택하여 발음사전을 확장 할 수 있다.
아래에서는, 본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치의 각 구성 요소를 이용하여 발음사전 확장 방법을 도 2를 참조하여 상세히 설명하도록 한다.
도 2는 본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 방법을 도시한 흐름도이다.
전술한 바와 같이, 본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치는 수신부(100)를 통하여 입력 발화 문장에 대한 음성 정보를 수신함으로써, 상기 음성 정보에 대한 발음변이를 분석하여 발음변이가 있는 경우, 이를 음성 데이터베이스의 발음사전 및 전사 데이터를 확장 또는 대체하는 방법을 제공한다.
이때, 본 발명의 일실시예에 따른 수신부(100)는 마이크 등의 음성 정보를 수신 가능한 수단 등을 포함하며, 상기 수신된 음성 정보를 음성인식 처리부(200)로 전송함으로써, 음성인식 처리부(200)가 발음변이 여부를 판단하여 처리할 수 있도록 한다.
본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치는, 발화문장 선택부(210)를 이용하여 음성인식 처리부(200)에 수신된 음성 정보 중 발음변이 현상을 찾기 위한 대상 문장을 선택한다.
이때, 본 발명의 일실시예에 따르면, 음성 데이터베이스(300)는 음향 모델, 언어 모델, 발음사전 및 전사 데이터 등을 저장하고 있으며, 발음사전 확장에 필요한 오인식 발생 문장 셋을 포함한다.
본 발명의 일실시예에 따른 음성 데이터베이스(300)에 저장된 상기 오인식 발생 문장 셋은, 사용자가 발음사전 확장 장치를 사용하면서 오인식이 자주 발생하는 문장을 직접 입력할 수도 있다.
이때, 본 발명의 일실시예에 따른 음성 데이터베이스(300) 음성인식 처리부(200)에 포함될 수도 있고, 별도의 수단으로 독립 구성될 수도 있다.
본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치는, 발음변이 감지부(220)를 이용하여 상기 음성 정보를 음성모델 및 상기 발음사전을 기반으로 상 기 하나 이상의 음소로 분할하고, 상기 분할된 하나 이상의 음소에 대한 상기 음향 점수를 측정하고(210), 상기 분할된 하나 이상의 음소(단위 음소) 별로 측정된 음향 점수를 수집한다(220).
이때, 본 발명의 일실시예에 따른 상기 발음변이 감지부(220)는, 상기 하나 이상의 음소의 각각에 대한 상기 음향 점수의 분포를 고려하여 선택된 임계점을 기준으로 상기 분할된 하나 이상의 음소 중 상기 음향 점수가 낮은 음소를 발음변이가 발생할 가능성이 있는 후보로 선별한다(230).
도 3은 본 발명의 일실시예에 따른 음소에 대한 음향 점수 분포도의 예를 도시한 도면이다.
예를 들어, 본 발명의 일실시예에 따른 발음변이 감지부(220)는 상기 분할된 음소가 ‘A’인 경우, 도 3의 (a)를 참조하여 상기 임계점을 선택하여 상기 발음변이가 발생할 가능성이 있는 후보를 선별 할 수 있으며, 상기 분할된 음소가 ‘O’인 경우, 도 3의 (b)를 참조하여 상기 임계점을 선택하여 상기 발음변이가 발생할 가능성이 있는 후보를 선별 할 수 있다.
다음으로, 본 발명의 일실시예에 따른 발음사전 확장부(230)는 상기 발음사전에 대응하는 언어의 언어학적 변이 특성을 이용하여 상기 후보로 선별된 음소에 대한 상기 대체 가능한 음소 후보군을 생성한다(240).
도 4는 본 발명의 일실시예에 따른 대체 가능한 음소 후보 기준표의 예를 도시한 도면이다.
도 4를 참조하여 예를 들면, 본 발명의 일실시예에 따른 음성 인식용 발음사 전 확장 장치는 상기 분할된 음소를 자음과 모음의 두 집단으로 구분하여 대체 가능한 후보군을 선별할 수 있다.
또 다른 예로, 본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치는 자음, 모음 내에서도 음소의 특징을 이용하여 두 집단을 세분화 할 수 있을 뿐만 아니라, 조음 장소 및 발생 방법에 따라 세분화 할 수 있다.
다음으로, 본 발명의 일실시예에 따른 발음사전 확장부(230)는 상기 대체 가능한 음소 후보군 중 상기 후보로 선별된 음소와 상기 음성 정보의 분할된 구간을 서로 비터비(Viterbi) 디코딩 방식으로 디코딩하여 상기 후보로 선별된 음소에 대한 상기 음향 점수를 측정하고, 상기 후보로 선별된 음소 중 상기 음향 점수가 가장 높은 음소를 대체 대상 음소로 선정한다(250).
최종적으로, 본 발명의 일실시예에 따른 발음사전 확장부(230)는 상기 분할된 음소를 상기 선정된 대체 대상 음소로 대체하여 상기 발음사전에 등록하거나, 상기 선정된 대체 대상 음소를 확장하여 등록한다(260).
이때, 본 발명의 일실시예에 따른 발음사전 확장부(230)는 상기 대체 대상 음소로 대체하여 등록된 발음사전의 엔트리(entry)를 이용하여 전사 데이터를 수정한다.
또한, 본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치는 상기 발음사전을 확장하는 과정에서 음성인식 모델 훈련 방법을 수행하는 바, 도 5 및 도 6을 참조하여 설명하도록 한다.
도 5는 본 발명의 일실시예에 따른 음성인식 모델 훈련 방법의 제1 실시예를 도시한 도면이다.
본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치는, 상기 음성모델로 모노폰(monophone) 모델 및 트라이폰(triphone) 모델 등을 적용할 수 있다.
예를 들어, 본 발명의 일실시예에 따른 발음사전 확장부(230)는 도 5에 도시된 바와 같이 최초, 상기 발음사전의 초기 발음사전을 이용하여 상기 모노폰 모델을 생성한다(510).
다음으로, 본 발명의 일실시예에 따른 발음사전 확장부(230)는 상기 생성된 모노폰 모델을 통하여 상기 음성 데이터베이스(300)에 저장된 상기 전사 데이터를 수정하고, 상기 발음사전을 확장하는 등의 음성 데이터베이스(300)를 정제한다(520).
마지막으로, 본 발명의 일실시예에 따른 발음사전 확장부(230)는 상기 수정된 전사 데이터, 상기 확장된 발음사전 및 상기 모노폰 모델을 이용하여 상기 트라이폰 모델을 생성한다(530).
도 6은 본 발명의 일실시예에 따른 음성인식 모델 훈련 방법의 제2 실시예를 도시한 도면이다.
또 다른 예로, 본 발명의 일실시예에 따른 발음사전 확장부(230)는 도 6에 도시된 바와 같이 최초, 상기 발음사전의 초기 발음사전을 이용하여 상기 모노폰 모델을 생성한다(610).
다음으로, 본 발명의 일실시예에 따른 발음사전 확장부(230)는 상기 발음사전, 전사 데이터 및 상기 생성된 모노폰 모델을 이용하여 상기 트라이폰 모델을 생 성한다(620).
다음으로, 본 발명의 일실시예에 따른 발음사전 확장부(230)는 상기 생성된 트라이폰 모델을 통하여 음성 데이터베이스(300)에 저장된 상기 전사 데이터를 수정하고, 상기 발음사전을 확장하는 등의 음성 데이터베이스(300) 정제 과정을 수행한다(630).
최종적으로, 본 발명의 일실시예에 따른 발음사전 확장부(230)는 상기 수정된 전사 데이터, 상기 확장된 발음사전 및 상기 모노폰 모델을 이용하여 상기 생성된 트라이폰 모델을 재생성한다(640).
본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨 터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일실시예에 따른 음성 인식용 발음사전 확장 방법을 도시한 흐름도이다.
도 3은 본 발명의 일실시예에 따른 음소에 대한 음향 점수 분포도의 예를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 대체 가능한 음소 후보 기준표의 예를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 음성인식 모델 훈련 방법의 제1 실시예를 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 음성인식 모델 훈련 방법의 제2 실시예를 도시한 도면이다.
Claims (19)
- 입력 발화 문장에 대한 음성 정보를 수신하는 수신부;상기 수신된 음성 정보를 하나 이상의 음소로 분할하고, 상기 분할된 하나 이상의 음소에 대한 음향 점수를 수집하며, 상기 분할된 하나 이상의 음소에 대한 음향 점수와 상기 음향 점수의 분포에 기초하여 상기 분할된 하나 이상의 음소 중에서 발음변이가 발생할 가능성이 있는 후보를 결정하는 발음변이 감지부; 및상기 발음변이가 발생할 가능성이 있는 후보에 대한 대체 가능한 음소 후보군을 선택하고, 상기 대체 가능한 음소 후보군에 기초하여 발음사전을 확장하는 발음사전 확장부를 포함하는 음성 인식용 발음사전 확장 장치.
- 제1항에 있어서,상기 발음변이 감지부는 상기 음성 정보를 음성모델 및 상기 발음사전을 기반으로 상기 하나 이상의 음소로 분할하는 음성 인식용 발음사전 확장 장치.
- 제2항에 있어서,상기 발음변이 감지부는,상기 하나 이상의 음소의 각각에 대한 상기 음향 점수의 분포를 고려하여 선택된 임계점을 기준으로 상기 분할된 하나 이상의 음소 중 상기 음향 점수가 낮은 음소를 상기 발음변이가 발생할 가능성이 있는 후보로 선별하는 음성 인식용 발음사전 확장 장치.
- 제3항에 있어서,상기 발음사전 확장부는,상기 발음사전에 대응하는 언어의 언어학적 변이 특성을 이용하여 상기 후보로 선별된 음소에 대한 상기 대체 가능한 음소 후보군을 생성하는 음성 인식용 발음사전 확장 장치.
- 제4항에 있어서,상기 발음사전 확장부는,상기 대체 가능한 음소 후보군 중 상기 후보로 선별된 음소와 상기 음성 정보의 분할된 구간을 서로 비터비(Viterbi) 디코딩 방식으로 디코딩하여 상기 후보로 선별된 음소에 대한 상기 음향 점수를 측정하고,상기 후보로 선별된 음소 중 상기 음향 점수가 가장 높은 음소를 대체 대상 음소로 선정하는 음성 인식용 발음사전 확장 장치.
- 제5항에 있어서,상기 발음사전 확장부는,상기 분할된 음소를 상기 선정된 대체 대상 음소로 대체하여 상기 발음사전에 등록하는 음성 인식용 발음사전 확장 장치.
- 제6항에 있어서,상기 발음사전 확장부는,상기 대체 대상 음소로 대체하여 등록된 발음사전의 엔트리(entry)를 이용하여 전사 데이터를 수정하는 음성 인식용 발음사전 확장 장치.
- 제7항에 있어서,상기 음성모델은 모노폰(monophone) 모델 및 트라이폰(triphone) 모델을 포함하고,상기 발음사전 확장부는 상기 발음사전의 초기 발음사전을 이용하여 상기 모노폰 모델을 생성하고, 상기 생성된 모노폰 모델을 통하여 상기 전사 데이터를 수정 및 상기 발음사전을 확장하며, 상기 수정된 전사 데이터, 상기 확장된 발음사전 및 상기 모노폰 모델을 이용하여 상기 트라이폰 모델을 생성하는 음성 인식용 발음 사전 확장 장치.
- 제7항에 있어서,상기 음성모델은 모노폰(monophone) 모델 및 트라이폰(triphone) 모델을 포함하고,상기 발음사전 확장부는 상기 발음사전의 초기 발음사전을 이용하여 상기 모노폰 모델을 생성하고, 상기 발음사전, 전사 데이터 및 상기 생성된 모노폰 모델을 이용하여 상기 트라이폰 모델을 생성하며, 상기 생성된 트라이폰 모델을 통하여 상기 전사 데이터를 수정 및 상기 발음사전을 확장하며, 상기 수정된 전사 데이터, 상기 확장된 발음사전 및 상기 모노폰 모델을 이용하여 상기 생성된 트라이폰 모델을 재생성하는 음성 인식용 발음 사전 확장 장치.
- 입력 발화 문장에 대한 음성 정보를 수신하는 단계;상기 수신된 음성 정보를 하나 이상의 음소로 분할하는 단계;상기 분할된 하나 이상의 음소에 대한 음향 점수를 수집하는 단계;상기 분할된 하나 이상의 음소에 대한 음향 점수와 상기 음향 점수의 분포에 기초하여 상기 분할된 하나 이상의 음소 중에서 발음변이가 발생할 가능성이 있는 후보를 결정하는 단계; 및상기 발음변이가 발생할 가능성이 있는 후보에 대한 대체 가능한 음소 후보군을 선택하고, 상기 대체 가능한 음소 후보군에 기초하여 발음사전을 확장하는 단계를 포함하는 음성 인식용 발음사전 확장 방법.
- 제10항에 있어서,상기 음향 점수를 수집하는 단계는 상기 음성 정보를 음성모델 및 상기 발음사전을 기반으로 상기 하나 이상의 음소로 분할하는 음성 인식용 발음사전 확장 방법.
- 제11항에 있어서,상기 후보를 결정하는 단계는,상기 하나 이상의 음소의 각각에 대한 상기 음향 점수의 분포를 고려하여 선택된 임계점을 기준으로 상기 분할된 하나 이상의 음소 중 상기 음향 점수가 낮은 음소를 상기 발음변이가 발생할 가능성이 있는 후보로 선별하는 음성 인식용 발음사전 확장 방법.
- 제12항에 있어서,상기 발음사전을 확장하는 단계는,상기 발음사전에 대응하는 언어의 언어학적 변이 특성을 이용하여 상기 후보로 선별된 음소에 대한 대체 가능한 음소 후보군을 생성하는 단계를 포함하는 음성 인식용 발음사전 확장 방법.
- 제13항에 있어서,상기 발음사전을 확장하는 단계는,상기 대체 가능한 음소 후보군 중 상기 후보로 선별된 음소와 상기 음성 정 보의 분할된 구간을 서로 비터비(Viterbi) 디코딩 방식으로 디코딩하여 상기 후보로 선별된 음소에 대한 상기 음향 점수를 측정하는 단계; 및상기 후보로 선별된 음소 중 상기 음향 점수가 가장 높은 음소를 대체 대상 음소로 선정하는 단계를 더 포함하는 음성 인식용 발음사전 확장 방법.
- 제14항에 있어서,상기 발음사전을 확장하는 단계는,상기 분할된 음소를 상기 선정된 대체 대상 음소로 대체하여 상기 발음사전에 등록하는 단계를 더 포함하는 음성 인식용 발음사전 확장 방법.
- 제15항에 있어서,상기 발음사전을 확장하는 단계는,상기 대체 대상 음소로 대체하여 등록된 발음사전의 엔트리(entry)를 이용하여 전사 데이터를 수정하는 단계를 더 포함하는 음성 인식용 발음사전 확장 방법.
- 제16항에 있어서,상기 음성모델은 모노폰(monophone) 모델 및 트라이폰(triphone) 모델을 포 함하고,상기 발음사전을 확장하는 단계는,상기 발음사전의 초기 발음사전을 이용하여 상기 모노폰 모델을 생성하는 단계;상기 생성된 모노폰 모델을 통하여 상기 전사 데이터를 수정 및 상기 발음사전을 확장하는 단계; 및상기 수정된 전사 데이터, 상기 확장된 발음사전 및 상기 모노폰 모델을 이용하여 상기 트라이폰 모델을 생성하는 단계를 포함하는 음성 인식용 발음 사전 확장 방법.
- 제16항에 있어서,상기 음성모델은 모노폰(monophone) 모델 및 트라이폰(triphone) 모델을 포함하고,상기 발음사전을 확장하는 단계는,상기 발음사전의 초기 발음사전을 이용하여 상기 모노폰 모델을 생성하는 단계;상기 발음사전, 전사 데이터 및 상기 생성된 모노폰 모델을 이용하여 상기 트라이폰 모델을 생성하는 단계;상기 생성된 트라이폰 모델을 통하여 상기 전사 데이터를 수정 및 상기 발음사전을 확장하는 단계; 및상기 수정된 전사 데이터, 상기 확장된 발음사전 및 상기 모노폰 모델을 이용하여 상기 생성된 트라이폰 모델을 재생성하는 단계를 포함하는 음성 인식용 발음 사전 확장 방법.
- 제10항 내지 제18항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090048847A KR101587866B1 (ko) | 2009-06-03 | 2009-06-03 | 음성 인식용 발음사전 확장 장치 및 방법 |
US12/710,597 US8645139B2 (en) | 2009-06-03 | 2010-02-23 | Apparatus and method of extending pronunciation dictionary used for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090048847A KR101587866B1 (ko) | 2009-06-03 | 2009-06-03 | 음성 인식용 발음사전 확장 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100130263A KR20100130263A (ko) | 2010-12-13 |
KR101587866B1 true KR101587866B1 (ko) | 2016-01-25 |
Family
ID=43301367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090048847A KR101587866B1 (ko) | 2009-06-03 | 2009-06-03 | 음성 인식용 발음사전 확장 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8645139B2 (ko) |
KR (1) | KR101587866B1 (ko) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009078256A1 (ja) * | 2007-12-18 | 2009-06-25 | Nec Corporation | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム |
US9640175B2 (en) | 2011-10-07 | 2017-05-02 | Microsoft Technology Licensing, Llc | Pronunciation learning from user correction |
US9672815B2 (en) | 2012-07-20 | 2017-06-06 | Interactive Intelligence Group, Inc. | Method and system for real-time keyword spotting for speech analytics |
EP2875508A4 (en) * | 2012-07-20 | 2015-12-30 | Interactive Intelligence Inc | METHOD AND SYSTEM FOR REAL TIME KEYWORD POINTS FOR SPEECH ANALYTICS |
CN107112010B (zh) | 2015-01-16 | 2021-06-01 | 三星电子株式会社 | 用于使用语法模型执行话音识别的方法和设备 |
CN105225659A (zh) * | 2015-09-10 | 2016-01-06 | 中国航空无线电电子研究所 | 一种指令式语音控制发音词典辅助生成方法 |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
JP6690484B2 (ja) * | 2016-09-15 | 2020-04-28 | 富士通株式会社 | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 |
WO2019208859A1 (ko) * | 2018-04-27 | 2019-10-31 | 주식회사 시스트란인터내셔널 | 발음 사전 생성 방법 및 이를 위한 장치 |
US11282512B2 (en) * | 2018-10-27 | 2022-03-22 | Qualcomm Incorporated | Automatic grammar augmentation for robust voice command recognition |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5625749A (en) * | 1994-08-22 | 1997-04-29 | Massachusetts Institute Of Technology | Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation |
KR19990080346A (ko) | 1998-04-16 | 1999-11-05 | 구자홍 | 화자 적응 음성 데이터 인식 방법 |
US7295979B2 (en) | 2000-09-29 | 2007-11-13 | International Business Machines Corporation | Language context dependent data labeling |
JP2002149187A (ja) * | 2000-11-07 | 2002-05-24 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
KR100736496B1 (ko) | 2001-06-26 | 2007-07-06 | 엘지전자 주식회사 | 연속 음성인식기의 성능 개선 방법 |
JP3841342B2 (ja) | 2002-03-15 | 2006-11-01 | 日本放送協会 | 音声認識装置および音声認識プログラム |
US7457745B2 (en) * | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
KR100486733B1 (ko) * | 2003-02-24 | 2005-05-03 | 삼성전자주식회사 | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 |
JP4283133B2 (ja) | 2004-02-23 | 2009-06-24 | 株式会社国際電気通信基礎技術研究所 | 音声認識装置 |
US7590533B2 (en) | 2004-03-10 | 2009-09-15 | Microsoft Corporation | New-word pronunciation learning using a pronunciation graph |
JP4571921B2 (ja) | 2006-03-15 | 2010-10-27 | 日本電信電話株式会社 | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 |
KR100845428B1 (ko) | 2006-08-25 | 2008-07-10 | 한국전자통신연구원 | 휴대용 단말기의 음성 인식 시스템 |
JP4427530B2 (ja) | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
US7860716B2 (en) | 2007-04-24 | 2010-12-28 | Microsoft Corporation | Speech model refinement with transcription error detection |
JP4769223B2 (ja) | 2007-04-26 | 2011-09-07 | 旭化成株式会社 | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 |
JP4861912B2 (ja) | 2007-06-20 | 2012-01-25 | 独立行政法人情報通信研究機構 | 知識源を組込むための確率計算装置及びコンピュータプログラム |
KR200461070Y1 (ko) | 2008-12-10 | 2012-06-29 | 이상탁 | 절첩식 안경케이스 |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
-
2009
- 2009-06-03 KR KR1020090048847A patent/KR101587866B1/ko active IP Right Grant
-
2010
- 2010-02-23 US US12/710,597 patent/US8645139B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
Non-Patent Citations (1)
Title |
---|
정민화, 이경님, ‘한국어 연속음성인식 시스템 구현을 위한 형태소 단위의 발음 변화 모델링’, 말소리 제49호, pp.107~121, 2004년. |
Also Published As
Publication number | Publication date |
---|---|
US20100312550A1 (en) | 2010-12-09 |
KR20100130263A (ko) | 2010-12-13 |
US8645139B2 (en) | 2014-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101587866B1 (ko) | 음성 인식용 발음사전 확장 장치 및 방법 | |
CN109065031B (zh) | 语音标注方法、装置及设备 | |
US8818813B2 (en) | Methods and system for grammar fitness evaluation as speech recognition error predictor | |
JP5282737B2 (ja) | 音声認識装置および音声認識方法 | |
CN102360543B (zh) | 基于hmm的双语(普通话-英语)tts技术 | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
CN101436403B (zh) | 声调识别方法和系统 | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
US7921014B2 (en) | System and method for supporting text-to-speech | |
CN104464751B (zh) | 发音韵律问题的检测方法及装置 | |
CN111369974B (zh) | 一种方言发音标注方法、语言识别方法及相关装置 | |
CN109326281B (zh) | 韵律标注方法、装置和设备 | |
CN112259083B (zh) | 音频处理方法及装置 | |
Proença et al. | Automatic evaluation of reading aloud performance in children | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP7314079B2 (ja) | データ生成装置、データ生成方法およびプログラム | |
CN108573713B (zh) | 语音识别装置、语音识别方法以及存储介质 | |
CN110992986B (zh) | 单词音节重读检错方法、装置、电子设备和存储介质 | |
CN109389969B (zh) | 语料库优化方法及装置 | |
JP4825290B2 (ja) | 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム | |
Chang et al. | Chinese dialect identification using segmental and prosodic features | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
Zhu et al. | A preliminary exploration on tone error detection in Mandarin based on clustering | |
CN115331662A (zh) | 一种篇章背诵质量评测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20181218 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20191216 Year of fee payment: 5 |