KR102199246B1 - 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 - Google Patents

신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 Download PDF

Info

Publication number
KR102199246B1
KR102199246B1 KR1020140160931A KR20140160931A KR102199246B1 KR 102199246 B1 KR102199246 B1 KR 102199246B1 KR 1020140160931 A KR1020140160931 A KR 1020140160931A KR 20140160931 A KR20140160931 A KR 20140160931A KR 102199246 B1 KR102199246 B1 KR 102199246B1
Authority
KR
South Korea
Prior art keywords
phoneme
learning
information
speech recognition
recognition result
Prior art date
Application number
KR1020140160931A
Other languages
English (en)
Other versions
KR20160059265A (ko
Inventor
곽철
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020140160931A priority Critical patent/KR102199246B1/ko
Publication of KR20160059265A publication Critical patent/KR20160059265A/ko
Application granted granted Critical
Publication of KR102199246B1 publication Critical patent/KR102199246B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Abstract

본 실시예는 음성인식 결과에 대한 신뢰도 측정 점수를 산출하고, 산출된 신뢰도 측정 점수에 따라 음성 인식결과에 해당하는 음소 정보에 대한 특징 벡터를 서로 다른 학습 방법으로 학습하여 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트시킴으로써 보다 정확한 음향모델 학습 과정이 수행될 수 있도록 하는 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치에 관한 것이다.

Description

신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치{Method And Apparatus for Learning Acoustic Model Considering Reliability Score}
본 실시예는 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치에 관한 것이다.
이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아님을 밝혀둔다.
음성 인식 기술이란 인간이 발화한 음성과 같은 음향학적 신호를 분석하여 단어나 단어열을 식별하고 그에 대한 의미를 추출하는 기술이다. 일반적으로 음성인식 장치는 인식 어휘 및 그에 상응하는 발음의 집합이 정의된 음향모델을 구비하고, 구비된 음향모델을 이용하여 사용자로부터 발화된 음성을 인식한다. 한편, 음성인식 장치의 음성 인식 성능은 구비된 음향모델에 따라 좌우되며 이에, 정확한 음향모델을 필요로 한다. 특히, 한국어 음성인식 장치의 경우 자음의 경음과 연음을 구별하기 어렵다는 한국어의 특성에 따라 보다 정확한 음향모델을 필요로 한다.
음향모델의 정확성을 향상시키기 위한 방법으로 가장 널리 사용되는 방법은 음향모델 학습방법을 들 수 있다. 음향모델 학습 방법은 음성에 대한 인식결과를 학습하고, 학습에 따른 결과를 음향모델에 반영시켜 음향모델을 업데이트시킨다. 한편, 이러한, 음향모델 학습 방법의 경우 정확도 여부가 확인되지 않은 부정확한 음성인식 결과가 산출된 경우에도 이를 학습하여 음향모델에 반영시키는 상황이 발생할 수 있으며, 이 경우 음향모델에 대한 정확도를 오히려 감소시킨다는 문제점이 존재한다.
이에, 음성 인식 결과의 정확성 예컨대, 신뢰도 여부를 확인하고, 이를 고려하여 보다 정확한 음향모델의 학습 과정이 수행될 수 있도록 하는 기술을 필요로 한다.
본 실시예는, 음성인식 결과에 대한 신뢰도 측정 점수를 산출하고, 산출된 신뢰도 측정 점수에 따라 음성 인식결과에 해당하는 음소 정보에 대한 특징 벡터를 서로 다른 학습 방법으로 학습하여 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트시킴으로써 보다 정확한 음향모델 학습 과정이 수행될 수 있도록 하는 데 주된 목적이 있다.
본 실시예는, 입력된 적어도 하나 이상의 음성에 대한 음성 인식결과를 수신하고, 상기 음성 인식결과로부터 음소 정보를 추출하는 정렬부; 상기 음소 정보에 근거하여 상기 음성 인식결과에 대한 신뢰도 측정 점수를 산출하는 신뢰도 측정부; 및 상기 신뢰도 측정부에 의해 산출된 상기 신뢰도 측정 점수에 따라 상기 음소 정보에 대한 특징 벡터를 서로 다른 학습 방법으로 학습하여 상기 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트하는 학습부를 포함하는 것을 특징으로 하는 음향 모델 학습장치를 제공한다.
또한, 본 실시예의 다른 측면에 의하면, 음향 모델 학습장치가 신뢰도 측정 점수를 이용하여 비감독 기반 음향모델 변별 학습을 수행하는 방법에 있어서, 입력된 적어도 하나 이상의 음성에 대한 음성 인식결과를 수신하고, 상기 음성 인식결과로부터 음소 정보를 추출하는 음소 정보 추출과정; 상기 음소 정보에 근거하여 상기 음성 인식결과에 대한 신뢰도 측정 점수를 산출하는 산출과정; 및 상기 산출과정을 이용하여 산출된 상기 신뢰도 측정 점수에 따라 상기 음소 정보에 대한 특징 벡터를 서로 다른 학습 방법으로 학습하여 상기 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트하는 학습 과정을 포함하는 것을 특징으로 하는 음향 모델 학습장치의 학습 방법을 제공한다.
또한, 본 실시예의 다른 측면에 의하면, 데이터 처리 기기에, 입력된 적어도 하나 이상의 음성에 대한 음성 인식결과를 수신하고, 상기 음성 인식결과로부터 음소 정보를 추출하는 음소 정보 추출과정; 상기 음소 정보에 근거하여 상기 음성 인식결과에 대한 신뢰도 측정 점수를 산출하는 산출과정; 및 상기 산출과정을 이용하여 산출된 상기 신뢰도 측정 점수에 따라 상기 음소 정보에 대한 특징 벡터를 서로 다른 학습 방법으로 학습하여 상기 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트하는 학습 과정을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
본 실시예에 의하면, 음성인식 결과에 대한 신뢰도 측정 점수를 산출하고, 산출된 신뢰도 측정 점수에 따라 음성 인식결과에 해당하는 음소 정보에 대한 특징 벡터를 서로 다른 학습 방법으로 학습하여 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트시킴으로써 보다 정확한 음향모델 학습 과정이 수행될 수 있도록 하는 효과가 있다.
또한, 본 실시예에 의하면, 유사도가 높은 모델 파라미터 분포를 가지는 음소들을 동일 클래스로 군집화시켜 트리 구조 형태로 제공하고, 이를 기반으로 특정 음소와 유사도가 높은 모델 파라미터 분포를 가지는 음소를 산출 및 산출된 음소에 대응되는 음소 모델 파라미터 분포를 추가로 업데이트함으로써 음향모델 학습 과정의 효율성을 향상시킬 수 있는 효과가 있다.
도 1은 본 실시예에 따른 신뢰도 측점 점수를 고려한 음향 모델 학습장치를 개략적으로 나타낸 블럭 구성도이다.
도 2는 본 실시예에 따른 음향 모델 학습장치가 신뢰도 측점 점수를 이용하여 음향모델 학습 과정을 수행하는 방법을 설명하기 위한 순서도이다.
도 3은 본 실시예에 따른 음향 모델 학습장치가 제1 학습 방법을 이용하여 음향모델을 학습하는 과정을 예시한 예시도이다.
도 4는 본 실시예에 따른 클래식 기반 음소 트리 구조를 예시한 예시도이다.
도 5는 본 실시예에 따른 음향 모델 학습장치가 제2 학습 방법을 이용하여 음향모델을 학습하는 과정을 예시한 예시도이다.
이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 실시예에서는 음향 모델 학습장치가 음성인식 결과에 대한 신뢰도 측정 점수에 따라 음성 인식결과에 해당하는 음소 정보에 대한 특징 벡터를 서로 다른 학습 방법으로 학습하여 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트시킴으로써 보다 정확한 음향모델 학습 과정이 수행될 수 있도록 하는 음향모델 학습 방법을 제안한다.
도 1은 본 실시예에 따른 신뢰도 측점 점수를 고려한 음향 모델 학습장치를 개략적으로 나타낸 블럭 구성도이다. 한편, 도 1에서는 본 실시예에 따른 음향 모델 학습장치에서 수행될 수 있는 음향모델 학습 방법 중 신뢰도 측정 점수를 이용한 비감독 기반 음향모델 학습 방법이 수행되는 동작에 대해서 중점적으로 설명하도록 한다.
도 1에 도시하듯이, 본 실시예에 따른 음향 모델 학습장치(100)는 특징 추출부(102), 탐색부(104), 언어 모델 데이터베이스(106), 발음 사전 데이터베이스(108), 음향 모델 데이터베이스(110), 정렬부(112), 신뢰도 측정부(114), 학습부(116), 텍스트 데이터베이스(124), 언어모델 학습기(126), 음성 데이터베이스(128) 및 음향모델 학습기(130)를 포함한다.
특징 추출부(102)는 입력된 적어도 하나 이상의 음성 신호로부터 음성 신호의 특징을 추출한다. 여기서, 음성 신호는 음성 입력 장치나 음성 파일을 통해 입력되며 학습 과정을 위해 준비된 음성일 수 있다. 즉, 본 실시예에 따른 특징 추출부(102)는 입력된 음성 신호를 프레임 단위로 분할하고, 분할된 프레임 단위로부터 특징 벡터를 추출한다. 이때, 특징 추출부(102)는 입력된 음성 신호에서 잡음을 제거하거나 음성 인식 성능을 향상시키기 위한 신호 처리 과정을 수행할 수 있다. 이후, 특징 추출부(102)는 추출된 특성 벡터를 탐색부(104)에 제공한다.
탐색부(104)는 언어 모델 데이터베이스(106)에 저장된 언어 모델, 발음 사전 데이터베이스(108)에 저장된 발음 사전 및 음향 모델 테이터베이스(110)에 저장된 음향 모델을 이용하여 음성 인식에 필요한 탐색 공간을 형성한다. 탐색부(104)는 형성된 탐색공간과 특징 추출부(102)로부터 수신한 특징 벡터를 사용하여 음성 인식을 수행한다.
본 실시예에 따른 탐색부(104)는 특징 추출부(102)로부터 수신한 특징 벡터와 음향 모델과의 매칭 처리를 통해 음성 인식 과정을 수행한다. 탐색부(140)에 의한 매칭 처리는 음소 단위로 이루어지며, 이를 통해 특징 벡터에 매칭되는 음향 모델의 음소가 음성 인식 결과가 된다. 즉, 탐색부(104)는 매칭 처리 과정을 이용하여 복수 개의 음성 인식 결과 후보를 산출하며, 복수 개의 음식 인식 결과 후보 중 로그우도가 가장 높은 후보를 입력된 음성에 가장 가까운 것으로 선택한다. 이후, 탐색부(104)는 선택된 후보를 구성하는 음향 모델에 대응하는 단어열을 음성 인식 결과로서 출력한다.
언어 모델 데이터베이스(106)는 언어 모델을 저장한다. 이러한, 언어 모델은 단어간의 문법을 고려하여 인식 후보에 가중치를 부여하기 위한 기준으로 사용되며, 이를 통해 문법이 맞는 문장이 더 높은 점수를 얻도록 하여 인식률을 향상시킨다.
발음 사전 데이터베이스(108)는 발음 사전을 저장한다. 발음 사전은 음성에 대한 발음을 저장하며, 음향 모델과 연계되어 특정 음성에 대한 다중의 발음들을 저장한다.
음향 모델 데이터베이스(110)는 음향 모델을 저장한다. 본 실시예에 따른 음향 모델은 음소 단위의 음향 모델 파라미터 분포에 대한 정보를 포함한다. 이러한, 음향 모델 파라미터 분포 즉, 음소 모델 파라미터의 분포는 음소에 대한 특징 벡터들에 대한 평균 및 분산에 따라 결정된다.
정렬부(112)는 입력된 적어도 하나 이상의 음성에 대한 음성 인식결과를 수신하고, 수신한 음성 인식결과로부터 음소 정보를 추출한다. 즉, 정렬부(112)는 수신한 음성 인식 결과 예컨대, 단어열을 프레임 단위로 정렬하고, 이를 통해, 정렬된 프레임 단위로부터 음소 정보를 추출한다. 이때, 음소 정보는 단어열에 포함된 음소들에 대한 정보를 의미한다.
신뢰도 측정부(114)는 정렬부(112)로부터 추출된 음소 정보에 근거하여 각각의 음성 인식결과에 대한 신뢰도 측정 점수를 산출한다. 본 실시예에 따른 신뢰도 측정부(114)는 신뢰도 측정(Confidence Measure) 방법을 이용하여 텍스트 정보가 없는 음성 인식결과에 대한 신뢰도 측정 점수를 산출한다. 한편, 신뢰도 측정 방법은 신뢰도 측정 분야에서 일반적인 사용되는 방법인 바 자세한 설명은 생략하도록 한다.
즉, 신뢰도 측정부(114)는 음성 인식결과로부터 추출된 음소 정보 각각에 대하여 개별 신뢰도 측정 점수를 산출하고, 산출된 개별 신뢰도 측정 점수를 평균하여 음성 인식 결과에 대한 신뢰도 측정 점수를 산출한다. 이때, 특정 음소에 대한 개별 신뢰도 측정 점수는 해당 음소에 대한 로그우드(Likehood)와 해당 음소를 제외한 다른 음소들의 로그우드 중 N-best에 대한 로그우드의 평균값 간의 비율에 따라 산출된다. 한편, 본 실시예에서는 신뢰도 측정부(114)가 음성 인식결과에 대한 신뢰도 측정 점수를 산출하는 방법에 대해 특정 방법으로 한정하지는 않는다.
신뢰도 측정부(114)는 음성 인식결과에 대한 신뢰도 측정 점수를 기반으로 음성 인식결과의 신뢰도를 측정한다. 즉, 신뢰도 측정부(114)는 음성 인식결과에 대한 신뢰도 측정 점수가 기 설정된 제1 임계값(T2) 이상인 경우 해당 음성 인식결과에 대하여 매우 높은 신뢰도를 가지는 것으로 판단한다. 또한, 신뢰도 측정부(114)는 음성 인식결과에 대한 신뢰도 측정 점수가 기 설정된 제1 임계값(T1) 미만이고 기 설정된 제2 임계값(T1) 이상인 경우 해당 음성 인식결과에 대하여 비교적 높은 신뢰도를 가지는 것으로 판단된다. 이때, 기 설정된 제1 임계값 및 제2 임계값은 사용자 선택에 의해 설정된 값일 수도 있으며, 다수의 결과 데이터에 기초하여 산출된 값이 수도 있다.
신뢰도 측정부(114)는 매우 높은 신뢰도를 가지는 음성 인식결과에 대응되는 음소 정보의 경우 사후확률 최대화 학습부(118)로 전송하고, 비교적 높은 신뢰도를 가지는 음성 인식결과에 대응되는 음소 정보의 경우 음소 트리 제공부(120)를 거쳐 변별 학습부(122)로 전송한다. 한편, 신뢰도 측정부(114)는 음성 인식결과에 대한 신뢰도 측정 점수가 기 설정된 제2 임계값(T1) 미만인 음성 인식결과에 대해서는 잘못된 음성 인식결과라고 판단하여 학습부(116)로 미전송한다. 본 실시예에 따른 신뢰도 측정부(114)는 신뢰도 측정 점수에 따라 음성 인식결과 중 어느 정도의 신뢰성을 만족하는 음성 인식결과를 선별하고, 선별된 음성 인식결과에 대응되는 음소 정보만을 학습부(116)로 출력시킴으로써 부정확한 음성인식 결과에 따라 학습 과정이 수행되는 것을 사전에 차단할 수 있다. 이를 통해, 본 실시예에 따른 음향 모델 학습장치(100)는 보다 정확한 음향모델 학습 과정을 수행하여 음성인식 성능을 최대화할 수 있다.
학습부(116)는 신뢰도 측정부(114)로부터 산출된 음성 인식결과에 대한 신뢰도 측정 점수에 따라 음성 인식결과에 대응되는 음소 정보를 서로 다른 학습 방법으로 학습하여 음소 정보에 대응되는 음소 모델 파라미터의 분포를 업데이트한다. 한편, 비교적 높은 신뢰도를 가지는 음성 인식결과의 경우 몇 개의 음소 결과가 비슷한 모델 파라미터 분포를 가지는 음소로 잘못 인식되는 경우가 발생할 수 있다. 이러한 문제점을 해결하기 위해, 본 실시예에 따른 학습부(116)는 비교적 높은 신뢰도를 가지는 음성 인식결과의 경우 매우 높은 신뢰도를 가지는 음성 인식결과의 학습 방법과는 다른 학습 방법을 이용하여 학습 과정을 수행한다. 이를 통해, 본 실시예에 따른 음향 모델 학습장치(100)는 보다 정확한 음향모델 학습 과정이 수행될 수 있도록 한다.
본 실시예에 따른 학습부(116)는 사후확률 최대화 학습부(118), 음소 트리 제공부(120) 및 변별 학습부(122)를 포함한다.
사후확률 최대화 학습부(118)는 신뢰도 측정 점수가 기 설정된 제1 임계값 이상인 음성 인식결과 예컨대, 매우 높은 신뢰도를 가지는 음성 인식결과들에 대한 음소 정보를 수신하고, 수신된 음소 정보에 대한 특징 벡터를 제1 학습 방법을 이용하여 학습한다. 한편, 사후확률 최대화 학습부(118)는 수신된 음소 정보에 대한 특징 벡터를 특징 추출부(102)로부터 수신한다.
본 실시예에 따른, 사후확률 최대화 학습부(118)는 제1 학습 방법으로서 사후확률 최대화(Maximum A Posteriori) 방법을 이용하나 반드시 이에 한정되는 것은 아니다. 즉, 사후확률 최대화 학습부(118)는 수신된 음소 정보에 포함된 각각의 음소의 특징 벡터를 기 저장된 각각의 음소에 대한 이전 모델 파라미터에 반영하여 각각의 음소에 대응되는 음소 모델 파라미터 분포를 업데이트한다. 이때, 음소에 대한 이전 모델 파라미터는 각각의 음소에 대응되는 이전 특징 벡터의 평균 및 분산을 의미한다. 예컨대, 사후확률 최대화 학습부(118)는 수신된 음소 정보에 포함된 각각의 음소의 특징 벡터를 기 저장된 각각의 음소에 대한 모델 파라미터 즉, 평균 및 분산에 반영시킴으로써 각각의 음소에 대응되는 음소 모델 파라미터 분포를 업데이트시킨다.
본 실시예에 따른 사후확률 최대화 학습부(118)는 제1 학습 방법을 이용한 학습 과정을 소정 횟수(N)만큼 반복적으로 수행하며, 이를 통해, 음소 모델 파라미터 분포의 업데이트가 보다 정확하게 이루어질 수 있도록 동작한다. 이때, 제1 학습 방법을 이용한 학습 과정의 반복 횟수(N)는 사용자의 선택 및 다수의 결과 데이터에 기초하여 결정될 수 있다.
음소 트리 제공부(120)는 유사도가 높은 모델 파라미터 분포를 가지는 음소들을 동일 클래스로 군집화시켜 트리 구조 형태로 제공한다. 이러한, 음소 트리 제공부(120)는 음소 정보를 수신하는 경우 클래스 기반 음소 트리에 근거하여 음소 정보에 포함된 각각의 음소와 유사도가 높은 모델 파라미터 분포를 가지는 음소를 산출한다. 이때, 음소 트리 제공부(120)에 수신되는 음소 정보는 신뢰도 측정 점수가 제1 임계값 미만이고 제2 임계값 이상인 음성 인식결과 예컨대, 비교적 높은 신뢰도를 가지는 음성 인식결과들에 대한 음소 정보이다.
음소 트리 제공부(120)는 산출된 음소 정보를 앞서 수신한 음소 정보와 함께 변별 학습부(122)로 전송한다. 본 실시예에 따른 음소 트리 제공부(120)는 클래스 기반 음소 트리에 근거하여 음소 정보에 포함된 각각의 음소와 유사도가 높은 모델 파라미터 분포를 가지는 음소를 산출하고, 이를 추가 제공함으로써 적은 양의 학습 데이터에서 나타나지 않은 음소의 모델 파라미터 분포 또한 업데이트될 수 있도록 하는 효과가 있다. 또한, 본 실시예에 따른 변별 학습부(122)는 신뢰도 측정부(114)로부터 제공받은 음성 정보 및 음소 트리 제공부(120)에 의해 추가로 산출된 음성 정보를 기반으로 학습 과정을 수행함으로써 서로 오인식될 수 있는 음소들 간의 상호 정보량이 최소화되도록 각 음소에 대응되는 음소 모델 파라미터 분포를 업데이트할 수 있다. 이에 대한 자세한 설명은 변별 학습부(122)를 설명하는 과정에서 후술하도록 한다.
변별 학습부(122)는 신뢰도 측정 점수가 제1 임계값 미만이고 제2 임계값 이상인 음성 인식결과 예컨대, 비교적 높은 신뢰도를 가지는 음성 인식결과들에 대한 음소 정보를 수신하고, 수신된 음소 정보에 대한 특징 벡터를 제2 학습 방법을 이용하여 학습한다. 마찬가지로, 변별 학습부(122)는 수신된 음소 정보에 대한 특징 벡터를 특징 추출부(102)로부터 수신한다.
본 실시예에 따른 변별 학습부(122)는 제2 학습 방법으로서 최대 상호 정보량(MMI: Maximum Mutual Information) 추정 방법을 이용하나 반드시 이에 한정되는 것은 아니다. 즉, 변별 학습부(122)는 수신된 음소 정보에 포함된 각각의 음소에 대한 카운트 정보 및 각각의 음소의 특징 벡터에 기초하여 각각의 음소와 각각의 음소와 유사도가 높은 모델 파라미터 분포를 가지는 음소 간의 상호 정보량이 최소화되도록 각각의 음소에 대응되는 음소 모델 파라미터 분포를 업데이트한다. 한편, 최대 상호 정보량 추정 방법을 이용한 음향 모델 파라미터 분포 업데이트 방식의 경우 일반적으로 정답 음소의 카운트 정보를 이용한다. 본 실시예의 경우 어느 정도의 신뢰성을 만족하는 음성 인식결과에 대응되는 음소 정보를 기반으로 학습 과정을 수행하기 때문에, 검출되는 음소들에 대하여 모두 정답 음소로 판단한다. 이에, 본 실시예에 따는 변별 학습부(122)는 최대 상호 정보량 추정 방법을 이용한 음향 모델 파라미터 분포 업데이트 과정을 수행 시 수신된 음소에 대한 카운트 정보를 이용한다.
본 실시예에 따른 변별 학습부(122)는 수신된 음소 정보에 대한 카운트 정보 및 특징 벡터에 기초한 최대 상호 정보량 추정 방법을 통해 각각의 음소의 특징 벡터를 기 저장된 각각의 음소에 대한 이전 모델 파라미터에 반영시킴으로써 각각의 음소에 대응되는 음소 모델 파라미터 분포를 업데이트한다. 이를 통해, 각각의 음소에 대응되는 음소 모델 파라미터 분포가 각각의 음소에 대한 이상적인 음소 모델 파라미터 분포를 향하여 이동됨으로써 서로 오인식될 수 있는 음소들 간의 상호 정보량이 최소화될 수 있다.
한편, 본 실시예에 따른 변별 학습부(122)는 신뢰도 측정부(114)로부터 전송된 음성 정보뿐만 아니라 음소 트리 제공부(120)에 의해 추가로 제공되는 음성 정보에 대해서도 대응되는 음소 모델 파라미터 분포를 업데이트하는 과정을 수행한다. 이때, 변별 학습부(122)는 신뢰도 측정부(114)로부터 전송된 음성 정보에 대한 카운트 정보 및 특징 벡터에 기초하여 음소 트리 제공부(120)로부터 추가 제공된 음성 정보에 포함된 각각의 음소에 대응되는 음소 모델 파라미터 분포를 업데이트한다. 본 실시예에 따른 음향 모델 학습장치(100)는 클래스 기반 음소 트리를 이용하여 적은 양의 학습 데이터에서 나타나지 않는 음소의 모델 파라미터 분포 또한 추가로 업데이트함으로써 음향모델 학습 과정의 효율성을 향상시킬 수 있는 효과가 있다.
텍스트 데이터베이스(124)는 언어 모델을 생성하기 위한 텍스트들을 저장한다. 언어 모델 학습기(126)는 텍스트 데이터베이스(124)에 저장된 텍스트들을 통해 언어 모델을 생성 혹은 업데이트한다.
음성 데이터베이스(128)는 학습을 위한 음성 및 해당 음성에 대한 텍스트를 저장한다. 이때, 음성에 대한 텍스트는 생략될 수 있다.
음향모델 학습기(130)는 음성 데이터베이스(128)에 저장된 음성을 통해 음향모델을 생성 혹은 업데이트한다. 이러한, 음향모델 학습기(130)는 최대 로그우도(Maximum Likelihood) 방법을 이용하여 감독 기반 음향모델 학습을 수행하나 반드시 이에 한정되는 것은 아니다.
도 2는 본 실시예에 따른 음향 모델 학습장치가 신뢰도 측점 점수를 이용하여 음향모델 학습 과정을 수행하는 방법을 설명하기 위한 순서도이다.
특징 추출부(102)는 적어도 하나 이상의 음성 신호를 입력받고(S200), 입력된 음성 신호로부터 음성 신호의 특징을 추출한다(S202). 단계 S202에서 특징 추출부(102)는 입력된 음성 신호를 프레임 단위로 분할하고, 분할된 프레임 단위로부터 특징 벡터를 추출한다.
탐색부(104)는 단계 S202에서 추출된 음성 신호의 특징 벡터를 수신하고, 수신한 특징 벡터를 사용하여 음성 인식을 수행한다(S204). 단계 S204에서 탐색부(104)는 특징 추출부(102)로부터 수신한 특징 벡터와 음향 모델과의 매칭 처리를 통해 음성 인식 과정을 수행하고, 이를 통해, 음성 인식 결과를 산출한다.
탐색부(104)는 단계 S204로부터 산출된 음성 인식 결과를 정렬부(112)로 제공한다(S206).
정렬부(112)는 단계 S204에서 산출된 적어도 하나 이상의 음성에 대한 음성 인식결과를 수신하고, 수신한 음성 인식결과로부터 음소 정보를 추출한다(S208). 단계 S208에서 정렬부(112)는 수신한 음성 인식 결과를 프레임 단위로 정렬하고, 정렬된 프레임 단위로부터 음소 정보를 추출한다.
신뢰도 측정부(114)는 단계 S204로부터 산출된 음성 인식 결과 및 단계 S208로부터 추출된 음소 정보를 수신하고(S210), 음소 정보에 근거하여 각각의 음성 인식결과에 대한 신뢰도 측정 점수를 산출한다(S212). 단계 S212에서 신뢰도 측정부(114)는 음성 인식결과로부터 추출된 음소 정보 각각에 대하여 개별 신뢰도 측정 점수를 산출하고, 산출된 개별 신뢰도 측정 점수를 평균하여 음성 인식 결과에 대한 신뢰도 측정 점수를 산출한다.
신뢰도 측정부(114)는 단계 S212에서 산출된 각각의 음성 인식결과에 대한 신뢰도 측정 점수에 기초하여 신뢰도 측정 점수가 기 설정된 제1 임계값 이상인 음성 인식결과를 산출하고, 산출된 음성 인식 결과에 대응되는 음소 정보를 사후확률 최대화 학습부(118)로 전송한다(S214). 단계 S214에서 신뢰도 측정부(114)는 음성 인식결과에 대한 신뢰도 측정 점수가 기 설정된 제1 임계값 이상인 경우 해당 음성 인식결과에 대하여 매우 높은 신뢰도를 가지는 것으로 판단한다.
사후확률 최대화 학습부(118)는 신뢰도 측정 점수가 기 설정된 제1 임계값 이상인 음성 인식결과에 대한 음소 정보를 수신하고, 수신된 음소 정보에 대한 특징 벡터를 제1 학습 방법으로 학습하여 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트한다(S216). 단계 S216에서 사후확률 최대화 학습부(118)는 사후확률 최대화 방법을 이용하여 수신된 음소 정보에 포함된 각각의 음소의 특징 벡터를 기 저장된 각각의 음소에 대한 이전 모델 파라미터에 반영시킴으로써 각각의 음소에 대응되는 음소 모델 파라미터 분포를 업데이트한다. 이때, 사후확률 최대화 학습부(118)는 음향모델 데이터베이스(110)로부터 각각의 음소에 대한 이전 모델 파라미터 분포 정보를 수신한다.
신뢰도 측정부(114)는 단계 S212에서 산출된 각각의 음성 인식결과에 대한 신뢰도 측정 점수에 기초하여 신뢰도 측정 점수가 기 설정된 제1 임계값 미만이고 기 설정된 제2 임계값 이상인 음성 인식결과를 산출하고(S218), 산출된 음성 인식 결과에 대응되는 음소 정보를 음소 트리 저장부(120)로 전송한다(S220). 단계 S218에서 신뢰도 측정부(114)는 음성 인식결과에 대한 신뢰도 측정 점수가 기 설정된 제1 임계값 미만이고 기 설정된 제2 임계값 이상인 음성 인식결과에 대하여 비교적 높은 신뢰도를 가지는 것으로 판단된다. 한편, 단계 S218에서 신뢰도 측정부(114)는 음성 인식결과에 대한 신뢰도 측정 점수가 기 설정된 제2 임계값(T1) 미만인 음성 인식결과에 대해서는 잘못된 음성 인식결과라고 판단하여 이에 대한 학습 과정을 수행하지 않는다.
음소 트리 제공부(120)는 음소 정보를 수신하는 경우 기 저장된 클래스 기반 음소 트리에 근거하여 음소 정보에 포함된 각각의 음소와 유사도가 높은 모델 파라미터 분포를 가지는 음소를 산출한다(S222). 한편, 음소 트리 제공부(120)는 유사도가 높은 모델 파라미터 분포를 가지는 음소들을 동일 클래스로 군집화시켜 트리 구조 형태로 제공함으로써 각각의 음소와 유사도가 높은 모델 파라미터 분포를 가지는 음소가 산출될 수 있도록 동작한다.
음소 트리 제공부(120)는 단계 S220에서 수신한 음소 정보와 단계 S222에서 산출한 음소 정보를 변별 학습부(122)로 전송한다(S224).
변별 학습부(122)는 단계 S224에서 수신한 음소 정보에 대한 특징 벡터를 제2 학습 방법으로 학습하여 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트한다(S226). 단계 S226에서 변별 학습부(122)는 수신된 음소 정보에 포함된 각각의 음소에 대한 카운트 정보 및 각각의 음소의 특징 벡터에 기초한 최대 상호 정보량 추정 방법을 통해 각각의 음소와 각각의 음소와 유사도가 높은 모델 파라미터 분포를 가지는 음소 간의 상호 정보량이 최소화되도록 각각의 음소에 대응되는 음소 모델 파라미터 분포를 업데이트한다.
여기서, 단계 S200 내지 단계 S226은 앞서 설명된 음향 모델 학습장치(100)의 각 구성요소의 동작에 대응되므로 더 이상의 상세한 설명은 생략한다.
전술한 바와 같이 도 2에 기재된 신뢰도 측점 점수를 이용하여 음향모델 학습 과정을 수행하는 방법은 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 신뢰도 측점 점수를 이용하여 음향모델 학습 과정을 수행하는 방법을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.
도 3은 본 실시예에 따른 음향 모델 학습장치가 제1 학습 방법을 이용하여 음향모델을 학습하는 과정을 예시한 예시도이다. 한편, 도 3에서는 제1 학습 방법으로 사후확률 최대화 방법이 이용된 경우를 예시하였으며, 이를 통해 음소 "ㅏ"에 대응되는 음소 모델 파라미터 분포가 업데이트된 경우를 예시하였다.
본 실시예에 따른 음향 모델 학습장치(100)는 신뢰도 측정 점수가 기 설정된 제1 임계값 이상인 음성 인식결과 예컨대, 매우 높은 신뢰도를 가지는 음성 인식결과들에 대해서 사후확률 최대화 방법을 이용하여 음향모델을 업데이트시킨다.
도 3에서 도시하듯이, 본 실시예에 따른 음향 모델 학습장치(100)는 사후확률 최대화 방법을 통해 매우 높은 신뢰도를 가지는 음성 인식결과에 대응되는 음소 예컨대, "ㅏ"에 대한 특징 벡터를 기 저장된 음소 "ㅏ"에 대한 이전 모델 파라미터에 반영시킴으로써 음소 "ㅏ"에 대응되는 음소 모델 파라미터 분포를 업데이트시킨다.
도 4는 본 실시예에 따른 클래식 기반 음소 트리 구조를 예시한 예시도이다.
도 4에서 도시하듯이, 본 실시예에 따른 클래식 기반 음소 트리 구조는 서로 유사도가 높은 모델 파라미터 분포를 가지는 음소들에 대하여 동일 클래스로 군집화시켜 제공한다. 본 실시예에 따른 음향 모델 학습장치(100)는 클래스 기반 음소 트리에 근거하여 음소 정보에 포함된 각각의 음소와 유사도가 높은 모델 파라미터 분포를 가지는 음소를 산출하고, 산출된 음소의 모델 파라미터 분포를 추가로 업데이트시킴으로써 음향모델 학습 과정이 보다 효율적으로 이루어질 수 있도록 한다. 예컨대, 본 실시예에 따른 음향 모델 학습장치(100)는 비교적 높은 신뢰도를 가지는 음성 인식결과로부터 추출된 음소 예컨대, "ㅁ"에 대한 모델 파라미터 분포 업데이트 과정을 수행 시 클래스 기반 음소 트리에 근거하여 음소 "ㅁ"과 유사도가 높은 모델 파라미터 분포를 가지는 음소 "ㄴ"을 산출하고, 산출된 음소 "ㄴ"의 모델 파라미터 분포를 추가로 업데이트한다.
도 5는 본 실시예에 따른 음향 모델 학습장치가 제2 학습 방법을 이용하여 음향모델을 학습하는 과정을 예시한 예시도이다. 한편, 도 5에서는 제2 학습 방법으로 최대 상호 정보량 방법이 이용된 경우를 예시하였으며, 이를 통해 음소 "ㅍ"에 대응되는 음소 모델 파라미터 분포가 업데이트된 경우를 예시하였다.
본 실시예에 따른 음향 모델 학습장치(100)는 신뢰도 측정 점수가 기 설정된 제1 임계값 미만이고 제2 임계값 이상인 음성 인식결과 예컨대, 비교적 높은 신뢰도를 가지는 음성 인식결과들에 대해서는 최대 상호 정보량 방법을 이용하여 음향모델을 업데이트시킨다.
도 5에서 도시하듯이, 본 실시예에 따른 음향 모델 학습장치(100)는 최대 상호 정보량 방법을 통해 비교적 높은 신뢰도를 가지는 음성 인식결과에 대응되는 음소 예컨대, "ㅍ"과 음소 "ㅍ"과 유사도가 높은 모델 파라미터 분포를 가지는 음소 "ㅁ" 간의 상호 정보량이 최소화되도록 음소 "ㅍ"에 대한 음소 모델 파라미터 분포를 업데이트한다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 음향 모델 학습장치 102: 특징 추출부
104: 탐색부 106: 언어모델 데이터베이스
108: 발음사전 데이터베이스 110: 음향모델 데이터베이스
112: 정렬부 114: 신뢰도 측정부
116: 학습부 118: 사후확률 최대화 학습부
120: 음소 트리 제공부 122: 변별 학습부
124: 텍스트 데이터베이스 126: 언어모델 학습기
128: 음성 데이터베이스 130: 음향모델 학습기
244: 확장부

Claims (11)

  1. 입력된 적어도 하나 이상의 음성에 대한 음성 인식결과를 수신하고, 상기 음성 인식결과로부터 음소 정보를 추출하는 정렬부;
    상기 음소 정보에 근거하여 상기 음성 인식결과에 대한 신뢰도 측정 점수를 산출하는 신뢰도 측정부; 및
    상기 신뢰도 측정부에 의해 산출된 상기 신뢰도 측정 점수에 따라 상기 음소 정보에 대한 특징 벡터를 서로 다른 학습 방법으로 학습하여 상기 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트하며, 상기 학습 수행 시 기 정의된 클래스 기반 음소 트리에 근거하여 상기 음소 정보에 포함된 각각의 음소와 유사도가 높은 모델 파리미터 분포를 가지는 음소를 산출하여 추가 학습을 수행하는 학습부
    를 포함하는 것을 특징으로 하는 음향 모델 학습장치.
  2. ◈청구항 2은(는) 설정등록료 납부시 포기되었습니다.◈
    제 1항에 있어서,
    상기 신뢰도 측정부는,
    상기 음소 정보에 포함된 각각의 음소에 대하여 개별 신뢰도 측정 점수를 산출하고, 상기 개별 신뢰도 측정 점수에 기초하여 상기 음성 인식결과에 대한 신뢰도 측정 점수를 산출하는 것을 특징으로 하는 음향 모델 학습장치.
  3. ◈청구항 3은(는) 설정등록료 납부시 포기되었습니다.◈
    제 1항에 있어서,
    상기 학습부는,
    상기 음소 정보 중 상기 신뢰도 측정 점수가 기 설정된 제1 임계값 이상인 음성 인식결과에 대한 음소 정보를 수신하고, 수신된 음소 정보에 대한 특징 벡터를 제1 학습 방법을 이용하여 학습하는 사후확률 최대화 학습부; 및
    상기 음소 정보 중 상기 신뢰도 측정 점수가 상기 제1 임계값 미만이고 제2 임계값 이상인 음성 인식결과에 대한 음소 정보를 수신하고, 수신된 음소 정보에 대한 특징 벡터를 제2 학습 방법을 이용하여 학습하는 변별 학습부
    를 포함하는 것을 특징으로 하는 음향 모델 학습장치.
  4. ◈청구항 4은(는) 설정등록료 납부시 포기되었습니다.◈
    제 3항에 있어서,
    상기 사후확률 최대화 학습부는,
    수신된 음소 정보에 포함된 각각의 음소의 특징 벡터를 기 저장된 상기 각각의 음소에 대한 이전 모델 파라미터에 반영하여 상기 각각의 음소에 대응되는 음소 모델 파라미터 분포를 업데이트하는 것을 특징으로 하는 음향 모델 학습장치.
  5. ◈청구항 5은(는) 설정등록료 납부시 포기되었습니다.◈
    제 3항에 있어서,
    상기 사후확률 최대화 학습부는, 상기 제1 학습 방법으로서 사후확률 최대화(Maximum A Posteriori) 방법을 이용하고,
    상기 변별 학습부는, 상기 제2 학습 방법으로서 최대 상호정보량(MMI: Maximum Mutual Information) 추정 방법을 이용하는 것을 특징으로 하는 음향 모델 학습장치.
  6. ◈청구항 6은(는) 설정등록료 납부시 포기되었습니다.◈
    제 3항에 있어서,
    상기 사후확률 최대화 학습부는,
    상기 제1 학습 방법을 이용한 학습 과정을 소정 횟수만큼 반복적으로 수행하는 것을 특징으로 하는 음향 모델 학습장치.
  7. ◈청구항 7은(는) 설정등록료 납부시 포기되었습니다.◈
    제 3항에 있어서,
    상기 변별 학습부는,
    수신된 음소 정보에 포함된 각각의 음소에 대한 카운트 정보 및 상기 각각의 음소의 특징 벡터에 기초하여 상기 각각의 음소와 상기 각각의 음소와 유사도가 높은 모델 파라미터 분포를 가지는 음소 간의 상호 정보량이 최소화되도록 상기 각각의 음소에 대응되는 음소 모델 파라미터 분포를 업데이트하는 것을 특징으로 하는 음향 모델 학습장치.
  8. ◈청구항 8은(는) 설정등록료 납부시 포기되었습니다.◈
    제 3항에 있어서,
    상기 학습부는, 유사도가 높은 모델 파라미터 분포를 가지는 음소들을 동일 클래스로 군집화시켜 트리 구조 형태로 제공하는 음소 트리 제공부를 더 포함하며,
    상기 변별 학습부는 수신된 음소 정보에 포함된 각각의 음소와 유사도가 높은 모델 파라미터 분포를 가지는 음소를 상기 음소 트리 제공부로부터 제공받고, 상기 제공된 음소에 대응되는 음소 모델 파라미터 분포를 추가로 업데이트하는 것을 특징으로 하는 음향 모델 학습장치.
  9. ◈청구항 9은(는) 설정등록료 납부시 포기되었습니다.◈
    제 8항에 있어서,
    상기 변별 학습부는,
    수신된 음소 정보에 대한 카운트 정보 및 특징 벡터에 기초하여 상기 제공된 음소에 대응되는 음소 모델 파라미터 분포를 업데이트하는 것을 특징으로 하는 음향 모델 학습장치.
  10. 음향 모델 학습장치가 신뢰도 측정 점수를 이용하여 비감독 기반 음향모델 변별 학습을 수행하는 방법에 있어서,
    입력된 적어도 하나 이상의 음성에 대한 음성 인식결과를 수신하고, 상기 음성 인식결과로부터 음소 정보를 추출하는 음소 정보 추출과정;
    상기 음소 정보에 근거하여 상기 음성 인식결과에 대한 신뢰도 측정 점수를 산출하는 산출과정; 및
    상기 산출과정을 이용하여 산출된 상기 신뢰도 측정 점수에 따라 상기 음소 정보에 대한 특징 벡터를 서로 다른 학습 방법으로 학습하여 상기 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트하며, 상기 학습 수행 시 기 정의된 클래스 기반 음소 트리에 근거하여 상기 음소 정보에 포함된 각각의 음소와 유사도가 높은 모델 파리미터 분포를 가지는 음소를 산출하여 추가 학습을 수행하는 학습 과정
    을 포함하는 것을 특징으로 하는 음향 모델 학습장치의 학습 방법.
  11. 데이터 처리 기기에,
    입력된 적어도 하나 이상의 음성에 대한 음성 인식결과를 수신하고, 상기 음성 인식결과로부터 음소 정보를 추출하는 음소 정보 추출과정;
    상기 음소 정보에 근거하여 상기 음성 인식결과에 대한 신뢰도 측정 점수를 산출하는 산출과정; 및
    상기 산출과정을 이용하여 산출된 상기 신뢰도 측정 점수에 따라 상기 음소 정보에 대한 특징 벡터를 서로 다른 학습 방법으로 학습하여 상기 음소 정보에 대응되는 음소 모델 파라미터 분포를 업데이트하며, 상기 학습 수행 시 기 정의된 클래스 기반 음소 트리에 근거하여 상기 음소 정보에 포함된 각각의 음소와 유사도가 높은 모델 파리미터 분포를 가지는 음소를 산출하여 추가 학습을 수행하는 학습 과정 학습 과정
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020140160931A 2014-11-18 2014-11-18 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 KR102199246B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140160931A KR102199246B1 (ko) 2014-11-18 2014-11-18 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140160931A KR102199246B1 (ko) 2014-11-18 2014-11-18 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20160059265A KR20160059265A (ko) 2016-05-26
KR102199246B1 true KR102199246B1 (ko) 2021-01-07

Family

ID=56104665

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140160931A KR102199246B1 (ko) 2014-11-18 2014-11-18 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102199246B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102102772B1 (ko) * 2017-06-09 2020-05-29 한국과학기술원 전자 장치 및 학습 모델 생성 방법
US11580376B2 (en) 2017-06-09 2023-02-14 Korea Advanced Institute Of Science And Technology Electronic apparatus and method for optimizing trained model
KR20190136578A (ko) 2018-05-31 2019-12-10 삼성전자주식회사 음성 인식 방법 및 장치
KR102281590B1 (ko) * 2019-07-31 2021-07-29 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
KR102598077B1 (ko) * 2023-03-21 2023-11-06 (주)노웨어소프트 인공지능 알고리즘에 기초하여 저작권을 보호하는 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182261A (ja) 2012-03-05 2013-09-12 Nippon Hoso Kyokai <Nhk> 適応化装置、音声認識装置、およびそのプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1011094B1 (en) * 1998-12-17 2005-03-02 Sony International (Europe) GmbH Semi-supervised speaker adaption
KR20030096862A (ko) * 2002-06-18 2003-12-31 정현열 상태분할과 음소결정트리의 결합에 의한 에이치엠-넷모델의 구조결정을 이용한 음성인식방법
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
KR101424193B1 (ko) * 2007-12-10 2014-07-28 광주과학기술원 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
KR101556594B1 (ko) * 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
KR101483947B1 (ko) * 2013-10-25 2015-01-19 에스케이텔레콤 주식회사 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182261A (ja) 2012-03-05 2013-09-12 Nippon Hoso Kyokai <Nhk> 適応化装置、音声認識装置、およびそのプログラム

Also Published As

Publication number Publication date
KR20160059265A (ko) 2016-05-26

Similar Documents

Publication Publication Date Title
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
US10339920B2 (en) Predicting pronunciation in speech recognition
US8818813B2 (en) Methods and system for grammar fitness evaluation as speech recognition error predictor
US10490194B2 (en) Speech processing apparatus, speech processing method and computer-readable medium
US9224387B1 (en) Targeted detection of regions in speech processing data streams
US20140156276A1 (en) Conversation system and a method for recognizing speech
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
US9495955B1 (en) Acoustic model training
CN108766415B (zh) 一种语音测评方法
CN106548775B (zh) 一种语音识别方法和系统
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
CN110390948B (zh) 一种快速语音识别的方法及系统
US11848025B2 (en) Methods for measuring speech intelligibility, and related systems and apparatus
Van Dalen et al. Improving multiple-crowd-sourced transcriptions using a speech recogniser
US9542939B1 (en) Duration ratio modeling for improved speech recognition
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN108806691B (zh) 语音识别方法及系统
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP2017045027A (ja) 音声言語コーパス生成装置およびそのプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2016177045A (ja) 音声認識装置および音声認識プログラム
Ogawa et al. Joint estimation of confidence and error causes in speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant