KR101214252B1

KR101214252B1 - 다중 모델 적응화장치 및 방법

Info

Publication number: KR101214252B1
Application number: KR1020110140357A
Authority: KR
Inventors: 이성섭
Original assignee: 주식회사 서비전자
Priority date: 2011-12-22
Filing date: 2011-12-22
Publication date: 2012-12-20
Also published as: KR20120008011A

Abstract

본 발명은 음성인식 시스템으로, 화자의 특성별 음성을 기본 음성모델과 독립된 새로운 다중 모델에 각각 적응화하여 저장하고, 다중 적응화 모델을 이용한 음성인식으로 안정된 실시간 음성 인식이 제공되도록 하는 것이다.
본 발명은 화자가 지정하는 어느 하나의 모델을 선택하는 과정; 화자의 입력음성에서 음성모델에 사용되는 특징 벡터를 추출하여 적응화 한 다음 화자가 지정한 모델에 저장하고 적응화 실행 여부를 지시하는 플래그를 설정하는 과정; 적응화 실행에서 화자식별모델, 음색모델, 유사도의 크기에 따른 이진 트리, 빔 포밍 기법을 적용한 음원 위치 인식 중 적어도 하나 이상이 적용되는 과정을 포함한다.

Description

다중 모델 적응화장치 및 방법{System and method of Multi model adaptive}

본 발명은 음성인식 시스템에 관한 것으로, 더욱 상세하게는 화자의 특성별 음성을 기본 음성모델과 독립된 새로운 다중 모델에 각각 적응화하여 저장하고, 다중 적응화 모델을 이용한 음성인식으로 안정된 실시간 음성 인식이 제공되도록 하는 다중 모델 적응화장치 및 방법에 관한 것이다.

음성인식 시스템은 사용자 각각에 대한 모델을 따로 갖지 않고 하나의 화자 독립모델을 갖는 화자 독립형을 추구하여 불특정 다수의 사람의 음성을 인식 할 수 있게 구성된다.

음성인식은 기반 기술인 통계적 모델링 기법에 의해 실행되므로, 사람에 따라 인식률에 편차가 생기고 주위 환경에 따라서도 인식률이 달라진다.

주위 환경에 의해서 인식률이 저하되는 것은 잡음제거 기술을 사용하여 인식률을 향상시킬 수 있지만 서로 다른 화자의 발성상의 특성에 의한 인식률 저하는 잡음제거 기술과는 다른 차원의 문제이다.

화자의 발성상의 특성에 의한 인식률 저하 문제를 해결하기 위하여 적응화 기술이 개발되어 사용되고 있다.

적응화 기술은 음성인식에 사용되는 음성모델을 현재 사용하는 화자의 발성특성에 맞게 튜닝하는 기술로 분류할 수 있다.

적응화하는 방법은 음성인식 시스템의 기본 음성모델 하나에 음성인식이 잘 되지 않는 화자의 목소리를 적응하여 최종적으로 하나의 모델을 음성인식에 사용할 수 있도록 한다.

그리고, 음성인식은 화자가 발성하는 음성에서 필요한 정보인 특징 벡터(특징 파라미터)를 추출하여 사용한다.

특히, 음성인식 시스템이 화자 독립모델을 갖는 화자 독립형인 경우 다양한 사람의 음성을 인식하기 위해서는 다차원의 특징 벡터를 사용하여 음성모델을 만들어 표준 패턴으로 사용한다.

도 14는 종래의 음성인식 시스템에서 서로 다른 화자의 적응화에 따라 모델의 평균값 변이의 편차를 나타내는 도면으로, 예를 들어 10차의 요소를 가지는 음성모델의 일부분을 나타낸 것이다.

도시된 바와 같이, 음성모델(31)은 다차원 벡터(32)의 평균과 분산으로 표현할 수 있다.

음성모델(31)에 화자의 음성을 입력하여 적응화를 수행하게 되면 적응화가 진행되는 화자의 특정에 맞게 평균과 분산값이 이동하게 되는데, 일반적인 적응화인 경우 기본모델의 평균과 분산값(32)에서 크게 변형되지 않지만(33) 발성이 특이한 화자나 환경적인 요소가 추가되는 경우 기본모델의 평균과 분산값(32)에서 크게 변형(34)되는 현상이 발생한다.

따라서, 음성인식이 잘 되지 않는 여러 사람이 차례대로 음성인식 시스템에 적응화를 수행하면 처음에는 인식률이 급격하게 좋아지지만 순차적으로 적응화를 수행할수록 먼저 적응화를 했던 화자의 인식률은 점차적으로 떨어지고 제일 마지막에 적응화를 했던 화자의 인식률만이 좋게 나오는 문제점이 있다.

본 발명은 상기한 문제점을 해결하기 위하여 제안된 것으로서, 그 목적은 화자의 특성별 음성을 기본 음성모델과 독립된 새로운 다중 모델에 각각 적응화하여 저장하고, 입력음성에 대응되는 다중 적응화 모델의 선택을 이용한 음성인식으로 안정된 실시간 음성 인식이 제공되도록 하는 것이다.

또한, 본 발명은 화자 각각에 대한 독립적인 적응화 모델, 음색에 대한 독립적인 적응화 모델, 유사한 특성을 가지는 화자들을 군집화한 독립적인 적응화 모델을 구성하여 각 독립적인 모델에 맞는 적응화로 안정된 실시간 음성 인식이 제공되도록 하는 것이다.

상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징은 화자가 음성 적응화를 위해 지정하는 어느 하나의 모델을 선택하는 모델번호선택부; 적응화를 위해 입력되는 화자의 음성에서 특징 벡터를 추출하는 특징추출부; 설정된 발음정보열모델과 기본음성모델의 기준값을 적용하여 화자 음성을 적응화 한 다음 화자가 지정한 모델에 저장하고, 적응화가 실행된 모델에 플래그를 설정하는 적응화 처리부; 다수개의 모델로 구성되어, 화자의 지정에 따라 특성별로 음성이 적응화되어 저장되는 다중 적응화 모델을 포함하는 다중 모델 적응화 장치를 제공한다.

또한, 본 발명의 특징은 화자의 입력음성에서 음성 인식에 필요한 특징 벡터를 추출하는 특징추출부; 다중 적응화 모델에서 플래그가 적응화로 설정된 모델만을 순차적으로 선택하는 모델결정부; 화자의 입력음성에서 추출한 특징 벡터와 선택된 모델에 저장된 적응화 값의 유사도를 계산하여 유사도 최대값을 갖는 모델을 추출하는 유사도 검색부; 상기 유사도 최대값 모델에 저장된 적응화 값과 학습을 통해 설정된 모델에 저장된 값을 적용한 디코딩으로 음성인식을 실행하는 음성인식부를 포함하는 음성인식장치를 제공한다.

또한, 본 발명의 특징은 화자가 지정하는 어느 하나의 모델을 선택하는 과정; 화자의 입력음성에서 음성모델에 사용되는 특징 벡터를 추출하는 과정; 설정된 발음정보열모델과 기본음성모델을 사용하여 추출한 특징 벡터의 적응화를 실행하고, 상기 다수개의 모델 중에서 화자가 지정한 모델에 저장하며 적응화 실행 여부를 지시하는 플래그를 설정하는 과정을 포함하는 다중 모델 적응화 방법을 제공한다.

또한, 본 발명의 특징은 음성인식을 요구하는 화자의 입력음성에서 특징 벡터를 추출하는 과정; 다중 적응화 모델에 설정된 플래그를 판독하여 적응화가 실행된 모델만을 선택하는 과정; 화자의 입력음성에서 추출한 특징 벡터와 플래그의 판독으로 선택한 모델을 순차적으로 비교하여 적응화 값의 유사도를 계산하는 과정; 선택된 전체 모델에 대한 유사도 계산이 완료되면 유사도 최대값을 갖는 하나의 모델을 선택한 다음 디코딩을 통해 음성인식을 실행하는 과정을 포함하는 음성인식방법을 제공한다.

또한, 본 발명의 특징은 음성인식을 요구하는 화자의 입력음성에서 특징 벡터를 추출하는 과정; 다중 적응화 모델에 설정된 플래그를 판독하여 화자식별모델만을 선택하는 과정; 화자 입력음성의 특징 벡터와 선택된 화자식별모델을 순차적으로 비교하여 적응화 값의 유사도를 계산하는 과정; 모든 화자식별모델에 대한 유사도 계산이 완료되면 유사도 최대값을 갖는 하나의 모델을 선택한 다음 디코딩을 통해 음성인식을 실행하는 과정을 포함하는 음성인식방법을 제공한다.

또한, 본 발명의 특징은 음성인식을 요구하는 화자의 입력음성에서 특징 벡터를 추출하는 과정; 다중 적응화 모델에 설정된 플래그를 판독하여 음색모델만을 선택하는 과정; 화자 입력음성의 특징 벡터와 선택한 음색모델을 순차적으로 비교하여 적응화 값의 유사도를 계산하는 과정; 모든 음색모델에 대한 유사도 계산이 완료되면 유사도 최대값을 갖는 하나의 모델을 선택한 다음 디코딩을 통해 음성인식을 실행하는 과정을 포함하는 음성인식방법을 제공한다.

또한, 본 발명의 특징은 화자가 지정하는 어느 하나의 모델을 선택하는 과정; 화자 입력음성에서 적응화 음성모델에 사용되는 특징 벡터를 추출하는 과정; 설정된 발음정보열모델과 기본음성모델을 적용하여 특징 벡터의 적응화를 실행한 다음 지정된 모델에 저장하여 적응화 모델을 생성하는 과정; 상기 과정에서 생성된 적응화 모듈과 기본음성모델의 유사도를 비교하여 유사도의 크기를 대상으로 이진 트리화하는 과정을 포함하는 다중 모델 적응화 방법을 제공한다.

또한, 본 발명의 특징은 음성인식을 요구하는 화자의 입력음성에서 특징 벡터를 추출하는 과정; 기본 모델과 모든 적응화 모델에 설정된 명령어의 subword model과의 유사도를 계산하는 과정; 비터비 스코어의 차이가 일정 값 이상이면 이후의 프레임에서는 비터비 스코어가 가장 높게 나오는 모델을 선택하여 디코딩을 통해 음성인식을 실행하는 과정을 포함하는 음성인식방법을 제공한다.

또한, 본 발명의 특징은 화자가 지정하는 어느 하나의 모델을 선택하는 과정; 화자 입력음성에서 적응화 음성모델에 사용되는 특징 벡터를 추출하고, 적응화를 실행하는 과정; 적응화 실행에서 음성 명령어의 시간정보에서 키워드의 시간 정보에 해당하는 특징 벡터 부분을 동적 시간정합 모델로 학습하는 과정; 상기 적응화 된 모델과 학습된 동적 시간정합 모델의 정보를 상기 과정에서 화자가 지정한 모델에 저장하는 과정을 포함하는 다중 모델 적응화 방법을 제공한다.

또한, 본 발명의 특징은 음성인식을 요구하는 화자의 입력음성에서 특징 벡터를 추출하는 과정; 기본 음성모델을 적용하여 디코딩 하는 과정; 상기 디코딩 과정에서 계산되는 단어의 시간정보를 추출하여, 키워드에 해당하는 단어의 시간 정보열 인지 판단하는 과정; 키워드에 해당하는 단어의 시간 정보열이면 단어의 시간 정보 만큼의 특징 벡터를 추출하여 동적 시간정합 모델과의 유사도를 계산하는 과정; 유사도가 가장 높은 모델을 선택하여 디코딩을 통해 음성인식을 실행하는 과정을 포함하는 음성인식방법을 제공한다.

또한, 본 발명의 특징은 음성인식 시스템에 있어서, 위치 정보가 지정되는 다중 마이크를 적용하고, 빔 포밍 기법을 이용하여 적응화를 위해 입력되는 음원의 위치를 판단하여 대응되는 모델에 적응화하는 것을 특징으로 하는 다중 모델 적응화 장치를 제공한다.

이와 같은 본 발명은 음성인식 시스템의 음성인식 적응화에서 하나의 모델만 사용하여 여러 사람의 목소리를 적응화 하는 것이 아니라 사람별 또는 군집화별로 서로 다른 독립적인 모델을 사용함으로써 음성 적응화에 효과를 극대화하고, 정확한 음성 인식률을 제공하여 음성인식 시스템의 사용에 신뢰성을 높이고 대중화 보급에 큰 효과를 제공한다.

도 1은 본 발명의 실시예에 따른 다중 모델 적응화 장치의 구성을 개략적으로 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 음성인식 장치의 구성을 개략적으로 도시한 도면이다.
도 3은 본 발명의 제1실시예에 따른 다중 모델 적응화 절차를 개략적으로 도시한 도면이다.
도 4는 본 발명의 제1실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.
도 5는 본 발명의 제2실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.
도 6은 본 발명의 제3실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.
도 7은 본 발명의 제2실시예에 따른 다중 모델 적응화 절차를 개략적으로 도시한 도면이다.
도 8은 본 발명의 제2실시예에 따른 다중 모델 적응화 절차에서 유사도 이진 트리를 도시한 도면이다.
도 9는 본 발명의 제4실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.
도 10은 본 발명의 제3실시예에 따른 다중 모델 적응화 절차를 개략적으로 도시한 도면이다.
도 11은 본 발명의 제5실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.
도 12는 본 발명의 제6실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.
도 13은 본 발명의 제3실시예에 따라 다중 마이크를 이용한 위치별 다중 모델 적응화를 도시한 도면이다.
도 14는 종래의 음성인식 시스템에서 서로 다른 화자의 적응화에 따라 모델의 평균값 변이의 편차를 나타내는 도면이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세하게 설명하면 다음과 같다.

본 발명은 여러 자기 상이한 형태로 구현될 수 있으므로, 여기에서 설명하는 실시예에 한정되지 않으며, 도면에서 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략하였다.

도 1은 본 발명의 실시예에 따른 다중 모델 적응화 장치의 구성을 개략적으로 도시한 도면이다.

본 발명에 따른 다중 모델 적응화 장치는, 모델번호 선택부(110)와 특징추출부(120), 적응화 처리부(130) 발음정보열모델(140), 기본음성모델(150) 및 다중 적응화 모델(160)을 포함한다.

상기 모델번호선택부(110)는 화자가 음성 적응화를 실행시키기 위해 지정하는 어느 하나의 음성모델을 선택하여 그에 대한 정보를 적응화 처리부(130)에 제공한다.

특징추출부(120)는 도시되지 않은 음성입력수단을 통해 입력되는 화자의 음성에서 음성 모델에 사용되는 특징 벡터(특징 파라미터)를 추출하여 적응화 처리부(130)에 제공한다.

적응화 처리부(130)는 모델번호선택부(110)를 통해 화자가 지정하는 음성 모델이 선택되고, 특징추출부(120)를 통해 입력되는 화자 음성에서 특징 벡터(특징 파라미터)가 추출되어 인가되면 발음정보열모델(140)과 기본음성모델(150)에 설정된 값을 적용하여 입력된 음성에 대하여 적응화를 수행한 다음 상기 지정된 모델에 저장한다.

상기 적응화 처리부(130)는 화자의 입력음성에 대한 적응화 과정에서 화자식별모델, 음압의 시간에 대한 기술기 정보로 모델링되는 음색모델을 생성하여 저장한다.

상기 발음정보열모듈(140)은 추출된 특징 벡터(특징 파라미터)의 발음 정보열에 대하여 적응화를 위한 기준값이 저장된다.

기본음성모델(150)는 추출된 특징 벡터(특징 파라미터)의 음성 정보에 대하여 적응화를 위한 기준값이 저장된다.

다중 적응화 모델(160)는 두 개 이상의 적응화 모델로 구성되고, 각각의 적응화 모델(160A ~ 160N)은 화자 각각에 대한 적응화 모델, 음색에 대한 적응화 모델, 유사한 특성을 가지는 화자들이 군집화된 적응화 모델 등을 포함하여 독립적인 모델로 구성되며, 각각의 독립된 모델은 화자의 지정에 따라 특성별로 음성이 적응화되어 저장된다.

상기 다중 적응화 모델(160)을 구성하는 복수개의 독립된 적응화 모델에는 적응화가 실행되었는지의 여부에 대한 정보를 지시하는 플래그가 설정된다.

예를 들어 모델에 한번이라도 적응화가 실행된 경우이면 플래그는 "1"로 설정되고, 적응화가 실행되지 않은 초기 상태이면 플래그는 "0"으로 설정된다.

도 2는 본 발명의 실시예에 따른 음성인식 장치의 구성을 개략적으로 도시한 도면이다.

본 발명에 따른 음성인식장치는 특징추출부(210)와 모델결정부(220), 유사도 계산부(240), 음성인식부(240), 다중 적응화 모델(250) 및 디코딩 모델부(260)를 포함한다.

특징추출부(210)는 도시되지 않은 음성입력수단을 통해 입력되는 화자의 음성에서 음성 인식에 유용한 특징 벡터(특징 파라미터)를 추출한다.

상기 음성인식에 사용되는 특징 벡터는 LPC(Linear Predictive Cepstrum), MFC(Mel Frequency Cepstrum), PLP(Perceptual Linear Predictive) 등이 있다.

모델결정부(220)는 추출된 특징 벡터(특징 파라미터)에 대한 음성 인식을 위해 다중 적응화 모델(250)에서 플래그가 "1"(251)로 설정된 적응화 모델만을 순차적으로 선택하여 유사도 계산에 적용되도록 하고, 플래그가 "0"(252)으로 설정된 모델에 대해서는 유사도 계산에 적용되지 않도록 한다.

상기 모델결정부(220)는 추출된 특징 벡터(특징 파라미터)에 대한 음성 인식을 위해 다중 적응화 모델(250)에서 플래그가 "1"로 설정된 화자식별모델만을 순차적으로 추출하여 유사도 계산에 적용되도록 한다.

또한, 상기 모델결정부(220)는 추출된 특징 벡터(특징 파라미터)에 대한 음성 인식을 위해 다중 적응화 모델(250)에서 플래그가 "1"로 설정된 음색모델만을 순차적으로 추출하여 유사도 계산에 적용되도록 한다.

유사도 검색부(230)는 입력되는 음성에서 추출된 특징 벡터(특징 파라미터)와 선택된 모델에 저장된 적응화 값의 유사도를 양적 변화량 및 방향적 변화를 모두 고려하여 계산하고, 유사도 최대값을 갖는 적응화 모델을 선택한다.

상기 유사도 검색부(230)는 음색모델을 대한 유사도 계산에서 음압과 기울기의 정보를 사용한다.

음성인식부(240)는 최대의 유사도를 갖는 적응화 모델과 사전 학습과정을 통해 미리 설정된 디코딩 모델부(260)의 사전모델(261), 문법모델(262)을 적용한 디코딩(Decoding)으로 음성인식을 실행하며, 음성인식된 결과를 출력한다.

전술한 바와 같은 기능을 포함하여 구성되는 본 발명에서 다중 모델 적응화는 다음과 같이 실행된다.

도 3은 본 발명의 제1실시예에 따른 다중 모델 적응화 절차를 개략적으로 도시한 도면이다.

먼저, 음성 적응화를 실행하고자 하는 화자는 자신의 적응화하는 모델이 다른 화자가 적응화한 모델과 중첩되지 않게 차별화하기 위하여 모델번호선택부(110)를 이용하여 다수 개로 구성되는 적응화 모델 중에서 원하는 어느 하나의 모델 번호를 선택한다(S101).

*따라서, 적응화 처리부(130)는 모델번호선택부(110)를 통해 화자가 선택한 번호의 해당 모델에 대하여 적응화 대기모드로 진입시킨다.

이후, 화자의 음성이 입력되면(S102) 특징추출부(120)는 입력된 음성에서 적응화에 필요한 특징 벡터(특징 파라미터)를 추출한 다음(S103) 학습을 통해 결정되어 미리 설정된 발음 정보열 모델(140)과 기본음성모델(150)을 적용하여 특징 벡터에 대하여 적응화를 실행한다(S104).

상기한 과정을 통해 입력되는 화자 음성에 대하여 적응화가 완료되면 상기 S101의 과정에서 화자가 선택한 적응화 모델에 저장하고(S105) 적응화가 실행되었음을 지시하는 플래그를 "1"로 설정한 다음 적응화 동작을 종료한다.

예를 들어, 화자가 적응화 모델1(160A)을 선택하고 자신의 음성을 입력하면 특징 벡터를 추출한 다음 미리 학습되어 결정된 발음정보열 모델과 기본음성모델을 적용하여 적응화를 실행하고, 화자가 선택된 적응화 모델1(160A)에 저장하며 해당 적응화 모델1(160A)에는 어느 화자에 의해 적응화가 실행되었음을 지시하는 플래그가 "1"로 설정된다.

상기한 적응화의 절차는 화자가 자신의 특성에 따라 각기 다른 모델을 선택하여 적응화를 실행할 수 있도록 함으로써, 다른 화자가 적응화한 모델과 중첩되지 않게 되어 음성 인식률을 높여 준다.

도 4는 본 발명의 제1실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.

화자의 음성이 입력되면(S201) 특징추출부(210)는 음성 인식에 유용한 특징 벡터(특징 파라미터)를 추출한다(S202).

이후, N개로 구성되는 다중 적응화 모델(250) 중에서 모델에 설정된 플래그를 판독하여 임의의 화자에 의해 적응화가 실행된 모델만을 순차적으로 선택하여 입력된 음성과 유사도를 갖는 모델인지를 분석한다(S203).

즉, N개로 구성되는 적응화 모델 중에서 플래그가 "1"로 설정된 모델(251)에 대해서는 입력된 음상 데이터와의 유사성 판단에 적용하고, 플래그가 "0"으로 설정된 모델(252)은 적응화가 한번도 실행되지 않은 초기 상태이므로 유사성 판단에서 제외한다.

이후, 플래그의 판독으로 선택된 모델이 음성인식에 적용 가능한 모델인지를 판단한다(S204).

상기 S204에서 선택된 모델이 음성인식에 적용 가능하지 않으면 다음 모델을 선택하여 분석하는 과정을 반복적으로 실행한다.

상기 S204에서 선택된 모델이 음성인식에 적용 가능한 모델이면 입력 음성에서 추출한 특징 벡터와 모델에 설정된 데이터의 유사도를 계산하고(S205), 데이터 유사도 계산이 플래그 "1"로 설정된 모든 모델에 대하여 순차적으로 완료되었는지를 판단한다(S206).

상기 S206에서 모든 모델에 대하여 유사도 계산이 완료되지 않은 상태이면 모델에 대한 카운터 업(S207)을 실행한 다음 상기 S203의 과정으로 리턴되어 적응화가 실행된 모든 모델에 대하여 순차적인 유사도 계산이 실행되도록 한다.

상기 S206에서 모든 모델에 대하여 유사도 계산이 완료되었으면 유사도 최대를 갖는 모델을 선택한 다음(S208) 학습 과정을 통해 미리 설정된 단어사전모델, 문법정보모델을 적용한 디코딩으로 음성인식을 실행한다(S209)(S210).

상기한 절차를 통해 음성인식이 실행되면 그 결과를 출력함으로써 음성입력에 대응되는 제어가 실행되도록 한다(S211).

일반적인 음성 인식에서는 N개로 구성되는 다중 적응화 모델과 기본모델을 순차적으로 입력하여 모든 모델과 입력 음성의 유사도를 계산하기 때문에 모델의 개수가 많을수록 계산량이 많아지므로 복잡하다.

그러나, 본 발명의 제1실시예에서는 입력된 음성과 가장 유사한 모델을 찾는 과정에서 적응화가 한번도 실행되지 않은 초기 상태인 모델은 플래그 값이 "0"으로 설정되어 있으므로 이러한 모델에 대해서는 유사도 계산에서 제외하고, 적응화가 실행된 모델의 플래그 값은 "1"로 설정되어 있으므로 이러한 모델만을 선택하여 순차적으로 유사도를 계산함으로써 빠른 계산이 제공된다.

즉, 적응화가 한번이라도 실행된 모델만을 플래그의 판독을 통해 선택하여 유사도 계산을 실행함으로써 빠른 계산이 제공되고, 기본 음성모델과 서로 다르게 적응화된 모델에서 입력된 음성과 가장 유사한 특성을 갖는 모델을 선택하도록 함으로써, 음성입력에 따라 실시간 인식 처리가 가능하게 된다.

도 5는 본 발명의 제2실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.

화자의 음성이 입력되면(S301) 특징추출부(210)는 음성 인식에 유용한 특징 벡터(특징 파라미터)를 추출한다(S302).

이후, 기본화자모델과 N개로 구성되는 화자식별모델(310)에 설정된 플래그를 판독하여 적응화가 실행된 화자식별모델(310) 모델만을 선택한다(S303).

즉, N개로 구성되는 화자식별모델(310) 중에서 플래그가 "1"로 설정된 모델(321)은 적응화가 실행된 화자식별모델이므로, 입력된 음상 데이터와의 유사도 계산에 적용하고, 플래그가 "0"으로 설정된 모델(331)은 적응화가 한번도 실행되지 않은 초기 상태의 화자식별모델이므로 유사도 계산에서 제외한다.

상기에서 적응화가 실행된 화자식별모델(310)의 선택이 이루어지면 입력 음성에서 추출한 특징 벡터와 화자식별모델에 설정된 데이터의 유사도를 계산하고(S304), 데이터 유사도 계산이 플래그 "1"로 설정된 모든 화자식별모델(310)에 대하여 완료되었는지를 판단한다(S305).

상기 S305에서 모든 화자식별모델(310)에 대하여 유사도 계산이 완료되지 않은 상태이면 화자식별모델(310)에 대한 카운터 업을 실행한 다음 상기 S303의 과정으로 리턴되어 적응화가 실행된 모든 화자식별모델에 대하여 순차적인 유사도 계산이 실행되도록 한다.

상기 S305의 판단에서 모든 화자식별모델(310)에 대하여 유사도 계산이 완료되었으면 유사도 최대를 갖는 모델을 선택한 다음(S306) 학습 과정을 통해 미리 설정된 단어사전모델, 문법정보모델 등을 적용한 디코딩으로 음성인식을 실행한다(S307)(S308).

상기한 절차를 통해 음성인식이 실행되면 그 결과를 출력함으로써 음성입력에 대응되는 제어가 실행되도록 한다(S309).

이상에서 설명한 바와 같이 본 발명의 제2실시예에서는 기본모델과 적응화 모델 대신에서 화자식별모델(310)을 적용하고, 플래그를 판독하여 적응화가 실행된 화자식별모델(310) 만에 선택함으로써, 보다 정확도가 높은 모델 선택을 제공하며, 선택된 화자식별모델(310)에 대하여 유사도 계산을 실행함으로 빠른 계산과 음성입력에 대하여 실시간 인식 처리가 가능하게 된다.

도 6은 본 발명의 제3실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.

화자의 음성이 입력되면(S401) 특징추출부(210)는 음성 인식에 유용한 특징 벡터(특징 파라미터)를 추출한다(S402).

이후, 기본음색모델과 N개로 구성되는 음색모델(410)에 설정된 플래그를 판독하여 적응화가 실행된 음색모델(410) 모델만을 선택한다(S403).

즉, N개로 구성되는 음색모델(310) 중에서 플래그가 "1"로 설정된 모델(421)은 적응화가 실행된 음색모델이므로, 입력된 음상 데이터와의 유사성 판단에 적용하고, 플래그가 "0"으로 설정된 모델(431)은 적응화가 한번도 실행되지 않은 초기 상태의 음색모델이므로 유사성 판단에서 제외한다.

상기에서 적응화가 실행된 음색모델(410)의 선택이 이루어지면 입력 음성에서 추출한 특징 벡터와 음색모델에 설정된 데이터의 유사도를 계산하고(S404), 데이터 유사도 계산이 플래그 "1"로 설정된 모든 음색모델(410)에 대하여 완료되었는지를 판단한다(S405).

상기 S405에서 모든 음색모델(410)에 대하여 유사도 계산이 완료되지 않은 상태이면 음색모델(410)에 대한 카운터 업을 실행한 다음 상기 S403의 과정으로 리턴되어 적응화가 실행된 모든 음색모델에 대하여 순차적인 유사도 계산이 실행되도록 한다.

상기 S405의 판단에서 모든 음색모델(410)에 대하여 유사도 계산이 완료되었으면 유사도 최대를 갖는 모델을 선택한 다음(S406) 학습 과정을 통해 설정된 단어사전모델, 문법정보모델을 적용한 디코딩으로 음성인식을 실행한다(S407)(S408).

상기한 절차를 통해 음성인식이 실행되면 그 결과를 출력함으로써 음성입력에 대응되는 제어가 실행되도록 한다(S409).

이상에서 설명한 본 발명의 제3실시예에 따른 음성인식방법은 음색 적응화가 실행된 모델에 대하여 플래그 처리를 실행하고, 입력 음성과 적응화 모델의 유사도를 계산함으로써, 화자가 입력한 음성과 가장 유사한 모델이 선택되므로 최소의 계산량으로 음성인식을 제공한다.

상기 음색모델은 음압의 시간에 대한 기울기 정보를 모델화 하여 생성하기 때문에 음색모델의 유사도 계산시에도 음압과 기울기 정보만을 사용하므로 제2실시에의 화자식별 알고리즘에 비해 유사도 계산에 대한 계산량이 작게 소요된다.

도 7은 본 발명의 제2실시예에 따른 다중 모델 적응화 절차를 개략적으로 도시한 도면이다.

음성 적응화 절차가 실행되면 화자는 자신이 적응화하는 모델과 다른 화자가 적응화한 모델이 중첩되지 않게 하기 위하여 모델번호선택부(110)를 이용하여 다수개로 구성되는 적응화 모델중에서 어느 하나의 모델을 선택한다(S501).

따라서, 적응화 처리부(130)는 모델번호선택부(110)를 통해 화자가 선택한 모델 번호를 인식하고 적응화 대기모드로 진입시킨다.

이후, 화자의 음성이 입력되면(S502) 특징추출부(120)는 입력된 음성의 특징 벡터(특징 파라미터)를 추출한 다음(S503) 학습을 통해 미리 설정된 발음 정보열 모델(500A)과 기본음성모델(500B)을 적용하여 입력음성의 특징 벡터에 대하여 적응화를 실행한다(S504).

상기한 과정을 통해 S501의 과정에서 선택한 모델에 적응화가 완료되면 적응화 실행에 대한 정보를 지시하기 위하여 플래그를 "1"로 설정하여 적응화 모델을 생성한다(S505).

이후, 적응화가 이루어진 모델에 저장된 적응화 데이터와 기본음성모델(500B)에 저정된 데이터의 유사도를 계산하며(S506), 유사도 값의 크기를 대상으로 이진 트리화를 실행하여 보다 빠른 음성인식이 제공될 수 있도록 한다(S507).

이상에서 설명한 바와 같이 본 발명의 제2실시예에 따른 적응화 방법은 적응화 단계에서 입력 음성에서 추출한 특징 벡터(특징 파라미터) 값으로 기본음성모델(500B)과 유사도를 계산하고, 유사도 값의 크기에 따라 이진 트리화 함으로써 보다 신속한 음성 인식이 제공될 수 있도록 한다.

도 8은 본 발명의 제2실시예에 따른 다중 모델 적응화 절차에서 유사도 이진 트리를 도시한 도면이다.

유사도 값의 크기에 따른 이진 트리화를 통해 노드를 생성시키는 방법으로 부모노드 보다 유사도 값이 크면 왼쪽 노드에 위치시키고, 부모노드 보다 유사도 값이 작으면 오른쪽 노드에 위치시키면서 해당 부모노드의 인덱스(Index)를 설정하는 방법으로 이진 트리를 생성한다.

자식노드가 없는 터미널 노드는 모델의 인덱스 값, 즉 모델번호에 해당한다.

도면에 도시된 바와 같이, 예를 들어 부모노드인 기본모델(601) 보다 유사도 값이 큰 적응화 모델A(602)이면 기본모델(601)의 왼쪽 노드에 위치시키고, 부모노드인 기본모델(601) 보다 유사도 값이 작으면 오른쪽 노드에 위치시키면서 부모노드인 기본모델(601)에 대한 인덱스를 설정한다.

이러한 이진 트리화의 반복을 통해 자식노드를 탐색하여 원하는 모델을 신속하게 찾아 낼 수 있게 된다.

도 9는 본 발명의 제4실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.

도시된 바와 같이, 적응화를 위한 음성이 입력되면 일정 프레임 동안, 예를 들어 프레임 1 내지 프레임 t를 포함하는 일정 프레임 동안(701)에는 기본모델과 모든 적응화 모델에 대하여 음성인식을 수행하고, 그 이후의 프레임에서는 비터비 스코어가 가장 높게 나오는 모델만을 선택하여(702)(703) 음성인식을 수행하도록 한다.

이러한 음성인식 방법은 초기 일정 프레임 동안의 계산과정에서는 모든 모델에 대한 모든 명령어의 subword model 들을 계산하기 때문에 계산량이 많아지는 특성이 있으나, 일정 프레임(701)의 수험적인 수치 또는 비터비 스코어의 차이값이 일정 값 이상으로 발생되는 경우 그 이후 단계의 나머지 모든 모델에 대하여 계산을 실행하지 않음으로써, 음성인식의 유사도 판정 계산량을 최소화시킨다.

도 10은 본 발명의 제3실시예에 따른 다중 모델 적응화 절차를 개략적으로 도시한 도면이다.

제3실시예에 따른 적응화는 음성 명령어에 동일한 키워드가 제일 앞에 있는 경우 동적 시간정합(DTW) 방법을 사용하여 입력 음성에서 키워드까지의 특징 벡터(특징 파라미터)에 대해서 동적 시간정합(DTW)을 수행하여 입력 음성과 모델의 유사도를 계산하는 방법이다.

화자가 자신의 음성을 적응화 하고자 하는 모델을 선택한 다음(801) 음성입력을 실행하면(S802) 입력되는 음성의 특징벡터(특징 파라미터)를 추출하여(S803) 미리 학습되어 결정된 발음정보열 모델과 기본음성모델을 적용하여 적응화를 실행한다(S804).

상기와 같이 적응화(803)가 진행되는 명령어의 특징 벡터(특징 파라미터) 부분에 대하여 시간 정보를 계산하고(S805), 시간 정보로 계산되는 명령어의 가장 앞 단어(키워드)를 특징 열로 구성하여 동적 시간정합(DTW) 모델로 학습한 다음(S806), 적응화가 실행된 선택된 모델번호와 학습된 동적 시간정합(DTW) 정보를 저장하여 음성입력에 대한 적응화를 종료한다(S807).

도 11은 본 발명의 제5실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.

동적 시간정합(DTW)으로 적응화한 모델을 적용하여 음성 인식을 실행하는 절차는 다음과 같다.

사용자의 음성이 입력되면(S901) 입력되는 음성에서 특징 벡터(특징 파라미터)를 추출한 후(S902) 학습을 통해 미리 설정된 기본음성모델(900A)을 적용하여 음성인식을 위한 디코딩을 실행한다(S903).

상기 S903의 디코딩 과정에서 계산되는 단어의 시간정보를 추출하여(S904) 가장 앞 단어(키워드)의 시간 정보열 인지를 판단한다(S905).

상기 S905의 판단에서 가장 앞 단어(키워드)에 해당되지 않는 시간 정보열이면 상기 S903의 과정으로 리턴되고, 가장 앞 단어(키워드)에 해당되는 시간 정보열이면 가장 앞 단어의 시간정보에 해당하는 만큼의 특징벡터(특징 파라미터)를 취하여 학습을 통해 미리 설정된 기본음성모델의 동적 시간정합(DTW) 정보와 각 적응화 모델의 동적 시간정합(DTW) 정보와의 동적 시간정합(DTW) 유사도를 계산하여(S906) 유사도가 가장 높은 모델을 선택한다(S907).

상기한 절차를 통해 유사도가 가장 높은 모델이 선택되면 디코딩을 통해 음성인식을 실행하고(S908)을 인식된 결과를 출력하여 입력된 음성 제어명령이 실행되도록 한다(S909).

도 12는 본 발명의 제6실시예에 따른 음성인식 절차를 개략적으로 도시한 도면이다.

음성인식 시스템이 사용자의 명령어를 인식하기 위해 항상 음성인식 대기에 있는 경우 음성 명령어뿐만 아니라 생활 속의 다양한 사용자 목소리 및 잡음 등이 입력된다(S1001).

따라서, 음성인식 시스템은 상기와 같이 음성인식 대기 상태에서 특정 적응화 모델이 선택되었는지를 판단한다(S1002).

상기 S1002의 판단에서 특정 적응화 모델이 선택되었으면 대기상태에서 입력되는 음성 명령어 및 생활 속의 다양한 소리를 선택된 적응화 모델을 통해 유사도를 판정하고(S1003), 특정 적응화 모델이 선택되지 않은 상태이면 대기상태에서 입력되는 음성 명령어 및 생활 속의 다양한 소리를 인식하여 인식되는 음성에 대응되는 적응화 모델을 찾아 유사도를 판정한다(S1004).

상기와 같이 적응화 모델과의 유사도 판정에 따라 적합한 명령어인지를 판정하고(S1005), 적합한 명령어가 아니면 상기 S1001의 과정으로 리턴되고, 적합한 명령어이면 유사도 판정을 통해 입력된 음성에 대한 인식결과를 처리한다(S1006).

이후, 인식된 결과에 대하여 선택된 적응화 모델과의 검증(재인식)을 실행하여(S1007) 유효한 적응화 모델인지를 판단한다(S1008).

상기 S1008의 판단에서 유효한 적응화 모델인 것으로 판단되면 상기 S1001의 과정으로 리턴되어 전술한 절차를 반복적으로 실행하여 음성인식을 수행한다.

그러나, 상기 S1008의 판단에서 유효한 적응화 모델이 아닌 것으로 판단되면 인식결과를 재처리한 다음(S1009) 적응화 모델 변경을 실행하고 상기 S1001의 과정으로 리턴된다.

이에 대한 예를 들면, 홈네트워크 제어용 음성인식 시스템이 있을 때 A라는 사용자가 "TV 켜" 라는 명령을 했는데 인식에 사용된 모델이 B화자의 모델이고 잘못 선택되어 있는 모델에 의해 발생한 오인식 결과가 "거실불 켜" 라는 인식 결과가 처리되어 거실불이 켜지는 경우가 발생할 수 있으므로, 후처리 과정에서 재인식을 수행하여 A라는 적응화 모델이라고 검증되고 "TV 켜" 라는 명령어로 판단된 경우 "TV 켜" 라는 인식결과 처리를 한 후 앞에서 잘못 처리된 결과에 대한 정정처리를 한다.

즉, 잘못 작동된 "거실불 켜"의 명령어 인식을 "거실불 꺼"로 인식하여 처리한다.

도 13은 본 발명의 제3실시예에 따라 다중 마이크를 이용한 위치별 다중 모델 적응화를 도시한 도면이다.

도시된 바와 같이, 음성인식 시스템(1400)에 다중 마이크 시스템을 적용하고, 적응화를 위한 화자의 음원이 특정 위치에 입력되면 빔 포밍 기술을 이용하여 음원의 위치를 자동으로 판정하여 음원 위치에 대응되는 모델에 적응화 실행함으로써, 음원의 위치에 따라 서로 다른 모델에 적응화가 수행한다.

상기한 다중 마이크 시스템을 적용하는 경우 화자의 음성을 적응화하는 과정에서 빔 포밍 기술에 의해 화자의 위치가 식별되고, 그에 따라 적응화 모델이 자동으로 결정되므로, 적응화 할 모델번호를 선택할 필요가 없다.

상기의 방법은 음성 인식을 수행하는 경우 어느 위치에서 명령이 들어오는지 판단하여 해당 위치의 적응화 모델을 선택하여 음성인식을 수행한다.

이는 음성인식 시스템을 중심으로 서로 다른 사용자의 동선이 해당 위치에서 확률적으로 크게 변경되지 않는다는 가정에서 효과적인 음성인식을 제공한다.

예를 들어, 빔 포밍 기술을 통해 판정되는 음원의 위치가 5번 마이크(MIC5)이면 5번 마이크(MIC5)로 입력되는 화자의 음성은 적응화 모델4에 적응화되어 저장되며, 이후 5번 마이크(MIC5)의 위치에서 화자의 음성이 인식되면 적응화 모델4에 저장된 적응화 값과의 유사도를 판정하여 음성인식을 실행한다.

전술한 바와 같은 다중 모델 적응화와 음성인식기술이 적용되는 본 발명에 따른 음성인식 시스템은 물리적인 메모리의 효율적인 사용과 확장성 및 비용 측면을 고려하여 대략적으로 10명(최적 5명)의 가족을 대상으로 하는 가정용 음성인식 제품에 적용하는 경우 최고의 효과를 얻을 수 있는 특징이 있다.

10명 이하의 적응화가 실행되는 가정용 음성인식 제품에 적용하는 경우 화자독립 및 화자종속형 다중 모델 적응화 음성인식 시스템으로 최적의 음성인식 효과를 얻을 수 있다.

110 : 모델번호선택부 120 : 특징추출부
130 : 적응화처리부 140 : 발음정보열모델
150 : 기본음성모델 160 : 다중 적응화 모델

Claims

삭제
화자의 입력 음성에서 특징 벡터를 추출하고, 화자식별모델이나 음색모델, 유사도의 크기에 따른 이진트리, 빔 포밍 기법을 적용한 음원 위치 인식 중 적어도 하나 이상의 정보를 적용하여 적응화하는 음성 적응화 방법에 있어서,
화자가 지정하는 어느 하나의 모델을 선택하는 과정;
상기한 과정을 통해 적응화된 화자의 음성을 상기 화자가 지정한 모델에 저장하는 과정;
상기 화자가 지정한 모델에 적응화된 화자의 음성이 저장되면 해당 모델에 대하여 플래그를 설정하여 적응화된 화자의 음성이 저장되었음을 지시하는 과정;
을 포함하는 다중 모델 적응화 방법.