KR20160084724A

KR20160084724A - 연속어 음성인식에서 실시간 역추적 방법 및 이를 이용한 음성인식 장치

Info

Publication number: KR20160084724A
Application number: KR1020150001332A
Authority: KR
Inventors: 김윤주; 김주엽; 남현순; 김태중
Original assignee: 한국전자통신연구원
Priority date: 2015-01-06
Filing date: 2015-01-06
Publication date: 2016-07-14

Abstract

음성인식 결과를 실시간으로 제공하는 방법 및 장치가 개시된다. 본 발명의 일 면에 따른 음성인식 장치에서 연속어 음성인식의 실시간 역추적 방법은, (a) 입력된 음성신호를 특정 단위의 복수 구간으로 구분하는 단계와; (b) 구분된 복수 구간 별로 특징 벡터를 추출하는 단계와; (c) 상기 음성신호의 첫 번째 구간부터 현재 현재 구간까지의 각 특징벡터에 대해 HMM의 각 상태에서의 출력 확률 값을 누적하여 활성노드를 선택하는 단계와; (d) 상기 활성노드에 대한 역추적 과정에서 음성인식을 위한 최적노드를 선택하고, 상기 최적노드에 관한 정보 및, 상기 최적노드를 포함하는 최적경로를 구성하는 이전 구간에서 선택된 이전 최적노드에 관한 정보와, 역추적 시간 정보를 산출하는 단계와; 및 (e) 상기 최적노드에 관한 정보, 상기 이전 최적노드에 관한 정보 및 상기 역추적 시간 정보를 이용하여 음성인식의 중간결과를 출력하는 단계를 포함한다.

Description

연속어 음성인식에서 실시간 역추적 방법 및 이를 이용한 음성인식 장치{METHOD AND APPARATUS FOR REAL TIME BACK TRACKING IN SPEECH RECOGNITION}

본 발명은 음성인식 결과를 실시간으로 제공하는 방법 및 장치에 관한 것으로서, 보다 상세하게는 연속어 음성인식이 진행 중인 과정에서 음성인식이 이루어진 중간 결과를 제공할 수 있는 연속어 음성인식에서 실시간 역추적 방법 및 이를 이용한 음성인식 장치에 관한 것이다.

음성 인식(speech recognition)은 컴퓨터가 음향학적 신호(acoustic speech signal)를 텍스트로 매핑시키는 과정이다.

즉, 일반적으로 마이크나 전화를 통하여 얻어진 음향학적 신호를 단어나 단어 집합 또는 문장으로 변환하는 과정을 말한다.

인식된 결과는 명령이나 제어, 데이터 입력, 문서 준비 등의 응용 분야에서 최종 결과로 사용될 수 있으며, 음성이해와 같은 분야에는 언어 처리 과정의 입력으로 사용될 수 있다. 또한, 음성인식 기술은 인간과 컴퓨터 간의 자연스러운 의사소통을 가능케 하며 컴퓨터를 인간에게 보다 밀착시킴으로써 인간의 생활을 보다 풍요롭게 만드는 데 필수적인 기술이다.

일반적인 음성 인식 방법은 인식될 단어와 대응시켜 미리 저장해 놓은 복수의 레퍼런스 패턴과 인식할 음성 신호를 매칭을 위하여 패턴화한 테스트 패턴을 대응시켜 가장 적합하게 매칭되는 것으로 판단된 레퍼런스 패턴에 해당하는 단어를 입력된 음성 신호로 인식한다.

이와 같이 가장 적합하게 매칭되는 레퍼런스 패턴을 분류하기 위해서는 히든 마코프 모델(HMM)과 같이 통계적으로 모델링하여 분류하는 방법, 뉴런 네트웍(time delay neural network; TDNN)과, 테스트 패턴과 레퍼런스 패턴의 시간적 길이의 차이가 있더라도 효율적으로 최적의 레퍼런스 패턴을 분류할 수 있는 동적 타임 워핑(DTW) 방법을 이용한 다양한 패턴 분류방법이 사용된다.

최근 들어 클라우드 기반의 네트워크 처리용량 증가, 음성인식을 처리하기 위한 프로세서와 메모리 용량의 증대, 그리고 다양한 사용자 인터페이스 기술의 필요성 증대로 인하여 음성인식이 다양한 응용분야에서 각광받고 있다.

네트워크 처리용량 증가와 디바이스 처리능력 증대를 기반으로, 다양한 요소기술들을 적용함으로써 고립어뿐만 아니라 자연어 처리를 포함하여 음성인식률이 매우 향상될 수 있었다. 이를 통해, 더욱 많은 단어와 문구에 대한 인식이 필요한 적용 분야에도 적용될 수 있음으로써, 음성인식기술의 응용 분야를 확대하고 있는 중이다.

음성인식률 향상을 위해서는 다양한 음성인식 기술을 통한 방법이 제시되고 있는데, 이는 적용분야뿐만 아니라 언어 모델, 음성 모델 학습 및 훈련, 데이터 베이스 운용 등에 따라 매우 다양한 기술적 접근이 이루어지고 있다.

특히, 최근 들어 자연어 처리를 위해 매우 많은 어휘 기반으로 고속의 음성인식을 수행할 수 있도록 클라우드 네트워크를 이용한 음성인식을 수행하는 기술들이 활발히 개발되고 있다. 하지만, 여전히 인프라가 없는 상태이거나 응용분야가 제한적인 부분에서는 네트워크를 사용하지 않는 디바이스 레벨의 음성인식 기술은 여전히 유효하게 적용되고 있다.

한편, 현재 사용되는 음성인식 장치 중에 비터비 디코더 기반의 음성인식기에서는 음성특성신호가 완료될 시점에 “완료노드”로 수렴된 최적노드를 기반으로 음성인식 결과를 제공한다. 따라서 긴 문장의 음성인식 결과를 사용자가 확인하기 위해서는 많은 시간이 소요되므로 실시간으로 음성인식 결과를 확인하기 힘들게 된다.

본 발명은 상술한 종래 기술의 문제점을 해결하기 위하여, 현재 시간에서 결정된 최적의 활성 노드들을 역추적하여 최적의 음성인식 중간결과를 실시간으로 제공할 수 있는 음성인식 방법 및 그 장치를 제공하는 것을 목적으로 한다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 면에 따른 음성인식 장치에서 연속어 음성인식의 실시간 역추적 방법은, (a) 입력된 음성신호를 특정 단위의 복수 구간으로 구분하는 단계와; (b) 구분된 복수 구간 별로 특징 벡터를 추출하는 단계와; (c) 상기 음성신호의 첫 번째 구간부터 현재 구간까지의 각 특징벡터에 대해 HMM의 각 상태에서의 출력 확률 값을 누적하여 활성노드를 선택하는 단계와; (d) 상기 활성노드에 대한 역추적 과정에서 음성인식을 위한 최적노드를 선택하고, 상기 최적노드에 관한 정보 및, 상기 최적노드를 포함하는 최적경로를 구성하는 이전 구간에서 선택된 이전 최적노드에 관한 정보와, 역추적 시간 정보를 산출하는 단계와; 및 (e) 상기 최적노드에 관한 정보, 상기 이전 최적노드에 관한 정보 및 상기 역추적 시간 정보를 이용하여 음성인식의 중간결과를 출력하는 단계를 포함한다.

상기 (c) 단계는, k번째 음성구간의 특징벡터

의 HMM의 상태

에서의 출력 확률 값

을 연산하고, 첫 번째 음성구간의 출력 확률 값부터 k번째 음성구간의 출력 확률 값까지를 누적하여 k번째 음성구간에서 음소 p에 대한 j번째 HMM 상태의 전향 확률 값

를 연산하는 단계를 포함한다.

상기 (e) 단계는, 음성인식의 현재 음성구간의 활성노드 중에서 전향 확률 값을 이용하여 최적노드를 선정하는 단계를 포함한다.

상기 (e) 단계는, 상기 선정된 최적노드를 기준으로 역추적을 수행하여 음성인식의 중간결과를 출력하는 단계를 포함하되, 상기 선정된 최적노드의 전향 확률 값과, 상기 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과를 비교하여 음성인식의 중간결과를 선택하는 단계를 포함하는 것을 특징으로 한다.

상기 (e) 단계는, 상기 선정된 최적노드를 기준으로 역추적을 수행하여 음성인식의 중간결과를 출력하는 단계를 포함하되, 상기 선정된 최적노드의 전향 확률 값과, 상기 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과를 기 설정된 문턱 값과 비교하고, 비교 결과, 상기 기 설정된 문턱 값을 넘지 않는 역추적 경로는 삭제하는 단계를 포함하는 것을 특징으로 한다.

상기 (e) 단계는, 상기 선정된 최적노드를 기준으로 역추적을 수행하여 음성인식의 중간결과를 출력하는 단계를 포함하되, 상기 선정된 최적노드의 이전 최적 노드의 전향 확률 값을 기 설정된 문턱 값과 비교하고, 비교 결과, 상기 기 설정된 문턱 값을 넘지 않는 역추적 경로는 삭제하는 단계를 포함하는 것을 특징으로 한다.

상기 (e) 단계는, 음성인식의 현재 음성구간의 활성노드 중에서 전향 확률 값을 이용하여 최적노드를 선정하는 단계와, 상기 선정된 최적노드를 기준으로 역추적을 수행하여 음성인식의 중간결과를 출력하는 단계를 포함하되, 상기 선정된 복수 최적노드의 전향 확률 값과, 각각의 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과가 동일한 경우, 각각의 최적노드에서 이전 최적노드로 역추적 과정에서 걸린 역추적 시간을 이용하여 이전 최적노드를 제한적으로 설정하는 단계를 포함하는 것을 특징으로 한다.

한편, 본 발명의 다른 면에 따른 음성인식 장치는, 입력된 음성신호를 특정 단위의 복수 구간으로 구분하는 구간 구분부; 구분된 음성구간에 해당하는 특징을 벡터 형태로 추출하는 특징벡터 추출부; 상기 음성신호의 첫 번째 구간부터 현재 현재 구간까지의 각 특징벡터에 대해 HMM의 각 상태에서의 출력 확률 값을 연산하는 확률연산부; 음성신호의 첫 번째 구간부터 현재 구간까지 출력되는 출력 확률 값을 누적하여 HMM들의 모든 상태에 대해 전향 확률 값을 연산하는 경로누적부; 탐색 경로의 역추적을 위해서 상기 전향 확률 값을 이용하여 이전 구간의 노드들 중에서 현재 노드까지의 최적 경로를 선정하는 경로갱신부; 선정된 최적 경로 상에 포함되어 있는 노드를 활성 노드로 선정하는 노드갱신부; 선정된 활성 노드에 대한 역추적 과정에서 음성인식을 위한 최적노드를 선택하고, 상기 최적노드에 관한 정보 및, 상기 최적노드를 포함하는 최적경로를 구성하는 이전 구간에서 선택된 이전 최적노드에 관한 정보와, 역추적 시간 정보를 산출하는, 최적노드추적부; 상기 최적노드에 관한 정보, 상기 이전 최적노드에 관한 정보 및 상기 역추적 시간 정보를 저장하는 데이터 저장부; 및 상기 최적노드에 관한 정보, 상기 이전 최적노드에 관한 정보 및 상기 역추적 시간 정보를 이용하여 음성인식의 중간결과를 출력하는 실시간추적부를 포함한다.

상기 실시간 추적부는, 음성인식의 현재 음성구간의 활성노드 중에서 전향 확률 값을 이용하여 최적노드를 선정하고, 상기 선정된 최적노드를 기준으로 역추적을 수행하여 음성인식의 중간결과를 출력한다.

상기 실시간 추적부는, 상기 선정된 최적노드의 전향 확률 값과, 상기 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과를 비교하여 음성인식의 중간결과를 선택한다.

상기 실시간 추적부는, 상기 선정된 최적노드의 전향 확률 값과, 상기 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과를 기 설정된 문턱 값과 비교하고, 비교 결과, 상기 기 설정된 문턱 값을 넘지 않는 역추적 경로는 삭제하는 것을 특징으로 한다.

상기 실시간 추적부는, 상기 선정된 최적노드의 이전 최적 노드의 전향 확률 값을 기 설정된 문턱 값과 비교하고, 비교 결과, 상기 기 설정된 문턱 값을 넘지 않는 역추적 경로는 삭제하는 것을 특징으로 한다.

상기 실시간 추적부는, 상기 선정된 복수 최적노드의 전향 확률 값과, 각각의 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과가 동일한 경우, 각각의 최적노드에서 이전 최적노드로 역추적 과정에서 걸린 역추적 시간을 이용하여 이전 최적노드를 제한적으로 설정하는 것을 특징으로 한다.

본 발명에 따르면 음성인식 결과를 제공함에 있어서, 입력된 음성신호에 대하여 음성인식이 진행중인 과정에서도 음성인식이 이루어진 중간 결과를 제공할 수 있다.

이를 위해, 현재 시간에서 결정된 최적의 노드(들)에 대해서 역추적(Back-Tracking)을 수행하여 최적의 음성인식 중간결과를 제공하기 때문에 사용자에서 느끼는 음성인식 결과의 실시간성을 높이는 장점이 있다.

또한, 역추적에 사용되는 최적 노드를 선정할 때 제한된 크기의 최적 노드만을 선택하고, 이전 역추적 시간은 그룹으로 묶어서 하나의 시간으로 설정하기 때문에 음성인식 결과의 실시간성을 높이는 장점이 있다.

도 1은 본 발명의 실시예에 따른 음성인식 장치를 개략적으로 도시한 블록도.
도 2는 도 1에 도시된 음성 인식부의 구성을 상세히 도시한 블록도.
도 3은 본 발명의 실시예에 따른 음성인식 방법을 설명하기 위한 흐름도.
도 4는 본 발명의 실시예에 따른 은닉 마르코프 모델 기반의 음성인식에서 비터비 디코딩 알고리즘의 동작원리를 설명하기 위한 예시도.
도 5는 본 발명의 실시예에 따른 연속어 음성인식에서 실시간 역추적 방법이 실행되는 컴퓨터 장치의 구성을 도시한 블록도.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 발명의 실시예에 따른 음성인식 장치를 개략적으로 도시한 블록도이고, 도 2는 도 1에 도시된 음성 인식부의 구성을 상세히 도시한 블록도이다.

도 1을 참조하면, 본 발명의 실시예에 따른 음성인식 장치는 음성 수신부(10), 구간 구분부(20), 특징벡터 추출부(30), 음성 인식부(40), 데이터베이스(50) 및 데이터 저장부(60)를 포함하여 구성된다.

음성 수신부(10)는 마이크 등을 통해 사용자에 의해 입력된 음성신호를 구간 구분부(20)로 전달한다.

구간 구분부(20)는 입력된 음성신호를 특정 단위의 복수 구간으로 구분한다. 예컨대, 음성신호는 세그먼트 단위로 구분될 수 있다. 음성신호의 세그먼트는 수십 밀리초 길이의 음성 프레임(speech frame)이거나 또는 더 긴 구간에 대한 세그먼트일 수 있다. 본 실시예에서는 음성 프레임을 예를 들어 기술하기로 한다.

특징벡터 추출부(30)는 상기 구간 구분부(20)에서 구분된 음성신호 세그먼트에 해당하는 특징을 벡터 형태로 추출한다. 음성인식을 위한 특징 벡터는 시간 도메인에서의 특징을 이용한 것과, 스펙트럼 도메인의 특징을 이용한 것으로 분류할 수 있다.

시간 도메인에서의 특징을 이용한 것으로서, ZCR(Zero Crossing Rate)와 단 구간 에너지 변화를 측정한 LSTER(Low Short-Time Energy Rate) 등이 있으며, 스펙트럼 도메인에서의 특징을 이용한 것으로서, 스펙트럼의 무게중심을 이용한 SC(Spectral Centroid), 스펙트럼의 변화의 차이를 이용한 SF(Spectral Flux)와 켑스트럼 거리를 이용한 CD(Cepstral Distance), 인간의 귀가 가지는 비선형적인 주파수 특성을 이용한 MFCC(Mel Frequency Cepstral Coefficients) 등이 있다.

이 중에서 MFCC는 음성 인식에 널리 쓰이는 유효한 특징 값으로 스펙트럼 기반을 특징으로 하며, 인간의 귀가 가지는 비선형적인 주파수 특성을 이용한다.

음성 인식부(40)는 데이터베이스(50)의 음성학적 정보와 상기 특징벡터 추출부(30)에서 출력되는 음성 특징벡터와의 비교를 통해 인식 결과를 출력한다. 상기 음성 특징벡터는 유사도 측정 및 인식과정을 거치게 되는데, 유사도 측정 및 인식을 위해서는 음서의 신호학적인 특성을 모델링하여 비교하는 음향모델(Acoustic Model, 51)과 인식어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어모델(Language Model, 52)이 사용될 수 있다.

예컨대, 음성 인식부(40)는 일정한 간격에서 단위 구간(음성 세그먼트 또는 프레임)마다 추출한 적어도 하나 이상의 특징벡터들에 대해, 은닉 마르코프 모델(HMM)에 기반한 출력 확률을 계산하고, 상기 출력 확률 값에 기초하여 HMM들의 모든 상태에 대해 전향 확률 값 등의 필요한 정보를 계산하면서, 최적의 인식경로를 탐색한다.

음성 인식부(40)에서 최적의 인식경로의 탐색 과정은 음성신호의 첫 번째 프레임부터 마지막 프레임까지 진행되며, 마지막 프레임에서 선택된 최적노드를 기준으로 음성신호의 첫 번째 프레임까지 최적 경로를 역추적하면서 최적의 음성인식 결과를 출력한다.

한편, 본 발명의 실시예에 따른 음성인식 장치는 음성인식 과정 중, 중간 결과를 실시간으로 제공한다는 점에서 특징이 있다. 이를 위해, 상기 음성 인식부(40)에서 연산된, 음성신호의 첫 번째 프레임부터 현재 프레임까지의 각 특징벡터에 대해 HMM의 각 상태에서의 출력 확률 값과, 최적경로를 탐색하는 과정에서 상기 각 상태의 출력 확률 값이 누적된 결과인 전향 확률 값, 그 결과 탐색된 최적경로에서 활성화된 활성노드에 관한 정보, 역추적 과정에서 각 프레임의 최적노드 정보 등이 별도로 마련된 데이터 저장부에(60) 저장된다.

여기서, 상기 최적노드 정보는 해당 프레임에서 선택된 최적노드에 관한 정보뿐만 아니라, 탐색된 최적경로를 구성하는 이전 프레임에서 선택된 이전 최적노드에 관한 정보와, 역추적 시간 정보를 포함한다.

상기 음성 인식부(40)는 상기 데이터 저장부(60)에 저장된 정보들을 이용하여 일정시간을 간격으로 현재 프레임에서 역추적을 수행하여 중간인식 결과를 출력한다.

상기와 같은 역할을 수행하는 음성 인식부(40)의 구체적인 구성에 대해 도 2를 참조하여 상세히 설명하기로 한다.

도 2를 참조하면, 음성 인식부(40)는 확률연산부(41), 경로누적부(42), 경로갱신부(43), 노드갱신부(44), 최적노드추적부(45) 및 실시간추적부(46)를 포함한다.

확률연산부(41)는 음성신호의 일정한 간격에서 단위 구간(음성 세그먼트 또는 프레임)마다 추출한 특징벡터에서 HMM의 각 상태에서의 출력 확률 값을 계산한다.

예컨대, 도 4에서 X축은 음성 프레임마다 추출한 T개의 특징벡터들을 의미하고, Y축은 N개의 음소(phoneme)들에 대한 HMM들을 나타낸 것으로, 각각의 음소는 3개의 상태(state)로 구성된다. 각각의 상태는 혼합 밀도 함수(Gaussian mixture density function)를 모델링하고 있으며, 예를 들어 특징벡터

의 HMM의 상태

에서의 출력 확률 값

은 수학식 1과 같이 표현할 수 있다.

[수학식 1]

위 수학식 1에서 M은 가우시안 분포의 개수를 의미하며, N은 일반적인 가우시안 분포 함수를 의미한다.

경로누적부(42)는 음성신호의 첫 번째 프레임부터 마지막 프레임까지 하나의프레임식(혹은 하나의 특징벡터 별로) 상기 확률연산부(41)에서 출력되는 출력 확률 값을 누적하여 HMM들의 모든 상태에 대해 전향 확률 값을 연산한다.

예컨대, 도 4에서 경로누적은 X축 상의 왼쪽에서 오른쪽 방향으로 하나의 프레임식(혹은 하나의 특징 벡터)로 진행되며, Y축에 표현된 모든 HMM들의 모든 상태에 대해 전향 확률 값을 계산한다. 예를 들어, t번째 프레임에서 음소 p에 대한 j번째 HMM 상태의 전향 확률 값

는 수학식 2와 같이 계산된다.

[수학식 2]

하지만, 이렇게 계산된 경로들의 전향 확률 값은 매우 많이 존재하기 때문에 일정 신호레벨 이하의 값을 갖는 경로들을 삭제함으로써 계산의 효율성을 높이는데, 이러한 프로세스는 상기 경로갱신부(43)에서 수행된다.

예를 들어, 도 4의 노드(401)는 4번째 프레임에서 음소 2의 마지막 상태에서의

을 계산하고, 이 값(p=2, j=3, t=4)은 데이터 저장부(60)에 저장된다.

노드(401)는 이전 프레임에서 음소 2의 상태 2번 노드(402) 또는 상태 3번 노드(403)에서 천이하였으며, 탐색 경로의 역추적을 위해서 이전 프레임의 노드들 중에서 현재 노드까지의 최적 경로는 상기 경로갱신부(43)에서 수학식 3과 같이 계산하여 그 값을 데이터 저장부(60)에 저장한다.

[수학식 3]

상기 노드갱신부(44)는 상기 경로갱신부(43)에서 계산된 최적 경로 정보를 이용하여, 상기 최적 경로 정보에 포함된 노드를 활성 노드로 선택한다.

전술한 출력확률 값 계산, 전향 확률 값 계산 및 최적경로 계산 과정은 음성신호의 마지막 프레임까지 진행되고, 각 프레임에서 계산된 출력확률 값, 전향 확률 값 및 최적경로 정보는 데이터 저장부(60)에 저장된다.

상기 최적노드추적부(45)는 음성신호의 마지막 프레임까지 계산된 전향 확률 값 및 최적경로 정보를 이용하여 역추적을 진행하여 음성인식 결과를 출력한다. 이 때, 상기 최적노드추적부(45)는 상기 노드갱신부(44)에서 활성된 노드에 대해서 역추적 과정에서 선택된 최적노드에 관한 정보뿐만 아니라, 탐색된 최적경로를 구성하는 이전 프레임에서 선택된 이전 최적노드에 관한 정보와, 역추적 시간 정보를 데이터 저장부(60)에 저장한다.

따라서, 데이터 저장부(60)에는 모든 활성노드 각각에 대해 역추적 과정에서 선택된 이전 최적노드에 관한 정보 및 역추적 시간에 관한 정보가 저장된다. 예컨대, t 프레임에 활성노드가 a,b,c 3개라고 가장한다면, 데이터 저장부(60)에는 활성노드 a,b,c 각각에 대해 출력 확률 값이 누적된 전향 확률 값(a1,b1,c1)이 저장되고, 각 활성노드 별로 역추적 과정에서 선택된 이전 최적노드에 관한 정보(예컨대, a에 대해서는 n1, b에 대해서는 n2, c에 대해서는 n3) 및 각각의 역추적 시간(t1,t2,t3)이 저장된다.

실시간추적부(46)는 상기 데이터 저장부(60)에 저장된 이전 최적노드에 관한 정보 및 역추적 시간을 이용하여 음성인식의 중간결과를 제공한다. 예컨대, 실시간추적부(46)는 현재 프레임의 활성노드 중에서 전향 확률 값을 이용하여 최적노드를 선정한다. 이 경우, 현재 프레임의 활성노드 중에서 전향 확률 값이 최대가 되는 노드들이 최적노드로 선택될 수 있다. 전향 확률 값이 최대가 되는 활성노드는 단수로 존재할 수 있고, 혹은 복수로 존재할 수도 있다. 동일한 최대 값을 갖는 활성노드가 복수인 경우에는 복수의 활성노드가 최적노드로 선정된다.

각각의 활성노드에 대해 데이터 저장부(60)에는 이전 최적노드에 관한 정보와 역추적 시간이 저장되어 있는데, 실시간추적부(46)는 이 정보를 이용하여 음성인식 도중에 실시간 역추적을 수행한다. 이와 같은 역추적을 현재 프레임부터 첫 번째 프레임까지 수행하면, 현재 프레임에서 선택된 최적노드를 기준으로 음성인식의 중간 결과를 확인할 수 있게 된다.

하지만, 현재 프레임에서 선택된 최적노드는 복수 개가 존재할 수 있기 때문에 각각의 최적노드에 대해서 상기와 같은 역추적을 수행하여야 하며, 이와 같은 반복 동작을 수행한 결과, 상이한 음성인식 결과가 돌출될 수 있다.

실시간으로 음성인식 중간결과를 제공하는데 있어서, 복수개의 음성인식 중간결과가 제공되는 것은 바람직하지 않으므로, 복수개의 음성인식 중간 결과들 중에서 최적의 중간결과를 선택하는 것이 바람직하고, 본 발명의 실시예에서는 최적의 중간결과를 선택할 수 있는 발명적 사상을 제공하는데 그 특징이 있다.

일 실시예로서, 최적노드를 역추적할 때 전향 확률 값의 크기를 기반으로 함으로써, 역추적 과정에서 상이한 중간 결과가 나오는 경우에는 전향 확률 값을 누적한 결과를 비교하여 중간 결과를 선택하는 방안이 있다.

예컨대, 현재 프레임의 활성노드 중에서 선택된 최적노드가 N1,N2,N3이고, 각 노드에 대해 저장된 전향 확률 값이 n1,n2,n3이고, 각 최적노드에 대한 이전 최적노드가 M1,M2,M3, 이들에 대한 전향 확률 값이 m1,m2,,m3라고 가정하자.

만약, M1,M2,M3가 동일한 노드(M)라면, 실시간추적부(46)는 노드 M을 이용한 중간인식 결과를 출력한다.

이와는 달리, M1,M2,M3가 상이한 경우에는, 실시간추적부(46)는 n1+m1, n2+m2, n3+m3를 계산하고, 이를 기 설정된 임의의 문턱 값과 비교하여 문턱 값을 넘지 못하는 경로를 제거할 수 있다.

다른 실시예로서, 최적노드를 역추적할 때, 제한된 크기의 전향 확률 값을 가지는 최적노드를 선택함으로써 역추적에 소요되는 자원을 효과적으로 사용할 수 있다.

만약, 전향 확률 값 m1, m2는 기 설정된 임의의 문턱 값을 초과하는데 비해, 전향 확률 값 m3는 상기 문턱 값을 초과하지 않는다면, 이전 최적노드 n3를 제거함으로써, 다음 이전 최적노드를 역추적할 때, N1-M1, N2-M2 경로만을 역추적 경로에 포함시킨다.

다른 한편으로, 최적노드를 역추적할 때, 각 프레임의 활성노드에 대해 저장된 역추적 시간을 활용하여 이전 최적노드를 제한적으로 설정할 수 있다.

예컨대, 일정 시간 범위 내에 포함되는 역추적 시간은 하나의 그룹으로 묶어서 하나의 시간으로 설정하여 역추적을 수행할 수 있다.

예컨대, 현재 프레임의 활성노드 중에서 선택된 최적노드가 N1,N2,N3이고, 각 노드에 대해 저장된 전향 확률 값이 n1,n2,n3이고, 각 노드에 저장된 역추적 시간이 t1,t2,t3라고 가정하자.

상기 가정에서, 역추적 시간 t1,t2는 일정한 시간 범위(t) 내의 값이고, 역추적 시간 t3는 시간 범위(t)를 벗어난 값이라고 한다면, 각 최적노드에 대한 이전 최적노드가 동일한 노드(M)라고 하더라도, 노드의 deletion이 발생한 경우일 수 있으므로, M을 이용한 음성인식의 중간결과를 출력하는 것은 바람직하지 않다.

따라서, 상이한 최적노드에서 역추적을 수행하면서 중간 과정에 동일한 이전 최적노드가 탐색되었을 경우에는, 역추적 시간을 이용하여 그룹을 만들 수 있다. 즉, 이전 가정에서, 역추적 시간 t1, t2는 일정한 시간 범위(t) 내의 값이므로 이를 하나의 그룹으로 묶고, 역추적 시간 t3는 일정한 시간 범위(t) 밖의 값이므로 이를 다른 그룹으로 만들 수 있다.

노드 M의 전향 확률 값을 m이라고 한다면, 각 그룹의 전향 확률 값의 누적 값은 아래 수학식 4와 같이 계산된다. 그리고, 실시간추적부(46)는 아래 수학식 4와 같은 전향 확률 값의 누적 값을 이용하여 역추적 경로를 설정한다.

[수학식 4]

H1: n1+m+n2+m

H2: n3+m

이와 같이 구성된 본 발명에 따른 음성인식 장치의 동작과 상응하는 본 발명의 실시예에 따른 연속어 음성인식에서 실시간 역추적 방법에 대하여 단계적으로 설명하기로 한다.

도 3은 본 발명의 실시예에 따른 음성인식 방법을 설명하기 위한 흐름도이다.

도 3을 참조하면, 음성 수신부(10)는 마이크 등을 통해 사용자에 의해 입력된 음성신호를 구간 구분부(20)로 전달한다(S10).

그리고, 구간 구분부(20)는 입력된 음성신호를 특정 단위의 복수 구간으로 구분한다(S20). 예컨대, 음성신호는 세그먼트 단위로 구분될 수 있다. 음성신호의 세그먼트는 수십 밀리초 길이의 음성 프레임(speech frame)이거나 또는 더 긴 구간에 대한 세그먼트일 수 있다.

이어, 특징벡터 추출부(30)는 상기 구간 구분부(20)에서 구분된 음성신호 세그먼트에 해당하는 특징을 벡터 형태로 추출한다(S30).

단계 S30에서 추출된 음성 신호의 특징 벡터를 이용하여 음성 인식부(40)는 인식 결과를 출력한다(S40).

음성인식을 수행하는데 있어서, 음성 인식부(40)는 음성인식 과정 중, 중간 결과를 실시간으로 제공한다는 점에서 특징이 있다.

이를 위해, 상기 음성 인식부(40)는 음성신호의 첫 번째 프레임부터 현재 프레임까지의 각 특징벡터에 대해 HMM의 각 상태에서의 출력 확률 값을 연산하고, 이를 데이터 저장부(60)에 저장한다(S41).

이어, 음성 인식부(40)는 음성신호의 첫 번째 프레임부터 마지막 프레임까지 하나의 프레임식(혹은 하나의 특징벡터 별로) 상기 단계 S41에서 출력되는 출력 확률 값을 누적하여 HMM들의 모든 상태에 대해 전향 확률 값을 연산하고 이를 데이터 저장부(60)에 저장한다(S42).

그리고, 음성 인식부(40)는 탐색 경로의 역추적을 위해서 이전 프레임의 노드들 중에서 현재 노드까지의 최적 경로를 계산하고, 계산된 최적 경로 정보를 이용하여, 상기 최적 경로 정보에 포함된 노드를 활성 노드로 선택한다(S43).

이어, 음성 인식부(40)는 음성신호의 현재 프레임까지 계산된 전향 확률 값 및 최적경로 정보를 이용하여 역추적을 진행하여(즉, 활성된 노드에 대해서 역추적을 진행), 이 과정에서 선택된 최적노드에 관한 정보뿐만 아니라, 탐색된 최적경로를 구성하는 이전 프레임에서 선택된 이전 최적노드에 관한 정보와, 역추적 시간 정보를 데이터 저장부(60)에 저장한다(S44).

이후, 음성 인식부(40)는 상기 데이터 저장부(60)에 저장된 이전 최적노드에 관한 정보 및 역추적 시간을 이용하여 음성인식의 중간결과를 제공한다(S45).

한편, 본 발명의 실시예에 따른 연속어 음성인식에서 실시간 역추적 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 도 5에 도시된 바와 같이, 컴퓨터 시스템은 적어도 하나 이상의 프로세서(121)와, 메모리(123)와, 사용자 입력 장치(126)와, 데이터 통신 버스(122)와, 사용자 출력 장치(127)와, 저장소(128)를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스(122)를 통해 데이터 통신을 한다.

컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스(129)를 더 포함할 수 있다. 상기 프로세서(121)는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리(123) 및/또는 저장소(128)에 저장된 명령어를 처리하는 반도체 장치일 수 있다.

상기 메모리(123) 및 상기 저장소(128)는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 상기 메모리(123)는 ROM(124) 및 RAM(125)을 포함할 수 있다.

따라서, 본 발명의 실시예에 따른 연속어 음성인식에서 실시간 역추적 방법 은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 연속어 음성인식에서 실시간 역추적 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 인식 방법을 수행할 수 있다.

한편, 상술한 본 발명에 따른 연속어 음성인식에서 실시간 역추적 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

(a) 입력된 음성신호를 특정 단위의 복수 구간으로 구분하는 단계와;
(b) 구분된 복수 구간 별로 특징 벡터를 추출하는 단계와;
(c) 상기 음성신호의 첫 번째 구간부터 현재 구간까지의 각 특징벡터에 대해 HMM의 각 상태에서의 출력 확률 값을 누적하여 활성노드를 선택하는 단계와;
(d) 상기 활성노드에 대한 역추적 과정에서 음성인식을 위한 최적노드를 선택하고, 상기 최적노드에 관한 정보 및, 상기 최적노드를 포함하는 최적경로를 구성하는 이전 구간에서 선택된 이전 최적노드에 관한 정보와, 역추적 시간 정보를 산출하는 단계와; 및
(e) 상기 최적노드에 관한 정보, 상기 이전 최적노드에 관한 정보 및 상기 역추적 시간 정보를 이용하여 음성인식의 중간결과를 출력하는 단계
를 포함하는 음성인식 장치에서 연속어 음성인식의 실시간 역추적 방법.
제1항에 있어서, 상기 (c) 단계는,
k번째 음성구간의 특징벡터 의 HMM의 상태 에서의 출력 확률 값 을 연산하고, 첫 번째 음성구간의 출력 확률 값부터 k번째 음성구간의 출력 확률 값까지를 누적하여 k번째 음성구간에서 음소 p에 대한 j번째 HMM 상태의 전향 확률 값 를 연산하는 단계를 포함하는 것
인 음성인식 장치에서 연속어 음성인식의 실시간 역추적 방법.
제1항에 있어서, 상기 (e) 단계는,
음성인식의 현재 음성구간의 활성노드 중에서 전향 확률 값을 이용하여 최적노드를 선정하는 단계를 포함하는 것
인 음성인식 장치에서 연속어 음성인식의 실시간 역추적 방법.
제3항에 있어서, 상기 (e) 단계는,
상기 선정된 최적노드를 기준으로 역추적을 수행하여 음성인식의 중간결과를 출력하는 단계를 포함하되,
상기 선정된 최적노드의 전향 확률 값과, 상기 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과를 비교하여 음성인식의 중간결과를 선택하는 단계를 포함하는 것
인 음성인식 장치에서 연속어 음성인식의 실시간 역추적 방법.
제3항에 있어서, 상기 (e) 단계는,
상기 선정된 최적노드를 기준으로 역추적을 수행하여 음성인식의 중간결과를 출력하는 단계를 포함하되,
상기 선정된 최적노드의 전향 확률 값과, 상기 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과를 기 설정된 문턱 값과 비교하고,
비교 결과, 상기 기 설정된 문턱 값을 넘지 않는 역추적 경로는 삭제하는 단계를 포함하는 것
인 음성인식 장치에서 연속어 음성인식의 실시간 역추적 방법.
제3항에 있어서, 상기 (e) 단계는,
상기 선정된 최적노드를 기준으로 역추적을 수행하여 음성인식의 중간결과를 출력하는 단계를 포함하되,
상기 선정된 최적노드의 이전 최적 노드의 전향 확률 값을 기 설정된 문턱 값과 비교하고,
비교 결과, 상기 기 설정된 문턱 값을 넘지 않는 역추적 경로는 삭제하는 단계를 포함하는 것
인 음성인식 장치에서 연속어 음성인식의 실시간 역추적 방법.
제1항에 있어서, 상기 (e) 단계는,
음성인식의 현재 음성구간의 활성노드 중에서 전향 확률 값을 이용하여 최적노드를 선정하는 단계와,
상기 선정된 최적노드를 기준으로 역추적을 수행하여 음성인식의 중간결과를 출력하는 단계를 포함하되,
상기 선정된 복수 최적노드의 전향 확률 값과, 각각의 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과가 동일한 경우, 각각의 최적노드에서 이전 최적노드로 역추적 과정에서 걸린 역추적 시간을 이용하여 이전 최적노드를 제한적으로 설정하는 단계를 포함하는 것
인 인식 장치에서 연속어 음성인식의 실시간 역추적 방법.
입력된 음성신호를 특정 단위의 복수 구간으로 구분하는 구간 구분부;
구분된 음성구간에 해당하는 특징을 벡터 형태로 추출하는 특징벡터 추출부;
상기 음성신호의 첫 번째 구간부터 현재 현재 구간까지의 각 특징벡터에 대해 HMM의 각 상태에서의 출력 확률 값을 연산하는 확률연산부;
음성신호의 첫 번째 구간부터 현재 구간까지 출력되는 출력 확률 값을 누적하여 HMM들의 모든 상태에 대해 전향 확률 값을 연산하는 경로누적부;
탐색 경로의 역추적을 위해서 상기 전향 확률 값을 이용하여 이전 구간의 노드들 중에서 현재 노드까지의 최적 경로를 선정하는 경로갱신부;
선정된 최적 경로 상에 포함되어 있는 노드를 활성 노드로 선정하는 노드갱신부;
선정된 활성 노드에 대한 역추적 과정에서 음성인식을 위한 최적노드를 선택하고, 상기 최적노드에 관한 정보 및, 상기 최적노드를 포함하는 최적경로를 구성하는 이전 구간에서 선택된 이전 최적노드에 관한 정보와, 역추적 시간 정보를 산출하는, 최적노드추적부;
상기 최적노드에 관한 정보, 상기 이전 최적노드에 관한 정보 및 상기 역추적 시간 정보를 저장하는 데이터 저장부; 및
상기 최적노드에 관한 정보, 상기 이전 최적노드에 관한 정보 및 상기 역추적 시간 정보를 이용하여 음성인식의 중간결과를 출력하는 실시간추적부
를 포함하는 음성인식 장치.
제8항에 있어서, 상기 실시간 추적부는,
음성인식의 현재 음성구간의 활성노드 중에서 전향 확률 값을 이용하여 최적노드를 선정하고, 상기 선정된 최적노드를 기준으로 역추적을 수행하여 음성인식의 중간결과를 출력하는 것
인 음성인식 장치.
제9항에 있어서, 상기 실시간 추적부는,
상기 선정된 최적노드의 전향 확률 값과, 상기 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과를 비교하여 음성인식의 중간결과를 선택하는 것
인 음성인식 장치.
제9항에 있어서, 상기 실시간 추적부는,
상기 선정된 최적노드의 전향 확률 값과, 상기 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과를 기 설정된 문턱 값과 비교하고,
비교 결과, 상기 기 설정된 문턱 값을 넘지 않는 역추적 경로는 삭제하는 것
인 음성인식 장치.
제9항에 있어서, 상기 실시간 추적부는,
상기 선정된 최적노드의 이전 최적 노드의 전향 확률 값을 기 설정된 문턱 값과 비교하고, 비교 결과, 상기 기 설정된 문턱 값을 넘지 않는 역추적 경로는 삭제하는 것
인 음성인식 장치.
제9항에 있어서, 상기 실시간 추적부는,
상기 선정된 복수 최적노드의 전향 확률 값과, 각각의 최적노드에 대한 이전 최적노드의 전향 확률 값을 누적한 결과가 동일한 경우, 각각의 최적노드에서 이전 최적노드로 역추적 과정에서 걸린 역추적 시간을 이용하여 이전 최적노드를 제한적으로 설정하는 것
인 음성인식 장치.