KR101624926B1

KR101624926B1 - 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법

Info

Publication number: KR101624926B1
Application number: KR1020140182745A
Authority: KR
Inventors: 김남수; 강신재; 이강현
Original assignee: 서울대학교산학협력단
Priority date: 2014-12-17
Filing date: 2014-12-17
Publication date: 2016-05-27

Abstract

본 발명은 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 관한 것으로서, 보다 구체적으로는 (1) 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 학습하는 단계; (2) 테스트 데이터를 상기 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계; 및 (3) 상기 단계 (2)에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 따르면, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습함으로써, 잡음과 깨끗한 음성과의 관계를 자동으로 학습할 수 있으며, 학습된 딥 뉴럴 네트워크에 테스트 데이터를 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하고, 이를 이용해 음성 인식 결과를 도출함으로써, 어떤 잡음에서도 정확한 특징 보상이 이루어질 수 있고, 이를 통해 향상된 음성 인식 결과를 얻을 수 있다.
또한, 본 발명에 따르면, 특징 벡터 또는 스테이트 사후 확률에 대하여 딥 뉴럴 네트워크를 학습하고, 학습된 딥 뉴럴 네트워크를 통해 보상된 특징 벡터 또는 스테이트 사후 확률을 얻을 수 있으므로, 디코더의 종류에 따라 다양한 방식으로 음성 인식에 적용될 수 있다.

Description

딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법{SPEECH RECOGNITION METHOD USING FEATURE COMPENSATION BASED ON DEEP NEURAL NETWORK}

본 발명은 음성 인식 방법에 관한 것으로서, 보다 구체적으로는 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 관한 것이다.

최근 스마트폰, 태블릿 PC, 스마트 TV 등의 스마트 디바이스들은 현대인의 생활에 필수품이 되어가고 있다. 스마트 디바이스가 가지는 특징이자 최고의 장점은 사용자가 원하는 정보 혹은 콘텐츠를 빠르고 편리하게 제공해 줄 수 있다는 것이다. 이에 따라 이러한 서비스의 편의성을 더욱 강화시키기 위하여 디바이스들의 입력 방식으로 음성을 활용하는 경우가 많아지고 있다. 이에 대한 예로는 애플사에서 서비스하고 있는 개인 비서 어플리케이션 Siri, 구글 사에서 서비스하는 같은 종류의 어플리케이션인 Now 등이 있다. 더 나아가 가까운 미래에는 홈 네트워크 기술과 접목하여 다양한 디바이스와 다양한 환경에서의 음성 입력 및 이해 기술이 적용될 것이다.

한편, 위에서 언급한 기술들이 실생활에 활용되기 위해서는 아직 해결해야 할 기술적인 제약이 존재한다. 스마트 디바이스가 사용되는 환경의 특성상 디바이스와 일정 거리를 두고 음성인식을 이용해야 하는 경우는 주변 잡음에 비해 음성 신호의 크기가 작다. 특히, 닫힌 공간의 경우는 음성 신호가 주변의 벽, 물체 등의 반사에 의한 반향의 영향을 받아 인식 성능이 많이 떨어질 수 있어 이를 해결 할 수 있는 보상 기술이 필요하다.

종래의 특징 보상 기법들은 잡음과 깨끗한 음성과의 관계를 인위적인 가정과 근사들을 사용하여 접근하였다. 하지만 실제 잡음과 음성은 매우 복잡한 비선형 관계를 갖기 때문에 이를 근사화 하는 과정에서 오차가 발생하게 되고 이는 기존 특징 보상 기법들의 성능을 저하시키는 요인이 되었다. 따라서 이러한 성능 저하를 극복하고, 효과적으로 음성 인식을 하기 위한 기술의 개발이 필요하다.

한편, 본 발명의 관련된 선행기술로서, 공개특허 제10-2012-0021428호(발명의 명칭: 비음수 행렬 인수분해 기반의 음성 검출 방법, 공개일: 2012년 03월 09일), 공개특허 제10-1994-7001116호(발명의 명칭: 뉴럴(neural) 네트워크를 이용한 음성인식장치 및 그 학습방법, 공개일: 1994년 04월 22일) 등이 공개된 바 있다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습함으로써, 잡음과 깨끗한 음성과의 관계를 자동으로 학습할 수 있으며, 학습된 딥 뉴럴 네트워크에 테스트 데이터를 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하고, 이를 이용해 음성 인식 결과를 도출함으로써, 어떤 잡음에서도 정확한 특징 보상이 이루어질 수 있고, 이를 통해 향상된 음성 인식 결과를 얻을 수 있는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법을 제공하는 것을 그 목적으로 한다.

또한, 본 발명은, 특징 벡터 또는 스테이트 사후 확률에 대하여 딥 뉴럴 네트워크를 학습하고, 학습된 딥 뉴럴 네트워크를 통해 보상된 특징 벡터 또는 스테이트 사후 확률을 얻을 수 있으므로, 디코더의 종류에 따라 다양한 방식으로 음성 인식에 적용될 수 있는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법을 제공하는 것을 또 다른 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법은,

(1) 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 학습하는 단계;

(2) 테스트 데이터를 상기 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계; 및

(3) 상기 단계 (2)에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계 (1)은,

(1-1) 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계;

(1-2) 상기 학습 데이터로부터 왜곡된 특징 벡터를 추출하고, 상기 추출된 왜곡된 특징 벡터로부터 환경 파라미터를 추출하는 단계; 및

(1-3) 상기 왜곡된 특징 벡터 및 환경 파라미터를 이용해 딥 뉴럴 네트워크를 학습하는 단계를 포함할 수 있다.

더욱 바람직하게는, 상기 단계 (1-3) 이전에는,

상기 단계 (1-2)에서 추출된 왜곡된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계를 더 포함하며,

상기 단계 (1-3)에서는, 상기 슈퍼 벡터를 입력으로 하여 상기 딥 뉴럴 네트워크를 학습할 수 있다.

더욱 바람직하게는, 상기 단계 (1-3) 이전에는,

상기 깨끗한 음성으로부터 특징 벡터를 추출하는 단계를 더 포함하며,

상기 단계 (1-3)에서는, 상기 추출된 특징 벡터를 출력으로 하여 상기 딥 뉴럴 네트워크를 학습할 수 있다.

더욱 바람직하게는, 상기 단계 (1-3) 이전에는,

상기 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계를 더 포함하며,

상기 단계 (1-3)에서는, 상기 도출된 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 출력으로 하여 상기 딥 뉴럴 네트워크를 학습할 수 있다.

바람직하게는, 상기 단계 (2)는,

(2-1) 테스트 데이터에서 특징 벡터를 추출하고, 상기 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계;

(2-2) 상기 단계 (2-1)에서 추출된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계; 및

(2-3) 상기 생성한 슈퍼 벡터를 상기 단계 (1)에서 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계를 포함할 수 있다.

바람직하게는, 상기 단계 (3)에서는,

음향 모델을 기반으로 하는 디코더를 통하여, 음성 인식 결과를 도출할 수 있다.

본 발명에서 제안하고 있는 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 따르면, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습함으로써, 잡음과 깨끗한 음성과의 관계를 자동으로 학습할 수 있으며, 학습된 딥 뉴럴 네트워크에 테스트 데이터를 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하고, 이를 이용해 음성 인식 결과를 도출함으로써, 어떤 잡음에서도 정확한 특징 보상이 이루어질 수 있고, 이를 통해 향상된 음성 인식 결과를 얻을 수 있다.

또한, 본 발명에 따르면, 특징 벡터 또는 스테이트 사후 확률에 대하여 딥 뉴럴 네트워크를 학습하고, 학습된 딥 뉴럴 네트워크를 통해 보상된 특징 벡터 또는 스테이트 사후 확률을 얻을 수 있으므로, 디코더의 종류에 따라 다양한 방식으로 음성 인식에 적용될 수 있다.

도 1은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 사용되는 딥 뉴럴 네트워크의 구조를 도시한 도면.
도 3은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도식화한 도면.
도 4는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 딥 뉴럴 네트워크의 학습을 위한 출력을 도출하는 과정을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

도 1은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법은, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습하는 단계(S100), 테스트 데이터를 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계(S200) 및 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해 음성 인식 결과를 도출하는 단계(S300)를 포함하여 구현될 수 있다.

즉, 본 발명은, 매우 복잡한 비선형성을 갖는 잡음과 음성의 관계를 인위적으로 근사화하지 않고, 비선형 기계학습 모델인 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 이용해 잡음과 음성의 관계를 학습하도록 함으로써, 근사화 과정에서 발생하는 오차를 제거하고 보다 정확한 음성 인식이 가능하도록 할 수 있다. 이하에서는, 도 2를 참조하여 본 발명에서 사용되는 딥 뉴럴 네트워크에 대해서 상세히 설명하도록 한다.

도 2는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 사용되는 딥 뉴럴 네트워크의 구조를 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명에서 사용되는 딥 뉴럴 네트워크는, 기계학습 모델 중 하나로서 입력 계층, 은닉 계층 및 출력 계층의 총 세 부분으로 구성될 수 있으며, 각 계층은 다수의 노드를 포함할 수 있다. 각 계층 간의 노드들은 가중치를 통해 연결될 수 있으며, 계층내의 노드끼리는 연결선이 없는 구조를 가질 수 있다. 은닉 계층에서의 각 노드들은 입력 계층에 대해서 조건적 독립의 구조를 가질 수 있다.

딥 뉴럴 네트워크를 학습한다는 것은, 입력과 출력이 정해지고 나면 각 계층 사이의 가중치와 바이어스를 학습하여 딥 뉴럴 네트워크의 구조가 입력과 출력 사이의 비선형적인 관계를 잘 나타낼 수 있도록 하는 것이다. 딥 뉴럴 네트워크의 학습 과정은, 사전학습을 통하여 초기 값을 구하는 단계와 파인 튜닝을 통해 각 파라미터들을 추정하는 단계로 나뉘어 실행될 수 있다.

딥 뉴럴 네트워크의 학습은 매 프레임마다 도 2에 도시된 바와 같은 구조에 해당하는 연산을 수행함으로써 처리될 수 있다. 도 2에서 V는 입력 벡터, W_i는 각 계층에서의 가중치 행렬, b_i는 각 계층에 더해지는 바이어스 벡터를 나타낸다. 먼저, 입력 계층에서는 다음 수학식 1에 의해 연산이 수행될 수 있다.

다음으로, 은닉 계층에서는 다음 수학식 2에 의해 연산이 수행될 수 있다.

마지막으로, 출력 계층에서는 다음 수학식 3이 처리될 수 있다

수학식 1 내지 3에서, y는 출력 벡터이며, O는 최종적으로 얻어지는 출력 벡터를 의미한다. 또한, sigmoid 및 softmax는 각각 다음 수학식 4 및 수학식 5와 같다.

도 3은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도식화한 도면이다. 이하에서는, 도 1 및 도 3을 참조하여 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름에 대하여 상세히 설명하도록 한다.

단계 S100에서는, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습할 수 있다. 학습 데이터는 잡음 등으로 왜곡된 음성에 해당하며, 단계 S100을 통해 잡음에 의해 왜곡된 음성과 깨끗한 음성 사이의 관계를 학습할 수 있다.

도 4는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 단계 S100은, 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계(S110), 학습 데이터로부터 왜곡된 특징 벡터 및 환경 파라미터를 추출하는 단계(S120) 및 딥 뉴럴 네트워크를 학습하는 단계(S130)를 포함하여 구현될 수 있으며, 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계(S125)를 더 포함하여 구현될 수 있다.

단계 S110에서는, 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성할 수 있다. 단계 S110에서는, 다양한 잡음을 혼합함으로써 복수의 학습 데이터를 생성할 수 있다. 생성된 학습 데이터는, 도 3에 표시된 왜곡된 음성에 해당하는 것으로서, 딥 뉴럴 네트워크의 입력이 될 수 있다.

단계 S120에서는, 학습 데이터로부터 왜곡된 특징 벡터를 추출하고, 추출된 왜곡된 특징 벡터로부터 환경 파라미터를 추출할 수 있다. 즉, 사전 학습을 통해 왜곡된 특징 벡터를 추출할 수 있으며, 추출된 왜곡된 특징 벡터를 이용해 파인 튜닝을 하여 환경 파라미터를 추정할 수 있다.

단계 S125에서는, 단계 S120에서 추출된 왜곡된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성할 수 있다. 즉, 추출된 왜곡된 특징 벡터와 환경 파라미터를 딥 뉴럴 네트워크의 입력으로 사용하기 위하여, 슈퍼 벡터를 생성할 수 있으며, 슈퍼 벡터는 각 벡터들을 연결하여 구할 수 있다.

단계 S130에서는, 왜곡된 특징 벡터 및 환경 파라미터를 이용해 딥 뉴럴 네트워크를 학습할 수 있다. 즉, 단계 S130에서는, 단계 S125에서 생성된 슈퍼 벡터를 입력으로 하여 딥 뉴럴 네트워크를 학습할 수 있다.

도 3에 도시된 바와 같이, 딥 뉴럴 네트워크의 학습에서는, 왜곡된 음성으로부터 추출된 정보를 입력으로 하고, 깨끗한 음성으로부터 추출된 정보를 출력으로 하여 학습을 진행할 수 있다. 출력은 음성 인식 목적이나 디코더의 종류에 따라 특징 벡터 또는 스테이트 사후 확률이 사용될 수 있다. 이하에서는, 이와 같은 딥 뉴럴 네트워크의 학습을 위한 출력 정보를 획득하는 과정에 대하여 도 5를 참조하여 상세히 설명하도록 한다.

도 5는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 딥 뉴럴 네트워크의 학습을 위한 출력을 도출하는 과정을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서는, 딥 뉴럴 네트워크의 학습 목적 또는 디코더의 종류에 따라, 깨끗한 음성으로부터 특징 벡터를 추출하는 단계(S126) 또는 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계(S127)를 더 포함하여 구현될 수 있다.

단계 S126에서는, 깨끗한 음성으로부터 특징 벡터를 추출할 수 있다. 단계 S126은 딥 뉴럴 네트워크를 이용하는 목적이 보상된 특징 벡터를 얻어내는 것일 때에 수행될 수 있다. 단계 S126의 특징 벡터 추출 방법은, 단계 S120에서 학습 데이터로부터 왜곡된 특징 벡터를 추출하는 방법과 동일한 프로세스에 의해 처리될 수 있다. 단계 S130에서는, 단계 S125에서 생성한 슈퍼 벡터를 입력으로 하고, 추출된 특징 벡터를 출력으로 하여 딥 뉴럴 네트워크를 학습할 수 있다.

단계 S127에서는, 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출할 수 있다. 단계 S127은 딥 뉴럴 네트워크를 이용하는 목적이 현재 프레임의 특징 벡터에 대한 음향모델의 스테이트 사후확률을 구하는 것일 때에 수행될 수 있다. 단계 S130에서는, 단계 S125에서 생성한 슈퍼 벡터를 입력으로 하고, 단계 S127에서 도출된 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 출력으로 하여 딥 뉴럴 네트워크를 학습할 수 있다.

단계 S200에서는, 테스트 데이터를 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출할 수 있다. 여기에서, 도 3에 표시된 단계 S200에서 입력으로 사용되는 왜곡된 음성은, 실제 음성 인식을 위한 테스트 데이터일 수 있다. 즉, 잡음을 제거하고 음성 인식을 하기 위한 테스트 데이터를 단계 S100에서 학습된 딥 뉴럴 네트워크에 적용하여, 음성 인식을 할 수 있다. 이하에서는, 도 6을 참조하여 단계 S200의 세부적인 구성에 대해 상세히 설명하도록 한다.

도 6은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 단계 S200은, 테스트 데이터에서 특징 벡터를 추출하고, 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계(S210), 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계(S220) 및 슈퍼 벡터를 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계(S230)를 포함하여 구현될 수 있다.

단계 S210에서는, 테스트 데이터에서 특징 벡터를 추출하고, 추출된 특징 벡터로부터 환경 파라미터를 추출할 수 있다. 단계 S210은, 단계 S120에서 학습 데이터로부터 왜곡된 특징 벡터 및 환경 파라미터를 추출하는 것과 동일한 방식으로 처리될 수 있다.

단계 S220에서는, 단계 S210에서 추출된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성할 수 있다. 단계 S220은 단계 S125에서 슈퍼 벡터를 생성하는 것과 동일한 방식으로 처리될 수 있다.

단계 S230에서는, 생성한 슈퍼 벡터를 단계 S100에서 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출할 수 있다. 즉, 단계 S126을 이용해 딥 뉴럴 네트워크를 학습한 경우에는 단계 S230에서 보상된 특징 벡터를 출력으로 획득할 수 있고, 단계 S127을 이용해 딥 뉴럴 네트워크를 학습한 경우에는 단계 S230에서 스테이트 사후 확률을 출력으로 획득할 수 있다.

단계 S300에서는, 단계 S200에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출할 수 있다. 보다 구체적으로는, 단계 S300에서는 음향 모델을 기반으로 하는 디코더를 통하여, 음성 인식 결과를 도출할 수 있다. 이때, 디코더는 테스트 데이터에 맞는 음향 모델을 기반으로 할 수 있다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

S100: 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습하는 단계
S110: 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계
S120: 학습 데이터로부터 왜곡된 특징 벡터 및 환경 파라미터를 추출하는 단계
S125: 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계
S126: 깨끗한 음성으로부터 특징 벡터를 추출하는 단계
S127: 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계
S130: 딥 뉴럴 네트워크를 학습하는 단계
S200: 테스트 데이터를 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계
S210: 테스트 데이터에서 특징 벡터를 추출하고, 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계
S220: 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계
S230: 슈퍼 벡터를 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계
S300: 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해 음성 인식 결과를 도출하는 단계

Claims

음성 인식 방법으로서,
(1) 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 학습하는 단계;
(2) 테스트 데이터를 상기 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계; 및
(3) 상기 단계 (2)에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출하는 단계를 포함하되,
상기 단계 (1)은,
(1-1) 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계;
(1-2) 상기 학습 데이터로부터 왜곡된 특징 벡터를 추출하고, 상기 추출된 왜곡된 특징 벡터로부터 환경 파라미터를 추출하는 단계; 및
(1-3) 상기 왜곡된 특징 벡터 및 환경 파라미터를 이용해 딥 뉴럴 네트워크를 학습하는 단계를 포함하며,
상기 단계 (1-3) 이전에는,
상기 깨끗한 음성으로부터 특징 벡터를 추출하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 추출된 특징 벡터를 출력으로 하여 상기 딥 뉴럴 네트워크를 학습하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
삭제
제1항에 있어서, 상기 단계 (1-3) 이전에는,
상기 단계 (1-2)에서 추출된 왜곡된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 슈퍼 벡터를 입력으로 하여 상기 딥 뉴럴 네트워크를 학습하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
삭제
제1항에 있어서, 상기 단계 (1-3) 이전에는,
상기 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 도출된 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 출력으로 하여 상기 딥 뉴럴 네트워크를 학습하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
제1항에 있어서, 상기 단계 (2)는,
(2-1) 테스트 데이터에서 특징 벡터를 추출하고, 상기 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계;
(2-2) 상기 단계 (2-1)에서 추출된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계; 및
(2-3) 상기 생성한 슈퍼 벡터를 상기 단계 (1)에서 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계를 포함하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
제1항에 있어서, 상기 단계 (3)에서는,
음향 모델을 기반으로 하는 디코더를 통하여, 음성 인식 결과를 도출하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.