KR101624926B1 - 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법 - Google Patents
딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법 Download PDFInfo
- Publication number
- KR101624926B1 KR101624926B1 KR1020140182745A KR20140182745A KR101624926B1 KR 101624926 B1 KR101624926 B1 KR 101624926B1 KR 1020140182745 A KR1020140182745 A KR 1020140182745A KR 20140182745 A KR20140182745 A KR 20140182745A KR 101624926 B1 KR101624926 B1 KR 101624926B1
- Authority
- KR
- South Korea
- Prior art keywords
- neural network
- feature vector
- deep neural
- speech recognition
- learning
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 98
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 206010013952 Dysphonia Diseases 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 관한 것으로서, 보다 구체적으로는 (1) 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 학습하는 단계; (2) 테스트 데이터를 상기 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계; 및 (3) 상기 단계 (2)에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 따르면, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습함으로써, 잡음과 깨끗한 음성과의 관계를 자동으로 학습할 수 있으며, 학습된 딥 뉴럴 네트워크에 테스트 데이터를 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하고, 이를 이용해 음성 인식 결과를 도출함으로써, 어떤 잡음에서도 정확한 특징 보상이 이루어질 수 있고, 이를 통해 향상된 음성 인식 결과를 얻을 수 있다.
또한, 본 발명에 따르면, 특징 벡터 또는 스테이트 사후 확률에 대하여 딥 뉴럴 네트워크를 학습하고, 학습된 딥 뉴럴 네트워크를 통해 보상된 특징 벡터 또는 스테이트 사후 확률을 얻을 수 있으므로, 디코더의 종류에 따라 다양한 방식으로 음성 인식에 적용될 수 있다.
본 발명에서 제안하고 있는 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 따르면, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습함으로써, 잡음과 깨끗한 음성과의 관계를 자동으로 학습할 수 있으며, 학습된 딥 뉴럴 네트워크에 테스트 데이터를 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하고, 이를 이용해 음성 인식 결과를 도출함으로써, 어떤 잡음에서도 정확한 특징 보상이 이루어질 수 있고, 이를 통해 향상된 음성 인식 결과를 얻을 수 있다.
또한, 본 발명에 따르면, 특징 벡터 또는 스테이트 사후 확률에 대하여 딥 뉴럴 네트워크를 학습하고, 학습된 딥 뉴럴 네트워크를 통해 보상된 특징 벡터 또는 스테이트 사후 확률을 얻을 수 있으므로, 디코더의 종류에 따라 다양한 방식으로 음성 인식에 적용될 수 있다.
Description
본 발명은 음성 인식 방법에 관한 것으로서, 보다 구체적으로는 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 관한 것이다.
최근 스마트폰, 태블릿 PC, 스마트 TV 등의 스마트 디바이스들은 현대인의 생활에 필수품이 되어가고 있다. 스마트 디바이스가 가지는 특징이자 최고의 장점은 사용자가 원하는 정보 혹은 콘텐츠를 빠르고 편리하게 제공해 줄 수 있다는 것이다. 이에 따라 이러한 서비스의 편의성을 더욱 강화시키기 위하여 디바이스들의 입력 방식으로 음성을 활용하는 경우가 많아지고 있다. 이에 대한 예로는 애플사에서 서비스하고 있는 개인 비서 어플리케이션 Siri, 구글 사에서 서비스하는 같은 종류의 어플리케이션인 Now 등이 있다. 더 나아가 가까운 미래에는 홈 네트워크 기술과 접목하여 다양한 디바이스와 다양한 환경에서의 음성 입력 및 이해 기술이 적용될 것이다.
한편, 위에서 언급한 기술들이 실생활에 활용되기 위해서는 아직 해결해야 할 기술적인 제약이 존재한다. 스마트 디바이스가 사용되는 환경의 특성상 디바이스와 일정 거리를 두고 음성인식을 이용해야 하는 경우는 주변 잡음에 비해 음성 신호의 크기가 작다. 특히, 닫힌 공간의 경우는 음성 신호가 주변의 벽, 물체 등의 반사에 의한 반향의 영향을 받아 인식 성능이 많이 떨어질 수 있어 이를 해결 할 수 있는 보상 기술이 필요하다.
종래의 특징 보상 기법들은 잡음과 깨끗한 음성과의 관계를 인위적인 가정과 근사들을 사용하여 접근하였다. 하지만 실제 잡음과 음성은 매우 복잡한 비선형 관계를 갖기 때문에 이를 근사화 하는 과정에서 오차가 발생하게 되고 이는 기존 특징 보상 기법들의 성능을 저하시키는 요인이 되었다. 따라서 이러한 성능 저하를 극복하고, 효과적으로 음성 인식을 하기 위한 기술의 개발이 필요하다.
한편, 본 발명의 관련된 선행기술로서, 공개특허 제10-2012-0021428호(발명의 명칭: 비음수 행렬 인수분해 기반의 음성 검출 방법, 공개일: 2012년 03월 09일), 공개특허 제10-1994-7001116호(발명의 명칭: 뉴럴(neural) 네트워크를 이용한 음성인식장치 및 그 학습방법, 공개일: 1994년 04월 22일) 등이 공개된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습함으로써, 잡음과 깨끗한 음성과의 관계를 자동으로 학습할 수 있으며, 학습된 딥 뉴럴 네트워크에 테스트 데이터를 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하고, 이를 이용해 음성 인식 결과를 도출함으로써, 어떤 잡음에서도 정확한 특징 보상이 이루어질 수 있고, 이를 통해 향상된 음성 인식 결과를 얻을 수 있는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법을 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 특징 벡터 또는 스테이트 사후 확률에 대하여 딥 뉴럴 네트워크를 학습하고, 학습된 딥 뉴럴 네트워크를 통해 보상된 특징 벡터 또는 스테이트 사후 확률을 얻을 수 있으므로, 디코더의 종류에 따라 다양한 방식으로 음성 인식에 적용될 수 있는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법을 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법은,
(1) 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 학습하는 단계;
(2) 테스트 데이터를 상기 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계; 및
(3) 상기 단계 (2)에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (1)은,
(1-1) 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계;
(1-2) 상기 학습 데이터로부터 왜곡된 특징 벡터를 추출하고, 상기 추출된 왜곡된 특징 벡터로부터 환경 파라미터를 추출하는 단계; 및
(1-3) 상기 왜곡된 특징 벡터 및 환경 파라미터를 이용해 딥 뉴럴 네트워크를 학습하는 단계를 포함할 수 있다.
더욱 바람직하게는, 상기 단계 (1-3) 이전에는,
상기 단계 (1-2)에서 추출된 왜곡된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 슈퍼 벡터를 입력으로 하여 상기 딥 뉴럴 네트워크를 학습할 수 있다.
더욱 바람직하게는, 상기 단계 (1-3) 이전에는,
상기 깨끗한 음성으로부터 특징 벡터를 추출하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 추출된 특징 벡터를 출력으로 하여 상기 딥 뉴럴 네트워크를 학습할 수 있다.
더욱 바람직하게는, 상기 단계 (1-3) 이전에는,
상기 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 도출된 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 출력으로 하여 상기 딥 뉴럴 네트워크를 학습할 수 있다.
바람직하게는, 상기 단계 (2)는,
(2-1) 테스트 데이터에서 특징 벡터를 추출하고, 상기 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계;
(2-2) 상기 단계 (2-1)에서 추출된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계; 및
(2-3) 상기 생성한 슈퍼 벡터를 상기 단계 (1)에서 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계를 포함할 수 있다.
바람직하게는, 상기 단계 (3)에서는,
음향 모델을 기반으로 하는 디코더를 통하여, 음성 인식 결과를 도출할 수 있다.
본 발명에서 제안하고 있는 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 따르면, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습함으로써, 잡음과 깨끗한 음성과의 관계를 자동으로 학습할 수 있으며, 학습된 딥 뉴럴 네트워크에 테스트 데이터를 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하고, 이를 이용해 음성 인식 결과를 도출함으로써, 어떤 잡음에서도 정확한 특징 보상이 이루어질 수 있고, 이를 통해 향상된 음성 인식 결과를 얻을 수 있다.
또한, 본 발명에 따르면, 특징 벡터 또는 스테이트 사후 확률에 대하여 딥 뉴럴 네트워크를 학습하고, 학습된 딥 뉴럴 네트워크를 통해 보상된 특징 벡터 또는 스테이트 사후 확률을 얻을 수 있으므로, 디코더의 종류에 따라 다양한 방식으로 음성 인식에 적용될 수 있다.
도 1은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 사용되는 딥 뉴럴 네트워크의 구조를 도시한 도면.
도 3은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도식화한 도면.
도 4는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 딥 뉴럴 네트워크의 학습을 위한 출력을 도출하는 과정을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 사용되는 딥 뉴럴 네트워크의 구조를 도시한 도면.
도 3은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도식화한 도면.
도 4는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 딥 뉴럴 네트워크의 학습을 위한 출력을 도출하는 과정을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법은, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습하는 단계(S100), 테스트 데이터를 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계(S200) 및 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해 음성 인식 결과를 도출하는 단계(S300)를 포함하여 구현될 수 있다.
즉, 본 발명은, 매우 복잡한 비선형성을 갖는 잡음과 음성의 관계를 인위적으로 근사화하지 않고, 비선형 기계학습 모델인 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 이용해 잡음과 음성의 관계를 학습하도록 함으로써, 근사화 과정에서 발생하는 오차를 제거하고 보다 정확한 음성 인식이 가능하도록 할 수 있다. 이하에서는, 도 2를 참조하여 본 발명에서 사용되는 딥 뉴럴 네트워크에 대해서 상세히 설명하도록 한다.
도 2는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 사용되는 딥 뉴럴 네트워크의 구조를 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명에서 사용되는 딥 뉴럴 네트워크는, 기계학습 모델 중 하나로서 입력 계층, 은닉 계층 및 출력 계층의 총 세 부분으로 구성될 수 있으며, 각 계층은 다수의 노드를 포함할 수 있다. 각 계층 간의 노드들은 가중치를 통해 연결될 수 있으며, 계층내의 노드끼리는 연결선이 없는 구조를 가질 수 있다. 은닉 계층에서의 각 노드들은 입력 계층에 대해서 조건적 독립의 구조를 가질 수 있다.
딥 뉴럴 네트워크를 학습한다는 것은, 입력과 출력이 정해지고 나면 각 계층 사이의 가중치와 바이어스를 학습하여 딥 뉴럴 네트워크의 구조가 입력과 출력 사이의 비선형적인 관계를 잘 나타낼 수 있도록 하는 것이다. 딥 뉴럴 네트워크의 학습 과정은, 사전학습을 통하여 초기 값을 구하는 단계와 파인 튜닝을 통해 각 파라미터들을 추정하는 단계로 나뉘어 실행될 수 있다.
딥 뉴럴 네트워크의 학습은 매 프레임마다 도 2에 도시된 바와 같은 구조에 해당하는 연산을 수행함으로써 처리될 수 있다. 도 2에서 V는 입력 벡터, Wi는 각 계층에서의 가중치 행렬, bi는 각 계층에 더해지는 바이어스 벡터를 나타낸다. 먼저, 입력 계층에서는 다음 수학식 1에 의해 연산이 수행될 수 있다.
다음으로, 은닉 계층에서는 다음 수학식 2에 의해 연산이 수행될 수 있다.
마지막으로, 출력 계층에서는 다음 수학식 3이 처리될 수 있다
수학식 1 내지 3에서, y는 출력 벡터이며, O는 최종적으로 얻어지는 출력 벡터를 의미한다. 또한, sigmoid 및 softmax는 각각 다음 수학식 4 및 수학식 5와 같다.
도 3은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도식화한 도면이다. 이하에서는, 도 1 및 도 3을 참조하여 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름에 대하여 상세히 설명하도록 한다.
단계 S100에서는, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습할 수 있다. 학습 데이터는 잡음 등으로 왜곡된 음성에 해당하며, 단계 S100을 통해 잡음에 의해 왜곡된 음성과 깨끗한 음성 사이의 관계를 학습할 수 있다.
도 4는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 단계 S100은, 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계(S110), 학습 데이터로부터 왜곡된 특징 벡터 및 환경 파라미터를 추출하는 단계(S120) 및 딥 뉴럴 네트워크를 학습하는 단계(S130)를 포함하여 구현될 수 있으며, 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계(S125)를 더 포함하여 구현될 수 있다.
단계 S110에서는, 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성할 수 있다. 단계 S110에서는, 다양한 잡음을 혼합함으로써 복수의 학습 데이터를 생성할 수 있다. 생성된 학습 데이터는, 도 3에 표시된 왜곡된 음성에 해당하는 것으로서, 딥 뉴럴 네트워크의 입력이 될 수 있다.
단계 S120에서는, 학습 데이터로부터 왜곡된 특징 벡터를 추출하고, 추출된 왜곡된 특징 벡터로부터 환경 파라미터를 추출할 수 있다. 즉, 사전 학습을 통해 왜곡된 특징 벡터를 추출할 수 있으며, 추출된 왜곡된 특징 벡터를 이용해 파인 튜닝을 하여 환경 파라미터를 추정할 수 있다.
단계 S125에서는, 단계 S120에서 추출된 왜곡된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성할 수 있다. 즉, 추출된 왜곡된 특징 벡터와 환경 파라미터를 딥 뉴럴 네트워크의 입력으로 사용하기 위하여, 슈퍼 벡터를 생성할 수 있으며, 슈퍼 벡터는 각 벡터들을 연결하여 구할 수 있다.
단계 S130에서는, 왜곡된 특징 벡터 및 환경 파라미터를 이용해 딥 뉴럴 네트워크를 학습할 수 있다. 즉, 단계 S130에서는, 단계 S125에서 생성된 슈퍼 벡터를 입력으로 하여 딥 뉴럴 네트워크를 학습할 수 있다.
도 3에 도시된 바와 같이, 딥 뉴럴 네트워크의 학습에서는, 왜곡된 음성으로부터 추출된 정보를 입력으로 하고, 깨끗한 음성으로부터 추출된 정보를 출력으로 하여 학습을 진행할 수 있다. 출력은 음성 인식 목적이나 디코더의 종류에 따라 특징 벡터 또는 스테이트 사후 확률이 사용될 수 있다. 이하에서는, 이와 같은 딥 뉴럴 네트워크의 학습을 위한 출력 정보를 획득하는 과정에 대하여 도 5를 참조하여 상세히 설명하도록 한다.
도 5는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 딥 뉴럴 네트워크의 학습을 위한 출력을 도출하는 과정을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서는, 딥 뉴럴 네트워크의 학습 목적 또는 디코더의 종류에 따라, 깨끗한 음성으로부터 특징 벡터를 추출하는 단계(S126) 또는 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계(S127)를 더 포함하여 구현될 수 있다.
단계 S126에서는, 깨끗한 음성으로부터 특징 벡터를 추출할 수 있다. 단계 S126은 딥 뉴럴 네트워크를 이용하는 목적이 보상된 특징 벡터를 얻어내는 것일 때에 수행될 수 있다. 단계 S126의 특징 벡터 추출 방법은, 단계 S120에서 학습 데이터로부터 왜곡된 특징 벡터를 추출하는 방법과 동일한 프로세스에 의해 처리될 수 있다. 단계 S130에서는, 단계 S125에서 생성한 슈퍼 벡터를 입력으로 하고, 추출된 특징 벡터를 출력으로 하여 딥 뉴럴 네트워크를 학습할 수 있다.
단계 S127에서는, 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출할 수 있다. 단계 S127은 딥 뉴럴 네트워크를 이용하는 목적이 현재 프레임의 특징 벡터에 대한 음향모델의 스테이트 사후확률을 구하는 것일 때에 수행될 수 있다. 단계 S130에서는, 단계 S125에서 생성한 슈퍼 벡터를 입력으로 하고, 단계 S127에서 도출된 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 출력으로 하여 딥 뉴럴 네트워크를 학습할 수 있다.
단계 S200에서는, 테스트 데이터를 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출할 수 있다. 여기에서, 도 3에 표시된 단계 S200에서 입력으로 사용되는 왜곡된 음성은, 실제 음성 인식을 위한 테스트 데이터일 수 있다. 즉, 잡음을 제거하고 음성 인식을 하기 위한 테스트 데이터를 단계 S100에서 학습된 딥 뉴럴 네트워크에 적용하여, 음성 인식을 할 수 있다. 이하에서는, 도 6을 참조하여 단계 S200의 세부적인 구성에 대해 상세히 설명하도록 한다.
도 6은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 단계 S200은, 테스트 데이터에서 특징 벡터를 추출하고, 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계(S210), 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계(S220) 및 슈퍼 벡터를 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계(S230)를 포함하여 구현될 수 있다.
단계 S210에서는, 테스트 데이터에서 특징 벡터를 추출하고, 추출된 특징 벡터로부터 환경 파라미터를 추출할 수 있다. 단계 S210은, 단계 S120에서 학습 데이터로부터 왜곡된 특징 벡터 및 환경 파라미터를 추출하는 것과 동일한 방식으로 처리될 수 있다.
단계 S220에서는, 단계 S210에서 추출된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성할 수 있다. 단계 S220은 단계 S125에서 슈퍼 벡터를 생성하는 것과 동일한 방식으로 처리될 수 있다.
단계 S230에서는, 생성한 슈퍼 벡터를 단계 S100에서 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출할 수 있다. 즉, 단계 S126을 이용해 딥 뉴럴 네트워크를 학습한 경우에는 단계 S230에서 보상된 특징 벡터를 출력으로 획득할 수 있고, 단계 S127을 이용해 딥 뉴럴 네트워크를 학습한 경우에는 단계 S230에서 스테이트 사후 확률을 출력으로 획득할 수 있다.
단계 S300에서는, 단계 S200에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출할 수 있다. 보다 구체적으로는, 단계 S300에서는 음향 모델을 기반으로 하는 디코더를 통하여, 음성 인식 결과를 도출할 수 있다. 이때, 디코더는 테스트 데이터에 맞는 음향 모델을 기반으로 할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
S100: 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습하는 단계
S110: 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계
S120: 학습 데이터로부터 왜곡된 특징 벡터 및 환경 파라미터를 추출하는 단계
S125: 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계
S126: 깨끗한 음성으로부터 특징 벡터를 추출하는 단계
S127: 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계
S130: 딥 뉴럴 네트워크를 학습하는 단계
S200: 테스트 데이터를 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계
S210: 테스트 데이터에서 특징 벡터를 추출하고, 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계
S220: 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계
S230: 슈퍼 벡터를 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계
S300: 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해 음성 인식 결과를 도출하는 단계
S110: 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계
S120: 학습 데이터로부터 왜곡된 특징 벡터 및 환경 파라미터를 추출하는 단계
S125: 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계
S126: 깨끗한 음성으로부터 특징 벡터를 추출하는 단계
S127: 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계
S130: 딥 뉴럴 네트워크를 학습하는 단계
S200: 테스트 데이터를 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계
S210: 테스트 데이터에서 특징 벡터를 추출하고, 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계
S220: 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계
S230: 슈퍼 벡터를 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계
S300: 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해 음성 인식 결과를 도출하는 단계
Claims (7)
- 음성 인식 방법으로서,
(1) 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 학습하는 단계;
(2) 테스트 데이터를 상기 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계; 및
(3) 상기 단계 (2)에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출하는 단계를 포함하되,
상기 단계 (1)은,
(1-1) 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계;
(1-2) 상기 학습 데이터로부터 왜곡된 특징 벡터를 추출하고, 상기 추출된 왜곡된 특징 벡터로부터 환경 파라미터를 추출하는 단계; 및
(1-3) 상기 왜곡된 특징 벡터 및 환경 파라미터를 이용해 딥 뉴럴 네트워크를 학습하는 단계를 포함하며,
상기 단계 (1-3) 이전에는,
상기 깨끗한 음성으로부터 특징 벡터를 추출하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 추출된 특징 벡터를 출력으로 하여 상기 딥 뉴럴 네트워크를 학습하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
- 삭제
- 제1항에 있어서, 상기 단계 (1-3) 이전에는,
상기 단계 (1-2)에서 추출된 왜곡된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 슈퍼 벡터를 입력으로 하여 상기 딥 뉴럴 네트워크를 학습하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
- 삭제
- 제1항에 있어서, 상기 단계 (1-3) 이전에는,
상기 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 도출된 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 출력으로 하여 상기 딥 뉴럴 네트워크를 학습하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
- 제1항에 있어서, 상기 단계 (2)는,
(2-1) 테스트 데이터에서 특징 벡터를 추출하고, 상기 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계;
(2-2) 상기 단계 (2-1)에서 추출된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계; 및
(2-3) 상기 생성한 슈퍼 벡터를 상기 단계 (1)에서 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계를 포함하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
- 제1항에 있어서, 상기 단계 (3)에서는,
음향 모델을 기반으로 하는 디코더를 통하여, 음성 인식 결과를 도출하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140182745A KR101624926B1 (ko) | 2014-12-17 | 2014-12-17 | 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140182745A KR101624926B1 (ko) | 2014-12-17 | 2014-12-17 | 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101624926B1 true KR101624926B1 (ko) | 2016-05-27 |
Family
ID=56106182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140182745A KR101624926B1 (ko) | 2014-12-17 | 2014-12-17 | 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101624926B1 (ko) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2557425A (en) * | 2016-10-11 | 2018-06-20 | Cirrus Logic Int Semiconductor Ltd | Detection of acoustic impulse events in voice applications using a neural network |
US10242696B2 (en) | 2016-10-11 | 2019-03-26 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications |
KR20190076628A (ko) | 2017-12-22 | 2019-07-02 | 주식회사 모두의연구소 | 보상 제어기를 이용한 강화 학습 방법 및 이를 위한 장치 |
KR102066264B1 (ko) * | 2018-07-05 | 2020-01-14 | 서울대학교산학협력단 | 딥 뉴럴 네트워크를 이용한 음성 인식 방법 및 시스템 |
US10691971B2 (en) | 2016-11-28 | 2020-06-23 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing object |
US10957308B2 (en) | 2018-05-11 | 2021-03-23 | Samsung Electronics Co., Ltd. | Device and method to personalize speech recognition model |
KR20220028373A (ko) | 2020-08-28 | 2022-03-08 | 국방과학연구소 | 화자 음성 분석 장치, 방법, 컴퓨터 판독 가능한 기록매체 및 컴퓨터 프로그램 |
US11282501B2 (en) | 2018-10-19 | 2022-03-22 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
US11694696B2 (en) | 2019-03-25 | 2023-07-04 | Samsung Electronics Co.. Ltd. | Method and apparatus for implementing speaker identification neural network |
-
2014
- 2014-12-17 KR KR1020140182745A patent/KR101624926B1/ko active IP Right Grant
Non-Patent Citations (3)
Title |
---|
A. Mohamed et al., ‘Deep belief networks for phone recognition’, in Proc. NIPS Workshop Deep Learn. Speech Recogn. Rel. Applicat., 2009.* |
G.E.Hintons et al., ‘A fast learning algorithm for deep belief nets’, Neural Comput., Vol.18, pp.1527~1554, July 2006.* |
이강현 외 3명, ‘DNN을 이용한 향상된 IMM 기반 특징 보상 기법’, 한국통신학회 2014년 하계종합학술발표회, pp.184~185, 2014년 6월.* |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2557425A (en) * | 2016-10-11 | 2018-06-20 | Cirrus Logic Int Semiconductor Ltd | Detection of acoustic impulse events in voice applications using a neural network |
US10242696B2 (en) | 2016-10-11 | 2019-03-26 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications |
US10475471B2 (en) | 2016-10-11 | 2019-11-12 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications using a neural network |
GB2557425B (en) * | 2016-10-11 | 2020-02-19 | Cirrus Logic Int Semiconductor Ltd | Detection of acoustic impulse events in voice applications using a neural network |
US10691971B2 (en) | 2016-11-28 | 2020-06-23 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing object |
KR20190076628A (ko) | 2017-12-22 | 2019-07-02 | 주식회사 모두의연구소 | 보상 제어기를 이용한 강화 학습 방법 및 이를 위한 장치 |
US10957308B2 (en) | 2018-05-11 | 2021-03-23 | Samsung Electronics Co., Ltd. | Device and method to personalize speech recognition model |
KR102066264B1 (ko) * | 2018-07-05 | 2020-01-14 | 서울대학교산학협력단 | 딥 뉴럴 네트워크를 이용한 음성 인식 방법 및 시스템 |
US11282501B2 (en) | 2018-10-19 | 2022-03-22 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
US11694696B2 (en) | 2019-03-25 | 2023-07-04 | Samsung Electronics Co.. Ltd. | Method and apparatus for implementing speaker identification neural network |
KR20220028373A (ko) | 2020-08-28 | 2022-03-08 | 국방과학연구소 | 화자 음성 분석 장치, 방법, 컴퓨터 판독 가능한 기록매체 및 컴퓨터 프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101624926B1 (ko) | 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법 | |
CN110826344B (zh) | 神经网络模型压缩方法、语料翻译方法及其装置 | |
CN111524521B (zh) | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 | |
CN112889108B (zh) | 使用视听数据进行说话分类 | |
KR101323056B1 (ko) | 여러 종류의 입력을 이용한 사람의 식별 방법 및 시스템 | |
EP3923202A1 (en) | Method and device for data processing, and storage medium | |
CN110909815B (zh) | 神经网络训练、图像处理方法、装置及电子设备 | |
US10614347B2 (en) | Identifying parameter image adjustments using image variation and sequential processing | |
US11416703B2 (en) | Network optimization method and apparatus, image processing method and apparatus, and storage medium | |
KR102042168B1 (ko) | 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치 | |
KR20220116015A (ko) | 네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치 | |
KR101620866B1 (ko) | 학습 기법을 적용한 사전 학습 알고리즘 기반의 음원 분리 방법 | |
CN109815322B (zh) | 应答的方法、装置、存储介质及电子设备 | |
CN110570383B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN112789628A (zh) | 电子装置及其控制方法 | |
CN113537048A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
US20230050655A1 (en) | Dialog agents with two-sided modeling | |
US11676030B2 (en) | Learning method, learning apparatus, and computer-readable recording medium | |
CN107423663A (zh) | 一种图像处理方法及终端 | |
CN109784537A (zh) | 广告点击率的预估方法、装置及服务器和存储介质 | |
CN112259122A (zh) | 音频类型识别方法、装置及存储介质 | |
US11004169B2 (en) | Neural network watermarking | |
KR102066264B1 (ko) | 딥 뉴럴 네트워크를 이용한 음성 인식 방법 및 시스템 | |
CN111797220A (zh) | 对话生成方法、装置、计算机设备和存储介质 | |
CN117058716A (zh) | 基于图像预融合的跨域行为识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190429 Year of fee payment: 4 |