KR101624926B1 - 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법 - Google Patents

딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법 Download PDF

Info

Publication number
KR101624926B1
KR101624926B1 KR1020140182745A KR20140182745A KR101624926B1 KR 101624926 B1 KR101624926 B1 KR 101624926B1 KR 1020140182745 A KR1020140182745 A KR 1020140182745A KR 20140182745 A KR20140182745 A KR 20140182745A KR 101624926 B1 KR101624926 B1 KR 101624926B1
Authority
KR
South Korea
Prior art keywords
neural network
feature vector
deep neural
speech recognition
learning
Prior art date
Application number
KR1020140182745A
Other languages
English (en)
Inventor
김남수
강신재
이강현
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020140182745A priority Critical patent/KR101624926B1/ko
Application granted granted Critical
Publication of KR101624926B1 publication Critical patent/KR101624926B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 관한 것으로서, 보다 구체적으로는 (1) 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 학습하는 단계; (2) 테스트 데이터를 상기 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계; 및 (3) 상기 단계 (2)에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 따르면, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습함으로써, 잡음과 깨끗한 음성과의 관계를 자동으로 학습할 수 있으며, 학습된 딥 뉴럴 네트워크에 테스트 데이터를 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하고, 이를 이용해 음성 인식 결과를 도출함으로써, 어떤 잡음에서도 정확한 특징 보상이 이루어질 수 있고, 이를 통해 향상된 음성 인식 결과를 얻을 수 있다.
또한, 본 발명에 따르면, 특징 벡터 또는 스테이트 사후 확률에 대하여 딥 뉴럴 네트워크를 학습하고, 학습된 딥 뉴럴 네트워크를 통해 보상된 특징 벡터 또는 스테이트 사후 확률을 얻을 수 있으므로, 디코더의 종류에 따라 다양한 방식으로 음성 인식에 적용될 수 있다.

Description

딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법{SPEECH RECOGNITION METHOD USING FEATURE COMPENSATION BASED ON DEEP NEURAL NETWORK}
본 발명은 음성 인식 방법에 관한 것으로서, 보다 구체적으로는 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 관한 것이다.
최근 스마트폰, 태블릿 PC, 스마트 TV 등의 스마트 디바이스들은 현대인의 생활에 필수품이 되어가고 있다. 스마트 디바이스가 가지는 특징이자 최고의 장점은 사용자가 원하는 정보 혹은 콘텐츠를 빠르고 편리하게 제공해 줄 수 있다는 것이다. 이에 따라 이러한 서비스의 편의성을 더욱 강화시키기 위하여 디바이스들의 입력 방식으로 음성을 활용하는 경우가 많아지고 있다. 이에 대한 예로는 애플사에서 서비스하고 있는 개인 비서 어플리케이션 Siri, 구글 사에서 서비스하는 같은 종류의 어플리케이션인 Now 등이 있다. 더 나아가 가까운 미래에는 홈 네트워크 기술과 접목하여 다양한 디바이스와 다양한 환경에서의 음성 입력 및 이해 기술이 적용될 것이다.
한편, 위에서 언급한 기술들이 실생활에 활용되기 위해서는 아직 해결해야 할 기술적인 제약이 존재한다. 스마트 디바이스가 사용되는 환경의 특성상 디바이스와 일정 거리를 두고 음성인식을 이용해야 하는 경우는 주변 잡음에 비해 음성 신호의 크기가 작다. 특히, 닫힌 공간의 경우는 음성 신호가 주변의 벽, 물체 등의 반사에 의한 반향의 영향을 받아 인식 성능이 많이 떨어질 수 있어 이를 해결 할 수 있는 보상 기술이 필요하다.
종래의 특징 보상 기법들은 잡음과 깨끗한 음성과의 관계를 인위적인 가정과 근사들을 사용하여 접근하였다. 하지만 실제 잡음과 음성은 매우 복잡한 비선형 관계를 갖기 때문에 이를 근사화 하는 과정에서 오차가 발생하게 되고 이는 기존 특징 보상 기법들의 성능을 저하시키는 요인이 되었다. 따라서 이러한 성능 저하를 극복하고, 효과적으로 음성 인식을 하기 위한 기술의 개발이 필요하다.
한편, 본 발명의 관련된 선행기술로서, 공개특허 제10-2012-0021428호(발명의 명칭: 비음수 행렬 인수분해 기반의 음성 검출 방법, 공개일: 2012년 03월 09일), 공개특허 제10-1994-7001116호(발명의 명칭: 뉴럴(neural) 네트워크를 이용한 음성인식장치 및 그 학습방법, 공개일: 1994년 04월 22일) 등이 공개된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습함으로써, 잡음과 깨끗한 음성과의 관계를 자동으로 학습할 수 있으며, 학습된 딥 뉴럴 네트워크에 테스트 데이터를 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하고, 이를 이용해 음성 인식 결과를 도출함으로써, 어떤 잡음에서도 정확한 특징 보상이 이루어질 수 있고, 이를 통해 향상된 음성 인식 결과를 얻을 수 있는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법을 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 특징 벡터 또는 스테이트 사후 확률에 대하여 딥 뉴럴 네트워크를 학습하고, 학습된 딥 뉴럴 네트워크를 통해 보상된 특징 벡터 또는 스테이트 사후 확률을 얻을 수 있으므로, 디코더의 종류에 따라 다양한 방식으로 음성 인식에 적용될 수 있는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법을 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법은,
(1) 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 학습하는 단계;
(2) 테스트 데이터를 상기 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계; 및
(3) 상기 단계 (2)에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (1)은,
(1-1) 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계;
(1-2) 상기 학습 데이터로부터 왜곡된 특징 벡터를 추출하고, 상기 추출된 왜곡된 특징 벡터로부터 환경 파라미터를 추출하는 단계; 및
(1-3) 상기 왜곡된 특징 벡터 및 환경 파라미터를 이용해 딥 뉴럴 네트워크를 학습하는 단계를 포함할 수 있다.
더욱 바람직하게는, 상기 단계 (1-3) 이전에는,
상기 단계 (1-2)에서 추출된 왜곡된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 슈퍼 벡터를 입력으로 하여 상기 딥 뉴럴 네트워크를 학습할 수 있다.
더욱 바람직하게는, 상기 단계 (1-3) 이전에는,
상기 깨끗한 음성으로부터 특징 벡터를 추출하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 추출된 특징 벡터를 출력으로 하여 상기 딥 뉴럴 네트워크를 학습할 수 있다.
더욱 바람직하게는, 상기 단계 (1-3) 이전에는,
상기 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계를 더 포함하며,
상기 단계 (1-3)에서는, 상기 도출된 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 출력으로 하여 상기 딥 뉴럴 네트워크를 학습할 수 있다.
바람직하게는, 상기 단계 (2)는,
(2-1) 테스트 데이터에서 특징 벡터를 추출하고, 상기 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계;
(2-2) 상기 단계 (2-1)에서 추출된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계; 및
(2-3) 상기 생성한 슈퍼 벡터를 상기 단계 (1)에서 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계를 포함할 수 있다.
바람직하게는, 상기 단계 (3)에서는,
음향 모델을 기반으로 하는 디코더를 통하여, 음성 인식 결과를 도출할 수 있다.
본 발명에서 제안하고 있는 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 따르면, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습함으로써, 잡음과 깨끗한 음성과의 관계를 자동으로 학습할 수 있으며, 학습된 딥 뉴럴 네트워크에 테스트 데이터를 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하고, 이를 이용해 음성 인식 결과를 도출함으로써, 어떤 잡음에서도 정확한 특징 보상이 이루어질 수 있고, 이를 통해 향상된 음성 인식 결과를 얻을 수 있다.
또한, 본 발명에 따르면, 특징 벡터 또는 스테이트 사후 확률에 대하여 딥 뉴럴 네트워크를 학습하고, 학습된 딥 뉴럴 네트워크를 통해 보상된 특징 벡터 또는 스테이트 사후 확률을 얻을 수 있으므로, 디코더의 종류에 따라 다양한 방식으로 음성 인식에 적용될 수 있다.
도 1은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 사용되는 딥 뉴럴 네트워크의 구조를 도시한 도면.
도 3은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도식화한 도면.
도 4는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 딥 뉴럴 네트워크의 학습을 위한 출력을 도출하는 과정을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법은, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습하는 단계(S100), 테스트 데이터를 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계(S200) 및 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해 음성 인식 결과를 도출하는 단계(S300)를 포함하여 구현될 수 있다.
즉, 본 발명은, 매우 복잡한 비선형성을 갖는 잡음과 음성의 관계를 인위적으로 근사화하지 않고, 비선형 기계학습 모델인 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 이용해 잡음과 음성의 관계를 학습하도록 함으로써, 근사화 과정에서 발생하는 오차를 제거하고 보다 정확한 음성 인식이 가능하도록 할 수 있다. 이하에서는, 도 2를 참조하여 본 발명에서 사용되는 딥 뉴럴 네트워크에 대해서 상세히 설명하도록 한다.
도 2는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에 사용되는 딥 뉴럴 네트워크의 구조를 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명에서 사용되는 딥 뉴럴 네트워크는, 기계학습 모델 중 하나로서 입력 계층, 은닉 계층 및 출력 계층의 총 세 부분으로 구성될 수 있으며, 각 계층은 다수의 노드를 포함할 수 있다. 각 계층 간의 노드들은 가중치를 통해 연결될 수 있으며, 계층내의 노드끼리는 연결선이 없는 구조를 가질 수 있다. 은닉 계층에서의 각 노드들은 입력 계층에 대해서 조건적 독립의 구조를 가질 수 있다.
딥 뉴럴 네트워크를 학습한다는 것은, 입력과 출력이 정해지고 나면 각 계층 사이의 가중치와 바이어스를 학습하여 딥 뉴럴 네트워크의 구조가 입력과 출력 사이의 비선형적인 관계를 잘 나타낼 수 있도록 하는 것이다. 딥 뉴럴 네트워크의 학습 과정은, 사전학습을 통하여 초기 값을 구하는 단계와 파인 튜닝을 통해 각 파라미터들을 추정하는 단계로 나뉘어 실행될 수 있다.
딥 뉴럴 네트워크의 학습은 매 프레임마다 도 2에 도시된 바와 같은 구조에 해당하는 연산을 수행함으로써 처리될 수 있다. 도 2에서 V는 입력 벡터, Wi는 각 계층에서의 가중치 행렬, bi는 각 계층에 더해지는 바이어스 벡터를 나타낸다. 먼저, 입력 계층에서는 다음 수학식 1에 의해 연산이 수행될 수 있다.
Figure 112014122919216-pat00001
다음으로, 은닉 계층에서는 다음 수학식 2에 의해 연산이 수행될 수 있다.
Figure 112014122919216-pat00002
마지막으로, 출력 계층에서는 다음 수학식 3이 처리될 수 있다
Figure 112014122919216-pat00003
수학식 1 내지 3에서, y는 출력 벡터이며, O는 최종적으로 얻어지는 출력 벡터를 의미한다. 또한, sigmoid 및 softmax는 각각 다음 수학식 4 및 수학식 5와 같다.
Figure 112014122919216-pat00004
Figure 112014122919216-pat00005
도 3은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름을 도식화한 도면이다. 이하에서는, 도 1 및 도 3을 참조하여 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 흐름에 대하여 상세히 설명하도록 한다.
단계 S100에서는, 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습할 수 있다. 학습 데이터는 잡음 등으로 왜곡된 음성에 해당하며, 단계 S100을 통해 잡음에 의해 왜곡된 음성과 깨끗한 음성 사이의 관계를 학습할 수 있다.
도 4는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 단계 S100은, 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계(S110), 학습 데이터로부터 왜곡된 특징 벡터 및 환경 파라미터를 추출하는 단계(S120) 및 딥 뉴럴 네트워크를 학습하는 단계(S130)를 포함하여 구현될 수 있으며, 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계(S125)를 더 포함하여 구현될 수 있다.
단계 S110에서는, 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성할 수 있다. 단계 S110에서는, 다양한 잡음을 혼합함으로써 복수의 학습 데이터를 생성할 수 있다. 생성된 학습 데이터는, 도 3에 표시된 왜곡된 음성에 해당하는 것으로서, 딥 뉴럴 네트워크의 입력이 될 수 있다.
단계 S120에서는, 학습 데이터로부터 왜곡된 특징 벡터를 추출하고, 추출된 왜곡된 특징 벡터로부터 환경 파라미터를 추출할 수 있다. 즉, 사전 학습을 통해 왜곡된 특징 벡터를 추출할 수 있으며, 추출된 왜곡된 특징 벡터를 이용해 파인 튜닝을 하여 환경 파라미터를 추정할 수 있다.
단계 S125에서는, 단계 S120에서 추출된 왜곡된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성할 수 있다. 즉, 추출된 왜곡된 특징 벡터와 환경 파라미터를 딥 뉴럴 네트워크의 입력으로 사용하기 위하여, 슈퍼 벡터를 생성할 수 있으며, 슈퍼 벡터는 각 벡터들을 연결하여 구할 수 있다.
단계 S130에서는, 왜곡된 특징 벡터 및 환경 파라미터를 이용해 딥 뉴럴 네트워크를 학습할 수 있다. 즉, 단계 S130에서는, 단계 S125에서 생성된 슈퍼 벡터를 입력으로 하여 딥 뉴럴 네트워크를 학습할 수 있다.
도 3에 도시된 바와 같이, 딥 뉴럴 네트워크의 학습에서는, 왜곡된 음성으로부터 추출된 정보를 입력으로 하고, 깨끗한 음성으로부터 추출된 정보를 출력으로 하여 학습을 진행할 수 있다. 출력은 음성 인식 목적이나 디코더의 종류에 따라 특징 벡터 또는 스테이트 사후 확률이 사용될 수 있다. 이하에서는, 이와 같은 딥 뉴럴 네트워크의 학습을 위한 출력 정보를 획득하는 과정에 대하여 도 5를 참조하여 상세히 설명하도록 한다.
도 5는 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 딥 뉴럴 네트워크의 학습을 위한 출력을 도출하는 과정을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서는, 딥 뉴럴 네트워크의 학습 목적 또는 디코더의 종류에 따라, 깨끗한 음성으로부터 특징 벡터를 추출하는 단계(S126) 또는 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계(S127)를 더 포함하여 구현될 수 있다.
단계 S126에서는, 깨끗한 음성으로부터 특징 벡터를 추출할 수 있다. 단계 S126은 딥 뉴럴 네트워크를 이용하는 목적이 보상된 특징 벡터를 얻어내는 것일 때에 수행될 수 있다. 단계 S126의 특징 벡터 추출 방법은, 단계 S120에서 학습 데이터로부터 왜곡된 특징 벡터를 추출하는 방법과 동일한 프로세스에 의해 처리될 수 있다. 단계 S130에서는, 단계 S125에서 생성한 슈퍼 벡터를 입력으로 하고, 추출된 특징 벡터를 출력으로 하여 딥 뉴럴 네트워크를 학습할 수 있다.
단계 S127에서는, 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출할 수 있다. 단계 S127은 딥 뉴럴 네트워크를 이용하는 목적이 현재 프레임의 특징 벡터에 대한 음향모델의 스테이트 사후확률을 구하는 것일 때에 수행될 수 있다. 단계 S130에서는, 단계 S125에서 생성한 슈퍼 벡터를 입력으로 하고, 단계 S127에서 도출된 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 출력으로 하여 딥 뉴럴 네트워크를 학습할 수 있다.
단계 S200에서는, 테스트 데이터를 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출할 수 있다. 여기에서, 도 3에 표시된 단계 S200에서 입력으로 사용되는 왜곡된 음성은, 실제 음성 인식을 위한 테스트 데이터일 수 있다. 즉, 잡음을 제거하고 음성 인식을 하기 위한 테스트 데이터를 단계 S100에서 학습된 딥 뉴럴 네트워크에 적용하여, 음성 인식을 할 수 있다. 이하에서는, 도 6을 참조하여 단계 S200의 세부적인 구성에 대해 상세히 설명하도록 한다.
도 6은 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법의 단계 S200은, 테스트 데이터에서 특징 벡터를 추출하고, 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계(S210), 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계(S220) 및 슈퍼 벡터를 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계(S230)를 포함하여 구현될 수 있다.
단계 S210에서는, 테스트 데이터에서 특징 벡터를 추출하고, 추출된 특징 벡터로부터 환경 파라미터를 추출할 수 있다. 단계 S210은, 단계 S120에서 학습 데이터로부터 왜곡된 특징 벡터 및 환경 파라미터를 추출하는 것과 동일한 방식으로 처리될 수 있다.
단계 S220에서는, 단계 S210에서 추출된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성할 수 있다. 단계 S220은 단계 S125에서 슈퍼 벡터를 생성하는 것과 동일한 방식으로 처리될 수 있다.
단계 S230에서는, 생성한 슈퍼 벡터를 단계 S100에서 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출할 수 있다. 즉, 단계 S126을 이용해 딥 뉴럴 네트워크를 학습한 경우에는 단계 S230에서 보상된 특징 벡터를 출력으로 획득할 수 있고, 단계 S127을 이용해 딥 뉴럴 네트워크를 학습한 경우에는 단계 S230에서 스테이트 사후 확률을 출력으로 획득할 수 있다.
단계 S300에서는, 단계 S200에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출할 수 있다. 보다 구체적으로는, 단계 S300에서는 음향 모델을 기반으로 하는 디코더를 통하여, 음성 인식 결과를 도출할 수 있다. 이때, 디코더는 테스트 데이터에 맞는 음향 모델을 기반으로 할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
S100: 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크를 학습하는 단계
S110: 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계
S120: 학습 데이터로부터 왜곡된 특징 벡터 및 환경 파라미터를 추출하는 단계
S125: 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계
S126: 깨끗한 음성으로부터 특징 벡터를 추출하는 단계
S127: 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계
S130: 딥 뉴럴 네트워크를 학습하는 단계
S200: 테스트 데이터를 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계
S210: 테스트 데이터에서 특징 벡터를 추출하고, 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계
S220: 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계
S230: 슈퍼 벡터를 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계
S300: 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해 음성 인식 결과를 도출하는 단계

Claims (7)

  1. 음성 인식 방법으로서,
    (1) 잡음이 혼합된 학습 데이터를 이용해 딥 뉴럴 네트워크(Deep Neural Network; DNN)를 학습하는 단계;
    (2) 테스트 데이터를 상기 학습된 딥 뉴럴 네트워크에 적용하여 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계; 및
    (3) 상기 단계 (2)에서 도출된 보상된 특징 벡터 또는 스테이트 사후 확률을 이용해, 음성 인식 결과를 도출하는 단계를 포함하되,
    상기 단계 (1)은,
    (1-1) 깨끗한 음성에 잡음을 혼합하여 학습 데이터를 생성하는 단계;
    (1-2) 상기 학습 데이터로부터 왜곡된 특징 벡터를 추출하고, 상기 추출된 왜곡된 특징 벡터로부터 환경 파라미터를 추출하는 단계; 및
    (1-3) 상기 왜곡된 특징 벡터 및 환경 파라미터를 이용해 딥 뉴럴 네트워크를 학습하는 단계를 포함하며,
    상기 단계 (1-3) 이전에는,
    상기 깨끗한 음성으로부터 특징 벡터를 추출하는 단계를 더 포함하며,
    상기 단계 (1-3)에서는, 상기 추출된 특징 벡터를 출력으로 하여 상기 딥 뉴럴 네트워크를 학습하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
  2. 삭제
  3. 제1항에 있어서, 상기 단계 (1-3) 이전에는,
    상기 단계 (1-2)에서 추출된 왜곡된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계를 더 포함하며,
    상기 단계 (1-3)에서는, 상기 슈퍼 벡터를 입력으로 하여 상기 딥 뉴럴 네트워크를 학습하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
  4. 삭제
  5. 제1항에 있어서, 상기 단계 (1-3) 이전에는,
    상기 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 도출하는 단계를 더 포함하며,
    상기 단계 (1-3)에서는, 상기 도출된 학습 데이터에 대한 음향 모델의 스테이트 사후확률 값을 출력으로 하여 상기 딥 뉴럴 네트워크를 학습하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
  6. 제1항에 있어서, 상기 단계 (2)는,
    (2-1) 테스트 데이터에서 특징 벡터를 추출하고, 상기 추출된 특징 벡터로부터 환경 파라미터를 추출하는 단계;
    (2-2) 상기 단계 (2-1)에서 추출된 특징 벡터 및 환경 파라미터를 이용해 슈퍼 벡터를 생성하는 단계; 및
    (2-3) 상기 생성한 슈퍼 벡터를 상기 단계 (1)에서 학습된 딥 뉴럴 네트워크에 입력 벡터로 적용하여, 보상된 특징 벡터 또는 스테이트 사후 확률을 도출하는 단계를 포함하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
  7. 제1항에 있어서, 상기 단계 (3)에서는,
    음향 모델을 기반으로 하는 디코더를 통하여, 음성 인식 결과를 도출하는 것을 특징으로 하는, 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법.
KR1020140182745A 2014-12-17 2014-12-17 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법 KR101624926B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140182745A KR101624926B1 (ko) 2014-12-17 2014-12-17 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140182745A KR101624926B1 (ko) 2014-12-17 2014-12-17 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법

Publications (1)

Publication Number Publication Date
KR101624926B1 true KR101624926B1 (ko) 2016-05-27

Family

ID=56106182

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140182745A KR101624926B1 (ko) 2014-12-17 2014-12-17 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR101624926B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2557425A (en) * 2016-10-11 2018-06-20 Cirrus Logic Int Semiconductor Ltd Detection of acoustic impulse events in voice applications using a neural network
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
KR20190076628A (ko) 2017-12-22 2019-07-02 주식회사 모두의연구소 보상 제어기를 이용한 강화 학습 방법 및 이를 위한 장치
KR102066264B1 (ko) * 2018-07-05 2020-01-14 서울대학교산학협력단 딥 뉴럴 네트워크를 이용한 음성 인식 방법 및 시스템
US10691971B2 (en) 2016-11-28 2020-06-23 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object
US10957308B2 (en) 2018-05-11 2021-03-23 Samsung Electronics Co., Ltd. Device and method to personalize speech recognition model
KR20220028373A (ko) 2020-08-28 2022-03-08 국방과학연구소 화자 음성 분석 장치, 방법, 컴퓨터 판독 가능한 기록매체 및 컴퓨터 프로그램
US11282501B2 (en) 2018-10-19 2022-03-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11694696B2 (en) 2019-03-25 2023-07-04 Samsung Electronics Co.. Ltd. Method and apparatus for implementing speaker identification neural network

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A. Mohamed et al., ‘Deep belief networks for phone recognition’, in Proc. NIPS Workshop Deep Learn. Speech Recogn. Rel. Applicat., 2009.*
G.E.Hintons et al., ‘A fast learning algorithm for deep belief nets’, Neural Comput., Vol.18, pp.1527~1554, July 2006.*
이강현 외 3명, ‘DNN을 이용한 향상된 IMM 기반 특징 보상 기법’, 한국통신학회 2014년 하계종합학술발표회, pp.184~185, 2014년 6월.*

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2557425A (en) * 2016-10-11 2018-06-20 Cirrus Logic Int Semiconductor Ltd Detection of acoustic impulse events in voice applications using a neural network
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
US10475471B2 (en) 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
GB2557425B (en) * 2016-10-11 2020-02-19 Cirrus Logic Int Semiconductor Ltd Detection of acoustic impulse events in voice applications using a neural network
US10691971B2 (en) 2016-11-28 2020-06-23 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object
KR20190076628A (ko) 2017-12-22 2019-07-02 주식회사 모두의연구소 보상 제어기를 이용한 강화 학습 방법 및 이를 위한 장치
US10957308B2 (en) 2018-05-11 2021-03-23 Samsung Electronics Co., Ltd. Device and method to personalize speech recognition model
KR102066264B1 (ko) * 2018-07-05 2020-01-14 서울대학교산학협력단 딥 뉴럴 네트워크를 이용한 음성 인식 방법 및 시스템
US11282501B2 (en) 2018-10-19 2022-03-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11694696B2 (en) 2019-03-25 2023-07-04 Samsung Electronics Co.. Ltd. Method and apparatus for implementing speaker identification neural network
KR20220028373A (ko) 2020-08-28 2022-03-08 국방과학연구소 화자 음성 분석 장치, 방법, 컴퓨터 판독 가능한 기록매체 및 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
KR101624926B1 (ko) 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법
CN110826344B (zh) 神经网络模型压缩方法、语料翻译方法及其装置
CN111524521B (zh) 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN112889108B (zh) 使用视听数据进行说话分类
KR101323056B1 (ko) 여러 종류의 입력을 이용한 사람의 식별 방법 및 시스템
CN111133453B (zh) 人工神经网络
US20210390449A1 (en) Method and device for data processing, and storage medium
US10614347B2 (en) Identifying parameter image adjustments using image variation and sequential processing
CN109918684A (zh) 模型训练方法、翻译方法、相关装置、设备及存储介质
KR20220116015A (ko) 네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치
KR101620866B1 (ko) 학습 기법을 적용한 사전 학습 알고리즘 기반의 음원 분리 방법
KR102042168B1 (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN109815322B (zh) 应答的方法、装置、存储介质及电子设备
CN110570383B (zh) 一种图像处理方法、装置、电子设备及存储介质
US20230050655A1 (en) Dialog agents with two-sided modeling
CN112789628A (zh) 电子装置及其控制方法
CN113537048A (zh) 图像处理方法及装置、电子设备和存储介质
US11676030B2 (en) Learning method, learning apparatus, and computer-readable recording medium
CN107423663A (zh) 一种图像处理方法及终端
CN109784537A (zh) 广告点击率的预估方法、装置及服务器和存储介质
CN112259122A (zh) 音频类型识别方法、装置及存储介质
KR102066264B1 (ko) 딥 뉴럴 네트워크를 이용한 음성 인식 방법 및 시스템
CN111797220A (zh) 对话生成方法、装置、计算机设备和存储介质
CN117058716A (zh) 基于图像预融合的跨域行为识别方法及装置
CN112308588A (zh) 广告的投放方法、装置及存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190429

Year of fee payment: 4