KR20170087211A - 음성 인식을 위한 특징 보상 시스템 및 방법 - Google Patents

음성 인식을 위한 특징 보상 시스템 및 방법 Download PDF

Info

Publication number
KR20170087211A
KR20170087211A KR1020160006916A KR20160006916A KR20170087211A KR 20170087211 A KR20170087211 A KR 20170087211A KR 1020160006916 A KR1020160006916 A KR 1020160006916A KR 20160006916 A KR20160006916 A KR 20160006916A KR 20170087211 A KR20170087211 A KR 20170087211A
Authority
KR
South Korea
Prior art keywords
feature
speech
noise
features
training
Prior art date
Application number
KR1020160006916A
Other languages
English (en)
Inventor
김현우
정호영
박전규
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160006916A priority Critical patent/KR20170087211A/ko
Publication of KR20170087211A publication Critical patent/KR20170087211A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 음성 인식을 위한 특징 보상 기술에 관한 것으로, 본 발명에 따른 특징 보상 시스템은, 오염된 음성 신호로부터 오염된 음성 특성을 추출하는 특징 추출부; 훈련 음성 특징, 훈련 잡음 특징 및 훈련 오염된 음성 특징으로부터 심층 신경망을 기반으로 하여 비선형 관계 모델을 생성하는 관계 모델 생성부; 상기 오염된 음성 특징과, 과거 프레임에서 보상된 음성 특징을 이용하여 평균과 공분산을 포함한 잡음 특징의 확률 분포를 추정하는 잡음 특징 확률 분포 추정부; 상기 잡음 특징의 확률 분포를 반영하여 잡음 특징을 표본화하는 잡음 표본화부; 상기 심층 신경망 기반 비선형 관계 모델을 기반으로 상기 오염된 음성 특징에서 상기 표본화된 잡음 특징을 제거하는 잡음 제거부; 및 상기 표본화된 잡음 특징이 제거된 음성 특징을 결합하여 보상된 음성 특징을 생성하는 특징 결합부로 구성된다.

Description

음성 인식을 위한 특징 보상 시스템 및 방법{Feature compensation system and method for recognizing voice}
본 발명은 음성 인식 기술에 관한 것으로, 상세하게는 심층 신경망 기반의 관계 모델을 사용함으로써, 잡음 환경에서의 음성 인식 성능을 향상시킬 수 있는 특징 보상 시스템 및 방법에 관한 것이다.
통계적 패턴 방식의 음성 인식 성능을 저하시키는 주요 원인은 음향 모델 훈련에 사용하는 음성 신호와 실제 음성 인식 환경에서 입력되는 음성 신호의 음향학적 특성이 다르다는 것이다.
이러한 음향 모델 훈련용 음성 신호와 실제 입력되는 음성 신호 사이의 특성 차이를 줄이는 방법 중 하나인 특징 보상 방법은 훈련된 음향 모델과 잡음으로 오염된 입력 음성 신호의 음향학적 특성 불일치를 줄이는 방법이다.
특징 보상 방법은 크게 데이터 주도 방법과 모델 기반 방법으로 분류되는데, 데이터 주도 방법은 특징 보상에 필요한 파라미터를 음성 특징과 오염된 음성 특징을 사용하여 직접 추정하는 반면에, 모델 기반 방법은 음성 특징, 잡음 특징, 오염된 음성 특징의 비선형 관계를 수학적으로 모델링하고 특징 보상에 필요한 파라미터를 오염된 음성 특징으로부터 추정한다.
대표적인 모델 기반의 특징 보상 방법은 정규 혼합 모델(Gaussian Mixture Model, GMM) 또는 마르코프 은닉 모델(Hidden Markov Model, HMM)로 표현된 음성 특징의 확률 분포를 기반으로 음성 특징, 잡음 특징, 오염된 음성 특징의 비선형 관계 모델을 벡터 테일러 급수(vector Taylor series)를 사용하여 근사화하고, 최소 평균 제곱 오차(Minimum Mean Square Error, MMSE)를 기준치로 입력 음성 특징을 보상하는 방법이다.
도 1에는 잡음 환경하에서의 음성 인식을 위해 벡터 테일러 급수를 사용하는 종래의 특징 보상 시스템이 도시되어 있다.
종래의 특징 보상 시스템(100)은 특징 추출부(110), 잡음 추정부(120), 관계 모델 근사화부(130) 및 음성 특징 보상부(140)로 구성되어, 잡음이 부가된 음성 신호로부터 특징 추출부(110)로부터 추출되는 음성 특징과, 관계 모델 근사화부(130)에 의해 생성되는 관계 모델을 바탕으로, 오염된 음성 특징에서 추정한 잡음 특징을 제거하여 특징 보상을 수행한다.
여기서 관계 모델 근사화부(130)는 훈련 음성 신호로부터 GMM 또는 HMM 형태로 획득한 음성 특징, 추정한 잡음 특징 및 오염된 음성 특정의 비선형 관계를 벡터 테일러 급수로 근사화하는데, 비선형 관계 모델은 음성 신호와 잡음 신호가 서로 비상관(uncorrelated)이라는 가정하에 수학적으로 모델링을 한 것이다. 이러한 방법은 신호 대 잡음 비(Signal to Noise Ratio, SNR)가 낮은 입력 음성 특징에서 성능이 떨어지는 단점이 있다.
SNR이 낮은 입력 음성 특징에서는 관계 모델의 비선형성이 커서 근사화된 모델과 관계 모델의 차이가 크기 때문이다. 이러한 모델에서의 차이는 잡음이 조금 부정확하게 추정되더라도 음성 특징 보상에는 큰 오류를 만들게 된다.
또한, 실제 음성 신호와 잡음 신호는 상관이 있기 때문에, 비선형 관계 모델의 근사화를 정교하게 수행하더라도 수학적으로 기술된 비선형 관계 모델의 자체 오류로 인한 성능 저하가 발생한다.
최근 각광을 받고 있는 심층 신경망(deep neural network, DNN)은 입력 계층과 출력 계층 사이에 다수의 은닉 계층들로 이루어진 신경망으로 입력과 출력의 복잡한 관계를 표현할 수 있는 장점이 있다.
하지만, 현재 음성 인식 기술 분야에 있어서는 아직 심층 신경망 기반의 관계 모델을 사용하여 잡음 환경하에서의 음성 인식 성능을 향상시키는 방안에 대한 연구가 부족한 실정이다.
따라서, 본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은, 심층 신경망 기반의 관계 모델을 사용함으로써, 잡음 환경에서의 음성 인식 성능을 향상시킬 수 있는 특징 보상 시스템 및 방법을 제공함에 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 일 측면에 따른 음성 인식을 위한 특징 보상 시스템은, 오염된 음성 신호로부터 오염된 음성 특성을 추출하는 특징 추출부; 훈련 음성 특징, 훈련 잡음 특징 및 훈련 오염된 음성 특징으로부터 심층 신경망을 기반으로 하여 비선형 관계 모델을 생성하는 관계 모델 생성부; 상기 오염된 음성 특징과, 과거 프레임에서 보상된 음성 특징을 이용하여 평균과 공분산을 포함한 잡음 특징의 확률 분포를 추정하는 잡음 특징 확률 분포 추정부; 상기 잡음 특징의 확률 분포를 반영하여 잡음 특징을 표본화하는 잡음 표본화부; 상기 심층 신경망 기반 비선형 관계 모델을 기반으로 상기 오염된 음성 특징에서 상기 표본화된 잡음 특징을 제거하는 잡음 제거부; 및 상기 표본화된 잡음 특징이 제거된 음성 특징을 결합하여 보상된 음성 특징을 생성하는 특징 결합부로 구성된다.
본 발명의 타 측면에 따른 음성 인식을 위한 특징 보상 방법은, 오염된 음성 신호로부터 오염된 음성 특성을 추출하는 단계; 훈련 음성 특징, 훈련 잡음 특징 및 훈련 오염된 음성 특징으로부터 심층 신경망을 기반으로 하여 비선형 관계 모델을 생성하는 단계; 상기 오염된 음성 특징과, 과거 프레임에서 보상된 음성 특징을 이용하여 평균과 공분산을 포함한 잡음 특징의 확률 분포를 추정하는 단계; 상기 잡음 특징의 확률 분포를 반영하여 잡음 특징을 표본화하는 단계; 상기 심층 신경망 기반 비선형 관계 모델을 기반으로 상기 오염된 음성 특징에서 상기 표본화된 잡음 특징을 제거하는 단계; 및 표본화된 잡음 특징이 제거된 음성 특징을 결합하여 보상된 음성 특징을 생성하는 단계를 포함한다.
이와 같은 본 발명에 따르면, 낮은 신호 대 잡음 비(SNR)에서도 좋은 음성 인식 성능을 제공하기 위하여 비선형 관계 모델을 심층 신경망으로 표현하는 모델 기반의 특징 보상 방법이 제공된다.
이러한 특징 보상 방법은 부정확한 잡음 추정에 강인하기 위해 실제 잡음 특징 외에 추정된 잡음 특징도 사용하여 심층 신경망을 훈련한다.
따라서, 음성 신호와 잡음 신호가 비상관이라는 가정 하에 기술되는 비선형 관계 모델의 수학적인 모델링이 필요 없기 때문에, 수학적 모델링 오류로 인한 음성 인식 성능 저하가 없다.
또한, 비선형성이 강한 심층 신경망 기반 관계 모델을 사용하는 오염된 음성 특징을 보상하는 본 발명의 경우, 단일 잡음 특징을 사용하지 않고, 잡음 특징의 불확실성을 반영하기 때문에, 보상된 음성 특징의 정확도가 높다.
더욱이, 보상된 음성 특징의 불확실성 정보를 음성 인식 복호화에 활용하면 추가적으로 음성 인식 성능을 향상시킬 수 있다.
또한, 본 발명에 따르면, 잡음 특징의 표본화 시에 잡음 특징의 확률 분포에 비례하는 가중치로 중앙 차분 구조(central difference scheme)의 표본화를 수행하기 때문에, 총 표본수가 많더라도, 계산량의 증가에 따른 실시간 동작이 느려지는 것을 방지할 수 있다.
도 1은 잡음 환경하에서의 음성 인식을 위해 벡터 테일러 급수를 사용하는 종래의 특징 보상 시스템의 구성을 도시한 도면이다.
도 2는 본 발명의 실시 예에 따른 음성 인식을 위한 특징 보상 시스템의 구성을 도시한 도면이다.
도 3은 본 발명의 실시 예에 따라 1차원 잡음 특징을 표본화한 예를 도시한 도면이다.
도 4는 본 발명의 실시 예에 따라 2차원 잡음 특징을 중앙 차분 구조로 표본화한 예를 도시한 도면이다.
도 5는 본 발명의 실시 예에 따른 음성 인식을 위한 특징 보상 시스템의 동작에 따른 순서를 도시한 플로우챠트이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 잡음 환경에서의 음성 인식 성능을 향상시키기 위해 심층 신경망 기반의 비선형 관계 모델과 잡음 특징의 불확실성을 사용하는 모델 기반의 특징 보상 시스템 및 방법을 제안한다. 다시 말해 본 발명은 훈련 음성 특징, 훈련 잡음 특징, 추정된 훈련 잡음 특징의 평균, 훈련 오염된 음성 특징으로부터 비선형 관계 모델을 심층 신경망으로 생성하고, 추정된 잡음 특징의 불확실성을 반영하기 위해 확률 분포에 비례하는 가중치로 중앙 차분 구조의 표본화를 수행하고, 심층 신경망 기반의 관계 모델을 사용하여 오염된 음성 특징에서 표본화한 잡음 특징을 제거한 후 가중치로 선형 결합하여 보상된 음성 특징을 구하고, 오염된 음성 특징과 표본화한 잡음 특징이 제거된 음성 특징의 차이의 공분산을 가중치로 선형 결합하여 보상된 음성 특징의 불확실성을 제공하는 특징 보상 시스템 및 방법을 제안한다.
이하, 본 발명의 실시 예에 따른 음성 인식을 위한 특징 보상 시스템 및 방법에 대하여 첨부된 도면을 참조하여 상세하게 설명한다.
도 2는 본 발명의 실시 예에 따른 음성 인식을 위한 특징 보상 시스템의 구성을 도시한 도면이고, 도 3은 본 발명의 실시 예에 따라 1차원 잡음 특징을 표본화한 예를 도시한 도면이며, 도 4는 본 발명의 실시 예에 따라 2차원 잡음 특징을 중앙 차분 구조로 표본화한 예를 도시한 도면이다.
도 2를 참조하면, 본 발명의 실시 예에 따른 음성 인식을 위한 특징 보상 시스템(200, 이하 ‘시스템’)은 심층 신경망으로 비선형 관계를 모델링하고 잡음 특징의 불확실성을 고려하여 잡음을 제거한다.
이를 위하여, 상기 시스템(200)은 특징 추출부(210), 관계 모델 생성부(220), 잡음 특징 확률 분포 추장부(230), 잡음 표본화부(240), 잡음 제거부(250), 특징 결합부(260) 및 불확실성 생성부(270)로 구성될 수 있다.
상기 특징 추출부(210)는 잡음으로 오염된 음성 신호로부터 특징(‘오염된 음성 특징’)을 추출하며, 주파수 변환부(211), 필터뱅크부(212) 및 로그 에너지 계산부(213)로 구성될 수 있다.
상기 주파수 변환부(211)는 오염된 음성 신호를 기 설정되는 시간 간격(ex. 30ms 이하)으로 분할하고, 고속 푸리에 변환(Fast Fourier Transform, FFT)을 적용하여 시간 영역에서 주파수 영역으로 변환한다.
상기 필터뱅크부(212)는 주파수 변환부(211)에 의해 주파수 영역으로 변환된 음성 신호를 수신하여 멜 스케일(mel scale)로 분할된 복수 개의 필터뱅크를 이용하여 대역통과 필터링을 수행한다.
상기 로그 에너지 계산부(213)는 멜-스케일 필터뱅크부(212)로부터 제공되는 각 필터뱅크 신호에 대하여 로그를 적용하여 로그 에너지 값을 산출하여 특징을 추출한다.
상기 관계 모델 생성부(220)는 훈련 음성 특징, 훈련 잡음 특징 및 훈련 오염된 음성 특징으로부터 심층 신경망을 기반으로 하여 비선형 관계 모델을 생성할 수 있다.
일반적으로 심층 신경망을 훈련시키는 데에는 많은 데이터가 필요하다. 하지만, 실제 잡음 환경에서 음성 신호, 잡음 신호, 오염된 음성 신호를 동시에 많이 확보하기 어렵기 때문에 인위적으로 합성하는 방식을 사용한다.
따라서, 상기 관계 모델 생성부(220)는 잡음 환경(ex. 지하철, 식당, 집, 사무실, 마트 등)에서 수집한 훈련 잡음 신호와 조용한 환경에서 수집한 훈련 음성 신호를 다양한 SNR(0~33dB)로 합하여 훈련 오염된 음성 신호를 생성하고, 훈련 오염된 음성 특징을 추출한다.
이때, 상기 관계 모델 생성부(220)는 훈련 잡음 특징과 훈련 오염된 음성 특징을 입력으로 사용하고, 훈련 음성 특징을 출력으로 하여, 심층 신경망 훈련을 한다.
한편, 부정확하게 추정된 잡음 특징으로 인한 특징 보상 방법의 성능 저하를 방지하기 위하여, 상기 관계 모델 생성부(220)는 잡음 특징 확률 분포 추정부(230)에서 사용한 동일한 방법으로 추정된 훈련 잡음 특징의 평균도 관계 모델을 생성하는데 이용한다.
즉, 상기 관계 모델 생성부(220)는 훈련 음성 특징, 훈련 잡음 특징, 훈련 오염된 음성 특징 및 훈련 잡음 특징의 평균으로부터 심층 신경망을 기반으로 하여 비선형 관계 모델을 생성할 수 있다.
이때, 상기 관계 모델 생성부(220)는 훈련 잡음 특징의 평균과 훈련 오염된 음성 특징을 입력으로 하고, 훈련 음성 특징을 출력으로 하여, 심층 신경망 훈련을 한다.
상기 잡음 특징 확률 분포 추정부(230)는 특징 추출부(210)로부터 추출된 오염된 음성 특징과, 과거 프레임에서 보상된 음성 특징을 이용하여 평균과 공분산을 포함한 잡음 특징의 확률 분포를 추정한다.
이때, 상기 잡음 특징 확률 분포 추정부(230)는 시간에 따라 천천히 변하는 비정상(non-stationary) 잡음 특징에 적합한 확장 칼만 필터를 적용함으로써 잡음 특징의 평균과 공분산을 추정한다. 여기서, 잡음 특징은 다변수 정규 분포로 가정한다.
상기 잡음 표본화부(240)는 잡음 특징 확률 분포 추정부(230)에 의해 추정된 잡음 특징의 확률 분포를 반영하여 잡음 특징을 표본화한다. 그리고, 상기 잡음 표본화부(240)에 의해 표본화된 잡음 특징은 잡음 제거부(250)로 제공된다.
도 3에는 잡음 표본화부(240)가 1차원 잡음 특징을 표본화한 예가 도시되어 있는데, 확률 값이 높은 잡음 특징의 평균에 가까울수록 표본수가 많아진다.
표본화한 잡음 특징으로 심층 신경망 기반 관계 모델을 사용하는 특징 보상을 사용하는데, 총 표본수가 많아지면 계산량은 크게 된다.
이에, 상기 잡음 표본화부(240)는 적은 계산량으로 잡음 특징의 불확실성을 이용하기 위하여 중앙 차분 구조로만 표본화를 수행하여 총 표본수를 줄인다.
이때, 상기 잡음 표본화부(240)는 정확한 특징 보상을 위해서 잡음 특징의 확률 분포에 따라 표본화한 집음 특징에 가중치를 부여한다.
도 4에는 잡음 표본화부(240)가 2차원 잡음 특징을 중앙 차분 구조로 표본화한 예가 도시되어 있는데, 잡음 표본화부(240)는 잡음 특징 확률 분포 추정부(230)에 의해 추정된 잡음 특징의 공분산에 비례하도록, 평균 잡음 특징과 평균으로부터 일정한 거리에 있는 잡음 특징을 표본화한다. 평균으로부터의 일정한 거리는 복수로 설정할 수 있다.
한편, 상기 잡음 표본화부(240)는 하기의 [수학식 1]처럼 잡음 특징을 표본화한다.
Figure pat00001
여기서, μn은 M차원의 잡음 특징 평균이고, Σn은 공분산의 행렬 제곱근이며, (Σn)i은 행렬 Σn의 i번째 열벡터이고, α는 잡음 특징의 평균과의 거리를 조절하는 상수로서, 0과 1 사이의 값이다.
이때, 표본화된 잡음 특징의 가중치는 하기의 [수학식 2]와 같다.
Figure pat00002
여기서, NORM은 하기의 [수학식 3]과 같이 표본화된 잡음 특징의 가중치의 합을 1로 만들기 위한 정규화 항이고, f(·)는 다변수 정규 분포 함수이다.
Figure pat00003
상기 잡음 제거부(250)는 특징 추출부(210)에 의해 추출된 오염된 음성 특징에서 잡음 표본화부(240)로부터 제공되는 표본화된 잡음 특징을 관계 모델 생성부(220)에 의해 생성된 관계 모델을 기반으로 제거한다.
이때, 잡음 제거부(250)로 특징 추출부(210)에 의해 추출된 오염된 음성 특징, 잡음 표본화부(240)로부터 제공되는 표본화된 잡음 특징 및 관계 모델 생성부(220)에 의해 생성된 관계 모델이 입력되면, 잡음 제거부(250)로부터 하기의 [수학식 4]에 따라, 오염된 음성 특징에서 표본화된 잡음 특징이 제거된 음성 특징이 출력된다. 이하, ‘오염된 음성 특징에서 표본화된 잡음 특징이 제거된 음성 특징’을 ‘잡음 특징이 제거된 음성 특징’이라 한다.
Figure pat00004
여기서, y는 오염된 음성 특징이고, G()는 심층 신경망 기반의 관계 모델 함수이다.
상기 특징 결합부(260)는 잡음 제거부(250)로부터 출력되는 잡음 특징이 제거된 음성 특징을 결합하여 ‘보상된 음성 특징’을 생성한다.
이때, 하기의 [수학식 5]에서와 같이, 상기 특징 결합부(260)는 표본화된 잡음 특징의 가중치를 사용하여 표본화된 잡음 특징이 제거된 음성 특징을 선형 결합함으로써 새로운 보상된 음성 특징(
Figure pat00005
)을 생성할 수 있다.
Figure pat00006
상기 불확실성 생성부(270)는 보상된 음성 특징의 불확실성을 생성한다. 이때, 하기 [수학식 6]에서와 같이, 상기 불확실성 생성부(270)는 보상된 음성 특징과 잡음 특징이 제거된 음성 특징의 차이를 계산하고, 이것의 공분산을 표본화된 잡음 특징의 가중치를 사용하여 선형 결합하고, 표본화된 잡음 특징간의 거리로 인해 발생하는 공분산의 크기를 조정함으로써, 보상된 음성 특징의 불확실성(
Figure pat00007
)을 생성한다.
Figure pat00008
이상에서는 본 발명의 실시 예에 따른 음성 인식을 위한 특징 보상 시스템의 구성 및 기능에 대해서 살펴보았다. 이하에서는 본 발명의 실시 예에 따른 음성 인식을 위한 특징 보상 시스템의 동작에 관하여 첨부된 도면을 참조하여 구체적으로 살펴보기로 한다.
도 5는 본 발명의 실시 예에 따른 음성 인식을 위한 특징 보상 시스템의 동작에 따른 순서를 도시한 플로우챠트이다.
도 5를 참조하면, 먼저 시스템(200)은 오염된 음성 신호로부터 오염된 음성 특징을 추출한다(S500). 이때, 상기 오염된 음성 특징은 오염된 음성 신호를 소정의 시간 간격으로 복수의 프레임으로 분할하고, 분할된 오염된 음성 신호를 시간 영역에서 주파수 영역으로 변환한 후, 변환된 신호에 멜-스케일의 필터 뱅크를 적용한 후, 로그를 적용하여 로그 에너지 값을 산출함으로써 추출될 수 있다.
그리고, 상기 단계 S500과 별도로, 상기 시스템(200)은 심층 신경망 기반의 비선형 관계 모델을 생성한다(S510).
상기 단계 S510에 있어서, 상기 시스템(200)은 훈련 음성 특징, 훈련 잡음 특징, 훈련 오염된 음성 특징을 이용하여 심층 신경망 기반의 비선형 관계 모델을 생성할 수 있다.
상기 훈련 오염된 음성 특징은 잡음 환경에서 수집한 훈련 잡음 신호와 조용한 환경에서 수집한 훈련 음성 신호를 다양한 SNR(0~33dB)로 합하여 생성되는 훈련 오염된 음성 신호로부터 추출될 수 있다.
이때, 상기 시스템(200)은 심층 신경망 훈련을 위해 훈련 잡음 특징과 훈련 오염된 음성 특징을 입력으로 사용하고, 훈련 음성 특징을 출력으로 사용할 수 있다.
또한, 상기 단계 S510에 있어서, 상기 시스템(200)은 훈련 음성 특징, 추정된 훈련 잡음 특징, 훈련 오염된 음성 특징을 이용하여 심층 신경망 기반의 비선형 관계 모델을 생성할 수 있다.
이때, 상기 시스템(200)은 심층 신경망 훈련을 위해 잡음 특징의 확률 분포를 추정한 다계(S520)와 동일한 방법으로 추정된 훈련 잡음 특징의 평균과 훈련 오염된 음성 특징을 입력으로 사용하고, 훈련 음성 특징을 출력을 사용할 수 있다.
상기 단계 S500에 따라 오염된 음성 특징을 추출하고, 단계 S510에 따라 심층 신경망을 기본으로 한 비선형 관계 모델을 생성한 후, 상기 시스템(200)은 오염된 음성 특징과, 과거 프레임에서 보상된 음성 특징을 이용하여, 잡음 특징의 확률 분포를 추정한다(S520).
이때, 상기 단계 S520에 있어서, 상기 시스템(200)은 확장 칼만 필터를 적용함으로써 잡음 특징의 평균과 공분산을 추정한다.
상기 단계 S520 이후, 상기 시스템(200)은 추정된 잡음 특징의 확률 분포를 이용하여 표본화여 수행한다(S530).
이때, 상기 단계 S530에 있어서, 상기 시스템(200)은 적은 계산량으로 잡음 특징의 불확실성을 이용하기 위하여 중앙 차분 구조로 표본화를 수행할 수 있다.
그리고, 상기 단계 S530에 있어서, 중앙 차분 구조로 표본화하는 것은 잡음 특징 확률 분포 단계(S530)에 의해 추정된 잡음 특징의 공분산에 비례하도록, 평균 잡음 특징과 평균으로부터 일정한 거리에 있는 잡음 특징으로 표본화하고, 잡음 특징의 확률 분포에 따라, 표본화된 잡음 특징에 가중치를 부여함으로써 이루어질 수 있다. 이때, 평균으로부터 일정한 거리는 복수로 설정할 수 있고, 정규화를 수행하여 가중치의 합은 1이 되도록 한다.
상기 단계 S530 이후, 상기 시스템(200)은 오염된 음성 특징에서 표본화된 잡음 특징을 제거하여 한다(S540).
이때, 상기 단계 S540에 있어서, 상기 시스템(200)은 오염된 음성 특징에서 표본화된 잡음 특징을 심층 신경망 기반의 비선형 관계 모델을 이용하여 제거하여, 표본화된 잡음 특징이 제거된 음성 특징을 생성한다.
즉, 오염된 음성 특징에서 표본화된 잡음 특징을 제거하는 것은 심층 신경망 기반의 비선형 관계 모델에 오염된 음성 특징과 표본화된 잡음 특징을 입력하는 것에 의해 이루어질 수 있다.
상기 단계 S540 이후, 상기 시스템(200)은 표본화된 잡음 특징이 제거된 음성 특징을 선형 결합하여, 보상된 음성 특징을 생성하고(S550), 보상된 음성 특징의 불확실성을 생성한다(S560).
이때, 상기 단계 S560에서 생성되는 보상된 음성 특징의 불확실성은 보상된 음성 특징과 잡음 특징이 제거된 음성 특징의 차이를 계산하고, 이것의 공분산을 표본화된 잡음 특징의 가중치를 사용하여 선형 결합하고, 표본화된 잡음 특징간의 거리로 인해 발생하는 공분산의 크기를 조정함으로써 생성될 수 있다.
한편, 본 발명에 따른 음성 인식을 위한 특징 보상 시스템 및 방법을 실시 예에 따라 설명하였지만, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진 자에게 자명한 범위 내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.
따라서, 본 발명에 기재된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
210 : 특징 추출부 211 : 주파수 변환부
212 : 필터뱅크부 213 : 로그 에너지 계산부
220 : 관계 모델 생성부 230 : 잡음 특징 확률 분포 추정부
240 : 잡음 표본화부 250 : 잡음 제거부
260 : 특징 결합부 270 : 불확실성 생성부

Claims (18)

  1. 오염된 음성 신호로부터 오염된 음성 특성을 추출하는 특징 추출부;
    훈련 음성 특징, 훈련 잡음 특징 및 훈련 오염된 음성 특징으로부터 심층 신경망을 기반으로 하여 비선형 관계 모델을 생성하는 관계 모델 생성부;
    상기 오염된 음성 특징과, 과거 프레임에서 보상된 음성 특징을 이용하여 평균과 공분산을 포함한 잡음 특징의 확률 분포를 추정하는 잡음 특징 확률 분포 추정부;
    상기 잡음 특징의 확률 분포를 반영하여 잡음 특징을 표본화하는 잡음 표본화부;
    상기 심층 신경망 기반 비선형 관계 모델을 기반으로 상기 오염된 음성 특징에서 상기 표본화된 잡음 특징을 제거하는 잡음 제거부; 및
    상기 표본화된 잡음 특징이 제거된 음성 특징을 결합하여 보상된 음성 특징을 생성하는 특징 결합부로 구성되는
    음성 인식을 위한 특징 보상 시스템.
  2. 제 1 항에 있어서,
    상기 보상된 음성 특징과 상기 표본화된 잡음 특징이 제거된 음성 특징의 차이의 공분산을 결합하고, 상기 표본화된 잡음 특징간의 거리로 인해 발생하는 공분산의 크기를 조정함으로써, 보상된 음성 특징의 불확실성을 생성하는 불확실성 생성부를 더 포함하는
    음성 인식을 위한 특징 보상 시스템.
  3. 제 2 항에 있어서,
    상기 잡음 표본화부는 상기 추정된 잡음 특징의 공분산에 비례하도록, 평균 잡음 특징과 평균으로부터 복수의 일정한 거리에 있는 잡음 특징으로 구성된 중앙 차분 구조로 표본화하는 것
    인 음성 인식을 위한 특징 보상 시스템.
  4. 제 3 항에 있어서,
    상기 잡음 표본화부는 상기 잡음 특징의 확률 분포에 비례하는 가중치를 부여하도록 잡음 특징을 표본화하는 것
    인 음성 인식을 위한 특징 보상 시스템.
  5. 제 4 항에 있어서,
    상기 특징 결합부는 상기 표본화된 잡음 특징의 가중치를 사용하여 표본화된 잡음 특징이 제거된 음성 특징을 선형 결합함으로써 상기 보상된 음성 특징을 생성하는 것
    인 음성 인식을 위한 특징 보상 시스템.
  6. 제 4 항에 있어서,
    상기 불확실성 생성부는 상기 표본화된 잡음 특징의 가중치를 사용하여 보상된 음성 특징과 표본화된 잡음 특징이 제거된 음성 특징을 선형 결합함으로써 상기 보상된 음성 특징의 불확실성을 생성하는 것
    인 음성 인식을 위한 특징 보상 시스템.
  7. 제 1 항에 있어서,
    상기 잡음 특징 확률 분포 추정부는 상기 잡음 특징을 다변수 정규 분포로 설정하고 확장 칼만 필터를 사용하여 잡음 특징의 평균과 공분산을 추정하는 것
    인 음성 인식을 위한 특징 보상 시스템.
  8. 제 1 항에 있어서,
    상기 관계 모델 생성부는 상기 추정된 훈련 잡음 특징의 평균을 추가로 이용하여 비선형 관계 모델을 생성하는 것
    인 음성 인식을 위한 특징 보상 시스템.
  9. 제 1 항에 있어서,
    상기 관계 모델 생성부는 잡음 환경에서 수집한 훈련 잡음 신호와 조용한 환경에서 수집한 훈련 음성 신호를 다양한 신호 대 잡음 비로 합하여 훈련 오염된 음성 신호를 생성하고, 생성된 훈련 오염된 음성 신호로부터 훈련 오염된 음성 특징을 추출하는 것
    인 음성 인식을 위한 특징 보상 시스템.
  10. 오염된 음성 신호로부터 오염된 음성 특성을 추출하는 단계;
    훈련 음성 특징, 훈련 잡음 특징 및 훈련 오염된 음성 특징으로부터 심층 신경망을 기반으로 하여 비선형 관계 모델을 생성하는 단계;
    상기 오염된 음성 특징과, 과거 프레임에서 보상된 음성 특징을 이용하여 평균과 공분산을 포함한 잡음 특징의 확률 분포를 추정하는 단계;
    상기 잡음 특징의 확률 분포를 반영하여 잡음 특징을 표본화하는 단계;
    상기 심층 신경망 기반 비선형 관계 모델을 기반으로 상기 오염된 음성 특징에서 상기 표본화된 잡음 특징을 제거하는 단계; 및
    표본화된 잡음 특징이 제거된 음성 특징을 결합하여 보상된 음성 특징을 생성하는 단계를 포함하는
    음성 인식을 위한 특징 보상 방법.
  11. 제 10 항에 있어서,
    상기 보상된 음성 특징과 상기 표본화된 잡음 특징이 제거된 음성 특징의 차이의 공분산을 결합하고, 상기 표본화된 잡음 특징간의 거리로 인해 발생하는 공분산의 크기를 조정함으로써, 보상된 음성 특징의 불확실성을 생성하는 단계를 더 포함하는
    음성 인식을 위한 특징 보상 방법.
  12. 제 11 항에 있어서,
    상기 표본화하는 단계는 상기 추정된 잡음 특징의 공분산에 비례하도록, 평균 잡음 특징과 평균으로부터 복수의 일정한 거리에 있는 잡음 특징으로 구성된 중앙 차분 구조로 표본화하는 것
    인 음성 인식을 위한 특징 보상 방법.
  13. 제 12 항에 있어서,
    상기 표본화하는 단계는 상기 잡음 특징의 확률 분포에 비례하는 가중치를 부여하도록 잡음 특징을 표본화하는 것
    인 음성 인식을 위한 특징 보상 방법.
  14. 제 13 항에 있어서,
    상기 보상된 음성 특징을 생성하는 단계는 표본화된 잡음 특징의 가중치를 사용하여 표본화된 잡음 특징이 제거된 음성 특징을 선형 결합함으로써 상기 보상된 음성 특징을 생성하는 것
    인 음성 인식을 위한 특징 보상 방법.
  15. 제 13 항에 있어서,
    상기 보상된 음성 특징의 불확실성을 생성하는 단계는 상기 표본화된 잡음 특징의 가중치를 사용하여 보상된 음성 특징과 표본화된 잡음 특징이 제거된 음성 특징을 선형 결합함으로써 상기 보상된 음성 특징의 불확실성을 생성하는 것
    인 음성 인식을 위한 특징 보상 방법.
  16. 제 10 항에 있어서,
    상기 잡음 특징의 확률 분포를 추정하는 단계는 상기 잡음 특징을 다변수 정규 분포로 설정하고 확장 칼만 필터를 사용하여 잡음 특징의 평균과 공분산을 추정하는 것
    인 음성 인식을 위한 특징 보상 방법.
  17. 제 10 항에 있어서,
    상기 비선형 관계 모델을 생성하는 단계는 추정된 상기 훈련 잡음 특징의 평균을 추가로 이용하여 비선형 관계 모델을 생성하는 것
    인 음성 인식을 위한 특징 보상 방법.
  18. 제 10 항에 있어서,
    상기 비선형 관계 모델을 생성하는 단계는 잡음 환경에서 수집한 훈련 잡음 신호와 조용한 환경에서 수집한 훈련 음성 신호를 다양한 신호 대 잡음 비로 합하여 훈련 오염된 음성 신호를 생성하고, 생성된 훈련 오염된 음성 신호로부터 훈련 오염된 음성 특징을 추출하는 것
    인 음성 인식을 위한 특징 보상 방법.
KR1020160006916A 2016-01-20 2016-01-20 음성 인식을 위한 특징 보상 시스템 및 방법 KR20170087211A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160006916A KR20170087211A (ko) 2016-01-20 2016-01-20 음성 인식을 위한 특징 보상 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160006916A KR20170087211A (ko) 2016-01-20 2016-01-20 음성 인식을 위한 특징 보상 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20170087211A true KR20170087211A (ko) 2017-07-28

Family

ID=59422416

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160006916A KR20170087211A (ko) 2016-01-20 2016-01-20 음성 인식을 위한 특징 보상 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20170087211A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257148A (zh) * 2018-01-17 2018-07-06 厦门大学 特定对象的目标建议窗口生成方法及其在目标跟踪的应用
WO2024085299A1 (ko) * 2022-10-21 2024-04-25 주식회사 히어디엘 대역통과필터와 딥러닝을 이용한 음성파형의 주변잡음 제거 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257148A (zh) * 2018-01-17 2018-07-06 厦门大学 特定对象的目标建议窗口生成方法及其在目标跟踪的应用
CN108257148B (zh) * 2018-01-17 2020-09-25 厦门大学 特定对象的目标建议窗口生成方法及其在目标跟踪的应用
WO2024085299A1 (ko) * 2022-10-21 2024-04-25 주식회사 히어디엘 대역통과필터와 딥러닝을 이용한 음성파형의 주변잡음 제거 장치 및 방법

Similar Documents

Publication Publication Date Title
CN109800700B (zh) 一种基于深度学习的水下声信号目标分类识别方法
CN103117059B (zh) 一种基于张量分解的语音信号特征提取方法
CN105023580B (zh) 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
KR101305373B1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
CN103559888A (zh) 基于非负低秩和稀疏矩阵分解原理的语音增强方法
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
Shi et al. Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation.
CN109767781A (zh) 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质
Xu et al. Global variance equalization for improving deep neural network based speech enhancement
Astudillo et al. An uncertainty propagation approach to robust ASR using the ETSI advanced front-end
CN113077806B (zh) 音频处理方法及装置、模型训练方法及装置、介质和设备
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
González et al. MMSE-based missing-feature reconstruction with temporal modeling for robust speech recognition
KR20170087211A (ko) 음성 인식을 위한 특징 보상 시스템 및 방법
Bavkar et al. PCA based single channel speech enhancement method for highly noisy environment
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
CN111968627B (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
CN113035217A (zh) 一种基于声纹嵌入的低信噪比条件下的语音增强方法
CN108573698B (zh) 一种基于性别融合信息的语音降噪方法
CN113066483A (zh) 一种基于稀疏连续约束的生成对抗网络语音增强方法
Alex et al. Performance analysis of SOFM based reduced complexity feature extraction methods with back propagation neural network for multilingual digit recognition
Xuhong et al. Speech Enhancement using Convolution Neural Network-based Spectrogram Denoising
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム
Sharma et al. Dynamic Spectrum Derived MFCC and HFCC Parameters and Human Robot Speech Interaction
Junjea A dynamic segment based statistical derived PNN model for noise robust speech recognition