KR20190019688A - 음성 신호 대역폭 확장 장치 및 방법 - Google Patents

음성 신호 대역폭 확장 장치 및 방법 Download PDF

Info

Publication number
KR20190019688A
KR20190019688A KR1020170104925A KR20170104925A KR20190019688A KR 20190019688 A KR20190019688 A KR 20190019688A KR 1020170104925 A KR1020170104925 A KR 1020170104925A KR 20170104925 A KR20170104925 A KR 20170104925A KR 20190019688 A KR20190019688 A KR 20190019688A
Authority
KR
South Korea
Prior art keywords
high frequency
speech signal
frequency energy
unvoiced
energy
Prior art date
Application number
KR1020170104925A
Other languages
English (en)
Other versions
KR102078350B1 (ko
Inventor
장준혁
이봉기
노경진
Original Assignee
국방과학연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소 filed Critical 국방과학연구소
Priority to KR1020170104925A priority Critical patent/KR102078350B1/ko
Publication of KR20190019688A publication Critical patent/KR20190019688A/ko
Application granted granted Critical
Publication of KR102078350B1 publication Critical patent/KR102078350B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치는 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부, 특징 벡터로부터 음성 신호의 유성음 고주파 에너지를 추정하는 유성음 모델부, 특징 벡터로부터 음성 신호의 무성음 고주파 에너지를 추정하는 무성음 모델부, 특징 벡터로부터 음성 신호가 유성음일 확률 또는 무성음일 확률을 추정하는 성음 분류부, 유성음일 확률 또는 무성음일 확률에 기초하여 유성음 고주파 에너지 및 무성음 고주파 에너지를 합성하여 음성 신호의 고주파 에너지를 계산하는 에너지 계산부 및 계산된 고주파 에너지를 기초로 음성 신호의 고주파 신호를 복원하는 복원부를 포함한다.

Description

음성 신호 대역폭 확장 장치 및 방법{VOICE SIGNAL BANDWIDTH EXTENSION DEVICE AND METHOD}
본 발명은 음성 신호 대역폭 확장 장치 및 방법에 관한 것으로서, 보다 자세하게는 기계 학습 모델의 앙상블을 기초로 협대역 음성 신호로부터 고주파 신호를 추정하여 광대역 음성 신호를 복원하는 음성 신호 대역폭 확장 장치 및 방법에 관한 것이다.
인간의 가청 주파수는 광대역의 신호까지 포함하지만, 음성 통신 기술의 핵심이라고 여겨지는 음성 코덱을 이용한 무선 음성 통화 환경에서는 제한된 전송 비트율로 인해 저주파 기반의 협대역 음성 신호만을 전송한다.
그러나 이러한 협대역 음성 신호는 광대역 음성 신호에 비해 명료도가 낮기 때문에 제한된 전송 비트율 조건에서 고주파 신호가 복원된 광대역 음성 신호를 얻기 위한 기술의 필요성이 증가하고 있다.
이를 위해, 협대역 음성 신호로부터 고주파 신호를 복원하여 광대역 음성 신호를 생성하는 다양한 대역폭 확장 기술이 무선 음성 통신, 인터넷 망을 이용한 실시간 음성 전송, 음성 인식, 음성 코덱 등의 분야에서 음성 품질 및 음성인식률 향상을 위해 활발히 연구되고 있다.
본 발명의 실시예에서 해결하고자 하는 과제는 기계 학습 모델의 앙상블을 이용하여 협대역 음성 신호로부터 고주파 성분의 신호가 복원된 광대역 음성 신호를 생성하는 기술을 제공하는 것이다.
또한 기계 학습 모델을 기반으로 고주파 신호를 복원 시에 피크와 밸리에 잡음이 발생하는 것을 억제하는 기술을 제공하고자 한다.
다만, 본 발명의 실시예가 이루고자 하는 기술적 과제는 이상에서 언급한 과제로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 기술적 과제가 도출될 수 있다.
본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치는 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부, 상기 특징 벡터로부터 상기 음성 신호의 유성음 고주파 에너지를 추정하는 유성음 모델부, 상기 특징 벡터로부터 상기 음성 신호의 무성음 고주파 에너지를 추정하는 무성음 모델부, 상기 특징 벡터로부터 상기 음성 신호가 유성음일 확률 또는 무성음일 확률을 추정하는 성음 분류부, 상기 유성음일 확률 또는 무성음일 확률에 기초하여 상기 유성음 고주파 에너지 및 상기 무성음 고주파 에너지를 합성하여 상기 음성 신호의 고주파 에너지를 계산하는 에너지 계산부 및 상기 계산된 고주파 에너지를 기초로 상기 음성 신호의 고주파 신호를 복원하는 복원부를 포함한다.
이때 상기 특징 벡터 추출부는 상기 음성 신호를 푸리에 변환한 후 로그-파워를 적용하여 상기 특징 벡터를 추출할 수 있다.
또한 상기 유성음 모델부 및 상기 무성음 모델부의 각각은 상기 특징 벡터로부터 상기 음성 신호에서 잡음을 제거한 음성 신호의 특징 벡터를 출력하는 디노이징 신경망을 포함하고, 상기 유성음 모델부는 상기 잡음을 제거한 음성신호의 특징 벡터로부터 상기 음성 신호의 유성음 고주파 에너지를 추정하고, 상기 무성음 모델부는 상기 잡음을 제거한 특징 벡터로부터 상기 음성 신호의 무성음 고주파 에너지를 추정할 수 있다.
더불어 상기 유성음 모델부 및 상기 무성음 모델부의 각각은 n개의 신경망(n은 2 이상의 자연수)을 포함하고 상기 n개의 신경망은 상기 특징 벡터를 입력 받으면서, 상기 n개의 신경망 중 i+1번째(i는 1부터 n-1) 신경망은 i 번째 신경망의 출력을 입력 받도록 학습될 수 있다.
이때 상기 i 번째 신경망은 상기 i+1 번째 신경망이 출력하는 고주파 대역의 일부 대역에 대한 에너지를 출력하고, 상기 유성음 모델부의 n번째 신경망은 상기 유성음 고주파 에너지를 출력하고, 상기 무성음 모델부의 n번째 신경망은 상기 무성음 고주파 에너지를 출력할 수 있다.
아울러 상기 에너지 계산부는, [수학식 1]
Figure pat00001
(상기
Figure pat00002
는 상기 유성음일 확률, 상기
Figure pat00003
는 상기 유성음 고주파 에너지, 상기
Figure pat00004
는 상기 무성음 고주파 에너지, 상기
Figure pat00005
는 상기 음성 신호의 고주파 에너지) 을 통해 상기 음성 신호의 고주파 에너지
Figure pat00006
를 계산할 수 있다.
또한 상기 복원부는 상기 고주파 대역을 복수의 부분 대역으로 나누었을 때, 상기 음성 신호의 저주파 에너지를 폴딩시킨 폴딩 에너지의 상기 복수의 부분 대역별 평균 값과, 상기 계산된 고주파 에너지의 상기 복수의 부분 대역별 평균 값의 차이를 기초로 상기 폴딩 에너지를 보정하여 상기 고주파 대역의 에너지를 복원할 수 있다.
더불어 상기 복원부는 상기 음성 신호의 저주파 대역의 위상을 점대칭하여 상기 고주파 대역의 위상을 복원하고, 상기 복원된 고주파 대역의 에너지 및 상기 복원된 고주파 대역의 위상을 기초로 상기 음성 신호의 고주파 신호를 복원할 수 있다.
본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 방법은 하나 이상의 프로세서에 의해 수행되고, 음성 신호로부터 특징 벡터를 추출하는 단계, 상기 특징 벡터로부터 상기 음성 신호의 유성음 고주파 에너지를 추정하는 단계, 상기 특징 벡터로부터 상기 음성 신호의 무성음 고주파 에너지를 추정하는 단계, 상기 특징 벡터로부터 상기 음성 신호가 유성음일 확률 또는 무성음일 확률을 추정하는 단계, 상기 유성음일 확률 또는 무성음일 확률에 기초하여 상기 유성음 고주파 에너지 및 상기 무성음 고주파 에너지를 합성하여 상기 음성 신호의 고주파 에너지를 계산하는 단계 및 상기 계산된 고주파 에너지를 기초로 상기 음성 신호의 고주파 신호를 복원하는 단계를 포함한다.
본 발명의 실시예에 따르면, 기계 학습 모델의 앙상블을 통해 추정된 고주파 신호의 에너지와 저주파 신호를 폴딩한 신호를 함께 이용하여, 고주파 신호의 복원 시에 피크와 밸리에 잡음이 발생하는 것을 억제할 수 있다.
또한 복수의 신경망을 포함하는 기계 학습 모델을 이용하여 고주파 대역의 각 부분대역이 가지는 에너지를 보다 정교하게 추정할 수 있다.
더불어 유성음 및 무성음을 구분하여 에너지를 추정하는 기계 학습 모델을 생성하여 음성 신호가 유성음/무성음에 해당할 확률에 기반한 고주파 신호를 추정하므로 다양한 특성의 음성 신호에 적용 가능한 대역폭 확장 기술을 제공할 수 있다.
따라서 본 발명의 실시예들은 음성 신호의 유성음/무성음 특징을 반영하고 딥신경망 앙상블의 학습을 통해 다양한 잡음 환경에서 기존 기술에 비해 보다 강인하고 우수한 음성대역폭 확장 기술을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치의 학습 단계 및 적용 단계에서 각 구성이 동작하는 메커니즘을 보여주는 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 유성음 모델부 및 무성음 모델부가 포함하는 신경망을 도시한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치가 저주파 신호를 폴딩하여 고주파 성분의 신호를 추정하는 동작을 설명하기 위한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치가 복원한 고주파 에너지와 실제 고주파 에너지를 비교한 예시도이다.
도 6은 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 방법을 설명하기 위한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.  그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 범주는 청구항에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명은 본 발명의 실시예들을 설명함에 있어 실제로 필요한 경우 외에는 생략될 것이다.  그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.  그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.
또한 어떤 구성 요소들을 포함한다는 표현은 개방형의 표현으로서 해당 구성 요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성 요소들을 배제하는 것으로 이해되어서는 안 된다.
나아가 어떤 구성 요소가 다른 구성 요소에 연결되어 있다거나 접속되어 있다고 언급될 때에는, 그 다른 구성 요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 한다.
이하에서는 도면들을 참조하여 본 발명의 실시예들에 대해 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)의 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)는 기계 학습 모델을 통해 고주파 신호가 손실된 음성 신호(10)로부터 고주파 신호를 복원하는 인자들을 도출하여, 도출된 인자들을 기초로 음성 신호의 고주파 신호를 복원한다.
여기서, 고주파 신호는 고주파 에너지와 고주파 위상으로 구성된다. 이때 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)는 기계 학습 모델의 앙상블을 통해 고주파 에너지를 추정하고, STFT 변환 시 저주파 위상과 고주파 위상이 점대칭한다는 특성을 이용하여 고주파 위상을 추정하여, 추정된 고주파 에너지 및 고주파 위상을 합성하여 고주파 신호가 복원된 음성 신호(20)를 생성할 수 있다.
이를 위하여, 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)는 무손실 유성음 신호(13) 및 무손실 무성음 신호(15)를 기계 학습의 학습 데이터로 사용하여 고주파 에너지를 복원시키기 위한 인자들을 추정하도록 학습된 기계 학습 모델들을 사용한다. 이하, 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)의 구성 요소를 설명한다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)는 특징 벡터 추출부(110), 유성음 모델부(120), 무성음 모델부(130), 성음 분류부(140), 에너지 계산부(150) 및 복원부(160)를 포함한다.
특징 벡터 추출부(110)는 음성 신호로부터 특징 벡터를 추출한다. 특징 벡터는 음성 신호의 일부 또는 전부의 특성을 물리적인 양으로 표현한 데이터이다.
예를 들어, 특징 벡터 추출부(110)는 시간 영역의 음성 신호
Figure pat00007
을 아래 [수학식 1]을 통해 STFT(short-time Fourier transform) 변환하여 주파수 신호
Figure pat00008
로 변환하고, 청각적 특징을 더욱 잘 반영할 수 있도록 주파수 영역으로 변환된 신호에 아래 [수학식 2]와 같이 로그-파워를 취한
Figure pat00009
을 특징 벡터로서 사용할 수 있다.
Figure pat00010
Figure pat00011
여기서, [수학식 1] 및 [수학식 2]에서 k는 주파수 빈(frequency bin), h(m)은 창 함수(window function), M은 창 길이(window length)를 나타낸다. 한편, STFT의 대칭적 특성에 따라
Figure pat00012
을 만족하므로, 수학식 2에서는 K = M/2 + 1 로 설정하여 창 길이 M의 절반에 해당하는 주파수 빈의 값을 특징 벡터로서 사용할 수 있다.
이때
Figure pat00013
의 일부 구간을 저주파 구간으로, 나머지 일부 구간을 고주파 구간으로 나눌 수 있다. 예를 들어,
Figure pat00014
을 저주파 구간으로 설정하고, 그 나머지 구간인
Figure pat00015
을 추정해야 할 고주파 구간으로 설정할 수 있다. 이러한 구간의 분리는 음성 신호에 따라 달라질 수 있으며 상술한 예시에 한정되지 않는다.
한편, 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)는 음성 신호가 유성음인 경우와 무성음인 경우를 구분하여 음성 신호의 고주파 에너지를 복원한다.
여기서, 유성음이란 성대의 진동을 수반하는 음이며, 무성음이란 성대의 진동을 수반하지 않는 음이다. 이때 유성음과 무성음은 그 특성이 서로 상이하기 때문에 에너지를 추정하는 방식 또는 잡음과 구별되는 방식에 차이가 존재한다. 이러한 이유로 본 발명의 일 실시예는 음성 신호가 유성음인 경우와 무성음인 경우를 가정하여 각각 추정된 에너지 및 음성 신호가 특정 성음일 확률을 기초로 고주파 에너지를 복원할 수 있다.
이를 위해, 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)는 음성 신호가 유성음인 경우 음성 신호의 고주파 에너지를 추정하는 신경망으로 구성된 유성음 모델부(120), 음성 신호가 무성음인 경우 음성 신호의 고주파 에너지를 추정하는 신경망으로 구성된 무성음 모델부(130) 및 음성 신호가 유성음인지 무성음인지 확률을 추정하는 신경망으로 구성된 성음 분류부(140)의 3가지 기계 학습 모델을 사용할 수 있다.
도 2는 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치의 학습 단계 및 적용 단계에서 각 구성이 동작하는 메커니즘을 보여주는 도면이다.
도 2를 참조하면, 유성음 모델부(120)는 유성음 신호의 저주파 신호를 입력 데이터로 설정하고 유성음 신호의 고주파 에너지를 출력 데이터로 설정하여 기계 학습이 수행되고, 이를 통해 입력 데이터와 출력 데이터 간의 연관 관계가 학습되도록 신경망이 구성될 수 있다.
학습 단계에서, 무성음 모델부(130)는 무성음 신호의 저주파 신호를 입력 데이터로 설정하고 무성음 신호의 고주파 에너지를 출력 데이터로 설정하여 기계 학습이 수행되고, 이를 통해 입력 데이터와 출력 데이터 간의 연관 관계가 학습되도록 신경망이 구성될 수 있다.
성음 분류부(140)는 유성음 신호 및 무성음 신호를 입력 데이터로 설정하고 유성음 신호 및 무성음 신호를 특정하는 클래스를 출력 데이터로 설정하여 기계 학습이 수행되고, 이를 통해 입력 데이터와 출력 데이터 간의 연관 관계가 학습되도록 신경망이 구성될 수 있다.
이때 유성음 모델부(120), 무성음 모델부(130) 및 성음 분류부(140)는 음성 신호로부터 추출된 특징 벡터를 기계 학습에 사용할 수 있고, 이를 위해 음성 신호로부터 특징 벡터를 추출하는 다양한 종류의 알고리즘을 사용할 수 있다. 또한 상술한 유성음 모델부(120), 무성음 모델부(130) 및 성음 분류부(140)의 학습 방법은 하나의 예시일 뿐 위의 설명에 한정되지 않으며, 다양한 방법으로 유성음 신호의 고주파 에너지 및 무성음 신호의 고주파 에너지를 추정하고, 음성 신호의 성음을 분류하도록 하는 학습 방법을 사용할 수 있다.
이에 따라, 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)는 도 2의 예시에 따라 기계 학습이 완료된 유성음 모델부(120), 무성음 모델부(130) 및 성음 분류부(140)로부터 도출된 인자들을 기초로 적용 단계에서 음성 신호의 고주파 신호를 복원할 수 있다.
적용 단계에서, 유성음 모델부(120)는 입력되는 음성 신호가 유성음이라고 가정하여 고주파 신호가 손실된 음성 신호의 특징 벡터로부터 음성 신호의 손실된 유성음 고주파 에너지를 추정하고, 무성음 모델부(130)는 입력되는 음성 신호가 무성음이라고 가정하여, 고주파 신호가 손실된 음성 신호의 특징 벡터로부터 음성 신호의 손실된 무성음 고주파 에너지를 추정한다.
이를 위해, 유성음 모델부(120) 및 무성음 모델부(130) 각각은 복수의 신경망을 포함할 수 있다. 이때 복수의 신경망은 각각 동일한 특징 벡터를 입력으로 받으면서, 앞 신경망이 출력한 데이터를 바로 다음 신경망의 입력 데이터로 사용하여 보다 정확한 결과를 도출하도록 학습될 수 있다.
즉, 본 발명의 일 실시예에 따른 유성음 모델부(120) 및 무성음 모델부(130)는 n개의 신경망(n은 2 이상의 자연수)을 포함하고, n개의 신경망은 특징 벡터를 입력 받으면서, n개의 신경망 중 i 번째(i는 1부터 n-1) 신경망의 출력은 i+1 번째 신경망의 입력으로 사용되도록 학습될 수 있다.
도 3은 본 발명의 일 실시예에 따른 유성음 모델부(120) 및 무성음 모델부(130)가 포함하는 신경망을 도시한 예시도이다.
도 3에 도시된 바와 같이, 유성음 모델부(120) 및 무성음 모델부(130)는 4개의 신경망(왼쪽부터 순서대로 1번째 신경망~4번째 신경망)을 포함할 수 있다. 이때 각각의 신경망은 동일한 특징 벡터를 입력받는다. 이와 동시에, 2번째 신경망은 1번째 신경망이 도출한 값을 입력받고, 3번째 신경망은 2번째 신경망이 도출한 값을 입력받고, 4번째 신경망은 3번째 신경망이 도출한 값을 입력받아 최종 결과를 도출할 수 있다.
이때, 1번째 신경망은 특징 벡터를 통해 음성 신호의 고주파 대역 4~5KHz의 에너지 T1 을 추정하고, 2번째 신경망은 T1 을 입력 받아 특징 벡터와 함께 음성 신호의 고주파 대역 4~6KHz의 에너지 T2 를 추정하고, 3번째 신경망은 T2 을 입력 받아 특징 벡터와 함께 음성 신호의 고주파 대역 4~7KHz의 에너지 T3 을 추정하고, 4번째 신경망은 T4 을 입력 받아 특징 벡터와 함께 음성 신호의 고주파 대역 4~8KHz의 에너지 T4 를 추정할 수 있다.
즉, n개의 신경망 중 i 번째(i는 1부터 n-1) 신경망의 출력은 i+1 번째 신경망이 출력하는 고주파 대역의 일부 대역에 대한 에너지를 출력하고, 유성음 고주파 에너지 및 무성음 고주파 에너지는 n번째 신경망으로부터 출력될 수 있다.
이와 같이, 고주파 대역의 에너지를 한 번에 도출하는 것이 아니라, 앞 신경망이 출력한 부분 대역에 대한 에너지를 다음 신경망의 입력으로 사용하고, 이러한 입력 데이터를 기초로 다음 신경망이 보다 넓은 범위의 부분 대역 에너지를 예측하도록 신경망을 구성함으로써, 본 발명의 일 실시예는 한 번에 고주파 에너지를 추정하는 방식에 비해 보다 정교하게 고주파 에너지를 추정할 수 있다.
한편, 본 발명의 일 실시예에 따른 유성음 모델부(120) 및 무성음 모델부(130)는 도 3에 도시된 바와 같이 잡음이 제거된 음성 신호의 특징 벡터를 사용할 수 있도록 디노이징(denoising) 신경망을 더 포함할 수 있다.
디노이징 신경망은 잡음이 포함된 음성 신호를 입력 데이터로 설정하고, 잡음이 없는 음성 신호를 출력 데이터로 설정하여 학습될 수 있으며, 디노이징 신경망을 통과하여 도출된 특징 벡터를 기초로 유성음 고주파 에너지 및 무성음 고주파 에너지를 추정하여, 고주파 에너지를 보다 정확하게 추정할 수 있다.
성음 분류부(140)는 특징 벡터로부터 음성 신호가 유성음 또는 무성음일 확률을 추정한다. 이를 위해, 성음 분류부(140)는 학습 단계에서 유성음 음성 신호의 특징 벡터 및 무성음 음성 신호의 특징 벡터를 입력 데이터로 설정하여 유성음 및 무성음의 클래스를 분류(binary classification)하도록 학습될 수 있다.
예를 들어, 성음 분류부(140)는 제한된 볼츠만 머신(restricted Boltzmann machine, RBM)을 여러 층으로 쌓은 구조인 딥신경망과 역전파 알고리즘(backpropagation)을 사용하여 학습될 수 있다. 다만, 이러한 방법은 성음 분류부(140)를 학습하기 위한 하나의 예시일 뿐으로 이에 한정되지 않으며, 다양한 알고리즘을 통해 음성 신호로부터 유성음 및 무성음을 구분할 수 있도록 성음 분류부(140)를 학습시킬 수 있다.
에너지 계산부(150)는 성음 분류부(140)가 추정한 확률에 기초하여 유성음 모델부(120)가 추정한 유성음 고주파 에너지 및 무성음 모델부(130)가 추정한 무성음 고주파 에너지를 합성하여 음성 신호의 고주파 에너지를 계산할 수 있다.
예를 들면, 아래 [수학식 3]에 따라 유성음 고주파 에너지와 무성음 고주파 에너지를 합성하여 음성 신호의 고주파 에너지를 계산할 수 있다
Figure pat00016
여기서,
Figure pat00017
는 음성 신호가 유성음일 확률,
Figure pat00018
는 유성음 고주파 에너지,
Figure pat00019
는 무성음 고주파 에너지,
Figure pat00020
는 음성 신호의 고주파 에너지를 의미한다.
복원부(160)는 에너지 계산부(150)가 계산한 고주파 에너지를 기초로 음성 신호의 고주파 신호를 복원한다. 한편, 에너지 계산부(150)가 계산한 고주파 에너지를 그대로 고주파 신호로 사용한다면, 고주파 신호의 피크(peak)와 밸리(valley)에 잡음이 발생할 수 있다. 이에 따라, 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)는 고주파 신호의 피크(peak)와 밸리(valley)에 잡음이 발생하는 것을 억제하기 위해 저주파 에너지 스펙트럼을 폴딩한 신호를 기초로 고주파 성분의 신호를 추정할 수 있다.
도 4는 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)가 저주파 신호를 폴딩하여 고주파 성분의 신호를 추정하는 동작을 설명하기 위한 예시도이다.
도 4에 도시된 바와 같이, 복원부(160)는 음성 신호의 저주파 에너지를 폴딩시킨 폴딩 에너지 스펙트럼에 에너지 계산부(150)가 계산한 고주파 에너지를 반영하여 고주파 에너지를 계산할 수 있다.
이를 위해, 복원부(160)는 고주파 대역(예: 4~8 KHz)을 복수의 부분 대역(예: 4~8 KHz의 주파수 대역을 32등분하여 각각 250hz 대역에 해당하는 주파수 범위의 32개의 부분 대역을 만듦)으로 나누었을 때, 폴딩 에너지의 부분 대역별 평균 값과, 계산된 고주파 에너지의 부분 대역별 평균 값의 차이를 기초로 폴딩 에너지를 보정하여 고주파 에너지를 계산할 수 있다.
예를 들어, 저주파 구간의 에너지가 위 수학식 2에 따라,
Figure pat00021
라면, 저주파 구간의 에너지를 폴딩 시킨 폴딩 에너지는
Figure pat00022
이다. 이때 폴딩 에너지의 부분 대역별 평균값과, 에너지 계산부(150)가 계산한 고주파 에너지의 부분 대역별 평균 값의 차이 Dn는 아래 수학식 4에 따라 계산될 수 있다.
Figure pat00023
여기서, M은 창 함수의 길이, t는 복수의 부분 대역의 총 개수, n은 각 부분 대역을 의미한다.
예를 들어, 창 함수의 길이(M)가 512라면, STFT는 대칭성을 가지는 특성을 지니므로 고주파 대역에 포함된 주파수 빈의 개수는 128개이다. 이때 고주파 대역이 4~8 KHz이고, 이때 부분 대역을 32개의 부분 대역으로 나눈다고 가정하면, 각 부분 대역은 4개의 주파수 빈을 갖는다. 이때 각 부분 대역에서 4개 주파수 빈에 대한 폴딩 에너지 평균값과, 4개 주파수 빈에 대해 에너지 계산부(150)가 계산한 고주파 에너지의 평균값을 빼서 D1, D2, D3, D4,,, D32 를 구할 수 있다. 이때 나눌 수 있는 부분 대역의 개수는 사용자의 설정에 따라 달라질 수 있다.
이후, 아래 수학식 5와 같이 각각의 주파수 빈에 대응하는 폴딩 에너지에 수학식 4에 따라 계산된 Dn을 빼서 음성 신호의 고주파 에너지
Figure pat00024
를 복원할 수 있다.
Figure pat00025
이와 같이, 기계 학습 모델의 앙상블을 통해 계산된 고주파 에너지의 평균값과 저주파 에너지를 폴딩한 에너지의 평균값의 차이를 기초로 폴딩 에너지를 보정함에 따라, 폴딩 에너지의 스펙트럼을 기초로 하면서 기계 학습을 통해 도출된 값을 반영하므로, 폴딩 에너지의 피크와 밸리의 모양을 유지하기 때문에 고주파 신호의 복원 시에 피크와 밸리에 잡음이 발생하는 것을 억제할 수 있다.
한편, 음성 신호의 저주파 위상과 고주파 위상은 점대칭하는 특성이 있으므로, 복원부(160)는 음성 신호의 저주파 대역의 위상을 고주파 대역과의 경계에서 점대칭하여 고주파 대역의 위상을 복원하고, 복원된 고주파 대역의 에너지 및 복원된 고주파 대역의 위상을 기초로 로그-파워 스케일을 선형 스케일로 변형하고 inverse STFT를 취하여 고주파 신호가 복원된 음성 신호(20)를 출력할 수 있다.
도 5는 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)가 복원한 고주파 신호와 실제 고주파 신호를 비교한 예시도이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 장치(100)는 저주파 에너지를 폴딩한 스펙트럼과 기계 학습 모델의 앙상블을 통해 추정된 고주파 신호 에너지를 함께 이용하여, 고주파 대역이 가지는 에너지를 보다 정교하게 추정할 수 있다.
한편 상술한 실시예가 포함하는 특징 벡터 추출부(110), 유성음 모델부(120), 무성음 모델부(130), 성음 분류부(140) 및 복원부(160)는 이들의 기능을 수행하도록 프로그램된 명령어를 포함하는 메모리, 및 이들 명령어를 수행하는 마이크로프로세서를 포함하는 연산 장치에 의해 구현될 수 있다.
도 6은 본 발명의 일 실시예에 따른 음성 신호 대역폭 확장 방법을 설명하기 위한 도면이다. 도 6에 따른 음성 신호 대역폭 확장 방법의 각 단계는 도 1을 통해 설명된 따른 음성 신호 대역폭 확장 장치(100)에 의해 수행될 수 있으며, 각 단계를 설명하면 다음과 같다.
우선, 특징 벡터 추출부(110)는 음성 신호로부터 특징 벡터 추출한다. 이후, 유성음 모델부(120)는 특징 벡터로부터 음성 신호의 유성음 고주파 에너지를 추정하고, 무성음 모델부(130)는 특징 벡터로부터 음성 신호의 무성음 고주파 에너지를 추정하며, 성음 분류부(140)는 특징 벡터로부터 음성 신호가 유성음 또는 무성음일 확률을 추정한다. 이에 따라, 에너지 계산부(150)는 확률에 기초하여 유성음 고주파 에너지 및 무성음 고주파 에너지를 합성하여 음성 신호의 고주파 에너지를 계산한다.
마지막으로, 복원부(160)는 계산된 고주파 에너지를 기초로 음성 신호의 고주파 신호를 복원하는 단계를 포함한다. 한편, 상술한 각 단계의 주체인 구성 요소들이 해당 단계를 실시하기 위한 과정은 도 1 내지 도 5와 함께 설명하였으므로 중복된 설명은 생략한다.
상술한 실시예에 따르면, 기계 학습 모델의 앙상블을 통해 추정된 고주파 신호의 에너지와 저주파 신호를 폴딩한 신호를 함께 이용하여, 고주파 신호의 복원 시에 피크와 밸리에 잡음이 발생하는 것을 억제할 수 있다.
또한 복수의 신경망을 포함하는 기계 학습 모델을 이용하여 고주파 대역의 각 부분대역이 가지는 에너지를 보다 정교하게 도출할 수 있다.
더불어 유성음 및 무성음을 구분하여 에너지를 추정하는 기계 학습 모델을 생성하여 음성 신호가 유성음/무성음에 해당할 확률에 기반한 고주파 신호를 추정하므로 다양한 특성의 음성 신호에 적용 가능한 대역폭 확장 기술을 제공할 수 있다.
따라서 본 발명의 실시예들은 음성 신호의 유성음/무성음 특징을 반영하고 딥신경망 앙상블의 학습을 통해 다양한 잡음 환경에서 기존 기술에 비해 보다 강인하고 우수한 음성대역폭 확장 기술을 제공할 수 있다.
상술한 본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드 등이 기록된 컴퓨터 프로그램은 컴퓨터 판독 가능 기록 매체 또는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 메모리 유닛은 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 프로세서와 데이터를 주고 받을 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 고주파 손실된 음성 신호
13: 무손실 유성음 신호
15: 무손실 무성음 신호
20: 고주파 복원된 음성 신호
100: 음성 신호 대역폭 확장 장치
110: 특징 벡터 추출부
120: 유성음 모델부
130: 무성음 모델부
140: 성음 분류부
150: 에너지 계산부
160: 복원부

Claims (10)

  1. 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부;
    상기 특징 벡터로부터 상기 음성 신호의 유성음 고주파 에너지를 추정하는 유성음 모델부;
    상기 특징 벡터로부터 상기 음성 신호의 무성음 고주파 에너지를 추정하는 무성음 모델부;
    상기 특징 벡터로부터 상기 음성 신호가 유성음일 확률 또는 무성음일 확률을 추정하는 성음 분류부;
    상기 유성음일 확률 또는 무성음일 확률에 기초하여 상기 유성음 고주파 에너지 및 상기 무성음 고주파 에너지를 합성하여 상기 음성 신호의 고주파 에너지를 계산하는 에너지 계산부; 및
    상기 계산된 고주파 에너지를 기초로 상기 음성 신호의 고주파 신호를 복원하는 복원부를 포함하는
    음성 신호 대역폭 확장 장치.
  2. 제1항에 있어서,
    상기 특징 벡터 추출부는,
    상기 음성 신호를 푸리에 변환한 후 로그-파워를 적용하여 상기 특징 벡터를 추출하는
    음성 신호 대역폭 확장 장치.
  3. 제1항에 있어서,
    상기 유성음 모델부 및 상기 무성음 모델부의 각각은,
    상기 특징 벡터로부터 상기 음성 신호에서 잡음을 제거한 음성 신호의 특징 벡터를 출력하는 디노이징 신경망을 포함하고,
    상기 유성음 모델부는,
    상기 잡음을 제거한 음성신호의 특징 벡터로부터 상기 음성 신호의 유성음 고주파 에너지를 추정하고,
    상기 무성음 모델부는,
    상기 잡음을 제거한 특징 벡터로부터 상기 음성 신호의 무성음 고주파 에너지를 추정하는
    음성 신호 대역폭 확장 장치.
  4. 제1항에 있어서,
    상기 유성음 모델부 및 상기 무성음 모델부의 각각은,
    n개의 신경망(n은 2 이상의 자연수)을 포함하고,
    상기 n개의 신경망은 상기 특징 벡터를 입력 받으면서, 상기 n개의 신경망 중 i+1번째(i는 1부터 n-1) 신경망은 i 번째 신경망의 출력을 입력 받도록 학습되는
    음성 신호 대역폭 확장 장치.
  5. 제4항에 있어서,
    상기 i 번째 신경망은 상기 i+1 번째 신경망이 출력하는 고주파 대역의 일부 대역에 대한 에너지를 출력하고,
    상기 유성음 모델부의 n번째 신경망은 상기 유성음 고주파 에너지를 출력하고, 상기 무성음 모델부의 n번째 신경망은 상기 무성음 고주파 에너지를 출력하는
    음성 신호 대역폭 확장 장치.
  6. 제1항에 있어서,
    상기 에너지 계산부는,
    [수학식 1]
    Figure pat00026

    (상기
    Figure pat00027
    는 상기 유성음일 확률, 상기
    Figure pat00028
    는 상기 유성음 고주파 에너지, 상기
    Figure pat00029
    는 상기 무성음 고주파 에너지, 상기
    Figure pat00030
    는 상기 음성 신호의 고주파 에너지)
    을 통해 상기 음성 신호의 고주파 에너지
    Figure pat00031
    를 계산하는
    음성 신호 대역폭 확장 장치.
  7. 제1항에 있어서,
    상기 복원부는,
    상기 고주파 대역을 복수의 부분 대역으로 나누었을 때, 상기 음성 신호의 저주파 에너지를 폴딩시킨 폴딩 에너지의 상기 복수의 부분 대역별 평균 값과, 상기 계산된 고주파 에너지의 상기 복수의 부분 대역별 평균 값의 차이를 기초로 상기 폴딩 에너지를 보정하여 상기 고주파 대역의 에너지를 복원하는
    음성 신호 대역폭 확장 장치.
  8. 제7항에 있어서,
    상기 복원부는,
    상기 음성 신호의 저주파 대역의 위상을 점대칭하여 상기 고주파 대역의 위상을 복원하고, 상기 복원된 고주파 대역의 에너지 및 상기 복원된 고주파 대역의 위상을 기초로 상기 음성 신호의 고주파 신호를 복원하는
    음성 신호 대역폭 확장 장치.
  9. 음성 신호 대역폭 확장 방법에 있어서 상기 방법은 하나 이상의 프로세서에 의해 수행되고,
    상기 방법은,
    음성 신호로부터 특징 벡터를 추출하는 단계;
    상기 특징 벡터로부터 상기 음성 신호의 유성음 고주파 에너지를 추정하는 단계;
    상기 특징 벡터로부터 상기 음성 신호의 무성음 고주파 에너지를 추정하는 단계;
    상기 특징 벡터로부터 상기 음성 신호가 유성음일 확률 또는 무성음일 확률을 추정하는 단계;
    상기 유성음일 확률 또는 무성음일 확률에 기초하여 상기 유성음 고주파 에너지 및 상기 무성음 고주파 에너지를 합성하여 상기 음성 신호의 고주파 에너지를 계산하는 단계; 및
    상기 계산된 고주파 에너지를 기초로 상기 음성 신호의 고주파 신호를 복원하는 단계를 포함하는
    음성 신호 대역폭 확장 방법.
  10. 음성 신호로부터 특징 벡터를 추출하는 단계;
    상기 특징 벡터로부터 상기 음성 신호의 유성음 고주파 에너지를 추정하는 단계;
    상기 특징 벡터로부터 상기 음성 신호의 무성음 고주파 에너지를 추정하는 단계;
    상기 특징 벡터로부터 상기 음성 신호가 유성음일 확률 또는 무성음일 확률을 추정하는 단계;
    상기 유성음일 확률 또는 무성음일 확률에 기초하여 상기 유성음 고주파 에너지 및 상기 무성음 고주파 에너지를 합성하여 상기 음성 신호의 고주파 에너지를 계산하는 단계; 및
    상기 계산된 고주파 에너지를 기초로 상기 음성 신호의 고주파 신호를 복원하는 단계를 프로세서로 하여금 수행하게 하는 명령어를 포함하는
    프로그램이 기록된 컴퓨터 판독 가능 기록매체.
KR1020170104925A 2017-08-18 2017-08-18 음성 신호 대역폭 확장 장치 및 방법 KR102078350B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170104925A KR102078350B1 (ko) 2017-08-18 2017-08-18 음성 신호 대역폭 확장 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170104925A KR102078350B1 (ko) 2017-08-18 2017-08-18 음성 신호 대역폭 확장 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190019688A true KR20190019688A (ko) 2019-02-27
KR102078350B1 KR102078350B1 (ko) 2020-02-17

Family

ID=65561133

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170104925A KR102078350B1 (ko) 2017-08-18 2017-08-18 음성 신호 대역폭 확장 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102078350B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021132877A1 (ko) * 2019-12-27 2021-07-01 삼성전자 주식회사 인공신경망 기반의 음성 신호 송수신 방법 및 장치

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Juho Kontio, et al. Neural Network-Based Artificial Bandwidth Expansion of Speech. IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING. 2007.03.* *
Kehuang Li, et al. A deep neural network approach to speech bandwidth expansion. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015. *
Xin Liu, et al. Audio bandwidth extension based on ensemble echo state networks with temporal evolution. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP). 2016.* *
Xin Liu, et al. Audio bandwidth extension using ensemble of recurrent neural networks. EURASIP Journal on Audio, Speech, and Music Processing. 2016. *
Yingxue Wang, et al. Speech bandwidth extension based on GMM and clustering method. IEEE International Conference on Communication Systems and Network Technologies. 2015.* *
Yong Xu, et al. A regression approach to speech enhancement based on deep neural networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2015.01.* *
노경진, 장준혁. 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블. 한국통신학회 2017년도 하계종합학술발표회. 2017.06.21. *
이봉기, 장준혁. 음성통신 시스템에서 딥러닝을 이용한 음성 대역폭 확장에 관한 연구. 한국통신학회 2017년도 하계종합학술발표회. 2017.06.21.(공지예외주장가능)* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021132877A1 (ko) * 2019-12-27 2021-07-01 삼성전자 주식회사 인공신경망 기반의 음성 신호 송수신 방법 및 장치

Also Published As

Publication number Publication date
KR102078350B1 (ko) 2020-02-17

Similar Documents

Publication Publication Date Title
TW546630B (en) Optimized local feature extraction for automatic speech recognition
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
Shivakumar et al. Perception optimized deep denoising autoencoders for speech enhancement.
KR20060044629A (ko) 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
KR100919223B1 (ko) 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
US20230282202A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
Seo et al. A maximum a posterior-based reconstruction approach to speech bandwidth expansion in noise
JP2019008206A (ja) 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム
Kim et al. Mask classification for missing-feature reconstruction for robust speech recognition in unknown background noise
Kim et al. Robust speech recognition using temporal masking and thresholding algorithm.
Williamson et al. A two-stage approach for improving the perceptual quality of separated speech
JP7356005B2 (ja) 音声変換装置、音声変換学習装置、音声変換方法、音声変換学習方法及びコンピュータプログラム
JP2006521576A (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
Lee et al. Sequential deep neural networks ensemble for speech bandwidth extension
Jain et al. Marginal energy density over the low frequency range as a feature for voiced/non-voiced detection in noisy speech signals
JP2012181561A (ja) 信号処理装置
KR20190019688A (ko) 음성 신호 대역폭 확장 장치 및 방법
JP4766559B2 (ja) 音楽信号の帯域拡張方式
KR102427874B1 (ko) 학습 모델 기반의 인공 대역 변환장치 및 방법
Song et al. Improved time-frequency trajectory excitation modeling for a statistical parametric speech synthesis system
Ai et al. Reverberation modeling for source-filter-based neural vocoder
Zheng et al. Bandwidth extension WaveNet for bone-conducted speech enhancement
Zhang et al. Densely-connected Convolutional Recurrent Network for Fundamental Frequency Estimation in Noisy Speech.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant