KR20160125984A - 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들 - Google Patents

화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들 Download PDF

Info

Publication number
KR20160125984A
KR20160125984A KR1020167024059A KR20167024059A KR20160125984A KR 20160125984 A KR20160125984 A KR 20160125984A KR 1020167024059 A KR1020167024059 A KR 1020167024059A KR 20167024059 A KR20167024059 A KR 20167024059A KR 20160125984 A KR20160125984 A KR 20160125984A
Authority
KR
South Korea
Prior art keywords
speech
dictionary
noise
pitch
real
Prior art date
Application number
KR1020167024059A
Other languages
English (en)
Inventor
인이 궈
주한 남
에릭 비제르
슈화 장
래훈 김
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20160125984A publication Critical patent/KR20160125984A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

전자 디바이스에 의한 스피치 모델링을 위한 방법이 설명된다. 방법은 잡음성 스피치 신호에 기초하여 실시간 잡음 기준을 획득하는 단계를 포함한다. 방법은 또한, 실시간 잡음 기준에 기초하여 실시간 잡음 사전을 획득하는 단계를 포함한다. 방법은 제 1 스피치 사전 및 제 2 스피치 사전을 획득하는 단계를 더 포함한다. 방법은 제 1 모델링 스테이지에서 잔류 잡음-억압된 (residual noise-suppressed) 스피치 신호를 생성하기 위하여 실시간 잡음 사전 및 제 1 스피치 사전에 기초하여 잔류 잡음을 감소시키는 단계를 추가적으로 포함한다. 방법은 또한, 제 2 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호 및 제 2 스피치 사전에 기초하여 재구성된 스피치 신호를 생성하는 단계를 포함한다.

Description

화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들{SYSTEMS AND METHODS FOR SPEAKER DICTIONARY BASED SPEECH MODELING}
관련된 출원들
이 출원은 "SYSTEMS AND METHODS FOR SPEAKER DICTIONARY BASED SPEECH MODELING(화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들)"에 대하여, 2014 년 2 월 27 일자로 출원된 미국 특허 가출원 제 61/945,691 호에 관련되고 이를 우선권 주장한다.
본 개시물은 일반적으로 전자 디바이스들에 관한 것이다. 더욱 구체적으로, 본 개시물은 화자 사전 기반 스피치 모델링 (speaker dictionary based speech modeling) 을 위한 시스템들 및 방법들에 관한 것이다.
지난 수십 년 내에, 전자 디바이스들의 이용은 보편적인 것으로 되었다. 특히, 전자 기술에서의 진보들은 점점 더 복잡하고 유용한 전자 디바이스들의 비용을 감소시켰다. 비용 감소 및 소비자 요구는, 전자 디바이스들이 현실적으로 현대 사회에서 아주 흔하도록, 전자 디바이스들의 이용을 급증시켰다.
전자 디바이스들의 이용이 확장함에 따라, 전자 디바이스들의 새롭고 개선된 특징들에 대한 요구도 확장하였다. 더욱 구체적으로, 새로운 기능들을 수행하고 및/또는 더 높은 품질의 출력들을 제공하는 전자 디바이스들이 종종 추구된다.
일부의 전자 디바이스들은 오디오 신호들을 사용한다. 예를 들어, 스마트폰은 스피치 신호를 캡처 (capture) 하고 프로세싱할 수도 있다. 그러나, 오디오 신호는 일부의 사례들에서, 스피치 신호의 품질을 열화시킬 수도 있는 상당한 잡음을 포함할 수도 있다. 이 논의로부터 관찰될 수 있는 바와 같이, 오디오 신호들을 개선시키는 시스템들 및 방법들이 유익할 수도 있다.
전자 디바이스에 의한 스피치 모델링을 위한 방법이 설명된다. 방법은 잡음성 스피치 신호에 기초하여 실시간 잡음 기준을 획득하는 단계를 포함한다. 방법은 또한, 실시간 잡음 기준에 기초하여 실시간 잡음 사전을 획득하는 단계를 포함한다. 방법은 제 1 스피치 사전 및 제 2 스피치 사전을 획득하는 단계를 더 포함한다. 방법은 제 1 모델링 스테이지에서 잔류 잡음-억압된 (residual noise-suppressed) 스피치 신호를 생성하기 위하여 실시간 잡음 사전 및 제 1 스피치 사전에 기초하여 잔류 잡음을 감소시키는 단계를 추가적으로 포함한다. 방법은 또한, 제 2 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호 및 제 2 스피치 사전에 기초하여 재구성된 스피치 신호를 생성하는 단계를 포함한다. 방법은 재구성 에러에 기초하여 재구성된 스피치 신호 및 잔류 잡음-억압된 스피치 신호로부터 출력 스피치 신호를 선택하는 단계를 포함할 수도 있다.
제 1 모델링 스테이지는 비-음수 행렬 인수분해 (non-negative matrix factorization; NMF) 에 기초할 수도 있다. 제 2 모델링 스테이지는 비-음수 행렬 인수분해 (NMF) 에 기초할 수도 있다.
잔류 잡음을 감소시키는 단계는 제 1 스피치 사전 및 실시간 잡음 사전을 포함하는 스피치 및 잡음 사전을 고정시키는 단계를 포함할 수도 있다. 잔류 잡음을 감소시키는 단계는 또한, 활성화 계수 (activation coefficient) 들을 초기화하는 단계, 및 수렴할 때까지 활성화 계수들을 업데이트하는 단계를 포함할 수도 있다.
잔류 잡음을 감소시키는 단계는 제 1 스피치 사전, 실시간 잡음 사전, 적응된 스피치 활성화 계수, 및 적응된 잡음 활성화 계수에 기초하여 필터를 생성하는 단계를 포함할 수도 있다. 잔류 잡음을 감소시키는 단계는 또한, 필터 및 사전-개량된 (pre-enhanced) 입력에 기초하여 잔류 잡음-억압된 스피치 신호를 추정하는 단계를 포함할 수도 있다.
재구성된 스피치 신호를 생성하는 단계는 서브-대역 피치-특정 사전 (sub-band pitch-specific dictionary) 을 고정시키는 단계, 및 수렴할 때까지 활성화 계수들을 업데이트하는 단계를 포함할 수도 있다. 재구성된 스피치 신호를 생성하는 단계는 또한, 피치-특정 사전 및 활성화 계수들에 기초하여 재구성된 스피치 신호를 생성하는 단계를 포함할 수도 있다.
방법은 피치에 기초하여 화자-특정 사전으로부터 피치-특정 사전을 결정하는 단계를 포함할 수도 있다. 방법은 또한, 빈-별 (bin-wise) 신호-대-잡음 비율 (signal-to-noise ratio; SNR) 들에 기초하여 피치-특정 사전으로부터 서브-대역 피치-특정 사전을 결정하는 단계를 포함할 수도 있다.
제 1 스피치 사전 및 제 2 스피치 사전은 화자-특정 스피치 사전에 기초할 수도 있다. 제 1 스피치 사전을 획득하는 단계는 복수의 활성화 계수들 및 스피치 기저 함수 (speech basis function) 들을 초기화하는 단계를 포함할 수도 있다. 제 1 스피치 사전을 획득하는 단계는 또한, 수렴할 때까지 파라미터들을 업데이트하는 단계를 포함할 수도 있다.
제 2 스피치 사전을 획득하는 단계는 복수의 화자-특정 스피치 크기 스펙트럼들에 대한 하모닉시티 (harmonicity) 및 피치 (pitch) 를 추정하는 단계를 포함할 수도 있다. 제 2 스피치 사전을 획득하는 단계는 또한, 화자-특정 스피치 크기 스펙트럼들로부터, 하모닉시티 문턱 (harmonicity threshold) 보다 높은 대응하는 하모닉시티들을 갖는 스피치 스펙트럼들을 선택하는 단계를 포함할 수도 있다. 제 2 스피치 사전을 획득하는 단계는 대응하는 피치로 선택된 스피치 스펙트럼들의 각각을 라벨링 (labeling) 하는 단계를 더 포함할 수도 있다.
스피치 모델링을 위한 전자 디바이스가 또한 설명된다. 전자 디바이스는 프로세서와, 프로세서와 전자 통신하는 메모리를 포함한다. 전자 디바이스는 또한, 메모리 내에 저장된 명령들을 포함한다. 명령들은 잡음성 스피치 신호에 기초하여 실시간 잡음 기준을 획득하도록 실행가능하다. 명령들은 또한, 실시간 잡음 기준에 기초하여 실시간 잡음 사전을 획득하도록 실행가능하다. 명령들은 제 1 스피치 사전 및 제 2 스피치 사전을 획득하도록 추가로 실행가능하다. 명령들은 제 1 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호를 생성하기 위하여 실시간 잡음 사전 및 제 1 스피치 사전에 기초하여 잔류 잡음을 감소시키도록 추가적으로 실행가능하다. 명령들은 또한, 제 2 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호 및 제 2 스피치 사전에 기초하여 재구성된 스피치 신호를 생성하도록 실행가능하다.
스피치 모델링을 위한 컴퓨터-프로그램 제품이 또한 설명된다. 컴퓨터-프로그램 제품은 명령들을 갖는 비일시적 유형의 컴퓨터-판독가능 매체 (non-transitory tangible computer-readable medium) 를 포함한다. 명령들은 전자 디바이스로 하여금, 잡음성 스피치 신호에 기초하여 실시간 잡음 기준을 획득하게 하기 위한 코드를 포함한다. 명령들은 또한, 전자 디바이스로 하여금, 실시간 잡음 기준에 기초하여 실시간 잡음 사전을 획득하게 하기 위한 코드를 포함한다. 명령들은 전자 디바이스로 하여금, 제 1 스피치 사전 및 제 2 스피치 사전을 획득하게 하기 위한 코드를 더 포함한다. 명령들은 전자 디바이스로 하여금, 제 1 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호를 생성하기 위하여 실시간 잡음 사전 및 제 1 스피치 사전에 기초하여 잔류 잡음을 감소시키게 하기 위한 코드를 추가적으로 포함한다. 명령들은 또한, 전자 디바이스로 하여금, 제 2 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호 및 제 2 스피치 사전에 기초하여 재구성된 스피치 신호를 생성하게 하기 위한 코드를 포함한다.
스피치 모델링을 위한 장치가 또한 설명된다. 장치는 잡음성 스피치 신호에 기초하여 실시간 잡음 기준을 획득하기 위한 수단을 포함한다. 장치는 또한, 실시간 잡음 기준에 기초하여 실시간 잡음 사전을 획득하기 위한 수단을 포함한다. 장치는 제 1 스피치 사전 및 제 2 스피치 사전을 획득하기 위한 수단을 더 포함한다. 장치는 제 1 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호를 생성하기 위하여 실시간 잡음 사전 및 제 1 스피치 사전에 기초하여 잔류 잡음을 감소시키기 위한 수단을 추가적으로 포함한다. 장치는 또한, 제 2 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호 및 제 2 스피치 사전에 기초하여 재구성된 스피치 신호를 생성하기 위한 수단을 포함한다.
도 1 은 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스의 하나의 구성을 예시하는 블록도이고;
도 2 는 스피치 모델링을 위한 방법의 하나의 구성을 예시하는 흐름도이고;
도 3 은 본원에서 개시된 시스템들 및 방법들의 일부의 구성들의 더욱 구체적인 개요를 예시하는 기능적인 블록도이고;
도 4 는 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스의 또 다른 구성을 예시하는 블록도이고;
도 5 는 스피치 모델링을 위한 방법의 또 다른 구성을 예시하는 흐름도이고;
도 6 은 잡음성 스피치 신호의 하나의 예를 예시하는 그래프이고;
도 7 은 잡음-억압된 스피치 신호의 하나의 예를 예시하는 그래프이고;
도 8 은 본원에서 개시된 시스템들 및 방법들에 따라 제 1 모델링 스테이지 프로세싱 후의 신호의 하나의 예를 예시하는 그래프이고;
도 9 는 본원에서 개시된 시스템들 및 방법들에 따라 제 2 모델링 스테이지 프로세싱 후의 신호의 하나의 예를 예시하는 그래프이고;
도 10 은 본원에서 개시된 시스템들 및 방법들의 일부의 구성들의 개요의 하나의 예를 예시하는 블록도이고;
도 11 은 피아노 및 플루트 오디오에 의한 감시된 비-음수 행렬 인수분해 (NMF) 기반 오디오 소스 분리의 하나의 예를 예시하는 도면이고;
도 12 는 본원에서 개시된 시스템들 및 방법들의 더욱 구체적인 구성을 예시하는 기능적인 블록도이고;
도 13 은 제 1 모델링 스테이지 스피치 모델링을 위한 사전 학습의 더욱 구체적인 예를 예시하는 블록도이고;
도 14 는 제 1 모델링 스테이지 스피치 모델링을 위한 사전의 하나의 예를 예시하는 그래프이고;
도 15 는 제 2 모델링 스테이지 스피치 모델링을 위한 사전 학습의 더욱 구체적인 예를 예시하는 블록도이고;
도 16 은 제 2 모델링 스테이지 스피치 모델링을 위한 사전의 하나의 예를 예시하는 그래프이고;
도 17 은 제 1 모델링 스테이지 NMF 위너 필터링 (Wiener filtering) 의 개요의 더욱 구체적인 예를 예시하는 블록도이고;
도 18 은 프리-프로세싱 (pre-processing) 의 하나의 예를 예시하는 블록도이고;
도 19 는 제 1 모델링 스테이지 스피치/잡음 분리의 하나의 예를 예시하는 블록도이고;
도 20 은 제 1 모델링 스테이지 위너 필터링 재구성의 하나의 예를 예시하는 블록도이고;
도 21 은 제 2 모델링 스테이지 NMF 스피치 모델링의 더욱 구체적인 예를 예시하는 블록도이고;
도 22 는 화자 사전 기반 모델링을 위한 시스템들 및 방법들이 구현될 수도 있는 무선 통신 디바이스의 하나의 구성을 예시하는 블록도이고; 그리고
도 23 은 전자 디바이스 내에 포함될 수도 있는 어떤 컴포넌트들을 예시한다.
본원에서 개시된 시스템들 및 방법들은 화자 사전 기반 스피치 모델링에 관한 것이다. 잡음 억압은 오늘 날의 대부분의 통신 디바이스들의 필수적인 컴포넌트이다. 다수의 제 1 및 제 2 생성 시스템들은 다양한 정도들로 잡음 전력을 효과적으로 감소시키는 것을 허용한다. 그러나, 결과적인 스피치 출력은 공격적인 튜닝으로 인해 프로세스에서 악화될 수도 있다. 또한, 잔류 잡음은 잡음 모델링에서의 오정합 (mismatch) 으로 인해 여전히 존재할 수도 있다. 더욱 구체적으로, 스피치 개량 시스템 (speech enhancement system) 들의 일부의 쟁점들은 다음과 같이 주어진다. 잡음-억압된 스피치 출력은 공간적인 필터링으로부터의 잡음 기준의 과소-추정 (under-estimation) 으로 인해 지각적으로 중요한 잔류 잡음을 포함할 수도 있다. 추가적으로, 스피치 출력은 낮은 서브대역 신호-대-잡음 비율 (signal-to-noise ratio; SNR) 로 인해 서브-대역들에서의 오류가 생긴 스피치 포락선 (speech envelope) 을 겪을 수도 있다. 따라서, 입력 공간적 정보, 잡음 상태들, 및/또는 마이크로폰 배치에 관계 없이 임의의 화자의 클린 스피치 (clean speech) 를 예측하기 위한 필요성이 있다.
본원에서 설명된 시스템들 및 방법들의 일부의 구성들은 클린 스피치에 근사화하는 (예컨대, 가능한 한 근접한) 출력 스피치를 생성하는 것을 시도할 수도 있다. 예를 들어, 본원에서 개시된 시스템들 및 방법들의 일부의 구성들은 소정의 화자에 대하여 학습되었던 스피치 사전들에서 인코딩된 명시적 스피치 모델들뿐만 아니라, 전형적인 잡음 억압 시스템으로부터 출력된 내용을 모델링하기 위한 잡음 모델들을 사용한다. 이 모델들에 대한 활성화 계수들은 (예를 들어, 잡음 억압기의) 출력으로부터 임의의 잔류 잡음을 분리하기 위하여 제 1 모델링 (예컨대, 비-음수 행렬 인수분해 (NMF)) 스테이지에서 학습될 수도 있다.
제 2 모델링 스테이지에서, 세분화된 스피치 모델에 대한 활성화 계수들은 잡음 억압 (noise suppression; NS) 시스템에 의해 손상된 스피치 포락선을 복원하기 위하여 학습될 수도 있다. 최종적인 출력은 스피치 엘리먼트 (speech element) 들을 주로 포함할 수도 있고, 클린 스피치에 근접한 음성 컬러 (voice color) 를 가질 수도 있다.
본원에서 개시된 시스템들 및 방법들의 일부의 구성들은 다음 중의 하나 이상을 포함할 수도 있다. 잡음 및/또는 스피치 데이터는 사전-기반 접근법을 이용하여 모델링될 수도 있다. 화자-특정 스피치 사전이 학습될 수도 있다. 비-음수 행렬 인수분해 (NMF) 를 사용하는 2-스테이지 사전-기반 스피치/잡음 모델링이 채용될 수도 있다. 예를 들어, 제 1 모델링 스테이지는 잔류 잡음을 제거하기 위하여 NMF-기반 위너 필터링을 포함할 수도 있다. 제 2 모델링 스테이지는 클린 스피치 포락선을 유지하기 위하여 NMF-기반 포락선 복원을 포함할 수도 있다.
본원에서 개시된 시스템들 및 방법들의 장점들은 다음 중의 하나 이상을 포함할 수도 있다. 매우 비-정지 (non-stationary) 잡음이 효율적으로 필터링될 수도 있다. 잡음 및 스피치 고조파 구조가 정밀하게 구별될 수도 있다. 화자의 클린 유성 스피치 포락선 (clean voiced speech envelope) 이 유지될 수도 있다. 화자-특정 스피치 특성들이 보존될 수도 있다.
다양한 구성들은 도면들을 참조하여 지금부터 설명되며, 여기서, 유사한 참조 번호들은 기능적으로 유사한 구성요소들을 표시할 수도 있다. 본원의 도면들에서 일반적으로 설명되고 예시된 바와 같은 시스템들 및 방법들은 폭넓게 다양한 상이한 구성들로 배열되고 설계될 수 있다. 이에 따라, 도면들에서 나타낸 바와 같이, 몇몇 구성들의 다음의 더욱 상세한 설명은 청구된 바와 같이 범위를 제한하도록 의도된 것이 아니라, 단지 시스템들 및 방법들을 대표한다.
도 1 은 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스 (102) 의 하나의 구성을 예시하는 블록도이다. 전자 디바이스 (102) 의 예들은 스마트폰들, 셀룰러 전화들, 음성 레코더들, 디지털 카메라들, 태블릿 디바이스들, 랩톱 컴퓨터들, 데스크톱 컴퓨터들, 비디오 카메라들, 지상선 전화 (landline phone) 들 등을 포함한다.
전자 디바이스 (102) 는 실시간 잡음 기준 결정 모듈 (106), 실시간 잡음 사전 결정 모듈 (110), 잔류 잡음 감소 모듈 (116), 및 재구성 모듈 (122) 중의 하나 이상을 포함할 수도 있다. 본원에서 이용된 바와 같이, "모듈" 은 하드웨어 (예컨대, 회로부) 로, 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수도 있다. 도 1 과 관련하여 설명된 모듈들 중의 하나 이상은 임의적일 수도 있다는 것에 주목해야 한다. 또한, 모듈들 중의 하나 이상은 일부의 구성들에서 조합되거나 분할될 수도 있다. 도 1 과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상에 대한 더욱 구체적인 예들은 도 2 내지 도 5, 도 10, 도 12 내지 도 13, 도 15, 및 도 17 내지 도 21 중의 하나 이상과 관련하여 주어질 수도 있다.
전자 디바이스 (102) 는 잡음성 스피치 신호 (104) 를 획득할 수도 있다. 예를 들어, 전자 디바이스 (102) 는 하나 이상의 마이크로폰들을 이용하여 잡음성 스피치 신호 (104) 를 캡처할 수도 있다. 추가적으로 또는 대안적으로, 전자 디바이스 (102) 는 또 다른 디바이스 (예컨대, 무선 헤드셋, 또 다른 디바이스 등) 로부터 잡음성 스피치 신호 (104) 를 수신할 수도 있다. 잡음성 스피치 신호 (104) 는 스피치 및 잡음을 포함할 수도 있다. 잡음은 희망하는 스피치 사운드 (speech sound) 들과 간섭하는 임의의 사운드, 및/또는 희망하는 스피치 사운드들 이외의 임의의 사운드일 수도 있다. 잡음의 예들은 배경 잡음, 경쟁하는 대화자들, 바람 잡음, 음악 잡음, 재잘거림 잡음, 정지 잡음, 및/또는 비-정지 잡음 등을 포함한다. 일부의 경우들에는, 잡음성 스피치 신호 (104) 가 예를 들어, 하나 이상의 유성 (voiced) 부분들, 무성 (unvoiced) 부분들, 묵음 부분들, 잡음-단독 부분들, 및/또는 스피치-단독 부분들을 포함할 수도 있다. 일부의 구성들에서, 잡음성 스피치 신호 (104) 는 프레임들 (그리고 임의적으로, 서브-프레임들) 로 분할될 수도 있고, 여기서, 프레임은 시간에 있어서 잡음성 스피치 신호 (104) 의 부분이다. 잡음성 스피치 신호 (104) (또는 잡음성 스피치 신호 (104) 에 기초한 신호) 는 실시간 잡음 기준 결정 모듈 (106) 에 제공될 수도 있다.
실시간 잡음 기준 결정 모듈 (106) 은 잡음성 스피치 신호 (104) 에 기초하여 실시간 잡음 기준 (108) 을 획득할 수도 있다. 예를 들어, 실시간 잡음 기준 결정 모듈 (106) 은 잡음성 스피치 신호 (104) 에서 잡음을 나타내는 신호를 생성할 수도 있다. 일부의 구성들에서, 실시간 잡음 기준 결정 모듈 (106) 은 잡음 억압기일 수도 있고, 잡음 억압기 내에 포함될 수도 있고, 및/또는 잡음 억압기와 함께 사용될 수도 있다. 실시간 잡음 기준 (108) 을 획득하기 위한 접근법의 더욱 구체적인 예가 도 18 과 관련하여 주어진다. 실시간 잡음 기준 (108) 은 실시간 잡음 사전 결정 모듈 (110) 에 제공될 수도 있다.
실시간 잡음 사전 결정 모듈 (110) 은 실시간 잡음 기준 (108) 에 기초하여 실시간 잡음 사전 (112) 을 획득할 수도 있다. 예를 들어, 실시간 잡음 사전 결정 모듈 (110) 은 실시간 잡음 기준 (108) 의 하나 이상의 특성들 (예컨대, 주파수, 크기, 위상 등) 을 나타내는 하나 이상의 기저 함수들을 결정할 수도 있다. 실시간 잡음 사전 (112) 은 이 기저 함수들을 포함할 수도 있다. 실시간 잡음 사전 (112) 을 획득하기 위한 접근법의 더욱 구체적인 예는 도 18 과 관련하여 주어진다. 실시간 잡음 사전 (112) 은 잔류 잡음 감소 모듈 (116) 에 제공될 수도 있다.
전자 디바이스 (102) 는 제 1 스피치 사전 (114) 을 획득할 수도 있다. 예를 들어, 제 1 스피치 사전 (114) 은 전자 디바이스 (102) 에 의해 생성될 수도 있거나, 또 다른 전자 디바이스로부터 수신될 수도 있다. 일부의 구성들에서, 전자 디바이스 (102) 는 스피치 샘플들에 기초하여 제 1 스피치 사전 (114) 을 생성할 수도 있다. 예를 들어, 전자 디바이스 (102) 는 클린 스피치 신호들 (예컨대, 높은 SNR 을 갖는, 및/또는 잡음을 갖지 않는 스피치 신호들) 을 수집할 수도 있고 및/또는 수신할 수도 있다. 이 클린 스피치 신호들은 예컨대, 잡음이 거의 또는 전혀 검출되지 않을 때에 SNR 이 높은 전화 호출들 동안, 교정 절차 (calibration procedure) 동안, 훈련 절차 (training procedure) 동안 등에 "오프라인 (offline)" 으로 캡처될 수도 있다. 추가적으로 또는 대안적으로, 전자 디바이스 (102) 는 하나 이상의 조건들이 충족될 때 (예컨대, 캡처된 스피치가 문턱보다 높은 SNR 을 나타낼 때), 어떤 스피치 신호들을 클린 스피치 신호들로서 선택할 수도 있다. 추가적으로 또는 대안적으로, 클린 스피치 신호들은 또 다른 디바이스에 의해 캡처될 수도 있고, 전자 디바이스 (102) 로 송신될 수도 있다. 일부의 구성들에서, 제 1 스피치 사전 (114) 은 클린 스피치 신호들만을 이용하여 생성될 수도 있다. 다른 구성들에서, 제 1 스피치 사전 (114) 은 클린 스피치 신호들에 따라 일반적인 스피치 모델을 적응시킴으로써 생성될 수도 있다.
일부의 구성들에서, 제 1 스피치 사전 (114) 은 하위-등급 (low-rank) 스피치 사전일 수도 있다. 예를 들어, 하위-등급 스피치 사전은 특정한 사용자의 스피치 특성들을 대략적으로 모델링하는 스피치 사전일 수도 있다. 일부의 구성들에서, 하위-등급 스피치 사전은 NMF-기반 스피치 사전 학습을 통해 학습될 수도 있다. 예를 들어, 제 1 스피치 사전 (114) 을 획득하는 것은 하나 이상의 활성화 계수들 및/또는 스피치 기저 함수들을 초기화하는 것과, 수렴할 때까지 파라미터들을 업데이트하는 것을 포함할 수도 있다. 제 1 스피치 사전 (114) 은 그 사이즈로 인해 "하위-등급" 일 수도 있다. 예를 들어, 제 1 스피치 사전 (114) 은 사이즈에 있어서 상대적으로 작을 수도 있고, 및/또는 (예를 들어, NMF-기반 접근법에 따라 학습될 수도 있는) 사전에서 상대적으로 작은 수의 선형적으로 독립적인 엘리먼트 (element) 들을 가질 수도 있다. 따라서, 학습된 제 1 스피치 사전 (114) 은 "하위-등급" 일 수도 있다. 일부의 구성들에서, 제 1 스피치 사전 (114) 은 사이즈에 있어서 더 작을 수도 있고, 및/또는 제 2 스피치 사전 (120) 과 비교하여, 및/또는 제 2 스피치 사전 (120) 에 비해 더 적은 선형적으로 독립적인 엘리먼트들을 가질 수도 있다.
제 1 스피치 사전은 화자-특정적일 수도 있다. 예를 들어, 제 1 스피치 사전 (114) 은 단일 사용자에 대응할 수도 있고, 및/또는 단일 사용자의 스피치를 특징화할 수도 있다. 다수의 제 1 스피치 사전들 (114) 이 생성될 수도 있고 및/또는 수신될 수도 있고, 여기서, 제 1 스피치 사전들 (114) 의 각각은 상이한 사용자에 대응하는 것에 주목해야 한다. 제 1 스피치 사전 (114) 을 획득 (예컨대, 결정, 학습 등) 하기 위한 접근법의 하나의 예는 도 13 과 관련하여 설명되고, 제 1 스피치 사전의 하나의 예는 도 14 와 관련하여 설명된다. 제 1 스피치 사전 (114) 은 잔류 잡음 감소 모듈 (116) 에 제공될 수도 있다.
잔류 잡음 감소 모듈 (116) 은 실시간 잡음 사전 (112) 및 제 1 스피치 사전 (114) 에 기초하여 잔류 잡음을 감소시킬 수도 있다. 잔류 잡음은 오디오 신호 내에 남아 있는 잡음일 수도 있다. 예를 들어, 잔류 잡음은 잡음 억압이 잡음성 스피치 신호 (104) 에 대해 수행된 후에 남아 있는 잡음일 수도 있다. 잔류 잡음 감소 모듈 (116) 은 잡음-억압된 스피치 신호로부터 이 잔류 잡음을 감소시킬 수도 있고 및/또는 제거할 수도 있다. 잔류 잡음을 감소시키는 것은 제 1 모델링 스테이지 (126) 내에서 또는 제 1 모델링 스테이지 (126) 의 일부로서 수행될 수도 있다는 것에 주목해야 한다. 예를 들어, 제 1 모델링 스테이지 (126) 는 NMF-기반 스피치 및/또는 잡음 모델링의 스테이지일 수도 있다. 잔류 잡음을 감소시키는 것은 잔류 잡음-억압된 스피치 신호 (118) 를 생성할 수도 있다. 예를 들어, 잔류 잡음-억압된 스피치 신호는 만약 있다면, 남아 있는 매우 적은 잡음을 가지는 클린 스피치 신호일 수도 있다. 그러나, 잔류 잡음-억압된 스피치 신호에서의 스피치는 예를 들어, (초기 잡음 억압에 추가하여) 잔류 잡음 억압으로 인해 손상될 수도 있다. 잔류 잡음-억압된 스피치 신호 (118) 는 재구성 모듈 (122) 에 제공될 수도 있다.
전자 디바이스 (102) 는 제 2 스피치 사전 (120) 을 획득할 수도 있다. 예를 들어, 제 2 스피치 사전 (120) 은 전자 디바이스 (102) 에 의해 생성될 수도 있거나, 또 다른 전자 디바이스로부터 수신될 수도 있다. 일부의 구성들에서, 전자 디바이스 (102) 는 스피치 샘플들에 기초하여 제 2 스피치 사전 (120) 을 생성할 수도 있다. 예를 들어, 전자 디바이스 (102) 는 클린 스피치 신호들 (예컨대, 높은 SNR 을 갖는, 및/또는 잡음을 갖지 않는 스피치 신호들) 을 수집할 수도 있다. 이 클린 스피치 신호들은 예컨대, 잡음이 거의 또는 전혀 검출되지 않을 때에 SNR 이 높은 전화 호출들 동안, 교정 절차 동안 등에 "오프라인" 으로 캡처될 수도 있다. 일부의 구성들에서, 제 2 스피치 사전 (120) 은 클린 스피치 신호들만을 이용하여 생성될 수도 있다. 다른 구성들에서, 제 2 스피치 사전 (120) 은 클린 스피치 신호들에 따라 일반적인 스피치 모델을 적응시킴으로써 생성될 수도 있다. 일부의 구성들에서, 제 1 스피치 사전 (114) 을 생성하기 위하여 이용되는 동일한 클린 스피치는 또한, 제 2 스피치 사전 (120) 을 생성하기 위하여 이용될 수도 있다. 일부의 구성들에서, 제 2 스피치 사전 (120) 은 제 1 스피치 사전 (114) 보다 특정한 화자의 스피치를 더욱 미세하게 특징화할 수도 있다.
제 2 스피치 사전은 화자-특정적일 수도 있다. 예를 들어, 제 2 스피치 사전 (120) 은 단일 사용자에 대응할 수도 있고, 및/또는 단일 사용자의 스피치를 특징화할 수도 있다. 다수의 제 2 스피치 사전들 (120) 이 생성될 수도 있고 및/또는 수신될 수도 있고, 여기서, 제 2 스피치 사전들 (120) 의 각각은 상이한 사용자에 대응하는 것에 주목해야 한다. 제 2 스피치 사전 (120) 을 획득 (예컨대, 결정, 학습 등) 하기 위한 접근법의 하나의 예는 도 15 와 관련하여 설명되고, 제 2 스피치 사전의 하나의 예는 도 16 과 관련하여 설명된다. 제 2 스피치 사전 (120) 은 재구성 모듈 (122) 에 제공될 수도 있다.
재구성 모듈 (122) 은 잔류 잡음-억압된 스피치 신호 (118) 및 제 2 스피치 사전 (120) 에 기초하여 재구성된 스피치 신호 (124) 를 생성할 수도 있다. 예를 들어, 재구성 모듈 (122) 은 스피치 스펙트럼의 손상된 부분들을 재구성할 수도 있다. 재구성된 스피치 신호 (124) 를 생성하는 것은 제 2 모델링 스테이지 (128) 내에서 또는 제 2 모델링 스테이지 (128) 의 일부로서 수행될 수도 있다는 것에 주목해야 한다. 예를 들어, 제 2 모델링 스테이지 (128) 는 NMF-기반 스피치 모델링의 스테이지일 수도 있다.
일부의 구성들에서, 전자 디바이스 (102) 는 재구성된 스피치 신호 (124) 및/또는 잔류 잡음-억압된 스피치 신호 (118) 를 인코딩할 수도 있고, 송신할 수도 있고, 저장할 수도 있고, 및/또는 재생할 수도 있다. 예를 들어, 전자 디바이스 (102) 는 재구성된 스피치 신호 (124) 또는 잔류 잡음-억압된 스피치 신호 (118) 를 인코딩할 수도 있고, 그것을 또 다른 전자 디바이스 (예컨대, 셀룰러 전화, 스마트폰, 컴퓨터, 게임용 콘솔 등) 로 송신할 수도 있다. 추가적으로 또는 대안적으로, 전자 디바이스 (102) 는 재구성된 스피치 신호 (124) 또는 잔류 잡음-억압된 스피치 신호 (118) 를 재생할 수도 있다. 이것은 신호를 하나 이상의 스피커들에 제공함으로써 달성될 수도 있다. 추가적으로 또는 대안적으로, 전자 디바이스 (102) 는 재구성된 스피치 신호 (124) 또는 잔류 잡음-억압된 스피치 신호 (118) 를 저장할 수도 있다.
도 2 는 스피치 모델링을 위한 방법 (200) 의 하나의 구성을 예시하는 흐름도이다. 방법 (200) 은 도 1 과 관련하여 설명된 전자 디바이스 (102) 에 의해 수행될 수도 있다. 전자 디바이스 (102) 는 잡음성 스피치 신호 (104) 에 기초하여 실시간 잡음 기준을 획득할 수도 있다 (202). 이것은 예를 들어, 도 1 과 관련하여 위에서 설명된 바와 같이 달성될 수도 있다.
전자 디바이스 (102) 는 실시간 잡음 기준 (108) 에 기초하여 실시간 잡음 사전 (112) 을 획득할 수도 있다 (204). 이것은 예를 들어, 도 1 과 관련하여 위에서 설명된 바와 같이 달성될 수도 있다.
전자 디바이스 (102) 는 제 1 스피치 사전 (114) 및 제 2 스피치 사전 (120) 을 획득할 수도 있다 (206). 이것은 예를 들어, 도 1 과 관련하여 위에서 설명된 바와 같이 달성될 수도 있다.
전자 디바이스 (102) 는 잔류 잡음-억압된 스피치 신호 (118) 를 생성하기 위하여 실시간 잡음 사전 (112) 및 제 1 스피치 사전 (114) 에 기초하여 잔류 잡음을 감소시킬 수도 있다 (208). 이것은 예를 들어, 도 1 과 관련하여 위에서 설명된 바와 같이 달성될 수도 있다. 잔류 잡음을 감소시키는 것 (208) 은 제 1 모델링 스테이지 (126) 에서 수행될 수도 있다. 제 1 모델링 스테이지 (126) 는 NMF 에 기초할 수도 있다. 일부의 구성들에서, 잔류 잡음을 감소시키는 것 (208) 은 제 1 스피치 사전 (114) 및 실시간 잡음 사전을 포함하는 스피치 및 잡음 사전을 고정시키는 것, 활성화 계수들을 초기화하는 것, 및/또는 (예를 들어, 최대 수의 반복들로) 수렴할 때까지 활성화 계수들을 업데이트하는 것을 포함할 수도 있다. 추가적으로 또는 대안적으로, 잔류 잡음을 감소시키는 것 (208) 은 제 1 스피치 사전, 실시간 잡음 사전, 적응된 스피치 활성화 계수, 및/또는 적응된 잡음 활성화 계수에 기초하여 필터를 생성하는 것을 포함할 수도 있다. 잔류 잡음을 감소시키는 것 (208) 은 필터 및 사전-개량된 입력에 기초하여 잔류 잡음-억압된 스피치 신호를 추정하는 것을 더 포함할 수도 있다.
전자 디바이스 (102) 는 잔류 잡음 억압된 스피치 신호 및 제 2 스피치 사전에 기초하여 재구성된 스피치 신호를 생성할 수도 있다 (210). 이것은 예를 들어, 도 1 과 관련하여 설명된 바와 같이 달성될 수도 있다. 재구성된 스피치 신호를 생성하는 것 (210) 은 제 2 모델링 스테이지 (128) 에서 수행될 수도 있다. 제 2 모델링 스테이지 (128) 는 NMF 에 기초할 수도 있다. 일부의 구성들에서, 재구성된 스피치 신호를 생성하는 것 (210) 은 서브-대역 피치-특정 사전을 고정시키는 것, 수렴할 때까지 활성화 계수들을 업데이트하는 것, 및/또는 피치-특정 사전 (예컨대, 모든-서브-대역 피치-특정 사전) 및 활성화 계수들에 기초하여 재구성된 스피치 신호 (124) 를 생성하는 것을 포함할 수도 있다.
도 3 은 본원에서 개시된 시스템들 및 방법들의 일부의 구성들의 더욱 구체적인 개요를 예시하는 기능적인 블록도이다. 도 3 과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상은 도 1 내지 도 2 중의 하나 이상과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상에 대한 예들일 수도 있다. 특히, 도 3 은 잡음 억압 모듈 (352), 화자 인식 모듈 (334), 프리-프로세싱 모듈 (330), 스피치 사전 선택 모듈 (336), 오프라인 사전 학습 모듈 (348), NMF 기반 스피치/잡음 모델링 모듈 (340), 및 신호 선택 모듈 (344) 을 예시한다.
개요의 더욱 상세한 설명은 다음과 같이 제공된다. 입력 (304) (예컨대, 잡음성 스피치 신호) 은 잡음 억압 모듈 (352) 및 화자 인식 모듈 (334) 에 제공될 수도 있다. 잡음 억압 모듈 (352) 은 입력 (304) (예컨대, 잡음성 스피치 신호) 에 대한 잡음 억압을 수행할 수도 있다. 일부의 구성들에서, 잡음 억압 모듈 (352) 은 다수의 입력 (304) 채널들 (예컨대, 다수의 마이크로폰 채널들) 에 기초하여 잡음 억압을 수행할 수도 있다. 예를 들어, 잡음 억압 모듈 (352) 은 입력 (304) 에서 정지 및/또는 비-정지 잡음을 억압할 수도 있다. 하나의 예에서, 잡음 억압 모듈 (352) 은 잡음 억압 출력 크기를 결정할 수도 있다. 잡음 억압 출력 크기는 프리-프로세싱 모듈 (330) 에 제공될 수도 있다.
프리-프로세싱 모듈 (330) 은 실시간 잡음 기준을 획득할 수도 있다. 예를 들어, 프리-프로세싱 모듈 (330) 은 입력 (304) 의 주요 채널 (primary channel) 및 잡음 억압 출력 크기에 기초하여 실시간 잡음 기준을 획득할 수도 있다. 프리-프로세싱 모듈 (330) 은 입력 (304) 의 주요 채널 및 실시간 잡음 기준에 기초하여 사전-개량된 입력 (332) (예컨대,
Figure pct00001
) 을 생성할 수도 있다. 추가적으로, 프리-프로세싱 모듈 (330) 은 실시간 잡음 기준에 기초하여 실시간 잡음 사전 (312) (예컨대,
Figure pct00002
) 을 온라인으로 획득할 수도 있다. 잡음 억압 및 프리-프로세싱의 더욱 구체적인 예는 도 18 과 관련하여 설명된다. 사전-개량된 입력 (332) 및 실시간 잡음 사전 (312) 은 NMF-기반 스피치/잡음 모델링 모듈 (340) 에 제공될 수도 있다.
화자 인식 모듈 (334) 은 화자 인식을 수행할 수도 있다. 예를 들어, 화자 인식 모듈 (334) 은 입력 (304) 및 잡음 억압 모듈 (352) 출력에 기초하여 하나 이상의 화자들의 음성들 (예컨대, 주요 화자의 음성) 을 인식할 수도 있다. 예를 들어, 화자 인식 모듈 (334) 은 입력 (304) 및/또는 잡음 억압 모듈 (352) 출력의 하나 이상의 특성들 (예컨대, 스펙트럼 포락선, 포먼트 피크 (formant peak) 들, 피치 등) 을 하나 이상의 알려진 화자 프로파일들에 정합시키는 것을 시도할 수도 있다. 화자가 인식될 경우, 화자 인식 모듈 (334) 은 화자 식별의 표시자를 스피치 사전 선택 모듈 (336) 에 제공할 수도 있다. 화자 인식 모듈 (334) 이 화자를 인식하지 않을 경우, 화자 인식 모듈 (334) 은 입력 (304) 이 임의의 알려진 (예컨대, 레코딩된) 화자와 정합하지 않는다는 것을 표시할 수도 있다.
오프라인 사전 학습 모듈 (348) 에 관하여, 화자 사전 데이터베이스 (350) 는 일반적인 화자 사전으로 초기화될 수도 있다. 오프라인 사전 학습 모듈 (348) 은 조건이 충족될 때 (예컨대, 입력 스피치의 SNR 측정이 예를 들어, SNR 문턱보다 높을 때), 특정 화자의 스피치 사전을 학습할 수도 있다.
스피치 사전 선택 모듈 (336) 은 제 1 모델링 스테이지 스피치 모델링을 위한 제 1 스피치 사전 (314) (예컨대,
Figure pct00003
) 을 획득할 수도 있다. 예를 들어, 스피치 사전 선택 모듈 (336) 은 (만약 있다면) 식별된 화자에 기초하여 화자 사전 데이터베이스 (350) 로부터 제 1 스피치 사전 (314) 을 취출 (retrieve) 할 수도 있다. 스피치 사전 선택 모듈 (336) (예컨대, 화자-특정 스피치 사전 선택 모듈 (336)) 은 또한, 제 2 모델링 스테이지 스피치 모델링을 위한 제 2 스피치 사전 (320) (예컨대,
Figure pct00004
) 을 선택할 수도 있다. 예를 들어, 스피치 사전 선택 모듈 (336) 은 (만약 있다면) 식별된 화자에 기초하여 화자 사전 데이터베이스 (350) 로부터 제 2 스피치 사전 (320) 을 취출할 수도 있다. 일부의 구성들에서, 제 2 스피치 사전 (320) 은 제 2 모델링 스테이지 스피치 모델링을 위한 포락선-피치 특정 사전일 수도 있다. 도 3 에서 예시된 바와 같이, 제 1 스피치 사전 (314) 및 제 2 스피치 사전 (320) 은 일부의 구성들에서 화자-특정 스피치 사전 (338) (예컨대, 그 서브세트들) 에 각각 기초할 수도 있다. 제 1 스피치 사전 (314) 및 제 2 스피치 사전 (320) 은 NMF 기반 스피치/잡음 모델링 모듈 (340) 에 제공될 수도 있다.
NMF 기반 스피치/잡음 모델링 모듈 (340) 은 잔류 잡음을 감소 (예컨대, 제거) 시킬 수도 있고, 재구성된 스피치 신호 (324) 를 생성할 수도 있다. 잔류 잡음을 감소시키는 것은 제 1 모델링 스테이지 (326) 에서 수행될 수도 있고, 재구성된 스피치 신호 (324) 를 생성하는 것은 제 2 모델링 스테이지 (328) 에서 수행될 수도 있다.
제 1 모델링 스테이지 (326) 는 NMF 기반 위너 필터링을 포함할 수도 있다. 예를 들어, 소정의 훈련된 스피치/잡음 사전 (예컨대,
Figure pct00005
) 에 대하여, NMF 기반 스피치/잡음 모델링 모듈 (340) 은 잡음성 스피치 스펙트럼의 각각의 프레임을
Figure pct00006
로서 모델링할 수도 있다.
Figure pct00007
는 각각의 사전의 활성화 가중치들을 나타낼 수도 있다 (여기서,
Figure pct00008
는 제 1 스피치 사전 활성화 가중치들이고,
Figure pct00009
는 실시간 잡음 사전 활성화 가중치들임). NMF 기반 스피치/잡음 모델링 모듈 (340) 은 위너 필터링 접근법을 이용하여 잡음-억압된 스피치 신호 (318) (예컨대,
Figure pct00010
) 를 생성할 수도 있다 (예컨대,
Figure pct00011
,
Figure pct00012
, 여기서,
Figure pct00013
는 엘리먼트-별 승산임).
일부의 구성들에서, NMF 기반 스피치/잡음 모델링 모듈 (340) 은 다음과 같이 제 2 모델링 스테이지 (328) 에서 NMF 기반 포락선 복원을 수행할 수도 있다. 소정의 제 2 스피치 사전 (320)
Figure pct00014
(예컨대, 화자-특정 스피치 사전) 에 대하여, NMF 기반 스피치/잡음 모델링 모듈 (340) 은 재구성된 스피치 신호 (324) (예컨대, 재구성된 모든 대역 스피치
Figure pct00015
) 를 생성하기 위하여 높은 SNR 의 서브-대역 스피치 스펙트럼을 모델링할 수도 있다.
잔류 잡음-억압된 스피치 신호 (318) 및 재구성된 스피치 신호 (324) 는 임의적으로 신호 선택 모듈 (344) 에 제공될 수도 있다. 신호 선택 모듈 (344) 은 재구성 에러 (342) 에 기초하여 잔류 잡음-억압된 스피치 신호 (318) 및 재구성된 스피치 신호 (324) 중의 하나를 출력 (346) (예컨대, 출력 스피치 신호) 으로서 선택할 수도 있다. 예를 들어, 재구성 에러 (342) (예컨대,
Figure pct00016
,
Figure pct00017
또는 d) 가 하이 (high) (예컨대, 문턱보다 더 큼) 일 경우, 잔류 잡음-억압된 스피치 신호 (318) (예컨대, 위너 필터링 출력
Figure pct00018
) 는 출력 (346) (예컨대,
Figure pct00019
, 출력 스피치 신호 등) 으로서 선택될 수도 있다. 예를 들어,
Figure pct00020
. 추가적으로, 재구성 에러 (342)
Figure pct00021
가 하이 (예컨대, 동일하거나 상이한 문턱보다 더 큼) 일 경우, NMF 기반 스피치/잡음 모델링 모듈 (340) 은 스피치 사전을 추가로 훈련시키기 위하여, 및/또는 하나 이상의 추가적인 스피치 사전들을 훈련시키기 위하여 오프라인 사전 학습 모듈 (348) 을 활성화할 수도 있다.
오프라인 사전 학습 모듈 (348) 은 제 1 모델링 스테이지 (326) 및/또는 제 2 모델링 스테이지 (328) 에 대한 사전 학습 및/또는 훈련을 수행할 수도 있다. 사전 학습 및/또는 훈련의 더욱 상세한 예들은 도 13 내지 도 16 과 관련하여 제공된다.
일부의 구성들에서, 시스템들 및 방법들은 다음의 원리들 중의 하나 이상에 따라 동작할 수도 있다. 제 1 모델링 스테이지 (326) 프로세싱은 포스트-필터 (post-filter) 를 적용하기 전에 잡음으로부터 스피치 컴포넌트를 얻고 및/또는 분리하기 위하여 NMF 절차를 이용할 수도 있다. 실시간 잡음 기준은 사전-정의된 스피치 사전 (예컨대, 제 1 스피치 사전 (314)) 과 함께 사용될 수도 있다. 예를 들어, NMF 와 같은 정합 추적 (matching pursuit) 의 맥락에서 함께 이용될 수도 있는 실시간 잡음 기준 및 스피치 사전이 획득될 수도 있다.
일부의 구성들에서, 포스트-필터 이득은 스피치 전력이 그 빈 (bin) 에서의 입력 전력으로부터 잡음 전력을 감산함으로써 추정될 수 있다는 가정에 기초하여 주파수 빈마다 획득될 수도 있다. 그러나, 본원에서 개시된 시스템들 및 방법들의 일부의 구성들에 따르면, 서브대역들은 타겟 화자를 기술 (예컨대, 설명, 표현 등) 할뿐만 아니라, 소정의 훈련 데이터로 가능하도록, 그리고 더욱 올바르게 추정된 스피치 전력 및 잡음 전력에 기초하여 포스트-필터를 적용하기 전에 잡음으로부터 스피치를 추정하고 및/또는 분리하도록 학습될 수도 있다. 이 접근법은 매우 정확한 실시간 잡음 기준 스펙트럼을 사용하므로 성공적일 수도 있고, 양호하게-훈련된 타겟 화자의 스피치 사전으로, 스피치 스펙트럼은 더욱 간단한 기존의 접근법에서보다 더욱 양호하게 추정될 수도 있고 및/또는 분리될 수도 있다. 훈련 데이터의 제한된 사이즈 (예컨대, 양) 으로 완전한 스피치 스펙트럼 사전을 구성하기 위하여, 일부의 서브대역 원자 (subband atom) 들은 모든 훈련 데이터를 기술 (예컨대, 설명, 표현 등) 하기 위하여 조합될 수도 있다는 것에 주목해야 한다. 이론적으로, 거의 무제한의 수의 기저 함수들 및/또는 원자들이 사전을 위하여 획득되고 및/또는 이용가능할 경우, 사용자의 스펙트럼의 거의 매 스냅샷 (snapshot) 은 모든 상이한 종류의 발언들, 피치들, 운율들 등에 대하여 이용가능할 수도 있다. 그러나, 이것은 사이즈를 일부의 제약들을 갖는 합리적인 레벨로 감소시키는 일부의 방법이 없다면, 어려울 수도 있다.
제 2 모델링 스테이지 (328) 프로세싱은 포락선을 재구성하는 것에 더욱 맞추어질 수도 있다. (제 1 모델링 스테이지 (326) 에서 적용될 수도 있는) 제 1 스피치 사전 (314) 및/또는 원자가 제한된 훈련 데이터 사이즈로 인해 일부의 주파수 범위들에서 국소화될 수도 있으므로, 일부의 대역들이 잡음에 의해 지배될 경우, 그리고 그러한 대역들 뿐만 아니라 스피치 지배적 주파수 대역들을 포괄하기 위해 충분히 폭이 넓은 스피치 원자가 있지 않을 경우, (예를 들어, 기존의 포스트-필터링 접근법에서와 같이) 그 대역을 복원하는 것이 어려울 수도 있다. 그러나, 타겟 화자 사전을 위한 충분한 스피치 지배적 빈들이 있는 한, (기존의 접근법에서보다) 스피치를 복원하기 위한 더욱 양호한 기회가 여전히 있을 수도 있다는 것에 주목해야 한다. 따라서, 훨씬 더 넓은 범위를 포괄하는 사전이 사용될 수도 있다. 스펙트럼 스냅샷 (spectrum snapshot) 은 전체의 스펙트럼을 포괄하므로 유익할 수도 있다.
따라서, 제 2 모델링 스테이지 (328) 프로세싱에서는, 피치 및/또는 아마도 포먼트 구조와 같은 일부의 합리적인 제약들을 갖는 스펙트럼 스냅샷을 사용하는 것이 유익할 수도 있다. 제 1 모델링 스테이지 (326) 출력 (예컨대, 잔류 잡음-억압된 스피치 신호 (318)) 은 제약들을 위하여 이용된 이러한 특징들을 추정하는 측면에서 매우 도움이 될 수도 있다. 일부의 구성들에서, 스펙트럼 스냅샷들은 추정된 피치 및/또는 포먼트 구조 등에 오직 대응하여 추출될 수도 있다. 이것들은 잡음으로부터 스피치를 추정하고 및/또는 분리하기 위하여 사전 (예컨대, 피치-특정 사전) 으로서 사용될 수도 있다. 이 제약들로, 사전은 합리적인 사이즈일 수도 있고, NMF 또는 임의의 적당한 정합 추적 알고리즘은 메모리 및 연산에 대한 훨씬 더 적은 우려로 적용될 수도 있고, 그렇지만, 타겟 화자의 스피치의 포락선이 복원될 수도 있다. 따라서, 본원에서 개시된 시스템들 및 방법들은 상기 언급된 제약들에 기초하여 합리적인 복잡성 및 메모리 사이즈로 더 넓은 스펙트럼 커버리지를 갖는 합리적인 사전 사이즈를 가지고 사전에 기초하여 포락선을 복원하는 새로운 방법을 제공할 수도 있다.
일부의 구성들에서, 하나 이상의 방법들은 다음의 단계들: 스피치 사전 (예컨대, 제 1 스피치 사전 (314)) 을 획득하는 단계; 잡음성 신호로부터 스피치 컴포넌트를 획득하기 위하여 실시간 잡음 기준 및 스피치 사전 (예컨대, 제 1 스피치 사전 (314)) 에 기초하여 정합 추적 (예컨대, NMF) 을 수행하는 것을 포함하는 제 1 모델링 스테이지 (326) 프로세싱을 수행하는 단계; 포스트 필터를 적용하는 단계; 하나 이상의 제약들을 갖는 또 다른 스피치 사전 (예컨대, 제 2 스피치 사전 (320)) 을 획득하는 단계; 및 스피치 포락선을 복원하기 위하여 정합 추적 (예컨대, NMF) 을 수행하는 것을 포함하는 제 2 모델링 스테이지 (328) 프로세싱을 수행하는 단계 중의 하나 이상을 포함할 수도 있다. 시스템들 및 방법들은 상기한 절차들 중의 하나 이상을 수행하는 컴포넌트들 (예컨대, 회로부) 을 갖는 전자 디바이스들, 전자 디바이스로 하여금, 상기한 절차들 중의 하나 이상을 수행하게 하는 명령들을 갖는 컴퓨터-판독가능 매체들, 및/또는 상기한 절차들 중의 하나 이상을 수행하기 위한 수단을 갖는 장치를 추가적으로 제공할 수도 있다.
도 4 는 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들이 구현될 수도 있는 전자 디바이스 (402) 의 또 다른 구성을 예시하는 블록도이다. 도 4 와 관련하여 설명된 전자 디바이스 (4) 는 도 1 과 관련하여 설명된 전자 디바이스 (102) 의 하나의 예일 수도 있다.
전자 디바이스 (402) 는 실시간 잡음 기준 결정 모듈 (406), 실시간 잡음 사전 결정 모듈 (410), 제 1 스피치 사전 생성 모듈 (452), 잔류 잡음 감소 모듈 (416), 피치 결정 모듈 (456), 제 2 스피치 사전 생성 모듈 (454), 피치-특정 사전 결정 모듈 (458), 서브-대역 결정 모듈 (462), 서브-대역 피치-특정 사전 결정 모듈 (460), 및 스피치 모델링 및 재구성 모듈 (464) 중의 하나 이상을 포함할 수도 있다. 실시간 잡음 기준 결정 모듈 (406), 실시간 잡음 사전 결정 모듈 (410), 및 잔류 잡음 감소 모듈 (416) 은 도 1 과 관련하여 설명된 대응하는 컴포넌트들의 예들일 수도 있다.
일부의 구성들에서, 피치 결정 모듈 (456), 피치-특정 사전 결정 모듈 (458), 서브-대역 결정 모듈 (462), 서브-대역 피치-특정 사전 결정 모듈 (460), 및 스피치 모델링 및 재구성 모듈 (464) 은 도 1 과 관련하여 설명된 재구성 모듈 (122) 내에서 포함될 수도 있다. 도 4 와 관련하여 설명된 모듈들 중의 하나 이상은 임의적일 수도 있다는 것에 주목해야 한다. 또한, 모듈들 중의 하나 이상은 일부의 구성들에서 조합되거나 분할될 수도 있다. 도 4 와 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상에 대한 더욱 구체적인 예들은 도 5, 도 10, 도 12 내지 도 13, 도 15, 및 도 17 내지 도 21 중의 하나 이상과 관련하여 주어질 수도 있다.
전자 디바이스 (402) 는 잡음성 스피치 신호 (404) 를 획득할 수도 있다. 이것은 도 1 과 관련하여 설명된 바와 같이 달성될 수도 있다. 잡음성 스피치 신호 (404) (또는 잡음성 스피치 신호 (404) 에 기초한 신호) 는 실시간 잡음 기준 결정 모듈 (406) 에 제공될 수도 있다.
실시간 잡음 기준 결정 모듈 (406) 은 잡음성 스피치 신호 (404) 에 기초하여 실시간 잡음 기준 (408) 을 획득할 수도 있다. 이것은 도 1 과 관련하여 설명된 바와 같이 달성될 수도 있다. 실시간 잡음 기준 (408) 을 획득하기 위한 접근법의 더욱 구체적인 예가 도 18 과 관련하여 주어진다. 실시간 잡음 기준 (408) 은 실시간 잡음 사전 결정 모듈 (410) 에 제공될 수도 있다.
실시간 잡음 사전 결정 모듈 (410) 은 실시간 잡음 기준 (408) 에 기초하여 실시간 잡음 사전 (412) 을 획득할 수도 있다. 이것은 도 1 과 관련하여 설명된 바와 같이 달성될 수도 있다. 실시간 잡음 사전 (412) 을 획득하기 위한 접근법의 더욱 구체적인 예는 도 18 과 관련하여 주어진다. 실시간 잡음 사전 (412) 은 잔류 잡음 감소 모듈 (416) 에 제공될 수도 있다.
제 1 스피치 사전 생성 모듈 (452) 은 제 1 스피치 사전 (414) 을 획득할 수도 있다. 예를 들어, 제 1 스피치 사전 생성 모듈 (452) 은 하나 이상의 화자들 (예컨대, 사용자들) 의 스피치를 모델링하는 제 1 사전 (예컨대, 기저 함수들의 세트) 을 구축할 수도 있고 및/또는 훈련시킬 수도 있다. 제 1 스피치 사전 (414) 을 생성하는 것은 도 1 과 관련하여 설명된 바와 같이 달성될 수도 있다. 제 1 스피치 사전 생성 모듈 (452) 은 현재의 사용자에 대응하는 제 1 스피치 사전 (414) 을 추가적으로 또는 대안적으로 선택할 수도 있다.
제 1 스피치 사전 (414) 을 획득 (예컨대, 결정, 학습, 생성 등) 하기 위한 접근법의 하나의 예는 도 13 과 관련하여 설명되고, 제 1 스피치 사전의 하나의 예는 도 14 와 관련하여 설명된다. 제 1 스피치 사전 (414) 은 잔류 잡음 감소 모듈 (416) 에 제공될 수도 있다.
잔류 잡음 감소 모듈 (416) 은 실시간 잡음 사전 (412) 및 제 1 스피치 사전 (414) 에 기초하여 잔류 잡음을 감소시킬 수도 있다. 이것은 도 1 과 관련하여 설명된 바와 같이 달성될 수도 있다. 잔류 잡음-억압된 스피치 신호 (418) 는 서브-대역 결정 모듈 (462) 및/또는 피치 결정 모듈 (456) 에 제공될 수도 있다.
피치 결정 모듈 (456) 은 잔류 잡음-억압된 스피치 신호 (418) 에 기초하여 피치를 획득할 수도 있다. 예를 들어, 피치 결정 모듈 (456) 은 잔류 잡음-억압된 스피치 신호 (418) 의 각각의 프레임에 대한 피치를 결정할 수도 있다. 결정된 피치는 각각의 프레임에서의 기본 피치 (예컨대, 기본 피치 진화) 일 수도 있다. 피치 결정 모듈 (456) 의 예는 도 21 과 관련하여 설명된다. 피치는 피치-특정 사전 결정 모듈 (458) 에 제공될 수도 있다.
일부의 구성들에서, 피치 결정 모듈 (456) 은 프레임에서 잔류 잡음-억압된 스피치 신호 (418) 의 시간-도메인 자동상관을 수행함으로써, 그리고 피치 피크들 사이의 주기 (예컨대, 샘플들의 수) 를 결정함으로써 피치를 결정할 수도 있다. 추가적으로 또는 대안적으로, 피치 결정 모듈 (456) 은 잔류 잡음-억압된 스피치 신호 (418) 를 주파수 도메인으로 변환할 수도 있고, 최대 피크 크기가 발생하는 주파수를 결정할 수도 있다.
일부의 구성들에서, 피치 결정 모듈 (456) 은 잔류 잡음-억압된 신호 (418) 를 주파수 도메인으로 변환할 수도 있고, 다음과 같이 기본 주파수를 결정할 수도 있다. 피치 결정 모듈 (456) 은 비-고조파 (non-harmonic) 피크들, 최대 피크에 비해 작은 (예컨대, 문턱보다 더 작은) 피크들, 낮은 (예컨대, 문턱보다 더 작은) 조성 (tonality) 을 갖는 피크들, 더욱 강한 피크들에 너무 근접한 (예컨대, 그 주파수 범위 내에 있는) 피크들, 및/또는 이전 프레임의 비-고조파 피크들로부터 연속적인 피크들을 결정하고 및/또는 제거함으로써 기본 주파수를 결정할 수도 있다. 다음으로, 피치 결정 모듈 (456) 은 기본 주파수를 결정하기 위하여 고조파 정합을 수행할 수도 있다. 예를 들어, 피치 결정 모듈 (456) 은 나머지 피크들 (예컨대,
Figure pct00022
) 로 기본 주파수를 구할 수도 있고, 여기서, 기본 주파수 (예컨대,
Figure pct00023
) 는 나머지 피크들에 대한 일반화된 최대 공약수 (greatest common divisor) (예컨대, 각각의
Figure pct00024
에 대하여 가능한 한 작은,
Figure pct00025
로 나타낸
Figure pct00026
의 분수 부분) 이다. 예를 들어,
Figure pct00027
. 이것은
Figure pct00028
Figure pct00029
에 대한 소정의 범위 상에서 각각의
Figure pct00030
를 가능한 한 작게 한다는 의미에서 관찰된 피크 주파수들
Figure pct00031
과 최상으로 정합하는
Figure pct00032
를 구하기 위하여 사용될 수도 있다.
Figure pct00033
는 고조파 정합 스펙트럼 (예컨대, 가중화된 고조파 정합 점수) 을 나타내고, 여기서,
Figure pct00034
. 이것은 그 진폭들
Figure pct00035
에 의해 가중화된 피크들
Figure pct00036
에 대한 고조파 정합 점수들의 합이다. 일부의 구성들에서, 가중화 함수는 진폭에 대한 가중치를 제공하는
Figure pct00037
이다.
Figure pct00038
는 예를 들어,
Figure pct00039
일 수도 있는 고조파 정합 척도 (harmonic matching measure) 를 나타낸다. 이것은
Figure pct00040
이 일부의 정수에 근접한 정도를 반영하는 0 및 1 사이의 점수를 제공한다.
제 2 스피치 사전 생성 모듈 (454) 은 하나 이상의 화자들 (예컨대, 사용자들) 의 스피치를 모델링하는 제 2 스피치 사전 (420) (예컨대, 기저 함수들의 세트) 을 획득 (예컨대, 생성, 구축, 및/또는 훈련) 할 수도 있다. 일부의 구성들에서, 제 2 스피치 사전 (420) 을 생성하는 것은 도 1 과 관련하여 설명된 바와 같이 달성될 수도 있다. 일부의 예들에서, 제 2 스피치 사전을 획득하는 것은 복수의 화자-특정 스피치 크기 스펙트럼들에 대한 하모닉시티 및 피치를 추정하는 것을 포함할 수도 있다. 제 2 스피치 사전을 획득하는 것은 또한, 화자-특정 스피치 크기 스펙트럼들로부터, 하모닉시티 문턱보다 높은 대응하는 하모닉시티들을 갖는 스피치 스펙트럼들을 선택하는 것을 포함할 수도 있다. 제 2 스피치 사전을 획득하는 것은 대응하는 피치로 선택된 스피치 스펙트럼들의 각각을 라벨링하는 것을 더 포함할 수도 있다.
제 2 스피치 사전 생성 모듈 (454) 은 현재의 사용자에 대응하는 제 2 스피치 사전 (420) 을 추가적으로 또는 대안적으로 선택할 수도 있다. 제 2 스피치 사전 (420) 을 획득 (예컨대, 결정, 학습 등) 하기 위한 접근법의 하나의 예는 도 15 와 관련하여 설명되고, 제 2 스피치 사전의 하나의 예는 도 16 과 관련하여 설명된다. 제 2 스피치 사전 (420) 은 화자-특정적인 피치-포락선 특정 스피치 사전일 수도 있다. 제 2 스피치 사전 (420) 은 피치-특정 사전 결정 모듈 (458) 에 제공될 수도 있다.
피치-특정 사전 결정 모듈 (458) 은 피치에 기초하여 화자-특정 사전 (예컨대, 제 2 스피치 사전 (420)) 으로부터 피치-특정 사전을 결정할 수도 있다. 예를 들어, 피치-특정 사전 결정 모듈 (458) 은 피치-특정 사전을 결정하기 위하여 피치에 기초하여 제 2 스피치 사전 (420) 으로부터 기저 함수들의 서브세트를 선택할 수도 있다. 피치-특정 사전은 서브-대역 피치-특정 사전 결정 모듈 (460) 및 스피치 모델링 및 재구성 모듈 (464) 에 제공될 수도 있다.
서브-대역 결정 모듈 (462) 은 잔류 잡음-억압된 스피치 신호 (418) 에 기초하여 하나 이상의 서브-대역들을 결정할 수도 있다. 예를 들어, 서브-대역 결정 모듈 (462) 은 잔류 잡음-억압된 스피치 신호 (418) 에 기초하여 서브-대역 (예컨대, 주파수 빈) 을 선택할 수도 있다. 예를 들어, 서브-대역 결정 모듈 (462) 은 문턱보다 높은 SNR 을 나타내는 잔류 잡음-억압된 스피치 신호 (418) 의 하나 이상의 서브대역들만을 선택할 수도 있다. 서브-대역 결정 모듈 (462) 의 예는 도 21 과 관련하여 설명된다. 하나 이상의 서브-대역들은 서브-대역 피치-특정 사전 결정 모듈 (460) 및 스피치 모델링 및 재구성 모듈 (464) 에 제공될 수도 있다.
서브-대역 피치-특정 사전 결정 모듈 (460) 은 하나 이상의 서브대역들 (예컨대, 빈-별 신호-대-잡음 비율 (SNR) 들) 에 기초하여 피치-특정 사전으로부터 서브-대역 피치 특정 사전을 결정할 수도 있다. 예를 들어, 서브-대역 피치-특정 사전 결정 모듈 (460) 은 서브-대역 피치-특정 사전을 생성하기 위하여 서브-대역 (들) 에 기초하여 피치-특정 사전으로부터 하나 이상의 기저 함수들을 선택할 수도 있다. 서브-대역 피치-특정 사전은 스피치 모델링 및 재구성 모듈 (464) 에 제공될 수도 있다.
스피치 모델링 및 재구성 모듈 (464) 은 서브-대역 피치-특정 사전 및 서브-대역들에 기초하여 재구성된 스피치 신호 (424) 를 생성할 수도 있다. 예를 들어, 스피치 모델링 및 재구성 모듈 (464) 은 서브-대역 피치-특정 사전을 고정시킬 수도 있고, 수렴할 때까지 활성화 계수들을 업데이트할 수도 있다. 스피치 모델링 및 재구성 모듈 (464) 은 또한, 피치-특정 사전 및 활성화 계수들에 기초하여 재구성된 스피치 신호를 생성할 수도 있다. 스피치 모델링 및 재구성 모듈 (464) 의 예들은 도 21 과 관련하여 설명된다.
일부의 구성들에서, 전자 디바이스 (402) 는 재구성 에러 및 하나 이상의 문턱들에 기초하여 잔류 잡음 억압된 스피치 신호 (418) 와 재구성된 스피치 신호 (424) 사이에서 선택될 수도 있다. 예를 들어, 전자 디바이스 (402) 는 재구성 에러가 문턱보다 낮을 경우에 재구성된 스피치 신호 (424) 를 선택할 수도 있다. 대안적으로, 전자 디바이스 (402) 는 재구성 에러가 문턱보다 높을 (예컨대, 더 크거나 동일함) 경우에 잔류 잡음-억압된 스피치 신호 (418) 를 선택할 수도 있다. 전자 회로 (402) 는 일부의 구성들에서 선택된 신호를 출력할 수도 있다.
도 5 는 스피치 모델링을 위한 방법 (500) 의 또 다른 구성을 예시하는 흐름도이다. 전자 디바이스 (402) 는 잡음성 스피치 신호 (404) 에 기초하여 잔류 잡음-억압된 스피치 신호 (418) 를 획득할 수도 있다 (502). 이것은 예를 들어, 도 4 와 관련하여 위에서 설명된 바와 같이 달성될 수도 있다.
전자 디바이스 (402) 는 잔류 잡음-억압된 스피치 신호 (418) 에 기초하여 피치를 획득할 수도 있다 (504). 이것은 예를 들어, 도 4 와 관련하여 위에서 설명된 바와 같이 달성될 수도 있다.
전자 디바이스 (402) 는 제 2 스피치 사전 (420) 을 획득할 수도 있다 (506). 이것은 예를 들어, 도 4 와 관련하여 위에서 설명된 바와 같이 달성될 수도 있다.
전자 디바이스 (402) 는 피치에 기초하여 제 2 스피치 사전 (420) 으로부터 피치-특정 사전을 결정할 수도 있다 (508). 이것은 예를 들어, 도 4 와 관련하여 위에서 설명된 바와 같이 달성될 수도 있다.
전자 디바이스 (402) 는 잔류 잡음-억압된 스피치 신호 (418) 에 기초하여 하나 이상의 서브-대역들을 결정할 수도 있다 (510). 이것은 예를 들어, 도 4 와 관련하여 위에서 설명된 바와 같이 달성될 수도 있다.
전자 디바이스 (402) 는 하나 이상의 서브대역들에 기초하여 피치-특정 사전으로부터 서브-대역 피치 특정 사전을 결정할 수도 있다 (512). 이것은 예를 들어, 도 4 와 관련하여 위에서 설명된 바와 같이 달성될 수도 있다.
전자 디바이스 (402) 는 재구성 에러가 문턱보다 낮을 경우에 재구성된 스피치 신호를 선택할 수도 있다 (514). 이것은 예를 들어, 도 4 와 관련하여 위에서 설명된 바와 같이 달성될 수도 있다.
도 6 은 잡음성 스피치 신호의 하나의 예를 예시하는 그래프이다. 특히, 그래프는 시간 (668) (시, 분, 및 초 (hms), 여기서, 2:50:0 은 예를 들어, 2 분 50.0 초를 의미함) 에 대한 주파수 (헤르쯔 (Hz)) (666) 에 있어서의 스펙트로그램 (spectrogram) 이다. 이 예에서, 잡음성 스피치 신호는 음악 잡음의 존재 시에 스피치 신호를 포함하는 주요 채널 입력이다.
도 7 은 잡음-억압된 스피치 신호의 하나의 예를 예시하는 그래프이다. 특히, 그래프는 시간 (768) 에 대한 주파수 (Hz) (766) 에 있어서의 스펙트로그램이다. 이 예에서, 잡음-억압된 신호는 음악 잡음으로부터 남아 있는 일부의 잔류 잡음 (770) 을 갖는 스피치 신호를 포함하는 디-노이징된 (de-noised) 출력이다. 도 7 은 일부의 누락된 고조파 성분들 및 손상된 스피치 포락선 (772) 을 추가로 예시한다. 예를 들어, 일부의 타입들의 잡음 억압에 있어서의 문제점들은 잔류 잡음 (770), 누락된 고조파 성분들, 및/또는 손상된 스피치 포락선 (772) 을 포함할 수도 있다.
도 8 은 본원에서 개시된 시스템들 및 방법들에 따라 제 1 모델링 스테이지 프로세싱 후의 신호의 하나의 예를 예시하는 그래프이다. 특히, 그래프는 시간 (868) 에 대한 주파수 (Hz) (866) 에 있어서의 스펙트로그램이다. 이 예에서, 스펙트로그램은 제 1 모델링 스테이지 NMF 위너 필터링 출력을 예시한다. 도 8 은 도 6 내지 도 7 에서 주어진 예들에 대응한다. 특히, 이 스펙트로그램은 본원에서 개시된 시스템들 및 방법들에 따라 잡음 억압 및 제 1 모델링 스테이지 프로세싱 후에 음악 잡음으로 오류가 생긴 스피치 신호로부터 획득된 결과적인 잔류 잡음-억압된 스피치 신호를 예시한다. 관찰될 수 있는 바와 같이, 잔류 잡음 및 격리된 잡음 피크들은 감소되었고 및/또는 제거되었다.
도 9 는 본원에서 개시된 시스템들 및 방법들에 따라 제 2 모델링 스테이지 프로세싱 후의 신호의 하나의 예를 예시하는 그래프이다. 특히, 그래프는 시간 (968) 에 대한 주파수 (Hz) (966) 에 있어서의 스펙트로그램이다. 이 예에서, 스펙트로그램은 제 2 모델링 스테이지 NMF 포락선 복원 출력 (예컨대, 재구성된 스피치 신호) 을 예시한다. 도 9 는 도 6 내지 도 8 에서 주어진 예들에 대응한다. 특히, 이 스펙트로그램은 본원에서 개시된 시스템들 및 방법들에 따라 잡음 억압, 제 1 모델링 스테이지 프로세싱, 및 제 2 모델링 스테이지 프로세싱 후에 음악 잡음으로 오류가 생긴 스피치 신호로부터 획득된 결과적인 재구성된 스피치 신호를 예시한다. 관찰될 수 있는 바와 같이, 고조파 성분들은 복원될 수 있고, 클린 유성 스피치 포락선이 유지되었다.
도 10 은 본원에서 개시된 시스템들 및 방법들의 일부의 구성들의 개요의 하나의 예를 예시하는 블록도이다. 도 10 과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상은 도 1 내지 도 5 중의 하나 이상과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상에 대한 예들일 수도 있다. 이 대응 관계는 유사한 항목 번호들로 표시될 수도 있다.
도 10 에서 예시된 구성에서, 잡음성 스피치 신호 (1004) 는 잡음 억압 모듈 (1052) 에 제공된다. 잡음 억압 모듈 (1052) 은 위에서 설명된 바와 같이, 잡음성 스피치 신호 (1004) 에서 잡음을 억압할 수도 있다. 일부의 구성들에서, 잡음 억압 모듈 (1052) 은 실시간 적응된 잡음 기준 신호 (1008) (예컨대, 실시간 잡음 기준) 및/또는 잡음 억압된 스피치 크기 스펙트럼 (1032) 을 생성할 수도 있다. 예를 들어, 잡음성 스피치 신호 (1004) 에서 잡음을 억압하기 위하여, 잡음 억압 모듈 (1052) 은 잡음 기준 (1008) 을 실시간으로 결정할 수도 있다. 잡음 기준 (1008) 은 잡음성 스피치 신호 (1004) 에서의 잡음의 추정치 (예컨대, 잡음 특성들) 일 수도 있다. 실시간 적응된 잡음 기준 신호 (1008) 는 잡음 사전을 취득하기 위하여 (잡음 사전 모듈 (1010) 에 의해) 사용될 수도 있다. 잡음-억압된 스피치 신호의 크기 스펙트럼 (1032) 은 NMF 기반 스피치/잡음 모델링 모듈 (1040) 에 제공될 수도 있다.
잡음-억압된 스피치 신호는 성문 모듈 (voice print module) (1034) 에 제공될 수도 있다. 성문 모듈 (1034) 은 화자 인식을 수행할 수도 있다. 예를 들어, 성문 모듈 (1034) 은 스피치 신호로부터의 특성들에 기초하여 하나 이상의 화자들을 인식할 수도 있다. 성문 모듈 (1034) 은 도 3 과 관련하여 설명된 화자 인식 모듈 (334) 의 하나의 예일 수도 있다. 성문 모듈 (1034) 은 화자 인식 정보를 스피치 사전 모듈 (1036)/잡음 사전 모듈 (1010) 에 제공할 수도 있다.
스피치 사전 모듈 (1036)/잡음 사전 모듈 (1010) 은 화자 인식 정보에 기초하여 하나 이상의 화자-특정 사전들을 선택할 수도 있고, 및/또는 잡음 사전을 취득할 수도 있다. 예를 들어, 화자-특정 스피치 사전 선택 모듈은 화자 인식 정보에 기초하여 제 1 사전 및 제 2 사전을 선택할 수도 있다. 예를 들어, 현재의 화자가 인식될 경우, 스피치 사전 모듈 (1036)/잡음 사전 모듈 (1010) 은 그 특정한 화자에 대응하는 하나 이상의 사전들 (예컨대, 특정한 화자의 스피치 특성들을 나타내도록 구체적으로 훈련되었던 사전들) 을 선택할 수도 있다. 그러나, 현재의 화자가 인식되지 않을 경우, 스피치 사전 모듈 (1036)/잡음 사전 모듈 (1010) 은 하나 이상의 일반적인 사전들을 선택할 수도 있다.
하나 이상의 사전들은 화자-특정 사전 데이터베이스 (1050) 로부터 선택될 수도 있다. 예를 들어, 전자 디바이스는 하나 이상의 클린 화자-특정 사전들을 오프라인으로 훈련시킬 수도 있다. 예를 들어, 전자 디바이스는 클린 스피치 샘플들에 기초하여 각각의 인식된 화자에 대한 하나 이상의 사전들 (예컨대, 제 1 사전 및 제 2 사전) 을 훈련시킬 수도 있다. "클린" 스피치 샘플들은 로우 레벨의 잡음을 갖는 스피치 샘플들 (예컨대, 일부의 특정한 문턱보다 더 큰 SNR 을 갖는 샘플들) 일 수도 있다.
스피치 사전 모듈 (1036)/잡음 사전 모듈 (1010) 은 실시간 잡음 사전을 추가적으로 획득할 수도 있다. 실시간 잡음 사전을 획득하는 것은 실시간 (적응된) 잡음 기준 (1008) 에 기초할 수도 있다. 실시간 잡음 사전은 잡음성 스피치 신호에서 발생하는 잡음의 하나 이상의 특성들을 나타낼 수도 있다. 따라서, 스피치 사전 모듈 (1036)/잡음 사전 모듈 (1010) 은 화자-특정 사전 및 실시간 잡음 사전의 양자를 사용 (예컨대, 조합) 할 수도 있다. 제 1 스피치 사전, 제 2 스피치 사전, 및 실시간 잡음 사전은 NMF 기반 스피치/잡음 모델링 모듈 (1040) 에 제공될 수도 있다.
NMF 기반 스피치/잡음 모델링 모듈 (1040) 은 본원에서 개시된 시스템들 및 방법들에 따라 제 1 모델링 스테이지 및/또는 제 2 모델링 스테이지 프로세싱을 수행할 수도 있다. 제 1 모델링 스테이지 프로세싱 (예컨대, 제 1 모델링 스테이지 NMF 위너 필터링) 의 예들의 더 많은 세부사항은 도 15 및 도 17 내지 도 18 과 관련하여 제공된다. 제 2 모델링 스테이지 프로세싱 (예컨대, 제 2 모델링 스테이지 NMF 스피치 모델링) 의 예의 더 많은 세부사항은 도 19 와 관련하여 제공된다. NMF 기반 스피치/잡음 모델링 모듈 (1040) 은 개량된 스피치 (1024) (예컨대, 잔류 잡음-억압된 스피치 신호 및/또는 재구성된 스피치 신호) 를 생성할 수도 있다.
NMF 기반 스피치/잡음 모델링 모듈 (1040) 은 모델링 에러 (1042) 또는 재구성 에러를 생성 (예컨대, 계산, 추정 등) 할 수도 있다. 모델링 에러 (1042) 는 클린 화자-특정 사전 훈련 모듈 (1048) 에 제공될 수도 있다. 위에서 설명된 바와 같이, 클린 화자-특정 사전 훈련 모듈 (1048) 은 하나 이상의 화자들에 대응하는 하나 이상의 사전들을 훈련시킬 수도 있다. 이것은 오프라인으로 수행될 수도 있다. (예컨대, 도 10 의 하부 부분에서) 도 10 과 관련하여 설명된 다른 동작들은 (예컨대, 실시간으로, 잡음 억압 이용 동안 등) 오프라인으로 수행될 수도 있다.
도 11 은 피아노 및 플루트 오디오에 의한 감시된 NMF 기반 오디오 소스 분리의 하나의 예를 예시하는 도면이다. 도 11 은 그래프 A (1174a), 그래프 B (1174b), 그래프 C (1174c), 그래프 D (1174d), 및 그래프 E (1174e) 를 포함한다. 그래프 A (1174a) 는 사전 수 (1176) 에 대한 주파수 (Hz) (1166a) 로 예시되고, 그래프 B (1174b) 는 시간 (1168b) 에 대한 주파수 (Hz) (1168b) 로 예시되고, 그래프 C (1174c) 는 시간 (1168c) 에 대한 주파수 (Hz) (1166c) 로 예시되고, 그래프 D (1174d) 는 시간 (1168d) 에 대한 주파수 (Hz) (1166d) 로 예시되고, 그래프 E (1174e) 는 시간 (1168e) 에 대한 사전 수 (1178) 로 예시된다. 특히, 도 11 은 그래프 A (1174a) 에서 피아노 사전
Figure pct00041
및 플루트 사전
Figure pct00042
, 그래프 B (1174b) 에서 피아노-플루트 혼합 X 의 스펙트로그램, 그래프 E (1174e) 에서 대응하는 플루트 활성화 계수들
Figure pct00043
및 대응하는 피아노 활성화 계수들
Figure pct00044
, 그래프 C (1174c) 에서 재구성된 피아노
Figure pct00045
, 및 그래프 D (1174d) 에서 재구성된 플루트
Figure pct00046
를 예시한다.
구체적으로, 그래프 B (1174b) 에서의 혼합 스펙트로그램 X, 그래프 A (1174a) 에서의 사전-훈련된 사전
Figure pct00047
, 및 그래프 E (1174e) 에서의 활성화 계수들
Figure pct00048
이 예시되어 있다. 혼합은
Figure pct00049
로서 모델링될 수도 있다. 혼합 X 의 각각의 열 벡터 (column vector) 는 비-음수 사전 W 의 비-음수 선형 조합으로서 표현된다. H 의 각각의 열 벡터는 W 의 각각의 사전의 활성화 가중치들을 나타낸다.
혼합 X 는 활성화 계수들
Figure pct00050
Figure pct00051
를 구함으로써 피아노 및 플루트 신호들로 분해될 수도 있다. H
Figure pct00052
에 의해 정의된 코스트 함수 (cost function) 를 최소화함으로써 결정되거나 구해질 수도 있고, 여기서,
Figure pct00053
는 이타쿠라-사이토 (Itakura-Saito) 거리를 나타낸다. 일단
Figure pct00054
Figure pct00055
가 획득되면, 피아노 및 플루트는 각각
Figure pct00056
Figure pct00057
로서 재구성된다.
도 12 는 본원에서 개시된 시스템들 및 방법들의 더욱 구체적인 구성을 예시하는 기능적인 블록도이다. 도 12 와 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상은 도 1 내지 도 5, 및 도 10 중의 하나 이상과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상에 대한 예들일 수도 있다. 특히, 도 12 는 잡음 억압 모듈 (1252), 성문 모듈 (1234), 프리-프로세싱 모듈 (1230), 스피치 사전 선택 모듈 (1236), 오프라인 사전 학습 모듈 (1248), NMF 기반 스피치/잡음 모델링 모듈 (1240), 및 신호 선택 모듈 (1244) 을 예시한다.
더욱 상세한 설명은 다음과 같이 제공된다. 입력 (1204) (예컨대, 잡음성 스피치 신호) 은 잡음 억압 모듈 (1252) 및 성문 모듈 (1234) 에 제공될 수도 있다. 잡음 억압 모듈 (1252) 은 도 3 및 도 10 중의 하나 이상과 관련하여 위에서 설명된 바와 같이 잡음 억압을 수행할 수도 있다. 잡음 억압 출력 크기는 프리-프로세싱 모듈 (1230) 에 제공될 수도 있다.
프리-프로세싱 모듈 (1230) 은 도 3 및 도 10 중의 하나 이상과 관련하여 위에서 설명된 바와 같이 실시간 잡음 기준을 획득할 수도 있다. 프리-프로세싱 모듈 (1230) 은 입력 (1204) 의 주요 채널 및 실시간 잡음 기준에 기초하여 사전-개량된 입력 (1232) (예컨대,
Figure pct00058
) 을 생성할 수도 있다. 추가적으로, 프리-프로세싱 모듈 (1230) 은 실시간 잡음 기준에 기초하여 실시간 잡음 사전 (1212) (예컨대,
Figure pct00059
) 을 온라인으로 획득할 수도 있다. 잡음 억압 및 프리-프로세싱의 더욱 구체적인 예는 도 18 과 관련하여 설명된다. 사전-개량된 입력 (1232) 및 실시간 잡음 사전 (1212) 은 NMF-기반 스피치/잡음 모델링 모듈 (1240) 에 제공될 수도 있다.
성문 모듈 (1234) 은 도 3 및 도 10 중의 하나 이상과 관련하여 위에서 설명된 바와 같이 화자 인식을 수행할 수도 있다. 예를 들어, 성문 모듈 (1234) 은 화자 식별의 표시, 또는 현재의 화자가 식별되지 않거나 임의의 알려진 프로파일과 정합하지 않는다는 표시를 제공할 수도 있다.
오프라인 사전 학습 모듈 (1248) 에 관하여, 화자 사전 데이터베이스 (1250) 는 일반적인 화자 사전으로 초기화될 수도 있다. 오프라인 사전 학습 모듈 (1248) 은 조건이 충족될 때 (예컨대, 입력 스피치의 SNR 측정이 예를 들어, SNR 문턱보다 높을 때), 특정 화자의 스피치 사전을 학습할 수도 있다.
스피치 사전 선택 모듈 (1236) 은 도 3 및 도 10 중의 하나 이상과 관련하여 위에서 설명된 바와 같이, 제 1 모델링 스테이지 스피치 모델링을 위한 제 1 스피치 사전 (1214) (예컨대,
Figure pct00060
) 을 획득할 수도 있다. 스피치 사전 선택 모듈 (1236) (예컨대, 화자-특정 스피치 사전 선택 모듈 (1236)) 은 또한, 도 3 및 도 10 중의 하나 이상과 관련하여 위에서 설명된 바와 같이, 제 2 모델링 스테이지 스피치 모델링을 위한 제 2 스피치 사전 (1220) (예컨대,
Figure pct00061
) 을 선택할 수도 있다. 도 12 에서 예시된 바와 같이, 제 1 스피치 사전 (1214) 및 제 2 스피치 사전 (1220) 은 각각, 일부의 구성들에서 화자-특정 스피치 사전 (1238) 의 서브세트들일 수도 있다. 제 1 스피치 사전 (1214) 및 제 2 스피치 사전 (1220) 은 NMF 기반 스피치/잡음 모델링 모듈 (1240) 에 제공될 수도 있다.
NMF 기반 스피치/잡음 모델링 모듈 (1240) 은 잔류 잡음을 감소 (예컨대, 제거) 시킬 수도 있고, 재구성된 스피치 신호 (1224) 를 생성할 수도 있다. 잔류 잡음을 감소시키는 것은 제 1 모델링 스테이지 (1226) 에서 수행될 수도 있고, 재구성된 스피치 신호 (1224) 를 생성하는 것은 제 2 모델링 스테이지 (1228) 에서 수행될 수도 있다.
제 1 모델링 스테이지 (1226) 는 NMF 기반 위너 필터링을 포함할 수도 있다. 예를 들어, 소정의 훈련된 스피치/잡음 사전 (예컨대,
Figure pct00062
) 에 대하여, NMF 기반 스피치/잡음 모델링 모듈 (1240) 은 잡음성 스피치 스펙트럼의 각각의 프레임을
Figure pct00063
로서 모델링할 수도 있다.
Figure pct00064
는 각각의 사전의 활성화 가중치들을 나타낼 수도 있다 (여기서,
Figure pct00065
는 제 1 스피치 사전 활성화 가중치들이고,
Figure pct00066
는 실시간 잡음 사전 활성화 가중치들임). NMF 기반 스피치/잡음 모델링 모듈 (1240) 은 H 를 구함으로써 잡음성 스피치 X 를 스피치 및 잡음 신호들로 분해할 수도 있다. 이것은 예를 들어,
Figure pct00067
에 의해 정의된 적합성 척도 (fit measure) 를 최소화함으로써 달성될 수도 있다. 예를 들어, 제 1 모델링 스테이지 (1226) 는 W 를 고정시킬 수도 있고, H 를 업데이트 (예컨대, 적응) 할 수도 있고, 위너 필터링 접근법
Figure pct00068
을 이용하여 잔류 잡음-억압된 스피치 신호 (1218) (예컨대,
Figure pct00069
) 를 생성할 수도 있고, 여기서,
Figure pct00070
는 엘리먼트-별 승산이다.
일부의 구성들에서, NMF 기반 스피치/잡음 모델링 모듈 (1240) 은 다음과 같이 제 2 모델링 스테이지 (1228) 에서 NMF 기반 포락선 복원을 수행할 수도 있다. 소정의 제 2 스피치 사전 (1220)
Figure pct00071
(예컨대, 화자-특정 스피치 사전) 에 대하여, NMF 기반 스피치/잡음 모델링 모듈 (1240) 은 높은 SNR 서브-대역 스피치 스펙트럼을
Figure pct00072
로서 모델링할 수도 있다. 일부의 구성들에서, NMF 기반 스피치/잡음 모델링 모듈 (1240) 은
Figure pct00073
를 고정시킬 수도 있고, H 를 업데이트 (예컨대, 적응) 할 수도 있고, 재구성된 스피치 신호 (1224) (예컨대, 재구성된 모든 대역 스피치
Figure pct00074
) 를 생성할 수도 있다.
잔류 잡음-억압된 스피치 신호 (1218) 및 재구성된 스피치 신호 (1224) 는 임의적으로 신호 선택 모듈 (1244) 에 제공될 수도 있다. 신호 선택 모듈 (1244) 은 재구성 에러 (1242) 에 기초하여 잔류 잡음-억압된 스피치 신호 (1218) 및 재구성된 스피치 신호 (1224) 중의 하나를 선택할 수도 있다. 예를 들어, 재구성 에러 (1242) (예컨대,
Figure pct00075
,
Figure pct00076
또는 d) 가 하이 (예컨대, 문턱보다 더 큼) 일 경우, 잔류 잡음-억압된 스피치 신호 (1218) (예컨대, 위너 필터링 출력
Figure pct00077
) 는 출력 (1246) (예컨대,
Figure pct00078
) 으로서 선택될 수도 있다. 예를 들어,
Figure pct00079
. 추가적으로, 재구성 에러 (1242)
Figure pct00080
가 하이 (예컨대, 동일하거나 상이한 문턱보다 더 큼) 일 경우, NMF 기반 스피치/잡음 모델링 모듈 (1240) 은 스피치 사전을 추가로 훈련시키기 위하여, 및/또는 하나 이상의 추가적인 스피치 사전들을 훈련시키기 위하여 오프라인 사전 학습 모듈 (1248) 을 활성화할 수도 있다.
오프라인 사전 학습 모듈 (1248) 은 제 1 모델링 스테이지 (1226) 및/또는 제 2 모델링 스테이지 (1228) 에 대한 사전 학습 및/또는 훈련을 수행할 수도 있다. 사전 학습 및/또는 훈련의 더욱 상세한 예들은 도 13 내지 도 16 과 관련하여 제공된다.
도 13 은 제 1 모델링 스테이지 스피치 모델링을 위한 사전 학습의 더욱 구체적인 예를 예시하는 블록도이다. 특히, 도 13 은 NMF-기반 스피치 사전 학습 모듈 (1382) 의 하나의 예를 예시한다. NMF-기반 스피치 사전 학습 모듈 (1382) 은 위에서 설명된 오프라인 사전 학습 모듈들 (348, 1248) 및 제 1 스피치 사전 생성 모듈 (452) 중의 하나 이상에 대한 하나의 예 (또는 그 부분) 일 수도 있다.
도 13 에서 예시된 바와 같이, 화자-특정 클린 스피치 크기 스펙트럼들 (1380) (예컨대, V) 은 NMF-기반 스피치 사전 학습 모듈 (1382) 에 제공될 수도 있다. 예를 들어, 전자 디바이스는 클린 스피치 신호들 (예컨대, 높은 SNR 을 갖는 및/또는 잡음을 갖지 않는 스피치 신호들) 을 수집할 수도 있고 및/또는 수신할 수도 있다. 이 클린 스피치 신호들은 예컨대, 잡음이 거의 또는 전혀 검출되지 않을 때에 SNR 이 높은 전화 호출들 동안, 교정 절차 동안, 훈련 절차 동안 등에 "오프라인" 으로 캡처될 수도 있다. 추가적으로 또는 대안적으로, 전자 디바이스는 하나 이상의 조건들이 충족될 때 (예컨대, 캡처된 스피치가 문턱보다 높은 SNR 을 나타낼 때), 어떤 스피치 신호들을 클린 스피치 신호들로서 선택할 수도 있다. 추가적으로 또는 대안적으로, 클린 스피치 신호들은 또 다른 디바이스에 의해 캡처될 수도 있고, 전자 디바이스로 송신될 수도 있다. NMF 에서, VV = WH 에서와 같이, 인수분해되도록 추구되는 행렬을 나타낸다.
NMF-기반 스피치 사전 학습 모듈 (1382) 은 NMF 에 기초하여 제 1 스피치 사전 (1314) (예컨대, 제 1 모델링 스테이지에 대한 하위-등급 스피치 사전) 을 학습할 수도 있다. 예를 들어, NMF-기반 스피치 사전 학습 모듈 (1382) 은 활성화 계수들 H 및 하나 이상의 스피치 기저 함수들
Figure pct00081
을 무작위적으로 초기화할 수도 있고, 수렴할 때까지 파라미터들 (예컨대, H) 을 업데이트할 수도 있다. 일부의 구성들에서, 이것은 수학식
Figure pct00082
에 따라, 및/또는 수학식
Figure pct00083
에 따라 달성될 수도 있고, 여기서,
Figure pct00084
는 업데이트 동안에 최소화되는 발산 (divergence) 타입을 제어하기 위한 파라미터이다. 상기한 수학식들에서, "T" 는 전치 행렬 (matrix transpose) 을 나타낸다는 것에 주목해야 한다.
도 14 는 제 1 모델링 스테이지 스피치 모델링을 위한 사전의 하나의 예를 예시하는 그래프이다. 특히, 제 1 모델링 스테이지 스피치 모델링을 위한 사전은 주파수 (1484) 에 대한 사전 수 (1486) 로 예시되어 있다.
도 15 는 제 2 모델링 스테이지 스피치 모델링을 위한 사전 학습의 더욱 구체적인 예를 예시하는 블록도이다. 특히, 도 15 는 피치-하모닉시티 추정 모듈 (1588) 의 하나의 예를 예시한다. 피치/하모닉시티 추정 모듈 (1588) 은 위에서 설명된 오프라인 사전 학습 모듈들 (348, 1248) 및 제 2 스피치 사전 생성 모듈 (454) 중의 하나 이상에 대한 하나의 예 (또는 그 부분) 일 수도 있다.
도 15 에서 예시된 바와 같이, 화자-특정 (클린) 스피치 크기 스펙트럼들 (1580) (예컨대, V) 은 피치/하모닉시티 추정 모듈 (1588) 에 제공될 수도 있다. 예를 들어, 화자-특정 클린 스피치 크기 스펙트럼들 (1580) 은 도 1 및 도 13 중의 하나 이상과 관련하여 위에서 설명된 바와 같이 획득될 수도 있다.
피치/하모닉시티 추정 모듈 (1588) 은 각각의 스피치 스펙트럼의 하모닉시티 및 피치를 추정할 수도 있다. 피치/하모닉시티 추정 모듈 (1588) 은 높은 하모닉시티를 갖는 (예컨대, 하모닉시티 문턱보다 높은 대응하는 하모닉시티들을 갖는) 유성 스피치 스펙트럼들
Figure pct00085
을 제 2 스피치 사전 (1520) (예컨대,
Figure pct00086
) 으로서 선택할 수도 있고, 대응하는 피치로 각각의 스피치 사전 (예컨대, 선택된 스피치 스펙트럼들) 을 라벨링할 수도 있고, 및/또는 각각의 스펙트럼 사전의 피치를 변경함으로써 현재의 사전을 보강할 수도 있다. 일부의 구성들에서, 피치-라벨링된 스피치 사전은 다음과 같이 보강될 수도 있다. 피치-라벨링된 스피치 사전이 주어지면, 피치는 주파수 도메인에서 그 포먼트들 또는 포락선을 변경하지 않으면서 시프트될 수도 있다. 이러한 방법으로, 하나의 이용가능한 스피치 사전이 주어지면, 특정한 포먼트 구조 및/또는 포락선에 대응하는 전체 피치 범위에 걸쳐 이어지는 스피치 사전 엘리먼트들의 확장된 세트 (예컨대, 전체 세트) 가 획득될 수도 있다.
도 16 은 제 2 모델링 스테이지 스피치 모델링을 위한 사전의 하나의 예를 예시하는 그래프이다. 특히, 제 2 모델링 스테이지 스피치 모델링을 위한 제 2 스피치 사전은 사전 수 (1692) 에 대한 주파수 (1690) 로 예시되어 있다.
도 17 은 제 1 모델링 스테이지 NMF 위너 필터링의 개요의 더욱 구체적인 예를 예시하는 블록도이다. 특히, 도 17 은 잡음 억압 모듈 (1752)/프리-프로세싱 모듈 (1730), 소스 분리 모듈 (1703), 및 재구성 모듈 (1707) 을 예시한다. 도 17 과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상은 도 1 내지 도 5, 도 10, 도 12, 및 도 21 중의 하나 이상과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상에 대한 예들일 수도 있다.
이 예에서, 입력 (1704) (예컨대, 잡음성 스피치 신호) 은 잡음 억압 모듈 (1752)/프리-프로세싱 모듈 (1730) 에 제공된다. 잡음 억압 모듈 (1752)/프리-프로세싱 모듈 (1730) 은 잡음 사전 (1712) 및 사전-개량된 입력 (1732) 을 생성할 수도 있다. 사전-개량된 입력 (1732) 은 소스 분리 모듈 (1703) 및 재구성 모듈 (1707) 에 제공될 수도 있다.
(예를 들어, 제 1 모델링 스테이지에 대한) 제 1 스피치 사전 (1714) 은 화자-특정 스피치 데이터베이스 (1750) 로부터 추출될 수도 있다. 사전 (1701) (예컨대, W) 은 제 1 스피치 사전 (1714) 및 잡음 사전 (1712) 을 포함할 수도 있다. 사전 (1701) 은 소스 분리 모듈 (1703) 및 재구성 모듈 (1707) 에 제공될 수도 있다.
소스 분리 모듈 (1703) 은 활성화 계수들 H (1711) 에 기초하여 감시된 NMF 스피치 분리 (1705) 를 수행할 수도 있다. 예를 들어, 소스 분리 모듈 (1703) 은 H 를 초기화할 수도 있고 (1713) H 를 적응시킬 수도 있다 (1715). 수렴 시에 (또는 예를 들어, 최대 반복 한계에 도달될 때), 적응된 H (1715) 는 재구성 모듈 (1707) 에 제공될 수도 있다.
재구성 모듈 (1707) 은 출력 스피치 크기 (1718) (예컨대, 잔류 잡음-억압된 스피치 신호) 를 생성하기 위하여, 사전 (1701), 사전-개량된 입력 (1732), 및 적응된 계수들 (1715) 에 기초하여 위너 필터링 스피치 재구성 (1709) 을 수행할 수도 있다. 출력 스피치 크기 (1718) 는 제 2 모델링 스테이지 (1728) 에 제공될 수도 있다. 도 17 의 기능들, 모듈들, 및/또는 구조들에 관한 더 많은 세부사항은 도 18 내지 도 10 에서 제공된다.
도 18 은 프리-프로세싱의 하나의 예를 예시하는 블록도이다. 특히, 도 18 은 프리-프로세싱 모듈 (1830) 의 하나의 예를 예시한다. 도 18 과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상은 도 1 내지 도 5, 도 10, 도 12, 도 17, 및 도 21 중의 하나 이상과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상에 대한 예들일 수도 있다.
이 예에서, 입력 (1804) (예컨대, 잡음성 스피치 신호) 의 2 개의 채널들은 잡음 억압 모듈 (1852) 에 제공된다. 잡음 억압 모듈 (1852) 은 잡음 억압 출력 위상 (1819) 및 잡음 억압 출력 크기 (1821) (예컨대,
Figure pct00087
) 를 생성할 수도 있다.
입력 (1804) 의 주요 채널은 고속 푸리에 변환 (fast Fourier transform; FFT) 모듈 (1817) 에 제공될 수도 있다. 입력 (1804) 의 주요 채널은 가장 많은 스피치를 캡처하는 (예컨대, 가장 높은 SNR, 가장 높은 스피치 크기 등을 가지는) 입력의 채널 (예컨대, 마이크로폰) 일 수도 있다. 추가적으로 또는 대안적으로, 입력 (1804) 의 주요 채널은 미리 결정될 수도 있다. FFT 모듈 (1817) 은 입력 (1804) 의 주요 채널을 주파수 도메인으로 (예컨대, 스펙트럼 표현으로) 변환할 수도 있다. 결과적인 주요 채널 입력 (예컨대, X) (1823) 은 프리-프로세싱 모듈 (1830) 에 제공될 수도 있다.
일부의 구성들에서, 프리-프로세싱 모듈 (1830) 은 잡음 기준 (1808) (예컨대,
Figure pct00088
) 을 결정할 수도 있다. 이것은 수학식
Figure pct00089
에 따라 달성될 수도 있고, 여기서,
Figure pct00090
는 입력 X 및 잡음 억압 출력을 정합시키기 위한 이득 인자이다.
일부의 구성들에서, 프리-프로세싱 모듈 (1830) 은 수학식
Figure pct00091
에 따라 사전-개량된 입력 신호 (1832) (예컨대,
Figure pct00092
) 를 결정할 수도 있다.
Figure pct00093
= 0.8 의 하나의 예. 일부의 구성들에서, 프리-프로세싱 모듈 (1830) 은 수학식
Figure pct00094
에 따라 잡음 사전 (1812) 을 획득할 수도 있다.
도 19 는 제 1 모델링 스테이지 스피치/잡음 분리의 하나의 예를 예시하는 블록도이다. 특히, 도 19 는 소스 분리 모듈 (1903) 의 하나 예를 예시한다. 도 19 와 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상은 도 1 내지 도 5, 도 10, 도 12, 도 17 내지 도 18, 및 도 21 중의 하나 이상과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상에 대한 예들일 수도 있다.
사전 (1901) (예컨대, W) 은 제 1 스피치 사전 (1914) (예컨대,
Figure pct00095
) 및 잡음 사전 (1912) (예컨대,
Figure pct00096
) 을 포함할 수도 있다. 사전 (1901) 은 소스 분리 모듈 (1903) 에 제공될 수도 있다. 사전-개량된 입력 (1932) (예컨대, 도 18 과 관련하여 설명된 바와 같은
Figure pct00097
) 은 또한, 소스 분리 모듈 (1903) 에 제공될 수도 있다.
소스 분리 모듈 (1903) 은 활성화 계수들 H (1911) 에 기초하여 감시된 NMF 스피치 분리 (1905) 를 수행할 수도 있다. 예를 들어, 소스 분리 모듈 (1903) 은 H 를 초기화할 수도 있고 (1913), 수렴할 때까지 (또는 예를 들어, 최대 반복 한계에 도달될 때까지) H (1915) 를 적응시킬 수도 있다.
일부의 구성들에서, 소스 분리 모듈 (1903) 은 수학식
Figure pct00098
에 따라 동작할 수도 있다. 예를 들어, 사전 W (1901) 은 고정되는 반면, 활성화 계수들 H (1911) 만이 적응될 수도 있다. 제 1 프레임에 대하여, 활성화 계수들 H (1911) 는 무작위적으로 초기화될 수도 있다. 제 2 프레임 및 그 이후에 대하여, 소스 분리 모듈 (1903) 은 반복을 시작하기 위하여 이전의 프레임으로부터 업데이트된 활성화 계수들 H (1911) 를 사용할 수도 있다. 소스 분리 모듈 (1903) 은 수렴할 때까지 활성화 계수들 H (1911) 를 업데이트할 수도 있다. 수렴은 이전 및 현재의 활성화 계수들 사이의 변경이 문턱보다 낮을 때에 검출될 수도 있다.
도 20 은 제 1 모델링 스테이지 위너 필터링 재구성의 하나의 예를 예시하는 블록도이다. 특히, 도 20 은 재구성 모듈 (2007) 의 하나의 예를 예시한다. 재구성 모듈 (2007) 은 위너 필터링 스피치 재구성 모듈 (2009) 을 포함할 수도 있다. 도 20 과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상은 도 1 내지 도 5, 도 10, 도 12, 도 17 내지 도 19, 및 도 21 중의 하나 이상과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상에 대한 예들일 수도 있다.
사전 (2001) (예컨대, W) 은 제 1 스피치 사전 (2014) (예컨대,
Figure pct00099
) 및 잡음 사전 (2012) (예컨대,
Figure pct00100
) 을 포함할 수도 있다. 사전 (2001) 은 재구성 모듈 (2007) (예컨대, 위너 필터링 스피치 재구성 모듈 (2009)) 에 제공될 수도 있다. (스피치 활성화 계수들
Figure pct00101
(2025) 및 잡음 활성화 계수들
Figure pct00102
(2027) 을 포함하는) 적응된 활성화 계수들 H (2011) 은 재구성 모듈 (2007) 에 제공될 수도 있다. 사전-개량된 입력 신호 (2032) (예컨대,
Figure pct00103
) 는 또한, 재구성 모듈 (2007) 에 제공될 수도 있다.
재구성 모듈 (2007) 은 필터
Figure pct00104
를 생성할 수도 있다. 일부의 구성들에서, 이것은 수학식
Figure pct00105
에 따라 달성될 수도 있다.
Figure pct00106
는 예를 들어, 1 또는 2 로 설정될 수도 있다. 재구성 모듈 (2007) (예컨대, 위너 필터링 스피치 재구성 모듈 (2009)) 은 수학식
Figure pct00107
에 따라 스피치 크기
Figure pct00108
(2018) (예컨대, 잔류 잡음-억압된 스피치 신호) 를 추정할 수도 있고, 여기서,
Figure pct00109
는 엘리먼트-별 승산이다.
도 21 은 제 2 모델링 스테이지 NMF 스피치 모델링의 더욱 구체적인 예를 예시하는 블록도이다. 특히, 도 21 은 피치 추정 모듈 (2156), 빈-별 SNR 모듈 (2162), 감시된 서브-대역 NMF 스피치 모델링 모듈 (2137), 스피치 재구성 모듈 (2141), 신호 선택 모듈 (2144), 및 오프라인 사전 학습 모듈 (2148) 을 예시한다. 도 21 과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상은 도 1 내지 도 5, 도 10, 도 12 내지 도 13, 도 15, 및 도 17 중의 하나 이상과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 및/또는 구조들 중의 하나 이상에 대한 예들일 수도 있다.
제 2 모델링 스테이지 스피치 모델링 설명들은 다음과 같이 주어진다. 도 21 에서 예시된 바와 같이, 전자 디바이스는 주요 입력 (예컨대, 주요 채널 입력)
Figure pct00110
(2104) 을 획득할 수도 있다. 잡음 억압 출력
Figure pct00111
(2129) 은 입력 (2104) 에 기초할 수도 있다. 일부의 구성들에서, 잡음 억압 출력
Figure pct00112
(2129) 은 다수의 채널들에 기초할 수도 있다. 잡음 억압 출력
Figure pct00113
(2129) 은 피치 추정 모듈 (2156) 및 빈-별 SNR 모듈 (2162) 에 제공될 수도 있다.
일부의 구성들에서, 스피치 크기 스펙트럼
Figure pct00114
(2118) (예컨대, 위너 필터링 스피치 크기 스펙트럼, 잔류 잡음-억압된 스피치 신호, 오류가 생긴 스피치 크기 등) 은 제 1 스테이지 (예컨대, 제 1 모델링 스테이지) 프로세싱 (2126) 에 의해 제공될 수도 있다. 제 1 스테이지 프로세싱 (2126) 의 예는 도 20 과 관련하여 주어진다. 피치 추정 모듈 (2156) 은 각각의 위너 필터링 스피치 크기 스펙트럼
Figure pct00115
(2118) 에 대한 피치 및 하모닉시티를 추정할 수도 있다. 피치 및/또는 하모닉시티는 잡음 억압 출력
Figure pct00116
(2129) 및 화자-특정 사전
Figure pct00117
(2138) 에 기초하여 추정될 수도 있다. 전자 디바이스 (예컨대, 전자 디바이스 (102)) 는 대응하는 프레임이 유성 또는 무성인지 여부를 결정하기 위하여 하모닉시티를 사용할 수도 있다. 프레임이 무성 프레임일 경우, 제 2 모델링 스테이지 프로세싱은 스킵되거나 포기될 수도 있다 (예컨대, 프로세싱은 정지될 수도 있고, 및/또는 프레임에 대한 재구성된 스피치 신호 (2124) 가 폐기될 수도 있음). 프레임이 유성 프레임일 경우, 피치 추정 모듈 (2156) (또는 또 다른 모듈) 은 소정의 피치에 대한 대응하는 스피치 사전 (예컨대, 피치-특정 사전
Figure pct00118
(2131)) 을 구할 수도 있다.
빈-별 SNR 모듈 (2162) 은 다음과 같이 동작할 수도 있다.
Figure pct00119
는 주요 채널 크기 입력일 수도 있고,
Figure pct00120
는 잡음 억압 출력 (2129) 일 수도 있다. 빈-별 SNR 모듈 (2162) 은 수학식
Figure pct00121
에 따라 정의될 수도 있는 (피치-특정 사전
Figure pct00122
(2131) 의 하나 이상의 주파수 대역들 또는 "빈들" 에 대한) 빈-별 SNR 을 결정할 수도 있다. 각각의 유성 프레임에 대하여, 서브-대역 신뢰성 점수는 수학식
Figure pct00123
에 의해 정의될 수도 있다. 서브-대역 신뢰성 점수가 서브-대역 신뢰성 문턱 (예컨대,
Figure pct00124
) 보다 더 작을 경우, 제 2 모델링 스테이지 프로세싱은 프레임 (예컨대, 신뢰성 이 프레임-별 점수인 전체 프레임) 에 대해 스킵되거나 포기될 수도 있다. 빈-별 SNR 모듈 (2162) (및/또는 또 다른 모듈) 은 하나 이상의 신뢰성 있는 대역들 k (예컨대, 여기서,
Figure pct00125
) 를 구할 수도 있고, 및/또는 수학식
Figure pct00126
에 따라 서브-대역 입력 크기 스펙트럼 (2133) 을 생성할 수도 있다. 빈-별 SNR 모듈 (2162) 및/또는 또 다른 모듈은 수학식
Figure pct00127
에 따라 연관된 서브-대역 피치 특정 스피치 사전 (2135) 을 생성할 수도 있다.
감시된 서브-대역 NMF 스피치 모델링 모듈 (2137) 은 일부의 구성들에서 다음과 같이, 서브-대역 NMF 에 기초하여 포락선 복원을 수행할 수도 있다. 서브-대역 스피치 스펙트럼
Figure pct00128
(2133) 및 사전
Figure pct00129
(2135) 을 이용한 서브-대역 NMF 는, 모델링 적합도 (fitness) 를 모니터링하는 이타쿠라-사이토 (IS) 발산 (예컨대, 재구성 에러
Figure pct00130
(2142)) 을 최소화함으로써 수행될 수도 있다. IS 발산은 수학식
Figure pct00131
에 따라 정의될 수도 있다.
감시된 서브-대역 NMF 스피치 모델링 모듈 (2137) 은 사전
Figure pct00132
을 고정시킬 수도 있고, 수학식
Figure pct00133
에 따라 수렴할 때까지 활성화 계수들
Figure pct00134
(2139) 을 업데이트할 수도 있다.
스피치 재구성 모듈 (2141) 은 수학식
Figure pct00135
에 따라 모든 대역 사전
Figure pct00136
(2131) 으로 스피치 재구성을 수행할 수도 있다. 재구성된 스피치 신호
Figure pct00137
(2124) 는 신호 선택 모듈 (2144) 에 제공될 수도 있다. 전자 디바이스는 수학식
Figure pct00138
에 따라 시간 도메인 신호에 재합성할 때에 잡음 억압 출력으로부터의 위상을 사용할 수도 있다.
출력 품질은 재구성 에러
Figure pct00139
에 따라 제어될 수도 있다. 예를 들어,
Figure pct00140
일 경우, 오프라인 사전 학습 모듈 (2148) 은 (예를 들어, 화자 사전 데이터베이스 (2150) 를 업데이트하기 위하여) 활성화될 수도 있다.
신호 선택 모듈 (2144) 은 재구성 에러 (2142) 에 기초하여 신호를 선택할 수도 있다. 예를 들어,
Figure pct00141
일 경우,
Figure pct00142
Figure pct00143
으로서 선택될 수도 있다.
Figure pct00144
일 경우,
Figure pct00145
Figure pct00146
으로서 선택될 수도 있다. 예를 들어, 재구성된 스피치 신호
Figure pct00147
(2124) 는 수학식
Figure pct00148
에서 제공된 바와 같은 최종적인 출력을 얻기 위하여 위너 필터링 스피치 출력
Figure pct00149
(2118) 과 조합될 수도 있다. 일부의 구성들에서는, 제 2 모델링 스테이지 프로세싱이 스킵되거나 포기될 때, 제 1 스테이지 프로세싱의 출력 (예컨대, 출력 스피치 크기, 위너 필터링 스피치 출력
Figure pct00150
(2118) 등), 잡음 억압된 신호 (예컨대, 잡음 억압 모듈 (1252) 의 출력, NS 출력 (2129) 등) 또는 입력 신호 (예컨대, 주요 입력 (2104) 가 출력될 수도 있다는 것에 주목해야 한다.
도 22 는 화자 사전 기반 모델링을 위한 시스템들 및 방법들이 구현될 수도 있는 무선 통신 디바이스 (2202) 의 하나의 구성을 예시하는 블록도이다. 도 22 에서 예시된 무선 통신 디바이스 (2202) 는 본원에서 설명된 전자 디바이스들 중의 하나 이상에 대한 예일 수도 있다. 무선 통신 디바이스 (2202) 는 애플리케이션 프로세서 (2253) 를 포함할 수도 있다. 애플리케이션 프로세서 (2253) 는 일반적으로 무선 통신 디바이스 (2202) 상에서 기능들을 수행하기 위하여 명령들을 프로세싱한다 (예컨대, 프로그램들을 실행함). 애플리케이션 프로세서 (2253) 는 오디오 코더/디코더 (coder/decoder; codec)(코덱) (2251) 에 결합될 수도 있다.
오디오 코덱 (2251) 은 오디오 신호들을 코딩 및/또는 디코딩하기 위하여 이용될 수도 있다. 오디오 코덱 (2251) 은 적어도 하나의 스피커 (2243), 이어피스 (earpiece; 2245), 출력 잭 (2247), 및/또는 적어도 하나의 마이크로폰 (2249) 에 결합될 수도 있다. 스피커들 (2243) 은 전기 또는 전자 신호들을 음향 신호들로 변환하는 하나 이상의 전기-음향 트랜스듀서 (electro-acoustic transducer) 들을 포함할 수도 있다. 예를 들어, 스피커들 (2243) 은 음악을 재생하거나 또는 스피커폰 대화를 출력하는 등을 하기 위하여 이용될 수도 있다. 이어피스 (2245) 는 음향 신호들 (예컨대, 스피치 신호들) 을 사용자에게 출력하기 위하여 이용될 수 있는 또 다른 스피커 또는 전기-음향 트랜스듀서일 수도 있다. 예를 들어, 이어피스 (2245) 는 사용자만이 음향 신호를 신뢰성있게 청취할 수 있도록 이용될 수도 있다. 출력 잭 (2247) 은 다른 디바이스들을, 헤드폰들과 같이, 오디오를 출력하기 위한 무선 통신 디바이스 (2202) 에 결합하기 위하여 이용될 수도 있다. 스피커들 (2243), 이어피스 (2245), 및/또는 출력 잭 (2247) 은 일반적으로 오디오 코덱 (2251) 으로부터 오디오 신호를 출력하기 위하여 이용될 수도 있다. 적어도 하나의 마이크로폰 (2249) 은 (사용자의 음성과 같은) 음향 신호를, 오디오 코덱 (2251) 에 제공되는 전기 또는 전자 신호들로 변환하는 음향-전기 트랜스듀서 (acousto-electric transducer) 일 수도 있다. 일부의 구성들에서, 오디오 코덱 (2251) 및/또는 애플리케이션 프로세서 (2253) 는 본원에서 설명된 제 1 모델링 스테이지 프로세싱 및 제 2 모델링 스테이지 프로세싱 중의 하나 이상 (및/또는 다른 기능들 또는 절차들 중의 하나 이상) 을 수행하도록 구성될 수도 있다.
애플리케이션 프로세서 (2253) 는 또한, 전력 관리 회로 (2263) 에 결합될 수도 있다. 전력 관리 회로 (2263) 의 하나의 예는, 무선 통신 디바이스 (2202) 의 전기적 전력 소비를 관리하기 위하여 이용될 수도 있는 전력 관리 집적 회로 (power management integrated circuit; PMIC) 이다. 전력 관리 회로 (2263) 는 배터리 (2265) 에 결합될 수도 있다. 배터리 (2265) 는 일반적으로 전기적 전력을 무선 통신 디바이스 (2202) 에 제공할 수도 있다. 예를 들어, 배터리 (2265) 및/또는 전력 관리 회로 (2263) 는 무선 통신 디바이스 (2202) 내에 포함된 엘리먼트들 중의 적어도 하나에 결합될 수도 있다.
애플리케이션 프로세서 (2253) 는 입력을 수신하기 위한 적어도 하나의 입력 디바이스 (2267) 에 결합될 수도 있다. 입력 디바이스들 (2267) 의 예들은 적외선 센서들, 이미지 센서들, 가속도계들, 터치 센서들, 키패드들 등을 포함한다. 입력 디바이스들 (2267) 은 무선 통신 디바이스 (2202) 와의 사용자 상호작용을 허용할 수도 있다. 애플리케이션 프로세서 (2253) 는 또한, 하나 이상의 출력 디바이스들 (2269) 에 결합될 수도 있다. 출력 디바이스들 (2269) 의 예들은 프린터들, 프로젝터 (projector) 들, 스크린들, 햅틱 디바이스 (haptic device) 들 등을 포함한다. 출력 디바이스들 (2269) 은 무선 통신 디바이스 (2202) 가 사용자에 의해 경험될 수도 있는 출력을 생성하도록 할 수도 있다.
애플리케이션 프로세서 (2253) 는 애플리케이션 메모리 (2271) 에 결합될 수도 있다. 애플리케이션 메모리 (2271) 는 전자 정보를 저장할 수 있는 임의의 전자 디바이스일 수도 있다. 애플리케이션 메모리 (2271) 의 예들은 이중 데이터 레이트 동기식 동적 랜덤 액세스 메모리 (double data rate synchronous dynamic random access memory; DDRAM), 동기식 동적 랜덤 액세스 메모리 (synchronous dynamic random access memory; SDRAM), 플래시 메모리 등을 포함한다. 애플리케이션 메모리 (2271) 는 애플리케이션 프로세서 (2253) 를 위한 저장을 제공할 수도 있다. 예를 들어, 애플리케이션 메모리 (2271) 는 애플리케이션 프로세서 (2253) 상에서 실행되는 프로그램들의 기능을 위한 데이터 및/또는 명령들을 저장할 수도 있다.
애플리케이션 프로세서 (2253) 는 디스플레이 제어기 (2273) 에 결합될 수도 있고, 이 디스플레이 제어기 (1205) 는 궁극적으로 디스플레이 (2275) 에 결합될 수도 있다. 디스플레이 제어기 (2273) 는 디스플레이 (2275) 상에서 이미지들을 생성하기 위하여 이용되는 하드웨어 블록일 수도 있다. 예를 들어, 디스플레이 제어기 (2273) 는 애플리케이션 프로세서 (2253) 로부터의 명령들 및/또는 데이터를, 디스플레이 (2275) 상에서 제시될 수 있는 이미지들로 변환할 수도 있다. 디스플레이 (2275) 의 예들은 액정 디스플레이 (liquid crystal display; LCD) 패널들, 발광 다이오드 (light emitting diode; LED) 패널들, 음극선관 (cathode ray tube; CRT) 디스플레이들, 플라즈마 디스플레이들 등을 포함한다.
애플리케이션 프로세서 (2253) 는 기저대역 프로세서 (2255) 에 결합될 수도 있다. 기저대역 프로세서 (2255) 는 일반적으로 통신 신호들을 프로세싱한다. 예를 들어, 기저대역 프로세서 (2255) 는 수신된 신호들을 복조 및/또는 디코딩할 수도 있다. 추가적으로 또는 대안적으로, 기저대역 프로세서 (2255) 는 송신을 위한 준비로 신호들을 인코딩 및/또는 변조할 수도 있다.
기저대역 프로세서 (2255) 는 기저대역 메모리 (2277) 에 결합될 수도 있다. 기저대역 메모리 (2277) 는 SDRAM, DDRAM, 플래시 메모리 등과 같이, 전자 정보를 저장할 수 있는 임의의 전자 디바이스일 수도 있다. 기저대역 프로세서 (2255) 는 기저대역 메모리 (2277) 로부터 정보 (예컨대, 명령들 및/또는 데이터) 를 판독할 수도 있고, 및/또는 정보를 기저대역 메모리 (3766) 에 기록할 수도 있다. 추가적으로 또는 대안적으로, 기저대역 프로세서 (2255) 는 통신 동작들을 수행하기 위하여 기저대역 메모리 (2277) 내에 저장된 명령들 및/또는 데이터를 이용할 수도 있다.
기저대역 프로세서 (2255) 는 라디오 주파수 (radio frequency; RF) 트랜시버 (2257) 에 결합될 수도 있다. RF 트랜시버 (2257) 는 전력 증폭기 (2259) 및 하나 이상의 안테나들 (2261) 에 결합될 수도 있다. RF 트랜시버 (2257) 는 라디오 주파수 신호들을 송신 및/또는 수신할 수도 있다. 예를 들어, RF 트랜시버 (2257) 는 전력 증폭기 (2259) 및 적어도 하나의 안테나 (2261) 를 이용하여 RF 신호를 송신할 수도 있다. RF 트랜시버 (2257) 는 또한, 하나 이상의 안테나들 (2261) 을 이용하여 RF 신호들을 수신할 수도 있다.
도 23 은 전자 디바이스 (2302) 내에 포함될 수도 있는 어떤 컴포넌트들을 예시한다. 도 23 과 관련하여 설명된 전자 디바이스 (2302) 는 본원에서 설명된 전자 디바이스들 (102, 402) 및 무선 통신 디바이스 (2202) 중의 하나 이상에 대한 예일 수도 있고, 및/또는 본원에서 설명된 전자 디바이스들 (102, 402) 및 무선 통신 디바이스 (2202) 중의 하나 이상에 따라 구현될 수도 있다.
전자 디바이스 (2302) 는 프로세서 (2395) 를 포함한다. 프로세서 (2395) 는 범용 단일-칩 또는 멀티-칩 마이크로프로세서 (예컨대, ARM), 특수 목적 마이크로프로세서 (예컨대, 디지털 신호 프로세서 (digital signal processor; DSP)), 마이크로제어기, 프로그래밍가능 게이트 어레이 등일 수도 있다. 프로세서 (2395) 는 중앙 프로세싱 유닛 (central processing unit; CPU) 으로서 지칭될 수도 있다. 단지 단일 프로세서 (2395) 가 도 23 의 전자 디바이스 (2302) 에서 도시되어 있지만, 대안적인 구성에서는, 프로세서들 (예컨대, ARM 및 DSP) 의 조합이 이용될 수 있다.
전자 디바이스 (2302) 는 또한, 프로세서 (2395) 와 전자 통신하는 메모리 (2379) 를 포함한다 (즉, 프로세서 (2395) 는 메모리 (2379) 로부터 정보를 판독할 수 있고 및/또는 정보를 메모리 (4956) 에 기록할 수 있음). 메모리 (2379) 는 전자 정보를 저장할 수 있는 임의의 전자 컴포넌트일 수도 있다. 메모리 (2379) 는 랜덤 액세스 메모리 (random access memory; RAM), 판독-전용 메모리 (read-only memory; ROM), 자기디스크 저장 매체들, 광학 저장 매체들, RAM 에서의 플래시 메모리 디바이스들, 프로세서와 함께 포함된 온-보드 메모리 (on-board memory), 프로그래밍가능 판독-전용 메모리 (programmable read-only memory; PROM), 소거가능 프로그래밍가능 판독-전용 메모리 (erasable programmable read-only memory; EPROM), 전기적 소거가능 PROM (electrically erasable PROM; EEPROM), 레지스터들, 및 그 조합들을 포함하는 기타 등등일 수도 있다.
데이터 (2381) 및 명령들 (2383) 은 메모리 (2379) 에 저장될 수도 있다. 명령들 (2383) 은 하나 이상의 프로그램들, 루틴들, 서브-루틴들, 함수들, 프로시저 (procedure) 들, 코드 등을 포함할 수도 있다. 명령들 (2383) 은 단일의 컴퓨터-판독가능한 스테이트먼트 (statement) 또는 다수의 컴퓨터-판독가능한 스테이트먼트들을 포함할 수도 있다. 명령들 (2383) 은 위에서 설명된 방법들 (200, 500) 중의 하나 이상을 구현하기 위하여 프로세서 (2395) 에 의해 실행가능할 수도 있다. 명령들 (2383) 을 실행하는 것은 메모리 (2379) 에 저장되어 있는 데이터 (2381) 의 이용을 수반할 수도 있다. 도 23 은 일부의 명령들 (2383a) 및 데이터 (2381a) 가 프로세서 (2395) 로 로딩되는 것을 도시한다.
전자 디바이스 (2302) 는 또한, 전자 디바이스 (2302) 와 원격 로케이션 (예컨대, 기지국) 사이에서 신호들의 송신 및 수신을 허용하기 위한 송신기 (2391) 및 수신기 (2393) 를 포함할 수도 있다. 송신기 (2391) 및 수신기 (2393) 는 트랜시버 (2389) 로서 집합적으로 지칭될 수도 있다. 안테나 (2387) 는 트랜시버 (2389) 에 전기적으로 결합될 수도 있다. 전자 디바이스 (2302) 는 또한, (도시되지 않은) 다수의 송신기들, 다수의 수신기들, 다수의 트랜시버들, 및/또는 다수의 안테나들을 포함할 수도 있다.
전자 디바이스 (2302) 의 다양한 컴포넌트들은 하나 이상의 버스들에 의해 함께 결합될 수도 있으며, 버스들은 전력 버스, 제어 신호 버스, 상태 신호 버스, 데이터 버스 등을 포함할 수도 있다. 간략함을 위하여, 다양한 버스들은 도 23 에서 버스 시스템 (2385) 으로서 예시되어 있다.
상기 설명에서, 참조 번호들은 때때로 다양한 용어들과 관련하여 이용되었다. 용어가 참조 번호와 관련하여 이용될 경우, 이것은 도면들 중의 하나 이상에서 도시되는 특정 엘리먼트를 지칭하도록 의도될 수도 있다. 용어가 참조 번호 없이 이용될 경우, 이것은 임의의 특정한 도면에 대한 제한 없이 일반적으로 용어를 지칭하도록 의도될 수도 있다.
용어 "결정하는 것" 은 광범위한 액션들을 포괄하고, 그러므로, "결정하는 것" 은 계산하는 것, 컴퓨팅하는 것, 프로세싱하는 것, 유도하는 것, 조사하는 것, 룩업하는 것 (예컨대, 테이블, 데이터베이스, 또는 또 다른 데이터 구조에서 룩업하는 것), 확인하는 것, 및 기타 등등을 포함할 수 있다. 또한, "결정하는 것" 은 수신하는 것 (예컨대, 정보를 수신하는 것), 액세스하는 것 (예컨대, 메모리 내의 데이터를 액세스하는 것) 및 기타 등등을 포함할 수 있다. 또한, "결정하는 것" 은 분석하는 것, 선택하는 것, 선정하는 것, 설정하는 것 등을 포함할 수 있다.
어구 "~ 에 기초하여 (based on)" 는 명백히 이와 달리 규정되지 않는 한, "에 오직 기초하여" 를 의미하지 않는다. 다시 말해서, 어구 "~ 에 기초하여" 는 "~ 에 오직 기초하여" 및 "~ 에 적어도 기초하여" 의 양자를 설명한다.
본원에서 설명된 구성들 중의 임의의 하나와 관련하여 설명된 특징들, 기능들, 절차들, 파라미터들, 값들, 컴포넌트들, 엘리먼트들, 구조들 등 중의 하나 이상은, 호환가능한 경우, 본원에서 설명된 다른 구성들 중의 임의의 것과 관련하여 설명된 기능들, 절차들, 파라미터들, 값들, 컴포넌트들, 엘리먼트들, 구조들 등 중의 하나 이상과 조합될 수도 있다는 것에 주목해야 한다. 다시 말해서, 본원에서 설명된 기능들, 절차들, 파라미터들, 값들, 컴포넌트들, 엘리먼트들 등 중의 임의의 호환가능한 조합은 본원에서 개시된 시스템들 및 방법들에 따라 구현될 수도 있다.
본원에서 설명된 기능들은 프로세서-판독가능 또는 컴퓨터-판독가능 매체 상에 하나 이상의 명령들로서 저장될 수도 있다. 용어 "컴퓨터-판독가능 매체" 는 컴퓨터 또는 프로세서에 의해 액세스될 수 있는 임의의 이용가능한 매체를 지칭한다. 제한이 아닌 예로서, 이러한 매체는 랜덤-액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 전기적 소거가능 프로그래밍가능 판독-전용 메모리 (EEPROM), 플래시 메모리, 컴팩트 디스크 판독-전용 메모리 (CD-ROM) 또는 다른 광학 디스크 저장, 자기 디스크 저장 또는 다른 자기 저장 디바이스들, 또는 희망하는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 저장하기 위하여 이용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수도 있다. 본원에서 이용된 바와 같은 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (compact disc; CD), 레이저 디스크 (laser disc), 광학 디스크 (optical disc), 디지털 다기능 디스크 (digital versatile disc; DVD), 플로피 디스크 (floppy disk), 및 Blu-ray? 디스크를 포함하고, 여기서, 디스크 (disk) 들은 통상 데이터를 자기적으로 재생하는 반면, 디스크 (disc) 들은 데이터를 레이저들로 광학적으로 재생한다. 컴퓨터-판독가능 매체는 유형적 (tangible) 이고 비일시적 (non-transitory) 일 수도 있다는 것에 주목해야 한다. 용어 "컴퓨터-프로그램 제품" 은 컴퓨팅 디바이스 또는 프로세서에 의해 실행될 수도 있거나, 프로세싱될 수도 있거나, 또는 컴퓨팅될 수도 있는 코드 또는 명령들 (예컨대, "프로그램") 과 조합하여 컴퓨팅 디바이스 또는 프로세서를 지칭한다. 본원에서 이용된 바와 같이, 용어 "코드" 는 컴퓨팅 디바이스 또는 프로세서에 의해 실행가능한 소프트웨어, 명령들, 코드, 또는 데이터를 지칭할 수도 있다.
소프트웨어 또는 명령들은 또한, 송신 매체 상에서 송신될 수도 있다. 예를 들어, 동축 케이블, 광섬유 케이블, 트위스티드 페어 (twisted pair), 디지털 가입자 회선 (digital subscriber line; DSL), 또는 적외선, 라디오 (radio), 및 마이크로파 (microwave) 와 같은 무선 기술들을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 소프트웨어가 송신될 경우, 동축 케이블, 광섬유 케이블, 트위스트 페어, DSL, 또는 적외선, 라디오, 및 마이크로파와 같은 무선 기술들은 송신 매체의 정의 내에 포함된다.
본원에서 개시된 방법들은 설명된 방법을 달성하기 위한 하나 이상의 단계들 또는 액션들을 포함한다. 방법 단계들 및/또는 액션들은 청구항들의 범위로부터 이탈하지 않으면서 서로 상호 교환될 수도 있다. 다시 말해서, 설명되고 있는 방법의 적당한 동작을 위하여 단계들 또는 액션들의 특정 순서가 요구되지 않는 한, 특정 단계들 및/또는 액션들의 순서 및/또는 이용은 청구항들의 범위로부터 이탈하지 않으면서 수정될 수도 있다.
청구항들은 위에서 예시된 정밀한 구성 및 컴포넌트들에 제한되지 않는다는 것을 이해해야 한다. 청구항들의 범위로부터 이탈하지 않으면서, 본원에서 설명된 시스템들, 방법들, 및 장치의 배열, 동작, 및 세부사항들에서 다양한 수정들, 변경들, 및 변동들이 행해질 수도 있다.

Claims (30)

  1. 전자 디바이스에 의한 스피치 모델링을 위한 방법으로서,
    잡음성 스피치 신호에 기초하여 실시간 잡음 기준을 획득하는 단계;
    상기 실시간 잡음 기준에 기초하여 실시간 잡음 사전 (dictionary) 을 획득하는 단계;
    제 1 스피치 사전 및 제 2 스피치 사전을 획득하는 단계;
    제 1 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호를 생성하기 위하여 상기 실시간 잡음 사전 및 상기 제 1 스피치 사전에 기초하여 잔류 잡음을 감소시키는 단계; 및
    제 2 모델링 스테이지에서 상기 잔류 잡음-억압된 스피치 신호 및 상기 제 2 스피치 사전에 기초하여 재구성된 스피치 신호를 생성하는 단계를 포함하는, 전자 디바이스에 의한 스피치 모델링을 위한 방법.
  2. 제 1 항에 있어서,
    상기 제 1 모델링 스테이지는 비-음수 행렬 인수분해 (non-negative matrix factorization; NMF) 에 기초하는, 전자 디바이스에 의한 스피치 모델링을 위한 방법.
  3. 제 1 항에 있어서,
    상기 제 2 모델링 스테이지는 비-음수 행렬 인수분해 (NMF) 에 기초하는, 전자 디바이스에 의한 스피치 모델링을 위한 방법.
  4. 제 1 항에 있어서,
    상기 잔류 잡음을 감소시키는 단계는,
    상기 제 1 스피치 사전 및 상기 실시간 잡음 사전을 포함하는 스피치 및 잡음 사전을 고정시키는 단계;
    활성화 계수들을 초기화하는 단계; 및
    수렴할 때까지 상기 활성화 계수들을 업데이트하는 단계를 포함하는, 전자 디바이스에 의한 스피치 모델링을 위한 방법.
  5. 제 1 항에 있어서,
    상기 잔류 잡음을 감소시키는 단계는,
    상기 제 1 스피치 사전, 상기 실시간 잡음 사전, 적응된 스피치 활성화 계수, 및 적응된 잡음 활성화 계수에 기초하여 필터를 생성하는 단계; 및
    상기 필터 및 사전-개량된 (pre-enhanced) 입력에 기초하여 상기 잔류 잡음-억압된 스피치 신호를 추정하는 단계를 포함하는, 전자 디바이스에 의한 스피치 모델링을 위한 방법.
  6. 제 1 항에 있어서,
    상기 재구성된 스피치 신호를 생성하는 단계는,
    서브-대역 피치-특정 사전을 고정시키는 단계;
    수렴할 때까지 활성화 계수들을 업데이트하는 단계; 및
    피치-특정 사전 및 상기 활성화 계수들에 기초하여 상기 재구성된 스피치 신호를 생성하는 단계를 포함하는, 전자 디바이스에 의한 스피치 모델링을 위한 방법.
  7. 제 6 항에 있어서,
    피치에 기초하여 화자-특정 사전으로부터 상기 피치-특정 사전을 결정하는 단계; 및
    빈-별 (bin-wise) 신호-대-잡음 비율 (signal-to-noise ratio; SNR) 들에 기초하여 상기 피치-특정 사전으로부터 상기 서브-대역 피치-특정 사전을 결정하는 단계를 더 포함하는, 전자 디바이스에 의한 스피치 모델링을 위한 방법.
  8. 제 1 항에 있어서,
    재구성 에러에 기초하여 상기 재구성된 스피치 신호 및 상기 잔류 잡음-억압된 스피치 신호로부터 출력 스피치 신호를 선택하는 단계를 더 포함하는, 전자 디바이스에 의한 스피치 모델링을 위한 방법.
  9. 제 1 항에 있어서,
    상기 제 1 스피치 사전 및 상기 제 2 스피치 사전은 화자-특정 스피치 사전에 기초하는, 전자 디바이스에 의한 스피치 모델링을 위한 방법.
  10. 제 1 항에 있어서,
    상기 제 1 스피치 사전을 획득하는 단계는,
    복수의 활성화 계수들 및 스피치 기저 함수들을 초기화하는 단계; 및
    수렴할 때까지 파라미터들을 업데이트하는 단계를 포함하는, 전자 디바이스에 의한 스피치 모델링을 위한 방법.
  11. 제 1 항에 있어서,
    상기 제 2 스피치 사전을 획득하는 단계는,
    복수의 화자-특정 스피치 크기 스펙트럼들에 대한 하모닉시티 (harmonicity) 및 피치 (pitch) 를 추정하는 단계;
    상기 화자-특정 스피치 크기 스펙트럼들로부터, 하모닉시티 문턱보다 높은 대응하는 하모닉시티들을 갖는 스피치 스펙트럼들을 선택하는 단계; 및
    대응하는 피치로 상기 선택된 스피치 스펙트럼들의 각각을 라벨링하는 단계를 포함하는, 전자 디바이스에 의한 스피치 모델링을 위한 방법.
  12. 스피치 모델링을 위한 전자 디바이스로서,
    프로세서;
    상기 프로세서와 전자 통신하는 메모리;
    상기 메모리 내에 저장된 명령들로서, 상기 명령들은,
    잡음성 스피치 신호에 기초하여 실시간 잡음 기준을 획득하고;
    상기 실시간 잡음 기준에 기초하여 실시간 잡음 사전을 획득하고;
    제 1 스피치 사전 및 제 2 스피치 사전을 획득하고;
    제 1 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호를 생성하기 위하여 상기 실시간 잡음 사전 및 상기 제 1 스피치 사전에 기초하여 잔류 잡음을 감소시키고; 그리고
    제 2 모델링 스테이지에서 상기 잔류 잡음-억압된 스피치 신호 및 상기 제 2 스피치 사전에 기초하여 재구성된 스피치 신호를 생성하도록 실행가능한, 상기 명령들을 포함하는, 스피치 모델링을 위한 전자 디바이스.
  13. 제 12 항에 있어서,
    상기 제 1 모델링 스테이지는 비-음수 행렬 인수분해 (NMF) 에 기초하는, 스피치 모델링을 위한 전자 디바이스.
  14. 제 12 항에 있어서,
    상기 제 2 모델링 스테이지는 비-음수 행렬 인수분해 (NMF) 에 기초하는, 스피치 모델링을 위한 전자 디바이스.
  15. 제 12 항에 있어서,
    잔류 잡음을 감소시키는 것은,
    상기 제 1 스피치 사전 및 상기 실시간 잡음 사전을 포함하는 스피치 및 잡음 사전을 고정시키는 것;
    활성화 계수들을 초기화하는 것; 및
    수렴할 때까지 상기 활성화 계수들을 업데이트하는 것을 포함하는, 스피치 모델링을 위한 전자 디바이스.
  16. 제 12 항에 있어서,
    상기 잔류 잡음을 감소시키는 것은,
    상기 제 1 스피치 사전, 상기 실시간 잡음 사전, 적응된 스피치 활성화 계수, 및 적응된 잡음 활성화 계수에 기초하여 필터를 생성하는 것; 및
    상기 필터 및 사전-개량된 (pre-enhanced) 입력에 기초하여 상기 잔류 잡음-억압된 스피치 신호를 추정하는 것을 포함하는, 스피치 모델링을 위한 전자 디바이스.
  17. 제 12 항에 있어서,
    상기 재구성된 스피치 신호를 생성하는 것은,
    서브-대역 피치-특정 사전을 고정시키는 것;
    수렴할 때까지 활성화 계수들을 업데이트하는 것; 및
    피치-특정 사전 및 상기 활성화 계수들에 기초하여 상기 재구성된 스피치 신호를 생성하는 것을 포함하는, 스피치 모델링을 위한 전자 디바이스.
  18. 제 17 항에 있어서,
    상기 명령들은 추가로,
    피치에 기초하여 화자-특정 사전으로부터 상기 피치-특정 사전을 결정하고; 그리고
    빈-별 (bin-wise) 신호-대-잡음 비율 (SNR) 들에 기초하여 상기 피치-특정 사전으로부터 상기 서브-대역 피치-특정 사전을 결정하도록 실행가능한, 스피치 모델링을 위한 전자 디바이스.
  19. 제 12 항에 있어서,
    상기 명령들은 추가로, 재구성 에러에 기초하여 상기 재구성된 스피치 신호 및 상기 잔류 잡음-억압된 스피치 신호로부터 출력 스피치 신호를 선택하도록 실행가능한, 스피치 모델링을 위한 전자 디바이스.
  20. 제 12 항에 있어서,
    상기 제 1 스피치 사전 및 상기 제 2 스피치 사전은 화자-특정 스피치 사전에 기초하는, 스피치 모델링을 위한 전자 디바이스.
  21. 제 12 항에 있어서,
    상기 제 1 스피치 사전을 획득하는 것은,
    복수의 활성화 계수들 및 스피치 기저 함수들을 초기화하는 것; 및
    수렴할 때까지 파라미터들을 업데이트하는 것을 포함하는, 스피치 모델링을 위한 전자 디바이스.
  22. 제 12 항에 있어서,
    상기 제 2 스피치 사전을 획득하는 것은,
    복수의 화자-특정 스피치 크기 스펙트럼들에 대한 하모닉시티 및 피치를 추정하는 것;
    상기 화자-특정 스피치 크기 스펙트럼들로부터, 하모닉시티 문턱보다 높은 대응하는 하모닉시티들을 갖는 스피치 스펙트럼들을 선택하는 것; 및
    대응하는 피치로 상기 선택된 스피치 스펙트럼들의 각각을 라벨링하는 것을 포함하는, 스피치 모델링을 위한 전자 디바이스.
  23. 명령들을 가지는 비일시적 유형의 컴퓨터-판독가능 매체를 포함하는, 스피치 모델링을 위한 컴퓨터-프로그램 제품으로서,
    상기 명령들은,
    전자 디바이스로 하여금, 잡음성 스피치 신호에 기초하여 실시간 잡음 기준을 획득하게 하기 위한 코드;
    상기 전자 디바이스로 하여금, 상기 실시간 잡음 기준에 기초하여 실시간 잡음 사전을 획득하게 하기 위한 코드;
    상기 전자 디바이스로 하여금, 제 1 스피치 사전 및 제 2 스피치 사전을 획득하게 하기 위한 코드;
    상기 전자 디바이스로 하여금, 제 1 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호를 생성하기 위하여, 상기 실시간 잡음 사전 및 상기 제 1 스피치 사전에 기초하여 잔류 잡음을 감소시키게 하기 위한 코드; 및
    상기 전자 디바이스로 하여금, 제 2 모델링 스테이지에서 상기 잔류 잡음-억압된 스피치 신호 및 상기 제 2 스피치 사전에 기초하여 재구성된 스피치 신호를 생성하게 하기 위한 코드를 포함하는, 비일시적 유형의 컴퓨터-판독가능 매체를 포함하는 컴퓨터-프로그램 제품.
  24. 제 23 항에 있어서,
    상기 재구성된 스피치 신호를 생성하는 것은,
    서브-대역 피치-특정 사전을 고정시키는 것;
    수렴할 때까지 활성화 계수들을 업데이트하는 것; 및
    피치-특정 사전 및 상기 활성화 계수들에 기초하여 상기 재구성된 스피치 신호를 생성하는 것을 포함하는, 비일시적 유형의 컴퓨터-판독가능 매체를 포함하는 컴퓨터-프로그램 제품.
  25. 제 23 항에 있어서,
    상기 제 1 스피치 사전을 획득하는 것은,
    복수의 활성화 계수들 및 스피치 기저 함수들을 초기화하는 것; 및
    수렴할 때까지 파라미터들을 업데이트하는 것을 포함하는, 비일시적 유형의 컴퓨터-판독가능 매체를 포함하는 컴퓨터-프로그램 제품.
  26. 제 23 항에 있어서,
    상기 제 2 스피치 사전을 획득하는 것은,
    복수의 화자-특정 스피치 크기 스펙트럼들에 대한 하모닉시티 및 피치를 추정하는 것;
    상기 화자-특정 스피치 크기 스펙트럼들로부터, 하모닉시티 문턱보다 높은 대응하는 하모닉시티들을 갖는 스피치 스펙트럼들을 선택하는 것; 및
    대응하는 피치로 상기 선택된 스피치 스펙트럼들의 각각을 라벨링하는 것을 포함하는, 비일시적 유형의 컴퓨터-판독가능 매체를 포함하는 컴퓨터-프로그램 제품.
  27. 스피치 모델링을 위한 장치로서,
    잡음성 스피치 신호에 기초하여 실시간 잡음 기준을 획득하기 위한 수단;
    상기 실시간 잡음 기준에 기초하여 실시간 잡음 사전을 획득하기 위한 수단;
    제 1 스피치 사전 및 제 2 스피치 사전을 획득하기 위한 수단;
    제 1 모델링 스테이지에서 잔류 잡음-억압된 스피치 신호를 생성하기 위하여 상기 실시간 잡음 사전 및 상기 제 1 스피치 사전에 기초하여 잔류 잡음을 감소시키기 위한 수단; 및
    제 2 모델링 스테이지에서 상기 잔류 잡음-억압된 스피치 신호 및 상기 제 2 스피치 사전에 기초하여 재구성된 스피치 신호를 생성하기 위한 수단을 포함하는, 스피치 모델링을 위한 장치.
  28. 제 27 항에 있어서,
    상기 재구성된 스피치 신호를 생성하기 위한 수단은,
    서브-대역 피치-특정 사전을 고정시키기 위한 수단;
    수렴할 때까지 활성화 계수들을 업데이트하기 위한 수단; 및
    피치-특정 사전 및 상기 활성화 계수들에 기초하여 상기 재구성된 스피치 신호를 생성하기 위한 수단을 포함하는, 스피치 모델링을 위한 장치.
  29. 제 27 항에 있어서,
    상기 제 1 스피치 사전을 획득하기 위한 수단은,
    복수의 활성화 계수들 및 스피치 기저 함수들을 초기화하기 위한 수단; 및
    수렴할 때까지 파라미터들을 업데이트하기 위한 수단을 포함하는, 스피치 모델링을 위한 장치.
  30. 제 27 항에 있어서,
    상기 제 2 스피치 사전을 획득하기 위한 수단은,
    복수의 화자-특정 스피치 크기 스펙트럼들에 대한 하모닉시티 및 피치를 추정하기 위한 수단;
    상기 화자-특정 스피치 크기 스펙트럼들로부터, 하모닉시티 문턱보다 높은 대응하는 하모닉시티들을 갖는 스피치 스펙트럼들을 선택하기 위한 수단; 및
    대응하는 피치로 상기 선택된 스피치 스펙트럼들의 각각을 라벨링하기 위한 수단을 포함하는, 스피치 모델링을 위한 장치.
KR1020167024059A 2014-02-27 2015-02-24 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들 KR20160125984A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461945691P 2014-02-27 2014-02-27
US61/945,691 2014-02-27
US14/629,109 US10013975B2 (en) 2014-02-27 2015-02-23 Systems and methods for speaker dictionary based speech modeling
US14/629,109 2015-02-23
PCT/US2015/017336 WO2015130685A1 (en) 2014-02-27 2015-02-24 Systems and methods for speaker dictionary based speech modeling

Publications (1)

Publication Number Publication Date
KR20160125984A true KR20160125984A (ko) 2016-11-01

Family

ID=53882822

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167024059A KR20160125984A (ko) 2014-02-27 2015-02-24 화자 사전 기반 스피치 모델링을 위한 시스템들 및 방법들

Country Status (6)

Country Link
US (1) US10013975B2 (ko)
EP (1) EP3111445B1 (ko)
JP (1) JP2017506767A (ko)
KR (1) KR20160125984A (ko)
CN (1) CN106030705A (ko)
WO (1) WO2015130685A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536537B2 (en) * 2015-02-27 2017-01-03 Qualcomm Incorporated Systems and methods for speech restoration
EP3387648B1 (en) * 2015-12-22 2020-02-12 Huawei Technologies Duesseldorf GmbH Localization algorithm for sound sources with known statistics
CN106971741B (zh) * 2016-01-14 2020-12-01 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统
US10667069B2 (en) 2016-08-31 2020-05-26 Dolby Laboratories Licensing Corporation Source separation for reverberant environment
US10528147B2 (en) 2017-03-06 2020-01-07 Microsoft Technology Licensing, Llc Ultrasonic based gesture recognition
US10276179B2 (en) * 2017-03-06 2019-04-30 Microsoft Technology Licensing, Llc Speech enhancement with low-order non-negative matrix factorization
US10984315B2 (en) 2017-04-28 2021-04-20 Microsoft Technology Licensing, Llc Learning-based noise reduction in data produced by a network of sensors, such as one incorporated into loose-fitting clothing worn by a person
CN107248414A (zh) * 2017-05-23 2017-10-13 清华大学 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
US10811030B2 (en) * 2017-09-12 2020-10-20 Board Of Trustees Of Michigan State University System and apparatus for real-time speech enhancement in noisy environments
CN108145974B (zh) * 2017-12-29 2020-04-07 深圳职业技术学院 一种基于语音识别的3d打印成型的方法及系统
CN109273021B (zh) * 2018-08-09 2021-11-30 厦门亿联网络技术股份有限公司 一种基于rnn的实时会议降噪方法及装置
CN108986834B (zh) * 2018-08-22 2023-04-07 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
US11227621B2 (en) 2018-09-17 2022-01-18 Dolby International Ab Separating desired audio content from undesired content
CN110931028B (zh) * 2018-09-19 2024-04-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
KR20210008788A (ko) 2019-07-15 2021-01-25 삼성전자주식회사 전자 장치 및 그 제어 방법
US11710492B2 (en) * 2019-10-02 2023-07-25 Qualcomm Incorporated Speech encoding using a pre-encoded database
CN111383652B (zh) * 2019-10-25 2023-09-12 南京邮电大学 一种基于双层字典学习的单通道语音增强方法
WO2021092236A1 (en) * 2019-11-05 2021-05-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for deconvoluting tumor ecosystems for personalized cancer therapy
CN112141837A (zh) * 2020-09-08 2020-12-29 金陵科技学院 一种基于多层字典学习的智能语音电梯系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3571821B2 (ja) 1995-09-13 2004-09-29 株式会社東芝 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
KR20060090995A (ko) * 2003-10-23 2006-08-17 마쓰시다 일렉트릭 인더스트리얼 컴패니 리미티드 스펙트럼 부호화 장치, 스펙트럼 복호화 장치, 음향 신호송신 장치, 음향 신호 수신장치 및 이들의 방법
US7725314B2 (en) * 2004-02-16 2010-05-25 Microsoft Corporation Method and apparatus for constructing a speech filter using estimates of clean speech and noise
US7734462B2 (en) * 2005-09-02 2010-06-08 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
DK1760696T3 (en) 2005-09-03 2016-05-02 Gn Resound As Method and apparatus for improved estimation of non-stationary noise to highlight speech
US7873064B1 (en) * 2007-02-12 2011-01-18 Marvell International Ltd. Adaptive jitter buffer-packet loss concealment
US8494842B2 (en) * 2007-11-02 2013-07-23 Soundhound, Inc. Vibrato detection modules in a system for automatic transcription of sung or hummed melodies
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
US8874441B2 (en) * 2011-01-19 2014-10-28 Broadcom Corporation Noise suppression using multiple sensors of a communication device
US8554553B2 (en) 2011-02-21 2013-10-08 Adobe Systems Incorporated Non-negative hidden Markov modeling of signals
JP5543023B2 (ja) * 2011-05-24 2014-07-09 三菱電機株式会社 目的音強調装置およびカーナビゲーションシステム
US8812322B2 (en) * 2011-05-27 2014-08-19 Adobe Systems Incorporated Semi-supervised source separation using non-negative techniques
JP5662276B2 (ja) * 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
US8775167B2 (en) * 2011-09-26 2014-07-08 Adobe Systems Incorporated Noise-robust template matching
RU2611973C2 (ru) * 2011-10-19 2017-03-01 Конинклейке Филипс Н.В. Ослабление шума в сигнале
RU2616534C2 (ru) * 2011-10-24 2017-04-17 Конинклейке Филипс Н.В. Ослабление шума при передаче аудиосигналов
WO2013138747A1 (en) * 2012-03-16 2013-09-19 Yale University System and method for anomaly detection and extraction
CN102915742B (zh) 2012-10-30 2014-07-30 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
US9324338B2 (en) * 2013-10-22 2016-04-26 Mitsubishi Electric Research Laboratories, Inc. Denoising noisy speech signals using probabilistic model
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
US9553681B2 (en) * 2015-02-17 2017-01-24 Adobe Systems Incorporated Source separation using nonnegative matrix factorization with an automatically determined number of bases

Also Published As

Publication number Publication date
EP3111445B1 (en) 2018-12-19
JP2017506767A (ja) 2017-03-09
US10013975B2 (en) 2018-07-03
EP3111445A1 (en) 2017-01-04
US20150243284A1 (en) 2015-08-27
CN106030705A (zh) 2016-10-12
WO2015130685A1 (en) 2015-09-03

Similar Documents

Publication Publication Date Title
US10013975B2 (en) Systems and methods for speaker dictionary based speech modeling
Delcroix et al. Strategies for distant speech recognitionin reverberant environments
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
Droppo et al. Environmental robustness
Yadav et al. Addressing noise and pitch sensitivity of speech recognition system through variational mode decomposition based spectral smoothing
US20110218803A1 (en) Method and system for assessing intelligibility of speech represented by a speech signal
Sadjadi et al. Blind spectral weighting for robust speaker identification under reverberation mismatch
CN104937662A (zh) 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体
Alam et al. Robust feature extraction based on an asymmetric level-dependent auditory filterbank and a subband spectrum enhancement technique
EP3262641B1 (en) Systems and methods for speech restoration
Shahnawazuddin et al. Enhancing noise and pitch robustness of children's ASR
US10839810B2 (en) Speaker enrollment
Hanson et al. Spectral dynamics for speech recognition under adverse conditions
Di Persia et al. Objective quality evaluation in blind source separation for speech recognition in a real room
KR102051966B1 (ko) 음성 인식 향상 장치 및 방법
Guzewich et al. Improving Speaker Verification for Reverberant Conditions with Deep Neural Network Dereverberation Processing.
Borsky et al. Dithering techniques in automatic recognition of speech corrupted by MP3 compression: Analysis, solutions and experiments
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Pardede On noise robust feature for speech recognition based on power function family
Abka et al. Speech recognition features: Comparison studies on robustness against environmental distortions
Vicente-Peña et al. Band-pass filtering of the time sequences of spectral parameters for robust wireless speech recognition
Kumar A spectro-temporal framework for compensation of reverberation for speech recognition
KR102198597B1 (ko) 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법
Fan et al. Power-normalized PLP (PNPLP) feature for robust speech recognition
Satriawan et al. Feature-based noise robust speech recognition on an Indonesian language automatic speech recognition system