KR101224755B1

KR101224755B1 - 음성-상태 모델을 사용하는 다중-감각 음성 향상

Info

Publication number: KR101224755B1
Application number: KR1020077029014A
Authority: KR
Inventors: 쳉유 창; 지쳉 리우; 알레잔드로 아세로; 아마르나그 수브라만야; 제임스 지. 드로포
Original assignee: 마이크로소프트 코포레이션
Priority date: 2005-06-28
Filing date: 2006-06-13
Publication date: 2013-01-21
Also published as: MX2007015446A; US7680656B2; BRPI0612668A2; ATE508454T1; EP1891624A2; RU2007149546A; US20060293887A1; EP1891624B1; KR20080019222A; CN101606191B; JP2009501940A; EP1891624A4; RU2420813C2; JP2012155339A; JP5000647B2; CN101606191A; WO2007001821A3; JP5452655B2; WO2007001821A2; DE602006021741D1

Abstract

본 방법 및 장치는 대안의 센서 신호 및 공기 전도 마이크 신호에 기초하여 음성 상태의 우도(likelihood)를 구한다. 음성 상태의 우도는, 대안의 센서 신호 및 공기 전도 마이크 신호와 함께, 깨끗한 음성 신호에 대한 깨끗한 음성값을 추정하는 데 사용된다.

음성 상태 모델, 음성 분산, 결합 확률, 공기 전도 마이크

Description

음성-상태 모델을 사용하는 다중-감각 음성 향상{MULTI-SENSORY SPEECH ENHANCEMENT USING A SPEECH-STATE MODEL}

음성 인식 및 음성 전송에서의 공통된 문제는 가산성 잡음(additive noise)에 의한 음성 신호의 오염이다. 상세하게는, 다른 화자의 음성으로 인한 오염은 검출 및/또는 정정하기 어렵다는 것이 입증되었다.

최근에, 골 전도 마이크(bone conduction microphone) 등의 대안의 센서 및 공기 전도 마이크(air conduction microphone)의 조합을 사용하여 잡음을 제거하려고 시도하는 시스템이 개발되었다. 공기 전도 마이크 신호보다 적은 잡음을 갖는 향상된 음성 신호를 형성하기 위해 대안의 센서 신호 및 공기 전도 마이크 신호를 사용하는 다양한 기술들이 개발되었다. 그렇지만, 완벽하게 향상된 음성이 얻어지지 않았으며 향상된 음성 신호의 형성에서의 추가적인 진전이 필요하다.

본 방법 및 장치는 대안의 센서 신호 및 공기 전도 마이크 신호에 기초하여 음성 상태의 우도를 구한다. 음성 상태의 우도는 깨끗한 음성 신호에 대한 깨끗한 음성값을 추정하는 데 사용된다.

도 1은 본 발명의 실시예들이 실시될 수 있는 한 컴퓨팅 환경의 블록도.

도 2는 본 발명의 실시예들이 실시될 수 있는 대안의 컴퓨팅 환경의 블록도.

도 3은 본 발명의 일반적인 음성 처리 시스템의 블록도.

도 4는 본 발명의 일 실시예에 따른 음성을 향상시키는 시스템의 블록도.

도 5는 본 발명의 일 실시예에 따른 음성 향상의 기초를 이루는 모델을 나타낸 도면.

도 6은 본 발명의 일 실시예에 따른 음성을 향상시키는 흐름도.

도 1은 본 발명의 실시예들이 구현될 수 있는 적합한 컴퓨팅 시스템 환경(100)의 일례를 도시하고 있다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 환경(100)이 예시적인 운영 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안된다.

본 발명의 실시예들은 많은 기타 범용 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성에서 동작할 수 있다. 본 발명의 실시예들에서 사용하는 데 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.

본 발명의 실시예들은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시되도록 설계된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 둘다에 위치되어 있다.

도 1과 관련하여, 본 발명을 구현하는 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함하지만 이에 제한되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스, 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨 터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스되고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선 및 기타 무선 매체와 같은 무선 매체를 포함하지만, 이에 한정되는 것은 아니다. 상술된 매체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 범위 안에 포함되는 것으로 한다.

시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에, 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. RAM(132)은 통상적으로 처리 장치(120)가 즉시 액세스 할 수 있고 및/또는 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장매체를 포함할 수 있다. 단지 예로서, 도 1은 비이동식·비휘발성 자기 매체에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 포함한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이 브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

위에서 설명되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체는, 컴퓨터(110)에 대한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터를 저장한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 이에 관해, 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사본(copy)이라는 것을 나타내기 위한 것이다.

사용자는 키보드(162), 마이크(163) 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접 속될 수 있다. 모니터 외에, 컴퓨터는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(195)를 통해 접속될 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성요소들의 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속으로는 LAN(171) 및 WAN(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이 며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.

도 2는 예시적인 컴퓨팅 환경인 모바일 장치(200)의 블록도이다. 모바일 장치(200)는 마이크로프로세서(202), 메모리(204), 입/출력(I/O) 컴포넌트(206), 및 원격 컴퓨터 또는 기타 모바일 장치와 통신을 하는 통신 인터페이스(208)를 포함한다. 일 실시예에서, 상기한 컴포넌트들은 통신을 위해 적당한 버스(210)를 통해 서로 연결되어 있다.

모바일 장치(200)에의 일반 전원이 차단될 때 메모리(204)에 저장된 정보가 상실되지 않도록, 메모리(204)는 배터리 백업 모듈(도시 생략)을 갖는 랜덤 액세스 메모리(RAM) 등의 비휘발성 전자 메모리로서 구현된다. 메모리(204)의 일부분은 양호하게는 프로그램 실행을 위해 주소 지정 가능 메모리(addressable memory)로서 할당되는 반면, 메모리(204)의 다른 부분은 양호하게는 디스크 드라이브 상에 저장하는 것을 시뮬레이트하는 등을 위해 저장하는 데 사용된다.

메모리(204)는 운영 체제(212), 애플리케이션 프로그램(214)는 물론 객체 저장소(object store)(216)를 포함한다. 동작 동안에, 운영 체제(212)는 양호하게는 메모리(204)로부터 프로세서(202)에 의해 실행된다. 한 양호한 실시예에서, 운영 체제(212)는 마이크로소프트사로부터 상업적으로 입수가능한 WINDOW

CE 상표의 운영 체제이다. 운영 체제(212)는 양호하게는 모바일 장치용으로 설계되어 있으며, 일련의 노출된 애플리케이션 프로그래밍 인터페이스 및 메소드를 통해 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 기능을 구현한다. 객체 저장 소(216) 내의 객체들은, 적어도 부분적으로는 노출된 애플리케이션 프로그래밍 인터페이스 및 메소드에 대한 호출에 응답하여, 애플리케이션(214) 및 운영 체제(212)에 의해 유지된다.

통신 인터페이스(208)는 모바일 장치(200)가 정보를 전송 및 수신할 수 있게 해주는 수많은 장치 및 기술을 나타낸다. 이들 장치는, 몇가지를 열거하자면, 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너(broadcast tuner)를 포함한다. 모바일 장치(200)는 또한 컴퓨터와 데이터를 교환하기 위해 컴퓨터에 직접 연결될 수 있다. 이러한 경우에, 통신 인터페이스(208)는 적외선 송수신기나, 직렬 또는 병렬 통신 연결일 수 있으며, 이들 모두는 스트리밍 정보를 전송할 수 있다.

입/출력 컴포넌트(206)는 터치-감응 스크린, 버튼, 롤러 및 마이크 등의 다양한 입력 장치는 물론 오디오 발생기(audio generator), 진동 장치(vibrating device) 및 디스플레이 등의 다양한 출력 장치를 포함한다. 상기 열거한 장치들은 예에 불과하며, 모바일 장치(200)에 그 모두가 존재할 필요는 없다. 그에 부가하여, 본 발명의 범위 내에서 기타 입/출력 장치가 모바일 장치(200)에 부착되거나 그와 함께 존재할 수 있다.

도 3은 본 발명의 실시예의 기본 블록도를 제공한다. 도 3에서, 스피커(300)는 공기 전도 마이크(304) 및 대안의 센서(306)에 의해 검출되는 음성 신호 X(302)를 발생한다. 대안의 센서의 예로는 사용자의 성대 진동(throat vibration)을 측정하는 성대 마이크(throat microphone), 사용자의 얼굴뼈 또는 두개골(skull) 상에 또는 그에 인접하여 또는 사용자의 귀에 위치되어 사용자에 의해 발생되는 음성에 대응하는 두개골 또는 턱(jaw)의 진동을 감지하는 골 전도 센서(bone conduction sensor)가 있다. 공기 전도 마이크(304)는 오디오 공기파(audio air-wave)를 전기 신호로 변환하는 데 통상적으로 사용되는 유형의 마이크이다.

공기 전도 마이크(304)는 하나 이상의 잡음원(310)에 의해 발생되는 주변 잡음(ambient noise) V(308)을 수신하고 그 자신의 센서 잡음 U(305)을 발생한다. 주변 잡음의 유형 및 주변 잡음의 레벨에 따라, 주변 잡음(308)도 대안의 센서(306)에 의해 검출될 수 있다. 그렇지만, 본 발명의 실시예들에 따르면, 대안의 센서(306)는 일반적으로 공기 전도 마이크(304)보다 주변 잡음에 덜 민감하다. 따라서, 대안의 센서(306)에 의해 발생되는 대안의 센서 신호 B(316)는 일반적으로 공기 전도 마이크(304)에 의해 발생되는 공기 전도 마이크 신호 Y(318)보다 적은 잡음을 포함한다. 대안의 센서(306)가 주변 잡음에 덜 민감하지만, 이 센서도 얼마간의 센서 잡음 W(320)을 발생한다.

스피커(300)에서 대안의 센서 신호(316)까지의 경로는 채널 응답 H를 갖는 채널로서 모델링될 수 있다. 주변 잡음(308)에서 대안의 센서 신호(316)까지의 경로는 채널 응답 G를 갖는 채널로서 모델링될 수 있다.

대안의 센서 신호 B(316) 및 공기 전도 마이크 신호 Y(318)는, 깨끗한 신호(clean signal)(324)를 추정하는 깨끗한 신호 추정기(clean signal estimator)(322)에 제공된다. 깨끗한 신호 추정치(324)는 음성 프로세스(speech process)(328)에 제공된다. 깨끗한 신호 추정치(324)는 시간 영역 신호이거나 푸 리에 변환 벡터일 수 있다. 깨끗한 신호 추정치(324)가 시간 영역 신호인 경우, 음성 프로세스(328)는 듣는 사람(listener), 음성 코딩 시스템, 또는 음성 인식 시스템의 형태를 가질 수 있다. 깨끗한 신호 추정치(324)가 푸리에 변환 벡터인 경우, 음성 프로세스(328)는 일반적으로 음성 인식 시스템이거나 푸리에 변환 벡터를 파형으로 변환하는 역 푸리에 변환(Inverse Fourier Transform)을 포함한다.

깨끗한 신호 추정기(322) 내에서, 대안의 센서 신호(316) 및 마이크 신호(318)는 깨끗한 음성을 추정하는 데 사용되는 주파수 영역으로 변환된다. 도 4에 나타낸 바와 같이, 대안의 센서 신호(316) 및 공기 전도 마이크 신호(318)는 아날로그-디지털 변환기(404, 414)에 각각 제공되어 일련의 디지털 값을 발생하며, 이들 값은 각각 프레임 구성기(frame constructor)(406, 416)에 의해 값들의 프레임으로 그룹화된다. 일 실시예에서, 아날로그-디지털 변환기(404, 414)는 아날로그 신호를 16 kHz로 샘플당 16 비트로 샘플링하며, 그에 따라 초당 32 킬로바이트의 음성 데이터를 생성하며, 프레임 구성기(406, 416)는 매 10 밀리초마다 20 밀리초분의 데이터를 포함하는 새로운 각자의 프레임을 생성한다.

프레임 구성기(406, 416)에 의해 제공되는 각자의 데이터 프레임 각각은 고속 푸리에 변환(FFT)(408, 418)을 사용하여 주파수 영역으로 각각 변환된다.

대안의 센서 신호 및 공기 전도 마이크 신호에 대한 주파수 영역 값은, 깨끗한 음성 신호(324)를 추정하기 위해 주파수 영역 값을 사용하는 깨끗한 신호 추정기(420)에 제공된다.

몇몇 실시예들에 따르면, 깨끗한 음성 신호(324)는 역 고속 푸리에 변 환(422)을 사용하여 다시 시간 영역으로 변환된다. 이것은 깨끗한 음성 신호(324)의 시간 영역 버전을 생성한다.

본 발명은 향상된 음성 신호를 생성하기 위해 깨끗한 음성에 대한 음성 상태를 포함하는 도 3의 시스템의 모델을 이용한다. 도 5는 이 모델의 그래픽 표현을 제공한다.

도 5의 모델에서, 깨끗한 음성(500)은 음성 상태(502)에 의존한다. 공기 전도 마이크 신호(504)는 센서 잡음(506), 주변 잡음(508) 및 깨끗한 음성 신호(500)에 의존한다. 대안의 센서 신호(510)는 채널 응답(514)을 통과할 때에는 센서 잡음(512), 깨끗한 음성 신호(500)에 의존하고, 채널 응답(516)을 통과할 때에는 주변 잡음(508)에 의존한다.

도 5의 모델은, 본 발명에 따르면, 잡음이 많은 관측치 Y_t, B_t로부터 깨끗한 음성 신호 X_t를 추정하는 데 사용되고, 복수의 음성 상태(speech state) S_t의 우도를 식별해준다.

본 발명의 일 실시예에 따르면, 깨끗한 음성 신호 추정치 및 깨끗한 음성 신호 추정치에 대한 상태의 우도(likelihood)는 먼저 시스템 모델에서의 잡음 성분에 대한 가우시안 분포를 가정함으로써 형성된다. 따라서,

여기서, 각각의 잡음 성분은 각자의 분산

및

를 갖는 제로-평균 가우시안(zero-mean Gaussian)으로서 모델링되고, V는 주변 잡음이며, U는 공기 전도 마이크에서의 센서 잡음이고, W는 대안의 센서에서의 센서 잡음이다. 수학식 1에서, g는 주변 잡음의 분산이 조정될 수 있게 해주는 조정 파라미터(tuning parameter)이다.

그에 부가하여, 본 발명의 이 실시예는, 수학식 4가 되도록 분산

를 갖는 제로-평균 가우시안인 상태가 주어진 경우 깨끗한 음성 신호의 확률을 모델링한다.

본 발명의 일 실시예에 따르면, 주어진 상태의 이전 확률은 모든 상태가 똑같은 가능성을 갖도록 균일 확률(uniform probability)인 것으로 가정된다. 구체적으로는, 이전 확률은 다음과 같이 정의된다.

여기서, N_s는 모델에서 이용가능한 음성 상태의 수이다.

깨끗한 음성 신호의 추정치 및 음성 상태의 우도를 구하는 이하의 방정식들에 대한 설명에서, 모든 변수는 복소 스펙트럼 영역에서 모델링된다. 각각의 주파수 성분(Bin)은 나머지 주파수 성분들과 독립적으로 처리된다. 표기의 편의상, 이하에서는 하나의 주파수 성분에 대해 이 방법을 설명한다. 당업자라면 입력 신호의 스펙트럼 버전에서의 각각의 주파수 성분에 대해 계산이 수행된다는 것을 잘 알 것이다. 시간에 따라 변하는 변수에 대해서는, 첨자 t가 변수에 붙어 있다.

잡음이 많은 관측치 Y_t, B_t로부터 깨끗한 음성 신호 X_t를 추정하기 위해, 본 발명은, 잡음이 많은 공기 전도 마이크 신호 및 잡음이 많은 대안의 센서 신호가 주어진 경우 깨끗한 음성 신호의 확률인 조건부 확률

을 최대화한다. 깨끗한 음성 신호의 추정치가 이 모델에서 음성 상태 S_t에 의존하기 때문에, 이 조건부 확률은 다음과 같이 구해진다.

여기서, {S}는 모든 음성 상태의 집합을 나타내고,

는 현재의 잡음이 많은 관측치 및 음성 상태 s가 주어진 경우 X_t의 우도이며,

는 잡음이 많은 관측치가 주어진 경우 음성 상태 s의 우도이다. 본 발명에 따르면 유성음(voiced sound), 마찰음(fricative), 비음(nasal sound) 및 후모음(back vowel sound)에 대한 음성 상태를 비롯한 많은 수의 가능한 음성 상태가 사용될 수 있다. 몇몇 실시예들에서, 음소(phoneme) 등의 일련의 음성 단위(phonetic unit) 각각에 대해 별도의 음성 상태가 제공된다. 그렇지만, 일 실시예에 따르면, 2개의 음성 상태만이 제공되며, 하나는 음성(speech)에 대한 것이고 하나는 비음성(non-speech)에 대한 것이다.

몇몇 실시예들에 따르면, 모든 주파수 성분에 대해 하나의 상태가 사용된다. 따라서, 각각의 프레임은 하나의 음성 상태 변수를 갖는다.

수학식 6의 우변의 항들은 다음과 같이 계산될 수 있다.

이는 관측치가 주어진 경우 깨끗한 음성 신호의 조건부 확률이 깨끗한 음성 신호, 관측치 및 상태의 결합 확률에 의해 추정될 수 있으며 또 관측치가 주어진 경우 상태의 조건부 확률이 모든 가능한 깨끗한 음성 값에 걸쳐 깨끗한 음성 신호, 관측치 및 상태의 결합 확률을 적분함으로써 근사화될 수 있음을 나타낸다.

수학식 1 내지 수학식 3에서 상술한 잡음의 분포에 대한 가우시안 가정을 사용하여, 깨끗한 음성 신호, 관측치 및 상태의 결합 확률은 다음과 같이 계산될 수 있다.

여기서,

이고,

는 수학식 5에서의 균일 확률 분포에 의해 주어지는 상태의 이전 확률이며, G는 대안의 센서의 주변 잡음에 대한 채널 응답이고, H는 대안의 센서 신호의 깨끗한 음성 신호에 대한 채널 응답이며,

등의 수직 바 사이의 복소항은 복소값의 크기를 나타낸다. 배경 음성에 대한 대안의 센서의 채널 응답 G는 사용자가 말하고 있지 않은 마지막 D개의 프레임에 걸쳐 공기 마이크의 신호 Y 및 대안의 센서의 신호 B로부터 추정된다. 구체적으로는, G는 다음과 같이 구해진다.

여기서, D는 사용자가 말하지는 않지만 배경 음성이 있는 프레임의 수이다. 여기서, G가 모든 시간 프레임 D에 걸쳐 일정한 것으로 가정한다. 다른 실시예들 에서, D개의 프레임 전부를 똑같이 사용하지 않고, 우리는 최근의 프레임들이 오래된 프레임보다 G의 추정에 더 많이 기여하도록 "지수적 에이징(exponential aging)"이라고 하는 기법을 사용한다.

깨끗한 음성 신호에 대한 대안의 센서의 채널 응답 H는 사용자가 말하고 있는 마지막 T개의 프레임에 걸쳐 공기 마이크의 신호 Y 및 대안의 센서의 신호 B로부터 추정된다. 구체적으로는, H는 다음과 같이 구해진다.

여기서, T는 사용자가 말하고 있는 프레임의 수이다. 여기서, 우리는 H가 모든 시간 프레임 T에 걸쳐 일정한 것으로 가정한다. 다른 실시예들에서, T개의 프레임 모두를 똑같이 사용하지 않고, 우리는 최근의 프레임들이 오래된 프레임보다 H의 추정에 더 많이 기여하도록 "지수적 에이징(exponential aging)"이라고 하는 기법을 사용한다.

상태의 조건부 우도

는 수학식 8의 근사치 및 수학식 9의 결합 확률 계산을 사용하여 다음과 같이 계산된다.

이는 다음과 같이 간단화될 수 있다.

수학식 13을 세밀히 살펴보면 첫번째 항이 어떤 감각 모델링(sense modeling)에서 대안의 센서 채널과 공기 전도 마이크 채널 간의 상관인 반면, 두번째 항은 상태 모델 및 잡음 모델을 사용하여 공기 마이크 채널에서의 관찰을 설명한다. 세번째 항은 단지, 일 실시예에 따르면, 균일 분포인 상태에 관한 사전 확률(prior)이다.

수학식 13에서 계산된 관측치가 주어진 경우 상태의 우도는 2가지 가능한 응용을 갖는다. 첫째, 이는 잡음원(noise source)의 분산(variance)이 음성을 포함하지 않는 프레임으로부터 구해질 수 있도록 관측치(observation)를 음성을 포함하는 것으로 또는 음성을 포함하지 않는 것으로 분류하는 데 사용될 수 있는 음성-상태 분류자(speech-state classifier)를 구축하는 데 사용될 수 있다. 이는 또한 이하에서 더 설명하는 바와 같이 깨끗한 음성 신호를 추정할 때 "소프트" 가중치를 제공하는 데도 사용될 수 있다.

상기한 바와 같이, 상기 방정식들에서의 변수들 각각은 복소 스펙트럼 영역에서 특정의 주파수 성분에 대해 정의된다. 따라서, 수학식 13의 우도는 특정의 주파수 성분과 연관된 상태에 대한 것이다. 그렇지만, 각각의 프레임에 대해 단지 하나의 상태 변수가 있기 때문에, 프레임에 대한 상태의 우도는 다음과 같이 주파수 성분들에 걸쳐 우도를 총합(aggregate)함으로써 형성된다.

여기서,

은 수학식 13에 정의된 주파수 성분 f에 대한 우도이다. 이 곱은 DC 및 나이키스트 주파수를 제외한 모든 주파수 성분에 걸쳐 구해진다. 유의할 점은 우도 계산이 로그-우도 영역(log-likelihood domain)에서 수행되는 경우, 상기 방정식에서의 이 곱은 합산으로 대체된다.

상기의 우도는, 수학식 15의 우도비 테스트(likelihood ratio test)에 기초하여, 음성/비음성 분류자를 구축하는 데 사용될 수 있다.

여기서, 비 r이 0보다 큰 경우 프레임이 음성을 포함하는 것으로 간주되고, 그렇지 않은 경우, 음성을 포함하지 않는 것으로 간주된다.

음성 상태의 우도를 사용하여, 깨끗한 음성 신호의 추정치가 형성될 수 있다. 일 실시예에 따르면, 이 추정치는 상기 수학식 6에 기초하여 수학식 16의 MMSE(minimum mean square estimate, 최소 평균 제곱 추정치)를 사용하여 형성된다.

여기서,

는 관측치가 주어진 경우 깨끗한 음성 신호의 기대값이고,

는 관측치 및 음성 상태가 주어진 경우 깨끗한 음성 신호의 기대값이다.

수학식 7 및 수학식 9를 사용하여, 조건부 확률

(이로부터 기대값

이 계산될 수 있음)이 다음과 같이 구해진다.

이것으로 수학식 18의 기대값이 얻어진다.

여기서,

이고, M*은 M의 복소 공액이다.

따라서, 깨끗한 음성 신호 X_t의 MMSE 추정치는 다음과 같이 주어진다.

여기서,

는 상태에 관한 사후 확률(posterior)이고, 다음과 같이 주어진다.

여기서, L(S_t=s)는 수학식 14에 의해 주어진다. 따라서, 깨끗한 음성 신호의 추정치는 부분적으로 특정의 음성 상태의 상대 우도(relative likelihood)에 기 초하고, 이 상대 우도는 깨끗한 음성 신호의 추정치에 대한 소프트 가중치(soft weight)를 제공한다.

상기 계산에서, H는 높은 정확도(strong precision)로 알고 있는 것으로 가정되었다. 그렇지만, 실제로는 H는 제한된 정확도로 알고 있을 뿐이다. 본 발명의 부가의 실시예에 따르면, H는 가우시안 확률 변수(Gaussian random variable)

로 모델링된다. 이러한 실시예에 따르면, 상기 계산 모두는 모든 가능한 H 값에 걸쳐 과소 평가(marginalize)된다. 그렇지만, 이것은 수학을 어렵게 만든다. 일 실시예에 따르면, 이러한 어려움을 극복하기 위해 반복적 프로세스가 사용된다. 각각의 반복 동안에, H는 수학식 13 및 수학식 20에서 H₀로 대체되고,

는

로 대체되며, 여기서

는 이전의 반복으로부터 구해진 깨끗한 음성 신호의 추정치이다. 깨끗한 음성 신호는 이어서 수학식 21을 사용하여 추정된다. 깨끗한 음성 신호의 이 새로운 추정치는 이어서

의 새로운 값으로 설정되고, 그 다음 반복이 수행된다. 이 반복은 깨끗한 음성 신호의 추정치가 안정될 때 끝난다.

도 6은 이상의 방정식들을 사용하여 깨끗한 음성 신호를 추정하는 방법을 제공한다. 단계(600)에서, 사용자가 말하지 않는 상황에서 여러 프레임의 입력 음성(input utterance)이 식별된다. 이들 프레임은 이어서 주변 잡음에 대한 분산

, 대안의 센서 잡음에 대한 분산

, 및 공기 전도 마이크 잡음에 대한 분산

을 구하는 데 사용된다.

사용자가 말하지 않는 상황에서 프레임을 식별하기 위해, 대안의 센서 신호가 검사될 수 있다. 대안의 센서 신호가 잡음에 대해서보다 배경 음성(background speech)에 대해 훨씬 더 작은 신호값을 생성하기 때문에, 대안의 센서 신호의 에너지가 낮을 때, 처음에 화자가 말을 하고 있지 않은 것으로 가정될 수 있다. 음성을 포함하지 않는 프레임에 대한 공기 전도 마이크 신호 및 대안의 센서 신호의 값이 버퍼에 저장되고 다음과 같이 잡음의 분산을 계산하는 데 사용된다.

여기서, N_v는 분산을 형성하기 위해 사용되고 있는 음성에서의 잡음 프레임의 수이고, V는 사용자가 말하고 있지 않는 상황에서 잡음 프레임의 집합이며,

은 누설(leakage)이 참작된 후의 대안의 센서 신호를 말하며, 다음과 같이 계산된다.

이는 어떤 실시예들에서 다른 대안으로서 다음과 같이 계산된다.

몇몇 실시예들에 따르면, 대안의 센서 신호에서 낮은 에너지 레벨에 기초하여 비음성 프레임을 식별하는 기술은 초기의 훈련 프레임 동안에만 수행된다. 초기값들이 잡음 분산을 구하기 위해 형성된 후에, 이들 값은, 수학식 15의 우도비(likelihood ratio)를 사용하여, 어느 프레임이 음성을 포함하고 어느 프레임이 음성을 포함하지 않는지를 판정하는 데 사용될 수 있다.

추정된 분산

을 증가시키거나 감소시키는 데 사용될 수 있는 조정 파라미터(tuning parameter)인 g의 값은, 한 특정 실시예에 따르면, 1로 설정된다. 이것은 잡음 추정 절차를 완전히 신뢰함을 암시한다. 본 발명의 다른 실시예들에 따르면, 다른 g 값이 사용될 수 있다.

공기 전도 마이크에 대한 잡음의 분산

은 공기 전도 마이크가 대안의 센서보다 센서 잡음에 덜 영향을 받는다는 관찰에 기초하여 추정된다. 그 자체로서, 공기 전도 마이크의 분산은 다음과 같이 계산될 수 있다.

단계(602)에서, 음성 분산

은 시간 평활화(temporal smoothing)를 갖는 잡음 억압 필터(noise suppression filter)를 사용하여 추정된다. 이 억압 필터는 스펙트럼 감산의 일반화이다. 구체적으로는, 음성 분산(speech variance)은 다음과 같이 계산된다.

여기서,

이고,

여기서,

는 선행 프레임으로부터의 깨끗한 음성 추정치이고,

는 몇몇 실시예에서 0.2로 설정되는 평활화 인자(smoothing factor)이며,

는 잡음 감소의 정도를 제어하고(

>1인 경우, 음성 왜곡의 증가의 대가로 더 많은 잡음이 감소됨),

는 최소 잡음 플로어(minimum noise floor)를 제공하고 지각된 잔류 음악 잡음(perceived residual musical noise)을 마스킹하기 위해 배경 잡음을 부가하는 수단을 제공한다. 몇몇 실시예들에 따르면,

이고

이다. 몇몇 실시 예들에서,

는 순수 잡음 프레임에 대해 20 dB 잡음 감소를 위해 0.01로 설정된다.

따라서, 수학식 28에서, 분산은 선행 프레임의 추정된 깨끗한 음성 신호와 잡음 억압 필터

에 의해 필터링된 공기 전도 마이크 신호의 에너지의 가중합으로 구해진다.

몇몇 실시예들에 따르면,

는 신호대 잡음비 및 낮은 음성 에너지 대역에서보다 높은 음성 에너지 대역에 있는 동일한 양의 잡음이 지각(perception)에 더 작은 영향을 준다는 마스킹 원리(masking principle)에 따라 선택되고, 한 주파수에 높은 음성 에너지가 존재하는 것이 인접한 주파수 대역에서의 잡음의 지각을 감소시킨다. 이 실시예에 따르면,

는 다음과 같이 선택된다.

여기서 SNR은 데시벨(dB) 단위의 신호대 잡음비이고, B는 원하는 신호대 잡음비 레벨(이를 넘으면 잡음 감소가 수행되어서는 안됨)이며,

는 0의 신호대 잡음비 값에서 제거되어야만 하는 잡음의 양이다. 몇몇 실시예에 따르면, B는 20dB로 설정된다.

수학식 32의 신호대 잡음비의 정의를 사용하면,

수학식 29의 잡음 억압 필터는 다음과 같이 된다.

이 잡음 억압 필터는 플러스 신호대 잡음비에 대해 약한 잡음 억압(weak noise suppression)을 제공하고 마이너스 신호대 잡음비에 대해 강한 잡음 억압(stronger noise suppression)을 제공한다. 실제로, 충분히 마이너스인 신호대 잡음비에 대해, 관측된 신호 및 잡음 모두가 제거되며, 존재하는 유일한 잡음은 수학식 33의 잡음 억압 필터의 "otherwise(그렇지 않은 경우)" 분기에 의해 다시 부가되는 잡음 플로어(noise floor)이다.

몇몇 실시예들에 따르면,

는 서로 다른 주파수에 대해 서로 다른 양의 잡음이 제거되도록 주파수-의존적이 된다. 일 실시예에 따르면, 이 주파수 의존성은 수학식 34의 30Hz에서의

와 8KHz에서의

간의 선형 보간을 사용하여 형성된다.

여기서, k는 주파수 성분의 수이고,

는 30Hz에서 요망되는

의 값이 며,

는 8KHz에서 요망되는

이고, 256개의 주파수 성분이 있는 것으로 가정된다.

단계(602)에서 음성 분산이 구해진 후에, 이 분산은 상기 수학식 13 및 수학식 14를 사용하여 단계(604)에서 각각의 음성 상태의 우도를 구하는 데 사용된다. 음성 상태의 우도는 이어서, 단계(606)에서, 현재 프레임에 대한 깨끗한 음성 추정치를 구하는 데 사용된다. 상기한 바와 같이, H를 표현하는 데 가우시안 분포가 사용되는 실시예들에서, 단계(604, 606)는 각각의 반복에서 깨끗한 음성 신호의 최신 추정치를 사용하여 또한 H에 대한 가우시안 모델을 수용하기 위해 상기 언급한 방정식들에 대한 변경을 사용하여 반복된다.

본 발명이 특정의 실시예들과 관련하여 기술되어 있지만, 당업자라면 본 발명의 정신 및 범위를 벗어나지 않고 형태 및 상세에 여러 변경이 행해질 수 있다는 것을 잘 알 것이다.

Claims

잡음-감소된 음성 신호의 일부분을 표현하는 잡음-감소된 값에 대한 추정치를 구하는 방법으로서,

대안의 센서를 사용하여 대안의 센서 신호를 발생시키는 단계;

공기 전도 마이크 신호를 발생시키는 단계;

상기 대안의 센서 신호 및 상기 공기 전도 마이크 신호를 사용하여 음성 상태 S_t의 우도(likelihood) L(S_t)를 추정하는 단계 - 상기 우도를 추정하는 단계는 주파수 성분 세트 중 각각에 대한 음성 상태의 개별 우도를 추정하고 상기 음성 상태의 우도를 형성하기 위하여 상기 개별 우도를 합성하는 것에 의함 -; 및

상기 음성 상태의 우도를 사용하여 상기 잡음-감소된 값
을 추정하는 단계

를 포함하고,

이며,
는 상태에 관한 사후 확률(posterior)로서,

이고,

,

, 및

이며,

M*은 M의 복소 공액 값이고, X_t는 잡음-감소된 값이고, Y_t는 공기 전도 마이크 신호의 프레임 t에 대한 값이고, B_t는 대안의 센서 신호의 프레임 t에 대한 값이고,
는 공기 전도 마이크의 센서 잡음에 대한 분산이고,
는 대안의 센서의 센서 잡음에 대한 분산이고, g²σ_v ²는 주변 잡음에 대한 분산이고, G는 주변 잡음에 대한 대안의 센서의 채널 응답이고, H는 깨끗한 음성 신호에 대한 대안의 센서의 채널 응답이며, S는 모든 음성 상태의 집합이며,
는 주어진 음성 상태에 대한 잡음-감소된 값의 확률을 모델링한 분포(distribution)에 대한 분산이고,
는 주어진 Y_t, B_t, 및 음성 상태 s에 대한 X_t의 기대값을 의미하는, 방법.
제1항에 있어서, 음성 상태의 우도의 추정치를 사용하여 상기 공기 전도 마이크 신호의 프레임이 음성을 포함하는지를 판정하는 단계를 더 포함하는 방법.
제2항에 있어서, 음성을 포함하지 않는 것으로 판정되는 상기 공기 전도 마이크 신호의 프레임을 사용하여 잡음원(a noise source)에 대한 분산을 구하는 단계, 및

상기 잡음원에 대한 분산을 사용하여 상기 잡음-감소된 값을 추정하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 분포의 분산을, 선행 프레임에 대한 잡음-감소된 값의 추정치와 현재 프레임에 대한 상기 공기 전도 마이크 신호의 필터링된 버전의 선형 합성(linear combination)으로서 추정하는 단계를 더 포함하는 방법.
제4항에 있어서, 상기 공기 전도 마이크 신호의 상기 필터링된 버전은 주파수 의존적인 필터를 사용하여 형성되는 방법.
제4항에 있어서, 상기 공기 전도 마이크 신호의 상기 필터링된 버전은 신호대 잡음비에 의존하는 필터를 사용하여 형성되는 방법.
제1항에 있어서, 상기 잡음-감소된 값의 추정치를 사용하여 상기 잡음-감소된 값의 새로운 추정치를 형성함으로써 반복을 수행하는 단계를 더 포함하는 방법.
컴퓨터 실행가능 명령어들을 포함하는 컴퓨터 판독가능 기록 매체로서,

상기 컴퓨터 실행가능 명령어들은, 프로세서에 의해 실행될 때 상기 프로세서로 하여금 방법을 수행하도록 하며,

상기 방법은,

대안의 센서를 사용하여 생성된 대안의 센서 신호를 수신하는 단계;

공기 전도 마이크를 사용하여 생성된 공기 전도 마이크 신호를 수신하는 단계;

상기 대안의 센서 신호 및 공기 전도 마이크 신호에 기초하여 음성 상태의 우도를 판정하는 단계 - 상기 판정하는 단계는, 주파수 성분 세트 중 각각의 주파수에 대한 음성 상태의 개별 우도 L(S_t(f))를 추정하고 상기 음성 상태의 우도 L(S_t)를 형성하기 위하여 상기 개별 우도의 곱(product)을 형성하는 것에 의하며,
이고, 상기 곱은 상기 주파수 성분 세트의 모든 주파수 성분(f)에 걸쳐 취해짐 -; 및

상기 음성 상태의 우도를 사용하여 깨끗한 음성 값(clean speech value)을 추정하는 단계

를 수행하도록 구성된 컴퓨터 판독가능 기록 매체.
제8항에 있어서, 상기 음성 상태의 우도를 사용하여 깨끗한 음성 값을 추정하는 단계는 기대값을 가중하는 단계를 포함하는, 컴퓨터 판독가능 기록 매체.
제8항에 있어서, 상기 음성 상태의 우도를 사용하여 깨끗한 음성 값을 추정하는 단계는,

상기 음성 상태의 우도를 사용하여 한 프레임의 신호를 비음성 프레임으로서 식별하는 단계;

상기 비음성 프레임을 사용하여 잡음에 대한 분산을 추정하는 단계; 및

상기 잡음에 대한 분산을 사용하여 상기 깨끗한 음성 값을 추정하는 단계를 포함하는, 컴퓨터 판독가능 기록 매체.
깨끗한 음성 신호에 대한 깨끗한 음성 값을 식별하는 방법에 있어서,

상기 방법은,

대안의 센서를 사용하여 생성된 대안의 센서 신호를 수신하는 단계;

공기 전도 마이크를 사용하여 생성된 공기 전도 마이크 신호를 수신하는 단계;

상기 깨끗한 음성 신호는 음성 상태에 의존하고, 상기 대안의 센서 신호는 상기 깨끗한 음성 신호에 의존하고, 상기 공기 전도 마이크 신호는 상기 깨끗한 음성 신호에 의존하는 모델링을 형성하는 단계 - 상기 모델링을 형성하는 단계는 주어진 음성 상태에서 깨끗한 음성 신호의 값에 대한 확률을 분산을 포함하는 임의의 분포로서 모델링하는 것을 포함함 -;

상기 공기 전도 마이크 신호의 현재 프레임에 대한 값을 주변 잡음의 분산에 대한 함수인 주파수-의존 잡음 억압 필터(a frequency-dependent noise suppression filter)에 적용하여 상기 공기 전도 마이크 신호의 필터링된 값을 결정하는 단계;

상기 공기 전도 마이크 신호의 필터링된 값 및 선행 프레임의 깨끗한 음성 신호에 대한 값의 추정치의 선형 합성으로서 상기 분포의 상기 분산을 결정하는 단계 - 상기 분산을 결정하는 단계는,
에 기초하고,
는 상기 분포의 분산이고,
는 상기 선행 프레임으로부터의 깨끗한 음성 추정치이고,
는 평활화 인자(smoothing factor)이고,
는 상기 공기 전도 마이크 신호의 현재 프레임에 대한 값이고,
는 상기 잡음 억압 필터임 -; 및

상기 모델링, 상기 분포의 분산, 상기 현재 프레임에 대한 상기 대안의 센서 신호의 값, 및 상기 현재 프레임에 대한 상기 공기 전도 마이크 신호의 값에 기초하여 상기 현재 프레임에 대한 깨끗한 음성값의 추정치를 결정하는 단계

를 포함하는 방법.
제11항에 있어서, 상기 방법은 상태에 대한 우도를 결정하는 단계를 더 포함하고,

상기 깨끗한 음성값의 추정치를 결정하는 단계는 상기 상태에 대한 상기 우도를 사용하는 것을 더 포함하는, 방법.
제11항에 있어서, 상기 모델링을 형성하는 단계는 상기 대안의 센서 신호 및 상기 공기 전도 마이크 신호가 잡음원에 의존하는 모델링을 형성하는 단계를 포함하는, 방법
삭제
삭제
삭제
삭제
삭제
삭제
삭제