KR101224755B1 - 음성-상태 모델을 사용하는 다중-감각 음성 향상 - Google Patents

음성-상태 모델을 사용하는 다중-감각 음성 향상 Download PDF

Info

Publication number
KR101224755B1
KR101224755B1 KR1020077029014A KR20077029014A KR101224755B1 KR 101224755 B1 KR101224755 B1 KR 101224755B1 KR 1020077029014 A KR1020077029014 A KR 1020077029014A KR 20077029014 A KR20077029014 A KR 20077029014A KR 101224755 B1 KR101224755 B1 KR 101224755B1
Authority
KR
South Korea
Prior art keywords
speech
signal
noise
value
air conduction
Prior art date
Application number
KR1020077029014A
Other languages
English (en)
Other versions
KR20080019222A (ko
Inventor
쳉유 창
지쳉 리우
알레잔드로 아세로
아마르나그 수브라만야
제임스 지. 드로포
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20080019222A publication Critical patent/KR20080019222A/ko
Application granted granted Critical
Publication of KR101224755B1 publication Critical patent/KR101224755B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Abstract

본 방법 및 장치는 대안의 센서 신호 및 공기 전도 마이크 신호에 기초하여 음성 상태의 우도(likelihood)를 구한다. 음성 상태의 우도는, 대안의 센서 신호 및 공기 전도 마이크 신호와 함께, 깨끗한 음성 신호에 대한 깨끗한 음성값을 추정하는 데 사용된다.
음성 상태 모델, 음성 분산, 결합 확률, 공기 전도 마이크

Description

음성-상태 모델을 사용하는 다중-감각 음성 향상{MULTI-SENSORY SPEECH ENHANCEMENT USING A SPEECH-STATE MODEL}
음성 인식 및 음성 전송에서의 공통된 문제는 가산성 잡음(additive noise)에 의한 음성 신호의 오염이다. 상세하게는, 다른 화자의 음성으로 인한 오염은 검출 및/또는 정정하기 어렵다는 것이 입증되었다.
최근에, 골 전도 마이크(bone conduction microphone) 등의 대안의 센서 및 공기 전도 마이크(air conduction microphone)의 조합을 사용하여 잡음을 제거하려고 시도하는 시스템이 개발되었다. 공기 전도 마이크 신호보다 적은 잡음을 갖는 향상된 음성 신호를 형성하기 위해 대안의 센서 신호 및 공기 전도 마이크 신호를 사용하는 다양한 기술들이 개발되었다. 그렇지만, 완벽하게 향상된 음성이 얻어지지 않았으며 향상된 음성 신호의 형성에서의 추가적인 진전이 필요하다.
본 방법 및 장치는 대안의 센서 신호 및 공기 전도 마이크 신호에 기초하여 음성 상태의 우도를 구한다. 음성 상태의 우도는 깨끗한 음성 신호에 대한 깨끗한 음성값을 추정하는 데 사용된다.
도 1은 본 발명의 실시예들이 실시될 수 있는 한 컴퓨팅 환경의 블록도.
도 2는 본 발명의 실시예들이 실시될 수 있는 대안의 컴퓨팅 환경의 블록도.
도 3은 본 발명의 일반적인 음성 처리 시스템의 블록도.
도 4는 본 발명의 일 실시예에 따른 음성을 향상시키는 시스템의 블록도.
도 5는 본 발명의 일 실시예에 따른 음성 향상의 기초를 이루는 모델을 나타낸 도면.
도 6은 본 발명의 일 실시예에 따른 음성을 향상시키는 흐름도.
도 1은 본 발명의 실시예들이 구현될 수 있는 적합한 컴퓨팅 시스템 환경(100)의 일례를 도시하고 있다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 환경(100)이 예시적인 운영 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안된다.
본 발명의 실시예들은 많은 기타 범용 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성에서 동작할 수 있다. 본 발명의 실시예들에서 사용하는 데 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.
본 발명의 실시예들은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시되도록 설계된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 둘다에 위치되어 있다.
도 1과 관련하여, 본 발명을 구현하는 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함하지만 이에 제한되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스, 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다.
컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨 터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스되고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선 및 기타 무선 매체와 같은 무선 매체를 포함하지만, 이에 한정되는 것은 아니다. 상술된 매체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 범위 안에 포함되는 것으로 한다.
시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에, 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. RAM(132)은 통상적으로 처리 장치(120)가 즉시 액세스 할 수 있고 및/또는 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니다.
컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장매체를 포함할 수 있다. 단지 예로서, 도 1은 비이동식·비휘발성 자기 매체에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 포함한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이 브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
위에서 설명되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체는, 컴퓨터(110)에 대한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터를 저장한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 이에 관해, 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사본(copy)이라는 것을 나타내기 위한 것이다.
사용자는 키보드(162), 마이크(163) 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접 속될 수 있다. 모니터 외에, 컴퓨터는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(195)를 통해 접속될 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성요소들의 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속으로는 LAN(171) 및 WAN(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이 며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.
도 2는 예시적인 컴퓨팅 환경인 모바일 장치(200)의 블록도이다. 모바일 장치(200)는 마이크로프로세서(202), 메모리(204), 입/출력(I/O) 컴포넌트(206), 및 원격 컴퓨터 또는 기타 모바일 장치와 통신을 하는 통신 인터페이스(208)를 포함한다. 일 실시예에서, 상기한 컴포넌트들은 통신을 위해 적당한 버스(210)를 통해 서로 연결되어 있다.
모바일 장치(200)에의 일반 전원이 차단될 때 메모리(204)에 저장된 정보가 상실되지 않도록, 메모리(204)는 배터리 백업 모듈(도시 생략)을 갖는 랜덤 액세스 메모리(RAM) 등의 비휘발성 전자 메모리로서 구현된다. 메모리(204)의 일부분은 양호하게는 프로그램 실행을 위해 주소 지정 가능 메모리(addressable memory)로서 할당되는 반면, 메모리(204)의 다른 부분은 양호하게는 디스크 드라이브 상에 저장하는 것을 시뮬레이트하는 등을 위해 저장하는 데 사용된다.
메모리(204)는 운영 체제(212), 애플리케이션 프로그램(214)는 물론 객체 저장소(object store)(216)를 포함한다. 동작 동안에, 운영 체제(212)는 양호하게는 메모리(204)로부터 프로세서(202)에 의해 실행된다. 한 양호한 실시예에서, 운영 체제(212)는 마이크로소프트사로부터 상업적으로 입수가능한 WINDOW
Figure 112007089242220-pct00001
CE 상표의 운영 체제이다. 운영 체제(212)는 양호하게는 모바일 장치용으로 설계되어 있으며, 일련의 노출된 애플리케이션 프로그래밍 인터페이스 및 메소드를 통해 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 기능을 구현한다. 객체 저장 소(216) 내의 객체들은, 적어도 부분적으로는 노출된 애플리케이션 프로그래밍 인터페이스 및 메소드에 대한 호출에 응답하여, 애플리케이션(214) 및 운영 체제(212)에 의해 유지된다.
통신 인터페이스(208)는 모바일 장치(200)가 정보를 전송 및 수신할 수 있게 해주는 수많은 장치 및 기술을 나타낸다. 이들 장치는, 몇가지를 열거하자면, 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너(broadcast tuner)를 포함한다. 모바일 장치(200)는 또한 컴퓨터와 데이터를 교환하기 위해 컴퓨터에 직접 연결될 수 있다. 이러한 경우에, 통신 인터페이스(208)는 적외선 송수신기나, 직렬 또는 병렬 통신 연결일 수 있으며, 이들 모두는 스트리밍 정보를 전송할 수 있다.
입/출력 컴포넌트(206)는 터치-감응 스크린, 버튼, 롤러 및 마이크 등의 다양한 입력 장치는 물론 오디오 발생기(audio generator), 진동 장치(vibrating device) 및 디스플레이 등의 다양한 출력 장치를 포함한다. 상기 열거한 장치들은 예에 불과하며, 모바일 장치(200)에 그 모두가 존재할 필요는 없다. 그에 부가하여, 본 발명의 범위 내에서 기타 입/출력 장치가 모바일 장치(200)에 부착되거나 그와 함께 존재할 수 있다.
도 3은 본 발명의 실시예의 기본 블록도를 제공한다. 도 3에서, 스피커(300)는 공기 전도 마이크(304) 및 대안의 센서(306)에 의해 검출되는 음성 신호 X(302)를 발생한다. 대안의 센서의 예로는 사용자의 성대 진동(throat vibration)을 측정하는 성대 마이크(throat microphone), 사용자의 얼굴뼈 또는 두개골(skull) 상에 또는 그에 인접하여 또는 사용자의 귀에 위치되어 사용자에 의해 발생되는 음성에 대응하는 두개골 또는 턱(jaw)의 진동을 감지하는 골 전도 센서(bone conduction sensor)가 있다. 공기 전도 마이크(304)는 오디오 공기파(audio air-wave)를 전기 신호로 변환하는 데 통상적으로 사용되는 유형의 마이크이다.
공기 전도 마이크(304)는 하나 이상의 잡음원(310)에 의해 발생되는 주변 잡음(ambient noise) V(308)을 수신하고 그 자신의 센서 잡음 U(305)을 발생한다. 주변 잡음의 유형 및 주변 잡음의 레벨에 따라, 주변 잡음(308)도 대안의 센서(306)에 의해 검출될 수 있다. 그렇지만, 본 발명의 실시예들에 따르면, 대안의 센서(306)는 일반적으로 공기 전도 마이크(304)보다 주변 잡음에 덜 민감하다. 따라서, 대안의 센서(306)에 의해 발생되는 대안의 센서 신호 B(316)는 일반적으로 공기 전도 마이크(304)에 의해 발생되는 공기 전도 마이크 신호 Y(318)보다 적은 잡음을 포함한다. 대안의 센서(306)가 주변 잡음에 덜 민감하지만, 이 센서도 얼마간의 센서 잡음 W(320)을 발생한다.
스피커(300)에서 대안의 센서 신호(316)까지의 경로는 채널 응답 H를 갖는 채널로서 모델링될 수 있다. 주변 잡음(308)에서 대안의 센서 신호(316)까지의 경로는 채널 응답 G를 갖는 채널로서 모델링될 수 있다.
대안의 센서 신호 B(316) 및 공기 전도 마이크 신호 Y(318)는, 깨끗한 신호(clean signal)(324)를 추정하는 깨끗한 신호 추정기(clean signal estimator)(322)에 제공된다. 깨끗한 신호 추정치(324)는 음성 프로세스(speech process)(328)에 제공된다. 깨끗한 신호 추정치(324)는 시간 영역 신호이거나 푸 리에 변환 벡터일 수 있다. 깨끗한 신호 추정치(324)가 시간 영역 신호인 경우, 음성 프로세스(328)는 듣는 사람(listener), 음성 코딩 시스템, 또는 음성 인식 시스템의 형태를 가질 수 있다. 깨끗한 신호 추정치(324)가 푸리에 변환 벡터인 경우, 음성 프로세스(328)는 일반적으로 음성 인식 시스템이거나 푸리에 변환 벡터를 파형으로 변환하는 역 푸리에 변환(Inverse Fourier Transform)을 포함한다.
깨끗한 신호 추정기(322) 내에서, 대안의 센서 신호(316) 및 마이크 신호(318)는 깨끗한 음성을 추정하는 데 사용되는 주파수 영역으로 변환된다. 도 4에 나타낸 바와 같이, 대안의 센서 신호(316) 및 공기 전도 마이크 신호(318)는 아날로그-디지털 변환기(404, 414)에 각각 제공되어 일련의 디지털 값을 발생하며, 이들 값은 각각 프레임 구성기(frame constructor)(406, 416)에 의해 값들의 프레임으로 그룹화된다. 일 실시예에서, 아날로그-디지털 변환기(404, 414)는 아날로그 신호를 16 kHz로 샘플당 16 비트로 샘플링하며, 그에 따라 초당 32 킬로바이트의 음성 데이터를 생성하며, 프레임 구성기(406, 416)는 매 10 밀리초마다 20 밀리초분의 데이터를 포함하는 새로운 각자의 프레임을 생성한다.
프레임 구성기(406, 416)에 의해 제공되는 각자의 데이터 프레임 각각은 고속 푸리에 변환(FFT)(408, 418)을 사용하여 주파수 영역으로 각각 변환된다.
대안의 센서 신호 및 공기 전도 마이크 신호에 대한 주파수 영역 값은, 깨끗한 음성 신호(324)를 추정하기 위해 주파수 영역 값을 사용하는 깨끗한 신호 추정기(420)에 제공된다.
몇몇 실시예들에 따르면, 깨끗한 음성 신호(324)는 역 고속 푸리에 변 환(422)을 사용하여 다시 시간 영역으로 변환된다. 이것은 깨끗한 음성 신호(324)의 시간 영역 버전을 생성한다.
본 발명은 향상된 음성 신호를 생성하기 위해 깨끗한 음성에 대한 음성 상태를 포함하는 도 3의 시스템의 모델을 이용한다. 도 5는 이 모델의 그래픽 표현을 제공한다.
도 5의 모델에서, 깨끗한 음성(500)은 음성 상태(502)에 의존한다. 공기 전도 마이크 신호(504)는 센서 잡음(506), 주변 잡음(508) 및 깨끗한 음성 신호(500)에 의존한다. 대안의 센서 신호(510)는 채널 응답(514)을 통과할 때에는 센서 잡음(512), 깨끗한 음성 신호(500)에 의존하고, 채널 응답(516)을 통과할 때에는 주변 잡음(508)에 의존한다.
도 5의 모델은, 본 발명에 따르면, 잡음이 많은 관측치 Yt, Bt로부터 깨끗한 음성 신호 Xt를 추정하는 데 사용되고, 복수의 음성 상태(speech state) St의 우도를 식별해준다.
본 발명의 일 실시예에 따르면, 깨끗한 음성 신호 추정치 및 깨끗한 음성 신호 추정치에 대한 상태의 우도(likelihood)는 먼저 시스템 모델에서의 잡음 성분에 대한 가우시안 분포를 가정함으로써 형성된다. 따라서,
Figure 112007089242220-pct00002
Figure 112007089242220-pct00003
Figure 112007089242220-pct00004
여기서, 각각의 잡음 성분은 각자의 분산
Figure 112007089242220-pct00005
Figure 112007089242220-pct00006
를 갖는 제로-평균 가우시안(zero-mean Gaussian)으로서 모델링되고, V는 주변 잡음이며, U는 공기 전도 마이크에서의 센서 잡음이고, W는 대안의 센서에서의 센서 잡음이다. 수학식 1에서, g는 주변 잡음의 분산이 조정될 수 있게 해주는 조정 파라미터(tuning parameter)이다.
그에 부가하여, 본 발명의 이 실시예는, 수학식 4가 되도록 분산
Figure 112007089242220-pct00007
를 갖는 제로-평균 가우시안인 상태가 주어진 경우 깨끗한 음성 신호의 확률을 모델링한다.
Figure 112007089242220-pct00008
본 발명의 일 실시예에 따르면, 주어진 상태의 이전 확률은 모든 상태가 똑같은 가능성을 갖도록 균일 확률(uniform probability)인 것으로 가정된다. 구체적으로는, 이전 확률은 다음과 같이 정의된다.
Figure 112007089242220-pct00009
여기서, Ns는 모델에서 이용가능한 음성 상태의 수이다.
깨끗한 음성 신호의 추정치 및 음성 상태의 우도를 구하는 이하의 방정식들에 대한 설명에서, 모든 변수는 복소 스펙트럼 영역에서 모델링된다. 각각의 주파수 성분(Bin)은 나머지 주파수 성분들과 독립적으로 처리된다. 표기의 편의상, 이하에서는 하나의 주파수 성분에 대해 이 방법을 설명한다. 당업자라면 입력 신호의 스펙트럼 버전에서의 각각의 주파수 성분에 대해 계산이 수행된다는 것을 잘 알 것이다. 시간에 따라 변하는 변수에 대해서는, 첨자 t가 변수에 붙어 있다.
잡음이 많은 관측치 Yt, Bt로부터 깨끗한 음성 신호 Xt를 추정하기 위해, 본 발명은, 잡음이 많은 공기 전도 마이크 신호 및 잡음이 많은 대안의 센서 신호가 주어진 경우 깨끗한 음성 신호의 확률인 조건부 확률
Figure 112007089242220-pct00010
을 최대화한다. 깨끗한 음성 신호의 추정치가 이 모델에서 음성 상태 St에 의존하기 때문에, 이 조건부 확률은 다음과 같이 구해진다.
Figure 112007089242220-pct00011
여기서, {S}는 모든 음성 상태의 집합을 나타내고,
Figure 112007089242220-pct00012
는 현재의 잡음이 많은 관측치 및 음성 상태 s가 주어진 경우 Xt의 우도이며,
Figure 112007089242220-pct00013
는 잡음이 많은 관측치가 주어진 경우 음성 상태 s의 우도이다. 본 발명에 따르면 유성음(voiced sound), 마찰음(fricative), 비음(nasal sound) 및 후모음(back vowel sound)에 대한 음성 상태를 비롯한 많은 수의 가능한 음성 상태가 사용될 수 있다. 몇몇 실시예들에서, 음소(phoneme) 등의 일련의 음성 단위(phonetic unit) 각각에 대해 별도의 음성 상태가 제공된다. 그렇지만, 일 실시예에 따르면, 2개의 음성 상태만이 제공되며, 하나는 음성(speech)에 대한 것이고 하나는 비음성(non-speech)에 대한 것이다.
몇몇 실시예들에 따르면, 모든 주파수 성분에 대해 하나의 상태가 사용된다. 따라서, 각각의 프레임은 하나의 음성 상태 변수를 갖는다.
수학식 6의 우변의 항들은 다음과 같이 계산될 수 있다.
Figure 112007089242220-pct00014
Figure 112007089242220-pct00015
이는 관측치가 주어진 경우 깨끗한 음성 신호의 조건부 확률이 깨끗한 음성 신호, 관측치 및 상태의 결합 확률에 의해 추정될 수 있으며 또 관측치가 주어진 경우 상태의 조건부 확률이 모든 가능한 깨끗한 음성 값에 걸쳐 깨끗한 음성 신호, 관측치 및 상태의 결합 확률을 적분함으로써 근사화될 수 있음을 나타낸다.
수학식 1 내지 수학식 3에서 상술한 잡음의 분포에 대한 가우시안 가정을 사용하여, 깨끗한 음성 신호, 관측치 및 상태의 결합 확률은 다음과 같이 계산될 수 있다.
Figure 112007089242220-pct00016
여기서,
Figure 112007089242220-pct00017
이고,
Figure 112007089242220-pct00018
는 수학식 5에서의 균일 확률 분포에 의해 주어지는 상태의 이전 확률이며, G는 대안의 센서의 주변 잡음에 대한 채널 응답이고, H는 대안의 센서 신호의 깨끗한 음성 신호에 대한 채널 응답이며,
Figure 112007089242220-pct00019
등의 수직 바 사이의 복소항은 복소값의 크기를 나타낸다. 배경 음성에 대한 대안의 센서의 채널 응답 G는 사용자가 말하고 있지 않은 마지막 D개의 프레임에 걸쳐 공기 마이크의 신호 Y 및 대안의 센서의 신호 B로부터 추정된다. 구체적으로는, G는 다음과 같이 구해진다.
Figure 112007089242220-pct00020
여기서, D는 사용자가 말하지는 않지만 배경 음성이 있는 프레임의 수이다. 여기서, G가 모든 시간 프레임 D에 걸쳐 일정한 것으로 가정한다. 다른 실시예들 에서, D개의 프레임 전부를 똑같이 사용하지 않고, 우리는 최근의 프레임들이 오래된 프레임보다 G의 추정에 더 많이 기여하도록 "지수적 에이징(exponential aging)"이라고 하는 기법을 사용한다.
깨끗한 음성 신호에 대한 대안의 센서의 채널 응답 H는 사용자가 말하고 있는 마지막 T개의 프레임에 걸쳐 공기 마이크의 신호 Y 및 대안의 센서의 신호 B로부터 추정된다. 구체적으로는, H는 다음과 같이 구해진다.
Figure 112007089242220-pct00021
여기서, T는 사용자가 말하고 있는 프레임의 수이다. 여기서, 우리는 H가 모든 시간 프레임 T에 걸쳐 일정한 것으로 가정한다. 다른 실시예들에서, T개의 프레임 모두를 똑같이 사용하지 않고, 우리는 최근의 프레임들이 오래된 프레임보다 H의 추정에 더 많이 기여하도록 "지수적 에이징(exponential aging)"이라고 하는 기법을 사용한다.
상태의 조건부 우도
Figure 112007089242220-pct00022
는 수학식 8의 근사치 및 수학식 9의 결합 확률 계산을 사용하여 다음과 같이 계산된다.
Figure 112007089242220-pct00023
이는 다음과 같이 간단화될 수 있다.
Figure 112007089242220-pct00024
수학식 13을 세밀히 살펴보면 첫번째 항이 어떤 감각 모델링(sense modeling)에서 대안의 센서 채널과 공기 전도 마이크 채널 간의 상관인 반면, 두번째 항은 상태 모델 및 잡음 모델을 사용하여 공기 마이크 채널에서의 관찰을 설명한다. 세번째 항은 단지, 일 실시예에 따르면, 균일 분포인 상태에 관한 사전 확률(prior)이다.
수학식 13에서 계산된 관측치가 주어진 경우 상태의 우도는 2가지 가능한 응용을 갖는다. 첫째, 이는 잡음원(noise source)의 분산(variance)이 음성을 포함하지 않는 프레임으로부터 구해질 수 있도록 관측치(observation)를 음성을 포함하는 것으로 또는 음성을 포함하지 않는 것으로 분류하는 데 사용될 수 있는 음성-상태 분류자(speech-state classifier)를 구축하는 데 사용될 수 있다. 이는 또한 이하에서 더 설명하는 바와 같이 깨끗한 음성 신호를 추정할 때 "소프트" 가중치를 제공하는 데도 사용될 수 있다.
상기한 바와 같이, 상기 방정식들에서의 변수들 각각은 복소 스펙트럼 영역에서 특정의 주파수 성분에 대해 정의된다. 따라서, 수학식 13의 우도는 특정의 주파수 성분과 연관된 상태에 대한 것이다. 그렇지만, 각각의 프레임에 대해 단지 하나의 상태 변수가 있기 때문에, 프레임에 대한 상태의 우도는 다음과 같이 주파수 성분들에 걸쳐 우도를 총합(aggregate)함으로써 형성된다.
Figure 112007089242220-pct00025
여기서,
Figure 112007089242220-pct00026
은 수학식 13에 정의된 주파수 성분 f에 대한 우도이다. 이 곱은 DC 및 나이키스트 주파수를 제외한 모든 주파수 성분에 걸쳐 구해진다. 유의할 점은 우도 계산이 로그-우도 영역(log-likelihood domain)에서 수행되는 경우, 상기 방정식에서의 이 곱은 합산으로 대체된다.
상기의 우도는, 수학식 15의 우도비 테스트(likelihood ratio test)에 기초하여, 음성/비음성 분류자를 구축하는 데 사용될 수 있다.
Figure 112007089242220-pct00027
여기서, 비 r이 0보다 큰 경우 프레임이 음성을 포함하는 것으로 간주되고, 그렇지 않은 경우, 음성을 포함하지 않는 것으로 간주된다.
음성 상태의 우도를 사용하여, 깨끗한 음성 신호의 추정치가 형성될 수 있다. 일 실시예에 따르면, 이 추정치는 상기 수학식 6에 기초하여 수학식 16의 MMSE(minimum mean square estimate, 최소 평균 제곱 추정치)를 사용하여 형성된다.
Figure 112007089242220-pct00028
여기서,
Figure 112007089242220-pct00029
는 관측치가 주어진 경우 깨끗한 음성 신호의 기대값이고,
Figure 112007089242220-pct00030
는 관측치 및 음성 상태가 주어진 경우 깨끗한 음성 신호의 기대값이다.
수학식 7 및 수학식 9를 사용하여, 조건부 확률
Figure 112007089242220-pct00031
(이로부터 기대값
Figure 112007089242220-pct00032
이 계산될 수 있음)이 다음과 같이 구해진다.
Figure 112007089242220-pct00033
이것으로 수학식 18의 기대값이 얻어진다.
Figure 112007089242220-pct00034
여기서,
Figure 112007089242220-pct00035
Figure 112007089242220-pct00036
이고, M*은 M의 복소 공액이다.
따라서, 깨끗한 음성 신호 Xt의 MMSE 추정치는 다음과 같이 주어진다.
Figure 112007089242220-pct00037
여기서,
Figure 112007089242220-pct00038
는 상태에 관한 사후 확률(posterior)이고, 다음과 같이 주어진다.
Figure 112007089242220-pct00039
여기서, L(St=s)는 수학식 14에 의해 주어진다. 따라서, 깨끗한 음성 신호의 추정치는 부분적으로 특정의 음성 상태의 상대 우도(relative likelihood)에 기 초하고, 이 상대 우도는 깨끗한 음성 신호의 추정치에 대한 소프트 가중치(soft weight)를 제공한다.
상기 계산에서, H는 높은 정확도(strong precision)로 알고 있는 것으로 가정되었다. 그렇지만, 실제로는 H는 제한된 정확도로 알고 있을 뿐이다. 본 발명의 부가의 실시예에 따르면, H는 가우시안 확률 변수(Gaussian random variable)
Figure 112007089242220-pct00040
로 모델링된다. 이러한 실시예에 따르면, 상기 계산 모두는 모든 가능한 H 값에 걸쳐 과소 평가(marginalize)된다. 그렇지만, 이것은 수학을 어렵게 만든다. 일 실시예에 따르면, 이러한 어려움을 극복하기 위해 반복적 프로세스가 사용된다. 각각의 반복 동안에, H는 수학식 13 및 수학식 20에서 H0로 대체되고,
Figure 112007089242220-pct00041
Figure 112007089242220-pct00042
로 대체되며, 여기서
Figure 112007089242220-pct00043
는 이전의 반복으로부터 구해진 깨끗한 음성 신호의 추정치이다. 깨끗한 음성 신호는 이어서 수학식 21을 사용하여 추정된다. 깨끗한 음성 신호의 이 새로운 추정치는 이어서
Figure 112007089242220-pct00044
의 새로운 값으로 설정되고, 그 다음 반복이 수행된다. 이 반복은 깨끗한 음성 신호의 추정치가 안정될 때 끝난다.
도 6은 이상의 방정식들을 사용하여 깨끗한 음성 신호를 추정하는 방법을 제공한다. 단계(600)에서, 사용자가 말하지 않는 상황에서 여러 프레임의 입력 음성(input utterance)이 식별된다. 이들 프레임은 이어서 주변 잡음에 대한 분산
Figure 112007089242220-pct00045
, 대안의 센서 잡음에 대한 분산
Figure 112007089242220-pct00046
, 및 공기 전도 마이크 잡음에 대한 분산
Figure 112007089242220-pct00047
을 구하는 데 사용된다.
사용자가 말하지 않는 상황에서 프레임을 식별하기 위해, 대안의 센서 신호가 검사될 수 있다. 대안의 센서 신호가 잡음에 대해서보다 배경 음성(background speech)에 대해 훨씬 더 작은 신호값을 생성하기 때문에, 대안의 센서 신호의 에너지가 낮을 때, 처음에 화자가 말을 하고 있지 않은 것으로 가정될 수 있다. 음성을 포함하지 않는 프레임에 대한 공기 전도 마이크 신호 및 대안의 센서 신호의 값이 버퍼에 저장되고 다음과 같이 잡음의 분산을 계산하는 데 사용된다.
Figure 112007089242220-pct00048
Figure 112007089242220-pct00049
여기서, Nv는 분산을 형성하기 위해 사용되고 있는 음성에서의 잡음 프레임의 수이고, V는 사용자가 말하고 있지 않는 상황에서 잡음 프레임의 집합이며,
Figure 112007089242220-pct00050
은 누설(leakage)이 참작된 후의 대안의 센서 신호를 말하며, 다음과 같이 계산된다.
Figure 112007089242220-pct00051
이는 어떤 실시예들에서 다른 대안으로서 다음과 같이 계산된다.
Figure 112007089242220-pct00052
몇몇 실시예들에 따르면, 대안의 센서 신호에서 낮은 에너지 레벨에 기초하여 비음성 프레임을 식별하는 기술은 초기의 훈련 프레임 동안에만 수행된다. 초기값들이 잡음 분산을 구하기 위해 형성된 후에, 이들 값은, 수학식 15의 우도비(likelihood ratio)를 사용하여, 어느 프레임이 음성을 포함하고 어느 프레임이 음성을 포함하지 않는지를 판정하는 데 사용될 수 있다.
추정된 분산
Figure 112007089242220-pct00053
을 증가시키거나 감소시키는 데 사용될 수 있는 조정 파라미터(tuning parameter)인 g의 값은, 한 특정 실시예에 따르면, 1로 설정된다. 이것은 잡음 추정 절차를 완전히 신뢰함을 암시한다. 본 발명의 다른 실시예들에 따르면, 다른 g 값이 사용될 수 있다.
공기 전도 마이크에 대한 잡음의 분산
Figure 112007089242220-pct00054
은 공기 전도 마이크가 대안의 센서보다 센서 잡음에 덜 영향을 받는다는 관찰에 기초하여 추정된다. 그 자체로서, 공기 전도 마이크의 분산은 다음과 같이 계산될 수 있다.
Figure 112007089242220-pct00055
단계(602)에서, 음성 분산
Figure 112007089242220-pct00056
은 시간 평활화(temporal smoothing)를 갖는 잡음 억압 필터(noise suppression filter)를 사용하여 추정된다. 이 억압 필터는 스펙트럼 감산의 일반화이다. 구체적으로는, 음성 분산(speech variance)은 다음과 같이 계산된다.
Figure 112007089242220-pct00057
여기서,
Figure 112007089242220-pct00058
이고,
Figure 112007089242220-pct00059
여기서,
Figure 112007089242220-pct00060
는 선행 프레임으로부터의 깨끗한 음성 추정치이고,
Figure 112007089242220-pct00061
는 몇몇 실시예에서 0.2로 설정되는 평활화 인자(smoothing factor)이며,
Figure 112007089242220-pct00062
는 잡음 감소의 정도를 제어하고(
Figure 112007089242220-pct00063
>1인 경우, 음성 왜곡의 증가의 대가로 더 많은 잡음이 감소됨),
Figure 112007089242220-pct00064
는 최소 잡음 플로어(minimum noise floor)를 제공하고 지각된 잔류 음악 잡음(perceived residual musical noise)을 마스킹하기 위해 배경 잡음을 부가하는 수단을 제공한다. 몇몇 실시예들에 따르면,
Figure 112007089242220-pct00065
이고
Figure 112007089242220-pct00066
이다. 몇몇 실시 예들에서,
Figure 112007089242220-pct00067
는 순수 잡음 프레임에 대해 20 dB 잡음 감소를 위해 0.01로 설정된다.
따라서, 수학식 28에서, 분산은 선행 프레임의 추정된 깨끗한 음성 신호와 잡음 억압 필터
Figure 112007089242220-pct00068
에 의해 필터링된 공기 전도 마이크 신호의 에너지의 가중합으로 구해진다.
몇몇 실시예들에 따르면,
Figure 112007089242220-pct00069
는 신호대 잡음비 및 낮은 음성 에너지 대역에서보다 높은 음성 에너지 대역에 있는 동일한 양의 잡음이 지각(perception)에 더 작은 영향을 준다는 마스킹 원리(masking principle)에 따라 선택되고, 한 주파수에 높은 음성 에너지가 존재하는 것이 인접한 주파수 대역에서의 잡음의 지각을 감소시킨다. 이 실시예에 따르면,
Figure 112007089242220-pct00070
는 다음과 같이 선택된다.
Figure 112007089242220-pct00071
여기서 SNR은 데시벨(dB) 단위의 신호대 잡음비이고, B는 원하는 신호대 잡음비 레벨(이를 넘으면 잡음 감소가 수행되어서는 안됨)이며,
Figure 112007089242220-pct00072
는 0의 신호대 잡음비 값에서 제거되어야만 하는 잡음의 양이다. 몇몇 실시예에 따르면, B는 20dB로 설정된다.
수학식 32의 신호대 잡음비의 정의를 사용하면,
Figure 112007089242220-pct00073
수학식 29의 잡음 억압 필터는 다음과 같이 된다.
Figure 112007089242220-pct00074
이 잡음 억압 필터는 플러스 신호대 잡음비에 대해 약한 잡음 억압(weak noise suppression)을 제공하고 마이너스 신호대 잡음비에 대해 강한 잡음 억압(stronger noise suppression)을 제공한다. 실제로, 충분히 마이너스인 신호대 잡음비에 대해, 관측된 신호 및 잡음 모두가 제거되며, 존재하는 유일한 잡음은 수학식 33의 잡음 억압 필터의 "otherwise(그렇지 않은 경우)" 분기에 의해 다시 부가되는 잡음 플로어(noise floor)이다.
몇몇 실시예들에 따르면,
Figure 112007089242220-pct00075
는 서로 다른 주파수에 대해 서로 다른 양의 잡음이 제거되도록 주파수-의존적이 된다. 일 실시예에 따르면, 이 주파수 의존성은 수학식 34의 30Hz에서의
Figure 112007089242220-pct00076
와 8KHz에서의
Figure 112007089242220-pct00077
간의 선형 보간을 사용하여 형성된다.
Figure 112007089242220-pct00078
여기서, k는 주파수 성분의 수이고,
Figure 112007089242220-pct00079
는 30Hz에서 요망되는
Figure 112007089242220-pct00080
의 값이 며,
Figure 112007089242220-pct00081
는 8KHz에서 요망되는
Figure 112007089242220-pct00082
이고, 256개의 주파수 성분이 있는 것으로 가정된다.
단계(602)에서 음성 분산이 구해진 후에, 이 분산은 상기 수학식 13 및 수학식 14를 사용하여 단계(604)에서 각각의 음성 상태의 우도를 구하는 데 사용된다. 음성 상태의 우도는 이어서, 단계(606)에서, 현재 프레임에 대한 깨끗한 음성 추정치를 구하는 데 사용된다. 상기한 바와 같이, H를 표현하는 데 가우시안 분포가 사용되는 실시예들에서, 단계(604, 606)는 각각의 반복에서 깨끗한 음성 신호의 최신 추정치를 사용하여 또한 H에 대한 가우시안 모델을 수용하기 위해 상기 언급한 방정식들에 대한 변경을 사용하여 반복된다.
본 발명이 특정의 실시예들과 관련하여 기술되어 있지만, 당업자라면 본 발명의 정신 및 범위를 벗어나지 않고 형태 및 상세에 여러 변경이 행해질 수 있다는 것을 잘 알 것이다.

Claims (20)

  1. 잡음-감소된 음성 신호의 일부분을 표현하는 잡음-감소된 값에 대한 추정치를 구하는 방법으로서,
    대안의 센서를 사용하여 대안의 센서 신호를 발생시키는 단계;
    공기 전도 마이크 신호를 발생시키는 단계;
    상기 대안의 센서 신호 및 상기 공기 전도 마이크 신호를 사용하여 음성 상태 St의 우도(likelihood) L(St)를 추정하는 단계 - 상기 우도를 추정하는 단계는 주파수 성분 세트 중 각각에 대한 음성 상태의 개별 우도를 추정하고 상기 음성 상태의 우도를 형성하기 위하여 상기 개별 우도를 합성하는 것에 의함 -; 및
    상기 음성 상태의 우도를 사용하여 상기 잡음-감소된 값
    Figure 112012066103384-pct00089
    을 추정하는 단계
    를 포함하고,
    Figure 112012066103384-pct00090
    이며,
    Figure 112012066103384-pct00091
    는 상태에 관한 사후 확률(posterior)로서,
    Figure 112012066103384-pct00092
    이고,
    Figure 112012066103384-pct00093
    ,
    Figure 112012066103384-pct00094
    , 및
    Figure 112012066103384-pct00095
    이며,
    M*은 M의 복소 공액 값이고, Xt는 잡음-감소된 값이고, Yt는 공기 전도 마이크 신호의 프레임 t에 대한 값이고, Bt는 대안의 센서 신호의 프레임 t에 대한 값이고,
    Figure 112012066103384-pct00096
    는 공기 전도 마이크의 센서 잡음에 대한 분산이고,
    Figure 112012066103384-pct00097
    는 대안의 센서의 센서 잡음에 대한 분산이고, g2σv 2는 주변 잡음에 대한 분산이고, G는 주변 잡음에 대한 대안의 센서의 채널 응답이고, H는 깨끗한 음성 신호에 대한 대안의 센서의 채널 응답이며, S는 모든 음성 상태의 집합이며,
    Figure 112012066103384-pct00098
    는 주어진 음성 상태에 대한 잡음-감소된 값의 확률을 모델링한 분포(distribution)에 대한 분산이고,
    Figure 112012066103384-pct00099
    는 주어진 Yt, Bt, 및 음성 상태 s에 대한 Xt의 기대값을 의미하는, 방법.
  2. 제1항에 있어서, 음성 상태의 우도의 추정치를 사용하여 상기 공기 전도 마이크 신호의 프레임이 음성을 포함하는지를 판정하는 단계를 더 포함하는 방법.
  3. 제2항에 있어서, 음성을 포함하지 않는 것으로 판정되는 상기 공기 전도 마이크 신호의 프레임을 사용하여 잡음원(a noise source)에 대한 분산을 구하는 단계, 및
    상기 잡음원에 대한 분산을 사용하여 상기 잡음-감소된 값을 추정하는 단계를 더 포함하는 방법.
  4. 제1항에 있어서, 상기 분포의 분산을, 선행 프레임에 대한 잡음-감소된 값의 추정치와 현재 프레임에 대한 상기 공기 전도 마이크 신호의 필터링된 버전의 선형 합성(linear combination)으로서 추정하는 단계를 더 포함하는 방법.
  5. 제4항에 있어서, 상기 공기 전도 마이크 신호의 상기 필터링된 버전은 주파수 의존적인 필터를 사용하여 형성되는 방법.
  6. 제4항에 있어서, 상기 공기 전도 마이크 신호의 상기 필터링된 버전은 신호대 잡음비에 의존하는 필터를 사용하여 형성되는 방법.
  7. 제1항에 있어서, 상기 잡음-감소된 값의 추정치를 사용하여 상기 잡음-감소된 값의 새로운 추정치를 형성함으로써 반복을 수행하는 단계를 더 포함하는 방법.
  8. 컴퓨터 실행가능 명령어들을 포함하는 컴퓨터 판독가능 기록 매체로서,
    상기 컴퓨터 실행가능 명령어들은, 프로세서에 의해 실행될 때 상기 프로세서로 하여금 방법을 수행하도록 하며,
    상기 방법은,
    대안의 센서를 사용하여 생성된 대안의 센서 신호를 수신하는 단계;
    공기 전도 마이크를 사용하여 생성된 공기 전도 마이크 신호를 수신하는 단계;
    상기 대안의 센서 신호 및 공기 전도 마이크 신호에 기초하여 음성 상태의 우도를 판정하는 단계 - 상기 판정하는 단계는, 주파수 성분 세트 중 각각의 주파수에 대한 음성 상태의 개별 우도 L(St(f))를 추정하고 상기 음성 상태의 우도 L(St)를 형성하기 위하여 상기 개별 우도의 곱(product)을 형성하는 것에 의하며,
    Figure 112012066103384-pct00100
    이고, 상기 곱은 상기 주파수 성분 세트의 모든 주파수 성분(f)에 걸쳐 취해짐 -; 및
    상기 음성 상태의 우도를 사용하여 깨끗한 음성 값(clean speech value)을 추정하는 단계
    를 수행하도록 구성된 컴퓨터 판독가능 기록 매체.
  9. 제8항에 있어서, 상기 음성 상태의 우도를 사용하여 깨끗한 음성 값을 추정하는 단계는 기대값을 가중하는 단계를 포함하는, 컴퓨터 판독가능 기록 매체.
  10. 제8항에 있어서, 상기 음성 상태의 우도를 사용하여 깨끗한 음성 값을 추정하는 단계는,
    상기 음성 상태의 우도를 사용하여 한 프레임의 신호를 비음성 프레임으로서 식별하는 단계;
    상기 비음성 프레임을 사용하여 잡음에 대한 분산을 추정하는 단계; 및
    상기 잡음에 대한 분산을 사용하여 상기 깨끗한 음성 값을 추정하는 단계를 포함하는, 컴퓨터 판독가능 기록 매체.
  11. 깨끗한 음성 신호에 대한 깨끗한 음성 값을 식별하는 방법에 있어서,
    상기 방법은,
    대안의 센서를 사용하여 생성된 대안의 센서 신호를 수신하는 단계;
    공기 전도 마이크를 사용하여 생성된 공기 전도 마이크 신호를 수신하는 단계;
    상기 깨끗한 음성 신호는 음성 상태에 의존하고, 상기 대안의 센서 신호는 상기 깨끗한 음성 신호에 의존하고, 상기 공기 전도 마이크 신호는 상기 깨끗한 음성 신호에 의존하는 모델링을 형성하는 단계 - 상기 모델링을 형성하는 단계는 주어진 음성 상태에서 깨끗한 음성 신호의 값에 대한 확률을 분산을 포함하는 임의의 분포로서 모델링하는 것을 포함함 -;
    상기 공기 전도 마이크 신호의 현재 프레임에 대한 값을 주변 잡음의 분산에 대한 함수인 주파수-의존 잡음 억압 필터(a frequency-dependent noise suppression filter)에 적용하여 상기 공기 전도 마이크 신호의 필터링된 값을 결정하는 단계;
    상기 공기 전도 마이크 신호의 필터링된 값 및 선행 프레임의 깨끗한 음성 신호에 대한 값의 추정치의 선형 합성으로서 상기 분포의 상기 분산을 결정하는 단계 - 상기 분산을 결정하는 단계는,
    Figure 112012066103384-pct00101
    에 기초하고,
    Figure 112012066103384-pct00102
    는 상기 분포의 분산이고,
    Figure 112012066103384-pct00103
    는 상기 선행 프레임으로부터의 깨끗한 음성 추정치이고,
    Figure 112012066103384-pct00104
    는 평활화 인자(smoothing factor)이고,
    Figure 112012066103384-pct00105
    는 상기 공기 전도 마이크 신호의 현재 프레임에 대한 값이고,
    Figure 112012066103384-pct00106
    는 상기 잡음 억압 필터임 -; 및
    상기 모델링, 상기 분포의 분산, 상기 현재 프레임에 대한 상기 대안의 센서 신호의 값, 및 상기 현재 프레임에 대한 상기 공기 전도 마이크 신호의 값에 기초하여 상기 현재 프레임에 대한 깨끗한 음성값의 추정치를 결정하는 단계
    를 포함하는 방법.
  12. 제11항에 있어서, 상기 방법은 상태에 대한 우도를 결정하는 단계를 더 포함하고,
    상기 깨끗한 음성값의 추정치를 결정하는 단계는 상기 상태에 대한 상기 우도를 사용하는 것을 더 포함하는, 방법.
  13. 제11항에 있어서, 상기 모델링을 형성하는 단계는 상기 대안의 센서 신호 및 상기 공기 전도 마이크 신호가 잡음원에 의존하는 모델링을 형성하는 단계를 포함하는, 방법
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
KR1020077029014A 2005-06-28 2006-06-13 음성-상태 모델을 사용하는 다중-감각 음성 향상 KR101224755B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/168,770 US7680656B2 (en) 2005-06-28 2005-06-28 Multi-sensory speech enhancement using a speech-state model
US11/168,770 2005-06-28
PCT/US2006/022863 WO2007001821A2 (en) 2005-06-28 2006-06-13 Multi-sensory speech enhancement using a speech-state model

Publications (2)

Publication Number Publication Date
KR20080019222A KR20080019222A (ko) 2008-03-03
KR101224755B1 true KR101224755B1 (ko) 2013-01-21

Family

ID=37568662

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077029014A KR101224755B1 (ko) 2005-06-28 2006-06-13 음성-상태 모델을 사용하는 다중-감각 음성 향상

Country Status (11)

Country Link
US (1) US7680656B2 (ko)
EP (1) EP1891624B1 (ko)
JP (2) JP5000647B2 (ko)
KR (1) KR101224755B1 (ko)
CN (1) CN101606191B (ko)
AT (1) ATE508454T1 (ko)
BR (1) BRPI0612668A2 (ko)
DE (1) DE602006021741D1 (ko)
MX (1) MX2007015446A (ko)
RU (1) RU2420813C2 (ko)
WO (1) WO2007001821A2 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2621940C (en) * 2005-09-09 2014-07-29 Mcmaster University Method and device for binaural signal enhancement
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
US8364492B2 (en) * 2006-07-13 2013-01-29 Nec Corporation Apparatus, method and program for giving warning in connection with inputting of unvoiced speech
JP4940956B2 (ja) * 2007-01-10 2012-05-30 ヤマハ株式会社 音声伝送システム
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
KR101597752B1 (ko) * 2008-10-10 2016-02-24 삼성전자주식회사 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치
CN102411936B (zh) * 2010-11-25 2012-11-14 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
US10418047B2 (en) 2011-03-14 2019-09-17 Cochlear Limited Sound processing with increased noise suppression
US9589580B2 (en) 2011-03-14 2017-03-07 Cochlear Limited Sound processing based on a confidence measure
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
TWI502583B (zh) * 2013-04-11 2015-10-01 Wistron Corp 語音處理裝置和語音處理方法
US9928851B2 (en) * 2013-09-12 2018-03-27 Mediatek Inc. Voice verifying system and voice verifying method which can determine if voice signal is valid or not
US20150161999A1 (en) * 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
TWM492015U (zh) * 2014-07-30 2014-12-11 Wen-Tsung Sun 電子式助發聲裝置
CN105448303B (zh) * 2015-11-27 2020-02-04 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN107045874B (zh) * 2016-02-05 2021-03-02 深圳市潮流网络技术有限公司 一种基于相关性的非线性语音增强方法
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones
CN110265056B (zh) * 2019-06-11 2021-09-17 安克创新科技股份有限公司 音源的控制方法以及扬声设备、装置
CN114424581A (zh) 2019-09-12 2022-04-29 深圳市韶音科技有限公司 用于音频信号生成的系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010019603A (ko) * 1999-08-28 2001-03-15 윤종용 음성 향상 방법
US20040002858A1 (en) 2002-06-27 2004-01-01 Hagai Attias Microphone array signal enhancement using mixture models
JP2004102287A (ja) 2002-09-06 2004-04-02 Microsoft Corp 劣化信号から雑音を除去する非線形観測モデル
KR20050050534A (ko) * 2003-11-26 2005-05-31 마이크로소프트 코포레이션 복수-감지기형 음성 향상 방법 및 컴퓨터-판독가능 매체

Family Cites Families (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) * 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) * 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US3838466A (en) * 1973-01-26 1974-10-01 White S Non-fogging face shield
US4025721A (en) * 1976-05-04 1977-05-24 Biocommunications Research Corporation Method of and means for adaptively filtering near-stationary noise from speech
JPH0755167B2 (ja) * 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03108997A (ja) 1989-09-22 1991-05-09 Temuko Japan:Kk 骨伝導マイク
US5148488A (en) * 1989-11-17 1992-09-15 Nynex Corporation Method and filter for enhancing a noisy speech signal
JPH03160851A (ja) * 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) * 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) * 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
WO1993001664A1 (en) 1991-07-08 1993-01-21 Motorola, Inc. Remote voice control system
US5295193A (en) * 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
JPH05276587A (ja) 1992-03-30 1993-10-22 Retsutsu Corp:Kk イヤーマイクロフォン
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) * 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) * 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JP3082825B2 (ja) 1994-08-29 2000-08-28 日本電信電話株式会社 通信装置
EP0683621B1 (en) * 1994-05-18 2002-03-27 Nippon Telegraph And Telephone Corporation Transmitter-receiver having ear-piece type acoustic transducing part
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JP3488749B2 (ja) 1994-08-23 2004-01-19 株式会社ダッド・ジャパン 骨伝導型マイクロホン
JP3306784B2 (ja) 1994-09-05 2002-07-24 日本電信電話株式会社 骨導マイクロホン出力信号再生装置
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
US5692059A (en) * 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) * 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
KR960042590A (ko) * 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) * 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JPH09172479A (ja) * 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6243596B1 (en) * 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
JP3097901B2 (ja) 1996-06-28 2000-10-10 日本電信電話株式会社 通話装置
JP3095214B2 (ja) 1996-06-28 2000-10-03 日本電信電話株式会社 通話装置
US5943627A (en) * 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JPH10224253A (ja) * 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) * 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
JP3108997B2 (ja) 1997-03-31 2000-11-13 武田薬品工業株式会社 アゾール化合物、その製造法および用途
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) * 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) * 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
JPH1115191A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 静電荷像現像用トナー及びその製造方法
WO1999004500A1 (de) 1997-07-16 1999-01-28 Siemens Aktiengesellschaft Funktelefonhandgerät
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
DE69936476T2 (de) 1998-03-18 2007-11-08 Nippon Telegraph And Telephone Corp. Tragbares Kommunikationsgerät zur Eingabe von Befehlen durch Detektion der Fingeraufschläge oder Vibrationen der Fingerspitzen
JPH11265199A (ja) 1998-03-18 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 送話器
JP2000009688A (ja) 1998-04-22 2000-01-14 Tokyo Gas Co Ltd 一酸化炭素センサ
US6052464A (en) * 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) * 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) * 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
WO2000021194A1 (en) 1998-10-08 2000-04-13 Resound Corporation Dual-sensor voice transmission system
JP2000196723A (ja) 1998-12-25 2000-07-14 Koichi Tamura 筒状アンテナ、マイク
JP2000209688A (ja) 1999-01-19 2000-07-28 Temuko Japan:Kk 骨導マイク
US6760600B2 (en) * 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
US6408269B1 (en) * 1999-03-03 2002-06-18 Industrial Technology Research Institute Frame-based subband Kalman filtering method and apparatus for speech enhancement
JP2000261534A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 送受話器
JP2000261529A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
JP2000261530A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US6094492A (en) * 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6560468B1 (en) * 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US20020057810A1 (en) * 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6542721B2 (en) * 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6952483B2 (en) * 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
JP2000330597A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JP2000354284A (ja) 1999-06-10 2000-12-19 Iwatsu Electric Co Ltd 送受一体形電気音響変換器を用いる送受話装置
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
JP2001119797A (ja) 1999-10-15 2001-04-27 Phone Or Ltd 携帯電話装置
US6339706B1 (en) * 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6411933B1 (en) * 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
JP3576915B2 (ja) 2000-02-28 2004-10-13 株式会社ケンウッド 携帯電話装置
JP2001292489A (ja) 2000-04-10 2001-10-19 Kubota Corp 骨伝導マイク付きヘッドホン
GB2363557A (en) * 2000-06-16 2001-12-19 At & T Lab Cambridge Ltd Method of extracting a signal from a contaminated signal
JP3339579B2 (ja) * 2000-10-04 2002-10-28 株式会社鷹山 電話装置
JP2002125298A (ja) 2000-10-13 2002-04-26 Yamaha Corp マイク装置およびイヤホンマイク装置
US20020075306A1 (en) * 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
US7082393B2 (en) 2001-03-27 2006-07-25 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
WO2002098169A1 (en) 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP2002358089A (ja) 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
US6987986B2 (en) * 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US7054423B2 (en) * 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
JP3532544B2 (ja) * 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US6664713B2 (en) * 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
WO2003055270A1 (en) 2001-12-21 2003-07-03 Rti Tech Pte Ltd. Vibration-based talk-through method and apparatus
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
GB2390264B (en) 2002-06-24 2006-07-12 Samsung Electronics Co Ltd Usage position detection
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7225124B2 (en) * 2002-12-10 2007-05-29 International Business Machines Corporation Methods and apparatus for multiple source signal separation
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion
US20060008256A1 (en) * 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
EP1600947A3 (en) * 2004-05-26 2005-12-21 Honda Research Institute Europe GmbH Subtractive cancellation of harmonic noise
US8095073B2 (en) * 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7590529B2 (en) * 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010019603A (ko) * 1999-08-28 2001-03-15 윤종용 음성 향상 방법
US20040002858A1 (en) 2002-06-27 2004-01-01 Hagai Attias Microphone array signal enhancement using mixture models
JP2004102287A (ja) 2002-09-06 2004-04-02 Microsoft Corp 劣化信号から雑音を除去する非線形観測モデル
KR20050050534A (ko) * 2003-11-26 2005-05-31 마이크로소프트 코포레이션 복수-감지기형 음성 향상 방법 및 컴퓨터-판독가능 매체

Also Published As

Publication number Publication date
MX2007015446A (es) 2008-02-25
US7680656B2 (en) 2010-03-16
BRPI0612668A2 (pt) 2010-11-30
ATE508454T1 (de) 2011-05-15
EP1891624A2 (en) 2008-02-27
RU2007149546A (ru) 2009-07-10
US20060293887A1 (en) 2006-12-28
EP1891624B1 (en) 2011-05-04
KR20080019222A (ko) 2008-03-03
CN101606191B (zh) 2012-03-21
JP2009501940A (ja) 2009-01-22
EP1891624A4 (en) 2009-11-04
RU2420813C2 (ru) 2011-06-10
JP2012155339A (ja) 2012-08-16
JP5000647B2 (ja) 2012-08-15
CN101606191A (zh) 2009-12-16
WO2007001821A3 (en) 2009-04-30
JP5452655B2 (ja) 2014-03-26
WO2007001821A2 (en) 2007-01-04
DE602006021741D1 (de) 2011-06-16

Similar Documents

Publication Publication Date Title
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
KR101153093B1 (ko) 다감각 음성 향상을 위한 방법 및 장치
KR101099339B1 (ko) 복수-감지기형 음성 향상 방법 및 컴퓨터-판독가능 매체
EP2643834B1 (en) Device and method for producing an audio signal
KR101201146B1 (ko) 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법
JP4975025B2 (ja) クリーン音声の事前分布を使用した多感覚応用の音声強調
Cohen Speech enhancement using super-Gaussian speech models and noncausal a priori SNR estimation
JP6180553B2 (ja) 入力雑音混入信号を強調する方法およびシステム
JP2017506767A (ja) 話者辞書に基づく発話モデル化のためのシステムおよび方法
JP2004264816A (ja) 再帰的構成における反復ノイズ推定法
JP2012189907A (ja) 音声判別装置、音声判別方法および音声判別プログラム
JP4866958B2 (ja) コンソール上にファーフィールドマイクロフォンを有する電子装置におけるノイズ除去
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム
JP2005124026A (ja) 反響消去装置、方法、及び反響消去プログラム、そのプログラムを記録した記録媒体
JP2005124027A (ja) 反響消去装置、方法、及び反響消去プログラム、そのプログラムを記録した記録媒体
Kapse et al. Feature Extraction Techniques for Voice Operated PC Application

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151217

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161220

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171219

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181226

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20191217

Year of fee payment: 8