KR20080018163A - 깨끗한 음성 사전 확률을 이용한 멀티센서 음성 향상 - Google Patents
깨끗한 음성 사전 확률을 이용한 멀티센서 음성 향상 Download PDFInfo
- Publication number
- KR20080018163A KR20080018163A KR1020077026297A KR20077026297A KR20080018163A KR 20080018163 A KR20080018163 A KR 20080018163A KR 1020077026297 A KR1020077026297 A KR 1020077026297A KR 20077026297 A KR20077026297 A KR 20077026297A KR 20080018163 A KR20080018163 A KR 20080018163A
- Authority
- KR
- South Korea
- Prior art keywords
- variance
- determining
- prior probability
- air conduction
- signal
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000004044 response Effects 0.000 claims abstract description 29
- 239000006185 dispersion Substances 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 210000003625 skull Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
- Mobile Radio Communication Systems (AREA)
- Meter Arrangements (AREA)
- Time-Division Multiplex Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
본 발명의 방법 및 장치는 대안 센서 신호, 공기 전도 마이크로폰 신호를 사용하여 대안 센서를 위한 채널 응답을 결정한다. 다음, 채널 응답 및 깨끗한 음성 값을 위한 사전 확률 분포는 깨끗한 음성 값을 추정하는 데 사용된다.
대안 센서, 채널 응답, 사전 확률 분포, 깨끗한 음성
Description
음성 인식 및 음성 전송에 있어서의 일반적인 문제는 부가적인 잡음에 의한 음성 신호의 왜곡이다. 구체적으로, 다른 화자의 음성에 의한 왜곡은 검출 및/또는 교정하기 어려운 것으로 알려졌다.
최근, 골 전도 마이크로폰(bone conduction microphone), 및 공기 전도 마이크로폰(air conduction microphone)과 같은 대안적인 센서의 조합을 사용하여 잡음의 제거를 시도하는 시스템이 개발되었다. 이 시스템은 세 개의 훈련 채널(training channel) 즉, 잡음 대안 센서 훈련 신호(noisy alternative sensor training signal), 잡음 공기 전도 마이크로폰 훈련 신호(noisy air conduction microphone training signal), 및 깨끗한 공기 전도 마이크로폰 훈련 신호(clean air conduction microphone training signal)를 이용하여 훈련된다. 각각의 신호들은 특징 도메인(feature domain)으로 변환된다. 잡음 대안 센서 신호 및 잡음 공기 전도 마이크로폰 신호의 특징들은 잡음 신호를 나타내는 단일 벡터로 결합된다. 깨끗한 공기 전도 마이크로폰 신호의 특징들은 단일 깨끗한 벡터(single clean vector)를 형성한다. 다음, 이 벡터들은 잡음 벡터와 깨끗한 벡터 사이의 매핑을 훈련하는 데 사용된다. 일단 훈련되고 나면, 매핑들은 잡음 대안 센서 검 사 신호와 잡음 공기 전도 마이크로폰 검사 신호의 조합으로부터 형성된 잡음 벡터에 적용된다. 이 매핑은 깨끗한 신호 벡터를 생성한다.
매핑은 훈련 신호의 잡음 조건을 위해 설계되었기 때문에, 검사 신호의 잡음 조건들이 훈련 신호의 잡음 조건에 부합하지 않을 때 이 시스템은 최상의 효과를 내지 못한다.
본 발명의 방법 및 장치는 대안 센서 신호, 공기 전도 마이크로폰 신호를 사용하여 대안 센서를 위한 채널 응답을 결정한다. 다음으로, 채널 응답 및 깨끗한 음성 값(clean speech value)들을 위한 사전 확률 분포(prior probability distribution)가 깨끗한 음성 값을 추정하는 데 사용된다.
도 1은 본 발명의 실시예들이 실시될 수 있는 한 컴퓨팅 환경의 블록도이다.
도 2는 본 발명의 실시예들이 실시될 수 있는 대안적인 컴퓨팅 환경의 블록도이다.
도 3은 본 발명의 한 실시예의 일반적인 음성 처리 시스템의 블록도이다.
도 4는 본 발명의 한 실시예에 따라 음성을 향상시키기 위한 시스템의 블록도이다.
도 5는 본 발명의 한 실시예에 따라 음성을 향상시키기 위한 흐름도이다.
도 6은 본 발명의 또 다른 실시예에 따라 음성을 향상시키기 위한 흐름도이다.
도 1은 본 발명의 실시예들이 구현되기에 적합한 컴퓨팅 시스템 환경(100)의 일례를 도시하고 있다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 환경(100)이 예시적인 운영 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안된다.
본 발명은 많은 기타 범용 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성에서 동작할 수 있다. 본 발명에서 사용하는 데 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 개인용 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.
본 발명은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시되도록 설계된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 둘 다에 위치할 수 있다.
도 1과 관련하여, 본 발명을 구현하는 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함하지만 이에 제한되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standard Association) 로컬 버스, 그리고 메자닌 버스(Mezzanine bus)로도 알려진 PCI(Peripheral Component Interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다.
컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함하지만 이에 제한되는 것은 아니다. 상술된 매체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 영역 안에 포함되는 것으로 한다.
시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에, 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. RAM(132)은 통상적으로 처리 장치(120)가 즉시 액세스 할 수 있고 및/또는 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니다.
컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장매체를 포함할 수 있다. 단지 예로서, 도 1은 비이동식·비휘발성 자기 매체에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 포함한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
위에서 설명되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체는, 컴퓨터(110)를 위해, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터를 저장한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사본(copy)이라는 것을 나타내기 위한 것이다.
사용자는 키보드(162), 마이크로폰(163) 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시되지 않음)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190)와 같은 인터페이스를 통해 시스템 버스(121)에 접속될 수 있다. 모니터 외에, 컴퓨터는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(195)를 통해 접속될 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 개인용 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성 요소들의 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속으로는 LAN(171) 및 WAN(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.
도 2는 예시적인 컴퓨팅 환경인 휴대 장치(200)의 블록도이다. 휴대 장치(200)는 마이크로프로세서(202), 메모리(204), 입/출력(I/O) 컴포넌트(206), 및 원격 컴퓨터 또는 다른 휴대 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 한 실시예에서, 앞서 언급된 컴포넌트들은 서로 간의 통신을 위해 적합한 버스(210)를 통해 연결된다.
메모리(204)는 휴대 장치(200)의 주 전원(general power)이 차단되었을 때 메모리(204)에 저장된 정보가 손실되지 않도록 배터리 백업 모듈(도시되지 않음)을 가진 랜덤 액세스 메모리(RAM)와 같은 비휘발성 전자 메모리로 구현된다. 메모리(204)의 일부는 프로그램 실행을 위해 주소 지정 가능(addressable)한 메모리로 할당되는 것이 바람직하고, 한편 메모리(204)의 다른 부분은 디스크 드라이브의 저장소를 시뮬레이션하는 것과 같이 저장을 위해 사용되는 것이 바람직하다.
메모리(204)는 운영 체제(212), 애플리케이션 프로그램(214)뿐 아니라 객체 저장소(object store)(216)를 포함한다. 동작 중에, 운영 체제(212)는 메모리(204)로부터 프로세서(202)에 의해 실행되는 것이 바람직하다. 한 바람직한 실시예에서, 운영 체제(212)는 Microsoft Corporation으로부터 구입가능한 WINDOWS® CE 브랜드 운영 체제이다. 운영 체제(212)는 휴대 장치용으로 설계되는 것이 바람직하며, 노출된 애플리케이션 프로그래밍 인터페이스 및 메소드들의 집합을 통해 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 특징들을 구현한다. 객체 저장소(216) 내의 객체들은 적어도 부분적으로, 노출된 애플리케이션 프로그래밍 인터페이스 및 메소드들에 대한 호출의 응답으로 애플리케이션(214) 및 운영 체제(212)에 의해 유지된다.
통신 인터페이스(208)는 휴대 장치(200)로 하여금 정보를 송신하고 수신할 수 있게 하는 다수의 장치 및 기술들을 나타낸다. 몇몇을 열거하자면, 장치는 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너(broadcast tuner)를 포함한다. 휴대 장치(200)는 또한 데이터를 교환하도록 컴퓨터에 직접 연결될 수 있다. 이러한 경 우에, 통신 인터페이스(208)는 적외선 트랜시버(infrared transceiver) 또는 직렬 또는 병렬 통신 연결일 수 있으며, 이 모두는 스트리밍(streaming) 정보를 전송할 수 있다.
입/출력 컴포넌트(206)는 접촉식(touch-sensitive) 화면, 버튼, 롤러, 및 마이크로폰과 같은 각종 입력 장치뿐 아니라, 오디오 발생기, 진동 장치, 및 디스플레이를 포함하는 각종 출력 장치를 포함한다. 위에 열거된 장치들은 예시일 뿐이며, 이 모두가 휴대 장치(200)에 존재할 필요는 없다. 또한, 본 발명의 범위 내에서, 다른 입/출력 장치들이 휴대 장치(200)에 부착되거나 또는 휴대 장치(200)와 함께 발견될 수 있다.
도 3은 본 발명의 실시예에 대한 기본 블록도를 제공한다. 도 3에서, 화자(speaker)(300)는 공기 전도 마이크로폰(304)과 대안 센서(306)에 의해 검출되는 음성 신호(302, X)를 발생시킨다. 대안 센서의 예로는 사용자의 성대 진동을 측정하는 스로트 마이크(throat microphone), 사용자의 안면 또는 두개골(턱뼈와 같은) 위 또는 그에 인접한 곳 또는 사용자의 귀 속에 위치하여 사용자가 발생시킨 음성에 대응하는 두개골 및 턱의 진동을 감지하는 골 전도 센서가 포함된다. 공기 전도 마이크로폰(304)은 오디오 전파(audio airwave)를 전기적 신호로 변환하는 데 흔히 사용되는 마이크로폰의 유형이다.
공기 전도 마이크로폰(304)은 또한 하나 이상의 잡음 소스(310)에 의해 발생된 주변 잡음(308, Z)을 수신한다. 주변 잡음의 유형과 주변 잡음의 수준에 따라, 주변 잡음(308)은 대안 센서(306)에 의해 검출될 수도 있다. 그러나, 본 발명의 실시예들에서, 대안 센서(306)는 통상적으로 공기 전도 마이크로폰(304)보다 주변 잡음에 대해 덜 민감하다. 따라서, 대안 센서(306)에 의해 발생된 대안 센서 신호(316, B)는 일반적으로 공기 전도 마이크로폰(304)에 의해 발생된 공기 전도 마이크로폰 신호(318, Y)보다 잡음을 덜 포함한다. 대안 센서(306)가 주변 잡음에 대해 덜 민감하기는 하지만, 대안 센서(306)도 약간의 센서 잡음(320, W)을 발생시킨다.
화자(300)로부터 대안 센서 신호(316)로의 경로는 채널 응답(H)을 가지고 있는 채널로서 모델링될 수 있다. 주변 잡음(308)으로부터 대안 센서 신호(316)로의 경로는 채널 응답(G)을 가지고 있는 채널로서 모델링될 수 있다.
대안 센서 신호(316, B) 및 공기 전도 마이크로폰 신호(318, Y)는 깨끗한 신호(324)를 추정하는 깨끗한 신호 추정기(clean signal estimator)(322)에 제공된다. 깨끗한 신호 추정치(324)는 음성 처리(328)에 제공된다. 깨끗한 신호 추정치(324)는 필터링된 시간 영역(time-domain) 신호 또는 푸리에 변환 벡터(Fourier Transform vector)일 수 있다. 만약 깨끗한 신호 추정치(324)가 시간 영역 신호라면, 음성 처리(328)는 청취자(listener), 음성 코딩 시스템, 또는 음성 인식 시스템의 형태를 가질 수 있다. 만약 깨끗한 신호 추정치(324)가 푸리에 변환 벡터라면, 음성 처리(328)는 통상적으로 음성 인식 시스템이거나, 또는 푸리에 변환 벡터를 파형으로 변환하기 위해 역 푸리에 변환(Inverse Fourier Transform)을 포함한다.
다이렉트 필터링 향상(322)에서, 대안 센서 신호(316) 및 마이크로폰 신 호(318)는 깨끗한 음성을 추정하기 위해 사용되는 주파수 영역으로 변환된다. 도 4에 도시된 것과 같이, 대안 센서 신호(316) 및 공기 전도 마이크로폰 신호(318)는 각각 아날로그-투-디지털 컨버터(404 및 414)에 제공되어, 프레임 생성자(406 및 416)에 의해 값들의 프레임(frames of values)으로 분류되는 디지털 값들의 시퀀스를 각각 생성한다. 한 실시예에서, A/D 컨버터(404 및 414)는 아날로그 신호들을 샘플당 16 비트 및 16 kHz로 샘플링함으로써 초당 32 킬로바이트의 음성을 생성하며, 프레임 생성자(406 및 416)는 각각 10 밀리초당 20 밀리초 상당의 데이터를 포함하는 새로운 프레임을 생성한다.
프레임 생성자(406 및 416)에 의해 제공된 각각의 프레임은 고속 푸리에 변환(Fast Fourier Transform, FFT)(408 및 418)을 이용하여 각각 주파수 영역으로 변환된다.
대안 센서 신호 및 공기 전도 마이크로폰 신호의 주파수 영역 값들은 주파수 영역 값들을 사용하여 깨끗한 음성 신호(324)를 추정하는 깨끗한 신호 추정기(420)에 제공된다.
몇몇 실시예들에서, 깨끗한 음성 신호(324)는 역 고속 푸리에 변환(422)을 이용하여 다시 시간 영역으로 변환된다. 이것은 깨끗한 음성 신호(324)의 시간 영역 버전을 생성한다.
본 발명의 실시예들은 깨끗한 음성 신호(324)를 추정하기 위한 다이렉트 필터링 기술들을 제공한다. 다이렉트 필터링에서, 대안 센서(306)를 위한 채널 응답의 최대 우도 추정치(maximum likelihood estimate)는 채널 응답(들)과 관련된 함 수를 최소화함으로써 결정된다. 다음, 이 추정치들은 깨끗한 음성 신호와 관련된 함수를 최소화함으로써, 깨끗한 음성 신호의 최대 우도 추정치를 결정하는 데 사용된다.
본 발명의 한 실시예에서, 대안 센서에 의해 검출되는 배경 음성에 대응되는 채널 응답 G는 0인 것으로 간주된다. 이에 의해, 깨끗한 음성 신호 및 공기 전도 마이크로폰 신호 및 대안 센서 신호 사이의 모델은
로 되며, 여기서 y(t)는 공기 전도 마이크로폰 신호, b(t)는 대안 센서 신호, x(t)는 깨끗한 음성 신호, z(t)는 주변 잡음, w(t)는 대안 센서 잡음, 그리고 h(t)는 대안 센서와 관련된 깨끗한 음성 신호에 대한 채널 응답이다. 따라서, 수학식 2에서, 대안 센서 신호는 깨끗한 음성의 필터링된 버전으로서 모델링되며, 여기서 필터는 h(t)의 임펄스 응답을 갖는다.
주파수 영역에서, 수학식 1 및 2는
로 표현될 수 있으며, 여기서 표식 Yt(k)는 시간 t를 중심으로 하는 신호의 프레임의 k번째 주파수 성분을 나타낸다. 이 표식은 Xt(k), Zt(k), Ht(k), Wt(k), 및 Bt(k)에 적용된다. 아래의 논의에서, 주파수 성분 k에 대한 참조는 명확성을 위해 생략된다. 하지만, 본 기술분야의 숙련된 자들은 아래에 수행되는 계산들은 주파수 성분마다 수행됨을 이해할 것이다.
이 실시예에서, 잡음 Zt와 Wt의 실수 및 허수 부분들은 독립적인 영평균 가우시안(zero-mean Gaussian)으로서 모델링되어,
이고, 여기서 σz 2은 잡음 Zt의 분산(variance)이고, σw 2은 잡음 Wt의 분산이다.
Ht 또한 가우시안으로서 모델링되어,
이고, 여기서 H0는 채널 응답의 평균이고, σH 2은 채널 응답의 분산이다.
이 모델 매개변수들이 주어졌을 때, 깨끗한 음성 값 Xt와 채널 응답 값 Ht의 확률은 조건부 확률:
에 의해 기술되고, 이것은
에 비례하며, 이것은
과 동일하다.
한 실시예에서, 채널 응답의 사전 확률(prior probability) p(Ht│H0,σH 2)은 무시되고, 남아있는 각 확률들은 가우스 분포로 간주되며, 여기서 깨끗한 음성의 사전 확률 p(Xt)는 분산 σ2 x,t을 가진 영평균 가우시안으로 간주되어,
이 성립한다.
이 간소화 및 수학식 10을 이용하여, t에서 프레임에 대한 Xt의 최대 우도 추정치는
를 최소화함으로써 결정된다.
이 주어지고, 여기서 Ht *는 Ht의 켤레 복소수(complex conjugate)를 나타내고 │Ht│는 복소수 값 Ht의 크기를 나타낸다.
채널 응답 Ht는
를 최소화함으로써, 전체 발성으로부터 추정된다. 수학식 13에서 계산된 Xt의 표현을 수학식 14에 대입하고, 편도함수 으로 설정하고, H가 전체 시간 프레임 T에 걸쳐 상수라고 가정하면
라는 H에 대한 해답이 주어진다.
수학식 15에서, H값에 대한 추정은 마지막 T 프레임들에 대해 여러 번의 합을 계산할 것을 요구하는데, 그 형태는
으로, 여기서 st는 (σz 2│Bt│2-σw 2│Yt│2 ) 또는 Bt *Yt이다.
이 식에서, 첫 프레임(t = 1)은 마지막 프레임(t = T) 만큼 중요하다. 하지 만, 다른 실시예들에서는 가장 늦은 프레임이 선행 프레임들보다 H값의 추정에 더 많이 기여하는 것이 바람직하다. 이것을 만족시키기 위한 한 기술은 "지수함수적 에이징(exponential aging)"으로 여기서 수학식 16의 합산은
로 치환되고, 여기서 c≤1이다. 만약 c = 1이면 수학식 17은 수학식 16과 동일하다. 만약 c < 1이면 마지막 프레임은 1로써 가중되고, 마지막 프레임 전의 프레임은 c로 가중되며(즉, 이것은 마지막 프레임보다 덜 기여함), 첫 프레임은 cT -1 로 가중된다(즉, 이것은 마지막 프레임보다 훨씬 덜 기여함). 예를 들어보도록 하자. c = 0.99이고 T = 100이라 하면, 첫 프레임의 가중값은 0.9999 = 0.37밖에 되지 않는다.
한 실시예에서, 수학식 17은
로서 순환적으로 추정된다.
수학식 18이 자동으로 오래된 데이터에 가중을 덜 주기 때문에, 고정된 윈도 길이(window length)가 사용될 필요가 없고, 마지막 T 프레임들의 데이터는 메모리 에 저장될 필요가 없다. 대신, 선행 프레임에서 S(T-1)에 대한 값만 저장될 필요가 있다.
수학식 18을 이용하여, 수학식 15는
가 되며, 여기서
이다.
수학식 20 및 21에서의 c 값은 J(T) 및 K(T)의 현재 값을 계산하는 데 사용되는 다수의 지난 프레임들을 위한 유효 길이(effective length)를 제공한다. 구체적으로, 유효 길이는
로 주어진다.
점근적 유효 길이(asymptotic effective length)는
으로 주어지고, 또는 동등하게
로 주어진다.
따라서, 수학식 24를 이용하여, 수학식 19에서 다른 유효 길이들을 얻도록 c가 설정될 수 있다. 예를 들어, 200 프레임의 유효 길이를 얻기 위해 c는
로 설정된다.
수학식 15를 이용하여 H가 추정되고 나면, 이것은 수학식 13의 모든 Ht 대신 사용되어 각 시간 프레임 t에서 Xt의 개별 값을 결정하는 데 사용될 수 있다. 다른 방법으로, 수학식 19는 각 시간 프레임 t에서 Ht를 추정하는 데 사용될 수 있다. 다음, 각 프레임에서의 Ht 값은 Xt를 결정하기 위해 수학식 13에 사용된다.
도 5는 발성에 대한 깨끗한 음성 값을 추정하기 위해 수학식 13 및 15를 이용하는 본 발명의 방법의 흐름도를 제공한다.
단계(500)에서, 공기 전도 마이크로폰 신호 및 대안 센서 신호의 프레임들의 주파수 성분들이 전체 발성에 걸쳐 수집된다.
단계(502)에서, 주변 잡음 σz 2 및 대안 센서 잡음 σw 2 을 위한 분산이 각각 공기 전도 마이크로폰 신호 및 대안 센서 신호의 프레임들로부터 결정되는데, 이 신호들은 발성의 초기에서 화자가 말하고 있지 않은 기간 동안 수집된 것이다.
대안 센서 잡음의 에너지는 대안 센서 신호에 의해 수집된 음성 신호보다 훨씬 작으므로, 본 방법은, 대안 센서 신호의 낮은 에너지 부분들을 식별함으로써 화자가 언제 말하고 있지 않은지를 결정한다. 다른 실시예에서, 화자가 언제 말하고 있는지를 식별하기 위해, 공지된 음성 검출 기술들이 공기 전도 음성 신호에 적용될 수 있다. 화자가 말하고 있지 않은 것으로 생각되는 기간 동안, Xt는 0인 것으로 간주되고 공기 전도 마이크로폰 또는 대안 센서로부터의 모든 신호는 잡음인 것으로 간주된다. 이 잡음 값의 샘플들은 무음성(non-speech)의 프레임들로부터 수집되고, 공기 전도 신호 및 대안 센서 신호 내의 잡음의 분산을 추정하는 데 사용된다.
단계(504)에서, 깨끗한 음성 사전 확률 분포의 분산 σ2 x,t가 결정된다. 한 실시예에서, 이 분산은
으로 계산되며, 여기서 │Yd│2은 공기 전도 마이크로폰 신호의 에너지이고, 합산은 현재 음성 프레임 이전의 k개의 음성 프레임과 현재 음성 프레임 이후의 m개의 음성 프레임을 포함하는 음성 프레임의 집합에 대해 수행된다. 분산 σ2 x,t이 음의 값 또는 0의 값을 갖는 것을 피하기 위해, 본 발명의 몇몇 실시예들은 (.01·σv 2)을 σx,t 2의 가능한 최소값으로 사용한다.
대안적인 실시예에서, 음성의 선행 프레임 내의 깨끗한 음성 신호의 분산에만 의존하여
평활화 기법(smoothing technique)을 사용함으로써 실시간 구현이 실현되고, 여기서 σ2 x,t-1은 음성을 포함했던 마지막 프레임의 깨끗한 음성 사전 확률 분포의 분산, p는 0부터 1 사이의 범위를 갖는 평활화 계수(smoothing factor), α는 작은 상수이고, max(│Yd│2-σv 2,α│Yd│2)는 σ2 x,t이 양의 값을 갖는 것을 보장하 기 위해│Yd│2-σv 2과 α│Yd│2중 더 큰 값이 선택된다는 것을 나타낸다. 한 특정한 실시예에서, 평활화 계수는 .08의 값을 갖고, α= 0.01이다.
단계(506)에서, 발성의 모든 프레임에 걸친 대안 센서 신호 및 공기 전도 마이크로폰 신호를 위한 값들이 위의 수학식 15를 이용하여 H의 값을 결정하기 위해 사용된다. 단계(508)에서 이 H의 값은 위의 수학식 13을 이용하여 각 시간 프레임을 위한 향상된 또는 잡음-감소된 음성 값을 결정하기 위해 각 시간 프레임에서 공기 전도 마이크로폰 신호 및 대안 센서 신호의 개별 값들과 함께 사용된다.
다른 실시예에서, 수학식 15를 사용하여 H의 단일 값을 결정하기 위해 발성의 모든 프레임을 사용하는 대신에, 수학식 19를 사용하여 각 프레임에 대한 Ht가 결정된다. 다음, Ht의 값은 위의 수학식 13을 사용하여 프레임의 Xt값을 계산하는 데 사용된다.
본 발명의 제2 실시예에서, 대안 센서의 주변 잡음에 대한 채널 응답은 0이 아닌 것으로 간주된다. 이 실시예에서, 공기 전도 마이크로폰 신호 및 대안 센서 신호는
로 모델링되며, 여기서 주변 잡음에 대한 대안 센서 채널 응답은 0이 아닌 값의 Gt(k)이다.
깨끗한 음성 Xt의 최대 우도는 깨끗한 음성의 식
으로부터 얻어지는 목적 함수(objective function)를 최소화함으로써 찾을 수 있다.
수학식 30을 풀기 위해, 분산 σ2 x,t, σw 2, 및 σz 2 뿐 아니라 채널 응답 값 H 및 G를 알아야 한다. 도 6은 이 값들을 식별하고 각 프레임을 위해 향상된 음성 값들을 결정하기 위한 흐름도를 제공한다.
단계(600)에서, 사용자가 말하고 있지 않은 발성의 프레임들이 식별된다. 다음, 이 프레임들은 대안 센서 및 주변 잡음을 위한 분산 σw 2 및 σz 2 을 각각 결정하기 위해 사용된다.
사용자가 말하고 있지 않은 프레임을 식별하기 위해 대안 센서 신호를 검사할 수 있다. 대안 센서 신호는 잡음보다 배경 음성에 대해 훨씬 작은 신호 값들을 생성할 것이기 때문에, 대안 센서 신호의 에너지가 낮다면 화자가 말하고 있지 않다고 추정할 수 있다.
주변 잡음 및 대안 센서 신호를 위한 분산들이 결정되고 난 후, 도 6의 방법은 단계(602)로 계속되고, 여기서 위의 수학식 26 또는 27을 사용하여 깨끗한 음성 사전 확률의 분산 σ2 x,t을 결정한다. 위에 논의된 바와 같이, 음성을 포함하는 프레임들만이 깨끗한 음성 사전 확률의 분산을 결정하는 데 사용된다.
단계(604)에서, 사용자가 말하고 있지 않은 것으로 식별된 프레임들은 주변 잡음에 대한 대안 센서의 채널 응답 G를 추정하는 데 사용된다. 구체적으로 G는
로 결정된다.
여기서 D는 사용자가 말하고 있지 않은 프레임들의 수이다. 수학식 31에서, 발성의 모든 프레임에 걸쳐 G가 일정하다고 가정되며, 따라서 더 이상 시간 프레임 t에 좌우되지 않는다. 이 수학식 31에서, t에 대한 합산은 수학식 16-25와 관련하여 위에 논의된 지수함수적 감소 계산(exponential decay calculation)으로 대체될 수 있다.
단계(606)에서, 대안 센서의 배경 음성에 대한 채널 응답 G의 값은 대안 센서의 깨끗한 음성 신호에 대한 채널 응답을 결정하는 데 사용된다. 구체적으로, H는
로 계산된다.
수학식 32에서, T에 대한 합산은 수학식 16-25와 관련하여 위에서 논의된 순환적 지수함수적 감소 계산으로 대체될 수 있다.
단계(606)에서 H가 결정되고 난 후, 모든 프레임에 대한 깨끗한 음성 값을 결정하기 위해 수학식 30이 사용될 수 있다. 수학식 30을 사용함에 있어서, 몇몇 실시예에서는, 배경 음성과 그것의 대안 센서로의 누설 사이의 위상차를 정확하게 결정하는 것이 어렵다는 것이 알려졌기 때문에 Bt-GYt항이 으로 대체된다.
순환적 지수함수적 감소 계산이 수학식 32의 합산 대신 사용되면, 각 시간 프레임에 대해 개별 Ht 값이 결정될 수 있고, 수학식 30에서 H로 사용될 수 있다.
본 발명이 특정 실시예들을 참조하여 설명되었지만, 본 분야의 숙련된 자들은 형태 및 세부 사항들에 대한 변경들이 본 발명의 정신 및 범위를 벗어나지 않으면서 만들어질 수 있음을 이해할 것이다.
Claims (20)
- 잡음-감소된(noise-reduced) 음성 신호의 일부를 나타내는 잡음-감소된 값에 대한 추정치를 결정하기 위한 방법으로서,공기 전도 마이크로폰 외의 대안 센서를 사용하여 대안 센서 신호를 발생시키는 단계,공기 전도 마이크로폰 신호를 발생시키는 단계,상기 대안 센서 신호의 채널 응답을 위한 값을 추정하기 위해 상기 대안 센서 신호 및 상기 공기 전도 마이크로폰 신호를 사용하는 단계, 및잡음-감소된 값을 추정하기 위해 상기 채널 응답 및 상기 잡음-감소된 값의 사전 확률(prior probability)을 사용하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 잡음-감소된 값의 상기 사전 확률은 분산에 의해 정의된 분포를 갖는 방법.
- 제2항에 있어서,상기 공기 전도 마이크로폰 신호에 기반하여 상기 분포의 분산을 결정하는 단계를 더 포함하는 방법.
- 제3항에 있어서,상기 공기 전도 마이크로폰 신호에 기반하여 상기 분산을 결정하는 단계는 상기 공기 전도 마이크로폰 신호의 프레임들에 대해 에너지 값들의 합을 형성하는 단계를 포함하는 방법.
- 제4항에 있어서,상기 공기 전도 마이크로폰 신호의 상기 프레임들은 모두 음성(speech)을 포함하는 방법.
- 제3항에 있어서,상기 분포의 상기 분산을 결정하는 단계는 주변 잡음의 분산에 기반하여 상기 분산을 결정하는 단계를 더 포함하는 방법.
- 제6항에 있어서,상기 분포의 상기 분산을 결정하는 단계는, 상기 잡음-감소된 음성 신호의 선행 프레임(preceding frame)과 관련된 분포의 분산 및 상기 공기 전도 마이크로폰 신호의 현재 프레임에 기반하는 상기 잡음-감소된 음성 신호의 현재 프레임과 관련된 분산을 결정하는 단계를 더 포함하는 방법.
- 제7항에 있어서,상기 분포의 상기 분산을 결정하는 단계는 상기 분산이 항상 어떤 최소값보다 크도록 상기 분산의 상기 값들을 제한하는 단계를 더 포함하는 방법.
- 제8항에 있어서,상기 최소값은 상기 주변 잡음의 상기 분산의 백분율인 방법.
- 단계들을 수행하기 위한 컴퓨터 실행가능 명령어를 가진 컴퓨터 판독가능 매체로서,상기 단계들은,대안 센서 신호 및 공기 전도 마이크로폰 신호를 사용하여 대안 센서를 위한 채널 응답을 결정하는 단계, 및깨끗한 음성 값을 추정하기 위해 상기 채널 응답 및 깨끗한 음성 값을 위한 사전 확률 분포를 사용하는 단계를 포함하는 컴퓨터 판독가능 매체.
- 제10항에 있어서,상기 사전 확률 분포를 사용하는 단계는 상기 사전 확률 분포를 위한 분산을 사용하는 단계를 포함하는 컴퓨터 판독가능 매체.
- 제11항에 있어서,상기 단계들은 상기 공기 전도 마이크로폰 신호에 기반하여 상기 사전 확률 분포를 위한 상기 분산을 결정하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
- 제12항에 있어서,상기 사전 확률 분포를 위한 상기 분산을 결정하는 단계는 주변 잡음의 분포에 기반하여 상기 사전 확률 분포를 위한 상기 분산을 결정하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
- 제13항에 있어서,상기 공기 전도 마이크로폰 신호에 기반하여 상기 사전 확률 분포를 위한 상기 분산을 결정하는 단계는 상기 공기 전도 마이크로폰 신호의 프레임들에 대해 에너지 값들의 합을 형성하는 단계를 포함하는 컴퓨터 판독가능 매체.
- 제13항에 있어서,상기 사전 확률 분포를 위한 상기 분산을 결정하는 단계는 선행하는 깨끗한 음성 값과 관련된 사전 확률 분포를 위한 분산에 기반하여, 현재 깨끗한 음성 값과 관련된 상기 사전 확률 분포를 위한 분산을 결정하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
- 제15항에 있어서,상기 사전 확률분포의 상기 분산을 결정하는 단계는, 선행하는 깨끗한 음성 값과 관련된 사전 확률 분포를 위한 분산, 및 상기 공기 전도 마이크로폰 신호의 프레임의 에너지와 주변 잡음의 분포의 분산 간의 차이의 가중된 합을 취하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
- 제12항에 있어서,상기 사전 확률 분포의 상기 분산을 결정하는 단계는 상기 사전 확률 분포의 상기 분산을 위한 최소값을 설정하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
- 제17항에 있어서,상기 분산을 위한 상기 최소값은 주변 잡음의 분포를 위한 분산의 함수인 컴퓨터 판독가능 매체.
- 깨끗한 음성 신호를 위한 깨끗한 음성 값을 식별하는 방법으로서,주변 잡음에 대한 대안 센서의 채널 응답을 결정하는 단계, 및깨끗한 음성 값을 결정하기 위해 상기 채널 응답 및 깨끗한 음성 값을 위한 사전 확률 분포를 사용하는 단계를 포함하는 방법.
- 제19항에 있어서,상기 사전 확률 분포의 매개변수는 공기 전도 마이크로폰 신호의 값으로부터 결정되는 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/156,434 | 2005-06-20 | ||
US11/156,434 US7346504B2 (en) | 2005-06-20 | 2005-06-20 | Multi-sensory speech enhancement using a clean speech prior |
PCT/US2006/022058 WO2007001768A2 (en) | 2005-06-20 | 2006-06-06 | Multi-sensory speech enhancement using a clean speech prior |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080018163A true KR20080018163A (ko) | 2008-02-27 |
KR101422844B1 KR101422844B1 (ko) | 2014-07-30 |
Family
ID=37574502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077026297A KR101422844B1 (ko) | 2005-06-20 | 2006-06-06 | 깨끗한 음성 사전 확률을 이용한 멀티센서 음성 향상 |
Country Status (14)
Country | Link |
---|---|
US (1) | US7346504B2 (ko) |
EP (1) | EP1891627B1 (ko) |
JP (1) | JP4975025B2 (ko) |
KR (1) | KR101422844B1 (ko) |
CN (1) | CN101199006B (ko) |
AT (1) | ATE476734T1 (ko) |
AU (1) | AU2006262706B2 (ko) |
BR (1) | BRPI0611649B1 (ko) |
CA (1) | CA2607981C (ko) |
DE (1) | DE602006015954D1 (ko) |
MX (1) | MX2007014562A (ko) |
NO (1) | NO339834B1 (ko) |
RU (1) | RU2407074C2 (ko) |
WO (1) | WO2007001768A2 (ko) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7115093B2 (en) | 2001-11-21 | 2006-10-03 | Ge Medical Systems Global Technology Company, Llc | Method and system for PDA-based ultrasound system |
US7914468B2 (en) * | 2004-09-22 | 2011-03-29 | Svip 4 Llc | Systems and methods for monitoring and modifying behavior |
US9767817B2 (en) * | 2008-05-14 | 2017-09-19 | Sony Corporation | Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking |
KR101581883B1 (ko) * | 2009-04-30 | 2016-01-11 | 삼성전자주식회사 | 모션 정보를 이용하는 음성 검출 장치 및 방법 |
JP5911796B2 (ja) * | 2009-04-30 | 2016-04-27 | サムスン エレクトロニクス カンパニー リミテッド | マルチモーダル情報を用いるユーザ意図推論装置及び方法 |
CN102340719B (zh) * | 2010-07-19 | 2014-07-23 | 深圳市宇恒互动科技开发有限公司 | 一种基于传感器获取声音信号的方法及装置 |
EP2458586A1 (en) * | 2010-11-24 | 2012-05-30 | Koninklijke Philips Electronics N.V. | System and method for producing an audio signal |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
US9094749B2 (en) | 2012-07-25 | 2015-07-28 | Nokia Technologies Oy | Head-mounted sound capture device |
CN103871419B (zh) * | 2012-12-11 | 2017-05-24 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN103208291A (zh) * | 2013-03-08 | 2013-07-17 | 华南理工大学 | 一种可用于强噪声环境的语音增强方法及装置 |
CN105611061A (zh) * | 2015-12-31 | 2016-05-25 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音传输的方法、装置及移动终端 |
CN110931031A (zh) * | 2019-10-09 | 2020-03-27 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
Family Cites Families (98)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US629278A (en) * | 1898-07-23 | 1899-07-18 | Stickerei Feldmuehle | Shuttle for embroidering-machines. |
US636176A (en) * | 1899-01-10 | 1899-10-31 | Theodore Mundorff | Eyeglass-case. |
US785768A (en) * | 1904-06-27 | 1905-03-28 | Charles B Sippel | Collar-button. |
US3383466A (en) | 1964-05-28 | 1968-05-14 | Navy Usa | Nonacoustic measures in automatic speech recognition |
US3746789A (en) * | 1971-10-20 | 1973-07-17 | E Alcivar | Tissue conduction microphone utilized to activate a voice operated switch |
US3787641A (en) * | 1972-06-05 | 1974-01-22 | Setcom Corp | Bone conduction microphone assembly |
US4382164A (en) * | 1980-01-25 | 1983-05-03 | Bell Telephone Laboratories, Incorporated | Signal stretcher for envelope generator |
JPS62239231A (ja) * | 1986-04-10 | 1987-10-20 | Kiyarii Rabo:Kk | 口唇画像入力による音声認識方法 |
JPH0755167B2 (ja) * | 1988-09-21 | 1995-06-14 | 松下電器産業株式会社 | 移動体 |
JPH03160851A (ja) * | 1989-11-20 | 1991-07-10 | Fujitsu Ltd | 携帯電話機 |
US5054079A (en) * | 1990-01-25 | 1991-10-01 | Stanton Magnetics, Inc. | Bone conduction microphone with mounting means |
US5404577A (en) * | 1990-07-13 | 1995-04-04 | Cairns & Brother Inc. | Combination head-protective helmet & communications system |
US5295193A (en) * | 1992-01-22 | 1994-03-15 | Hiroshi Ono | Device for picking up bone-conducted sound in external auditory meatus and communication device using the same |
US5590241A (en) * | 1993-04-30 | 1996-12-31 | Motorola Inc. | Speech processing system and method for enhancing a speech signal in a noisy environment |
US5446789A (en) * | 1993-11-10 | 1995-08-29 | International Business Machines Corporation | Electronic device having antenna for receiving soundwaves |
AU684872B2 (en) * | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
US5828768A (en) * | 1994-05-11 | 1998-10-27 | Noise Cancellation Technologies, Inc. | Multimedia personal computer with active noise reduction and piezo speakers |
US5933506A (en) * | 1994-05-18 | 1999-08-03 | Nippon Telegraph And Telephone Corporation | Transmitter-receiver having ear-piece type acoustic transducing part |
JPH08186654A (ja) | 1994-12-22 | 1996-07-16 | Internatl Business Mach Corp <Ibm> | 携帯端末装置 |
US5701390A (en) | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
US5692059A (en) * | 1995-02-24 | 1997-11-25 | Kruger; Frederick M. | Two active element in-the-ear microphone system |
US5555449A (en) * | 1995-03-07 | 1996-09-10 | Ericsson Inc. | Extendible antenna and microphone for portable communication unit |
US5651074A (en) | 1995-05-11 | 1997-07-22 | Lucent Technologies Inc. | Noise canceling gradient microphone assembly |
KR960042590A (ko) * | 1995-05-23 | 1996-12-21 | 김광호 | 테이프 재생용 음량기기에서의 발음비교방법 |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
US5647834A (en) | 1995-06-30 | 1997-07-15 | Ron; Samuel | Speech-based biofeedback method and system |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JPH09172479A (ja) * | 1995-12-20 | 1997-06-30 | Yokoi Kikaku:Kk | 送受話器およびそれを用いた通話装置 |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US6243596B1 (en) * | 1996-04-10 | 2001-06-05 | Lextron Systems, Inc. | Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet |
US5943627A (en) * | 1996-09-12 | 1999-08-24 | Kim; Seong-Soo | Mobile cellular phone |
JPH10261910A (ja) * | 1997-01-16 | 1998-09-29 | Sony Corp | 携帯無線装置およびアンテナ装置 |
JP2874679B2 (ja) * | 1997-01-29 | 1999-03-24 | 日本電気株式会社 | 雑音消去方法及びその装置 |
JPH10224253A (ja) * | 1997-02-10 | 1998-08-21 | Sony Corp | 携帯通信機 |
US6308062B1 (en) * | 1997-03-06 | 2001-10-23 | Ericsson Business Networks Ab | Wireless telephony system enabling access to PC based functionalities |
FR2761800A1 (fr) | 1997-04-02 | 1998-10-09 | Scanera Sc | Dispositif de transmission de voix et telephone le mettant en oeuvre |
US5983073A (en) * | 1997-04-04 | 1999-11-09 | Ditzik; Richard J. | Modular notebook and PDA computer systems for personal computing and wireless communications |
US6175633B1 (en) * | 1997-04-09 | 2001-01-16 | Cavcom, Inc. | Radio communications apparatus with attenuating ear pieces for high noise environments |
US6151397A (en) * | 1997-05-16 | 2000-11-21 | Motorola, Inc. | Method and system for reducing undesired signals in a communication environment |
US6434239B1 (en) * | 1997-10-03 | 2002-08-13 | Deluca Michael Joseph | Anti-sound beam method and apparatus |
JPH11249692A (ja) | 1998-02-27 | 1999-09-17 | Nec Saitama Ltd | 音声認識装置 |
US6912287B1 (en) | 1998-03-18 | 2005-06-28 | Nippon Telegraph And Telephone Corporation | Wearable communication device |
CA2332833A1 (en) * | 1998-05-19 | 1999-11-25 | Spectrx, Inc. | Apparatus and method for determining tissue characteristics |
US6717991B1 (en) * | 1998-05-27 | 2004-04-06 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for dual microphone signal noise reduction using spectral subtraction |
US6052464A (en) * | 1998-05-29 | 2000-04-18 | Motorola, Inc. | Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad |
US6137883A (en) * | 1998-05-30 | 2000-10-24 | Motorola, Inc. | Telephone set having a microphone for receiving an acoustic signal via keypad |
JP3160714B2 (ja) * | 1998-07-08 | 2001-04-25 | 株式会社シコー技研 | 携帯無線通信機 |
US6292674B1 (en) * | 1998-08-05 | 2001-09-18 | Ericsson, Inc. | One-handed control for wireless telephone |
JP3893763B2 (ja) | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
JP2000066691A (ja) * | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
US6760600B2 (en) * | 1999-01-27 | 2004-07-06 | Gateway, Inc. | Portable communication apparatus |
DE19917169A1 (de) | 1999-04-16 | 2000-11-02 | Kamecke Keller Orla | Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten |
US6738485B1 (en) * | 1999-05-10 | 2004-05-18 | Peter V. Boesen | Apparatus, method and system for ultra short range communication |
US6952483B2 (en) * | 1999-05-10 | 2005-10-04 | Genisus Systems, Inc. | Voice transmission apparatus with UWB |
US6560468B1 (en) * | 1999-05-10 | 2003-05-06 | Peter V. Boesen | Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions |
US20020057810A1 (en) * | 1999-05-10 | 2002-05-16 | Boesen Peter V. | Computer and voice communication unit with handsfree device |
US6542721B2 (en) * | 1999-10-11 | 2003-04-01 | Peter V. Boesen | Cellular telephone, personal digital assistant and pager unit |
US6094492A (en) * | 1999-05-10 | 2000-07-25 | Boesen; Peter V. | Bone conduction voice transmission apparatus and system |
US6258734B1 (en) * | 1999-07-16 | 2001-07-10 | Vanguard International Semiconductor Corporation | Method for patterning semiconductor devices on a silicon substrate using oxynitride film |
US6594629B1 (en) | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6339706B1 (en) * | 1999-11-12 | 2002-01-15 | Telefonaktiebolaget L M Ericsson (Publ) | Wireless voice-activated remote control device |
US6603823B1 (en) * | 1999-11-12 | 2003-08-05 | Intel Corporation | Channel estimator |
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
US6411933B1 (en) * | 1999-11-22 | 2002-06-25 | International Business Machines Corporation | Methods and apparatus for correlating biometric attributes and biometric attribute production features |
GB2357400A (en) * | 1999-12-17 | 2001-06-20 | Nokia Mobile Phones Ltd | Controlling a terminal of a communication system |
US20030179888A1 (en) * | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
JP3339579B2 (ja) * | 2000-10-04 | 2002-10-28 | 株式会社鷹山 | 電話装置 |
KR100394840B1 (ko) * | 2000-11-30 | 2003-08-19 | 한국과학기술원 | 독립 성분 분석을 이용한 능동 잡음 제거방법 |
US6853850B2 (en) * | 2000-12-04 | 2005-02-08 | Mobigence, Inc. | Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors |
US20020075306A1 (en) * | 2000-12-18 | 2002-06-20 | Christopher Thompson | Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers |
US6985858B2 (en) | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
GB2375276B (en) | 2001-05-03 | 2003-05-28 | Motorola Inc | Method and system of sound processing |
WO2002098169A1 (en) * | 2001-05-30 | 2002-12-05 | Aliphcom | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
US6701390B2 (en) * | 2001-06-06 | 2004-03-02 | Koninklijke Philips Electronics N.V. | FIFO buffer that can read and/or write multiple and/or selectable number of data words per bus cycle |
US6987986B2 (en) * | 2001-06-21 | 2006-01-17 | Boesen Peter V | Cellular telephone, personal digital assistant with dual lines for simultaneous uses |
US7054423B2 (en) * | 2001-09-24 | 2006-05-30 | Nebiker Robert M | Multi-media communication downloading |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
US6952482B2 (en) * | 2001-10-02 | 2005-10-04 | Siemens Corporation Research, Inc. | Method and apparatus for noise filtering |
JP3532544B2 (ja) * | 2001-10-30 | 2004-05-31 | 株式会社テムコジャパン | 面体又は帽体のストラップ装着用送受話装置 |
US7162415B2 (en) * | 2001-11-06 | 2007-01-09 | The Regents Of The University Of California | Ultra-narrow bandwidth voice coding |
US6707921B2 (en) * | 2001-11-26 | 2004-03-16 | Hewlett-Packard Development Company, Lp. | Use of mouth position and mouth movement to filter noise from speech in a hearing aid |
DE10158583A1 (de) * | 2001-11-29 | 2003-06-12 | Philips Intellectual Property | Verfahren zum Betrieb eines Barge-In-Dialogsystems |
US6664713B2 (en) * | 2001-12-04 | 2003-12-16 | Peter V. Boesen | Single chip device for voice communications |
US7219062B2 (en) * | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
US9374451B2 (en) | 2002-02-04 | 2016-06-21 | Nokia Technologies Oy | System and method for multimodal short-cuts to digital services |
US7117148B2 (en) * | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
US7190797B1 (en) * | 2002-06-18 | 2007-03-13 | Plantronics, Inc. | Headset with foldable noise canceling and omnidirectional dual-mode boom |
US7047047B2 (en) * | 2002-09-06 | 2006-05-16 | Microsoft Corporation | Non-linear observation model for removing noise from corrupted signals |
US7092529B2 (en) * | 2002-11-01 | 2006-08-15 | Nanyang Technological University | Adaptive control system for noise cancellation |
TW200425763A (en) * | 2003-01-30 | 2004-11-16 | Aliphcom Inc | Acoustic vibration sensor |
US7593851B2 (en) * | 2003-03-21 | 2009-09-22 | Intel Corporation | Precision piecewise polynomial approximation for Ephraim-Malah filter |
US20060008256A1 (en) * | 2003-10-01 | 2006-01-12 | Khedouri Robert K | Audio visual player apparatus and system and method of content distribution using the same |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7499686B2 (en) | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US8095073B2 (en) * | 2004-06-22 | 2012-01-10 | Sony Ericsson Mobile Communications Ab | Method and apparatus for improved mobile station and hearing aid compatibility |
US7574008B2 (en) * | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7283850B2 (en) * | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
-
2005
- 2005-06-20 US US11/156,434 patent/US7346504B2/en active Active
-
2006
- 2006-06-06 WO PCT/US2006/022058 patent/WO2007001768A2/en active Application Filing
- 2006-06-06 CA CA2607981A patent/CA2607981C/en active Active
- 2006-06-06 AT AT06772389T patent/ATE476734T1/de not_active IP Right Cessation
- 2006-06-06 AU AU2006262706A patent/AU2006262706B2/en active Active
- 2006-06-06 EP EP06772389A patent/EP1891627B1/en active Active
- 2006-06-06 MX MX2007014562A patent/MX2007014562A/es active IP Right Grant
- 2006-06-06 KR KR1020077026297A patent/KR101422844B1/ko active IP Right Grant
- 2006-06-06 RU RU2007147463/09A patent/RU2407074C2/ru active
- 2006-06-06 DE DE602006015954T patent/DE602006015954D1/de active Active
- 2006-06-06 JP JP2008518201A patent/JP4975025B2/ja active Active
- 2006-06-06 CN CN2006800195287A patent/CN101199006B/zh active Active
- 2006-06-06 BR BRPI0611649-3A patent/BRPI0611649B1/pt active Search and Examination
-
2007
- 2007-11-09 NO NO20075732A patent/NO339834B1/no unknown
Also Published As
Publication number | Publication date |
---|---|
US20060287852A1 (en) | 2006-12-21 |
ATE476734T1 (de) | 2010-08-15 |
RU2407074C2 (ru) | 2010-12-20 |
WO2007001768A3 (en) | 2007-12-13 |
EP1891627B1 (en) | 2010-08-04 |
KR101422844B1 (ko) | 2014-07-30 |
CN101199006B (zh) | 2011-08-24 |
JP4975025B2 (ja) | 2012-07-11 |
BRPI0611649A2 (pt) | 2010-09-28 |
CN101199006A (zh) | 2008-06-11 |
CA2607981C (en) | 2014-08-19 |
RU2007147463A (ru) | 2009-06-27 |
DE602006015954D1 (de) | 2010-09-16 |
NO339834B1 (no) | 2017-02-06 |
EP1891627A2 (en) | 2008-02-27 |
WO2007001768A2 (en) | 2007-01-04 |
AU2006262706B2 (en) | 2010-11-25 |
MX2007014562A (es) | 2008-01-16 |
BRPI0611649B1 (pt) | 2019-09-24 |
JP2008544328A (ja) | 2008-12-04 |
EP1891627A4 (en) | 2009-07-22 |
AU2006262706A1 (en) | 2007-01-04 |
US7346504B2 (en) | 2008-03-18 |
NO20075732L (no) | 2008-03-17 |
CA2607981A1 (en) | 2007-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101153093B1 (ko) | 다감각 음성 향상을 위한 방법 및 장치 | |
KR101422844B1 (ko) | 깨끗한 음성 사전 확률을 이용한 멀티센서 음성 향상 | |
KR101224755B1 (ko) | 음성-상태 모델을 사용하는 다중-감각 음성 향상 | |
RU2373584C2 (ru) | Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков | |
CN108615535B (zh) | 语音增强方法、装置、智能语音设备和计算机设备 | |
RU2376722C2 (ru) | Способ многосенсорного улучшения речи на мобильном ручном устройстве и мобильное ручное устройство | |
KR101201146B1 (ko) | 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법 | |
JP2006215549A (ja) | 複数感知の音声強調の際に代替センサ信号によるノイズ破損を低減するための方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application | ||
J201 | Request for trial against refusal decision | ||
J301 | Trial decision |
Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20130326 |
|
S901 | Examination by remand of revocation | ||
GRNO | Decision to grant (after opposition) | ||
FPAY | Annual fee payment |
Payment date: 20170616 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190617 Year of fee payment: 6 |