KR20220062578A - 상황 인식 음성 명료도 증대 - Google Patents

상황 인식 음성 명료도 증대 Download PDF

Info

Publication number
KR20220062578A
KR20220062578A KR1020227011770A KR20227011770A KR20220062578A KR 20220062578 A KR20220062578 A KR 20220062578A KR 1020227011770 A KR1020227011770 A KR 1020227011770A KR 20227011770 A KR20227011770 A KR 20227011770A KR 20220062578 A KR20220062578 A KR 20220062578A
Authority
KR
South Korea
Prior art keywords
speech
signal
noise
microphone
passband
Prior art date
Application number
KR1020227011770A
Other languages
English (en)
Inventor
대경 노
파벨 추바레브
샤오유 구오
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20220062578A publication Critical patent/KR20220062578A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

방법은, 마이크로폰으로 환경에서의 잡음을 검출하여 잡음 신호를 생성하는 단계; 라우드스피커를 통해 상기 환경으로 재생될 음성 신호를 수신하는 단계; 상기 마이크로폰의 마이크로폰 전달 함수에 기초하여 상기 잡음 신호의 다중대역 보정을 수행하여, 보정된 잡음 신호를 생성하는 단계; 상기 라우드스피커의 라우드스피커 전달 함수에 기초하여 상기 음성 신호의 다중대역 보정을 수행하여 보정된 음성 신호를 생성하는 단계; 및 상기 보정된 잡음 신호 및 상기 보정된 음성 신호에 기초하여 다중대역 음성 명료도 결과들을 계산하는 단계를 포함한다.

Description

상황 인식 음성 명료도 증대
우선권 주장
본 출원은, 그 전체가 인용에 의해 본 명세서에 포함된, 2019년 9월 11일자로 출원된 미국 가출원 제62/898,977호의 우선권을 주장한다.
기술 분야
본 개시는 음성 명료도 처리(voice intelligibility processing)에 관한 것이다.
인공 지능(Artificial Intelligence, AI) 스피커, 휴대폰, 원격 회의, 사물 인터넷(Internet of Things, loT) 디바이스 등과 같은 음성 재생 디바이스는 높은 레벨의 배경 잡음을 포함하는 음향 환경에서 종종 사용된다. 음성 재생 디바이스에 의해 재생되는 음성은 배경 잡음에 가려질 수 있고 그 결과 음성 명료도가 저하될 수 있다. 음성 명료도를 증가시키기 위한 많은 기법들이 사용 가능하다. 그 기법 중 일부는 또한 잡음 캡처 디바이스를 사용하여 시끄러운 환경에서 음성의 명료도를 증대(enhance)시킨다. 그러나, 그 기법들은 재생 디바이스의 물리적 한계, 잡음 캡처 디바이스의 물리적 한계, 음성 명료도 처리를 위한 신호 헤드룸, 및 장기 음성 특성과 같은 구현 특정 한계와 연관된 실제적인 난제들을 명시하고 해결하지 않는다.
도 1은 음성 명료도 처리에 관한 실시예들이 구현될 수 있는 예시적인 시스템의 하이레벨 블록도이다.
도 2는 도 1의 시스템에서 구현되는 예시적인 음성 명료도 처리기(voice intelligibility processor, VIP) 및 연관된 음성 및 잡음 처리의 블록도이다.
도 3은 발성 명료도 인덱스(Speech Intelligibility Index, SII)의 대역 중요도 함수에 대한 예시 플롯을 보여준다.
도 4는 2개의 상이한 라우드스피커(loudspeaker)에 대한 예시적인 라우드스피커 주파수 응답들을 보여준다.
도 5는 예시적인 이상적인 마이크로폰 주파수 응답 및 예시적인 이상적인 라우드스피커 주파수 응답의 주파수 플롯, 및 2개의 주파수 응답 간의 상호 관계들에 기초하여 결정된 다양한 주파수 분석 범위들이다.
도 6은 음성 신호의 짧은 세그먼트 및 그것의 대응하는 주파수 스펙트럼의 플롯들을 보여준다.
도 7은 음성 신호의 다른 짧은 세그먼트 및 그것의 대응하는 주파수 스펙트럼의 플롯들을 보여준다.
도 8은 음성 신호의 긴 세그먼트 및 그것의 대응하는 주파수 스펙트럼의 플롯들을 보여준다.
도 9는 VIP의 음성 증대기의 일부의 하이레벨 블록/신호 흐름도이다.
도 10은 VIP에 의해 수행되는 다중대역 음성 명료도 분석(multiband voice intelligibility analysis)/처리 및 음성 명료도 증대의 예시적인 방법의 흐름도이다.
예시적인 실시예들
전술한 난제들과 관심사들을 해결하면 처리되지 않은 음성으로부터 처리된 음성으로의 자연스러운 전환의 최적의 성능을 달성할 수 있다. 따라서, 본 명세서에서 제시된 실시예들은 시끄러운 환경에서 음성 명료도를 증가시키고, 본 명세서에서 기술된 실제적인 난제들을 극복하는 음성 명료도 분석을 위한 새로운 특징들 및 개선들을 도입한다. 실시예들은 (1) 다중대역 음성 및 잡음 보정과 결합된 디지털-음향 레벨 변환(digital-to-acoustic level conversion), (2) 짧은 세그먼트 음성 명료도 분석, (3) 긴 세그먼트에 대한 음성 및 잡음 프로파일링, 및 (4) 전역 및 대역별 이득 분석(per-band gain analysis)을 포함하지만, 이에 제한되지는 않는다. 실시예들에서 수행된 분석의 결과들은, 광대역 및 주파수별 대역 양쪽 모두에서, 재생을 위한 음성 신호에 대한 상대적 이득 조정 파라미터들을 생성하기 때문에, 실시예들에서의 처리는 특정 오디오 신호 처리에 제한되지 않고, 압축기, 확장기, 및 포먼트 증대와 같은 알려진 동적 처리의 임의의 조합을 포함할 수 있다.
본 명세서에서 사용되는, 용어들: "발성(speech)", "음성(voice)" 및 "음성/발성"은 동의어이고 교환 가능하게 사용될 수 있고; "프레임", "세그먼트" 및 "시간 세그먼트"는 동의어이고 교환 가능하게 사용될 수 있고; "발성(또는 음성) 명료도"와 "명료도"는 동의어이고 교환 가능하게 사용될 수 있고; "빈(bin)" 및 "대역(band)"은 동의어이고 교환 가능하게 사용될 수 있고; "대역폭(bandwidth, BW)" 및 "통과대역(passband)"은 동의어이고 교환 가능하게 사용될 수 있다.
도 1은 본 명세서에서 제시된 실시예들이 구현될 수 있는 예시적인 시스템(100)이다. 시스템(100)은 일 예이고 많은 변형이 가능하다. 그러한 변형들은 오디오 컴포넌트들을 생략하거나 추가할 수 있다. 시스템(100)은, 도시되지 않은, 원격 통신 디바이스와의 음성 통신, 예를 들어, 음성 통화들을 지원하는 음성 통신 디바이스를 나타낼 수 있다. 시스템(100)은 또한 통신 디바이스와 결합된 멀티미디어 재생 디바이스를 나타낼 수 있다. 시스템(100)의 비제한적인 예들은 전화기(예를 들어, 휴대폰, 스마트폰, 보이스-오버(voice-over)-인터넷 프로토콜(Internet Protocol, IP)(VoIP) 전화기 등), 컴퓨터(예를 들어, 테이블톱 컴퓨터, 랩톱, 태블릿 등), 음성 통신 디바이스를 갖춘 홈 시어터 사운드 시스템을 포함한다.
시스템(100)은 음향 환경, 예를 들어, 방, 개방 공간 등에 배치된다. 시스템(100)은 서로 결합된 음성 전송 경로, 음성 재생 경로, 및 미디어 재생 경로를 포함한다. 음성 전송은 서로 결합된 음성/잡음 캡처 디바이스(간단히 "잡음 캡처 디바이스"라고도 지칭됨)를 나타내는 마이크로폰(104), 음향 반향 제거기(106), 및 잡음 전처리기(108)를 포함한다. 마이크로폰(104)은 음향 환경에서의 사운드를 그 사운드를 나타내는 사운드 신호로 변환한다. 사운드 신호는 음향 환경에서의 배경 잡음(간단히 "잡음"이라고 지칭됨)을 나타내고 화자로부터의 음성을 나타낼 수도 있다. 음향 반향 제거기(106) 및 잡음 전처리기(108)(총칭하여 "전처리기")는 각각 반향을 제거하고 사운드 신호에서의 잡음을 저감시키고, 처리된 사운드 신호(예를 들어, 처리된 음성)를, 예를 들어, 원격 스테이션에서의 재생을 위해 전송한다.
음성 재생 경로는 음성 명료도 처리기(VIP)(120), 시스템 볼륨 컨트롤(122), 및 라우드스피커(124)(보다 일반적으로는, 재생 디바이스)를 포함한다. 음성 재생 경로에서, VIP(120)는 라우드스피커(124)를 통해 재생될 음성 신호(즉, 음성 재생 신호)를 수신한다. 예를 들어, 음성 신호는 재생을 위해 위에서 언급된 원격 통신 디바이스(예를 들어, 원격 휴대폰)로부터 시스템(100)으로 전송되었을 수 있다. 또한, VIP(120)는 음향 환경에서의 잡음을 나타내는 잡음 신호를 마이크로폰(104)으로부터 수신한다. VIP(120)에 의해 수신된 잡음 신호는, VIP의 자체 활성화를 피하기 위해, 음향 반향 제거기(106)에 의해 생성된 반향 제거된 잡음 신호일 수 있다. 본 명세서에서 제시된 실시예들에 따르면, VIP(120)는 음성 신호의 명료도를 증대시키도록 동시에 잡음 신호(예를 들어, 마이크로폰(104)에 의해 감지된 잡음)와 함께 재생을 위한 음성 신호를 처리하여 명료도 증대된 음성 신호를 생성한다. VIP(120)는 라우드스피커에 의한 음향 환경으로의 재생을 위해 (시스템 볼륨 컨트롤(122)을 통해) 라우드스피커(124)에 명료도 증대된 음성 신호를 제공한다.
미디어 재생 경로는 오디오 후처리기(130), 시스템 볼륨 컨트롤(122), 및 라우드스피커(124)를 포함한다. 오디오 후처리기(130)는 (시스템 볼륨 컨트롤(122)을 통해) 라우드스피커(124)에 의한 재생을 위해 미디어 신호를 처리한다. 시스템(100)은 또한 음성 재생 또는 미디어 재생을 선택적으로 라우드스피커(124)로 지향시키는 스위치(140)를 포함할 수 있다.
시스템(100)은 또한 마이크로폰(104) 및 라우드스피커(124)에 결합된 컨트롤러(150)를 포함한다. 컨트롤러(150)는, 예를 들어, 음향 반향 제거기(106), 잡음 전처리기(108), VIP(120), 오디오 후처리기(130), 스위치(140), 및 시스템 볼륨 컨트롤(122)을 구현하도록 구성될 수 있다. 컨트롤러(150)는 프로세서(150a) 및 메모리(150b)를 포함한다. 프로세서(150a)는, 예를 들어, 메모리(150b)에 저장된 소프트웨어 명령어들을 실행하도록 구성된 마이크로컨트롤러 또는 마이크로프로세서를 포함할 수 있다. 메모리(150b)는 판독 전용 메모리(read only memory, ROM), 랜덤 액세스 메모리(random access memory, RAM), 또는 다른 물리적/유형(예를 들어, 비일시적) 메모리 저장 디바이스를 포함할 수 있다. 따라서, 일반적으로, 메모리(150b)는 컴퓨터 실행가능 명령어들을 포함하는 소프트웨어로 인코딩된 하나 이상의 컴퓨터 판독가능 저장 매체(예를 들어, 메모리 디바이스)를 포함할 수 있고 소프트웨어가 (프로세서(150a)에 의해) 실행될 때 그것은 본 명세서에서 기술된 동작들을 수행하도록 동작 가능하다. 예를 들어, 메모리(150b)는 제어 로직이 VIP(120)(예를 들어, 도 2 내지 도 9와 관련하여 아래에서 기술되는 VIP의 모듈들) 및 위에서 기술된 시스템(100)의 다른 모듈을 구현하고, 시스템(100)의 전반적인 제어를 수행하기 위한 명령어들을 저장하거나 그러한 명령어들로 인코딩되어 있다.
메모리(150b)는 또한 제어 로직에 의해 사용 및 생성되는 본 명세서에서 기술된 정보/데이터(150c)를 저장한다.
도 2는 실시예에 따른, VIP(120), 및 VIP에 의해 수행되는 처리의 예시적인 하이레벨 블록도이다. VIP는 음성 증대기(204)에 결합된 음성 및 잡음 분석기(202)를 포함한다. 음성 및 잡음 분석기(202)는 마이크로폰(104)으로부터 잡음 신호를 수신한다. 음성 및 잡음 분석기(202)는 또한 재생을 위한 음성 신호를 수신한다. 예에서, 잡음 신호 및 음성 신호는 시간 도메인 신호들이고, 다른 형식들도 가능하지만, 각각 펄스 코드 변조(pulse code modulation, PCM) 형식일 수 있다. 음성 및 잡음 분석기(202)는 잡음 신호와 음성 신호를 동시에 분석/처리하여, 다중대역 음성 명료도 결과들(205)을 생성하고, 이를 음성 증대기(204)에 제공한다. 음성 증대기(204)는 음성 신호의 명료도를 증대 또는 증가시키도록 다중대역 음성 명료도 결과들(205)에 기초하여 음성 신호를 처리하여, 명료도 증대된 음성 신호를 생성한다. 명료도 증대된 음성 신호는 시스템 볼륨 컨트롤(122) 및 라우드스피커(124)를 통해 재생된다.
음성 및 잡음 분석기(202)는 잡음 보정 경로(206), 음성 보정 경로(208), 이 2개의 보정 경로의 다음에 오는 음성 명료도 계산기(210), 및 음성 명료도 계산기(210)의 다음에 오는 이득 결정기(212)를 포함한다. 잡음 보정 경로(206)는 잡음 디지털-음향 레벨 변환기(digital-to-acoustic level converter, DALC)(222) 및 잡음 DALC의 다음에 오는 다중대역 잡음 보정기(224)를 포함한다. 음성 보정 경로(208)는 음성 DALC(226) 및 음성 DALC의 다음에 오는 다중대역 음성 보정기(228)를 포함한다. 음성 명료도 계산기(210)는 짧은 세그먼트 분석기(230), 긴 세그먼트 분석기(232), 및 무음/일시 정지 검출기(234)를 포함한다. 잡음 보정 경로(206)는 마이크로폰(104)을 특징짓거나 그와 연관된 미리 측정된 및/또는 도출된 잡음 픽업 디바이스 파라미터들(240)(예를 들어, 알려진 마이크로폰 파라미터들)을 수신한다. 음성 보정 경로(208)는 라우드스피커(124)를 특징짓거나 그와 연관된 미리 측정된 및/또는 도출된 재생 디바이스 파라미터들(242)(예를 들어, 알려진 라우드스피커 파라미터들)을 수신한다.
하이레벨에서, 잡음 보정 경로(206)는 잡음 픽업 디바이스 파라미터들(240)에 기초하여 잡음 신호에 다중대역 잡음 보정을 적용한다. 구체적으로, 잡음 픽업 디바이스 파라미터들(240)에 기초하여, 잡음 DALC(222)는 잡음 신호의 디지털-음향 레벨 변환(예를 들어, 스케일링)을 수행하고, 잡음 보정기(224)는 변환 또는 스케일링된 잡음 신호에 대해 다중대역 잡음 보정을 수행하여, 보정된 잡음 신호를 생성한다. 잡음 보정 경로(206)는 보정된 잡음 신호를 음성 명료도 계산기(210)에 제공한다. 유사하게, 음성 보정 경로(208)는 음성 신호에 다중대역 음성 보정을 적용한다. 구체적으로, 재생 디바이스 파라미터들(242)에 기초하여, 음성 DALC(226)는 음성 신호의 디지털-음향 레벨 변환(예를 들어, 스케일링)을 수행하고, 음성 보정기(228)는 변환된/스케일링된 음성 신호에 다중대역 보정을 적용하여, 보정된 음성 신호를 생성한다. 음성 보정 경로(208)는 보정된 음성 신호를 음성 명료도 계산기(210)에 제공한다.
음성 명료도 계산기(210)는 보정된 잡음 신호 및 보정된 음성 신호에 대한 다중대역 음성 명료도 분석을 수행하여, 다중대역 음성 명료도 결과들(multiband voice intelligibility results, MVIR)을 생성하고, 이를 이득 결정기(212)에 제공한다. 보다 구체적으로, 짧은 세그먼트 분석기(230)는 보정된 잡음/음성의 짧은/중간 길이 프레임들/세그먼트들에 대해 다중대역 음성 명료도 분석을 수행하여 짧은/중간 길이 세그먼트 다중대역 음성 명료도 결과들("단기 음성 명료도 결과들(short term voice intelligibility results)" 또는 간단히 "단기 결과들"이라고도 지칭됨)을 생성한다. 단기 결과들은 잡음/음성의 짧은/중간 길이 세그먼트들의 시퀀스들에 대응하는 대역별 음성 명료도 값들, 전역 음성 명료도 값들, 대역별 잡음 전력 값들, 및 대역별 음성 전력 값들의 시퀀스들을 포함한다.
한편, 긴 세그먼트 분석기(232)는, 짧은/중간 길이 세그먼트들보다 긴, 보정된 잡음/음성의 긴 프레임들/세그먼트들에 대해 장기 잡음 및 음성 프로파일링(음성 명료도 분석을 포함함)을 수행하여, 장기 대역별 음성 명료도 값들, 및 장기 전역 이득 값들과 같은, 긴 세그먼트 음성 명료도 결과들("장기 음성 명료도 결과들" 또는 간단히 "장기 결과들"이라고도 지칭됨)을 생성한다. 예를 들어, 장기 잡음 및 음성 프로파일링은 장기 결과를 생성하기 위해 단기 결과들의 시퀀스들에서의 값들에 걸쳐 이동 평균을 수행하여(예를 들어, 긴 세그먼트들과 길이가 동등한 기간들에 걸쳐), 장기 결과들을 생성할 수 있다. 또한, 장기 잡음 및 음성 프로파일링은, 예를 들어, 아래에서 기술되는 바와 같이, 다수의 짧은/중간 길이 세그먼트들에 걸쳐 잡음/음성 전력 값들의 피크 유지 및 재설정과 같은, 단기 결과들의 다른 유형의 장기 처리를 사용할 수 있다.
무음/일시 정지 검출기(234)는 무음 동안 명료도 분석을 중단하기 위해, 예를 들어, 무음 동안 명료도 분석의 활성화를 방지하는 등등을 위해, 보정된 음성 신호에서 무음/일시 정지를 검출한다.
이득 결정기(212)에 제공된 음성 명료도 결과들은 단기 결과들과 장기 결과들의 조합을 포함할 수 있다. 이득 결정기(212)는 위에 언급된 음성 명료도 결과들에 기초하여 짧은/중간 길이 세그먼트들에 대한 전역 및 대역별 이득들을 도출하고, 그 이득들을 음성 증대기(204)에 제공한다. 음성 증대기(204)는 음성 압축기, 음성 확장기, 포먼트 증대기 등을 포함할 수 있다. 음성 증대기(204)는 분석 결과들(205)에 부분적으로 기초하여 (보정되지 않은) 음성 신호에 대한 음성 증대 처리를 수행한다. 예를 들어, 음성 증대기(204)는 음성 신호에 이득을 적용하여, 시스템 볼륨 컨트롤(122) 및 라우드스피커(124)를 통해 재생되는, 명료도 증대된 음성 신호를 생성한다.
본 명세서에서 제시된 실시예들은 잡음 및 음성 보정 경로들(206, 208)에 의해 수행되는 다중대역 잡음 및 음성 보정, 짧은 세그먼트 분석기(230)에 의해 수행되는 짧은/중간 길이 세그먼트 음성 명료도 분석, 긴 세그먼트 분석기(232)에 의해 수행되는 장기 잡음 및 음성 프로파일링, 및 이득 결정기(212)에 의해 수행되는 전역 및 대역별 이득 분석을 포함하지만, 이에 제한되지는 않는다. 실시예들은 아래에서 더 완전히 기술된다.
다중대역 잡음 및 음성 보정
다중대역 잡음 및 음성 분석이 알려져 있다. 그러한 분석의 한 형태는 발성 명료도 인덱스(SII)를 포함한다. SII 분석은 라우드스피커를 통해 음향 환경으로 재생될 다중대역 음성 신호, 및 마이크로폰에 의해 검출된 음향 환경에서의 잡음을 나타내는 잡음 신호를 수신한다. SII 분석은 (i) 음성 신호의 주파수 대역별 음성 신호와 잡음 신호의 레벨들 간의 차이를 계산하고, 예를 들어, 음성 신호의 주파수 대역별 발성 대 잡음비(speech-to-noise ratio, SNR)를 계산하고, 대역별 SNR들을 대응하는 주파수 대역에 대한 대역 중요도 함수와 곱하고, 그 결과를 합산한다.
도 3은 발성 명료도 인덱스의 대역 중요도 함수에 대한 상이한 플롯들을 보여준다. 대역 중요도 함수은 본질적으로 음성/발성 명료도에 대한 기여도/중요도에 따라 음성 신호의 주파수 대역들에 상이한 가중치들을 적용한다. 대역 중요도 함수와 함께, 연구에서는 인간 발성의 기본 및 제1 포먼트가 어떻게 제2 포먼트들 및 다른 인자들과 비교하여 발성/음성 명료도에 영향을 미치지 않을 수 있는지를 논의한다. 이들은 음성의 명료도를 계산할 때 고려해야 할 중요한 인자들이다.
명료도 인덱스, 또는 각각의 주파수 대역의 명료도 기여 인자에 기초한 음성 신호의 주파수 응답의 직접적인 조작은 라우드스피커를 통한 재생시 음성의 품질을 저하시킬 수 있다. 예를 들어, 그러한 조작은 주파수 균형을 변경할 때 및/또는 시간적 변화에 대한 변동을 도입할 때 음성이 부자연스럽게 들리게 할 수 있다. 게다가, 위에서 언급된 명료도 분석(예를 들어, SII)의 결과들은, 명료도 분석 전에, 변환기 주파수 응답들(예를 들어, 마이크로폰과 라우드스피커의 주파수 응답들)이 보상되지 않으면 정확하지 않을 것이다. 더욱이, 라우드스피커의 한계(예를 들어, 그것의 작은 크기 또는 작은 드라이버)로 인해 라우드스피커가 음성의 전체 주파수 대역폭을 재생하지 못한다면, 라우드스피커는 변화하는 주파수 균형에 대해 음성/발성 품질을 더욱 저하시킬 뿐만 아니라 부정확한 음성 명료도 결과를 야기할 수 있다. 라우드스피커가 재생할 수 없는 음성 주파수들의 이득을 증가시키는 것으로 문제를 해결하지 못하고 비선형 왜곡을 야기할 수 있고/있거나 라우드스피커의 드라이버에 스트레스를 줄 수 있다.
도 4는 spk1 및 spk2로 표시된 2개의 상이한 라우드스피커에 대한 라우드스피커 주파수 응답들을 보여준다. 변환기 특성은 라우드스피커마다, 그리고 마이크로폰마다 상이하기 때문에, 다중대역 음성 명료도를 계산할 때 주어진 시스템에 대한 라우드스피커 보상 및 마이크로폰 보상이 고려되어야 한다.
따라서, 잡음 및 음성 보정 경로들(206, 208)에 의해 수행되는 다중대역 잡음 및 음성 보정은, 주파수 대역들 각각에 대한 명료도 기여 인자에 더하여, 라우드스피커 및 마이크로폰 각각의 특성에 기초하여 다중대역 음성 명료도 결과들을 계산하기 위해 사용되는 잡음 및 음성의 주파수 대역들을 보정한다. 예로서, 잡음 보정 경로(206)는 잡음 픽업 디바이스 파라미터들(240)에 기초하여 잡음 신호(Hns)의 주파수 대역들을 보정(예를 들어, 주파수 대역들의 전력 레벨들을 조정)하여, 보정된 잡음 신호(HAn_ns)를 생성하고, 음성 보정 경로(208)는 재생 디바이스 파라미터들(242)에 기초하여 음성 신호(Hspch)의 주파수 대역들(예를 들어, 주파수 대역들의 전력 레벨들을 조정)하여, 보정된 발성 신호(HAn_spch)를 생성한다. 음성 명료도 계산기(210)는 보정된 잡음 신호(HAn_ns) 및 보정된 음성 신호(HAn_spch)에 대해 다중대역 음성 명료도 분석을 수행한다.
잡음 픽업 디바이스 파라미터들(240)의 예들은 마이크로폰의 전달 함수 Hmic(예를 들어, 알려진 마이크로폰 전달 함수), 마이크로폰과 연관된 이득 gmic(즉, 잡음 신호의 출력 이득), 잡음 신호에 대한 음향-디지털 변환 이득 Cmic, 및 마이크로폰의 감도를 포함한다. 재생 디바이스 파라미터들(242)의 예들은 라우드스피커의 전달 함수 Hspk(즉, 알려진 라우드스피커 전달 함수), 라우드스피커와 연관된 이득 gspk(즉, 음성 신호의 출력 이득), 음성 신호에 대한 음향-디지털 변환 이득 Cspk, 및 라우드스피커의 감도(개별적으로 제공되거나 다른 파라미터들에 통합될 수 있음)를 포함한다. 전달 함수들은, 전달 함수에 걸쳐 있는 다수의 연속 주파수 대역들에 걸친 크기 및 위상 정보를 포함하여, 대응하는 변환기(예를 들어, 마이크로폰 또는 라우드스피커)의 시간 도메인 임펄스 응답의 주파수 도메인 표현을 포함할 수 있다.
예로서, 음성 보정 경로(208)는, 다음 수학식에 따라, 재생 디바이스 파라미터들(242)을 사용하여 음성 신호(Hspch)(예를 들어, 음성 신호의 주파수 스펙트럼)를 보정하여 z-도메인에서 보정된 음성 신호(HAn_spch)를 생성한다:
Figure pct00001
예를 들어, 음성 DALC(226)는 파라미터 gspk 및 Cspk에 기초하여 음성 신호를 스케일링하는 반면, 음성 보정기(228)는 라우드스피커 전달 함수 Hspk(z)에 기초하여 스케일링된 음성 신호의 다중대역 보정을 수행한다.
유사하게, 잡음 보정 경로(206)는, 다음 수학식에 따라, 잡음 픽업 디바이스 파라미터들(240)을 사용하여 잡음 신호(Hns)를 보정하여 z-도메인에서 보정된 잡음 신호(HAn_ns)를 생성한다:
Figure pct00002
예를 들어, 잡음 DALC(222)는 파라미터 gmic 및 Cmic에 기초하여 잡음 신호를 스케일링하는 반면, 잡음 보정기(224)는 마이크로폰 전달 함수 Hmic(z)에 기초하여 스케일링된 잡음 신호의 다중대역 보정을 수행한다. 이는 음향 환경에서 잡음의 정확한 추정치를 생성한다.
위에서 언급된 잡음 및 음성 신호의 스케일링은 마이크로폰 감도 및 스피커 감도 각각에 부분적으로 기초한 스케일링을 포함할 수 있다. 일 예에서, 스케일링된 잡음/음성 값은 다음과 같이 주어진다:
Figure pct00003
여기서 A=음향 레벨(dB)이고 D=등가 디지털 레벨(dB)이다.
그러한 스케일링은 각각의 입력 신호(즉, 잡음 또는 음성)를 그것의 대응하는 음향 레벨(dB 단위)에 매칭시키기 위해 마이크로폰(104) 및 라우드스피커(124)에 관하여 개별적으로 수행된다. 대안적으로, 스케일링은 마이크로폰 및 라우드스피커 감도에 대해 잡음 및 음성 레벨들을 정렬시키기 위해 수행될 수 있다. 스케일링된 값들에 대해 수행된 후속 음성 명료도 계산은 동일한 음향 환경의(보정된) 음성 신호와(보정된) 잡음 신호의 비율을 사용하므로, 상이한 마이크로폰 및 라우드스피커 감도들에 의해 야기된 델타가 조정된다면, 명료도 계산이 정확할 것이다.
그 경우:
Figure pct00004
여기서 Aspk 및 Amic는 동일한 레벨의 디지털 레벨(dBFS)에 기초하여 측정/계산된 음향 레벨들(dB)이다.
스케일링은 상대적 델타를 조정하기 때문에 스케일링된 값은 잡음 신호에만 적용될 수 있다. 대안적으로, Scale_val_mic의 역수가 음성 신호에만 적용될 수 있다.
수학식 1 및 수학식 2의 음성 및 잡음 신호 보정들은 후속 다중대역 음성 명료도 분석을 개선한다. 음성 및 잡음 보정들에 더하여, 본 명세서에서 제시된 실시예들은 마이크로폰(104) 및 라우드스피커(124)의 주파수 응답들에 대해 다중대역(주파수) 영역 분석을 수행한다. 다중대역 영역 분석은 잡음 보정 경로(206), 음성 보정 경로(208), 및/또는 음성 명료도 계산기(210)에서, 또는 음성 및 잡음 분석기(202)의 별개의 모듈에 의해 수행될 수 있다. 다중대역 영역 분석은 마이크로폰의 주파수 범위와 라우드스피커의 주파수 범위 간의 중첩 및 비중첩 상호 관계들을 검사/결정하고, 그 결정된 상호 관계들에 기초하여, 다중대역 음성 명료도 분석에 사용되는 주파수 대역들을 상이한 주파수 분석 영역들/범위들로 분할한다. 그 후, 다중대역 영역 분석에 의해 확립된 상이한 주파수 분석 영역에 기초하여(즉, 이를 고려하여) 다중대역 음성 명료도 분석이 수행된다. 예를 들어, 다중대역 음성 명료도 분석은, 아래에서 기술되는 바와 같이, 상이한 주파수 분석 범위 내의 음성 분석 대역들에 상이한 유형의 명료도 분석을 적용할 수 있다.
도 5는 이상적인(넘기 어려운 장벽) 마이크로폰 주파수 응답(502) 및 이상적인 라우드스피커 주파수 응답(504)의 주파수 플롯들, 및 2개의 주파수 응답 간의 상호 관계들에 기초하여 다중대역 영역 분석에 의해 결정된 다양한 주파수 분석 범위들 (a)-(g)를 보여준다. 마이크로폰 주파수 응답(502)은 마이크로폰 주파수 응답의 최소("min")/시작 주파수 fmic1로부터 최대("max")/정지 주파수 fmic2로 확장되는 유용한/응답 마이크로폰 주파수 범위 또는 대역폭(BW)/주파수 통과대역(예를 들어, 3dB BW, 비록 유용한 마이크로폰 통과대역으로 간주되는 것의 다른 측정치들이 사용될 수도 있지만)을 갖는다. 유사하게, 라우드스피커 주파수 응답(504)은 라우드스피커 주파수 응답의 최소/시작 주파수 fspk1로부터 최대/정지 주파수 fspk2로 확장되는 유용한/응답 라우드스피커 주파수 범위 또는 BW/주파수 통과대역(예를 들어, 3dB BW, 비록 유용한 라우드스피커 통과대역으로 간주되는 것의 다른 측정치들이 사용될 수도 있지만)을 갖는다.
도 5의 예에서, 최소 또는 시작 주파수들 fspk1, fmic1은 fspk1 > fmic1에 의해 관련되고, 최대 또는 정지 주파수들 fmic2, fspk2는 fmic2 > fspk2에 의해 관련된다. 따라서, 마이크로폰 통과대역이 라우드스피커 통과대역보다 크고 라우드스피커 통과대역을 완전히 포함하는데, 즉, 라우드스피커 통과대역이 완전히 마이크로폰 통과대역 내에 있다. 이 경우, 라우드스피커 통과대역과 마이크로폰 통과대역은 라우드스피커 통과대역에 걸쳐서만 중첩된다. 다른 예에서는, 그 반대가 성립될 수 있는데, 즉, 최소 주파수들은 fmic1 > fspk1에 의해 관련되고 최대 주파수들은 fspk2 > fmic2에 의해 관련되고, 이에 따라 라우드스피커 통과대역이 마이크로폰 통과대역보다 크고 마이크로폰 통과대역을 완전히 포함하는데, 즉, 마이크로폰 통과대역이 완전히 라우드스피커 통과대역 내에 있다. 이 경우, 라우드스피커 통과대역과 마이크로폰 통과대역은 마이크로폰 통과대역에 걸쳐서만 중첩된다.
도 5의 예에서, 다중대역 영역 분석은, 다음에 따라, 영역들에서 다중대역 음성 명료도 수행하는 것에 관하여 주파수 분석 영역들 (a)-(g)(간단히 "영역들 (a)-(g)"라고 지칭됨)을 분류할 수 있다:
a. 영역 (a) 및 (b)은 음성 명료도 분석에 의해 변경되지 않는 채로 있는 영역들로서, 또는 헤드룸 보존을 위한, 즉, 헤드룸을 보존하기 위한 감쇠 영역들로서 정의될 수 있다.
b. 영역 (c) 및 (g)는 잡음 캡처 디바이스(예를 들어, 마이크로폰)가 정확한 분석 결과를 제공할 수 없기 때문에 음성 명료도 분석에 포함되어서는 안 된다. fmic1 아래 및 fmic2 위의 주파수 영역들/구역들은 Hmic의 역수(즉, Hmic -1)가 잡음 보정을 위해 잡음 신호에 적용하기에 충분히 안정적이지 않은 불안정한 캡처 주파수 영역들/대역들을 포함한다.
c. 영역 (d) 및 (f)는 (전역) 잡음 레벨 및 마스킹 임계치를 계산하기 위한 음성 명료도 분석에 포함되어야 하지만 대역별 음성 명료도 분석에는 포함되어서는 안 된다; 예를 들어, 음성 명료도 분석으로 인한 영역 (d) 및 (f)에서의 임의의 대역별 음성 레벨 증가는, 해당 영역들에서 응답하지 않는, 재생 디바이스에 의해 수용될 수 없다.
d. 도 5에 도시된 것과 반대인, 즉, 라우드스피커 통과대역이 마이크로폰 통과대역보다 큰 라우드스피커 및 마이크로폰 주파수 응답의 배열들에 대해, 영역 (d)(즉, fspk1과 fmic1 사이)에서의 잡음 신호 레벨은 그 영역에 인접한 주파수 대역, 예를 들어, fmic1 위/인접한 주파수 대역에서의 잡음 신호 레벨을 사용하여 근사화될 수 있다. 그 경우, 보정된 잡음 신호는 다음과 같이 계산될 수 있다:
Figure pct00005
여기서
Figure pct00006
는 0 내지 1.0 범위의 근사 계수이지만, 그 경우에 최소값은 바람직하게는 0보다 크다.
마이크로폰 통과대역이 라우드스피커 통과대역보다 넓고 라우드스피커 통과대역을 포함하는, 도 5의 예에서는, 영역 (d) 및 (f)가 전역 잡음 레벨 및 마스킹 임계치 계산에 포함되어야 하는데 그 이유는 수학식 2의 보정이 잡음 신호에 적용된 후에 잡음 신호의 레벨이 정확한 것으로 가정되기 때문이다. 그러나, 라우드스피커 통과대역이 마이크로폰 통과대역보다 넓고 마이크로폰 통과대역을 포함하는 대안/반대의 예에서는, 영역 (d) 및 (f)의 취급이 상이해야 하는데 그 이유는 해당 영역들에서의 잡음 신호의 레벨이 정확하지 않은 반면, 발성 신호의 레벨은 정확하기 때문이다. 이 경우, 영역 (d) 및 (f)는 전역 및 대역별 분석 양쪽 모두로부터 제외될 수 있다.
위에서 기술된 바와 같이 주파수 분석 범위들을 고려하면 부정확한 잡음 레벨을 갖는 주파수 대역들이 분석으로부터 제거되므로 음성 명료도 분석의 정확도가 개선된다. 음성 명료도 분석은 또한 라우드스피커와 마이크로폰의 주파수 범위들/통과대역들에서의 차이를 취급함으로써 최적의 전역 음성 명료도 결과 및 대역별 음성 명료도 결과를 제공한다.
그 후, 음성 보정 및 잡음 보정은 각각의 주파수 대역에 대한(즉, 음성 분석 대역들 각각에 대한) 명료도 기여 인자와 결합될 수 있다. 예를 들어, 음성/잡음 보정들을 사용하여, 대역별(음성) 명료도 값들 VIdx(i)(주파수 대역 i =1 내지 N에 대해)는 다음에 따라 계산될 수 있다:
Figure pct00007
여기서: i = 주어진 대역을 식별하는 대역 인덱스(예를 들어, 대역 i=1 내지 대역 i=21);
I = 중요도 인자;
A = 대역 가청도 값; 및
max(fmic1, fspk1) 내지 min(fmic2,fspk2) 함수는 라우드스피커 통과대역과 마이크로폰 통과대역 간의 주파수 중첩(예를 들어, 라우드스피커 통과대역과 마이크로폰 통과대역이 중첩되는 "중첩 통과대역")을 결정/정의한다.
음성 및 잡음 분석기(202)는 위의 관계들을 사용하여 라우드스피커 및 마이크로폰의 시작 주파수들 및 정지 주파수들에 기초하여 중첩 통과대역을 결정한다.
대역 가청도 값 A는 수학식 1 및 수학식 2 각각으로부터의 보정된 음성 신호 및 보정된 잡음 신호 음성에 기초한다. 예를 들어, 대역 가청도 값 A는 주어진 대역에서 보정된 음성 신호 전력 대 보정된 잡음 신호 전력의 비율에 비례할 수 있다. 대역별 주파수 분석 범위는 위에서 기술된 잡음 픽업 디바이스 파라미터들(240) 및 재생 디바이스 파라미터들(242)에 기초하여 정의/보정된다.
위로부터 수학식 3이 다음과 같이 상이한 주파수 분석 영역에 기초하여 음성 분석 대역 1 내지 N의 음성 명료도 결과들을 생성한다는 것을 알 수 있다:
a. 대역 1(즉, 가장 낮은 주파수 대역) 내지 max(fmic1, fspk1) => 명료도 N/A.
b. fspk1 내지 fspk2 => 대역별 음성 명료도 값들은 수학식 1 및 수학식 2에 의해 주어진다.
c. min(fmic2,fspk2) 내지 대역 N(즉, 가장 높은 주파수 대역) => 명료도 N/A.
max(fmc1, fspk1)가 fspk1이면, 도 5에 도시된 영역 (a)는 처리를 위한 헤드룸을 보존하기 위해 감쇠될 수 있다. max(fmc1, fspk1)가 fmic1이면, fspk1 아래 영역은 헤드룸을 보존하기 위해 사용될 수 있다. 이 헤드룸은 음성 신호가 시스템(예를 들어, 라우드스피커)의 최대(또는 최대에 가까운) 출력 레벨에 도달하는 일부 경우에 중요할 수 있다. 그 경우, 음성 명료도 분석을 위한 헤드룸이 없기 때문에 명료도가 증가될 수 없다. 대안적으로, 음성 신호의 피크 값을 보존하면서 RMS(root-mean-square) 값을 증가시키기 위해 압축기/제한기가 도입될 수 있다; 그러나, 이는 압축의 양이 특정 레벨을 초과하면 부자연스러운 사운드 및 "펌핑"과 같은 압축 아티팩트들을 도입할 수 있다. 따라서, 라우드스피커가 영역에서의 특정 주파수 범위를 완전히 재생할 수 없다면, 헤드룸을 더 많이 보존하기 위해 해당 영역에서의 음성 신호가 감쇠될 수 있다.
음성 보정 및 그 분석 영역 계산을 사용하여, 전역 음성 명료도 값(전역 발성 대 잡음비(SNR)(Sg)라고도 지칭되고, 전역 음성 대 잡음비라고 동등하게 지칭됨)이 다음 수학식에 따라 계산될 수 있다:
Figure pct00008
여기서: fmc1 ≥ fspk1인 경우, C1 = fmic1, 또는 fmc1 < fspk1인 경우, C1 = fspk1;
fmic2 < fspk2인 경우, C2 = fmic2, 또는 fmic2 ≥ fspk2인 경우, C2 = fspk2;
∝는 정규화 계수이다; 그리고
Hspch(j) 및 Hnoise(i)는 각각 j번째 및 i번째 주파수 대역들에서 보정된 음성 및 잡음 신호들이다.
위의 관계들에 따르면, 주파수 C1 = max(fmic1, fspk1), 주파수 C2 = min(fmic2, fspk2), 그리고 주파수 범위 C1 내지 C2는 마이크로폰 통과대역과 라우드스피커 통과대역 간의 중첩 주파수 범위(즉, 중첩 통과대역)이다. 수학식 4의 분자는 중첩 주파수 범위에 대해서만 보정된 음성 전력을 누적/합산하는 반면, 분모는 마이크로폰의 주파수 범위/통과대역에 대해서만 보정된 잡음 전력을 누적/합산한다.
짧은 세그먼트 분석기(230)는 수학식 3에 따라 계산된 대역별 음성 명료도 값들의 시퀀스, 및 수학식 4에 따라 계산된 전역 발성 대 잡음비들(Sg)의 시퀀스를 생성한다. 긴 세그먼트 분석기(232)는 긴 세그먼트와 동등한 다수의 짧은/중간 길이 세그먼트들에 걸쳐 짧은 세그먼트 분석기(230)로부터의 잡음 전력들 및 음성 전력들의 저장된 값들(즉, 값들의 시퀀스들)을 처리(예를 들어, 평균)하여 긴 세그먼트에 대한 대역별 명료도 값들 및 긴 세그먼트에 대한 전역 명료도 값을 생성한다. 긴 세그먼트 분석기(232)는, 아래에서 기술되는 바와 같이, 피크 유지 및 재설정과 같은, 단기 저장된 값들에 대한 추가 동작들을 수행할 수 있다.
도 5와 관련하여 위에서 기술된 실시예는 수학식 3 및 수학식 4에 대한 주파수 범위 설정들 또는 제한들로서 사용되는 분석 영역들을 결정한다. 다른 실시예에서, 각각의 가중치 계수들은 범위를 제한하지 않고 수학식 3 및 수학식 4를 본질적으로 계산하기 위해 HAn_spch 및 HAn_ns에 직접 적용될 수 있는데, 그 제한은 각각의 가중치 계수들에 포함되기 때문이다. 이 실시예에서, 보정들은 다음에 따라 적용된다:
Figure pct00009
여기서 Wsp 및 Wns는 각각의 주파수 대역(0 내지 pi)에 적용되는 음성 및 잡음에 대한 가중치 계수들이다.
요약하면, 실시예들은 다음과 같이 잡음/음성 보정을 사용하여 잡음/음성 명료도를 계산하는 포괄적인 방법을 제공한다:
a. 재생 및 잡음 캡처 디바이스 특성을 사용하여, 음성 및 잡음 신호들을 보정하고 분석을 위해 음성 및 잡음의 주파수 대역들 또는 범위들을 정의한다.
b. 디바이스들의 음성 명료도 기여 가중치 계수들 및 주파수 범위들을 교차 검사한다.
c. 음성 및 잡음 분석기(202)에 대한 주어진 음성 및 잡음 입력들에 대해, 분석을 수행하여 각각의 대역의 처리 이득 파라미터들 및/또는 전역 처리 이득 값으로 음성 명료도 값들을 생성한다.
본 명세서에서 기술된 분석을 위해, 주파수 대역들은 특정 대역들로 제한되지 않는다는 점에 유의한다. 주파수 대역들은 옥타브 대역들, 1/3 옥타브 대역들, 임계 대역들 등일 수 있다.
짧은/중간 길이 세그먼트 음성 명료도 분석
많은 음성 재생 사용 사례들은 최소 대기 시간을 필요로 한다. 따라서, 음성 명료도 분석("긴 세그먼트 분석"이라고 지칭됨)을 위해 대략 1초 이상인 긴 세그먼트(예를 들어, 즉, 긴 음성/잡음 세그먼트)를 사용하는 것은 실용적이지 않은데 그 이유는 긴 세그먼트 분석은 너무 많은 대기 시간을 도입할 수 있기 때문이다. 대조적으로, 전형적으로, 음성/잡음 분석 및 처리를 위한 짧은/중간 길이 세그먼트는 대략 2 내지 32ms 지속기간이다. 또한, 잡음은 정적이 아니라 동적일 수 있는데, 예를 들어, 개가 짖는 소리, 시끄러운 차가 지나가는 것 등을 고려해보자. 따라서, 긴 세그먼트보다 상대적으로 짧은 짧은/중간 길이 세그먼트의 다중대역 음성 명료도 분석("짧은/중간 길이 세그먼트 분석"이라고 지칭됨)이 바람직하다. 즉, 짧은/중간 길이 세그먼트 분석이 더 장기의 분석보다 종종 선호된다.
짧은/중간 길이 세그먼트 분석의 문제는, 다른 처리(예를 들어, 이득 처리)와 결합될 때, 짧은/중간 세그먼트 길이 분석이 원치 않는 아티팩트를 생성할 수 있다는 점이다. 예를 들어, 너무 빠른 처리 이득의 조정은 부자연스러운 음성 변동뿐만 아니라 빈번한 음성 주파수 균형 변경을 야기할 수 있다. 그러한 아티팩트를 완화시키기 위한 일반적인 방법은 공격 및 감쇠 시간을 설정함으로써 변경을 얻기 위해 평활화를 추가하는 것이다.
그러나, 음성 명료도 결과의 그러한 평활화는 정확도와 안정성 간의 절충을 도입한다. 안정적인 음성 사운드를 유지하면서 최적의 정확도를 달성하기 위해, 더 장기의 음성 및 잡음 프로파일링이 결과를 개선할 수 있다. 종래의 방법들과 달리, 본 명세서에서 제시된 실시예들은, 아래에서 기술되는 바와 같이, 장기 음성 및 잡음 프로파일링과 종래의 짧은/중간 길이 세그먼트 분석을 결합한다.
장기 음성 및 잡음 프로파일링
2 내지 32ms의 짧은/중간 길이 세그먼트와 대조적으로, 장기 음성 및 잡음 프로파일링에 의해 분석된 긴 세그먼트들은 두 단어 내지 몇 문장의 길이(예를 들어, 대략 1 내지 30초)일 수 있다. 장기 음성 및 잡음 프로파일링의 경우, 장기에 걸쳐 잡음/음성 신호를 저장할 필요가 없다. 오히려, 장기 음성 및 잡음 프로파일링은 슬라이딩 윈도우를 사용하여 시간에 걸쳐(즉, 긴 세그먼트에 걸쳐) 단기 결과들(즉, 짧은/중간 길이 세그먼트 특성)를 누적한다. 장기 음성 및 잡음 프로파일링으로부터의 장기 분석 결과들은 음성 명료도 결과의 대기 시간을 증가시키지 않는데 그 이유는 장기 분석이 음성 및 잡음의 과거 샘플들을 사용하기 때문이다.
도 6, 도 7, 및 도 8은 음성 신호의 상이한 시간 세그먼트들 및 그들의 대응하는 주파수 스펙트럼들을 보여준다. 도 6은 음성 신호의 짧은 시간 세그먼트(즉, "짧은 세그먼트")를 보여주는 상부 플롯, 및 짧은 세그먼트의 주파수 스펙트럼을 보여주는 하부 플롯을 포함한다. 짧은 세그먼트는 대략 23ms의 짧은 세그먼트에 걸쳐 있는 1024개의 음성 샘플을 포함한다. 유사하게, 도 7은 음성 신호의 다른 짧은 세그먼트를 보여주는 상부 플롯과 짧은 세그먼트의 제2 주파수 스펙트럼을 보여주는 하부 플롯을 포함한다. 도 6 및 도 7의 상부 플롯들에 도시된 짧은 세그먼트들은, 음성에 대해 전형적인 바와 같이, 각각 주기적이다. 도 6 및 도 7의 하부 플롯들에 도시된 주파수 스펙트럼들은 상이한데 그 이유는 그들이 나타내는 상이한 음소들이 상이한 포먼트 주파수들을 갖기 때문이다.
도 8은 음성 신호의 긴 시간 세그먼트(즉, "긴 세그먼트")를 보여주는 상부 플롯, 및 긴 세그먼트의 주파수 스펙트럼을 보여주는 하부 플롯을 포함한다. 긴 세그먼트는 대략 4.24초에 걸쳐 있는 1024개의 음성 샘플을 포함한다. 도 6 및 도 7의 짧은 세그먼트들 및 도 8의 긴 세그먼트는, 음성의 기본 주파수를 포함하여, 공통 데이터를 캡처하지만, 긴 세그먼트는 더 긴 기간에 걸쳐 음성의 스펙트럼 특성을 보여준다. 따라서, 장기 음성 및 잡음 프로파일링을 포함하는 음성 명료도 분석은 더 넓은 주파수 대역 분석 값으로부터 이익을 얻을 수 있고, 시간이 지남에 따라 빠르게 변할 수 있는 대역별 분석에 기초하여 협대역 주파수 이득을 동적으로 할당하려고만 하는 대신에, 긴 세그먼트에 걸쳐 음성 신호의 장기 특성을 캡처할 수 있다. 또한, 장기 음성 및 잡음 프로파일링은 긴 세그먼트에 걸쳐 음성의 시간적 특성도 캡처한다.
환경에서 일관된 잡음의 예들은, 개 짖은 소리 및 차이 지나가는 것과 같은, 가끔씩 일시적인/동적인 잡음들과 결합된 팬 잡음 또는 윙윙거림을 포함한다. 이 경우, 장기 음성 및 잡음 프로파일링은 정적인/일관된 잡음의 특성을 식별할 수 있는 반면, 짧은/중간 길이 세그먼트 분석은 동적인 잡음을 식별할 수 있다. 장기 음성 및 잡음 프로파일링은 피크 잡음을 캡처할 수 있고, 이는 그 후 장기 결과들을 단기 결과들과 비교하여 일관된 배경 잡음이 변하였거나 제거되었음을 식별하는 것에 의해 재설정될 수 있다. 예를 들어, 장기 음성 및 잡음 프로파일링은 긴 세그먼트에 대해 음성/잡음을 피크 유지하는 것을 포함할 수 있지만, 그 후 예를 들어, 음성 재생이 다른 스피커 또는 합성된 음성으로 변할 때, 피크를 재설정할지의 여부를 결정하기 위해 단기 결과들을 사용할 수 있다. 다른 예는 분석을 위해 몇 단어 길이 세그먼트를 사용하여, 한 스피커에서 다른 스피커로의 전환이 슬라이딩 윈도우에 의해 천천히 캡처될 수 있도록 하는 것이다.
전역 및 대역별 이득 분석
이득 결정기(212)는 짧은 세그먼트 분석기(230)에 의해 생성된 결과들에 기초하여 (보정되지 않은) 음성 신호에 적용될 대역별 이득(조정) 및 전역 이득(조정)을 포함하는 다중대역 이득 값들을 계산한다. 이득 결정기(212)는 이득들을 음성 증대기(204)에 제공하고, 음성 증대기는 이득들을 음성 신호에 적용한다. 이득 계산은 명료도를 증가시키기 위해 적용될 처리에 따라 유연할 수 있다. 계산 리소스 제약이 있다면, 처리될 분석 대역의 수를 효과적으로 저감시키기 위해 분석 대역들이 그룹화될 수 있거나, 분석 대역들 중 일부가 처리에서 생략될 수 있다. 처리가 이미 특정 지능, 예를 들어, 포먼트 위치 증대, 또는 스펙트럼 피크 증대를 포함하고 있다면, 처리는 이 지능을 사용하여 위에서 처리가 기술된 분석 방법들에 기초하여 그것의 이득 및 적절한 전역 이득 파라미터에 기초하여 선택적으로 증가/감소시키는 주파수 위치에 대한 명료도 정보를 제공할 수 있다.
예에서, 이득들은 다음의, 또는 유사한 관계들에 따라 계산될 수 있다.
전역 이득(g_Global) = Wg * St_g/Sc.
대역별 이득(g_perband(i)) = Wpb * St_pb / Sc(i),
여기서: g_Global 및 g_perband는 음성 출력 신호에 적용된다;
Wg 및 Wpb는 전역 및 대역별 가중치 계수들이다;
St_g 및 St_pb는 대역별 단기/중간 길이 세그먼트 대역별 및 전역 명료도 값들(예를 들어, 발성 대 잡음(SNR) 값들)이다; 그리고
Sc는 현재 SNR이다.
가중치 Wg 및 Wpb는, 현재 음성 명료도 값들에 대해 그 가중치들이 달라지도록(예를 들어, 명료도 값들이 상대적으로 높을 때, g_Global에 더 많은 가중치(Wg)를 적용하고 g_perband에 더 적은 가중치(Wpb)를 적용하고, 그 반대도 마찬가지임), 명료도 값의 임계치에 기초하여 결정될 수 있다.
도 9는 실시예에, 따른 음성 증대기(204)의 일부의 하이레벨 블록/신호 흐름도이다. 이 예에서, 음성 증대기(204)는 음성 신호에 대역별 이득 값들 g_pb(i) 및 전역 이득 g_Global을 적용하여, 명료도 증대된 음성 신호를 생성하는 다중대역 압축기(904)를 포함한다.
도 10은, 예를 들어, VIP(120)에 의해 수행되는 음성 명료도 처리를 수행하는 예시적인 방법(1000)의 흐름도이다. 방법(1000)의 동작들은 위에서 기술된 동작들에 기초한다.
1002에서는, 마이크로폰이 음향 환경에서의 잡음을 검출하여, 잡음 신호를 생성한다.
1004에서는, VIP(120)의 입력이 라우드스피커를 통한 음향 환경으로의 재생을 위한 음성 신호를 수신한다.
1006에서는, VIP(120)가 잡음 신호의 디지털-음향 레벨(DAL) 변환을 수행하고, 마이크로폰의 알려진 또는 도출된 마이크로폰 전달 함수에 기초하여 잡음 신호의 다중대역 보정을 수행하여, 보정된 잡음 신호를 생성한다. 다중대역 보정은 잡음 신호의 스펙트럼을 조정하여 마이크로폰 전달 함수를 보상한다.
1008에서는, VIP(120)가 음성 신호의 DAL 변환을 수행하고, 라우드스피커의 알려진 또는 도출된 라우드스피커 전달 함수에 기초하여 음성 신호의 다중대역 보정을 수행하여 보정된 음성 신호를 생성한다. 다중대역 보정은 음성 신호의 스펙트럼을 조정하여 라우드스피커 전달 함수를 보상한다.
1010에서는, VIP(120)가 마이크로폰 전달 함수와 라우드스피커 전달 함수 간의 관계에 기초하여 다중대역 음성 명료도 계산을 위한 주파수 분석 영역을 결정한다. 예를 들어, VIP(120)는 통과대역들의 시작 및 정지 주파수들에 기초하여, 마이크로폰 전달 함수의 마이크로폰 통과대역과 라우드스피커 전달 함수의 라우드스피커 통과대역이 중첩되는 중첩 통과대역을 결정한다. 주어진 통과대역의 시작 및 정지 주파수들은, 예를 들어, 주어진 통과대역에 대응하는 전달 함수의 반대 3dB-다운 포인트들(또는 다른 적합한 "X" dB-다운 포인트들)에 대응할 수 있다.
1012에서는, VIP(120)가 다수의 음성 분석 대역들에 걸친 잡음 신호(예를 들어, 보정된 잡음 신호)에 기초하여 그리고 음성 신호(예를 들어, 보정된 음성 신호)에 기초하여 다중대역 음성 명료도 분석을 수행하여, 다중대역 음성 명료도 결과들을 계산한다. 이 분석은, 예를 들어, 중첩 통과대역에서의 음성 분석 대역들로 제한될 수 있다. 결과들은 대역별 음성 명료도 값들 및 전역 발성/음성 대 잡음비를 포함한다. 다중대역 음성 명료도 분석은 단기 결과들을 생성하기 위한 짧은/중간 길이 세그먼트들/프레임들의 분석/이들에 기초한 분석, 및 장기 결과들을 생성하기 위한 더 긴 세그먼트들의 분석/이들에 기초한 분석을 포함한다.
1014에서는, VIP(120)가 대역별 음성 명료도 값들 및 전역 발성/음성 대 잡음비에 기초하여 대역별 이득들 및 전역 이득을 계산한다.
1016에서는, VIP가 이득들에 기초하여 음성 신호의 명료도를 증대시키고, 증대된 음성 신호를 라우드스피커를 통해 재생한다.
다양한 실시예들에서, 방법(1000)의 동작들 중 일부가 생략될 수 있고/있거나, 방법(1000)의 동작들이 재순서화/치환될 수 있다. 예를 들어, 동작 1012가 다수의 음성 분석 대역들에 걸쳐 잡음 신호(보정 없는) 및 음성 신호(보정 없는)에 기초하여 다중대역 음성 명료도 분석을 수행하여, 다중대역 음성 명료도 결과들을 계산하도록, 변환/보정 동작들 1006 및 1008이 생략될 수 있다. 다른 예에서는, 동작들 1006 및 1008이 그들 각각의 다중대역 보정들을 생략하여, 그들 각각의 DAL 변환들만이 남도록 수정될 수 있다.
일 실시예에서, 방법은: 마이크로폰으로 환경에서의 잡음을 검출하여 잡음 신호를 생성하는 단계; 라우드스피커를 통해 상기 환경으로 재생될 음성 신호를 수신하는 단계; 상기 마이크로폰의 마이크로폰 전달 함수와 상기 라우드스피커의 라우드스피커 전달 함수 간의 관계에 기초하여 다중대역 음성 명료도 계산을 위한 주파수 분석 영역을 결정하는 단계; 및 상기 잡음 신호 및 상기 음성 신호에 기초하여 상기 주파수 분석 영역에 걸쳐 다중대역 음성 명료도 결과들을 계산하는 단계를 포함한다. 이 방법은: 상기 마이크로폰 전달 함수에 기초하여 상기 잡음 신호의 다중대역 보정을 수행하여, 보정된 잡음 신호를 생성하는 단계; 및 상기 라우드스피커 전달 함수에 기초하여 상기 음성 신호의 다중대역 보정을 수행하여 보정된 음성 신호를 생성하는 단계를 더 포함하고, 상기 계산하는 단계는 상기 보정된 잡음 신호 및 상기 보정된 음성 신호에 기초하여 상기 주파수 분석 영역에 걸쳐 상기 다중대역 음성 명료도 결과들을 계산하는 단계를 포함한다.
다른 실시예에서, 장치는: 환경에서의 잡음을 검출하여, 잡음 신호를 생성하기 위한 마이크로폰; 상기 환경으로 음성 신호를 재생하기 위한 라우드스피커; 및 상기 마이크로폰 및 상기 라우드스피커에 결합되어: 상기 마이크로폰의 마이크로폰 전달 함수에 기초하여 상기 잡음 신호의 다중대역 보정을 수행하여, 보정된 잡음 신호를 생성하는 것; 상기 라우드스피커의 라우드스피커 전달 함수에 기초하여 상기 음성 신호의 다중대역 보정을 수행하여 보정된 음성 신호를 생성하는 것; 상기 보정된 잡음 신호 및 상기 보정된 음성 신호에 기초하여 다중대역 음성 명료도 결과들을 계산하는 것; 상기 다중대역 음성 명료도 결과들에 기초하여 다중대역 이득 값들을 계산하는 것; 및 상기 다중대역 이득 값들에 기초하여 상기 음성 신호를 증대시키는 것을 수행하도록 구성된 컨트롤러를 포함한다.
또 다른 실시예에서는, 비일시적 컴퓨터 판독가능 매체가 제공된다. 상기 비일시적 컴퓨터 판독가능 매체는, 프로세서에 의해 실행될 때, 상기 프로세서가, 마이크로폰으로부터, 환경에서의 잡음을 나타내는 잡음 신호를 수신하는 단계; 라우드스피커를 통해 상기 환경으로 재생될 음성 신호를 수신하는 단계; 상기 잡음 신호의 디지털-음향 레벨 변환, 및 마이크로폰 전달 함수에 기초한 상기 잡음 신호의 다중대역 보정을 수행하여, 보정된 잡음 신호를 생성하는 단계; 상기 음성 신호의 디지털-음향 레벨 변환, 및 라우드스피커 전달 함수에 기초한 상기 음성 신호의 다중대역 보정을 수행하여, 보정된 음성 신호를 생성하는 단계; 및 상기 보정된 잡음 신호 및 상기 보정된 음성 신호에 기초하여, 대역별 음성 명료도 값들 및 전역 발성 대 잡음비를 포함하는 다중대역 음성 명료도 결과들을 계산하는 단계를 수행하게 하는 명령어들로 인코딩되어 있다.
본 기법들은 하나 이상의 특정 예에서 구현된 것으로 본 명세서에서 예시되고 기술되어 있지만, 그럼에도 불구하고 청구범위의 균가물의 범주 및 범위 내에서 다양한 수정들 및 구조적 변경들이 이루어질 수 있으므로, 이는 제시된 세부 사항들로 제한되는 것으로 의도되지 않는다.
아래에서 제시된 각각의 청구항은 별개의 실시예를 나타내고, 상이한 청구항들 및/또는 상이한 실시예들을 결합하는 실시예들이 본 개시의 범위 내에 있고 본 개시를 검토한 본 기술분야의 통상의 기술자에게 명백할 것이다.

Claims (21)

  1. 방법에 있어서,
    마이크로폰으로 환경에서의 잡음을 검출하여 잡음 신호를 생성하는 단계;
    라우드스피커(loudspeaker)를 통해 상기 환경으로 재생될 음성 신호를 수신하는 단계;
    상기 마이크로폰의 마이크로폰 전달 함수와 상기 라우드스피커의 라우드스피커 전달 함수 사이의 관계에 기초하여 다중대역 음성 명료도 계산(multiband voice intelligibility computation)을 위한 주파수 분석 영역을 결정하는 단계; 및
    상기 잡음 신호 및 상기 음성 신호에 기초하여 상기 주파수 분석 영역에 걸쳐 다중대역 음성 명료도 결과들을 계산하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 다중대역 음성 명료도 결과들을 사용하여 상기 음성 신호의 명료도를 증대(enhance)시키는 단계를 더 포함하는, 방법.
  3. 제1항에 있어서,
    상기 결정하는 단계는, 상기 마이크로폰 전달 함수의 마이크로폰 통과대역과 상기 라우드스피커 전달 함수의 라우드스피커 통과대역이 중첩되는 중첩 통과대역을 상기 주파수 분석 영역으로서 결정하는 단계를 포함하고;
    상기 계산하는 단계는, 상기 중첩 통과대역으로 제한된 음성 분석 대역들에 걸쳐 대역별 음성 명료도 값들(per-band voice intelligibility values)을 계산하는 단계를 포함하는 것인, 방법.
  4. 제3항에 있어서, 상기 계산하는 단계는, (i) 상기 중첩 통과대역으로 제한된 상기 음성 분석 대역들에 걸친 상기 음성 신호에 기초한 음성 전력 대 (ii) 상기 마이크로폰 통과대역에 걸친 상기 잡음 신호에 기초한 잡음 전력의 전역 발성 대 잡음비(global speech-to-noise ratio)를 계산하는 단계를 더 포함하는 것인, 방법.
  5. 제3항에 있어서,
    상기 라우드스피커 통과대역의 시작 주파수가 상기 마이크로폰 통과대역의 시작 주파수보다 더 큰지의 여부를 결정하는 단계; 및
    상기 라우드스피커 통과대역의 시작 주파수가 더 클 때, 상기 마이크로폰 통과대역의 시작 주파수 아래의 대역들에서 상기 음성 신호를 감쇠시키는 단계
    를 더 포함하는, 방법.
  6. 제3항에 있어서, 상기 결정하는 단계는,
    상기 마이크로폰 통과대역 및 상기 라우드스피커 통과대역을 각각 정의하는 시작 주파수들 및 정지 주파수들을 식별하는 단계; 및
    상기 시작 주파수들의 최대치로부터 상기 정지 주파수들의 최소치까지 확장되는 통과대역으로서 상기 중첩 통과대역을 계산하는 단계를 포함하는 것인, 방법.
  7. 제1항에 있어서,
    상기 다중대역 음성 명료도 결과들을 계산하는 단계는, 대역별 음성 명료도 값들 및 전역 음성 대 잡음비를 계산하는 단계를 포함하는 것인, 방법.
  8. 제1항에 있어서, 상기 다중대역 음성 명료도 결과들을 계산하는 단계는,
    상기 음성 신호 및 상기 잡음 신호의 짧은/중간 길이 세그먼트들에 기초하여 다중대역 음성 명료도 분석을 수행하여, 단기 음성 명료도 결과들(short term voice intelligibility results)을 생성하는 단계; 및
    상기 음성 신호 및 상기 잡음 신호의 짧은/중간 길이 세그먼트들보다 긴 상기 음성 신호 및 상기 잡음 신호의 긴 세그먼트들에 기초하여 다중대역 음성 명료도 분석을 수행하여, 장기 음성 명료도 결과들을 생성하는 단계를 포함하는 것인, 방법.
  9. 제1항에 있어서,
    상기 마이크로폰 전달 함수에 기초하여 상기 잡음 신호의 다중대역 보정을 수행하여, 보정된 잡음 신호를 생성하는 단계; 및
    상기 라우드스피커 전달 함수에 기초하여 상기 음성 신호의 다중대역 보정을 수행하여 보정된 음성 신호를 생성하는 단계
    를 더 포함하고,
    상기 계산하는 단계는, 상기 보정된 잡음 신호 및 상기 보정된 음성 신호에 기초하여 상기 주파수 분석 영역에 걸쳐 상기 다중대역 음성 명료도 결과들을 계산하는 단계를 포함하는 것인, 방법.
  10. 제9항에 있어서,
    상기 잡음 신호의 다중대역 보정을 수행하기 전에, 상기 마이크로폰의 감도에 기초하여 상기 잡음 신호의 디지털-음향 레벨 변환(digital-to-acoustic level conversion)을 수행하는 단계; 및
    상기 음성 신호의 다중대역 보정을 수행하기 전에, 상기 라우드스피커의 감도에 기초하여 상기 음성 신호의 디지털-음향 레벨 변환을 수행하는 단계
    를 더 포함하는, 방법.
  11. 장치에 있어서,
    환경에서의 잡음을 검출하여, 잡음 신호를 생성하기 위한 마이크로폰;
    상기 환경으로 음성 신호를 재생하기 위한 라우드스피커; 및
    상기 마이크로폰 및 상기 라우드스피커에 결합되고,
    상기 마이크로폰의 마이크로폰 전달 함수에 기초하여 상기 잡음 신호의 다중대역 보정을 수행하여, 보정된 잡음 신호를 생성하는 것;
    상기 라우드스피커의 라우드스피커 전달 함수에 기초하여 상기 음성 신호의 다중대역 보정을 수행하여 보정된 음성 신호를 생성하는 것;
    상기 보정된 잡음 신호 및 상기 보정된 음성 신호에 기초하여 다중대역 음성 명료도 결과들을 계산하는 것;
    상기 다중대역 음성 명료도 결과들에 기초하여 다중대역 이득 값들을 계산하는 것; 및
    상기 다중대역 이득 값들에 기초하여 상기 음성 신호를 증대시키는 것
    을 수행하도록 구성된 컨트롤러
    를 포함하는, 장치.
  12. 제11항에 있어서, 상기 컨트롤러는 또한,
    상기 다중대역 음성 명료도 결과들을 사용하여 상기 음성 신호의 명료도를 증대시키는 것을 수행하도록 구성되는 것인, 장치.
  13. 제11항에 있어서, 상기 컨트롤러는 또한,
    상기 마이크로폰 전달 함수의 마이크로폰 통과대역과 상기 라우드스피커 전달 함수의 라우드스피커 통과대역이 중첩되는 중첩 통과대역을 결정하는 것을 수행하도록 구성되고,
    상기 컨트롤러는, 상기 중첩 통과대역으로 제한된 음성 분석 대역들에 걸쳐 대역별 음성 명료도 값들을 계산함으로써 상기 계산하는 것을 수행하도록 구성되는 것인, 장치.
  14. 제13항에 있어서, 상기 컨트롤러는 또한, (i) 상기 중첩 통과대역으로 제한된 상기 음성 분석 대역들에 걸친 상기 보정된 음성 신호의 음성 전력 대 (ii) 상기 마이크로폰 통과대역에 걸친 상기 보정된 잡음 신호의 잡음 전력의 전역 발성 대 잡음비를 계산함으로써 상기 계산하는 것을 수행하도록 구성되는 것인, 장치.
  15. 제13항에 있어서, 상기 컨트롤러는 또한,
    상기 라우드스피커 통과대역의 시작 주파수가 상기 마이크로폰 통과대역의 시작 주파수보다 더 큰지의 여부를 결정하는 것; 및
    상기 라우드스피커 통과대역의 시작 주파수가 더 클 때, 상기 마이크로폰 통과대역의 시작 주파수 아래의 대역들에서 상기 음성 신호를 감쇠시키는 것을 수행하도록 구성되는 것인, 장치.
  16. 제11항에 있어서,
    상기 컨트롤러는, 대역별 음성 명료도 값들 및 전역 발성 대 잡음비를 계산함으로써 상기 다중대역 음성 명료도 결과들을 계산하는 것을 수행하도록 구성되는 것인, 장치.
  17. 제11항에 있어서, 상기 다중대역 음성 명료도 결과들을 계산하는 것은,
    상기 보정된 음성 신호 및 상기 보정된 잡음 신호의 짧은/중간 길이 세그먼트들에 대해 다중대역 음성 명료도 분석을 수행하여, 단기 음성 명료도 결과들을 생성하는 것; 및
    상기 보정된 음성 신호 및 상기 보정된 잡음 신호의 짧은/중간 길이 세그먼트들보다 긴 상기 보정된 음성 신호 및 상기 보정된 잡음 신호의 긴 세그먼트들에 대해 다중대역 음성 명료도 분석을 수행하여, 장기 음성 명료도 결과들을 생성하는 것을 포함하는 것인, 장치.
  18. 제11항에 있어서,
    상기 잡음 신호의 다중대역 보정 전에, 상기 마이크로폰의 감도에 기초하여 상기 잡음 신호의 디지털-음향 레벨 변환을 수행하는 것; 및
    상기 음성 신호의 다중대역 보정 전에, 상기 음성 신호의 디지털-음향 레벨 변환을 수행하는 것
    을 더 포함하는, 장치.
  19. 명령어들로 인코딩되어 있는 비일시적 컴퓨터 판독가능 매체에 있어서, 상기 명령어들은 프로세서에 의해 실행될 때, 상기 프로세서가,
    마이크로폰으로부터, 환경에서의 잡음을 나타내는 잡음 신호를 수신하는 것;
    라우드스피커를 통해 상기 환경으로 재생될 음성 신호를 수신하는 것;
    상기 잡음 신호의 디지털-음향 레벨 변환, 및 마이크로폰 전달 함수에 기초한 상기 잡음 신호의 다중대역 보정을 수행하여, 보정된 잡음 신호를 생성하는 것;
    상기 음성 신호의 디지털-음향 레벨 변환, 및 라우드스피커 전달 함수에 기초한 상기 음성 신호의 다중대역 보정을 수행하여, 보정된 음성 신호를 생성하는 것; 및
    상기 보정된 잡음 신호 및 상기 보정된 음성 신호에 기초하여, 대역별 음성 명료도 값들 및 전역 발성 대 잡음비를 포함하는 다중대역 음성 명료도 결과들을 계산하는 것을 수행하게 하는 것인, 명령어들로 인코딩되어 있는 비일시적 컴퓨터 판독가능 매체.
  20. 제19항에 있어서, 상기 프로세서가 상기 계산하는 것을 수행하게 하는 명령어들은, 상기 프로세서가 음성 분석 대역들에 걸쳐 상기 보정된 잡음 신호 및 상기 보정된 음성 신호의 발성 명료도 인덱스(speech intelligibility index, SII) 분석을 수행하게 하는 명령어들을 포함하는 것인, 비일시적 컴퓨터 판독가능 매체.
  21. 제19항에 있어서, 상기 프로세서가,
    상기 마이크로폰 전달 함수의 마이크로폰 통과대역과 상기 라우드스피커 전달 함수의 라우드스피커 통과대역이 중첩되는 중첩 통과대역을 결정하는 것을 수행하게 하는 명령어들을 더 포함하고,
    상기 프로세서가 상기 계산하는 것을 수행하게 하는 명령어들은, 상기 프로세서가 상기 중첩 통과대역으로 제한된 음성 분석 대역들에 걸쳐 대역별 음성 명료도 값들을 계산하는 것을 수행하게 하는 명령어들을 포함하는 것인, 비일시적 컴퓨터 판독가능 매체.
KR1020227011770A 2019-09-11 2020-09-09 상황 인식 음성 명료도 증대 KR20220062578A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962898977P 2019-09-11 2019-09-11
US62/898,977 2019-09-11
PCT/US2020/049933 WO2021050542A1 (en) 2019-09-11 2020-09-09 Context-aware voice intelligibility enhancement

Publications (1)

Publication Number Publication Date
KR20220062578A true KR20220062578A (ko) 2022-05-17

Family

ID=72644921

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227011770A KR20220062578A (ko) 2019-09-11 2020-09-09 상황 인식 음성 명료도 증대

Country Status (6)

Country Link
US (1) US20220165287A1 (ko)
EP (1) EP4029018B1 (ko)
JP (1) JP2022547860A (ko)
KR (1) KR20220062578A (ko)
CN (1) CN114402388A (ko)
WO (1) WO2021050542A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023191210A1 (ko) * 2022-03-30 2023-10-05 엘지전자 주식회사 소리 제어 장치를 구비하는 차량

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6249237B1 (en) * 1998-10-09 2001-06-19 Lsi Logic Corporation System and method for bandpass shaping in an oversampling converter
US20070112563A1 (en) * 2005-11-17 2007-05-17 Microsoft Corporation Determination of audio device quality
WO2011019339A1 (en) * 2009-08-11 2011-02-17 Srs Labs, Inc. System for increasing perceived loudness of speakers

Also Published As

Publication number Publication date
EP4029018B1 (en) 2023-07-26
JP2022547860A (ja) 2022-11-16
US20220165287A1 (en) 2022-05-26
WO2021050542A1 (en) 2021-03-18
EP4029018A1 (en) 2022-07-20
CN114402388A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
US9117455B2 (en) Adaptive voice intelligibility processor
US8521530B1 (en) System and method for enhancing a monaural audio signal
US9361901B2 (en) Integrated speech intelligibility enhancement system and acoustic echo canceller
US9197181B2 (en) Loudness enhancement system and method
EP1312162B1 (en) Voice enhancement system
US9076456B1 (en) System and method for providing voice equalization
KR100286719B1 (ko) 통신 시스템에서 노이즈를 억압하는 방법 및 장치
JP4836720B2 (ja) ノイズサプレス装置
US20220270625A1 (en) System and method for enhancement of a degraded audio signal
US11164592B1 (en) Responsive automatic gain control
US20220165287A1 (en) Context-aware voice intelligibility enhancement
JP4824169B2 (ja) 移動電話内のスピーカ利得およびマイクロフォン利得を自動的に調整するための方法および装置
Jokinen et al. Noise-adaptive perceptual weighting in the AMR-WB encoder for increased speech loudness in adverse far-end noise conditions
Zoia et al. Device-optimized perceptual enhancement of received speech for mobile VoIP and telephony

Legal Events

Date Code Title Description
A201 Request for examination