KR102591447B1 - 음성 신호 레벨링 - Google Patents

음성 신호 레벨링 Download PDF

Info

Publication number
KR102591447B1
KR102591447B1 KR1020207001398A KR20207001398A KR102591447B1 KR 102591447 B1 KR102591447 B1 KR 102591447B1 KR 1020207001398 A KR1020207001398 A KR 1020207001398A KR 20207001398 A KR20207001398 A KR 20207001398A KR 102591447 B1 KR102591447 B1 KR 102591447B1
Authority
KR
South Korea
Prior art keywords
signal
voice
input signal
block
gain
Prior art date
Application number
KR1020207001398A
Other languages
English (en)
Other versions
KR20200026896A (ko
Inventor
마르쿠스 크리스토프
Original Assignee
하만 베커 오토모티브 시스템즈 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 하만 베커 오토모티브 시스템즈 게엠베하 filed Critical 하만 베커 오토모티브 시스템즈 게엠베하
Publication of KR20200026896A publication Critical patent/KR20200026896A/ko
Application granted granted Critical
Publication of KR102591447B1 publication Critical patent/KR102591447B1/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

음성 신호 레벨링 시스템 및 방법은, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득으로서, 이득은 이득 제어 신호에 의존하는, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득을, 입력 신호에 적용하는 것에 의해 출력 신호를 생성하는 것, 및 입력 신호에 포함되는 목소리 성분을 나타내는 적어도 하나의 음성 검출 신호를 생성하는 것을 포함한다. 시스템 및 방법은, 입력 신호 및 적어도 하나의 음성 검출 신호에 기초하여 이득 제어 신호를 생성하는 것, 및 입력 신호에서 목소리 성분이 검출되는 한 입력 신호를 미리 결정된 평균 또는 최대 또는 절대 피크 신호 레벨을 가지도록 증폭 또는 감쇠시키기 위해 제어 가능한 이득 블록을 제어하는 것을 더 포함한다.

Description

음성 신호 레벨링
본 개시내용은 음성 신호 레벨링(speech signal leveling)을 위한 시스템 및 방법(일반적으로 "시스템"으로 지칭됨)에 관한 것이다.
음성 인식 및 핸즈프리 통신과 같은 음성 신호 처리에서, 음성 인식 시스템의 적절한 인식률 또는 핸즈프리 시스템의 원단 측(far-end side)에서의 충분한 명료도를 위해서는, 잘 레벨링된 출력 음성 신호가 중요하다. 간단한 접근법에서, 자동 이득 제어(automatic gain control: AGC)는 조용히 발화되거나(spoken) 또는 먼 거리에서 발화되는 경우에도, 음성이 증폭되어 잘 레벨링된 출력 신호, 즉, 이상적으로, 자신의 피크가 수용 가능한 최대 진폭 범위의 풀 스케일인 음성 신호를 여전히 전달하는 그러한 방식으로 자신의 (입력) 이득이 설정되는 (피크) 리미터(limiter)에 기초할 수도 있다. 다른 한편으로, 더 가까운 거리에서 큰 목소리(voice)로 발화되는 임의의 음성은 리미터에 의해 풀 스케일로 감쇠된다. 이러한 방식에서, 풀 스케일을 초과하며 (피크) 리미터에 의해 풀 스케일로 제한되는 음성과는 대조적으로, 리미터가 더 자주 활성화될 것이고 그 결과 원치 않는 노이즈 및/또는 잔류 에코가 제한되지 않기 때문에, 화자(talker)이 입력 마이크까지 더 짧은 거리에 있는 경우 신호 대 노이즈 비(signal-to-noise ratio: SNR)는 감소될 것이다. 그러나, 말을 하는 사람(speaker)이 마이크로부터 너무 멀리 떨어져 있거나 또는 조용하게 말을 하는 경우, 음성 출력 신호는 풀 스케일이 아닐 것인데, 이것도 역시 SNR을 감소시킬 수도 있다. 결과적으로, 음성 레벨을 그러한 동적으로 변화하는 상황에 자동적으로 조정하는 음성 신호 레벨러가 소망된다.
음성 신호 레벨링 시스템은, 입력 신호를 수신하도록 그리고 입력 신호에 주파수 의존적 또는 주파수 독립적 제어 가능한 이득을 적용하는 것에 의해 출력 신호를 생성하도록 구성되는 제어 가능한 이득 블록을 포함하는데, 이득은 이득 제어 신호에 의존한다. 시스템은, 입력 신호를 수신하도록 그리고 입력 신호에 포함되는 목소리 성분(voice component)을 나타내는 적어도 하나의 음성 검출 신호를 생성하도록 구성되는 음성 검출 블록을 더 포함한다. 시스템은, 입력 신호 및 적어도 하나의 음성 검출 신호를 수신하도록, 그리고 입력 신호 및 적어도 하나의 음성 검출 신호에 기초하여 이득 제어 신호를 생성하도록 구성되는 이득 제어 블록을 더 포함한다. 이득 제어 블록은 또한, 입력 신호에서 목소리 성분이 검출되는 한 입력 신호를 미리 결정된 평균 또는 최대 또는 절대 피크 신호 레벨을 가지도록 증폭 또는 감쇠시키기 위해 제어 가능한 이득 블록을 제어하도록 구성된다.
음성 신호 레벨링 방법은, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득으로서, 이득은 이득 제어 신호에 의존하는, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득을, 입력 신호에 적용하는 것에 의해 출력 신호를 생성하는 것, 및 입력 신호에 포함되는 목소리 성분을 나타내는 적어도 하나의 음성 검출 신호를 생성하는 것을 포함한다. 방법은, 입력 신호 및 적어도 하나의 음성 검출 신호에 기초하여 이득 제어 신호를 생성하는 것, 및 입력 신호에서 목소리 성분이 검출되는 한 입력 신호를 미리 결정된 평균 또는 최대 또는 절대 피크 신호 레벨을 가지도록 증폭 또는 감쇠시키기 위해 제어 가능한 이득 블록을 제어하는 것을 더 포함한다.
다른 시스템, 방법, 특징부 및 이점은, 다음의 상세한 설명 및 첨부하는 도면의 검토 시, 기술 분야에서 숙련된 자에게 명백할 것이거나 또는 명백해질 것이다. 그러한 모든 추가적인 시스템, 방법, 특징부 및 이점은, 본 설명 내에 포함되어야 하고, 본 발명의 범위 내에 있어야 하며, 다음의 청구범위에 의해 보호되어야 한다는 것이 의도된다.
시스템은 다음의 도면 및 설명을 참조하여 더 잘 이해될 수도 있다. 도면에서의 컴포넌트는 반드시 일정한 비율은 아니며, 대신, 본 발명의 원리를 예시할 때 강조가 이루어진다. 또한, 도면에서, 같은 참조 번호는 상이한 도면 전체에 걸쳐 대응하는 부분을 가리킨다.
도 1은 예시적인 음성 레벨링 시스템의 신호 처리 구조 및 신호 흐름을 예시하는 단순화된 개략도이다.
도 2는 도 1에서 도시되는 음성 레벨링 시스템의 예시적인 구현예의 신호 처리 구조 및 신호 흐름을 예시하는 상세한 개략도이다.
도 3은 예시적인 음성 레벨링 방법을 예시하는 플로우차트이다.
도 4는 다른 예시적인 음성 레벨링 시스템의 신호 처리 구조 및 신호 흐름을 예시하는 단순화된 개략도이다.
도 5는 도 4에서 도시되는 음성 레벨링 시스템의 예시적인 구현예의 신호 처리 구조 및 신호 흐름을 예시하는 상세한 개략도이다.
도 6은 도 4에서 도시되는 음성 레벨링 시스템의 수정예의 신호 처리 구조 및 신호 흐름을 예시하는 상세한 개략도이다.
도 7은 도 4에서 도시되는 음성 레벨링 시스템의 다른 수정예의 신호 처리 구조 및 신호 흐름을 예시하는 상세한 개략도이다.
예시적인 음성 레벨링 시스템 및 방법의 다음의 설명에서, 블록은, 다음 중 적어도 하나를 갖는 하드웨어 시스템 또는 그것의 요소인 것으로 이해된다: 소프트웨어를 실행하는 처리 유닛(예컨대 컨트롤러, 프로세서 등) 및 소망되는 신호 전송 또는 처리 기능을 구현하기 위한 전용 회로 구조. 블록은, 특정한 신호 흐름 구조를 제공하기 위해 그리고 하기에서 상세히 설명되는 바와 같이 특정한 신호를 생성하기 위해 서로 연결될 수도 있거나 또는 다른 방식으로 서로 동작 가능하게 커플링될 수도 있다. 음성(목소리)의 특성은, 어휘의 의미가 없는 발성(vocalization)(유성 휴지(filled pause)) 및 침묵 구간(무성 휴지(empty pause))의 존재이다. 무성 및 유성 휴지는, 절 및 단락 레벨에서 가변 길이의 침묵 구간으로서 실현되는 경계와 일치할 가능성이 있고, 종종 이야기 단위(narrative unit)의 경계를 마킹한다. 음성에서의 휴지는 통상적으로, 신체적, 사회 심리적, 의사 소통의, 언어의 그리고 인지적 원인에 기인하는 다중 결정 현상이다.
도 1은 예시적인 음성 레벨링 시스템(이것은 예시적인 음성 레벨링 방법을 수행할 수도 있음)의 신호 처리 구조 및 신호 흐름을 예시하는 개략도이다. 도 1에서 도시되는 음성 레벨링 시스템은, 입력 신호(x(n))를 수신하고 출력 신호(y(n))를 제공하는 제어 가능한 이득 블록(101)(예를 들면, 제어 가능한 증폭기, 제어 가능한 감쇠기, 제어 가능한 필터, 승산기 등)을 포함한다. 출력 신호(y(n))는, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득(G)이 적용된 입력 신호(x(n))이다. 제어 가능한 이득 블록(101), 즉 그것의 이득(G)은 이득 제어 신호(g(n))를 통해 제어된다. 입력 신호(x(n))는 또한, 입력 신호(x(n))에 포함되는 목소리 성분을 나타내는 적어도 하나의 음성 검출 신호를 생성하는 음성 검출 블록(102)에 공급된다. 도시되는 예시적인 시스템에서, 두 개의 음성 검출 신호, 목소리 활동 검출 신호(voice activity detection signal)(VAD(n)), 예를 들면, VAD 플래그, 및 음성 휴지 검출 신호(speech pause detection signal)(SPD(n)), 예를 들면, SPD 플래그가 제공되는데, 그 생성 및 특성은 하기에서 더 상세하게 설명된다.
입력 신호(x(n))는 또한, 추가적으로 음성 검출 신호를 수신하고 입력 신호(x(n)) 및 음성 검출 신호(들), 예를 들면, 목소리 활동 검출 신호(VAD(n)) 및 옵션 사항으로(optionally) 음성 휴지 검출 신호(SPD(n))에 기초하여 이득 제어 신호(g(n))를 생성하는 이득 제어 블록(103)에 공급된다. 일 실시예에서, 이득 제어 블록(103)은, 입력 신호(x(n))에서 어떠한 목소리 성분도 검출되지 않는 한, 입력 신호(x(n))가 미리 결정된 평균 또는 최대 또는 절대 피크 신호 레벨을 가지게끔 증폭 또는 감쇠되도록 제어 가능한 이득 블록(101)을 제어한다. 예를 들면, 입력 신호(x(n))에서 어떠한 목소리 성분도 검출되지 않는 한, 입력 신호(x(n))는 차단될 수도 있다, 즉, 출력 신호(y(n))는 (거의) 제로이다.
도 1에서 도시되는 음성 레벨링 시스템은, 입력 신호(x(n))가 음성 검출 블록(102) 및 이득 제어 블록(103)에 공급될 때 제어 가능한 이득 블록(101)에 공급되는 입력 신호(x(n))가 입력 신호(x(n))와 관련하여 지연되도록, 입력 신호(x(n))가 제어 가능한 이득 블록(101)에 공급되기 이전에 입력 신호(x(n))를 소정의 시간(예를 들면, 소정 수의 프레임 또는 샘플)만큼 지연시키는 옵션 사항의(optional) 지연 블록(104)을 더 포함할 수도 있다. 지연 블록(104)이 활용될 수도 있는 상황은 하기에서 추가로 개설된다(outlined).
음성 검출 블록(102)은 또한, 예를 들면, 레지스터 또는 메모리(둘 모두 도시되지 않음)로부터, 목소리 활동 검출을 위해, SNR 임계치(VadSnrTH), 임계치(VadTH), 및 타이머 값(VadTimer)을, 그리고, 옵션 사항으로, 옵션 사항의 음성 휴지 검출을 위해, SNR 임계치(SpdSnrTH), 임계치(SpdTH), 및 타이머 값(SpdTimer)을 수신할 수도 있다. 게다가, 최소 노이즈 임계치(MinNoise), 초기 제곱 평균 제곱근(root mean square: RMS) 값(RmsInit_dB), 제곱 평균 제곱근 임계치(RMSTH), 및 임계치(MaxAbsPeak) 중 적어도 하나가 음성 검출 블록(102)에 제공될 수도 있다. 이득 제어 블록(103)은 또한, 예를 들면, 레지스터 또는 메모리(둘 모두 도시되지 않음)로부터, 옵션 사항의 평활화 시간 파라미터(τSmooth), 튜닝 파라미터(MaxVadGain) 및 튜닝 파라미터(MaxSpdGain) 중 적어도 하나, 및 기준 레벨(RefLevel) 또는 기준 피크 레벨(RefPeakLevel)을 수신할 수도 있다. 옵션 사항으로, (피크) 리미터 블록(105)는, 출력 신호(y(n))를 수신하기 위해 그리고 제한된 출력 신호(Out(n))를 제공하기 위해, 제어 가능한 이득 블록(101)의 하류에 동작 가능하게 연결될 수도 있다. (피크) 리미터 블록(105)은 또한, 미리 결정된 리미터 이득(LimGain), 리미터 임계치(LimTh), 어택 타임(attack time)(AttackT), 및 릴리스 타임(release time)(ReleaseT)을 수신할 수도 있다.
도 2는 다른 예시적인 음성 레벨링 시스템(이것은 다른 예시적인 음성 레벨링 방법을 수행함)의 신호 처리 구조 및 신호 흐름을 예시하는 개략도이다. 도 2에서 도시되는 음성 레벨링 시스템에서, 음성 검출기 블록(201)은 입력 신호(x(n))를 시간 도메인으로부터 주파수 도메인으로 변환하는 것을 포함할 수도 있는데, 이것은 시간-주파수 변환 블록(202)에 의해 수행될 수도 있다. 입력 신호(x(n))의 스펙트럼 성분은, 대역 통과 필터링 및 푸리에(Fourier) 변환을 비롯한 다양한 방식에 의해 획득될 수 있다. 하나의 접근법에서, 입력 신호의 N 개의 포인트의 순차적 블록을 변환하기 위해, 이산 푸리에 변환(Discrete Fourier Transform: DFT) 또는 고속 푸리에 변환(Fast Fourier Transform: FFT)이 사용될 수도 있다. Hanning(해닝) 윈도우와 같은 윈도우 함수가 적용될 수도 있는데, 이 경우, N/2 개의 포인트의 오버랩이 사용될 수 있다. DFT는 입력 신호의 각각의 주파수 빈에서 사용될 수 있다. 대안적으로, FFT는 입력 신호에 의해 점유되는 전체 주파수 대역에 걸쳐 사용될 수 있다. 스펙트럼은 각각의 주파수 빈에 대해 입력 신호 대역 내에 저장된다.
본 예에서, 시간-주파수 변환 블록(202)은 주파수 도메인의 신호(X(ω))를 생성하기 위해 시간 도메인의 입력 신호(x(n))에 옵션 사항의 윈도우화(도시되지 않음)를 갖는 FFT를 적용한다. 신호(X(ω))는, 옵션 사항으로, 예를 들면, 적절한 길이의 이동 평균 필터(moving average filter)를 활용하여 평활화될 수도 있다.
(옵션 사항의) 스펙트럼 평활화는 복수의 주파수 빈을 고려할 수도 있는데, 이것은 스펙트럼 해상도를 감소시킨다. 시간-주파수 변환 블록(202)의 출력은, 시간-주파수 변환 블록(202)의 하류에 동작 가능하게 커플링되는 다수(M 개)의 시간적 평활화 블록(203)에 의해 추가로 평활화된다. 다수의 시간적 평활화 블록(203)은 시간 경과에 따른 주파수 빈 값을 결합하여 시간-주파수 변환 블록(202)의 출력 신호에서 시간적 역학(temporal dynamics)을 감소시킨다.
다수의 시간적 평활화 블록(203)은, 임펄스 왜곡(impulsive distortion)뿐만 아니라 배경 노이즈를 여전히 포함할 수도 있는 시간적 평활화된 신호를 출력한다. 다수(M 개)의 노이즈 추정 블록(204)은 다수의 시간적 평활화 블록(203)의 하류에 동작 가능하게 커플링되어, 다수의 시간적 평활화 블록(203)의 출력에서의 음성과 같은 임펄스 왜곡을 스미어 아웃하고(smear out) 현재 배경 노이즈를 추정한다. 음악 또는 목소리 신호와 같은 소망되는 신호의 스미어링(smearing)을 감소 또는 방지하기 위해, 다수의 노이즈 추정 블록(204)에서 비선형 평활화(도시되지 않음)가 활용될 수도 있다.
다수의 시간적 평활화 블록(203)으로부터의 평활화된 신호 및 다수의 노이즈 추정 블록(204)으로부터의 추정된 준 정지(quasi stationary) 배경 노이즈 신호에 기초하여, SNR에서의 변동은, 예를 들면, SNR 값의 주파수 분포로서 결정(계산)될 수 있다. SNR에서의 변동을 사용하여, 소망되는 음성 또는 음악 신호로부터 노이즈가 구별될 수 있다. 예를 들면, 낮은 SNR 값은, 에어컨, 팬, 열린 창, 또는 전기 디바이스 예컨대 컴퓨터 등등과 같은 다양한 노이즈 소스에 연결될 수도 있다. SNR은 시간 도메인에서 또는 주파수 도메인에서 또는 하위 대역 도메인에서 평가될 수도 있다.
다수(M 개)의 비교기 블록(206)에서, 다수(M 개)의 SNR 결정 블록(205)에 의해 결정되는 출력 SNR 값은 미리 결정된 임계치, 예를 들면, SNR 임계치(VadSnrTH)와 비교된다. 결정된 현재의 SNR 값이 미리 결정된 임계치(VadSnrTH)보다 더 큰 경우, 플래그(VadSnrFlag)는 제1 논리 값, 예를 들면, '1'로 설정될 것이다. 그렇지 않으면, 플래그(VadSnrFlag)는 제2 논리 값, 예를 들면, '0'으로 설정될 것이다. 다수의 비교기 블록(206)으로부터의 플래그는 합산 블록(207)으로 전달된다. 합산 블록(207)은 다수의 비교기 블록(206)으로부터의 스펙트럼 플래그(VadSnrFlag)를 합산하고 시변 합 신호(time varying sum signal)(SVAD(n))를 출력한다. 게다가, RMS 결정 블록(211)은 입력 신호(x(n))의 (제곱 평균 제곱근) 평균을 나타내는 평균 신호(RMS(n))를 제공할 수도 있다. 합 신호(SVAD(n)) 및 평균 신호(RMS(n))는 비교기 블록(208)로 전달되는데, 여기서 합 신호(SVAD(n))는 미리 결정된 합 임계치(VADTH)와 비교되고, 평균 신호(RMS(n))는 미리 결정된 임계치(RMSTH)와 비교된다. 합 신호(SVAD(n))의 현재의 값이 미리 결정된 합 임계치(VADTH)보다 더 크고, 평균 신호(RMS(n))가 미리 결정된 임계치(RMSTH)보다 더 큰 경우, 업데이트된 합 신호(SVAD(n))로 간주될 수 있는 플래그(S'VAD(n))가 제1 논리 상태, 예를 들면, '1'(1)로 설정될 것이다. 그렇지 않으면, 플래그(S'VAD(n))는 다른 논리 상태, 예를 들면, '0'(제로)로 설정될 것이다. RMS 결정 블록(211) 대신, 후속하여 최대 절대 피크 값을 최대 절대 피크 임계치와 비교하기 위해, 입력 신호(x(n))의 최대 절대 피크 값을 결정하도록 구성되는 최대 절대 피크 결정 블록(도시되지 않음)이 사용될 수도 있다.
비교기 블록(208)의 출력 신호, 즉 플래그(S'VAD(n))는, 플래그(S'VAD(n))가 '0'인지 또는 아닌지의 여부를 검출하는 목소리 활동 검출(VAD) 타이머 블록(209)으로 전달된다. 시간 n에서, 플래그(SVAD(n))가 '0'이면, VAD 타이머 블록(209)은 카운트(TVAD(n))를 TVAD(n-1)-1로 설정한다, 즉, 이전의 카운트(TVAD(n-1))를 1만큼 감소시킨다. 플래그(SVAD(n))가 '0'이 아닌 경우, 즉, '1'인 경우, 카운트(TVAD(n))는 초기화 값(VadTimerInit)으로 재설정될 것이다. VAD 타이머 블록(209)의 출력, 즉 카운트(TVAD(n))는, 카운트(TVAD(n))가 미리 결정된 임계치, 예를 들면, 제로와 비교되는 목소리 활동 검출(VAD) 블록(210)으로 전달된다. 현재의 카운트(TVAD(n))가 미리 결정된 임계치(제로)보다 더 큰 경우, 플래그(VAD(n))는 '1'로 설정될 것이고, 그렇지 않으면 '0'으로 설정될 것이다.
추가적으로 또는 대안적으로, 다수(M 개)의 비교기 블록(212)에서, 다수(M 개)의 SNR 결정 블록(205)에 의해 결정되는 SNR 값은 미리 결정된 임계치, 예를 들면, SNR 임계치(SpdSnrTH)와 비교된다. 결정된 현재의 SNR 값이 미리 결정된 임계치(SpdSnrTH)보다 더 큰 경우, 플래그(SpdSnrFlag)는 예를 들면, '1'로 설정될 것이다. 그렇지 않으면, 플래그(SpdSnrFlag)그는 '0'으로 설정될 것이다. 다수의 비교기 블록(212)으로부터의 플래그는 합산 블록(213)으로 전달된다. 합산 블록(213)은 다수의 비교기 블록(212)으로부터의 플래그(SpdSnrFlag)를 합산하여 시변 합 신호(SSPD(n))를 출력한다. RMS 결정 블록(211)으로부터의 합 신호(SSPD(n)) 및 평균 신호(RMS(n))는 비교기 블록(214)으로 전달되는데, 여기서 합 신호(SSPD(n))는 미리 결정된 합 임계치(SPDTH)와 비교되고, 평균 신호(RMS(n))는 미리 결정된 임계치(RMSTH)와 비교된다. 합 신호(SSPD(n))의 현재의 값이 미리 결정된 합 임계치(SPDTH)보다 더 크고, 평균 신호(RMS(n))가 미리 결정된 임계 임계치(RMSTH)보다 더 큰 경우, 업데이트된 합 신호(S'SPD(n))로 간주될 수 있는 플래그(S'SPD(n))는, 예를 들면, '1'로 설정될 것이다. 그렇지 않으면, 플래그(S'SPD(n))는 '0'으로 설정될 것이다.
비교기 블록(214)의 출력 신호, 즉, 플래그(S'SPD(n))는, 플래그(S'SPD(n))가 '0'인지 또는 아닌지의 여부를 검출하는 음성 휴지 검출(speech pause detection: SPD) 타이머 블록(215)으로 전달된다. 시간 n에서, 플래그(S'SPD(n))가 '0'이면, SPD 타이머 블록(215)은 카운트(TSPD(n))를 TSPD(n-1)-1로 설정한다, 즉, 이전의 카운트(TSPD(n-1))를 1만큼 감소시킨다. 플래그(S'SPD(n))가 '0'이 아닌 경우, 즉 '1'인 경우, 카운트(TSPD(n))는 초기화 값(SpdTimerInit)으로 재설정될 것이다. SPD 타이머 블록(215)의 출력, 즉, 카운트(TSPD(n))는 음성 휴지 검출(SPD) 블록(216)으로 전달되는데, 여기서 카운트(TSPD(n))는 미리 결정된 임계치, 예를 들면, 제로와 비교된다. 현재의 카운트(TSPD(n))가 미리 결정된 임계치(제로)보다 더 작거나 또는 동일한 경우, 플래그(SPD(n))는 '1'로 설정될 것이고, 그렇지 않으면 '0'으로 설정될 것이다.
시간 n에서 플래그(VAD(n))가 '1'인 경우, 목소리 활동이 검출된다. '0'인 경우, 어떠한 음성 활동도 검출되지 않는다. 시간 n에서 플래그(SPD(n))가 '1'인 경우, 음성 휴지가 검출된다. '0'인 경우, 어떠한 음성 휴지도 검출되지 않는다. 예를 들면, VAD 타이머 블록(209)에서 활용되는 바와 같은 초기화 값(VadTimerInit) 및 SPD 타이머 블록(215)에서 활용되는 바와 같은 SpdTimerInit는 상이할 수도 있다. 비교기 블록(206)에서 활용되는 바와 같은 SNR 임계치(VadSnrTH) 및 비교기 블록(212)에서 활용되는 바와 같은 SpdSnrTH는, 예를 들면, 상이한 값을 가질 수도 있다. 비교기 블록(208 및 214)에서 활용되는 바와 같은 합 임계치(VADTH 및 SPDTH)는, 예를 들면, 동일할 수도 있다.
도 2에서 도시되는 음성 레벨링 시스템에서, 이득 제어 블록(217)은, 입력 신호(x(n)), 플래그(VAD(n)), 및 평활화된 RMS 신호(SRMS(n-1))의 이전의 샘플을 수신하며, 신호(InRMS(n))를 출력하는 음성 RMS 레벨 결정 블록(218)을 포함한다. 플래그(VAD(n))가 '1'인 경우, 신호(InRMS(n))는 입력 신호(x(n))에 대응하고, 그렇지 않으면, 평활화된 RMS 신호(SRMS(n-1))의 이전의 샘플의 값으로 설정된다. 신호(InRMS(n))는, 옵션 사항으로, 초기 제곱 평균 제곱근(RMS) 값(RmsInit_dB)을 활용하는 후속하는 RMS 결정(계산)의 대상이 된다. RMS 결정으로부터의 값은, 평활화된 RMS 신호(SRMS(n))를 제공하는 평활화 블록(219)으로 공급된다. 한편으로, 평활화된 RMS 신호(SRMS(n))는, 음성 RMS 레벨 결정 블록(218)으로 피드백되는 평활화된 RMS 신호(SRMS(n-1))의 이전의 샘플을 생성하기 위해 하나의 샘플만큼 지연되고, 다른 한편으로, 기준 레벨(RefLevel)과 평활화된 RMS 신호(SRMS(n)) 사이의 비율에 따라 이득 제어 신호(Gain(n))가 생성되는 이득 결정 블록(220)으로 공급된다.
옵션 사항의 이득 제한 블록(221)에서, 이득 제어 신호(Gain(n))는 기준 값(MaxVadGain)와 비교된다. 결과적으로, 이득 제어 신호(Gain(n))가 기준 값(MaxVadGain)보다 더 큰 경우, 업데이트된 이득 제어 신호(Gain(n))로 간주될 수 있는 제한된 이득 제어 신호(Gain'(n))인 이득 제한 블록(221)의 출력 신호는 기준 목소리 활동 값(MaxVadGain)으로 설정되고, 그렇지 않으면, 이득 제어 신호(Gain(n))로 설정된다. 본 예에서, 제한된 이득 제어 신호(Gain'(n))는, 플래그(VAD(n)) 및 SPD(n)뿐만 아니라 기준 음성 휴지 값(MaxSpdGain)을 추가로 수신하는 SPD 이득 제한 블록(222)으로 공급된다. 시간 n에서 플래그(SPD(n))가 '1'이고 플래그(VAD(n))가 '0'인 경우, 업데이트된 이득 제어 신호(Gain'(n))로 간주될 수 있는 최종 이득 제어 신호(Gain"(n))는 기준 음성 휴지 값(MaxSpdGain)으로 설정되고, 그렇지 않으면, 제한된 이득 제어 신호(Gain'(n))로 설정된다. 대안적으로, 블록(222)은 SPD 플래그만을 수신할 수도 있다. 최종 이득 제어 신호(Gain"(n))는, 옵션 사항의 지연 블록(242)을 통해 입력 신호(x(n))를 공급받으며 옵션 사항의 피크 리미터(225)를 통해 제한된 출력 신호(Out(n))를 출력하는 제어 가능한 이득 블록(223)을 제어하기 이전에, 옵션 사항으로, 평활화 필터 블록(226)을 통해 시간 경과에 따라 평활화될 수도 있다.
도 2에서 도시되는 시스템에서, 목소리 활동 검출 플래그(VAD(n)) 및 옵션 사항의 음성 휴지 검출 플래그(SPD(n))의 결정을 위해 두 개의 상이한 튜닝 세트가 사용된다. 그러나, 둘 모두 동일한 스펙트럼 SNR 값에 기초한다. 이미 상기에서 언급된 바와 같이, 목소리 활동 검출 플래그(VAD(n))의 결정을 위해, 음성 휴지 검출 플래그(SPD(n))의 결정을 위한 SNR 임계치(SpdSnrTH)에 대한 것보다 SNR 임계치(VadSnrTH)에 대해 더 높은 값이 사용될 수도 있다. 이것은, 한편으로, 음성이 존재한다는 것이 확실한 경우에만 목소리 활동 검출 플래그(VAD(n))를, 그러므로, 높은 임계치의 적용을 설정하는 것을 허용하고, 다른 한편으로, 음성 휴지가 발생한다는 것이 확실한 경우에만 음성 휴지 검출 플래그(SPD(n))를 '1'로 설정하는 것을 허용한다. 이것은, 모호한 음성 부분조차도 검출된 음성 활동으로 나타나도록 각각의 SNR 임계치를 더 낮은 값으로 설정하는 것에 의해 달성될 수도 있고, 따라서, 음성 휴지 검출 플래그(SPD(n))의 잘못된 설정을 방지할 것이다.
게다가, 주어진 신호 대 노이즈 비 임계치(VadSnrTH 및 SpdSnrTH)를 초과하는 스펙트럼 라인의 수가 결정되고(카운팅되고), 이들 수는 목소리 활동 검출부에 대한 임계치(VADTH) 및 음성 휴지 검출부에 대한 임계치(SPDTH)와 비교된다. 병행하여, 입력 신호(x(n)), 또는 출력 신호(y(n))와 같은 입력 신호(x(n))에 대응하는 신호의 RMS 값은 또한, 수반되는 FFT의 길이 및 선택된 오버랩에 자신의 사이즈가 의존할 수도 있는 프레임마다 계산된다. 예를 들면, FFT 길이는 16 kHz의 샘플링 주파수(fs)에서 512 개의 탭일 수도 있고 오버랩은 50 %로 설정될 수도 있는데, 이것은 256 개의 샘플의 프레임 사이즈로 이어진다. 이것은, 샘플의 매 블록(예를 들면, 매 256 번째 샘플) 이후, 입력 신호(x(n)), 또는 출력 신호(y(n))와 같은 입력 신호(x(n))에 대응하는 신호의 RMS 값이 모든 블록 샘플(예를 들면, 256 개의 이전의 샘플)로부터 계산되고, 그 다음, RMS 임계치(RMSTH)와 비교된다는 것을 의미한다. 현재의 RMS 값(RMS(n))이 임계치(RMSTH)를 초과하는 경우에만, 임계치(VadSnrTH 및 SpdSnrTH)를 초과하는 스펙트럼 신호 대 노이즈 비의 샘플의 수를 비교하는 이전의 스테이지의 긍정적인 결정이 수락될 것이다(또는 수락되지 않을 것이다). 현재의 RMS 값(RMS(n))이 RMS 임계치(RMSTH)를 초과하지 않는 경우, 긍정적인 목소리 활동도 만들어지지 않을 것이고 긍정적인 음성 휴지 결정도 만들어지지 않을 것이며, 대신, 현재의 상태가 유지될 것이다.
RMS 처리부는, 신호 대 노이즈 비가 높지만 그러나 입력 신호의 레벨이 낮은 경우에 목소리 활동 검출 및 음성 휴지 검출을 위한 검출 플래그의 잘못된 설정을 방지하는 역할을 한다. 신호 대 노이즈 비가 상대적인 값이기 때문에, 예를 들면, 에코 전용 시나리오에서와 같이 입력 신호의 레벨이 매우 낮더라도, 높은 신호 대 노이즈 비가 발생하는 것이 가능하다. 그러한 경우, 잔류 에코의 레벨은 매우 낮을 수 있지만 그러나 그것의 신호 대 노이즈 비는 여전히 높을 수 있고, 그러한 만큼, 단독 의사 결정자로 간주되는 경우, 목소리 활동 검출을 위한 플래그(VAD(n)) 및 음성 휴지 검출을 위한 플래그(SPD(n))를 잘못 트리거할 수 있을 것이다. 이것을 방지하기 위해, 최종 결정이 이루어지기 이전에, 추가적으로 적어도 하나의 다른 절대 값이 활용될 수도 있다. 하나의 접근법은, 입력 신호(x(n)) 또는 출력 신호(y(n))의 에너지 또는 RMS 값을 고려하는 것이다. 예를 들면, 매우 작은 입력 신호에 의한 목소리 활동 검출을 위한 플래그(VAD(n)) 및 음성 휴지 검출을 위한 플래그(SPD(n))의 잘못된 설정이 방지되도록, 신호 대 노이즈 비는, 예를 들면, 현재의 RMS 값이 소정의 한계를 초과하는 경우에만 고려될 것이다. 다른 접근법에서, 최소 노이즈 임계치(MinNoise)는 훨씬 더 높은 값으로 설정된다. 따라서, 매우 작은 입력 신호는 이 임계치로 제한될 수 있고, 결과적으로, 매우 작은 입력 신호의 경우에 달성 가능한 신호 대 노이즈 비는 감소될 것이다.
이득이 바람직하지 않은 높은 값으로 상승하는 것을 방지하기 위해, 잔류 에코는 풀 스케일로 더 많이 또는 더 적게 증폭될 수도 있고 그리고/또는 이득은, 예를 들면, 옵션 사항의 튜닝 파라미터(MaxVadGain)를 통해 최대치로 제한될 수도 있다. 그에 의해, 목소리 활동 검출 및 음성 휴지 검출을 위한 상이한 타이머 값이 활용될 수도 있다. 목소리 활동 검출을 위한 타이머가 단어의 평균 길이로 설정될 수도 있는 반면, 시변 음성 휴지 검출 플래그(SPD(n))가 '1'로 설정되기 이전에 발언(utterance)이 확실하게 완료된다는 것을 보장하기 위해, 음성 휴지 검출을 위한 타이머는 더 높은 값으로 설정될 수도 있다. 대조적으로, 시변 목소리 활동 검출 플래그(VAD(n))는, 자신의 초기 타이머 값(VadTimerInit)이 만료된 경우, '0'으로 설정될 것이다.
시변 VAD 플래그가 '1'로 설정되는 경우, 즉, 활성 음성 시퀀스에 있는 경우, RMS 값, 또는 대안적으로, 입력 신호(x(n))의 최대 절대 피크 값이 결정될 것이다. 그렇지 않으면, 평활화된 음성 RMS 값(SRMS(n-1))의 이전의 샘플은 평활화 필터로 전달될 것이다. 바람직하지 않은 과도 효과(transient effect)를 방지하기 위해, RMS 결정은, 옵션 사항으로, 적절히 선택된 초기화 값(RmsInit_dB)을 사용하여 초기화될 수도 있다. 평활화 필터로서, 예를 들면, 상대적으로 긴 평활화 시간 상수(τ)를 갖는 무한 임펄스 응답(Infinite Impulse Response: IIR) 저역 통과 필터가 사용될 수도 있다. 현재의 이득 값(Gain(n))은, Gain(n) = RefLevel/SRMS(n)이도록, 음성 출력 신호의 소망되는 기준 RMS 값, 즉, 기준 레벨(RefLevel) 또는 대안적으로 기준 피크 레벨(RefPeakLevel)과 이 평활화 필터의 출력 신호, 즉, SRMS(n)의 비율을 취하는 것에 의해 결정(계산)된다.
게다가, 이미 상기에서 설명된 바와 같이, 매우 작은 입력 신호의 연속적인 증폭을 방지하기 위해, 이득 값(Gain(n))의 최대치의 옵션 사항의 제한이 적용될 수도 있다. 핸즈프리 애플리케이션에서 레벨 보상기로서 역할을 할 수도 있고 시변 목소리 활동 검출 플래그(VAD(n)) 및/또는 시변 음성 휴지 검출 플래그(SPD(n))에 의해 제어될 수도 있는, 이득 값의 여전히 다른 제한 사항이 옵션 사항으로 적용될 수도 있다. 그에 의해, 음성 휴지가 검출되고 어떠한 목소리 활동도 검출되지 않을 때마다, 예를 들면, 음성 휴지 검출 플래그(SPD(n)가 '1'을 취하고 시변 목소리 활동 검출 플래그(VAD(n))가 '0'을 취할 때마다, 이득 값(Gain(n))은 주어진 한계(MaxSpdGain)로 감소될 것이다. 예를 들면, SPD(n) = '1'이고 VAD(n) = '0'인 경우, 입력 신호(x(n))에 어떠한 이득도 적용되지 않을 것이거나 또는 심지어 이득 감소가 적용될 것이다.
"이득 값의 게이팅"으로 또한 간주될 수 있는 상기에서 개설되는 절차는, 예를 들면, -52 dB 이상의 단말 커플링 손실 가중(Terminal Coupling Loss weighted: TCLw) 값에 대한 주어진 요건을 충족하는 것이 가능하도록, 예를 들면, 핸즈프리 모드에서 TCLw 값에 대한 요건을 충족하는 것을 허용하는데, 디바이스의 스피커(들)로부터 d = 1 m의 거리에서 L
Figure 112020004713382-pct00001
-76 dBSPL(A)의 음압 레벨에 도달하기 위해서는, 디바이스가 미리 정의된 재생 볼륨에서 재생하고 있는 동안 디바이스에 설치되는 마이크에 근접한 기준 마이크에 의해 취해지는 입력 신호와 디바이스의 최종 전기적 출력 신호 사이에서 이 값이 도달되어야 한다는 것을 TCLw 값의 측정이 규정하기 때문이다. 핸즈프리 모드에서, 음성 인식 모드에서의 경우와 마찬가지로, 약 -24 dBFS의 최소 출력 음성 RMS 신호를 전달하는 것이 또한 명시된다. 이득 결정 유닛의 앞서 언급된 게이팅 기능성이 없다면, 이들 다소 상충되는 요건은 거의 충족될 수 없다.
설명된 시스템에서, 음성 휴지를 확실하게 감지하는 것 및, 그러한 만큼, 필요로 되는 게이팅을 이득 값(Gain(n))에 적용하는 것이 가능하다. 주요 도전 과제는, 일단 (근단의(near end) 화자로부터의) 음성이 다시 활성화되면, 이 게이팅 스테이지를 충분히 빨리 떠나는 것이다. 이것이 보장되지 않으면, 설정 중인 음성(on-setting speech)의 제1 부분이 소망되는 대로 증폭되지 않을 수도 있고, 그러한 만큼, 음성 인식 시스템에 의해서도, 또한 인간 청취자(원단의 화자)에 의해서도 이해될 수 없는 경우가 있을 수도 있다. 이것을 방지하는 한 가지 방식은, 빠르게 반응하는 목소리 활동 검출 및/또는 음성 휴지 검출을 사용하는 것이다. 이것은, 결정의 일부로서 주어진 임계치와 비교될 평활화되지 않은 순간 RMS 값을 사용하는 것에 의해 실현될 수 있다. 이것이 충분하지 않은 경우, 현재의 이득(Gain(n))이 입력 신호에 적용되기 이전에, 입력 신호는, 옵션 사항으로, 하나의 또는 여러 개 프레임만큼 지연될 수 있다. 최대로 주어진 레이턴시가 초과되지 않는 한, 이것은 행해질 수 있다.
도 3은 예시적인 음성 레벨링 방법을 예시하는 플로우차트이다. 방법은, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득을 입력 신호에 적용하는 것에 의해 출력 신호가 생성되는 절차(301)를 포함하는데, 이득은 이득 제어 신호에 의존한다. 절차(302)에서, 입력 신호에 포함되는 목소리 성분을 나타내는 적어도 하나의 음성 검출 신호가 생성된다. 방법은, 입력 신호 및 적어도 하나의 음성 검출 신호에 기초하여 이득 제어 신호가 생성되고, 어떠한 목소리 성분도 입력 신호에서 검출되지 않는 한 미리 결정된 평균 신호 레벨을 가지게끔, 예를 들면, 어떠한 목소리 성분도 입력 신호에서 검출되지 않는 한 어떠한 출력 신호도 제공되지 않도록 입력 신호를 차단하게끔, 입력 신호를 증폭 또는 감쇠시키도록 제어 가능한 이득 블록이 제어되는 절차(303)를 더 포함한다.
도 4는 다른 예시적인 음성 레벨링 시스템의 신호 처리 구조 및 신호 흐름을 예시하는 단순화된 개략도이다. 도 4에서 도시되는 시스템은, 원단으로 전송되는 출력 신호(OutTfe(n))를 입력 신호로서 수신하고 출력 신호(Out(n))를 제공하는 제어 가능한 이득 블록(401)(예를 들면, 제어 가능한 증폭기, 제어 가능한 감쇠기, 제어 가능한 필터, 승산기 등)을 포함한다. 출력 신호(Out(n))는, 여기서는, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득(G)이 적용된 출력 신호(OutTfe(n))이다. 제어 가능한 이득 블록(401), 즉, 그것의 이득(G)은 이득 제어 신호(g(n))를 통해 제어된다. 출력 신호(OutTfe(n))는 또한, 출력 신호(OutTfe(n))에 포함되는 목소리 성분을 나타내는 적어도 하나의 음성 검출 신호를 생성하는 음성 검출 블록(402)에 공급된다. 도시되는 예시적인 시스템에서, 두 개의 음성 검출 신호, 제1 목소리 활동 검출 신호(VadTfe(n)), 예를 들면, 제1 VAD 플래그, 및 제2 목소리 활동 검출 신호(VadFfe(n)), 예를 들면, 제2 VAD 플래그가 제공되는데, 그들의 생성 및 특성은 하기에서 추가로 상세히 설명된다.
출력 신호(OutTfe(n))는 또한, 추가적으로 음성 검출 신호를 수신하고 출력 신호(OutTfe(n)) 및 음성 검출 신호(들), 제1 목소리 활동 검출 신호(VadTfe(n)) 및 제2 목소리 활동 검출 신호(VadFfe(n))에 기초하여 이득 제어 신호(g(n))를 생성하는 이득 제어 블록(403)에 공급된다. 일 실시예에서, 이득 제어 블록(403)은, 출력 신호(OutTfe(n))에서 어떠한 목소리 성분도 검출되지 않는 한 출력 신호(OutTfe(n))가 미리 결정된 평균 또는 최대 또는 절대 피크 신호 레벨을 가지게끔 증폭 또는 감쇠되도록, 제어 가능한 이득 블록(401)을 제어한다. 예를 들면, 출력 신호(OutTfe(n))에서 어떠한 목소리 성분도 검출되지 않는 한, 출력 신호(OutTfe(n))는 차단될 수도 있다, 즉, 출력 신호(Out(n))는 (거의) 제로이다.
도 4에서 도시되는 음성 레벨링 시스템은, 입력 신호(x(n))가 음성 검출 블록(402) 및 이득 제어 블록(403)에 공급될 때 제어 가능한 이득 블록(401)에 공급되는 입력 신호(x(n))가 입력 신호(x(n))와 관련하여 지연되도록, 입력 신호(x(n))가 제어 가능한 이득 블록(401)에 공급되기 이전에 입력 신호(x(n))를 소정의 시간(예를 들면, 소정 수의 프레임 또는 샘플)만큼 지연시키는 옵션 사항의 지연 블록(404)을 더 포함할 수도 있다. 지연 블록(404)이 활용될 수도 있는 상황이 하기에서 추가로 개설된다.
음성 검출 블록(402)은 또한, 예를 들면, 레지스터 또는 메모리(둘 모두 도시되지 않음)로부터, 출력 신호(OutTfe(n))에 기초한 제1 목소리 활동 검출을 위해, SNR 임계치(VadTfeSnrTH), 임계치(VadTfeTH), 및 타이머 값(VadTfeTimer)을, 그리고 원단으로부터의 입력 신호(InFfe(n))에 기초한 제2 목소리 활동 검출을 위해, SNR 임계치(VadFfeSnrTH), 임계치(VadFfeTH), 및 타이머 값(VadFfeTimer)을 수신하도록 연결된다. 그 때문에, 입력 신호(InFfe(n))는 음성 검출 블록(402)에 공급된다. 게다가, 최소 노이즈 임계치(MinNoise), 초기 제곱 평균 제곱근(RMS) 값(RmsInit_dB), 및 제곱 평균 제곱근 임계치(RMSTH) 중 적어도 하나가 음성 검출 블록(402)에 제공될 수도 있다.
이득 제어 블록(403)은 또한, 예를 들면, 레지스터 또는 메모리(둘 모두 도시되지 않음)로부터, 옵션 사항의 평활화 시간 파라미터(τSmooth), 최대 이득 튜닝 파라미터(MaxGain) 및 최대 레벨링 이득 튜닝 파라미터(MaxLevelerGain) 중 적어도 하나, 및 기준 레벨(RefLevel) 또는 기준 피크 레벨(RefPeakLevel)을 수신할 수도 있다. 옵션 사항으로, (피크) 리미터 블록(405)은, 출력 신호(Out(n))를 수신하기 위해 그리고 제한된 출력 신호(OutL(n))를 제공하기 위해 제어 가능한 이득 블록(401)의 하류에 동작 가능하게 연결될 수도 있다. (피크) 리미터 블록(405)은 또한, 미리 결정된 리미터 이득(LimGain), 리미터 임계치(LimTh), 어택 타임(AttackT), 및 릴리스 타임(ReleaseT)을 나타내는 신호를 수신할 수도 있다.
도 5(도 5a, 도 5b)는 도 4에서 도시되는 음성 레벨링 시스템의 예시적인 구현예를 예시하는 상세한 개략도이다. 도 5a에서 부분적으로 도시되는 음성 레벨링 시스템에서, 목소리 활동 검출기 블록(501)은, 시간-주파수 변환 블록(502y)을 통해, 출력 신호(OutTfe(n))인 시간 도메인의 입력 신호를, 주파수 도메인의 신호, 예를 들면, 이산 스펙트럼 성분(Y(ω))의 그룹으로 변환하도록 구성될 수도 있다. 출력 신호(OutTfe(n))의 스펙트럼 성분(Y(ω))은, 대역 통과 필터링 및 푸리에 변환을 비롯한 다양한 방식에 의해 획득될 수 있다. 하나의 접근법에서, 입력 신호의 N 개의 포인트의 순차적 블록을 변환하기 위해, 이산 푸리에 변환(DFT) 또는 고속 푸리에 변환(FFT)이 사용될 수도 있다. 해닝 윈도우와 같은 윈도우 함수가 적용될 수도 있는데, 이 경우, 다수의, 예를 들면, N/2 개의 포인트의 오버랩이 사용될 수 있다. DFT는 입력 신호의 각각의 주파수 빈에서 사용될 수 있다. 대안적으로, FFT는 입력 신호에 의해 점유되는 전체 주파수 대역에 걸쳐 사용될 수 있다. 스펙트럼은 각각의 주파수 빈에 대해 출력 신호(Out(n))의 신호 대역 내에 저장된다. 유사하게, 시간-주파수 변환 블록(502x)은, 시간 도메인의 입력 신호로부터 주파수 도메인의 신호, 예를 들면, 스펙트럼 성분(X(ω))의 그룹을 생성하기 위해, 지연 블록(500)에 의해 지연된 이후, 옵션 사항의 윈도우화(도시되지 않음)를 갖는 FFT를 시간 도메인의 입력 신호(InFfe(n))에 또한 적용한다. 스펙트럼 성분(X(ω) 및 Y(ω))는 본 명세서에서 단지 신호(X(ω) 및 Y(ω))로도 또한 지칭된다.
신호(X(ω)) 각각은, 옵션 사항으로, (예를 들면, (N/2) 개의) 시간적 평활화 블록(503y)의 그룹에 의해 평활화될 수도 있고, 신호(Y(ω)) 각각은, 옵션 사항으로, (예를 들면, (N/2) 개의) 시간적 평활화 블록(503x)의 그룹에 의해 평활화될 수도 있는데, 각각의 블록은, 예를 들면, 적절한 길이의 이동 평균 필터를 활용한다. (옵션 사항의) 스펙트럼 평활화는 복수의 주파수 빈을 고려할 수도 있는데, 이것은 스펙트럼 해상도를 감소시킨다. 시간 평활화 블록(503y 및 503x)은 시간-주파수 변환 블록(502y 및 502x)의 하류에 동작 가능하게 각각 커플링된다. 시간적 평활화 블록(503y 및 503x)의 그룹은, 시간-주파수 변환 블록(502y 및 502x)의 출력 신호에서 시간적 역학을 감소시키기 위해, 신호(Y(ω) 및 X(ω))의 각각에 대한 시간 경과에 따른 주파수 빈 값을 각각 결합한다.
시간적 평활화 블록(503y 및 503x)의 그룹은, 임펄스 왜곡뿐만 아니라 배경 노이즈를 여전히 포함할 수도 있는 시간적 평활화된 신호를 출력한다. 시간적 평활화 블록(503y 및 503x)의 출력에서 음성과 같은 임펄스 왜곡을 스미어 아웃하기 위해, 그리고 각각의 현재의 배경 노이즈를 추정하기 위한 기초를 형성하는 평활화된 신호(SY_1(n), ..., SY_N/2(n))의 그룹 및 평활화된 신호(SX_1(n), ..., SX_N/2(n))의 그룹을 제공하기 위해, (예를 들면, N/2 개의) 노이즈 추정 블록(504y) 및 (예를 들면, N/2 개의) 노이즈 추정 블록(504x)의 각각은 다수의 시간적 평활화 블록(503y 및 503x) 중 대응하는 하나의 하류에 동작 가능하게 연결된다. 평활화된 신호(SY_1(n), ..., SY_N/2(n))의 그룹은 신호(Y(ω))에 관련되고 평활화된 신호(SX_1(n), ..., SX_N/2(n))의 그룹은 신호(X(ω))에 관련된다. 음악 또는 목소리 신호와 같은 소망되는 신호의 스미어링을 감소 또는 방지하기 위해, 다수의 노이즈 추정 블록(504y 및 504x)에서 비선형 평활화(도시되지 않음)가 활용될 수도 있다. 배경 노이즈 추정치(NY_1(n), ..., NY_N/2(n))의 그룹은, 노이즈 추정 블록(504y)의 하나의 그룹에 의해 결정되고 배경 노이즈 추정치(NX_1(n), ..., NX_N/2(n))의 그룹은 노이즈 추정 블록(504x)의 다른 그룹에 의해 결정된다.
다수의 비교기 블록(506y)에서, 평활화 신호의 하나(SY_1(n), ..., SY_N/2(n))의 그룹은, 백그라운드 노이즈 추정치(NY_1(n), ..., NY_N/2(n))의 그룹과 승산되는 미리 결정된 임계치, 예를 들면, SNR 임계치(VadYSnrTH)와 비교되고, 평활화된 신호(SX_1(n), ..., SX_N/2(n))의 다른 그룹은, 배경 노이즈 추정치(NX_1(n), ..., NX_N/2(n))의 그룹과 승산되는 다른 미리 결정된 임계치, 예를 들면, SNR 임계치(VadXSnrTH)와 비교된다. 평활화된 신호(SY_1(n), ..., SY_N/2(n))의 그룹 및 배경 노이즈 추정치(NY_1(n), ..., NY_N/2(n))의 그룹은 신호(Y(ω))에 관련되고, 평활화 신호(SX_1(n), ..., SX_N/2(n))의 다른 그룹 및 배경 노이즈 추정치(NX_1(n), ..., NX_N/2(n))의 다른 그룹은 신호(X(ω))에 관련된다. 평활화된 신호(SY_1(n), ..., SY_N/2(n) 및 SX_1(n), ..., SX_N/2(n)) 및 배경 노이즈 추정치(NX_1(n), ..., NX_N/2(n))로부터 결정되는 현재의 SNR 값 각각이 대응하는 미리 결정된 임계치(VadYSnrTH 및 VadXSnrTH)보다 각각 더 큰 경우, 대응하는 플래그(VadYSnrFlag 및 VadXSnrFlag)가 제1 논리 값, 예를 들면, '1'로 설정될 것이다. 그렇지 않으면, 플래그(VadYSnrFlag 및 VadXSnrFlag)는 제2 논리 값, 예를 들면, '0'으로 설정될 것이다. 다수의 비교기 블록(506)의 각각의 그룹으로부터의 플래그는 대응하는 그룹 합산 블록(507y 및 507x) 상으로 각각 전달된다. 합산 블록(507y)은 다수의 비교기 블록(506y)으로부터의 스펙트럼 플래그(VadYSnrFlag)를 합산하여 시변 합 신호(YVAD(n))를 출력한다. 합산 블록(507x)은 다수의 비교기 블록(506x)으로부터의 스펙트럼 플래그(VadXSnrFlag)를 합산하여 시변 합 신호(XVAD(n))를 출력한다.
합 신호(YVAD(n) 및 XVAD(n))는 비교기 블록(508y 및 508x)으로 전달되고, 여기서 합 신호(YVAD(n))는 미리 결정된 합 임계치(VADY_TH)와 비교되고 합 신호(XVAD(n))는 미리 결정된 합 임계치(VADX_TH)와 비교된다. 합 신호(YVAD(n))의 현재의 값이 미리 결정된 합 임계치(VADY_TH)보다 더 큰 경우, 업데이트된 합 신호(YVAD(n))로 간주될 수 있는 플래그(VAD_Y(n))는 제1 논리 상태, 예를 들면, '1'(일)로 설정될 것이다. 그렇지 않으면, 플래그(VAD_Y(n))는 다른 논리 상태, 예를 들면, '0'(제로)으로 설정될 것이다. 합 신호(XVAD(n))의 현재의 값이 미리 결정된 합 임계치(VADX_TH)보다 더 큰 경우, 업데이트된 합 신호(XVAD(n))로 간주될 수 있는 플래그(VAD_X(n))는 제1 논리 상태, 예를 들면, '1'(일)로 설정될 것이다. 그렇지 않으면, 플래그(VAD_X(n))는 다른 논리 상태, 예를 들면, '0'(제로)로 설정될 것이다.
비교기 블록(508y 및 508x)의 다른 신호, 즉, 플래그(VAD_Y(n) 및 VAD_X(n))는, 플래그(VAD_Y(n) 및 VAD_X(n))가 '0'인지 또는 아닌지의 여부를 검출하는 목소리 활동/휴지 검출(VAD/SPD) 타이머 블록(509y 및 509x) 상으로 전달된다. 시간 n에서, 플래그(VAD_Y(n))가 '0'이면, VAD 타이머 블록(509y)은 카운트(TVAD_Y(n))를 TVAD_Y(n-1)-1로 설정한다, 즉, 이전의 카운트(TVAD_Y(n-1))를 1만큼 감소시킨다. 그렇지 않으면, 카운트(TVAD_Y(n))는 초기화 값(VadYTimerInit)으로 재설정될 것이다. VAD 타이머 블록(209y)의 출력, 즉, 카운트(TVAD_Y(n))는, 카운트(TVAD_Y(n))가 미리 결정된 임계치, 예를 들면, 제로와 비교되는 목소리 활동 검출(VAD) 블록(210y) 상으로 전달된다. 현재의 카운트(TVAD_Y(n))가 미리 결정된 임계치(제로)보다 더 큰 경우, 플래그(VADY(n))는 '1'로 설정될 것이고, 그렇지 않으면, '0'으로 설정될 것이다. 유사하게, 플래그(VAD_X(n))가 '0'인 경우, VAD 타이머 블록(509x)은 카운트(TVAD_X(n))를 TVAD_X(n-1)-1로 설정한다, 즉, 이전의 카운트(TVAD_X(n-1))를 1만큼 감소시킨다. 그렇지 않으면, 카운트(TVAD_X(n))는 초기화 값(VadXTimerInit)으로 재설정될 것이다. VAD 타이머 블록(209x)의 출력, 즉 카운트(TVAD_X(n))는, 카운트(TVAD_X(n))가 미리 결정된 임계치, 예를 들면, 제로와 비교되는 목소리 활동 검출(VAD) 블록(210x) 상으로 전달된다. 현재의 카운트(TVAD_X(n))가 미리 결정된 임계치(제로)보다 더 큰 경우, 플래그(VADX(n))는 '1'로 설정될 것이고, 그렇지 않으면, '0'으로 설정될 것이다. VADX(n) = 1은, 여기서, 근단의 화자가 활동 중이라는 것을 의미한다. VADX(n) = 0은 근단의 화자가 활동 중이지 않다는 것을 의미한다. VADY(n) = 1은, 여기서, 원단의 화자가 활동 중이라는 것을 의미한다. VADY(n) = 0은 원단의 화자가 활동 중이지 않다는 것을 의미한다.
도 5b에 부분적으로 도시되는 음성 레벨링 시스템에서, 이득 제어 블록(517)은, 출력 신호(OutTfe(n)), 플래그(VAD_Y(n)), 플래그(VAD_X(n)) 및 평활화된 RMS 신호(SRMS(n-1))의 이전의 샘플을 수신하는 음성 제곱 평균 제곱근(RMS) 레벨 결정 블록(518)을 포함한다. 음성 RMS 레벨 결정 블록(518)은 신호(InRMS(n))를 출력한다. 플래그(VAD_X(n))가 '0'이고 플래그(VAD_Y(n))가 '1'인 경우, 신호(InRMS(n))는 출력 신호(OutTfe(n))와 동일하며, 그렇지 않으면, 평활화된 RMS 신호(SRMS(n-1))이전의 샘플의 값으로 설정된다. 신호(InRMS(n))는, 옵션 사항으로 초기 제곱 평균 제곱근(RMS) 값(RmsInit_dB)을 활용하여 후속하는 최대 절대 값(MaxAbs) 결정(계산)의 대상이 된다. MaxAbs 결정으로부터의 값은, 평활된 RMS 신호(SRMS(n))를 제공하는 평활화 블록(519)에 공급된다. 한편으로, 평활화된 RMS 신호(SRMS(n))는, 음성 RMS 레벨 결정 블록(518)으로 피드백되는 평활화된 RMS 신호(SRMS(n-1))의 이전의 샘플을 생성하기 위해 하나의 샘플만큼 지연되고, 다른 한편으로, 기준 레벨(RefLevel)과 평활화된 RMS 신호(SRMS(n)) 사이의 비율에 따라 이득 제어 신호(Gain(n))가 생성되는 이득 결정 블록(520)으로 공급된다.
옵션 사항의 이득 제한 블록(521)에서, 이득 제어 신호(Gain(n))는 기준 값(MaxVadGain)와 비교된다. 결과적으로, 이득 제어 신호(Gain(n))가 기준 값(MaxVadGain)보다 더 큰 경우, 제한된 이득 제어 신호(Gain'(n))이며 업데이트된 이득 제어 신호(Gain(n))로 간주될 수 있는 이득 제한 블록(521)의 출력 신호는 기준 목소리 활동 값(MaxVadGain)으로 설정되고, 그렇지 않으면, 이득 제어 신호(Gain(n))로 설정된다. 본 예에서, 제한된 이득 제어 신호(Gain'(n))는, 플래그(VADY(n) 및 VADX(n))뿐만 아니라 기준 음성 휴지 값(MaxGain)을 또한 수신하는 음성 휴지 검출(SPD) 이득 제한 블록(522)에 공급된다. 시간 n에서 플래그(VADX(n))가 '0'이고 플래그(VADY(n))가 '1'인 경우, 업데이트된 이득 제어 신호(Gain'(n))로 간주될 수 있는 최종 이득 제어 신호(Gain"(n))는 기준 값(MaxGain)으로 설정되고, 그렇지 않으면, 제한된 이득 제어 신호(Gain'(n))로 설정된다. 최종 이득 제어 신호(Gain"(n))는, 옵션 사항으로, 제어 가능한 이득 블록(523)을 제어하기 이전에, 평활화 필터 블록(도시되지 않음)을 통해 시간 경과에 따라 평활화될 수도 있다. 이득 블록(523)은 옵션 사항의 지연 블록(524)를 통해 입력 신호(OutTfe(n))를 공급받으며, 제한된 출력 신호(OutL(n))를 제공하기 위해 옵션 사항의 피크 리미터(225)에 의해 처리될 수도 있는 출력 신호(Out(n))를 출력한다.
도 5에서 도시되는 시스템에서, 목소리 활동 검출 플래그(VADY(n) 및 VADX(n))의 결정을 위해 두 개의 동일한 또는 상이한 튜닝 세트가 사용될 수도 있다. 그러나, 둘 모두 스펙트럼 SNR 값에 기초한다. 예를 들면, 목소리 활동 검출 플래그(VADY(n))의 결정을 위해, 목소리 활동 검출 플래그(VADX(n))의 결정을 위해, SNR 임계치(VadXSnrTH)에 대해서 보다 SNR 임계치(VadYSnrTH)에 대해 더 높은 값이 사용될 수도 있다. 이것은, 한편으로는, 원단에서 음성이 존재한다는 것이 확실한 경우에만 목소리 활동 검출 플래그(VADY(n))를 상응하게 설정하는 것, 그러므로, 높은 임계치의 적용을 허용하고, 다른 한편으로, 어떠한 음성도 존재하지 않는 경우에만 목소리 활동 검출 플래그(VADX(n))를 상응하게 설정하는 것을 허용한다. 이것은, 모호한 음성 부분조차도 검출된 음성 활동으로 나타나도록 각각의 SNR 임계치를 더 낮은 값으로 설정하는 것에 의해 달성될 수도 있고, 따라서, 목소리 활동 검출 플래그(VADX(n))의 잘못된 설정을 방지할 것이다. 또한, 주어진 신호 대 노이즈 비 임계치(VadYSnrTH 및 VadXSnrTH)를 초과하는 스펙트럼 성분(라인)의 수가 결정되고(플래그가 카운트되거나 또는 추가됨) 결과적으로 나타나는 수(YVAD(n) 및 XVAD(n))는 임계치(VADY_TH 및 VADY_TH)에 각각 비교된다. 결과적으로 나타나는 시변 목소리 활동 검출 플래그(VAD_Y(n))는, 그거의 초기 타이머 값(VadYTimerInit)이 만료된 경우, '0'으로 설정될 것이고, 결과적으로 나타나는 시변 목소리 활동 검출 플래그(VAD_X(n))는, 그것의 초기 타이머 값(VadXTimerInit)이 만료된 경우 '0'으로 설정될 것이다.
시변 VAD 플래그(VAD_Y(n))가 '1'이고, 즉, 원단에서 활성 음성 시퀀스에 있고, VAD_X(n)가 "0"이면, 즉 근단에서 음성 휴지 시퀀스에 있으면, RMS 값, 또는 대안적으로, 출력 신호(OutTfe(n))의 최대 절대 피크 값은 결정될 것이다. 그렇지 않으면, 평활화된 음성 RMS 값(SRMS(n-1))의 이전의 샘플은 평활화 필터(519) 상으로 전달될 것이다. 바람직하지 않은 과도 효과(transient effect)를 방지하기 위해, RMS 결정은, 옵션 사항으로, 적절히 선택된 초기화 값(RmsInit_dB)을 사용하여 초기화될 수도 있다. 평활화 필터로서, 예를 들면, 상대적으로 긴 평활화 시간 상수(τ)를 갖는 무한 임펄스 응답(Infinite Impulse Response: IIR) 저역 통과 필터가 사용될 수도 있다. 현재의 이득 값(Gain(n))은, Gain(n) = RefLevel/SRMS(n)이도록, 음성 출력 신호의 소망되는 기준 RMS 값, 즉, 기준 레벨(RefLevel) 또는 대안적으로 기준 피크 레벨(RefPeakLevel)과 이 평활화 필터의 출력 신호, 즉, SRMS(n)의 비율을 취하는 것에 의해 결정(계산)된다.
게다가, 이미 상기에서 설명된 바와 같이, 매우 작은 입력 신호의 연속적인 증폭을 방지하기 위해, 값(MaxVadGain)에 대한 이득 값(Gain(n))의 최대치의 옵션 사항의 제한이 적용될 수도 있다. 따라서, Gain(n) < GainVadMax인 경우, 이득 값(Gain'(n)) = Gain(n)이고, 그렇지 않으면, Gain'(n) = MaxVadGain이다. 예를 들면, 핸즈프리 애플리케이션에서 레벨 보상기로서 작용할 수도 있고 시변 목소리 활동 검출 플래그(VADY(n) 및/또는 VADX(n))에 의해 제어될 수도 있는 이득 값의 여전히 다른 제한이, 옵션 사항으로, 적용될 수도 있다. 그에 의해, 목소리 활동 검출 플래그(VADX(n))가 '0'를 취하고 목소리 활동 검출 플래그(VADY(n))가 '1'을 취하는 경우, 이득 값(Gain'(n))은 주어진 한계(MaxGain)로 감소될 것이다. 그렇지 않으면, Gain''(n) = Gain'(n)이다.
설명된 시스템에서, 음성 휴지를 확실하게 감지하는 것 및, 그러한 만큼, 필요로 되는 게이팅을 이득 값(Gain(n))에 적용하는 것이 가능하다. 주요 도전 과제는, 일단 (근단의(near end) 화자로부터의) 음성이 다시 활성화되면, 이 게이팅 스테이지를 충분히 빨리 떠나는 것이다. 이것이 보장되지 않으면, 설정 중인 음성의 제1 부분은 소망되는 대로 증폭되지 않을 수도 있고, 그러한 만큼, 음성 인식 시스템에 의해서도, 또한 인간 청취자(원단의 화자)에 의해서도 이해될 수 없는 경우가 있을 수도 있다. 이것을 방지하는 한 가지 방식은, 빠르게 반응하는 목소리 활동 검출 및/또는 음성 휴지 검출을 사용하는 것이다. 이것은, 결정의 일부로서 주어진 임계치와 비교될 평활화되지 않은 순간 RMS 값을 사용하는 것에 의해 실현될 수도 있다. 이것이 충분하지 않은 경우, 현재의 이득(G)이 입력 신호에 적용되기 이전에, 입력 신호는, 옵션 사항으로, 하나의 또는 여러 개 프레임만큼 지연될 수 있다.
이제, 약간의 수정과 함께 도 5에서 도시되며 그와 관련하여 설명되는 시스템인 도 6을 참조한다. 특히 도 6a로부터 특별히 알 수 있는 바와 같이, 다수의 시간적 평활화 블록(503y 및 503x)으로부터의 평활화 신호, 및 다수의 노이즈 추정 블록(504y 및 504x)으로부터의 추정된 준 정지 배경 노이즈 신호에 기초하여, SNR에서의 변동은, 예를 들면, 대응하는 후속 SNR 계산 블록(601y 및 601x)에서 SNR 값의 주파수 분포로서 결정(계산)될 수 있다. SNR에서의 변동을 사용하여, 소망되는 음성 또는 음악 신호로부터 노이즈가 구별될 수 있다. 예를 들면, 낮은 SNR 값은, 에어컨, 팬, 열린 창, 또는 전기 디바이스 예컨대 컴퓨터 등등과 같은 다양한 노이즈 소스에 연결될 수도 있다. SNR은 시간 도메인에서 또는 주파수 도메인에서 또는 하위 대역 도메인에서 평가될 수도 있다. 도 5에서 도시되는 블록(506y 및 506x)을 대체하는 비교기 블록(602y 및 602x)의 그룹에서, SNR 결정 블록(601y 및 601x)의 그룹에 의해 결정되는 출력 SNR 값은 미리 결정된 임계치, 예를 들면, SNR 임계치(VadSnrTH) 및 SNR 임계치(SpdSnrTH)에 각각 비교된다.
블록(601y)에 의해 제공되는 결정된 현재의 SNR 값이 미리 결정된 임계치(VadSnrTH)보다 더 크면, 플래그(VadSnrFlag)는 제1 논리 값, 예를 들면, '1'로 설정될 것이다. 그렇지 않으면, 플래그(VadSnrFlag)는 제2 논리 값, 예를 들면, '0'으로 설정될 것이다. 다수의 비교기 블록(602y)으로부터의 플래그는 합산 블록(507y) 상으로 전달된다. 합산 블록(507y)은 다수의 비교기 블록(602y)으로부터의 스펙트럼 플래그(VadSnrFlag)를 합산하여 시변 합 신호(SVAD(n))를 출력한다. 합 신호(SVAD(n))는 비교기 블록(508y)으로 전달되는데 여기서 합 신호(SVAD(n))는 미리 결정된 합 임계치(VADTH)와 비교된다. 합 신호(SVAD(n))의 현재의 값이 미리 결정된 합 임계치(VADTH)보다 더 큰 경우, 업데이트된 합 신호(SVAD(n))로 간주될 수 있는 플래그(S'VAD(n))는 제1 논리 상태, 예를 들면, '1'로 설정될 것이다. 그렇지 않으면, 플래그(S'VAD(n))는 다른 논리 상태, 예를 들면, '0'으로 설정될 것이다. 블록(509y 및 510y)은 VadYTimerInit = VadTimerInit, VAD_Y(n) = SVAD(n), TVAD Y = TVAD 및 VADY(n) = VAD(n)인 상태에서 도 5에서 도시되는 바와 같이 동작된다.
블록(601x)에 의해 제공되는 결정된 현재의 SNR 값이 미리 결정된 임계치(SpdSnrTH)보다 더 큰 경우, 플래그(SpdSnrFlag)는 제1 논리 값, 예를 들면, '1'로 설정될 것이다. 그렇지 않으면, 플래그(SpdSnrFlag)는 제2 논리 값, 예를 들면, '0'으로 설정될 것이다. 다수의 비교기 블록(602x)으로부터의 플래그는 합산 블록(507x) 상으로 전달된다. 합산 블록(507x)은 다수의 비교기 블록(602x)으로부터의 스펙트럼 플래그(SpdSnrFlag)를 합산하여 시변 합 신호(SSPD(n))를 출력한다. 합 신호(SSPD(n))는 비교기 블록(508x)으로 전달되는데, 여기서 합 신호(SSPD(n))는 미리 결정된 합 임계치(SPDTH)와 비교된다. 합 신호(SSPD(n))의 현재의 값이 미리 결정된 합 임계치(SPDTH)보다 더 큰 경우, 업데이트된 합 신호(SSPD(n))로 간주될 수 있는 플래그(S'SPD(n))는 제1 논리 상태, 예를 들면, '1'(일)로 설정될 것이다. 그렇지 않으면, 플래그(S'SPD(n))는 다른 논리 상태, 예를 들면, '0'(제로)로 설정될 것이다. 블록(509x 및 510x)은 VadXTimerInit = SpdTimerInit, VAD_X(n) = SSPD(n), TVAD X = TSPD 및 VADX(n) = SPD(n)인 상태에서 도 5에서 도시되는 바와 같이 동작된다.
특히 도 6b를 참조하면, 도 5에서 도시되는 블록(518)은, 플래그(VAD(n))가 1과 비교되는 블록(603)에 의해 블록(518)을 대체하도록 수정될 수도 있고, 그것이 1과 동일하면, InRMS(n)는 OutTfe(n)으로 설정된다. 그렇지 않으면, InRMS(n)는 SRMS(n-1)로 설정된다. 나머지에 관해서, 블록(518 및 603)은 동일하다. 블록(519 내지 525)은 블록(518)과 관련하여 도 5에서 도시되는 방식으로 블록(603)의 하류에 연결되는데, 여기서 VADX(n) = SPD(n) 및 VADY(n) = VAD(n)이다.
도 7은, 약간의 수정과 함께 도 6에서 도시되며 그와 관련하여 설명되는 시스템을 예시하는데, 여기서 별개의 주파수 신호 채널은 굵은 라인으로 묘사되는 하나의 다중 신호 채널 연결로서 디스플레이된다. 특히 도 7a로부터 알 수 있는 바와 같이, 시간적 신호 지연을 제공하는 지연 블록(700)은 시간-주파수 변환 블록(502y)의 상류에 추가되었고, 한편, 도 5에서 도시되는 지연 블록(500)은 생략된다. 게다가, SNR 계산 블록(601x)의 출력으로부터 승산기 블록(702)으로 연장되는 다중 채널 신호 경로(701)가 추가되었다. 다중 채널 신호 경로(701)는, 원단(InFfe(n))으로부터 수신되는 신호의 주파수마다의 신호 대 노이즈 비(SNRFFE(ω))를 수신하고 이들 신호 대 노이즈 비(SNRFFE(ω))를 SNR 임계치(SNRFFETH)에 의해 제산하여 다중 채널 마스킹 신호(MaskFFE(ω))를 제공하는 다중 채널 분할기 블록(703)을 포함한다. 이들 마스킹 신호(MaskFFE(ω))는, 마스킹 신호(MaskFFE'(ω))를, 각각의 마스킹 신호(MaskFFE(ω))가 1보다 더 큰 경우, 1로 설정하고, 그렇지 않은 경우, 각각의 마스킹 신호(MaskFFE(ω))에 설정하는 다중 채널 비교 블록(704)에서 1와 비교된다. 그 다음, 마스킹 신호(MaskFFE'(ω))는 다중 채널 가산기 블록(505)에서 1만큼 증가되어, 다중 채널 마스킹 신호(MaskFFE''(ω))를 제공한다. 다중 채널 마스킹 신호(MaskFFE''(ω))는, 다중 채널 마스킹 신호(MaskFFE'''(ω))를 출력하는 다중 채널 비교기 블록(706)에서 최소 마스킹 임계치(MinMaskFFE)와 비교된다. 다중 채널 승산기 블록(702)에 공급되는 다중 채널 마스킹 신호(MaskFFE'''(ω))는, 다중 채널 마스킹 신호(MaskFFE''(ω))가 최소 마스킹 임계치(MinMaskFFE)보다 더 큰 경우, 주파수마다 고정된 값(MindSpdMask)이거나, 또는 그렇지 않으면, 마스킹 신호(MaskFFE''(ω))이다.
게다가, 다중 채널 컴포트(comfort) 노이즈 생성(예를 들면, 계산) 블록(707)이 시스템에 추가되었다. 다중 채널 컴포트 노이즈 생성(예를 들면, 계산) 블록(707)은, 노이즈 추정 블록(504y)으로부터 다중 채널 추정 노이즈 신호(NoiseTFE(ω))를 그리고 블록(510y)으로부터 플래그(VAD(n))를 수신한다. 또한, 컴포트 노이즈 생성 블록(707)은 최소 노이즈 임계치(MINCF), 최대 노이즈 임계치(MAXCF) 및 스케일링 인자(ScaleCF)를 수신한다. 컴포트 노이즈 생성 블록(707)은, 예를 들면, 제어 가능한 이득 블록(523)과 옵션 사항의 리미터 블록(525) 사이에 삽입되는 가산기 블록(708)에 의해 출력 신호(Out)에 가산되는 노이즈 신호를 생성한다. 컴포트 노이즈 생성 블록(707)은 청취자에게 제시될 더욱 쾌적한 또는 자연스러운 노이즈를 생성한다.
실시형태의 설명은 예시 및 설명의 목적을 위해 제시되었다. 실시형태에 대한 적절한 수정 및 변형이 상기의 설명에 비추어 수행될 수도 있거나 또는 방법을 실시하는 것으로부터 획득될 수도 있다. 예를 들면, 달리 언급되지 않는 한, 설명되는 방법 중 하나 이상은 적절한 디바이스 및/또는 디바이스의 조합에 의해 수행될 수도 있다. 설명되는 방법 및 관련된 액션은 또한, 본 출원에서 설명되는 순서 외에 다양한 순서로, 병렬로, 및/또는 동시에 수행될 수도 있다. 설명되는 시스템은 본질적으로 예시적인 것이며, 추가적인 요소를 포함할 수도 있고 그리고/또는 요소를 생략할 수도 있다.
본 출원에 사용될 때, 단수형으로 언급되고 단어 "a(한)"또는 "an(한)"이 선행되는 요소 또는 단계는, 배제가 언급되지 않는 한, 복수의 상기 요소 또는 단계를 배제하지 않는 것으로 이해되어야 한다. 더구나, 본 개시내용의 "하나의 실시형태" 또는 "하나의 예"에 대한 언급은, 언급된 특징부를 또한 통합하는 추가적인 실시형태의 존재를 배제하는 것으로 해석되도록 의도되지는 않는다. 용어 "제1", "제2" 및 "제3" 등은 단순히 라벨로서 사용되며, 그들 객체에 대해 수치적 요건 또는 특정한 위치적 순서를 부과하도록 의도되지는 않는다.
본 개시내용의 실시형태는 일반적으로 복수의 회로, 전기 디바이스, 및/또는 적어도 하나의 컨트롤러를 제공한다. 회로, 적어도 하나의 컨트롤러, 및 다른 전기 디바이스 및 각각에 의해 제공되는 기능성(functionality)에 대한 모든 언급은, 본 명세서에서 예시되고 설명되는 것만을 포함하는 것으로 제한되도록 의도되는 것은 아니다. 특정한 라벨이 개시되는 다양한 회로(들), 컨트롤러(들) 및 다른 전기 디바이스에 할당될 수도 있지만, 그러한 라벨은 다양한 회로(들), 컨트롤러(들) 및 다른 전기 디바이스에 대한 동작의 범위를 제한하도록 의도되지는 않는다. 그러한 회로(들), 컨트롤러(들) 및 다른 전기 디바이스는 서로 결합될 수도 있고 그리고/또는 소망되는 특정한 타입의 전기적 구현예에 기초하여 임의의 방식으로 분리될 수도 있다.
임의의 컨트롤러 또는 신호 프로세서는 임의의 수의 마이크로프로세서, 집적 회로, 메모리 디바이스(예를 들면, FLASH(플래시), 랜덤 액세스 메모리(random access memory: RAM), 판독 전용 메모리(read only memory: ROM), 전기적으로 프로그래밍 가능한 판독 전용 메모리(electrically programmable read only memory: EPROM), 전기적으로 소거 가능한 프로그래밍 가능한 판독 전용 메모리(electrically erasable programmable read only memory: EEPROM), 또는 이들의 다른 적절한 변형예) 및 본 명세서에서 개시되는 동작(들)을 수행하기 위해 서로 함께 작용하는 소프트웨어를 포함할 수도 있다. 또한, 임의의 컨트롤러 또는 신호 프로세서는, 개시되는 바와 같은 임의의 수의 기능을 수행하도록 프로그래밍되는 비일시적 컴퓨터 판독 가능 매체에서 구현되는 컴퓨터 프로그램을 실행하기 위해 임의의 하나 이상의 마이크로프로세서를 활용한다. 게다가, 본 명세서에 제공되는 바와 같은 임의의 컨트롤러는 하우징 및 하우징 내에 배치되는 다양한 수의 마이크로프로세서, 집적 회로, 및 메모리 디바이스(예를 들면, FLASH(플래시), 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 전기적으로 프로그래밍 가능한 판독 전용 메모리(EPROM), 전기적으로 소거 가능한 프로그래밍 가능한 판독 전용 메모리(EEPROM))를 포함한다. 개시되는 바와 같은 컨트롤러(들)는 또한, 본 명세서에서 논의되는 바와 같이 다른 하드웨어 기반의 디바이스로부터 그리고 다른 하드웨어 기반의 디바이스로 데이터를, 각각, 수신하고 송신하기 위한 하드웨어 기반의 입력 및 출력을 포함한다.
본 발명의 다양한 실시형태가 설명되었지만, 본 발명의 범위 내에서 더 많은 실시형태 및 구현예가 가능하다는 것이 기술 분야의 통상의 지식을 가진 자에게 명백할 것이다. 특히, 숙련된 자는 상이한 실시형태로부터의 다양한 특징부의 상호 교환성을 인식할 것이다. 비록 이들 기술 및 시스템은 소정의 실시형태 및 예의 맥락에서 개시되었지만, 이들 기술 및 시스템은 구체적으로 개시된 실시형태를 넘어 다른 실시형태 및/또는 용도 및 그 명백한 수정예로 확장될 수도 있다는 것이 이해될 것이다.

Claims (15)

  1. 음성 신호 레벨링 시스템(speech signal leveling system)으로서,
    입력 신호를 수신하도록 그리고 출력 신호를 생성하도록 구성되는 제어 가능한 이득 블록으로서, 상기 출력 신호는, 이득 제어 신호에 의존하는, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득을 상기 입력 신호에 적용하는 것에 의해 생성되는, 제어 가능한 이득 블록;
    상기 입력 신호를 수신하도록 그리고 상기 입력 신호에 포함되는 목소리 성분(voice component)을 나타내는 적어도 하나의 음성 검출 신호를 생성하도록 구성되는 음성 검출 블록; 및
    상기 제어 가능한 이득 블록 및 상기 음성 검출 블록과 동작 가능하게 커플링되는 이득 제어 블록으로서, 상기 이득 제어 블록은, 상기 입력 신호 및 상기 적어도 하나의 음성 검출 신호를 수신하도록, 그리고 상기 입력 신호 및 상기 적어도 하나의 음성 검출 신호에 기초하여 상기 이득 제어 신호를 생성하도록 구성되는, 상기 이득 제어 블록을 포함하되; 상기 이득 제어 블록은, 상기 입력 신호에서 목소리 성분이 검출되는 한 상기 입력 신호를 미리 결정된 평균 또는 최대 또는 절대 피크 신호 레벨을 가지도록 증폭 또는 감쇠시키기 위해 상기 제어 가능한 이득 블록을 제어하도록 더 구성되고,
    상기 음성 검출 블록은,
    상기 입력 신호로부터 상기 입력 신호의 적어도 두 개의 주파수 대역에 대한 적어도 두 개의 신호 대 노이즈 비를 결정하도록;
    상기 적어도 두 개의 신호 대 노이즈 비를 제1 임계치와 비교하도록;
    상기 적어도 두 개의 신호 대 노이즈 비가 상기 제1 임계치보다 더 큰지의 여부를 나타내는 제1 신호를 제공하도록; 그리고
    상기 제1 신호를 합산하여 제1 합 신호를 제공하도록 더 구성되는, 음성 신호 레벨링 시스템.
  2. 제1항에 있어서,
    상기 음성 검출 블록은, 상기 입력 신호에 포함되는 목소리 성분을 나타내는 목소리 활동 검출 신호 및 상기 입력 신호에서 발생하는 음성 휴지(speech pause)를 나타내는 음성 휴지 검출 신호 중 적어도 하나를 생성하도록 더 구성되고; 그리고
    상기 이득 제어 블록은 상기 목소리 활동 검출 신호 및 상기 음성 휴지 검출 신호 중 적어도 하나에 기초하여 상기 이득 제어 신호를 생성하도록 더 구성되는, 음성 신호 레벨링 시스템.
  3. 음성 신호 레벨링 시스템(speech signal leveling system)으로서,
    입력 신호를 수신하도록 그리고 출력 신호를 생성하도록 구성되는 제어 가능한 이득 블록으로서, 상기 출력 신호는, 이득 제어 신호에 의존하는, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득을 상기 입력 신호에 적용하는 것에 의해 생성되는, 제어 가능한 이득 블록;
    상기 입력 신호를 수신하도록 그리고 상기 입력 신호에 포함되는 목소리 성분(voice component)을 나타내는 적어도 하나의 음성 검출 신호를 생성하도록 구성되는 음성 검출 블록; 및
    상기 제어 가능한 이득 블록 및 상기 음성 검출 블록과 동작 가능하게 커플링되는 이득 제어 블록으로서, 상기 이득 제어 블록은, 상기 입력 신호 및 상기 적어도 하나의 음성 검출 신호를 수신하도록, 그리고 상기 입력 신호 및 상기 적어도 하나의 음성 검출 신호에 기초하여 상기 이득 제어 신호를 생성하도록 구성되는, 상기 이득 제어 블록을 포함하되; 상기 이득 제어 블록은, 상기 입력 신호에서 목소리 성분이 검출되는 한 상기 입력 신호를 미리 결정된 평균 또는 최대 또는 절대 피크 신호 레벨을 가지도록 증폭 또는 감쇠시키기 위해 상기 제어 가능한 이득 블록을 제어하도록 더 구성되고,
    상기 음성 검출 블록은, 상기 입력 신호에 포함되는 목소리 성분을 나타내는 목소리 활동 검출 신호 및 상기 입력 신호에서 발생하는 음성 휴지(speech pause)를 나타내는 음성 휴지 검출 신호 중 적어도 하나를 생성하도록 더 구성되고; 그리고
    상기 이득 제어 블록은 상기 목소리 활동 검출 신호 및 상기 음성 휴지 검출 신호 중 적어도 하나에 기초하여 상기 이득 제어 신호를 생성하도록 더 구성되며,
    상기 음성 검출 블록은,
    상기 입력 신호로부터 상기 입력 신호의 적어도 두 개의 주파수 대역에 대한 적어도 두 개의 신호 대 노이즈 비를 결정하도록;
    상기 적어도 두 개의 신호 대 노이즈 비를, 목소리 활동 검출을 위한 신호 대 노이즈 비 임계치 및 음성 휴지 검출을 위한 신호 대 노이즈 비 임계치와 비교하도록;
    상기 적어도 두 개의 신호 대 노이즈 비가 목소리 활동 검출을 위한 상기 신호 대 노이즈 비 임계치보다 더 큰지의 여부를 나타내는 제1 신호, 및 상기 적어도 두 개의 신호 대 노이즈 비가 음성 휴지 검출을 위한 상기 신호 대 노이즈 비 임계치보다 더 큰지의 여부를 나타내는 제2 신호를 제공하도록; 그리고
    상기 제1 신호를 합산하여 제1 합 신호를 제공하고 상기 제2 신호를 합산하여 제2 합 신호를 제공하도록 더 구성되되;
    목소리 활동 검출을 위한 상기 신호 대 노이즈 비 임계치는 음성 휴지 검출을 위한 상기 신호 대 노이즈 비 임계치보다 더 큰, 음성 신호 레벨링 시스템.
  4. 제3항에 있어서, 상기 음성 검출 블록은,
    상기 입력 신호의 제곱 평균 제곱근(root mean square) 값 또는 최대 절대 피크 값을 결정하도록;
    상기 입력 신호의 상기 제곱 평균 제곱근 값을 제곱 평균 제곱근 임계치에 또는 상기 최대 절대 피크 값을 최대 절대 피크 임계치와 비교하도록; 그리고
    상기 제1 합 신호 대 목소리 활동 검출 임계치 및 상기 제2 합 신호 대 음성 휴지 검출 임계치 중 적어도 하나를 비교하도록 더 구성되되; 상기 음성 검출 블록은,
    상기 제1 합 신호가 상기 목소리 활동 검출 임계치를 초과하고 상기 제곱 평균 제곱근 값이 상기 제곱 평균 제곱근 임계치를 초과하거나 또는 상기 최대 절대 피크 값이 상기 최대 절대 피크 임계치를 초과하는 경우, 제1 논리 상태를 나타내는 업데이트된 제1 합 신호를 제공하고, 그렇지 않으면, 제2 논리 상태를 나타내는 업데이트된 제1 합 신호를 제공하는 것; 및
    상기 제2 합 신호가 상기 음성 휴지 검출 임계치를 초과하고 상기 제곱 평균 제곱근 값이 상기 제곱 평균 제곱근 임계치를 초과하거나 또는 상기 최대 절대 피크 값이 상기 최대 절대 피크 임계치를 초과하는 경우, 제1 논리 상태를 나타내는 업데이트된 제2 합 신호를 제공하고, 그렇지 않으면, 제2 논리 상태를 나타내는 업데이트된 제2 합 신호를 제공하는 것
    중 적어도 하나를 하도록 더 구성되는, 음성 신호 레벨링 시스템.
  5. 음성 신호 레벨링 시스템(speech signal leveling system)으로서,
    입력 신호를 수신하도록 그리고 출력 신호를 생성하도록 구성되는 제어 가능한 이득 블록으로서, 상기 출력 신호는, 이득 제어 신호에 의존하는, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득을 상기 입력 신호에 적용하는 것에 의해 생성되는, 제어 가능한 이득 블록;
    상기 입력 신호를 수신하도록 그리고 상기 입력 신호에 포함되는 목소리 성분(voice component)을 나타내는 적어도 하나의 음성 검출 신호를 생성하도록 구성되는 음성 검출 블록; 및
    상기 제어 가능한 이득 블록 및 상기 음성 검출 블록과 동작 가능하게 커플링되는 이득 제어 블록으로서, 상기 이득 제어 블록은, 상기 입력 신호 및 상기 적어도 하나의 음성 검출 신호를 수신하도록, 그리고 상기 입력 신호 및 상기 적어도 하나의 음성 검출 신호에 기초하여 상기 이득 제어 신호를 생성하도록 구성되는, 상기 이득 제어 블록을 포함하되; 상기 이득 제어 블록은, 상기 입력 신호에서 목소리 성분이 검출되는 한 상기 입력 신호를 미리 결정된 평균 또는 최대 또는 절대 피크 신호 레벨을 가지도록 증폭 또는 감쇠시키기 위해 상기 제어 가능한 이득 블록을 제어하도록 더 구성되고,
    상기 이득 제어 블록은,
    상기 입력 신호의 제곱 평균 제곱근을 나타내는 평균 신호를 결정하도록, 상기 평균 신호를 필터로 평활화하여 평활화된 평균 신호를 제공하도록; 그리고 기준 평균 레벨과 상기 평활화된 평균 신호 사이의 비율을 취하여 상기 이득 제어 신호를 제공하도록; 또는
    상기 입력 신호의 최대 절대 피크 값을 나타내는 최대 절대 피크 신호를 결정하도록, 상기 최대 절대 피크 신호를 필터로 평활화하여 평활화된 최대 절대 피크 신호를 제공하도록; 그리고 기준 최대 절대 피크 레벨과 상기 평활화된 최대 절대 피크 신호 사이의 비율을 취하여 상기 이득 제어 신호를 제공하도록 더 구성되는, 음성 신호 레벨링 시스템.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 이득 제어 블록은,
    상기 제어 가능한 이득 블록의 상기 이득을 미리 결정된 제1 이득 임계치가 되도록 또는 그 미만이 되도록 제어하는 것; 및
    상기 제어 가능한 이득 블록의 상기 이득이, 상기 적어도 하나의 음성 검출 신호에 의존하는 제2 이득 임계치가 되도록 또는 그 미만이 되도록 제어하는 것; 및
    상기 입력 신호에서 어떠한 목소리 성분도 검출되지 않는 한 어떠한 출력 신호도 제공되지 않도록 상기 제어 가능한 이득 블록의 상기 이득을 제어하여 상기 입력 신호를 차단하는 것
    중 적어도 하나를 하도록 더 구성되는, 음성 신호 레벨링 시스템.
  7. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 시스템은, 상기 입력 신호를 상기 제어 가능한 이득 블록으로 전송하기 위한 시간이, 상기 음성 검출 블록 및 상기 이득 제어 블록에서 상기 입력 신호로부터의 상기 이득 제어 신호를 처리하기 위한 시간과 동일하도록 구성되는, 음성 신호 레벨링 시스템.
  8. 음성 신호 레벨링 방법으로서,
    이득 제어 신호에 의존하는, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득을, 입력 신호에 적용하는 것에 의해 출력 신호를 생성하는 단계;
    상기 입력 신호에 포함되는 목소리 성분을 나타내는 적어도 하나의 음성 검출 신호를 생성하는 단계; 및
    상기 입력 신호 및 상기 적어도 하나의 음성 검출 신호에 기초하여 상기 이득 제어 신호를 생성하고, 상기 입력 신호에서 목소리 성분이 검출되는 한 상기 입력 신호를 미리 결정된 평균 또는 최대 또는 절대 피크 신호 레벨을 가지도록 증폭 또는 감쇠시키기 위해 상기 제어 가능한 이득 블록을 제어하는 단계를 포함하고,
    상기 입력 신호에 포함되는 목소리 성분을 나타내는 적어도 하나의 음성 검출 신호를 생성하는 단계는:
    상기 입력 신호로부터 상기 입력 신호의 적어도 두 개의 주파수 대역에 대한 적어도 두 개의 신호 대 노이즈 비를 결정하는 단계;
    상기 적어도 두 개의 신호 대 노이즈 비를 제1 임계치와 비교하는 단계;
    상기 적어도 두 개의 신호 대 노이즈 비가 상기 제1 임계치보다 더 큰지의 여부를 나타내는 제1 신호를 제공하는 단계; 및
    상기 제1 신호를 합산하여 제1 합 신호를 제공하는 단계를 포함하는, 음성 신호 레벨링 방법.
  9. 제8항에 있어서,
    상기 입력 신호에 포함되는 목소리 성분을 나타내는 목소리 활동 검출 신호 및 상기 입력 신호에서 발생하는 음성 휴지를 나타내는 음성 휴지 검출 신호 중 적어도 하나를 생성하는 단계; 및
    상기 목소리 활동 검출 신호 및 상기 음성 휴지 검출 신호에 기초하여 상기 이득 제어 신호를 생성하는 단계를 더 포함하는, 음성 신호 레벨링 방법.
  10. 음성 신호 레벨링 방법으로서,
    이득 제어 신호에 의존하는, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득을, 입력 신호에 적용하는 것에 의해 출력 신호를 생성하는 단계;
    상기 입력 신호에 포함되는 목소리 성분을 나타내는 적어도 하나의 음성 검출 신호를 생성하는 단계; 및
    상기 입력 신호 및 상기 적어도 하나의 음성 검출 신호에 기초하여 상기 이득 제어 신호를 생성하고, 상기 입력 신호에서 목소리 성분이 검출되는 한 상기 입력 신호를 미리 결정된 평균 또는 최대 또는 절대 피크 신호 레벨을 가지도록 증폭 또는 감쇠시키기 위해 상기 제어 가능한 이득 블록을 제어하는 단계를 포함하고,
    상기 방법은,
    상기 입력 신호에 포함되는 목소리 성분을 나타내는 목소리 활동 검출 신호 및 상기 입력 신호에서 발생하는 음성 휴지를 나타내는 음성 휴지 검출 신호 중 적어도 하나를 생성하는 단계; 및
    상기 목소리 활동 검출 신호 및 상기 음성 휴지 검출 신호에 기초하여 상기 이득 제어 신호를 생성하는 단계를 더 포함하며,
    상기 입력 신호에 포함되는 목소리 성분을 나타내는 적어도 하나의 음성 검출 신호를 생성하는 단계는:
    상기 입력 신호로부터 상기 입력 신호의 적어도 두 개의 주파수 대역에 대한 적어도 두 개의 신호 대 노이즈 비를 결정하는 단계;
    상기 적어도 두 개의 신호 대 노이즈 비를, 목소리 활동 검출을 위한 신호 대 노이즈 비 임계치 및 음성 휴지 검출을 위한 신호 대 노이즈 비 임계치와 비교하는 단계;
    상기 적어도 두 개의 신호 대 노이즈 비가 목소리 활동 검출을 위한 상기 신호 대 노이즈 비 임계치보다 더 큰지의 여부를 나타내는 제1 신호, 및 상기 적어도 두 개의 신호 대 노이즈 비가 음성 휴지 검출을 위한 상기 신호 대 노이즈 비 임계치보다 더 큰지의 여부를 나타내는 제2 신호를 제공하는 단계; 및
    상기 제1 신호를 합산하여 제1 합 신호를 제공하고 상기 제2 신호를 합산하여 제2 합 신호를 제공하는 단계를 포함하되;
    목소리 활동 검출을 위한 상기 신호 대 노이즈 비 임계치는 음성 휴지 검출을 위한 상기 신호 대 노이즈 비 임계치보다 더 큰, 음성 신호 레벨링 방법.
  11. 제10항에 있어서, 상기 입력 신호에 포함되는 목소리 성분을 나타내는 적어도 하나의 음성 검출 신호를 생성하는 단계는:
    상기 입력 신호의 제곱 평균 제곱근 값 또는 최대 절대 피크 값을 결정하는 단계;
    상기 입력 신호의 상기 제곱 평균 제곱근 값을 제곱 평균 제곱근 임계치에 또는 상기 최대 절대 피크 값을 최대 절대 피크 임계치와 비교하는 단계;
    상기 제1 합 신호 대 목소리 활동 검출 임계치 및 상기 제2 합 신호 대 음성 휴지 검출 임계치 중 적어도 하나를 비교하는 단계를 더 포함하되; 적어도 하나의 음성 검출 신호를 생성하는 단계는:
    상기 제1 합 신호가 상기 목소리 활동 검출 임계치를 초과하고 상기 제곱 평균 제곱근 값이 상기 제곱 평균 제곱근 임계치를 초과하거나 또는 상기 최대 절대 피크 값이 상기 최대 절대 피크 임계치를 초과하는 경우, 제1 논리 상태를 나타내는 업데이트된 제1 합 신호를 제공하고, 그렇지 않으면, 제2 논리 상태를 나타내는 업데이트된 제1 합 신호를 제공하는 단계; 및
    상기 제2 합 신호가 상기 음성 휴지 검출 임계치를 초과하고 상기 제곱 평균 제곱근 값이 상기 제곱 평균 제곱근 임계치를 초과하거나 또는 상기 최대 절대 피크 값이 상기 최대 절대 피크 임계치를 초과하는 경우, 제1 논리 상태를 나타내는 업데이트된 제2 합 신호를 제공하고, 그렇지 않으면, 제2 논리 상태를 나타내는 업데이트된 제2 합 신호를 제공하는 단계
    중 적어도 하나를 더 포함하는, 음성 신호 레벨링 방법.
  12. 음성 신호 레벨링 방법으로서,
    이득 제어 신호에 의존하는, 주파수 의존적 또는 주파수 독립적 제어 가능한 이득을, 입력 신호에 적용하는 것에 의해 출력 신호를 생성하는 단계;
    상기 입력 신호에 포함되는 목소리 성분을 나타내는 적어도 하나의 음성 검출 신호를 생성하는 단계; 및
    상기 입력 신호 및 상기 적어도 하나의 음성 검출 신호에 기초하여 상기 이득 제어 신호를 생성하고, 상기 입력 신호에서 목소리 성분이 검출되는 한 상기 입력 신호를 미리 결정된 평균 또는 최대 또는 절대 피크 신호 레벨을 가지도록 증폭 또는 감쇠시키기 위해 상기 제어 가능한 이득 블록을 제어하는 단계를 포함하고,
    상기 이득 제어 신호를 생성하는 단계는:
    상기 입력 신호의 제곱 평균 제곱근을 나타내는 평균 신호를 결정하는 단계; 상기 평균 신호를 필터로 평활화하여 평활화된 평균 신호를 제공하는 단계; 및 기준 평균 레벨과 상기 평활화된 평균 신호 사이의 비율을 취하여 상기 이득 제어 신호를 제공하는 단계, 또는
    상기 입력 신호의 최대 절대 피크 값을 나타내는 최대 절대 피크 신호를 결정하는 단계; 상기 최대 절대 피크 신호를 필터로 평활화하여 평활화된 최대 절대 피크 신호를 제공하는 단계; 및 기준 최대 절대 피크 레벨과 상기 평활화된 최대 절대 피크 신호 사이의 비율을 취하여 상기 이득 제어 신호를 제공하는 단계를 더 포함하는, 음성 신호 레벨링 방법.
  13. 제8항 내지 제12항 중 어느 한 항에 있어서, 상기 이득 제어 신호를 생성하는 단계는:
    상기 제어 가능한 이득 블록의 상기 이득을 미리 결정된 제1 이득 임계치가 되도록 또는 그 미만이 되도록 제어하는 단계;
    상기 제어 가능한 이득 블록의 상기 이득이, 상기 적어도 하나의 음성 검출 신호에 의존하는 제2 이득 임계치가 되도록 또는 그 미만이 되도록 제어하는 단계; 및
    상기 입력 신호에서 어떠한 목소리 성분도 검출되지 않는 한 어떠한 출력 신호도 제공되지 않도록 상기 제어 가능한 이득 블록의 상기 이득을 제어하여 상기 입력 신호를 차단하는 단계
    중 적어도 하나를 포함하는, 음성 신호 레벨링 방법.
  14. 제8항 내지 제12항 중 어느 한 항에 있어서, 상기 입력 신호를 상기 제어 가능한 이득 블록으로 전송하기 위한 시간은, 상기 음성 검출 블록 및 상기 이득 제어 블록에서 상기 입력 신호로부터의 상기 이득 제어 신호를 처리하기 위한 시간과 동일한, 음성 신호 레벨링 방법.
  15. 명령어를 포함하는 저장 매체에 기록된 컴퓨터 프로그램으로서, 상기 명령어는, 상기 프로그램이 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제8항 내지 제12항 중 어느 한 항의 상기 방법을 수행하게 하는, 컴퓨터 프로그램.
KR1020207001398A 2017-07-18 2018-07-17 음성 신호 레벨링 KR102591447B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17181799.2 2017-07-18
EP17181799.2A EP3432306A1 (en) 2017-07-18 2017-07-18 Speech signal leveling
PCT/EP2018/069374 WO2019016199A1 (en) 2017-07-18 2018-07-17 UPGRADING A SPEECH SIGNAL

Publications (2)

Publication Number Publication Date
KR20200026896A KR20200026896A (ko) 2020-03-11
KR102591447B1 true KR102591447B1 (ko) 2023-10-19

Family

ID=59366292

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207001398A KR102591447B1 (ko) 2017-07-18 2018-07-17 음성 신호 레벨링

Country Status (6)

Country Link
US (1) US11264046B2 (ko)
EP (1) EP3432306A1 (ko)
KR (1) KR102591447B1 (ko)
CN (1) CN110914901A (ko)
DE (1) DE112018003662T5 (ko)
WO (1) WO2019016199A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475888B2 (en) * 2018-04-29 2022-10-18 Dsp Group Ltd. Speech pre-processing in a voice interactive intelligent personal assistant
CN110265035B (zh) * 2019-04-25 2021-08-06 武汉大晟极科技有限公司 一种基于深度学习的说话人识别方法
CN111833900B (zh) * 2020-06-16 2023-10-17 成都市联洲国际技术有限公司 音频增益控制方法、系统、设备和存储介质
CN113555033A (zh) * 2021-07-30 2021-10-26 乐鑫信息科技(上海)股份有限公司 语音交互系统的自动增益控制方法、装置及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003060459A (ja) * 2001-08-21 2003-02-28 Oki Electric Ind Co Ltd 自動利得制御増幅器
JP5120288B2 (ja) * 2009-02-16 2013-01-16 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5120288B2 (ko) * 1972-05-04 1976-06-24
US6154548A (en) * 1997-09-27 2000-11-28 Ati Technologies Audio mute control signal generating circuit
US6480589B1 (en) * 1998-07-14 2002-11-12 Samsung Electronics Co., Ltd. CPE alert signal detector and caller identification detector using peak detection
US6868162B1 (en) * 2000-11-17 2005-03-15 Mackie Designs Inc. Method and apparatus for automatic volume control in an audio system
US7013011B1 (en) * 2001-12-28 2006-03-14 Plantronics, Inc. Audio limiting circuit
US20080025530A1 (en) * 2006-07-26 2008-01-31 Sony Ericsson Mobile Communications Ab Method and apparatus for normalizing sound playback loudness
JP5383008B2 (ja) * 2007-07-09 2014-01-08 アルパイン株式会社 音声明瞭度改善システム及び音声明瞭度改善方法
JP4826625B2 (ja) * 2008-12-04 2011-11-30 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
WO2010131470A1 (ja) * 2009-05-14 2010-11-18 シャープ株式会社 ゲイン制御装置及びゲイン制御方法、音声出力装置
US8620653B2 (en) * 2009-06-18 2013-12-31 Microsoft Corporation Mute control in audio endpoints
US9998081B2 (en) * 2010-05-12 2018-06-12 Nokia Technologies Oy Method and apparatus for processing an audio signal based on an estimated loudness
SI3493205T1 (sl) * 2010-12-24 2021-03-31 Huawei Technologies Co., Ltd. Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu
GB2490927A (en) * 2011-05-18 2012-11-21 Zarlink Semiconductor Inc Single controller for control of gain in two paths and for control of howling
US9401685B2 (en) * 2012-06-08 2016-07-26 Apple Inc. Systems and methods for adjusting automatic gain control
US9685921B2 (en) * 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
EP2693636A1 (en) * 2012-08-01 2014-02-05 Harman Becker Automotive Systems GmbH Automatic loudness control

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003060459A (ja) * 2001-08-21 2003-02-28 Oki Electric Ind Co Ltd 自動利得制御増幅器
JP5120288B2 (ja) * 2009-02-16 2013-01-16 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器

Also Published As

Publication number Publication date
WO2019016199A1 (en) 2019-01-24
CN110914901A (zh) 2020-03-24
KR20200026896A (ko) 2020-03-11
US20200227065A1 (en) 2020-07-16
EP3432306A1 (en) 2019-01-23
US11264046B2 (en) 2022-03-01
DE112018003662T5 (de) 2020-04-30

Similar Documents

Publication Publication Date Title
KR102591447B1 (ko) 음성 신호 레벨링
KR100860805B1 (ko) 음성 강화 시스템
CN105185383B (zh) 用于存在可理解语音时部分保留音乐的方法
CN111149370B (zh) 会议系统中的啸叫检测
US7155385B2 (en) Automatic gain control for adjusting gain during non-speech portions
CN106486135B (zh) 近端语音检测器、语音系统、对语音进行分类的方法
EP2113908A1 (en) Robust downlink speech and noise detector
EP1607939B1 (en) Speech signal compression device, speech signal compression method, and program
US11164592B1 (en) Responsive automatic gain control
US20240062770A1 (en) Enhanced de-esser for in-car communications systems
US10555069B2 (en) Approach for detecting alert signals in changing environments
KR101961998B1 (ko) 즉각적인 바람 잡음을 감소시키는 것
US20090252347A1 (en) Method and Apparatus For Automatic Gain Control
EP3428918B1 (en) Pop noise control
US10079031B2 (en) Residual noise suppression
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
GB2536727B (en) A speech processing device
JP3131226B2 (ja) 改良された百分位数予測器を備えた補聴器
JPS6257040B2 (ko)
WO2021197566A1 (en) Noise supression for speech enhancement
RU2345477C1 (ru) Способ автоматической регулировки усиления сигнала
KR20160000680A (ko) 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치
US10720171B1 (en) Audio processing
US20230115316A1 (en) Double talk detection using capture up-sampling
EP3343766A1 (en) Signal processing apparatus and speaker apparatus

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant