KR102383195B1 - 디코더에서의 노이즈 감쇠 - Google Patents

디코더에서의 노이즈 감쇠 Download PDF

Info

Publication number
KR102383195B1
KR102383195B1 KR1020207015066A KR20207015066A KR102383195B1 KR 102383195 B1 KR102383195 B1 KR 102383195B1 KR 1020207015066 A KR1020207015066 A KR 1020207015066A KR 20207015066 A KR20207015066 A KR 20207015066A KR 102383195 B1 KR102383195 B1 KR 102383195B1
Authority
KR
South Korea
Prior art keywords
bin
value
context
information
decoder
Prior art date
Application number
KR1020207015066A
Other languages
English (en)
Other versions
KR20200078584A (ko
Inventor
기욤 훅스
톰 벡스트렘
스네하 다스
Original Assignee
프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 filed Critical 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Publication of KR20200078584A publication Critical patent/KR20200078584A/ko
Application granted granted Critical
Publication of KR102383195B1 publication Critical patent/KR102383195B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

복호화를 위한 방법들 및 디코더들의 예들이 제공된다. 비트 스트림(bitstream)(111)에 정의되는 주파수 도메인 신호(frequency-domain signal)를 복호화 하기 위한 디코더(110)에 있어서 - 상기 주파수 도메인 입력 신호는 양자화 노이즈(quantization noise)를 받음 - , 상기 비트 스트림(111)으로부터, 각 빈(bin)이 샘플링 된 값(sampled value)을 가지는 복수의 빈들(123-126)로 각 프레임(121)이 세분화되는 프레임들(121)의 시퀀스로서 상기 입력 신호의 버전(version)(113’, 120)을 제공하기 위한 비트 스트림 리더(bitstream reader)(113); 처리 중인 하나의 빈(123)에 대한 콘텍스트(context)(114’)를 정의하도록 구성된 콘텍스트 정의기(context definer)(114) - 상기 콘텍스트(114’)는 처리 중인 상기 빈(123)과 미리 결정된 위치상의 관계에 있는 적어도 하나의 추가적인 빈(118’, 124)을 포함함 - ; 적어도 하나의 추가적인 빈(118’, 124)과 처리중인 상기 빈(123) 관련 정보 및/또는 사이 통계적 관계들 및/또는 정보(115’)를 제공하도록 구성된 통계적 관계 및/또는 정보 추정기(statistical relationship and/or information estimator)(115) - 상기 통계적 관계 추정기(115)는 양자화 노이즈(quantization noise) 관련 정보(119’) 및/또는 통계적 관계들을 제공하도록 구성된 양자화 노이즈 관계 및/또는 정보 추정기(quantization noise relationship and/or information estimator)(119)를 포함함-; 양자화 노이즈(119’) 관련 정보(119) 및/또는 통계적 관계들 및 정보(115’, 119’) 및/또는 상기 추정된 통계적 관계들에 기초하여 처리중인 상기 빈(123)의 값의 추정치(116’)를 획득하고 처리하도록 구성된 값 추정기(value estimator)(116); 및 상기 추정된 신호(116’)를 시간 도메인 신호(112)로 변환하는 변환기(transformer)(117) 를 포함하는 하나의 디코더(110)가 개시된다.

Description

디코더에서의 노이즈 감쇠
본 발명은 디코더에서의 노이즈 감쇠에 관한 것이다.
디코더는 일반적으로 비트 스트림을 복호화 하기 위해 사용된다(예를 들어, 수신되거나 스토리지에 저장된). 상기 신호는 그럼에도 불구하고, 예를 들어, 양자화 노이즈와 같은 노이즈를 받는다. 상기 노이즈의 감쇠는 따라서 중요한 목표이다.
일 측면에 따르면, 비트 스트림(bitstream)에 정의되는 주파수 도메인 신호(frequency-domain signal)를 복호화 하기 위한 디코더에 있어서 - 상기 주파수 도메인 입력 신호는 양자화 노이즈(quantization noise)를 받음 - ,
상기 비트 스트림으로부터, 각 빈(bin)이 샘플링 된 값(sampled value)을 가지는 복수의 빈들로 각 프레임이 세분화되는 프레임들의 시퀀스로서 상기 입력 신호의 버전(version)을 제공하기 위한 비트 스트림 리더(bitstream reader);
처리 중인 하나의 빈에 대한 콘텍스트(context)를 정의하도록 구성된 콘텍스트 정의기(context definer) - 상기 콘텍스트는 처리 중인 상기 빈과 미리 결정된 위치상의 관계에 있는 적어도 하나의 추가적인 빈을 포함함 - ;
적어도 하나의 추가적인 빈과 처리중인 상기 빈 관련 정보 및/또는 사이 통계적 관계들 및/또는 정보를 제공하도록 구성된 통계적 관계 및/또는 정보 추정기(statistical relationship and/or information estimator) - 상기 통계적 관계 추정기는 양자화 노이즈(quantization noise) 관련 정보 및/또는 통계적 관계들을 제공하도록 구성된 양자화 노이즈 관계 및/또는 정보 추정기(quantization noise relationship and/or information estimator)를 포함함-;
양자화 노이즈 관련 정보 및/또는 통계적 관계들 및 정보 및/또는 상기 추정된 통계적 관계들에 기초하여 처리중인 상기 빈의 값의 추정치(116’)를 획득하고 처리하도록 구성된 값 추정기(value estimator); 및
상기 추정된 신호를 시간 도메인 신호(112)로 변환하는 변환기(transformer)
를 포함하는, 디코더가 여기에 제공된다.
일 측면에 따르면, 비트 스트림(bitstream)에 정의되는 주파수 도메인 신호(frequency-domain signal)를 복호화 하기 위한 디코더에 있어서 - 상기 주파수 도메인 입력 신호는 노이즈(noise)를 받음 - ,
상기 비트 스트림으로부터, 각 빈(bin)이 샘플링 된 값(sampled value)을 가지는 복수의 빈들로 각 프레임이 세분화되는 프레임들의 시퀀스로서 상기 입력 신호의 버전을 제공하기 위한 비트 스트림 리더(bitstream reader);
처리 중인 하나의 빈에 대한 콘텍스트(context)를 정의하도록 구성된 콘텍스트 정의기(context definer) - 상기 콘텍스트는 처리 중인 상기 빈과 미리 결정된 위치상의 관계에 있는 적어도 하나의 추가적인 빈을 포함함 - ;
적어도 하나의 추가적인 빈과 처리중인 상기 빈 관련 정보 및/또는 사이 통계적 관계들 및/또는 정보를 제공하도록 구성된 통계적 관계 및/또는 정보 추정기 - 상기 통계적 관계 추정기는 노이즈 관련 정보 및/또는 통계적 관계들을 제공하도록 구성된 노이즈 관계 및/또는 정보 추정기를 포함함-;
노이즈 관련 정보 및/또는 통계적 관계들 및 정보 및/또는 상기 추정된 통계적 관계들에 기초하여 처리중인 상기 빈의 값의 추정치를 획득하고 처리하도록 구성된, 값 추정기(value estimator); 및
상기 추정된 신호를 시간 도메인 신호로 변환하는 변환기(transformer)
를 포함하는, 디코더가 개시된다.
일 측면에 따르면, 상기 노이즈는 양자화 노이즈가 아닌 노이즈이다.
일 측면에 따르면, 상기 노이즈는 양자화 노이즈이다.
일 측면에 따르면, 상기 콘텍스트 정의기는 이전에 처리된 빈들 중 상기 적어도 하나의 추가적인 빈을 고르도록 구성된다.
일 측면에 따르면, 상기 콘텍스트 정의기는 상기 빈의 대역(band)에 기초하여 상기 적어도 하나의 추가적인 빈을 고르도록 구성된다.
일 측면에 따르면, 상기 콘텍스트 정의기는 이미 처리된 것들 중 미리 결정된 임계치 내에서 상기 적어도 하나의 추가적인 빈을 고르도록 구성된다.
일 측면에 따르면, 상기 콘텍스트 정의기는 상이한 대역들에서 빈들에 대한 상이한 콘텍스트들을 고르도록 구성된다.
일 측면에 따르면, 상기 값 추정기는 상기 입력 신호의 최적 추정치를 제공하기 위해 위너 필터(Wiener filter)로서 동작하도록 구성된다.
일 측면에 따르면, 상기 값 추정기는 상기 적어도 하나의 추가적인 빈으로부터 처리중인 상기 빈의 상기 값의 상기 추정치를 획득하도록 구성된다.
일 측면에 따르면, 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈의 상기 이전에 수행된 추정(들)과 관련된 측정된 값을 제공하도록 구성된 측정기를 더 포함하고,
상기 값 추정기는 상기 측정된 값에 기초하여 처리중인 상기 빈의 상기 값의 추정치을 획득하도록 구성된다.
일 측면에 따르면, 상기 측정된 값은 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈의 상기 에너지와 관련된 값이다.
일 측면에 따르면, 상기 측정된 값은 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈과 관련된 이득이다.
일 측면에 따르면, 상기 측정기(131)는 벡터들의 상기 스칼라 곱(scalar product)으로서 상기 이득을 획득하도록 구성되고, 제1 벡터는 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈의 값(들)을 포함하고, 상기 제2 벡터는 상기 제1 벡터의 상기 켤레 전치(transpose conjugate)이다.
일 측면에 따르면, 상기 통계적 관계 및/또는 정보 추정기는 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈 및 처리중인 상기 빈 사이 기대 통계적 관계들 및/또는 미리 결정된 추정치들로서의 상기 통계적 관계들 및/또는 정보를 제공하도록 구성된다.
일 측면에 따르면, 상기 통계적 관계 및/또는 정보 추정기는 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈 및 처리중인 상기 빈 사이 위치상의 관계들에 기초하여 관계들로서의 상기 통계적 관계들 및/또는 정보를 제공하도록 구성된다.
일 측면에 따르면, 상기 통계적 관계들 및/또는 정보 추정기는 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈 및/또는 처리중인 상기 빈의 상기 값들에 관계없이 상기 통계적 관계들 및/또는 정보를 제공하도록 구성된다.
일 측면에 따르면, 상기 통계적 관계들 및/또는 정보 추정기(115)는 분산(variance), 공분산(covariance), 상관(correlation) 및/또는 자기상관(autocorrelation) 값들의 형태로 상기 통계적 관계들 및/또는 정보(115’)를 제공하도록 구성된다.
일 측면에 따르면, 상기 통계적 관계들 및/또는 정보 추정기는 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈 및/또는 처리중인 상기 빈 사이 분산, 공분산, 상관 및/또는 자기상관 값들의 관계들을 수립하는 매트릭스의 형태로 상기 통계적 관계들 및/또는 정보를 제공하도록 구성된다.
일 측면에 따르면, 상기 통계적 관계들 및/또는 정보 추정기는 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈 및/또는 처리중인 상기 빈 사이 분산, 공분산, 상관 및/또는 자기상관 값들의 관계들을 수립하는 정규화 된(normalized) 매트릭스의 형태로 상기 통계적 관계들 및/또는 정보를 제공하도록 구성된다.
일 측면에 따르면, 상기 매트릭스는 오프라인 트레이닝(offline training)에 의해 획득된다.
일 측면에 따르면, 상기 값 추정기는 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈 및/또는 처리중인 상기 빈의 상기 에너지 및/또는 이득 변화들을 고려하기 위해, 에너지 관련 또는 이득 값에 의한 상기 매트릭스의 요소들을 스케일링하도록 구성된다.
일 측면에 따르면, 상기 값 추정기는 관계
Figure 112021127703894-pct00001

에 기초하여 상기 처리중인 빈의 상기 값의 상기 추정치를 획득하도록 구성되고,
여기서,
Figure 112021127703894-pct00002
는 각각 노이즈 및 공분산 매트릭스들이고,
Figure 112021127703894-pct00003
Figure 112021127703894-pct00004
가 콘텍스트 길이인,
Figure 112021127703894-pct00005
차원을 갖는 노이지 관측 벡터(noisy observation vector)이다.
일 측면에 따르면, 상기 값 추정기는 관계
Figure 112021127703894-pct00006

에 기초하여 상기 처리중인 빈의 상기 값의 상기 추정치를 획득하도록 구성되고,
여기서,
Figure 112021127703894-pct00007
는 정규화 된 공분산 매트릭스이고,
Figure 112021127703894-pct00008
는 상기 노이즈 공분산 매트릭스이고,
Figure 112021127703894-pct00009
Figure 112021127703894-pct00010
가 스케일링 이득이고,
Figure 112021127703894-pct00011
가 상기 콘텍스트 길이인, 상기 콘텍스트의 상기 추가적인 빈들 및 처리중인 상기 빈과 관련되고
Figure 112021127703894-pct00012
차원을 갖는 노이지 관측 벡터(noisy observation vector)이다.
일 측면에 따르면, 상기 콘텍스트의 상기 추가적인 빈들의 각각의 상기 샘플링 된 값들이 상기 값 측정기는 상기 콘텍스트의 상기 추가적인 빈들의 상기 추정된 값에 대응하면, 상기 값 추정기는 처리중인 상기 빈의 상기 값의 상기 추정치를 획득하도록 구성된다.
일 측면에 따르면, 상기 값 추정기는 처리중인 상기 빈의 상기 샘플링 된 값이 천정치(ceiling value)와 바닥치(ceiling value) 사이에 있을 것이라고 기대된다면, 상기 값 추정기는 처리중인 상기 빈의 상기 값의 상기 추정치를 획득하도록 구성된다.
일 측면에 따르면, 상기 값 추정기는 우도 함수(likelihood function)의 최대치에 기초하여 처리중인 상기 빈의 상기 값의 상기 추정치를 획득하도록 구성된다.
일 측면에 따르면, 상기 값 추정기(116)는 기대 값에 기초하여 처리중인 상기 빈(123) 상기 값의 상기 추정치(116’)를 획득하도록 구성된다.
일 측면에 따르면, 상기 값 추정기는 다변량 가우시안 랜덤 변수(multivariate Gaussian random variable)의 상기 기대(expectation)에 기초하여 처리중인 상기 빈 상기 값의 상기 추정치를 획득하도록 구성된다.
일 측면에 따르면, 상기 값 추정기는 조건 다변량 가우시안 랜덤 변수(conditional multivariate Gaussian random variable)의 상기 기대에 기초하여 처리중인 상기 빈 상기 값의 상기 추정치를 획득하도록 구성된다.
일 측면에 따르면, 상기 샘플링 된 값들은 상기 로그 크기 도메인(Log-magnitude domain)에 있다.
일 측면에 따르면, 상기 샘플링 된 값들은 상기 지각적 도메인(perceptual domain)에 있다.
일 측면에 따르면, 상기 통계적 관계 및/또는 정보 추정기는 상기 값 추정기에 상기 신호의 평균 값을 제공하도록 구성된다.
일 측면에 따르면, 상기 통계적 관계 및/또는 정보 추정기는 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈 및 처리중인 상기 빈 사이 분산 관련(variance-related) 및/또는 공분산 관련 관계들(covariance-related relationships)에 기초하여 상기 클린 신호(clean signal)의 평균 값을 제공하도록 구성된다.
일 측면에 따르면, 상기 통계적 관계 및/또는 정보 추정기는 처리중인 상기 빈의 상기 기대 값에 기초하여 상기 클린 신호의 평균값을 제공하도록 구성된다.
일 측면에 따르면, 상기 통계적 관계 및/또는 정보 추정기는 상기 추정된 콘텍스트에 기초하여 상기 신호의 평균 값을 업데이트하도록 구성된다.
일 측면에 따르면, 상기 통계적 관계 및/또는 정보 추정기는 값 추정기에 분산 관련 및/또는 표준 편차 값 관련(standard-deviation-value-related) 값을 제공하도록 구성된다.
일 측면에 따르면, 상기 통계적 관계 및/또는 정보 추정기는 상기 값 추정기에 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈 및 처리중인 상기 빈 사이 분산 관련 및/또는 공분산 관련 관계들(covariance-related relationships)에 기초하여 분산 관련 및/또는 표준 편차 값 관련 값을 제공하도록 구성된다.
일 측면에 따르면, 상기 노이즈 관계 및/또는 정보 추정기는 각 빈에 대해, 상기 신호가 상기 천정치 및 상기 바닥치 사이에 있다는 상기 기대에 기초하여 상기 신호를 추정하기 위해 천정치 및 바닥치를 제공하도록 구성된다.
일 측면에 따르면, 상기 입력 신호의 상기 버전은 양자화 레벨(quantization level)인 양자화된 값(quantized value)을 갖고, 상기 양자화 레벨은 이산적인 개수의 양자화 레벨들로부터 선택된 값이다.
일 측면에 따르면, 상기 양자화 레벨들의 상기 스케일들 및/또는 값들 및/또는 상기 수는 상기 비트 스트림에서 시그널링 되고/되거나 상기 인코더에 의해 시그널링 된다.
일 측면에 따르면, 상기 값 추정기(116)는
Figure 112021127703894-pct00013

의 조건에서 처리중인 상기 빈의 상기 값의 상기 추정치를 획득하도록 구성되고,
여기서,
Figure 112021127703894-pct00014
는 처리중인 상기 빈의 상기 추정이고,
Figure 112021127703894-pct00015
Figure 112021127703894-pct00016
는 각각 상기 현재 양자화 빈들의 상기 하한 및 상한이고,
Figure 112021127703894-pct00017
Figure 112021127703894-pct00018
, 주어진
Figure 112021127703894-pct00019
의 조건부 확률이고,
Figure 112021127703894-pct00020
는 추정된 콘텍스트 벡터이다.
일 측면에 따르면, 상기 값 추정기(116)는 상기 기대
Figure 112021127703894-pct00021

에 기초하여 처리중인 상기 빈의 상기 값의 상기 추정치를 제공하도록 구성되고,
X는
Figure 112021127703894-pct00022
인 절단 가우시안 랜덤 변수(truncated Gaussian random variable)로 표현되는 처리중인 상기 빈의 특정 값이고, 여기서
Figure 112021127703894-pct00023
은 상기 바닥치이고
Figure 112021127703894-pct00024
는 상기 천정치이고,
Figure 112021127703894-pct00025
이고,
Figure 112021127703894-pct00026
이고,
Figure 112021127703894-pct00027
Figure 112021127703894-pct00028
는 상기 분포의 평균과 분산이다.
일 측면에 따르면, 상기 미리 결정된 위치상의 관계는 오프라인 트레이닝에 의해 획득된다.
일 측면에 따르면, 상기 적어도 하나의 추가적인 빈 및 처리중인 상기 빈 관련 정보 및/또는 사이 상기 통계적 관계들 및/또는 정보 중 적어도 하나는 오프라인 트레이닝에 의해 획득된다.
일 측면에 따르면, 상기 양자화 노이즈 관계들 및 정보 중 적어도 하나는 오프라인 트레이닝에 의해 획득된다.
일 측면에 따르면, 상기 입력 신호는 오디오 신호이다.
일 측면에 따르면, 상기 입력 신호는 스피치 신호(speech signal)이다.
일 측면에 따르면, 상기 콘텍스트 정의기, 상기 통계적 관계 및/또는 정보 추정기, 상기 노이즈 관계 및/또는 정보 추정기, 및 상기 값 추정기 중 적어도 하나는 상기 입력 신호의 클린 추정치를 획득하기 위해 포스트 필터링(post-filtering)을 수행하도록 구성된다.
일 측면에 따르면, 상기 콘텍스트 정의기는 복수의 추가적인 빈들을 갖는 상기 콘텍스트를 정의하도록 구성된다.
일 측면에 따르면, 상기 콘텍스트 정의기는 주파수/시간 그래프에서 빈들의 단일 연결 이웃(simply connected neighbourhood)으로서 상기 콘텍스트를 정의하도록 구성된다.
일 측면에 따르면, 상기 비트 스트림 리더은 상기 비트 스트림로부터의 프레임 간 정보의 상기 복호화를 피하도록 구성된다.
일 측면에 따르면, 상기 디코더는 상기 신호의 상기 비트레이트(bitrate)를 결정하도록 구성되고, 및, 상기 비트레이트가 미리 결정된 비트레이트 임계치를 초과하는 경, 상기 정의기, 상기 통계적 관계 및/또는 정보 추정기, 상기 노이즈 관계 및/또는 정보 추정기, 상기 값 추정기 중 적어도 하나를 우회하도록 구성된다,
일 측면에 따르면, 상기 디코더는 상기 이전에 진행된 빈들과 관련된 정보를 저장하는 처리된 빈들 스토리지 유닛(processed bins storage unit)을 더 포함하고,
상기 콘텍스트 정의기는 상기 추가적인 빈들 중 적어도 하나로서 적어도 하나의 이전에 진행된 빈을 사용하여 상기 콘텍스트를 정의하도록 구성된다.
일 측면에 따르면, 상기 콘텍스트 정의기는 상기 추가적인 빈들 중 적어도 하나로서 적어도 하나의 비 처리된 빈(non-processed bin)을 사용하여 상기 콘텍스트를 정의하도록 구성된다.
일 측면에 따르면, 상기 통계적 관계 및/또는 정보 추정기는 상기 콘텍스트의 상기 적어도 하나의 추가적인 빈 및/또는 처리중인 상기 빈 사이 자기상관, 상관, 공분산, 및/또는 분산의 관계들을 수립하는 매트릭스(
Figure 112021127703894-pct00029
)의 형태로 상기 통계적 관계들 및/또는 정보를 제공하도록 구성되고,
상기 통계적 관계 및/또는 정보 추정기는 상기 입력 신호의 상기 하모닉서티(harmonicity)와 관련된 매트릭들(metrics)에 기초하여 복수의 미리 결정된 매트릭스들(matrixes)로부터 하나의 매트릭스를 고르도록 구성된다.
일 측면에 따르면, 상기 노이즈 관계 및/또는 정보 추정기는 상기 노이즈와 관련된 자기상관 값들, 상관, 공분산, 및/또는 분산의 관계들을 수립하는 매트릭스(
Figure 112021127703894-pct00030
)의 형태로 노이즈 관련 통계적 관계들 및/또는 정보를 제공하도록 구성되고,
상기 통계적 관계 및/또는 정보 추정기는 상기 입력 신호의 상기 하모닉서티와 관련된 매트릭들에 기초하여 복수의 미리 결정된 매트릭스들로부터 하나의 매트릭스를 고르도록 구성된다.
상기 및/또는 하기 임의의 측면들에 따라 인코더 및 디코더를 포함하는 시스템이 제공되고, 상기 인코더는 상기 비트 스트림에 인코딩 된 상기 입력 신호를 제공하도록 구성된다.
예들에서, 입력 신호의 처리중인 하나의 빈에 대한 콘텍스트를 정의하는 단계 - 상기 콘텍스트는 처리중인 상기 빈과 함께, 주파수/시간 공간 내, 미리 결정된 위치 관계에서의 적어도 하나의 추가적인 빈을 포함함 -;
양자화 노이즈 관련 통계적 관계들 및/또는 정보에 기초하여 및 상기 적어도 하나의 추가적인 빈 및 처리중인 상기 빈 관련 정보 및/또는 사이 통계적인 관계들 및/또는 정보에 기초하여, 처리중인 상기 빈의 상기 값을 추정하는 단계를 포함하는 방법이 제공된다.
예들에서, 입력 신호의 처리중인 하나의 빈에 대한 콘텍스트를 정의하는 단계 - 처리중인 상기 빈과 함께, 주파수/시간 공간에서, 미리 결정된 위치상의 관계의 적어도 하나의 추가적인 빈을 포함함 - ;
양자화 노이즈가 아닌 노이즈 관련 통계적인 관계들 및/또는 정보에 기초하여 및 상기 적어도 하나의 추가적인 빈 및 처리중인 상기 빈 관련 정보 및/또는 사이 통계적인 관계들 및/또는 정보에 기초하여 처리중인 상기 빈의 상기 값을 추정하는 단계를 포함하는 방법이 제공된다.
상기 방법들 중 하나는 상기 및/또는 하기의 임의의 측면들의 장비를 사용할 수 있다.
예들에서, 프로세서에 의해 실행될 때, 상기 프로세서가 상기 및/또는 하기의 임의의 측면들의 임의의 상기 방법들을 수행하도록 하는 명령어들을 저장하는 비 일시적 스토리지 유닛이 제공된다.
도 1a는 예에 따른 디코더를 도시한다.
도 1b는 상기 콘텍스트를 나타내는 신호의 버전의 주파수/시간 공간 그래프의 도식화를 도시한다.
도 1c는 예에 따른 디코더를 도시한다.
도 1d는 예에 따른 디코더를 도시한다.
도 1e는 신호의 버전의 크기/주파수 그래프들 및 주파수/시간 공간 그래프의 도식화들을 도시한다.
도 2a는 상기 콘텍스트들을 나타내는 신호의 버전의 주파수/시간 공간 그래프들의 도식화들을 도시한다.
도 2b는 예들과 함께 획득한 히스토그램들(histograms)을 도시한다.
도 2c는 예들에 따른 스피치의 스펙트로그램들(spectrograms) 도시한다.
도 2d는 인코더 및 디코더의 예를 도시한다.
도 2e는 예들과 함께 획득한 결과들의 플롯들을 도시한다.
도 2f는 예들과 함께 획득한 테스트 결과들을 도시한다.
도 3a는 상기 콘텍스트를 나타내는 신호의 버전의 주파수/시간 공간 그래프의 도식화를 도시한다.
도 3b는 예들과 함께 획득한 히스토그램들을 도시한다.
도 3c는 스피치 모델들(speech models)의 트레이닝의 블록 다이어그램을 도시한다.
도 3d는 예들과 함께 획득한 히스토그램들을 도시한다.
도 3e는 예들과 함께 SNR의 개선을 나타내는 플롯들을 도시한다.
도 3f는 인코더 및 디코더의 예를 도시한다.
도 3g는 예들과 관련된 플롯들을 도시한다.
도 3h는 상관 플롯을 도시한다.
도 4a는 예에 따른 시스템을 도시한다.
도 4b는 예에 따른 스킴(scheme)을 도시한다.
도 4c는 예에 따른 스킴을 도시한다.
도 5a는 예들에 따른 방법 단계를 도시한다.
도 5b는 일반적 방법(general method)을 도시한다.
도 5c는 예에 따른 프로세서 기반 시스템(processor-based system)을 도시한다.
도 5d는 예에 따른 인코더/디코더 시스템을 도시한다.
4.1.1 예들
도 1a은 디코더(110)의 예를 도시한다. 도 1b는 상기 디코더(110)에 의해 처리된 신호 버전(120)의 표시를 도시한다.
디코더(110)는 인코더에 의해 생성된 비트 스트림(111)(디지털 데이터 스트림)에 인코딩 된 주파수 도메인 입력 신호(frequency-domain input signal)를 복호화 할 수 있다. 비트 스트림(111)은, 예를 들어, 메모리에 저장되었을 수 있고, 또는 디코더(110)와 관련된 수신기 디바이스에 전송되었을 수 있다.
상기 비트 스트림이 생성될 때, 상기 주파수 도메인 입력 신호는 양자화 노이즈를 받을 수 있다. 다른 예들에서, 상기 주파수 도메인 입력 신호는 다른 유형들의 노이즈를 받을 수 있다. 이하에서는 상기 노이즈를 줄이거나, 제한하거나, 또는 피하는 것을 허용하는 기술들을 설명한다.
디코더(110)는 비트 스트림 리더(113)를 포함할 수 있다(통신 수신기, 대용량 메모리 리더(mass memory reader) 등). 비트 스트림 리더(113)는 비트 스트림(111)으로부터 오리지널 입력 신호의 버전(113')(시간 / 주파수 2 차원 공간에서도 1b에서 120으로 표시됨)을 제공할 수 있다. 상기 입력 신호의 버전(113', 120)은 프레임들(121)의 시퀀스로 보일 수 있다. 예를 들어, 각 프레임(121)은 시간 슬롯에 대해 오리지널 입력 신호의 주파수 도메인(frequency domain), FD, 표현일 수 있다. 예를 들어, 각 프레임(121)은 20ms(다른 길이가 정의될 수 있음)의 시간 슬롯과 관련될 수 있다. 프레임들(121)의 각각은 이산 슬롯들의 이산 시퀀스의 정수 “t”로 식별될 수 있다. 예를 들어, 상기(t+1)번째 프레임은 t번째 프레임 바로 뒤에 있다. 각 프레임(121)은 복수의 스펙트럼의 빔들(여기서는 123-126으로 표시됨)로 세분될 수 있다. 각 프레임(121)에 대해, 각 빈은 특정 주파수 및/또는 특정 주파수 대역(band)과 관련된다. 상기 대역들은 상기 프레임의 각 빈이 특정 주파수 대역에 미리 할당될 수 있다는 점에서 미리 결정될 수 있다. 상기 대역들은 이산 시퀀스들로 번호가 매겨질 수 있고, 각 대역은 점진적 숫자 “k”로 식별된다. 예를 들어, 상기(k+1)번째 대역은 k번째 대역보다 주파수가 더 높을 수 있다.
비트 스트림(111)(및 결과적으로 신호(113 ', 120))은 각각의 시간/주파수 빈이 특정 값(예를 들어, 샘플링 된 값)과 연관되는 방식으로 제공될 수 있다. 샘플링 된 값은 일반적으로 Y(k, t)로 표현되며 경우에 따라 복소수 값일 수 있다. 일부 예들에서, 샘플링 된 값 Y(k, t)는 디코더(110)가 대역 k에서 타임 슬롯 t에서 상기 오리지널에 관해 갖는 고유 지식일 수 있다. 따라서, 샘플링 된 값 Y(k, t)는 일반적으로 인코더에서 오리지널 아날로그 신호를 디지털화 할 때 및/또는 상기 비트 스트림을 생성할 때 근사의 오차를 발생시켰기 때문에 양자화 노이즈에 의해 손상된다.(다른 유형들의 노이즈는 또한 다른 예들에서 도식화될 수 있다.) 샘플링 된 값 Y(k, t)(노이지 스피치(noisy speech))는 다음의 관점에서 표현되는 것으로 이해될 수 있다.
Y(k, t) = X(k, t) + V(k, t),
X(k, t)는 클린 신호(clean signal)(바람직하게는 획득될 수 있음)이고 V(k, t)는 양자화 노이즈 신호(또는 다른 유형의 노이즈 신호)이다. 여기에 설명된 기술들로 상기 클린 신호의 적절한, 최적의 추정에 도달하는 것이 가능하다는 것이 주목되었다.
동작들은 각 빈이 한 특정 시간에 처리되는 것을, 예를 들어 반복적으로 제공할 수 있다. 각 반복에서, 처리될 빈이 식별된다(예를 들어, 도 1b에서 순간 t = 4 및 대역 k = 3과 관련된 빈(123), 상기 빈은 “처리중인 빈”으로 지칭됨). 처리중인 빈(123)과 관련하여, 신호(120(113'))의 다른 빈들은 두개의 클래스로 분할될 수 있다.
- 비 처리된 빈들(126)의 제1 클래스(도 1b에 점선으로 된 원으로 나타나는), 예를 들어, 추후 반복들에서 처리될 빈들; 및
- 이미 처리된 빈들(124, 125)의 제2 클래스(도 1b에 사각형으로 나타나는), 예를 들어, 이전 반복들에서 처리된 빈들.
처리중인 하나의 빈(123)에 대해, 적어도 하나의 추가적인 빈(도 1b에 사각형으로 된 빈들 중 하나일 수 있다)에 기초하여 최적 추정을 획득할 수 있다. 상기 적어도 하나의 추가적인 빈은 복수의 빈일 수 있다.
디코더(110)는 처리중인 하나의 빈(123)(C0)에 대한 콘텍스트(114 ')(또는 콘텍스트 블록)를 정의하는 콘텍스트 정의기(114)를 포함할 수 있다. 콘텍스트(114 ')는 처리중인 빈(123)과 미리 결정된 위치상의 관계의 적어도 하나의 추가적인 빈(예를 들어, 빈들의 그룹)을 포함한다. 도 1b의 예에서, 빈(123)(C0)의 콘텍스트(114 ')는 C1-C10(하나의 콘텍스트를 형성하는 추가적인 빈들의 일반적인 수는 “c”로 표시된다. 도 1b에서, c =10이다)으로 표시된 10 개의 추가적인 빈들(124)(118')에 의해 형성된다. 추가적인 빈(124)(C1-C10)은 처리중인 빈(123)(C0)의 이웃한 빈들일 수 있고/있거나 이미 처리된 빈들일 수 있다(예를 들어, 상기 값은 이전 반복들 동안 이미 획득되었을 수 있다). 추가적인 빈들(124)(C1-C10)은 처리중인 빈(123)(C0)에 가장 가까운 빈들(예를 들어, 이미 처리된 것들 중)일 수 있다(예를 들어, C0로부터 미리 결정된 임계치보다 작은 거리를 갖는 빈들, 예를 들어, 3개의 위치들(three positions)). 추가적인 빈들(124)(C1-C10)은 처리중인 빈(123)(C0)과 가장 높은 상관을 가질 것으로 기대되는 상기 빈들(예를 들어, 이미 진행된 것들 중)일 수 있다. 콘텍스트(114')는 주파수/시간 표현에서 모든 콘텍스트 빈들(124)이 서로 및 처리중인 빈(123)과 바로 인접한다는 점에서 “홀(holes)”을 피하기 위해 이웃하여 정의될 수 있다(상기 콘텍스트 빈들(124)은 이로써 “단일 연결(simply connected)”이웃을 형성함).(그럼에도 불구하고 처리중인 빈들(123)의 콘텍스트(114')에 대해 선택되지 않은 상기 이미 처리된 빈들은 점선으로 된 사각형들로 도시되고 125로 표시된다). 추가적인 빈들(124)(C1-C10)은 로 번호가 매겨진 관계일 수 있다(예를 들어, c가 콘텍스트(114') 내 빈들의 수인 C1, C2,…, Cc, 예를 들어, 10). 콘텍스트(114 ')의 추가적인 빈(124)(C1-C10) 각각은 처리중인 빈(123)(C0)에 대해 고정된 위치에 있을 수 있다. 처리중인 빈(123)(C0) 및 추가적인 빈들(124)(C1-C10) 사이 상기 위치상의 관계들은 특정 대역(122)(예를 들어, 상기 주파수/대역 수 k에 기초하여)에 기초할 수 있다. 도 1b의 예에서, 처리중인 빈(123)(C0)은 제3대역(k = 3)에 있고 순간 t(이 경우에는 t = 4)에 있다. 이 경우 다음이 제공될 수 있다.
- 콘텍스트(114')의 제1추가적인 빈(C1)은 순간 t-1 = 3, 대역 k = 3에서의 빈;
- 콘텍스트(114’)의 제2 추가적인 빈(C2)은 순간 t = 4, 대역 k-1= 2에서의 빈;
- 콘텍스트(114’)의 제3 추가적인 빈(C3)은 순간 t-1 = 3, 대역 k-1= 2에서의 빈;
- 콘텍스트(114’)의 제4 추가적인 빈(C4)은 순간 t-1 = 3, 대역 k+1 = 4에서의 빈;
- 등등.
(본 문서의 다음 파트들에서, “콘텍스트 빈(context bin)”은 상기 콘텍스트의 “추가적인 빈(additional bin)”를 나타내는데 사용될 수 있다.)
예들에서, 일반 t번째 프레임의 모든 빈들을 처리한 후, 다음(t+1)프레임의 모든 빈들은 처리될 수 있다. 각각의 일반적인 t 번째 프레임에 대해, t 번째 프레임의 모든 빈들은 반복적으로 처리될 수 있다. 다른 시퀀스들 및 / 또는 경로들이 그럼에도 불구하고 제공될 수 있다.
각각의 t 번째 프레임에 대해, 처리중인 빈(123)(C0)과 콘텍스트(114')(120)를 형성하는 추가적인 빈들(124) 사이 위치상의 관계는 처리중인 빈(123)(C0)의 특정 대역(k)에 기초하여 정의될 수 있다. 이전 반복 중에 상기 언더 프로세스 빈(under-process bin)이 현재 C6(t = 4, k = 1)으로 표시된 빈인 경우, k = 1에서 정의된 대역이 없으므로 상기 콘텍스트의 상이한 모양이 선택되었다. 그러나, 상기 언더 프로세스 빈이 t = 3, k = 3(현재 C1으로 표시됨)의 빈인 경우, 상기 콘텍스트는 도 1b의 콘텍스트와 동일한 형태를 갖는다(그러나 한 시간 순간의 왼쪽으로 비틀거림(staggered)). 예를 들어,도 2a에서,도 2a(a)의 빈(123)(C0)에 대한 콘텍스트(114 ')는 C2가 언더 프로세스 빈이었을 때 이전에 사용된 빈(C2)에 대한 콘텍스트(114 ")와 비교된다: 콘텍스트(114 '및 114”)는 서로 상이하다.
따라서, 콘텍스트 정의기(114)는 처리중인 각 빈(123)(C0)에 대해, 처리중인 빈(123)(C0)과 기대되는 높은 상관을 갖는 이미 처리된 빈들(already-processed bins)을 포함하는 콘텍스트(114’)를 형성하기 위해 추가적인 빈들(124)(118 ', C1-C10)을 반복적으로 검색하는 유닛일 수 있다(특히, 상기 콘텍스트의 상기 형상은 처리중인 빈(123)의 특정 주파수에 기초할 수 있다).
디코더(110)는 처리중인 빈(123)(C0)과 콘텍스트 빈(118 ', 124) 사이 통계적 관계 및/또는 정보(115', 119 ')를 제공하기 위한 통계적 관계 및/또는 정보 추정기(115)를 포함할 수 있다. 통계적 관계 및 / 또는 정보 추정기(115)는 처리중인 빈(123)(C0) 및/또는 콘텍스트(114')의 각 빈(124)(C1-C10)에 영향을 미치는 상기 노이즈 사이 통계적 노이즈 관련 관계들 및/또는 양자화 노이즈(119')에 관한 관계들 및/또는 정보를 추정하기 위해 양자화 노이즈 관계 및/또는 정보 추정기(119)를 포함할 수 있다.
예들에서, 기대 관계(expected relationship)(115')는 빈들 사이(예를 들어, 콘텍스트(C1-C10)의 상기 추가적인 빈들 및 처리중인 빈(C0)) 기대 공분산 관계들(expected covariance relationships)(또는 다른 기대 통계적 관계들)을 포함하는 매트릭스(예를 들어, 공분산 매트릭스)를 포함할 수 있다. 상기 매트릭스는 각 행 및 각 열이 빈과 연관된 스퀘어 매트릭스(square matrix)일 수 있다. 따라서, 매트릭스의 차원은(c + 1) x(c + 1)일 수 있다(예를 들어,도 1b의 예에서 11). 예들에서, 상기 매트릭스의 각 요소는 상기 매트릭스의 열(column)과 관련된 빈 및 상기 매트릭스의 행과 관련된 빈 사이 기대 공분산(및/또는 상관, 및/또는 다른 통계적 관계)을 나타낼 수 있다. 상기 매트릭스는 에르미트(Hermitian)(실수 계수들의 경우 대칭)일 수 있다. 상기 매트릭스는, 대각선에, 각 빈과 관련된 분산 값을 포함할 수 있다. 예에서, 매트릭스 대신에, 맵핑(mappings)의 다른 형태들이 사용될 수 있다.
예들에서, 기대 노이즈 관계 및/또는 정보(119')는 통계적 관계에 의해 형성될 수 있다. 이 경우, 그러나, 상기 통계적 관계는 상기 양자화 노이즈를 의미할 수 있다. 상이한 공분산들은 상이한 주파수 대역들에 대해 사용될 수 있다.
예들에서, 상기 양자화 노이즈 관계 및/또는 정보(119')는 상기 빈들에 영향을 미치는 상기 양자화 노이즈 사이 기대 공분산 관계들(또는 다른 기대 통계적 관계들)을 포함하는 매트릭스(예를 들어, 공분산 매트릭스)를 포함할 수 있다. 상기 매트릭스는 각 행 및 각 열이 빈과 연관된 스퀘어 매트릭스일 수 있다. 따라서, 매트릭스의 차원(dimensions)은(c + 1) x(c + 1)일 수 있다(예를 들어, 11). 예들에서, 상기 매트릭스의 각 요소는 열과 관련된 상기 빈 및 행과 관련된 상기 빈을 손상시키는 상기 양자화 노이즈 사이 기대 공분산(및/또는 상관 및/또는 다른 통계적 관계)을 나타낼 수 있다. 상기 공분산 매트릭스는 에르미트(Hermitian)(실수 계수의 경우 대칭)일 수 있다. 상기 매트릭스는 대각선에 각 빈과 관련된 분산 값을 포함할 수 있다. 예들에서, 매트릭스 대신에, 맵핑의 다른 형태들이 사용될 수 있다.
상기 빈들 사이의 기대 통계적 관계를 이용하여 샘플링 된 값 Y(k, t)를 처리함으로써, 클린 값(clean value) X(k, t)의 더 나은 추정이 획득될 수 있다는 것이 주목되었다.
디코더(110)는 양자화 노이즈(119') 관련 통계적 관계들 및/또는 정보(119') 및/또는 상기 기대 통계적 관계들 및/또는 정보에 기초하여 신호(113')의 샘플링 된 값 X(k, t)(처리중인 빈(123)에서 C0))의 추정치(116')를 처리하고 획득하기 위해 값 추정기(value estimator)(116)를 포함할 수 있다.
클린 값 X(k, t)의 양호한 추정인 추정치(116')는, 따라서 향상된 TD 출력 신호(112)를 획득하기 위해 FD-to-TD 변환기(117)에 제공될 수 있다.
추정치(116')는 처리된 빈들 스토리지 유닛(processed bins storage unit)(118)에 저장될 수 있다(예를 들어, 시간 순간(t) 및 / 또는 대역(k)과 관련하여). 추정치(116')의 상기 저장된 값은 다음 반복들에서, 콘텍스트 빈들(124)을 정의하기 위해 이미 처리된 추정치(116')를 추가적인 빈(118 ')(위 참조)으로서 콘텍스트 정의기(114)에 제공할 수 있다.
도 1c은 일부 측면들에서, 디코더(110) 일 수 있는 디코더(130)의 세부 사항들을 도시한다. 이 경우에, 디코더(130)는 값 추정기(116)에서 위너 필터(Wiener filter)로서 동작한다.
예들에서, 추정된 통계적 관계 및/또는 정보(115')는 정규화 된 매트릭스(
Figure 112021127703894-pct00031
)를 포함할 수 있다. 상기 정규화 된 매트릭스는 정규화 된 상관 매트릭스일 수 있고 상기 특정 샘플링 된 값 Y(k, t)와 독립적일 수 있다. 정규화 된 매트릭스(
Figure 112021127703894-pct00032
)는 예를 들어 상기 빈들(C0-C10) 사이 관계들을 포함하는 매트릭스일 수 있다. 정규화 된 매트릭스(
Figure 112021127703894-pct00033
)는 정적일 수 있고, 예를 들어, 메모리에 저장될 수 있다.
예들에서, 양자화 노이즈 관련 상기 추정된 통계적 관계 및/또는 정보(119')는 노이즈 매트릭스(
Figure 112021127703894-pct00034
)를 포함할 수 있다. 이 행렬은 상관 매트릭스일 수 있고 특정 샘플링 된 값 Y(k, t)의 값과 무관하게 노이즈 신호 V(k, t)에 관한 관계를 나타낼 수 있다. 노이즈 매트릭스(
Figure 112021127703894-pct00035
)는 예를 들어 클린 스피치 값 Y(k, t)와 무관하게, 빈들(C0-C10) 사이의 노이즈 신호들 간의 관계를 추정하는 매트릭스일 수 있다.
예들에서, 측정기(measurer)(131)(예를 들어, 이득 추정기)는 상기 이전에 수행된 추정(들)(116 ')의 측정된 값(131')을 제공할 수 있다. 측정된 값(131 ')은 예를 들어, 상기 이전에 수행된 추정치(들)(116')의 에너지 값 및/또는 이득
Figure 112021127703894-pct00036
일 수 있다(따라서 에너지 값 및/또는 이득
Figure 112021127703894-pct00037
는 콘텍스트(114')에 의존할 수 있다). 일반적인 표현으로, 처리중인 빈(123)의 상기 추정치(116') 및 상기 값(113')은 벡터
Figure 112021127703894-pct00038
로 보일 수 있고, 여기서
Figure 112021127703894-pct00039
는 현재 처리중인 빈(123)(C0)의 샘플링 된 값이고
Figure 112021127703894-pct00040
은 콘텍스트 빈들(124)(C1-C10)에 대해 상기 이전에 획득된 값들이다. 상기 정규화 된 벡터
Figure 112021127703894-pct00041
를 획득하기 위해 상기 벡터
Figure 112021127703894-pct00042
를 정규화 하는 것이 가능하다. 예를 들어,
Figure 112021127703894-pct00043
를 획득하기 위해 전치(transpose)에 의해 상기 정규화 된 벡터의 스칼라 곱으로서 이득
Figure 112021127703894-pct00044
를 얻는 것이 또한 가능하다(여기서
Figure 112021127703894-pct00045
Figure 112021127703894-pct00046
의 전치이고 이로써
Figure 112021127703894-pct00047
는 스칼라 실수이다).
스케일러(scaler)(132)는 이득
Figure 112021127703894-pct00048
에 의해 정규화 된 매트릭스(
Figure 112021127703894-pct00049
)를 스케일링하고 처리중인 빈(123)의 콘텍스트와 관련된 에너지 측정(및/또는 이득
Figure 112021127703894-pct00050
)을 고려한 스케일링 된 매트릭스(132')를 획득하기 위해 사용될 수 있다. 이는 스피치 신호들이 이득의 큰 변동(fluctuations)을 갖는다는 것을 고려하기 위한 것이다. 상기 에너지를 고려하는 새로운 매트릭스(
Figure 112021127703894-pct00051
)가 따라서 획득될 수 있다. 특히, 매트릭스(
Figure 112021127703894-pct00052
및 매트릭스(
Figure 112021127703894-pct00053
)는 미리 정의될 수 있고(및/또는 메모리에 미리 저장된 요소들을 포함), 매트릭스(
Figure 112021127703894-pct00054
)는 실제로 처리에 의해 계산된다. 대안적인 예들에서, 매트릭스(
Figure 112021127703894-pct00055
)를 계산하는 대신에 매트릭스(
Figure 112021127703894-pct00056
)는 복수의 미리 저장된 매트릭스들(
Figure 112021127703894-pct00057
)로부터 선택될 수 있고, 각 미리 저장된 매트릭스(
Figure 112021127703894-pct00058
)는 특정 범위의 측정된 이득 및/또는 에너지 값들과 관련된다.
매트릭스(
Figure 112021127703894-pct00059
)를 계산하거나 선택한 후, 가산기(adder)(133)는 더해진 값(133')(합산 매트릭스(summed matrix)
Figure 112021127703894-pct00060
)을 획득하기 위해 노이즈 매트릭스(
Figure 112021127703894-pct00061
)의 요소들을 매트릭스(
Figure 112021127703894-pct00062
)의 요소들과 요소별로(element by element) 더하는데 사용될 수 있다. 대안적인 예들에서, 계산되는 대신에, 상기 합산 매트릭스(
Figure 112021127703894-pct00063
)는 복수의 미리 저장된 합산 매트릭스들 중 상기 측정된 이득 및/또는 에너지 값들에 기초하여 선택될 수 있다.
반전 블록(inversion block)(134)에서, 합산 매트릭스(
Figure 112021127703894-pct00064
)는 값(123')로서
Figure 112021127703894-pct00065
를 획득하기 위해 반전될 수 있다. 대안적인 예들에서, 계산되는 대신에, 상기 반전된 매트릭스(inversed matrix)
Figure 112021127703894-pct00066
는 복수의 미리 저장된 반전된 매트릭스들 중 상기 측정된 이득 및/또는 에너지 값들에 기초하여 선택될 수 있다.
상기 반전된 매트릭스
Figure 112021127703894-pct00067
(값(134'))는
Figure 112021127703894-pct00068
로서 값(135')을 획득하기 위해
Figure 112021127703894-pct00069
만큼 곱해질 수 있다. 대안적인 예들에서, 계산되는 대신에, 상기 매트릭스
Figure 112021127703894-pct00070
는 복수의 미리 결정된 매트릭스들 중 상기 측정된 이득 및/또는 에너지 값들에 기초하여 선택될 수 있다.
이 점에서, 멀티플라이어(multiplier)(136)에서 값(135')은 상기 벡터 입력 신호 y에 곱해질 수 있다. 상기 벡터 입력 신호는 콘텍스트 빈들(C1-C10) 및 처리될 빈(123)과 관련된 상기 노이지 입력들을 포함하는 벡터
Figure 112021127703894-pct00071
Figure 112021127703894-pct00072
로 보일 수 있다.
멀티플라이어(136)의 출력(136')은 따라서 위너 필터와 같이
Figure 112021127703894-pct00073
이다.
도 1d에서 예에 따라 도시된 방법(140)이 있다. 단계(141)에서, 처리중인 빈(123)(C0)(또는 프로세스 빈(process bin))은 순간(t), 대역(k) 및 샘플링 된 값 Y(k, t)에서의 빈으로서 정의된다. 단계(142)(예를 들어, 콘텍스트 정의기(114)에 의해 처리되는)에서, 콘텍스트의 형태는 대역(k)에 기초하여 검색된다(대역 k에 의존하는 형태는 메모리에 저장될 수 있다). 상기 콘텍스트의 형태는 또한 순간(t) 및 대역(k)이 고려된 후 콘텍스트(114')를 정의한다. 단계(143)에서(예를 들어, 콘텍스트 정의기(114)에 의해 처리되는), 따라서 콘텍스트 빈(C1-C10)(118 ', 124)이 정의되고(예를 들어, 콘텍스트에 있는 상기 이전에 처리된 빈들) 미리 정의된 순서에 따라 번호가 매겨진다(이는 형상과 함께 메모리에 저장될 수 있고 또한 대역(k)에 기초할 수 있다). 단계(144)(예를 들어, 추정기(115)에 의해 처리되는)에서, 매트릭스들이 획득될 수 있다(예를 들어, 정규화 된 매트릭스(
Figure 112021127703894-pct00074
), 노이즈 매트릭스(
Figure 112021127703894-pct00075
), 또는 다른 위에서 논의된 매트릭스들 등). 단계(145)(예를 들어, 값 추정기(116)에 의해 처리되는)에서, 프로세스 빈(C0)에 대한 값은 예를 들어 위너(Wiener) 필터를 사용하여 획득될 수 있다. 예들에서, 에너지와 관련된 에너지 값(예를 들어, 상기 이득
Figure 112021127703894-pct00076
)이 상기 논의된 바와 같이 사용될 수 있다. 단계(146)에서, 아직 처리되지 않은 다른 빈(126)을 갖는 순간(t)과 관련된 다른 대역들이 있는지가 검증된다. 처리될 다른 대역들(예를 들어, 대역(k + 1))이 있다면, 단계(141)부터 상기 동작들을 반복하기 위해 단계(147)에서 대역의 값이 업데이트되고(예를 들어, k ++) 새로운 프로세스 빈 C0이 순간(t) 및 대역(k + 1)에서 선택된다. 단계(146)에서 다른 대역들이 처리되지 않는 것으로 확인되면(예를 들어, 대역(k + 1)에서 처리될 다른 빈이 없기 때문에), 단계(141)부터 상기 동작들을 반복하기 위해 단계(148)에서 순간(t)이 업데이트 되고(예를 들어, 또는 t ++) 제1 대역(예를 들어, k = 1)가 선택된다.
도 1e를 참조한다. 도1e(a)는 도 1b에 대응하고, 파수 / 시간 공간에서 샘플링 된 값 Y(k, t)(각각 빈과 연관된)의 시퀀스를 도시하는 반면, 도 1e(b)는 시간 순간(t-1)에 대한 크기 / 주파수 그래프에서 샘플링 된 값의 시퀀스를 도시하고, 도 1e(c)는 현재 처리중인 빈(123)(C0)과 관련된 시간 순간인 시간 순간(t)에 대한 크기 / 주파수 그래프에서 샘플링 된 값의 시퀀스를 도시한다. 샘플링 된 값 Y(k, t)는 양자화되고 도 1e(b) 및 1e(c)에 나타나 있다. 각 빈에 대해, 복수의 양자화 레벨 QL(t, k)이 정의될 수 있다(예를 들어, 상기 양자화 레벨은 이산적인 양자화 레벨들의 수 중 하나일 수 있고, 상기 양자화 레벨들의 스케일 및/또는 값들 및/또는 수는 상기 인코더에 의해 시그널링 될 수 있고, 예를 들어, 및/또는 상기 비트 스트림(111)에 시그널링 될 수 있다). 샘플링 된 값 Y(k, t)는 반드시 상기 양자화 레벨들 중 하나일 것이다. 상기 샘플링 된 값들은 로그 도메인(Log-domain)에 있을 수 있다. 샘플링 된 값은 상기 지각 영역(perceptual domain)에 있을 수 있다. 각 빈의 값들 각각은 선택될 수 있는 상기 양자화 된 레벨들(이산 수) 중 하나로서 이해될 수 있다(예를 들어, 비트 스트림(111)에 기록된 바와 같이). 각각의 k 및 t에 대해 어퍼 플로어(
Figure 112021127703894-pct00077
)(upper floor)(천정치) 및 로어 플로어(
Figure 112021127703894-pct00078
)(lower floor)(바닥치)가 정의된다(여기서 표기법 u(k, t) 및 u(k, t)는 간략함(brevity)을 위해 회피 된다). 이러한 천정 및 바닥치들은 노이즈 관계 및/또는 정보 추정기(119)에 의해 정의될 수 있다. 상기 천정 및 바닥치들은 실제로 값 X(k, t)를 양자화 하기 위해 채용된 양자화 셀과 관련된 정보이며, 양자화 노이즈의 역학에 관한 정보를 제공한다.
처리중인 빈(123)의 양자화 된 샘플링 된 값(C0) 및 콘텍스트 빈(124)이 상기 처리중인 빈의 추정된 값들 및 상기 콘텍스트의 상기 추가적인 빈들의 상기 추정된 값들과 각각 동일하다면, 상기 천정치(
Figure 112021127703894-pct00079
) 및 상기 바닥치(
Figure 112021127703894-pct00080
) 사이에 있는 값(X)의 조건부 우도(conditional likelihood)의 기대(expectation)로서 각 빈의 값(116')의 최적의 추정을 수립하는 것이 가능하다. 이러한 방식으로, 처리중인 빈(123)(C0)의 크기를 추정하는 것이 가능하다. 예를 들어 상기 통계적 관계 및/또는 정보 추정기에 의해 제공될 수 있는 표준 편차 값(
Figure 112021127703894-pct00081
) 및 클린 값들(X)의 평균 값들(
Figure 112021127703894-pct00082
)에 기초하여 기대 값(expectation value)을 얻는 것이 가능하다.
아래에서 상세히 논의되는 반복적일 수 있는 절차에 기초하여 표준 편차 값들(
Figure 112021127703894-pct00083
) 및 클린 값들(X)의 평균 값들(
Figure 112021127703894-pct00084
)을 얻는 것이 가능하다.
예를 들어(4.1.3 및 그 서브 섹션 참조), 클린 신호(X)의 평균값은 콘텍스트 빈들(124)(C1-C10)을 고려하는 새로운 평균 값(
Figure 112021127703894-pct00085
)을 획득하기 위해, 어느 콘텍스트도 고려하지 않고 처리중인 빈(123)에 대해 계산된 비 조건부 평균 값(non-conditional calculated average value)(
Figure 112021127703894-pct00086
)을 업데이트 함으로써 획득될 수 있다. 각 반복에서, 계산된 비 조건부 평균 값(
Figure 112021127703894-pct00087
)은 콘텍스트 빈들(124)의 상기 평균 값들(벡터
Figure 112021127703894-pct00088
로 표시된) 및 상기 콘텍스트 빈들 및 처리중인 빈(123)( C0)에 대한 추정된 값들(벡터
Figure 112021127703894-pct00089
로 표시된) 사이 차이를 사용하여 수정될 수 있다. 이들 값들은 처리중인 빈(123)(C0)과 콘텍스트 빈(124)(C1-C10) 사이의 공분산 및/또는 분산과 관련된 값으로 곱해질 수 있다.
표준 편차 값(
Figure 112021127703894-pct00090
)은 콘텍스트 빈들(124)(C1-C10) 및 처리중인 빈(123)(C0) 사이(예를 들어, 상기 공분산 매트릭스
Figure 112021127703894-pct00091
) 분산 및 공분산 관계들로부터 획득될 수 있다.
상기 기대 값(expectation)을 얻기 위한 방법의 예는 다음의 슈도 코드(pseudocode)에 의해 제공될 수 있다.
function estimation(k,t)
// 추정 X(116 ')를 얻기 위한 Y(k, t)에 관한 것
for t=1 to maxInstants
// 순간 t를 연속적으로 선택
for k=1 to Number_of_bins_at_instant_t
// 모든 빈들을 순환
QL <- GetQuantizationLevels(Y(k,t))
// Y(k, t)에 몇 개의 양자화 레벨이 제공되는지 결정
l,u <- GetQuantizationLimits(QL,Y(k,t))
// 양자화 된 한계 u 및 l을 얻는 것(예를 들어, 노이즈 관계 // 및/또는 정보 추정기(119)로부터)
Figure 112021127703894-pct00092

//
Figure 112021127703894-pct00093
Figure 112021127703894-pct00094
(업데이트 된 값들)이 획득된다
pdf
Figure 112021127703894-pct00095
truncatedGaussian(mu_up,sigma_up,l,u)
// 확률 분포 함수가 계산된다
Figure 112021127703894-pct00096
Figure 112021127703894-pct00097
expectation(pdf)
// 기대 값이 계산된다
end for
end for
endfunction
4.1.2 스피치 및 오디오 코딩에 대한 복잡한 스펙트럼의 상관들을 이용한 포스트 필터링(Postfiltering with Complex Spectral Correlations for Speech and Audio Coding)
이 섹션과 하위 섹션에서 예들은 주로 스피치 및 오디오 코딩에 대한 복잡한 스펙트럼 상관들을 사용한 포스트 필터링을 위한 기술들과 관련이 있다.
본 예들에서, 다음 도면들이 언급된다.
도 2a:(a) 크기가
Figure 112021127703894-pct00098
인 콘텍스트 블록(b) 콘텍스트 빈
Figure 112021127703894-pct00099
의 반복 콘텍스트 블록(Recurrent context-block).
도 2b:(a) 종래의 양자화 된 출력(b) 양자화 에러(c) 랜덤화를 이용한 양자화된 출력(d) 랜덤 화를 이용한 양자화 에러의 히스토그램들(Histograms). 상기 입력은 비상관 가우시안 분산 신호(uncorrelated Gaussian distributed signal)이다.
도 2c:(i) 트루 스피치(true speech)(ii) 양자화 된 스피치 및(iii) 랜덤화 후 양자화된 스피치의 스펙트로그램들(Spectrograms).
도 2d: 테스트 목적을 위한 코덱의 시뮬레이션을 포함하는 제안된 시스템의 블록 다이어그램.
도 2e:(a)pSNR 및(b)포스트 필터링 후 pSNR 개선, 및(c)상이한 콘텍스트들에 대한 pSNR 개선을 도시하는 플롯들.
도 2f: MUSHRA 리스닝 테스트 결과 a) 모든 조건들에서 모든 항목들에 대한 점수들 b)남성과 여성에 대해 평균화 된 각 입력 pSNR 조건에 대한 상이한 점수들. 오라클(oracle), 낮은 앵커(lower anchor) 및 숨겨진 참조 점수들(hidden reference scores)은 명확성을 위해 생략되었다.
이 섹션 및 하위 섹션에서 예들은 또한 도 1c 및 1d, 및, 더 일반적으로는 도 1a, 1b, 및 1e의 상세한 예들에서 설명 및/또는 참조할 수 있다.
현재의 스피치 코덱은 품질, 비트레이트 및 복잡성 사이에서 좋은 절충안을 달성한다. 그러나 목표 비트레이트 범위를 벗어나는 성능을 유지하는 것은 여전히 어려운 일로 남아있다. 성능을 향상시키기 위해 많은 코덱들은 프리 및 포스트 필터링(pre- and post-filtering) 기술들을 사용하여 양자화 노이즈의 지각 효과를 줄인다. 여기서, 우리는 스피치 신호들의 복잡한 스펙트럼 상관들을 사용하는 양자화 노이즈를 감쇠시키기 위한 포스트 필터링 방법을 제안한다. 종래의 스피치 코덱들은 전송 에러들이 심각한 에러 전파(propagation)를 초래할 수 있어 시간 의존성을 갖는 정보를 전송할 수 없기 때문에, 우리는 상기 상관을 오프라인으로 모델링하고 그들을 디코더에 채용하였고, 따라서 어느 부가 정보도 전송할 필요가 없다. 객관적인 평가(Objective evaluation)는 상기 노이지 신호(noisy signal)에 관해 콘텍스트 기반 포스트 필터(context-based post-filter)를 사용하여 신호들의 지각적 SNR(perceptual SNR)의 평균 4dB 개선 및 종래의 위너 필터에 비해 평균 2dB의 개선을 나타낸다. 이러한 결과들은 주관적인 리스닝 테스트에서 최대 30 MUSHRA 포인트(MUSHRA points)의 개선에 의해 확인된다.
4.1.2.1 개요(Introduction)
효율적인 전송 및 스토리지를 위한 스피치 신호들을 압축하는 과정인 스피치 코딩은 스피치 처리 기술들에서 필수 구성요소이다. 이는 스피치 신호들의 렌더링, 스토리지, 또는 전송에 관련된 거의 모든 디바이스들에 채용된다. 표준 스피치 코덱들이 목표 비트레이트들 주변에서 투명한 성능을 달성하지만, 코덱들의 성능은 비트레이트 범위를 벗어난 복잡성 및 효율성의 측면에서 어려움을 겪는다[5].
특히 낮은 비트레이트에서 성능 저하는 상기 신호의 큰 부분들이 0으로 양자화되어 0과 0이 아닌 값 사이에서 자주 토글(toggles)하는 성긴 신호(sparse signal)를 산출하기 때문이다. 이는 상기 신호에 왜곡된 품질을 제공하고, 이는 지각적으로 음악적 노이즈(musical noise)로 특징지어질 수 있다. EVS, USAC와 같은 현대 코덱들[3, 15]은 후처리 방법들[5, 14]을 구현함으로써 양자화 노이즈의 효과를 줄인다. 이들 방법 중 다수는 인코더 및 디코더 모두에서 구현되어야 하므로 코덱의 핵심 구조에 대한 변경 및 때때로 추가적인 부가 정보의 전송이 또한 필요하다. 더욱이, 이들 방법들 대부분은 왜곡에 대한 원인보다는 왜곡의 효과를 완화시키는 데 초점을 둔다.
스피치 처리에서 널리 채택된 노이즈 감소 기술은 종종 스피치 코딩에서 배경 노이즈를 감소시키기 위해 프리 필터(pre-filters)로서 채용된다. 그러나, 양자화 노이즈의 감쇠를 위한 이러한 방법들의 적용은 아직 완전히 탐구되지 않았다. 이에 대한 이유는(i) 종래의 필터링 기술만으로는 제로-양자화 된 빈(zero-quantized bins)의 정보가 복원될 수 없고,(ii) 양자화 노이즈는 낮은 비트 전송률에서 스피치와 높은 상관 관계가 있고, 따라서 노이즈 감소를 위해 스피치와 양자화 노이즈 분포를 구별하는 것은 어렵다. 이것들은 섹션 4.1.2.2에서 더 논의된다.
기본적으로, 스피치는 느리게 변하는 시그널이고, 높은 시간적 상관을 갖는다[9]. 최근, 스피치에서 고유의(intrinsic) 시간적 및 주파수 상관을 사용하는 MVDR 및 위너 필터가 제안되었고 상당한 노이즈 감소 잠재력을 보였다[1, 9, 13]. 그러나, 정보 손실의 결과로서의 에러 전파(error propagation)을 피하기 위해 이러한 시간적 의존성을 갖는 정보를 전송하는 것을 억제한다. 따라서, 양자화 노이즈의 감쇠 또는 스피치 코딩을 위한 스피치 상관의 적용은 최근까지 충분히 연구되지 않았다. 첨부 논문[10]은 양자화 노이즈 감소를 위한 스피치 크기 스펙트럼의 상관을 포함시키는 장점들을 제시한다.
이 작업(work)의 기여는 다음과 같다:(i) 스피치에 콘텍스트적 정보(contextual information)를 통합하기 위해 복잡한 스피치 스펙트럼을 모델링,(ii) 상기 모델들이 스피치 신호들의 큰 변동과 독립이고 샘플들 사이 상관 반복(correlation recurrence)은 우리가 더 큰 콘텍스트적 정보를 통합할 수 있도록 문제를 공식화,(iii) 상기 필터가 최소 평균 제곱 에러 감지에서 최적이 되도록 분석적 솔루션을 얻음. 우리는 양자와 노이즈의 감쇠에 대해 종래 노이즈 감소 기술들을 적용하는 것의 가능성을 검토하는 것으로 시작하여, 복잡한 스피치 스펙트럼을 모델링하고 이를 디코더에서 사용하여 손상된 신호의 관찰로부터 스피치를 추정한다. 이 접근법은 임의의 추가 부가 정보의 전송에 대한 필요성을 제거한다.
4.1.2.2 모델링 및 방법론(Modeling and Methodology)
낮은 비트레이트에서 종래의 엔트로피 코딩 방법(entropy coding methods)들은 종종 음악적 노이즈로 알려진 지각적 아티팩트(perceptual artifact)를 야기하는 성긴 신호(sparse signal)를 산출한다. 이러한 스펙트럼의 홀들(spectral holes)로부터의 정보는 대부분 이득을 수정하기 때문에 위너 필터링과 같은 종래의 접근법들에 의해 복구될 수 없다. 더욱이, 스피치 처리에 사용되는 일반 노이즈 감소 기술들은 스피치 및 노이즈 특성들을 모델링하고 그들 사이 구별에 의해 감소를 수행한다. 그러나, 낮은 비트레이트 양자화 노이즈는 기본 스피치 신호(underlying speech signal)와 높은 상관 관계가 있으므로, 그들 사이 구분하는 것을 어렵게 한다. 도 2b - 2c은 이러한 문제들을 도시한다. 도 2b(a)는 매우 성긴(extremely sparse) 복호화 된 신호의 분포를 도시하고, 도 2b(b)는 백색 가우시안 입력 시퀀스(Gaussian input sequence)에 대한 양자화 노이즈의 분포를 도시한다. 도 2c(i) & 2c(ii)는 각각 트루 스피치의 스펙토그램(spectrogram) 및 낮은 비트레이트에서 시뮬레이션 된 복호화 된 스피치를 도시한다.
이러한 문제들을 완화하기 위해, 우리는 상기 신호를 인코딩하기 전에 랜덤화를 적용할 수 있다[2, 7, 18]. 랜덤화는 지각적 신호 품질을 개선하기 위해 스피치 코덱들에 이전에 사용되었던 일종의 디더링(dithering)[11]이고, 최근 작업들(works)[6, 18]은 비트레이트의 증가 없이 우리가 랜덤화를 적용할 수 있게 한다. 코딩에서 랜덤화를 적용하는 것의 효과는 도 2b(c) 및(d) 및 도 2c(c)에 설명되어 있고, 도시들(illustrations)은 랜덤화가 복호화 된 스피치 분포를 보존하고 신호 성김(signal sparsity)를 방지함을 분명히 도시한다. 추가로, 그것은 또한 양자화 노이즈에 더 상관없는 특성(uncorrelated characteristic)을 부여하여 스피치 처리 문헌[8]에서 일반 노이즈 감소 기술의 적용을 할 수 있게 한다.
디더링 때문에, 우리는 양자화 노이즈가 부가적이고 상관 관계가 없는 정규적으로 분포된 프로세스라고 가정할 수 있다.
Figure 112021127703894-pct00100
(2.1)
여기서
Figure 112021127703894-pct00101
,
Figure 112021127703894-pct00102
Figure 112021127703894-pct00103
는 각각 노이즈, 클린 스피치 및 노이즈 신호들의 복소수 값으로 된 단시간 주파수 도메인(complex-valued short-time frequency domain) 값들이다. 또한, 우리는
Figure 112021127703894-pct00104
Figure 112021127703894-pct00105
가 0 평균 가우시안 랜덤 변수들(zero-mean Gaussian random variables)이라고 가정한다. 우리의 목표는
Figure 112021127703894-pct00106
의 이전에 추정된 샘플들을 사용하는 것뿐만 아니라 관측
Figure 112021127703894-pct00107
로부터
Figure 112021127703894-pct00108
를 추정하는 것이다. 우리는
Figure 112021127703894-pct00109
Figure 112021127703894-pct00110
의 콘텍스트라고 부른다.
위너 필터 [8]로 알려진 클린 스피치 신호(
Figure 112021127703894-pct00111
)의 추정은 다음과 같이 정의된다.
Figure 112021127703894-pct00112
(2.2)
여기서
Figure 112021127703894-pct00113
는 각각 스피치 및 노이즈 공분산 매트릭스들이고,
Figure 112021127703894-pct00114
Figure 112021127703894-pct00115
차원의 노이지 관측 벡터(noisy observation vector)이고,
Figure 112021127703894-pct00116
는 콘텍스트의 길이이다. 방정식 2.2의 공분산들은 우리가 콘텍스트 이웃(context neighborhood)이라고 부르는 시간 주파수 빈들(time-frequency bins) 사이 상관을 나타낸다. 상기 공분산 매트릭스들은 스피치 신호들의 데이터베이스로부터 오프라인으로 훈련된다. 노이즈 특성들 관련 정보는 또한 스피치 신호들과 유사하게 목표 노이즈 유형(target noise-type)(양자화 노이즈)을 모델링함으로써 상기 프로세스에 통합된다. 우리는 인코더의 설계를 알고 있기 때문에, 우리는 양자화 특성들을 정확하게 알고 있고, 따라서 노이즈 공분산(
Figure 112021127703894-pct00117
)을 구성하는 것은 간단한 일이다.
콘텍스트 이웃(Context neighborhood): 크기 10의 콘텍스트 이웃의 예가 도 2a(a)에 제시되어 있다. 상기 도에서, 블록(
Figure 112021127703894-pct00118
)은 고려중인 주파수 빈을 나타낸다. 블록들(
Figure 112021127703894-pct00119
,
Figure 112021127703894-pct00120
)은 직접 이웃(immediate neighborhood)해 있는 고려된 주파수 빈들이다. 이 특정 예에서, 상기 콘텍스트 빈들은 현재 시간 프레임(current time-frame) 및 2개의 이전 시간 프레임들 및 2개의 로어(lower) 또는 어퍼(upper) 주파수 빈들(frequency-bins)에 걸쳐 있다. 상기 콘텍스트 이웃은 상기 클린 스피치가 이미 추정된 주파수 빈들만을 포함한다. 상기 콘텍스트 이웃의 구조화(structuring)는 여기서 콘텍스트적인 정보(contextual information)가 엔트로피 코딩(entropy coding)의 효율성을 향상시키기 위해 사용되는 코딩 애플리케이션과 비슷하다[12]. 상기 직접 콘텍스트 이웃(immediate context neighborhood)으로부터의 정보를 통합하는 것과 더불어, 상기 콘텍스트 블록 내 상기 빈들의 상기 콘텍스트 이웃은 또한 필터링 프로세스에 통합되어, IIR 필터링과 유사한 더 큰 콘텍스트 정보의 이용을 초래한다. 이것은 도 2a(b)에 묘사되어 있으며, 파란색 선은 콘텍스트 빈(
Figure 112021127703894-pct00121
)의 콘텍스트 블록을 묘사한다. 상기 이웃의 수학적 공식은 다음 섹션에서 자세히 설명된다.
정규화 된 공분산 및 이득 모델링: 이득 및 스펙트럼의 엔벨로프 구조(gain and spectral envelope structure)에서 큰 변동(fluctuations)을 갖는다. 스펙트럼의 미세한 구조(spectral fine structure)를 효율적으로 모델링하기 위해 우리는 정규화를 사용하여 이 변동의 영향을 제거한다. 상기 이득은 상기 이전 주파수 빈들 내 추정들과 상기 현재 빈 내 상기 위너 이득(Wiener gain)으로부터의 노이즈 감쇠 동안 계산된다. 상기 정규화 된 공분산 및 상기 추정된 이득은 현재 주파수 샘플의 추정을 획득하기 위해 함께 채용된다. 이 단계는 큰 변동에도 불구하고 노이즈 감소를 위해 우리가 실제 스피치 통계들(actual speech statistics)을 사용할 수 있게 하기 때문에 중요하다.
상기 콘텍스트 벡터
Figure 112021127703894-pct00122
를 정의하여 상기 정규화 된 콘텍스트 벡터는
Figure 112021127703894-pct00123
. 상기 스피치 공분산은
Figure 112021127703894-pct00124
이고, 여기서
Figure 112021127703894-pct00125
는 상기 정규화 된 공분산이고
Figure 112021127703894-pct00126
은 상기 이득을 나타낸다. 상기 이득은
Figure 112021127703894-pct00127
로 이미 처리된 값들에 기초하여 상기 포스트 필터링 동안 계산되고, 여기서
Figure 112021127703894-pct00128
는 상기 콘텍스트의 상기 이미 처리된 값들 및 처리중인 상기 빈에 의해 형성된 상기 콘텍스트 벡터이다. 상기 정규화 된 공분산들은 다음과 같이 상기 스피치 데이터 세트(speech dataset)로부터 계산된다:
Figure 112021127703894-pct00129
(2.3)
식 2.3에서, 우리는 이 접근이 우리가 더 많은 정보 및 상기 콘텍스트 사이즈 보다 더 큰 이웃으로부터의 상관을 통합할 수 있게 하여 결과적으로 계산 리소스를 절약할 수 있다는 것을 안다. 상기 노이즈 통계들은 다음과 같이 계산된다:
Figure 112021127703894-pct00130
(2.4)
여기서
Figure 112021127703894-pct00131
은 시간 순간(t) 및 주파수 빈(k)에서 정의된 상기 콘텍스트 노이즈 벡터이다. 식 2.4에서, 정규화는 상기 노이즈 모델들에 필요하지 않다는 것에 유의한다. 마지막으로, 상기 추정된 클린 스피치 신호에 대한 방정식은 다음과 같다:
Figure 112021127703894-pct00132
(2.5)
상기 공식화로 인해, 상기 방법의 복잡성은 상기 콘텍스트 사이즈에 선형적으로 비례한다. 상기 제안된 방법은 그것이 상기 복잡한 크기 스펙트럼을 사용하여 동작한다는 점에서 상기 2D Wiener 필터링과는 다르고, 종래 방법들과 달리 상기 신호를 재구성하기 위해 상기 노이지 페이즈(noisy phase)를 사용할 필요가 없다. 추가적으로, 상기 노이지 크기 스펙트럼(noisy magnitude spectrum)에 스케일러 이득(scaler gain)을 적용하는 1D 및 2D Wiener 필터와 대조적으로, 상기 제안된 필터는 상기 벡터 이득을 계산하기 위해 상기 이전 추정들로부터의 정보를 통합한다. 따라서, 이전 연구와 관련하여,이 방법의 신규성(novelty)은 상기 콘텍스트 정보가 상기 필터에서 통합되는 방식에 있고, 따라서 상기 시스템이 스피치 신호의 상기 변화들(variations)에 적응하게 한다.
4.1.2.3 실험들 및 결과들(Experiments and Results)
제안된 방법은 객관적 및 주관적 테스트들 모두를 사용하여 평가되었다. 우리는 상기 객관적 측정으로서 상기 지각적 SNR(perceptual SNR; pSNR)[3, 5]을 사용하였고, 그것이 인간 지각에 근사하고 그것이 이미 전형적인 스피치 코덱에서 사용가능하기 때문이다. 주관적인 평가에 대해, 우리는 MUSHRA 리스닝 테스트를 실시하였다.
4.1.2.3.1 시스템 개요
도 2d에서, 시스템 구조가 도시되어 있다(예들에서, 3GPP EVS의 TCX 모드와 유사할 수 있다[3]). 먼저, 우리는 STFT(블록(241))를 들어오는 사운드 신호(incoming sound signal)(240)에 적용하여 그것을 상기 주파수 도메인(242')의 신호로 변환한다. 우리는 여기서 상기 STFT 대신에 표준 MDCT를 사용할 수 있고, 이로써 상기 결과들은 스피치 향상 애플리케이션들(speech enhancement applications)로 쉽게 전송할 수 있다. 형식적이지 않은 실험들(Informal experiments)은 변환의 선택이 결과들에 예기치 않은 문제들을 일으키지 않음을 입증한다[8, 5].
상기 코딩 노이즈가 최소 지각적 효과(least perceptual effect)를 가지는 것을 보증하기 위해, 주파수 도메인 신호(241 ')는 블록(242)에서 지각적으로 가중되어 가중된(weighted) 신호(242')를 얻는다. 전처리 블록(pre-process block)(243) 후에, 우리는 선형 예측 계수들(linear prediction coefficients; LPCs)에 기초하여 블록(244)에서(예컨대, EVS 코덱 [3]에서 사용되는 것과 같이) 상기 지각 모델을 계산한다. 상기 지각 엔벨로프(perceptual envelope)로 상기 신호를 가중한 후, 상기 신호는 정규화 되고 엔트로피 코딩(entropy coded) 된다(도시되지 않음). 쉬운 재현성(straightforward reproducibility)을 위해, 우리는 섹션 4.1.2.2의 논의에 따라 지각적으로 가중된 가우시안 노이즈(Gaussian noise)에 의해 블록(244)(시판 제품(marketed product)의 필요하지 않은 부분인)에서 양자화 노이즈를 시뮬레이션 했다. 코덱(242'')(비트 스트림(111)일 수 있는)은 따라서 생성될 수 있다.
따라서, 도 2d에서 코덱/양자화 노이즈(codec/quantization noise; QN) 시뮬레이션 블록(244)의 출력(244 ')은 손상된(corrupted) 복호화 된 신호이다. 상기 제안된 필터링 방법은 이 단계에서 적용된다. 상기 향상 블록(enhancement block)(246)은 블록(245)(오프라인 모델들을 포함하는 메모리를 포함할 수 있음)으로부터 오프라인 트레이닝 된 스피치 및 노이즈 모델(245')을 획득할 수 있다. 향상 블록(246)은 예를 들어 추정기(115 및 119)를 포함할 수 있다. 향상 블록은 예를 들어, 값 추정기(116)를 포함할 수 있다. 상기 노이즈 감소 프로세스에 이어서, 신호(246')(신호(116')의 예일 수 있음)는 블록(247)에서 역 지각 엔벨로프(inverse perceptual envelope)에 의해 가중된 다음, 블록(248)에서, 예를 들어 ,사운드 출력(249)일 수 있는 향상되고 복호화 된 스피치 신호(249)를 획득하기 위해 시간 도메인으로 다시 변환된다.
4.1.2.3.2 객관적 평가
실험 설정(Experimental setup): 상기 프로세스는 트레이닝 및 테스트 페이즈로 구분된다. 상기 트레이닝 페이즈에서, 우리는 상기 스피치 데이터로부터 콘텍스트 크기
Figure 112021127703894-pct00133
에 대한 정적 정규화 된 스피치 공분산들을 추정한다. 트레이닝을 위해, 우리는 TIMIT 데이터베이스의 트레이닝 세트에서 무작위 샘플들 50개를 선택했다[20]. 모든 신호들은 12.8 kHz로 리샘플링 되고 사인 윈도우(sine window)는 50% 오버랩으로 20ms 크기의 프레임들에 적용된다. 그런 다음 상기 윈도잉 된 신호들(windowed signals)은 주파수 도메인으로 변환된다. 상기 향상이 지각적 도메인에 적용되기 때문에, 우리는 또한 지각적 도메인에 상기 스피치를 모델링 한다. 지각적 도메인의 각 빈 샘플(bin sample)에 대해, 상기 콘텍스트 이웃들은, 섹션 4.1.2.2에 설명된 바와 같이 매트릭스들로 구성되고, 상기 공분산들은 계산된다. 우리는 유사하게 지각적으로 가중된 가우시안 노이즈를 사용하여 상기 노이즈 모델들을 얻는다.
테스트를 위해, 105개의 스피치 샘플들이 상기 데이터베이스로부터 무작위로 선택된다. 상기 노이지 샘플들(noisy samples)은 상기 시뮬레이션 된 노이즈 및 상기 스피치의 합산(additive sum)으로서 생성된다. 노이즈 및 스피치의 레벨들은 제어되고 이로써 우리는 코덱들의 일반적인 동작 범위에 맞게 하기 위해 각 pSNR 레벨에 대해 5 개의 샘플들로 0-20dB 범위의 pSNR에 대한 방법을 테스트한다. 각 샘플에 대해, 14개의 콘텍스트 크기들이 테스트되었다. 참고로, 상기 노이지 샘플들은 오라클 필터(oracle filter)를 사용하여 향상되었고, 종래의 위너 필터는 노이즈 추정으로서 트루 노이즈(true noise)를 사용하는데, 즉, 최적의 위너 이득(optimal Wiener gain)이 알려져 있다.
평가 결과들: 결과들은 도 2e에 묘사되어 있다. 종래의 위너 필터, 오라클 필터 및 콘텍스트 길이
Figure 112021127703894-pct00134
의 필터들을 사용한 노이즈 감쇠의 출력 pSNR이 도 2e(a)에 도시되어 있다. 도 2e(b)에서, 양자화 노이즈에 의해 손상된 신호의 pSNR에 대한 출력 pSNR의 개선인 차동 출력 pSNR(differential output pSNR)은 상이한 필터링 접근들에 대한 입력 pSNR의 범위에 걸쳐 플롯 되어(plotted) 있다. 이러한 플롯들은 종래의 위너 필터가 더 높은 pSNR들에서 1dB 향상 및 더 낮은 pSNR에서 3dB 향상으로 노이지 신호를 크게 개선한다는 것을 증명한다. 추가적으로, 상기 콘텍스트적인 필터
Figure 112021127703894-pct00135
는 더 높은 pSNR에서 6dB개선 및 더 낮은 pSNR에서 약 2dB개선을 나타낸다.
도 2e(c)는 상이한 입력 pSNR들에서 콘텍스트 크기의 효과를 보여준다. 더 낮은 pSNR들에서 상기 콘텍스트 크기가 노이즈 감쇠에 큰 영향을 미친다는 것이 관찰될 수 있고, pSNR의 개선(improvement)이 콘텍스트 크기의 증가와 함께 증가한다. 그러나, 콘텍스트 크기가 증가함에 따라 콘텍스트 크기와 관련된 개선의 레이트(rate)가 감소하고,
Figure 112021127703894-pct00136
에 대해 포화의 경향이 있다. 더 높은 pSNR들에서, 상기 개선은 상대적으로 더 작은 콘텍스트 크기에서 포화에 도달한다.
4.1.2.3.3 주관적 평가
우리는 주관적인 MUSHRA 리스닝 테스트로 상기 제안된 방법의 품질을 평가했다[16]. 상기 테스트는 6개의 항목들로 구성되었으며, 각 항복은 8개의 테스트 조건들로 구성되었다. 20세에서 43세 사이의 전문가와 비전문가 리스너가 모두 참여했다. 그러나, 90 MUSHRA 점수 이상의 숨겨진 기준(hidden reference) 점수를 획득한 참가자의 순위(ratings)만 선택되어 15명의 리스너가 이 평가에 포함되었다.
테스트 항목들을 생성하기 위해 TIMIT 데이터베이스에서 임의로 6개의 문장들이 선택되었다. 상기 항목들은 코딩 노이즈를 시뮬레이션하기 위해 지각적 노이즈를 추가함으로써 생성되었고, 이로써 결과 신호들의 pSNR이 2, 5 및 8 dB로 고정되었다. 각 pSNR에 대해, 남성 1개, 여성 1개 항목이 생성되었다. 각 항목은 8가지 조건으로 구성되었다: 노이지(Noisy)(향상 없음), 알려진 노이즈로 이상적 향상(오라클), 종래 위너 필터, 콘텍스트 크기가 1(L = 1), 6(L = 6), 14(L=14)인 제안된 방법, 낮은 앵커(lower anchor)로서 3.5kHz 저역 통과 신호와 더불어, MUSHRA 표준에 따라 숨겨진 기준.
결과들은 도 2f에 제시되어 있다. 도 2f(a)에서 우리는 상기 제안된 방법이
Figure 112021127703894-pct00137
의 가장 작은 콘텍스트에서도 상기 신뢰 구간들(confidence intervals) 사이 오버랩이 없는 대부분의 경우 상기 손상된 신호에 걸쳐 개선을 일정하게 보여준다는 것을 안다. 종래 위너 필터와 상기 제안된 방법 사이에서, 조건
Figure 112021127703894-pct00138
의 평균은 평균 약 10포인트 더 높다. 유사하게,
Figure 112021127703894-pct00139
는 위너 필터보다 약 30 MUSHRA 포인트가 높다. 모든 항목들에 대해,
Figure 112021127703894-pct00140
의 점수는 위너 필터의 점수와 오버랩 하지 않고, 특히 더 높은 pSNR들에서 이상적인 조건에 가깝다. 이러한 관찰들은 도 2f(b)에 도시된 차이 플롯(difference plot)에서 더 지원된다. 각 pSNR에 대한 점수는 남성 및 여성 항목들에 대해 평균화 되었다. 상기 차이 점수(difference scores)는 기준으로서 위너 조건의 점수를 유지하고 3가지 콘텍스트 크기 조건들(context-size conditions)과 비 향상 조건(enhancement condition) 사이의 차이를 얻음으로써 획득될 수 있다. 이러한 결과들로부터, 우리는 상기 복호화 된 신호의 지각적 품질을 개선할 수 있는 디더링에 더해[11], 종래 기술들을 사용하여 디코더에서 노이즈 감소를 적용하고 추가로, 복잡한 스피치 스펙트럼에서 내재된 상관을 통합하는 모델들을 채용하는 것이 pSNR을 크게 개선할 수 있다는 결론을 낼 수 있다.
4.1.2.4 결론
우리는 디코더에서의 상관이 통계적으로 모델링 되고 사용되는 스피치 및 오디오 코딩에서 양자화 노이즈의 감쇠를 위한 시간-주파수 기반 필터링 방법을 제안한다. 따라서, 상기 방법은 어떤 추가적인 시간 정보의 전송을 요구하지 않으므로, 전송 손실로 인한 에러 전파(error propagation)의 가능성을 제거한다. 상기 콘텍스트적인 정보를 통합함으로써, 우리는 최고의 경우 6dB 및 일반적인 애플리케이션에서 2dB의 pSNR 개선을 관찰한다. 주관적으로, 10 내지 30 MUSHRA 포인트의 개선이 관찰된다.
이 섹션에서, 특정 콘텍스트 크기에 대한 콘텍스트 이웃의 선택을 고정(fixed)했다. 이것이 콘텍스트 크기에 기초한 기대 개선(expected improvement)에 대한 기준선을 제공하는 반면, 최적의 콘텍스트 이웃을 선택하는 것의 영향을 조사하는 것은 흥미롭다. 추가적으로, MVDR 필터가 백그라운드 노이즈 감소에 있어서 상당한 개선을 보였기 때문에, MVDR과 상기 제안된 MMSE 방법 사이 비교가 이 애플리케이션에 대해 고려되어야 한다.
요약하면, 우리는 상기 제안된 방법이 주관적 및 객관적 품질을 모두 개선했다는 것, 그리고 그것이 임의의 스피치 및 오디오 코덱들의 품질을 개선하기 위해 사용될 수 있다는 것을 보였다.
4.1.2.5 참조들(References)
[1] Y. Huang and J. Benesty, “multi-frame approach to the frequency-domain single-channel noise reduction problem(주파수 도메인 단일 채널 노이즈 감소 문제에 대한 다중 프레임 접근법),”IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 4, pp. 1256-1269, 2012.
[2] T. B
Figure 112021127703894-pct00141
ckstr
Figure 112021127703894-pct00142
m, F. Ghido, and J. Fischer, Blind recovery of perceptual models in distributed speech and audio coding(분산된 스피치 및 오디오 코딩에서 지각적 모델들의 블라인드 리커버리),”in Interspeech. 1em plus 0.5em minus 0.4em ISCA, 2016, pp. 2483-2487.
[3] “codec detailed algorithmic description; 3GPP technical specification(EVS 코덱 상세한 알고리즘 설명; 3GPP 기술 사양),” http://www.3gpp.org/DynaReport/26445.htm .
[4] T. B
Figure 112021127703894-pct00143
ckstr
Figure 112021127703894-pct00144
m, “Estimation of the probability distribution of spectral fine structure in the speech source(스피치 소스에서 스펙트럼의 미세 구조의 확률 분포의 추정),”in Interspeech, 2017.
[5] Speech Coding with Code-Excited Linear Prediction(코드 여기 선형 예측을 이용한 스피치 코딩). 1em plus 0.5em minus 0.4em Springer, 2017.
[6] T. B
Figure 112021127703894-pct00145
ckstr
Figure 112021127703894-pct00146
m, J. Fischer, and S. Das, “quantization for frequency-domain speech and audio coding(주파수 시간 도메인 스피치 및 오디오 코딩에 대한 디더링 된 양자화),”in Interspeech, 2018.
[7] T. B
Figure 112021127703894-pct00147
ckstr
Figure 112021127703894-pct00148
m and J. Fischer, “Coding of parametric models with randomized quantization in a distributed speech and audio codec(분산된 스피치 및 오디오 코덱에서 무작위 양자화를 이용한 파라메트릭 모델들의 코딩),”in Proceedings of the 12. ITG Symposium on Speech Communication. 1em plus 0.5em minus 0.4em VDE, 2016, pp. 1-5.
[8] J. Benesty, M. M. Sondhi, and Y. Huang, Springer handbook of speech processing(스피치 처리의 스프링어 핸드북). 1em plus 0.5em minus 0.4em Springer Science & Business Media, 2007.
[9] J. Benesty and Y. Huang, “single-channel noise reduction MVDR filter(단일 채널 노이즈 감소 MVDR 필터),”in ICASSP. 1em plus 0.5em minus 0.4em IEEE, 2011, pp. 273-276.
[10] S. Das and T. B
Figure 112021127703894-pct00149
ckstr
Figure 112021127703894-pct00150
m, “Postfiltering using log-magnitude spectrum for speech and audio coding(스피치 및 오디오 코딩을 위한 로그 크기 스펙트럼을 사용한 포스트 필터링),”in Interspeech, 2018.
[11] R. W. Floyd and L. Steinberg, “adaptive algorithm for spatial gray-scale(공간 그레이 스케일에 대한 적응적 알고리즘),”in Proc. Soc. Inf. Disp., vol. 17, 1976, pp. 75-77.
[12] G. Fuchs, V. Subbaraman, and M. Multrus, “context adaptive entropy coding for real-time applications(실시간 애플리케이션을 위한 효율적인 콘텍스트 적응 엔트로피 코딩),”in ICASSP. 1em plus 0.5em minus 0.4em IEEE, 2011, pp. 493-496.
[13] H. Huang, L. Zhao, J. Chen, and J. Benesty, “minimum variance distortionless response filter based on the bifrequency spectrum for single-channel noise reduction(단일 채널 노이즈 감소를 위한 바이주파수 스펙트럼을 기반으로 하는 최소 분산 무 왜곡 응답 필터),”Digital Signal Processing, vol. 33, pp. 169-179, 2014.
[14] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach et al., “novel scheme for low bitrate unified speech and audio coding-MPEG RM0(낮은 비트레이트 통합 스피치 및 오디오 코딩을 위한 새로운 스킴 - MPEG RM0),”in Audio Engineering Society Convention 126. 1em plus 0.5em minus 0.4em Audio Engineering Society, 2009.
[15] ――, “speech and audio coding scheme for high quality at low bitrates(낮은 비트 레이트에서 높은 품질을 위한 통합 스피치 및 오디오 코딩 스킴),”in ICASSP. 1em plus 0.5em minus 0.4em IEEE, 2009, pp. 1-4.
[16] M. Schoeffler, F. R. St
Figure 112021127703894-pct00151
ter, B. Edler, and J. Herre, “Towards the next generation of web-based experiments: a case study assessing basic audio quality following the ITU-R recommendation BS. 1534(MUSHRA)(차세대 웹 실험들의 다음 세대를 향해: ITU-R 권장 BS에 따른 기본 오디오 품질을 평가하는 사례 연구. 1534(MUSHRA)),”in 1st Web Audio Conference. 1em plus 0.5em minus 0.4em Citeseer, 2015.
[17] Y. Soon and S. N. Koh, “enhancement using 2-D Fourier transform(2 차원 푸리에 변환을 사용한 스피치 향상),”IEEE Transactions on speech and audio processing(스피치 및 오디오 처리에 관한 IEEE 트랜잭션), vol. 11, no. 6, pp. 717-724, 2003.
[18] T. B
Figure 112021127703894-pct00152
ckstr
Figure 112021127703894-pct00153
m and J. Fischer, “Fast randomization for distributed low-bitrate coding of speech and audio(스피치 및 오디오의 분산된 낮은 비트 레이트 코딩을 위한 빠른 랜덤화),”IEEE/ACM Trans. Audio, Speech, Lang. Process., 2017.
[19] J.-M. Valin, G. Maxwell, T. B. Terriberry, and K. Vos, “low-delay music coding in the OPUS codec(OPUS 코덱의 고품질, 저지연 음악 코딩),”in Audio Engineering Society Convention 135. 1em plus 0.5em minus 0.4em Audio Engineering Society, 2013.
[20] V. Zue, S. Seneff, and J. Glass, “database development at MIT: TIMIT and beyond(MIT의 스피치 데이터베이스 개발: TIMIT 및 그 너머),”Speech Communication, vol. 9, no. 4, pp. 351-356, 1990.
4.1.3 스피치 및 오디오 코딩을 위해 예컨대 로그 크기 스펙트럼을 사용하는, 포스트 필터링(Postfiltering, e.g. Using Log-Magnitude Spectrum for Speech and Audio Coding)
이 섹션과 하위 섹션들의 예들은 주로 스피치 및 오디오 코딩을 위해 로그 크기 스펙트럼을 사용하는 포스트 필터링 기술들을 나타낸다.
이 섹션 및 하위 섹션들의 예들은 예를 들어 도 1a 및 1b의 특정 경우들을 더 잘 특정할 수 있다.
본 예에서는, 다음 도면들이 언급된다.
도 3a: 크기 C = 10의 콘텍스트 이웃. 상기 이전의 추정된 빈들은 현재 샘플로부터 거리에 기초하여 선택되고 정렬된다.
도 3b: 임의 주파수 빈의(a) 선형 도메인(b) 로그 도메인의 스피치 크기의 히스토그램들.
도 3c: 스피치 모델들의 트레이닝.
도 3d: 스피치 분포의 히스토그램들(a) 참(b) 추정치 : ML(c) 추정치 : EL.
도 3e: 상이한 콘텍스트 크기들에 대해 상기 제안된 방법을 사용하여 SNR의 개선을 나타내는 플롯들
도 3f: 시스템들 개요.
도 3g: 트루, 양자화된 및 추정된 스피치 신호를 묘사하는 샘플 플롯들(i)모든 시간 프레임들에 걸쳐 고정된 주파수 대역에서(ii)모든 주파수 대역들에 걸쳐 고정된 시간 프레임에서.
도 3h:(a) C = 1,(b) C = 40에 대해 제로-양자화 된 빈들에서 트루, 양자화된 및 추정된 스피치의 산포도들(Scatter plots). 상기 플롯들은 상기 추정된 및 트루 스피치 사이 상관을 보여준다.
고급 코딩 알고리즘들(Advanced coding algorithms)은 대상 비트 레이트 범위 내에서 우수한 코딩 효율로 고품질 신호들을 내지만, 성능이 대상 범위를 벗어난다. 더 낮은 비트 레이트들에서, 성능의 저하는 복호화 된 신호들이 희박하기 때문이고, 이는 상기 신호에 지각적으로 머플링되고(muffled) 왜곡된 특성을 제공한다. 표준 코덱들은 노이즈 필링(noise filling) 및 포스트 필터링 방법들을 적용함으로써 이러한 왜곡들을 줄인다. 여기서, 우리는 로그 크기 스펙트럼에서 고유한 시간 주파수 상관을 모델링하는 것에 기초하여 후처리 방법(post-processing method)을 제안한다. 목표는 복호화 된 신호들의 지각적 SNR을 개선하고 신호 성김(signal sparsity)로 인한 왜곡들을 줄이는 것이다. 객관적인 측정들은 4 내지 18dB 범위에서 입력 지각적 SNR에 대해 1.5dB의 평균 개선을 보여준다. 상기 개선은 0으로 양자화 된 구성요소들에서 특히 두드러진다.
4.1.3.1 개요(Introduction)
스피치 및 오디오 코덱들은 대부분의 오디오 처리 애플리케이션들에서 없어서는 안될 부분이고, 최근에 우리는 MPEG USAC [18, 16] 및 3GPP EVS [13]와 같은 코딩 표준의 빠른 발전을 보았다. 이러한 표준들은 통합 오디오 및 스피치 코딩으로 이동하여 초 광대역(super wide band) 및 전대역(full band) 스피치 신호의 코딩을 가능하게 하고 음성 인터넷 프로토콜(Voice over IP)의 지원을 추가했다. 이러한 코덱들 내 핵심 코딩 알고리즘인 ACELP 및 TCX는 대상 비트 레이트 범위 내에서 중간에서 높은 비트 레이트로 지각적으로 투명한 품질을 낸다. 그러나, 상기 코덱들이 이 범위 밖에서 동작할 때 성능이 저하된다. 특히, 주파수 도메인에서 낮은 비트 레이트 코딩의 경우, 상기 성능의 감소는 에너지가 낮은 영역은 0으로 양자화 되는 인코딩을 위해 처리할 비트수가 적기 때문이다. 복호화 된 신호의 이러한 스펙트럼의 홀들(spectral holes)은 상기 신호에 지각적으로 왜곡 및 머플링 된(muffled) 특성을 주며, 이는 리스너(listener)에게 성가실 수 있다.
대상 비트 레이트 범위(target bitrate ranges)를 벗어나 만족스러운 성능을 획득하기 위해, CELP와 같은 표준 코덱들은 휴리스틱(heuristics)에 크게 기반을 둔 전처리 및 후처리(pre- and post-processing) 방법을 사용한다. 특히, 낮은 비트 레이트에서 양자화 노이즈에 의해 야기되는 왜곡을 줄이기 위해, 코덱들은 코딩 프로세스에서 또는 디코더에서 포스트 필터(post-filter)로서 엄격하게 방법들을 구현한다. 포먼트 향상(Formant enhancement) 및 베이스 포스트 필터들(bass post-filters)은 양자화 노이즈가 상기 신호를 어떻게 그리고 어디서 지각적으로 왜곡하는지에 대한 지식에 기초하여 복호화 된 신호를 수정하는 일반적인 방법들이다[9]. 포먼트 향상은 노이즈가 발생하기 쉬운 영역들에서 본질적으로 적은 에너지를 갖도록 코드북(codebook)을 형성하고 인코더 및 디코더 모두에 적용된다. 대조적으로, 베이스 포스트 필터는 고조파 라인들(harmonic lines) 사이 구성요소와 같은 노이즈를 제거하고 디코더에서만 구현된다.
또 다른 일반적으로 사용되는 방법은 노이즈 유사 구성요소들(noise-like components)의 정확한 인코딩은 인식을 위해 필수적이지 않기 때문에, 의사 랜덤 노이즈(pseudo-random noise)가 상기 신호에 부가되는[16] 노이즈 필링(noise filling)이다. 또한, 상기 접근법은 상기 신호의 성김(sparsity)에 의해 야기되는 왜곡의 지각적 효과를 줄이는데 도움이 된다. 노이즈 필링의 품질은 노이즈 유사 신호를, 예를 들어, 그 이득에 의해 인코더에서 파라미터화 하고 상기 이득을 디코더로 전송함으로써 개선될 수 있다.
다른 방법들에 비해 포스트 필터링 방법들의 장점은 디코더에만 구현되므로, 인코더-디코더 구조(encoder-decoder structure)에 어떠한 수정도 요구하지 않으며, 전송될 어떠한 부가 정보가 필요하지도 않다. 그러나, 이들 방법들 중 대부분은 원인을 다루기보다는 문제의 효과를 해결하는데 중점을 둔다.
여기서, 우리는 스피치 크기 스펙트럼(speech magnitude spectrum)의 고유 시간 주파수 상관(inherent time-frequency correlation)을 모델링하고, 양자화 노이즈를 줄이기 위해 이 정보를 사용하는 것의 가능성(potential)을 조사함으로써 낮은 비트 레이트에서 신호 품질을 개선하기 위한 후처리 방법을 제안한다. 이 접근법의 장점들은 어떤 부가 정보의 전송도 요구하지 않고 오프라인으로 트레이닝 된 스피치 모델들 및 관측으로서 양자화된 신호만을 사용하여 동작한다는 점이다. 그것이 상기 복호화 프로세스 후에 디코더에 적용되기 때문에, 코덱의 핵심 구조(core structure)에 대한 어떠한 변경도 요구하지 않는다. 상기 접근법은 소스 모델(source model)을 사용하여 코딩 프로세스 동안 손실된 정보를 추정함으로써 신호 왜곡을 해결한다. 이 연구의 신규성(novelty)은(i) 로그 크기 모델링을 사용하여 스피치 신호에 포먼트 정보(formant information)를 통합하는 것, (ii) 다변량 가우시안 분포로서 로그 도메인에서 스피치의 스펙트럼의 크기에서 고유한 콘텍스트적 정보(inherent contextual information)를 나타내는 것, (iii)절단된 가우시안 분포(truncated Gaussian distribution)의 기대 우도(expected likelihood)로서, 트루 스피치(true speech)의 추정을 위해, 최적을 찾는 것에 있다.
4.1.3.2 스피치 크기 스펙트럼 모델들(Speech Magnitude Spectrum Models)
포먼트들은 스피치에서 언어적 내용(linguistic content)의 기본 지표이고 스피치의 상기 스펙트럼의 크기 엔벨로프에 의해 나타나고(manifested), 따라서 상기 크기 스펙트럼은 소스 모델링 [10, 21]의 중요한 부분이다. 이전 연구는 스피치의 주파수 계수들이 라플라시안(Laplacian) 또는 감마 분포(Gamma distribution) [1, 4, 2, 3]에 의해 가장 잘 나타난다는 것을 보여준다. 따라서, 스피치의 상기 크기-스펙트럼은 도 3ba와 같이 지수적 분포(exponential distribution)이다. 상기 도면은 상기 분포가 낮은 크기 값들에 집중되어 있음을 보여준다. 이는 수치 정확도 문제(numerical accuracy issues)로 인해 모델로서 사용하기 어렵다. 더 나아가, 일반적인 수학적 연산을 사용하는 것만으로도 긍정적인 추정을 보장하기 어렵다. 우리는 상기 스펙트럼을 로그 크기 도메인(log-magnitude domain)으로 변환함으로써 상기 문제를 다룬다. 상기 로그(logarithm)는 비 선형적이기 때문에, 이는 크기 축을 재분배하고 이로써 지수적으로 분포된 크기의 분포는 로그 표현에서 정규 분포(normal distribution)를 닮는다(도 3bb). 이는 우리가 가우시안 확률 밀도 함수(Gaussian probability density function)(pdf)를 사용하여 로그 크기 스펙트럼의 분포를 근사할(approximate) 수 있게 한다.
최근에, 스피치의 콘텍스트적인 정보는 점점 더 많은 관심을 끌고 있다[11]. 프레임 간 및 주파수 간 상관 정보는 노이즈 감소(noise reduction)를 위해 음향 신호 처리(acoustic signal processing)에서 이전에 탐구되었다 [11, 5, 14]. MVDR 및 위너 필터링 기술은 현재 시간-주파수 빈에서 신호의 추정치를 획득하기 위해 이전의 시간 또는 주파수-프레임들을 사용한다. 결과들은 출력 신호의 품질이 크게 향상되었음을 나타낸다. 이 연구에서, 스피치를 모델링하기 위해 유사한 콘텍스트적 정보를 사용한다. 상기 콘텍스트를 모델링하기 위해 로그 크기를 사용하는 것, 및 다변량 가우시안 분포(multivariate Gaussian distributions)를 사용하여 그것을 나타내는 것의 타당성을 탐구한다. 상기 콘텍스트 이웃은 고려중인 빈과의 콘텍스트 빈의 거리에 기초하여 선택된다. 도 3a은 크기 10의 콘텍스트 이웃을 도시하고 상기 이전 추정치들이 상기 콘텍스트 벡터들로 동화(assimilated)되는 순서를 나타낸다.
상기 모델링(트레이닝) 프로세스(330)의 개요는 도 3c에 제시되어 있다. 입력 스피치 신호(331)는 블록(332)에서 윈도잉(windowing)하고나서 단시간 푸리에 변환(short-time Fourier transform; STFT)을 적용함으로써 주파수 도메인 주파수 도메인 신호(332')로 변환된다. 주파수 도메인 신호(332')는 블록(333)에서 전처리되어 전처리된 신호(333')를 획득한다. 전처리된 신호(333')는 예를 들어 CELP와 유사한 지각적 엔벨로프를 계산함으로써 지각적 모델을 도출하는데 사용된다 [7, 9]. 상기 지각적 모델은 지각적으로 가중된 신호(334')를 획득하기 위해 주파수 도메인 신호(332')를 지각적으로 가중시키기 위해 블록(334)에서 사용된다. 마지막으로, 상기 콘텍스트 벡터들(예컨대, 처리될 각 빈에 대한 콘텍스트를 구성할 빈)(335')가 블록(335)에서 각각의 샘플 주파수 빈에 대해 추출되고, 블록(336)에서 각 주파수 대역에 대한 공분산 매트릭스(336')가 추정되고, 따라서, 요구되는 스피치 모델들을 제공한다.
다시 말해, 트레이닝 된 모델(336')은 다음을 포함한다:
상기 콘텍스트를 정의하기 위한 규칙들(예컨대, 주파수 밴드(k)에 기초하여); 및/또는
상기 콘텍스트를 형성하는 적어도 하나의 추가적인 빈 및 상기 처리중인 빈 관련 정보 및/또는 사이 통계적 관계들 및/또는 정보(115')를 생성하기 위해 추정기(115)에 의해 사용되는 상기 스피치(예컨대, 상기 정규화 된 공분산 매트릭스(
Figure 112021127703894-pct00154
)에 사용될 값들)의 모델; 및/또는
상기 노이즈의 상기 통계적 관계들 및/또는 정보(예컨대, 상기 매트릭스(
Figure 112021127703894-pct00155
)를 정의하기 위해 사용될 값들)를 생성하기 위해 추정기(119)에 의해 사용되는 상기 노이즈(예컨대, 양자화 노이즈)의 모델.
우리는 최대 40의 콘텍스트 크기를 탐구했고, 이는 각각 약 4개의 이전 시간 프레임들, 로어 및 어퍼 주파수 빈들을 포함한다. 우리가 표준 코덱에 사용되는 MDCT 대신 STFT로 동작하여 이 작업을 향상 애플리케이션들(enhancement applications)로 확장할 수 있도록 한다는 점에 주목하라. 상기 작업을 MDCT로 확장하는 것은 진행 중이며 비공식 테스트들은 이 문서와 유사한 통찰력을 제공한다.
4.1.3.3 문제 공식(Problem formulation)
우리의 목표는 통계적 프라이어(statistical priors)를 사용하여 상기 노이지 복호화 된 신호의 관찰로부터 상기 클린 스피치 신호를 추정하는 것이다. 이를 위해, 우리는 이전 추정치들 및 상기 관찰을 고려하여 현재 샘플의 최대 우도(maximum likelihood; ML)로 상기 문제를 공식화한다. 샘플
Figure 112021127703894-pct00156
Figure 112021127703894-pct00157
로 양자화되었다고 가정하자. 우리는 그런 다음 우리의 최적화 문제를 다음과 같이 표현할 수 있다:
Figure 112021127703894-pct00158
(3.1)
여기서,
Figure 112021127703894-pct00159
는 현재 샘플의 추정치이고, ,
Figure 112021127703894-pct00160
Figure 112021127703894-pct00161
는 각각 현재 양자화 빈들의 하한과 상한이며,
Figure 112021127703894-pct00162
는,
Figure 112021127703894-pct00163
, 주어진
Figure 112021127703894-pct00164
의 조건부 확률이다.
Figure 112021127703894-pct00165
는 추정된 콘텍스트 벡터이다. 도 3a은 숫자들이 주파수 빈들이 통합되는 순서를 나타내는
Figure 112021127703894-pct00166
크기의 콘텍스트 벡터의 구성을 도시한다. 우리는 상기 코덱에서 사용되는 상기 양자화 방법의 우리의 지식으로부터 및 상기 복호화 된 신호로부터 상기 양자화 레벨들을 획득하고, 우리는 상기 양자화 제한들을 정의할 수 있다. 특정 양자화 레벨의 상한 및 하한들이 이전 및 다음 레벨들 사이의 중간에 각각 정의된다.
식 3.1의 성능을 도시하기 위해, 우리는 일반적 수치 방법을 사용하여 해결했다. 도 3d는 0으로 양자화된 빈들에서 트루 스피치(true speech)(a)와 추정된 스피치(b)의 분포를 통한 결과들을 도시한다. 우리는 양자화 빈 내에서 상기 추정치들의 상대적 분포를 비교하고 분석하기 위해 가변(varying)
Figure 112021127703894-pct00167
Figure 112021127703894-pct00168
가 각각 0, 1로 고정되도록 상기 빈들을 스케일링 한다. (b)에서 우리는 약 1의 높은 데이터 밀도를 관찰하는데, 이는 추정치들이 상한 쪽으로 편향되어 있음을 의미한다. 우리는 이것을 에지 문제(edge-problem)라고 한다. 이 문제를 완화하기 위해, 우리는 상기 스피치 추정치를 다음과 같이 기대 우도(expected likelihood; EL)[17, 8]로 정의한다:
Figure 112021127703894-pct00169
(3.2)
EL을 사용한 결과적인 스피치 분포는 도 3dc에 나타나 있고, 상기 추정된 스피치 및 상기 트루 스피치 분포들 사이의 상대적으로 더 나은 매치(match)를 나타낸다. 마지막으로, 분석 솔루션을 획득하기 위해 우리는 제약 조건(constraint condition)을 상기 모델링 자체에 통합하여 상기 분포를 잘린 가우시안 pdf(truncated Gaussian pdf) [12]로 모델링 한다. 부록 A & B(4.1.3.6.1 및 4.1.3.6.2)에서 우리는 잘린 가우시안으로 어떻게 솔루션을 얻는지 보여준다. 다음 알고리즘은 추정 방법의 개요를 나타낸다.
Figure 112021127703894-pct00170

4.1.3.4 실험들 및 결과들
우리의 목표는 로그 크기 스펙트럼을 모델링 하는 것의 장점을 평가하는 것이다. 엔벨로프 모델들은 종래 코덱에서 상기 크기 스펙트럼을 모델링하는 주요 방법이기 때문에 우리는 상기 엔벨로프에 대해서만뿐만 아니라 전체 스펙트럼의 관점 모두에서 통계적 프라이어(statistical priors)의 효과들을 평가한다. 따라서, 스피치의 상기 노이지 크기 스펙트럼으로부터 스피치의 추정에 대한 상기 제안된 방법을 평가하는 것 외에도, 우리는 또한 상기 노이지 엔벨로프의 관찰로부터 상기 스펙트럼의 엔벨로프의 추정에 대해 그것을 테스트한다. 상기 스펙트럼의 엔벨로프를 획득하기 위해, 상기 신호를 상기 주파수 도메인으로 변환한 다음, 우리는 Cepstrum을 계산하고 20개의 낮은 계수들을 유지하고 그것을 다시 주파수 도메인으로 변환한다. 엔벨로프 모델링의 다음 단계들은 섹션 4.1.3.2 및 도 3c에 제시된 스펙트럼의 크기 모델링, 즉, 상기 콘텍스트 벡터와 공분산 추정을 얻는 것과 동일하다.
4.1.3.4.1 시스템 개요
시스템(360)의 일반적인 블록 다이어그램이 도 3f에 제시되어 있다. 인코더(360a)에서, 신호들(361)은 프레임들로 분할된다(예를 들어, 50 % 오버랩을 갖는 20ms 및 사인 윈도잉(Sine windowing)). 이어서, 스피치 입력(361)은 예를 들어 STFT를 사용하여 블록(362)에서 주파수 도메인 신호(362 ')로 변환될 수 있다. 블록(363)에서의 전처리 및 블록(364)에서의 스펙트럼의 엔벨로프에 의한 상기 신호를 지각적으로 가중한 후, 크기 스펙트럼은 블록(365)에서 양자화되고 블록(366)에서 산술 코딩(arithmetic coding) [19]을 사용하여 엔트로피 코딩 되어 인코딩 된 신호(366)(비트 스트림(111)의 예일 수 있다)를 얻는다.
디코더(360b)에서, 상기 역 프로세스(reverse process)는 인코딩 된 신호(366')를 복호화 하기 위해 블록(367)(비트 스트림 리더(113)의 예일 수 있다)에서 구현된다. 복호화 된 신호(366')는 양자화 노이즈에 의해 손상될 수 있고, 우리의 목적은 출력 품질을 개선하기 위해 상기 제안된 후처리 방법을 사용하는 것이다. 우리가 지각적으로 가중된 도메인에 상기 방법을 적용한다는 점에 주목하라. 로그 변환 블록(Log-transform block)(368)이 제공된다.
포스트 필터링 블록(post-filtering block)(369)(위에서 논의된 요소들(114, 115, 119, 116 및/또는 130)을 구현할 수 있음)은, 예를 들어, 노이즈(예컨대, 양자화 노이즈) 관련 통계적 관계들 및/또는 정보(119')(예컨대, 매트릭스(
Figure 112021127703894-pct00171
)) 및/또는 상기 콘텍스트를 형성하는 적어도 하나의 추가적인 빈 및 상기 처리중인 빈 관련 정보 및/또는 사이 통계적인 관계들 및/또는 정보(115')(예컨대, 정규화 된 공분산 매트릭스(
Figure 112021127703894-pct00172
)) 및/또는 상기 콘텍스트를 정의하기 위한 규칙들(예컨대, 주파수 대역(k)에 기초하여) 및/또는 상기 트레이닝 된 모델들(336')일 수 있는 스피치 모델들에 기초하여, 위에서 논의된 바와 같이 상기 양자화 노이즈의 효과들을 줄이는 것을 가능하게 한다.
후처리 후에, 상기 추정된 스피치는 블록(369a)에서 역 지각적 가중치(inverse perceptual weights)를 적용하고 블록(369b)에서 역 주파수 변환(inverse frequency transform)을 적용함으로써 시간 영역으로 다시 변환된다. 우리는 상기 신호를 시간 영역으로 다시 재구성(reconstruct)하기 위해 트루 페이즈(true phase)를 사용한다.
4.1.3.4.2 실험 설정(Experimental setup)
트레이닝을 위해 우리는 TIMIT 데이터베이스의 트레이닝 세트로부터 250개의 스피치 샘플들을 사용했다[22]. 트레이닝 프로세스의 블록 다이어그램은 도 3c에 제시되어 있다. 테스트를 위해 10 개의 스피치 샘플이 데이터베이스의 테스트 세트에서 무작위로 선택되었다. 상기 코덱은 TCX 모드에서 EVS 코덱 [6]을 기반으로 하고 우리는 지각적 SNR(pSNR) [6, 9]이 코덱에 대해 일반적인 범위에 있도록 코덱 파라미터들을 선택했다. 따라서 우리는 9.6 ~ 128 kbps 사이의 12 가지 상이한 비트 레이트에서 시뮬레이션 하였고, 이는 대략 4 ~ 18 dB 범위의 pSNR 값들을 제공한다. EVS의 TCX 모드는 포스트 필터링을 포함하지 않는다는 점에 주목하라. 각 테스트 사례에 대해 우리는 콘텍스트 크기가 ∈ {1,4,8,10,14,20,40} 인 복호화 된 신호에 대해 상기 포스트 필터를 적용한다. 상기 콘텍스트 벡터들은 섹션 4.1.3.2의 설명 및 도 3a의 도시에 따라 획득된다. 상기 크기 스펙트럼을 사용하는 테스트에 대해, 상기 후 처리된 신호의 pSNR는 상기 노이지 양자화된 신호의 pSNR과 비교된다. 스펙트럼의 엔벨로프 기반 테스트에 대해, 상기 트루 및 상기 추정된 엔벨로프 사이 신호 대 잡음 비(signal-to-Noise Ratio; SNR)는 정량적 측정으로 사용된다.
4.1.3.4.3 결과들 및 분석
10 개의 스피치 샘플들에 걸친 질적 측정들의 평균은 도 3d에 플롯 되어 있다. 플롯(a) 및 (b)는 상기 크기 스펙트럼을 사용한 평가 결과들을 나타내며, 플롯(c) 및 (d)는 스펙트럼의 엔벨로프 테스트들에 대응한다. 상기 스펙트럼과 상기 엔벨로프 모두에 대해, 콘텍스트적 정보의 통합은 SNR의 지속적인 개선을 보여준다. 개선의 정도는 플롯(b) 및(d)에 도시되어 있다. 크기 스펙트럼의 경우, 상기 개선 범위는 낮은 입력(lower input) pSNR에서 모든 상기 콘텍스트에 대해 1.5 ~ 2.2dB이며 높은 입력()higher input pSNR에서 0.2 ~ 1.2dB이다. 스펙트럼의 엔벨로프들의 경우, 경향은 비슷하다. 콘텍스트에 대한 개선은 낮은 입력(lower input) SNR에서 1.25 ~ 2.75dB이고 높은 입력(higher input) SNR에서 0.5 ~ 2.25이다. 약 10dB의 입력 SNR에서 상기 개선은 모든 콘텍스트 사이즈들에 대해 정점에 도달한다.
크기 스펙트럼의 경우, 콘텍스트 크기 1과 4 사이의 품질 개선은 모든 입력 pSNR들에서 약 0.5dB로 상당히 크다. 상기 콘텍스트 크기를 늘림으로써 우리는 pSNR을 더 개선할 수 있지만 개선의 레이트(rate of improvement)는 4 부터 40까지의 크기에 대해 상대적으로 낮다. 또한, 상기 개선은 높은 입력 pSNR들에서 상당히 낮다. 우리는 약 10샘플의 콘텍스트 크기가 정확성과 복잡성 사이의 좋은 절충안이라고 결론지었다. 그러나, 콘텍스트 크기의 선택은 처리를 위한 대상 디바이스에 따라 또한 달라질 수 있다. 예를 들어, 디바이스가 원하는 대로 쓸 수 있는 계산 리소스들을 가지는 경우, 최대 개선을 위해 높은 콘텍스트 크기가 채용될 수 있다.
도 3g:(i) 모든 시간 프레임들에 걸쳐 고정된 주파수 대역에서(ii) 모든 주파수 대역에 걸쳐 고정된 시간 프레임에서 상기 트루, 양자화된 및 상기 추정된 스피치 신호를 도시하는 샘플 플롯들.
상기 제안된 방법의 성능은 8.2 dB의 입력 pSNR로 도 3g -3h에 더 도시되어 있다. 도 3g의 모든 플롯들에서 눈에 띄는 관찰은, 특히 0으로 양자화 된 빈들에서 상기 제안된 방법이 트루 크기(true magnitude)와 가까운 크기를 추정할 수 있다는 것이다. 추가적으로 도 3g(ii)에서, 상기 추정치들은 스펙트럼의 엔벨로프를 따르는 것으로 보이고, 우리는 가우시안 분포는 대개 피치 정보(pitch information)가 아니라 스펙트럼의 엔벨로프 정보를 포함한다고 결론 지을 수 있다. 따라서, 상기 피치에 대한 추가적인 모델링 방법들이 또한 다뤄질 수 있다.
도 3h의 산포도는
Figure 112021127703894-pct00173
Figure 112021127703894-pct00174
에 대해 0으로 양자화된 빈들에서 트루, 추정된 및 양자화된 스피치 크기 사이 상관을 나타낸다. 이러한 플롯들은 콘텍스트가 정보가 없는 빈들의 스피치를 추정하는데 유용하다는 것을 더 보여준다. 따라서, 상기 방법은 노이즈 필링 알고리즘들(noise-filling algorithms)에서 스펙트럼의 크기를 추정하는 데 유리할 수 있다. 산포도에서, 상기 양자화된, 트루 및 추정된 스피치 크기 스펙트럼은 각각 적색, 흑색 및 청색 점들로 표시된다. 우리는 상기 상관이 두 크기 모두에 대해 양(positive)인 반면, 상기 상관이
Figure 112021127703894-pct00175
에 대해 상당히 높고 더 많이 정의된다는 것을 안다.
4.1.3.5 논의 및 결론들
이 섹션들에서, 우리는 양자화 노이즈의 감소를 위한 스피치 고유의 콘텍스트적 정보의 사용을 조사했다. 우리는 통계적 프라이어(statistical priors)를 사용하여 양자화 된 신호로부터 디코더에서 스피치 샘플을 추정하는 데 중점을 둔 후처리 방법을 제안한다. 결과는 스피치 상관을 포함하는 것이 SNR을 개선할 뿐만 아니라 노이즈 필링 알고리즘에 대한 스펙트럼의 크기 추정치들(spectral magnitude estimates)을 제공한다는 것을 나타낸다. 이 논문의 초점이 스펙트럼 크기를 모델링하는 것인 반면, 현재 통찰들과 수반되는 논문[20]으로부터의 결과들을 기반으로 한 공동 크기 페이즈 모델링 방법(joint magnitude-phase modeling method)은 자연스러운 다음 단계이다.
이 섹션은 또한 상기 콘텍스트 이웃에 대한 정보를 통합함으로써 고도로 양자화된 노이지 엔벨로프들(highly quantized noisy envelopes)로부터의 스펙트럼의 엔벨로프 복원에 발을 디디기(tread on) 시작한다.
4.1.3.6 부록
4.1.3.6.1 부록 A: 절단된 가우시안 pdf(Truncated Gaussian pdf)
Figure 112021127703894-pct00176
Figure 112021127703894-pct00177
라고 정의하면, 여기서
Figure 112021127703894-pct00178
는 분포의 통계적 파라미터들이고
Figure 112021127703894-pct00179
는 에러 함수(error function)이다. 일변량 가우시안 랜덤 변수
Figure 112021127703894-pct00180
의 기대 값은 다음과 같이 계산된다:
Figure 112021127703894-pct00181
(3.3)
통상적으로,
Figure 112021127703894-pct00182
일 때, 식 3.3을 풀면,
Figure 112021127703894-pct00183
이다. 그러나, 절단된 가우시안 랜덤 변수의 경우,
Figure 112021127703894-pct00184
에서 상기 관계는
Figure 112021127703894-pct00185
(3.4)
이는 잘린 일 변량 가우시안 랜덤 변수의 기대 값을 계산하기 위해 다음 식을 산출한다:
Figure 112021127703894-pct00186
(3.5)
4.1.3.6.2 부록B: 조건부 가우시안 파라미터들(Conditional Gaussian parameters)
상기 콘텍스트 벡터를
Figure 112021127703894-pct00187
라고 하자, 여기서
Figure 112021127703894-pct00188
는 고려중인 현재 빈을 나타내고,
Figure 112021127703894-pct00189
는 상기 콘텍스트이다. 그리고,
Figure 112021127703894-pct00190
이고, 여기서
Figure 112021127703894-pct00191
는 상기 콘텍스트 크기이다. 상기 통계적 모델들은 평균 벡터
Figure 112021127703894-pct00192
및 상기 공분산 매트릭스
Figure 112021127703894-pct00193
에 의해 표현되고, 이로써
Figure 112021127703894-pct00194
Figure 112021127703894-pct00195
와 같은 차원을 갖는
Figure 112021127703894-pct00196
이고, 상기 공분산은 다음과 같다
Figure 112021127703894-pct00197
(3.6)
Figure 112021127703894-pct00198
Figure 112021127703894-pct00199
,
Figure 112021127703894-pct00200
,
Figure 112021127703894-pct00201
and
Figure 112021127703894-pct00202
의 차원을 갖는
Figure 112021127703894-pct00203
의 파티션들(partitions)이다. 따라서, 상기 추정된 콘텍스트에 기초한 현재 빈의 분포의 업데이트 된 통계들은 다음과 같다[15]:
Figure 112021127703894-pct00204
(3.7)
Figure 112021127703894-pct00205
(3.8)
4.1.3.7 참조들
[1] J. Porter and S. Boll, “Optimal estimators for spectral restoration of noisy speech(노이지 스피치의 스펙트럼의 복원을 위한 최적 추정기들),”in ICASSP, vol. 9, Mar 1984, pp. 53-56.
[2] C. Breithaupt and R. Martin, “estimation of magnitude-squared DFT coefficients with superGaussian priors(수퍼 가우시안 프라이어로 크기 제곱 DFT 계수들의 MMSE 추정),”in ICASSP, vol. 1, April 2003, pp. I-896-I-899 vol.1.
[3] T. H. Dat, K. Takeda, and F. Itakura, “gamma modeling of speech and its online estimation for speech enhancement(스피치의 일반화된 감마 모델링 및 스피치 향상에 대한 온라인 추정),” in ICASSP, vol. 4, March 2005, pp. iv/181-iv/184 Vol. 4.
[4] R. Martin, “enhancement using MMSE short time spectral estimation with gamma distributed speech priors(감마 분포된 스피치 프라이어와 함께 MMSE 단시간 스펙트럼 추정을 사용하는 스피치 향상),”in ICASSP, vol. 1, May 2002, pp. I-253-I-256.
[5] Y. Huang and J. Benesty, “A multi-frame approach to the frequency-domain single-channel noise reduction problem(주파수 도메인 단일 채널 노이즈 감소 문제에 대한 다중 프레임 접근법),”IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 4, pp. 1256-1269, 2012.
[6] “EVS codec detailed algorithmic description; 3GPP technical specification,”http://www.3gpp.org/DynaReport/26445.htm.
[7] T. B
Figure 112021127703894-pct00206
ckstr
Figure 112021127703894-pct00207
m and C. R. Helmrich, “Arithmetic coding of speech and audio spectra using TCX based on linear predictive spectral envelopes(선형 예측 스펙트럼의 엔벨로프들에 기반한 TCX를 사용한 스피치 및 오디오 스펙트럼의 산술 코딩),”in ICASSP, April 2015, pp. 5127-5131.
[8] Y. I. Abramovich and O. Besson, “covariance matrix estimation in complex elliptically symmetric distributions using the expected likelihood approach part 1: The over-sampled case(기대 우도 접근법을 사용하는 복잡한 타원 대칭 분포에서 규칙화 된 공분산 매트릭스 추정 1부: 오버 샘플링 된 경우),”IEEE Transactions on Signal Processing, vol. 61, no. 23, pp. 5807-5818, 2013.
[9] T. B
Figure 112021127703894-pct00208
ckstr
Figure 112021127703894-pct00209
m, Speech Coding with Code-Excited Linear Prediction(코드 여기 선형 예측을 이용한 스피치 코딩). 1em plus 0.5em minus 0.4em Springer, 2017.
[10] J. Benesty, M. M. Sondhi, and Y. Huang, Springer handbook of speech processing(스피치 처리의 스프링어 핸드북). 1em plus 0.5em minus 0.4em Springer Science & Business Media, 2007.
[11] J. Benesty and Y. Huang, “single-channel noise reduction MVDR filter(단일 채널 노이즈 감소 MVDR 필터),”in ICASSP. 1em plus 0.5em minus 0.4em IEEE, 2011, pp. 273-276.
[12] N. Chopin, “simulation of truncated Gaussian distributions(잘린 가우시안 분포의 빠른 시뮬레이션),”Statistics and Computing, vol. 21, no. 2, pp. 275-288, 2011.
13] M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z. Wang, L. Laaksonen, A. Vasilache et al., “of the EVS codec architecture(EVS 코덱 아키텍처 개요),”in ICASSP. 1em plus 0.5em minus 0.4em IEEE, 2015, pp. 5698-5702.
[14] H. Huang, L. Zhao, J. Chen, and J. Benesty, “minimum variance distortionless response filter based on the bifrequency spectrum for single-channel noise reduction(단일 채널 노이즈 감소를 위한 바이 주파수 스펙트럼을 기반으로 하는 최소 분산 무 왜곡 응답 필터),”Digital Signal Processing, vol. 33, pp. 169-179, 2014.
[15] S. Korse, G. Fuchs, and T. B
Figure 112021127703894-pct00210
ckstr
Figure 112021127703894-pct00211
m, “GMM-based iterative entropy coding for spectral envelopes of speech and audio(스피치 및 오디오의 스펙트럼의 엔벨로프들에 대한 GMM 기반 반복 엔트로피 코딩),”in ICASSP. 1em plus 0.5em minus 0.4em IEEE, 2018.
[16] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach et al., “novel scheme for low bitrate unified speech and audio coding-MPEG RM0(낮은 비트레이트 통합 스피치 및 오디오 코딩을 위한 새로운 스킴 - MPEG RM0),”in Audio Engineering Society Convention 126. 1em plus 0.5em minus 0.4em Audio Engineering Society, 2009.
[17] E. T. Northardt, I. Bilik, and Y. I. Abramovich, “compressive sensing for direction-of-arrival estimation with bias mitigation via expected likelihood(기대 우도를 통한 바이어스 완화를 이용한 도착의 방향 추정을 위한 공간 압축 감지),”IEEE Transactions on Signal Processing, vol. 61, no. 5, pp. 1183-1195, 2013.
[18] S. Quackenbush, “unified speech and audio coding(MPEG 통합 스피치 및 오디오 코딩),”IEEE MultiMedia, vol. 20, no. 2, pp. 72-78, 2013.
[19] J. Rissanen and G. G. Langdon, “coding(산술 코딩),”IBM Journal of research and development, vol. 23, no. 2, pp. 149-162, 1979.
[20] S. Das and T. B
Figure 112021127703894-pct00212
ckstr
Figure 112021127703894-pct00213
m, “Postfiltering with complex spectral correlations for speech and audio coding(스피치 및 오디오 코딩을 위한 복잡한 스펙트럼 상관을 사용한 포스트 필터링),”in Interspeech, 2018.
[21] T. Barker, “factorisation techniques for sound source separation(사운드 소스 분리를 위한 음이 아닌 인수분해 기술),”Ph.D. dissertation, Tampere University of Technology, 2017.
[22] V. Zue, S. Seneff, and J. Glass, “database development at MIT: TIMIT and beyond(MIT의 스피치 데이터베이스 개발: TIMIT 및 그 너머),”Speech Communication, vol. 9, no. 4, pp. 351-356, 1990.
4.1.4 추가 예들
4.1.4.1 시스템들 구조
상기 제안된 방법은 노이즈를 줄이기 위해, 주파수 시간 도메인에서 필터링을 적용한다. 그것은 특히 스피치 및 오디오 코덱의 양자화 노이즈의 감쇠를 위해 설계되었지만, 그것은 어느 노이즈 감소 작업에도 적용할 수 있다. 도 1은 시스템의 구조를 도시한다.
상기 노이즈 감쇠 알고리즘은 정규화 된 시간-주파수 영역에서 최적의 필터링을 기반으로 한다. 이는 다음과 같은 중요한 세부 사항들을 포함한다.
성능을 유지하면서 복잡성을 줄이기 위해 필터링은 각 시간-주파수 빈의 직접 이웃(immediate neighborhood)에만 적용된다. 상기 이웃은 여기서 상기 빈의 콘텍스트라고 불린다.
필터링은 상기 콘텍스트가 사용 가능한 상기 클린 신호의 추정치들을 포함한다는 점에서 재귀적이다. 다시 말해, 우리가 각 시간 주파수 빈에 걸친 반복에 대해 노이즈 감쇠를 적용하면, 이미 처리된 이러한 빈들은 다음 반복들로 피드백 된다(도 2 참조). 이는 자동 회귀 필터링(autoregressive filtering)과 유사한 피드백 루프를 만든다. 장점들은 2가지이다:
상기 이전에 추정된 샘플들은 현재 샘플과 다른 콘텍스트를 사용하기 때문에, 우리는 현재 샘플의 추정에 더 큰 콘텍스트를 효과적으로 사용하고 있다. 더 많은 데이터를 사용함으로써, 우리는 더 낮은 품질을 획득할 수 있다.
상기 이전에 추정된 샘플들은 일반적으로 완벽한 추정치들이 아니고, 이는 추정치에 약간의 에러가 있음을 의미한다. 상기 이전에 추정된 샘플들이 클린 샘플들인 것처럼 다룸으로써, 우리는 현재 샘플을 이전에 상기 추정된 샘플과 유사한 에러로 바이어스한다. 비록 이것이 실제 에러(actual error)를 증가시킬 수 있지만, 상기 에러는 상기 신호가 원하는 신호의 통계들과 더 닮는 소스 모델(source model)을 더 잘 따른다. 다시 말해, 스피치 신호에 대해, 상기 필터링 된 스피치는 절대 에러(absolute error)가 반드시 최소화되지 않더라도 스피치와 더 유사할 것이다.
상기 콘텍스트의 에너지는 시간과 주파수 모두에 걸쳐 높은 변화를 갖지만, 상기 양자화 노이즈 에너지는 우리가 상기 양자화 정확도가 일정하다고 가정하면 실질적으로 일정하다. 최적 필터들이 공분산 추정치들을 기반으로 하기 때문에, 상기 현재 콘텍스트가 가지는 에너지의 양은, 따라서 상기 공분산에 큰 영향을 미치고, 결과적으로 상기 최적의 필터에 큰 영향을 미친다. 에너지의 이러한 변화들을 고려하려면, 우리는 상기 프로세스의 일부에 정규화를 적용해야 한다. 현재 구현에서, 우리는 상기 콘텍스트의 규범(norm)에 따라 처리하기 전에 상기 입력 콘텍스트와 일치하도록 상기 원하는 소스의 공분산을 정규화 한다(도 4c 참조). 전체 프레임 워크의 요구 사항에 따라 상기 정규화의 다른 구현들은 쉽게 가능하다.
현재 작업에서, 우리는 위너 필터링을 사용했는데, 그것이 최적의 필터들을 도출하기 위한 잘 알려진 및 잘 이해되는 방법이기 때문이다. 당업자는 최소 분산 무 왜곡 응답(minimum variance distortionless response; MVDR) 최적화 기준과 같이, 자신이 선택한 다른 필터 설계를 선택할 수 있음이 명백하다.
도 4b는 제안된 추정의 예들의 재귀적 속성(recursive nature)의 도시이다. 각 샘플에 대해,우리는 상기 현재 프레임의 이전 샘플들의 추정치들, 상기 이전 클린 프레임들의 추정치들 및 상기 노이지 입력 프레임으로부터 샘플들을 갖는 상기 콘텍스트를 추출한다. 이러한 콘텍스트들은 현재 샘플의 추정치를 찾기 위해 사용되고, 이는 상기 클린 현재 프레임의 추정치를 공동으로 구성한다.
도 4c은 상기 현재 콘텍스트의 이득(규범(norm))의 추정, 상기 이득을 사용한 상기 소스 공분산(source covariance)의 정규화(스케일링), 상기 양자화 노이즈의 상기 공분산 및 상기 원하는 소스 신호의 상기 스케일링 된 공분산을 사용한 상기 최적 필터의 계산, 및 마지막으로, 상기 출력 신호의 추정치를 획득하기 위해 상기 최적 필터를 적용하는 것을 포함하여 콘텍스트로부터의 단일 샘플의 최적 필터링을 보여준다.
4.1.4.2 종래 기술과 비교하여 제안의 이점(Benefit of proposal in comparison to prior art)
4.4.4.2.1 기존의 코딩 접근법들(Conventional coding approaches)
제안된 방법의 중심 신규성(central novelty)은 시간 주파수 표현에서 시간이 지남에 따라 상기 스피치 신호의 통계적 특성들을 고려한다는 것이다. 3GPP EVS와 같은 기존 통신 코덱들은 엔트로피 코더(entropy coder)에서 상기 신호의 통계들 및 현재 프레임 내에서 주파수들에 대해서만 소스 모델링을 사용한다[1]. MPEG USAC 와 같은 방송 코덱들(Broadcast codecs)은 그들의 엔트로피 코더들에서 시간이 지남에 따라서 또한 시간 주파수 정보를 사용하지만, 제한된 범위 까지만 사용한다[2].
프레임 간 정보를 사용하는 것을 꺼리는 것에 대한 이유는 정보가 전송 중 손실되는 경우 우리가 상기 신호를 올바르게 재구성할 수 없을 것이기 때문이다. 특히, 우리는 손실된 그 프레임만을 잃는 것이 아니라, 다음 프레임들도 상기 손실된 프레임에 의존하기 때문에, 상기 다음 프레임들도 또한 올바르지 않게 재구성되거나 완전히 손실될 것이다. 코딩에서 프레임 간 정보를 사용하는 것은 따라서 프레임 손실의 경우에 상당한 에러 전파(error propagation)로 이끈다.
반면, 상기 현재 제안은 프레임 간 정보의 전송을 요구하지 않는다. 상기 신호의 통계들은 상기 원하는 신호와 상기 양자화 노이즈 모두에 대해 상기 콘텍스트의 공분산 매트릭스들의 형태로 오프라인으로 결정된다. 우리는 따라서 상기 프레임 간 통계들이 오프라인으로 추정되기 때문에 에러 전파 위험 없이 디코더에서 프레임 간 정보를 사용할 수 있다.
상기 제안된 방법은 어느 코덱에 대해서도 후처리 방법으로서 적용 가능하다. 주요 제한은 기존 코덱이 낮은 비트 레이트에서 동작하는 경우, 상기 신호의 상당 부분이 0으로 양자화되고, 이는 상기 제안된 방법의 효율을 상당히 감소시킨다는 것이다. 그러나, 낮은 레이트에서, 상기 양자화 에러가 가우시안 노이즈와 더 유사하게 만들기 위해 랜덤화 된 양자화 방법들을 사용하는 것이 가능하다[3, 4]. 이는 상기 제안된 방법을 적어도
1. 기존 코덱 설계들로 중간 및 높은 비트 레이트에서 및
2. 랜덤화 된 양자화를 사용할 때 낮은 비트 레이트에서
적용 가능하게 한다.
상기 제안된 접근은 따라서 상기 신호의 통계적 모델들을 두가지 방식으로 사용한다. 상기 프레임 내부 정보(intra-frame information)는 기존 엔트로피 코딩 방법들을 사용하여 인코딩 되고, 프레임 간 정보(inter-frame information)는 후처리 단계에서 디코더에서의 노이즈 감쇠를 위해 사용된다. 디코더 측에서 소스 모델링의 이러한 적용은 분산된 코딩 방법들(distributed coding methods)과 익숙하고, 여기서 통계적 모델링이 인코더와 디코더 모두에 적용되는지 또는 디코더에만 적용되는지 여부는 중요하지 않다는 것이 입증되었다[5]. 우리가 아는 한, 우리의 접근법은 상기 분산된 코딩 애플리케이션들 외부의 스피치 및 오디오의 이 특징의 첫번째 애플리케이션이다.
4.1.4.2.2 노이즈 감쇠(Noise attenuation)
노이즈 감쇠 애플리케이션들이 시간 주파수 도메인에서 시간에 따라 통계적 정보를 통합하는 것으로부터 큰 이익을 얻는다는 것이 비교적 최근에 입증되었다. 특히, Benesty et al.은 배경 노이즈(background noises)를 줄이기 위해 시간 주파수 도메인에서 MVDR과 같은 기존 최적 필터들을 적용하였다[6, 7]. 상기 제안된 방법의 주된 애플리케이션은 양자와 노이즈의 감쇠이지만, 그것은 Benesty가 한 것처럼 일반적인 노이즈 감쇠 문제에도 또한 자연스럽게 적용될 수 있다. 그러나 차이점은 현재 빈과 가장 높은 상관을 갖는 콘텍스트로 이러한 시간 주파수 빈들을 명시적으로 선택했다는 것이다. 차이점에서, Benesty는 시간이 지남에 따라 필터링을 적용하지만, 이웃하는 주파수에 대해서는 적용하지 않는다. 시간 주파수 빈들 중에서 더 자유롭게 선택함으로써, 우리는 계산적 복잡도를 줄이는 가장 작은 콘텍스트 크기로 가장 높은 품질 개선을 주는 이러한 주파수 빈들을 선택할 수 있다.
4.1.4.3 확장들(Extensions)
상기 제안된 방법을 자연적으로 따르고 상기 및 하기에 개시된 예들과 측면들에 적용될 수 있는 다수의 자연적 확장들이 있다:
1. 위에서, 상기 콘텍스트는 상기 클린 신호의 과거 추정치들 및 상기 현재 샘플들만을 포함한다. 그러나, 상기 콘텍스트는 아직 처리되지 않은 시간 주파수 이웃들(time-frequency neighbours) 또한 포함할 수 있다. 즉, 우리는 가장 유용한 이웃들을 포함할 수 있는 콘텍스트를 사용할 수 있고, 가능한 경우, 우리는 상기 추정된 클린 샘플들을 사용하지만, 그렇지 않으면 노이지 샘플들을 사용한다. 상기 노이지 이웃들(noisy neighbours)은 자연적으로 현재 샘플로서 노이즈에 대해 유사한 공분산을 가질 것이다.
2. 상기 클린 신호의 추정치들은 본래(naturally) 완벽하지는 않지만, 약간의 에러 또한 포함하지만, 위에서, 우리는 상기 과거 신호의 추정치들이 에러를 갖지 않는다고 가정한다. 품질을 개선하기 위해, 우리는 또한 상기 과거 신호에 대한 잔류 노이즈(residual noise)의 추정치를 포함할 수 있다.
3. 현재 작업은 양자화 노이즈의 감쇠에 중점을 두고 있지만, 우리는 배경 노이즈들 또한 포함할 수 있다. 우리는 그런 다음 최소화 프로세스(minimization process)에서 적절한 노이즈 공분산만 포함해야 할 것이다[8].
4. 상기 방법은 단일 채널 신호들에만 적용되었지만, 기존 방법들을 사용하여 다중 채널 신호로 확장할 수 있음을 분명히 알 수 있다[8].
5. 현재 구현은 오프라인으로 추정된 공분산들을 사용하고 원하는 소스 공분산(source covariance)의 스케일링만이 상기 신호에 적응된다. 우리가 상기 신호에 관한 정보를 더 갖는 경우 적응적 공분산 모델들(adaptive covariance models)이 유용할 것임이 명백하다. 예를 들어, 우리가 고조파 대 잡음 비(harmonics to noise ratio; HNR)의 추정치 또는 스피치 신호의 보이싱(voicing)의 양의 지표를 갖는 경우, 우리는 상기 원하는 소스 공분산을 상기 보이싱 또는 HNR에 각각 맞출 수 있다. 마찬가지로, 양자화 타입(the quantizer type) 또는 모드가 프레임마다 변하는 경우, 우리는 저것을 상기 양자화 노이즈 공분산을 조정하기 위해 사용할 수 있다. 상기 공분산들이 상기 관찰된 신호의 통계들과 일치한다는 것을 확인함으로써, 우리는 상기 원하는 신호의 더 나은 추정치들을 얻을 것이다.
6. 현재 구현에서 콘텍스트는 시간 주파수 그리드(the time-frequency grid)의 가장 가까운 이웃들 중 선택된다. 그러나, 이러한 샘플들만을 사용하는 것에는 제한이 없다. 우리는 이용 가능한 어느 유용한 정보든지 자유롭게 선택할 수 있다. 예를 들어, 우리는 상기 고조파 신호의 빗살 구조(comb structure)에 대응하는 콘텍스트로 샘플들을 선택하기 위해 상기 신호의 고조파 구조에 관한 정보를 사용할 수 있다. 또한, 우리가 엔벨로프 모델에 액세스할 수 있으면, 우리는 [9]와 같이, 스펙트럼의 주파수 빈들(spectral frequency bins)의 통계들을 추정하기 위해 저것을 사용할 수 있다. 일반적으로, 우리는 상기 클린 신호의 추정치를 개선하기 위해 현재 샘플과 관련된 사용가능한 어느 정보든지 사용할 수 있다.
4.1.4.4 참조들
[1] 3GPP, TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification(Release 12)(3GPP, TS 26.445, EVS 코덱 상세한 알고리즘 설명; 3GPP 기술 사양(공개 12)), 2014.
[2] ISO/IEC 23003-3:2012, “audio technologies), Part 3: Unified speech and audio coding(MPEG-D(MPEG 오디오 기술), 3 부 : 통합 스피치 및 오디오 코딩)”2012.
[3] T B
Figure 112021127703894-pct00214
ckstr
Figure 112021127703894-pct00215
m, F Ghido, and J Fischer, “Blind recovery of perceptual models in distributed speech and audio coding(분산된 스피치 및 오디오 코딩에서 지각적 모델들의 블라인드 리커버리),”in Proc. Interspeech, 2016, pp. 2483-2487.
[4] T B
Figure 112021127703894-pct00216
ckstr
Figure 112021127703894-pct00217
m and J Fischer, “Fast randomization for distributed low-bitrate coding of speech and audio(스피치 및 오디오의 분산된 낮은 비트 레이트 코딩을 위한 빠른 랜덤화),”accepted to IEEE/ACM Trans. Audio, Speech, Lang. Process., 2017.
[5] R. Mudumbai, G. Barriac, and U. Madhow, “the feasibility of distributed beamforming in wireless networks(무선 네트워크에서 분산 빔 포밍의 가능성),”Wireless Communications, IEEE Transactions on, vol. 6, no. 5, pp. 1754-1763, 2007.
[6] Y.A. Huang and J. Benesty, “multi-frame approach to the frequency-domain single-channel noise reduction problem(주파수 도메인 단일 채널 노이즈 감소 문제에 대한 다중 프레임 접근법),”IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 4, pp. 1256-1269, 2012.
[7] J. Benesty and Y. Huang, “single-channel noise reduction MVDR filter(단일 채널 노이즈 감소 MVDR 필터),”in ICASSP. IEEE, 2011, pp. 273-276.
[8] J Benesty, M Sondhi, and Y Huang, Springer Handbook of Speech Processing(스피치 처리의 스프링어 핸드북), Springer, 2008.
[9] T B
Figure 112021127703894-pct00218
ckstr
Figure 112021127703894-pct00219
m and C R Helmrich, “Arithmetic coding of speech and audio spectra using TCX based on linear predictive spectral envelopes(선형 예측 스펙트럼의 엔벨로프들에 기반한 TCX를 사용한 스피치 및 오디오 스펙트럼의 산술 코딩),”in Proc. ICASSP, Apr. 2015, pp. 5127-5131.
4.1.5 추가적 측면들(Additional aspects)
4.1.5.1 추가 사양들 및 추가 세부 사항들(Additional specifications and further details)
위의 예들에서, 비트 스트림(111)에서 인코딩 된 프레임 간 정보는 필요하지 않다. 따라서, 예들에서, 상기 콘텍스트 정의기(114), 통계적 관계 및/또는 정보 추정기(115), 양자화 노이즈 관계 및/또는 정보 추정기(119), 및 값 추정기(116) 중 적어도 하나는 디코더에서 프레임 간 정보를 이용하고, 따라서, 패킷 또는 비트 손실의 경우 에러 전파(error propagation)의 위험 및 페이로드(payload)를 줄인다.
상기 예들에서, 참조는 주로 양자화 노이즈에 대해 이루어졌다. 그러나, 다른 종류의 노이즈는 다른 예들에서 대처될 수 있다.
상기 기술된 대부분의 기술들은 특히 낮은 비트 레이트에서 효과적이라는 점이 주목되었다. 따라서, 다음 중에서 선택하는 기술을 구현하는 것이 가능할 수 있다:
상기 기술들이 사용되는, 낮은 비트 레이트 모드(lower-bitrate mode)
상기 제안된 포스트 필터링이 우회되는, 높은 비트 레이트 모드(higher-bitrate mode)
도 5a은 일부 예들에서 디코더(110)에 의해 구현될 수 있는 예(510)를 도시한다. 상기 비트 레이트가 미리 결정된 임계치 미만이면, 상기와 같은 콘텍스트 기반 필터링은 512에서 수행된다. 상기 비트 레이트가 미리 결정된 임계치를 초과하면, 상기 콘텍스트 기반 필터링은 513에서 생략된다.
예들에서, 콘텍스트 정의기(114)는 적어도 하나의 처리되지 않은 빈(non-processed bin)(126)을 사용하여 콘텍스트(114')를 형성할 수 있다. 도 5a을 참조하여, 일부 예들이, 콘텍스트(114')는 따라서 상기 원형 빈들(126) 중 적어도 하나를 포함할 수 있다. 따라서, 일부 예들에서, 상기 처리된 빈들 스토리지 유닛(118)의 사용은 상기 적어도 하나의 처리되지 않은 빈(126)을 콘텍스트 정의기(114)에 제공하는 연결(113'')(도 1a)에 의해 회피되거나 보완될 수 있다.
상기 예들에서, 통계적 관계 및/또는 정보 추정기(115) 및/또는 노이즈 관계 및/또는 정보 추정기(119)는 복수의 매트릭스들(예를 들어
Figure 112021127703894-pct00220
,
Figure 112021127703894-pct00221
)에 저장될 수 있다. 사용될 매트릭스의 선택은 상기 입력 신호 상의(예컨대, 콘텍스트(114') 및/또는 처리중인 빈(123)의) 메트릭들에 기초하여 수행된다. 상이한 고조파들(예컨대, 상이한 고조파 대 잡음 비 또는 다른 메트릭들로 결정되는)은 따라서 예를 들어, 상이한 매트릭스들(
Figure 112021127703894-pct00222
,
Figure 112021127703894-pct00223
)과 연관될 수 있다.
대안적으로, 상기 콘텍스트(예컨대, 상기 처리되지 않은 빈 값들 또는 다른 메트릭들의 상기 콘텍스트의 규범(norm)을 측정하는 것으로 결정되는)는 따라서, 예를 들어 상이한 매트릭스들(
Figure 112021127703894-pct00224
,
Figure 112021127703894-pct00225
)과 연관될 수 있다.
4.1.5.2 방법들
위에 개시된 장비의 동작들은 본 개시에 따른 방법들일 수 있다.
방법의 일반적인 예가 도 5b에 도시되어 있고, 이는 다음을 언급한다:
입력 신호의 처리중인 하나의 빈(예컨대, 123)에 대한 콘텍스트(예컨대, 114')가 정의되고, 상기 콘텍스트(예컨대, 114')는 주파수/시간 공간에서 상기 처리중인 빈(예컨대, 123)과 미리 결정된 위치상의 관계에 있는 적어도 하나의 추가적인 빈(예컨대, 118', 124)을 포함하는 제1 단계(521)(예컨대, 콘텍스트 정의기(예컨대, 114)에 의해 수행되는);
노이즈(예컨대, 양자화 노이즈 및/또는 다른 종류의 노이즈) 관련 통계적인 관계들 및/또는 정보(예컨대, 119’)에 기초하여 및 상기 적어도 하나의 추가적인 빈(예컨대, 118’, 124) 및 처리중인 상기 빈(예컨대, 123) 관련 정보 및/또는 사이 통계적인 관계들 및/또는 정보(예컨대, 115’)에 기초하여 처리중인 상기 빈(예컨대, 123)의 상기 값(예컨대, 116’)을 추정하는 제2 단계(522).
예들에서, 상기 방법은, 예컨대 단계(522) 이후에, 반복될 수 있고, 단계 (521)은, 예컨대, 새로운 콘텍스트를 선택함으로써 및 상기 처리중인 빈을 업데이트 함으로써 새롭게 호출될 수 있다.
방법(520)과 같은 방법들은 위에서 논의된 동작에 의해 보충될 수 있다.
4.1.5.3 스토리지 유닛(Storage unit)
도 5c에 도시된 바와 같이, 장비(예컨대, 113, 114, 116, 118, 115, 117, 119 등) 및 상기 개시된 방법들의 동작들은 프로세서 기반 시스템(530)에 의해 구현될 수 있다. 후자는 프로세서(532)에 의해 실행될 때 상기 노이즈를 감소시키도록 동작할 수 있는 비 일시적(non-transitory) 스토리지 유닛(534)을 포함할 수 있다. 입력/출력(input/output; I/O) 포트(53)가 도시되어 있고, 이는 예컨대, 수신하는 안테나 및/또는 스토리지 유닛(예컨대, 상기 입력 신호(111)가 저장되는)으로부터 데이터(상기 입력 신호(111)와 같은)를 프로세서(532)에 제공한다.
4.1.5.4 시스템
도 5d는 인코더(542) 및 디코더(130)(또는 상기와 같은 다른 인코더)를 포함하는 시스템(540)을 도시한다. 인코더(542)는 예컨대, 무선으로(예컨대, 라디오 주파수(radio frequency) 및/또는 초음파 및/또는 광 통신) 또는 비트 스트림(111)을 스토리지 지원(storage support)에 저장함으로써 비트 스트림(111)에 인코딩 된 상기 입력 신호를 제공하도록 구성된다.
4.1.5.5 추가 예들
일반적으로, 예들은 프로그램 명령어들을 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 상기 프로그램 명령어들은 상기 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 상기 방법들 중 하나를 수행하도록 동작한다. 상기 프로그램 명령어들은 예를 들어 기계 판독 가능 매체(machine readable medium)에 저장될 수 있다.
다른 예들은 기계 판독 가능 캐리어(machine readable carrier)에 저장된, 여기에 설명된 상기 방법들 중 하나를 수행하기 위한 상기 컴퓨터 프로그램을 포함한다.
다시 말해, 방법의 예는, 따라서, 상기 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 여기에 설명된 상기 방법들 중 하나를 수행하기 위한 프로그램 명령어들을 갖는 컴퓨터 프로그램이다.
상기 방법들의 추가 예는, 따라서, 여기에 설명된 상기 방법들 중 하나를 수행하기 위한 상기 컴퓨터 프로그램이 기록된 데이터 캐리어 매체(data carrier medium)(또는 디지털 스토리지 매체(digital storage medium), 또는 컴퓨터 판독가능 매체(computer-readable medium))이다. 상기 데이터 캐리어 매체, 상기 디지털 스토리지 매체, 또는 상기 기록된 매체는 무형의(intangible) 또는 일시적인(transitory) 신호이기 보다는 유형적이고(tangible) 및/또는 비 일시적(non-transitionary)이다.
따라서, 상기 방법의 추가 예는, 여기에 설명된 상기 방법들 중 하나를 수행하기 위한 상기 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이터 스트림이다. 신호들의 상기 시퀀스 또는 상기 데이터 스트림은 예를 들어, 데이터 통신 연결을 통해, 예를 들어 인터넷을 통해 전송될 수 있다.
다른 예는 처리 수단들, 예를 들어 여기에 설명된 상기 방법들 중 하나를 수행하기 위한 프로그램 가능 논리 디바이스 또는 컴퓨터를 포함한다.
추가 예는 여기에 설명된 상기 방법들 중 하나를 수행하기 위한 상기 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
추가 예는 여기에 설명된 상기 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기로 전송하는 시스템 또는 장치를 포함한다. 상기 수신기는, 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 상기 장치 또는 시스템은, 예를 들어, 상기 컴퓨터 프로그램을 상기 수신기로 전송하기 위한 파일 서버(file server)를 포함할 수 있다.
일부 예들에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이(field programmable gate array))는 여기에 설명된 상기 방법들의 기능들 중 일부 또는 전부를 수행하기 위해 사용될 수 있다. 일부 예들에서, 필드 프로그램 가능 게이트 어레이는 여기에 설명된 상기 방법들 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 상기 방법들은 임의의 적절한 하드웨어 장치에 의해 수행될 수 있다.
상기 설명된 예들은 전술한 원리들에 대한 예시일 뿐이다. 여기에 설명된 세부 사항들 및 어레인지먼트들(arrangements)의 수정들 및 변형들은 명백할 것으로 이해된다. 따라서, 여기의 예들의 설명 및 기술의 방식에 의해 나타난 특정 세부 사항들에 의해서가 아니라 임박한 클레임들(impending claims)에 의해 제한되는 것이 의도된다.
동일 또는 동등한 요소들 또는 동일 또는 동등한 기능을 갖는 요소들은 다른 도면에서 발생하더라도 동일 또는 동등한 참조 번호들에 의해 다음 설명에서 표시된다.

Claims (61)

  1. 비트 스트림(bitstream)(111)에 정의되는 주파수 도메인 입력 신호(frequency-domain input signal)를 복호화 하기 위한 디코더(110)에 있어서,
    상기 주파수 도메인 입력 신호는 양자화 노이즈(quantization noise)를 받고,
    상기 디코더(110)는,
    상기 비트 스트림(111)으로부터, 각 빈(bin)이 샘플링 된 값(sampled value)을 가지는 복수의 빈들(123-126)로 각 프레임(121)이 세분화되는 프레임들(121)의 시퀀스로서 상기 주파수 도메인 입력 신호의 버전(version)(113', 120)을 제공하기 위한 비트 스트림 리더(bitstream reader)(113);
    처리 중인 하나의 빈(123)에 대한 콘텍스트(context)(114')를 정의하도록 구성된 콘텍스트 정의기(context definer)(114) - 상기 콘텍스트(114')는 처리 중인 상기 빈(123)과 미리 결정된 위치상의 관계에 있는 적어도 하나의 추가적인 빈(118', 124)을 포함함 - ;
    적어도 하나의 추가적인 빈(118', 124)과 처리중인 상기 빈(123) 관련 정보 - 상기 처리중인 상기 빈(123) 관련 상기 정보는 자기상관들 또는 분산들의 형태로 제공됨 - 및 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이 통계적 관계들(115') - 상기 통계적 관계들(115’)은 상관들 또는 공분산들의 형태로 제공됨 - 을 제공하도록 구성된 통계적 관계 및 정보 추정기(statistical relationship and information estimator)(115) - 상기 통계적 관계 및 정보 추정기(115)는 노이즈(noise) 관련 통계적 관계들 및 정보(119')를 제공하도록 구성된 노이즈 관계 및 정보 추정기(noise relationship and/or information estimator)(119)를 포함하고, 노이즈 관련 상기 통계적 관계들 및 정보(119')는 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 중 노이즈 신호들 중 관계들을 추정하는 노이즈 매트릭스(
    Figure 112021127703894-pct00226
    )를 포함함-;
    노이즈 관련 상기 통계적 관계들 및 정보(119') 및 상기 적어도 하나의 추가적인 빈(118' 124) 및 처리중인 상기 빈(123) 관련 상기 정보 및 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이 상기 추정된 통계적 관계들(119')에 기초하여 처리중인 상기 빈(123)의 값의 추정치(116')를 획득하고 처리하도록 구성된 값 추정기(value estimator)(116), 및
    상기 추정치(116')를 시간 도메인 신호(112)로 변환하는 변환기(transformer)(117)
    를 포함하는, 디코더.
  2. 제1항에 있어서,
    노이즈는 양자화 노이즈인,
    디코더.
  3. 제1항에 있어서,
    노이즈는 양자화 노이즈가 아닌 노이즈인,
    디코더.
  4. 제1항에 있어서,
    상기 콘텍스트 정의기(114)는,
    이전에 처리된 빈들(124, 125) 중 상기 적어도 하나의 추가적인 빈(118', 124)을 고르도록 구성된,
    디코더.
  5. 제1항에 있어서,
    상기 콘텍스트 정의기(114)는,
    처리중인 상기 빈(123)의 대역(band)(122)에 기초하여 상기 적어도 하나의 추가적인 빈(118', 124)을 고르도록 구성된,
    디코더.
  6. 제1항에 있어서,
    상기 콘텍스트 정의기(114)는,
    이미 처리된 것들 중 미리 결정된 위치 임계치 내에서 상기 적어도 하나의 추가적인 빈(118' 124)을 고르도록 구성된,
    디코더.
  7. 제1항에 있어서,
    상기 콘텍스트 정의기(114)는,
    상이한 대역들에서 빈들에 대한 상이한 콘텍스트들을 고르도록 구성된,
    디코더.
  8. 제1항에 있어서,
    상기 값 추정기(116)는,
    상기 주파수 도메인 입력 신호의 최적 추정을 제공하기 위해 위너 필터(Wiener filter)로서 동작하도록 구성된,
    디코더.
  9. 제1항에 있어서,
    상기 값 추정기(116)는,
    상기 적어도 하나의 추가적인 빈(118', 124)으로부터 처리중인 상기 빈(123)의 상기 값의 상기 추정치(116')를 획득하도록 구성된,
    디코더.
  10. 제1항에 있어서,
    상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124)의 이전에 수행된 추정(116')과 관련된 측정된 값(131')을 제공하도록 구성된 측정기(131)
    를 더 포함하고,
    상기 값 추정기(116)는,
    상기 측정된 값(131')에 기초하여 처리중인 상기 빈(123)의 상기 값의 추정치(116')를 획득하도록 구성된,
    디코더.
  11. 제10항에 있어서,
    상기 측정된 값(131')은,
    상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124)의 에너지와 관련된 값인,
    디코더.
  12. 제10항에 있어서,
    상기 측정된 값(131')은,
    상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124)과 관련된 이득(
    Figure 112021127703894-pct00227
    )인,
    디코더.
  13. 제12항에 있어서,
    상기 측정기(131)는,
    벡터들의 스칼라 곱(scalar product)으로서 상기 이득(
    Figure 112021127703894-pct00228
    )을 획득하도록 구성되고,
    제1 벡터는,
    상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124)의 값(들)을 포함하고,
    제2 벡터는,
    상기 제1 벡터의 켤레 전치(transpose conjugate)인,
    디코더.
  14. 제1항에 있어서,
    상기 통계적 관계 및 정보 추정기(115)는,
    상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이 기대 통계적 관계들 또는 미리 결정된 추정치들로서의 상기 통계적 관계들 및 정보(115')를 제공하도록 구성된,
    디코더.
  15. 제1항에 있어서,
    상기 통계적 관계 및 정보 추정기(115)는,
    상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이 위치상의 관계들에 기초하여 관계들로서의 상기 통계적 관계들 및 정보(115')를 제공하도록 구성된,
    디코더.
  16. 제1항에 있어서,
    상기 통계적 관계들 및 정보 추정기(115)는,
    상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이, 상관(correlation) 및 자기상관(autocorrelation) 값들, 또는 분산(variance) 및 공분산(covariance) 값들의 관계들을 수립하는 매트릭스의 형태로 상기 통계적 관계들 및 정보(115')를 제공하도록 구성된,
    디코더.
  17. 제1항에 있어서,
    상기 통계적 관계들 및 정보 추정기(115)는,
    상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이 상관 및 자기상관 값들, 또는 분산 및 공분산 값들의 관계들을 수립하는 정규화 된 매트릭스의 형태로 상기 통계적 관계들 및 정보(115')를 제공하도록 구성된,
    디코더.
  18. 제16항에 있어서,
    상기 값 추정기(116)는,
    상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123)의 에너지 및 이득 변화들을 고려하기 위해, 에너지 관련 또는 이득 값(131')에 의한 상기 매트릭스의 요소들을 스케일링 하도록(132) 구성된,
    디코더.
  19. 제1항에 있어서,
    상기 값 추정기는,
    관계
    Figure 112021127703894-pct00229

    에 기초하여 상기 처리중인 빈(123)의 상기 값의 상기 추정치(116')를 획득하도록 구성되고,
    여기서,
    Figure 112021127703894-pct00230
    는 각각 공분산 및 노이즈 매트릭스들(covariance and noise matrices)이고,
    Figure 112021127703894-pct00231
    Figure 112021127703894-pct00232
    가 콘텍스트 길이인,
    Figure 112021127703894-pct00233
    차원을 갖는 노이지 관측 벡터(noisy observation vector)인,
    디코더.
  20. 제1항에 있어서,
    상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 관련 정보 및 사이 상기 통계적 관계들(115')은 정규화 된 공분산 매트릭스
    Figure 112021127703894-pct00234
    를 포함하고,
    상기 노이즈 관련 상기 통계적 관계들 및 정보(119')는 노이즈 매트릭스
    Figure 112021127703894-pct00235
    를 포함하고,
    노이지 관측 벡터(noisy observation vector)
    Figure 112021127703894-pct00236
    Figure 112021127703894-pct00237
    차원으로 정의되고,
    Figure 112021127703894-pct00238
    가 콘텍스트 길이이고, 상기 노이지 관측 벡터는
    Figure 112021127703894-pct00239
    Figure 112021127703894-pct00240
    이고, 처리중인 빈(123)(C0) 관련 노이지 입력
    Figure 112021127703894-pct00241
    를 포함하고,
    Figure 112021127703894-pct00242
    는 상기 적어도 하나의 추가적인 빈(C1-C10)이고,
    상기 값 추정기(116)는,
    상기 관계
    Figure 112021127703894-pct00244

    에 기초하여 처리중인 상기 빈(123)의 상기 값의 상기 추정치(116')를 획득하도록 구성되고,
    Figure 112021127703894-pct00289
    은 이득인
    디코더.
  21. 제1항에 있어서,
    상기 값 측정기(116)는,
    상기 콘텍스트(114')의 상기 추가적인 빈들(124)의 각각의 상기 샘플링 된 값들이 상기 콘텍스트(114')의 상기 추가적인 빈들(124)의 상기 추정된 값에 대응하는 경우,
    처리중인 상기 빈(123)의 상기 값의 상기 추정치(116')를 획득하도록 구성된,
    디코더.
  22. 제1항에 있어서,
    상기 값 추정기(116)는,
    처리중인 상기 빈(123)의 상기 샘플링 된 값이 천정치(ceiling value)와 바닥치(ceiling value) 사이에 있을 것이라고 기대되는 경우, 처리중인 상기 빈(123)의 상기 값의 상기 추정치(116')를 획득하도록 구성된,
    디코더.
  23. 제1항에 있어서,
    상기 값 추정기(116)는,
    우도 함수(likelihood function)의 최대치에 기초하여 처리중인 상기 빈(123)의 상기 값의 상기 추정치(116')를 획득하도록 구성된,
    디코더.
  24. 제1항에 있어서,
    상기 값 추정기(116)는,
    기대 값에 기초하여 처리중인 상기 빈(123) 상기 값의 상기 추정치(116')를 획득하도록 구성된,
    디코더.
  25. 제1항에 있어서,
    상기 값 추정기(116)는,
    다변량 가우시안 랜덤 변수(multivariate Gaussian random variable)의 기대(expectation)에 기초하여 처리중인 상기 빈(123) 상기 값의 상기 추정치(116')를 획득하도록 구성된,
    디코더.
  26. 제1항에 있어서,
    상기 값 추정기(116)는,
    조건 다변량 가우시안 랜덤 변수(conditional multivariate Gaussian random variable)의 기대에 기초하여 처리중인 상기 빈(123) 상기 값의 상기 추정치(116')를 획득하도록 구성된,
    디코더.
  27. 제1항에 있어서,
    상기 샘플링 된 값들은,
    로그 크기 도메인(Log-magnitude domain)에 있는,
    디코더.
  28. 제1항에 있어서,
    상기 샘플링 된 값들은,
    지각적 도메인(perceptual domain)에 있는,
    디코더.
  29. 비트 스트림(bitstream)(111)에 정의되는 주파수 도메인 입력 신호(frequency-domain input signal)를 복호화 하기 위한 디코더(110)에 있어서,
    상기 주파수 도메인 입력 신호는 양자화 노이즈(quantization noise)를 받고,
    상기 디코더(110)는,
    상기 비트 스트림(111)으로부터, 각 빈(bin)이 샘플링 된 값(sampled value)을 가지는 복수의 빈들(123-126)로 각 프레임(121)이 세분화되는 프레임들(121)의 시퀀스로서 상기 주파수 도메인 입력 신호의 버전(version)(113', 120)을 제공하기 위한 비트 스트림 리더(bitstream reader)(113);
    처리 중인 하나의 빈(123)에 대한 콘텍스트(context)(114')를 정의하도록 구성된 콘텍스트 정의기(context definer)(114) - 상기 콘텍스트(114')는 처리 중인 상기 빈(123)과 미리 결정된 위치상의 관계에 있는 적어도 하나의 추가적인 빈(118', 124)을 포함함 - ; 및
    상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 관련 정보 및 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이 통계적 관계들(115')을 제공하도록 구성된 통계적 관계 및 정보 추정기(115) - 처리중인 상기 빈(123) 관련 상기 정보 및 관계들은, 값 추정기(116)에 상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이 분산 관련(variance-related) 및 공분산 관련 관계들(covariance-related relationships)에 기초하여 분산 관련 및/또는 표준 편차 값 관련 값(standard-deviation-value-related value)을 포함함 -
    를 포함하고,
    상기 통계적 관계 및 정보 추정기(115)는,
    노이즈 관련 통계적 관계들 및 정보(119')를 제공하도록 구성된 노이즈 관계 및 정보 추정기(119)를 포함하고,
    노이즈 관련 상기 통계적 관계들 및 정보(119')는,
    상기 신호가 천정치와 바닥치 사이에 있을 기대에 기초하여 상기 신호를 추정하기 위해, 각 빈에 대해 상기 천정치 및 상기 바닥치를 포함하고,
    상기 값 추정기(116)는,
    노이즈 관련 상기 통계적 관계들 및 정보(119'), 및 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 관련 상기 정보 (115', 119') 및 상기 적어도 하나의 추가적인 빈 (118', 124) 및 처리중인 상기 빈(123) 사이 상기 추정된 통계적 관계들(115')에 기초하여 처리중인 상기 빈(123)의 값의 추정치(116')를 처리하고 얻도록 구성되고,
    상기 디코더는,
    처리중인 상기 빈(123)의 값의 상기 추정치(116')를 시간 도메인 신호(112)로 변환하기 위한 변환기(117)를 더 포함하는,
    디코더.
  30. 제29항에 있어서,
    상기 통계적 관계 및 정보 추정기(115)는,
    상기 값 추정기(116)에 상기 입력 신호의 평균 값을 제공하도록 구성된,
    디코더.
  31. 제29항에 있어서,
    상기 통계적 관계 및 정보 추정기(115)는,
    상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이 분산 관련(variance-related) 및/또는 공분산 관련 관계들(covariance-related relationships)에 기초하여 상기 입력 신호의 평균 값을 제공하도록 구성된,
    디코더.
  32. 제29항에 있어서,
    상기 통계적 관계 및 정보 추정기(115)는,
    처리중인 상기 빈(123)의 기대 값에 기초하여 상기 입력 신호의 평균값을 제공하도록 구성된,
    디코더.
  33. 제32항에 있어서,
    상기 통계적 관계 및 정보 추정기(115)는,
    상기 추정된 콘텍스트에 기초하여 상기 신호의 평균 값을 업데이트하도록 구성된,
    디코더.
  34. 제29항에 있어서,
    상기 주파수 도메인 입력 신호의 상기 버전(113', 120)은,
    양자화 레벨(quantization level)인 양자화된 값(quantized value)을 갖고,
    상기 양자화 레벨은,
    양자화 레벨들의 이산적인 개수(discrete number of quantization levels)로부터 선택된 값인,
    디코더.
  35. 제34항에 있어서,
    상기 양자화 레벨들의 상기 이산적인 개수 또는 값들 또는 스케일들은,
    상기 비트 스트림(111)에서 시그널링 되는,
    디코더.
  36. 제1항 또는 제29항에 있어서,
    상기 값 추정기(116)는,
    Figure 112021127703894-pct00245

    의 조건에서 처리중인 상기 빈(123)의 값의 상기 추정치(116')를 획득하도록 구성되고,
    여기서,
    Figure 112021127703894-pct00246
    는 처리중인 상기 빈(123)의 추정(estimate)이고,
    Figure 112021127703894-pct00247
    Figure 112021127703894-pct00248
    는 각각 현재 양자화 빈들의 하한 및 상한이고,
    Figure 112021127703894-pct00249
    Figure 112021127703894-pct00250
    , 주어진
    Figure 112021127703894-pct00251
    의 조건부 확률이고,
    Figure 112021127703894-pct00252
    는 추정된 콘텍스트 벡터인,
    디코더.
  37. 제1항 또는 제29항에 있어서,
    상기 값 추정기(116)는,
    Figure 112021127703894-pct00253

    에 기초하여 처리중인 상기 빈(123)의 값의 상기 추정치(116')를 제공하도록 구성되고,
    X는
    Figure 112021127703894-pct00254
    인 절단 가우시안 랜덤 변수(truncated Gaussian random variable)로 표현되는 처리중인 상기 빈(123)의 특정 값이고, 여기서
    Figure 112021127703894-pct00255
    은 바닥치이고
    Figure 112021127703894-pct00256
    는 천정치이고,
    Figure 112021127703894-pct00257
    이고,
    Figure 112021127703894-pct00258
    이고,
    Figure 112021127703894-pct00259
    Figure 112021127703894-pct00260
    는 평균과 분산인,
    디코더.
  38. 제1항 또는 제29항에 있어서,
    상기 주파수 도메인 입력 신호는 오디오 신호인,
    디코더.
  39. 제1항 또는 제29항에 있어서,
    상기 주파수 도메인 입력 신호는 스피치 신호(speech signal)인,
    디코더.
  40. 제1항 또는 제29항에 있어서,
    상기 콘텍스트 정의기(114), 상기 통계적 관계 및 정보 추정기(115), 상기 노이즈 관계 및 정보 추정기(119), 및 상기 값 추정기(116) 중 적어도 하나는,
    상기 주파수 도메인 입력 신호의 클린 추정(clean estimation)(116')을 획득하기 위해 포스트 필터링(post-filtering)을 수행하도록 구성된,
    디코더.
  41. 제1항 또는 제29항에 있어서,
    상기 콘텍스트 정의기(114)는,
    복수의 추가적인 빈들(124)을 갖는 상기 콘텍스트(114')를 정의하도록 구성된,
    디코더.
  42. 제1항 또는 제29항에 있어서,
    상기 콘텍스트 정의기(114)는,
    주파수/시간 그래프에서 빈들의 단일 연결 이웃(simply connected neighbourhood)으로서 상기 콘텍스트(114')를 정의하도록 구성된,
    디코더.
  43. 제1항 또는 제29항에 있어서,
    상기 비트 스트림 리더(113)는,
    상기 비트 스트림(111)로부터의 프레임 간 정보의 상기 복호화를 피하도록 구성된,
    디코더.
  44. 제1항 또는 제29항에 있어서,
    이전에 처리된 빈들(124, 125)과 관련된 정보를 저장하는 처리된 빈들 스토리지 유닛(processed bins storage unit)(118)
    을 더 포함하고,
    상기 콘텍스트 정의기(114)는,
    상기 추가적인 빈들(124) 중 적어도 하나로서 적어도 하나의 이전에 처리된 빈을 사용하여 상기 콘텍스트(114')를 정의하도록 구성된,
    디코더.
  45. 제1항 또는 제29항에 있어서,
    상기 콘텍스트 정의기(114)는,
    상기 추가적인 빈들 중 적어도 하나로서 적어도 하나의 비 처리된 빈(non-processed bin)(126)을 사용하여 상기 콘텍스트(114')를 정의하도록 구성된,
    디코더.
  46. 제1항에 있어서,
    상기 통계적 관계 및 정보 추정기(115)는,
    상기 콘텍스트(114')의 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이, 분산 및 공분산 값들, 또는 상관 및 자기상관 값들의 관계들을 수립하는 매트릭스(
    Figure 112022500733107-pct00261
    )의 형태로 상기 통계적 관계들 및 정보(115')를 제공하도록 구성되고,
    상기 통계적 관계 및 정보 추정기(115)는,
    상기 주파수 도메인 입력 신호의 하모닉서티(harmonicity)에 기초하여 복수의 미리 결정된 매트릭스들(matrixes)로부터 하나의 매트릭스를 고르도록 구성된,
    디코더.
  47. 제1항에 있어서,
    상기 통계적 관계 및 정보 추정기(115)는,
    상기 주파수 도메인 입력 신호의 하모닉서티에 기초하여 복수의 미리 결정된 매트릭스들로부터 하나의 매트릭스를 고르도록 구성된,
    디코더.
  48. 비트 스트림(bitstream)(111)에 정의되는 주파수 도메인 입력 신호(frequency-domain input signal)를 복호화 하기 위한 방법에 있어서,
    상기 주파수 도메인 입력 신호는 양자화 노이즈(quantization noise)를 받고,
    상기 방법은,
    상기 비트 스트림(111)으로부터, 각 빈(bin)이 샘플링 된 값(sampled value)을 가지는 복수의 빈들(123-126)로 각 프레임(121)이 세분화되는 프레임들(121)의 시퀀스로서 상기 주파수 도메인 입력 신호의 버전(version)(113', 120)을 제공하는 단계; 및
    상기 주파수 도메인 입력 신호의 처리중인 하나의 빈(123)에 대한 콘텍스트(114')를 정의하는 단계
    를 포함하고,
    상기 콘텍스트(114')는,
    처리중인 상기 빈(123)과 함께, 주파수/시간 공간 내, 미리 결정된 위치 관계에서의 적어도 하나의 추가적인 빈(118', 124)을 포함하고,
    노이즈 관련 통계적 관계들 및 정보(119'), 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 관련 정보, 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이 통계적인 관계들(115')에 기초하여, 상기 통계적 관계들(115')은 공분산들 또는 상관들의 형태로 제공되고, 상기 처리중인 상기 빈(123) 관련 정보는 분산들 또는 자기상관들의 형태로 제공되고, 노이즈 관련 상기 통계적 관계들 및 정보(119')는 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 중 노이즈 신호들 중 관계들을 수립하는 노이즈 매트릭스(
    Figure 112021127703894-pct00262
    )를 포함하고,
    상기 방법은,
    처리중인 상기 빈(123)의 값(116')을 추정하는 단계; 및
    추정치(116')를 시간 도메인 신호(112)로 변환하는 단계
    를 더 포함하는, 방법.
  49. 비트 스트림(bitstream)(111)에 정의되는 주파수 도메인 입력 신호(frequency-domain input signal)를 복호화 하기 위한 방법에 있어서,
    상기 주파수 도메인 입력 신호는 양자화 노이즈(quantization noise)를 받고,
    상기 방법은,
    상기 비트 스트림(111)으로부터, 각 빈(bin)이 샘플링 된 값(sampled value)을 가지는 복수의 빈들(123-126)로 각 프레임(121)이 세분화되는 프레임들(121)의 시퀀스로서 상기 주파수 도메인 입력 신호의 버전(version)(113', 120)을 제공하는 단계; 및
    주파수 도메인 입력 신호의 처리중인 하나의 빈(123)에 대한 콘텍스트(114')를 정의하는 단계
    를 포함하고,
    상기 콘텍스트(114')는,
    처리중인 상기 빈(123)과 함께, 주파수/시간 공간에서, 미리 결정된 위치상의 관계의 적어도 하나의 추가적인 빈(118', 124)을 포함하고,
    노이즈 관련 통계적인 관계들 및 정보(119'), 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 관련 정보, 상기 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이 통계적인 관계들(115')에 기초하여, 처리중인 상기 빈(123) 관련 정보 및 상기 통계적인 관계들은, 상기 콘텍스트(114')의 적어도 하나의 추가적인 빈(118', 124) 및 처리중인 상기 빈(123) 사이 분산 관련(variance-related) 및 공분산 관련(covariance-related) 관계들에 기초하여 제공되는 분산 관련 및/또는 표준 편차 값 관련(standard-deviation-value-related) 값을 포함하고, 노이즈 관련 상기 통계적 관계들 및 정보(119')는, 상기 신호가 천정치 및 바닥치 사이에 있을 기대에 기초하여 상기 신호를 추정하기 위해, 각 빈에 대해 상기 천정치 및 상기 바닥치를 포함하고,
    상기 방법은,
    처리중인 상기 빈(123)의 값(116')을 추정하는 단계; 및
    추정치(116')를 시간 도메인 신호(112)로 변환하는 단계
    를 더 포함하는, 방법.
  50. 제48항에 있어서,
    노이즈는 양자화 노이즈인,
    방법.
  51. 제48항에 있어서,
    노이즈는 양자화 노이즈가 아닌 노이즈인,
    방법.
  52. 프로세서에 의해 실행될 때, 상기 프로세서가 제48항 또는 제49항의 방법들을 수행하도록 하는 명령어들을 저장하는 비 일시적 스토리지 장치.
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
  61. 삭제
KR1020207015066A 2017-10-27 2018-08-13 디코더에서의 노이즈 감쇠 KR102383195B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17198991.6 2017-10-27
EP17198991 2017-10-27
PCT/EP2018/071943 WO2019081089A1 (en) 2017-10-27 2018-08-13 MITIGATION OF NOISE AT THE LEVEL OF A DECODER

Publications (2)

Publication Number Publication Date
KR20200078584A KR20200078584A (ko) 2020-07-01
KR102383195B1 true KR102383195B1 (ko) 2022-04-08

Family

ID=60268208

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207015066A KR102383195B1 (ko) 2017-10-27 2018-08-13 디코더에서의 노이즈 감쇠

Country Status (10)

Country Link
US (1) US11114110B2 (ko)
EP (1) EP3701523B1 (ko)
JP (1) JP7123134B2 (ko)
KR (1) KR102383195B1 (ko)
CN (1) CN111656445B (ko)
AR (1) AR113801A1 (ko)
BR (1) BR112020008223A2 (ko)
RU (1) RU2744485C1 (ko)
TW (1) TWI721328B (ko)
WO (1) WO2019081089A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210151831A (ko) * 2019-04-15 2021-12-14 돌비 인터네셔널 에이비 오디오 코덱에서의 대화 향상
AU2020320270A1 (en) * 2019-08-01 2022-03-24 Dolby Laboratories Licensing Corporation Encoding and decoding IVAS bitstreams
IL276249A (en) 2020-07-23 2022-02-01 Camero Tech Ltd System and method for extracting signals with a high signal-to-noise ratio from signals with a low signal-to-noise ratio
RU2754497C1 (ru) * 2020-11-17 2021-09-02 федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет" (ФГАОУ ВО КФУ) Способ передачи речевых файлов по зашумленному каналу и устройство для его реализации
CN114900246B (zh) * 2022-05-25 2023-06-13 中国电子科技集团公司第十研究所 噪声基底估计方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110046947A1 (en) 2008-03-05 2011-02-24 Voiceage Corporation System and Method for Enhancing a Decoded Tonal Sound Signal
US20110081026A1 (en) 2009-10-01 2011-04-07 Qualcomm Incorporated Suppressing noise in an audio signal
US20130101049A1 (en) 2010-07-05 2013-04-25 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoding device, decoding device, program, and recording medium
US20140249807A1 (en) 2013-03-04 2014-09-04 Voiceage Corporation Device and method for reducing quantization noise in a time-domain decoder
US20150179182A1 (en) 2013-12-19 2015-06-25 Dolby Laboratories Licensing Corporation Adaptive Quantization Noise Filtering of Decoded Audio Data
US20160140974A1 (en) 2013-07-22 2016-05-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in multichannel audio coding

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US8271287B1 (en) * 2000-01-14 2012-09-18 Alcatel Lucent Voice command remote control system
US6678647B1 (en) * 2000-06-02 2004-01-13 Agere Systems Inc. Perceptual coding of audio signals using cascaded filterbanks for performing irrelevancy reduction and redundancy reduction with different spectral/temporal resolution
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
EP1521242A1 (en) * 2003-10-01 2005-04-06 Siemens Aktiengesellschaft Speech coding method applying noise reduction by modifying the codebook gain
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20060009985A1 (en) * 2004-06-16 2006-01-12 Samsung Electronics Co., Ltd. Multi-channel audio system
TWI393120B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式
ES2356492T3 (es) * 2005-07-22 2011-04-08 France Telecom Método de conmutación de tasa de transmisión en decodificación de audio escalable en tasa de transmisión y ancho de banda.
WO2007047505A2 (en) * 2005-10-18 2007-04-26 Telecommunication Systems, Inc. Automatic call forwarding to in-vehicle telematics system
KR20080033639A (ko) * 2006-10-12 2008-04-17 삼성전자주식회사 영상 재생 장치 및 영상 재생 장치에서의 음량 조절 방법
DK3401907T3 (da) * 2007-08-27 2020-03-02 Ericsson Telefon Ab L M Fremgangsmåde og indretning til perceptuel spektral afkodning af et audiosignal omfattende udfyldning af spektrale huller
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
WO2011110594A1 (en) 2010-03-10 2011-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context
TW201143375A (en) * 2010-05-18 2011-12-01 Zyxel Communications Corp Portable set-top box
US8826444B1 (en) * 2010-07-09 2014-09-02 Symantec Corporation Systems and methods for using client reputation data to classify web domains
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
KR20140036343A (ko) * 2011-06-08 2014-03-25 삼성전자주식회사 오디오 비디오 네트워크를 위한 향상된 스트림 예약 프로토콜
US8526586B2 (en) * 2011-06-21 2013-09-03 At&T Intellectual Property I, L.P. Methods, systems, and computer program products for determining targeted content to provide in response to a missed communication
US8930610B2 (en) * 2011-09-26 2015-01-06 Key Digital Systems, Inc. System and method for transmitting control signals over HDMI
US9082402B2 (en) * 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
CN103259999B (zh) * 2012-02-20 2016-06-15 联发科技(新加坡)私人有限公司 Hpd信号输出控制方法、hdmi接收端设备及系统
CN102710365A (zh) * 2012-03-14 2012-10-03 东南大学 应用于多小区协作系统的基于信道统计信息的预编码方法
CN110706715B (zh) 2012-03-29 2022-05-24 华为技术有限公司 信号编码和解码的方法和设备
WO2013155619A1 (en) * 2012-04-20 2013-10-24 Sam Pasupalak Conversational agent
US9736604B2 (en) * 2012-05-11 2017-08-15 Qualcomm Incorporated Audio user interaction recognition and context refinement
KR101605862B1 (ko) * 2012-06-29 2016-03-24 삼성전자주식회사 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법
PT3121813T (pt) * 2013-01-29 2020-06-17 Fraunhofer Ges Forschung Preenchimento de ruído sem informação lateral para codificadores do tipo celp
CN103347070B (zh) * 2013-06-28 2017-08-01 小米科技有限责任公司 推送语音数据的方法、终端、服务器及系统
US9575720B2 (en) * 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
US9620133B2 (en) * 2013-12-04 2017-04-11 Vixs Systems Inc. Watermark insertion in frequency domain for audio encoding/decoding/transcoding
CN104980811B (zh) * 2014-04-09 2018-12-18 阿里巴巴集团控股有限公司 遥控器装置、通话装置、通话系统及通话方法
US20150379455A1 (en) * 2014-06-30 2015-12-31 Authoria, Inc. Project planning and implementing
US11330100B2 (en) * 2014-07-09 2022-05-10 Ooma, Inc. Server based intelligent personal assistant services
US9564130B2 (en) * 2014-12-03 2017-02-07 Samsung Electronics Co., Ltd. Wireless controller including indicator
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10365620B1 (en) * 2015-06-30 2019-07-30 Amazon Technologies, Inc. Interoperability of secondary-device hubs
US10847175B2 (en) * 2015-07-24 2020-11-24 Nuance Communications, Inc. System and method for natural language driven search and discovery in large data sources
US9728188B1 (en) * 2016-06-28 2017-08-08 Amazon Technologies, Inc. Methods and devices for ignoring similar audio being received by a system
US10904727B2 (en) * 2016-12-13 2021-01-26 Universal Electronics Inc. Apparatus, system and method for promoting apps to smart devices
US10916243B2 (en) * 2016-12-27 2021-02-09 Amazon Technologies, Inc. Messaging from a shared device
US10930276B2 (en) * 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US10310082B2 (en) * 2017-07-27 2019-06-04 Quantenna Communications, Inc. Acoustic spatial diagnostics for smart home management

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110046947A1 (en) 2008-03-05 2011-02-24 Voiceage Corporation System and Method for Enhancing a Decoded Tonal Sound Signal
US20110081026A1 (en) 2009-10-01 2011-04-07 Qualcomm Incorporated Suppressing noise in an audio signal
US20130101049A1 (en) 2010-07-05 2013-04-25 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoding device, decoding device, program, and recording medium
US20140249807A1 (en) 2013-03-04 2014-09-04 Voiceage Corporation Device and method for reducing quantization noise in a time-domain decoder
US20160140974A1 (en) 2013-07-22 2016-05-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in multichannel audio coding
US20150179182A1 (en) 2013-12-19 2015-06-25 Dolby Laboratories Licensing Corporation Adaptive Quantization Noise Filtering of Decoded Audio Data

Also Published As

Publication number Publication date
EP3701523B1 (en) 2021-10-20
US20200251123A1 (en) 2020-08-06
RU2744485C1 (ru) 2021-03-10
AR113801A1 (es) 2020-06-10
EP3701523A1 (en) 2020-09-02
BR112020008223A2 (pt) 2020-10-27
CN111656445A (zh) 2020-09-11
US11114110B2 (en) 2021-09-07
TWI721328B (zh) 2021-03-11
JP7123134B2 (ja) 2022-08-22
CN111656445B (zh) 2023-10-27
JP2021500627A (ja) 2021-01-07
TW201918041A (zh) 2019-05-01
WO2019081089A1 (en) 2019-05-02
KR20200078584A (ko) 2020-07-01

Similar Documents

Publication Publication Date Title
KR102383195B1 (ko) 디코더에서의 노이즈 감쇠
CA2399706C (en) Background noise reduction in sinusoidal based speech coding systems
EP3039676B1 (en) Adaptive bandwidth extension and apparatus for the same
JP6334808B2 (ja) 時間ドメイン符号化と周波数ドメイン符号化の間の分類の改善
KR102070432B1 (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
RU2712125C2 (ru) Кодер и способ кодирования аудиосигнала с уменьшенным фоновым шумом с использованием кодирования с линейным предсказанием
CN101622662A (zh) 编码装置和编码方法
KR20210151931A (ko) 오디오 디코더, 필터의 특성을 정의하는 값의 세트를 결정하는 장치, 디코딩된 오디오 표현을 제공하는 방법, 필터 및 컴퓨터 프로그램의 특성을 정의하는 값의 세트를 결정하는 방법
EP3544005A1 (en) Audio encoder, audio decoder, audio encoding method and audio decoding method for dithered quantization for frequency-domain speech and audio coding
Das et al. Postfiltering using log-magnitude spectrum for speech and audio coding
Bao et al. Speech enhancement based on a few shapes of speech spectrum
KR102099293B1 (ko) 오디오 인코더 및 오디오 신호를 인코딩하는 방법
Saleem Single channel noise reduction system in low SNR
Das et al. Postfiltering with complex spectral correlations for speech and audio coding
Lapierre et al. Pre-echo noise reduction in frequency-domain audio codecs
Özaydın et al. Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates
CN115171709A (zh) 语音编码、解码方法、装置、计算机设备和存储介质
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
Sulong et al. Speech enhancement based on wiener filter and compressive sensing
Gbadamosi et al. Non-Intrusive Noise Reduction in GSM Voice Signal Using Non-Parametric Modeling Technique.
Das et al. Low-complexity postfilter using mdct-domain for speech and audio coding
Kim et al. Signal modification for robust speech coding
Ramadan Compressive sampling of speech signals
Rashobh Multichannel equalization applied to speech dereverberation
Kim et al. The reduction of the search time by the pre-determination of the grid bit in the g. 723.1 MP-MLQ.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant