KR20170003596A - 음성 정보를 갖는 개선된 프레임 손실 보정 - Google Patents

음성 정보를 갖는 개선된 프레임 손실 보정 Download PDF

Info

Publication number
KR20170003596A
KR20170003596A KR1020167033307A KR20167033307A KR20170003596A KR 20170003596 A KR20170003596 A KR 20170003596A KR 1020167033307 A KR1020167033307 A KR 1020167033307A KR 20167033307 A KR20167033307 A KR 20167033307A KR 20170003596 A KR20170003596 A KR 20170003596A
Authority
KR
South Korea
Prior art keywords
signal
components
decoding
period
frame
Prior art date
Application number
KR1020167033307A
Other languages
English (en)
Inventor
줄리엔 포레
스테판 라고
Original Assignee
오렌지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오렌지 filed Critical 오렌지
Priority to KR1020227011341A priority Critical patent/KR20220045260A/ko
Publication of KR20170003596A publication Critical patent/KR20170003596A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

본 발명은 연속적인 프레임들에 분포된 일련의 샘플들을 포함하는 디지털 오디오 신호의 프로세싱에 관한 것이다. 상기 프로세싱은 특히 디코딩 중에 손실된 적어도 하나의 신호 프레임을 대체하기 위해 상기 신호를 디코딩할 때 구현된다. 상기 방법은 다음 단계들을 포함한다: a) 상기 유효 신호에 따라 결정된, 상기 신호의 적어도 하나의 주기 동안, 디코딩할 때 이용 가능한 유효 신호 세그먼트에서 검색하는 단계; b) 상기 주기에서 상기 신호의 스펙트럼 컴포넌트들을 결정하기 위해, 상기 주기에서 상기 신호를 분석하는 단계; c) 상기 미리 결정된 스펙트럼 컴포넌트들 중에서 선택된 컴포넌트들의 합 및 상기 컴포넌트들의 합에 부가된 노이즈로부터 합성 신호의 구성에 의해 상기 손실된 프레임을 대체하기 위한 적어도 하나의 프레임을 합성하는 단계. 특히, 상기 컴포넌트들의 합에 부가되는 노이즈의 양은 디코딩할 때 획득된 상기 유효 신호의 음성 정보에 따라 가중된다.

Description

음성 정보를 갖는 개선된 프레임 손실 보정 {IMPROVED FRAME LOSS CORRECTION WITH VOICE INFORMATION}
본 발명은 통신에서 인코딩 / 디코딩의 분야에 관한 것으로, 특히, 디코딩에서 프레임 손실 보정(frame loss correction)의 분야에 관한 것이다.
"프레임"은 적어도 하나의 샘플로 구성된 오디오 세그먼트(audio segment)이다 (본 발명은 G.711에 따른 코딩에서의 하나 이상의 샘플들의 손실뿐만 아니라 표준 G.723, G.729 등에 따른 코딩에서의 샘플들의 하나 이상의 패킷들 손실에 적용된다).
오디오 프레임들의 손실들은 인코더 및 디코더를 사용하는 실시간 통신이 통신 네트워크 (무선 주파수 문제, 액세스 네트워크의 혼잡 등)의 조건에 의해 중단될 때 발생한다. 이 경우, 디코더는 누락된 신호(missing signal)를 디코더에서 이용 가능한 정보(예를 들어, 하나 이상의 과거 프레임들(past frames)에 대해 이미 디코딩 된 오디오 신호)를 사용하여 재구성된 신호로 대체하려고 시도하기 위하여 프레임 손실 보정 메커니즘을 사용한다. 이 기술은 네트워크 성능 저하에도 불구하고 서비스 품질을 유지할 수 있다.
프레임 손실 보정 기술은 사용되는 코딩 유형에 종종 크게 의존한다.
CELP 코딩의 경우에, 평균 포락선(average envelope)을 향해 수렴(converge)하도록 스펙트럼 포락선을 수정하거나 랜덤 고정 코드북(random fixed codebook)을 사용하는 것과 같은 조정을 통해, 이전 프레임에서 디코딩된 특정 파라미터들(스펙트럼 포락선(spectral envelope), 피치(pitch), 코드북들로부터의 이득들(gains from codebooks))을 반복(repeat)하는 것이 일반적이다.
변환 코딩(transform coding)의 경우, 프레임 손실을 보정하기 위해 가장 널리 사용되는 기술은 하나의 프레임이 손실되는 경우 수신된 마지막 프레임(last frame)을 반복하는 것과 하나 이상의 프레임이 손실되는 즉시 반복된 프레임(repeated frame)을 0으로 설정하는 것으로 구성됩니다. 이 기술은 많은 코딩 표준들(G.719, G.722.1, G.722.1C)에서 찾을 수 있다. G.711의 부록 I에 설명된 프레임 손실 보정의 예가 이미 디코딩된 신호에서 기본 주기(fundamental period)("피치 주기(pitch period)"라고 함)를 식별하고 이를 반복하는 경우, 이미 디코딩된 신호와 반복된 신호를 겹치고 추가("중첩-가산(overlap-add)")하는 G.711 코딩 표준의 경우를 인용할 수도 있다. 이러한 중첩-가산은 오디오 아티팩트들(audio artifacts)을 "지우고(erases)", 그러나 구현되기 위해서 디코더에 추가 지연(additional delay)을 요구한다(중첩의 지속기간(duration of the overlap)에 해당).
또한, 표준 G.722.1을 코딩하는 경우, 중첩-가산이 50 %이고 정현파 윈도우들(sinusoidal windows)이 있는 변조된 겹침 변환(modulated lapped transform)(또는 MLT)은 최종 손실된 프레임과 단일 손실된 프레임의 경우 프레임의 단순 반복과 관련된 아티팩트들을 지우기에 충분히 느린 반복된 프레임 사이의 전환(transition)을 보장한다. G.711 표준(부록 I)에 기술된 프레임 손실 보정과 달리, 이 실시 예는 재구성된 신호와 중첩-가산을 구현하기 위해 기존의 지연 및 MLT 변환(MLT transform)의 시간적 앨리어싱(temporal aliasing)을 사용하기 때문에 추가 지연을 필요로 하지 않는다.
이 기법은 비용이 저렴하지만, 그 주요 결함은 프레임 손실 이전에 디코딩된 신호와 반복된 신호 사이의 불일치(inconsistency)이다. MLT 변환에 사용된 윈도우가 문헌 FR 1350845에서 그 문서의 도 1a 및 도 1b를 참조하여 기술된 바와 같이 "짧은 지연(short delay)"인 경우와 같이, 두 프레임들 사이의 오버랩의 지속기간이 낮으면 상당한 오디오 아티팩트들을 생성할 수 있는 위상 불연속성(phase discontinuity)을 초래한다. 이 경우, 표준 G.711 (부록 I)에 따른 코더의 경우와 같이 피치 검색(pitch search)을 결합한 솔루션 및 MLT 변환의 윈도우를 사용하는 중첩-가산은 오디오 아티팩트들을 제거하기에 충분하지 않다.
FR 1350845 문서는 변환된 도메인(transformed domain)에서 위상 연속성(phase continuity)을 유지하기 위해 이 두 가지 방법의 장점을 결합한 하이브리드 방식(hybrid method)을 제안한다. 본 발명은 이 프레임워크(framework) 내에서 정의된다. FR 1350845에서 제안된 해결책에 대한 상세한 설명은 도 1을 참조하여 아래에서 설명된다.
특히 유망하지만, 이 솔루션은 인코딩된 신호가 단지 하나의 기본 주기("모노 피치(mono pitch)")를 가질 때, 예를 들어 스피치(speech) 신호의 유성음 세그먼트(voiced segment)에서, 프레임 손실 보정 후의 오디오 품질이 저하될 수 있고, CELP ("Code-Excited Linear Prediction")와 같은 유형의 음성 모델에 의한 프레임 손실 보정만큼 좋지 않기 때문에 개선이 요구된다.
본 발명은 상기 상황을 개선한다.
이를 위해, 본 발명은 연속적인 프레임들에 분포된 일련의 샘플들(a series of samples)을 포함하는 디지털 오디오 신호를 프로세싱(processing)하는 방법을 제안하며, 상기 방법은 디코딩 중에 적어도 하나의 손실된 신호 프레임을 대체하기 위해 상기 신호를 디코딩할 때 구현된다.
이 방법은 다음 단계들을 포함한다:
a) 유효 신호(valid signal)에 기초하여 결정된 상기 신호의 적어도 하나의 주기(period) 동안, 디코딩할 때 이용 가능한 상기 유효 신호 세그먼트(segment)에서 검색하는 단계,
b) 상기 주기에서 상기 신호의 스펙트럼 컴포넌트들(spectral components)을 결정하기 위해, 상기 주기에서 상기 신호를 분석하는 단계,
c) 상기 결정된 스펙트럼 컴포넌트들 중에서 선택된 컴포넌트들의 합(addition), 및 상기 컴포넌트들의 합에 부가된 노이즈(noise)로부터 합성 신호(synthesis signal)를 구성하는 것에 의하여, 상기 손실된 프레임에 대한 적어도 하나의 대체물(replacement)을 합성하는 단계.
특히, 상기 컴포넌트들의 합에 부가된 노이즈의 양은 디코딩할 때 얻어지는 유효 신호의 음성 정보(voice information)에 기초하여 가중(weighted)된다.
바람직하게는, 인코더의 적어도 하나의 비트레이트(bitrate)에서 전송된 디코딩 시에 사용된 음성 정보는, 이 신호가 유성음이면(if this signal is voiced) 통과된 신호의 정현파 컴포넌트들(sinusoidal components)에 더 많은 가중치를 부여하거나, 그렇지 않은 경우에는 노이즈에 더 많은 가중치를 부여하여, 훨씬 만족스러운 가청 결과를 얻을 수 있다. 그러나, 무성음 신호(unvoiced signal)의 경우 또는 음악 신호(music signal)의 경우, 손실된 프레임을 대체하는 신호를 합성하기 위해 많은 컴포넌트들을 유지할 필요가 없다. 이 경우, 신호의 합성을 위해 주입된 노이즈에 더 많은 가중치가 부여될 수 있다. 이는 합성의 품질을 떨어 뜨리지 않으면서, 특히 무성음 신호의 경우에 프로세싱의 복잡성을 유리하게 감소시킨다.
도 1은 문헌 FR 1350845의 의미에서 프레임 손실을 보정하는 방법의 주요 단계들을 요약 한것이다.
도 2는 본 발명에 따른 방법의 주요 단계를 개략적으로 도시한다.
도 3은 본 발명의 의미의 일 실시 예로, 인코딩에서 구현되는 단계들의 예를 도시한다.
도 4는 본 발명의 의미의 일 실시 예로, 디코딩에서 구현되는 단계들의 예를 도시한다.
도 5는 유효 신호 세그먼트(Nc)에서 피치 검색을 위해, 디코딩에서 구현되는 단계들의 예를 도시한다.
도 6은 본 발명의 의미에서의 인코더 및 디코더 기기의 예를 개략적으로 도시한다.
본 발명은 연속적인 프레임들에 분포된 일련의 샘플들(a series of samples)을 포함하는 디지털 오디오 신호를 프로세싱(processing)하는 방법을 제안하며, 상기 방법은 디코딩 중에 적어도 하나의 손실된 신호 프레임을 대체하기 위해 상기 신호를 디코딩할 때 구현된다.
이 방법은 다음 단계들을 포함한다:
a) 유효 신호(valid signal)에 기초하여 결정된 상기 신호의 적어도 하나의 주기(period) 동안, 디코딩할 때 이용 가능한 상기 유효 신호 세그먼트(segment)에서 검색하는 단계,
b) 상기 주기에서 상기 신호의 스펙트럼 컴포넌트들(spectral components)을 결정하기 위해, 상기 주기에서 상기 신호를 분석하는 단계,
c) 상기 결정된 스펙트럼 컴포넌트들 중에서 선택된 컴포넌트들의 합(addition), 및 상기 컴포넌트들의 합에 부가된 노이즈(noise)로부터 합성 신호(synthesis signal)를 구성하는 것에 의하여, 상기 손실된 프레임에 대한 적어도 하나의 대체물(replacement)을 합성하는 단계.
특히, 상기 컴포넌트들의 합에 부가된 노이즈의 양은 디코딩할 때 얻어지는 유효 신호의 음성 정보(voice information)에 기초하여 가중(weighted)된다.
바람직하게는, 인코더의 적어도 하나의 비트레이트(bitrate)에서 전송된 디코딩 시에 사용된 음성 정보는, 이 신호가 유성음이면(if this signal is voiced) 통과된 신호의 정현파 컴포넌트들(sinusoidal components)에 더 많은 가중치를 부여하거나, 그렇지 않은 경우에는 노이즈에 더 많은 가중치를 부여하여, 훨씬 만족스러운 가청 결과를 얻을 수 있다. 그러나, 무성음 신호(unvoiced signal)의 경우 또는 음악 신호(music signal)의 경우, 손실된 프레임을 대체하는 신호를 합성하기 위해 많은 컴포넌트들을 유지할 필요가 없다. 이 경우, 신호의 합성을 위해 주입된 노이즈에 더 많은 가중치가 부여될 수 있다. 이는 합성의 품질을 떨어 뜨리지 않으면서, 특히 무성음 신호의 경우에 프로세싱의 복잡성을 유리하게 감소시킨다.
노이즈 신호가 상기 컴포넌트들에 부가되는 일 실시 예에서, 이 노이즈 신호는 유효 신호에서의 보이싱(voicing)의 경우 더 작은 이득(gain)에 의해 가중된다. 예를 들어, 노이즈 신호는 수신된 신호와 선택된 컴포넌트들의 합 사이의 잔차(residual)에 의해 이전에 수신된 프레임으로부터 획득될 수 있다.
추가적인 또는 대안적인 실시 예에서, 합을 위해 선택된 컴포넌트들의 수는 유효 신호에서의 보이싱의 경우에 더 크다. 따라서, 상기 신호가 유성음이면, 상기 표시된 바와 같이, 통과 된 신호의 스펙트럼이 더 고려된다.
바람직하게는, 노이즈 신호에 적용될 이득을 최소화하는 동안, 상기 신호가 유성음이면 더 많은 컴포넌트들이 선택되는 보완적인 형태의 실시 예가 선택 될 수 있다. 따라서, 노이즈 신호에 1보다 작은 이득을 적용하여 감쇠된(attenuated) 에너지의 총 량은 더 많은 컴포넌트들을 선택함으로써 부분적으로 상쇄(offset)된다. 반대로, 노이즈 신호에 적용될 이득은 감소되지 않고, 신호가 유성음이 아니거나 약하게 유성음인 경우 더 적은 컴포넌트가 선택된다.
또한, 디코딩의 품질 / 복잡성 사이의 절충(compromise)을 더 개선하는 것이 가능하고, 단계 a)에서, 유효 신호에서의 보이싱의 경우, 상기 주기는 더 긴 길이의 유효 신호 세그먼트에서 검색될 수 있다. 이하의 상세한 설명에 제시된 일 실시 예에서, 상기 유효 신호에서, 상기 신호가 유성음일 경우 적어도 하나의 피치 주기에 전형적으로 대응하는 반복 주기를 상관시킴으로써 검색이 이루어지고, 이 경우, 특히 남성 음성들에 대해서는, 피치 검색은 예를 들어 30 밀리 초(milliseconds) 이상에 걸쳐 수행될 수 있다.
선택적 일 실시 예에서, 상기 음성 정보는 디코딩에서 수신되고 연속적인 프레임들에 분포 된 일련의 샘플들을 포함하는 상기 신호에 대응하는 인코딩 된 스트림(stream) ("비트스트림(bitstream)")으로 제공된다. 디코딩에서 프레임 손실의 경우, 손실된 프레임에 선행하는 유효 신호 프레임에 포함된 음성 정보가 사용된다.
따라서, 음성 정보는 비트스트림을 생성하고 음성 정보를 결정하는 인코더로부터 유래하고, 특정 일 실시 예에서는 음성 정보가 상기 비트스트림의 단일 비트로 인코딩된다. 그러나, 예시적인 실시 예로서, 인코더에서 이러한 음성 데이터의 생성은 인코더와 디코더 사이의 통신 네트워크 상에 충분한 대역폭이 존재하는지 여부에 의존할 수 있다. 예를 들어, 대역폭이 임계값보다 낮으면, 대역폭을 절약하기 위해 인코더에 의해 음성 데이터가 전송되지 않는다. 이 경우, 순전히 일 예로서, 디코더에서 획득된 최종 음성 정보는 프레임 합성에 사용될 수 있거나, 대안으로는 프레임의 합성을 위해 무성음 케이스를 적용하도록 결정될 수 있다.
구현에 있어서, 상기 음성 정보는 상기 비트스트림 내의 하나의 비트로 인코딩되고, 노이즈 신호에 적용되는 이득의 값은 또한 이진(binary)일 수 있고, 상기 신호가 유성음이면, 상기 이득 값은 0.25로 설정되고 그렇지 않은 경우에는 1로 설정된다.
대안적으로, 상기 음성 정보는 (예를 들어, 신호의 스펙트럼 컴포넌트들의 진폭을 백그라운드 노이즈(background noise)와 비교함으로써 획득된) 스펙트럼의 고조파(harmonicity) 또는 평탄도(flatness)에 대한 값을 결정하는 인코더로부터 유래하고, 이후 인코더는 비트스트림에서 이 값을 이진 형태로 전달한다 (두 개 이상의 비트 사용(using more than one bit)).
그러한 대안에서, 상기 이득 값은 상기 평탄도 값의 함수로서 결정될 수 있다 (예를 들어, 이 값의 함수로서 연속적으로 증가함).
일반적으로, 상기 평탄도 값은 다음을 결정하기 위해 임계값과 비교 될 수 있다:
- 평탄도 값이 임계값보다 낮으면 상기 신호가 유성음이고,
- 그렇지 않으면 상기 신호가 무성음,
(이진 방식(binary manner)으로 보이싱을 특징화 함).
따라서, 단일 비트 구현(single bit implementation)뿐 아니라 그 변형에서, 컴포넌트들을 선택 및/또는 피치 검색이 발생하는 신호 세그먼트의 지속기간(duration)을 선택하기 위한 기준은 이진(binary)일 수 있다.
예를 들어, 컴포넌트들의 선택에 대하여:
- 신호가 유성음이면, 인접한 제1 스펙트럼 컴포넌트들뿐만 아니라 인접한 제1 스펙트럼 컴포넌트들의 진폭들보다 큰 진폭들을 갖는 스펙트럼 컴포넌트들이 선택되고,
- 그렇지 않으면, 인접한 제1 스펙트럼 컴포넌트들의 진폭들보다 큰 진폭들을 갖는 스펙트럼 컴포넌트들만이 선택된다.
피치 검색 세그먼트의 지속기간을 선택하기 위하여, 예를 들어:
- 상기 신호가 유성음이면, 상기 주기는 30 밀리 초 이상(more than)의 지속기간(예를 들어, 33 밀리 초)의 유효 신호 세그먼트에서 검색되고,
- 그렇지 않은 경우, 상기 주기는 30 밀리 초 미만(less than)의 지속기간(예를 들어, 28 밀리 초)의 유효 신호 세그먼트에서 검색된다.
따라서, 본 발명은 문헌 FR 1350845에 제시된 프로세싱(피치 검색, 컴포넌트들의 선택, 노이즈 주입(noise injection))의 다양한 단계들을 수정함으로써 문헌 FR 1350845의 의미로 선행 기술을 개선하는 것을 목표로 하지만, 특히 원래의 신호(original signal)의 특성들에 여전히 기초하고 있다.
상기 원래의 신호의 이러한 특성들은 스피치(speech) 및/또는 음악 분류(music classification)에 따라, 디코더(또는 "비트스트림")에 대한 데이터 스트림의 특수 정보로 인코딩될 수 있으며, 특히 적절할 경우 스피치 클래스(speech class)에서 인코딩될 수 있다.
디코딩 시 상기 비트스트림의 이 정보는 품질과 복잡성 간의 절충을, 총괄하여(collectively), 최적화할 수 있다:
- 손실된 프레임을 대체하는 합성 신호를 구성하기 위해 선택된 스펙트럼 컴포넌트들의 합으로 주입될 노이즈의 이득을 변경,
- 합성을 위해 선택된 컴포넌트들의 수를 변경,
- 피치 검색 세그먼트의 지속기간을 변경.
이러한 일 실시 예는 프레임 손실의 경우에, 음성 정보의 결정을 위한 인코더, 보다 특별하게는 디코더에서, 구현될 수 있다. 그것은 3GPP 그룹(SA4)에 의해 지정된 강화된 음성 서비스(또는 "EVS")에 대한 인코딩/디코딩을 수행하는 소프트웨어로서 구현될 수 있다.
이 범위에서(in this capacity), 본 발명은 또한 프로그램이 프로세서에 의해 실행될 때 상기 방법을 구현하기 위한 명령들을 포함하는 컴퓨터 프로그램을 제공한다. 이러한 프로그램의 예시적인 흐름도는 디코딩에 대한 도 4 및 인코딩에 대한 도 3을 참조하여, 이하의 상세한 설명에서 제공된다.
본 발명은 또한 연속된 프레임들에 분포된 일련의 샘플들을 포함하는 디지털 오디오 신호를 디코딩하는 기기에 관한 것이다. 상기 기기는 다음에 의하여 적어도 하나의 손실된 신호 프레임을 대체하기 위한 수단(예를 들어, 프로세서 및 메모리, 또는 ASIC 컴포넌트 또는 다른 회로)을 포함한다:
a) 상기 유효 신호에 기초하여 결정된 상기 신호의 적어도 하나의 주기 동안, 디코딩할 때 이용 가능한 유효 신호 세그먼트에서 검색,
b) 상기 주기에서 상기 신호의 스펙트럼 컴포넌트들을 결정하기 위해, 상기 주기에서 상기 신호를 분석,
c) 다음으로부터 손실된 프레임을 대체하기 위해 적어도 하나의 프레임을 합성:
- 상기 결정된 스펙트럼 컴포넌트들 중에서 선택된 컴포넌트들의 합, 및
- 상기 컴포넌트들의 합에 부가된 노이즈,
상기 컴포넌트들의 합에 부가된 상기 노이즈의 양은 디코딩 시에 획득된 상기 유효 신호의 음성 정보에 기초하여 가중된다.
유사하게, 본 발명은 또한 인코딩 기기에 의해 전달된 비트스트림에 음성 정보를 제공하고, 유성음이 예상되는 스피치 신호를 음악 신호로부터 구별하는 수단(예를 들어, 메모리 및 프로세서, 또는 ASIC 컴포넌트 또는 다른 회로)을 포함하는 디지털 오디오 신호를 인코딩하는 기기에 관한 것으로, 스피치 신호의 경우:
- 음성 신호의 경우 상기 신호가 일반적으로 유성음으로 간주되도록, 상기 신호가 유성음인지 또는 일반 신호인지 식별하거나,
- 상기 신호가 일반적으로 무성음으로 간주되도록, 상기 신호가 비활성(inactive), 일시적(transient) 또는 무성음(unvoiced)인지를 식별.
본 발명의 다른 특징들 및 이점들은 다음의 상세한 설명 및 첨부된 도면을 검토함으로써 명백해질 수 있다:
도 1은 문헌 FR 1350845의 의미에서 프레임 손실을 보정하는 방법의 주요 단계들을 요약 한 것이다.
도 2는 본 발명에 따른 방법의 주요 단계를 개략적으로 도시한다.
도 3은 본 발명의 의미의 일 실시 예로, 인코딩에서 구현되는 단계들의 예를 도시한다.
도 4는 본 발명의 의미의 일 실시 예로, 디코딩에서 구현되는 단계들의 예를 도시한다.
도 5는 유효 신호 세그먼트(Nc)에서 피치 검색을 위해, 디코딩에서 구현되는 단계들의 예를 도시한다.
도 6은 본 발명의 의미에서의 인코더 및 디코더 기기의 예를 개략적으로 도시한다.
이하, 도 1을 참조하여, 문헌 FR 1350845에 기술된 주요 단계들을 설명한다. 아래의 b(n)으로 나타낸 일련의 N 오디오 샘플들은 디코더의 버퍼 메모리(buffer memory)에 저장된다. 이들 샘플들은 이미 디코딩된 샘플들에 대응하고, 따라서 디코더에서 프레임 손실을 보정하기 위해 액세스 가능하다. 합성될 제1 샘플이 샘플 N인 경우, 오디오 버퍼는 이전 샘플들 0 내지 N-1에 대응한다. 변환 코딩(transform coding)의 경우, 오디오 버퍼는 이전 프레임의 샘플들에 대응하며, 이 유형의 인코딩/디코딩은 상기 신호를 재구성하는데 지연을 제공하지 않으므로 변경될 수 없다; 따라서 프레임 손실을 커버하기에 충분한 지속기간의 크로스페이드(crossfade)의 구현은 제공되지 않는다.
다음은, 오디오 버퍼(b(n))가 분리 주파수(separation frequency)가 Fc(예를 들어, Fc = 4kHz)로 표시되는 저대역 (low band, LB)과 고대역 (high band, HB)의 두 개의 대역으로 분할되는 주파수 필터링의 단계 S2이다. 이 필터링은 바람직하게 지연없는 필터링(delayless filtering)이다. 오디오 버퍼의 크기는 이제 fs 대 Fc의 데시메이션(decimation) 후에 N' = N*Fc/f로 감소된다. 본 발명의 변형들에서, 이 필터링 단계는 선택적일 수 있으며, 다음 단계는 전체 대역(full band)에서 수행된다.
다음 단계 S3은 주파수 Fc에서 재 샘플링된(re-sampled) 버퍼 b(n) 내의 기본 주기(또는 "피치")에 대응하는 세그먼트 p(n) 및 루프 포인트(loop point)에 대한 저대역을 검색하는 단계로 구성된다. 이 실시 예는 재구성될 손실 프레임(들)에서의 피치 연속성(pitch continuity)을 고려하게 한다.
단계 S4는 세그먼트 p(n)을 정현파 컴포넌트들의 합으로 분해(breaking apart)하는 것으로 구성된다. 예를 들어, 상기 신호의 길이에 대응하는 지속기간에 걸친 신호 p(n)의 이산 푸리에 변환(discrete Fourier transform, DFT)이 계산될 수 있다. 따라서 상기 신호의 정현파 컴포넌트들(또는 "피크들(peaks)") 각각의 주파수, 위상 및 진폭이 획득된다. DFT 이외의 변환들이 가능하다. 예를 들어, DCT, MDCT 또는 MCLT와 같은 변환들이 적용될 수 있다.
단계 S5는 가장 중요한 컴포넌트들(most significant components)만을 유지하기 위해 K 정현파 컴포넌트들을 선택하는 단계이다. 하나의 특정 실시 예에서, 컴포넌트들의 선택은 먼저 여기서,
Figure pct00001
일 때 A(n)>A(n-1) 및 A(n)>A(n+1)인 진폭들 A(n)을 선택하는 것에 대응하고, 상기 진폭들이 스펙트럼 피크들(spectral peaks)에 해당하는지 보장한다.
이를 수행하기 위해, 세그먼트 p(n)(피치)의 샘플들은, 여기서,
Figure pct00002
이고 ceil (x)는 x보다 크거나 같은 정수가 되는, P' 샘플들로 구성된 세크먼트 p'(n)을 획득하기 위해 보간(interpolated)된다. 따라서 푸리에 변환 FFT에 의한 분석은 (보간법(interpolation)으로 인하여) 실제 피치 주기를 수정하지 않고, 2의 거듭 제곱인 길이에 대해 보다 효율적으로 수행된다. p'(n)의 FFT 변환은 다음과 같이 계산된다:
Figure pct00003
; 및, FFT 변환으로부터, 정현파 컴포넌트들의 위상
Figure pct00004
및 진폭
Figure pct00005
가 직접 획득되고, 0과 1 사이의 정규화된 주파수들(normalized frequencies)은 다음에 의해 주어진다:
  
Figure pct00006
다음으로, 이러한 제1 선택의 진폭들 중에서, 컴포넌트들은 진폭의 내림차순으로 선택되므로, 선택된 피크들의 누적 진폭(cumulative amplitude)은 일반적으로 현재 프레임에서 스펙트럼의 절반 이상에서 누적 진폭의 x% 이상 (예를 들어, x = 70%)이다.
또한, 합성의 복잡성을 줄이기 위해 구성 요소의 수를 제한(예를 들어, 20)하는 것도 가능하다.
정현파 합성 단계 S6는 적어도 손실된 프레임 (T)의 크기와 동일한 길이의 세그먼트 s(n)를 생성하는 단계로 구성된다. 합성 신호 s(n)은 선택된 정현파 컴포넌트들의 합으로서 계산된다:
 
Figure pct00007
여기서, k는 단계 S5에서 선택된 K 피크들의 인덱스이다.
단계 S7은 저대역에서의 특정 주파수 피크들의 누락(omission)으로 인한 에너지 손실을 보상하기 위해 "노이즈 주입(noise injection)"(선택되지 않은 라인에 대응하는 스펙트럼 영역들(spectral regions)을 채움)으로 구성된다. 일 특정 실시 예는 피치 p(n)에 대응하는 세그먼트와 합성 신호 s(n) 사이의 잔차(residual) r(n)을 산출하는 것으로 구성되며, 여기서
Figure pct00008
이고, 따라서:
 
Figure pct00009
이 크기 P의 잔차(residual of size P)는 변형되고, 예를 들어 특허 FR 1353551에 설명 된 바와 같이, 다양한 크기들의 윈도우들 사이의 중첩들(overlaps)을 가지고 윈도우드(windowed)되고 반복된다.
 
Figure pct00010
이후 신호 s(n)은 신호 r '(n)과 결합된다.
 
Figure pct00011
고대역에 적용되는 단계 S8은 단순히 통과된 신호를 반복하는 것으로 구성 될 수 있다.
단계 S9에서는, 단계 S8에서 필터링된 고대역과 혼합된 후 (단계 S11에서 단순히 반복됨), 저대역을 원래의 주파수(original frequency) fc에서 재 샘플링(resampling)하는 것에 의하여 상기 신호가 합성된다.
단계 S10은 프레임 손실 이전의 신호와 합성 신호 사이의 연속성을 보장하기 위한 중첩-가산이다.
본 발명의 의미의 일 실시 예에서, 도 1의 방법에 추가된 요소들을 설명한다.
도 2에 제시된 일반적인 접근법에 따르면, 코더의 적어도 하나의 비트레이트에서 전송된, 프레임 손실 이전의 신호의 음성 정보는 하나 이상의 손실된 프레임들을 대체하는 합성 신호에 부가될 노이즈의 비율을 정량적으로 결정하기 위해 디코딩(단계 DI-1)에서 사용된다. 따라서, 디코더는, 보이싱(voicing)에 기초하여, (단계 DI-3에서 잔차(residual)로부터 기인하는 노이즈 신호 r'(k)보다 낮은 이득 G(res)를 할당함으로써, 및/또는 단계 DI-4에서 합성 신호를 구성하는데 사용하기 위해 진폭들 A(k)의 더 많은 컴포넌트들을 선택함으로써) 합성 신호에 믹스된(mixed) 노이즈의 일반적인 양을 감소시키기 위해 음성 정보를 사용한다.
또한, 디코더는, 음성 정보에 기초하여, 프로세싱의 품질/복잡성 간의 절충을 최적화하기 위해, 특히 피치 검색에 대하여, 파라미터들을 조정할 수 있다. 예를 들어, 피치 검색에 대하여, 상기 신호가 유성음이면, 도 5를 참조하여 이하에서 알 수 있는 바와 같이, 피치 검색 윈도우(Nc)가 더 클 수 있다(단계 DI-5에서).
보이싱(voicing)을 결정하기 위해, 정보는 인코더에 의해, 다음의 두 가지 방식으로, 인코더의 적어도 하나의 비트레이트에서 제공될 수 있다:
- 인코더에서 식별된 보이싱의 정도에 따라 값 1 또는 0의 비트의 형태로(단계 DI-1의 인코더로부터 수신되고 후속 프로세싱을 위한 프레임 손실의 경우에 단계 DI-2에서 판독 되는), 또는
- 백그라운드 노이즈와 비교하여, 인코딩 시 상기 신호를 구성하는 피크들의 평균 진폭 값으로서.
이 스펙트럼 "평탄도" 데이터 P1은 도 2의 선택적 단계 DI-10에서 디코더에서 다중 비트들(multiple bits)로 수신될 수 있고, 보이싱이 임계값보다 높거나 낮은지 여부를 단계 DI-1 및 DI-2에서 결정하고, 특히 피치 검색 세그먼트의 길이 선택 및 피크들의 선택에 대하여, 적절한 프로세싱을 유도하는 것과 동일한 단계 DI-11에서 임계값과 비교될 수 있다.
이 정보(단일 비트의 형식이든 다중 비트 값으로서이든)는 여기에 설명된 예에서, (코덱(codec)의 적어도 하나의 비트레이트에서) 인코더로부터 수신된다.
실제로, 도 3을 참조하면, 인코더에서, 프레임들 C1의 형태로 제공된 입력 신호가 단계 C2에서 분석된다. 분석 단계는 현재 프레임의 오디오 신호가 예를 들어 유성음 스피치 신호들의 경우와 같이, 디코더에서 프레임 손실의 경우에 특별한 프로세싱을 필요로 하는 특성을 갖는지 여부를 결정하는 단계로 구성된다.
하나의 특정 실시 예에서, 인코더에서 이미 결정된 분류(classification)(스피치/음악 또는 기타)는 프로세싱의 전체 복잡성(overall complexity)을 증가시키는 것을 피하기 위해 유리하게 사용된다. 실제로, 스피치 또는 음악 사이에서 코딩 모드들을 스위칭할 수 있는 인코더들의 경우, 인코더에서의 분류는 이미 채택된 인코딩 기술을 상기 신호 (스피치 또는 음악)의 성질(nature)에 적응시키는 것을 허용한다. 마찬가지로, 스피치의 경우, G.718 표준의 인코더와 같은 예측 인코더들(predictive encoders)은 또한 인코더 파라미터들을 신호의 유형 (유성음/무성음, 일시적(transient), 일반적(generic), 비활성(inactive)인 사운드들)에 적용하기 위해 분류를 사용한다.
하나의 특정 제1 실시 예에서, 단지 하나의 비트가 "프레임 손실 특성화(frame loss characterization)"를 위해 예약된다. 단계 C3에서 상기 신호가 스피치 신호 (유성음 또는 일반)인지 여부를 나타내기 위해 인코딩된 스트림 (또는 "비트스트림")에 추가됩니다. 이 비트는, 예를 들어, 다음 표에 따라 1 또는 0으로 설정된다.
· 스피치/음악 분류기(classifier)의 결정
· 또한 스피치 코딩 모드 분류기의 결정에 대해서.
Figure pct00012
여기에서, "generic"이라는 용어는 통상의 스피치 신호(common speech signal) (파열음(plosive)의 발음과 관련된 일시적인 것이 아니고, 비활성 상태가 아니고, 자음(consonant)이 없는 모음(vowel)의 발음과 같이 필연적으로 순전히 유성음은 아닌)를 의미한다.
제 2 대안적인 실시 예에서, 비트스트림 내의 디코더에 전송된 정보는 이진이 아니지만, 스펙트럼에서의 피크들와 밸리들(valleys) 사이의 비율의 정량화(quantification)에 대응한다. 이 비율은 스펙트럼의 "평탄도(flatness)"의 측정값으로 표현될 수 있으며, Pl로 표시된다:
Figure pct00013
이 표현식에서, x(k)는 주파수 영역(FFT 이후)에서 현재 프레임의 분석으로부터 유래된 크기 N의 진폭의 스펙트럼이다.
대안으로, 정현파 분석이 제공되고, 인코더에서 상기 신호를 정현파 컴포넌트들과 노이즈로 분해(breaking down)하고, 평탄도 측정값은 정현파 컴포넌트들과 프레임의 총 에너지의 비율에 의해 획득된다.
단계 C3 (음성 정보의 하나의 비트 또는 평탄도 측정값의 다중 비트를 포함하는) 이후에, 인코더의 오디오 버퍼는 디코더로의 임의의 후속 전송 전에 단계 C4에서 전통적으로(conventionally) 인코딩된다.
이제 도 4를 참조하여, 본 발명의 일 실시 예로서 디코더에서 구현되는 단계들을 설명할 것이다.
단계 D1에서 프레임 손실이 없는 경우 (도 4의 테스트 D1을 종료하는 NOK 화살표), 단계 D2에서, 디코더는 "프레임 손실 특성화"정보를 포함하는, 비트스트림에 포함된 정보를 판독한다(코덱의 적어도 하나의 비트레이트에서). 이 정보는 메모리에 저장되므로 다음 프레임이 없는 경우 다시 사용될 수 있다. 그 후, 디코더는 합성된 출력 프레임 FR SYNTH를 획득하기 위해 D3 등을 디코딩하는 종래의 단계들을 계속한다.
프레임 손실(들)이 발생한 경우 (테스트 D1을 종료하는 OK 화살표), 도 1의 단계 S2, S3, S4, S5, S6 및 S11에 각각 대응하는 단계 D4, D5, D6, D7, D8 및 D12가 적용된다. 그러나, 단계 S3 및 S5, 각각의 단계 D5 (피치 결정을 위한 루프 포인트 검색) 및 D7 (정현파 컴포넌트들 선택)에 대해 약간의 변경들이 이루어진다. 또한, 도 1의 단계 S7에서의 노이즈 주입은 본 발명의 의미에서 디코더의 도 4의 두 단계 D9 및 D10에 따른 이득 결정으로 수행된다.
"프레임 손실 특성화" 정보가 알려지는 경우 (이전 프레임이 수신되었을 때), 본 발명은 다음과 같이, 단계 D5, D7 및 D9-D10의 프로세싱을 수정하는 것으로 구성된다.
제 1 실시 예에서, "프레임 손실 특성화" 정보는 다음과 같은 값의 이진 값이다:
- 음악 또는 일시적인 유형의 무성음 신호에 대해서는 0과 동일하고,
- 그렇지 않으면 1과 동일 (위의 표).
단계 D5는 주파수 Fc에서 재 샘플링된 오디오 버퍼 내의 피치에 대응하는 루프 포인트 및 세그먼트 p(n)을 검색하는 단계로 구성된다. 문헌 FR 1350845에 설명된, 이 기술은 도 5에서 다음과 같이 설명된다:
- 디코더 내의 오디오 버퍼는 샘플 사이즈 N '이고,
- Ns 샘플들의 타겟 버퍼(target buffer) BC의 크기가 결정되고,
- Nc 샘플들을 통해 상관관계 검색(correlation search)이 수행되고,
- 상관관계 곡선(correlation curve) "Correl"은 mc에서 최대 값을 가지고,
- 루프 포인트는 루프 pt로 지정되고 상관관계 최대 값의 Ns 샘플들에 위치하며,
- 피치는 N'-1에서 p (n) 남은 샘플들에 대해 결정된다.
특히, (예를 들어 6ms의 지속기간의) N'-Ns와 N'-1 사이의, 크기 Ns의 타겟 버퍼 세그먼트와, 샘플 0과 Nc (여기서 Nc > N'-Ns) 사이에 시작하는 크기 Ns의 슬라이딩 세그먼트(sliding segment) 사이의 정규화된 상관관계 corr(n)을 다음과 같이 계산한다:
 
Figure pct00014
음악 신호의 경우, 상기 신호의 성질(nature)로 인해, 값 Nc는 매우 클 필요가 없다 (예를 들어 Nc = 28ms). 이 제한은 피치 검색 동안 계산상의 복잡성을 줄여준다.
그러나, 이전에 수신된 최종 유효 프레임으로부터의 음성 정보는 재구성될 신호가 유성음 스피치 신호 (모노 피치)인지의 여부를 결정하게 한다. 따라서, 이러한 경우 및 이와 같은 정보에서, 피치 검색을 최적화하기 위해 (잠재적으로 더 높은 상관관계 값을 발견하기 위해) 세그먼트 Nc의 크기 (예를 들어 Nc = 33 ms)를 증가시키는 것이 가능하다.
도 4의 단계 D7에서, 정현파 컴포넌트들은 가장 중요한 컴포넌트들만이 보유되도록 선택된다. 또한 문헌 FR 1350845에 제시된, 특정 일 실시 예에서, 컴포넌트들의 제 1 선택은 A(n)>A(n-1) 및 A(n)>A(n+1)이고
Figure pct00015
일 때의 진폭들A(n)을 선택하는 것과 등가이다.
본 발명의 경우에, 재구성될 상기 신호가 스피치 신호 (유성음 또는 일반)인지 여부가 유리하게 알려지며, 따라서 현저한 피크들 및 낮은 레벨의 노이즈를 갖는다. 이러한 조건들 하에서, 상기한 바와 같이 A(n)>A(n-1) 및 A(n)>A(n+1)인 피크들 A(n)을 선택하는 것뿐만 아니라, 선택된 피크들이 스펙트럼의 총 에너지의 더 큰 부분을 나타내도록 A(n-1) 및 A(n+1)로 선택을 확장하는 것이 바람직하다. 이 수정은, 에너지 변동(energy fluctuations)과 관련된 가청 아티팩트들(audible artifacts)을 유발하지 않을 만큼 충분한 전체 에너지 레벨을 유지하는 동안, 단계 D8에서 정현파 합성에 의해 합성된 신호의 레벨과 비교하여 노이즈의 레벨 (그리고 특히 아래에 제시된 단계 D9 및 D10에서 주입된 노이즈의 레벨)을 낮추는 것을 허용한다.
다음으로, 신호가 (적어도 저주파수에서) 노이즈가 없는 경우에, 일반 또는 유성음 스피치 신호의 경우에서와 같이, FR 1350845의 의미 내에서 변환된 잔차(residual) r'(n)에 대응하는 노이즈를 추가하면 실제로 품질이 저하된다는 것을 알 수 있다.
따라서, 음성 정보는 단계 D10에서 이득 G를 적용함으로써 노이즈를 감소시키는데 유리하게 사용된다. 단계 D8로부터 얻어진 신호 s(n)은 단계 D9로부터 얻어진 노이즈 신호 r'(n)과 믹스(mixed)되지만, 이전 프레임의 비트스트림으로부터 유래하는 "프레임 손실 특성화" 정보에 의존하는 이득 G가 다음과 같이, 적용된다:
Figure pct00016
이 특정 실시 예에서, G는 예로서 아래 주어진 표에 따라, 이전 프레임의 신호의 유성음 또는 무성음 성질(nature)에 따라 1 또는 0.25와 동일한 상수일 수 있다.
Figure pct00017
"프레임 손실 특성화" 정보가 스펙트럼의 평탄도 P1을 특징으로 하는 복수의 이산 레벨들(discrete levels)을 갖는 다른 실시 예에서, 이득 G는 P1 값의 함수로서 직접 표현될 수 있다. 피치 검색에 대한 세그먼트 Nc의 한계(bounds) 및/또는 신호의 합성에서 고려되는 피크들 An의 수에 대해서도 마찬가지이다.
예를 들어, 다음과 같은 프로세싱이 정의될 수 있다.
이득 G는 이미 P1 값의 함수로서 다음과 같이 직접 정의되어 있다:
Figure pct00018
또한, 0 값이 플랫 스펙트럼(flat spectrum)에 대응하고 -5dB가 현저한 피크들을 가지는 스펙트럼에 대응하는 경우, Pl 값은 평균값 -3dB과 비교된다.
P1 값이 평균 임계값 -3dB보다 작으면 (즉, 유성음 신호의 전형적인, 현저한 피크들을 갖는 스펙트럼에 해당하는), 피치 검색 Nc에 대한 세그먼트의 지속기간을 33ms로 설정할 수 있고, A(n)>A(n-1) 및 A(n)>A(n+1)인 피크들 A(n) 뿐만 아니라, 우선 인접 피크들 A(n-1) 및 A(n+1)을 선택할 수 있다.
그렇지 않으면 (P1 값이 임계값보다 크면, 예를 들어 음악 신호와 같이, 덜 현저한 피크들, 더 많은 백그라운드 노이즈에 대응하는), 지속기간 Nc는 더 짧게, 예를 들어 25ms로, 선택될 수 있고, A(n)>A(n-1) 및 A(n)>A(n+1)을 만족하는 피크들 A(n)만이 선택된다.
디코딩은 이와 같이 이득이 획득된 노이즈를 이러한 방식으로 선택된 컴포넌트들과 혼합함으로써, 단계 D14에서 획득된 고주파수들에서 합성 신호에 부가된, 단계 D13에서 저주파수들에서의 합성 신호를 획득하기 위하여, 단계 D15에서 일반 합성 신호를 획득하기 위해, 계속할 수 있다.
도 6을 참조하면, 본 발명의 하나의 가능한 구현 예가 도 4의 방법의 구현을 위해, 예를 들어 텔레폰(telephone) TEL과 같은 전기통신 기기(telecommunications device)에 내장된(embedded), 인코더 ENCOD로부터 수신한 음성 정보를 사용하는, 디코더 DECOD (예를 들어, 적절하게 프로그램된 메모리 MEM 및 이 메모리와 협동하는 프로세서 PROC 또는 대안적으로 ASIC과 같은 컴포넌트와 같은 소프트웨어 및 하드웨어뿐 아니라 통신 인터페이스(communication interface) COM을 포함하는)에서 도시된다. 이 인코더는, 예를 들어, 음성 정보를 결정하기 위해 적절하게 프로그램된 메모리 MEM' 및 이 메모리와 협력하는 프로세서 PROC'와 같은 소프트웨어 및 하드웨어, 또는 대안적으로 ASIC또는 다른 것과 같은 컴포넌트, 및 통신 인터페이스 COM'를 포함한다. 인코더 ENCODE는 텔레폰 TEL'와 같은 통신 장치에 내장된다.
물론, 본 발명은 예로서 상술한 실시 예들에 한정되지 않는다; 본 발명은 다른 변형들로 확장된다.
따라서, 예를 들어, 음성 정보는 변형들로서 다른 형태들을 취할 수 있는 것으로 이해된다. 전술한 예에서, 이는 단일 비트(유성음 또는 유성음이 아닌)의 이진 값이거나 신호 스펙트럼의 평탄도 또는 보이싱을 (양적으로 또는 질적으로) 특징화할 수 있는 임의의 다른 파라미터와 같은 파라미터와 관련될 수 있는 다중 비트 값일 수 있다. 또한, 이 파라미터는 예를 들어 피치 주기를 식별할 때 측정될 수 있는 상관관계의 정도에 기초하여, 디코딩에 의해 결정될 수 있다.
특히 저주파수 대역에서의 스펙트럼 컴포넌트들의 선택으로, 선행 유효 프레임들(preceding valid frames)로부터 신호의, 고주파수 대역 및 저주파수 대역으로의, 분리가 포함된 실시 예가 상기 예로서 제시되었다. 이 구현은 선택적이나, 프로세싱의 복잡성을 줄이므로 이점이 있다. 대안적으로, 본 발명의 의미에서 음성 정보의 도움으로 프레임을 대체하는 방법은 유효 신호의 전체 스펙트럼을 고려하는 동안 수행 될 수 있다.
중첩 가산(overlap add)을 갖는 변환 코딩의 컨텍스트(context)에서 본 발명이 구현되는 실시 예가 위에서 설명되었다. 그러나 이러한 유형의 방법은 다른 유형의 코딩(특히 CELP)에 적용될 수 있다.
중첩 가산(전형적으로 합성 신호가 중첩때문에 적어도 두 프레임 지속기간들에 걸쳐서 구성되는)을 갖는 변환 코딩의 컨텍스트에서, 상기 노이즈 신호는 잔차(residual)를 시간적으로 가중(temporally weighting)함으로써, (유효 신호와 피크들의 합 사이의) 잔차에 의해 획득될 수 있다는 것에 주목해야 한다. 예를 들어, 잔차는 중첩을 갖는 변환에 의한 인코딩/디코딩의 일반적인 컨텍스트에서처럼 중첩 윈도우들에 의해 가중될 수 있다.
음성 정보의 함수로서 이득을 적용하는 것은 보이싱(voicing)을 기초로 한 다른 가중치를 부가하는 것으로 이해된다.
TEL: 텔레폰 ENCOD: 인코더
DECOD: 디코더 PROC: 프로세서
MEM: 메모리 COM: 통신 인터페이스

Claims (16)

  1. 디코딩 동안 적어도 하나의 손실된 신호 프레임을 대체하기 위해 디지털 오디오 신호를 디코딩할 때 구현되며, 연속적인 프레임들에 분포된 일련의 샘플들을 포함하는 상기 디지털 오디오 신호를 프로세싱하는 방법에 있어서,
    a) 유효 신호(valid signal)에 기초하여 결정된 상기 신호의 적어도 하나의 주기 동안 디코딩 할 때 이용 가능한 상기 유효 신호 세그먼트(segment) (Nc)에서 검색하는 단계,
    b) 상기 주기에서 상기 신호의 스펙트럼 컴포넌트들(spectral components)을 결정하기 위해, 상기 주기에서 상기 신호를 분석하는 단계, 및
    c) 상기 결정된 스펙트럼 컴포넌트들 중에서 선택된 컴포넌트들의 합(addition), 및 상기 컴포넌트들의 합에 부가된 노이즈(noise)로부터 합성 신호(synthesis signal)를 구성하는 것에 의하여, 상기 손실된 프레임에 대한 적어도 하나의 대체물(replacement)을 합성하는 단계,
    를 포함하고,
    상기 컴포넌트들의 합에 부가된 상기 노이즈의 양은 디코딩 시에 획득된 상기 유효 신호의 음성 정보(voice information)에 기초하여 가중되는 디지털 오디오 신호를 프로세싱하는 방법.
  2. 제 1 항에 있어서,
    상기 컴포넌트들의 합에 부가된 노이즈 신호는 상기 유효 신호에서의 보이싱(voicing)의 경우 더 작은 이득(gain)에 의해 가중되는 디지털 오디오 신호를 프로세싱하는 방법.
  3. 제 2 항에 있어서,
    상기 노이즈 신호는 상기 유효 신호와 상기 선택된 컴포넌트들의 합 사이의 잔차(residual)에 의해 획득되는 디지털 오디오 신호를 프로세싱하는 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 합을 위해 선택된 상기 컴포넌트들의 수는 상기 유효 신호에서의 보이싱의 경우에 더 큰 디지털 오디오 신호를 프로세싱하는 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 단계 a)에서, 상기 유효 신호에서의 보이싱의 경우 더 긴 길이의 유효 신호 세그먼트(Nc)에서 상기 주기가 검색되는 디지털 오디오 신호를 프로세싱하는 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 음성 정보는 연속적인 프레임들에 분포된 일련의 샘플들을 포함하는 상기 신호에 대응하고 디코딩 시에 수신된 비트스트림(bitstream)으로 제공되고,
    디코딩에서 프레임 손실(frame loss)의 경우에, 상기 손실된 프레임에 선행하는 유효 신호 프레임에 포함된 상기 음성 정보가 사용되는 디지털 오디오 신호를 프로세싱하는 방법.
  7. 제 6 항에 있어서,
    상기 음성 정보는 상기 비트스트림을 생성하고 상기 음성 정보를 결정하는 인코더로부터 유래되며, 상기 음성 정보는 상기 비트스트림 내의 단일 비트로 인코딩되는 디지털 오디오 신호를 프로세싱하는 방법.
  8. 제 7 항에 있어서,
    청구항 2와 결합하여, 상기 신호가 유성음(voiced)인 경우, 상기 이득 값은 0.25이고, 그렇지 않으면 1인 디지털 오디오 신호를 프로세싱하는 방법.
  9. 제 6 항에 있어서,
    상기 음성 정보는 상기 신호의 상기 스펙트럼 컴포넌트들의 진폭들을 배경 노이즈와 비교하여 획득되는 스펙트럼 평탄도 값(spectrum flatness value)(P1)을 결정하는 인코더로부터 유래되며, 상기 인코더는 상기 값을 상기 비트스트림에서 이진 형태(binary form)로 전달하는 디지털 오디오 신호를 프로세싱하는 방법.
  10. 제 7 항에 있어서,
    청구항 2와 결합하여, 상기 이득 값은 상기 편평도 값의 함수로서 결정되는 디지털 오디오 신호를 프로세싱하는 방법.
  11. 제 9 항 및 제 10 항 중 어느 한 항에 있어서,
    상기 평탄도 값은 상기 평탄도 값이 임계값(threshold)보다 낮으면 상기 신호는 유성음이고, 그렇지 않으면 상기 신호는 무성음인 것을 결정하기 위하여 상기 임계값과 비교되는 디지털 오디오 신호를 프로세싱하는 방법.
  12. 제 7 항 및 제 11 항 중 어느 한 항에 있어서,
    청구항 4와 결합하여, 상기 신호가 유성음이면, 인접한 제1 스펙트럼 컴포넌트들뿐만 아니라 상기 인접한 제1 스펙트럼 컴포넌트들의 진폭들보다 큰 진폭들을 갖는 상기 스펙트럼 컴포넌트들이 선택되고,
    그렇지 않으면 상기 인접한 제1 스펙트럼 컴포넌트들의 진폭들보다 큰 진폭들을 갖는 상기 스펙트럼 컴포넌트들만이 선택되는 디지털 오디오 신호를 프로세싱하는 방법.
  13. 제 7 항 및 제 11 항 중 어느 한 항에 있어서,
    청구항 5와 결합하여, 상기 신호가 유성음이면, 상기 주기는 30 밀리 초(milliseconds) 이상(more than)의 지속기간(duration)의 유효 신호 세그먼트에서 검색되고,
    그렇지 않은 경우, 상기 주기는 30 밀리 초 미만(less than)의 지속기간의 유효 신호 세그먼트에서 검색되는 디지털 오디오 신호를 프로세싱하는 방법.
  14. 프로그램이 프로세서에 의해 실행될 때 제 1 항 내지 제 13 항 중 어느 한 항에 따른 방법을 구현하기 위한 명령들을 포함하는 것을 특징으로 하는 컴퓨터 프로그램.
  15. 적어도 하나의 손실 된 신호 프레임을 대체하기 위한 수단 (MEM, PROC)을 포함하는, 연속적인 프레임들에 분포된 일련의 샘플들을 포함하는 디지털 오디오 신호를 디코딩하기 위한 기기에 있어서,
    a) 유효 신호에 기초하여 결정된 상기 신호의 적어도 하나의 주기 동안 디코딩 할 때 이용 가능한 상기 유효 신호 세그먼트(Nc)에서 검색하고,
    b) 상기 주기에서 상기 신호의 스펙트럼 컴포넌트들을 결정하기 위해, 상기 주기에서 상기 신호를 분석하고,
    c) 상기 결정된 스펙트럼 컴포넌트들 중에서 선택된 컴포넌트들의 합, 및 상기 컴포넌트들의 합에 부가된 노이즈로부터 합성 신호를 구성하는 것에 의하여, 상기 손실된 프레임을 대체하기 위해 적어도 하나의 프레임을 합성하고,
    상기 컴포넌트들의 합에 부가된 상기 노이즈의 양은 디코딩 시에 획득된 상기 유효 신호의 음성 정보에 기초하여 가중되는 디지털 오디오 신호를 디코딩하기 위한 기기.
  16. 상기 인코딩 기기에 의해 전달된 비트스트림에서 음성 정보를 제공하고, 유성음이 예상되는 스피치 신호(speech signal)를 음악 신호(music signal)로부터 구별하는 수단(MEM', PROC')을 포함하고,
    음성 신호의 경우 상기 신호가 일반적으로 유성음으로 간주되도록 상기 신호가 유성음인지 또는 일반 신호인지 식별하거나, 또는 상기 신호가 일반적으로 무성음으로 간주되도록 상기 신호가 비활성(inactive), 일시적(transient) 또는 무성음(unvoiced)인지를 식별하는 디지털 오디오 신호를 인코딩하기 위한 기기.
KR1020167033307A 2014-04-30 2015-04-24 음성 정보를 갖는 개선된 프레임 손실 보정 KR20170003596A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020227011341A KR20220045260A (ko) 2014-04-30 2015-04-24 음성 정보를 갖는 개선된 프레임 손실 보정

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1453912 2014-04-30
FR1453912A FR3020732A1 (fr) 2014-04-30 2014-04-30 Correction de perte de trame perfectionnee avec information de voisement
PCT/FR2015/051127 WO2015166175A1 (fr) 2014-04-30 2015-04-24 Correction de perte de trame perfectionnée avec information de voisement

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020227011341A Division KR20220045260A (ko) 2014-04-30 2015-04-24 음성 정보를 갖는 개선된 프레임 손실 보정

Publications (1)

Publication Number Publication Date
KR20170003596A true KR20170003596A (ko) 2017-01-09

Family

ID=50976942

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020237028912A KR20230129581A (ko) 2014-04-30 2015-04-24 음성 정보를 갖는 개선된 프레임 손실 보정
KR1020227011341A KR20220045260A (ko) 2014-04-30 2015-04-24 음성 정보를 갖는 개선된 프레임 손실 보정
KR1020167033307A KR20170003596A (ko) 2014-04-30 2015-04-24 음성 정보를 갖는 개선된 프레임 손실 보정

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020237028912A KR20230129581A (ko) 2014-04-30 2015-04-24 음성 정보를 갖는 개선된 프레임 손실 보정
KR1020227011341A KR20220045260A (ko) 2014-04-30 2015-04-24 음성 정보를 갖는 개선된 프레임 손실 보정

Country Status (12)

Country Link
US (1) US10431226B2 (ko)
EP (1) EP3138095B1 (ko)
JP (1) JP6584431B2 (ko)
KR (3) KR20230129581A (ko)
CN (1) CN106463140B (ko)
BR (1) BR112016024358B1 (ko)
ES (1) ES2743197T3 (ko)
FR (1) FR3020732A1 (ko)
MX (1) MX368973B (ko)
RU (1) RU2682851C2 (ko)
WO (1) WO2015166175A1 (ko)
ZA (1) ZA201606984B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
CN108369804A (zh) * 2015-12-07 2018-08-03 雅马哈株式会社 语音交互设备和语音交互方法
CN114097028A (zh) * 2019-07-08 2022-02-25 沃伊斯亚吉公司 用于编解码音频流中的元数据及用于灵活对象内和对象间比特率适配的方法和系统
CN111883171B (zh) * 2020-04-08 2023-09-22 珠海市杰理科技股份有限公司 音频信号的处理方法及系统、音频处理芯片、蓝牙设备

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR1350845A (fr) 1962-12-20 1964-01-31 Procédé de classement visible sans index
FR1353551A (fr) 1963-01-14 1964-02-28 Fenêtre destinée en particulier à être montée sur des roulottes, des caravanes ou installations analogues
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5799271A (en) * 1996-06-24 1998-08-25 Electronics And Telecommunications Research Institute Method for reducing pitch search time for vocoder
JP3364827B2 (ja) * 1996-10-18 2003-01-08 三菱電機株式会社 音声符号化方法、音声復号化方法及び音声符号化復号化方法並びにそれ等の装置
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6912496B1 (en) * 1999-10-26 2005-06-28 Silicon Automation Systems Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
JP4089347B2 (ja) * 2002-08-21 2008-05-28 沖電気工業株式会社 音声復号装置
US7970606B2 (en) * 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
EP1568011A1 (en) * 2002-11-27 2005-08-31 Koninklijke Philips Electronics N.V. Method for separating a sound frame into sinusoidal components and residual noise
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US7825321B2 (en) * 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
EP2095365A4 (en) * 2006-11-24 2009-11-18 Lg Electronics Inc METHOD FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS AND APPARATUS THEREOF
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
US8060363B2 (en) * 2007-02-13 2011-11-15 Nokia Corporation Audio signal encoding
JP5395066B2 (ja) * 2007-06-22 2014-01-22 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US20090180531A1 (en) * 2008-01-07 2009-07-16 Radlive Ltd. codec with plc capabilities
US8036891B2 (en) * 2008-06-26 2011-10-11 California State University, Fresno Methods of identification using voice sound analysis
ES2396927T3 (es) * 2008-07-11 2013-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para decodificar una señal de audio codificada
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
WO2014036263A1 (en) * 2012-08-29 2014-03-06 Brown University An accurate analysis tool and method for the quantitative acoustic assessment of infant cry
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
FR3001593A1 (fr) 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation

Also Published As

Publication number Publication date
KR20230129581A (ko) 2023-09-08
MX368973B (es) 2019-10-23
ZA201606984B (en) 2018-08-30
MX2016014237A (es) 2017-06-06
ES2743197T3 (es) 2020-02-18
FR3020732A1 (fr) 2015-11-06
CN106463140B (zh) 2019-07-26
EP3138095B1 (fr) 2019-06-05
RU2016146916A (ru) 2018-05-31
CN106463140A (zh) 2017-02-22
EP3138095A1 (fr) 2017-03-08
BR112016024358A2 (pt) 2017-08-15
RU2016146916A3 (ko) 2018-10-26
KR20220045260A (ko) 2022-04-12
BR112016024358B1 (pt) 2022-09-27
US10431226B2 (en) 2019-10-01
JP6584431B2 (ja) 2019-10-02
JP2017515155A (ja) 2017-06-08
US20170040021A1 (en) 2017-02-09
WO2015166175A1 (fr) 2015-11-05
RU2682851C2 (ru) 2019-03-21

Similar Documents

Publication Publication Date Title
RU2630390C2 (ru) Устройство и способ для маскирования ошибок при стандартизированном кодировании речи и аудио с низкой задержкой (usac)
EP3355306B1 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
KR101854297B1 (ko) 시간 도메인 여기 신호를 기초로 하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
JP5571235B2 (ja) ピッチ調整コーディング及び非ピッチ調整コーディングを使用する信号符号化
RU2419167C2 (ru) Система, способы и устройство для восстановления при стирании кадра
US20110016077A1 (en) Audio signal classifier
MX2013004673A (es) Codificación de señales de audio genéricas a baja tasa de bits y a retardo bajo.
JP6584431B2 (ja) 音声情報を用いる改善されたフレーム消失補正
KR20170028988A (ko) 프레임에 따른 가변 샘플링 주파수에 의한 후처리 상태들의 업데이트

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
E601 Decision to refuse application
E801 Decision on dismissal of amendment
A107 Divisional application of patent