KR20180123664A - 오디오 신호의 은닉된 오디오 신호 부분으로부터 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치 및 방법 - Google Patents

오디오 신호의 은닉된 오디오 신호 부분으로부터 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20180123664A
KR20180123664A KR1020187023876A KR20187023876A KR20180123664A KR 20180123664 A KR20180123664 A KR 20180123664A KR 1020187023876 A KR1020187023876 A KR 1020187023876A KR 20187023876 A KR20187023876 A KR 20187023876A KR 20180123664 A KR20180123664 A KR 20180123664A
Authority
KR
South Korea
Prior art keywords
audio signal
sample
signal portion
subsequent
processor
Prior art date
Application number
KR1020187023876A
Other languages
English (en)
Other versions
KR102230089B1 (ko
Inventor
아드리안 토마세크
제레미 르콩트
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority claimed from PCT/EP2017/051623 external-priority patent/WO2017129665A1/en
Publication of KR20180123664A publication Critical patent/KR20180123664A/ko
Application granted granted Critical
Publication of KR102230089B1 publication Critical patent/KR102230089B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10)가 제공된다. 장치(10)는 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 오디오 신호의 디코딩된 오디오 신호 부분을 생성하도록 구성되는 프로세서(11)를 포함하며, 여기서 제 1 오디오 신호 부분은 은닉된 오디오 신호 부분에 의존하고, 여기서 제 2 오디오 신호 부분은 후속하는 오디오 신호 부분에 의존한다. 또한, 장치(10)는 디코딩된 오디오 신호 부분을 출력하기 위한 출력 인터페이스(12)를 포함한다. 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분 각각은 복수의 샘플을 포함하며, 여기서 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분의 복수의 샘플 각각은 복수의 샘플 위치의 샘플 위치 및 샘플 값에 의해 정의되고, 여기서 복수의 샘플 위치는, 복수의 샘플 위치 중 제 1 샘플 위치 및 제 1 샘플 위치와 상이한, 복수의 샘플 위치 중 제 2 샘플 위치의 각각의 쌍에 대해, 제 1 샘플 위치가 제 2 샘플 위치의 후속자 또는 선행자 중 어느 일방이도록 순서화된다. 프로세서(11)는 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성되며, 제 1 서브 부분이 제 1 오디오 신호 부분보다 적은 샘플을 포함한다. 프로세서(11)는 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분 또는 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성되며, 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이하다.

Description

오디오 신호의 은닉된 오디오 신호 부분으로부터 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치 및 방법
본 발명은 오디오 신호 처리 및 디코딩에 관한 것으로, 특히 오디오 신호의 은닉된 오디오 신호 부분으로부터 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치 및 방법에 관한 것이다.
에러가 발생하기 쉬운 네트워크의 경우에, 모든 코덱은 이러한 손실로 인한 아티팩트를 완화하려고 한다. 최첨단 기술은 단순한 음소거 또는 노이즈 대체에서 과거의 양호한 프레임에 기초한 예측과 같은 고급 방법에 이르기까지 상이한 방법을 통해 손실된 정보를 은닉하는 데 중점을 둔다. 패킷 손실로 인한 아티팩트에 대한 한 가지 명확하게 간과하고 있는 큰 원천은 복구에 있다(손실 후 몇몇 양호한 프레임).
음성 코덱의 경우 종종 사용되는 장기 예측 때문에, 복구 아티팩트는 매우 심각할 수 있으며 에러 전파는 다수의 뒤따르는 양호한 프레임에 영향을 줄 수 있다. 일부 종래 기술은 그 문제를 완화하려고 시도한다(예를 들어, [1] 및 [2] 참조).
일반 또는 오디오 코덱(변환 도메인에서 작동하는 임의의 코덱)의 경우에, [3]에서와 같이 프레임 손실의 은닉에 대한 많은 문헌을 찾을 수 있다. 그러나, 이용 가능한 종래 기술은 프레임의 복구에는 초점을 두지 않는다. 변환 도메인 코덱의 특성으로 인해 오버랩 및 추가가 전이 아티팩트를 매끄럽게 할 것이라고 가정한다. 하나의 좋은 예는 IP 네트워크에서의 통신을 위해 Facetime에서 사용되는 AAC-ELD(AAC-ELD = Advanced Audio Coding - Enhanced low delay; [4] 참조)이다.
프레임 손실 후 처음 몇 프레임이 "복구 프레임"이라고 지칭된다. 종래 기술의 변환 도메인 코덱은 하나 이상의 복구 프레임에 관한 특별한 처리를 제공하지 않는 것처럼 보인다. 때로는, 짜증스러운 아티팩트가 발생한다. 복구를 행할 때 일어날 수 있는 문제의 예는 오버랩 및 가산 부분에서 은닉된 신호와 양호한 웨이브 신호의 중첩이며, 이는 때때로 짜증스러운 에너지 부스트를 야기한다.
다른 문제는 프레임 경계에서의 갑작스런 피치 변화이다. 음성 신호의 경우에 대한 예는 원래 신호의 피치가 변하고 프레임 손실이 발생할 경우, 은닉 방법은 프레임의 끝에서 피치를 약간 잘못 예측할 수 있다는 것이다. 이 약간 잘못된 예측은 피치가 다음 양호한 프레임으로 점프하게 할 수 있다. 알려진 은닉 방법의 대부분은 심지어 예측을 사용하지 않고, 마지막 유효한 피치에 기초한 고정 피치만을 사용하며, 이는 첫 번째로 양호한 프레임과의 더 큰 불일치를 초래할 수 있다. 일부 다른 방법은 드리프트를 감소시키기 위해 고급 예측을 사용한다(예를 들어, EVS(EVS = Enhanced Voice Services)에서의 TD-TCX PLC(TD = Time domain; TCX = Transform Coded Excitation; PLC = Packet Loss Concealment) 참조)([5] 참조).
TD-PSOLA(TD-PSOLA = Time Domain-Pitch Synchronous Overlap-Add)와 같은 음성 신호에서 피치를 수정하기 위한 최첨단 방법([6] 및 [7] 참조)은 지속 시간 확장/축소(시간 스트레칭으로 알려져 있음)와 같은 음성 신호에 운율 수정을 행하거나 기본 주파수(피치) 변화를 행한다. 이것은 음성 신호를 단기 및 피치 동기 분석 신호로 분해하여 시간 축 상에서 재배치하고 점진적으로 병치시킴으로써 행해진다. 그러나, 복구 프레임의 신호는 은닉된 프레임의 피치와 원래 신호의 피치가 다를 경우 오버랩 메커니즘 후에 훼손된다. TD-PSOLA 메커니즘은 단지 시간 축 상에서 아티팩트를 재배치할 것이며, 이는 복구에 적합하지 않다.
본 발명의 목적은 오디오 신호 처리 및 디코딩에 대한 개선된 개념을 제공하는 것이다.
본 발명의 목적은 청구항 1에 따른 장치, 청구항 35에 따른 방법, 및 청구항 36에 따른 컴퓨터 프로그램에 의해 해결된다.
오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치가 제공된다.
장치는 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 오디오 신호의 디코딩된 오디오 신호 부분을 생성하도록 구성되는 프로세서를 포함하며, 여기서 제 1 오디오 신호 부분은 은닉된 오디오 신호 부분에 의존하고, 여기서 제 2 오디오 신호 부분은 후속하는 오디오 신호 부분에 의존한다.
또한, 장치는 디코딩된 오디오 신호 부분을 출력하기 위한 출력 인터페이스를 포함한다.
제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분 각각은 복수의 샘플을 포함하며, 여기서 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분의 복수의 샘플 각각은 복수의 샘플 위치의 샘플 위치 및 샘플 값에 의해 정의되고, 여기서 복수의 샘플 위치는, 복수의 샘플 위치 중 제 1 샘플 위치 및 제 1 샘플 위치와 상이한, 복수의 샘플 위치 중 제 2 샘플 위치의 각각의 쌍에 대해, 제 1 샘플 위치가 제 2 샘플 위치의 후속자(successor)또는 선행자(predecessor) 중 어느 일방이도록 순서화된다.
프로세서는 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성되며, 제 1 서브 부분이 제 1 오디오 신호 부분보다 적은 샘플을 포함한다.
프로세서는 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분 또는 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성되며, 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이하다.
또한, 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하는 방법이 제공된다. 방법은:
- 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 오디오 신호의 디코딩된 오디오 신호 부분을 생성하는 단계 - 여기서 제 1 오디오 신호 부분은 은닉된 오디오 신호 부분에 의존하고, 여기서 제 2 오디오 신호 부분은 후속하는 오디오 신호 부분에 의존함 -; 및
- 디코딩된 오디오 신호 부분을 출력하는 단계를 포함한다.
제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분 각각은 복수의 샘플을 포함하며, 여기서 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분의 복수의 샘플 각각은 복수의 샘플 위치의 샘플 위치 및 샘플 값에 의해 정의되고, 여기서 복수의 샘플 위치는, 복수의 샘플 위치 중 제 1 샘플 위치 및 제 1 샘플 위치와 상이한, 복수의 샘플 위치 중 제 2 샘플 위치의 각각의 쌍에 대해, 제 1 샘플 위치가 제 2 샘플 위치의 후속자 또는 선행자 중 어느 일방이도록 순서화된다.
디코딩된 오디오 신호 부분을 생성하는 단계는 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하는 단계를 포함하며, 제 1 서브 부분이 제 1 오디오 신호 부분보다 적은 샘플을 포함한다.
또한 디코딩된 오디오 신호 부분을 생성하는 단계는 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분 또는 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 행해지며, 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이하다.
또한, 컴퓨터 또는 신호 프로세서 상에서 실행되는 경우 전술한 방법을 구현하도록 구성된 컴퓨터 프로그램이 제공된다.
일부 실시예는 복구 필터, (예를 들어, 블록 기반의) 오디오 코덱에서 손실 필터로부터 손실된 프레임으로부터 첫 번째로 양호한 프레임까지의 전이를 매끄럽게 하고 리페어링하는 도구를 제공한다. 실시예에 따르면, 복구 필터는 음성 신호의 첫 번째로 양호한 프레임에서 은닉된 프레임 동안 피치 변화를 고정시키는 데뿐만 아니라, 노이즈가 있는 신호의 전이를 매끄럽게 하는 데 사용될 수 있다.
특히, 일부 실시예는 은닉된 프레임에서 재생된 마지막 샘플로부터 시작하여 첫 번째로 양호한 프레임의 마지막 샘플까지의, 신호 수정을 위한 길이가 제한된다는 발견에 기초한다. 길이는 첫 번째로 양호한 프레임에서 마지막 샘플보다 증가될 수 있지만, 그러면 이는 이후에는 향후 프레임에서 처리하기 어려운 에러 전파의 위험이 있을 것이다. 따라서, 빠른 복구가 요구된다. 손실된 프레임과 복구된 프레임 사이의 불일치의 경우에 음성 특징을 리페어링하기 위해, 복구 프레임의 신호의 피치는 신호 수정 길이의 제한이 유지되어야 하는 동안 은닉된 프레임의 피치로부터 복구 프레임의 피치까지 느리게 변화되어야 한다. TD-PSOLA 알고리즘으로는, 피치가 정수 값의 배수로 변화되는 경우에만 가능할 것이다. 이것은 매우 드문 경우이므로, TD-PSOLA는 이러한 상황에 적용될 수 없다.
다음에서, 본 발명의 실시예가 도면을 참조하여보다 상세히 설명되며, 여기서:
도 1a는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치를 도시한다.
도 1b는 피치 적응 오버랩 개념을 구현하는 다른 실시예에 따른, 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치를 도시한다.
도 1c는 여기 오버랩 개념을 구현하는 다른 실시예에 따른, 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치를 도시한다.
도 1d는 에너지 감쇠를 구현하는 다른 실시예에 따른, 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치를 도시한다.
도 1e는 다른 실시예에 따른 장치를 도시하며, 여기서 장치는 은닉 유닛을 더 포함한다.
도 1f는 또 다른 실시예에 따른 장치를 도시하며, 여기서 장치는 은닉 유닛을 활성화시키기 위한 활성화 유닛을 더 포함한다.
도 1g는 다른 실시예에 따른 장치를 도시하며, 여기서 활성화 유닛은 프로세서를 활성화시키도록 추가로 구성된다.
도 2는 일 실시예에 따른 해밍(Hamming) 코사인 윈도우를 도시한다.
도 3은 그러한 실시예에 따른 은닉된 프레임 및 양호한 프레임을 도시한다.
도 4는 일 실시예에 따른 피치 적응 오버랩을 구현하는 2개의 프로토타입의 생성을 도시한다.
도 5는 일 실시예에 따른 여기 오버랩을 도시한다.
도 6은 그러한 실시예에 따른 은닉된 프레임 및 양호한 프레임을 도시한다.
도 7a는 일 실시예에 따른 시스템을 도시한다.
도 7b는 또 다른 실시예에 따른 시스템을 도시한다.
도 7c는 다른 실시예에 따른 시스템을 도시한다.
도 7d는 또 다른 실시예에 따른 시스템을 도시한다. 및
도 7e는 또 다른 실시예에 따른 시스템을 도시한다.
도 1a는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10)를 도시한다.
장치(10)는 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 오디오 신호의 디코딩된 오디오 신호 부분을 생성하도록 구성되는 프로세서(11)를 포함하며, 여기서 제 1 오디오 신호 부분은 은닉된 오디오 신호 부분에 의존하고, 여기서 제 2 오디오 신호 부분은 후속하는 오디오 신호 부분에 의존한다.
일부 실시예에서, 제 1 오디오 신호 부분은 예를 들어 은닉된 오디오 신호 부분으로부터 도출 될 수 있지만 예를 들어 은닉된 오디오 신호 부분과 상이할 수 있고/있거나, 제 2 오디오 신호 부분은 예를 들어 후속하는 오디오 신호 부분으로부터 도출될 수 있지만 예를 들어 후속하는 오디오 신호 부분과 상이할 수 있다.
다른 실시예에서, 제 1 오디오 신호 부분은 예를 들어 은닉된 오디오 신호 부분일 수 있고(은닉된 오디오 신호 부분과 동일할 수 있고), 제 2 오디오 신호 부분은 예를 들어 후속하는 오디오 신호 부분일 수 있다.
또한, 장치(10)는 디코딩된 오디오 신호 부분을 출력하기 위한 출력 인터페이스(12)를 포함한다.
제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분 각각은 복수의 샘플을 포함하며, 여기서 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 및 디코딩된 오디오 신호 부분의 복수의 샘플 각각은 복수의 샘플 위치의 샘플 위치 및 샘플 값에 의해 정의되고, 여기서 복수의 샘플 위치는, 복수의 샘플 위치 중 제 1 샘플 위치 및 제 1 샘플 위치와 상이한, 복수의 샘플 위치 중 제 2 샘플 위치의 각각의 쌍에 대해, 제 1 샘플 위치가 제 2 샘플 위치의 후속자 또는 선행자 중 어느 일방이도록 순서화된다.
예를 들어, 샘플은 샘플 위치 및 샘플 값에 의해 정의된다. 예를 들어, 2차원 좌표계에서, 샘플 위치는 샘플의 x 축 값(횡좌표 축 값)을 정의할 수 있고, 샘플 값은 동일한 샘플의 y 축 값(종좌표 축 값)을 정의할 수 있다. 따라서, 특정 샘플을 고려하면, 2차원 좌표계 내의 특정 샘플의 왼쪽에 위치하는 모든 샘플은 특정 샘플의 선행자이다(샘플 위치가 특정 샘플의 샘플 위치보다 작기 때문임). 2차원 좌표계에서 특정 샘플의 오른쪽에 위치하는 모든 샘플은 특정 샘플의 후속이다(샘플 위치가 특정 샘플의 샘플 위치보다 크기 때문임).
프로세서(11)는 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성되며, 제 1 서브 부분이 제 1 오디오 신호 부분보다 적은 샘플을 포함한다.
프로세서(11)는 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분 또는 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성되며, 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이하다.
따라서, 일부 실시예에서, 프로세서(11)는 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성된다.
다른 실시예에서, 프로세서(11)는 제 1 서브 부분을 사용하여 그리고 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성된다. 제 2 서브 부분은 제 2 오디오 신호 부분보다 적은 샘플을 포함할 수 있다.
실시예는 아니라 단지 은닉된 오디오 신호의 샘플만을 조정하는 것이 아니라 후속하는 오디오 신호 부분의 샘플을 수정함으로써 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하는 것이 유익하다는 발견에 기초한다. 정확하게 수신된 프레임의 샘플을 또한 수정함으로써, (예를 들어, 은닉된 오디오 신호 프레임의) 은닉된 오디오 신호 부분으로부터 (예를 들어, 후속하는 오디오 신호 프레임의) 후속하는 오디오 신호 부분까지의 전이가 개선될 수 있다.
따라서, 디코딩된 오디오 신호 부분은 제 1 및 제 2 오디오 신호 부분을 사용하여 생성되나, 디코딩된 오디오 신호 부분(적어도 2개 이상)은 샘플 값이 상이한 (후속하는 오디오 신호 부분에 의존하는) 제 2 오디오 신호 부분의 샘플로서 샘플 위치에 할당된 샘플을 포함한다. 이는 이들 샘플에 대해, 대응하는 샘플의 샘플 값은 그대로 취해지지 않고, 대신에 수정되어, 디코딩된 오디오 신호 부분의 대응하는 샘플을 획득한다는 것을 의미한다.
제 1 오디오 신호 부분 및 제 2 오디오 신호 부분과 관련하여, 프로세서(11)는 예를 들어 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분을 수신할 수 있다.
또는, 또 다른 예에서, 예를 들어, 프로세서(11)는 예를 들어 은닉된 오디오 신호 부분을 수신할 수 있고 은닉된 오디오 신호 부분으로부터 제 1 오디오 신호 부분을 결정할 수 있으며, 프로세서(11)는 예를 들어 후속하는 오디오 신호 부분을 수신할 수 있고 후속하는 오디오 신호 부분으로부터 제 2 오디오 신호 부분을 결정할 수 있다.
또는, 다른 실시예에서, 예를 들어, 프로세서(11)는 예를 들어 오디오 신호 프레임을 수신할 수 있고; 프로세서(11)는 예를 들어 제 1 프레임이 손실되었거나 제 1 프레임이 손상되었다고 결정할 수 있다. 그 다음에, 프로세서(11)는 은닉을 행할 수 있고, 예를 들어 최첨단 개념에 따라 은닉된 오디오 신호 부분을 생성할 수 있다. 또한, 프로세서(11)는 예를 들어 제 2 오디오 신호 프레임을 수신할 수 있고, 제 2 오디오 신호 프레임으로부터 후속하는 오디오 신호 부분을 획득할 수 있다. 도 1e가 이러한 실시예를 도시한다.
일부 실시예에서, 제 1 오디오 신호 부분은 예를 들어 은닉된 오디오 신호 부분에 대한 잔차 신호인 제 1 잔차 신호의 잔차 신호 부분 일 수 있다. 제 2 오디오 신호 부분은 예를 들어 일부 실시예에서 후속하는 오디오 신호 부분에 대한 잔차 신호인 제 2 잔차 신호의 잔차 신호 부분일 수 있다.
도 1e에서, 장치(10)는 에러가 있거나 손실된 현재 프레임에 대한 은닉을 행하여 은닉된 오디오 신호 부분을 획득하도록 구성되는 은닉 유닛(8)을 더 포함한다.
도 1e의 실시예에 따르면, 장치는 은닉 유닛(8)을 더 포함한다. 은닉 유닛(8)은 예를 들어 프레임이 손실되거나 손상되었다면, 최첨단 기술에 따라 은닉을 행하도록 구성될 수 있다. 그 다음에, 은닉 유닛(8)은 은닉된 오디오 신호 부분을 프로세서(11)에 전달한다. 그러한 실시예에서, 은닉된 오디오 신호 부분은 예를 들어 은닉이 행해진 에러가 있는 또는 손실된 프레임에 대한 은닉된 오디오 신호 부분일 수 있다. 후속하는 오디오 신호 부분은 예를 들어 은닉이 행해지지 않은 (후속) 오디오 신호 프레임의 후속하는 오디오 신호 부분일 수 있다. 후속하는 오디오 신호 프레임은 예를 들어 시간상 에러가 있는 또는 손실된 프레임을 후속할 수 있다.
도 1f는 장치(10)가 예를 들어 현재 프레임이 손실되었거나 에러가 있는지 여부를 검출하도록 구성될 수 있는 활성화 유닛(6)을 더 포함하는 실시예를 도시한다. 예를 들어, 활성화 유닛(6)은 예를 들어 마지막으로 수신된 프레임 후에 미리 정의된 시간 제한 내에 도착하지 않으면, 현재 프레임이 손실되었다고 결론을 내릴 수 있다. 또는, 예를 들어 활성화 유닛은 예를 들어 현재 프레임보다 더 큰 프레임 번호를 갖는 다른 프레임, 예컨대 후속하는 프레임이 도착하면, 현재 프레임이 손실되었다고 결론을 내릴 수 있다. 활성화 유닛(6)은 예를 들어 수신된 체크섬 또는 수신된 체크 비트가 활성화 유닛에 의해 계산되어진, 계산된 체크섬 또는 계산된 체크 비트와 동일하지 않으면, 예를 들어 프레임이 에러가 있다고 결론을 내릴 수 있다.
도 1f의 활성화 유닛(6)은 예를 들어 현재 프레임이 손실되거나 에러가 있으면, 현재 프레임에 대한 은닉을 행하도록 은닉 유닛(8)을 활성화시키도록 구성될 수 있다.
도 1g는 현재 프레임이 손실되었거나 에러가 있으면, 활성화 유닛(6)이 에러가 없는 후속하는 프레임이 도착하는지 여부를 검출하도록 구성될 수 있는 실시예를 도시한다. 도 1g의 실시예에서, 활성화 유닛(6)은 예를 들어 현재 프레임이 손실되었거나 에러가 있으면, 그리고 에러가 있는 후속하는 프레임이 도착하면, 디코딩된 오디오 신호 부분을 생성하기 위해 프로세서(8)를 활성화시키도록 구성될 수 있다.
도 1b는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100)를 도시한다. 도 1b의 장치는 피치 적응 오버랩 개념을 구현한다.
도 1b의 장치(100)는 도 1a의 장치(10)의 특정 실시예이다. 도 1b의 프로세서(110)는 도 1a의 프로세서(11)의 특정 실시예이다. 도 1b의 출력 인터페이스(120)는 도 1a의 출력 인터페이스(12)의 특정 실시예이다.
도 1b의 실시예에서, 프로세서(110)는 예를 들어 제 2 오디오 신호 부분의 제 2 서브 부분인 제 2 프로토타입 신호 부분을 결정하도록 구성될 수 있으며, 제 2 서브 부분은 제 2 오디오 신호 부분보다 적은 샘플을 포함한다.
프로세서(110)는 예를 들어 제 1 서브 부분인 제 1 프로토타입 신호 부분과 제 2 프로토타입 신호를 결합하여, 하나 이상의 중간 프로토타입 신호 부분 각각을 결정함으로써 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성될 수 있다.
도 1b에서, 프로세서(110)는 예를 들어 제 1 프로토타입 신호 부분을 사용하여, 그리고 하나 이상의 중간 프로토타입 신호 부분을 사용하여, 그리고 제 2 프로토타입 신호 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있다.
일 실시예에 따르면, 프로세서(110)는 예를 들어 제 1 프로토타입 신호 부분 및 하나 이상의 중간 프로토타입 신호 부분 및 제 2 프로토타입 신호 부분을 결합함으로써 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있다.
일 실시예에서, 프로세서(110)는 복수의 3개 이상의 마커 샘플 위치를 결정하도록 구성되며, 여기서 3개 이상의 마커 샘플 위치 각각은 제 1 오디오 신호 부분 및 제 2 오디오 신호 부분 중 적어도 하나의 샘플 위치이다. 또한, 프로세서(110)는 제 2 오디오 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 후속자인 제 2 오디오 신호 부분의 샘플의 샘플 위치를 3개 이상의 마커 샘플 위치 중 종료 샘플 위치로서 택하도록 구성된다. 또한, 프로세서(110)는 제 1 오디오 신호 부분의 제 1 서브 부분과 제 2 오디오 신호 부분의 제 2 서브 부분 사이의 상관에 따라 제 1 오디오 신호 부분으로부터 샘플 위치를 선택함으로써 3개 이상의 마커 샘플 위치 중 시작 샘플 위치를 결정하도록 구성된다. 또한, 프로세서(110)는 3개 이상의 마커 샘플 위치 중 시작 샘플 위치 및 3개 이상의 마커 샘플 위치 중 종료 샘플 위치에 따라 3개 이상의 마커 샘플 위치 중 하나 이상의 중간 샘플 위치를 결정하도록 구성된다. 또한, 프로세서(110)는 상기 중간 샘플 위치에 따라 제 1 프로토타입 신호와 제 2 프로토타입 신호 부분을 결합하여, 하나 이상의 중간 프로토타입 신호 부분의 중간 프로토타입 신호 부분을 결정함으로써 상기 하나 이상의 중간 샘플 위치 각각에 대해 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성된다.
일 실시예에 따르면, 프로세서(110)는
sigi = (1 - α)·sigfirst + α·siglast
에 따라 제 1 프로토타입 신호 부분과 제 2 프로토타입 신호 부분을 결합하여, 상기 하나 이상의 중간 프로토타입 신호 부분 각각에 대해 하나 이상의 중간 프로토타입 신호 부분의 중간 프로토타입 신호 부분을 결정함으로써 상기 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성되며,
여기서
Figure pct00001
이고
여기서 i는 i ≥ 1인 정수이고, 여기서 nrOfMarkers는 3개 이상의 마커 샘플 위치에서 1을 뺀 수이고, 여기서 sigi는 하나 이상의 중간 프로토타입 신호 부분의 i번째 중간 프로토타입 신호 부분이고, 여기서 sigfirst는 제 1 프로토타입 신호 부분이고, 여기서 siglast는 제 2 프로토타입 신호 부분이다.
일 실시예에서, 프로세서(110)는
Figure pct00002
또는
Figure pct00003
에 따라 3개 이상의 마커 샘플 위치 중 하나 이상의 중간 샘플 위치를 결정하도록 구성되며,
여기서
Figure pct00004
이고,
여기서
Figure pct00005
이고,
여기서
Figure pct00006
이고,
여기서 i는 i≥1인 정수이고, nr0fMarkers는 3개 이상의 마커 샘플 위치에서 1을 뺀 수이고, marki는 3개 이상의 마커 샘플 위치 중 i번째 중간 샘플 위치이고, 여기서 marki -1은 3개 이상의 마커 샘플 위치 중 i-1번째 중간 샘플 위치이고, 여기서 marki +1은 3개 이상의 마커 샘플 위치 중 i+1번째 중간 샘플 위치이고, 여기서 x0은 3개 이상의 마커 샘플 위치 중 시작 샘플 위치이고, 여기서 x1은 3개 이상의 마커 샘플 위치 중 종료 샘플 위치이고, 여기서 Tc는 피치 래그를 나타낸다.
일 실시예에 따르면, 프로세서(110)는 은닉된 오디오 신호 부분 및 복수의 제 3 필터 계수에 따라 제 1 오디오 신호 부분을 결정하도록 구성되며, 여기서 복수의 제 3 필터 계수는 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 의존하고, 여기서 프로세서(110)는 후속하는 오디오 신호 부분 및 복수의 제 3 필터 계수에 따라 제 2 오디오 신호 부분을 결정하도록 구성된다.
일 실시예에서, 프로세서(110)는 예를 들어 필터를 포함할 수 있으며, 여기서 프로세서(110)는 은닉된 오디오 신호 부분에 제 3 필터 계수를 갖는 필터를 적용하여 제 1 오디오 신호 부분을 획득하도록 구성되고, 여기서 프로세서(110)는 후속하는 오디오 신호 부분에 제 3 필터 계수를 갖는 필터를 적용하여 제 2 오디오 신호 부분을 획득하도록 구성된다.
일 실시예에 따르면, 프로세서(110)는 은닉된 오디오 신호 부분에 따라 복수의 제 1 필터 계수를 결정하도록 구성되며, 여기서 프로세서(110)는 후속하는 오디오 신호 부분에 따라 복수의 제 2 필터 계수를 결정하도록 구성되고, 여기서 프로세서(110)는 제 1 필터 계수 중 하나 이상 및 제 2 필터 계수 중 하나 이상의 조합에 따라 제 3 필터 계수의 각각을 결정하도록 구성된다.
일 실시예에서, 복수의 제 1 필터 계수 및 복수의 제 2 필터 계수 및 복수의 제 3 필터 계수의 필터 계수는 선형 예측 필터의 선형 예측 코딩 파라미터이다.
일 실시예에 따르면, 프로세서(110)는 공식
A = 0.5·Aconc + 0.5·Agood
에 따라 제 3 필터 계수의 각각의 필터 계수를 결정하도록 구성되며,
여기서 A는 상기 필터 계수의 필터 계수 값을 나타내고, 여기서 Aconc는 복수의 제 1 필터 계수의 필터 계수의 계수 값을 나타내고, Agood은 복수의 제 2 필터 계수의 필터 계수의 계수 값을 나타낸다.
일 실시예에서, 프로세서(110)는 은닉된 오디오 신호 부분에
Figure pct00007
에 의해 정의된 코사인 윈도우를 적용하여 은닉되고 윈도윙된 신호 부분을 획득하도록 구성되며,
여기서 프로세서(110)는 후속하는 오디오 신호 부분에 상기 코사인 윈도우를 적용하여 후속하는 윈도윙된 신호 부분을 획득하도록 구성되며, 여기서 프로세서(110)는 은닉되고 윈도윙된 신호 부분에 따라 복수의 제 1 필터 계수를 결정하도록 구성되고, 여기서 프로세서(110)는 후속하는 윈도윙된 신호 부분에 따라 복수의 제 2 필터 계수를 결정하도록 구성되고, 여기서 x 및 x1 및 x2 각각은 복수의 샘플 위치의 샘플 위치이다.
일 실시예에 따르면, 프로세서(110)는 예를 들어 상기 제 1 프로토타입 신호 부분으로서, 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분의 제 2 서브 부분의 복수의 서브 부분 후보의 각각의 서브의 복수의 상관에 따라 제 1 오디오 신호 부분의 복수의 서브 부분 후보 중 서브 부분을 선택하도록 구성될 수 있다. 프로세서(110)는 예를 들어 3개 이상의 마커 샘플 위치 중 시작 샘플 위치로서, 상기 제 1 프로토타입 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 선행자인 상기 제 1 프로토타입 신호 부분의 복수의 샘플의 샘플 위치를 선택하도록 구성될 수 있다.
일 실시예에서, 프로세서(110)는 예를 들어 상기 제 1 프로토타입 신호 부분으로서 상기 서브 부분 후보의 서브 부분을 선택하도록 구성될 수 있으며, 상기 제 2 서브 부분과의 상관은 상기 복수의 상관 중에서 가장 높은 상관 값을 갖는다.
일 실시예에 따르면, 프로세서(110)는 복수의 상관의 각각의 상관에 대해 공식
Figure pct00008
에 따른 상관 값을 결정하도록 구성되며,
여기서 Lframe은 제 1 오디오 신호 부분의 샘플의 수와 동일한 제 2 오디오 신호 부분의 샘플의 수를 나타내고, 여기서 r(2 Lframe-i)는 샘플 위치 2 Lframe-i에서의 제 2 오디오 신호 부분의 샘플의 샘플 값을 나타내고, 여기서 r(Lframe-i-Δ는 샘플 위치 Lframe-1-Δ에서의 제 1 오디오 신호 부분의 샘플의 샘플 값을 나타내고, 여기서 복수의 서브 부분 후보의 서브 부분 후보와 제 2 서브 부분의 복수의 상관 각각에 있어서, Δ는 수를 나타내며 상기 서브 부분 후보에 의존한다.
피치 적응 오버랩은 프레임 손실 후 첫 번째로 양호한 디코딩된 프레임의 시작의 피치와 TD PLC로 은닉된 프레임 끝에서의 피치 사이에 나타날 수 있는 피치 차이를 보상하는 데 사용된다. 신호는 LPC 합성 필터로 알고리즘의 끝에서 구성된 신호를 매끄럽게 하기 위해 LPC 도메인에서 동작한다. LPC 도메인에서, 가장 높은 유사성을 갖는 인스턴트는 아래에 설명된 바와 같이 상호 상관에 의해 발견되고, 갑작스런 피치 변경을 피하기 위해 신호의 피치가 마지막 피치 래그에서 새로운 피치 래그로 천천히 진전된다.
다음에서, 특정 실시예에 따른 피치 적응 오버랩이 설명된다.
이러한 실시예에 따른 장치 또는 방법은 예를 들어 다음과 같이 실현될 수 있다:
각각 해밍 코사인 윈도우, 예를 들어 다음의 형태의
Figure pct00009
의 해밍 코사인 윈도우로 사전 강조된 은닉된 신호
Figure pct00010
및 첫 번째로 양호한 프레임
Figure pct00011
각각에 대해 16차 LPC 파라미터 Aconc 및 Agood을 계산하며,
여기서 480 샘플의 프레임 길이에 있어서,
Figure pct00012
이고
Figure pct00013
이다.
도 2는 일 실시예에 따른 그러한 해밍 코사인 윈도우를 도시한다. 윈도우의 형상은 예를 들어 신호 부분의 마지막 신호 샘플이 분석에서 가장 큰 영향을 미치는 방식으로 설계될 수 있다.
LSP 도메인에서 보간을 해서
Figure pct00014
을 얻는다.
은닉된 프레임
Figure pct00015
및 첫 번째로 양호한 프레임
Figure pct00016
에서 A로 LPC 잔차 신호를 계산한다.
은닉된 프레임의 끝과 양호한 프레임 x1의 끝 사이의 최대 유사성이
Figure pct00017
인 인스턴트 xo를 찾는다.
도 3은 그러한 실시예에 따른 은닉된 프레임 및 양호한 프레임을 도시한다.
x0은 정규화된 상호 상관
Figure pct00018
을 최대화함으로써 얻게 된다.
보통, 정규화는 상관의 끝에서 행해진다: 예를 들어 피치 검색에서, 정규화는 피치 값이 이미 발견된 경우 상관 후에 행해진다.
여기서 정규화는 상관 중에 행해져 신호 간의 에너지 변동에 강하다. 복잡성 이유로, 정규화 항은 업데이트 체계(scheme)에서 계산된다.
Figure pct00019
인 초기 값
Figure pct00020
에 대해서만, 전체 도트 산물이 예를 들어 계산될 수 있다. 예를 들어 Δ의 다음 증분에 있어서, 항은 예를 들어 다음과 같이 업데이트될 수 있다:
Figure pct00021
마지막 하나의 Tc(x0)으로부터 새로운 하나의 Tg(x1)까지 피치 래그를 천천히 진전시키도록, 그 사이의 인스턴트 mark가 설정되어야 하며, 여기서
Figure pct00022
Figure pct00023
Figure pct00024
이다.
Figure pct00025
이 1보다 작거나 12보다 크면, 알고리즘이 에너지 감쇠(damping)로 스위칭된다. 그렇지 않고,
Figure pct00026
이고
Figure pct00027
이거나,
Figure pct00028
이고
Figure pct00029
이면,
Figure pct00030
이고,
Figure pct00031
이고, 마커는 다음과 같이 왼쪽으로부터 오른쪽으로 계산된다:
Figure pct00032
그렇지 않으면, 마커는 오른쪽으로부터 외쪽으로 구축된다:
Figure pct00033
nrOfMarkers는 모든 마커에서 1을 뺀 수임에 유의해야 한다. 또는 다른 방식으로 표현하면, nrOfMarkers는 모든 마커 샘플 위치에서 1을 뺀 수인데, x0 = mark0 및 x1 = marknrOfMarkers가 또한 마커/마커 샘플 위치이기 때문이다. 예를 들어, nrOfMarkers = 4이면, 5개의 마커/5개의 마커 샘플 위치, 즉 mark0, mark1, mark2, mark3, 및 mark4가 있다.
합성된 신호의 경우, 잘라내는 입력 세그먼트는 윈도윙되고 인스턴트 mark 주위에 설정된다. (세그먼트는 인스턴트 마크에서 중앙에 위치하도록 시간상 시프트한다). 은닉된 신호 형상으로부터 오버랩이 없는 양호 신호로 천천히 매끄럽게 하기 위해, 세그먼트는 은닉된 프레임의 끝과 양호한 프레임의 끝인 오버랩하지 않은 두 파트의 선형 조합일 것이다. 이하, 프로토타입 sigfirst 및 프로토타입 siglast라고 지칭된다.
프로토타입의 길이 len은 가장 작은 마커 거리에서 1을 뺀 것의 두 배가 되어, 오버랩 및 합산 동작에서 있을 수 있는 에너지 증가를 방지한다. 두 마커 사이의 거리가 Tc와 Tg 사이에 있지 않으면, 이는 경계에서 문제를 야기할 것이다. (따라서, 특정 실시예에서, 알고리즘은 예를 들어 이러한 경우에 중단될 수 있고, 예를 들어, 에너지 감쇠로 스위칭할 수 있다. 에너지 감쇠는 아래에서 설명될 것이다.)
프로토타입은 x0 및 x1은 sigfirst와 siglast의 중간점에 설정되는 방식으로, 길이 Tc 및 Tg를 갖는 여기 신호 r(x)로부터 잘라내어진다(도 4의 단계 1참조). 그 다음에, 길이 len에 도달하도록 순환적으로 확장된다(도 4의 단계 2 참조). 그 후에, 오버랩 영역에서 아티팩트를 피하기 위해 hann 윈도우로 윈도윙된다(도 4의 단계 3 참조).
마커에 대한 프로토타입은 다음과 같이 계산된다(도 4의 단계 4 참조):
sigi = (1 - α)·sigfirst + α·siglast
여기서
Figure pct00034
이다.
그 다음에, 프로토타입은 대응하는 마커 위치에서 중간점으로 설정되고 추가된다(도 4의 단계 5 참조).
마지막으로, 구성된 신호는 먼저 필터 변수 A를 갖는 LPC 합성 필터로 필터링되고, 그 다음에 강조해제 필터로 필터링되어 원래의 신호 도메인으로 되돌아간다.
신호는 원래의 디코딩된 신호와 크로스 페이딩되어, 프레임 경계상에서의 아티팩트를 방지한다.
도 4는 이러한 실시예에 따른 2개의 프로토타입의 생성을 도시한다.
안전상의 이유로, 예를 들어 후술하는 바와 같은 에너지 감쇠가 크로스 페이딩된 신호에 적용되어 복구 프레임에서 에너지가 크게 증가하는 위험을 제거해야 한다.
전술한 x0 및 x1에 대한 프로토타입을 잘라내는 것과 관련하여, x0 및 x1은 두 잔차 신호가 가장 높은 유사성을 갖는 시점이다. x0 및 x1에 대한 프로토타입인 sigfirst 및 siglast는 len = "2 x 가장 작은 마커 거리 - 1"을 갖는다. 따라서, 길이는 항상 홀수이며, 이는 sigfirst와 siglast가 하나의 중간점을 갖도록 한다. (은닉된 프레임의) 길이 Tc 및 (양호한 프레임의) 길이 Tg를 갖는 잔차 신호는 이제 x가 sigfirst의 중간점에 위치되고, x1이 siglast의 중간점에 위치되도록 배치된다. 그 후에, 그것들은 1부터 sigfirst와 siglast까지의 모든 샘플을 채우기 위해 순환적으로 확장될 수 있다.
이하에서는, 실시예에 따른 여기 오버랩이 설명된다.
도 1c는 또 다른 실시예에 따른, 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200)를 도시한다. 도 1c의 장치는 여기 오버랩 개념을 구현한다.
도 1c의 장치(200)는 도 1a의 장치(10)의 특정 실시예이다. 도 1c의 프로세서(210)는 도 1a의 프로세서(11)의 특정 실시예이다. 도 1c의 출력 인터페이스(220)는 도 1a의 출력 인터페이스(12)의 특정 실시예이다.
도 1c에서, 프로세서(210)는 예를 들어, 제 1 확장된 신호 부분이 제 1 오디오 신호 부분과 상이하고, 제 1 확장된 신호 부분이 제 1 서브 부분보다 많은 샘플을 갖도록, 제 1 서브 부분에 따라 제 1 확장된 신호 부분을 생성하도록 구성될 수 있다.
또한, 도 1c의 프로세서(210)는 예를 들어 제 1 확장된 신호 부분을 사용하여 그리고 제 2 오디오 신호 부분을 사용하여 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있다.
일 실시예에 따르면, 프로세서(210)는 크로스 페이딩된 신호 부분을 획득하기 위해 제 1 오디오 신호 부분과 제 1 확장된 신호 부분의 크로스 페이딩을 행함으로써 디코딩된 오디오 신호 부분을 생성하도록 구성된다.
일 실시예에서, 프로세서(210)는 예를 들어 제 1 서브 부분의 길이가 제 1 오디오 신호 부분의 피치 래그(Tc)와 동일하도록 제 1 오디오 신호 부분으로부터 제 1 서브 부분을 생성하도록 구성될 수 있다.
일 실시예에 따르면, 프로세서(210)는 예를 들어 제 1 확장된 신호 부분의 샘플의 수가 상기 제 1 오디오 신호 부분의 피치 래그의 샘플의 수에 제 2 오디오 신호 부분의 샘플의 수를 더한 것과 동일하도록(Tc + 제 2 오디오 신호 부분의 샘플의 수) 제 1 확장된 신호 부분을 생성하도록 구성될 수 있다.
일 실시예에서, 프로세서(210)는 예를 들어 은닉된 오디오 신호 부분 및 복수의 필터 계수에 따라 제 1 오디오 신호 부분을 결정하도록 구성될 수 있으며, 여기서 복수의 필터 계수는 은닉된 오디오 신호 부분에 의존한다. 또한, 프로세서(210)는 예를 들어 후속하는 오디오 신호 부분 및 복수의 필터 계수에 따라 제 2 오디오 신호 부분을 결정하도록 구성될 수 있다.
일 실시예에 따르면, 프로세서(210)는 예를 들어 필터를 포함할 수 있다. 또한, 프로세서(210)는 예를 들어 은닉된 오디오 신호 부분에 필터 계수를 갖는 필터를 적용하여 제 1 오디오 신호 부분을 획득하도록 구성될 수 있다. 또한, 프로세서(210)는 예를 들어 후속하는 오디오 신호 부분에 필터 계수를 갖는 필터를 적용하여 제 2 오디오 신호 부분을 획득하도록 구성될 수 있다.
일 실시예에서, 복수의 필터 계수의 필터 계수는 예를 들어 선형 예측 필터의 선형 예측 코딩 파라미터일 수 있다.
일 실시예에 따르면, 프로세서(210)는 예를 들어 은닉된 오디오 신호 부분에
Figure pct00035
에 의해 정의된 코사인 윈도우를 적용하여 은닉되고 윈도윙된 신호 부분을 획득하도록 구성될 수 있다. 프로세서(210)는 예를 들어 은닉되고 윈도윙된 신호 부분에 따라 복수의 필터 계수를 결정하도록 구성될 수 있으며, 여기서 x 및 x1 및 x2 각각은 복수의 샘플 위치의 샘플 위치이다.
도 5는 이러한 실시예에 따른 여기 오버랩을 도시한다.
여기 오버랩을 구현하는 장치는 디코딩된 신호와 은닉된 프레임의 순방향 반복 사이에서 여기 도메인에서 크로스 페이딩을 행하여 2개의 신호 사이를 천천히 매끄럽게 한다.
이러한 실시예에 따른 장치 또는 방법은 예를 들어 다음과 같이 실현될 수 있다:
먼저, 16차 LPC 분석은 피치 적응 오버랩 방법에서 행해진 것과 동일한 해밍 코사인 윈도우로 이전 프레임의 사전 강조된 끝에서 행해진다(도 5의 단계 1 참조).
LPC 필터가 적용되어 은닉된 프레임 및 첫 번째로 양호한 프레임에서 여기 신호를 얻는다(도 5의 단계 2 참조)
복구 프레임을 구축하기 위해, 은닉된 프레임의 여기의 마지막 Tc 샘플은 순방향으로 반복되어 전체 프레임 길이를 생성한다(도 5의 단계 3 참조). 이것은 첫 번째로 양호한 프레임과 오버랩하기 위해 사용될 것이다.
확장된 여기는 첫 번째로 양호한 프레임에서 여기와 크로스 페이딩된다(도 5의 단계 4 참조).
그 후에, LPC 합성이 메모리가 은닉된 프레임의 마지막 사전 강조된 샘플인 크로스 페이딩된 신호에 적용되어(도 5의 단계 5 참조), 은닉된 프레임과 첫 번째로 양호한 프레임 사이의 전이를 매끄럽게 한다.
마지막으로, 강조해제 필터가 합성된 신호에 적용되어(도 5의 단계 6 참조) 원래 도메인에서 신호를 다시 얻는다.
새롭게 구성된 신호는 원래의 디코딩된 신호(도 5의 단계 7 참조)와 크로스 페이딩되어 프레임 경계에서 아티팩트를 방지한다.
다음에서, 실시예에 따른 에너지 감쇠가 설명된다.
도 1d는 제 1 오디오 신호 부분은 은닉된 오디오 신호 부분이고, 제 2 오디오 신호 부분은 후속하는 오디오 신호 부분인 실시예를 도시한다.
도 1d의 장치(300)는 도 1a의 장치(10)의 특정 실시예이다. 도 1d의 프로세서(310)는 도 1a의 프로세서(11)의 특정 실시예이다. 도 1d의 출력 인터페이스(320)는 도 1a의 출력 인터페이스(12)의 특정 실시예이다.
도 1d의 프로세서(310)는 예를 들어 제 1 오디오 신호 부분의 제 1 서브 부분인 은닉된 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성될 수 있으며, 제 1 서브 부분은 은닉된 오디오 신호 부분의 샘플 중 하나 이상을 포함하나, 은닉된 오디오 신호 부분보다 적은 샘플을 포함하고, 제 1 서브 부분의 샘플의 각각의 샘플 위치는 제 1 서브 부분에 포함되지 않는 은닉된 오디오 신호 부분의 임의의 샘플의 임의의 샘플 위치의 후속자이다.
또한, 도 1d의 프로세서(310)는 예를 들어 후속하는 오디오 신호 부분의 제 3 서브 부분을 결정하도록 구성될 수 있으며, 제 3 서브 부분은 후속하는 오디오 신호 부분의 샘플 중 하나 이상을 포함하나 후속하는 오디오 신호 부분보다 적은 샘플을 포함하고, 제 3 서브 부분의 각각의 샘플의 각각의 샘플 위치는 제 3 서브 부분에 포함되지 않는 후속하는 오디오 신호 부분의 임의의 샘플의 임의의 샘플 위치의 후속자이다.
또한, 도 1d의 프로세서(310)는 예를 들어 제 2 오디오 신호 부분의 제 2 서브 부분인 후속하는 오디오 신호 부분의 제 2 서브 부분을 결정하도록 구성될 수 있으며, 제 3 서브 부분에 포함되지 않는 후속하는 오디오 신호 부분의 임의의 샘플은 후속하는 오디오 신호 부분의 제 2 서브 부분에 포함된다.
도 1d에 따른 실시예에서, 프로세서(310)는 예를 들어 은닉된 오디오 신호 부분의 제 1 서브 부분의 샘플로부터 제 1 피크 샘플을 결정하도록 구성될 수 있으며, 제 1 피크 샘플의 샘플 값은 은닉된 오디오 신호 부분의 제 1 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이다. 도 1d의 프로세서(310)는 예를 들어 후속하는 오디오 신호 부분의 제 2 서브 부분의 샘플로부터 제 2 피크 샘플을 결정하도록 구성될 수 있으며, 제 2 피크 샘플의 샘플 값은 후속하는 오디오 신호 부분의 제 2 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이다. 또한, 도 1d의 프로세서(310)는 예를 들어 후속하는 오디오 신호 부분의 제 3 서브 부분의 샘플로부터 제 3 피크 샘플을 결정하도록 구성될 수 있으며, 제 3 피크 샘플의 샘플 값은 후속하는 오디오 신호 부분의 제 3 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이다.
조건이 충족되면, 그리고 오직 조건이 충족되는 경우에만, 도 1d의 프로세서(310)는 예를 들어 제 2 피크 샘플의 선행자인 후속하는 오디오 신호 부분의 각각의 샘플의 각각의 샘플 값을 수정하여, 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있다.
조건은 예를 들어 제 2 피크 샘플의 샘플 값이 제 1 피크 샘플의 샘플 값보다 크고, 제 2 피크 샘플의 샘플 값이 제 3 피크 샘플의 샘플 값보다 큰 것일 수 있다.
또는, 조건은 예를 들어 제 2 피크 샘플의 샘플 값과 제 1 피크 샘플의 샘플 값 사이의 제 1 비율이 제 1 임계 값보다 크고, 제 2 피크 샘플의 샘플 값과 제 3 피크 샘플의 샘플 값 사이의 제 2 비율이 제 2 임계 값보다 큰 것일 수 있다.
일 실시예에 따르면, 조건은 예를 들어 제 2 피크 샘플의 샘플 값이 제 1 피크 샘플의 샘플 값보다 크고, 제 2 피크 샘플의 샘플 값이 제 3 피크 샘플의 샘플 값보다 큰 것일 수 있다.
일 실시예에서, 조건은 예를 들어 제 1 비율이 제 1 임계 값보다 크고, 제 2 비율이 제 2 임계 값보다 큰 것일 수 있다.
일 실시예에 따르면, 제 1 임계 값은 예를 들어 1.1보다 클 수 있고, 제 2 임계 값은 예를 들어 1.1보다 클 수 있다.
일 실시예에서, 제 1 임계 값은 예를 들어 제 2 임계 값과 동일할 수 있다.
일 실시예에 따르면, 조건이 충족되면 그리고 조건이 충족되는 경우에만, 프로세서(310)는 예를 들어
smodified(Lframe+i) = s(Lframe+i)·α
따라 제 2 피크 샘플의 선행자인 후속하는 오디오 신호 부분의 각각의 샘플의 각각의 샘플 값을 수정하도록 구성될 수 있으며,
Lframe은 상기 후속하는 오디오 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 선행자인 상기 후속하는 오디오 신호 부분의 샘플의 샘플 위치를 나타내고,
여기서 Lframe+i는 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 위치를 나타내는 정수이고,
여기서 0 ≤ i ≤ Imax-1이고, 여기서 Imax-1은 제 2 피크 샘플의 샘플 위치를 나타내고,
여기서 s(Lframe+i)는 프로세서(310)에 의해 수정되기 전의 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 값이고,
여기서 smodified(Lframe+i)는 프로세서(310)에 의해 수정된 후의 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 값이고,
여기서 0 < αi < 1이다.
일 실시예에서,
Figure pct00036
이며, 여기서 Ecmax는 제 1 피크 샘플의 샘플 값이고, 여기서 Emax는 제 2 피크 샘플의 샘플 값이고, 여기서 Egmax는 제 3 피크 샘플의 샘플 값이다.
일 실시예에 따르면, 조건이 충족되면 그리고 조건이 충족되는 경우에만, 프로세서(310)는
smodified(Imax+k) = s(Imax+k)·αi
에 따라 제 2 피크 샘플의 후속자인 후속하는 오디오 신호 부분의 복수의 샘플의 2개 이상의 샘플의 각각의 샘플의 샘플 값을 수정하여 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있으며,
여기서 Imax+k는 후속하는 오디오 신호 부분의 Imax+k+1번째 샘플의 샘플 위치를 나타내는 정수이다.
도 6은 일 실시예에 따른 은닉된 프레임 및 양호한 프레임의 다른 도면이다. 특히, 도 6은 은닉된 오디오 신호 부분, 후속하는 오디오 신호 부분, 제 1 서브 부분, 제 2 서브 부분, 및 제 3 서브 부분을 도시한다.
에너지 감쇠가 사용되어 마지막 은닉된 프레임과 첫 번째로 양호한 프레임 사이에서 신호의 오버랩하는 부분에서 높은 에너지 증가를 제거한다. 이는 신호 영역을 피크 진폭 값으로 천천히 감쇠시킴으로써 행해진다.
일 실시예에 따른 접근법은 예를 들어 다음과 같이 구현될 수 있다:
Figure pct00037
다음에서
o 이전 은닉된 프레임의 마지막 Tc 샘플 : Ecmax
o 첫 번째로 양호한 프레임에서의 마지막 Tg 샘플 : Egmax
o 그리고 이들 영역 사이에서 최대 진폭 값: Emax를 찾는다.
Ecmax는 제 1 피크 샘플이고, Emax는 제 2 피크 샘플이고, Egmax는 제 3 피크 샘플이다.
Figure pct00038
Figure pct00039
이면, 첫 번째로 양호한 프레임의 디코딩된 신호가 감쇠될 것이다.
다른 실시예에서, (
Figure pct00040
이고
Figure pct00041
)이면,
첫 번째로 양호한 프레임이 감소될 것이다.
예를 들어,
Figure pct00042
이고
Figure pct00043
이다.
Figure pct00044
디코딩된 신호의 제 1 부분은 다음과 같이 감쇠될 것이다:
Figure pct00045
여기서 Imax는 Emax의 인덱스이고
Figure pct00046
이다.
Figure pct00047
제 2 부분은 다음과 같이 감소될 것이다:
Figure pct00048
여기서
Figure pct00049
이다.
바람직한 실시예에서, 안전상의 이유로, 에너지 감쇠는 예를 들어 크로스 페이딩된 신호에 적용되어, 복구 프레임에서 에너지가 크게 증가하는 위험을 제거할 수 있다.
이제, 실시예에 따른 상이한 개선된 전이 개념의 조합이 제공된다.
도 7a는 일 실시예에 따른 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템을 도시한다.
시스템은 스위칭 모듈(701), 도 1d를 참조하여 전술한 바와 같이 에너지 감쇠를 구현하기 위한 장치(300), 및 도 1b를 참조하여 전술한 바와 같은 피치 적응 오버랩을 구현하는 장치(100)를 포함한다.
스위칭 모듈(701)은 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 따라, 디코딩된 오디오 신호 부분을 생성하기 위해, 에너지 감쇠를 구현하기 위한 장치(300) 및 피치 적응 오버랩을 구현하기 위한 장치(100) 중 하나를 택하도록 구성된다.
도 7b는 또 다른 실시예에 따른 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템을 도시한다.
시스템은 스위칭 모듈(702), 도 1d를 참조하여 전술한 바와 같이 에너지 감쇠를 구현하기 위한 장치(300), 및 도 1c를 참조하여 전술한 바와 같은 여기 오버랩을 구현하는 장치(200)를 포함한다.
스위칭 모듈(702)은 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 따라, 디코딩된 오디오 신호 부분을 생성하기 위해, 에너지 감쇠를 구현하기 위한 장치(300) 및 여기 오버랩을 구현하기 위한 장치(100) 중 하나를 택하도록 구성된다.
도 7c는 다른 실시예에 따른 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템을 도시한다.
시스템은 스위칭 모듈(703), 도 1b를 참조하여 전술한 바와 같이 피치 적응 오버랩을 구현하기 위한 장치(100), 및 도 1c를 참조하여 전술한 바와 같은 여기 오버랩을 구현하는 장치(200)를 포함한다.
스위칭 모듈(703)은 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 따라, 디코딩된 오디오 신호 부분을 생성하기 위해, 피치 적응 오버랩을 구현하기 위한 장치(100) 및 여기 오버랩을 구현하기 위한 장치(200) 중 하나를 택하도록 구성된다.
도 7d는 또 다른 실시예에 따른 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템을 도시한다.
시스템은 스위칭 모듈(701), 도 1d를 참조하여 전술한 바와 같이 에너지 감쇠를 구현하기 위한 장치(300), 도 1b를 참조하여 전술한 바와 같이 피치 적응 오버랩을 구현하기 위한 장치(100), 및 도 1c를 참조하여 전술한 바와 같은 여기 오버랩을 구현하는 장치(200)를 포함한다.
스위칭 모듈(701)은 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 따라, 디코딩된 오디오 신호 부분을 생성하기 위해, 에너지 감쇠를 구현하기 위한 장치(300), 및 피치 적응 오버랩을 구현하기 위한 장치(100), 및 여기 오버랩을 구현하기 위한 장치(200) 중 하나를 택하도록 구성된다.
실시예에 따르면, 스위칭 모듈(704)은 예를 들어 은닉된 오디오 신호 프레임 및 후속하는 오디오 신호 프레임 중 적어도 하나가 음성을 포함하는지 여부를 결정하도록 구성될 수 있다. 또한, 스위칭 모듈(704)은 예를 들어 은닉된 오디오 신호 프레임 및 후속하는 오디오 신호 프레임이 음성을 포함하지 않는다면, 디코딩된 오디오 신호 부분을 생성하기 위해 에너지 감쇠을 구현하기 위한 장치(300)를 택하도록 구성될 수 있다.
실시예에서, 스위칭 모듈(704)은 예를 들어 후속하는 오디오 신호 프레임의 프레임 길이에 따라 그리고 은닉된 오디오 신호 부분의 피치 또는 후속하는 오디오 신호 부분의 피치 중 적어도 하나에 따라, 디코딩된 오디오 신호 부분을 생성하기 위해, 피치 적응 오버랩을 구현하기 위한 장치(100) 및 여기 오버랩을 구현하기 위한 장치(200) 및 에너지 감쇠를 구현하기 위한 장치(300) 중 상기 하나를 택하도록 구성될 수 있으며, 여기서 후속하는 오디오 신호 부분은 후속하는 오디오 신호 프레임의 오디오 신호 부분이다.
도 7e는 다른 실시예에 따른 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템을 도시한다.
도 7c에서와 같이, 도 7e의 시스템은 스위칭 모듈(703), 도 1b를 참조하여 전술한 바와 같이 피치 적응 오버랩을 구현하기 위한 장치(100), 및 도 1c를 참조하여 전술한 바와 같은 여기 오버랩을 구현하는 장치(200)를 포함한다.
스위칭 모듈(703)은 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 따라, 디코딩된 오디오 신호 부분을 생성하기 위해, 피치 적응 오버랩을 구현하기 위한 장치(100) 및 여기 오버랩을 구현하기 위한 장치(200) 중 하나를 택하도록 구성된다.
또한, 도 7e의 시스템은 도 1d를 참조하여 전술한 바와 같이 에너지 감쇠를 구현하기 위한 장치(300)를 더 포함한다.
도 7e의 스위칭 모듈(703)은 예를 들어 은닉된 오디오 신호 부분 및 후속하는 오디오 신호 부분에 따라, 중간 오디오 신호 부분을 생성하기 위해, 피치 적응 오버랩을 구현하기 위한 장치(100) 및 여기 오버랩을 구현하기 위한 장치(200) 중 상기 하나를 택하도록 구성될 수 있다.
도 7e의 실시예에서, 에너지 감쇠를 구현하기 위한 장치(300)는 예를 들어 중간 오디오 신호 부분을 처리하여 디코딩된 오디오 신호 부분을 생성하도록 구성될 수 있다.
이제, 특정 실시예가 설명된다. 특히, 스위칭 모듈들(701, 702, 703, 및 704)의 특정 구현에 대한 개념이 제공된다.
예를 들어, 상이한 개선된 전이 개념의 조합을 제공하는 제 1 실시예는 예를 들어 임의의 변환 도메인 코덱에 이용될 수 있다:
제 1 단계는 신호가 두드러진 피치와 같은 음성(그 예는 깨끗한 음성 항목, 배경 노이즈를 갖는 음성, 또는 음악이 있는 음성임)인지 여부를 검출하는 것이다.
신호가 음성이면
o 마지막 은닉된 프레임에서 피치 Tc를 찾는다
o 첫 번째로 양호한 프레임에서 피치 Tg를 찾는다
o 마지막 은닉된 프레임과 오버랩하는 부분에서 에너지가 증가하면
■ 양호한 프레임의 피치가 은닉된 피치와 3개를 초과하는 샘플만큼 다르다면
-> 복구 필터를 행한다
■ 그렇지 않으면
-> 에너지 감쇠를 행한다
Figure pct00050
그렇지 않으면
-> 에너지 감쇠를 행한다
위에서 복구 필터가 택해지면
Figure pct00051
은닉된 피치 Tc 또는 양호한 피치 Tg가 프레임 길이 Lframe보다 높으면
-> 에너지 감쇠를 행한다
Figure pct00052
그렇지 않고, 은닉된 피치 또는 양호한 피치가 프레임 길이 절반보다 높고 정규화된 상호 상관 값 xCorr이 임계치보다 작으면
-> 여기 오버랩을 행한다
Figure pct00053
그렇지 않고, 은닉된 피치 또는 양호한 피치가 프레임 길이 절반보다 낮으면
-> 피치 적응 오버랩을 적용한다
예를 들어, 처음에, 음성의 존재에 대해 은닉된 프레임이 테스트된다(음성이 존재하는지 여부는 예를 들어 은닉 기술로부터 알 수 있다). 나중에, 양호한 프레임은 예를 들어 정규화된 상호 상관 값 xCorr을 사용하여 예를 들어 음성의 존재에 대해 또한 테스트될 수 있다.
예를 들어 전술한 오버랩 부분은 예를 들어 도 6에 도시된 제 2 서브 부분 일 수 있는데, 이는 오버랩 부분이 제 1 샘플부터 "프레임 길이 - Tg" 샘플까지의 양호한 프레임이라는 것을 의미한다.
이제, 상이한 개선된 전이 개념의 조합을 제공하는 제 2 실시예가 제공된다. 이러한 제 2 실시예는 예를 들어 2개의 프레임 에러 은닉 방법이 시간 도메인 방법 및 주파수 도메인 방법인 AAC-ELD 코덱에 이용될 수 있다.
시간 도메인 방법은 피치 외삽 접근법으로 손실된 프레임을 합성하며, 이는 TD PLC라고 불린다([8] 참조).
주파수 도메인 방법은 이전 양호한 프레임의 부호 스크램블된 복사본을 사용하는 노이즈 대체(Noise Substitution, NS) 라 불리는 AAC-ELD 코덱에 대한 최첨단 은닉 방법이다.
제 2 실시예에서, 제 1 부는 최종 은닉 방법에 따라 이루어진다:
Figure pct00054
마지막 프레임이 TD PLC로 은닉되었으면:
o 첫 번째로 양호한 프레임에서 피치를 찾는다
o 마지막 은닉된 프레임과 오버랩하는 부분에서 에너지가 증가하면
■ 양호한 프레임의 피치가 은닉된 피치와 3개를 초과하는 샘플만큼 다르다면
-> 복구 필터를 행한다
■ 그렇지 않으면
-> 에너지 감쇠를 행한다
Figure pct00055
마지막 프레임이 NS로 은닉되었으면:
-> 에너지 감쇠를 행한다
또한, 제 2 실시예에서, 제 2 부는 다음과 같이 회복 필터에서 이루어진다:
Figure pct00056
은닉된 피치(은닉된 마지막 프레임의 피치) 또는 양호한 피치 Tg(첫 번째로 양호한 프레임의 피치)가 프레임 길이 Lframe보다 높으면
-> 에너지 감쇠를 행한다
Figure pct00057
은닉된 피치 또는 양호한 피치가 프레임 길이 절반보다 높고 정규화된 상호 상관 값 xCorr이 임계치보다 작으면
-> 여기 오버랩을 행한다
Figure pct00058
은닉된 피치 또는 양호한 피치가 프레임 길이 절반보다 낮으면
-> 피치 적응 오버랩을 적용한다
복수의 실시예가 제공되었다.
실시예에 따르면, 변환 도메인 코딩된 신호의 은닉된 손실된 프레임과 은닉된 손실된 프레임에 후속하는 변환 도메인 코딩된 하나 이상의 프레임 사이의 전이를 개선하기 위한 필터가 제공된다.
실시예에서, 필터는 예를 들어 상기 설명에 따라 추가로 구성될 수 있다.
실시예에 따르면, 전술된 실시예 중 하나에 따른 필터를 포함하는 변환 도메인 디코더가 제공된다.
또한, 전술한 바와 같은 변환 도메인 디코더에 의해 수행되는 방법이 제공된다.
또한, 전술한 바와 같은 방법을 수행하기 위한 컴퓨터 프로그램이 제공된다.
일부 양태가 장치의 맥락에서 설명되었지만, 이들 양태가 또한 대응하는 방법의 설명을 나타내는 것이 명백하며, 여기서 블록 및 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 양태는 또한 대응하는 블록 또는 품목 또는 대응하는 장치의 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전부는 예를 들어 마이크로프로세서, 프로그램 가능 컴퓨터, 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 사용하여) 실행될 수 있다. 일부 실시예에서, 가장 중요한 방법 단계 중 하나 이상이 그러한 장치에 의해 실행될 수 있다.
특정 구현 요건에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로, 또는 적어도 부분적으로는 하드웨어로, 또는 적어도 부분적으로는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루 레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
발명에 따른 일부 실시예는 본 명세서에 설명된 방법 중 하나가 수행되도록 프로그램 가능 컴퓨터 시스템과 협력할 수 있는 전자 판독 가능 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동될 때 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어 머신 판독 가능 캐리어에 저장될 수 있다.
다른 실시예는 기계 판독 가능 캐리어 상에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말해, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 구동되는 경우, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 다른 실시예는 그 위에 기록된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어, 디지털 저장 매체, 또는 기록 매체는 통상적으로 유형 및/또는 비일시적이다.
따라서, 본 발명의 방법의 다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그램 가능 논리 디바이스를 포함한다.
다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본 명세서에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 본 명세서에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
본 명세서에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본 명세서에 설명된 방법은 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
위에서 설명된 실시예는 본 발명의 원리를 예시하기 위한 것일 뿐이다. 본 명세서에 설명된 구성 및 세부사항의 수정 및 변형은 본 기술분야의 통상의 기술자에게 명백할 것으로 이해된다. 따라서, 곧 나올 청구범위의 범위에 의해서만 제한되고 본원의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.
참조문헌
[1] Philippe Gournay: "Improved Frame Loss Recovery Using Closed-Loop Estimation of Very Low Bit Rate Side Information", Interspeech 2008, Brisbane, Australia, 22-26 September, 2008.
[2] Mohamed Chibani, Roch Lefebvre, Philippe Gournay: "Resynchronization of the Adaptive Codebook in a Constrained CELP Codec after a frame erasure", 2006 International Conference on Acoustics, Speech and Signal Processing(ICASSP'2006), Toulouse, FRANCE March 14-19, 2006.
[3] S.- U.Ryu, E. Choy, and K. Rose, "Encoder assisted frame loss concealment for MPEG-AAC decoder", ICASSP IEEE Int. Conf. Acoust. Speech Signal Process Proc., vol.5, pp.169-172, May 2006.
[4] ISO/IEC 14496-3:2005/Amd 9:2008: Enhanced low delay AAC, available at:http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=46457
[5] J. Lecomte, et al, "Enhanced time domain packet loss concealment in switched speech/audio codec", submitted to IEEE ICASSP, Brisbane, Australia, Apr.2015.
[6] E. Moulines and J. Laroche, "Non-parametric techniques for pitch-scale and time-scale modification of speech", Speech Communication, vol. 16, pp. 175-205, 1995.
[7] European Patent EP 363233 B1: "Method and apparatus for speech synthesis by wave form overlapping and adding".
[8] International Patent Application WO 2015063045 A1: "Audio Decoder and Method for Providing a Decoded Audio Information using an Error Concealment Modifying a Time Domain Excitation Signal".
[9] Schnell, M.; Schmidt, M.; Jander, M.; Albert, T.; Geiger, R.; Ruoppila, V.; Ekstrand, P.; Grill, B., "MPEG-4 enhanced low delay AAC - a new standard for high quality communication", Audio Engineering Society: 125th Audio Engineering Society Convention 2008; October 2-5, 2008, San Francisco, USA.

Claims (43)

  1. 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10; 100; 200; 300)에 있어서,
    제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 상기 오디오 신호의 디코딩된 오디오 신호 부분을 생성하도록 구성되는 프로세서(11; 110; 210; 310) - 상기 제 1 오디오 신호 부분은 상기 은닉된 오디오 신호 부분에 의존하고, 상기 제 2 오디오 신호 부분은 상기 후속하는 오디오 신호 부분에 의존함 -; 및
    상기 디코딩된 오디오 신호 부분을 출력하기 위한 출력 인터페이스(12; 120; 220; 320);를 포함하고,
    상기 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분 및 상기 디코딩된 오디오 신호 부분 각각은 복수의 샘플을 포함하고, 상기 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분 및 상기 디코딩된 오디오 신호 부분의 복수의 샘플 각각은 복수의 샘플 위치의 샘플 위치 및 샘플 값에 의해 정의되고, 상기 복수의 샘플 위치는, 상기 복수의 샘플 위치 중 제 1 샘플 위치 및 상기 제 1 샘플 위치와 상이한, 상기 복수의 샘플 위치 중 제 2 샘플 위치의 각각의 쌍에 대해, 상기 제 1 샘플 위치가 상기 제 2 샘플 위치의 후속자 또는 선행자 중 어느 일방이도록 순서화되고,
    상기 프로세서(11; 110; 210; 310)는 상기 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성되고, 상기 제 1 서브 부분은 상기 제 1 오디오 신호 부분보다 적은 샘플을 포함하고,
    상기 프로세서(11; 110; 210; 310)는 상기 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 상기 제 2 오디오 신호 부분 또는 상기 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이한 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10; 100; 200; 300).
  2. 제1항에 있어서,
    상기 프로세서(110)는 상기 제 2 오디오 신호 부분의 제 2 서브 부분인 상기 제 2 오디오 신호 부분의 제 2 프로토타입 신호 부분을 결정하도록 구성되고, 상기 제 2 서브 부분은 상기 제2 오디오 신호 부분보다 적은 샘플을 포함하고,
    상기 프로세서(110)는 상기 제 1 서브 부분인 상기 제 1 프로토타입 신호 부분과 상기 제 2 프로토타입 신호 부분을 결합하여, 하나 이상의 중간 프로토타입 신호 부분 각각을 결정함으로써 상기 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성되고,
    상기 프로세서(110)는 상기 제 1 프로토타입 신호 부분을 사용하여 그리고 상기 하나 이상의 중간 프로토타입 신호 부분을 사용하여 그리고 제 2 프로토타입 신호 부분을 사용하여, 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  3. 제2항에 있어서,
    상기 프로세서(110)는 상기 제 1 프로토타입 신호 부분 및 상기 하나 이상의 중간 프로토타입 신호 부분 및 상기 제 2 프로토타입 신호 부분을 결합함으로써 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  4. 제2항 또는 제3항에 있어서,
    상기 프로세서(110)는 복수의 3개 이상의 마커 샘플 위치를 결정하도록 구성되고, 상기 3개 이상의 마커 샘플 위치 각각은 상기 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분 중 적어도 하나의 샘플 위치이고,
    상기 프로세서(110)는 상기 제 2 오디오 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 후속자인 상기 제 2 오디오 신호 부분의 샘플의 샘플 위치를 상기 3개 이상의 마커 샘플 위치 중 종료 샘플 위치로서 택하도록 구성되고,
    상기 프로세서(110)는 상기 제 1 오디오 신호 부분의 제 1 서브 부분과 상기 제 2 오디오 신호 부분의 제 2 서브 부분 사이의 상관에 따라 상기 제 1 오디오 신호 부분으로부터 샘플 위치를 선택함으로써 상기 3개 이상의 마커 샘플 위치 중 시작 샘플 위치를 결정하도록 구성되고,
    상기 프로세서(110)는 상기 3개 이상의 마커 샘플 위치 중 시작 샘플 위치 및 상기 3개 이상의 마커 샘플 위치 중 종료 샘플 위치에 따라 상기 3개 이상의 마커 샘플 위치 중 하나 이상의 중간 샘플 위치를 결정하도록 구성되고,
    상기 프로세서(110)는 상기 중간 샘플 위치에 따라 상기 제 1 프로토타입 신호 부분과 상기 제 2 프로토타입 신호 부분을 결합하여, 상기 하나 이상의 중간 프로토타입 신호 부분 각각에 대해 상기 하나 이상의 중간 프로토타입 신호 부분의 중간 프로토타입 신호 부분을 결정함으로써 상기 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  5. 제4항에 있어서,
    상기 프로세서(110)는
    sigi = (1-α)·sigfirst + α·siglast
    에 따라 상기 제 1 프로토타입 신호 부분과 상기 제 2 프로토타입 신호 부분을 결합하여, 상기 하나 이상의 중간 샘플 위치 각각에 대해 상기 하나 이상의 중간 프로토타입 신호 부분의 중간 프로토타입 신호 부분을 결정함으로써 상기 하나 이상의 중간 프로토타입 신호 부분을 결정하도록 구성되며,
    Figure pct00059
    이고,
    i는 i ≥ 1인 정수이고,
    nrOfMarkers는 상기 3개 이상의 마커 샘플 위치에서 1을 뺀 수이고,
    sigi는 상기 하나 이상의 중간 프로토타입 신호 부분의 i번째 중간 프로토타입 신호 부분이고,
    sigfirst는 상기 제 1 프로토타입 신호 부분이고,
    siglast는 상기 제 2 프로토타입 신호 부분인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  6. 제4항 또는 제5항에 있어서,
    상기 프로세서(110)는
    Figure pct00060

    또는
    Figure pct00061

    에 따라 상기 3개 이상의 마커 샘플 위치 중 하나 이상의 중간 샘플 위치를 결정하도록 구성되며,
    Figure pct00062
    이고,
    Figure pct00063
    이고,
    Figure pct00064
    이고,
    i는 i ≥ 1인 정수이고,
    nrOfMarkers는 상기 3개 이상의 마커 샘플 위치에서 1을 뺀 수이고,
    marki는 상기 3개 이상의 마커 샘플 위치 중 i번째 중간 샘플 위치이고,
    marki-1는 상기 3개 이상의 마커 샘플 위치 중 i-1번째 중간 샘플 위치이고,
    marki+1는 상기 3개 이상의 마커 샘플 위치 중 i+1번째 중간 샘플 위치이고,
    x0는 상기 3개 이상의 마커 샘플 위치 중 시작 샘플 위치이고,
    x1은 상기 3개 이상의 마커 샘플 위치 중 종료 샘플 위치이고,
    Tc는 피치 래그를 나타내는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  7. 제4항 내지 제6항 중 어느 한 항에 있어서,
    상기 프로세서(110)는 상기 제 1 프로토타입 신호 부분으로서, 상기 제 1 오디오 신호 부분의 복수의 서브 부분 후보의 각각의 서브 부분과 상기 제 2 오디오 신호 부분의 제 2 서브 부분의 복수의 상관에 따라 상기 제 1 오디오 신호 부분의 복수의 서브 부분 후보 중 서브 부분을 선택하도록 구성되고,
    상기 프로세서(110)는 상기 3개 이상의 마커 샘플 위치 중 시작 샘플 위치로서, 상기 제 1 프로토타입 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 선행자인 상기 제 1 프로토타입 신호 부분의 복수의 샘플의 샘플 위치를 선택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  8. 제7항에 있어서,
    상기 프로세서(110)는 상기 제 1 프로토타입 신호 부분으로서, 상기 제 2 서브 부분과의 상관이 상기 복수의 상관 중에서 가장 높은 상관 값을 갖는, 상기 서브 부분 후보 중의 서브 부분을 선택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  9. 제7항 또는 제8항에 있어서,
    상기 프로세서(110)는 상기 복수의 상관의 각각의 상관에 대해 공식
    Figure pct00065

    에 따라 상관 값을 결정하도록 구성되며,
    Lframe은 상기 제 1 오디오 신호 부분의 샘플의 수와 동일한 상기 제 2 오디오 신호 부분의 샘플의 수를 나타내고,
    r(2Lframe-i)은 샘플 위치 2LFrame-i에서 상기 제 2 오디오 신호 부분의 샘플의 샘플 값을 나타내고,
    r(Lframe-i-Δ)는 샘플 위치 Lframe-i-Δ에서 상기 제 1 오디오 신호 부분의 샘플의 샘플 값을 나타내고,
    상기 복수의 서브 부분 후보 중의 서브 부분 후보와 상기 제 2 서브 부분의 상기 복수의 상관 각각에 있어서, Δ는 수를 나타내며 상기 서브 부분 후보에 의존하는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  10. 제4항 내지 제9항 중 어느 한 항에 있어서,
    상기 프로세서(110)는 상기 은닉된 오디오 신호 부분 및 복수의 제 3 필터 계수에 따라 상기 제 1 오디오 신호 부분을 결정하도록 구성되며, 상기 복수의 제 3 필터 계수는 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 의존하고,
    상기 프로세서(110)는 상기 후속하는 오디오 신호 부분 및 상기 복수의 필터 계수에 따라 상기 제 2 오디오 신호 부분을 결정하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  11. 제10항에 있어서,
    상기 프로세서(110)는 필터를 포함하고,
    상기 프로세서(210)는 상기 은닉된 오디오 신호 부분에 상기 제 3 필터 계수를 갖는 필터를 적용하여 상기 제 1 오디오 신호 부분을 획득하도록 구성되고,
    상기 프로세서(110)는 상기 후속하는 오디오 신호 부분에 상기 제 3 필터 계수를 갖는 필터를 적용하여 상기 제 2 오디오 신호 부분을 획득하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  12. 제10항 또는 제11항에 있어서,
    상기 프로세서(110)는 상기 은닉된 오디오 신호 부분에 따라 복수의 제 1 필터 계수를 결정하도록 구성되고,
    상기 프로세서(110)는 상기 후속하는 오디오 신호 부분에 따라 복수의 제 2 필터 계수를 결정하도록 구성되고,
    상기 프로세서(110)는 상기 제 1 필터 계수 중 하나 이상 및 상기 제 2 필터 계수 중 하나 이상의 조합에 따라 상기 제 3 필터 계수 각각을 결정하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  13. 제12항에 있어서,
    상기 복수의 제 1 필터 계수 및 상기 복수의 제 2 필터 계수 및 상기 복수의 제 3 필터 계수의 필터 계수는 선형 예측 필터의 선형 예측 코딩 파라미터인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  14. 제12항 또는 제13항에 있어서,
    상기 프로세서(110)는 공식
    A = 0.5·Aconc + 0.5·Agood
    에 따라 상기 제 3 필터 계수의 각각의 필터 계수를 결정하도록 구성되며,
    A는 상기 필터 계수의 필터 계수 값을 나타내고,
    Aconc는 상기 복수의 제 1 필터 계수의 필터 계수의 계수 값을 나타내고,
    Agood은 상기 복수의 제 2 필터 계수의 필터 계수의 계수 값을 나타내는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  15. 제12항 내지 제14항 중 어느 한 항에 있어서,
    상기 프로세서(110)는 상기 은닉된 오디오 신호 부분에
    Figure pct00066

    에 의해 정의된 코사인 윈도우를 적용하여 은닉되고 윈도윙된 신호 부분을 획득하도록 구성되며,
    상기 프로세서(110)는 상기 후속하는 오디오 신호 부분에 상기 코사인 윈도우를 적용하여 후속하는 윈도윙된 신호 부분을 획득하도록 구성되고,
    상기 프로세서(110)는 상기 은닉되고 윈도윙된 신호 부분에 따라 상기 복수의 제 1 필터 계수를 결정하도록 구성되고,
    상기 프로세서(110)는 상기 후속하는 오디오 신호 부분에 따라 상기 복수의 제 2 필터 계수를 결정하도록 구성되고,
    x 및 x1 및 x2 각각은 상기 복수의 샘플 위치의 샘플 위치인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(100).
  16. 제1항에 있어서,
    상기 프로세서(210)는 제 1 확장된 신호 부분이 상기 제 1 오디오 신호 부분과 상이하고, 상기 제 1 확장된 신호 부분이 상기 제 1 서브 부분보다 많은 샘플을 갖도록, 상기 제 1 서브 부분에 따라 상기 제 1 확장된 신호 부분을 생성하도록 구성되고,
    상기 프로세서(210)는 상기 제 1 확장된 신호 부분 및 상기 제 2 오디오 신호 부분을 사용하여 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
  17. 제16항에 있어서,
    상기 프로세서(210)는 크로스 페이딩된 신호 부분을 획득하기 위해 상기 제 2 오디오 신호 부분과 상기 제 1 확장된 신호 부분의 크로스 페이딩을 행함으로써 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
  18. 제16항 또는 제17항에 있어서,
    상기 프로세서(210)는 상기 제 1 서브 부분의 길이가 상기 제 1 오디오 신호 부분의 피치 래그와 동일하도록 상기 제 1 오디오 신호 부분으로부터 상기 제 1 서브 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
  19. 제18항에 있어서,
    상기 프로세서(210)는 상기 제 1 확장된 신호 부분의 샘플의 수가 상기 제 1 오디오 신호 부분의 피치 래그의 샘플의 수에 상기 제 2 오디오 신호 부분의 샘플의 수를 더한 것과 동일하도록 상기 제 1 확장된 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
  20. 제16항 내지 제19항 중 어느 한 항에 있어서,
    상기 프로세서(210)는 상기 은닉된 오디오 신호 부분 및 복수의 필터 계수에 따라 상기 1 오디오 신호 부분을 결정하도록 구성되며, 상기 복수의 필터 계수는 상기 은닉된 오디오 신호 부분에 의존하고,
    상기 프로세서(210)는 상기 후속하는 오디오 신호 부분 및 상기 복수의 필터 계수에 따라 상기 제 2 오디오 신호 부분을 결정하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
  21. 제20항에 있어서,
    상기 프로세서(210)는 필터를 포함하고,
    상기 프로세서(210)는 상기 은닉된 오디오 신호 부분에 상기 필터 계수를 갖는 필터를 적용하여 상기 제 1 오디오 신호 부분을 획득하도록 구성되고,
    상기 프로세서(210)는 상기 후속하는 오디오 신호 부분에 상기 필터 계수를 갖는 필터를 적용하여 상기 제 2 오디오 신호 부분을 획득하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
  22. 제21항에 있어서,
    상기 복수의 필터 계수의 필터 계수는 선형 예측 필터의 선형 예측 코딩 파라미터인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
  23. 제20항 내지 제22항 중 어느 한 항에 있어서,
    상기 프로세서(210)는 상기 은닉된 오디오 신호 부분에
    Figure pct00067

    에 의해 정의된 코사인 윈도우를 적용하여 은닉되고 윈도윙된 신호 부분을 획득하도록 구성되며,
    상기 프로세서(210)는 상기 은닉되고 윈도윙된 오디오 신호 부분에 따라 상기 복수의 필터 계수를 결정하도록 구성되고,
    x 및 x1 및 x2 각각은 상기 복수의 샘플 위치의 샘플 위치인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(200).
  24. 제1항에 있어서,
    상기 제 1 오디오 신호 부분은 상기 은닉된 오디오 신호 부분이고, 상기 제 2 오디오 신호 부분은 상기 후속하는 오디오 신호 부분이고,
    상기 프로세서(310)는 상기 제 1 오디오 신호 부분의 제 1 서브 부분인, 상기 은닉된 오디오 신호 부분의 제 1 서브 부분을 결정하도록 구성되며, 상기 제 1 서브 부분은 상기 은닉된 오디오 신호 부분의 샘플 중 하나 이상을 포함하나 상기 은닉된 오디오 신호 부분보다 적은 샘플을 포함하고, 상기 제 1 서브 부분의 샘플의 각각의 샘플 위치는 상기 제 1 서브 부분에 포함되지 않는 상기 은닉된 오디오 신호 부분의 임의의 샘플의 임의의 샘플 위치의 후속자이고,
    상기 프로세서(310)는 상기 후속하는 오디오 신호 부분의 제 3 서브 부분을 결정하도록 구성되며, 상기 제 3 서브 부분은 상기 후속하는 오디오 신호 부분의 샘플 중 하나 이상을 포함하나 상기 후속하는 오디오 신호 부분보다 적은 샘플을 포함하고, 상기 제 3 서브 부분 각각의 샘플의 각각의 샘플 위치는 상기 제 3 서브 부분에 포함되지 않는 상기 후속하는 오디오 신호 부분의 임의의 샘플의 임의의 샘플 위치의 후속자이고,
    상기 프로세서(310)는 상기 제 2 오디오 신호 부분의 제 2 서브 부분인, 상기 후속하는 오디오 신호 부분의 제 2 서브 부분을 결정하도록 구성되며, 상기 제 3 서브 부분에 포함되지 않는 상기 후속하는 오디오 신호 부분의 임의의 샘플은 상기 후속하는 오디오 신호 부분의 제 2 서브 부분에 포함되고,
    상기 프로세서(310)는 상기 은닉된 오디오 신호 부분의 제 1 서브 부분의 샘플로부터 제 1 피크 샘플을 결정하도록 구성되며, 상기 제 1 피크 샘플의 샘플 값은 상기 은닉된 오디오 신호 부분의 제 1 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이고, 상기 프로세서(310)는 상기 후속하는 오디오 신호 부분의 제 2 서브 부분의 샘플로부터 제 2 피크 샘플을 결정하도록 구성되며, 상기 제 2 피크 샘플의 샘플 값은 상기 후속하는 오디오 신호 부분의 제 2 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이고, 상기 프로세서(310)는 상기 후속하는 오디오 신호 부분의 제 3 서브 부분의 샘플로부터 제 3 피크 샘플을 결정하도록 구성되며, 상기 제 3 피크 샘플의 샘플 값은 상기 후속하는 오디오 신호 부분의 제 3 서브 부분의 임의의 다른 샘플의 임의의 다른 샘플 값 이상이고,
    조건이 충족되면 그리고 오직 조건이 충족되는 경우에만, 상기 프로세서(310)는 상기 제 2 피크 샘플의 선행자인 상기 후속하는 오디오 신호 부분의 각각의 샘플의 각각의 샘플 값을 수정하여, 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되고,
    상기 조건은 상기 제 2 피크 샘플의 샘플 값이 상기 제 1 피크 샘플의 샘플 값보다 크고, 상기 제 2 피크 샘플의 샘플 값이 상기 제 3 피크 샘플의 샘플 값보다 큰 것이거나,
    상기 조건은 상기 제 2 피크 샘플의 샘플 값과 상기 제 1 피크 샘플의 샘플 값 사이의 제 1 비율이 제 1 임계 값보다 크고, 상기 제 2 피크 샘플의 샘플 값과 상기 제 3 피크 샘플의 샘플 값 사이의 제 2 비율이 제 2 임계 값보다 큰 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
  25. 제24항에 있어서,
    상기 조건은 상기 제 2 피크 샘플의 샘플 값이 상기 제 1 피크 샘플의 샘플 값보다 크고, 상기 제 2 피크 샘플의 샘플 값이 상기 제 3 피크 샘플의 샘플 값보다 큰 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
  26. 제24항에 있어서,
    상기 조건은 상기 제 1 비율이 상기 제 1 임계 값보다 크고, 상기 제 2 비율이 상기 제 2 임계 값보다 큰 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
  27. 제26항에 있어서,
    상기 제 1 임계 값은 1.1보다 크고, 상기 제 2 임계 값은 1.1보다 큰 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
  28. 제26항 또는 제27항에 있어서,
    상기 제 1 임계 값은 상기 제 2 임계 값과 동일한 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
  29. 제24항 내지 제28항 중 어느 한 항에 있어서,
    상기 조건이 충족되면 그리고 상기 조건이 충족되는 경우에만, 상기 프로세서(310)는
    smodified(Lframe+i) = s(Lframe+i)·αi
    에 따라 상기 제 2 피크 샘플의 선행자인 상기 후속하는 오디오 신호 부분의 각각의 샘플의 각각의 샘플 값을 수정하도록 구성되며,
    Lframe은 상기 후속하는 오디오 신호 부분의 임의의 다른 샘플의 임의의 다른 샘플 위치에 대해 선행자인 상기 후속하는 오디오 신호 부분의 샘플의 샘플 위치를 나타내고,
    Lframe+i는 상기 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 위치를 나타내는 정수이고,
    0 ≤ i ≤ Imax-1이고, Imax-1은 상기 제 2 피크 샘플의 샘플 위치를 나타내고,
    s(Lframe+i)는 상기 프로세서(310)에 의해 수정되기 전의 상기 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 값이고,
    smodified(Lframe+i)는 상기 프로세서(310)에 의해 수정된 후의 상기 후속하는 오디오 신호 부분의 i+1번째 샘플의 샘플 값이고,
    0 < αi < 1인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
  30. 제29항에 있어서,
    Figure pct00068

    이며,
    Ecmax는 상기 제 1 피크 샘플의 샘플 값이고,
    Emax는 상기 제 2 피크 샘플의 샘플 값이고,
    Egmax는 상기 제 3 피크 샘플의 샘플 값인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
  31. 제29항 또는 제30항에 있어서,
    상기 조건이 충족되면 그리고 상기 조건이 충족되는 경우에만, 상기 프로세서(310)는
    smodified(Imax+k) = s(Imax+k)·αi
    에 따라 상기 제 2 피크 샘플의 후속자인 상기 후속하는 오디오 신호 부분의 복수의 샘플의 2개 이상의 샘플의 각각의 샘플의 샘플 값을 수정하여 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되며,
    Imax+k는 상기 후속하는 오디오 신호 부분의 Imax+k+1번째 샘플의 샘플 위치를 나타내는 정수인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(300).
  32. 제1항 내지 제31항 중 어느 한 항에 있어서,
    상기 장치(10; 100; 200; 300)는 에러가 있거나 손실된 현재 프레임에 대한 은닉을 행하여 상기 은닉된 오디오 신호 부분을 획득하도록 구성되는 은닉 유닛(8)을 더 포함하는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10; 100; 200; 300).
  33. 제32항에 있어서,
    상기 장치(10; 100; 200; 300)는 상기 현재 프레임이 손실되었거나 에러가 있는지 여부를 검출하도록 구성되는 활성화 유닛(6)을 더 포함하며, 상기 활성화 유닛(6)은 상기 현재 프레임이 손실되었거나 에러가 있으면, 상기 현재 프레임에 대한 은닉을 행하기 위해 상기 은닉 유닛(8)을 활성화시키도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10; 100; 200; 300).
  34. 제33항에 있어서,
    상기 활성화 유닛(6)은 상기 현재 프레임이 손실되었거나 에러가 있으면, 에러가 없는 후속하는 프레임이 도착하는지 여부를 검출하도록 구성되고,
    상기 활성화 유닛(6)은 상기 현재 프레임이 손실되었거나 에러가 있으면, 그리고 상기 에러가 없는 후속하는 프레임이 도착하면, 상기 디코딩된 오디오 신호 부분을 생성하기 위해 프로세서(8)를 활성화시키도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치(10; 100; 200; 300).
  35. 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하는 방법에 있어서,
    제 1 오디오 신호 부분 및 제 2 오디오 신호 부분에 따라 상기 오디오 신호의 디코딩된 오디오 신호 부분을 생성하는 단계 - 상기 제 1 오디오 신호 부분은 상기 은닉된 오디오 신호 부분에 의존하고, 상기 제 2 오디오 신호 부분은 상기 후속하는 오디오 신호 부분에 의존함 -; 및
    상기 디코딩된 오디오 신호 부분을 출력하는 단계;를 포함하고,
    상기 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분 및 상기 디코딩된 오디오 신호 부분 각각은 복수의 샘플을 포함하고, 상기 제 1 오디오 신호 부분 및 상기 제 2 오디오 신호 부분 및 상기 디코딩된 오디오 신호 부분의 복수의 샘플 각각은 복수의 샘플 위치의 샘플 위치 및 샘플 값에 의해 정의되고, 상기 복수의 샘플 위치는, 상기 복수의 샘플 위치 중 제 1 샘플 위치 및 상기 제 1 샘플 위치와 상이한, 상기 복수의 샘플 위치 중 제 2 샘플 위치의 각각의 쌍에 대해, 상기 제 1 샘플 위치가 상기 제 2 샘플 위치의 후속자 또는 선행자 중 어느 일방이도록 순서화되고,
    상기 디코딩된 오디오 신호 부분을 생성하는 단계는 상기 제 1 오디오 신호 부분의 제 1 서브 부분을 결정하는 단계를 포함하며, 상기 제 1 서브 부분은 상기 제 1 오디오 신호 부분보다 적은 샘플을 포함하고,
    상기 디코딩된 오디오 신호 부분을 생성하는 단계는 상기 제 1 오디오 신호 부분의 제 1 서브 부분을 사용하여 그리고 상기 제 2 오디오 신호 부분 또는 상기 제 2 오디오 신호 부분의 제 2 서브 부분을 사용하여 행해지며, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플의 각각의 샘플에 대해, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 위치는 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 위치와 동일하고, 상기 제 2 오디오 신호 부분의 2개 이상의 샘플 중의 샘플의 샘플 값은 상기 디코딩된 오디오 신호 부분의 샘플 중 하나의 샘플 값과 상이한 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하는 방법.
  36. 컴퓨터 또는 신호 프로세서 상에서 실행되는 경우 제35항의 방법을 구현하기 위한 컴퓨터 프로그램.
  37. 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템에 있어서,
    스위칭 모듈(701);
    에너지 감쇠를 구현하기 위한 장치(300)인 제24항 내지 제31항 중 어느 한 항에 따른 장치(300); 및
    피치 적응 오버랩을 위한 장치(100)인 제2항 내지 제15항 중 어느 한 항에 따른 장치(100);를 포함하고,
    상기 스위칭 모듈(701)은 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 따라, 상기 디코딩된 오디오 신호 부분을 생성하기 위해, 상기 에너지 감쇠를 구현하기 위한 장치(300) 및 상기 피치 적응 오버랩을 구현하기 위한 장치(100) 중 하나를 택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
  38. 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템에 있어서,
    스위칭 모듈(702);
    에너지 감쇠를 구현하기 위한 장치(300)인 제24항 내지 제31항 중 어느 한 항에 따른 장치(300); 및
    여기 오버랩을 구현하기 위한 장치(200)인 제16항 내지 제23항 중 어느 한 항에 따른 장치(200);를 포함하고,
    상기 스위칭 모듈(702)은 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 따라, 상기 디코딩된 오디오 신호 부분을 생성하기 위해, 상기 에너지 감쇠를 구현하기 위한 장치(300) 및 상기 여기 오버랩을 구현하기 위한 장치(200) 중 하나를 택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
  39. 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템에 있어서,
    스위칭 모듈(703);
    피치 적응 오버랩을 구현하기 위한 장치(100)인 제2항 내지 제15항 중 어느 한 항에 따른 장치(100); 및
    여기 오버랩을 구현하기 위한 장치(200)인 제16항 내지 제23항 중 어느 한 항에 따른 장치(200);를 포함하고,
    상기 스위칭 모듈(703)은 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 따라, 상기 디코딩된 오디오 신호 부분을 생성하기 위해, 상기 피치 적응 오버랩을 구현하기 위한 장치(100) 및 상기 여기 오버랩을 구현하기 위한 장치(200) 중 하나를 택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
  40. 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템에 있어서,
    스위칭 모듈(704);
    피치 적응 오버랩을 구현하기 위한 장치(100)인 제2항 내지 제15항 중 어느 한 항에 따른 장치(100);
    여기 오버랩을 구현하기 위한 장치(200)인 제16항 내지 제23항 중 어느 한 항에 따른 장치(200); 및
    에너지 감쇠를 구현하기 위한 장치(300)인 제24항 내지 제31항 중 어느 한 항에 따른 장치(300);를 포함하고,
    상기 스위칭 모듈(704)은 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 따라, 상기 디코딩된 오디오 신호 부분을 생성하기 위해, 상기 피치 적응 오버랩을 구현하기 위한 장치(100) 및 상기 여기 오버랩을 구현하기 위한 장치(200) 및 상기 에너지 감쇠를 구현하기 위한 장치(300) 중 하나를 택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
  41. 제40항에 있어서,
    상기 스위칭 모듈(704)은 은닉된 오디오 신호 프레임 및 후속하는 오디오 신호 프레임 중 적어도 하나가 음성을 포함하는지 여부를 결정하도록 구성되고,
    상기 스위칭 모듈(704)은 상기 은닉된 오디오 신호 프레임 및 상기 후속하는 오디오 신호 프레임이 음성을 포함하지 않는다면, 상기 디코딩된 오디오 신호 부분을 생성하기 위해 상기 에너지 감쇠을 구현하기 위한 장치(300)를 택하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
  42. 제40항 또는 제41항에 있어서,
    상기 스위칭 모듈(704)은 후속하는 오디오 신호 프레임의 프레임 길이에 따라 그리고 상기 은닉된 오디오 신호 부분의 피치 또는 상기 후속하는 오디오 신호 부분의 피치 중 적어도 하나에 따라, 상기 디코딩된 오디오 신호 부분을 생성하기 위해, 상기 피치 적응 오버랩을 구현하기 위한 장치(100) 및 상기 여기 오버랩을 구현하기 위한 장치(200) 및 상기 에너지 감쇠를 구현하기 위한 장치(300) 중 상기 하나를 택하도록 구성되며, 상기 후속하는 오디오 신호 부분은 상기 후속하는 오디오 신호 프레임의 오디오 신호 부분인 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
  43. 제39항에 있어서,
    상기 시스템은 에너지 감쇠를 구현하기 위한 장치(300)인 제24항 내지 제31항 중 어느 한 항에 따른 장치(300)를 더 포함하고,
    상기 스위칭 모듈(703)은 상기 은닉된 오디오 신호 부분 및 상기 후속하는 오디오 신호 부분에 따라, 중간 오디오 신호 부분을 생성하기 위해, 상기 피치 적응 오버랩을 구현하기 위한 장치(100) 및 상기 여기 오버랩을 구현하기 위한 장치(200) 중 하나를 택하도록 구성되고,
    상기 에너지 감쇠를 구현하기 위한 장치(300)는 상기 중간 오디오 신호 부분을 처리하여 상기 디코딩된 오디오 신호 부분을 생성하도록 구성되는 것을 특징으로 하는 오디오 신호의 은닉된 오디오 신호 부분으로부터 오디오 신호의 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 시스템.
KR1020187023876A 2016-01-29 2017-01-26 오디오 신호의 은닉된 오디오 신호 부분으로부터 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치 및 방법 KR102230089B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP16153409 2016-01-29
EP16153409.4 2016-01-29
PCT/EP2016/060776 WO2017129270A1 (en) 2016-01-29 2016-05-12 Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal
EPPCT/EP2016/060776 2016-05-12
PCT/EP2017/051623 WO2017129665A1 (en) 2016-01-29 2017-01-26 Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal

Publications (2)

Publication Number Publication Date
KR20180123664A true KR20180123664A (ko) 2018-11-19
KR102230089B1 KR102230089B1 (ko) 2021-03-19

Family

ID=55300366

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187023876A KR102230089B1 (ko) 2016-01-29 2017-01-26 오디오 신호의 은닉된 오디오 신호 부분으로부터 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치 및 방법

Country Status (11)

Country Link
US (1) US10762907B2 (ko)
EP (1) EP3408852B1 (ko)
JP (1) JP6789304B2 (ko)
KR (1) KR102230089B1 (ko)
CN (1) CN108885875B (ko)
BR (1) BR112018015479A2 (ko)
CA (1) CA3012547C (ko)
ES (1) ES2843851T3 (ko)
MX (1) MX2018009145A (ko)
RU (1) RU2714238C1 (ko)
WO (1) WO2017129270A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492832A (zh) * 2018-03-21 2018-09-04 北京理工大学 基于小波变换的高质量声音变换方法
WO2020164751A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
US20220312005A1 (en) * 2019-06-19 2022-09-29 Electronics And Telecommunications Research Institute Method, apparatus, and recording medium for encoding/decoding image

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110022924A1 (en) * 2007-06-14 2011-01-27 Vladimir Malenovsky Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711
US20110125505A1 (en) * 2005-12-28 2011-05-26 Voiceage Corporation Method and Device for Efficient Frame Erasure Concealment in Speech Codecs
US20110208517A1 (en) * 2010-02-23 2011-08-25 Broadcom Corporation Time-warping of audio signals for packet loss concealment
US20120010882A1 (en) * 2006-08-15 2012-01-12 Broadcom Corporation Constrained and controlled decoding after packet loss
KR20150021034A (ko) * 2012-06-08 2015-02-27 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2636163B1 (fr) 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
US20050044471A1 (en) * 2001-11-15 2005-02-24 Chia Pei Yen Error concealment apparatus and method
JP4215448B2 (ja) * 2002-04-19 2009-01-28 日本電気株式会社 音声復号装置及び音声復号方法
JP4744438B2 (ja) 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US8812306B2 (en) * 2006-07-12 2014-08-19 Panasonic Intellectual Property Corporation Of America Speech decoding and encoding apparatus for lost frame concealment using predetermined number of waveform samples peripheral to the lost frame
US8731913B2 (en) * 2006-08-03 2014-05-20 Broadcom Corporation Scaled window overlap add for mixed signals
KR101291193B1 (ko) * 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
JP5255358B2 (ja) 2008-07-25 2013-08-07 パナソニック株式会社 音声伝送システム
CN103229234B (zh) * 2010-11-22 2015-07-08 株式会社Ntt都科摩 音频编码装置、方法以及音频解码装置、方法
CN103714821A (zh) * 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
SG11201510459YA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Jitter buffer control, audio decoder, method and computer program
KR101940740B1 (ko) 2013-10-31 2019-01-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
EP3107096A1 (en) * 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125505A1 (en) * 2005-12-28 2011-05-26 Voiceage Corporation Method and Device for Efficient Frame Erasure Concealment in Speech Codecs
US20120010882A1 (en) * 2006-08-15 2012-01-12 Broadcom Corporation Constrained and controlled decoding after packet loss
US20110022924A1 (en) * 2007-06-14 2011-01-27 Vladimir Malenovsky Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711
US20110208517A1 (en) * 2010-02-23 2011-08-25 Broadcom Corporation Time-warping of audio signals for packet loss concealment
KR20150021034A (ko) * 2012-06-08 2015-02-27 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치

Also Published As

Publication number Publication date
BR112018015479A2 (pt) 2018-12-18
CA3012547A1 (en) 2017-08-03
RU2714238C1 (ru) 2020-02-13
CN108885875B (zh) 2023-10-13
EP3408852A1 (en) 2018-12-05
US10762907B2 (en) 2020-09-01
JP2019510999A (ja) 2019-04-18
CN108885875A (zh) 2018-11-23
US20190122672A1 (en) 2019-04-25
KR102230089B1 (ko) 2021-03-19
ES2843851T3 (es) 2021-07-20
WO2017129270A1 (en) 2017-08-03
CA3012547C (en) 2021-12-28
EP3408852B1 (en) 2020-12-02
MX2018009145A (es) 2018-12-06
JP6789304B2 (ja) 2020-11-25

Similar Documents

Publication Publication Date Title
KR100956526B1 (ko) 보코더에서 프레임을 위상 매칭하는 방법 및 장치
US6952668B1 (en) Method and apparatus for performing packet loss or frame erasure concealment
US8185386B2 (en) Method and apparatus for performing packet loss or frame erasure concealment
KR101513184B1 (ko) 계층적 디코딩 구조에서의 디지털 오디오 신호의 송신 에러에 대한 은닉
KR100956623B1 (ko) 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법
CN105793924A (zh) 用于使用修改时域激励信号的错误隐藏提供经解码的音频信息的音频解码器及方法
CN105765651A (zh) 用于使用基于时域激励信号的错误隐藏提供经解码的音频信息的音频解码器及方法
CN109155133B (zh) 音频帧丢失隐藏的错误隐藏单元、音频解码器及相关方法
KR101689766B1 (ko) 음성 복호 장치, 음성 복호 방법, 음성 부호화 장치, 및 음성 부호화 방법
KR102230089B1 (ko) 오디오 신호의 은닉된 오디오 신호 부분으로부터 후속하는 오디오 신호 부분까지의 전이를 개선하기 위한 장치 및 방법
WO2000041163A2 (en) A method and apparatus for determining speech coding parameters
KR100594599B1 (ko) 수신단 기반의 패킷 손실 복구 장치 및 그 방법
Ryu et al. Encoder assisted frame loss concealment for MPEG-AAC decoder
WO2017129665A1 (en) Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal
KR20220006510A (ko) 사운드 신호에 있어서의 어택을 검출하고 검출된 어택을 코딩하는 방법들 및 디바이스들
MX2008008477A (es) Metodo y dispositivo para ocultamiento eficiente de borrado de cuadros en codec de voz

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant