KR20150056770A - 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치 - Google Patents

손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치 Download PDF

Info

Publication number
KR20150056770A
KR20150056770A KR1020157006324A KR20157006324A KR20150056770A KR 20150056770 A KR20150056770 A KR 20150056770A KR 1020157006324 A KR1020157006324 A KR 1020157006324A KR 20157006324 A KR20157006324 A KR 20157006324A KR 20150056770 A KR20150056770 A KR 20150056770A
Authority
KR
South Korea
Prior art keywords
frame
band
current frame
previous
attenuation constant
Prior art date
Application number
KR1020157006324A
Other languages
English (en)
Inventor
정규혁
전혜정
강인규
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20150056770A publication Critical patent/KR20150056770A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치에 관한 것으로서, 본 발명에 따른 오디오 신호의 프레임 손실 복원 방법은 현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑하는 단계, 그룹핑된 대역들의 토널 정도에 따라서 감쇄 상수를 유도하는 단계 및 현재 프레임의 이전 프레임에 감쇄 상수를 적용하여 현재 프레임의 변환 계수를 복원하는 단계를 포함한다.

Description

손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치{FRAME LOSS RECOVERING METHOD, AND AUDIO DECODING METHOD AND DEVICE USING SAME}
본 발명은 오디오(audio) 신호의 부호화 및 복호화에 관한 것으로서, 구체적으로 오디오 신호의 복호화 과정에서 손실을 복구하는 방법 및 장치에 관한 것이다.
더 구체적으로, 본 발명은 디지털 통신 환경에서 음성 및 오디오 부호화기로부터의 비트스트림이 손실되었을 경우에 대한 복원 발명과 이를 이용하는 장치에 관한 것이다.
일반적으로, 오디오 신호는 다양한 주파수의 신호가 포함되어 있고, 사람의 가청 주파수는, 20Hz-20kHz인데 비해, 보통 사람의 음성은 약 200Hz-3kHz 영역에 존재한다. 입력 오디오 신호는 사람의 음성이 존재하는 대역뿐만 아니라, 사람의 음성이 존재하기 어려운 7kHz 이상의 고주파 영역의 성분까지 포함하는 경우가 있다.
최근 네트워크의 발달과 고품질 서비스에 대한 사용자 요구가 증가하고 있으며, 협대역(Narrow Band: NB, 이하 ‘NB’라 함), 광대역(Wide Band: WB, 이하 'WB'라 함), 초광대역(Super Wide Band: SWB, 이하 'SWB'라 함)과 같이 폭넓은 대역을 통해 오디오 신호를 전송하고 있다.
이와 관련하여 WB(샘플링 레이트(sampling rate)가 ~ 약 16 kHz) 의 신호에 대해서, NB(샘플링 레이트가 ~ 약 8 kHz)에 적합한 부호화 방식을 적용하게 되면, 음질의 열화가 발생되는 문제점이 있다.
또한 SWB(샘플링 레이트가 ~ 약 32 kHz)의 신호에 대해서 NB(샘플링 레이트가 ~ 약 8 kHz)에 적합한 부호화 방식이나 WB(샘플링 레이트(sampling rate)가 ~ 약 16 kHz) 에 적합한 부호화 방식을 적용하게 되면 음질의 열화가 발생되는 문제점이 있다.
따라서, NB부터 WB 또는 SWB에 이르는 다양한 대역에 대하여, 혹은 다양한 대역 사이에서 통신 환경을 포함하는 다양한 환경에서 사용 가능한 음성 및 오디오 부호화 장치/복호화 장치에 관한 개발이 진행되고 있다.
한편, 음성 신호의 부호화 과정 혹은 부호화된 정보의 전송 과정에서는 정보의 손실이 발생할 수 있다. 이 경우, 복호화 과정에서는, 손실된 정보의 복원 혹은 은닉을 위한 프로세스가 수행될 수 있다. 상술한 바와 같이, 대역별로 최적화된 부호화/복호화 방법이 사용되는 있는 상황에서, SWB 신호에 손실이 발생하는 경우에는 WB의 손실에 대처하는 방법과는 다른 방법으로 손실을 복원하거나 은닉할 필요가 있다.
본 발명은 손실된 현재 프레임의 MDCT 계수를 복원하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은 추가적인 지연이 없는 손실 복구 방법으로서 현재 프레임 이전의 정상 프레임들 간의 상관 관계를 통해 현재 프레임의 MDCT 계수를 복원하기 위한 스케일링 계수(감쇄 상수)들을 대역별로 적응적으로 구하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 손실된 현재 프레임의 바로 이전 프레임뿐만 아니라 현재 프레임 이전 복수 개의 정상 프레임을 이용하여 감쇄 상수를 적응적으로 산출하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 대역별 특징을 반영하여 감쇄 상수를 적용하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 현재 프레임 이전 소정 개수의 정상 프레임들을 기반으로 대역별 토널 정도에 따라 감쇄 상수를 유도하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 손실된 현재 프레임 이전 정상 프레임들의 변환 계수 특성을 반영하여 현재 프레임을 복원하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 연속된 프레임 손실이 있는 경우에도, 단순히 선행 감쇄를 전제로 프레임 복원을 수행하는 것이 아니라, 단일 프레임 손실에 적용하기 위해 유도된 감쇄 상수 및/또는 연속 프레임 손실에 적용하기 위해 유도된 감쇄 상수를 이전 프레임의 복원된 변환 계수에 적용함으로써 효과적으로 신호를 복원하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 일 실시형태는 오디오 신호의 프레임 손실 복원 방법으로서, 현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑하는 단계, 그룹핑된 대역들의 토널 정도에 따라서 감쇄 상수를 유도하는 단계 및 현재 프레임의 이전 프레임에 감쇄 상수를 적용하여 현재 프레임의 변환 계수를 복원하는 단계를 포함한다.
본 발명의 다른 실시형태는 오디오 복호화 방법으로서, 현재 프레임의 손실 여부를 판단하는 단계, 현재 프레임이 손실된 경우에 현재 프레임의 이전 프레임들의 변환 계수들을 기반으로 현재 프레임의 변환 계수를 복원하는 단계 및 복원된 변환 계수를 역변환하는 단계를 포함하며, 변환 계수를 복원하는 단계에서는 이전 프레임들 중 적어도 한 프레임의 변환 계수들의 대역별 토널 정도를 기반으로 현재 프레임의 변환 계수를 복원할 수 있다.
본 발명에 의하면, 손실된 현재 프레임의 바로 이전 프레임뿐만 아니라 현재 프레임 이전 복수 개의 정상 프레임을 이용하여 감쇄 상수를 적응적으로 산출함으로써, 복원 효과를 크게 높일 수 있다.
본 발명에 의하면, 대역별 특징을 반영하여 감쇄 상수를 적용함으로써 대역별 특성이 반영된 복원 효과를 얻을 수 있다.
본 발명에 의하면, 현재 프레임 이전 소정 개수의 정상 프레임들을 기반으로 대역별 토널 정도에 따라 감쇄 상수를 유도할 수 있으므로, 대역 특성을 고려하여 감쇄 상수를 적응적으로 적용할 수 있다.
본 발명에 의하면, 손실된 현재 프레임 이전 정상 프레임들의 변환 계수 특성을 반영하여 현재 프레임을 복원할 수 있으므로 복원 성능을 향상 시킬 수 있다.
본 발명에 의하면, 연속된 프레임 손실이 있는 경우에도, 단순히 선행 감쇄를 전제로 프레임 복원을 수행하는 것이 아니라, 단일 프레임 손실에 적용하기 위해 유도된 감쇄 상수 및/또는 연속 프레임 손실에 적용하기 위해 유도된 감쇄 상수를 이전 프레임의 복원된 변환 계수에 적용함으로써 더 효과적으로 신호를 복원할 수 있다.
도 1은 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 부호화기 구성의 일 예를 개략적으로 나타낸 것이다.
도 2는 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 복호화기 구성의 일 예를 개략적으로 나타낸 것이다.
도 3은 통신 환경에서 오디오 정보를 담은 비트스트림이 유실되는 경우에 적용될 수 있는 복호화기의 일 예를 개략적으로 설명하는 블록도이다.
도 4는 본 발명에 따라서 프레임 손실을 은닉하는데 적용되는 복호화기의 일 예를 개략적으로 설명하는 블록도이다.
도 5는 본 발명에 따른 프레임 손실 은닉부의 일 예를 개략적으로 설명하는 블록도이다.
도 6은 본 발명에 따라 복호화기에서 프레임 손실을 은닉/복원하는 방법의 일 예를 개략적으로 설명하는 순서도이다.
도 7은 본 발명에 따라서 상관도를 유도하는 것을 개략적으로 설명하는 도면이다.
도 8은 본 발명에 따라 복호화기에서 프레임 손실을 은닉/복원하는 방법의 다른 예를 개략적으로 설명하는 순서도이다.
도 9는 본 발명에 따른 프레임 손실 복원(은닉) 방법의 일 예를 개략적으로 설명하는 순서도이다.
도 10은 본 발명에 따른 오디오 복호화 방법의 일 예를 개략적으로 설명하는 순서도이다.
이하, 도면을 참조하여, 본 발명의 실시형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어서, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 설명을 생략할 수도 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성 단위로 이루어짐을 의미하지 않는다. 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다.
네트워크의 발달과 고품질 서비스에 대한 요구에 대응하여, NB(Narrow Band)부터 WB(Wide Band) 또는 SWB(Super Wide Band)에 이르는 다양한 대역에 대하여 오디오 신호 처리 방법이 연구되고 있다. 예컨대, 음성 및 오디오 부호화/복호화 기술로서, CELP(Code Excited Linear Prediction) 모드, 사인(sinusoidal) 모드 등이 사용될 수 있다.
부호화기는 베이스라인 코더(baseline coder)와 향상 계층(enhancement layer)으로 구분될 수 있다. 향상 계층은 다시 저대역 향상(Lower Band Enhancement: LBE) 계층과 대역 확장(Bandwidth Extension: BWE) 계층 그리고 고대역 향상(Higher Band Enhancement: HBE) 계층으로 나뉠 수 있다.
LBE 계층은 핵심 부호화기(core encoder)/핵심 복호화기(core decoder)로 처리한 음원과 원음과의 차이 신호, 즉 여기 신호(excited signal)를 부호화/복호화함으로써, 저대역의 음질을 향상시킨다. 고대역 신호는 저대역 신호와의 사이에서 유사성을 가지므로, 저대역을 이용한 고대역 확장 방법을 통해 낮은 비트율로 고대역 신호를 복원할 수 있다.
고대역의 신호를 확장하여 부호화하고, 복호화 과정을 거처 복원하는 방법으로서, SWB 신호를 스케일러블하게 확장(scalable extension)하여 처리하는 방법을 고려할 수 있다. SWB 신호를 대역 확장하는 방법은 MDCT(Modified Discrete Cosine Transform) 도메인에서 동작할 수 있다.
확장 계층들은 제네릭 모드(generic mode)와 사인 모드(sinusoidal mode)로 나뉘어 처리될 수 있다. 예컨대, 3 개의 확장 계층이 이용되는 경우에, 첫 번째 확장 계층은 제네릭 모드와 사인 모드로 처리되며, 두 번째 및 세 번째 확장 계층은 사인 모드로 처리되도록 할 수 있다.
본 명세서에서 사인파(sinusoid)는 정현파(sine wave)와 정현파를 반파장만큼 위상 쉬프트(shift)한 여현파(cosine wave)를 모두 포함한다. 따라서, 본 발명에서 사인파(sinusoid)는 정현파(sine wave)를 의미할 수도 있고, 여현파(cosine wave)를 의미할 수도 있다. 입력된 사인파가 여현파인 경우에는 부호화/복호화 과정에서 정현파 또는 여현파로 변환될 수 있으며, 이 변환은 입력 신호가 거치는 변환의 변환 방법에 따른다. 입력되는 사인파가 정현파인 경우에도 부호화/복호화 과정에서 여현파 또는 정현파로 변환될 수 있으며, 이 변환은 입력 신호가 거치는 변환의 변환 방법에 따른다.
제네릭 모드에서, 코딩은 코딩된 광대역(wideband) 시그널 서브 대역의 적응적 복제(replication)에 기반해서 이루어진다. 사인 모드의 코딩에서는 고주파 콘텐츠(high frequency contents)에 사인파가 추가된다.
사인 모드는 주기성이 강한 신호 또는 톤 성분이 있는 신호에 대한 효율적 부호화 기법으로서, 각 사인파 성분에 대해 부호(sign), 크기(amplitude), 위치(position) 정보를 부호화할 수 있다. 각 계층(layer)마다 소정 개수, 예를 들면 10개의 MDCT 계수들을 부호화 할 수 있다.
도 1은 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 부호화기 구성의 일 예를 개략적으로 나타낸 것이다. 도 1에서는 사인 모드가 적용된 G.718 애넥스(annex) B 스케일러블 확장(scalable extension)의 부호화기 구조를 예로서 설명한다.
도 1의 부호화기는 SWB 확장을 위해 제네릭 모드와 사인 모드로 구성되며, 추가적인 비트가 할당될 경우, 사인 모드를 확장하여 사용할 수 있다.
도 1을 참조하면, 부호화기(100)는 다운 샘플링부(105), WB 코어(110), 변환부(115), 토널 정도(tonality, 토널리티) 추정부(120), SWB(Super Wide Band) 부호화부(150)를 포함한다. SWB 부호화부(150)는 토널 정도(tonality) 판단부(125), 제네릭 모드부(130), 사인파 모드부(135), 추가 사인파부(140, 145)를 포함한다.
SWB 신호가 입력되면, 다운 샘플링부(105)는 입력 신호를 다운 샘플링하여 핵심 부호화기(core encoder)가 처리할 수 있는 WB 신호를 생성한다.
SWB 부호화는 MDCT 도메인에서 수행된다. WB 코어(110)는 WB 신호를 부호화하여 합성된 WB 신호를 MDCT 하고, MDCT 계수들을 출력한다.
MDCT(Modified Discrete Cosine Transform)는 시간 영역의 신호를 주파수 영역의 신호로 변환시키는 변환으로서, 중첩 합산(overlap-addition) 방식을 사용하여 원본 신호를 변환 전 신호를 완전 복원(perfect reconstruction) 할 수 있다. 수식 1은 MDCT의 일 예를 나타낸 것이다.
<수식 1>
Figure pct00001
Figure pct00002
는 윈도윙된 시간 영역의 입력 신호
Figure pct00003
는 대칭 윈도우 함수이다.
Figure pct00004
는 N개의 MDCT 계수이다.
Figure pct00005
는 2N 개의 샘플을 가지는 복원된 시간 영역의 입력 신호이다.
변환부(115)는 SWB 신호를 MDCT하며, 토널 정도 추정부(120)가 MDCT된 신호의 토널정도를 추정한다. 제네릭 모드와 사인 모드 중 어떤 모드를 선택할 것인지는 토널 정도(tonality)에 기반해서 판단할 수 있다.
토널 정도 추정은 현재 프레임(current frame)과 과거 프레임(past frame)에서 스펙트럴 피크(spectral peak)들 사이의 상관 분석(correlation analysis)에 기반하여 수행될 수 있다. 토널 정도 추정부(120)은 토널 정도(tonality) 추정값을 토널 정도 판단부(125)로 출력한다.
토널 정도 판단부(125)는 MDCT 변환된 신호가 토널(tonal)인지를 토널 정도(tonality)를 기반으로 판단해서, 제네릭 모드부(130) 및 사인파 모드부(135)에 전달한다. 예컨대, 토널 정도 판단부(125)는 토널 정도 추정부(120)로부터 입력된 토널 정도 추정값을 소정의 기준값과 비교하여 MDCT 변환된 신호가 토널 신호인지 비토널 신호인지를 판단할 수 있다.
도시된 바와 같이, SWB 부호화부(150)는 MDCT된 SWB 신호의 MDCT 계수를 처리한다. 이때, SWB 부호화부(130)는 핵심 부호화기(110)를 거쳐 입력되는 합성 WB 신호의 MDCT 계수를 이용하여 SWB 신호의 MDCT 계수를 처리할 수 있다.
토널 정도 판단부(125)에 의해 MDCT 변환된 신호가 토널이 아니라고 판단된 경우에는 제네릭 모드부(130)로 신호가 전달되고, 토널이라고 판단된 경우에는 사인파 모드부(135)로 신호가 전달된다.
제네릭 모드는 입력 프레임이 토널(tonal)이 아니라고 판단된 경우에 이용될 수 있다. 제네릭 모드부(130)는 저대역 스펙트럼(low frequency spectrum)을 직접 고주파수(high frequency)들로 트랜스포즈(transpose)하고, 원래(original) 고주파수의 포락선(envelope)을 따르도록 파라미터화 할 수 있다. 이때, 파라미터화는 원래 고주파수의 경우보다 더 개략적으로(coarsely) 이루어질 수 있다.제네릭 모드를 적용함으로써, 고주파 콘텐츠를 낮은 비트율로 코딩할 수 있다.
예컨대, 제네릭 모드에서는 고주파 대역을 부대역(sub-band)로 나누고 소정의 유사성 판단 기준에 따라서, 부호화되고 파락선 정규화된 광대역 콘텐츠들 중에서 가장 유사하게 매치(match)되는 것을 선택한다. 선택된 콘텐츠들은 스케일링된 뒤에 합성된 고주파 컨텐츠로 출력된다.
사인파 모드(sinusoidal mode)부(135)는 입력된 프레임이 토널인 경우에 이용될 수 있다. 사인 모드에서는 사인파 성분들의 유한 집합(finite set)을 HF(High Frequency) 스펙트럼에 더해서 SWB 신호를 생성한다. 이때, HF 스펙트럼은 SW 합성 신호의 MDCT 계수를 이용하여 생성된다.
추가적인 비트가 할당될 경우에는 추가 사인파부(140, 145)를 통해, 사인파 모드를 확장하여 적용할 수 있다.
추가 사인파부(140, 145)에서는 제네릭 모드로 출력된 신호와 사인 모드로 출력된 신호에 추가 사인파를 부가하여 생성 신호를 향상시킨다. 예컨대, 추가 사인파부(140, 145)은 추가 비트가 할당되는 경우에, 전송할 추가 사인파(펄스)를 결정하고, 양자화하는 사인 모드를 확장하여 신호를 개선한다.
한편, 도시된 바와 같이, 핵심 부호화기(110), 토널 정도 판정부(125), 제네릭 모드부(135), 사인파 모드부(140), 추가 사인파부(145, 150)의 출력들은 비트 스트림으로 복호화기에 전송될 수 있다.
도 2는 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 복호화기 구성의 일 예를 개략적으로 나타낸 것이다. 도 2에서는 초광대역 신호의 대역 확장에 사용되는 복호화기의 예로서, G.718 애넥스 B SWB 스케일러블 확장의 복호화기를 예로서 설명한다.
도 2을 참조하면, 복호화기(200)는 WB 디코더(205), SWB 복호화부(235), 역변환부 (240), 가산부(245)를 포함한다. SWB 복호화부(235)는 토널 정도(tonality) 판정부(210), 제네릭 모드부(215), 사인파 모드부(225), 추가 사인파부(220, 230)를 포함한다.
일반적으로 정상 프레임이 입력되면, 비트스트림의 파싱(parsing) 정보에 따라서, SWB 복호화부(235)를 통해서 SWB 신호가 합성된다.
프레임의 WB 신호는 WB 복호화부(205)에서 SWB 파라미터를 이용하여 합성하게 된다.
복호화기(200)에서 출력되는 최종적인 SWB 신호는 WB 복호화부(205)에서 출력되는 WB 신호와, SWB 복호화부(235) 및 역변환부(140)을 거쳐 출력되는 SWB 확장 신호의 합이 된다.
구체적으로, WB 복호화기(205), SWB 복호화긴(235)에는 비트 스트림으로부터 처리할 대상 정보 및/또는 처리를 위한 보조 정보가 입력될 수 있다.
WB 복호화기(205)는 광대역 신호를 복호화하여 WB 신호를 합성한다. 합성된 WB 신호의 MDCT 변환 계수는 SWB 복호화부(235)으로 입력될 수 있다.
SWB 복호화부(235)는 비트스트림으로부터 입력된 SWB 신호의 MDCT를 복호화한다. 이때, WB 복호화기(205)로부터 입력되는 합성된 WB 신호(Synthesized Super Wide Band Signal)의 MDCT 계수를 이용할 수 있다. SWB 신호의 복호화는 주로 MDCT 도메인에서 수행된다.
토널 정도 판정부(210)는 MDCT 변환된 신호가 토널 신호인지 비토널 신호인지를 판단할 수 있다. MDCT 변환된 신호가 토널이라고 판단된 경우에는 제네릭 모드부(215)에서 SWB 확장 신호가 합성되고, 토널이 아니라고 판단된 경우에는 사인파 모드부(225)에서 사인파 정보를 통해 SWB 확장 신호(MDCT 계수)가 합성될 수 있다. 제네릭 모드부(215)와 사인파 모드부(225)는 확장 계층의 첫 번째 계층을 디코딩하며, 상위 계층은 추가 비트를 이용하여 추가 사인파부(235, 230)에서 복호화될 수 있다. 예컨대, 레이어 7이나 레이어 8에 대해서는 추가 사인파 모드의 사인파 정보 비트를 이용하여 MDCT 계수를 합성할 수 있다.
합성된 MDCT 계수들은 역변환부(240)에서 역변환되어 SWB 확장 합성 신호가 생성될 수 있다. 이때, 추가 사인파 블록의 레이어 정보에 따라 합성된다.
가산부(245)는 WB 디코더(205)에서 출력된 WB 신호와 역변환부(240)에서 출력된 SWB 확장 합성 신호를 가산하여 SWB 신호를 출력할 수 있다.
한편, 부호화된 오디오 정보가 복호화기로 전달되는 과정에서 손실이 발생하는 경우 FEC(Forward Error Correction)을 통해 손실을 복원하거나 은닉(concealment)할 수 있다.
정보의 전송 과정에서 오류가 발생한 경우에 수신측에서 정보의 수신 여부를 시그너링하여 송신측으로부터 정보를 재전송 받는 ARQ(Automatic Repeat Request)와 달리, FEC의 경우에는 수신측에서 오류를 정정하거나 손실을 보상/은닉할 수 있다.
구체적으로, FEC의 경우는, 송신(인코더)측에서 전송하는 데이터 혹은 저장 매체에 저장된 데이터에 오류를 정정하거나 손실을 보상/은닉할 수 있는 정보(오류/손실 정정용 정보)가 포함되며, 수신(디코더)측에서는 전송된 데이터 혹은 저장된 데이터의 오류/손실을 오류/손실 정정용 정보를 이용하여 복원할 수 있다. 이때, 오류/손실 정정용 정보로서, 이전 정상 프레임(previous good frame)의 파라미터들, MDCT 계수, 부호화/복호화된 신호 등이 이용될 수 있다.
도 1에서 설명한 바와 같이, SWB 비트스트림은 WB 신호와 SWB 확장 신호의 비트스트림으로 구성될 수 있다. WB 신호의 비트스트림과 SWB 확장 신호의 비트스트림은 하나의 패킷으로 구성되기 때문에, 오디오 신호의 한 프레임이 손실되었다면, WB 신호의 비트와 SWB 확장 신호의 비트가 모두 손실되게 된다.
이 경우, FEC 복호화기는, 정상적인 프레임에 대한 복호화 동작과 유사하게, FEC를 적용하여 WB 신호와 SWB 확장 신호를 따로 출력한 뒤, WB 신호와 SWB 확장 신호를 합산하여 손실 프레임에 대한 SWB 신호를 출력할 수 있다.
현재 프레임이 손실된 경우에, FEC 복호화기는, 현재 프레임 이전 정상 프레임의 토널 정보(tonal information)와 합성된 MDCT 계수를 이용하여, 손실된 현재 프레임에 대한 MDCT 계수를 합성할 수 있다. FEC 복호화기는 합성된 MDCT 계수를 역변환하여 SWB 확장 신호를 출력할 수 있으며, SWB 확장 신호와 WB 신호를 더하여 손실된 현재 플레임에 대한 SWB 신호를 복호화할 수 있다.
도 3은 통신 환경에서 오디오 정보를 담은 비트스트림이 유실되는 경우에 적용될 수 있는 복호화기의 일 예를 개략적으로 설명하는 블록도이다. 구체적으로, 도 3은 손실된 프레임에 대한 복호화를 수행할 수 있는 복호화기의 일 예이다.
도 3에서는, G.718 애넥스 B SWB 스케일러블 확장(G.718 Annex B SWB scalable extension)의 FEC 복호화기를 손실 프레임에 적용할 수 있는 복호화기의 일 예로서 설명한다.
도 3을 참조하면, FEC 복호화기(300)는 WB FEC 복호화부(305), SWB FEC 복호화부(330), 역변환부(335) 및 가산부(340)를 포함한다.
WB FEC 복호화부(305)는 비트스트림의 WB 신호를 디코딩할 수 있다. WB FEC 복호화부(305)는 손실된 WB 신호(WB 신호의 MDCT 계수)에 FEC를 적용하여 복호화를 수행할 수 있다. 이때, WB FEC 복호화부(305)는 손실된 현재 프레임의 이전 프레임(정상 프레임)의 정보를 이용하여 현재 프레임의 MDCT 계수를 복원할 수 있다.
SWB FEC 복호화부(330)는 비트스트림의 SWB 확장 신호를 디코딩할 수 있다. SWB FEC 복호화부(330)는 손실된 SWB 확장 신호(SWB 확장 신호의 MDCT 계수)에 FEC를 적용하여 복호화를 수행할 수 있다. SWB FEC 복호화부(330)는 토널 정도 판정부(310), 복제부(replication unit, 315, 320, 325)를 포함할 수 있다.
토널 정도(tonality) 판정부(310)는 SWV 확장 신호가 토널(tonal)인지 아닌지를 판단할 수 있다.
토널로 판정된 SWB 확장 신호(토널 SWB 확장 신호)와 토널이 아닌 것으로 판정된 SWB 확장 신호(비토널 SWB 확장 신호)는 서로 다른 과정을 통해 복원될 수 있다. 예컨대, 토널 SWB 확장 신호는 복제부(315)를 거치며, 비토널(atonal) SWB 확장 신호는 복제부(320)를 거친 뒤 두 신호가 합쳐져 복제부(325)를 통해 복원될 수 있다.
이때, 토널 SWB 확장 신호에 적용되는 스케일링 팩터와 비토널 SWB 확장 신호에 적용되는 스케일링 팩터는 서로 다른 값을 가진다. 또한, 토널 SWB 확장 신호와 비토널 SWB 확장 신호를 합친 SWB 확장 신호에 적용되는 스케일링 팩터는 토널 성분과 비토널 성분에 대하여 적용하는 스케일링 팩터와 상이할 수 있다.
구체적으로, SWB 확장 신호를 복원하기 위해 역변환부(335)에서 역변환(IMDCT)이 수행되도록 SWB FEC 복호화부(330)는 역변환의 대상 신호(SWB 확장 신호의 MDCT 계수)를 복원할 수 있다. SWB FEC 복호화부(330)는 손실된 프레임(현재 프레임) 이전의 정상 프레임의 모드에 따른 스케일링 계수를 적용하여 정상 프레임의 신호(MDCT 계수)가 선형적으로 감쇄하게 함으로써 손실된 프레임의 SWB 신호에 대한 MDCT 계수들을 복원할 수 있다.
이 경우, 연속된 프레임 손실에 대해서도 선형적 감쇄를 유지함으로써, 연속된 프레임들이 손실된 경우에도 손실된 신호를 복원할 수 있다.
복원 대상 신호가 제너릭 모드의 신호인지 사인파 모드의 신호인지(토널 신호인지 비토널(stonal) 신호인지)에 따라서 상이한 스케일링 계수가 적용될 수 있다. 예컨대, 제너릭 모드에 대해서는 스케일링 팩터 βFEC를 적용하고 사인파 모드에 대해서는 스케일링 팩터 βFEC,sin를 적용할 수 있다.
예를 들어, 현재 프레임이 손실되었고, 정상 프레임인 이전 프레임이 제네릭 모드이며, 레이어가 레이어 7까지 있다고 하면, 현재 프레임(손실 프레임)을 복원하기 위한 스케일링 팩터로서 βFEC=0.5, βFEC,sin=0.6으로 설정될 수 있다. 이때, 현재 프레임(손실된 프레임)의 MDCT 계수는 수식 2와 같이 복원될 수 있다.
<수식 2>
Figure pct00006
수식 2에서,
Figure pct00007
Figure pct00008
는 합성된 MDCT 계수로서,
Figure pct00009
은 SWB 대역의 주파수 k에서 현재 프레임의 MDCT 계수의 크기를 나타낸다.
Figure pct00010
는 이전 프레임에서 합성된 MDCT 계수의 크기를 나타내며, SWB 대역의 주파수 k에서 이전 프레임의 MDCT 계수의 크기를 나타낸다. posFEC(n)는 FEC가 적용되어 복원된 신호에서 파수 n에 대응하는 위치를 나타낸다. nFEC는 FEC가 적용되어 복원된 MDCT 계수의 개수를 나타낸다.
또한, 현재 프레임이 손실되었고, 정상 프레임인 이전 프레임이 사인파 모드이며, 레이어가 7까지 있다고 하면, 현재 프레임(손실 프레임)을 복원하기 위한 스케일링 팩터로서 βFEC=0, βFEC,sin=0.8로 설정될 수 있다. 이때, 현재 프레임(손실된 프레임)의 MDCT 계수는 수식 3과 같이 복원될 수 있다.
<수식 3>
Figure pct00011
수식 2와 수식 3을 일반화하면, 손실된 프레임의 SWB 확장 신호에 대한 MDCT 계수는 수식 4와 같이 복원될 수 있다.
<수식 4>
Figure pct00012
한편, 상술한 바와 같은 FEC 방법에서는, 현재 프레임이 손실된 경우에 이전 프레임(과거 프레임)의 MDCT 계수만을 이용해서, MDCT 계수가 선형 감쇄하는 것을 가정함으로써 손실된 신호를 복원한다. 이 방법을 적용하는 경우에는, 신호의 에너지가 점차 감쇄하는 구간에서 손실이 발생하였다면 신호를 효과적으로 복원할 수 있으나, 신호의 에너지가 증가하는 경우이거나 신호가 정상 상태(에너지의 크기가 일정 범위 내에서 유지되는 상태)인 경우에는 음질 왜곡이 발생하게 된다.
또한, 상술한 바와 같은 FEC 방법은 손실된 프레임이 정상 프레임의 구간 중 한두 프레임이 손실되는 작은 손실률의 통신 환경에서는 좋은 성능을 보일 수 있다. 이와 달리, 연속하는 프레임들이 손실되는 경우(손실이 자주 발생하는 경우) 혹은 손실이 발생하는 구간이 긴 경우에는 복원된 신호에도 음질 손실이 뚜렷이 나타날 수 있다.
상술한 점들을 고려하여, 본 발명에서는 현재 프레임(손상된 프레임) 이전의 정상 프레임들 중 한 프레임의 변환 계수(MDCT 계수)들뿐만 아니라 현재 프레임 이전의 정상 프레임들의 변화 정도를 이용하여 적응적으로 스케일링 팩터들을 적용할 수 있다.
또한, 앞서 설명한 바와 같이 SWB 확장 대역에 동일한 스케일링 팩터를 적용하는 대신, 본 발명에서는 MDCT 특성이 대역별로 상이하다는 것을 반영할 수 있다. 예컨대, 본 발명에서는 현재 프레임(손상된 프레임) 이전의 정상 프레임들의 변화 정도를 고려한 스케일링 팩터를 대역별로 수정할 수 있다. 따라서, MDCT 계수의 변화가 대역별로 스케일링 팩터에 반영될 수 있다.
본 발명의 적용 방법을 대상별로 분류하면, 아래의 (1)과 (2)처럼 개략적으로 분류할 수 있다.
(1) 단일 프레임이 손실된 경우 - 본 발명은 MDCT 또는 FFT(Fast Fourier Transform)와 같이 시간축 신호를 다른 축(예컨대, 주파수축) 신호로 변환하는 경우에도 적용할 수 있기 때문에, 도 2 또는 도 3에 도시된 G.718의 SWB 복호화기 구조에서 상위 SWB 쪽에서의 프레임 손실을 효과적으로 복원 혹은 은닉할 수 있다.
단일 프레임의 손실에 있어서, 프레임 손실을 은닉하는 방법은 크게 (i)~(iii)와 같은 3 가지 단계를 포함할 수 있다: (i) 수신된 프레임의 손실 여부를 판단하는 단계, (ii) 수신된 프레임에 손실이 발생된 경우, 이전의 정상 프레임들에 대한 변환 계수들로부터 손실된 프레임에 대한 변환 계수를 복원하는 단계, 및 (iii) 복원된 변환 계수를 역변환 하는 단계.
예컨대, 프레임 손실이 확인된 경우, 변환 계수를 복원하는 단계에서는 n 번째 프레임이 손실된 경우에, 이전 프레임들(n-1 번째 프레임, n-2 번째 프레임,... , n-N 번째 프레임)에 대한 변환 계수로서 저장되어 있는 변환 계수들로부터 n 번째 프레임에 대한 변환 계수를 복원할 수 있다. 여기서, N은 손실 은닉 과정에서 사용되는 프레임의 개수를 의미한다. 이어서, 복원된 n 번째 프레임에 대한 변환 계수(MDCT 계수)를 역변환(IMDCT)함으로써 프레임 손실을 은닉할 수 있다.
이때, 변환 계수를 복원하는 단계에서는 변드별로 감쇄 상수(스케일링 팩터)를 달리 할 수 있다. 또한, 정상 프레임(무손실 프레임)들의 토널 성분 유무를 이전의 정상 프레임들로부터 산출하고, 토널 성분의 유무에 따라 감쇄 상수를 달리 할 수도 있다.
예컨대, 토널 성분이 강한 대역의 경우에는 이전의 프레임들에서 사인파 펄스(MDCT 계수)들의 상관 정보를 이용하여, 손실된 프레임의 변환 계수를 복원하기 위해 사용할 감쇄 상수를 유도할 수 있다. 토널 성분이 없거나 약한 대역의 경우에는, 이전 정상 프레임들에 대한 변환 계수(MDCT 계수)들의 에너지 정보를 추정하여, 손실된 프레임의 변환 계수를 복원하기 위해 사용할 감쇄 상수를 유도할 수 있다.
복원된 변환 계수, 각 대역의 토널 정보 및 감쇄 상수는 프레임의 손실이 연속되는 경우에 대한 손실 복원(은닉)을 위해 저장될 수 있다.
(2) 연속된 프레임들이 손실된 경우 - 연속된 프레임들이 손실된 경우에, 손실을 은닉하는 방법은 크게 (a)와 (b)의 두 단계를 포함할 수 있다: (a) 수신된 프레임에 대하여, 연속된 프레임들이 손실되었는지 판단하는 단계, 및 (b) 연속된 프레임들이 손실된 경우에, 이전의 정상 프레임(무손실 프레임)들의 변환 계수들을 이용하여 연속적으로 손실된 프레임들에 대한 여기 신호(MDCT 계수)를 복원하는 단계.
연속된 프레임들이 손실된 경우도, 대역별로 토널 성분의 유무 혹은 토널 성분의 강약에 따라서 대역별로 적용될 추가 감쇄 상수(스케일링 팩터)에 변화를 줄 수 있다.
도 4는 본 발명에 따라서 프레임 손실을 은닉하는데 적용되는 복호화기의 일 예를 개략적으로 설명하는 블록도이다.
도 4를 참조하면, 복호화기(400)는 WB 신호에 대한 프레임 손실 판단부(405), WB 신호에 대한 프레임 손실 은닉부(410), WB 신호의 복호화부(415), SWB 신호에 대한 프레임 손실 판단부(420), SWB 신호의 복호화부(425), SWB 신호의 프레임 손실 은닉부(430), 프레임 벡업부(435), 역변환부(440), 가산부(445)를 포함한다.
프레임 손실 판단부(405)는 WB 신호에 대한 프레임 손실 여부를 판단한다. 프레임 손실 판단부(420)는 SWB 신호에 대한 프레임 손실 여부를 판단하다. 프레임 손실 판단부(405, 420)는 손실이 단일 프레임에 발생했는지 연속된 프레임들에 발생했는지도 판단할 수 있다.
여기서는 WB 신호에 대한 프레임 손실 판단부(405)와 SWB 신호에 대한 프레임 손실 판단부(420)를 별도의 동작부로 설명하였지만, 본 발명은 이에 한정되지 않는다. 예컨대, 복호화기(400)는 하나의 프레임 손실부를 포함하고, 프레임 손실부에서 WB 신호에 대한 프레임 손실과 SWB 신호에 대한 프레임 손실을 모두 판단할 수 있다. 혹은 프레임에 손실이 발생했다면 WB 신호와 SWB 신호 모두 손실되었을 것이므로, WB 신호에 대한 프레임 손실을 판단한 뒤, 판단 결과를 SWB 신호에 대해서 적용할 수도 있고, SWB 신호에 대한 프레임 손실을 판단한 뒤, 판단 결과를 WB 신호에 대해서 적용할 수도 있다.
손실이 있다고 판단된 WB 신호의 프레임에 대하여, 프레임 손실 은닉부(410)는 프레임 손실을 은닉한다. 프레임 손실 은닉부(410)는 이전의 정상 프레임 정보를 기반으로 손실이 발생한 프레임(현재 프리엠)의 정보를 복원할 수 있다.
손실이 없다고 판단된 WB 신호의 프레임에 대하여, WB 복호화부(415)는 WB 신호의 복호화를 수행할 수 있다.
WB 신호에 대하여 복호화 혹은 복원된 신호들은 SWB 신호의 복호화 또는 복원을 위해 SWB 복호화부(425)로 전달될 수 있다. 또한, WB 신호에 대하여 복호화 혹은 복원딘 신호들은 가산부(445)로 전달되어 SWB 신호를 합성하는데 이용될 수 있다.
한편, 손실이 없다고 판단된 SWB 신호의 프레임에 대하여, SWB 복호화부(425)는 SWB 확장 신호의 복호화를 수행할 수 있다. 이때, SWB 복호화부(425)는 복호화된 WB 신호를 이용하여 SWB 확장 신호를 복호화할 수도 있다.
손실이 있다고 판단된 SWB 신호의 프레임에 대해서는 SWB 프레임 손실 은닉부(430)이 프레임의 손실을 복원 혹은 은닉할 수 있다.
단일 프레임의 손실이 있는 경우, SWB 프레임 손실 은닉부(430)는 프레임 백업부(435)에 저장된 이전 정상 프레임들의 변환 계수를 이용하여 현재 프레임의 변한 계수를 복원할 수 있다. 연속된 프레임의 손실이 있는 경우, SWB 프레임 손실 은닉부(430)는 이전에 복원된 손실 프레임들의 변환 계수들과 정상 프레임들의 변환 계수들뿐만 아니라, 이전 손실 프레임의 변환 계수들을 복원하는데 사용되었던 정보들(예컨대, 대역별 토널 정보, 대역별 감쇄 상수 정보 등)을 이용하여 현재 프레임(손실 프레임)에 대한 변환 계수를 복원할 수 있다.
SWB 프레임 손실 은닉부(430)에서 복원된 변환 계수(MDCT 계수)는 역변환부(440)에서 역변환(IMDCT)될 수 있다.
프레임 백업부(435)는 현재 프레임의 변환 계수(MDCT 계수)들을 저장할 수 있다. 프레임 백업부(435)에서는 이전에 저장되었던 변환 계수들(이전 프레임의 변환 계수들)을 지우고, 현재 프레임에 대한 변환 계수들을 저장할 수 있다. 현재 프레임에 대한 변환 계수들은 바로 다음 프레임에 손실이 있는 경우에, 손실을 은닉하기 위해 사용될 수 있다.
이와 달리, 프레임 백업부(435)는 N 개의 버퍼(N은 정수)를 가지고, 프레임들의 변환 계수를 저장할 수도 있다. 이 경우, 버퍼에 저장되는 프레임은 정상 프레임과 손실로부터 복원된 프레임일 수 있다.
예컨대, 프레임 백업부(435)는 N 번째 버퍼에 저장된 변환 계수들을 지워버리고, 각 버퍼에 저장된 프레임들의 변환 계수들을 바로 옆 버퍼로 하나씩 이동(shift)시킨 뒤에 첫 번째 버퍼에 현재 프레임에 대한 변환 계수들을 저장할 수 있다. 이때, 버퍼의 개수 N은 복호화기의 성능, 오디오 품질 등을 고려하여 정해질 수 있다.
역변환부(440)는 SWB 복호화부(425)에서 복호화된 변환 계수와 SWB 프레임 손실 은닉부(430)에서 복원된 변환 계수를 역변환하여 SWB 확장 신호를 생성할 수 있다.
가산부(445)는 WB 신호와 SWB 확장 신호를 합하여 SWB 신호를 출력할 수 있다.
도 5는 본 발명에 따른 프레임 손실 은닉부의 일 예를 개략적으로 설명하는 블록도이다. 도 5에서는 단일 프레임이 손실된 경우에 대한 프레임 손실 은닉부를 예로서 설명한다.
단일 프레임이 손실된 경우에 프레임 손실 은닉부는, 상술한 바와 같이, 프레임 백업부에 저장된 이전 정상 프레임의 변환 계수들에 대한 정보를 이용하여 손실된 프레임의 변환 계수를 복원할 수 있다.
도 5를 참조하면, 프레임 손실 은닉부(500)는 대역 분할부(505), 토널(tonal) 성분 유무 판별부(510), 상관도 산출부(515), 감쇄 상수 산출부(520), 에너지 산출부(525), 에너지 예측부(530), 감쇄 상수 산출부(535), 손실 프레임 변환 계수 복원부(540)를 포함한다.
본 발명에 따른 프레임 손실 은닉/복원에서는 대역별 MDCT 계수의 특성을 고려하여 MDCT 계수를 복원할 수 있다. 구체적으로, 본 발명에 따른 프레임 손실/은닉에서는 대역별로 상이한 변화율(감쇄 상수)를 적용하여, 손실 프레임에 대한 MDCT 계수를 복원할 수 있다.
따라서, 프레임 손실 은닉부(500)에서는 대역(band) 분할부(505)가 버퍼에 저장된 이전 정상 프레임의 변환 계수들을 M 개의 대역(M 개의 그룹)으로 그룹핑(grouping)한다. 대역 분할부(505)는 그룹핑을 할 때 연속되는 변환 계수들이 하나의 대역에 속하도록 함으로써, 주파수 대역별로 정상 프레임의 변환 계수들이 분할되는 효과를 얻게 된다. 예컨대, M 개의 그룹은 M 개의 대역이 된다.
토널 성분 유무 판별부(510)에서는 N 개의 버퍼들(1~N 번째 버퍼들)에 저장된 변환 계수들을 이용하여 스펙트럴 피크들의 에너지 상관도를 로그(log) 도메인에서 분석함으로써 변환 계수들의 토널 정도를 각 대역별로 산출할 수 있다. 즉, 토널 성분 유무 판별부(510)는 토널 정도를 각 대역별로 산출함으로써 대역별로 토널 성분 유무를 판별할 수 있다. 예컨대, 손실 프레임이 n 번째 프레임인 경우, N 개의 버퍼에 저장된 이전 프레임들(n-1 번째 프레임 ~ n-N 번째 프레임)의 변환 계수들을 이용하여 n 번째 프레임(손실 프레임)의 M 개 대역에 대한 토널 정도가 유도될 수 있다.
손실된 프레임의 토널 정도를 대역(band)별로 판단한 결과, 토널 성분이 많은 대역들은 상관도 산출부(515), 감쇄 상수 산출부(520)을 통해 유도된 감쇄 상수를 이용해서 복원될 수 있다.
손실된 프레임의 토널 정보도를 대역별로 판단한 결과, 토널 성분이 없거나 적은 대역들은 에너지 산출부(525), 에너지 예측부(530), 감쇄 상수 산출부(535)를 통해 유도된 감쇄 상수를 이용하여 복원될 수 있다.
구체적으로 무손실 프레임의 변환 계수들에 대한 상관도 산출부(515)는 토널 성분 유무 판별부(510)에서 토널로 판단한 대역(예컨대, m 번째 대역)에 대한 상관도를 산출할 수 있다. 즉, 상관도 산출부(515)는 토널 성분이 존재한다고 판단되는 대역에서, n 번째 프레임인 현재 프레임(손실 프레임) 이전의 연속된 정상 프레임들(n-1 번째 프레임,..., n-N 번째 프레임)의 펄스들 간 위치의 상관도를 측정함으로써, 상관도를 판단할 수 있다.
연속된 정상 프레임에서 강한 상관성을 가지는 프레임들이라면 펄스(MDCT 계수)의 위치는 중요한 MDCT 계수 혹은 크기가 큰 MDCT 계수로부터 ±L 사이에 위치할 것을 전제로 상관도 판단을 수행할 수 있다.
감쇄 상수 산출부(520)는 상관도 산출부(515)에서 산출한 상관도에 기반해서 토널 성분이 많은 대역에 대한 감쇄 상수를 적응적으로 산출할 수 있다.
한편, 무손실 프레임의 프레임들에 대한 에너지 산출부(525)는 토널 성분이 없거나 적은 대역에 대한 에너지를 산출할 수 있다. 에너지 산출부(525)는 현재 프레임(손실 프레임) 이전의 정상 프레임들에 대하여 각 대역(band)별로 에너지를 산출할 수 있다. 예를 들어, 현재 프레임(손실 프레임)이 n 번째 프레임이고, N 개의 버퍼에 N 개의 이전 프레임에 대한 정보가 저장되어 있다면, 에너지 산출부(525)는 n-1 번째 프레임부터 n-N 번째 프레임까지의 프레임들에 대하여 대역별로 에너지를 산출할 수 있다. 이때, 에너지가 산출되는 대역은, 토널 성분 유무 판별부(510)에 의해 토널 성분이 없거나 적은 것으로 판별된 대역에 속하는 대역들일 수 있다.
에너지 예측부(606)에서는 에너지 산출부(525)로부터 프레임별로 산출된 대역별 에너지를 기반으로 현재 프레임(손실 프레임)의 에너지를 선형 예측함으로써 추정할 수 있다.
감쇄 상수 산출부(535)는 에너지 예측부(530)에서 산출된 에너지의 예측값을 기반으로 토널 성분이 없거나 적은 대역에 대한 감쇄 상수를 유도할 수 있다.
다시 말해서, 토널 성분이 많은 대역에 대해서, 상관도 산출부(515)에서 산출된 무손실 프레임들의 변환 계수들 간 상관도에 기반하여 감쇄 상수 산출부(520)가 감쇄 상수를 유도할 수 있다. 또한, 토널 성분이 없거나 적은 대역에 대해서는, 에너지 예측부(530)에서 예측된 현재 프레임(손실 프레임)의 에너지와 이전 정상 프레임의 에너지 사이의 비를 기반으로 감쇄 상수를 유도할 수 있다. 예컨대, 현재 프레임(손실 프레임)이 n 번째 프레임인 경우에, n 번째 프레임의 에너지로 예측된 값과 n-1 번째 프레임의 에너지 사이의 비(n-1 번째 프레임의 에너지/n 번째 프레임의 에너지 예측값)을 n 번째 프레임에 적용할 감쇄 상수로서 유도할 수 있다.
손실 프레임의 변환 계수 복원부(540)에서는 감쇄 상수 산출부(520, 535)에서 산출된 감쇄 상수(스케일링 팩터)와 현재 프레임 이전 정상 프레임의 변환 계수들을 이용하여 현재 프레임(손실 프레임)의 변환 계수를 복원할 수 있다.
도 5의 프레임 손실 은닉부에서 수행하는 동작을 도면을 이용하여 더 구체적으로 설명한다.
도 6은 본 발명에 따라 복호화기에서 프레임 손실을 은닉/복원하는 방법의 일 예를 개략적으로 설명하는 순서도이다. 도 6에서는 단일 프레임이 손실된 경우에 적용하는 프레임 손실 은닉 방법을 예로서 설명한다. 도 6의 동작은 오디오 신호 복호화기 또는 복호화기 내 특정 동작부에서 수행될 수도 있다. 예컨대, 도 5에서 설명한 바를 참조하면, 도 6의 동작은 도 5의 프레임 손실 은닉부에서 수행될 수도 있다. 다만, 여기서는 설명의 편의를 위해, 복호화기가 도 6의 동작을 수행하는 것으로 설명한다.
도 6을 참조하면, 복호화기는 오디오 신호를 포함하는 프레임을 수신한다(S600). 복호화기는 프레임 손실이 있는지를 판단한다(S605).
수신한 프레임이 정상 프레임으로 판단되면, SWB 복호화부를 통해서 SWB 복호화가 수행될 수 있다(S650). 프레임 손실이 있는 것으로 판단되면, 복호화기는 프레임 손실 은닉을 수행한다.
구체적으로, 프레임 손실이 있는 것으로 판단되면, 복호화기는 프레임 백업 버퍼로부터 저장되어 있던 이전의 정상 프레임에 대한 변환 계수들을 가져와서(S615), M 개(M은 정수)의 대역으로 분할한다(S610). 대역 분할에 관해서는 앞서 설명한 바와 같다.
복호화기는 무손실 프레임(정상 프레임)들의 토널 성분 유무를 판단한다(S620). 예컨대, 현재 프레임(손실 프레임)이 n 번째 프레임인 경우에, 복호화기는 현재 프레임의 이전 프레임들인 n-1 번째 프레임, n-2 번째 프레임,..., n-N 번째 프레임들의 M 개의 대역으로 그룹핑된 변환 계수들을 이용하여 대역별로 토널 성분이 어느 정도인지를 판단할 수 있다. 이때, N은 이전 프레임의 변환 계수를 저장하는 버퍼의 개수이며, 버퍼의 개수가 N인 경우에 N 개의 프레임들에 대한 변환 계수들이 저장될 수 있다.
토널 정도는 정상 프레임들(n-1 번째 프레임, n-2 번째 프레임,..., n-N 번째 프레임)의 대역별 변환 계수를 이용하여 로그(log) 축에서의 스펙트럼 유사성에 기반해 결정될 수 있다. 예컨대, 변환 계수를 세 개의 대역(M=3)로 그룹핑하는 경우라면, 현재 프레임 이전의 정상 프레임들의 변환 계수들이 3 개의 대역으로 분류되는데, 대역마다 토널 정도가 다를 수 있다. 가령, 첫 번째 대역은 토널 성분이 있고, 두 번째 대역은 토널 성분이 없고, 세 번째 대역은 토널 성분이 있다고 판단될 수 있다.
이처럼, 토널 정도는 대역별로 다르게 판단될 수 있으며, 토널 정도에 따라 다른 방법을 이용해서 대역별 감쇄 상수를 유도할 수 있다.
예컨대, 토널 성분이 많은 것으로 판단된 경우에는, 무손실 프레임(정상 프레임)의 변환 계수들 간 상관도를 산출(S625)하고, 산출된 상관도를 기반으로 감쇄 상수를 산출할 수 있다(S630).
구체적으로, 복호화기는 프레임 백업 버퍼에 저장된 변환 계수(MDCT 계수)들을 대역 분할한 신호를 이용하여 무손실 프레임(정상 프레임)의 변환 계수들 간 상관도를 산출할 수 있다(S625). 상관도의 산출은 S620 단계에서 토널 성분이 있는 것으로 판단된 대역에 대해서만 수행될 수 있다.
변환 계수들의 상관도를 산출하는 단계(S625)는 토널 정도(토널리티, tonality)가 강한 대역에서 연속성이 큰 하모닉을 측정하는 것으로서, 연속된 정상 프레임들에서 변환 계수의 사인파(sinusoild) 펄스의 위치가 크게 변하지 않는다는 점을 이용한다.
즉, 연속된 정상 프레임의 사인파 펄스들의 위치 상관도를 측정하여 대역 별로 상관도를 산출할 수 있다. 이때, 상관도를 산출하기 위한 사인파 펄스로서 크기가 큰(절대값이 큰) K 개의 변환 계수들이 선택될 수 있다.
대역별 상관도는 수식 5를 이용하여 산출될 수 있다.
<수식 5>
Figure pct00013
여기서, Wm는 m 번째 대역에 대한 가중치를 나타낸다. 가중치는 낮은 주파수 대역일수록 큰 값이 할당될 수 있다. 따라서, W1≥W2≥W3...의 관계가 성립될 수 있다. 수식 5에서 Wm은 1보다 큰 값을 가질 수 있다. 따라서, 수식 5는 프레임별로 신호가 증가하는 경우에도 적용할 수 있다.
수식 5에서 Ni,n-1은 n-1 번째 프레임의 i번째 사인파 펄스를 나타내며, Ni,n-2는 n-2 번째 프레임의 i번째 사인파 펄스를 나타낸다.
수식 5에서는 설명의 편의를 위해, 현재 프레임(손실 프레임) 이전의 두 정상 프레임(n-1 번째 정상 프레임, n-2 번째 정상 프레임)만을 고려하는 경우를 설명하였다.
도 7은 본 발명에 따라서 상관도를 유도하는 것을 개략적으로 설명하는 도면이다.
도 7에서는 설명의 편의를 위해, 두 정상 프레임(n-1 번째 프레임과 n-2 번째 프레임)에서 변환 계수가 세 개의 대역으로 그룹핑되는 경우를 예로서 설명한다.
도 7의 예에서는, 대역 1과 대역 2가 토널 정도(tonality)가 존재하는 대역이라고 가정한다. 이 경우, 수식 5에 의해 상관도가 산출될 수 있다.
수식 5를 이용하면, 대역 1의 경우는 n-1 번째 프레임과 n-2 번째 프레임에서 크기가 큰 펄스의 위치가 비슷하기 때문에 큰 값의 상관도가 산출된다. 이와 달리, 대역 1의 경우에는 n-1 번째 프레임과 n-2 번째 프레임에서 크기가 큰 펄스의 위치가 상이하기 때문에 작은 값의 상관도가 산출된다.
다시 도 6으로 돌아오면, 산출된 상관도를 기반으로 복호화기는 감쇄 상수를 산출할 수 있다(S630). 상관도의 최대값은 1보다 작기 때문에, 복호화기는 대역별 상관도를 감쇄 상수로서 유도할 수도 있다. 즉, 복호화기는 대역별 상관도를 감쇄 상수로 사용할 수도 있다.
S625 및 S630 단계에서 설명한 바와 같이, 본 발명에 의하면, 토널 정도(tonality)가 있는 대역에 대하여 산출된 펄스들 간의 상관도에 따라서 감쇄 상수가 적응적으로 산출될 수 있다.
한편, 토널 정도가 적은 또는 없는 대역에 대해서, 복호화기는 무손실 프레임(정상 프레임) 변환 계수들의 에너지 계산하고(S635), 계산된 에너지를 기반으로 n 번째 프레임(현재 프레임, 손실 프레임)의 에너지를 예측하며(S640), 예측된 손실 프레임의 에너지와 정상 프레임의 에너지를 이용하여 감쇄 상수를 산출(S645)할 수 있다.
구체적으로, 토널 정도가 적거나 없는 대역에 대해서, 복호화기는 현재 프레임(손실 프레임) 이전의 정상 프레임들에 대해 대역별로 에너지를 산출할 수 있다(S635). 예컨대, 현재 프레임이 n 번째 프레임이라면, n-1 번째 프레임, n-2 번째 프레임,..., n-N (N은 버퍼의 개수) 번째 프레임에 대하여 대역별로 에너지 값을 산출할 수 있다.
복호화기는 산출된 정상 프레임의 에너지들을 기반으로 현재 프레임(손실 프레임)의 에너지를 예측할 수 있다(S640). 예컨대, 현재 프레임의 에너지는 이전 정상 프레임들에 있어서 프레임당 에너지 변화량을 고려하여 예측될 수 있다.
복호화기는 프레임 간 에너지의 비를 이용하여 감쇄 상수를 산출할 수 있다(S645). 예컨대, 복호화기는 현재 프레임(n 번째 프레임)의 예측된 에너지와 이전 프레임(n-1 번째 프레임)의 에너지 사이의 비를 통해 감쇄 상수를 산출할 수 있다. 현재 프레임의 예측된 에너지가 En,pred이고, 현재 프레임의 이전 프레임에서의 에너지가 En-1이라면, 현재 프레임의 토널 정도가 적거나 없는 대역에 대한 감쇄 상수는 En,pred/En-1이 될 수 있다.
복호화기는 대역별로 산출된 감쇄 상수를 이용하여 현재 프레임(손실 프레임)의 변환 계수를 복원할 수 있다(S660). 복호화기는 대역별로 산출된 감쇄 상수를 현재 프레임 이전의 정상 프레임의 변환 계수에 곱해서 현재 프레임의 변환 계수를 복원할 수 있다. 이때, 감쇄 상수는 대역별로 유도되므로, 정상 프레임의 변환 계수들로 구성되는 대역들 중 대응하는 대역의 변환 계수들에 곱해지게 된다.
예컨대, 복호화기는 k 번째 대역에 대한 감쇄 상수를 n-1 번째 프레임의 k 번째 대역 내 변환 계수들에 곱해서, n 번째 프레임(손실된 현재 프레임)의 k 번째 대역의 변환 계수들을 유도할 수 있다(k, n은 정수). 복호화기는 n-1 번째 프레임의 각 대역에 대하여 대응하는 감쇄 상수를 곱해서 전체 대역에 대한 n 번째 프레임(현재 프레임)의 변환 계수를 복원할 수 있다.
복호화기는 복원된 변환 계수 및 복호화된 변환 계수를 역변환하여 SWB 확장 신호를 출력할 수 있다(S665). 복호화기는 변환 계수(MDCT 계수)를 역변환(IMDCT)함으로써, SWB 확장 신호를 출력할 수 있다. 복호화기는 SWB 확장 신호와 WB 신호를 합해서 SWB 신호를 출력할 수 있다.
한편, S660에서 복원된 변환 계수, S620에서 판단된 토널 성분 유무 정보, S630과 S645에서 산출된 감쇄 상수와 같은 정보는 프레임 백업 버퍼에 저장될 수 있다(S655). 저장된 변환 계수는 이후의 프레임이 손실된 경우에 손실된 프레임의 변환 계수를 복원하기 위해 사용될 수 있다. 예컨대, 복호화기는 연속된 프레임들이 손실된 경우에는 저장한 복원 정보(이전 프레임에서 복원된 변환 계수, 이전 프레임들에 대한 토널 성분 정보, 감쇄 상수 등)를 이용하여 연속된 손실 프레임에 대한 복원을 수행할 수 있다.
도 8은 본 발명에 따라 복호화기에서 프레임 손실을 은닉/복원하는 방법의 다른 예를 개략적으로 설명하는 순서도이다. 도 8에서는 연속된 프레임들이 손실된 경우에 적용하는 프레임 손실 은닉 방법을 예로서 설명한다. 도 8의 동작은 오디오 신호 복호화기 또는 복호화기 내 특정 동작부에서 수행될 수도 있다. 예컨대, 도 5에서 설명한 바를 참조하면, 도 8의 동작은 도 5의 프레임 손실 은닉부에서 수행될 수도 있다. 다만, 여기서는 설명의 편의를 위해, 복호화기가 도 8의 동작을 수행하는 것으로 설명한다.
도 8을 참조하면, 복호화기는 현재 프레임에 대하여 프레임 손실이 있는지를 판단한다(S800).
복호화기는 프레임 손실이 있는 경우에, 연속된 프레임들이 손실된 것인지를 판단한다(S810). 복호화기는 현재 프레임이 손실되었다면, 이전 프레임도 손실되었는지를 판단하여, 연속된 프레임이 손실될 것인지를 결정할 수 있다.
이전 프레임이 정상 프레임이라면(단일 프레임이 손상된 것이라면), 복호화기는 도 6에서 설명한 대역 분할 단계(S610)와 그 이후의 단계를 순서대로 진행할 수 있다.
이전 프레임에도 프레임 손실이 있어서 연속된 프레임들이 손실된 것으로 판단되면, 복호화기는 프레임 백업 버퍼로부터 정보를 가져와(S820), M 개(M은 정수)의 대역으로 분할할 수 있다(S830). S830에서 수행하는 대역 분할 역시 앞서 설명한 바와 같다. 다만, 이전의 정상 프레임에서의 변환 계수들을 M 개의 대역으로 분할했던 단일 프레임 손실의 경우와 달리, S830에서는 이전 손실 프레임에서 복원된 변환 계수들을 M 개의 대역으로 분할한다.
복호화기는 이전 프레임(복원 프레임)의 토널 성분 유무를 판단한다(S840). 예컨대, 현재 프레임(손실 프레임)이 n 번째 프레임인 경우에, 복호화기는 현재 프레임의 이전 프레임으로서 손실 프레임인 n-1 번째 프레임의 M 개의 대역으로 그룹핑된 변환 계수들을 이용하여 대역별로 토널 성분이 어느 정도인지를 판단할 수 있다.
토널 정도는 대역별 변환 계수를 이용하여 로그(log) 축에서의 스펙트럼 유사성에 기반해 결정될 수 있다. 예컨대, 변환 계수를 세 개의 대역(M=3)으로 그룹핑하는 경우라면, 이전 프레임의 변환 계수들이 3 개의 대역으로 분류되는데, 대역마다 토널 정도가 다를 수 있다. 가령, 첫 번째 대역은 토널 성분이 있고, 두 번째 대역은 토널 성분이 없고, 세 번째 대역은 토널 성분이 있다고 판단될 수 있다.
이처럼, 토널 정도는 대역별로 다르게 판단될 수 있으며, 토널 정도에 따라 대역별 감쇄 상수를 유도할 수 있다.
복호화기는 이전 프레임의 감쇄 상수에 추가 감쇄 요소를 적용하여 현재 프레임에 적용할 감쇄 상수를 유도할 수 있다(S850).
구체적으로, p 개의 프레임이 연속하여 손실된 경우(p 번의 프레임 손실이 연속하여 발생한 경우)에, 첫 번째 프레임 손실에 대한 초기 감쇄 상수는 λ1, 두 번째 프레임 손실에 대한 추가 감쇄 상수는 λ2,..., q 번째 프레임 손실에 대한 추가 감쇄 상수는 λq,..., p 번째 프레임 손실에 대한 추가 감쇄 상수는 λp로 결정될 수 있다(p와 q는 정수, q < p). 이 경우, 손실된 프레임들 중 q 번째 프레임에 적용되는 감쇄 상수는 이들 초기 감쇄 상수 및/또는 추가 감쇄 상수들의 곱으로부터 유도될 수 있다.
이때, 토널 정도가 강한 대역에 대해서는 큰 추가 감쇄를 적용하고, 토널 정도가 약한 대역에 대해서는 작은 추가 감쇄를 적용할 수 있다. 따라서, 대역의 토널 정도가 크면 추가 감쇄를 많이 하고, 대역의 토널 정도가 작으면 추가 감쇄를 적게 할 수 있다.
예컨대, r(r은 정수) 번째 프레임 손실에 대해서, 토널 정도가 강한 대역의 추가 감쇄 상수 λr,strong tonality는 수식 6과 같이, 토널 정도가 약한 대역의 추가 감쇄 상수 λr,weak tonality보다 크거나 같은 값을 가지게 된다.
<수식 6>
λr,strong tonality ≤ λr,strong tonality
일 예로서, 3 개의 프레임이 연속으로 손실된 경우를 가정하자. 이때, 토널 정도가 강한 대역이라면, 첫 번째 프레임 손실에 대한 초기 감쇄 상수를 1로 설정하고, 두 번째 프레임 손실에 대해서는 추가 감쇄 상수를 0.9로 설정하며, 세 번째 프레임 손실에 대해서는 추가 감쇄 상수를 0.7로 설정할 수 있다. 토널 정도가 약한 대역이라면, 첫 번째 프레임 손실에 대하여 감쇄 상수를 1로 설정하고, 두 번째 프레임 손실에 대해서는 추가 감쇄 상수를 0.95로 설정하며, 세 번째 프레임 손실에 대해서는 추가 감쇄 상수를 0.85로 설정할 수 있다.
추가 감쇄 상수는 토널 정도가 강한 대역인지 토널 정도가 약한 대역인지에 따라서 다르게 설정될 수 있지만, 첫 번째 프레임 손실에 대한 초기 감쇄 상수는 토널 정도가 강한 대역인지 토널 정도가 약한 대역인지에 따라서 다르게 설정될 수도 있고, 대역의 토널 정도와 무관하게 설정될 수도 있다.
복호화기는 유도한 감쇄 상수를 이전 프레임의 대역에 적용하여(S860), 현재 프레임의 변환 계수를 복원할 수 있다.
복호화기는 대역별로 유도한 감쇄 상수를 이전 프레임(복원된 프레임)의 대응하는 대역에 적용할 수 있다. 예컨대, 현재 프레임이 n 번째 프레임(손실 프레임)이고, n-1 번째 프레임이 복원 프레임인 경우, 복호화기는 k 번째 대역에 대한 감쇄 상수를 복원 프레임(n-1 번째 프레임)의 k 번째 대역을 구성하는 변환 계수들에 곱하여 현재 프레임(n 번째 프레임)의 k 번째 대역을 구성하는 변환 계수들을 얻을 수 있다. 복호화기는 n-1 번째 프레임의 각 대역에 대하여 대응하는 감쇄 상수를 곱해서 전체 대역에 대한 n 번째 프레임(현재 프레임)의 변환 계수를 복원할 수 있다.
복호화기는 복원된 변환 계수를 역변환할 수 있다(S880). 복호화기는 복원된 변환 계수(MDCT 계수)를 역변환(IMDCT)하여 SWB 확장 신호를 생성할 수 있으며, WB 신호와 합해서 SWB 신호를 출력할 수 있다.
한편, 도 8에서는 초기 감쇄 상수와 추가 감쇄 상수를 토널 정도에 따라서 설정하는 것으로 설명하였으나, 본 발명은 이에 한정되지 않는다.
예컨대, 토널 정도에 따라서 초기 감쇄 상수와 추가 감쇄 상수 중 적어도 하나를 유도할 수도 있다. 구체적으로, 복호화기는 토널 정도가 강한 대역에 대해서 프레임 백업 버퍼에 저장된 정상 프레임 및 복원 프레임의 변환 계수들과의 상관도를 기반으로 S625 및 S630에서 설명한 바와 같이 감쇄 상수를 산출할 수 있다. 이 경우, h 개(h는 정수)의 프레임이 연속으로 손실되었고, 현재 프레임이 손실된 프레임들 중 h 번째 프레임이라고 가정하면, 복원 프레임들 중 첫 번째 프레임에 대한 감쇄 상수로서 프레임 백업 버퍼에 저장된 감쇄 상수를 초기 감쇄 상수가 되고, 두 번째 복원 프레임부터 현재 프레임까지의 감쇄 상수들은 추가 감쇄 상수가 된다. 따라서, 현재 프레임에 대한 토널 정도가 강한 대역의 감쇄 상수는 수식 7과 같이 이전 h-1 개의 연속된 복원 프레임에 대한 감쇄 상수들과 현재 프레임에 대해 유도된 감쇄 상수의 곱으로 유도될 수 있다.
<수식 7>
λts,current = λts1ts2*...*λtsh
수식 7에서 λts,current는 현재 프레임의 변환 계수를 유도하기 위해 이전 복원 프레임에 적용되는 감쇄 상수이며, λts1은 h 개의 연속된 프레임 손실에 대해서 첫 번째 프레임 손실에 대한 감쇄 상수,λts2는 두 번째 프레임 손실에 대한 감쇄 상수, λtsh는 현재 프레임에 대해 이전 프레임들과의 상관도를 기반으로 유도된 감쇄 상수이다. 감쇄 상수들은 토널 정도가 강한 대역에 대하여 대역별로 유도될 수 있다.
또한, 복호화기는 토널 정도가 약한 대역에 대해서 프레임 백업 버퍼에 저장된 정상 프레임 및 복원 프레임의 변환 계수들의 에너지를 기반으로 S635 내지 S645에서 설명한 바와 같이 감쇄 상수를 산출할 수 있다. 이 경우, h 개(h는 정수)의 프레임이 연속으로 손실되었고, 현재 프레임이 손실된 프레임들 중 h 번째 프레임이라고 가정하면, 복원 프레임들 중 첫 번째 프레임에 대한 감쇄 상수로서 프레임 백업 버퍼에 저장된 감쇄 상수를 초기 감쇄 상수가 되고, 두 번째 복원 프레임부터 현재 프레임까지의 감쇄 상수들은 추가 감쇄 상수가 된다. 따라서, 현재 프레임에 대한 토널 정도가 약한 대역의 감쇄 상수는 수식 8과 같이 이전 h-1 개의 연속된 복원 프레임에 대한 감쇄 상수들과 현재 프레임에 대해 유도된 감쇄 상수의 곱으로 유도될 수 있다.
<수식 8>
λtw,current = λtw1tw2*...*λtwh
수식 7에서 λtw,current는 현재 프레임의 변환 계수를 유도하기 위해 이전 복원 프레임에 적용되는 감쇄 상수이며, λtw1은 h 개의 연속된 프레임 손실에 대해서 첫 번째 프레임 손실에 대한 감쇄 상수,λtw2는 두 번째 프레임 손실에 대한 감쇄 상수, λtwh는 현재 프레임에 대해 이전 프레임들과의 상관도를 기반으로 유도된 감쇄 상수이다. 감쇄 상수들은 토널 정도가 약한 대역에 대하여 대역별로 유도될 수 있다.
도 9는 본 발명에 따른 프레임 손실 복원(은닉) 방법의 일 예를 개략적으로 설명하는 순서도이다. 도 9의 동작은 복호화기에서 수행될 수도 있고, 복호화기 내 프레임 손실 은닉부에서 수행될 수도 있다. 여기서는 설명의 편의를 위해 복호화기에서 도 9의 동작을 수행하는 것으로 설명한다.
도 9를 참조하면, 복호화기는 현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑한다(S910). 이때 현재 프레임은 손실 프레임일 수 있으며, 현재 프레임의 이전 프레임들은 프레임 백업 버퍼에 저장된 정상 프레임 혹은 복원 프레임일 수 있다.
복호화기는 그룹핑된 대역들의 토널 정도에 따라서 감쇄 상수를 유도할 수 있다(S920). 이때, 감쇄 상수는 현재 프레임 이전 N 개(N은 정수)의 정상 프레임들의 변환 계수들을 기반으로 유도될 수 있으며, N은 이전 프레임의 정보를 저장하는 버퍼의 개수일 수 있다.
또한, 변환 계수의 토널 정도가 강한 대역에서 감쇄 상수는 이전 정상 프레임들의 변환 계수들 간의 상관도를 기반으로 유도될 수 있으며, 변환 계수의 토널 정도가 약한 대역에서 감쇄 상수는 이전 정상 프레임들에 대한 에너지들을 기반으로 유도될 수 있다.
또한, 감쇄 상수는 현재 프레임 이전 N 개(N은 정수)의 정상 프레임들 및 복원 프레임들의 변환 계수들을 기반으로 유도될 수도 있으며, N은 이전 프레임의 정보를 저장하는 버퍼의 개수일 수 있다.
또한, 변환 계수의 토널 정도가 강한 대역에서 감쇄 상수는 이전 정상 프레임들 및 복원 프레임들의 변환 계수들 간의 상관도를 기반으로 유도될 수도 있으며, 변환 계수의 토널 정도가 약한 대역에서 감쇄 상수는 이전 정상 프레임들 및 복원 프레임들에 대한 에너지들을 기반으로 유도될 수도 있다.
감쇄 상수에 대한 구체적인 내용은 앞서 자세히 설명한 바와 같다.
복호화기는 현재 프레임의 이전 프레임에 감쇄 상수를 적용하여 현재 프레임의 변환 계수를 복원할 수 있다(S930). 현재 프레임의 변환 계수는 상기 이전 프레임의 각 대역별 변환 계수에 대역별로 유도된 감쇄 상수를 곱한 값으로 복원될 수 있다. 현재 프레임의 이전 프레임이 복원 프레임인 경우, 즉 연속된 프레임들이 손실된 경우에, 현재 프레임의 변환 계수는 이전 프레임의 감쇄 상수에 현재 프레임의 감쇄 상수를 추가 적용하여 복원될 수도 있다.
감쇄 상수를 적용하여 현재 프레임(손실 프레임)의 변환 계수를 복원하는 방법의 구체적인 내용은 앞서 설명한 바와 같다.
도 10은 본 발명에 따른 오디오 복호화 방법의 일 예를 개략적으로 설명하는 순서도이다. 도 10의 동작은 복호화기에서 수행될 수 있다.
도 10을 참조하면, 복호화기는 현재 프레임의 손실 여부를 판단할 수 있다(S1010).
현재 프레임이 손실된 경우에, 복호화기는 현재 프레임의 이전 프레임들의 변환 계수들을 기반으로 상기 현재 프레임의 변환 계수를 복원할 수 있다(S1020). 이때, 복호화기는 이전 프레임들 중 적어도 한 프레임의 변환 계수들의 대역별 토널 정도를 기반으로 현재 프레임의 변환 계수를 복원할 수 있다.
변환 계수의 복원은 현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑하고, 그룹핑된 대역들의 토널 정도에 따라서 감쇄 상수를 유도하며, 현재 프레임의 이전 프레임에 감쇄 상수를 적용함으로써 수행될 수 있다. 이때, 현재 프레임의 이전 프레임이 복원 프레임인 경우에, 상기 현재 프레임의 변환 계수는 상기 이전 프레임의 감쇄 상수에 상기 현재 프레임의 감쇄 상수를 추가 적용하여 복원될 수 있으며, 토널 성분이 강한 대역에 대하여 추가 적용되는 감쇄 상수는 토널 성분이 약한 대역에 대하여 추가 적용되는 감쇄 상수보다 작거나 같을 수도 있다.
대역들의 그룹핑, 감쇄 상수의 유도, 감쇄 상수의 적용에 관해서는 도 9를 비롯하여 본 명세서의 앞부분에서 자세히 설명한 바와 같다.
복호화기는 복원된 변환 계수를 역변환할 수 있다(S1030). 복호화기는 복원된 변환 계수(MDCT 계수)가 SWB에 대한 것이면 역변환(IMDCT)을 통해 SWB 확장 신호를 생성할 수 있으며, WB 신호와 합해서 SWB 신호를 출력할 수 있다.
한편, 지금까지는 본 명세서에서는 (a) 토널 성분이 있다 & 토널 성분이 없다 (b) 토널 성분이 많다 & 토널 성분이 없거나 적다 (c) 토널 정도(토널리티, tonality)가 있다 & 토널 정도가 (적거나) 없다는 세 가지 표현으로, 토널 정도에 대한 판단 기준을 나타내었으나, 이 세 가지 표현은 설명의 편의를 위한 것으로서 동일한 기준을 나타낸 것이며 서로 다른 판단 기준이 아님에 유의한다.
다시 말하면, 본 명세서에서 토널 성분이 있다, 토널 성분이 많다, 토널 정도가 있다는 세 가지 표현은 모두 소정의 기준치보다 많은 토널 성분이 존재한다는 의미이며, 토널 성분이 없다, 토널 성분이 없거나 적다, 토널 정도가 (적거나) 없다는 세 가지 표현은 모두 토널 성분이 소정의 기준치보다 적다는 것을 의미한다.
상술한 예시들에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 상술한 실시예들은 다양한 양태의 예시들을 포함한다. 예컨대, 상술한 실시형태들을 서로 조합하여 실시할 수도 있으며, 이 역시 본 발명에 따른 실시형태에 속한다. 본 발명은 이하의 특허청구범위 내에 속하는 본 발명의 기술적 사상에 따른 다양한 수정 및 변경을 포함한다.

Claims (17)

  1. 현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑하는 단계;
    상기 대역들의 토널 정도에 따라서 감쇄 상수를 유도하는 단계; 및
    상기 현재 프레임의 이전 프레임에 상기 감쇄 상수를 적용하여 상기 현재 프레임의 변환 계수를 복원하는 단계를 포함하는 프레임 손실 복원 방법.
  2. 제1항에 있어서, 상기 감쇄 상수는 상기 현재 프레임 이전 N 개(N은 정수)의 정상 프레임들의 변환 계수들을 기반으로 유도되는 것을 특징으로 하는 프레임 손실 복원 방법.
  3. 제2항에 있어서, 상기 N은 이전 프레임의 정보를 저장하는 버퍼의 개수인 것을 특징으로 하는 프레임 손실 복원 방법.
  4. 제1항에 있어서, 변환 계수의 토널 정도가 강한 대역에서 상기 감쇄 상수는 이전 정상 프레임들의 변환 계수들 간의 상관도를 기반으로 유도되는 것을 특징으로 하는 프레임 손실 복원 방법.
  5. 제4항에 있어서, 대역별 상관도를 대역별 감쇄 상수로서 이용하되, 프레임 간 사인파 펄스의 위치 상관도가 높은 대역은 높은 상관도를 가지는 것을 특징으로 하는 프레임 손실 복원 방법.
  6. 제1항에 있어서, 변환 계수의 토널 정도가 약한 대역에서 상기 감쇄 상수는 이전 정상 프레임들에 대한 에너지들을 기반으로 유도되는 것을 특징으로 하는 프레임 손실 복원 방법.
  7. 제6항에 있어서, 상기 감쇄 상수는 이전 프레임들의 에너지들 간 변화를 기반으로 예측된 상기 현재 프레임에 대한 에너지 예측 값과 상기 현재 프레임의 이전 프레임에 대한 에너지 값 간의 비인 것을 특징으로 하는 프레임 손실 복원 방법.
  8. 제1항에 있어서, 상기 현재 프레임의 변환 계수는 상기 이전 프레임의 각 대역별 변환 계수에 대역별로 유도된 감쇄 상수를 곱한 값으로 복원되는 것을 특징으로 하는 프레임 손실 복원 방법.
  9. 제8항에 있어서, 상기 현재 프레임의 이전 프레임이 복원 프레임인 경우에, 상기 현재 프레임의 변환 계수는 상기 이전 프레임의 감쇄 상수에 상기 현재 프레임의 감쇄 상수를 추가 적용하여 복원되는 것을 특징으로 하는 프레임 손실 복원 방법.
  10. 현재 프레임의 손실 여부를 판단하는 단계;
    상기 현재 프레임이 손실된 경우에, 상기 현재 프레임의 이전 프레임들의 변환 계수들을 기반으로 상기 현재 프레임의 변환 계수를 복원하는 단계; 및
    상기 복원된 변환 계수를 역변환하는 단계를 포함하며,
    상기 변환 계수를 복원하는 단계에서는 상기 이전 프레임들 중 적어도 한 프레임의 변환 계수들의 대역별 토널 정도를 기반으로 상기 현재 프레임의 변환 계수를 복원하는 것을 특징으로 하는 오디오 복호화 방법.
  11. 제1항에 있어서, 상기 변환 계수를 복원하는 단계는,
    현재 프레임의 이전 프레임들 중 적어도 한 프레임의 변환 계수들을 소정 개수의 대역들로 그룹핑하는 단계;
    상기 대역들의 토널 정도에 따라서 감쇄 상수를 유도하는 단계; 및
    상기 현재 프레임의 이전 프레임에 상기 감쇄 상수를 적용하여 상기 현재 프레임의 변환 계수를 복원하는 단계를 포함하는 것을 특징으로 하는 오디오 복호화 방법.
  12. 제11항에 있어서, 상기 감쇄 상수는 상기 현재 프레임 소정 개수의 이전 정상 프레임들의 변환 계수들을 기반으로 유도되는 것을 특징으로 하는 오디오 복호화 방법.
  13. 제11항에 있어서, 변환 계수의 토널 정도가 강한 대역에서 상기 감쇄 상수는 이전 정상 프레임들의 변환 계수들 간의 상관도를 기반으로 유도되는 것을 특징으로 하는 오디오 복호화 방법.
  14. 제11항에 있어서, 변환 계수의 토널 정도가 약한 대역에서 상기 감쇄 상수는 이전 정상 프레임들에 대한 에너지들을 기반으로 유도되는 것을 특징으로 하는 오디오 복호화 방법.
  15. 제10항에 있어서, 상기 현재 프레임의 변환 계수는 상기 이전 프레임의 각 대역별 변환 계수에 대역별로 유도된 감쇄 상수를 곱한 값으로 복원되는 것을 특징으로 하는 오디오 복호화 방법.
  16. 제15항에 있어서, 상기 현재 프레임의 이전 프레임이 복원 프레임인 경우에, 상기 현재 프레임의 변환 계수는 상기 이전 프레임의 감쇄 상수에 상기 현재 프레임의 감쇄 상수를 추가 적용하여 복원되는 것을 특징으로 하는 오디오 복호화 방법.
  17. 제16항에 있어서, 토널 성분이 강한 대역에 대하여 추가 적용되는 감쇄 상수는 토널 성분이 약한 대역에 대하여 추가 적용되는 감쇄 상수보다 작거나 같은 것을 특징으로 하는 오디오 복호화 방법.
KR1020157006324A 2012-09-13 2013-09-11 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치 KR20150056770A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261700865P 2012-09-13 2012-09-13
US61/700,865 2012-09-13
PCT/KR2013/008235 WO2014042439A1 (ko) 2012-09-13 2013-09-11 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치

Publications (1)

Publication Number Publication Date
KR20150056770A true KR20150056770A (ko) 2015-05-27

Family

ID=50278466

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157006324A KR20150056770A (ko) 2012-09-13 2013-09-11 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치

Country Status (6)

Country Link
US (1) US9633662B2 (ko)
EP (1) EP2897127B1 (ko)
JP (1) JP6139685B2 (ko)
KR (1) KR20150056770A (ko)
CN (1) CN104718570B (ko)
WO (1) WO2014042439A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014283180B2 (en) * 2013-06-21 2017-01-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
CN104301064B (zh) 2013-07-16 2018-05-04 华为技术有限公司 处理丢失帧的方法和解码器
CN106683681B (zh) * 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
EP3230980B1 (en) 2014-12-09 2018-11-28 Dolby International AB Mdct-domain error concealment
US9837094B2 (en) * 2015-08-18 2017-12-05 Qualcomm Incorporated Signal re-use during bandwidth transition period
CA3016949C (en) * 2016-03-07 2021-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands
EP3427258B1 (en) 2016-03-07 2021-03-31 Fraunhofer Gesellschaft zur Förderung der Angewand Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame
CN107248411B (zh) * 2016-03-29 2020-08-07 华为技术有限公司 丢帧补偿处理方法和装置
KR20230018538A (ko) 2017-05-24 2023-02-07 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11996117B2 (en) 2020-10-08 2024-05-28 Modulate, Inc. Multi-stage adaptive system for content moderation

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
JP2006030609A (ja) * 2004-07-16 2006-02-02 Yamaha Corp 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
KR100624440B1 (ko) * 2004-10-23 2006-09-15 삼성전자주식회사 음소별 코드북 매핑에 의한 음색변환방법
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
CN101366080B (zh) * 2006-08-15 2011-10-19 美国博通公司 一种更新解码器的状态的方法和系统
JP5123516B2 (ja) * 2006-10-30 2013-01-23 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法及び符号化方法
PT2571024E (pt) * 2007-08-27 2014-12-23 Ericsson Telefon Ab L M Frequência de transição adaptativa entre preenchimento de ruído e extensão da largura de banda
CN101588341B (zh) 2008-05-22 2012-07-04 华为技术有限公司 一种丢帧隐藏的方法及装置
WO2009150290A1 (en) * 2008-06-13 2009-12-17 Nokia Corporation Method and apparatus for error concealment of encoded audio data
KR101229034B1 (ko) * 2008-09-10 2013-02-01 성준형 디바이스 인터페이싱을 위한 다중모드 조음 통합
CN101777960B (zh) * 2008-11-17 2013-08-14 华为终端有限公司 音频编码方法、音频解码方法、相关装置及通信系统
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
ES2568640T3 (es) * 2012-02-23 2016-05-03 Dolby International Ab Procedimientos y sistemas para recuperar de manera eficiente contenido de audio de alta frecuencia

Also Published As

Publication number Publication date
CN104718570A (zh) 2015-06-17
JP2015534115A (ja) 2015-11-26
EP2897127B1 (en) 2017-11-08
CN104718570B (zh) 2017-07-18
EP2897127A4 (en) 2016-08-17
US9633662B2 (en) 2017-04-25
JP6139685B2 (ja) 2017-05-31
EP2897127A1 (en) 2015-07-22
US20150255074A1 (en) 2015-09-10
WO2014042439A1 (ko) 2014-03-20

Similar Documents

Publication Publication Date Title
JP6139685B2 (ja) 損失フレーム復元方法及びオーディオ復号化方法とそれを利用する装置
KR102151749B1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
JP4861196B2 (ja) Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
CN101878504B (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
JP4950210B2 (ja) オーディオ圧縮
KR100707174B1 (ko) 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
JP6638110B2 (ja) 高調波転換
US9406307B2 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
JP5449133B2 (ja) 符号化装置、復号装置およびこれらの方法
EP2239731B1 (en) Encoding device, decoding device, and method thereof
KR101423737B1 (ko) 오디오 신호의 디코딩 방법 및 장치
US9830920B2 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
EP2017830B9 (en) Encoding device and encoding method
MX2011000366A (es) Codificador y decodificador de audio para codificar y decodificar muestras de audio.
KR102048076B1 (ko) 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model
AU2015221516A1 (en) Improved Harmonic Transposition

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination