KR20130036304A - 오디오 신호 처리 방법 및 장치 - Google Patents

오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR20130036304A
KR20130036304A KR1020137002705A KR20137002705A KR20130036304A KR 20130036304 A KR20130036304 A KR 20130036304A KR 1020137002705 A KR1020137002705 A KR 1020137002705A KR 20137002705 A KR20137002705 A KR 20137002705A KR 20130036304 A KR20130036304 A KR 20130036304A
Authority
KR
South Korea
Prior art keywords
frame
type
audio signal
current frame
bandwidth
Prior art date
Application number
KR1020137002705A
Other languages
English (en)
Inventor
정규혁
전혜정
김락용
이병석
강인규
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20130036304A publication Critical patent/KR20130036304A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

본 발명은, 오디오 신호 처리 방법으로서, 오디오 신호를 수신하는 단계; 코딩 모드를 지시하는 네트워크 정보를 수신하여, 현재 프레임에 대응하는 코딩 모드를 결정하는 단계; 상기 코딩 모드에 따라서, 상기 오디오 신호의 현재 프레임을 인코딩하는 단계; 및 상기 인코딩된 현재 프레임을 전송하는 단계를 포함하고, 상기 코딩 모드는, 대역폭 및 비트레이트의 조합에 의해 결정되고, 상기 대역폭은 협대역, 광대역, 초광대역 중 둘 이상을 포함한다.

Description

오디오 신호 처리 방법 및 장치{METHOD AND DEVICE FOR PROCESSING AUDIO SIGNAL}
본 발명은 오디오 신호를 인코딩하거나 디코딩할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것이다.
일반적으로, 오디오 신호 중 특히 음성 신호의 특성이 강한 경우에는, 오디오 신호에 대해서 선형 예측 코딩(LPC: linear predictive coding)을 수행한다. 선형 예측 코딩에 의해 생성된 선형-예측 계수를 디코더에 전송하고, 디코더는 이 계수에 대해 선형 예측 합성을 통해서 오디오 신호를 복원한다.
일반적으로, 오디오 신호는 다양한 주파수의 신호가 포함되어 있고, 사람의 가청 주파수는, 20Hz-20kHz 인데 비해, 보통 사람의 음성은 약 200Hz-3kHz 영역에 존재한다. 입력 오디오 신호는 사람의 음성이 존재하는 대역뿐만 아니라, 사람의 음성이 존재하기 어려운 7kHz 이상의 고주파 영역의 성분까지 포함하는 경우가 있다. 이와 같이 광대역(약 ~8kHz) 또는 초광대역(약 ~16kHz)의 신호에 대해서, 협대역(약 ~4kHz)에 적합한 코딩 방식을 적용하게 되면, 음질의 열화가 발생되는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 네트워크 상태(및 오디오 신호 특성)에 따라서, 프레임마다 코딩 모드를 스위칭하면서 적용하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 코딩 모드(들)은 각 대역폭(협대역, 광대역, 초광대역)에 적합한 코딩 방식을 적용하기 위한 것으로서, 프레임마다 코딩 모드를 스위칭함으로써, 프레임마다 대역폭에 따른 코딩 방식을 스위칭하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 프레임별로 코딩 모드를 스위칭함으로써, 프레임마다 대역폭에 따른 코딩 방식을 스위칭하여 적용할 뿐만 아니라, 다양한 비트레이트를 프레임별로 적용하기 위한 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 현재 프레임이 음성 비-활성 구간에 해당할 때, 대역폭을 근거로 하여, 타입별 묵음 프레임을 생성하여 전송하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 현재 프레임이 음성 비-활성 구간에 해당할 때, 대역폭과 무관하게 통합 묵음 프레임을 생성하여 전송하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 이후 프레임이 이전 프레임의 대역폭과 다른 경우, 이전 프레임의 대역폭과 같은 대역폭으로 현재 프레임을 스무딩하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명은 다음과 같은 효과와 이점을 제공한다.
첫째, 네트워크에서 피드백되는 정보에 따라서 프레임별로 코딩 모드를 스위칭함으로써, 네트워크(및 수신자 단말기)의 상황에 따라 적응적으로 코딩 방식을 스위칭함으로써, 통신 환경에 적절한 인코딩을 수행할 수 있으며, 송신측으로 상대적으로 적은 비트레이트로 송신이 가능해진다.
둘째, 네트워크 정보뿐만 아니라 오디오 신호 특성까지 고려하여 프레임별로 코딩 모드를 스위칭함으로써, 네트워크 상황에서 허용되는 한, 오디오 신호 특성에 따라 대역폭이나 비트레이트를 적응적으로 변화시킬 수 있다.
셋째, 음성 활성 구간에서는, 네트워크 정보를 바탕으로 허용될 수 있는 비트레이트 이하에서 다른 대역폭을 선택하여 스위칭 함으로써, 송신측에 양질의 음질을 제공할 수 있다.
넷째, 음성 활성 구간에서 같거나 다른 비트레이트를 가지는 대역폭이 스위칭하는 경우, 송신 측에서는 이전 프레임임의 대역폭을 기초로 스무딩시킴에 따라, 대역폭 변화에 따른 불연속성을 방지 할 수 있다.
다섯째, 음성 비-활성 구간에서는, 이전 프레임의 대역폭(들)에 따라서 현재 프레임의 묵음 프레임의 타입을 결정하기 때문에, 대역폭이 달라짐에 따라 발생하는 왜곡을 방지할 수 있다.
여섯째, 음성 비-활성 구간에서, 이전 프레임 또는 현재 프레임과 무관한 통합 묵음 프레임을 적용함으로써, 제어에 필요한 파워, 리소스 및 전송시의 모드 개수를 줄일 수 있으며 음성 비활성 구간에서 대역폭 스위칭으로 생기는 왜곡을 방지할 수 있다.
일곱째, 음성 비-활성 구간에서 음성 활성 구간으로 전이되는 과정에서, 대역폭이 변화하는 경우 수신단에서 현재 프레임의 대역폭을 이전 프레임의 대역폭을 기초로 스무딩시킴에 따라, 대역폭 변화에 따른 불연속성을 방지할 수 있다.
도 1 은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치 중 인코더의 구성도.
도 2 는 NB 코딩 방식, WB 코딩 방식, SWB 코딩 방식의 일 예.
도 3 는 도 1 의 모드 결정부(110)의 제 1 예.
도 4 은 도 1 의 모드 결정부(110)의 제 2 예.
도 5 는 복수의 코딩 모드들의 일 예를 나타내기 위한 도면.
도 6 은 프레임별로 스위칭되는 코딩 모드들의 일 예.
도 7 은 도 6 의 세로 축을 대역폭으로 나타낸 도면.
도 8 은 도 6 의 세로 축을 비트레이트로 나타낸 도면.
도 9 는 코어 레이어 및 인핸스먼트 레이어의 개념도
도 10 은 인핸스먼트 레이어의 비트수가 가변적인 경우를 나타낸 도면.
도 11 은 코어 레이어의 비트수가 가변적인 경우를 나타낸 도면.
도 12 는 코어 레이어 및 인핸스먼트 레이어의 비트수가 가변적인 경우를 나타낸 도면.
도 13 은 도 1 의 묵음 프레임 생성부(140)의 제 1 예.
도 14 는 묵음 프레임이 등장하는 과정을 설명하기 위한 도면.
도 15 는 타입별 묵음 프레임의 신택스의 예들.
도 16 은 도 1 의 묵음 프레임 생성부(140)의 제 2 예.
도 17 는 통합 묵음 프레임의 신택스의 일 예.
도 18 은 도 1 의 묵음 프레임 생성부(140)의 제 3 예.
도 19 는 제 3 예의 묵음 프레임 생성부(140)를 설명하기 위한 도면.
도 20 은 본 발명의 일 실시예에 따른 디코더들의 개략적인 구성도.
도 21 은 본 발명의 일 실시예에 따른 디코딩 과정을 설명하기 위한 순서도.
도 22 는 본 발명의 다른 실시예에 따른 인코더 및 디코더의 개략적인 구성도.
도 23 은 본 발명의 다른 실시예에 따른 디코딩 과정을 설명하기 위한 도면.
도 24 는 본 발명의 디코딩 장치 중 컨버팅부를 설명하기 위한 도면.
도 25 은 본 발명의 실시예에 따른 오디오 신호 처리 장치가 구현된 제품의 개략적인 구성도.
도 26 는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도.
도 27 은 본 발명의 실시예에 따른 오디오 신호 처리 장치가 구현된 이동 단말기의 개략적인 구성도.
[발명의 실시를 위한 최선의 형태]
상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 처리 방법은, 오디오 신호를 수신하는 단계; 코딩 모드를 지시하는 네트워크 정보를 수신하여, 현재 프레임에 대응하는 코딩 모드를 결정하는 단계; 상기 코딩 모드에 따라서, 상기 오디오 신호의 현재 프레임을 인코딩하는 단계; 상기 인코딩된 현재 프레임을 전송하는 단계; 상기 코딩 모드는, 대역폭 및 비트레이트의 조합에 의해 결정되고, 상기 대역폭은 협대역, 광대역, 초광대역 중 둘 이상을 포함한다.
본 발명에 따르면, 상기 비트레이트는, 상기 대역폭별로 미리 정해진 둘 이상의 지원 비트레이트들을 포함할 수 있다.
본 발명에 따르면, 상기 초광대역은 상기 광대역 및 상기 협대역을 포함하는 대역이고, 상기 광대역은, 상기 협대역을 포함하는 대역에 해당할 수 있다.
본 발명에 따르면, 상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 여부를 판단하는 단계를 더 포함하고, 상기 코딩 모드를 결정하는 단계 및 상기 인코딩하는 단계는, 상기 현재 프레임이 음성 활성 구간인 경우에 수행되는 것일 수 있다.
본 발명의 또 다른 측면에 따르면, 오디오 신호를 수신하는 단계; 최대허용 코딩모드를 지시하는 네트워크 정보를 수신하는 단계; 상기 네트워크 정보 및 상기 오디오 신호를 근거로 하여, 현재 프레임에 대응하는 코딩 모드를 결정하는 단계; 상기 코딩 모드에 따라서, 상기 오디오 신호의 현재 프레임을 인코딩하는 단계; 및 상기 인코딩된 현재 프레임을 전송하는 단계를 포함하고, 상기 코딩 모드는, 대역폭 및 비트레이트의 조합에 의해 결정되고, 상기 대역폭은 협대역, 광대역, 초광대역 중 둘 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법이 제공된다.
본 발명에 따르면, 상기 코딩 모드를 결정하는 단계는, 상기 네트워크 정보를 근거로 하여, 하나 이상의 후보 코딩 모드를 결정하는 단계; 상기 오디오 신호의 특성을 근거로 하여, 상기 후보 코딩 모드들 중에서 하나를 상기 코딩 모드로서 결정하는 단계를 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 코딩 모드를 지시하는 네트워크 정보를 수신하여, 현재 프레임에 대응하는 코딩 모드를 결정하는 모드 결정부; 및, 오디오 신호를 수신하고, 상기 코딩 모드에 따라서, 상기 오디오 신호의 현재 프레임을 인코딩하고, 상기 인코딩된 현재 프레임을 전송하는 오디오 인코딩부를 포함하고, 상기 코딩 모드는, 대역폭 및 비트레이트의 조합에 의해 결정되고, 상기 대역폭은 협대역, 광대역, 초광대역 중 둘 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 오디오 신호를 수신하고, 최대허용 코딩모드를 지시하는 네트워크 정보를 수신하고, 상기 네트워크 정보 및 상기 오디오 신호를 근거로 하여, 현재 프레임에 대응하는 코딩 모드를 결정하는 모드 결정부; 및, 상기 코딩 모드에 따라서, 상기 오디오 신호의 현재 프레임을 인코딩하고, 상기 인코딩된 현재 프레임을 전송하는 오디오 인코딩부를 포함하고, 상기 코딩 모드는, 대역폭 및 비트레이트의 조합에 의해 결정되고, 상기 대역폭은 협대역, 광대역, 초광대역 중 둘 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 오디오 신호를 수신하는 단계; 상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 또는 음성 비-활성 구간인지 여부를 판단하는 단계; 상기 현재 프레임이 음성 비-활성 구간인 경우, 하나 이상의 이전의 프레임의 대역폭을 근거로 하여, 제 1 타입 및 제 2 타입을 포함하는 복수의 타입들 중에서 하나를 현재 프레임에 대한 묵음 프레임의 타입으로 결정하는 단계; 및, 상기 현재 프레임에 대하여, 상기 결정된 타입의 묵음 프레임을 생성하여 전송하는 단계를 포함하고, 상기 제 1 타입은, 제 1 차수의 선형 예측 변환 계수를 포함하고, 상기 제 2 타입은, 제 2 차수의 선형 예측 변환 계수를 포함하고, 상기 제 1 차수는 상기 제 2 차수보다 작은 것을 특징으로 하는 오디오 신호 처리 방법이 제공된다.
본 발명에 따르면, 상기 복수의 타입들은, 제 3 타입을 더 포함하고, 상기 제 3 타입은, 제 3 비트수의 선형 예측 변환 계수를 포함하고, 상기 제 3 차수는 상기 제 2 차수보다 많은 것일 수 있다.
본 발명에 따르면, 상기 제 1 차수의 선형 예측 변환 계수는 제 1 비트수로 인코딩되고, 상기 제 2 차수의 선형 예측 변환 계수는 제 2 비트수로 인코딩되고, 상기 제 1 비트수는 상기 제 2 비트수보다 작은 것일 수 있다.
본 발명의 또 다른 측면에 따르면, 상기 제 1 타입, 상기 제 2 타입, 및 상기 제 3 타입은 총 비트수가 모두 동일한 것일 수 있다.
본 발명의 또 다른 측면에 따르면, 오디오 신호를 수신하고, 상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 또는 음성 비-활성 구간인지 여부를 판단하는 활성 구간 판단부; 상기 현재 프레임이 음성 비-활성 구간이 아닌 경우, 하나 이상의 이전의 프레임의 대역폭을 근거로 하여, 제 1 타입 및 제 2 타입을 포함하는 복수의 타입들 중에서 하나를 현재 프레임에 대한 묵음 프레임의 타입으로 결정하는 타입 결정부; 및, 상기 현재 프레임에 대하여, 상기 결정된 타입의 묵음 프레임을 생성하여 전송하는 타입별 묵음프레임 생성부를 포함하고, 상기 제 1 타입은, 제 1 차수의 선형 예측 변환 계수를 포함하고, 상기 제 2 타입은, 제 2 차수의 선형 예측 변환 계수를 포함하고, 상기 제 1 차수는 상기 제 2 차수보다 작은 것을 특징으로 하는 오디오 신호 처리 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 오디오 신호를 수신하는 단계; 상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 또는 음성 비-활성 구간인지 여부를 판단하는 단계; 이전 프레임이 음성 비-활성 구간이고 상기 현재 프레임이 음성 활성 구간인 경우, 현재 프레임의 대역폭이 이전 프레임의 묵음 프레임의 대역폭과 다르면, 복수의 타입들 중에서 현재 프레임의 대역폭에 대응하는 타입을 결정하는 단계; 및, 상기 결정된 타입의 묵음 프레임을 생성하여 전송하는 단계를 포함하고, 상기 복수의 타입들은 제 1 타입 및 제 2 타입을 포함하고, 상기 대역폭은 협대역 및 광대역을 포함하고, 상기 제 1 타입은 상기 협대역에 대응되고, 상기 제 2 타입은 상기 광대역에 대응되는 것을 특징으로 하는 오디오 신호 처리 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 오디오 신호를 수신하고, 상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 또는 음성 비-활성 구간인지 여부를 판단하는 활성 구간 판단부; 이전 프레임이 음성 비-활성 구간이고 상기 현재 프레임이 음성 활성 구간인 경우, 현재 프레임의 대역폭이 이전 프레임의 묵음 프레임의 대역폭과 다르면, 복수의 타입들 중에서 현재 프레임의 대역폭에 대응하는 타입을 결정하는 제어부; 및, 상기 결정된 타입의 묵음 프레임을 생성하여 전송하는 단계를 포함하고, 상기 복수의 타입들은 제 1 타입 및 제 2 타입을 포함하고, 상기 대역폭은 협대역 및 광대역을 포함하고, 상기 제 1 타입은 상기 협대역에 대응되고, 상기 제 2 타입은 상기 광대역에 대응되는 것을 특징으로 하는 오디오 신호 처리 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 오디오 신호를 수신하는 단계; 상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 음성 비-활성 구간인지 판단하는 단계; 상기 현재 프레임이 상기 음성 비-활성 구간인 경우, 상기 현재 프레임에 대하여 이전의 프레임의 대역폭과 상관없이 통합 묵음 프레임을 생성하여 전송하는 단계를 포함하고, 상기 통합 묵음 프레임은, 선형 예측 변환 계수 및 프레임 평균 에너지를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법이 제공된다.
본 발명에 따르면, 상기 선형 예측 변환 계수는 28bits 가 할당되고, 상기 프레임 평균 에너지는 7bits 가 할당될 수 있다.
본 발명의 또 다른 측면에 따르면, 오디오 신호를 수신하고, 상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 음성 비-활성 구간인지 판단하는 활성 구간 판단부; 및, 상기 현재 프레임이 상기 음성 비-활성 구간인 경우, 상기 현재 프레임에 대하여 이전의 프레임의 대역폭과 상관없이 통합 묵음 프레임을 생성하여 전송하는 통합 묵음프레임 생성부를 포함하고, 상기 통합 묵음 프레임은, 선형 예측 변환 계수 및 프레임 평균 에너지를 포함하는 오디오 신호 처리 장치가 제공된다.
[발명의 실시를 위한 형태]
이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.
여기서 오디오 신호(audio signal)란, 광의로는, 비디오 신호와 구분되는 개념으로서, 재생 시 청각으로 식별할 수 있는 신호를 지칭하고, 협의로는, 음성(speech) 신호와 구분되는 개념으로서, 음성 특성이 없거나 적은 신호를 의미한다. 본 발명에서의 오디오 신호는 광의로 해석되어야 하며 음성 신호와 구분되어 사용될 때 협의의 오디오 신호로 이해될 수 있다.
또한 코딩이란, 인코딩만을 지칭할 수도 있지만, 인코딩 및 디코딩을 모두 포함하는 개념으로 사용될 수도 있다.
도 1 은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치 중 인코더의 구성을 보여주는 도면이다. 도 1 을 참조하면, 인코더(100)는 오디오 인코딩부(130)를 포함하고, 모드 결정부(110), 활성 구간 판단부(120), 묵음 프레임 생성부(140), 네트워크 제어부(150) 중 하나 이상을 더 포함할 수 있다.
모드 결정부(110)는 네트워크 제어부(150)로부터 네트워크 정보를 수신하여, 이를 기반으로 코딩 모드를 결정하여 오디오 인코딩부(130)(및, 묵음 프레임 생성부(140)에 전달한다. 여기서 네트워크 정보란, 코딩 모드를 지시할 수도 있고, 최대허용 코딩모드를 지시할 수도 있는데, 이에 대해서는 추후 도 3 및 도 4 에 대해서 각각 설명하고자 한다. 한편, 코딩 모드란, 입력 오디오 신호를 인코딩하기 위한 모드로서, 대역폭 및 비트레이트(및 묵음 프레임 여부)의 조합으로 결정될 수 있는데, 이에 대해서도 추후 도 5 등을 참조하면서 설명하고자 한다.
한편, 활성 구간 판단부(120)는 입력된 오디오 신호에 대해서 분석을 수행함으로써, 오디오 신호의 현재 프레임이 음성 활성 구간인지 아니면 음성 비-활성 구간인지 여부를 판단하고, 그 여부를 지시하는 활성 플래그(이하, "VAD flag")를 오디오 인코딩부(130), 묵음 프레임 생성부(140), 및 네트워크 제어부(150) 등에 전달한다. 여기서, 상기 분석은 VAD(Voice activity detection) 과정에 해당할 수 있다.
음성 비-활성 구간이란 예를 들어, 묵음(silence) 또는 백그라운드 노이즈가 있는 구간에 해당한다. 비-활성(inactivity) 구간에서 활성 구간과 같은 코딩 방식을 쓰는 것은 비효율적이다. 따라서 활성 구간 판단부(120)는 활성 플래그를 오디오 인코딩부(130) 및 묵음 프레임 생성부(140)에 전달함으로써, 음성 활성 구간(VAD flag=1)인 경우, 각 코딩 방식에 따라서, 오디오 인코딩부(130)로 하여금 오디오 신호를 인코딩하도록 하고, 음성 비-활성 구간(VAD flag=0)인 구간에서는 묵음 프레임 생성부(140)로 하여금, 낮은 비트수를 갖는 묵음 프레임을 생성하도록 한다. 하지만, 예외적으로 VAD flag=0 인 경우에도, 오디오 코딩부(130)에 의해서 오디오 신호가 인코딩될 수도 있는데, 이는 추후 도 14 에서 설명하고자 한다.
오디오 인코딩부(130)는 모드 결정부(110)에서 결정된 코딩 모드에 따라서 NB 인코딩부(또는 협대역 인코딩부)(131), WB 인코딩부(또는 광대역 인코딩부)(132), SWB 인코딩부(또는 초광대역 인코딩부(133)) 중 하나 이상으로 하여금 입력 오디오 신호를 인코딩하여 오디오 프레임을 생성하도록 한다.
한편, 협대역, 광대역, 초광대역의 의미에 대해서 설명하자면, 기재된 순서대로 주파수 대역이 넓고 높아지는 것을 의미하는 것으로서, 초광대역(SWB)은 광대역(WB) 및 협대역(NB)을 포함하는 대역이고, 광대역(WB)은, 협대역(NB)을 포함하는 대역에 해당한다.
NB 인코딩부(131)는 협대역 신호에 대응하는 코딩 방식(이하, NB 코딩 방식)에 따라 입력 오디오 신호를 인코딩하는 장치이고, WB 인코딩부(132)는 광대역 신호에 대응하는 코딩 방식(이하, WB 코딩 방식), SWB 인코딩부(133)은 초광대역 신호에 대응하는 코딩 방식(이하, SWB 코딩 방식)에 따라 오디오 신호를 인코딩하는 장치이다. 앞서 설명한 바와 같이 각 대역별로(즉, 각 인코딩부별로) 별개 코딩 방식을 가질 수도 있지만, 하위 대역을 포함하는 임베디드(embedded) 구조의 코딩 방식을 가질 수도 있고, 위 2 개의 구조가 조합된 하이브리드(hybrid) 구조를 가질 수도 있다. 도 2 는 하이브리드 구조의 코덱의 일 예이다.
도 2 를 참조하면, NB / WB /SWB 코딩방식은 각각 멀티 비트레이트를 갖는 음성 코덱으로서 SWB 코딩방식의 경우, WB 코딩방식을 하위대역 신호에 그대로 적용한다. NB 코딩 방식은 CELP(Code Excitation Linear Prediction) 방식에 해당하고, WB 코딩 방식은 AMR-WB(Adaptive MultiRate -Wide Band) 방식, CELP 방식, MDCT(Modified Discrete Cosine Transform) 중 하나가 코어 레이어가 되고, 인핸스먼트 레이어가 추가되어, 코딩 에러 임베디드 구조로서 결합될 수 있다. SWB 코딩 방식은 8kHz 까지의 대역폭 신호에는 WB 코딩방식을 적용하고, 8kHz 에서 16kHz 까지의 신호에 대해 스펙트럼 포락선 정보와 레지듀얼 신호를 에너지를 인코딩하는 방식에 해당할 수 있다. 도 2 에 도시된 코딩 방식은 일 예일뿐 본 발명은 이에 한정되지 아니한다.
다시 도 1 을 참조하면, 묵음 프레임 생성부(140)는 활성 플래그(VAD flag) 및 오디오 신호를 수신하고, 활성 플래그를 근거로 하여, 일반적으로 현재 프레임이 음성 비-활성 구간에 해당할 때, 오디오 신호의 현재 프레임에 대해서 묵음 프레임(SID frame)을 생성한다. 묵음 프레임 생성부(140)의 다양한 실시예에 대해서는 추후 설명하고자 한다.
네트워크 제어부(150)는 이동통신망(기지국(base station transceiver(BTS)), 베이스 스테이션(BSC), 이동 스위칭 센터(mobile switching center:MSC), PSTN, IP network 등을 포함)과 같은 네트워크로부터, 채널 컨디션 정보를 수신한다. 여기서 채널 컨디션 정보로부터 네트워크 정보를 추출하여 모드 결정부(110)에 전달한다. 네트워크 정보란, 앞서 설명한 바와 같이, 코딩 모드를 직접 지시하거나, 최대허용 코딩모드를 지시하는 정보일 수 있다. 한편, 네트워크 제어부(150)는 오디오 프레임 또는 묵음 프레임을 네트워크에 전송한다.
도 3 및 도 4 를 참조하면서, 모드 결정부(110)의 두 가지 실시예에 대해서 설명하고자 한다. 도 3 을 참조하면, 제 1 실시예에 따른 모드 결정부(110A)는 오디오 신호 및 네트워크 정보를 수신하여 코딩 모드를 결정한다. 여기서 코딩 모드란, 도 5 에 도시된 바와 같이, 대역폭 및 비트레이트 등의 조합에 의해 결정될 수 있다.
도 5 를 참조하면, 총 약 14-16 개의 코딩 모드가 예로서 도시되어 있다. 코딩 모드를 결정하는 요소 중 하나인 대역폭은 협대역(NB), 광대역(WB), 초광대역(SWB) 중 둘 이상이 존재하고, 요소 중 다른 하나인 비트레이트는 대역폭 별로 둘 이상의 지원 비트레이트들이 존재한다. 즉, 협대역(NB)는 6.8, 7.6, 9.2, 12.8kbps 중 둘 이상이 존재하고, 광대역(WB)은 6.8, 7.6, 9.2, 12.8, 16, 24kbps 중 둘 이상이 존재하고, 초광대역(SWB)은 12.8, 16, 24kbps 중 둘 이상이 존재한다. 여기서 본 발명은 특정 비트레이트의 값에 한정되지 아니한다.
둘 이상 대역폭에 대응하는 지원 비트레이트가 존재할 수 있다. 예를 들어 도 5 에서 12.8 은 NB, WB, SWB 에 모두 존재하고, 6.8, 7.2, 9.2 는 NB 및 WB 에 존재하고, 16, 24 는 WB, SWB 에 존재한다.
한편, 코딩 모드를 결정하는 마지막 요소는 묵음(SID) 프레임인지 여부인데, 이는 추후 묵음 프레임 생성부에 대해서 함께 구체적으로 설명하고자 한다.
도 6 은 프레임별로 스위칭되는 코딩 모드들의 일 예이고, 도 7 은 도 6 의 세로 축을 대역폭으로 나타낸 도면이고, 도 8 은 도 6 의 세로 축을 비트레이트로 나타낸 도면이다.
도 6 을 참조하면, 가로 축은 프레임이고, 세로 축은 코딩 모드에 해당한다. 코딩 모드가 프레임별로 계속적으로 변화하는 것을 알 수 있다. 예를 들어, n-1 번째 프레임의 코딩 모드는 3(도 5 에서 NB_mode4)에 해당하고, n 번째 프레임의 코딩 모드는 10(도 5 에서 SWB_mode1)에 해당하고, n+1 번째 프레임의 코딩 코드는 7(도 5 의 테이블에서 WB_mode4)에 해당하는 것을 알 수 있다. 도 7 은, 도 6 의 가로축을 대역폭(NB, WB, SWB)으로 나타낸 도면인데, 역시 프레임별로 대역폭도 변화하는 것을 알 수 있다. 도 8 은 도 6 의 가로축을 비트레이트로 나타낸 도면이다. N-1 번째 프레임, n 번째 프레임, n+1 번째 프레임을 살펴보면 대역폭은 각각 NB, SWB, WB 로 달라도, 지원 비트레이트는 모두 12.8kbps 임을 알 수 있다.
이상 도 5 내지 도 8 을 참조하면서, 코딩 모드에 대해서 설명하였다. 다시 도 3 을 참조하면, 코드 결정부(110A)는 최대허용 코딩모드를 지시하는 네트워크 정보를 수신하고, 이를 근거로 하여 하나 이상의 후보 코딩 모드를 결정한다. 예를 들어, 도 5 에 도시된 테이블인 경우, 최대허용 코딩모드가 11 이하인 경우, 코딩 모드 0~10 을 후보 코딩 모드들로 결정하고, 오디오 신호의 특성을 근거로 하여, 후보 코딩 모드들 중에서 하나를 최종 코딩 모드로 결정하는 것이다. 예를 들어, 입력되는 오디오 신호의 특성상(즉, 정보가 몰려있는 대역에 따라), 협대역(0-4kHz)에 정보가 몰려있는 경우, 코딩 모드를 0~3 중에 하나로 결정할 수 있고, 광대역 (0-8kHz)까지 정보가 있을 경우 4-9 중에 하나로 결정할 수 있고, 초광대역(0-16kHz)에 신호 정보들이 분포한 경우, 코딩 모드를 10~12 등으로 결정할 수 있다.
도 4 를 참조하면, 제 2 실시예에 따른 모드 결정부(110B)는 네트워크 정보를 수신하여, 제 1 실시예(110A)와 달리 네트워크 정보만으로 코딩 모드를 결정할 수 있고, 나아가 네크워크 정보와 함께 이전 프레임들의 비트레이트를 참고하여 송신되어야 하는 평균전송비트레이트에 맞는 현재 프레임의 코딩 모드를 결정할 수 있다. 제 1 실시예에서의 네트워크 정보는 최대허용 코딩모드를 지시하는 반면에, 제 2 실시예에서의 네트워크 정보는 복수 개의 코딩 모드 중 하나를 지시하는 정보이다. 네트워크 정보가 코딩 모드를 직접 지시하기 때문에, 이 네트워크 정보만으로 코딩 모드를 결정할 수 있다.
한편, 도 3 및 도 4 와 함께 설명된 코딩 모드가, 도 5 와 같이 대역폭 및 비트레이트 등의 조합이 아니고, 코어 레이어의 비트레이트 및 인핸스먼트 레이어의 비트레이트의 조합일 수 있다. 또는, 코딩 모드는 하나의 대역폭 내에서 인핸스먼트 레이어가 존재할 때, 코어 레이어의 비트레이트 및 인핸스먼트 레이어의 비트레이트의 조합까지 포함할 수 있다. 이를 정리하면 다음과 같다.
<서로 다른 대역폭간의 스위칭>
A. NB/WB 인 경우
a) 인핸스먼트 레이어가 존재하지 않을 경우
b) 인핸스먼트 레이어가 존재할 경우 (동일 밴드내의 모드 스위칭)
b.1) 인핸스먼트 레이어만 스위칭
b.2) 코어 레이어만 스위칭
b.3) 코어 레이어 및 인핸스먼트 레이어 모두 스위칭
B. SWB 인 경우
밴드 스플릿에 의한 스플릿 밴드 코딩 레이어
각 경우에 대해서, 소스에 따른 비트 할당 방법이 적용된다. 인핸스먼트 레이어가 없는 경우에는 코어내 비트할당이 수행되고, 인핸스먼트 레이어가 있는 겨웅에는 코어 및 인핸스먼트 레이어에 대해서 비트가 할당된다.
앞서 말한 바와 같이, 인핸스먼트 레이어가 존재할 경우, 코어 레이어의 비트레이트 (및/또는 인핸스먼트 레이어)의 비트수를 프레임별로 가변적으로 스위칭할 수 있다(상기 b.1) b.2) 및 b.3)의 경우). 물론, 이 경우에도 코딩 모드는 네트워크 정보(및 오디오 신호의 특성 또는 이전 프레임들의 코딩 모드)을 근거로 생성된다.
우선 도 9 를 참조하면서 코어 레이어 및 인핸스먼트 레이어의 개념을 설명하고자 한다. 도 9 를 참조하면, 멀티 레이어 구조를 도시하고 있다. 원본오디오 신호로부터 코어 레이어를 인코딩한다. 그 인코딩된 코어 레이어를 다시 합성하여 원본 신호로부터 제거한 제 1 레지듀얼 신호를 첫번째 인핸스먼트 레이어로 인코딩한다. 그 인코딩된 제 1 레지듀얼 신호를 다시 디코딩하여, 제 1 레지듀얼 신호로부터 제외시킨 제 2 레지듀얼 신호에 대해서 두번째 인핸스먼트 레이어로 인코딩한다. 이와 같이 인핸스먼트 레이어는 둘 이상(N 개의 레이어)이 될 수 있다.
여기서 코어 레이어는 기존 통신망에 사용되는 코덱이나 새로이 설계된 코덱일 수 있다. 음성 신호 성분 이외의 음악성분을 보완하기 위한 구조이며, 특정 코딩 방식에 한정되지 아니한다. 또한 인핸스먼트가 없는 경우의 비트스트림 구조는 가능하지만 코어의 비트스트림의 미니멈 레이트는 정의되어 있어야 한다. 이를 위한 신호 성분의 토널리티(tonality) 및 활성(activity) 정도를 구분할 블록이 필요하다. 코어 레이어는 AMR-WB IOP(Inter-OPerability)에 해당할 수 있다. 상기와 같은 구조는 협대역(NB) 및 광대역(WB)뿐만 아니라 초광대역(SWB FB(Full Band))까지 확장 가능하며, 밴드 스플릿의 코덱 구조에서는 대역폭의 상호변경이 가능해진다.
도 10 은 인핸스먼트 레이어의 비트수가 가변적인 경우이고, 도 11 은 코어 레이어의 비트수가 가변적인 경우이고, 도 12 는 코어 레이어 및 인핸스먼트 레이어의 비트수가 가변적인 경우를 나타낸 도면이다.
우선, 도 10 을 참조하면, 코어 레이어의 비트레이트는 프레임별로 변화하지 않고 고정되어 있으며, 인핸스먼트 레이어의 비트레이트만 프레임별로 스위칭되고 있음을 알 수 있다. 도 11 은 반대로 인핸스먼트 레이어의 비트레이트는 프레임과 상관없이 고정되어 있는 반면에, 코어레이어의 비트레이트는 프레임별로 스위칭되고 있다. 도 12 는 코어 레이어의 비트레이트 뿐만 아니라 인핸스먼트의 비트레이트까지 모두 변화하고 있음을 알 수 있다.
이하, 도 13 등을 참조하면서, 도 1 에서의 묵음 프레임 생성부(140)의 다양한 실시예에 대해서 설명하고자 한다. 우선 도 13 및 도 14 는 제 1 실시예에 따른 묵음 프레임 생성부(140A)에 대한 도면이다. 즉, 도 13 은 도 1 의 묵음 프레임 생성부(140)의 제 1 예이고, 도 14 는 묵음 프레임이 등장하는 과정을 설명하기 위한 도면이고, 도 15 는 타입별 묵음 프레임의 신택스의 예들이다.
도 13 을 참조하면, 묵음 프레임 생성부(140A)는 타입 결정부(142A) 및 타입별 묵음프레임 생성부(144A)를 포함한다.
타입 결정부(142A)는 이전 프레임(들)의 대역폭을 수신하고, 이를 근거로 하여, 제 1 타입 및 제 2 타입(및 제 3 타입)을 포함하는 복수의 타입들 중에서 하나를 현재 프레임에 대한 묵음 프레임의 타입으로 결정한다. 여기서 이전 프레임(들)의 대역폭은 도 1 의 모드 결정부(110)로부터 수신한 정보일 수 있다. 모드 결정부(110)로부터 대역폭 정보를 수신할 수도 있지만, 앞서 설명한 코딩 모드를 수신하고, 그 코딩 모드를 기반으로, 타입 결정부(142A)가 대역폭을 결정할 수 있다. 예를 들어 코딩 모드가 도 5 과 같은 테이블에서 0 인 경우, 대역폭을 협대역(NB)로 결정하는 것이다.
도 14 는 연속된 프레임들에 대해서 스피치 프레임과 묵음 프레임의 일 예, 그 중 활성 플래그(VAD flag)가 1 에서 0 으로 변화하는 경우에 대해서 도시하고 있다. 도 14 을 참조하면, 처음에는 35 번째 프레임까지 활성 플래그가 1 이지만, 36 번째 프레임부터 활성 플래그가 0 인 것을 알 수 있다. 즉, 35 번째 프레임까지 음성 활성 구간이고, 36 번째 프레임부터 음성 비-활성 구간이 시작된다. 그러나 음성 활성 구간에서 음성 비-활성 구간으로 변환하는 경우, 그 음성 비-활성 구간에 해당하는 하나 이상의 프레임(도면에서는 36 번째 프레임부터 42 번째 프레임까지 7 개 프레임들)에 대해서는 포즈(pause frame)으로서, 활성 플래그가 0 이더라도 묵음 프레임이 아닌 스피치 프레임(도면에서 S)이 인코딩 되어 전송된다. (VAD flag 가 1 인 구간과, 0 인 구간이더라도 포즈 프레임인 경우, 네트워크로 전송되는 전송 타입(TX_type)은 'SPEECH_GOOD'일 수 있다.)
수 개의 포즈 프레임이 끝난 후의 프레임, 즉, 비-활성 구간이 시작된 후 8 번째 프레임(도면에서 43 번 프레임)에 대해서는 묵음 프레임을 생성하지 않는데 이런 경우 전송 타입은 'SID_FIRST'일 수 있다. 이후 3 번째 프레임(도면에서 0 번 프레임(현재 프레임(n)))에서 묵음 프레임이 생성되는 데, 이때 전송 타입은 'SID_UPDATE'일 수 있다. 이후 8 번째 프레임마다 전송 타입은 'SID_UPDATE'이 되고 묵음 프레임이 생성된다.
현재 프레임(n)에 대해서 묵음 프레임을 생성하는 데 있어서, 도 13 의 타입 결정부(142A)는 이전 프레임(들)의 대역폭을 기반으로 해서 묵음 프레임의 타입을 결정한다. 여기서 이전 프레임들이란, 도 14 에서 포즈 프레임들 중 하나 이상(즉, 36 번째 프레임부터 42 번째 프레임들까지 하나 이상)을 지칭한다. 만약, 마지막 포즈 프레임의 대역폭만을 기반으로 할 수도 있고, 전체 포즈 프레임의 대역폭을 기반으로 할 수도 있다. 전체 포즈 프레임을 기반으로 하는 경우, 최대 대역폭을 기반으로 할 수도 있지만, 본 발명은 이에 한정되지 않는다.
한편, 타입별 묵음 프레임의 신택스의 예들이 도 15 에 도시되어 있다. 도 15 를 참조하면, 제 1 타입의 묵음 프레임(또는 협대역 타입의 묵음 프레임)(NB SID), 제 2 타입의 묵음 프레임(또는 광대역 타입의 묵음 프레임)(WB SID), 제 3 타입의 묵음 프레임(또는 초광대역 타입의 묵음 프레임)(SWB SID)의 신택스의 예들이 도시되어 있다. 제 1 타입은 제 1 차수(O1)의 선형 예측 변환 계수를 포함하고, 이는 제 1 비트수(N1)가 할당될 수 있다. 제 2 타입은 제 2 차수(O2)의 선형 예측 변환 계수를 포함하고, 이는 제 2 비트수(N2)가 할당될 수 있다. 제 3 타입은 제 3 차수(O3)의 선형예측 변환 계수는 제 3 비트수(N3)가 할당될 수 있다. 여기서 선형 예측 변환 계수는, 도 1 의 오디오 인코딩부(130)에서의 선형 예측 코딩(LPC: Linear Prediction Coding)의 결과로서, LSP(Line Spectral Pairs), ISP(Immittance Spectral Pairs) 또는, LSF(Line Spectrum Frequency) 또는 ISF(Immittance Spectral Frequency) 중 하나일 수 있으나, 본 발명은 이에 한정되지 아니한다.
한편, 제 1 차수 내지 제 3 차수 및 제 1 비트수 내지 제 3 비트수는 다음과 같은 관계를 갖는다.
제 1 차수(O1) ≤ 제 2 차수(O2) ≤ 제 3 차수(O3)
제 1 비트수(N1) ≤ 제 2 비트수(N2) ≤ 제 3 비트수(N3)
즉, 보다 넓은 대역에 해당될수록, 선형예측 변환계수의 차수(계수의 개수)가 커지는 것이 바람직하고, 차수가 높아짐에 따라 비트수도 커지는 것이 바람직하기 때문이다.
제 1 타입의 묵음 프레임인 경우(NB SID)는 선형예측 계수의 기준 값인 레퍼런스 벡터가 더 포함될 수 있고, 제 2 타입 및 제 3 타입의 묵음 프레임인 경우(NB SID, WB SID)에는 진동 플래그(dithering flag)를 더 포함할 수 있다. 한편, 각 묵음 프레임은 프레임 에너지를 더 포함할 수 있다. 여기서, 진동 플래그는 배경 잡음의 주기적 특성을 나타내는 정보로 0 과 1 의 값을 가질 수 있다. 예를 들어 선형예측계수를 이용해 스펙트럴 디스턴스의 합이 작을 경우 0 으로, 클 경우 1 로 set 된다. 스펙트럴 디스턴스가 작으면 이전 프레임들 간의 스펙트럼 포락선 정보가 상대적으로 비슷함을 나타낸다. 한편, 각 묵음 프레임은 프레임 에너지를 더 포함할 수 있다.
각 타입의 해당 엘리먼트의 비트수는 다르지만, 총 비트수는 동일할 수 있다. 도 15 에서도 NB SID(35=3+26+6bits), WB SID(35=28+6+1bits), SWB_SID(35=30+4+1bits)의 총 비트수는 35 비트로서 모두 동일하다.
다시 도 14 를 참조하면, 앞서 언급한 바와 같이 현재 프레임(n)의 묵음 프레임의 타입을 결정하는 데 있어서, 현재 프레임의 네트워크 정보를 참조하지 않고, 이전 프레임(들)(하나 이상의 포즈 프레임)의 대역폭을 근거로 한다. 예를 들어 마지막 포즈 프레임의 대역폭을 참조하는 경우, 도 5 에서 42 번째 프레임의 모드가 0(NB_Mode1)인 경우, 42 번째 프레임의 대역폭은 NB 이므로, 현재 프레임에서 묵음 프레임의 타입은 NB 에 대응하는 제 1 타입 (NB SID)으로 결정한다. 만약, 포즈 프레임에서 최대 대역폭을 근거로 하는 경우, 36 번째부터 42 번째 프레임까지 광대역(WB)이 4 번 발생한 경우, 현재 프레임의 묵음 프레임 타입은 광대역에 대응하는 제 2 타입(WB_SID)으로 결정하는 것이다. 타입별 묵음 프레임 생성부(144A)에서 묵음 프레임은 프레임들의 각각의 스펙트럼 인벨롯 정보와 레지듀얼 에너지 정보를 현재 프레임에서의 대역폭에 맞게 수정되어 이전 N 개 프레임에서의 평균값으로 구해진다. 예를 들어 현재 프레임의 대역폭이 NB 로 결정되면 이전 프레임들중 SWB 대역폭이나 WB 대역폭을 갖는 프레임의 스펙트럼 인벨롯 정보나 레지듀얼 에너지 정보를 NB 대역폭에 맞게 수정하여 N 개 프레임들의 평균값으로 현재의 묵음 프레임을 생성한다. 묵음프레임은 매 프레임마다 생성되지 않고, N 개의 프레임 마다 생성될 수 있다. 묵음 프레임 정보를 생성하지 않는 구간에서는 스펙트럼 인벨롭 정보와 레지듀얼 에너지 정보를 저장해놓고 다음의 묵음프레임 정보 생성시 사용된다.다시 도 13 을 참조하면, 이와 같이 타입 결정부(142A)가 이전 프레임(들)(구체적으로, 포즈 프레임)의 대역폭을 근거로 묵음 프레임의 타입이 결정되면, 묵음 프레임에 해당하는 코딩 모드가 정해진다. 만약, 제 1 타입(NB SID)로 결정되면, 도 5 에 도시된 예의 경우, 코딩 모드는 18(NB_SID)이 될 수 있고, 제 3 타입(SWB SID)으로 결정되면, 코딩 코드는 20(SWB_SID)이 될 수 있다. 이와 같이 결정된 묵음 프레임에 해당하는 코딩 모드는 도 1 에 도시된 네트워크 제어부(150)로 전달된다.
타입별 묵음 프레임 생성부(144A)는 타입 결정부(142A)가 결정된 타입에 따라서, 오디오 신호의 현재 프레임에 대해서 제 1 타입 내지 제 3 타입의 묵음 프레임(NB SID, WB SID, SWB SID) 중 하나를 생성한다. 여기서 오디오 신호 대신에, 앞서 도 1 에서의 오디오 인코딩부(130)의 결과인 오디오 프레임을 이용할 수도 있다. 타입별 묵음 프레임 생성부(144A)는 활성 구간 판단부(120)로부터 수신한 활성 플래그(VAD flag)를 근거로 하여, 음성 비-활성 구간(VAD flag)에 해당하고, 포즈 프레임이 아닌 경우에, 상기 타입별 묵음 프레임을 생성한다. 타입별 묵음 프레임 생성부(144A)에서 묵음 프레임은 프레임들의 각각의 스펙트럼 인벨롯 정보와 레지듀얼 에너지 정보를 현재 프레임에서의 대역폭에 맞게 수정되어 이전 N 개 프레임에서의 평균값으로 구해진다. 예를 들어 현재 프레임의 대역폭이 NB 로 결정되면 이전 프레임들중 SWB 대역폭이나 WB 대역폭을 갖는 프레임의 스펙트럼 인벨롯 정보나 레지듀얼 에너지 정보를 NB 대역폭에 맞게 수정하여 N 개 프레임들의 평균값으로 현재의 묵음 프레임을 생성한다. 묵음프레임은 매 프레임마다 생성되지 않고, N 개의 프레임 마다 생성될 수 있다. 묵음 프레임 정보를 생성하지 않는 구간에서는 스펙트럼 인벨롭 정보와 레지듀얼 에너지 정보를 저장해놓고 다음의 묵음프레임 정보 생성시 사용될 수 있다. 묵음 프레임에서의 에너지 정보는 타입별 묵음 프레임 생성부(144A)에서 이전 N 개의 프레임에서의 프레임 에너지 정보 (레지듀얼 에너지)를 현재 프레임의 대역폭에 맞게 수정하여 평균값을 구함으로써 구해질 수 있다.
제어부(146C)는 이전 프레임들의 대역폭 정보와 오디오 프레임 정보(스펙트럼 엔벨롭과 레지듀얼 정보)를 이용하고, 활성플래그(VAD flag)를 참고하여 으로 현재 프레임의 묵음 프레임의 타입을 결정한다. 타입별 묵음 프레임 생성부(144C)는 제어부(146C)에서 결정된 대역폭 정보를 바탕으로 현재프레임의 묵음 프레임을 이전 n 개의 프레임의 오디오프레임정보를 이용하여 생성한다. 이때 n 개의 이전 프레임중 대역폭이 다른 오디오 프레임은 현재프레임의 대역폭에 맞도록 변환되도록 계산하고, 결정된 타입으로 묵음 프레임을 생성한다.
도 16 은 도 1 의 묵음 프레임 생성부(140)의 제 2 예를 보여주는 도면이고, 도 17 는 제 2 예에 따른 통합 묵음 프레임의 신택스의 일 예이다. 도 16 을 참조하면, 묵음 프레임 생성부(140B)는 통합 묵음프레임 생성부(144B)를 포함한다. 통합 묵음프레임 생성부(144B)는 활성 플래그(VAD flag)를 기반으로, 현재 프레임이 음성 비-활성 구간에 해당하고 포즈 프레임이 아닌 경우, 통합 묵음 프레임을 생성한다. 이때 통합 묵음 프레임은 제 1 예에서와 달리 이전 프레임(들)(포즈 프레임)의 대역폭과 상관없이 하나의 타입(통합 타입)으로 생성된다. 앞서 도 1 에서의 오디오 인코딩부(130)의 결과인 오디오 프레임을 이용할 경우, 이전 대역폭과 상관없는 통합타입 하나로 이전 프레임들의 결과물을 변환하여 사용한다. 예를 들면 이전 n 개의 프레임들의 대역폭정보가 SWB WB WB NB ...SWB WB (각 비트레이트를 다를수도 있음) 일 경우 SID 를 위해 이미 결정된 하나의 대역폭으로 이전 n 개의 프레임들의 스펙트럼 인벨롯 정보와 레지듀얼 정보를 변화하여 평균을 내어 묵음 프레임 정보를 생성한다. 스펙트럼 인벨롯 정보는 선형예측 계수의 차수를 의미할 수 있고, NB WB SWB 의 차수들을 일정 차수로 변환됨을 의미한다.
통합 묵음 프레임의 신택스의 일 예는 도 17 에 도시된 바와 같다. 미리 결정된 차수의 선형 예측 변환 계수가 미리 결정된 비트수(예: 28bits)만큼 포함된다. 프레임 에너지가 더 포함될 수 있다.
이와 같이 이전 프레임의 대역폭과 상관없이 통합 묵음 프레임을 생성하면, 제어에 필요한 파워리소스 및 전송시의 모드 개수를 줄일 수 있으며 음성 비활성 구간에서 대역폭 스위칭으로 생기는 왜곡을 방지할 수 있다.
도 18 은 도 1 의 묵음 프레임 생성부(140)의 제 3 예이고, 도 19 는 제 3 예의 묵음 프레임 생성부(140)를 설명하기 위한 도면이다. 제 3 예는 제 1 예의 변형 예이다. 도 18 을 참조하면, 묵음 프레임 생성부(140C)는 제어부(146C)를 포함하고, 타입별 묵음프레임 생성부(144C)를 더 포함할 수 있다.
제어부(146C)는 이전 프레임 및 현재 프레임의 대역폭과 활성 플래그(VAD flag)를 기반으로 현재 프레임의 묵음 프레임의 타입을 결정한다.
다시 도 18 을 참조하면, 이와 같이 제어부(146C)에서 결정된 타입에 따라서, 타입별 묵음프레임 생성부(144C)는 제 1 타입 내지 제 3 타입 중 하나의 묵음 프레임을 생성하여 출력한다. 타입별 묵음프레임 생성부(144C)는 제 1 예의 동일 명칭의 구성요소(144A)의 기능과 거의 유사하다.
도 20 은 본 발명의 일 실시예에 따른 디코더들의 개략적인 구성을 보여주는 도면이고, 도 21 은 본 발명의 일 실시예에 따른 디코딩 과정을 설명하기 위한 순서도이다.
도 20 을 참조하면, 세 가지 종류의 디코더의 구성이 개략적으로 도시되어 있다. 오디오 디코딩 장치는 상기 세 타입 중 하나의 디코더를 포함할 수 있다. 타입별 묵음 프레임 디코딩부(160A,160B,160C)는 통합 묵음 프레임 디코딩부(Fig 16 의 140B 의 디코딩블록) 로 대체할 수 있다.
우선, 제 1 타입의 디코더(200-1)는 NB 디코딩부(131A), WB 디코딩부(132A), SWB 디코딩부(133A), 변환부(140A),및 비트 언팩킹부(150)를 모두 포함한다. 여기서 NB 디코딩부는 앞서 설명한 NB 코딩 방식에 따라서 NB 신호를 디코딩하고, WB 디코딩부는 WB 코딩 방식에 따라 WB 신호를 디코딩하고, SWB 디코딩부는 SWB 코딩 방식에 SWB 신호를 디코딩한다. 제 1 타입과 같이 전체 디코딩부가 모두 포함되어 있을 때는, 비트스트림의 대역폭과 상관없이 디코딩할 수 있다. 변환후 (140A)는 출력신호의 대역폭을 컨버젼하는 역할과 대역폭 스위칭시의 스무딩 역할을 수행한다. 출력신호의 대역폭 컨버젼 역할의 경우는 사용자의 선택이나 하드웨어상의 출력 가능 대역폭 제한에 따라 출력신호의 대역폭을 변화한다. 예를 들어 SWB 비트스트림으로 디코딩된 SWB 출력 신호는 사용자 선택이나 하드웨어상의 출력 가능 대역폭 제한으로 WB 나 NB 로 출력될 수 있다. 대역폭 스위칭시의 스무딩 역할을 수행하는 경우 NB 출력 프레임 이후 현재 프레임의 NB 가 아닌 출력신호의 경우 현재 프레임의 대역폭을 컨버젼하게 된다. 예를 들어 NB 출력 프레임 이후 현재가 SWB 비트스트림으로 출력된 SWB 신호의 경우 WB 로 대역폭이 컨버젼되어 스무딩 역할을 하게 된다. 만약 NB 출력 프레임 이후 WB 비트스트림으로 디코딩된 WB 출력신호는 NB 와 WB 의 중간 대역폭으로 컨버전되어 스무딩 역할한 한다. 즉 과거프레임 출력 대역폭과 현재 프레임의 출력대역폭과의 차이를 최소화 하기 위해 현재프레임의 출력 대역폭을 과거프레임 출력대역폭과 현재프레임 출력대역폭의 중간대역폭으로 컨버전한다.
제 2 타입의 디코더(200-2)의 경우에는 NB 디코딩부(131B), WB 디코딩부(132B)만을 포함하므로 SWB 비트스트림을 디코딩할 수 없다. 하지만 변환부(140B)에서 사용자의 선택이나 하드웨어상의 출력신호 대역폭제한에 따라 SWB 로 출력이 가능하게 된다. 변환부(140B)는 제 1 타입의 디코더(200-1)의 변환부(140A)와 같이 는 출력신호의 대역폭을 컨버젼하는 역할과 대역폭 스위칭시의 스무딩 역할을 수행한다.
제 3 타입의 디코더(200-3)의 경우에는 NB 디코딩부(131C)만을 포함하므로, NB 비트스트림만을 디코딩할 수 있다. 디코딩가능한 대역폭이 하나(NB)이기에 반환부(140C)는 대역폭 컨버전 역할만을 위해 사용된다. 따라서 디코딩된 NB 출력신호는 변환부(140C)를 통해 WB 또는 SWB 로 대역폭 변환될 수 있다.
도 20 과 같은 다양한 타입의 디코더들을 도 21 을 참조하면서 다른 측면으로 설명하면 다음과 같다.
도 21 은 수신단말기와 기지국 사이의 call set-up 의 매커니즘을 나타낸다. 여기서 단일코덱 또는 embedded 구조의 코덱 모두에 적용가능하다. 예를 들어 코덱의 구조가 NB WB SWB 코어가 모두 independent 한 구조를 가지며, 비트스트림 전체 혹 일부를 상호 교환할 수 없는 경우의 일 예를 설명한다. 수신 단말기의 디코딩 가능한 대역폭과 수신단말기가 출력할 수 있는 신호의 대역폭이 제한되어 있을 경우, 통신의 시작 단계에서 다음의 경우의 수를 가질 수 있다.
Figure pct00001
송신측으로부터 2 개 이상의 종류의 BW 비트스트림이 들어오게 되면 수신측에서의 디코딩 가능한 BW 종류와 출력할수 있는 가능한 대역폭 종류를 참고하여 각 루틴을 따라 디코딩되며, 수신측에서의 신호출력은 지원가능한 BW 로 convert 되어 출력 된다. 예를 들어 송신측에서 NB/WB/SWB 로 인코딩이 가능하고, 수신측에서 NB/WB 로 디코딩이 가능하고, 신호출력대역폭은 SWB 까지 가능할 경우, 도 21 을 참조하면 송신측에 SWB 로 비트스트림을 보내게되면 수신측에서는 수신받은 비트스트림이 디코딩 가능한지를 비교한다.(Compare ID) 수신측은 SWB 를 디코딩하지 못하므로 WB 비트스트림을 송신할 것을 요구한다. 송신측에서 WB 비트스트림을 보내오면 이를 디코딩하고, 출력 신호대역폭은 송신단말기의 출력 능력에 따라 NB 나 SWB 로 컨버젼하여 출력할 수 있다.
도 22 는 본 발명의 다른 실시예에 따른 인코더 및 디코더의 개략적인 구성을 보여주는 도면이다. 도 23 은 본 발명의 다른 실시예에 따른 디코딩 과정을 설명하기 위한 도면이고, 도 24 는 본 발명의 디코딩 장치 중 컨버팅부를 설명하기 위한 도면이다.
도 22 를 참조하면, Decoding 기능과 관련해서 모든 codec 의 비트스트림을 unpack & decoding 할 수 있도록 단말기의 decoding chip 안에 모든 decoder 를 포함한다. 디코딩의 복잡도는 인코더에 1/4 정도가 소요되면 power 소비 측면에서도 문제가 되지 않는다. 구체적 예를 든다면 SWB 비트스트림이 들어올 경우 수신단말기에 SWB 를 디코딩 하지 못할 경우 송신단 측에 feed-back 정보를 보내야한다. 만약 전송비트스트림이 embedded 형식의 비트스트림이라면 SWB 에서 WB 또는 NB 의 비트스트림만 unpack 하여 decode 하고, 전송률을 줄이기 위해 송신단에 decoding 가능 BW 정보를 전송한다. 하지만 BW 별 단일 코덱으로 정의된 비트스트림의 경우 WB 혹은 NB 의 비트스트림으로 재전송을 요청해야한다. 이 같은 경우를 위해 수신단말기의 decoder 에서는 들어오는 모든 bitstream 을 unpack & decode 할 수 있는 루틴이 포함되어야한다. 이를 위해 각 단말기의 decoder 에서는 모든 대역의 decoder 를 포함하여 수신단말기의 제공되는 BW 로 convert 해야 한다. 이를 위한 구체적 예시는 다음과 같다.
<<BW 축소 - 예>>
○수신단에서 제공하는 대역이 SWB 까지 - 전송되어온 대역 그대로 decoding 된다.
○수신단에서 제공하는 대역이 WB 까지 - 전송되어 들어온 SWB 프레임은 디코딩된 SWB 신호를 WB 로 conversion 된다. 수신단에서는 SWB 를 decoding 할 수 있는 모듈 포함
○수신단에서 제공하는 대역이 NB 만 - 전송되어 들어온 WB/SWB 프레임은 디코딩된 SWB 신호를 NB 로 conversion 된다. 수신단에서는 WB/SWB 를 decoding 할 수 있는 모듈 포함
도 24 를 참조하면, 디코더의 변환부는 코어 디코더가 비트스트림을 디코딩한다. 이 디코딩된 신호는 제어부의 제어에 의해, 그대로 출력되거나, 또는 리샘플러를 가진 후처리 필터로 입력됨으로써 대역폭이 변환된 후에 출력될 수 있다. 만약 송신단말기에서 출력할 수 있는 신호 대역폭이 디코딩된 출력신호 대역폭 보다 크다면 디코딩된 신호는 상위 대역폭으로 업샘플링 후 대역폭이 확장되고, 후처리 필터를 통해 업샘플링시 생성되는 확장 대역폭 경계면의 왜곡을 감쇄시킨다. 반대로 출력신호 대역폭보다 작은 경우 다운 샘플링 후 대역폭이 축소되고 축소된 대역폭 경계면의 주파수 스펙트럼을 감쇄시키는 후처리 필터를 통과시켜 출력 될 수 있다.
본 발명에 따른 오디오 신호 처리 장치는 다양한 제품에 포함되어 이용될 수 있다. 이러한 제품은 크게 스탠드 얼론(stand alone) 군과 포터블(portable) 군으로 나뉠 수 있는데, 스탠드 얼론군은 티비, 모니터, 셋탑 박스 등을 포함할 수 있고, 포터블군은 PMP, 휴대폰, 네비게이션 등을 포함할 수 있다.
도 25 은 본 발명의 실시예에 따른 오디오 신호 처리 장치가 구현된 제품의 개략적인 구성을 보여주는 도면이다. 우선 도 25 을 참조하면, 유무선 통신부(510)는 유무선 통신 방식을 통해서 비트스트림을 수신한다. 구체적으로 유무선 통신부(510)는 유선통신부(510A), 적외선통신부(510B), 블루투스부(510C), 무선랜통신부(510D), 이동통신부(510E) 중 하나 이상을 포함할 수 있다.
사용자 인증부는(520)는 사용자 정보를 입력 받아서 사용자 인증을 수행하는 것으로서 지문인식부, 홍채인식부, 얼굴인식부, 및 음성인식부 중 하나 이상을 포함할 수 있는데, 각각 지문, 홍채정보, 얼굴 윤곽 정보, 음성 정보를 입력받아서, 사용자 정보로 변환하고, 사용자 정보 및 기존 등록되어 있는 사용자 데이터와의 일치여부를 판단하여 사용자 인증을 수행할 수 있다.
입력부(530)는 사용자가 여러 종류의 명령을 입력하기 위한 입력장치로서, 키패드부(530A), 터치패드부(530B), 리모컨부(530C), 마이크로폰 부(530D) 중 하나 이상을 포함할 수 있지만, 본 발명은 이에 한정되지 아니한다. 여기서, 마이크로폰 부(530D)는 음성 또는 오디오 신호를 입력받기 위한 입력장치이다. 여기서 키패드부(530A), 터치패드부(530B), 리모컨부(530C)은 통화 발신을 위한 명령 또는 마이크로폰 부(530D)을 활성화시키기 위한 명령을 입력받을 수 있다. 제어부(550)는 키패드부(530B) 등을 통해 통화 발신을 위한 명령을 수신한 경우, 이동 통신부(510E)로 하여금 동통신망에 호를 요청하도록 할 수 있다.
신호 코딩 유닛(540)는 마이크로폰 부(530D) 또는 유무선 통신부(510)를 통해 수신된 오디오 신호 및/또는 비디오 신호에 대해서 인코딩 또는 디코딩을 수행하고, 시간 도메인의 오디오 신호를 출력한다. 오디오 신호 처리 장치(545)를 포함하는데, 이는 앞서 설명한 본 발명의 실시예(즉, 실시예들에 따른 인코더 또는/및 디코더(100, 200))에 해당하는 것으로서, 이와 같이 오디오 처리 장치(545) 및 이를 포함한 신호 코딩 유닛은 하나 이상의 프로세서에 의해 구현될 수 있다.
제어부(550)는 입력장치들로부터 입력 신호를 수신하고, 신호 디코딩부(540)와 출력부(560)의 모든 프로세스를 제어한다. 출력부(560)는 신호 디코딩부(540)에 의해 생성된 출력 신호 등이 출력되는 구성요소로서, 스피커부(560A) 및 디스플레이부(560B)를 포함할 수 있다. 출력 신호가 오디오 신호일 때 출력 신호는 스피커로 출력되고, 비디오 신호일 때 출력 신호는 디스플레이를 통해 출력된다.
도 26 는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도이다. 도 26 는 도 25 에서 도시된 제품에 해당하는 단말 및 서버와의 관계를 도시한 것으로서, 도 26 의 (A)를 참조하면, 제 1 단말(500.1) 및 제 2 단말(500.2)이 각 단말들은 유무선 통신부를 통해서 데이터 내지 비트스트림을 양방향으로 통신할 수 있음을 알 수 있다. 도 12 의 (B)를 참조하면, 서버(600) 및 제 1 단말(500.1) 또한 서로 유무선 통신을 수행할 수 있음을 알 수 있다.
도 27 은 본 발명의 실시예에 따른 오디오 신호 처리 장치가 구현된 이동 단말기의 개략적인 구성을 보여주는 도면이다. 이동단말기(700)는 통화 발신 및 수신을 위한 이동 통신부(710), 데이터 통신을 위한 데이터 통신부(720), 통화 발신 또는 오디오 입력에 대한 명령을 입력하기 위한 입력부(730), 음성 또는 오디오 신호를 입력하기 위한 마이크로폰 부(740), 각 구성요소를 제어하기 위한 제어부(750), 신호 코딩부(760), 음성 또는 오디오 신호를 출력하기 위한 스피커(770), 및 화면을 출력하기 위한 디스플레이(780)를 포함할 수 있다.
신호 코딩부(760)는 이동 통신부(710), 데이터 통신부(720) 또는 마이크로폰 부(530D) 를 통해 수신된 오디오 신호 및/또는 비디오 신호에 대해서 인코딩 또는 디코딩을 수행하고, 시간 도메인의 오디오 신호를 이동 통신부(710), 데이터 통신부(720) 또는 스피커(770)를 통해 출력한다. 오디오 신호 처리 장치(765)를 포함하는데, 이는 앞서 설명한 본 발명의 실시예(즉, 실시예에 따른 인코더(100) 및/또는 디코더(200))에 해당하는 것으로서, 이와 같이 오디오 처리 장치(765) 및 이를 포함한 신호 코딩 유닛은 하나 이상의 프로세서에 의해 구현될 수 있다.
본 발명에 따른 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
[산업상 이용가능성]
본 발명은 오디오 신호를 인코딩하고 디코딩하는 데 적용될 수 있다.

Claims (18)

  1. 오디오 신호를 수신하는 단계;
    코딩 모드를 지시하는 네트워크 정보를 수신하여, 현재 프레임에 대응하는 코딩 모드를 결정하는 단계;
    상기 코딩 모드에 따라서, 상기 오디오 신호의 현재 프레임을 인코딩하는 단계; 및,
    상기 인코딩된 현재 프레임을 전송하는 단계를 포함하고,
    상기 코딩 모드는, 대역폭 및 비트레이트의 조합에 의해 결정되고,
    상기 대역폭은 협대역, 광대역, 초광대역 중 둘 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  2. 제 1 항에 있어서,
    상기 비트레이트는, 상기 대역폭별로 미리 정해진 둘 이상의 지원 비트레이트들을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  3. 제 1 항에 있어서,
    상기 초광대역은 상기 광대역 및 상기 협대역을 포함하는 대역이고,
    상기 광대역은, 상기 협대역을 포함하는 대역에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
  4. 제 1 항에 있어서,
    상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 여부를 판단하는 단계를 더 포함하고,
    상기 코딩 모드를 결정하는 단계 및 상기 인코딩하는 단계는, 상기 현재 프레임이 음성 활성 구간인 경우에 수행되는 것을 특징으로 하는 오디오 신호 처리 방법.
  5. 오디오 신호를 수신하는 단계;
    최대허용 코딩모드를 지시하는 네트워크 정보를 수신하는 단계;
    상기 네트워크 정보 및 상기 오디오 신호를 근거로 하여, 현재 프레임에 대응하는 코딩 모드를 결정하는 단계;
    상기 코딩 모드에 따라서, 상기 오디오 신호의 현재 프레임을 인코딩하는 단계; 및,
    상기 인코딩된 현재 프레임을 전송하는 단계를 포함하고,
    상기 코딩 모드는, 대역폭 및 비트레이트의 조합에 의해 결정되고,
    상기 대역폭은 협대역, 광대역, 초광대역 중 둘 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  6. 제 5 항에 있어서,
    상기 코딩 모드를 결정하는 단계는,
    상기 네트워크 정보를 근거로 하여, 하나 이상의 후보 코딩 모드를 결정하는 단계;
    상기 오디오 신호의 특성을 근거로 하여, 상기 후보 코딩 모드들 중에서 하나를 상기 코딩 모드로서 결정하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  7. 코딩 모드를 지시하는 네트워크 정보를 수신하여, 현재 프레임에 대응하는 코딩 모드를 결정하는 모드 결정부; 및,
    오디오 신호를 수신하고, 상기 코딩 모드에 따라서, 상기 오디오 신호의 현재 프레임을 인코딩하고, 상기 인코딩된 현재 프레임을 전송하는 오디오 인코딩부를 포함하고,
    상기 코딩 모드는, 대역폭 및 비트레이트의 조합에 의해 결정되고,
    상기 대역폭은 협대역, 광대역, 초광대역 중 둘 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  8. 오디오 신호를 수신하고, 최대허용 코딩모드를 지시하는 네트워크 정보를 수신하고, 상기 네트워크 정보 및 상기 오디오 신호를 근거로 하여, 현재 프레임에 대응하는 코딩 모드를 결정하는 모드 결정부; 및,
    상기 코딩 모드에 따라서, 상기 오디오 신호의 현재 프레임을 인코딩하고, 상기 인코딩된 현재 프레임을 전송하는 오디오 인코딩부를 포함하고,
    상기 코딩 모드는, 대역폭 및 비트레이트의 조합에 의해 결정되고,
    상기 대역폭은 협대역, 광대역, 초광대역 중 둘 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  9. 오디오 신호를 수신하는 단계;
    상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 또는 음성 비-활성 구간인지 여부를 판단하는 단계;
    상기 현재 프레임이 음성 비-활성 구간인 경우, 하나 이상의 이전의 프레임의 대역폭을 근거로 하여, 제 1 타입 및 제 2 타입을 포함하는 복수의 타입들 중에서 하나를 현재 프레임에 대한 묵음 프레임의 타입으로 결정하는 단계; 및,
    상기 현재 프레임에 대하여, 상기 결정된 타입의 묵음 프레임을 생성하여 전송하는 단계를 포함하고,
    상기 제 1 타입은, 제 1 차수의 선형 예측 변환 계수를 포함하고,
    상기 제 2 타입은, 제 2 차수의 선형 예측 변환 계수를 포함하고,
    상기 제 1 차수는 상기 제 2 차수보다 작은 것을 특징으로 하는 오디오 신호 처리 방법.
  10. 제 9 항에 있어서,
    상기 복수의 타입들은, 제 3 타입을 더 포함하고,
    상기 제 3 타입은, 제 3 비트수의 선형 예측 변환 계수를 포함하고,
    상기 제 3 차수는 상기 제 2 차수보다 많은 것을 특징으로 하는 오디오 신호 처리 방법.
  11. 제 9 항에 있어서,
    상기 제 1 차수의 선형 예측 변환 계수는 제 1 비트수로 인코딩되고,
    상기 제 2 차수의 선형 예측 변환 계수는 제 2 비트수로 인코딩되고,
    상기 제 1 비트수는 상기 제 2 비트수보다 작은 것을 특징으로 하는 오디오 신호 처리 방법.
  12. 제 11 항에 있어서,
    상기 제 1 타입, 상기 제 2 타입, 및 상기 제 3 타입은 총 비트수가 모두 동일한 것을 특징으로 하는 오디오 신호 처리 방법.
  13. 오디오 신호를 수신하고, 상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 또는 음성 비-활성 구간인지 여부를 판단하는 활성 구간 판단부;
    상기 현재 프레임이 음성 비-활성 구간이 아닌 경우, 하나 이상의 이전의 프레임의 대역폭을 근거로 하여, 제 1 타입 및 제 2 타입을 포함하는 복수의 타입들 중에서 하나를 현재 프레임에 대한 묵음 프레임의 타입으로 결정하는 타입 결정부; 및,
    상기 현재 프레임에 대하여, 상기 결정된 타입의 묵음 프레임을 생성하여 전송하는 타입별 묵음프레임 생성부를 포함하고,
    상기 제 1 타입은, 제 1 차수의 선형 예측 변환 계수를 포함하고,
    상기 제 2 타입은, 제 2 차수의 선형 예측 변환 계수를 포함하고,
    상기 제 1 차수는 상기 제 2 차수보다 작은 것을 특징으로 하는 오디오 신호 처리 방법.
  14. 오디오 신호를 수신하는 단계;
    상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 또는 음성 비-활성 구간인지 여부를 판단하는 단계;
    이전 프레임이 음성 비-활성 구간이고 상기 현재 프레임이 음성 활성 구간인 경우, 현재 프레임의 대역폭이 이전 프레임의 묵음 프레임의 대역폭과 다르면, 복수의 타입들 중에서 현재 프레임의 대역폭에 대응하는 타입을 결정하는 단계; 및,
    상기 결정된 타입의 묵음 프레임을 생성하여 전송하는 단계를 포함하고,
    상기 복수의 타입들은 제 1 타입 및 제 2 타입을 포함하고,
    상기 대역폭은 협대역 및 광대역을 포함하고,
    상기 제 1 타입은 상기 협대역에 대응되고, 상기 제 2 타입은 상기 광대역에 대응되는 것을 특징으로 하는 오디오 신호 처리 방법.
  15. 오디오 신호를 수신하고, 상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 또는 음성 비-활성 구간인지 여부를 판단하는 활성 구간 판단부;
    이전 프레임이 음성 비-활성 구간이고 상기 현재 프레임이 음성 활성 구간인 경우, 현재 프레임의 대역폭이 이전 프레임의 묵음 프레임의 대역폭과 다르면, 복수의 타입들 중에서 현재 프레임의 대역폭에 대응하는 타입을 결정하는 제어부; 및,
    상기 결정된 타입의 묵음 프레임을 생성하여 전송하는 단계를 포함하고,
    상기 복수의 타입들은 제 1 타입 및 제 2 타입을 포함하고,
    상기 대역폭은 협대역 및 광대역을 포함하고,
    상기 제 1 타입은 상기 협대역에 대응되고, 상기 제 2 타입은 상기 광대역에 대응되는 것을 특징으로 하는 오디오 신호 처리 방법.
  16. 오디오 신호를 수신하는 단계;
    상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 음성 비-활성 구간인지 판단하는 단계;
    상기 현재 프레임이 상기 음성 비-활성 구간인 경우, 상기 현재 프레임에 대하여 이전의 프레임의 대역폭과 상관없이 통합 묵음 프레임을 생성하여 전송하는 단계를 포함하고,
    상기 통합 묵음 프레임은, 선형 예측 변환 계수 및 프레임 평균 에너지를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  17. 제 16 항에 있어서,
    상기 선형 예측 변환 계수는 28bits 가 할당되고, 상기 프레임 평균 에너지는 7bits 가 할당되는 것을 특징으로 하는 오디오 신호 처리 방법.
  18. 오디오 신호를 수신하고, 상기 오디오 신호를 분석함으로써, 상기 현재 프레임이 음성 활성 구간인지 음성 비-활성 구간인지 판단하는 활성 구간 판단부; 및,
    상기 현재 프레임이 상기 음성 비-활성 구간인 경우, 상기 현재 프레임에 대하여 이전의 프레임의 대역폭과 상관없이 통합 묵음 프레임을 생성하여 전송하는 통합 묵음프레임 생성부를 포함하고,
    상기 통합 묵음 프레임은, 선형 예측 변환 계수 및 프레임 평균 에너지를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
KR1020137002705A 2010-07-01 2011-07-01 오디오 신호 처리 방법 및 장치 KR20130036304A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US36050610P 2010-07-01 2010-07-01
US61/360,506 2010-07-01
US38373710P 2010-09-17 2010-09-17
US61/383,737 2010-09-17
US201161490080P 2011-05-26 2011-05-26
US61/490,080 2011-05-26
PCT/KR2011/004843 WO2012002768A2 (ko) 2010-07-01 2011-07-01 오디오 신호 처리 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20130036304A true KR20130036304A (ko) 2013-04-11

Family

ID=45402600

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137002705A KR20130036304A (ko) 2010-07-01 2011-07-01 오디오 신호 처리 방법 및 장치

Country Status (5)

Country Link
US (1) US20130268265A1 (ko)
EP (1) EP2590164B1 (ko)
KR (1) KR20130036304A (ko)
CN (1) CN102985968B (ko)
WO (1) WO2012002768A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115206330A (zh) * 2022-07-15 2022-10-18 北京达佳互联信息技术有限公司 音频处理方法、音频处理装置、电子设备和存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9065576B2 (en) 2012-04-18 2015-06-23 2236008 Ontario Inc. System, apparatus and method for transmitting continuous audio data
EP2951821B1 (en) * 2013-01-29 2017-03-01 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for coding mode switching compensation
RU2752600C2 (ru) * 2014-03-24 2021-07-29 Самсунг Электроникс Ко., Лтд. Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи
KR102244612B1 (ko) 2014-04-21 2021-04-26 삼성전자주식회사 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법
CN107210968B (zh) * 2014-04-21 2021-07-23 三星电子株式会社 用于在无线通信系统中发射和接收语音数据的装置和方法
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
KR20200100387A (ko) * 2019-02-18 2020-08-26 삼성전자주식회사 실시간 비트레이트 제어 방법 및 이를 위한 전자 장치
KR20210142393A (ko) 2020-05-18 2021-11-25 엘지전자 주식회사 영상표시장치 및 그의 동작방법
US20230306978A1 (en) * 2020-07-07 2023-09-28 Panasonic Intellectual Property Corporation Of America Coding apparatus, decoding apparatus, coding method, decoding method, and hybrid coding system

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6438518B1 (en) * 1999-10-28 2002-08-20 Qualcomm Incorporated Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
JP4518714B2 (ja) * 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法
US6647366B2 (en) * 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
FI20021936A (fi) * 2002-10-31 2004-05-01 Nokia Corp Vaihtuvanopeuksinen puhekoodekki
GB0321093D0 (en) * 2003-09-09 2003-10-08 Nokia Corp Multi-rate coding
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
KR100614496B1 (ko) * 2003-11-13 2006-08-22 한국전자통신연구원 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
US20060088093A1 (en) * 2004-10-26 2006-04-27 Nokia Corporation Packet loss compensation
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
KR20080091305A (ko) * 2008-09-26 2008-10-09 노키아 코포레이션 서로 다른 코딩 모델들을 통한 오디오 인코딩
CN101505202B (zh) * 2009-03-16 2011-09-14 华中科技大学 一种流媒体传输自适应纠错方法
JP5730860B2 (ja) * 2009-05-19 2015-06-10 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute 階層型正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
PL2640052T3 (pl) * 2010-11-10 2019-12-31 Panasonic Intellectual Property Corporation Of America Terminal i sposób wyboru trybu kodowania

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115206330A (zh) * 2022-07-15 2022-10-18 北京达佳互联信息技术有限公司 音频处理方法、音频处理装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN102985968A (zh) 2013-03-20
EP2590164A2 (en) 2013-05-08
EP2590164B1 (en) 2016-12-21
EP2590164A4 (en) 2013-12-04
WO2012002768A3 (ko) 2012-05-03
WO2012002768A2 (ko) 2012-01-05
CN102985968B (zh) 2015-12-02
US20130268265A1 (en) 2013-10-10

Similar Documents

Publication Publication Date Title
KR20130036304A (ko) 오디오 신호 처리 방법 및 장치
RU2763374C2 (ru) Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы
US8195450B2 (en) Decoder with embedded silence and background noise compression
RU2469419C2 (ru) Способ и устройство для управления сглаживанием стационарного фонового шума
US20080208575A1 (en) Split-band encoding and decoding of an audio signal
JP2008535024A (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
WO2008098836A1 (en) Audio signal encoding
JP5340965B2 (ja) 定常的な背景雑音の平滑化を行うための方法及び装置
EP2057626B1 (en) Encoding an audio signal
JP5255575B2 (ja) レイヤード・コーデックのためのポストフィルタ
KR101804922B1 (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application