KR20120013892A - 오디오 신호 처리 방법, 그에 따른 엔코딩 장치 및 그에 따른 디코딩 장치 - Google Patents

오디오 신호 처리 방법, 그에 따른 엔코딩 장치 및 그에 따른 디코딩 장치 Download PDF

Info

Publication number
KR20120013892A
KR20120013892A KR1020110069495A KR20110069495A KR20120013892A KR 20120013892 A KR20120013892 A KR 20120013892A KR 1020110069495 A KR1020110069495 A KR 1020110069495A KR 20110069495 A KR20110069495 A KR 20110069495A KR 20120013892 A KR20120013892 A KR 20120013892A
Authority
KR
South Korea
Prior art keywords
parameter
frame
encoding
interpolation
generating
Prior art date
Application number
KR1020110069495A
Other languages
English (en)
Inventor
정종훈
이남숙
문한길
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US13/204,198 priority Critical patent/US20120035940A1/en
Publication of KR20120013892A publication Critical patent/KR20120013892A/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00992Circuits for stereophonic or quadraphonic recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • G11B2020/00014Time or data compression or expansion the compressed signal being an audio signal
    • G11B2020/00057MPEG-1 or MPEG-2 audio layer III [MP3]

Abstract

연속되는 프레임들을 포함하는 오디오 신호를 입력받는 단계, 상기 연속되는 프레임들 중 제1 프레임에 대응되는 제1 엔코딩 파라미터 및 상기 제1 프레임에 인접한 프레임인 제2 프레임에 대응되는 제2 엔코딩 파라미터를 생성하는 단계, 및 상기 제1 엔코딩 파라미터와 상기 제2 엔코딩 파라미터를 이용하여, 적어도 하나의 보간 파라미터를 생성하는 단계를 포함하며, 자연스러운 음을 출력할 수 있는 오디오 신호 처리 방법을 기재한다.

Description

오디오 신호 처리 방법, 그에 따른 엔코딩 장치 및 그에 따른 디코딩 장치 {Method for audio signal processing, encoding apparatus thereof, and decoding apparatus thereof}
본원 발명은 오디오 신호 처리 방법, 그에 따른 엔코딩 장치 및 그에 따른 디코딩 장치에 관한 것이다.
더욱 상세하게는, 엔코딩 파라미터를 생성하는 오디오 신호 처리 방법, 및 그에 따른 엔코딩 장치에 관한 것이다. 또한, 엔코딩 파라미터를 이용하여 보간 프레임을 생성하는 오디오 신호 처리 방법, 및 그에 따른 디코딩 장치에 관한 것이다.
다수개의 프레임들을 포함하는 오디오 신호를 압축하여 전송하고, 압축된 오디오 신호를 수신하여 원래의 오디오 신호로 복원하기 위해서, 송신단에서는 엔코더를 이용하고, 수신단에서는 디코더를 이용한다. 송신단 및 수신단은 소정 규격에 맞춰 오디오 신호를 압축 및 복원한다.
엔코더는 오디오 신호를 압축하는 과정에서, 각각의 프레임에서 소정 파라미터를 추출한다. 여기서, 소정 파라미터는 디코더가 압축된 오디오 신호를 전송받고 이를 원래의 오디오 신호를 복원하는데 이용하는 파라미터 값이다. 이하에서는, 상기 소정 파라미터를 엔코딩 파라미터라 한다.
엔코딩 파라미터는 프레임 단위로 생성될 수 있다. 엔코더는, 소정 시간 동안 재생되는 오디오 신호인 일 프레임을 분석하여, 하나의 엔코딩 파라미터를 생성한다.
하나의 프레임 내에서, 엔코딩 파라미터는 동일한 값을 갖는다. 따라서, 하나의 프레임 내에서 음상의 변화가 발생한 경우, 이를 반영한 오디오 신호를 출력할 수 없다. 여기서, 음상이란, 사용자가 소리가 발생하는 위치로 인식하는 지점를 뜻한다.
따라서, 하나의 프레임에서 표현되는 음상이 인접한 프레임에서 표현되는 음상과 크게 다른 경우, 사용자는 부자연스러운 소리를 인식하게 된다. 그러므로, 자연스럽게 연결되는 소리를 재생할 수 있도록 하여 오디오의 음질을 향상시킬 수 있는 오디오 신호 처리 방법, 그에 따른 장치를 제공할 필요가 있다.
본원 발명은 원래 프레임 사이에 위치하는 보간 프레임을 생성할 수 있는 오디오 신호 처리 방법, 그에 따른 엔코딩 장치 및 그에 따른 디코딩 장치의 제공을 목적으로 한다.
구체적으로, 본원 발명은 자연스럽게 연결되는 소리를 재생할 수 있는 오디오 신호 처리 방법, 그에 따른 엔코딩 장치 및 그에 따른 디코딩 장치의 제공을 목적으로 한다. 나아가, 본원 발명은 오디오의 음질을 향상시킬 수 있는 오디오 신호 처리 방법, 그에 따른 엔코딩 장치 및 그에 따른 디코딩 장치의 제공을 목적으로 한다.
본 발명의 일 실시예에 따른 오디오 신호 처리 방법은 연속되는 프레임들을 포함하는 오디오 신호를 입력받는 단계, 상기 연속되는 프레임들 중 제1 프레임에 대응되는 제1 엔코딩 파라미터 및 상기 제1 프레임에 인접한 프레임인 제2 프레임에 대응되는 제2 엔코딩 파라미터를 생성하는 단계, 및 상기 제1 엔코딩 파라미터와 상기 제2 엔코딩 파라미터를 이용하여, 적어도 하나의 보간 파라미터를 생성하는 단계를 포함한다.
또한, 상기 적어도 하나의 보간 파라미터는 상기 제1 엔코딩 파라미터를 이용하여 복원된 제3 프레임과 상기 제2 엔코딩 파라미터를 이용하여 복원된 제4 프레임의 사이에 위치하는 적어도 하나의 보간 프레임을 생성하기 위한 엔코딩 파라미터일 수 있다.
또한, 상기 보간 파라미터를 생성하는 단계는 제1 가중치를 상기 제1 엔코딩 파라미터에 적용한 제1 소정 값과 제2 가중치를 상기 제2 엔코딩 파라미터에 적용한 제2 소정 값을 이용하여, 상기 보간 파라미터를 생성하는 단계를 포함할 수 있다.
또한, 상기 보간 파라미터를 생성하는 단계는 상기 제1 가중치와 상기 제1 엔코딩 파라미터를 곱한 값인 상기 제1 소정 값과 상기 제2 가중치와 상기 제2 엔코딩 파라미터를 곱한 값인 상기 제2 소정 값을 더한 값으로 상기 보간 파라미터를 생성하는 단계를 포함할 수 있다.
또한, 상기 제1 가중치는 상기 제2 가중치에 반비례할 수 있다.
또한, 상기 제1 가중치와 상기 제2 가중치의 합은 1이 될 수 있다.
또한, 본 발명의 일 실시예에 따른 오디오 신호 처리 방법은 상기 오디오 신호에 대응되며, 상기 제1 및 제2 인코딩 파라미터 및 상기 적어도 하나의 보간 파라미터를 포함하는 비트 스트림을 생성하는 단계, 및 상기 비트 스트림을 엔코딩 장치에서 디코딩 장치로 전송하는 단계를 더 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 오디오 신호 처리 방법은 전송되는 상기 비트 스트림을 수신하고, 수신된 상기 비트 스트림을 디포맷팅하는 단계, 상기 디포맷팅 된 비트 스트림에서, 상기 제1 및 제2 인코딩 파라미터 및 상기 적어도 하나의 보간 파라미터를 추출하는 단계를 더 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 오디오 신호 처리 방법은 상기 적어도 하나의 보간 파라미터를 이용하여 상기 제3 프레임과 상기 제4 프레임 사이에 위치하는 상기 적어도 하나의 보간 프레임을 생성하는 단계를 더 포함할 수 있다.
또한, 상기 적어도 하나의 보간 파라미터를 생성하는 단계는 n 개의 상기 보간 파라미터를 생성하는 단계를 포함할 수 있다.
또한, 상기 엔코딩 파라미터를 생성하는 단계는 상기 연속되는 프레임들에 길이가 L 인 분석 윈도우를 적용하고, 상기 분석 윈도우 내에 포함되는 프레임 데이터 단위로 상기 엔코딩 파라미터를 추출하는 단계를 포함할 수 있다. 그리고, 상기 적어도 하나의 보간 프레임을 생성하는 단계는 상기 보간 파라미터의 개수 n 에 따라서 합성 윈도우의 크기를 조절하고, 상기 크기 조절된 합성 윈도우를 이용하여 상기 n 개의 보간 프레임을 생성하는 단계를 포함할 수 있다.
또한, 상기 엔코딩 파라미터는 인터-채널 강도 차이(IID: Inter-channel Intensity Difference) 파라미터, 인터-채널 위상 차이(IPD: Inter-channel Phase Difference) 파라미터, 전체적 위상 차이(OPD: Overall Phase Difference) 파라미터, 및 인터-채널 상관도(ICC: Inter-Channel Coherence) 파라미터 중 적어도 하나를 포함할 수 있다.
본 발명의 일 실시예에 따른 엔코딩 장치는 연속되는 프레임들을 포함하는 오디오 신호를 입력받고, 상기 연속되는 프레임들 중 제1 프레임에 대응되는 제1 엔코딩 파라미터 및 상기 제1 프레임에 인접한 프레임인 제2 프레임에 대응되는 제2 엔코딩 파라미터를 생성하는 분석 필터 뱅크, 상기 제1 엔코딩 파라미터와 상기 제2 엔코딩 파라미터 이용하여, 적어도 하나의 보간 파라미터를 생성하는 엔코딩 부, 및 상기 제1 및 제2 엔코딩 파라미터 및 상기 적어도 하나의 보간 파라미터를 포함하는 비트 스트림을 생성하는 포맷터를 포함한다.
본 발명의 일 실시예에 따른 디코딩 장치는 제1 및 제2 엔코딩 파라미터 및 적어도 하나의 보간 파라미터를 포함하는 비트 스트림을 전송받고, 이를 디 포맷팅하여 출력하는 디포맷터, 상기 비트 스트림에서 상기 제1 및 제2 엔코딩 파라미터 및 상기 적어도 하나의 보간 파라미터를 추출하는 디코딩 부, 및 상기 제1 및 제2 엔코딩 파라미터를 이용하여 제1 및 제2 프레임을 생성하고, 상기 적어도 하나의 보간 파라미터를 이용하여 상기 제1 및 제2 프레임의 사이에 위치하는 적어도 하나의 보간 프레임을 생성하는 합성 필터뱅크를 포함한다.
도 1은 본 발명의 일 실시예에 따른 엔코딩 장치를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 오디오 신호 처리 방법을 나타내는 플로우차트이다.
도 3은 도 2의 오디오 신호 처리 방법을 설명하기 위한 도면이다.
도 4는 도 2의 230 단계에서 이용되는 가중치 값을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 디코딩 장치를 나타내는 도면이다.
도 6은 본 발명의 다른 실시예에 따른 오디오 신호 처리 방법을 나타내는 플로우차트이다.
도 7은 도 6의 670 및 680 단계를 설명하기 위한 도면이다.
도 8은 본원에서 생성되는 보간 파라미터, 보간 프레임 및 그에 따라 출력되는 오디오 신호의 일예를 설명하기 위한 도면이다.
도 9는 본원에서 생성되는 보간 파라미터, 보간 프레임 및 그에 따라 출력되는 오디오 신호의 다른 예를 설명하기 위한 도면이다.
이하에서는, 첨부된 도면을 참조하여 본 발명에 따른 오디오 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치를 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 엔코딩 장치를 나타내는 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 엔코딩 장치(100)는 분석 필터 뱅크(analysis filter bank)(120), 포맷터(formatter)(125), 및 엔코딩 부(encoding unit)(130)를 포함한다.
분석 필터 뱅크(120)는 연속되는 프레임들을 포함하는 오디오 신호를 입력받는다. 그리고, 상기 연속되는 프레임들 중 제1 프레임에 대응되는 제1 엔코딩 파라미터 및 상기 제1 프레임에 인접한 프레임인 제2 프레임에 대응되는 제2 엔코딩 파라미터를 생성한다. 여기서, 제2 프레임은 제1 프레임의 이전단에 인접한 프레임일 수 있다. 예를 들어, 제1 프레임이 소정 시점의 프레임인 제 (n+1) 프레임일 경우, 제2 프레임은 이전 프레임인 제 n 프레임일 수 있다. 또한, 제2 프레임은 제1 프레임의 이후단에 인접한 프레임일 수 있다. 예를 들어, 제1 프레임이 소정 시점의 프레임인 제n 프레임일 경우, 제2 프레임은 후속 프레임인 제(n+1) 프레임일 수 있다.
또한, 엔코딩 파라미터는 디코딩 장치(미도시)에서 소정 채널에 대응되는 소정 오디오 신호를 복원하기 위해 이용되는 파라미터이다. 구체적으로, 소정 오디오 신호에 포함되는 프레임을 복원하기 위해 이용되는 파라미터이다.
또한, 엔코딩 파라미터는 압축 수신된 오디오 신호를 업 믹싱(up-mixing)하여 멀티 채널에 대응되는 오디오 신호들을 생성하기 위한 멀티 채널 파라미터(multi channel parameter)를 포함할 수 있다.
엔코딩 파라미터는 인터-채널 강도 차이(IID: Inter-channel Intensity Difference) 파라미터, 인터-채널 위상 차이(IPD: Inter-channel Phase Difference) 파라미터, 전체적 위상 차이(OPD: Overall Phase Difference) 파라미터, 및 인터-채널 상관도(ICC: Inter-Channel Coherence) 파라미터 중 적어도 하나를 포함할 수 있다.
엔코딩 부(130)는 제1 엔코딩 파라미터 및 제2 엔코딩 파라미터를 이용하여, 적어도 하나의 보간 파라미터를 생성한다. 또한, 보간 파라미터의 생성은 분석 필터 뱅크(120)에서 수행될 수 도 있으며, 또는 엔코딩 장치(100) 내에 포함되는 시스템 제어부(system controller)(미도시)에서 수행될 수도 있다.
포맷터(125)는 분석 필터 뱅크(120)에서 생성된 제1 및 제2 엔코딩 파라미터 및 적어도 하나의 보간 파라미터를 포함하는 비트 스트림을 생성한다. 구체적으로, 포맷터(125)는 소정 규격, 예를 들어, MP3 규격, 에 맞춰 비트 스트림을 생성할 수 있다. 그리고, 포맷터(125)는 생성된 비트 스트림을 디코딩 장치(미도시)로 전송할 수 있다.
본 발명의 일 실시예에 따른 엔코딩 장치의 각 구성 동작은, 본 발명에 따른 오디오 신호 처리 방법의 단계 동작과 그 기술적 사상이 동일하다. 따라서, 본 발명의 일 실시예에 따른 엔코딩 장치의 상세 동작은 이하에서 본 발명의 일 실시예에 따른 오디오 신호 처리 방법을 설명하는 도 2 내지 도 4를 참조하여 상세히 설명한다. 또한, 오디오 신호 처리 방법에 있어서, 엔코딩 장치(100)의 동작 구성과 중복되는 설명은 생략한다.
도 2는 본 발명의 일 실시예에 따른 오디오 신호 처리 방법을 나타내는 플로우차트이다. 본 발명의 일 실시예에 따른 오디오 신호 처리 방법은 본 발명의 일 실시예에 따른 엔코딩 장치 내에서 수행될 수 있다.
또한, 도 3은 도 2의 오디오 신호 처리 방법을 설명하기 위한 도면이다. 이하에서는, 도 도 1, 도 2 및 도 3을 참조하여 본 발명의 일 실시예에 따른 오디오 신호 처리 방법(200)을 설명한다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 오디오 신호 처리 방법은 연속되는 프레임들을 포함하는 오디오 신호를 입력받는다(210 단계). 210 단계는 분석 필터 뱅크(120)에서 수행될 수 있다.
여기서, 연속되는 프레임들은 프레임 간의 불연속성(discontinuity)을 방지하기 위해서 50% 씩 중첩(overlap) 되어 엔코딩 될 수 있다. 즉, 도 3에 도시된 바와 같이 제1 프레임(301)의 절반과 후속하는 제2 프레임(303)이 중첩되어 입력되고, 입력된 제1 및 제2 프레임(301, 303)의 엔코딩(311, 312) 동작을 수행한다. 도 3에서는 제1 프레임(301)이 소정 시점의 프레임인 제n 프레임(#n frame)이고, 제2 프레임(303)은 후속 프레임인 제(n+1) 프레임(#n+1 frame)인 경우를 예로 들어 도시하였다.
입력된 오디오 신호에 포함되는 연속되는 프레임들 중 제1 프레임(301)에 대응되는 제1 엔코딩 파라미터(321) 및 제1 프레임에 인접한 프레임인 제2 프레임(303)에 대응되는 제2 엔코딩 파라미터(323)를 생성한다(220 단계). 구체적으로, 제1 프레임(301)의 길이(L)에 대응되는 분석 윈도우(analysis window)를 적용하고, 분석 윈도우 내의 프레임 데이터를 이용하여 소정 엔코딩 파라미터를 생성할 수 있다.
여기서, 220 단계는 분석 필터 뱅크(120)에서 수행될 수 있다. 제1 및 제2 엔코딩 파라미터는 오디오 신호를 엔코딩하는 과정에서 추출 및 생성될 수 있다. 따라서, 도 3에서는 제1 및 제2 프레임(301, 303)을 엔코딩(encoding)(311, 312)하는 동작에 의해, 제1 및 제2 엔코딩 파라미터(321, 323)가 생성되는 것으로 도시하였다.
220 단계에서 생성된 제1 엔코딩 파라미터(321)와 제2 엔코딩 파라미터(323)를 이용하여, 적어도 하나의 보간 파라미터(interpolated parameter)(321)를 생성한다(230 단계). 도 3에서는 제1 엔코딩 파라미터(321)와 제2 엔코딩 파라미터(323)를 이용하여 하나의 보간 파라미터(321)를 생성하는 경우를 예로 들어 도시하였다. 230 단계는 엔코딩 부(130)에서 수행될 수 있다. 또한, 전술한 바와 같이, 230 단계는 분석 필터 뱅크(120)에서 수행될 수도 있으며, 또는 엔코딩 장치(100) 내에 포함되는 시스템 제어부(system controller)(미도시)에서 수행될 수도 있다.
여기서, 보간 파라미터(321)는 제1 엔코딩 파라미터(321)를 이용하여 디코딩한 제3 프레임(미도시)과 제2 엔코딩 파라미터(323)를 이용하여 디코딩한 제4 프레임(미도시)의 사이에 위치하는 적어도 하나의 보간 프레임(미도시)을 생성하기 위한 엔코딩 파라미터이다.
또한, 230 단계에 있어서, 보간 파라미터(331)는 제1 가중치를 제1 엔코딩 파라미터(321)에 적용한 제1 소정 값과 제2 가중치를 제2 엔코딩 파라미터(323)에 적용한 제2 소정 값을 이용하여 생성될 수 있다.
도 4는 도 2의 230 단계에서 이용되는 가중치 값을 설명하기 위한 도면이다.
도 4를 참조하면, 보간 파라미터(331)를 생성하는데 이용되는 제1 가중치(Wk1)의 값을 나타내는 그래프(410) 및 제2 가중치(Wk2)의 값을 나타내는 그래프(420)를 도시하였다. x 축은 프레임간의 거리를 나타내고, y 축은 가중치의 값을 나타낸다. 구체적으로, 제1 엔코딩 파라미터(321)를 이용하여 복원되는 제3 프레임(미도시)과 제2 엔코딩 파라미터(323)를 이용하여 복원되는 제4 프레임(미도시) 사이에 하나의 보간 프레임(331)이 생성되는 경우, 보간 프레임(331)은 제3 프레임(미도시)과 제4 프레임(미도시)의 중간인 a/2 지점에 위치할 수 있다.
도 4를 참조하면, 제1 엔코딩 파라미터(321)에 적용되는 제1 가중치(410)는 제2 엔코딩 파라미터(323)에 적용되는 제2 가중치(420)와 반비례하는 값을 가질 수 있다. 또한, 제1 및 제2 가중치(410, 420)의 합은 1 값이 될 수 있다.
구체적으로, 보간 파라미터(331)는 일 실시예 값으로써, 이하의 [수학식 1]과 같이 정의될 수 있다.
[수학식 1]
Pk = Wk1*Pn + Wk2*(Pn+1)
[수학식 1]에서, Pk는 보간 파라미터(331)를 나타내고, Pn은 제1 엔코딩 파라미터(321)를 나타낸다. 그리고, (Pn+1)는 제2 엔코딩 파라미터(323)를 나타낸다. 그리고, Wk1 은 제1 엔코딩 파라미터(Pn)(321)에 적용되는 제1 가중치를 나타내고, Wk2는 제2 엔코딩 파라미터(Pn+1)에 적용되는 제2 가중치를 나타낸다.
[수학식 1]을 참조하면, 보간 파라미터(Pk)(331)는 제1 가중치(Wk1)와 제1 엔코딩 파라미터(Pn)(321)를 곱한 값인 제1 소정 값(Wk1*Pn)과 제2 가중치(Wk2)와 제2 엔코딩 파라미터(Pn+1)(323)를 곱한 값인 제2 소정 값(Wk2*(Pn+1))을 더한 값이 될 수 있다.
예를 들어, 제3 프레임과 제4 프레임 사이에 하나의 보간 프레임을 생성할 경우, 보간 프레임은 제3 프레임과 제4 프레임의 사이에 위치할 수 있다. 따라서, 보간 프레임은 a/2 지점에 위치할 수 있으며, a/2 지점에서 제1 가중치(Wk1) 및 제2 가중치(Wk2) 값은 각각 0.5 및 0.5가 된다. 따라서, 보간 파라미터(Pk)(331)는 0.5*Pn + 0.5*(Pn+1)의 값으로 설정될 수 있다.
또한, 제3 프레임과 제4 프레임 사이에 다수개(n)의 보간 프레임들이 생성되는 경우, 다수개의 보간 프레임들은 제3 프레임과 제4 프레임 사이에 동일 간격을 가지며 배치될 수 있다.
또한, 제3 프레임과 제4 프레임 사이에 n=3개의 보간 프레임인 제1, 제2 및 제3 보간 프레임이 생성될 경우를 예로 들면, 제1 보간 프레임(Pk1), 제2 보간 프레임(Pk2), 및 제3 보간 프레임(Pk3)은 각각 a/4, a/2, 및 3a/4에 위치할 수 있다. 이 경우, 제1 보간 프레임(Pk1)의 생성을 위해 이용되는 제1 및 제2 가중치(410, 420)는 각각 0.75 및 0.25가 될 수 있다. 제2 보간 프레임(Pk2)의 생성을 위해 이용되는 제1 및 제2 가중치(410, 420)는 각각 0.5 및 0.5가 될 수 있다. 그리고, 제3 보간 프레임(Pk3)의 생성을 위해 이용되는 제1 및 제2 가중치(410, 420)는 각각 0.25 및 0.75가 될 수 있다.
전술한 예시와 같이, 보간 프레임이 제3 프레임에 가깝게 배치될수록, 제1 엔코딩 파라미터(Pn)(321)에 적용되는 제1 가중치(Wk1)의 값이 커진다. 그리고, 보간 프레임이 제4 프레임에 가깝게 배치될수록, 제2 엔코딩 파라미터(Pn+1)(323)에 적용되는 제2 가중치(Wk2)의 값이 커진다.
도 5는 본 발명의 일 실시예에 따른 디코딩 장치를 나타내는 도면이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 디코딩 장치(500)는 합성 필터 뱅크(synthesis filter bank)(560), 디포맷터(de-formatter)(565) 및 디코딩 부(570)를 포함한다. 디코딩 장치(500)는 도 1의 엔코딩 장치(100)에서 생성 및 전송되는 비트 스트림을 전송받고, 수신한 비트 스트림을 디코딩하여 적어도 하나의 채널에 대응되는 오디오 신호들을 생성한다.
디포맷터(565)는 엔코딩 장치(100)로부터 제1 및 제2 엔코딩 파라미터 및 적어도 하나의 보간 파라미터를 포함하는 비트 스트림을 전송받고, 이를 디 포맷팅(de-formatting)하여 출력한다. 구체적으로, 엔코딩 장치(100)의 포맷터(125)는 엔코딩 된 오디오 신호를 포맷팅하여 출력하므로, 디포맷터(565)는 포맷터(125)를 통과하기 이전의 형태를 갖도록 비트 스트림의 형태를 변환한다.
디코딩 부(570)는 수신된 비트 스트림을 소정 규격에 맞춰 디코딩(decoding) 한다. 그리고, 디코딩된 비트 스트림에서 전술한 제1 및 제2 엔코딩 파라미터 및 전술한 적어도 하나의 보간 파라미터를 추출한다.
합성 필터뱅크(560)는 제1 및 제2 엔코딩 파라미터를 이용하여 제1 및 제2 프레임을 생성하고, 적어도 하나의 보간 파라미터를 이용하여 제1 및 제2 프레임의 사이에 위치하는 적어도 하나의 보간 프레임을 생성한다.
또한, 디코딩 장치(500)는 보간 파라미터의 개수에 따라서, 합성 윈도우의 크기를 조절하는 프레임 크기 조절부(미도시)를 더 포함할 수 있다. 또한, 보가 파라미터의 개수에 따라서 합성 윈도우(synthesis window)의 크기를 조절하는 동작은 합성 필터뱅크(560) 또는 디코딩 부(570)에서 수행될 수 도 있다.
본 발명의 일 실시예에 따른 디코딩 장치의 각 구성 동작은, 이하의 도 6 및 도 7을 참조하여 설명할 본 발명에 따른 오디오 신호 처리 방법과 그 기술적 사상이 동일하다. 따라서, 본 발명의 일 실시예에 따른 디코딩 장치의 상세 동작은 이하에서 본 발명의 다른 실시예에 따른 오디오 신호 처리 방법을 설명하는 도 6 내지 도 7을 참조하여 상세히 설명한다. 또한, 도 7의 오디오 신호 처리 방법에 있어서, 디코딩 장치(500)와 중복되는 설명은 생략한다.
도 6은 본 발명의 다른 실시예에 따른 오디오 신호 처리 방법을 나타내는 플로우차트이다.
도 6에 있어서, 610, 620 및 630 단계는 각각 도 2에서 전술한 210, 220 및 230 단계와 동일 대응되므로, 상세 설명은 생략한다. 오디오 신호 처리 방법(600)은 도 2의 오디오 신호 처리 방법(200)에 비하여, 640, 650, 660, 670 및 680 단계 중 적어도 하나를 더 포함할 수 있다.
630 단계에 계속하여, 엔코딩 부(130)에서 생성된 제1 및 제2 인코딩 파라미터 및 적어도 하나의 보간 파라미터를 포함하는 비트 스트림을 생성한다(640 단계).
그리고, 640 단계에서 생성한 비트 스트림을 디코딩 장치(500)로 전송한다. 그에 따라서, 디코딩 장치(500)의 디포맷터(565)는 제1 및 제2 인코딩 파라미터 및 적어도 하나의 보간 파라미터를 포함하는 비트 스트림을 수신한다.
640 단계 및 650 단계는 엔코딩 장치(100)의 포맷터(125)에서 수행될 수 있다.
디코딩 장치(500)는 전송되는 비트 스트림을 수신하고, 수신된 비트 스트림을 디 포맷팅(de-formatting)한다(660 단계). 660 단계는 디포맷터(565)에서 수행될 수 있다. 구체적으로 660 단계에서는, 수신된 비트 스트림이 포맷터(125)를 통과하기 이전의 형태로 회복되도록 그 형태가 변형된다.
670 및 680 단계는 이하에서 도 7을 참조하여 상세히 설명한다.
도 7은 도 6의 670 및 680 단계를 설명하기 위한 도면이다.
도 7에 있어서, 제1 및 제2 프레임(701, 703)은 각각 도 3의 제1 및 제2 프레임(301, 303)과 동일 대응된다. 그리고, 엔코딩 동작(711, 712), 제1 및 제2 엔코딩 파라미터(721, 723), 및 보간 파라미터(731)는 각각 도 3의 엔코딩 동작(311, 312), 제1 및 제2 엔코딩 파라미터(321, 323), 및 보간 파라미터(331)와 동일 대응된다. 따라서, 도 7에 있어서, 도 3과 중복되는 설명은 생략한다.
660 단계에서 디 포맷팅된 비트 스트림에서, 전술한 제1 및 제2 인코딩 파라미터 및 전술한 적어도 하나의 보간 파라미터를 추출한다(670 단계). 구체적으로, 구체적으로, 디코딩 장치(500)로 수신된 비트 스트림을 디코딩(decoding)(751, 752, 753)하여 제1 및 제2 엔코딩 파라미터 및 적어도 하나의 보간 파라미터를 추출하거나 생성할 수 있다.
670 단계의 동작은 디코딩 부(570)에서 수행될 수 있다. 또는, 670 단계의 동작은 디코딩 장치(500) 내에 포함되는 시스템 제어부(system controller)(미도시) 또는 합성 필터뱅크(560)에서 수행될 수도 있다. 여기서, 적어도 하나의 보간 파라미터는 n 개의 보간 파라미터 일 수 있다.
670 단계에서 추출된 적어도 하나의 보간 파라미터를 이용하여 제3 프레임과 제4 프레임 사이에 위치하는 상기 적어도 하나의 보간 프레임을 생성한다(680 단계). 680 단계의 동작은 합성 필터 뱅크(560)에서 수행될 수 있다.
원래의 오디오 신호에 포함되는 다수개의 프레임들을 생성하기 위해서는 합성 윈도우(synthesis window)를 이용할 수 있다. 합성 윈도우는 디코딩 장치(500)에서 복원되어 출력되는 오디오 프레임의 길이를 정의한다.
도 7에서는 제3 프레임(761) 및 제4 프레임(763)의 사이에 오는 보간 프레임의 개수(n)가 1개인 경우를 예로 들어 도시하였다. 합성 윈도우의 크기는 보간 파라미터의 개수(n) 또는 생성될 보간 프레임의 개수(n)에 따라서 조절될 수 있다. 구체적으로 도 7에 도시된 바와 같이, 보간 파라미터의 개수가 1 일 때, 합성 윈도우의 크기는 L/2 이 될 수 있다. 여기서, L 은 전술한 분석 윈도우의 크기가 된다.
도 7을 참조하면, 제1 인코딩 파라미터(721)를 이용하여, 제1 프레임(#n frame)(701)에 대응되는 제3 프레임(#n frame)(761)을 생성한다. 그리고, 보간 파라미터(731)를 이용하여 보간 프레임(#n1 frame)(762)을 생성한다. 또한, 제2 인코딩 파라미터(703)에 대응되는 제4 프레임(#n+1 frame)(763)을 생성한다.
도 8은 본원에서 생성되는 보간 파라미터, 보간 프레임 및 그에 따라 출력되는 오디오 신호의 일예를 설명하기 위한 도면이다.
도 8의 (a)를 참조하면, 1개의 보간 파라미터(812)가 생성되는 경우를 예로 들어 도시하였다. 구체적으로, 도 8의(a)의 제1 엔코딩 파라미터(811), 제2 엔코딩 파라미터(813) 및 보간 파라미터(812)는 각각 도 7의 제1 엔코딩 파라미터(721), 제2 엔코딩 파라미터(723) 및 보간 파라미터(731)와 동일 대응될 수 있다.
도 8의 (b)를 참조하면, 도 8의 (a)의 제1 엔코딩 파라미터(811), 제2 엔코딩 파라미터(813) 및 보간 파라미터(812)에 각각 대응되어 복원(decoding)되는 제3 프레임(821), 제4 프레임(823) 및 보간 프레임(822)을 도시하였다.
도 8의 (b)에 있어서, 제3 프레임(821), 제4 프레임(823) 및 보간 프레임(822)은 각각 도 7의 제3 프레임(#n frame)(761), 제4 프레임(#n+1 frame)(763) 및 보간 프레임(#n1 frame)(762)에 동일 대응된다.
도 8의 (c)를 참조하면, 1개의 보간 프레임을 생성된 경우, 그에 따라서 출력되는 음상의 변화가 도시된다.
도 8의 (c)를 참조하면, 제1 엔코딩 파라미터(811)를 이용하여 복원된 프레임인 제3 프레임(821)에 대응되는 오디오 신호가 출력되면, 사용자(850)는 851 지점에 위치하는 음상을 인식한다. 그리고, 제2 엔코딩 파라미터(813)를 이용하여 복원된 프레임인 제4 프레임(823)에 대응되는 오디오 신호가 출력되면, 사용자(850)는 853 지점에 위치하는 음상을 인식한다.
일반적인 오디오 신호 처리 방법 및 디코딩 장치에서는, 인접하여 연속 출력되는 두 개의 프레임에 대응되는 음상의 위치가 851 지점에서 853 지점으로 급격히 변화하는 경우, 사용자인 청취자는 급격히 변화하는 음상을 인식하며 그에 따라서 부자연스러운 음을 청취하게 된다.
본원에서는 보간 파라미터(812)를 이용하여 보간 프레임(822)을 생성한다. 그리고, 보간 프레임(822)에 대응되는 오디오 신호가 출력되면, 사용자(850)는 852 지점에 위치하는 음상을 인식한다.
따라서, 본 발명에 다른 오디오 신호 처리 방법, 엔코딩 장치 및 디코딩 장치는 자연스럽게 연결되는 오디오 신호를 재생할 수 있다. 그에 따라서, 사용자는 자연스럽게 연결되는 음상을 인식할 수 있으며, 사용자가 인식하는 오디오의 음질을 향상시킬 수 있다.
도 9는 본원에서 생성되는 보간 파라미터, 보간 프레임 및 그에 따라 출력되는 오디오 신호의 다른 예를 설명하기 위한 도면이다.
도 9의 (a)를 참조하면, 3개의 보간 파라미터(912, 913, 914)가 생성되는 경우를 예로 들어 도시하였다. 구체적으로, 도 9의 (a)의 제1 엔코딩 파라미터(911), 및 제2 엔코딩 파라미터(915) )는 각각 도 7의 제1 엔코딩 파라미터(721), 및 제2 엔코딩 파라미터(723)와 동일 대응될 수 있다.
또한, 3개의 보간 파라미터(912, 913, 914)를 생성하기 위해 이용되는 가중치 값은 도 4에 도시된 가중치 값에 따라서 설정될 수 있다.
도 9의 (b)를 참조하면, 도 9의 (a)의 제1 엔코딩 파라미터(911), 제2 엔코딩 파라미터(915) 및 보간 파라미터들(912, 913, 914)에 각각 대응되어 복원(decoding)되는 제3 프레임(821), 제4 프레임(823) 및 보간 프레임들(922, 923, 924)을 도시하였다.
도 9의(b)에 있어서, 제3 프레임(921), 및 제4 프레임(925)은 각각 도 7의 제3 프레임(#n frame)(761), 및 제4 프레임(#n+1 frame)(763)에 동일 대응된다.
도 9의 (c)를 참조하면, 3개의 보간 프레임을 생성된 경우, 그에 따라서 출력되는 음상의 변화가 도시된다.
도 9의 (c)를 참조하면, 제1 엔코딩 파라미터(911)를 이용하여 복원된 프레임인 제3 프레임(921)에 대응되는 오디오 신호가 출력되면, 사용자(950)는 951 지점에 위치하는 음상을 인식한다.
그리고, 보간 파라미터들(912, 913, 914)을 이용하여 복원된 보간 프레임들(922, 923, 924)에 대응되는 오디오 신호가 출력되면, 사용자(950)는 952, 953, 및 954 지점에 위치하는 음상을 연속적으로 인식한다.
그리고, 제2 엔코딩 파라미터(915)를 이용하여 복원된 프레임인 제4 프레임(925)에 대응되는 오디오 신호가 출력되면, 사용자(950)는 955 지점에 위치하는 음상을 인식한다.
인접한 두 개의 프레임 사이에 생성되는 보간 프레임의 개수가 증가하면, 사용자는 더욱 자연스러운 음상은 인식할 수 있다.
또한 본 발명에 따른 신호 처리 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드 또는 프로그램으로서 구현하는 것도 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구 범위에 기재된 내용과 동등한 범위내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
100: 엔코딩 장치
120: 분석 필터 뱅크
125: 포맷터
130: 엔코딩 부
301, 701: 제1 프레임
303, 703: 제2 프레임
321, 721: 제1 엔코딩 파라미터
323, 723: 제2 엔코딩 파라미터
331, 731: 보간 파라미터
500: 디코딩 장치
560: 합성 필터 뱅크
565: 디포맷터
570: 디코딩 부
761: 제3 프레임
762: 보간 프레임
763: 제4 프레임

Claims (20)

  1. 연속되는 프레임들을 포함하는 오디오 신호를 입력받는 단계;
    상기 연속되는 프레임들 중 제1 프레임에 대응되는 제1 엔코딩 파라미터 및 상기 제1 프레임에 인접한 프레임인 제2 프레임에 대응되는 제2 엔코딩 파라미터를 생성하는 단계; 및
    상기 제1 엔코딩 파라미터와 상기 제2 엔코딩 파라미터를 이용하여, 적어도 하나의 보간 파라미터를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  2. 제1항에 있어서, 상기 적어도 하나의 보간 파라미터는
    상기 제1 엔코딩 파라미터를 이용하여 복원된 제3 프레임과 상기 제2 엔코딩 파라미터를 이용하여 복원된 제4 프레임의 사이에 위치하는 적어도 하나의 보간 프레임을 생성하기 위한 엔코딩 파라미터인 것을 특징으로 하는 오디오 신호 처리 방법.
  3. 제2항에 있어서, 상기 보간 파라미터를 생성하는 단계는
    제1 가중치를 상기 제1 엔코딩 파라미터에 적용한 제1 소정 값과 제2 가중치를 상기 제2 엔코딩 파라미터에 적용한 제2 소정 값을 이용하여, 상기 보간 파라미터를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  4. 제3항에 있어서, 상기 보간 파라미터를 생성하는 단계는
    상기 제1 가중치와 상기 제1 엔코딩 파라미터를 곱한 값인 상기 제1 소정 값과 상기 제2 가중치와 상기 제2 엔코딩 파라미터를 곱한 값인 상기 제2 소정 값을 더한 값으로 상기 보간 파라미터를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  5. 제3항에 있어서,
    상기 제1 가중치는 상기 제2 가중치에 반비례하는 것을 특징으로 하는 오디오 신호 처리 방법.
  6. 제5항에 있어서,
    상기 제1 가중치와 상기 제2 가중치의 합은 1인 것을 특징으로 하는 오디오 신호 처리 방법.
  7. 제2항에 있어서,
    상기 오디오 신호에 대응되며, 상기 제1 및 제2 인코딩 파라미터 및 상기 적어도 하나의 보간 파라미터를 포함하는 비트 스트림을 생성하는 단계; 및
    상기 비트 스트림을 엔코딩 장치에서 디코딩 장치로 전송하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  8. 제7항에 있어서,
    전송되는 상기 비트 스트림을 수신하고, 수신된 상기 비트 스트림을 디포맷팅하는 단계;
    상기 디포맷팅 된 비트 스트림에서, 상기 제1 및 제2 인코딩 파라미터 및 상기 적어도 하나의 보간 파라미터를 추출하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  9. 제2항에 있어서,
    상기 적어도 하나의 보간 파라미터를 이용하여 상기 제3 프레임과 상기 제4 프레임 사이에 위치하는 상기 적어도 하나의 보간 프레임을 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  10. 제9항에 있어서,
    상기 적어도 하나의 보간 파라미터를 생성하는 단계는
    n 개의 상기 보간 파라미터를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  11. 제10항에 있어서,
    상기 엔코딩 파라미터를 생성하는 단계는
    상기 연속되는 프레임들에 길이가 L 인 분석 윈도우를 적용하고, 상기 분석 윈도우 내에 포함되는 프레임 데이터 단위로 상기 엔코딩 파라미터를 추출하는 단계를 포함하며,
    상기 적어도 하나의 보간 프레임을 생성하는 단계는
    상기 보간 파라미터의 개수 n 에 따라서 합성 윈도우의 크기를 조절하고, 상기 크기 조절된 합성 윈도우를 이용하여 상기 n 개의 보간 프레임을 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  12. 제2항에 있어서, 상기 엔코딩 파라미터는
    인터-채널 강도 차이(IID: Inter-channel Intensity Difference) 파라미터, 인터-채널 위상 차이(IPD: Inter-channel Phase Difference) 파라미터, 전체적 위상 차이(OPD: Overall Phase Difference) 파라미터, 및 인터-채널 상관도(ICC: Inter-Channel Coherence) 파라미터 중 적어도 하나를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  13. 연속되는 프레임들을 포함하는 오디오 신호를 입력받고, 상기 연속되는 프레임들 중 제1 프레임에 대응되는 제1 엔코딩 파라미터 및 상기 제1 프레임에 인접한 프레임인 제2 프레임에 대응되는 제2 엔코딩 파라미터를 생성하는 분석 필터 뱅크;
    상기 제1 엔코딩 파라미터와 상기 제2 엔코딩 파라미터 이용하여, 적어도 하나의 보간 파라미터를 생성하는 엔코딩 부; 및
    상기 제1 및 제2 엔코딩 파라미터 및 상기 적어도 하나의 보간 파라미터를 포함하는 비트 스트림을 생성하는 포맷터를 포함하는 것을 특징으로 하는 엔코딩 장치.
  14. 제13항에 있어서, 상기 적어도 하나의 보간 파라미터는
    상기 제1 엔코딩 파라미터를 이용하여 복원된 제3 프레임과 상기 제2 엔코딩 파라미터를 이용하여 복원된 제4 프레임의 사이에 위치하는 적어도 하나의 보간 프레임을 생성하기 위한 엔코딩 파라미터인 것을 특징으로 하는 엔코딩 장치.
  15. 제14항에 있어서, 상기 엔코딩 부는
    제1 가중치와 상기 제1 엔코딩 파라미터를 곱한 값인 제1 소정 값과 제2 가중치와 상기 제2 엔코딩 파라미터를 곱한 값인 제2 소정 값을 더한 값으로 상기 보간 파라미터를 생성하는 것을 특징으로 하는 엔코딩 장치.
  16. 제15항에 있어서,
    상기 제1 가중치는 상기 제2 가중치에 반비례하며,
    상기 제1 가중치와 상기 제2 가중치의 합은 1인 것을 특징으로 하는 엔코딩 장치.
  17. 제1 및 제2 엔코딩 파라미터 및 적어도 하나의 보간 파라미터를 포함하는 비트 스트림을 전송받고, 이를 디 포맷팅하여 출력하는 디포맷터;
    상기 비트 스트림에서 상기 제1 및 제2 엔코딩 파라미터 및 상기 적어도 하나의 보간 파라미터를 추출하는 디코딩 부; 및
    상기 제1 및 제2 엔코딩 파라미터를 이용하여 제1 및 제2 프레임을 생성하고, 상기 적어도 하나의 보간 파라미터를 이용하여 상기 제1 및 제2 프레임의 사이에 위치하는 적어도 하나의 보간 프레임을 생성하는 합성 필터뱅크를 포함하는 것을 특징으로 하는 디코딩 장치.
  18. 제17항에 있어서, 상기 제1 및 제2 엔코딩 파라미터 및 상기 보간 파라미터는
    멀티 채널 파라미터인 것을 특징으로 하는 디코딩 장치.
  19. 제17항에 있어서, 상기 디코딩 장치는
    상기 보간 파라미터의 개수에 따라서, 합성 윈도우의 크기를 조절하는 프레임 크기 조절부를 포함하는 것을 특징으로 하는 디코딩 장치.
  20. 제17항에 있어서, 상기 합성 필터 뱅크는
    상기 제1 및 제2 엔코딩 파라미터가 길이가 L 인 분석 윈도우를 이용하여 생성되고 상기 보간 파라미터가 1개 생성되는 경우, L/2의 크기를 가지는 합성 윈도우를 적용하여 상기 보간 프레임을 생성하는 것을 특징으로 하는 디코딩 장치.
KR1020110069495A 2010-08-06 2011-07-13 오디오 신호 처리 방법, 그에 따른 엔코딩 장치 및 그에 따른 디코딩 장치 KR20120013892A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/204,198 US20120035940A1 (en) 2010-08-06 2011-08-05 Audio signal processing method, encoding apparatus therefor, and decoding apparatus therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US37129410P 2010-08-06 2010-08-06
US61/371,294 2010-08-06

Publications (1)

Publication Number Publication Date
KR20120013892A true KR20120013892A (ko) 2012-02-15

Family

ID=45837281

Family Applications (6)

Application Number Title Priority Date Filing Date
KR1020110053369A KR20120013884A (ko) 2010-08-06 2011-06-02 신호 처리 방법, 그에 따른 엔코딩 장치, 디코딩 장치, 및 신호 처리 시스템
KR1020110053370A KR101819027B1 (ko) 2010-08-06 2011-06-02 오디오 재생 방법 및 그에 따른 오디오 재생 장치, 및 정보 저장 매체
KR1020110056342A KR20120013887A (ko) 2010-08-06 2011-06-10 신호 처리 방법, 그에 따른 엔코딩 장치, 디코딩 장치, 및 정보 저장 매체
KR1020110069496A KR101837083B1 (ko) 2010-08-06 2011-07-13 디코딩 방법 및 그에 따른 디코딩 장치
KR1020110069495A KR20120013892A (ko) 2010-08-06 2011-07-13 오디오 신호 처리 방법, 그에 따른 엔코딩 장치 및 그에 따른 디코딩 장치
KR1020110069498A KR101837084B1 (ko) 2010-08-06 2011-07-13 신호 처리 방법, 그에 따른 엔코딩 장치, 디코딩 장치, 및 정보 저장 매체

Family Applications Before (4)

Application Number Title Priority Date Filing Date
KR1020110053369A KR20120013884A (ko) 2010-08-06 2011-06-02 신호 처리 방법, 그에 따른 엔코딩 장치, 디코딩 장치, 및 신호 처리 시스템
KR1020110053370A KR101819027B1 (ko) 2010-08-06 2011-06-02 오디오 재생 방법 및 그에 따른 오디오 재생 장치, 및 정보 저장 매체
KR1020110056342A KR20120013887A (ko) 2010-08-06 2011-06-10 신호 처리 방법, 그에 따른 엔코딩 장치, 디코딩 장치, 및 정보 저장 매체
KR1020110069496A KR101837083B1 (ko) 2010-08-06 2011-07-13 디코딩 방법 및 그에 따른 디코딩 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020110069498A KR101837084B1 (ko) 2010-08-06 2011-07-13 신호 처리 방법, 그에 따른 엔코딩 장치, 디코딩 장치, 및 정보 저장 매체

Country Status (1)

Country Link
KR (6) KR20120013884A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11654742B2 (en) 2019-07-05 2023-05-23 Hanon Systems Unique airflow delivery path for independent rear zone in tri or quad HVAC system

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014175668A1 (ko) 2013-04-27 2014-10-30 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법
EP3806498B1 (en) * 2013-09-17 2023-08-30 Wilus Institute of Standards and Technology Inc. Method and apparatus for processing audio signal
CN105874819B (zh) 2013-10-22 2018-04-10 韩国电子通信研究院 生成用于音频信号的滤波器的方法及其参数化装置
KR101627661B1 (ko) 2013-12-23 2016-06-07 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법, 이를 위한 파라메터화 장치 및 오디오 신호 처리 장치
CN106105269B (zh) 2014-03-19 2018-06-19 韦勒斯标准与技术协会公司 音频信号处理方法和设备
CN108307272B (zh) 2014-04-02 2021-02-02 韦勒斯标准与技术协会公司 音频信号处理方法和设备
US10187737B2 (en) 2015-01-16 2019-01-22 Samsung Electronics Co., Ltd. Method for processing sound on basis of image information, and corresponding device
EP3869826A4 (en) * 2018-10-16 2022-03-16 Sony Group Corporation SIGNAL PROCESSING DEVICE AND METHOD AND PROGRAM
KR102301538B1 (ko) * 2020-02-12 2021-09-13 국방과학연구소 신호 필터링 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7343285B1 (en) 2003-04-08 2008-03-11 Roxio, Inc. Method to integrate user data into uncompressed audio data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11654742B2 (en) 2019-07-05 2023-05-23 Hanon Systems Unique airflow delivery path for independent rear zone in tri or quad HVAC system

Also Published As

Publication number Publication date
KR101837084B1 (ko) 2018-03-09
KR20120013893A (ko) 2012-02-15
KR101819027B1 (ko) 2018-01-17
KR20120013894A (ko) 2012-02-15
KR101837083B1 (ko) 2018-03-09
KR20120013884A (ko) 2012-02-15
KR20120013885A (ko) 2012-02-15
KR20120013887A (ko) 2012-02-15

Similar Documents

Publication Publication Date Title
KR20120013892A (ko) 오디오 신호 처리 방법, 그에 따른 엔코딩 장치 및 그에 따른 디코딩 장치
TWI590234B (zh) 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
RU2390857C2 (ru) Многоканальный кодировщик
KR100908081B1 (ko) 인코딩 및 디코딩된 다채널 신호를 생성하는 장치 및 방법
JP4601669B2 (ja) マルチチャネル信号またはパラメータデータセットを生成する装置および方法
US9313599B2 (en) Apparatus and method for multi-channel signal playback
RU2634422C2 (ru) Эффективное кодирование звуковых сцен, содержащих звуковые объекты
US8494667B2 (en) Apparatus for encoding and decoding audio signal and method thereof
EP2291841B1 (en) Method, apparatus and computer program product for providing improved audio processing
RU2630754C2 (ru) Эффективное кодирование звуковых сцен, содержащих звуковые объекты
KR100462615B1 (ko) 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
US20080201152A1 (en) Apparatus for Encoding and Decoding Audio Signal and Method Thereof
WO2015056383A1 (ja) オーディオエンコード装置及びオーディオデコード装置
US20090210236A1 (en) Method and apparatus for encoding/decoding stereo audio
US11200906B2 (en) Audio encoding method, to which BRIR/RIR parameterization is applied, and method and device for reproducing audio by using parameterized BRIR/RIR information
CN105580070A (zh) 根据室内脉冲响应处理音频信号的方法、信号处理单元、音频编码器、音频解码器及立体声渲染器
KR20070001139A (ko) 오디오 분배 시스템, 오디오 인코더, 오디오 디코더 및이들의 동작 방법들
KR20070003593A (ko) 멀티채널 오디오 신호의 인코딩 및 디코딩 방법
US20050004791A1 (en) Perceptual noise substitution
KR100763919B1 (ko) 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치
KR20170087529A (ko) 오디오 인코더 및 디코더
KR20070003544A (ko) 아비트러리다운믹스게인을 이용한 클리핑복원
KR20210151741A (ko) 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
KR20060135268A (ko) 오디오 신호의 비트스트림 생성 방법 및 장치, 그를 이용한부호화/복호화 방법 및 장치
US20120035940A1 (en) Audio signal processing method, encoding apparatus therefor, and decoding apparatus therefor

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination