KR20150012146A - 오디오 데이터를 처리하기 위한 방법 및 장치 - Google Patents

오디오 데이터를 처리하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20150012146A
KR20150012146A KR1020130087618A KR20130087618A KR20150012146A KR 20150012146 A KR20150012146 A KR 20150012146A KR 1020130087618 A KR1020130087618 A KR 1020130087618A KR 20130087618 A KR20130087618 A KR 20130087618A KR 20150012146 A KR20150012146 A KR 20150012146A
Authority
KR
South Korea
Prior art keywords
resampling
audio
sampling frequency
spectral data
data
Prior art date
Application number
KR1020130087618A
Other languages
English (en)
Inventor
샌딥 라주
라즈 나라야나 가데
김도형
손창용
이강은
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US13/949,592 priority Critical patent/US10083699B2/en
Publication of KR20150012146A publication Critical patent/KR20150012146A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

일실시예에 따르면 오디오 데이터를 처리하기 위한 장치 및 방법이 제공된다. 일실시예에서, 샘플링 주파수로 샘플되는 인코딩된 오디오 비트스트림이 수신되는 경우, 인코딩된 오디오 비트스트림을 처리하기 위해 리샘플링 비율이 계산된다. 리샘플링 비율이 리샘플링 임계 범위에 속하는 경우, 인코딩된 오디오 비트스트림은 주파수 도메인에서 처리되고 프레임 당 오디오 샘플의 원하는 수는 리샘플링 비율에 따라 출력된다. 인코딩된 오디오 비트스트림은 오디오 디코더의 필터 뱅크로 집적되는 샘플 레이트 컨버터를 사용하여 주파수 도메인에서 처리된다. 리샘플링 비율이 리샘플링 임계 범위를 벗어난 경우, 인코딩된 오디오 비트스트림은 시간 도메인에서 처리되고, 프레임 당 오디오 샘플의 원하는 수는 리샘플링 비율에 따라 출력된다.

Description

오디오 데이터를 처리하기 위한 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING AUDIO DATA}
아래의 설명은 일반적으로 오디오 처리 분야에 연관되고, 더 구체적으로 오디오 데이터 처리에 관한 것이다.
오디오는, 전송을 위해 이용 가능한 대역폭 및 요구되는 신호 퀄리티(signal quality)에 따라 다양한 샘플링 레이트(sampling rate)로 캡쳐(capture)된다. 예를 들어, 전문 오디오 시스템(DAT)에 대해 48 kHz, 소비자 디지털 오디오(CD)에 대해 44.1 kHz, 디지털 위성 방송(DSR: digital satellite radio)에 대해 32kHz로 캡쳐된다. 이것은 다른 입력 샘플링 레이트(rate)로 오디오의 플레이백(playback)을 지원하기 위한 오디오 시스템을 요구한다. 또한, 멀티미디어 시스템에서 다양한 오디오 부품의 집적은 인터페이스에서 오디오의 샘플링 레이트의 변화를 요구한다. 예를 들어, 대부분의 저전력 임베디드 시스템(embedded system)은, 하나의 특정한 샘플링 주파수로 오디오 데이터를 수신하기 위해 디자인된 DAC(Digital to Analog converter)를 가진다. 그러므로 임베디드 오디오 플레이백 시스템은 오디오의 실시간 샘플 레이트 변환을 수행하기 위한 전용 하드웨어 블록 또는 소프트웨어 블록을 가진다.
기존의 시간 도메인 SRC(sample rate converter) 알고리즘은 연산 집약적이고 고 퀄리티의 출력을 위해 많은 메모리를 요구한다. 주파수 도메인 샘플 레이트 컨버터는, 압축된 입력 스트림을 가진 오디오 파이프라인(pipeline)에서 독립형 컨버터로 사용되는 경우, 다중 시간-주파수 도메인 상호 변환(inter-conversion)의 오버헤드(overhead)를 수반한다. 또한, 오디오 플레이백 시스템에서 기존의 SRC 구현은, 리샘플링 비율에 관계없이 하나의 도메인에서, 예를 들면 시간 도메인 또는 주파수 도메인 중 하나, 리샘플링을 수행한다. 이것은 MIPS(million instructions per second) 및 출력 퀄리티 둘 모두의 관해서 시스템의 성능 저하의 결과가 된다.
도 1은 플레이백 시스템에서 기존의 오디오 프로세싱 파이프라인(audio processing pipeline)(100)을 도시하는 블록도이다. 도 1에서, 오디오 프로세싱 파이프라인(100)은 오디오 디코더(audio decoder)(102) 및 샘플 레이트 컨버터(sample rate converter)(104)를 포함한다. 오디오 디코더(102)는 인코딩된(encoded) 오디오 비트스트림(audio bitstream)(106)을 디코딩하고, 디코딩된 오디오 데이터를 출력한다. SRC(104)는 오디오 디코더(102)와는 별도인 독립형 부품으로 역할 한다. 디코딩된 오디오 데이터(108)는 SRC(104)에 입력으로 공급된다. SRC(104)는 시간 도메인에서 주파수 도메인으로 디코딩된 오디오 데이터를 변환하고, 프로세스는 프레임당 오디오 샘플의 원하던 수를 획득하도록 주파수 도메인에서 디코딩된 오디오 데이터의 스펙트럼을 수정하고, 마지막으로 리샘플링된 오디오 데이터(110)를 출력하기 위해 시간 도메인으로 오디오 데이터의 수정된 스펙트럼을 변환한다. 시간 및 주파수 도메인 상호 변환은 연산 집약적이기 때문에 리샘플링 비용은 상기 기술로는 증가한다.
일측에 따르면, 역양자화된 스펙트럼 데이터를 획득하기 위해 인코딩된 오디오 비트스트림을 부분적으로 디코딩하는 단계 - 상기 인코딩된 오디오 비트 스트림은 제1 샘플링 주파수로 샘플됨-; 리샘플링 비율에 기반하여 상기 역양자화 스펙트럼 데이터를 수정하는 단계; 및 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하는 단계를 포함하는 오디오 데이터를 처리하는 방법이 제시된다.
일실시예에 따르면, 상기 리샘플링 비율에 기반하여 상기 역양자화 스펙트럼 데이터를 수정하는 단계는, 상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 큰 경우, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 상기 리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정하는 단계는, 제2 샘플링 주파수가 제1 샘플링 주파수보다 작은 경우, 상기 역양자화된 스펙트럼 데이터의 패딩 후에 획득되는 프레임 당 오디오 샘플이 프레임 당 원하는 오디오 샘플의 정수 배가 되도록, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하는 단계는, IMDCT(inverse modified discrete cosine transform)을 사용하여 주파수 도메인으로부터 시간 도메인으로 상기 수정된 스펙트럼 데이터를 변환하여 IMDCT 출력 데이터를 생성하는 단계; 상기 리샘플링 비율에 기반하여 상기 IMDCT 출력 데이터의 스케일링을 수행하는 단계; 상기 리샘플링 비율에 대응하는 합성 윈도우 계수를 사용하여 상기 스케일된 IMDCT 출력 데이터을 윈도윙하는 단계; 및 상기 윈도우된 IMDCT 출력 데이터의 현재 프레임의 오디오 샘플 및 상기 윈도우된 IMDCT 출력 데이터의 이전 프레임 오디오 샘플 간에 미리 정해진 크기의 오버랩을 추가하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 상기 윈도우된 IMDCT 출력 데이터의 현재 프레임의 오디오 샘플 및 상기 윈도우된 IMDCT 출력 데이터의 이전 프레임 오디오 샘플 간에 미리 정해진 크기의 오버랩을 추가하는 단계는, 상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 작은 경우, 상기 리샘플링 비율에 따라 프레임 당 필요한 오디오 샘플의 수를 획득하기 위해 상기 오버랩되는 오디오 샘플을 데시메이팅하는 단계를 포함할 수 있다.
다른 일측에 따르면, 프로세서; 및 상기 프로세서에 커플링된 메모리
를 포함하고, 상기 메모리는, 역양자화된 스펙트럼 데이터를 획득하기 위해 제1 샘플링 주파수로 샘플된 인코딩된 오디오 비트스트림을 부분적으로 디코딩하고, 리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정하고, 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하도록 구성되는 오디오 프로세싱 모듈을 포함하는 장치가 제시된다.
일실시예에 따르면, 제1 샘플링 주파수로 샘플되는 인코딩된 오디오 비트스트림의 리샘플링 비율을 계산하는 단계; 상기 리샘플링 비율이 리샘플링 임계값 범위를 벗어난 경우, 제2 샘플링 주파수로 샘플링 오디오 데이터를 재생하기 위해 시간 도메인에서 상기 인코딩된 오디오 비트스트림을 처리하는 단계; 및 상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 상기 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 주파수 도메인에서 상기 인코딩된 오디오 비트스트림을 처리하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 주파수 도메인에서 상기 인코딩된 오디오 비트스트림을 처리하는 단계는, 역양자화된 스펙트럼 데이터를 획득하기 위해 상기 인코딩된 오디오 비트스트림을 부분적으로 디코딩하는 단계; 상기 리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정하는 단계; 및 상기 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 상기 리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정하는 단계는, 상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 큰 경우, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 리샘플링 비율에 따라 상기 역양자화된 스펙트럼 데이터를 수정하는 단계는, 상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 작은 경우, 상기 역양자화된 스펙트럼 데이터의 패딩 후에 획득되는 프레임당 오디오 샘플이 프레임당 원하는 오디오 샘플의 정수 배가 되도록, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하는 단계는, IMDCT(inverse modified discrete cosine transform)을 사용하여 주파수 도메인으로부터 시간 도메인으로 상기 수정된 스펙트럼 데이터를 변환하여 IMDCT 출력 데이터를 생성는 단계; 상기 리샘플링 비율에 따라 상기 IMDCT 출력 데이터의 스케일링을 수행하는 단계; 상기 리샘플링 비율에 대응하는 합성 윈도우 계수를 사용하여 상기 스케일링을 IMDCT을 윈도윙하는 단계; 및 상기 윈도우된 IMDCT 출력 데이터의 현재 프레임의 오디오 샘플 및 상기 윈도우된 IMDCT 출력 데이터의 이전 프레임 오디오 샘플 간에 미리 정해진 크기의 오버랩을 추가하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 상기 윈도우된 IMDCT 출력 데이터의 현재 프레임의 오디오 샘플 및 상기 윈도우된 IMDCT 출력 데이터의 이전 프레임 오디오 샘플 간에 미리 정해진 크기의 오버랩을 추가하는 단계는, 상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 작은 경우, 상기 리샘플링 비율에 따라 프레임당 필요한 오디오 샘플의 수를 획득하기 위해 상기 오버랩되는 오디오 샘플을 데시메이팅하는 단계를 더 포함할 수 있다.
또 다른 일측에 따르면, 프로세서; 및 상기 프로세서에 커플링된 메모리
를 포함하고, 상기 메모리는, 제1 샘플링 주파수로 샘플되는 인코딩된 오디오 비트스트림의 리샘플링 비율을 계산하고, 상기 리샘플링 비율이 리샘플링 임계값 범위를 벗어난 경우, 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 시간 도메인에서 상기 인코딩된 오디오 비트스트림을 처리하고, 상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 상기 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 주파수 도메인에서 상기 인코딩된 오디오 비트스트림을 처리하도록 구성되는 오디오 프로세싱 모듈을 포함하는 장치가 제시된다.
일실시예에 따르면, 상기 오디오 프로세싱 모듈은, 상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 주파수 도메인에서 상기 인코딩된 오디오 비트 스트림을 처리할 때, 역양자화된 스펙트럼 데이터를 획득하도록 상기 인코딩된 오디오 비트스트림을 부분적으로 디코딩하고, 상기 리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정하고, 상기 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하도록 할 수 있다.
다른 실시예에 따르면, 상기 오디오 프로세싱 모듈은,상기 리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정할 때, 상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 큰 경우, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하도록 구성될 수 있다.
또 다른 실시예에 따르면, 상기 오디오 프로세싱 모듈은, 상기 리샘플링 비율에 기반하여 상기 역양자화 스펙트럼 데이터를 수정할 때, 제2 샘플링 주파수가 제1 샘플링 주파수보다 작은 경우, 상기 역양자화된 스펙트럼 데이터의 패딩 후에 획득되는 프레임당 오디오 샘플이 프레임당 원하는 오디오 샘플의 정수 배가 되도록, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하도록 구성될 수 있다.
또 다른 실시예에 따르면, 상기 오디오 프로세싱 모듈은, 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성할 때, IMDCT(inverse modified discrete cosine transform)을 사용하여 주파수 도메인으로부터 시간 도메인으로 상기 수정된 스펙트럼 데이터를 변환하여 IMDCT 출력 데이터를 생성하고, 상기 리샘플링 비율에 기반하여 상기 IMDCT 출력 데이터의 스케일링을 수행하고, 상기 리샘플링 비율에 대응하는 합성 윈도우 계수를 사용하여 상기 스케일된 IMDCT을 윈도윙하고, 상기 윈도우된 IMDCT 출력 데이터의 현재 프레임의 오디오 샘플 및 상기 윈도우된 IMDCT 출력 데이터의 이전 프레임 오디오 샘플 간에 미리 정해진 크기의 오버랩을 추가하도록 구성될 수 있다.
일실시예에 따르면, 상기 오디오 프로세싱 모듈은, 상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 작은 경우, 상기 리샘플링 비율에 따라 프레임 당 필요한 오디오 샘플의 수를 획득하기 위해 상기 오버랩되는 오디오 샘플을 데시메이팅하도록 구성될 수 있다.
또 다른 일측에 따르면, 컴퓨터 판독 가능 저장 매체에 있어서, 제1 샘플링 주파수로 샘플된 인코딩된 오디오 비트스트림의 리샘플링 비율을 계산하는 단계; 상기 리샘플링 비율이 리샘플링 임계값 범위를 벗어난 경우, 제2 샘플링 주파수로 샘플링 오디오 데이터를 재생하기 위해 시간 도메인에서 상기 인코딩된 오디오 비트 스트림을 처리하는 단계; 및 상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 주파수 도메인에서 상기 인코딩된 오디오 비트 스트림을 처리하는 단계를 포함하는 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 저장 매체가 제시된다.
일실시예에 따르면, 상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 주파수 도메인에서 상기 인코딩된 오디오 비트 스트림을 처리하는 단계는, 역양자화된 스펙트럼 데이터를 획득하도록 상기 인코딩된 오디오 비트스트림을 부분적으로 디코딩하는 단계; 리샘플링 비율에 기반하여 상기 역양자화 스펙트럼 데이터를 수정하는 단계; 및 상기 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하는 단계를 포함할 수 있다.
도1은 플레이백 시스템에서 기존의 오디오 프로세싱 파이프라인(100)을 도시하는 블록도이다.
도 2는 일실시예에 따른 플레이백 시스템에서 오디어 프로세싱 모듈의 블록도를 도시한다.
도 3은 일실시예에 따른 리샘플링 비율에 기반한 인코딩된 오디오 비트스트림을 처리하는 예시적 방법을 도시하는 프로세스 흐름도이다.
도 4는 일실시예에 따른 시간 도메인에서 인코딩된 오디오 비트 스트림을 처리하는 예시적 방법을 도시하는 프로세스 흐름도이다.
도 5는 일실시예에 따른 주파수 도메인에서 인코딩된 오디오 비트스트림을 처리하는 예시적 방법을 도시하는 프로세스 흐름도이다.
도 6은 일실시예에 따른 오디오 데이터를 처리하기 위해 구성된 예시적인 플레이백 시스템을 도시하는 블록도이다.
여기에 도시된 도면은 단지 설명의 목적이고, 어떤 방식이로든 발명의 범위가 제한되는 것은 아니다.
일 측에 따르면, 오디오 데이터를 프로세싱하기 위한 장치 및 방법이 제공된다. 다음 실시예의 자세한 설명에서, 이 문서의 일부인 동반되는 도면에 참조가 표시되어 있고, 실시될 수 있는 구체적인 실시예들은 설명의 방법으로 보여진다. 이러한 실시예들은 기술분야에서 통상의 지식을 가진 자가 실시예들을 실시할 수 있도록 충분히 자세하게 설명되었고, 다른 실시예들이 활용될 수 있으며, 변경은 실시예들의 범위를 벗어나지 않고 수행될 수 있는 것으로 이해될 수 있다. 그러므로, 다음의 기술된 설명은 제한 하는 의미로 받아들여서는 안되고, 실시예들의 범위는 오직 첨부된 청구항에 의해 정의된다.
도 2는 일실시예에 따른 플레이백 시스템(200)에서 오디오 프로세싱 모듈(204)의 블록도를 도시한다. 도 2에서, 오디오 프로세싱 모듈(204)은 리샘플링 비율 컴퓨테이션 모듈(resampling ratio computation module)(206), 시간 도메인 프로세싱 모듈(time domain processing module)(204) 및 주파수 도메인 프로세싱 모듈(frequency domain processing module)(210)을 포함한다.
일실시예에 따르면, 리샘플링 비율 컴퓨테이션 모듈(206)은 인코딩된 오디오 비트 스트림(encoded audio bitstream)(202)과 연관된 리샘플링 비율(resampling ratio)을 계산한다. 리샘플링 비율은 인코딩된 오디오 비트스트림(202)의 샘플링 주파수(fs), 원하던 샘플링 주파수(FS)와 동일하다. 리샘플링 비율이 리샘플링 임계 범위에서 벗어난 경우, 시간 도메인 프로세싱 모듈(208)은 시간 도메인에서 인코딩된 오디오 비트 스트림(202)을 처리한다. 리샘플링 비율이 리샘플링 임계 범위에 속하는 경우, 주파수 도메인 모듈(210)은 주파수 도메인에서 인코딩된 오디오 비트스트림(202)을 처리한다. 단계들은 시간 도메인에서 인코딩된 오디오 비트스트림(202)을 처리하는 것을 수반하고, 주파수 도메인은 각각 도 4 및 도 5에 도시된다.
도 3은 일실시에 따른 플레이백 시스템(200)에서의 리샘플링 비율에 기반한 인코딩된 오디오 비트스트림을 처리하는 실시 방법을 도시하는 프로세스 흐름도(300)이다. 샘플링 주파수로 샘플되는 인코딩된 오디오 비트스트림이 수신되는 경우, 인코딩된 오디오 비트스트림을 처리하기 위한 리샘플링 비율이 단계(302)에서 계산된다. 리샘플링 비율은, 플레이백 시스템(200)(또한 제2 샘플링 주파수(FS)로 언급됨)에 의해 지원되는 샘플링 주파수 및 인코딩된 오디오 비트스트림의 샘플링 주파수(또한 제1 샘플링 주파수(fs)로 언급됨)에 기반하여 계산된다. 다시 말해서, 리샘플링 비율은 Fs/fs와 동일하다.
단계(304)에서, 리샘플링 비율이 리샘플링 범위에 속하는지 여부가 판별된다. 예를 들면, 리샘플링 임계 범위(threshold range)는 0.2 에서 0.5까지와 동일할 수 있다. 0. 2에서 0.5까지의 범위는 48KHz, 44.1 KHz 및 32 KHz의 표준 샘플링 주파수 간의 표준 샘플 레이트 변환을 포함한다. 리샘플링 비율이 리샘플링 임계 범위에 속하는 경우, 단계(306)에서, 인코딩된 오디오 비트스트림은 주파수 도메인에서 처리되고, 프레임 당 오디오 샘플의 원하는 수는 리샘플링 비율에 따라 출력된다. 리샘플링 비율이 리샘플링 임계범위를 벗어난 경우, 단계(308)에서, 인코딩된 오디오 비트스트림은 시간 도메인에서 처리되고, 프레임 당 오디오 샘플의 원하는 수는 리샘플링 비율에 따라 출력된다.
도 4는 일실시에 따른 시간 도메인에서 인코딩된 오디오 비트스트림을 처리하는 예시적 방법을 도시하는 프로세스 흐름도(400)이다. 리샘플링 비율이 리샘플링 임계 범위를 벗어난 경우, 시간 도메인 프로세싱 모듈(208)은 아래 단계에서 설명되는 것처럼 시간 도메인에서 인코딩된 오디오 비트스트림을 처리한다. 단계(402)에서, 시간 도메인에서 디코딩된 오디오 데이터(decoded audio data)는 제1 샘플링 주파수(fs)로 샘플되는 인코딩된 오디오 비트스트림으로부터 생성된다. 단계(404)에서, 제1 샘플링 주파수(fs)로 샘플되는 디코딩된 오디오 데이터가 제2 샘플링 주파수(Fs)로 리샘플된다. 제2 샘플링 주파수(Fs)는 플레이백 시스템(200)에서 디코딩된 오디오 데이터를 플레이(play)하기 위해 요구되는 샘플링 주파수이다. 제2 샘플링 주파수가 제1 샘플링 주파수보다 큰 경우, 디코딩된 오디오 데이터는 보간기(interpolator) (예를 들면 sinc 보간기(sinc interpolator))를 사용하여 업샘플된다. 제2 샘플링 주파수가 제1 샘플링 주파수보다 작은 경우, 디코딩된 오디오 데이터는 보간기의 조합(예를 들면 sinc 보간기) 및 데시메이터(decimator)를 사용하여 다운샘플된다.
도 5는 일실시에 따른 주파수 영역에서 인코딩된 오디오 비트스트림을 처리하는 예시적인 방법을 도시하는 프로세스 흐름도(500)이다. 리샘플링 비율이 리샘플링 임계 범위에 속하는 경우, 주파수 도메인 프로세싱 모듈(210)은 아래 단계에서 설명한 것처럼 주파수 도메인에서 인코딩된 오디오 비트스트림을 처리한다. 단계(502)에서, 제1 샘플링 주파수(fs)로 샘플되는 인코딩된 오디오 비트스트림은 역양자화된 스펙트럼 데이터(de-quantized spectral data)를 획득하기 위해 부분적으로 디코딩된다. 인코딩된 오디오 비트스트림을 부분적으로 디코딩하는 단계는, 역양자화된 스펙트럼 데이터를 획득하기 위해 디코딩된 오디오 비트스트림의 역양자화(inverse quantization)에 의해 이어지는 인코딩된 오디오 비트스트림에서 수행된다. 일부 실시예들에서, 부분적으로 디코딩될 때, 인코딩된 오디오 비트스트림은 역양자화된 MDCT(modified discrete cosine transform) 스펙트럼(예를 들면, 역양자화된 스펙트럼 데이터)을 산출한다.
단계(504)에서, 역양자화된 스펙트럼 데이터는 원하는 샘플링 주파수(예를 들면, 제2 샘플링 주파수(FS))에 이르기(attain)위해 리샘플링 비율에 기반하여 수정된다. 업샘플링의 경우, 역양자화된 스펙트럼 데이터는 일정한 값으로 역양자화된 스펙트럼 데이터를 패딩하는 것에 의해 수정된다. 다운샘플링의 경우, 프레임 당 출력 오디오 샘플이 프레임당 원하는 오디오 샘플의 정수배가 되도록 일정한 값으로 역양자화된 스펙트럼 데이터를 패딩하는 것에 의해 수정된다.
일실시예에 따르면, 역양자화된 MDCT 스펙트럼(Y(k))은, 프레임 당 원하는 오디오 샘플을 차례로 매칭(match)하는 대상 변환 사이즈(target transform size)와 매칭하기 위해 주파수 빈(frequency bins)(M)의 적절한 수로 수정된다. 수정된 역양자화된 MDCT 스펙트럼(Y(k))는 수학식 1과 같이 표현된다.
Figure pat00001
N은 역양자화된 MDCT 스펙트럼의 수정 전 주파수 빈의 수이고, M은 역양자화된 MDCT 스펙트럼의 수정 후 수이고, X(k)는 역양자화된 MDCT 스펙트럼이다.
역양자화된 MDCT 스펙트럼의 수정 후 요구되는 주파수 빈(M)의 수는 다음 수학식 2를 사용하여 계산 될 수 있다.
Figure pat00002
Figure pat00003
에서, fs는 인코딩된 오디오 비트스트림의 제1 샘플링 주파수이고, Fs는 플레이백 시스템(200)에 의해 지원되는 제2 샘플링 주파수이다.
단계(506)에서, 제2 샘플링 주파수(FS)를 가진 디코딩된 오디오 데이터가 출력되도록, 수정된 스펙트럼 데이터(modified spectral data)가 리샘플링 비율에 따라 합성된다. 일부 실시예들에서, 주파수 도메인 프로세싱 모듈(210)에 포함되는(reside) 오디오 디코더의 수정된 합성 필터뱅크(modified synthesis filterbank)를 사용하여 제2 샘플링 주파수를 가진 디코딩된 오디오 데이터를 출력하기 위해 수정된 스펙트럼 데이터가 합성된다. 단계(506)에서, IMDCT(inverse modified discrete cosine transform)를 사용하여 주파수 도메인으로부터 시간 도메인으로 수정된 스펙트럼 데이터가 변환된다. 수학식 3을 사용하여 주파수 도메인으로부터 시간 도메인으로 수정된 스펙트럼 데이터가 변환된다.
Figure pat00004
Figure pat00005
IMDCT 출력(x(n))은 리샘플링 비율을 기반하여 스케일(scale)된다. 스케일된 IMDCT 출력은 합성 윈도우 계수(synthesis window coefficient)를 사용하여 윈도윙(window)된다. 각 코덱 표준(codec standard)은 오디오 데이터의 완전한 복원(reconstruction)을 위해 블록 스위칭 메커니즘(block switching mechanism), 합성 윈도우 모양(synthesis window shape), 크기 및 특징을 정의한다. 코덱 표준에 기반하여, 합성 윈도우 계수(w(n))는, 특징이 코덱 표준을 준수하도록 오디오 프레임의 다른 사이즈(예를 들면, 프레임 당 오디오 샘플의 수)로 재디자인된다. 재디자인된 합성 윈도우 계수(w(n))는 아래 수학식 4에서 주어진 것과 같이 완전한 복원을 위해 프린슨-브래들리(Princen-Bradley) 조건을 만족시킨다.
Figure pat00006
스케일된 IMDCT 출력은 다음의 수학식 5에 기반하는 적절한 합성 윈도우 계수를 사용하여 윈도윙된다.
Figure pat00007
오디오 프로세싱 모듈(204)은 런-타임(run-time)에서 리샘플링 비율에 기반하는 합성 윈도우 계수를 이끌어 낼 수 있다. 대안적으로, 오디오 프로세싱 모듈(204)은 다양한 리샘플링 비율에 대한 합성 윈도우 계수를 저장하는 룩업 테이블(lookup table)로부터 리샘플링 비율에 기반하는 합성 윈도우 계수를 획득할 수 있다.
윈도윙 동작 후에, 윈도우된 IMDCT 출력의 현재 프레임의 오디오 샘플들은, 시간 도메인 앨리어싱 효과(aliasing effect)를 상쇄시키기(cancel) 위해 미리 정해진 값(예를 들면, 50 퍼센트)에 의해 윈도윙된 IMDCT 출력의 이전 프레임 오디오 샘플로 추가되는 오버랩이다. 오버랩 추가로부터 획득되는 오디오 샘플(u(n))은 아래의 수학식 6으로 주어진다.
Figure pat00008
Figure pat00009
은 2M 윈도윙된 오디오 샘플의 현재의 프레임이고,
Figure pat00010
은 2M 윈도윙된 오디오 샘플의 이전 프레임이다.
역양자화된 스펙트럼 데이터가 다운샘플되는 경우, 윈도윙된 및 오버랩된 오디오 샘플은 리샘플링 비율에 따라 프레임 당 요구되는 오디오 샘플의 수를 획득하기 위해서 데시메이트(decimate)된다. 윈도윙되는 오버랩된 오디오 샘플(windowed overlapped audio sample)(u(n))의 데시메이팅 후에 획득되는 프레임 당 오디오 샘플(y(n))은 수학식 7과 같다.
Figure pat00011
업샘플링 경우에 대해, i = 1이후, 프레임 당 출력 오디오 샘플(y(n))은 윈도윙된 및 오버랩된 오디오 샘플과 동일하다. 데시메이트된 출력 (y(n))은 원하는 샘플링 주파수(Fs)와 매칭하기 위해 오디오 샘플의 수를 요구한다.
도 6은 하나 이상의 실시예에 따른 플레이백 시스템(200)의 예를 도시한다. 여기에서 포함되는 개념의 어떤 실시예들의 적합한 컴퓨팅 환경의 간단하고 일반적인 설명을 제공하기 위해 의도되는 도 6 및 다음의 설명이 구현될 수 있다.
플레이백 시스템(200)은 프로세서(602), 메모리(604), 이동식 저장장치(removable storage)(606), 비이동식 저장장치(non-removable storage)(608)를 포함할 수 있다. 플레이백 시스템(200)은 버스(bus)(610) 및 네트워크 인터페이스(network interface)(612)를 추가적으로 포함한다. 플레이백 시스템(200)은 사용자 입력장치(user input device)(614), 하나 이상의 출력 장치(output device)(616), 및 네트워크 인터페이스 카드 또는 범용 직렬 버스 연결(universal serial bus connection)과 같은 하나 이상의 통신 연결(communication connection)(618)를 포함하거나 액세스(access)할 수 있다. 하나 이상의 사용자 입력장치(614)는 조이스틱, 트랙패드, 키패드, 터치에 민감한 디스플레이 화면 touch sensitive display screen) 등일 수 있다. 하나 이상의 출력장치(616)은 디스플레이, 스피커 등일 수 있다. 통신 연결(618)은 WAN(Wireless Area Network) 및 LAN( Local Area Network)과 같은 모바일 네트워크(mobile network)를 포함할 수 있다.
메모리(604)는 휘발성 메모리(volatile memory) 및/또는 컴퓨터 프로그램(620)을 저장하기 위한 비휘발성 메모리(non-volatile memory)를 포함할 수 있다. 다양한 컴퓨터가 판독 가능 저장 매체(computer-readable storage media)는 플레이백 시스템(200), 이동식 저장장치(606) 및 비이동식 저장장치(608)의 메모리 요소로부터 액세스되고 저장될 수 있다. 컴퓨터 메모리 요소는, ROM(read only memory), RAM(random access memory), 지울 수 있는 프로그래밍이 가능한 읽기 전용 메모리(erasable programmable read only memory), 전기적으로 지울 수 있는 프로그래밍이 가능한 읽기 전용 메모리 electrically erasable programmable read only memory), 하드 드라이브, 컴팩트 디스크를 핸들링하기 위한 이동식 저장 매체(removable media drive for handling compact disks), 디지털 비디오 디스크, 외장 하드 드라이브, 메모리 스틱, 메모리 카드 등과 같은 데이터 및 기계 판독 가능 명령을 저장하기 위한 적절한 메모리 장치를 포함할 수 있다.
여기에서 사용되는 프로세서(602)는, 마이크로프로세서, 마이크로컨트롤러, 복잡한 명령어 세트 컴퓨팅 마이크로프로세서(complex instruction set computing microprocessor), 축소된 명령 세트 컴퓨팅 마이크로프로세서(reduced instruction set computing microprocessor), VLIW 마이크로프로세서(very long instruction word microprocessor), 명시적 병렬 명령 컴퓨팅 마이크로프로세서(explicitly parallel instruction computing microprocessor), 그래픽 프로세서, 디지털 신호 프로세서, 또는 프로세싱 회로의 다른 유형 등과 같은 연산회로(computational circuit)의 유형을 의미하며, 이것으로 제한되지 않는다. 프로세서(602)는 또한 일반적인 또는 프로그램머블 로직 디바이스 또는 배열(generic or programmable logic devices or arrays), 어플리케이션 특정한 집적 회로(application specific integrated circuits), 단일 칩 컴퓨터, 스마트 카드 등과 같은 임베디드 컨트롤러(embedded controllers)를 포함할 수 있다.
실시예들은, 일을 수행하거나 ADT(abstract data types) 또는 저-레벨 하드웨어 컨텍스트(hardware context)를 정의하기 위해, 함수(function), 절차, 데이터 구조 및 어플리케이션 프로그램을 포함하는 프로그램 모듈과 함께 구현될 수 있다. 오디오 프로세싱 모듈(204)은 위에서 언급된 저장 매체에 컴퓨터가 판독 가능 명령의 형식으로 저장될 수 있고, 플레이백 시스템(200)의 프로세서(602)에 의해 실행된다. 예를 들면, 컴퓨터 프로그램(620)은 다양한 실시예들에 따라 오디오 데이터를 처리하기 위해 구성된 기계 판독 가능 명령(machine-readable instructions)을 포함한다.
실시예들은 구체적인 예시 실시예들을 참조하여 설명되었다. 더 나아가, 다양한 장치, 모듈, 선택 장치(selector), 측정 장치(estimator)와 같이 여기에서 설명된 것은, 하드웨어 회로, 예를 들어, 상보성 금속 산화물 반도체 기반의 논리 회로(complementary metal oxide semiconductor based logic circuitry), 펌웨어, 소프트웨어 및/또는 하드웨어의 모든 조합, 펌웨어, 및/또는 기계 판동 가능 매체에서 구현된 소프트웨어를 이용하여 동작되고 인에이블(enable)될 수 있다. 예를 들어, 다양한 전기적 구조 및 방법은 구체적 집적 회로 어플레케이션과 같은 전자 회로, 논리 게이트 및 트랜지스터를 이용하여 구현될 수 있다.

Claims (20)

  1. 주파수 도메인에서 오디오 데이터를 처리하는 방법에 있어서,
    역양자화된 스펙트럼 데이터를 획득하기 위해 인코딩된 오디오 비트스트림을 부분적으로 디코딩하는 단계 - 상기 인코딩된 오디오 비트 스트림은 제1 샘플링 주파수로 샘플됨-;
    리샘플링 비율에 기반하여 상기 역양자화 스펙트럼 데이터를 수정하는 단계; 및
    제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하는 단계
    를 포함하는 오디오 데이터를 처리하는 방법.
  2. 제1항에 있어서,
    상기 리샘플링 비율에 기반하여 상기 역양자화 스펙트럼 데이터를 수정하는 단계는,
    상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 큰 경우, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하는 단계
    를 포함하는 오디오 데이터를 처리하는 방법.
  3. 제1항에 있어서,
    상기 리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정하는 단계는,
    제2 샘플링 주파수가 제1 샘플링 주파수보다 작은 경우, 상기 역양자화된 스펙트럼 데이터의 패딩 후에 획득되는 프레임 당 오디오 샘플이 프레임 당 원하는 오디오 샘플의 정수 배가 되도록, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하는 단계
    를 포함하는 오디오 데이터를 처리하는 방법.
  4. 제2항 또는 제3항에 있어서,
    상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하는 단계는,
    IMDCT(inverse modified discrete cosine transform)을 사용하여 주파수 도메인으로부터 시간 도메인으로 상기 수정된 스펙트럼 데이터를 변환하여 IMDCT 출력 데이터를 생성하는 단계;
    상기 리샘플링 비율에 기반하여 상기 IMDCT 출력 데이터의 스케일링을 수행하는 단계;
    상기 리샘플링 비율에 대응하는 합성 윈도우 계수를 사용하여 상기 스케일된 IMDCT 출력 데이터을 윈도윙하는 단계; 및
    상기 윈도우된 IMDCT 출력 데이터의 현재 프레임의 오디오 샘플 및 상기 윈도우된 IMDCT 출력 데이터의 이전 프레임 오디오 샘플 간에 미리 정해진 크기의 오버랩을 추가하는 단계
    를 포함하는 오디오 데이터를 처리하는 방법.
  5. 제4항에 있어서,
    상기 윈도우된 IMDCT 출력 데이터의 현재 프레임의 오디오 샘플 및 상기 윈도우된 IMDCT 출력 데이터의 이전 프레임 오디오 샘플 간에 미리 정해진 크기의 오버랩을 추가하는 단계는,
    상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 작은 경우, 상기 리샘플링 비율에 따라 프레임 당 필요한 오디오 샘플의 수를 획득하기 위해 상기 오버랩되는 오디오 샘플을 데시메이팅하는 단계
    를 더 포함하는 오디오 데이터를 처리하는 방법.
  6. 프로세서; 및
    상기 프로세서에 커플링된 메모리
    를 포함하고,
    상기 메모리는,
    역양자화된 스펙트럼 데이터를 획득하기 위해 제1 샘플링 주파수로 샘플된 인코딩된 오디오 비트스트림을 부분적으로 디코딩하고,
    리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정하고,
    제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하도록
    구성되는 오디오 프로세싱 모듈을 포함하는 장치.
  7. 오디오 데이터를 처리하는 방법에 있어서,
    제1 샘플링 주파수로 샘플되는 인코딩된 오디오 비트스트림의 리샘플링 비율을 계산하는 단계;
    상기 리샘플링 비율이 리샘플링 임계값 범위를 벗어난 경우, 제2 샘플링 주파수로 샘플링 오디오 데이터를 재생하기 위해 시간 도메인에서 상기 인코딩된 오디오 비트스트림을 처리하는 단계; 및
    상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 상기 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 주파수 도메인에서 상기 인코딩된 오디오 비트스트림을 처리하는 단계
    를 포함하는 오디오 데이터를 처리하는 방법.
  8. 제7항에 있어서,
    상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 주파수 도메인에서 상기 인코딩된 오디오 비트스트림을 처리하는 단계는,
    역양자화된 스펙트럼 데이터를 획득하기 위해 상기 인코딩된 오디오 비트스트림을 부분적으로 디코딩하는 단계;
    상기 리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정하는 단계; 및
    상기 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하는 단계
    를 포함하는 오디오 데이터를 처리하는 방법.
  9. 제8항에 있어서,
    상기 리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정하는 단계는,
    상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 큰 경우, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하는 단계
    를 포함하는 오디오 데이터를 처리하는 방법.
  10. 제8항에 있어서,
    상기 리샘플링 비율에 따라 상기 역양자화된 스펙트럼 데이터를 수정하는 단계는,
    상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 작은 경우, 상기 역양자화된 스펙트럼 데이터의 패딩 후에 획득되는 프레임당 오디오 샘플이 프레임당 원하는 오디오 샘플의 정수 배가 되도록, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하는 단계
    를 포함하는 오디오 데이터를 처리하는 방법.
  11. 제9항 또는 제10항에 있어서,
    상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하는 단계는,
    IMDCT(inverse modified discrete cosine transform)을 사용하여 주파수 도메인으로부터 시간 도메인으로 상기 수정된 스펙트럼 데이터를 변환하여 IMDCT 출력 데이터를 생성는 단계;
    상기 리샘플링 비율에 따라 상기 IMDCT 출력 데이터의 스케일링을 수행하는 단계;
    상기 리샘플링 비율에 대응하는 합성 윈도우 계수를 사용하여 상기 스케일링을 IMDCT을 윈도윙하는 단계; 및
    상기 윈도우된 IMDCT 출력 데이터의 현재 프레임의 오디오 샘플 및 상기 윈도우된 IMDCT 출력 데이터의 이전 프레임 오디오 샘플 간에 미리 정해진 크기의 오버랩을 추가하는 단계
    를 포함하는 오디오 데이터를 처리하는 방법.
  12. 제11항에 있어서,
    상기 윈도우된 IMDCT 출력 데이터의 현재 프레임의 오디오 샘플 및 상기 윈도우된 IMDCT 출력 데이터의 이전 프레임 오디오 샘플 간에 미리 정해진 크기의 오버랩을 추가하는 단계는,
    상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 작은 경우, 상기 리샘플링 비율에 따라 프레임당 필요한 오디오 샘플의 수를 획득하기 위해 상기 오버랩되는 오디오 샘플을 데시메이팅하는 단계
    를 더 포함하는 오디오 데이터를 처리하는 방법.
  13. 프로세서; 및
    상기 프로세서에 커플링된 메모리
    를 포함하고,
    상기 메모리는,
    제1 샘플링 주파수로 샘플되는 인코딩된 오디오 비트스트림의 리샘플링 비율을 계산하고,
    상기 리샘플링 비율이 리샘플링 임계값 범위를 벗어난 경우, 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 시간 도메인에서 상기 인코딩된 오디오 비트스트림을 처리하고,
    상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 상기 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 주파수 도메인에서 상기 인코딩된 오디오 비트스트림을 처리하도록
    구성되는 오디오 프로세싱 모듈을 포함하는 장치.
  14. 제13항에 있어서,
    상기 오디오 프로세싱 모듈은,
    상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 주파수 도메인에서 상기 인코딩된 오디오 비트 스트림을 처리할 때,
    역양자화된 스펙트럼 데이터를 획득하도록 상기 인코딩된 오디오 비트스트림을 부분적으로 디코딩하고,
    상기 리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정하고,
    상기 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하도록
    구성되는 장치.
  15. 제14항에 있어서,
    상기 오디오 프로세싱 모듈은,상기 리샘플링 비율에 기반하여 상기 역양자화된 스펙트럼 데이터를 수정할 때,
    상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 큰 경우, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하도록
    구성되는 장치.
  16. 제14항에 있어서,
    상기 오디오 프로세싱 모듈은,
    상기 리샘플링 비율에 기반하여 상기 역양자화 스펙트럼 데이터를 수정할 때,
    제2 샘플링 주파수가 제1 샘플링 주파수보다 작은 경우, 상기 역양자화된 스펙트럼 데이터의 패딩 후에 획득되는 프레임당 오디오 샘플이 프레임당 원하는 오디오 샘플의 정수 배가 되도록, 상기 리샘플링 비율에 기반하여 일정한 값으로 상기 역양자화된 스펙트럼 데이터를 패딩하도록
    구성되는 장치.
  17. 제15항 또는 제16항에 있어서,
    상기 오디오 프로세싱 모듈은,
    상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성할 때,
    IMDCT(inverse modified discrete cosine transform)을 사용하여 주파수 도메인으로부터 시간 도메인으로 상기 수정된 스펙트럼 데이터를 변환하여 IMDCT 출력 데이터를 생성하고,
    상기 리샘플링 비율에 기반하여 상기 IMDCT 출력 데이터의 스케일링을 수행하고,
    상기 리샘플링 비율에 대응하는 합성 윈도우 계수를 사용하여 상기 스케일된 IMDCT을 윈도윙하고,
    상기 윈도우된 IMDCT 출력 데이터의 현재 프레임의 오디오 샘플 및 상기 윈도우된 IMDCT 출력 데이터의 이전 프레임 오디오 샘플 간에 미리 정해진 크기의 오버랩을 추가하도록
    구성되는 장치.
  18. 제17항에 있어서,
    상기 오디오 프로세싱 모듈은,
    상기 제2 샘플링 주파수가 상기 제1 샘플링 주파수보다 작은 경우, 상기 리샘플링 비율에 따라 프레임 당 필요한 오디오 샘플의 수를 획득하기 위해 상기 오버랩되는 오디오 샘플을 데시메이팅하도록
    구성되는 장치.
  19. 컴퓨터 판독 가능 저장 매체에 있어서,
    제1 샘플링 주파수로 샘플된 인코딩된 오디오 비트스트림의 리샘플링 비율을 계산하는 단계;
    상기 리샘플링 비율이 리샘플링 임계값 범위를 벗어난 경우, 제2 샘플링 주파수로 샘플링 오디오 데이터를 재생하기 위해 시간 도메인에서 상기 인코딩된 오디오 비트 스트림을 처리하는 단계; 및
    상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 주파수 도메인에서 상기 인코딩된 오디오 비트 스트림을 처리하는 단계
    를 포함하는 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 저장 매체.
  20. 제19항에 있어서,
    상기 리샘플링 비율이 상기 리샘플링 임계값 범위에 속하는 경우, 주파수 도메인에서 상기 인코딩된 오디오 비트 스트림을 처리하는 단계는,
    역양자화된 스펙트럼 데이터를 획득하도록 상기 인코딩된 오디오 비트스트림을 부분적으로 디코딩하는 단계;
    리샘플링 비율에 기반하여 상기 역양자화 스펙트럼 데이터를 수정하는 단계; 및
    상기 제2 샘플링 주파수로 샘플된 오디오 데이터를 재생하기 위해 상기 리샘플링 비율에 따라 상기 수정된 스펙트럼 데이터를 합성하는 단계
    를 포함하는 컴퓨터 판독 가능 저장 매체.
KR1020130087618A 2012-07-24 2013-07-24 오디오 데이터를 처리하기 위한 방법 및 장치 KR20150012146A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/949,592 US10083699B2 (en) 2012-07-24 2013-07-24 Method and apparatus for processing audio data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN3025/CHE/2012 2012-07-24
IN3025CH2012 2012-07-24

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020200131399A Division KR20200123395A (ko) 2012-07-24 2020-10-12 오디오 데이터를 처리하기 위한 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20150012146A true KR20150012146A (ko) 2015-02-03

Family

ID=49995709

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020130087618A KR20150012146A (ko) 2012-07-24 2013-07-24 오디오 데이터를 처리하기 위한 방법 및 장치
KR1020200131399A KR20200123395A (ko) 2012-07-24 2020-10-12 오디오 데이터를 처리하기 위한 방법 및 장치
KR1020210118154A KR20210114358A (ko) 2012-07-24 2021-09-06 오디오 데이터를 처리하기 위한 방법 및 장치

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020200131399A KR20200123395A (ko) 2012-07-24 2020-10-12 오디오 데이터를 처리하기 위한 방법 및 장치
KR1020210118154A KR20210114358A (ko) 2012-07-24 2021-09-06 오디오 데이터를 처리하기 위한 방법 및 장치

Country Status (2)

Country Link
US (1) US10083699B2 (ko)
KR (3) KR20150012146A (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI557727B (zh) * 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
WO2017125559A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling
US11295726B2 (en) * 2019-04-08 2022-04-05 International Business Machines Corporation Synthetic narrowband data generation for narrowband automatic speech recognition systems

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5982305A (en) * 1997-09-17 1999-11-09 Microsoft Corporation Sample rate converter
EP0957579A1 (en) * 1998-05-15 1999-11-17 Deutsche Thomson-Brandt Gmbh Method and apparatus for sampling-rate conversion of audio signals
US6275836B1 (en) * 1998-06-12 2001-08-14 Oak Technology, Inc. Interpolation filter and method for switching between integer and fractional interpolation rates
US6873650B1 (en) * 2000-06-30 2005-03-29 Agere Systems Inc. Transmission rate compensation for a digital multi-tone transceiver
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US7251322B2 (en) * 2003-10-24 2007-07-31 Microsoft Corporation Systems and methods for echo cancellation with arbitrary playback sampling rates
DE602004026401D1 (de) * 2004-02-24 2010-05-20 Accent S P A Verfahren zur Implementierung eines Abtastratenumsetzers mit rationalem Umsetzungsfaktor (FSRC) und entsprechende Architektur
US7610195B2 (en) * 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
US8369973B2 (en) * 2008-06-19 2013-02-05 Texas Instruments Incorporated Efficient asynchronous sample rate conversion
JP5635502B2 (ja) * 2008-10-01 2014-12-03 ジーブイビービー ホールディングス エス.エイ.アール.エル. 復号装置、復号方法、符号化装置、符号化方法、及び編集装置
US8117039B2 (en) * 2008-12-15 2012-02-14 Ericsson Television, Inc. Multi-staging recursive audio frame-based resampling and time mapping
US8467891B2 (en) * 2009-01-21 2013-06-18 Utc Fire & Security Americas Corporation, Inc. Method and system for efficient optimization of audio sampling rate conversion
RU2493618C2 (ru) * 2009-01-28 2013-09-20 Долби Интернешнл Аб Усовершенствованное гармоническое преобразование
TWI443646B (zh) * 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
JP2012108254A (ja) * 2010-11-16 2012-06-07 Toshiba Corp 音声フォーマット変換装置および音声フォーマット変換方法

Also Published As

Publication number Publication date
KR20210114358A (ko) 2021-09-23
US20140032226A1 (en) 2014-01-30
US10083699B2 (en) 2018-09-25
KR20200123395A (ko) 2020-10-29

Similar Documents

Publication Publication Date Title
KR20210114358A (ko) 오디오 데이터를 처리하기 위한 방법 및 장치
RU2547220C2 (ru) Устройство и способ для генерирования высокочастотного аудиосигнала с применением адаптивной избыточной дискретизации
CA3008914C (en) Improved subband block based harmonic transposition
RU2607230C2 (ru) Адаптация взвешивающих окон анализа или синтеза для кодирования или декодирования путем преобразования
EP3257173B1 (en) Multi-rate system for audio processing
JP2021177259A (ja) 高調波転換
JP2007520748A (ja) 複素値データを用いたオーディオ信号の復号
CA2749239A1 (en) Improved harmonic transposition
EP1903558B1 (en) Audio signal interpolation method and device
CA3160758A1 (en) Complex exponential modulated filter bank for high frequency reconstruction or parametric stereo
CN102576537B (zh) 用于处理音频信号的方法和装置
TW200926146A (en) Efficient design of MDCT/IMDCT filterbanks for speech and audio coding applications
EP1074020B1 (en) System and method for efficient time-domain aliasing cancellation
JPWO2008066071A1 (ja) 復号化装置および復号化方法
US20170270939A1 (en) Efficient Sample Rate Conversion
AU2020201570B2 (en) Complex Exponential Modulated Filter Bank for High Frequency Reconstruction or Parametric Stereo
KR102068464B1 (ko) 고 주파수 재구성 또는 파라메트릭 스테레오를 위한 복소 지수 변조 필터 뱅크
AU2022418124A1 (en) Ivas spar filter bank in qmf domain
AU2024200616A1 (en) Complex Exponential Modulated Filter Bank for High Frequency Reconstruction or Parametric Stereo
JP2009063948A (ja) 復号方法、プログラム、電子回路、電子機器及び復号回路

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination
A107 Divisional application of patent