KR100992675B1 - 오디오 부호화 및 복호화 방법과 그 장치 - Google Patents

오디오 부호화 및 복호화 방법과 그 장치 Download PDF

Info

Publication number
KR100992675B1
KR100992675B1 KR1020080040106A KR20080040106A KR100992675B1 KR 100992675 B1 KR100992675 B1 KR 100992675B1 KR 1020080040106 A KR1020080040106 A KR 1020080040106A KR 20080040106 A KR20080040106 A KR 20080040106A KR 100992675 B1 KR100992675 B1 KR 100992675B1
Authority
KR
South Korea
Prior art keywords
matrix
frame
masking curve
original
base matrix
Prior art date
Application number
KR1020080040106A
Other languages
English (en)
Other versions
KR20090068100A (ko
Inventor
김민제
백승권
이태진
장대영
강경옥
홍진우
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20090068100A publication Critical patent/KR20090068100A/ko
Application granted granted Critical
Publication of KR100992675B1 publication Critical patent/KR100992675B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Analysis (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오 부호화 및 복호화 방법과 그 장치에 관한 것으로 시간영역의 오디오 프레임을 주파수 영역으로 변환하는 주파수 변환부; 기설정한 수의 주파수 영역의 오디오 프레임에 대응하는 원본행렬을 차원축소하여 기저행렬과 가중치 행렬을 구하는 차원 축소부; 및, 상기 기저행렬을 양자화 하는 양자화부를 포함한다.
차원 축소, 오디오 복호화, 오디오 부호화

Description

오디오 부호화 및 복호화 방법과 그 장치{METHOD AND APPARATUS FOR ENCODING AND DECODING AUDIO DATA}
본 발명은 오디오 부호화 및 복호화 방법과 그 장치에 관한 것으로, 특히, 주파수 영역에서 표현된 오디오 신호를 차원 축소 방법으로 압축하여 표현함으로서 오디오 부호화 효율을 증대시키는 오디오 부호화 및 복호화 방법과 그 장치에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2007-S-005-01, 과제명: AV 코덱 고도화를 통한 리치미디어 방송 기술 개발].
현존 오디오 부호화 기술은 시간 영역 신호를 주파수 영역으로 변환하여 표현함으로써 부호화 이득을 취하고 있다. 현재의 오디오 코딩 기술에서 주로 사용되는 방식에는 크게 필터 뱅크를 이용하는 방식과 블록 변환 방식이 있다.
먼저 필터 뱅크 방식을 살펴보면, 필터 뱅크의 기본적인 방식은 시간 영역 신호를 필터 뱅크에 통과시킴으로써 다수(K)개의 주파수 밴드로 분해하는 것이다. 이후 각각의 주파수 밴드 별 신호가 제한된 비트 수에 의해 양자화된다. 이 과정에서 대부분의 양자화 잡음은 심리음향모델을 통해 얻어진 마스킹 정보를 고려하여 가장 들리지 않는 주파수 밴드에 할당한다. 양자화된 신호는 복호화기로 보내지며, 이곳에서 주파수 밴드 별로 복호화된 신호는 전대역 신호를 복원하기 위해 합쳐진다. K개의 병렬적 밴드를 사용하는 이 방식에서의 가장 큰 문제점은, 밴드 별로 분할하면서 데이터 양이 K배로 늘어난다는 점이고, 이 문제점을 해소하기 위해 밴드별로 K 샘플마다 하나씩만의 샘플을 취하는 하향 샘플링(down sampling) 방식을 적용해야 하며, 이 과정에서 손실되는 표본 추출 비율(sampling rate)를 보전하기 위해 복호화 단계에서 반대로 상향 샘플링(up sampling)을 수행해야 한다.
다음으로 블록 변환 방식을 살펴보면, 블록 변환 방식과 필터 뱅크 방식은 서로 다른 발전 과정을 거쳐왔지만, 내부적인 기본 방식은 동일한 알고리즘이라고 볼 수 있다. 두 방식의 가장 큰 차이는 블록 변환 방식이 더 많은 수의 밴드를 사용한다는 점이다. 이러한 차이점에 의해 많은 개수의 주파수 채널을 사용하는 오디오 부호화기들(MPEG AAC, Dolby AC-2와 AC-3, AT&T/Lucent PAC 등)은 블록 변환 방식을 사용한다.
그러면, 블록 변환 방식의 대표적인 방식인 이산 퓨리에 변환(DFT: Discrete Fourier Transform)를 살펴보고자 한다. DFT는 밴드 별로 제한된 신호에 대해서는 표본 추출 비율이 최대 주파수의 2배 이상이 된다면 이산적 신호 샘플로 표현할 수 있다. 반대로, 시간 도메인에서 제한이 있는 신호는 이산적인 주파수 샘 플을 이용하여 완전히 표현할 수 있다. 시간/주파수 영역 모두에서 제한이 있는 신호는 시간/주파수 영역에서 모두 이산적으로 표현할 수 있다는 점을 이용하면, 퓨리에 변환을 이산 샘플로 표현할 수 있게 된다
다음은, 블록 변환 방식의 다른 방식인 수정 이산 코사인 변환(MDCT: Modified Discrete Cosine Transform)을 살펴보고자 한다. 블록 변환 부호화 과정에서는 블록 처리에 의한 잡음을 막기 위해 overlap-and-add 방식을 사용하는데, MDCT는 이 때 필연적으로 발생되는 데이터량 증가 문제를 해소하면서도 여전히 블록 변환을 가능하게 해 주는 장점이 있다. 이는 시간 영역 데이터 샘플을 프레임 크기의 절반인 N/2만큼씩 취하여 overlap-and-add에서의 왼쪽 윈도우와 오른쪽 윈도우의 필터 역할을 동시에 수행해주는 방식이다.
한편, 오디오 코딩에서는 주파수 영역으로 변환된 신호에 대해 청각적인 지각의 특성을 이용하여 부호화 효율을 높인다. 이는 청각적으로 인지할 수 없는 신호를 부호화(양자화)에서 배제함으로써 부호화 효율을 높이는 방식이다. 심리음향모델이서 사용되고 있는 청각 특성은 세 가지 정도로 요악할 수 있다.
먼저 심리음향모델이서 사용되고 있는 청각 특성에 하나인 절대 가청 한계(absolute threshold)는 주파수 별로 사람의 귀가 인지할 수 있는 최소한의 소리의 세기를 말한다. 이 세기보다 작은 신호는 들리지 않으므로 양자화 과정에서 무시할 수 있게 된다. 또는 양자화 과정에서 발생하는 양자화 잡음이 이 한계보다 작은 세기를 가진다면 들리지 않는 잡음이므로 이를 수용함으로써 양자화 효율을 높일 수 있다.
다음으로 심리음향모델이서 사용되고 있는 청각 특성 중 하나인 임계 대역(critical bands)에 대해 살펴보고자 한다. 사람의 청각은 주파수의 분해능에 한계가 있기 때문에 아주 비슷한 주파수를 가지는 두 신호를 구분하지 못한다. 이렇게 실제로는 다른 주파수이지만 사람의 청각이 차이를 느끼지 못하는 주파수 간의 차이폭을 임계대역이라고 한다.
마지막으로 심리음향모델이서 사용되고 있는 청각 특성 중 하나인 마스킹(masking)은 일반적으로 세기가 큰 신호(masker)와 시간 또는 주파수적으로 비슷한 위치에 있는 작은 신호(maskee)가 청각적으로 인지할 수 없게 되는 현상을 말한다. 오디오 부호화에 주로 사용되는 마스킹은 인접 주파수 영역의 신호간에 벌어지는 동시 마스킹 현상이며, 이를 이용하면 절대 가청 한계와 더불어, 실제로 감지할 수 없는 소리 세기 영역이 커지므로, 보다 덜 정밀한 양자화가 가능하고 이는 비트 전송률의 감소로 이어진다.
상기 시간-주파수영역 변환 방식 및 유사 주파수 영역 변환 방식은 추후 심리음향모델을 통해 얻어진 마스킹 커브를 이용하여 동적 비트 할당을 받음으로써 양자화시 데이터 압축 효과를 얻을 수 있다. 그러나 심리음향모델과는 별개로, 데이터 자체가 가지고 있는 중복성을 제거하는 시도는 이루어지지 않고 있다.
본 발명은 상기와 같은 종래 기술을 개선하기 위해 안출된 것으로서, 오디오 부호화 및 복호화 방법과 그 장치를 제공하는 것을 목적으로 한다.
본 발명의 다른 목적은 주파수 영역에서 표현된 오디오 신호를 차원 축소 방법으로 압축하여 부호화하고, 이를 복호화 하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 또 다른 목적은 주파수 영역에서 표현된 오디오 신호를 차원 축소 방법으로 압축하고, 차원 축소한 오디오 신호의 마스킹 곡선을 최적화 하여 부호화하고, 이를 복호화 하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기한 목적들을 달성하기 위한 본 발명의 제 1 견지에 따르면, 오디오 부호화 장치는, 시간영역의 오디오 프레임을 주파수 영역으로 변환하는 주파수 변환부; 기설정한 수의 주파수 영역의 오디오 프레임에 대응하는 원본행렬을 차원축소하여 기저행렬과 가중치 행렬을 구하는 차원 축소부; 및, 상기 기저행렬을 양자화 하는 양자화부를 포함한다.
상기한 목적들을 달성하기 위한 본 발명의 제 2 견지에 따르면, 오디오 복호화 장치는, 비트 스트림을 수신하여 기저행렬, 가중치 행렬 및 잔차신호를 추출하는 분석부; 상기 기저행렬과 상기 가중치 행렬을 내적 연산하여 근사 프레임을 생성하는 근사 프레임 생성부; 상기 근사 프레임에 상기 잔차신호를 더하여 원본 프레임을 복원하는 원본 프레임 복원부; 및, 복원한 상기 원본 프레임을 시간영역으로 변환하는 시간영역 변환부를 포함한다.
상기한 목적들을 달성하기 위한 본 발명의 제 3 견지에 따르면, 오디오 부호화 방법은, 시간영역의 오디오 프레임을 수신하면 이를 주파수 영역으로 변환하는 단계; 기설정한 수의 주파수 영역으로 변환된 오디오 프레임에 대응하는 원본행렬을 차원축소하여 기저행렬과 가중치 행렬을 구하는 단계; 및, 상기 기저행렬을 양자화 하는 단계를 포함한다.
상기한 목적들을 달성하기 위한 본 발명의 제 4 견지에 따르면, 오디오 복호화 방법은, 비트 스트림을 수신하는 단계; 상기 비트 스트림에서 기저행렬, 가중치 행렬 및 잔차신호를 추출하는 단계; 상기 기저행렬과 상기 가중치 행렬을 내적 연산하여 근사 프레임을 생성하는 단계; 상기 근사 프레임에 상기 잔차신호를 더하여 원본 프레임을 복원하는 단계; 및, 복원한 상기 원본 프레임을 시간영역으로 변환하는 단계를 포함한다.
기타 실시 예들의 구체적인 사항들은 상세한 설명 및 첨부 도면들에 포함되어 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.
상술한 바와 같이, 본 발명은 시간영역의 오디오 프레임을 수신하면 이를 주파수 영역으로 변환하는 주파수 변환부; 주파수 영역으로 변환된 오디오 프레임을 저장하는 버퍼; 상기 버퍼에 저장된 기설정한 수의 오디오 프레임을 원본행렬로 하여 차원축소를 통해 기저행렬과 가중치 행렬을 구하는 차원 축소부; 및, 상기 기저행렬을 양자화 하는 양자화부를 포함하는 오디오 부호화 및 복호화 방법과 그 장치에 관한 것으로, 차원 축소한 주파수 영역 신호 표현으로 인해 오디오 신호 부호화 장치의 부호화 이득을 향상시키는 효과가 있다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 그리고 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 발명은 주파수 영역에서 표현된 오디오 신호를 차원 축소 방법으로 압축하고, 차원 축소한 오디오 신호의 마스킹 곡선을 최적화 하여 부호화하고, 이를 복호화 하는 오디오 부호화 및 복호화 방법과 그 장치에 관한 것이다.
본 발명의 상세한 설명에 앞서 본 발명에서 사용하는 차원축소에 관해서 아래의 도 1을 참조하여 설명하고자 한다.
도 1은 본 발명의 일 실시 예에 따른 오디오 신호를 행렬의 곱 형식으로 차원축소 하는 경우를 도시한 도면이다. 상기 도 1을 참조하면, 차원 축소는 N*M으로 이루어진 원본행렬(100)을 특정한 조건을 바탕으로 N*R로 이루어진 기저행렬(110)과 R*M으로 이루어진 가중치 행렬(120)의 곱으로 표현한다. 이 때, R은 주로 N, M 보다 작은 값으로 지정이 되게 되며, 차원 축소 알고리즘 별 특정한 조건 및 R의 크기에 따라 원본 행렬을 얼마나 잘 복원할 수 있는지가 결정된다. 차원 축소 알고리즘은 특정 행렬로 표현된 데이터를 좀 더 작은 데이터 량으로 표현하는 것뿐만 아니라, 이 과정에서 데이터에 내재되어 있는 추상적인 정보까지도 함축적으로 얻어낼 수 있기 때문에, 데이터의 압축에 좋은 성능을 보인다.
차원 축소는 그 제한 조건에 따라 다양한 결과와 데이터에 따른 성능 차이를 보인다. 주요 알고리즘으로는, 주성분분석(PCA: Principle Component Analysis), 독립성분분석(ICA: Independent Component Analysis), 비음성 행렬 인수분해(NMF: Non-negative Matrix Factorization) 등이 있다.
그러면 본 발명의 부호화 장치와 복호화 장치를 아래에서 도 2와 도 3을 참 조하여 설명하고자 한다.
도 2는 본 발명의 일 실시 예에 따른 오디오 신호를 차원 축소하여 부호화하는 부호화 장치를 도시한 도면이다. 상기 도 2를 참조하면, 본 발명의 부호화 장치는 주파수 변환부(201), 버퍼(203), 차원 축소부(205), 마스킹 도출부(207), 마스킹 곡선 최적화부(209), 양자화부(211) 및, 비트 스트림 생성부(213)를 포함한다.
주파수 변환부(201)는 시간영역의 오디오 프레임을 수신하면 이를 주파수 영역으로 변환하여 버퍼(203)에 저장한다. 버퍼(203)는 주파수 변환부(201)에서 제공하는 주파수 영역으로 변환된 오디오 프레임을 저장하고 기설정한 수의 오디오 프레임 단위로 차원 축소부(205)와 마스킹 도출부(207)로 제공한다.
차원 축소부(205)는 버퍼(203)로부터 기설정한 수의 주파수 영역으로 변환된 오디오 프레임을 수신하여 주파수 영역의 밴드 개수(N)를 행으로 하고 오디오 프레임의 개수(M)를 열로 하는 원본행렬(N*M)로 하고, 차원 축소를 통하여 원본 행렬로부터 기저행렬과 가중치 행렬을 구한다. 또한 차원 축소부(205)는 기저행렬과 가중치 행렬의 내적을 통해 근사치 행렬을 구하고 원본 행렬과 근사치 행렬의 차를 잔차신호로서 양자화부(211)로 제공한다.
마스킹 도출부(207)는 버퍼(203)로부터 기설정한 수의 주파수 영역으로 변환된 오디오 프레임을 수신하여 주파수 영역의 각 프레임 별로 마스킹 곡선을 도출하여 마스킹 곡선 최적화부로 제공한다.
마스킹 곡선 최적화부(209)는 기저행렬의 마스킹 곡선을 도출하고 가충치 행렬과의 내적을 통해 각 프레임별 근사치 행렬을 구한다. 이후, 마스킹 곡선 최적화부(209)는 근사치 행렬의 각 프레임별 마스킹 곡선과 마스킹 도출부(207)에서 도출한 원본 행렬의 각 프레임별 마스킹 곡선과 비교하여 이를 수정한다. 마스킹 곡선 최적화부(209)는 위의 수정을 각 프레임별로 순차적으로 누적하여 마스킹 곡선을 최적화 한다. 마스킹 곡선의 최적화에 대한 상세한 설명은 이후 도 5를 참조하여 후술하고자 한다.
양자화부(211)는 차원축소를 통해 구한 기저 행렬과 가중치 행렬을 최적화한 마스킹 곡선을 고려하여 양자화한다. 또한, 양자화부(211)는 차원 축소부(205)에서 구한 잔차신호를 잡음신호 특성을 고려하여 양자화 한다. 이때 잡음신호를 고려한 양자화란 잡음신호의 중요도는 낮기 때문에 신호를 표현하는 비트를 적게 할당하도록 설정하여 양자화 함을 뜻한다.
비트 스트림 생성부(213)는 양자화부(211)로부터 수신하는 양자화된 기저행렬과 가중치 행렬과 잔차신호를 비트 스트림으로 생성하여 복호화기로 송신한다.
도 3은 본 발명의 일 실시 예에 따른 차원 축소된 오디오 신호를 복호화하는 복호화 장치를 도시한 도면이다. 상기 도 3을 참조하면, 본 발명의 복호화 장치는 분석부(301), 근사 프레임 생성부(303), 원본 프레임 복원부(305) 및, 시간영역 변환부(307)를 포함한다.
분석부(301)는 수신하는 비트 스트림을 분석하여 양자화된 기저행렬과 가중치 행렬을 추출하여 근사 프레임 생성부(303)로 제공한다. 또한, 분석부(301)는 수신하는 비트 스트림을 분석하여 양자화된 잔차신호를 추출하여 원본 프레임 복원 부(305)로 제공한다.
근사 프레임 생성부(303)는 제공받은 기저행렬과 가중치 행렬을 내적 연산하여 근사 프레임을 생성하여 원본 프레임 복원부(305)로 제공한다.
원본 프레임 복원부(305)는 근사 프레임 생성부(303)로부터 제공받은 근사 프레임에 분석부(301)로부터 제공받은 잔차신호를 더하여 원본 프레임으로 복원하여 시간영역 변환부(307)로 제공한다.
시간영역 변환부(307)는 원본 프레임 복원부(305)로부터 제공받는 주파수 영역의 원본 프레임을 시간영역으로 변환한다.
이하, 상기와 같이 구성된 본 발명에 따른 목적은 주파수 영역에서 표현된 오디오 신호를 차원 축소 방법으로 압축하여 부호화하고, 이를 복호화 하는 방법을 아래에서 도면을 참조하여 설명한다.
도 4는 본 발명의 일 실시 예에 따른 부호화 장치에서 오디오 신호를 차원축소하여 부호화하는 과정을 도시한 흐름도이다.
상기 도 4를 참조하면, 본 발명의 부호화 장치는 401단계에서 시간영역의 오디오 프레임을 수신하면, 403단계로 진행하여 주파수 영역으로 변환하여 버퍼에 저장한다.
이후, 부호화 장치는 405단계로 진행하여 주파수 영역으로 변환된 기설정한 수(M)의 오디오 프레임을 차원 축소를 통하여 원본 행렬(기설정한 수의 오디오 프레임)로부터 기저행렬과 가중치 행렬을 구한다.
또한, 부호화 장치는 405단계의 진행과 함께 407단계에서 원본 행렬인 기설정한 수(M)의 오디오 프레임 각각의 마스킹 곡선을 도출한다.
이후, 부호화 장치는 409단계로 진행하여 기저행렬의 마스킹 곡선을 도출하고 원본 행렬의 각 프레임별 마스킹 곡선을 이용하여 기저행렬을 마스킹 곡선을 최적화 한다. 마스킹 곡선의 최적화에 대한 상세한 설명은 이후 도 5를 참조하여 후술하고자 한다.
409단계 이후 부호화 장치는 411단계로 진행하여 차원축소를 통해 구한 기저 행렬과 가중치 행렬을 최적화한 마스킹 곡선을 고려하여 양자화한다.
한편, 405단계 이후 부호화 장치는 413단계로 진행하여 기저행렬과 가중치 행렬의 내적을 통해 근사치 행렬을 구하고, 원본 행렬과 근사치 행렬의 차를 잔차신호로 계산하고, 415단계로 진행하여 계산한 잔차신호를 잡음신호 특성을 고려하여 양자화 한다.
이후, 부호화 장치는 417단계로 진행하여 양자화된 기저행렬과 가중치 행렬과 잔차신호를 비트 스트림으로 생성하여 복호화기로 송신한다.
도 5는 본 발명의 일 실시 예에 따른 부호화 장치에서 차원 축소한 오디오 신호의 마스킹 곡선을 최적화하는 과정을 도시한 흐름도이다.
상기 도 5를 참조하면 본 발명의 부호화 장치는 501단계 기저행렬의 마스킹 곡선 최적화 이벤트 발생을 감지하면, 503단계로 진행하여 기저행렬별 마스킹 곡선을 도출한다.
이후, 부호화 장치는 505단계로 진행하여 도출 또는 수정한 마스킹 곡선을 이용하여 기저행렬을 양자화 하고, 507단계로 진행하여 가중치 행렬의 각 열들 중에서 최적화를 위해 내적 연산을 하지 않은 열중에서 첫번째 열을 이용하여 기저행렬과 내적하여 근사 프레임을 추정한다.
이후, 부호화 장치는 509단계로 진행하여 추정한 근사 프레임의 마스킹 곡선과 원본 행렬에서 해당 프레임의 마스킹 곡선과 비교하여 기저행렬의 마스킹 곡선을 수정한다.
이후, 부호화 장치는 511단계로 진행하여 가중치 행렬의 모든 열을 이용하여 기저행렬의 마스킹 곡선의 수정을 완료하였는지 확인한다.
511단계의 확인결과 가중치 행렬의 모든 열을 이용하여 마스킹 곡선을 수정하지 않았으면, 부호화 장치는 가중치 행렬의 모든 열을 이용하여 마스킹 곡선을 수정할 때까지 505단계에서 509단계를 반복 수행한다.
511단계의 확인결과 가중치 행렬의 모든 열을 이용하여 마스킹 곡선을 수정하였으면, 부호화 장치는 마스킹 곡선 최적화를 완료한다.
도 6은 본 발명의 일 실시 예에 따른 부호화 장치에서 차원 축소한 오디오 신호의 마스킹 곡선을 최적화하는 과정의 일 예를 행렬 형태로 도시한 도면이다.
상기 도 6은 기설정한 프레임 수가 4개인 원본 행렬을 차원축소 스케일을 R=2로 할 경우이다. 먼저 행렬(620)의 첫번째 열벡터를 이용한 마스킹 곡선의 최적화 과정을 도 6(a)를 통해 살펴보고자 한다.
먼저, (a)는 가중치 행렬(620)의 첫번째 열벡터를 이용한 마스킹 곡선의 최적화 과정을 도시한 도면이다. (a)를 참조하면, 기저 행렬(610)의 두 열벡터는 가 중치 행렬(620)의 첫번째 열벡터와의 내적을 통해 원본 행렬(600)의 첫번째 열벡터에 대한 근사치를 추정할 수 있다. 이 근사 열벡터(630)는 기저 행렬(610)에 의해 생성된 마스킹 곡선에 의해 동적으로 비트가 할당이 되면서 양자화되고, 이 양자화된 결과는 원본 행렬(600)의 첫번째 열벡터에서 얻은 마스킹 곡선과 비교된다. 근사치 열벡터(630)의 샘플값 중, 원본 행렬(600)의 첫번째 열벡터에서 얻은 마스킹 곡선을 벗어나는 양자화 잡음에 대해서는, 기저 행렬(610)의 각 마스킹 곡선을 수정함으로써 더 많은 비트를 할당하여 양자화 잡음을 줄인다. 이때, 기저 행렬(610)에는 수정 이전의 마스킹 곡선이 점선으로 표시되어 있고, 수정 이후의 마스킹 곡선이 실선으로 표시되어 있다.
(b)는 가중치 행렬(620)의 두번째 열벡터를 이용한 마스킹 곡선의 최적화 과정을 도시한 도면이다. (b)는 (a)의 과정과 같은 방식으로 가중치 행렬(620)의 두번째 열벡터와의 비교를 거치면서 이전(a) 수정에 더하여 수정을 거듭한다.
이와 마찬가지 방식으로 나머지 가중치 행렬(620)의 열벡터와의 비교를 거치면서 수정을 거듭하여 최적화된 마스킹 곡선을 구한다. 실제 기저 행렬(610)이 전송 또는 저장되기 위해 양자화 될 때는, 최적화된 마스킹 곡선에 의거하여 비트를 할당 받게 된다.
도 7은 본 발명의 일 실시 예에 따른 복호화 장치에서 차원축소된 오디오 신호를 복호화하는 과정을 도시한 흐름도이다.
상기 도 7을 참조하면 본 발명의 복호화 장치는 701단계에서 비트 스트림을 수신하면, 703단계로 진행하여 수신한 비트 스트림을 분석하여 양자화된 기저행렬 과 가중치 행렬과 잔차신호를 추출한다.
이후, 복호화 장치는 705단계로 진행하여 기저행렬과 가중치 행렬을 내적 연산하여 근사 프레임을 생성하고, 707단계로 진행하여 근사 프레임에 잔차신호를 더하여 원본 프레임으로 복원한다.
이후, 복호화 장치는 709단계로 진행하여 주파수 영역으로 표현된 복원한 원본 프레임을 시간영역으로 변환한다.
지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허 청구의 범위뿐 아니라 이 특허 청구의 범위와 균등한 것들에 의해 정해져야 한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일 실시 예에 따른 오디오 신호를 행렬의 곱 형식으로 차원축소 하는 경우를 도시한 도면,
도 2는 본 발명의 일 실시 예에 따른 오디오 신호를 차원 축소하여 부호화하는 부호화 장치를 도시한 도면,
도 3은 본 발명의 일 실시 예에 따른 차원 축소된 오디오 신호를 복호화하는 복호화 장치를 도시한 도면,
도 4는 본 발명의 일 실시 예에 따른 부호화 장치에서 오디오 신호를 차원축소하여 부호화하는 과정을 도시한 흐름도,
도 5는 본 발명의 일 실시 예에 따른 부호화 장치에서 차원 축소한 오디오 신호의 마스킹 곡선을 최적화하는 과정을 도시한 흐름도,
도 6은 본 발명의 일 실시 예에 따른 부호화 장치에서 차원 축소한 오디오 신호의 마스킹 곡선을 최적화하는 과정의 일 예를 행렬 형태로 도시한 도면 및,
도 7은 본 발명의 일 실시 예에 따른 복호화 장치에서 차원축소된 오디오 신호를 복호화하는 과정을 도시한 흐름도이다.

Claims (15)

  1. 시간영역의 오디오 프레임을 주파수 영역으로 변환하는 주파수 변환부;
    기설정한 수의 주파수 영역의 오디오 프레임에 대응하는 원본행렬을 차원축소하여 기저행렬과 가중치 행렬을 구하는 차원 축소부; 및
    상기 기저행렬을 양자화 하는 양자화부를 포함함을 특징으로 하는 오디오 부호화 장치.
  2. 제1항에 있어서,
    상기 원본행렬의 마스킹 곡선을 도출하는 마스킹 도출부; 및
    상기 기저행렬의 마스킹 곡선을 도출하고 상기 원본행렬의 마스킹 곡선을 이용하여 상기 기저행렬의 마스킹 곡선을 수정하여 최적화하는 마스킹 곡선 최적화부를 더 포함함을 특징으로 하는 오디오 부호화 장치.
  3. 제2항에 있어서, 상기 마스킹 곡선 최적화부는,
    상기 기저행렬의 마스킹 곡선을 도출하고, 도출한 마스킹 곡선을 이용하여 상기 기저행렬을 양자화 하고, 상기 가중치 행렬의 각 열에 대하여, 상기 기저행렬과 내적하여 근사 프레임을 추정하고, 추정한 근사 프레임의 마스킹 곡선과 상기 원본행렬에서 해당 프레임의 마스킹 곡선을 비교하여 상기 기저행렬의 마스킹 곡선을 수정함을 특징으로 하는 오디오 부호화 장치.
  4. 제2항에 있어서, 상기 양자화부는,
    최적화한 상기 기저행렬의 마스킹 곡선을 이용하여 상기 기저행렬을 양자화함을 특징으로 하는 오디오 부호화 장치.
  5. 제1항에 있어서, 상기 차원 축소부는,
    상기 기저행렬과 상기 가중치 행렬의 내적을 통해 근사치 행렬을 구하고 상기 원본 행렬과 상기 근사치 행렬의 차를 구하여 잔차신호 생성함을 특징으로 하는 오디오 부호화 장치.
  6. 제5항에 있어서, 상기 양자화부는,
    상기 잔차신호를 기 설정된 잡음신호 특성으로 양자화 함을 특징으로 하는 오디오 부호화 장치.
  7. 제1항에 있어서, 상기 양자화부는,
    상기 가중치 행렬을 양자화함을 특징으로 하는 오디오 부호화 장치.
  8. 비트 스트림을 수신하여 기저행렬, 가중치 행렬 및 잔차신호를 추출하는 분석부;
    상기 기저행렬과 상기 가중치 행렬을 내적 연산하여 근사 프레임을 생성하는 근사 프레임 생성부;
    상기 근사 프레임에 상기 잔차신호를 더하여 원본 프레임을 복원하는 원본 프레임 복원부; 및
    복원한 상기 원본 프레임을 시간영역으로 변환하는 시간영역 변환부를 포함함을 특징으로 하는 오디오 복호화 장치.
  9. 시간영역의 오디오 프레임을 수신하면 이를 주파수 영역으로 변환하는 단계;
    기설정한 수의 주파수 영역으로 변환된 오디오 프레임에 대응하는 원본행렬을 차원축소하여 기저행렬과 가중치 행렬을 구하는 단계; 및
    상기 기저행렬을 양자화 하는 단계를 포함함을 특징으로 하는 오디오 부호화 방법.
  10. 제9항에 있어서,
    상기 원본행렬의 마스킹 곡선을 도출하는 단계; 및
    상기 기저행렬의 마스킹 곡선을 도출하고 상기 원본행렬의 마스킹 곡선을 이용하여 상기 기저행렬의 마스킹 곡선을 수정하여 최적화하는 단계를 더 포함함을 특징으로 하는 오디오 부호화 방법.
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 비트 스트림을 수신하는 단계;
    상기 비트 스트림에서 기저행렬, 가중치 행렬 및 잔차신호를 추출하는 단계;
    상기 기저행렬과 상기 가중치 행렬을 내적 연산하여 근사 프레임을 생성하는 단계;
    상기 근사 프레임에 상기 잔차신호를 더하여 원본 프레임을 복원하는 단계; 및
    복원한 상기 원본 프레임을 시간영역으로 변환하는 단계를 포함함을 특징으로 하는 오디오 복호화 방법.
KR1020080040106A 2007-12-21 2008-04-29 오디오 부호화 및 복호화 방법과 그 장치 KR100992675B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20070135002 2007-12-21
KR1020070135002 2007-12-21

Publications (2)

Publication Number Publication Date
KR20090068100A KR20090068100A (ko) 2009-06-25
KR100992675B1 true KR100992675B1 (ko) 2010-11-05

Family

ID=40995745

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080040106A KR100992675B1 (ko) 2007-12-21 2008-04-29 오디오 부호화 및 복호화 방법과 그 장치

Country Status (1)

Country Link
KR (1) KR100992675B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101341188B1 (ko) * 2012-01-25 2013-12-12 세종대학교산학협력단 Nmf 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
CN111131820B (zh) 2012-04-16 2022-05-31 韩国电子通信研究院 图像解码方法和图像编码方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100778349B1 (ko) 2003-10-02 2007-11-21 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 이산값의 시퀀스를 갖는 신호 처리 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100778349B1 (ko) 2003-10-02 2007-11-21 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 이산값의 시퀀스를 갖는 신호 처리 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101341188B1 (ko) * 2012-01-25 2013-12-12 세종대학교산학협력단 Nmf 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법

Also Published As

Publication number Publication date
KR20090068100A (ko) 2009-06-25

Similar Documents

Publication Publication Date Title
US9111532B2 (en) Methods and systems for perceptual spectral decoding
KR101586317B1 (ko) 신호 처리 방법 및 장치
US8615391B2 (en) Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
JP5267362B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
EP1998321B1 (en) Method and apparatus for encoding/decoding a digital signal
IL201469A (en) Formulation of a temporary envelope for spatial drilling using WIENER DOMAIN filter for frequency
CN101939782A (zh) 噪声填充与带宽扩展之间的自适应过渡频率
CN105103225A (zh) 立体声音频编码器和解码器
US20060100885A1 (en) Method and apparatus to encode and decode an audio signal
US20210035591A1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
CN101521010B (zh) 一种音频信号的编解码方法和装置
US8825494B2 (en) Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program
CN106030704B (zh) 用于对音频信号进行编码/解码的方法和设备
KR100992675B1 (ko) 오디오 부호화 및 복호화 방법과 그 장치
US8255232B2 (en) Audio encoding method with function of accelerating a quantization iterative loop process
EP2447943A1 (en) Coding method, decoding method, and device and program using the methods
KR20210133551A (ko) 적응형 주파수 복원 기법 기반 오디오 부호화 방법
JP2012519309A (ja) オーディオ符号化のための量子化
US6895374B1 (en) Method for utilizing temporal masking in digital audio coding
RU2798009C2 (ru) Стереофонический кодер и декодер аудиосигналов
Gunasekaran et al. Spectral Fluctuation Analysis for Audio Compression Using Adaptive Wavelet Decomposition
CN117476024A (zh) 音频编码方法、音频解码方法、装置、可读存储介质
CN114783449A (zh) 神经网络训练方法、装置、电子设备及介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131024

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee