KR20050115799A - 오디오 신호 부호화/복호화 장치 및 방법 - Google Patents

오디오 신호 부호화/복호화 장치 및 방법 Download PDF

Info

Publication number
KR20050115799A
KR20050115799A KR1020040043075A KR20040043075A KR20050115799A KR 20050115799 A KR20050115799 A KR 20050115799A KR 1020040043075 A KR1020040043075 A KR 1020040043075A KR 20040043075 A KR20040043075 A KR 20040043075A KR 20050115799 A KR20050115799 A KR 20050115799A
Authority
KR
South Korea
Prior art keywords
waveform
audio signal
resonance phenomenon
signal
band
Prior art date
Application number
KR1020040043075A
Other languages
English (en)
Other versions
KR100636144B1 (ko
Inventor
이준현
이혁재
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US11/131,243 priority Critical patent/US20050271367A1/en
Priority to NL1029157A priority patent/NL1029157C2/nl
Publication of KR20050115799A publication Critical patent/KR20050115799A/ko
Application granted granted Critical
Publication of KR100636144B1 publication Critical patent/KR100636144B1/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Otolaryngology (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 오디오 신호를 부호화하는 장치 및 방법에 관한 것이고, 오디오 신호를 복호화하는 장치 및 방법에 관한 것으로, 본 발명에 따른 오디오 복호화 방법은 입력 신호를 복호화함으로써 오디오 신호를 생성하는 단계; 및 생성된 오디오 신호의 파형을 오디오 신호에서의 음향학적 공진 현상으로 인해 변형될 파형을 보상하기 위한 파형으로 변형하는 단계를 포함하며, 인간의 청취 구조상 발생하는 음향학적 공진 현상인 ERP-DRP 공진 현상을 보상할 수 있는 역보정 파형을 사용함으로써 이어폰 또는 헤드폰을 통하여 중대역이 강조되지 않는 우수한 음질의 오디오 신호를 청취할 수 있다.

Description

오디오 신호 부호화/복호화 장치 및 방법 {Apparatus and method for encoding/decoding audio signal}
본 발명은 오디오 신호를 부호화하는 장치 및 방법에 관한 것이고, 오디오 신호를 복호화하는 장치 및 방법에 관한 것이다.
도 1은 인간이 소리를 청취하는 구조를 도시한 도면이다.
도 1을 참조하면, 인간의 귀는 외이도 상의 청력 기준점(ERP : Ear Reference Point) 부분을 막으면, 청력 기준점과 중이도 상의 고막 기준점(DRP : Drum Reference Point) 사이는 밀폐된 공간을 형성하게 된다. 따라서, 이어폰 또는 헤드폰을 사용하여 오디오 기기 등으로부터 출력되는 오디오 신호를 청취하면, 이 밀폐된 공간이 가진 공진 주파수에 해당되는 주파수 영역(약 1~10 KHz 대역)에서 약 15 dB이상 음압이 상승하는 공진 현상(이하, ERP-DRP 공진 현상이라 한다)이 발생하게 된다. 이러한 ERP-DRP 공진 현상으로 인하여 아무리 좋은 이어폰 또는 헤드폰을 사용하더라도 중대역이 크게 증폭된 오디오 신호, 즉 열악한 음질의 오디오 신호를 청취하게 된다는 문제점이 있었다. 특히, 휴대용 오디오 기기 및 휴대폰의 대중화에 따라 이어폰 또는 헤드폰 사용이 빈번해짐에 따라 중대한 문제점으로 대두되고 있다.
본 발명이 이루고자 하는 기술적 과제는 ERP-DRP 공진 현상을 오디오 복호화 단계에서 보상할 수 있는 오디오 복호화 장치 및 방법을 제공하고, 상기된 오디오 복호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 있다. 또한, ERP-DRP 공진 현상을 고려하여 오디오 부호화 단계에서 더 높은 압축률로 부호화할 수 있는 오디오 부호화 장치 및 방법을 제공하고, 상기된 오디오 부호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 복호화 방법은 입력 신호를 복호화함으로써 오디오 신호를 생성하는 단계; 및 상기 생성된 오디오 신호의 파형을 상기 오디오 신호에서의 음향학적 공진 현상으로 인해 변형될 파형을 보상하기 위한 파형으로 변형하는 단계를 포함한다.
상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 복호화 장치는 입력 신호를 복호화함으로써 오디오 신호를 생성하는 복호화부; 및 상기 복호화부에서 생성된 오디오 신호의 파형을 상기 오디오 신호에서의 음향학적 공진 현상으로 인해 변형될 파형을 보상하기 위한 파형으로 변형하는 공진 보상부를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기된 오디오 복호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 부호화 방법은 오디오 신호에서의 음향학적 공진 현상으로 인해 변형될 마스킹 임계치를 고려하여 상기 오디오 신호의 서브밴드 샘플들 각각에 대한 신호 대 마스크 비를 계산하는 단계; 상기 계산된 신호 대 마스크 비들에 따라 상기 서브밴드 샘플들 각각에 비트를 할당하는 단계; 및 상기 할당된 비트 내에서 상기 서브밴드 샘플들을 양자화 및 부호화하는 단계를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 부호화 장치는 오디오 신호에서의 음향학적 공진 현상으로 인해 변형될 마스킹 임계치를 고려하여 상기 오디오 신호의 서브밴드 샘플들 각각에 대한 신호 대 마스크 비를 계산하는 심리 음향 모델; 상기 심리 음향 모델에서 계산된 신호 대 마스크 비들에 따라 상기 서브밴드 샘플들 각각에 비트를 할당하는 비트 할당부; 및 상기 비트 할당부에서 할당된 비트 내에서 상기 서브밴드 샘플들을 양자화 및 부호화하는 양자화/부호화부를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기된 오디오 부호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다.
도 2는 청력 기준점과 고막 기준점간 공진 파형을 도시한 도면이다.
도 2를 참조하면, 청력 기준점과 고막 기준점 사이의 밀폐된 공간으로 인하여 약 1~10 KHz 대역에서 약 15 dB 이상 음압이 상승하는 공진 파형(이하, ERP-DRP 공진 파형이라 한다)이 관측된다는 것을 알 수 있다. 이와 같은 공진 파형은 실제 인간의 귀 또는 더미 헤드(dummy head)의 귀에 프로브 마이크로폰(probe microphone) 등을 삽입하여 측정할 수 있다.
도 3은 도 2에 도시된 공진 파형에 대한 역보정 파형이다.
도 3을 참조하면, 도 3에 도시된 역보정 파형은 도 2에 도시된 공진 파형에 대하여 주파수 축을 중심으로 반전시킨 파형이라는 것을 알 수 있다.
도 4는 도 3에 도시된 역보정 파형을 적용한 결과를 도시한 도면이다.
도 4를 참조하면, 이어폰 또는 헤드폰 사용자가 도 3에 도시된 역보정 파형을 가진 오디오 신호를 청취하면, 역보정 파형에 청력 기준점과 고막 기준점간 공진 현상이 적용되게 됨에 따라 역보정하기 이전의 원 파형을 가진 오디오 신호를 청취하게 된다는 것을 알 수 있다.
도 2, 도 3, 및 도 4를 참조하여 ERP-DRP 공진 현상을 보상하기 위한 오디오 복호화 장치는 다음과 같은 과정을 통하여 설계될 수 있다. 우선, 청력 기준점과 고막 기준점간 공진 현상으로 인한 공진 파형을 측정한다. 이어서, 측정된 공진 파형에 기초하여 공진 파형에 대한 역보정 파형을 계산한다. 이어서, 계산된 역보정 파형을 출력하는 FIR(Finite Impulse Response) 필터, IIR(Infinite Impulse Response) 필터 등 디지털 필터를 설계한다. 이어서, 설계된 디지털 필터를 포함하는 오디오 복호화 장치를 설계한다.
도 5는 본 발명의 바람직한 일 실시예에 따른 오디오 복호화 장치의 구성도이다.
도 5를 참조하면, 본 실시예에 따른 오디오 복호화 장치는 복호화부(51), 제 1 공진 보상부(52), 제 1 D/A 변환부(53), 제 1 앰프(54), 제 2 공진 보상부(55), 제 2 D/A 변환부(56), 및 제 2 앰프(57)로 구성된다.
복호화부(51)는 입력 신호를 복호화함으로써 오디오 신호를 생성한다. 일반적으로, 이 입력 신호는 MPEG 오디오 부호화 장치로부터 전송된 비트 스트림이다.
제 1 공진 보상부(52)는 복호화부(51)에서 생성된 오디오 신호의 파형을 오디오 신호에서의 ERP-DRP 공진 현상으로 인해 변형될 파형을 보상하기 위한 파형으로 변형한다. 도 3에 도시된 바와 같이, ERP-DRP 공진 현상으로 인해 변형될 파형을 보상하기 위한 파형은 ERP-DRP 공진 현상으로 인해 변형될 파형에 대하여 주파수 축을 중심으로 반전시킨 파형인 역보정 파형이다.
제 1 공진 보상부(52)는 공진 대역 추출부(521) 및 파형 변형부(522)로 구성된다. 공진 대역 추출부(521)는 오디오 신호로부터 ERP-DRP 공진 현상으로 인해 변형될 대역을 추출한다. 즉, 공진 대역 추출부(521)는 오디오 신호로부터 약 1~10 KHz 대역을 추출한다. 파형 변형부(522)는 공진 대역 추출부(521)에서 추출된 대역을 도 3에 도시된 역보정 파형으로 변형한다. 상기한 바와 같이, 제 1 공진 보상부(52)는 FIR 필터, IIR 필터 등 디지털 필터로 구현될 수 있다.
제 1 D/A 변환부(53)는 제 1 공진 보상부(52)에서 변형된 디지털 오디오 신호를 아날로그 오디오 신호로 변환한다. 상기한 바와 같이, D/A 변환부(53)로 입력되는 오디오 신호는 MPEG 오디오 부호화 장치로부터 전송된 비트 스트림을 복호화한 디지털 오디오 신호로서, 소리로 복원되기 위해서는 아날로그 오디오 신호로 변환되어야 한다.
제 1 앰프(54)는 제 1 D/A 변환부(53)에서 변환된 아날로그 오디오 신호를 소정의 스피커로 출력한다. 이 소정의 스피커는 이어폰 또는 헤드폰 등 청력 기준점과 고막 기준점 사이의 밀폐된 공간을 유발하는 기기에 장착된 스피커들 중 왼쪽 스피커가 될 것이다.
제 2 공진 보상부(55), 제 2 D/A 변환부(56), 및 제 2 앰프(57)는 제 1 공진 보상부(52), 제 1 D/A 변환부(53), 및 제 1 앰프(54)와 동일한 기능을 수행한다. 따라서, 제 2 공진 보상부(55), 제 2 D/A 변환부(56), 및 제 2 앰프(57)에 대한 설명은 생략하기로 한다. 다만, 제 1 공진 보상부(52), 제 1 D/A 변환부(53), 및 제 1 앰프(54)는 왼쪽 스피커로 출력되는 오디오 신호를 처리하는 반면, 제 2 공진 보상부(55), 제 2 D/A 변환부(56), 및 제 2 앰프(57)는 오른쪽 스피커로 출력되는 오디오 신호를 처리한다. 따라서, 복호화부(51)는 복호화된 데이터 중, 제 1 공진 보상부(52)로는 왼쪽 스피커로 출력될 데이터를 공급하고, 제 2 공진 보상부(55)로는 오른쪽 스피커로 출력된 데이터를 공급한다.
도 6은 본 발명의 바람직한 일 실시예에 따른 오디오 복호화 방법의 흐름도이다.
도 6을 참조하면, 본 실시예에 따른 오디오 복호화 방법은 다음과 같은 단계들로 구성된다. 도 6에 도시된 본 오디오 복호화 방법은 도 5에 도시된 오디오 복호화 장치에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하 생략된 내용이라 하더라도 도 5에 도시된 오디오 복호화 장치에 관하여 기술된 내용은 본 오디오 복호화 방법에도 적용된다.
61 단계에서는 입력 신호를 복호화함으로써 오디오 신호를 생성한다.
62 단계에서는 오디오 신호로부터 ERP-DRP 공진 현상으로 인해 변형될 대역을 추출한다.
63 단계에서는 62 단계에서 추출된 대역을 도 3에 도시된 역보정 파형으로 변형한다.
즉, 62 단계 및 63 단계에서는 61 단계에서 생성된 오디오 신호의 파형을 오디오 신호에서의 ERP-DRP 공진 현상으로 인해 변형될 파형을 보상하기 위한 파형으로 변형한다. 이때, ERP-DRP 공진 현상으로 인해 변형될 파형을 보상하기 위한 파형은 ERP-DRP 공진 현상으로 인해 변형될 파형에 대하여 주파수 축을 중심으로 반전시킨 파형인 역보정 파형이다.
64 단계에서는 63 단계에서 변형된 디지털 오디오 신호를 아날로그 오디오 신호로 변환한다. 상기한 바와 같이, 63 단계에서 변형된 오디오 신호는 MPEG 오디오 부호화 장치로부터 전송된 비트 스트림을 복호화한 디지털 오디오 신호로서, 소리로 복원되기 위해서는 아날로그 오디오 신호로 변환되어야 한다.
65 단계에서는 64 단계에서 변환된 아날로그 오디오 신호를 왼쪽 스피커로 출력한다.
도 7은 도 5에 도시된 오디오 복호화 장치의 효과를 도시한 도면이다.
도 7을 참조하면, 이어폰 또는 헤드폰 사용자가 종래 오디오 복호화 장치를 사용하여 오디오 신호를 청취하는 경우, MPEG 오디오 부호화 장치로부터 전송된 오디오 신호는 평탄한 파형을 가진 신호(71)이나, 이어폰 또는 헤드폰 사용자가 실제로 청취하게 되는 오디오 신호는 중대역이 약 15 dB 증폭된 파형을 가진 신호(72)이다.
그러나, 이어폰 또는 헤드폰 사용자가 본 오디오 복호화 장치를 사용하여 오디오 신호를 청취하는 경우, MPEG 오디오 부호화 장치로부터 전송된 오디오 신호는 평탄한 파형을 가진 신호(73)이나, 본 오디오 복호화 장치로부터 출력되는 오디오 신호는 역보정 파형을 가진 신호(74)이다. 따라서, 이어폰 또는 헤드폰 사용자가 실제로 청취하게 되는 오디오 신호는 역보정 파형이 ERP-DRP 공진 현상을 보상함으로써 원래의 평탄한 파형을 가진 신호(75)이다.
따라서, 본원 발명을 이어폰 또는 헤드폰을 사용하는 휴대용 오디오 기기, 휴대폰, PDA(Personal Digital Assistant) 등에 적용하는 경우, 중대역이 강조되지 않는 우수한 음질의 오디오 신호를 청취할 수 있다.
도 8은 ERP-DRP 공진 현상을 고려한 마스킹(masking) 현상을 도시한 도면이다.
대부분의 오디오 손실 압축 알고리즘은 원본 오디오 신호와 압축 오디오 신호와의 수학적 오차를 최소화하기보다는 원본 오디오 신호와 압축 오디오 신호를 비교할 때 인간의 주관적 감각으로 구분하지 못하는 정도를 최대화하는데 중점을 둔다. 이것을 구체적인 압축 과정의 관점에서 보면, 사람의 귀에 들리지 않는 소리는 제거하고, 들리는 소리에만 비트를 할당한다. 예를 들어, 매우 높거나 낮은 주파수 성분은 사람의 귀에 거의 들리지 않기 때문에 압축 과정에서 제외될 수 있다. 또한, 인간의 귀의 특성으로 인하여 어떤 주파수에 의해 마스크된(masked) 주파수 성분은 원래보다 낮은 정밀도로 부호화될 수 있다. 청각 기관과 뇌의 상호 작용을 기반으로 이러한 효과를 이용하는 모델을 심리 음향 모델(psychoacoustics model)이라 한다. 심리 음향 모델에 따르면, 마스크되어 들을 수 없는 최대치를 마스킹 임계치(masking threshold)라고 한다. 마스킹 임계치 이하의 음압을 갖는 오디오 신호들은 청취될 수 없기 때문에 오디오 부호화 과정에서 제거된다.
도 8을 참조하면, 마스킹 임계치는 ERP-DRP 공진 현상으로 인하여 중대역이 약 15 dB 이상 증폭되어 있음을 볼 수 있다. ERP-DRP 공진 대역을 마스커(masker)로 본다면, 마스커의 주위 대역은 정상적인 상태에서는 청취 가능하였으나 마스커에 의해 마스크됨으로써 청취될 수 없게 된다. 따라서, 이하 실시예들에서는 심리 음향 모델에 ERP-DRP 공진 현상으로 인한 마스킹 임계치의 변화를 반영함으로써 압축률을 최대로 한다.
도 9는 본 발명의 바람직한 일 실시예에 따른 오디오 부호화 장치의 구성도이다.
도 9를 참조하면, 본 실시예에 따른 오디오 부호화 장치는 필터 뱅크(filter bank)(91), 심리 음향 모델(92); 비트 할당부(93), 양자화/부호화부(94), 및 비트 스트림 포맷부(95)로 구성된다.
필터 뱅크(91)는 오디오 신호를 복수 개의 서브밴드 샘플들로 분할한다. 필터 뱅크(91) 및 심리 음향 모델(92)로 입력되는 오디오 신호는 PCM(Pulse Code Modulation) 오디오 신호이다.
심리 음향 모델(92)은 ERP-DRP 공진 현상으로 인해 변형될 마스킹 임계치를 고려하여 오디오 신호의 서브밴드 샘플들 각각에 대한 신호 대 마스크 비를 계산한다. 즉, 심리 음향 모델(92)은 ERP-DRP 공진 현상으로 인해 마스킹 임계치가 상승된 ERP-DRP 공진 대역을 고려하여 오디오 신호의 서브밴드 샘플들 각각에 대한 신호 대 마스크 비를 계산한다. 본 실시예에 따른 심리 음향 모델(92)에는 ERP-DRP 공진 현상으로 인해 변형될 마스킹 임계치를 고려하여 스펙트럼적인 마스킹(spectral masking) 이론 및 시간적인 마스킹(temporal masking) 이론이 모두 적용된다. 이때, 적용되는 마스킹 이론은 기존의 개념적 부호화(perceptual coding) 시 적용되는 동시 마스킹(simultaneous masking), 프리마스킹(premasking), 및 포스트마스킹(postmasking)을 포함한다.
심리 음향 모델(92)은 FFT(921), 공진 대역 계산부(922), 및 고저 대역 계산부(923)로 구성된다.
FFT(921)는 오디오 신호를 고속 푸리에 변환(FFT : Fast Fourier Transform)함으로써 스펙트럼 파형을 산출한다.
공진 대역 계산부(922)는 ERP-DRP 공진 현상에 의해 변형될 대역, 즉 ERP-DRP 공진 대역에 대한 신호 대 마스크 비(SMR : Signal to Mask Ratio)를 계산한다. 보다 상세히 설명하면, 공진 대역 계산부(922)는 FFT(921)에서 산출된 스펙트럼 파형으로부터 ERP-DRP 공진 대역 상의 마스킹 임계치들 및 서브밴드 샘플들의 음압 레벨들을 결정하고, 결정된 마스킹 임계치들과 음압 레벨들의 차를 계산함으로써 ERP-DRP 공진 대역에 대한 신호 대 마스크 비를 계산한다.
고저 대역 계산부(923)는 ERP-DRP 공진 대역을 제외한 나머지에 해당하는 고저 대역에 대한 신호 대 마스크 비를 계산한다. 보다 상세히 설명하면, 고저 대역 계산부(923)는 FFT(921)에서 산출된 스펙트럼 파형으로부터 고저 대역 상의 마스킹 임계치들 및 서브밴드 샘플들의 음압 레벨들을 결정하고, 결정된 마스킹 임계치들과 음압 레벨들의 차를 계산함으로써 고저 대역에 대한 신호 대 마스크 비를 계산한다.
실제로 ERP-DRP 공진 대역을 고려한 심리 음향 모델(92)을 설계하는 경우, 공진 대역 계산부(922) 및 고저 대역 계산부(923)로 구분하지 않고, 하나의 유닛으로 설계할 수도 있으나, 이것도 역시 본질적으로 ERP-DRP 공진 대역 및 이 대역을 제외한 나머지에 대한 신호 대 마스크 비를 계산하게 되는 것으로써, 본 실시예에 포함됨을 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자는 이해할 수 있을 것이다
비트 할당부(93)는 심리 음향 모델(93)에서 계산된 신호 대 마스크 비들에 따라 필터 뱅크(91)에서 분할된 서브밴드 샘플들 각각에 비트를 할당한다.
양자화/부호화부(94)는 비트 할당부(93)에서 할당된 비트 내에서 서브밴드 샘플들을 양자화 및 부호화한다.
비트 스트림 포맷부(95)는 양자화/부호화부(94)에서 양자화 및 부호화된 서브밴드 샘플들에 비트 할당 정보 등의 부가 정보 등을 포함시킨 비트 스트림으로 포맷한다. 일반적으로, 비트 스트림 포맷부(95)는 MPEG 규격에 따라 포맷한다.
비트 스트림 포맷부(95)로부터 출력된 비트 스트림은 오디오 복호화 장치로 전송된다.
도 10은 본 발명의 바람직한 일 실시예에 따른 오디오 부호화 방법의 구성도이다.
도 10을 참조하면, 본 실시예에 따른 오디오 부호화 방법은 다음과 같은 단계들로 구성된다. 도 10에 도시된 본 오디오 부호화 방법은 도 9에 도시된 오디오 부호화 장치에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하 생략된 내용이라 하더라도 도 9에 도시된 오디오 부호화 장치에 관하여 기술된 내용은 본 오디오 부호화 방법에도 적용된다.
101 단계에서는 오디오 신호를 복수 개의 서브밴드 샘플들로 분할한다.
102 단계에서는 오디오 신호를 고속 푸리에 변환함으로써 스펙트럼 파형을 산출한다.
103 단계에서는 ERP-DRP 공진 대역에 대한 신호 대 마스크 비를 계산한다. 보다 상세히 설명하면, 103 단계에서는 102 단계에서 산출된 스펙트럼 파형으로부터 ERP-DRP 공진 대역 상의 마스킹 임계치들 및 서브밴드 샘플들의 음압 레벨들을 결정하고, 결정된 마스킹 임계치들과 음압 레벨들의 차를 계산함으로써 ERP-DRP 공진 대역에 대한 신호 대 마스크 비를 계산한다.
104 단계에서는 ERP-DRP 공진 대역을 제외한 나머지에 해당하는 고저 대역에 대한 신호 대 마스크 비를 계산한다. 보다 상세히 설명하면, 104 단계에서는 102 단계에서 산출된 스펙트럼 파형으로부터 고저 대역 상의 마스킹 임계치들 및 서브밴드 샘플들의 음압 레벨들을 결정하고, 결정된 마스킹 임계치들과 음압 레벨들의 차를 계산함으로써 고저 대역에 대한 신호 대 마스크 비를 계산한다.
즉, 103 단계 및 104 단계에서는 ERP-DRP 공진 현상으로 인해 변형될 마스킹 임계치를 고려하여 오디오 신호의 서브밴드 샘플들 각각에 대한 신호 대 마스크 비를 계산한다.
105 단계에서는 103 단계 및 104 단계에서 계산된 신호 대 마스크 비들에 따라 101 단계에서 분할된 서브밴드 샘플들 각각에 비트를 할당한다.
106 단계에서는 105 단계에서 할당된 비트 내에서 서브밴드 샘플들을 양자화 및 부호화한다.
107 단계에서는 106 단계에서 양자화 및 부호화된 서브밴드 샘플들에 비트 할당 정보 등의 부가 정보 등을 포함시킨 비트 스트림으로 포맷한다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명에 따르면, 인간의 청취 구조상 발생하는 음향학적 공진 현상인 ERP-DRP 공진 현상을 보상할 수 있는 역보정 파형을 사용함으로써 이어폰 또는 헤드폰을 통하여 중대역이 강조되지 않는 우수한 음질의 오디오 신호를 청취할 수 있다는 효과가 있다. 특히, 휴대용 DVD 플레이어, MP3 플레이어 등의 휴대용 오디오 기기 및 휴대폰의 대중화에 따라 중요한 문제점으로 대두되던 ERP-DRP 공진 현상을 근본적으로 해결할 수 되었다는 효과가 있다.
또한, 본 발명에 따르면, 인간이 듣지 못하는 고저대역을 다른 대역보다 더 높은 압축률로 부호화한다는 종래의 심리 음향 모델에 ERP-DRP 공진 현상으로 인해 변형될 마스킹 임계치를 고려하여 ERP-DRP 공진 대역을 다른 대역보다 더 높은 압축률로 부호화한다는 기능을 추가함으로써 압축률을 종래보다 크게 개선시킬 수 있다는 효과가 있다.
도 1은 인간이 소리를 청취하는 구조를 도시한 도면이다.
도 2는 청력 기준점과 고막 기준점간 공진 파형을 도시한 도면이다.
도 3은 도 2에 도시된 공진 파형에 대한 역보정 파형이다.
도 4는 도 3에 도시된 역보정 파형을 적용한 결과를 도시한 도면이다.
도 5는 본 발명의 바람직한 일 실시예에 따른 오디오 복호화 장치의 구성도이다.
도 6은 본 발명의 바람직한 일 실시예에 따른 오디오 복호화 방법의 흐름도이다.
도 7은 도 5에 도시된 오디오 복호화 장치의 효과를 도시한 도면이다.
도 8은 청력 기준점과 고막 기준점간 공진 현상을 고려한 마스킹(masking) 현상을 도시한 도면이다.
도 9는 본 발명의 바람직한 일 실시예에 따른 오디오 부호화 장치의 구성도이다.
도 10은 본 발명의 바람직한 일 실시예에 따른 오디오 부호화 방법의 구성도이다.

Claims (20)

  1. (a) 입력 신호를 복호화함으로써 오디오 신호를 생성하는 단계; 및
    (b) 상기 생성된 오디오 신호의 파형을 상기 오디오 신호에서의 음향학적 공진 현상으로 인해 변형될 파형을 보상하기 위한 파형으로 변형하는 단계를 포함하는 것을 특징으로 하는 오디오 복호화 방법.
  2. 제 1 항에 있어서,
    상기 음향학적 공진 현상은 청력 기준점(ERP : Ear Reference Point)과 고막 기준점(DRP : Drum Reference Point)간에 발생하는 ERD-DRP 공진 현상인 것을 특징으로 하는 오디오 복호화 방법.
  3. 제 1 항에 있어서,
    상기 음향학적 공진 현상으로 인해 변형될 파형을 보상하기 위한 파형은 상기 오디오 신호의 파형을 상기 음향학적 공진 현상으로 인해 변형될 파형에 대하여 주파수 축을 중심으로 반전시킨 파형인 역보정 파형인 것을 특징으로 하는 오디오 복호화 방법.
  4. 제 3 항에 있어서,
    상기 (b) 단계는
    (b1) 상기 오디오 신호로부터 상기 음향학적 공진 현상으로 인해 변형될 대역을 추출하는 단계; 및
    (b2) 상기 추출된 대역을 상기 역보정 파형으로 변형하는 단계를 포함하는 것을 특징으로 하는 오디오 복호화 방법.
  5. 제 1 항에 있어서,
    상기 오디오 신호는 디지털 오디오 신호이고,
    상기 (b) 단계에서 변형된 디지털 오디오 신호를 아날로그 오디오 신호로 변환하는 단계를 더 포함하는 것을 특징으로 하는 오디오 복호화 방법.
  6. 입력 신호를 복호화함으로써 오디오 신호를 생성하는 복호화부; 및
    상기 복호화부에서 생성된 오디오 신호의 파형을 상기 오디오 신호에서의 음향학적 공진 현상으로 인해 변형될 파형을 보상하기 위한 파형으로 변형하는 공진 보상부를 포함하는 것을 특징으로 하는 오디오 복호화 장치.
  7. 제 6 항에 있어서,
    상기 음향학적 공진 현상은 청력 기준점(ERP : Ear Reference Point)과 고막 기준점(DRP : Drum Reference Point)간에 발생하는 ERD-DRP 공진 현상인 것을 특징으로 하는 오디오 복호화 장치.
  8. 제 6 항에 있어서,
    상기 음향학적 공진 현상으로 인해 변형될 파형을 보상하기 위한 파형은 상기 오디오 신호의 파형을 상기 음향학적 공진 현상으로 인해 변형될 파형에 대하여 주파수 축을 중심으로 반전시킨 파형인 역보정 파형인 것을 특징으로 하는 오디오 복호화 장치.
  9. 제 8 항에 있어서,
    상기 공진 보상부는
    상기 오디오 신호로부터 상기 음향학적 공진 현상으로 인해 변형될 대역을 추출하는 공진 대역 추출부; 및
    상기 공진 대역 추출부에서 추출된 대역을 상기 역보정 파형으로 변형하는 파형 변형부를 포함하는 것을 특징으로 하는 오디오 복호화 장치.
  10. 제 1 항 내지 제 5 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  11. (a) 오디오 신호에서의 음향학적 공진 현상으로 인해 변형될 마스킹 임계치를 고려하여 상기 오디오 신호의 서브밴드 샘플들 각각에 대한 신호 대 마스크 비를 계산하는 단계;
    (b) 상기 계산된 신호 대 마스크 비들에 따라 상기 서브밴드 샘플들 각각에 비트를 할당하는 단계; 및
    (c) 상기 할당된 비트 내에서 상기 서브밴드 샘플들을 양자화 및 부호화하는 단계를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
  12. 제 11 항에 있어서,
    상기 음향학적 공진 현상은 청력 기준점(ERP : Ear Reference Point)과 고막 기준점(DRP : Drum Reference Point)간에 발생하는 ERP-DRP 공진 현상인 것을 특징으로 하는 오디오 부호화 방법.
  13. 제 12 항에 있어서,
    상기 (a) 단계는 상기 ERP-DRP 공진 현상으로 인해 마스킹 임계치가 상승된 ERD-DRP 공진 대역을 고려하여 상기 오디오 신호의 서브밴드 샘플들 각각에 대한 신호 대 마스크 비를 계산하는 것을 특징으로 하는 오디오 부호화 방법.
  14. 제 11 항에 있어서,
    상기 (a) 단계는 상기 오디오 신호의 파형으로 상기 음향학적 공진 현상에 의해 변형될 마스킹 임계치 및 상기 서브밴드 샘플들의 음압 레벨들을 결정하고, 상기 결정된 마스킹 임계치들과 상기 결정된 음압 레벨들의 차들을 계산함으로써 상기 신호 대 마스크 비들을 계산하는 것을 특징으로 하는 방법.
  15. 제 11 항에 있어서,
    상기 (a) 단계는
    (a1) 상기 음향학적 공진 현상에 의해 변형될 대역에 해당하는 공진 대역에 대한 신호 대 마스크 비를 계산하는 단계; 및
    (a2) 상기 공진 대역을 제외한 나머지에 해당하는 고저 대역에 대한 신호 대 마스크 비를 계산하는 단계를 포함하는 것을 특징으로 하는 오디오 부호화 방법.
  16. 오디오 신호에서의 음향학적 공진 현상으로 인해 변형될 마스킹 임계치를 고려하여 상기 오디오 신호의 서브밴드 샘플들 각각에 대한 신호 대 마스크 비를 계산하는 심리 음향 모델;
    상기 심리 음향 모델에서 계산된 신호 대 마스크 비들에 따라 상기 서브밴드 샘플들 각각에 비트를 할당하는 비트 할당부; 및
    상기 비트 할당부에서 할당된 비트 내에서 상기 서브밴드 샘플들을 양자화 및 부호화하는 양자화/부호화부를 포함하는 것을 특징으로 하는 오디오 부호화 장치.
  17. 제 16 항에 있어서,
    상기 음향학적 공진 현상은 청력 기준점(ERP : Ear Reference Point)과 고막 기준점(DRP : Drum Reference Point)간에 발생하는 ERP-DRP 공진 현상인 것을 특징으로 하는 오디오 부호화 장치.
  18. 제 17 항에 있어서,
    상기 심리 음향 모델은 상기 ERP-DRP 공진 현상으로 인해 마스킹 임계치가 상승된 ERP-DRP 공진 대역을 고려하여 상기 오디오 신호의 서브밴드 샘플들 각각에 대한 신호 대 마스크 비를 계산하는 것을 특징으로 하는 오디오 부호화 장치.
  19. 제 16 항에 있어서,
    상기 심리 음향 모델은
    상기 음향학적 공진 현상에 의해 변형될 대역에 해당하는 공진 대역에 대한 신호 대 마스크 비를 계산하는 공진 대역 계산부; 및
    상기 공진 대역을 제외한 나머지에 해당하는 고저 대역에 대한 신호 대 마스크 비를 계산하는 고저 대역 계산부를 포함하는 것을 특징으로 하는 오디오 부호화 장치.
  20. 제 11 항 내지 제 15 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020040043075A 2004-06-04 2004-06-11 오디오 신호 부호화/복호화 장치 및 방법 KR100636144B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/131,243 US20050271367A1 (en) 2004-06-04 2005-05-18 Apparatus and method of encoding/decoding an audio signal
NL1029157A NL1029157C2 (nl) 2004-06-04 2005-05-31 Apparaat en werkwijze voor het coderen/decoderen van een audiosignaal.

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US57661704P 2004-06-04 2004-06-04
US60/576,617 2004-06-04

Publications (2)

Publication Number Publication Date
KR20050115799A true KR20050115799A (ko) 2005-12-08
KR100636144B1 KR100636144B1 (ko) 2006-10-18

Family

ID=35581643

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040043075A KR100636144B1 (ko) 2004-06-04 2004-06-11 오디오 신호 부호화/복호화 장치 및 방법

Country Status (3)

Country Link
US (1) US20050271367A1 (ko)
KR (1) KR100636144B1 (ko)
CN (1) CN100568740C (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7356186B2 (en) * 2002-08-23 2008-04-08 Kulas Charles J Digital representation of audio waveforms using peak shifting to provide increased dynamic range
US8917874B2 (en) 2005-05-26 2014-12-23 Lg Electronics Inc. Method and apparatus for decoding an audio signal
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US9271074B2 (en) * 2005-09-02 2016-02-23 Lsvt Global, Inc. System and method for measuring sound
US8296155B2 (en) * 2006-01-19 2012-10-23 Lg Electronics Inc. Method and apparatus for decoding a signal
JP4814344B2 (ja) 2006-01-19 2011-11-16 エルジー エレクトロニクス インコーポレイティド メディア信号の処理方法及び装置
WO2007091842A1 (en) 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
JP4709927B1 (ja) * 2010-01-13 2011-06-29 株式会社東芝 音信号補正装置、及び音信号補正方法
EP2705516B1 (en) * 2011-05-04 2016-07-06 Nokia Technologies Oy Encoding of stereophonic signals
US8774308B2 (en) 2011-11-01 2014-07-08 At&T Intellectual Property I, L.P. Method and apparatus for improving transmission of data on a bandwidth mismatched channel
US8781023B2 (en) * 2011-11-01 2014-07-15 At&T Intellectual Property I, L.P. Method and apparatus for improving transmission of data on a bandwidth expanded channel
US9225310B1 (en) * 2012-11-08 2015-12-29 iZotope, Inc. Audio limiter system and method
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3985960A (en) * 1975-03-03 1976-10-12 Bell Telephone Laboratories, Incorporated Stereophonic sound reproduction with acoustically matched receiver units effecting flat frequency response at a listener's eardrums
US5479522A (en) * 1993-09-17 1995-12-26 Audiologic, Inc. Binaural hearing aid
GB0213732D0 (en) * 2002-06-14 2002-07-24 Mitel Knowledge Corp Audio earpiece for wideband telephone handsets

Also Published As

Publication number Publication date
US20050271367A1 (en) 2005-12-08
KR100636144B1 (ko) 2006-10-18
CN100568740C (zh) 2009-12-09
CN1707955A (zh) 2005-12-14

Similar Documents

Publication Publication Date Title
US20050271367A1 (en) Apparatus and method of encoding/decoding an audio signal
JP2005202248A (ja) オーディオ符号化装置およびオーディオ符号化装置のフレーム領域割り当て回路
JP3765622B2 (ja) オーディオ符号化復号化システム
KR20070090217A (ko) 스케일러블 부호화 장치 및 스케일러블 부호화 방법
JPH0816195A (ja) ディジタルオーディオ符号化方法及び装置
WO2004044891A1 (ja) 音楽情報符号化装置及び方法、並びに音楽情報復号装置及び方法
US20210343302A1 (en) High resolution audio coding
JP2006195471A (ja) 多チャンネル信号符号化/復号化方法及びその装置
US8577051B2 (en) Sound signal compensation apparatus and method thereof
US6128593A (en) System and method for implementing a refined psycho-acoustic modeler
US10587983B1 (en) Methods and systems for adjusting clarity of digitized audio signals
JP2013073230A (ja) オーディオ符号化装置
US11735193B2 (en) High resolution audio coding
US20190074805A1 (en) Transient Detection for Speaker Distortion Reduction
US6463405B1 (en) Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
JP2003280691A (ja) 音声処理方法および音声処理装置
US20080225680A1 (en) Data reproduction apparatus and data reproduction method
JP4822697B2 (ja) ディジタル信号符号化装置およびディジタル信号記録装置
JP2000293199A (ja) 音声符号化方法および記録再生装置
JP4556866B2 (ja) 高能率符号化プログラム及び高能率符号化装置
NL1029157C2 (nl) Apparaat en werkwijze voor het coderen/decoderen van een audiosignaal.
JP2003280697A (ja) 音声圧縮方法および音声圧縮装置
JP3141853B2 (ja) オーディオ信号処理方法
JP5569476B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US20030233228A1 (en) Audio coding system and method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090929

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee