KR20130109793A - 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치 - Google Patents

잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치 Download PDF

Info

Publication number
KR20130109793A
KR20130109793A KR1020120031827A KR20120031827A KR20130109793A KR 20130109793 A KR20130109793 A KR 20130109793A KR 1020120031827 A KR1020120031827 A KR 1020120031827A KR 20120031827 A KR20120031827 A KR 20120031827A KR 20130109793 A KR20130109793 A KR 20130109793A
Authority
KR
South Korea
Prior art keywords
noise
block
audio signal
short
long
Prior art date
Application number
KR1020120031827A
Other languages
English (en)
Inventor
최명규
김상룡
김덕수
김성운
김웅식
김홍국
박남인
전광명
황광일
Original Assignee
삼성전자주식회사
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 광주과학기술원 filed Critical 삼성전자주식회사
Priority to KR1020120031827A priority Critical patent/KR20130109793A/ko
Priority to US13/755,119 priority patent/US9202454B2/en
Publication of KR20130109793A publication Critical patent/KR20130109793A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/002Devices for damping, suppressing, obstructing or conducting sound in acoustic devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치에 관한 것으로, 본 발명의 일 실시 예에 따른 잡음 감쇄를 위한 오디오 신호 부호화 방법은 오디오 신호를 입력받아 장 블록 및 단 블록으로 변형 이산 코사인 변환하고, 변환한 장 블록 및 단 블록 각각에 상응하도록 오디오 신호에 존재하는 잡음을 감쇄시켜, 잡음 감쇄된 장 블록 및 단 블록에 대해 AAC 부호화를 수행한다.

Description

잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치{Audio encoding method and apparatus for noise reduction}
본 발명은 잡음 감쇄에 관한 것으로, 특히 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치에 관한 것이다.
최근,인터넷이나 위성 방송 등의 통신 분야가 급속히 보급되고 있다. 또한, DVD 등의 AV 기기도 급속히 보급되고 있다. 이들의 보급에 수반하여,오디오 신호를 효율적으로 압축하는 오디오 부호화에 대한 수요가 높아지고 있다. 최근의 오디오 부호화 장치는 인간의 청각 특성을 이용한 적응 변환 오디오 부호화 장치가 주류이다. 이러한 부호화 처리에서는,시간 영역의 오디오 신호가 주파수 영역으로 변환된다. 그리고 주파수 축 상의 신호가 청각의 주파수 분해 능력에 대응하는 주파수 대역으로 구획된다. 그리고 인간의 청각 특성을 이용하여, 각 주파수 대역에서 부호화에 필요한 최적의 정보량이 계산된다.
그리고,각 주파수 대역에 할당된 정보량에 따라서, 주파수축 상의 신호가 양자화된다. 적응 변환 오디오 부호화 장치 중에, ISO(International Organization for Standardization)/IEC(International Electrotechnical Commission)에서 표준화된 MPEG(Moving Picture Experts Group)―2 AAC(Advanced Audio Coding) 방식이 있다. 고급 오디오 부호화(Advanced Audio Coding, 이하 AAC라 한다, 표준문서ISO/IEC 13818-7)는 디지털 오디오에서 쓰이는 표준적인 손실 데이터 압축방식이다.
AAC는 샘플 주파수를 8Khz 내지 96Khz로 확장하였으며, 최대 48채널로 확장 가능하고, 고정 비트 레이트에서도 필요에 따라서 비트를 가변적으로 할당할 수 있으며, 수정 이산 코사인 변환(Modified Discrete Cosine Tansformation, 이하 MDCT라 한다) 형식으로 바꾸어서 더욱 효율적인 인코딩을 가능하게 한다.
본 발명의 일 실시 예는 MPEG AAC의 MDCT 영역에서의 프레임 크기 전환 특성에 상응하는 잡음 감쇄에 관련된 것으로, MPEG AAC 인코딩 시 다중 프레임 크기 및 MPEG AAC 인코딩 구조에 적합한 잡음 감쇄를 인코더 내부에 적용하여 계산량을 감축하면서도 잡음 감쇄 성능을 유지할 수 있는 잡음 감쇄를 위한 AAC 부호화 방법 및 장치를 제공하는 것이다.
상기 기술적 과제를 달성하기 위한, 본 발명의 일 실시 예에 따른 잡음 감쇄를 위한 오디오 신호 부호화 방법은 오디오 신호를 입력받아 장 블록 및 단 블록으로 변형 이산 코사인 변환하는 단계; 상기 변환한 장 블록 및 단 블록 각각에 상응하도록 상기 오디오 신호에 존재하는 잡음을 감쇄시키는 단계; 및 상기 잡음 감쇄된 장 블록 및 단 블록에 대해 AAC 부호화하는 단계를 포함한다.
상기 잡음 감쇄 단계는 상기 장 블록에 대해 비선형 멀티 밴드 스펙트럼 차감을 수행하고, 상기 단 블록에 대해 상기 장 블록의 스펙트럼 차감에 기초하여, 상기 단 블록의 스펙트럼 감쇄를 수행하는 것을 특징으로 한다.
상기 잡음 감쇄 단계는, 상기 변환한 장 블록에 대해 다수의 서브 밴드로 분할하는 단계; 상기 분할한 서브 밴드 각각에 대한 신호대 잡음 비를 측정하는 단계; 및 상기 측정한 신호대 잡음 비에 상응하는 심리 음향 곡선에 대한 정보와, 상기 서브 밴드별 가중치를 고려한 차감 계수를 기초로 스펙트럼 차감을 수행하는 단계를 포함한다.
상기 잡음 감쇄를 위한 오디오 신호 부호화 방법은 상기 차감 계수를 증폭시켜 오버 차감(over subtraction)하고, 감쇄된 장 블록에 상응하는 오디오 신호를 이용한 마스킹을 수행하는 단계를 더 포함하는 것을 특징으로 한다.
상기 단 블록에 대한 잡음 감쇄율은, 상기 장 블록의 잡음 감쇄에 따른 일정 범위의 오디오 신호에 대한 평균 파워와 상기 장 블록에 대응하는 단 블록의 상기 일정 범위의 오디오 신호에 대한 평균 파워를 비교함으로써 결정되는 것을 특징으로 한다.
상기 잡음 감쇄 단계는 상기 AAC 부호화에 필요한 상기 오디오 신호의 가변 프레임 길이 및 비선형 스케일 팩터 밴드를 기초로 수행되는 것을 특징으로 한다.
상기 잡음 감쇄 단계는, 상기 MDCT 변환에 따른 MDCT 계수를 이용하여 수행되는 것을 특징으로 한다.
상기 잡음 감쇄 단계는 상기 AAC 부호화의 블록 스위칭에 따라 상기 오디오 신호가 1024포인트의 장 블록 및 128포인트의 단 블록으로 분할되어 수행되는 것을 특징으로 한다.
상기 잡음 감쇄를 위한 오디오 신호 부호화 방법은 상기 AAC 부호화한 오디오 신호를 기록매체에 저장하는 단계를 더 포함하는 것을 특징으로 한다.
상기 잡음 감쇄를 위한 오디오 신호 부호화 방법은 상기 장 블록에 대해 49차 비균등 서브 밴드로 분할하여 잡음 감쇄를 수행하는 것을 특징으로 한다.
상기 잡음 감쇄를 위한 오디오 신호 부호화 방법은 상기 단 블록에 대해 14차 비균등 서브 밴드로 분할하여 잡음 감쇄를 수행하는 것을 특징으로 한다.
상기 다른 기술적 과제를 달성하기 위한, 본 발명의 다른 실시 예에 따른 잡음 감쇄를 위한 오디오 신호 부호화 장치는 오디오 신호를 입력받아 장 블록 및 단 블록으로 변형 이산 코사인 변환하는 MDCT 변환부; 상기 변환한 장 블록 및 단 블록 각각에 상응하도록 상기 오디오 신호에 존재하는 잡음을 감쇄시키는 잡음 감쇄부; 및 상기 잡음 감쇄된 장 블록 및 단 블록에 대해 AAC 부호화하는 AAC 부호화부를 포함한다.
상기 잡음 감쇄부는 상기 장 블록에 대해 비선형 멀티 밴드 스펙트럼 차감을 수행하고, 상기 단 블록에 대해 상기 장 블록의 스펙트럼 차감에 기초하여, 상기 단 블록의 서브 밴드의 스케일링 팩터를 조절하는 스펙트럼 감쇄를 수행하는 것을 특징으로 한다.
상기 잡음 감쇄부는 상기 변환한 장 블록에 대해 다수의 서브 밴드로 분할하는 장 블록 서브 밴드 분할부; 상기 분할한 서브 밴드 각각에 대한 신호대 잡음 비를 측정하는 SNR 측정부; 상기 측정한 신호대 잡음 비에 상응하는 심리 음향 곡선에 대한 정보와, 상기 서브 밴드별 가중치를 고려한 차감 계수를 기초로 스펙트럼 차감을 수행하는 차감부; 및 상기 차감 계수를 증폭시켜 오버 차감(over subtraction)하고, 감쇄된 장 블록에 상응하는 오디오 신호를 이용한 마스킹을 수행하는 마스킹부를 포함하는 것을 특징으로 한다.
상기 잡음 감쇄부는 상기 변환한 단 블록에 대해 다수의 서브 밴드로 분할하는 단 블록 서브 밴드 분할부; 상기 마스킹부로부터 제공된 상기 장 블록의 잡음 감쇄에 따른 일정 범위의 서브 밴드별 오디오 신호에 대한 평균 파워와 상기 장 블록에 대응하는 단 블록의 상기 일정 범위의 서브 밴드별 오디오 신호에 대한 평균 파워를 비교함으로써 상기 단 블록의 감쇄율을 결정하는 파워 매칭부; 및 상기 결정한 감쇄율에 따라 상기 단 블록의 잡음 감쇄를 수행하는 감쇄부를 포함하는 것을 특징으로 한다.
상기 잡음 감쇄부는 상기 AAC 부호화에 필요한 상기 오디오 신호의 가변 프레임 길이 및 비선형 스케일 팩터 밴드를 기초로 잡음 감쇄를 수행하는 것을 특징으로 한다.
상기 잡음 감쇄부는 상기 MDCT 변환부로부터 출력된 MDCT 계수를 이용하여 잡음 감쇄를 수행하는 것을 특징으로 한다.
상기 잡음 감쇄부는 상기 AAC 부호화부의 블록 스위칭에 따라 상기 오디오 신호가 1024포인트의 장 블록 및 128포인트의 단 블록으로 분할되어 잡음 감쇄를 수행하는 것을 특징으로 한다.
상기 잡음 감쇄부는, 상기 장 블록에 대해 49차 비균등 서브 밴드로 분할하고, 상기 단 블록에 대해 14차 비균등 서브 밴드로 분할하여 잡음 감쇄를 수행하는 것을 특징으로 한다.
상기 또 다른 기술적 과제를 달성하기 위한, 본 발명의 또 다른 실시 예에 따른 상기 잡음 감쇄를 위한 오디오 신호 부호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체를 포함한다.
본 발명의 일 실시 예에 따른 오디오 신호 부호화는 MPEG AAC의 MDCT 영역에서의 프레임 크기 전환 특성에 상응하는 잡음 감쇄를 수행하며, MPEG AAC 인코딩 시 다중 프레임 크기 및 MPEG AAC 인코딩 구조에 적합한 잡음 감쇄를 AAC 인코더 내부에 적용하여 계산량을 줄이면서도 잡음 감쇄 성능을 향상시킬 수 있다.
도 1은 종래기술에 따른 MPEG-AAC 부호화구조에서의 잡음 감쇄를 설명하기 위한 도면이다.
도 2 및 3은 MPEG-AAC 부호화를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시 예에 따른 오디오 신호 부호화 장치(400)의 개략도이다.
도 5는 도 4에 도시된 잡음 감쇄부(420)의 구체적인 구성을 나타내는 도면이다.
도 6은 본 발명의 다른 실시 예에 따른 오디오 신호 부호화 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 일 실시 예에 따른 차감 계수 T(i,l)의 3차원 그래프의 예시 도이다.
도 8은 본 발명의 일 실시 예에 따른 현재 프레임이 신호 위주인지, 잡음 위주인지에 대한 결정 방법을 설명하기 위한 의사 코드(pseudo code)이다.
도 9는 본 발명의 일 실시 예에 따른 잡음 감쇄를 위한 오디오 신호 부호화 방법의 적용 전과 후의 신호 파형 도이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 본 발명의 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 종래기술에 따른 잡음 감쇄를 위한 MPEG-AAC 부호화 장치(100)를 설명하기 위한 도면이다.
도 1을 참조하면, MPEG-AAC 부호화 장치(100)는 FFT(110), 잡음 감쇄부(120), IFFT(130) 및 AAC(140)를 포함한다. 도시된 것처럼, 종래의 잡음 감쇄 또는 제거는 오디오 신호를 부호화하기 전에 수행되는 것이 일반적이다. 예를 들면 오디오 신호를 단일 프레임 크기로 나누어 FFT 영역에서 잡음 감쇄 처리를 진행하는 것이 일반적이다. 또한, MPEG AAC와 같이 프레임 크기 전환 특성을 지니는 코덱을 사용할 경우 종래의 잡음 감쇄 기술의 경우 구현을 위해 오디오 신호를 주파수 영역으로 변환하기 위해 FFT를 수행하고, 잡음 감쇄 및 역 FFT를 수행한 후 AAC 인코딩을 수행한다.
도 1에 도시된 것처럼, FFT(110)는 시간 영역의 오디오 신호를 잡음 감쇄 과정을 수행하기 위해 주파수 영역으로 변환시키고, IFFT(130)는 잡음 감쇄를 거친 주파수 영역 신호가 AAC 인코딩을 위해 다시 시간 영역 신호로 전환한다. 여기서, FFT 및 IFFT가 차지하는 계산량은 MPEG AAC 부호화 장치(100) 전체 과정의 50%를 상회하고, MPEG AAC와 같이 프레임 크기 전환 특성을 지니는 코덱에 적용하기에 계산량 측면에서 매우 비효율적인 단점이 있다.
도 2 및 3은 MPEG-AAC 부호화를 설명하기 위한 도면이다.
AAC 인코더는 입력 신호를 소정의 샘플 수로 이루어지는 프레임으로 분할한다. 그리고,AAC 인코더는 프레임마다 부호화 처리를 행한다. AAC 방식의 프레임 길이는 장 블록(1024 샘플)과 단 블록(128 샘플)의 2종류가 있다. 여기서, 1프레임과 하나의 블록 길이는 동일하다. 이하의 설명은 도 2에 도시하는 AAC 인코더의 처리 순서이다.
(1) 입력 신호가 프레임화부(201)에 입력된다. 프레임화부(201)는 입력 신호를 소정의 샘플 수로 이루어지는 프레임(장 블록)으로 분할한다. 프레임화부(201)로부터 출력된 신호가 장 블록용 이산 코사인 변환부(이하, 간단히 MDCT 변환부라 한다)(202)와 단 블록용 MDCT 변환부(203)에 입력된다.
장 블록용 MDCT 변환부(202)는 입력된 신호에 대하여 1024점의 MDCT 변환을 행한다. 그리고,장 블록용 MDCT변환부(202)는 MDCT 계수(MDCT1)를 산출한다. 또한,단 블록용 MDCT 변환부(203)는 입력한 신호에 대하여 128점의 MDCT 변환을 행한다. 그리고 단 블록용 MDCT 변환부(203)는 MDCT 계수(MDCT2)를 산출한다. 또한, 1프레임당 단 블록은 8블록 있으므로, MDCT2는 8세트 생성된다.
(2) 프레임화부(201)는 분할한 입력 신호를 장 블록용 심리 청각 분석부(204)로 출력한다. 그리고,장 블록용 심리 청각 분석부(204)는 입력 신호로부터 장 블록용 마스킹 임계값(Th1)과 심리 청각 엔트로피(PE1)를 구한다. 여기서, Th1과 PE1의 산출 방법은 AAC의 표준문서인 ISO/IEC13818-7의 PART 7의 심리 청각 모델에 공지되어 있으므로, 자세한 설명은 생략한다. 마찬가지로, 프레임화부(201)는 프레임으로 분할한 입력 신호를 단 블록용 심리 청각 분석부(205)로 출력한다. 그리고,단 블록용 심리 청각 분석부(205)는 입력 신호로부터 단 블록용 마스킹 임계값(Th2)과 심리 청각 엔트로피(PE2)를 구한다.
여기서, 심리 청각 엔트로피란, 신호를 양자화하는데 최저한 필요한 비트 수를 나타내는 정보량이다. 또한,마스킹이란, 양자화부에 의해서 신호를 양자화했을 때의 오차가 있는 기준 이하이면, 그 오차를 인간이 지각할 수 없다고 하는 현상을 가리킨다. 또한,인간이 지각할 수 없는 오차의 한계를 나타내는 기준값은 마스킹 임계값이라 불린다.
(3) 장 블록으로부터 얻어진 PE1 및 Th1과, 단 블록으로부터 얻어진 PE2 및 Th2가, 블록 길이 판정부(206)에 입력된다. 블록 길이 판정부(206)는 장 블록과 단 블록 중 어느 쪽으로 양자화할 것인지를 판정한다.
일반적으로, 성질이 거의 변화되지 않는 정상적인 신호는 장 블록으로 양자화하는 것이 바람직하다. 그러나, 블록 내에서 진폭이 급격히 변화되는 신호를 장 블록으로 양자화하면,입력 신호에는 없는 프리 에코로 불리는 잡음이 발생한다. 이러한 잡음의 발생은 음질 열화가 원인이 된다. 도 3은 프리 에코의 예를 나타낸 개략도이다. 도 3의 (a)는 부호화하기 전의 입력 신호를 나타낸 개략도이고, 도 3의 (b)는 장 블록만으로 부호화했을 때의 복호 음을 나타낸 그래프이다. 도 3의 (b)의 선두 부분에는 어택음 앞에, 입력 신호에는 없는 잡음이 발생하고 있다.
이러한 잡음은 프리 에코로 불린다. 프리 에코는 양자화 블록 길이를 짧게 함으로써 해소할 수 있다. 그 때문에,AAC 방식은 블록 길이 판정부(206)에서 입력 신호의 성질을 판별하고 있다. 그리고, 블록 길이 판정부(206)는 양자화에 최적인 블록 길이를 판정한다. 구체적으로는,블록 길이 판정부(206)는 PE1>PE1_thr이면 장 블록을 선택하고, 그 외의 경우에는 단 블록을 선택한다. 여기서, PE1_thr는 미리 정해진 임계값(상수)이다.
(4) 블록 길이 판정부(206)의 판정 결과는 MDCT를 선택하는 선택기(207)로 출력된다. 또한,블록 길이 판정부(206)가 선택한 마스킹 임계값은 스펙트럼 양자화부(208)에 출력된다. 즉, 블록 길이 판정부(206)가 장 블록을 선택한 경우에는 MDCT1과 Th1이 스펙트럼 양자화부(208)에 입력된다. 또한,블록 길이 판정부(206)가 단 블록을 선택한 경우에는 MDCT2와 Th2가 스펙트럼 양자화부(208)에 입력된다.
(5) 스펙트럼 양자화부(208)는 입력된 마스킹 임계값에 따라 주파수 대역마다 MDCT 계수를 양자화한다. 그리고, 스펙트럼 양자화부(208)는 양자화 부호 1을 출력한다.
(6) 스펙트럼 양자화부(208)로부터 출력된 양자화 부호 1은 허프만 부호화부(209)에 입력된다. 허프만 부호화부(209)는 양자화 부호 1을 양자화 부호 1보다도 더욱 용장도(redundancy)가 제거된 양자화 부호 2로 변환한다.
(7) 양자화 부호 2는 허프만 부호화부(209)로부터 양자화 제어부(211)로 출력된다. 그리고, 양자화 제어부(211)는 입력한 양자화 부호 2로부터, 최종적으로 출력되는 비트스트림의 총 비트 수를 계산한다. 또한,도 2에서 점선으로 둘러싸인 범위는 양자화 제어부(211)가 제어 가능한 범위이다.
(8) 양자화 제어부(211)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 상회하는 경우, 처리 (5) 내지 처리 (7)을 반복하도록, 스펙트럼 양자화부(208)와 허프만 부호화부(209)를 제어한다. 또한,양자화 제어부(211)는 계산한 총 비트 수가 현 블록에 허용되는 비트 수를 하회하는 경우, 허프만 부호화부(209)로부터 비트스트림 생성부(210)에 대하여 양자화 부호 2를 출력시킨다. 그리고, 양자화 제어부(211)는 비트스트림 생성부(210)가 비트스트림을 출력하도록 제어한다.
여기서, AAC 방식의 양자화 프로세스의 상세를 설명한다.
(a) AAC 방식은 MDCT 스펙트럼의 지수부를 초기값으로 설정한다.
(b) ACC 방식은 MDCT 스펙트럼을 가수부와 지수부로 변형한다. 즉, AAC 방식은 MDCT 스펙트럼을 부동 소수점 표시로 변형한다. 그리고, AAC 방식은 가수부를 양자화한다(MDCT 양자화).
(c) ACC 방식은 (b)에서 양자화된 가수부와 지수부를 허프만 부호화했을 때에 필요로 되는 비트 수(총 비트수)를 구한다.
(d) ACC 방식은 (c)에서 구한 총 비트 수가 현 프레임에 허용된 양자화 비트 수(허용 비트 수) 이하이면, 양자화를 종료한다. AAC 방식은 총 비트 수가 허용 비트 수 이상인 경우에는 (a)에서 설정한 지수부를 부적당하다고 판단한다. 그리고, AAC 방식은 지수부를 변경해서 (b) 내지 (d)의 처리를 반복한다. 그리고, AAC 방식은 총 비트 수가 허용 비트 수 이하로 되는 지수부를 결정한다.
즉, AAC 방식은 우선 지수부를 임시로 고정한다. 그리고, AAC 방식은 가수부를 결정해서 MDCT 스펙트럼의 양자화를 행한다. 그리고 AAC 방식은 MDCT 스펙트럼을 지수부와 가수부로 변형했을 때의 양자화 오차가 허용 오차 이하로 된 총 비트 수를 구한다. 그리고,AAC 방식은 총 비트 수가 미리 설정된 비트 레이트보다도 크면 부적당하다고 판단한다. 그리고,AAC 방식은 지수부를 변경하여, 다시, MDCT 스펙트럼의 지수부의 고정 처리 및 가수부의 양자화 처리를 행한다. 그리고 ACC 방식은 양자화 오차가 허용 오차 이하이며, 또한, 총 비트 수가 설정된 비트 레이트 이하로 되는 최적의 지수부와 가수부를 결정한다.
이상과 같이, AAC 방식은 양자화와 허프만 부호화를 행한 후에, 필요한 총 비트 수를 계산한다. 그리고,AAC방식은 총 비트 수가 현 프레임에 허용되는 허용 비트 수 이하로 되는 최적의 지수부와 가수부를 결정한다. 여기서, 최적은 양자화 오차가 허용 오차 이하로 되는 것을 의미한다.
일반적인 잡음 감쇄 기술은 FFT 영역에서 단일 프레임 크기에 대해서만 그 처리가 진행되므로 MPEG AAC와 같이 프레임 크기 전환 특성, 즉 장 블록 및 단 블록으로 프레임의 크기를 변환하는 특성을 지니는 코덱에 적용하기 위해서는 도 1에 도시된 것과 같은 FFT, IFFT 과정이 추가로 요구된다. 또한, 오디오 코덱 내부의 주파수 영역 변환 과정을 공유할 경우 특정 크기의 프레임에 대해서만 정상적인 잡음 감쇄가 진행되기 때문에 프레임 크기 전환 특성을 지니는 코덱을 사용한 경우, 불연속적인 잡음 감쇄 동작으로 인하여 매우 부자연스러운 오디오 신호의 처리 결과를 얻게 된다. 따라서 MPEG AAC와 같이 프레임 크기 전환 특성을 지니는 코덱 기반의 시스템에서 계산량, 성능 측면에서 효율적인 잡음 감쇄를 진행하기 위해서는 주파수 영역 변환 과정을 공유하면서 다중 프레임 크기를 고려하여 프레임 간 잡음 감쇄 처리 결과가 연속적으로 표현될 수 있는 기술이 필요하다. 또한, 코덱 내부 통합 시 계산량 대비 잡음 감쇄 성능을 증대하기 위해 해당 코덱의 영역 변환 형식 및 양자화를 위해 정의된 서브 밴드 분할 구조를 고려하는 잡음 감쇄가 이루어져야 한다.
본 발명의 일 실시 예에 따른 오디오 신호 부호화는 MPEG AAC의 MDCT 영역에서의 프레임 크기 전환 특성에 상응하는 잡음 감쇄를 수행하며, MPEG AAC 인코딩 시 다중 프레임 크기 및 MPEG AAC 인코딩 구조에 적합한 잡음 감쇄를 AAC 인코더 내부에 적용하여 계산량을 줄이면서도 잡음 감쇄 성능을 향상시킬 수 있다.
도 4는 본 발명의 일 실시 예에 따른 오디오 신호 부호화 장치(400)의 개략도이다.
도 4를 참조하면, 오디오 신호 부호화 장치(400)는 MDCT 변환부(410), 잡음 감쇄부(420) 및 AAC 부호화부(430)를 포함한다. 본 발명의 일 실시 예에 따른 오디오 신호 부호화 장치(400)는 도 3에 도시된 AAC 인코더(200) 구성에 잡음 감쇄부(420)를 적용한 것이다.
MDCT 변환부(410)는 오디오 신호를 입력받아 장 블록 및 단 블록으로 변형 이산 코사인 변환한다. MDCT 변환은 도 2를 참조하여 설명한 것처럼, 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 것으로, 오디오 신호의 프레임들을 장 블록 및 단 블록으로 변환한다. 본 발명의 일 실시 예에 따른 오디오 신호 부호화는 MPEG AAC에 따라 1024포인트의 장 블록 또는 롱 타입과, 128포인트의 단 블록 또는 숏 타입으로 구분하여 변환한다. 또한, 도 2에 도시된 블록 길이 판정부(206)의 판정 결과에 따라 선택기(207)가 장 블록 MDCT 변환을 수행하거나 단 블록 MDCT 변환을 수행하여 선택적으로 잡음 감쇄 처리를 수행한다. 즉, AAC의 블록 스위칭에 따라 장 블록 또는 단 블록에 대해 잡음 감쇄를 수행한다. 여기서, 장 블록 또는 단 블록은 오디오 신호의 형태에 따라 다양한 순서로 나타날 수 있기 때문에 가변 프레임 길이 특성에 맞도록 잡음 감쇄를 수행한다.
잡음 감쇄부(420)는 MDCT 변환부(410)가 변환한 장 블록 및 단 블록 각각에 상응하도록 오디오 신호에 존재하는 잡음을 감쇄시킨다. 잡음 감쇄부(420)는 장 블록 또는 단 블록의 결정은 오디오 신호의 형태에 따라 다양한 순서로 나타날 수 있기 때문에 가변 프레임 길이 특성에 맞도록 잡음 감쇄를 수행한다. 장 블록의 경우에는 스펙트럼 차감 기반으로 잡음을 직접 제거, 즉 원 오디오 신호에서 기 저장된 잡음의 주파수 패턴을 차감하지만, 단 블록의 경우에는 스펙트럼 차감 기반으로 잡음을 직접 제거한다면, 주파수 해상도가 128 포인트로 크게 떨어지고, 뮤지컬 잡음이나 음질 저하와 같은 외적 효과가 발생하기 때문에, 이전의 장 블록의 잡음 감쇄 후의 잡음 파워 감쇄 폭에 기반한 스펙트럼 감쇄, 즉 신호의 스케일링 팩터를 조절하는 방식으로 잡음을 감쇄시킨다. 잡음 감쇄의 구체적인 구성은 도 5를 참조하여 후술한다.
AAC 부호화부(430)는 잡음 감쇄부(420)로부터 출력된 잡음 감쇄된 장 블록 및 단 블록에 대해 AAC 부호화를 수행하여 비트스트림을 출력한다. AAC 부호화는 도 2를 참조하여 설명한 바와 같다. AAC 부호화부(430)의 장 블록 또는 단 블록의 블록 스위칭에 따라 잡음 감쇄부(420)에서 장 블록 또는 단 블록에 대해 잡음 감쇄를 수행한 후, AAC 부호화부(430)에서 부호화를 수행한다.
도 5는 도 4에 도시된 잡음 감쇄부(420)의 구체적인 구성을 나타내는 도면이다.
도 5를 참조하면, 잡음 감쇄부(420)는 장 블록 및 단 블록에 대해 서브 밴드 분할을 수행하는 서브 밴드 분할부(421 및 426), SNR 측정부(422), 차감부(423), 차감 정보 저장부(424), 마스킹부(425), 파워 매칭부(427) 및 감쇄부(428)를 포함한다. 잡음 감쇄부(420)는 장 블록에 대해서는 비선형 멀티 밴드 스펙트럼 차감을 수행하고, 단 블록에 대해 장 블록의 스펙트럼 차감에 기초하여, 단 블록의 서브 밴드의 스케일링 팩터를 조절하는 스펙트럼 감쇄를 수행한다. 즉, 장 블록에 대해서는 잡음 직접 제거를 수행하며, 단 블록에 대해서는 스케일링 팩터를 조절하는 잡음 감쇄를 수행한다. 여기서, 장 블록 및 단 블록에 대한 잡음 감쇄를 구분하기 위해, 스펙트럼 차감 및 스펙트럼 감쇄의 용어를 구분하여 사용한다.
본 발명의 일 실시 예에 따른 잡음 감쇄부(420)는 도 2에 도시된 MPEG AAC 인코더 내부에 통합되며, 주파수 영역에서의 잡음 감쇄에 필수적인 FFT나 DCT 등의 신호 처리 영역 변환, 역변환 모듈이 요구하는 상대적으로 높은 계산량 소모를 피하기 위해 AAC 인코더의 MDCT 변환을 포함하는 필터 뱅크(filter bank) 모듈의 연산 결과인 프레임별 MDCT 계수를 입력 신호로 이용한다. 또한, 필터 뱅크 모듈의 MDCT 연산 결과를 사용할 뿐만 아니라, MPEG AAC 인코더가 사용하는 가변 프레임 길이 및 비선형 스케일 팩터 밴드를 고려하여 해당 구조를 유지하며 잡음 감쇄를 수행한다. 가변 프레임 길이 특성은 MPEG AAC 인코더가 도 3에 도시된 프리 에코(pre-echo), 또는 포스트-에코(post-echo) 현상을 제거하기 위해 도입한 블록 스위칭(block-switching)에 의해 발생하는 것이다. 가변 프레임 길이 특성은 오디오 신호의 프레임 크기를 각각 1024포인트, 128포인트의 장 블록(또는 롱 타입)과, 단 블록(또는 숏 타입)으로 구분한 뒤 이에 맞는 MDCT 변환 계수를 생성한다. 장 블록과 단 블록의 프레임 결정 입력은 도 2를 참조하여 설명한 바와 같이 결정되며, 오디오 신호의 형태에 따라 다양한 순서로 나타날 수 있기 때문에 가변 프레임 길이 특성에 호환되도록 잡음 감쇄를 수행한다.
도 5에 도시된 것처럼, 장 블록의 프레임에 대해서는 스펙트럴 차감 기반의 잡음 직접 제거를 진행하지만 단 블록의 프레임에 대해서도 스펙트럴 차감을 진행한다면 주파수 해상력이 128포인트로 크게 떨어지고, 뮤지컬 잡음이나 음질 저하와 같은 외적 효과가 발생하기 때문에 이전의 장 블록의 프레임의 잡음 감쇄 후의 잡음 파워 감쇄 폭에 기반한 스펙트럴 감쇄를 진행한다.
장 블록에 대한 잡음 감쇄의 경우, 인간의 청각적 인지 특성을 고려하여 구성된 스케일 팩터 밴드를 활용한 비선형 멀티밴드 스펙트럴 차감 기법을 적용하여 MPEG AAC 인코더의 프레임 구조를 유지하면서 잡음 감쇄의 성능을 높이도록 구현된다. 이러한 비선형 멀티밴드 스펙트럴 차감 기법은 백색 잡음(white noise) 및 색잡음(colored noise) 제거에 효과를 보이는 것으로 M. F. A. Chowdhury 등의 “Perceptually weighted multi-band spectral subtraction speech enhancement technique,” in Proc. International Conference on Electrical and Computer Engineering, pp. 20-22, Dec. 2008 에 공지되어 있다.
현재 부호화되는 프레임이 장 블록으로 결정된 경우, 서브 밴드 분할부(421)는 장 블록에 대해 다수의 서브 밴드로 분할한다. 가변적 프레임 길이에 대응하는 잡음 감쇄 과정에서, 현재 프레임이 장 블록으로 판단된 경우 해당 프레임은 49차 비균등 스케일 팩터 밴드로 정의된다. 한편, 현재 부호화되는 프레임이 단 블록으로 결정된 경우, 서브 밴드 분할부(426)는 단 블록에 대해 다수의 서브 밴드로 분할한다. 해당 프레임은 14차 비균등 스케일 팩터 밴드로 정의된다.
SNR 측정부(422)는 서브 밴드 분할부(421)에서 분할한 장 블록에 대한 서브 밴드 각각에 대한 신호대 잡음 비를 측정한다.
서브 밴드 분할부(421)에서 정의된 49차 비균등 스케일 팩터 밴드의 1프레임의 길이의 잡음 패턴과 서브 밴드 간 파워 비교를 통해 해당 입력 프레임의 서브 밴드별 SNR을 취득한다. 일반적은 SNR 측정은 다음 수학식 1과 같다.
Figure pat00001
여기서, |Y(k)|, |N(k)| 는 각각 입력 오디오 신호의 MDCT 계수 크기, 잡음 패턴의 MDCT 계수 크기를 나타낸다. 또한, Sb(i)는 해당 서브 밴드의 SNR 값이며, B는 서브 밴드별 범위 인덱스를 나타낸다.
상기 수학식 1을 이용하여 직접 서브 밴드별 SNR을 구하는 것은 계산량 측면에서 비효율적이므로 SNR의 표현 단계를 이산적으로 설정한 뒤 다음 수학식 2에 나타나는 비교 식을 통해 그 값을 간접적으로 구할 수 있다.
Figure pat00002
여기서, Sc(l)은 이산적으로 정의된 SNR 단계들로서, 해당 단계들을 세밀하게 정의할수록 정확한 서브 밴드 SNR측정이 가능하지만 그에 따른 계산량 상승폭이 커지기 때문에 이에 대한 타협점이 필요하다. 본 발명의 일 실시 예에서는 허용 계산량 대비 성능을 고려하여 21dB부터 -3 dB까지 3 dB 단위로 총 10단계의 SNR 값으로 구성한다.
차감부(423)는 SNR 측정부(422)에서 측정한 신호대 잡음 비와, 신호대 잡음 비에 상응하는 심리 음향 곡선에 대한 정보와, 서브 밴드별 가중치를 고려한 차감 계수를 기초로 스펙트럼 차감을 수행한다. 여기서, 심리 음향 곡선에 대한 정보는 차감 정보 저장부(424)에 저장되어 있으며, 차감부(423)는 측정한 신호대 잡음 비와 이에 대한 심리 음향 곡선에 대한 정보를 차감 정보 저장부(424)에서 추출한다.
차감부(423)에서 수행하는 스펙트럴 차감은 측정된 서브 밴드별 SNR 값에 해당하는 심리 음향 곡선과, 가중치를 고려한 차감 계수, 즉 T(i,l)에 따라 다음 수학식 3에 따라 진행된다.
Figure pat00003
여기서, X'(k)는 스펙트럼 차감된 신호를 나타내고, Y(k)가 0 이상이면 sgn(Y(k))=1이고, 그렇지 않으면 sgn(Y(k))= -1이다. T(i,l)는 다음 수식과 같이SNR별 차감 함수와 각 서브 밴드별 가중치 정보를 포함하는 심리 음향 곡선, 즉 P(i)의 조합으로 표현된다. P(i)는 다음 수학식 4로 나타난다.
Figure pat00004
여기서, L은 상기 수학식 2의 Sc(l)에 대응되는 이산 SNR 단계의 수이고, Gmax와 Gmin은 T(i,l)의 최대 및 최소 범위를 나타낸다.
도 7을 참조하면, Gmax와 Gmin을 각각 5와 1로 설정한 T(i,l)의 3차원 그래프가 도시되어 있다.
마스킹부(425)는 차감 계수를 증폭시켜 오버 차감(over subtraction)하고, 감쇄된 장 블록에 상응하는 오디오 신호를 이용한 마스킹을 수행한다.
상기 수학식 4에 의한 잡음 감쇄는 밴드별 가중치를 고려하지 않는 기존의 단순 스펙트럴 차감 방식에 비하여 다양한 잡음 상황에 대해서 효율적인 잡음 감쇄가 가능하지만 뮤지컬 잡음에 대한 문제가 여전히 남아있다. 본 발명의 일 실시 예에서는 이러한 문제를 해결하기 위해 차감 계수를 증폭시켜 뮤지컬 잡음을 직접적으로 제거하는 오버 차감(over-subtraction)을 진행한 후 이로 인해 사라지는 낮은 SNR의 신호 성분들을 일부 보상하고 잔여 뮤지컬 잡음의 인지율을 낮추기 위한 감쇄 원 신호를 이용한 마스킹 처리를 수행한다. 이는 가용 계산량이 제한적인 휴대용 기기, 예를 들면 스마트 폰, 디지털 카메라와 같은 플랫폼 내에서 적은 비용으로 뮤지컬 잡음 발생 문제를 줄이는 데 효과적이다. 오버 차감(over-subtraction)이 적용된 스펙트럴 차감은 다음의 수학식 5와 같다.
Figure pat00005
여기서 α는 차감 증폭 계수로서 매 프레임이 잡음 프레임인지, 신호 프레임인지의 판단에 따라 업데이트되는 변수이며, 프레임의 타입에 적응적으로 오버 차감의 정도를 조절한다. α의 업데이트는 이전 프레임의 αprev와 변경 상수 Odiff, 제한 상수 Omin, Omax에 의해 다음 수학식 6과 같이 표현된다.
Figure pat00006
여기서, fcurrent는 현재 프레임이 신호 위주인지, 잡음 위주인지에 대한 판단 신호로서, 이에 대한 결정 방법은 도 8에 도시된 의사 코드(pseudo code)에 도시되어 있다.
오버 차감을 거친 MDCT 계수는 다음 수학식 7에 따라 뮤지컬 잡음 마스킹을 진행한다.
Figure pat00007
여기서 β는 1보다 작은 계수로서, 잡음 감쇄 효과 대비 음질 감소, 뮤지컬 잡음 발생 등의 부작용 정도의 비율을 조절하는 튜닝 파라미터 역할을 한다.
파워 매칭부(427)는 마스킹부(425)로부터 제공된 장 블록의 잡음 감쇄에 따른 일정 범위의 서브 밴드별 오디오 신호에 대한 평균 파워와 장 블록에 대응하는 단 블록의 일정 범위의 서브 밴드별 오디오 신호에 대한 평균 파워를 비교하고, 단 블록의 감쇄율을 결정하고, 감쇄부(428)는 결정된 감쇄율에 따라 단 블록에 대해 스케일링 팩터를 조절하는 스펙트럼 감쇄를 수행한다.
파워 매칭부(427) 및 감쇄부(428)는 단 블록에 대해 서브 밴드 분할부(426)에서 출력된 14차 비균등 스케일 팩터 밴드에 대해 잡음 감쇄를 수행한다.
본 발명의 일 실시 예에서, 현재 프레임이 단 블록으로 판단된 경우는 단순히 스펙트럼 감쇄를 통해 전반적인 신호를 줄이는데, 이는 스펙트럼 차감된 이전의 장 블록의 프레임과 파워 매칭을 통해 신호 크기의 일관성을 유지한다. 전반적인 스펙트럼 감쇄는 잡음뿐 아니라 신호성분까지 파워를 줄여 원 신호를 왜곡시키지만 MPEG AAC 인코더 내의 블록 스위칭 모듈이 단 블록 프레임 처리를 진행하는 시점은 대부분 시간 영역 상에서 신호가 임펄스 형태로 갑자기 크기가 커지는 짧은 구간이기 때문에 전체적인 신호 왜곡은 작은 수준이다.
단 블록 프레임의 스펙트럼 감쇄 폭은 이전의 장 블록 프레임에서 미리 구한 일정 대역에 대한 평균 파워와 현재의 단 블록 프레임의 동일 대역에 대한 평균 파워를 비교하여 구한다.
본 발명의 일 실시 예에 따른 잡음 감쇄는 MPEG AAC 인코더 내부에 통합 가능한 구조로서 MPEG AAC 기반 시스템에 이를 구현 시 종래의 잡음 감쇄 기법과 대비 잡음 감쇄 성능을 높이면서 계산량을 감축시킬 수 있다. 따라서, MPEG AAC 기반 오디오 녹화 장치, 예를 들면 스마트 폰, 디지털 카메라, 캠코더 등에 낮은 요구 계산량 및 메모리로 구현이 가능하여 잡음 감쇄 기술의 적용 범위를 넓힐 수 있다.
도 6은 본 발명의 다른 실시 예에 따른 오디오 신호 부호화 방법을 설명하기 위한 흐름도이다.
도 6을 참조하면, 단계 600 및 602에서, 오디오 신호를 입력받아, MDCT 변환한다. 단계 604에서, 현재 AAC 부호화를 하고자하는 프레임이 장 블록 또는 단 블록인지 판단한다. 본 발명의 일 실시 예에 따른 잡음 감쇄는 AAC 부호화에서 사용되는 블록 스위칭에 맞추어, 장 블록 또는 단 블록에 대한 잡음 감쇄를 수행한다. 현재 처리되어야 할 프레임이 장 블록으로 결정된 경우, 단계 606에서, 현재 프레임을 장 블록 서브 밴드, 49차 비균등 스케일 팩터 밴드로 분할한다.
단계 608에서, 서브 밴드별로 SNR을 측정한다. 가변적 프레임 길이에 대응하는 잡음 감쇄 과정에서, 현재 프레임이 장 블록으로 판단된 경우 해당 프레임은 49차 비균등 스케일 팩터 밴드로 정의되고, 이들은 같은 스케일 팩터 밴드로 정의된 1프레임 길이의 잡음 패턴과 서브 밴드 간 파워 비교를 통해 해당 입력 프레임의 서브 밴드별 SNR을 측정한다. 서브 밴드별 SNR 측정은 상기 수학식 1 및 2를 참조하여 설명한 바와 같다.
단계 610에서, 스펙트럼 차감을 수행한다. 단계 608에서, 측정된 서브 밴드별 SNR 값과, 이에 해당하는 심리 음향 곡선 기반의 가중치를 고려한 차감 계수를 이용하여 스펙트럼 차감을 수행한다. 스펙트럼 차감은 상기 수학식 3 및 4를 참조하여 설명한 바와 같다.
단계 612에서, 마스킹을 수행한다. 단계 610에서의 스펙트럼 차감 방식 대비 다양한 잡음 상황에 대해서 효율적인 잡음 감쇄가 이루어지지만, 뮤지컬 잡음에 대한 문제를 해결하기 위한 마스킹을 수행한다. 뮤지컬 잡음이란 잡음 제거 이득에 의해 잡음이 제거된 후 남게 되는 정현적인 성분으로 음질을 저하하는 요인이다. 본 발명의 일 실시 예에서는 뮤지컬 잡음 문제를 해결하기 위해 스펙트럼 차감에 사용된 차감 계수를 증폭시켜 뮤지컬 잡음을 직접적으로 제거하는 오버 차감을 진행한 후 이로 인해 사라지는 낮은 SNR의 신호 성분들을 일부 보상하고 잔여 뮤지컬 잡음의 인지율을 낮추기 위한 감쇄 원 신호를 이용한 마스킹 처리를 수행한다. 이는 가용 계산량이 제한적인 휴대용 디지털 기기의 플랫폼 내에서 적은 비용으로 뮤지컬 잡음 발생 문제를 해결할 수 있다.
단계 614에서, 잡음 감쇄 처리된 장 블록에 대해 AAC 부호화를 수행한다.
단계 604에서, 현재 부호화되는 프레임이 단 블록으로 결정된 경우, 단계 616에서, 단 블록에 대해 다수의 서브 밴드로 분할한다. 여기서, 단 블록의 프레임은 14차 비균등 스케일 팩터 밴드로 정의된다.
단계 618에서, 단계 612에서 잡음 감쇄 처리된 장 블록과 파워 매칭을 수행하여, 감쇄율을 결정한다. 단계 620에서, 스펙트럼 감쇄를 수행한다. 현재 프레임이 단 블록으로 판단된 경우는 단순히 스펙트럼 감쇄를 통해 전반적인 신호를 줄이는데, 이는 스펙트럼 차감 처리된 이전의 장 블록 프레임과 파워 매칭을 통해 신호 크기의 일관성을 유지한다. 단계 620에서 수행하는 전반적인 스펙트럼 감쇄는 잡음뿐 아니라 신호 성분까지 파워를 줄여 원 신호를 왜곡시킬 수 있지만, MPEG AAC 인코더 내의 블록 스위칭 모듈이 단 블록 프레임 처리를 진행하는 시점이 대부분 시간 영역 상에서 신호가 임펄스 성분으로 갑자기 크기가 커지는 짧은 구간이기 때문에 전체적인 신호 왜곡은 작은 수준이기 때문에, 스펙트럼 감쇄가 미치는 영향이 작다.
단계 614에서, 잡음 감쇄 처리된 단 블록에 대해 AAC 부호화를 수행한다.
다음 표 1 내지 3은 본 발명의 일 실시 예에 따른 잡음 감쇄를 위한 AAC 부호화 모듈을 디지털 휴대 기기인 디지털 카메라의 프로세서에 탑재하여 성능을 테스트한 실험 결과들이고, 도 9는 잡음 감쇄 전과 후의 파형 도이다.
프레임 단위 계산량 평균
본 발명의 실시 예를 적용하지 않은 경우 87.81MIPS
본 발명의 실시 예를 적용한 경우 17.41 MIPS
잡음 감쇄 전 SNR 평균 잡음 감쇄 후 SNR 평균
음성 18.34dB 29.45dB
클래식 21.23dB 27.93dB
가요 22.21dB 26.96dB
평균 20.63dB 28.11dB
잡음 감쇄 전 신호의 선호도 잡음 감쇄 후 신호의 선호도
음성 0% 100%
클래식 9% 91%
가요 9% 91%
평균 6% 94%
상기 표 1에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 잡음 감쇄를 적용할 경우, 약 80.2%의 계산량 감축을 나타냈다.
잡음 감쇄 성능 측정에서는 평균 SNR 20.63dB를 지니는 음원들에 대하여 본 발명의 일 실시 예에 따른 잡음 감쇄 방법을 적용할 시 처리 결과의 SNR 감쇄 폭을 측정하고 잡음 감쇄 처리 전과 후의 평균 선호도 평가를 진행하였다. 표 2에 도시된 바와 같이, 잡음 감쇄 기법의 적용 전과 후의 평균 SNR 크기는 7.48dB 상승한 것으로 나타났으며, 테스트 음원들에 대한 선호도 평가 결과는 표 3에 도시된 바와 같이, 잡음 감쇄 방법을 적용한 음원들이 평균 94%의 높은 선호도를 나타냈다.
본 발명에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.
본 발명에서 인용하는 공개 문헌, 특허 출원, 특허 등을 포함하는 모든 문헌들은 각 인용 문헌이 개별적으로 및 구체적으로 병합하여 나타내는 것 또는 본 발명에서 전체적으로 병합하여 나타낸 것과 동일하게 본 발명에 병합될 수 있다.
본 발명의 이해를 위하여, 도면에 도시된 바람직한 실시 예들에서 참조 부호를 기재하였으며, 본 발명의 실시 예들을 설명하기 위하여 특정 용어들을 사용하였으나, 특정 용어에 의해 본 발명이 한정되는 것은 아니며, 본 발명은 당업자에 있어서 통상적으로 생각할 수 있는 모든 구성 요소들을 포함할 수 있다.
본 발명은 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 발명은 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 본 발명에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 발명은 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 발명은 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단”, “구성”과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.
본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
본 발명의 명세서(특히 특허청구범위에서)에서 “상기”의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.
410: MDCT 변환부
420: 잡음 감쇄부
430: AAC 부호화부
421, 426: 서브 밴드 분할부
422: SNR 측정부
423: 차감부
424: 차감 정보 저장부
425: 마스킹부
427: 파워 매칭부
428: 감쇄부

Claims (20)

  1. 오디오 신호를 입력받아 장 블록 및 단 블록으로 변형 이산 코사인 변환(Modified Discrete Cosine Transformation)하는 단계;
    상기 변환한 장 블록 및 단 블록 각각에 상응하도록 상기 오디오 신호에 존재하는 잡음을 감쇄시키는 단계; 및
    상기 잡음 감쇄된 장 블록 및 단 블록에 대해 AAC(Advanced Audio Coding) 부호화하는 단계를 포함하는 잡음 감쇄를 위한 오디오 신호 부호화 방법.
  2. 제 1 항에 있어서,
    상기 잡음 감쇄 단계는,
    상기 장 블록에 대해 비선형 멀티 밴드 스펙트럼 차감을 수행하고, 상기 단 블록에 대해 상기 장 블록의 스펙트럼 차감에 기초하여, 상기 단 블록의 스펙트럼 감쇄를 수행하는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 방법.
  3. 제 1 항에 있어서,
    상기 잡음 감쇄 단계는,
    상기 변환한 장 블록에 대해 다수의 서브 밴드로 분할하는 단계;
    상기 분할한 서브 밴드 각각에 대한 신호대 잡음 비를 측정하는 단계; 및
    상기 측정한 신호대 잡음 비에 상응하는 심리 음향 곡선에 대한 정보와, 상기 서브 밴드별 가중치를 고려한 차감 계수를 기초로 스펙트럼 차감을 수행하는 단계를 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 방법.
  4. 제 3 항에 있어서,
    상기 차감 계수를 증폭시켜 오버 차감(over subtraction)하고, 감쇄된 장 블록에 상응하는 오디오 신호를 이용한 마스킹을 수행하는 단계를 더 포함하는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 방법.
  5. 제 1 항에 있어서,
    상기 단 블록에 대한 잡음 감쇄율은,
    상기 장 블록의 잡음 감쇄에 따른 일정 범위의 오디오 신호에 대한 평균 파워와 상기 장 블록에 대응하는 단 블록의 상기 일정 범위의 오디오 신호에 대한 평균 파워를 비교함으로써 결정되는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 방법.
  6. 제 1 항에 있어서,
    상기 잡음 감쇄 단계는,
    상기 AAC 부호화에 필요한 상기 오디오 신호의 가변 프레임 길이 및 비선형 스케일 팩터 밴드를 기초로 수행되는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 방법.
  7. 제 1 항에 있어서,
    상기 잡음 감쇄 단계는,
    상기 MDCT 변환에 따른 MDCT 계수를 이용하여 수행되는 것을 특징으로 하는 잡음 감쇄를 위한 잡음 감쇄를 위한 오디오 신호 부호화 방법.
  8. 제 1 항에 있어서,
    상기 잡음 감쇄 단계는,
    상기 AAC 부호화의 블록 스위칭에 따라 상기 오디오 신호가 1024포인트의 장 블록 및 128포인트의 단 블록으로 분할되어 수행되는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 방법.
  9. 제 1 항에 있어서,
    상기 AAC 부호화한 오디오 신호를 기록매체에 저장하는 단계를 더 포함하는 잡음 감쇄를 위한 오디오 신호 부호화 방법.
  10. 제 1 항에 있어서,
    상기 장 블록에 대해 49차 비균등 서브 밴드로 분할하여 잡음 감쇄를 수행하는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 방법.
  11. 제 1 항에 있어서,
    상기 단 블록에 대해 14차 비균등 서브 밴드로 분할하여 잡음 감쇄를 수행하는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 방법.
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 따른 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체.
  13. 오디오 신호를 입력받아 장 블록 및 단 블록으로 변형 이산 코사인 변환하는 MDCT 변환부;
    상기 변환한 장 블록 및 단 블록 각각에 상응하도록 상기 오디오 신호에 존재하는 잡음을 감쇄시키는 잡음 감쇄부; 및
    상기 잡음 감쇄된 장 블록 및 단 블록에 대해 AAC 부호화하는 AAC 부호화부를 포함하는 잡음 감쇄를 위한 오디오 신호 부호화 장치.
  14. 제 13 항에 있어서,
    상기 잡음 감쇄부는,
    상기 장 블록에 대해 비선형 멀티 밴드 스펙트럼 차감을 수행하고, 상기 단 블록에 대해 상기 장 블록의 스펙트럼 차감에 기초하여, 상기 단 블록의 서브 밴드의 스케일링 팩터를 조절하는 스펙트럼 감쇄를 수행하는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 장치.
  15. 제 13 항에 있어서,
    상기 잡음 감쇄부는,
    상기 변환한 장 블록에 대해 다수의 서브 밴드로 분할하는 장 블록 서브 밴드 분할부;
    상기 분할한 서브 밴드 각각에 대한 신호대 잡음 비를 측정하는 SNR 측정부;
    상기 측정한 신호대 잡음 비에 상응하는 심리 음향 곡선에 대한 정보와, 상기 서브 밴드별 가중치를 고려한 차감 계수를 기초로 스펙트럼 차감을 수행하는 차감부; 및
    상기 차감 계수를 증폭시켜 오버 차감(over subtraction)하고, 감쇄된 장 블록에 상응하는 오디오 신호를 이용한 마스킹을 수행하는 마스킹부를 포함하는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 장치.
  16. 제 15 항에 있어서,
    상기 잡음 감쇄부는,
    상기 변환한 단 블록에 대해 다수의 서브 밴드로 분할하는 단 블록 서브 밴드 분할부;
    상기 마스킹부로부터 제공된 상기 장 블록의 잡음 감쇄에 따른 일정 범위의 서브 밴드별 오디오 신호에 대한 평균 파워와 상기 장 블록에 대응하는 단 블록의 상기 일정 범위의 서브 밴드별 오디오 신호에 대한 평균 파워를 비교함으로써 상기 단 블록의 감쇄율을 결정하는 파워 매칭부; 및
    상기 결정한 감쇄율에 따라 상기 단 블록의 잡음 감쇄를 수행하는 감쇄부를 포함하는 잡음 감쇄를 위한 오디오 신호 부호화 장치.
  17. 제 13 항에 있어서,
    상기 잡음 감쇄부는,
    상기 AAC 부호화에 필요한 상기 오디오 신호의 가변 프레임 길이 및 비선형 스케일 팩터 밴드를 기초로 잡음 감쇄를 수행하는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 장치.
  18. 제 13 항에 있어서,
    상기 잡음 감쇄부는,
    상기 MDCT 변환부로부터 출력된 MDCT 계수를 이용하여 잡음 감쇄를 수행하는 것을 특징으로 하는 잡음 감쇄를 위한 잡음 감쇄를 위한 오디오 신호 부호화 장치.
  19. 제 13 항에 있어서,
    상기 잡음 감쇄부는,
    상기 AAC 부호화부의 블록 스위칭에 따라 상기 오디오 신호가 1024포인트의 장 블록 및 128포인트의 단 블록으로 분할되어 잡음 감쇄를 수행하는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 장치.
  20. 제 13 항에 있어서,
    상기 잡음 감쇄부는,
    상기 장 블록에 대해 49차 비균등 서브 밴드로 분할하고, 상기 단 블록에 대해 14차 비균등 서브 밴드로 분할하여 잡음 감쇄를 수행하는 것을 특징으로 하는 잡음 감쇄를 위한 오디오 신호 부호화 장치.
KR1020120031827A 2012-03-28 2012-03-28 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치 KR20130109793A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120031827A KR20130109793A (ko) 2012-03-28 2012-03-28 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치
US13/755,119 US9202454B2 (en) 2012-03-28 2013-01-31 Method and apparatus for audio encoding for noise reduction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120031827A KR20130109793A (ko) 2012-03-28 2012-03-28 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20130109793A true KR20130109793A (ko) 2013-10-08

Family

ID=49236227

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120031827A KR20130109793A (ko) 2012-03-28 2012-03-28 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치

Country Status (2)

Country Link
US (1) US9202454B2 (ko)
KR (1) KR20130109793A (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9025773B2 (en) * 2012-04-21 2015-05-05 Texas Instruments Incorporated Undetectable combining of nonaligned concurrent signals
US9712178B2 (en) * 2013-05-03 2017-07-18 Texas Instruments Incorporated Dynamic resolution adjustment for digital converters
CN106104684A (zh) * 2014-01-13 2016-11-09 诺基亚技术有限公司 多通道音频信号分类器
CN107274907A (zh) * 2017-07-03 2017-10-20 北京小鱼在家科技有限公司 双麦克风设备上实现指向性拾音的方法和装置
US11189290B2 (en) * 2019-12-04 2021-11-30 International Business Machines Corporation Interactive selection and modification

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1394772A1 (en) * 2002-08-28 2004-03-03 Deutsche Thomson-Brandt Gmbh Signaling of window switchings in a MPEG layer 3 audio data stream
GB2429139B (en) * 2005-08-10 2010-06-16 Zarlink Semiconductor Inc A low complexity noise reduction method
WO2009114656A1 (en) * 2008-03-14 2009-09-17 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
ES2741963T3 (es) * 2008-07-11 2020-02-12 Fraunhofer Ges Forschung Codificadores de señal de audio, métodos para codificar una señal de audio y programas informáticos
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법

Also Published As

Publication number Publication date
US9202454B2 (en) 2015-12-01
US20130262129A1 (en) 2013-10-03

Similar Documents

Publication Publication Date Title
KR101265669B1 (ko) 코딩된 오디오의 경제적인 소리세기 측정
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
KR100991448B1 (ko) 스펙트럼 홀 충전을 사용하는 오디오 코딩 시스템
US9754601B2 (en) Information signal encoding using a forward-adaptive prediction and a backwards-adaptive quantization
RU2670797C9 (ru) Способ и устройство для формирования из представления hoa-сигналов в области коэффициентов смешанного представления упомянутых hoa-сигналов в пространственной области/области коэффициентов
KR100814673B1 (ko) 오디오 부호화
EP3598442B1 (en) Systems and methods for modifying an audio signal using custom psychoacoustic models
KR100813193B1 (ko) 정보 신호의 양자화 방법 및 장치
JPWO2005004113A1 (ja) オーディオ符号化装置
US20080164942A1 (en) Audio data processing apparatus, terminal, and method of audio data processing
WO2020016440A1 (en) Systems and methods for modifying an audio signal using custom psychoacoustic models
KR20130109793A (ko) 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치
US20190198033A1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
RU2662693C2 (ru) Устройство декодирования, устройство кодирования, способ декодирования и способ кодирования
KR100848370B1 (ko) 오디오 부호화
US7668715B1 (en) Methods for selecting an initial quantization step size in audio encoders and systems using the same
JP5379871B2 (ja) オーディオ符号化のための量子化
JPH113091A (ja) 音声信号の立ち上がり検出装置
JP3886851B2 (ja) オーディオ信号符号化装置
KR100640833B1 (ko) 디지털 오디오의 부호화 방법
JP2001331198A (ja) 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体
JP2002182695A (ja) 高能率符号化方法及び装置
JP2023548670A (ja) ニューラルネットワークを用いたオーディオの処理方法および装置
RU2777660C2 (ru) Способ и устройство для формирования из представления hoa-сигналов в области коэффициентов смешанного представления упомянутых hoa-сигналов в пространственной области/области коэффициентов

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid