KR20120121895A - 오디오 신호 처리 방법 및 장치 - Google Patents

오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR20120121895A
KR20120121895A KR1020127020609A KR20127020609A KR20120121895A KR 20120121895 A KR20120121895 A KR 20120121895A KR 1020127020609 A KR1020127020609 A KR 1020127020609A KR 20127020609 A KR20127020609 A KR 20127020609A KR 20120121895 A KR20120121895 A KR 20120121895A
Authority
KR
South Korea
Prior art keywords
harmonic
pulse
mode
information
noise
Prior art date
Application number
KR1020127020609A
Other languages
English (en)
Other versions
KR101764633B1 (ko
Inventor
정규혁
김대환
강인규
김락용
홍기봉
박지강
이인성
임종하
문상현
이병석
전혜정
Original Assignee
충북대학교 산학협력단
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단, 엘지전자 주식회사 filed Critical 충북대학교 산학협력단
Publication of KR20120121895A publication Critical patent/KR20120121895A/ko
Application granted granted Critical
Publication of KR101764633B1 publication Critical patent/KR101764633B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은, 오디오 신호에 대해서 주파수 변환을 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 단계; 상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 단계; 및, 상기 비-일반 모드가 선택된 경우, 다음 단계가 수행되는 단계; 상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 펄스들을 추출하고, 펄스 정보를 생성하는 단계; 상기 고주파 대역의 주파수 변환 계수들로부터 상기 펄스들을 제외한 원본 노이즈 신호를 생성하는 단계; 상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 및, 상기 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 단계를 포함하는 오디오 신호 처리 방법이 개시된다.

Description

오디오 신호 처리 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING AN AUDIO SIGNAL}
본 발명은 오디오 신호를 인코딩하거나 디코딩할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것이다.
일반적으로, 오디오 신호는 다양한 주파수의 신호가 포함되어 있고, 사람의 가청 주파수는, 20Hz-20kHz 인데 비해, 보통 사람의 음성은 약 200Hz-3kHz 영역에 존재한다.
사람의 음성이 존재하기 어려운 7kHz 이상의 고주파 영역의 오디오 신호를 인코딩하는 데 있어서, 오디오의 특성에 따라서 복수 개의 코딩 모드 또는 코딩 방식들 중 하나를 적용할 수 있다.
오디오의 특성에 적합하지 않은 코딩 모드 또는 코딩 방식을 적용할 경우, 음질이 왜곡되는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 예컨대 타악기의 소리와 같이 특정 주파수 대역이 강한 신호의 경우, 해당 대역의 펄스를 별도로 인코딩하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 예컨대 현악의 소리와 같이 하모닉(고조파)이 강하게 존재하는 신호의 경우, 해당 하모닉 트랙을 별도로 인코딩하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 펄스비율 및/또는 하모닉비율을 기반으로, 오디오 신호의 특성에 적절한 코딩 모드를 적용하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명은 다음과 같은 효과와 이점을 제공한다.
첫째, 특정 주파수 대역이 강한 신호에 대해서, 해당 대역의 펄스만을 별도로 인코딩으로써, 저주파 대역만을 이용한 인코딩 모드(일반 모드)보다 복원률이 높기 때문에, 음질이 현저히 향상될 수 있다.
둘째, 하모닉이 포함된 신호에 대해서는, 하모닉에 해당하는 펄스들을 각각 인코딩하기 보다는, 하모닉 트랙 전체를 인코딩함으로써, 비트수의 거의 증가시키지 않고 복원율을 높일 수 있다.
셋째, 프레임마다 각 오디오 특성에 맞게 총 4 개의 모드에 해당하는 인코딩 및 디코딩 방식들 중 하나를 적응적으로 적용함으로써, 음질을 향상시킬 수 있다.
넷째, MDCT 를 적용할 경우, MDCT 의 특성을 고려하여, 메인 펄스 그에 인접한 서브 펄스를 추출함으로써, 특정 주파수 대역에 매핑되는 펄스를 정확하게 추출함으로써, 비-일반모드 인코딩 방식의 성능을 보다 높일 수 있다.
다섯째, 하모닉 모드에서 복수의 하모닉 트랙에서 최대 펄스와 그의 인접한 펄스만을 추출하여 별도로 양자화함으로써, 비트수를 절감할 수 있다.
여섯째, 하모닉 모드에 있어서, 동일한 피치를 갖는 하나의 그룹에 속하는 하모닉 트랙에 대해서, 정해진 위치 셋 중 하나로 시작 위치를 설정함으로써, 복수의 하모닉 트랙들의 각 시작 위치를 표시하는 데 있어서, 비트수를 절감할 수 있다.
도 1 은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 인코더의 구성도.
도 2 는 프레임간 유사성(tonality) 판단의 예를 설명하기 위한 도면.
도 3 은 일반모드 또는 비-일반모드로 코딩하기에 적합한 신호의 예들.
도 4 는 일반모드 인코딩부(140)의 세부 구성도.
도 5 는 일반모드로 인코딩한 경우의 신택스의 일 예.
도 6 은 비-일반모드 인코딩부(150)의 세부 구성도.
도 7 및 도 8 은 펄스 추출 과정을 설명하기 위한 도면.
도 9 는 펄스 추출 이전의 신호(SWB 신호) 및 펄스 추출 이후 신호(원본 노이즈 신호)의 일 예.
도 10 은 참조 노이즈 생성과정을 설명하기 위한 도면.
도 11 은 비-일반모드로 인코딩한 경우의 신택스의 일 예.
도 12 는 특정 오디오 신호에 대해 일반 모드 및 비-일반모드로 인코딩된 결과를 보여주기 위한 도면.
도 13 은 하모닉비율 판단부(160)의 세부 구성도.
도 14 는 하모닉비율이 높은 오디오 신호의 예.
도 15 는 넌-하모닉모드 인코딩부(170)의 세부 구성도.
도 16 은 넌-하모닉모드인 경우, 고정 펄스를 추출하는 규칙을 설명하기 위한 도면.
도 17 은 넌-하모닉모드로 인코딩한 경우의 신택스의 일 예.
도 18 은 하모닉모드 인코딩부(180)의 세부 구성도.
도 19 는 하모닉트랙의 추출을 설명하기 위한 도면
도 20 은 하모닉트랙 위치정보의 양자화를 설명하기 위한 도면.
도 21 은 하모닉모드로 인코딩한 경우의 신택스의 일 예.
도 22 은 특정 오디오 신호에 대해 넌-하모닉 모드 및 하모닉모드로 인코딩된 결과를 보여주기 위한 도면.
도 23 은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 디코더의 구성도.
도 24 는 본 발명의 실시예에 따른 오디오 신호 처리 장치가 구현된 제품의 개략적인 구성도.
도 25 은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도.
발명의 실시를 위한 최선의 형태
상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 처리 방법은, 오디오 신호에 대해서 주파수 변환을 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 단계; 상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 단계; 및, 상기 비-일반 모드가 선택된 경우, 다음 단계가 수행되는 단계; 상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 펄스들을 추출하고, 펄스 정보를 생성하는 단계; 상기 고주파 대역의 주파수 변환 계수들로부터 상기 펄스들을 제외한 원본 노이즈 신호를 생성하는 단계; 상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 및, 상기 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 단계를 포함한다.
본 발명에 따르면, 상기 펄스 비율은, 현재 프레임의 전체 에너지에 대한 복수의 펄스들에 대한 에너지의 비율일 수 있다.
본 발명에 따르면, 미리 결정된 개수의 펄스들을 추출하는 단계는 가장 큰 에너지를 갖는 메인 펄스를 추출하는 단계; 상기 메인 펄스에 인접한 서브 펄스를 추출하는 단계; 및 상기 고주파 대역의 주파수 변환 계수에서 상기 메인 펄스 및 상기 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 생성하는 단계; 상기 타깃 노이즈 신호에 대해서 상기 메인 펄스 및 상기 서브 펄스를 추출하는 것을 미리 정해진 횟수만큼 반복하는 단계를 포함할 수 있다.
본 발명에 따르면, 상기 펄스 정보는, 펄스 위치 정보, 펄스 부호 정보, 펄스 크기 정보, 펄스 서브밴드 정보 중 하나 이상을 포함할 수 있다.
본 발명에 따르면, 상기 참조 노이즈 신호를 생성하는 단계는, 저주파 대역의 전체 에너지를 근거로 임계치를 설정하는 단계; 및 상기 임계치 이상의 펄스를 제외시킴으로써, 상기 참조 노이즈 신호를 생성하는 단계를 포함할 수 있다.
본 발명에 따르면, 상기 노이즈 에너지정보를 생성하는 단계는, 상기 미리 결정된 개수의 펄스의 에너지를 생성하는 단계; 상기 원본 노이즈 신호의 에너지를 생성하는 단계; 상기 펄스의 에너지 및 상기 원본 노이즈 신호의 에너지를 이용하여 펄스 비율을 획득하는 단계; 및,
상기 펄스 비율을 노이즈 에너지 정보로서 생성하는 단계를 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 오디오 신호에 대해서 주파수 변환을 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 주파수 변환부; 상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 펄스비율 판단부; 상기 비-일반 모드가 선택된 경우에 동작하며, 다음을 포함하는 비-일반모드 인코딩부; 상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 펄스들을 추출하고, 펄스 정보를 생성하는 펄스 추출부; 상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 참조노이즈 생성부; 및, 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 노이즈 탐색부를 포함하고, 상기 원본 노이즈 신호는, 상기 고주파 대역의 주파수 변환 계수들로부터 상기 펄스들을 제외함으로써 생성되는 오디오 신호 처리 장치가 제공된다.
본 발명의 또 다른 측면에 따르면, 현재 프레임이 일반 모드 인지 아니면 비-일반 모드인지 여부를 지시하는 제 2 모드 정보를 수신하는 단계; 상기 제 2 모드 정보가 현재 프레임이 비-일반 모드임을 지시하는 경우, 펄스 정보, 노이즈 위치정보 및 노이즈 에너지정보를 수신하는 단계; 상기 펄스 정보를 이용하여, 주파수 변환 계수들에 대해서 미리 결정된 개수의 펄스들을 생성하는 단계; 상기 노이즈 위치정보에 대응하는 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 상기 노이즈 에너지정보를 이용하여 상기 참조 노이즈 신호의 에너지를 조절하는 단계; 및, 상기 에너지 조절된 참조 노이즈 신호 및 상기 복수의 펄스를 이용하여 고주파 대역에 대응하는 주파수 변환 계수들을 생성하는 단계를 포함하는 오디오 신호 처리 방법이 제공된다.
본 발명에 따르면, 오디오 신호를 수신하는 단계; 오디오 신호에 대해서 주파수 변환을 수행하여, 복수개의 주파수 변환 계수들을 획득하는 단계; 상기 주파수 변환 계수에 대해서, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계; 상기 하모닉 모드가 선택된 경우, 다음 단계가 수행되는 단계; 제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙들을 결정하는 단계; 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙들을 결정하는 단계; 및, 상기 복수의 하모닉 트랙들의 시작 위치 정보를 생성하는 단계를 포함하고, 상기 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트랙 및 제 2 하모닉 트랙을 포함하고, 상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함하고, 상기 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대응되고, 상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대응되는 것을 특징으로 하는 오디오 신호 처리 방법이 제공된다.
본 발명에 따르면, 상기 하모닉 비율은, 복수의 하모닉 트랙들의 에너지 및 복수 개의 펄스의 에너지를 근거로 생성된 것일 수 있다.
본 발명에 따르면, 상기 제 1 위치 셋은 짝수 위치들에 해당하고, 제 2 위치 셋은 홀수 위치들에 해당할 수 있다.
본 발명에 따르면, 상기 제 1 하모닉 트랙 중에서의 최대 펄스, 및 그의 인접 펄스, 상기 제 2 하모닉 트랙 중에서 최대 펄스, 및 그의 인접 펄스를 포함하는 제 1 타깃 벡터를 생성하는 단계; 상기 제 3 하모닉 트랙 중에서의 최대 펄스, 그의 인접 펄스, 상기 제 4 하모닉 트랙 중에서의 최대 펄스, 그의 인접 펄스를 포함하는 제 2 타깃 벡터를 생성하는 단계; 상기 제 1 타깃 벡터 및 상기 제 2 타깃 벡터를 벡터-양자화하는 단계; 상기 하모닉 트랙들에서 상기 제 1 타깃 벡터 및 상기 제 2 타깃 벡터를 제외한 대상에 대해 주파수 변환하는 단계를 더 포함할 수 있다.
본 발명에 따르면, 제 1 하모닉 트랙은 제 1 피치를 갖는 복수의 펄스들의 집합이고, 제 2 하모닉 트랙은 제 1 피치를 갖는 복수의 펄스들의 집합이고, 제 3 하모닉 트랙은 제 2 피치를 갖는 복수의 펄스들의 집합이고, 제 4 하모닉 트랙은 제 2 피치를 갖는 복수의 펄스들의 집합일 수 있다.
본 발명에 따르면, 상기 제 1 피치 및 상기 제 2 피치를 지시하는 피치 정보를 생성하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙들 및 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙을 포함하는 복수의 하모닉 트랙들의 시작 위치 정보를 수신하는 단계; 상기 시작 위치 정보에 대응하는 복수의 하모닉 트랙을 생성하는 단계; 및, 상기 복수의 하모닉 트랙을 이용하여 현재 프레임에 해당하는 오디오 신호를 생성하는 단계를 포함하고, 상기 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트랙 및 제 2 하모닉 트랙을 포함하고, 상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함하고, 상기 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대응되고, 상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대응되는 오디오 신호 처리 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 오디오 신호에 대해서 주파수 변환을 수행하여, 복수개의 주파수 변환 계수들을 획득하는 단계; 상기 주파수 변환 계수들에 대해서, 프레임간 유사성을 근거로 넌-토널 모드 및 토널 모드를 선택하는 단계; 상기 넌-토널 모드가 선택된 경우, 펄스 비율을 근거로 일반모드 및 비-일반모드 중 하나를 선택하는 단계; 상기 토널 모드가 선택된 경우, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계; 및, 상기 선택된 모드에 따라서 상기 오디오 신호를 인코딩함으로써 파라미터를 생성하는 단계를 포함하고, 상기 일반 모드인 경우, 상기 파라미터는 인벨롭 위치정보 및 스케일링 정보를 포함하고, 상기 비-일반모드인 경우, 상기 파라미터는 펄스정보 및 노이즈 에너지정보를 포함하고 상기 넌-하모닉 모드인 경우, 상기 파라미터는 서브밴드별로 개수가 미리 정해진 고정 펄스들에 대한 정보인 고정 펄스정보를 포함하고, 상기 하모닉 모드인 경우, 상기 파라미터는 제 1 그룹의 하모닉 트랙들의 위치정보들, 제 2 그룹의 하모닉 트랙들의 위치정보들을 포함하는 오디오 신호 처리 방법이 제공된다.
본 발명에 따르면, 상기 선택된 모드에 따라서, 제 1 모드 정보 및 제 2 모드 정보를 생성하는 단계를 더 포함하고, 상기 제 1 모드 정보는, 상기 넌-토널 모드 및 상기 토널 모드 중 하나를 지시하고, 상기 제 2 모드 정보는, 상기 제 1 모드 정보가 넌-토널 모드를 지시하는 경우, 상기 일반모드 또는 상기 비-일반 모드 중 하나를 지시하고, 상기 제 1 모드 정보가 토널 모드를 지시하는 경우, 상기 넌-하모닉 모드 및 상기 하모닉 모드 중 하나를 지시할 수 있다.
본 발명의 또 다른 측면에 따르면, 비트스트림을 통해 제 1 모드 정보 및 제 2 모드 정보를 추출하는 단계; 상기 제 1 모드 정보 및 제 2 모드 정보를 근거로 하여, 현재 프레임에 해당하는 현재 모드를 결정하는 단계; 상기 현재 모드가 일반 모드인 경우, 인벨롭 위치 정보 및 스케일링 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 상기 현재 모드가 비-일반모드인 경우, 펄스정보 및 노이즈 에너지 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 상기 현재 모드가 넌-하모닉 모드인 경우, 서브밴드별로 개수가 미리 정해진 고정 펄스들에 대한 정보인 고정펄스정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 및, 상기 현재 모드가 하모닉 모드인 경우, 제 1 그룹의 하모닉 트랙의 위치정보들 및 제 2 그룹의 하모닉 트랙의 위치정보들을 이용하여 현재 프레임의 오디오 신호를 복원하는 단계를 포함하는 오디오 신호 처리 방법이 제공된다.
발명의 실시를 위한 형태
이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.
여기서 오디오 신호(audio signal)란, 광의로는, 비디오 신호와 구분되는 개념으로서, 재생 시 청각으로 식별할 수 있는 신호를 지칭하고, 협의로는, 음성(speech) 신호와 구분되는 개념으로서, 음성 특성이 없거나 적은 신호를 의미한다. 본 발명에서의 오디오 신호는 광의로 해석되어야 하며 음성 신호와 구분되어 사용될 때 협의의 오디오 신호로 이해될 수 있다.
또한 코딩이란, 인코딩만을 지칭할 수도 있지만, 인코딩 및 디코딩을 모두 포함하는 개념으로 사용될 수도 있다.
도 1 은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 인코더의 구성을 보여주는 도면이다. 실시예에 따른 인코더(100)는 펄스비율 판단부(130), 하모닉비율 판단부(160), 비-일반모드 인코딩부(150), 및 하모닉모드 인코딩부(180) 중 하나 이상을 포함하고, 주파수 변환부(110), 유사성 판단부(120), 일반모드 인코딩부(140), 및 넌-하모닉모드 인코딩부(180) 중 하나 이상을 더 포함할 수 있다.
개괄적으로 설명하면, 총 네 가지의 코딩 모드가 존재하는 바, 1) 일반 모드, 2) 비-일반 모드, 3) 넌-하모닉모드, 4) 하모닉모드가 존재하는 데, 여기서 1) 일반 모드 및 2) 비-일반 모드는 넌-토널 모드에 해당하고, 3) 넌-하모닉 모드 및 4) 하모닉모드는 토널 모드에 해당한다.
비-토널 모드인지 아니면 토널 모드인지 여부는 프레임간의 유사성의 정도에 따라서 유사성 판단부(120)에 의해 결정된다. 즉 유사성이 높지 않은 경우에는 비-토널 모드이고, 유사성이 높은 경우에는 토널 모드에 해당한다. 한편, 비-토널 모드인 경우, 펄스비율 판단부(130)는 펄스비율(구체적으로, 전체 에너지 대비 펄스의 에너지의 비율)이 높은 경우 1) 일반 모드 방식을 적용하고 펄스비율이 낮은 경우에는 2) 비-일반 모드 방식을 적용할 것을 결정한다.
또한, 토널 모드일 때는, 하모닉비율 판단부(160)는 하모닉비율(구체적으로, 펄스의 에너지 대비 하모닉 트랙의 에너지의 비율)이 높지 않는 경우 3) 넌-하모닉 모드를 적용할 것을 결정하고, 4) 하모닉비율이 높은 경우에는 4) 하모닉 모드를 적용할 것을 결정한다.
주파수 변환부(110)는 입력되는 오디오 신호에 대해서 주파수 변환을 수행함으로써, 복수 개의 주파수 변환 계수들을 획득한다. 여기서 주파수 변환에는 MDCT(Modified Discrete Cosine Transform), FFT(Fast Fourier Transform) 방식 등이 적용될 수 있지만 본 발명은 이에 한정되지 아니한다.
주파수 변환 계수들은 상대적으로 저주파 대역에 해당하는 주파수 변환 계수들과, 고주파 대역에 해당하는 주파수 변환 계수들이 존재할 수 있다. 저주파 대역의 주파수 변환 계수들을 광대역 밴드 신호, WB(Wide Band) 신호, 또는 WB 계수라 지칭하고, 고주파 대역의 주파수 변환 계수들을 초광대역 밴드 신호, SWB(Super Wide Band) 신호 또는 WB 계수라고도 지칭하고자 한다. 한편 저주파 대역 및 고주파 대역의 기준은 약 7kHz 가 될 수 있지만, 본 발명은 특정 주파수에 한정되지 아니한다.
한편, 주파수 변환 방식이 MDCT 의 경우, 전체 오디오 신호에 대해서 총 640 개의 주파수 변환 계수들이 생성될 수 있다. 이때, 가장 낮은 대역에 해당하는 약 280 개의 계수를 WB 신호로 지칭하고, 그 다음의 대역에 해당하는 약 280 개의 계수를 SWB 신호라 지칭할 수도 있지만, 역시 본 발명은 이에 한정되지 아니한다.
유사성 판단부(120)는 입력 오디오 신호에 대해서 프레임간의 유사성을 판단하는데, 프레임간 유사성이란, 현재 프레임의 주파수 변환 계수들의 스펙트럼이 이전 프레임의 주파수 변환 계수들의 스펙트럼과 얼마나 유사한지에 관한 것이다. 프레임간 유사성은 음조성(tonality)라고 지칭하기도 한다. 프레임간 유사성에 관한 구체적인 수식에 대한 설명은 생략하고자 한다.
도 2 는 프레임간 유사성(tonality) 판단의 예를 설명하기 위한 도면이다. 도 2 의 (A)를 참조하면, 이전 프레임의 스펙트럼 및 현재 프레임의 스펙트럼의 예가 도시되어 있다. 직관적으로 판단해볼 때, 주파수 빈이 약 40 에서 60 사이인 구간에서 유사성이 가장 적은 것을 알 수 있다. 도 2 의 (B)를 참조하면, 직관에 의한 결과와 마찬가지로 유사성은 40~60 구간에서 가장 낮은 수치를 보임을 알 수 있다.
유사성 판단부(120)가 프레임간 유사성을 판단한 결과, 유사성이 낮은 경우는 노이즈와 유사한 신호로서 넌-토널 모드(non-tonal)로 분류하고, 유사성이 높은 경우는 노이즈와는 다른 특성을 갖는 신호로서 토널 모드(tonal)로 분류한다. 그리고 해당 프레임이 넌-토널 모드에 해당하는지 토널 모드에 해당하는지를 지시하는 제 1 모드 정보를 생성하여 디코더에 전달한다.
넌-토널 모드로 판단한 경우(예를 들어 제 1 모드 정보가 0 인 경우), 고주파 대역의 주파수 변환 계수들을 펄스비율 판단부(130)로 전달하고, 반대인 경우(예를 들어, 제 1 모드 정보가 1 인 경우), 상기 계수들을 하모닉비율 판단부(160)에 전달한다.
다시 도 1 을 참고하면, 프레임간 유사성을 판단한 결과 유사성이 낮은 경우, 즉 넌-토널 모드인 경우, 펄스비율 판단부(130)가 활성화된다.
펄스비율 판단부(130)는 펄스 비율 즉, 현재 프레임의 전체 에너지 대비 복수의 펄스들에 대한 에너지 비율을 근거로 하여 일반 모드 또는 비-일반모드를 결정한다. 여기서 펄스란, 주파수 변환 계수의 도메인(예: MDCT 도메인)에서 상대적으로 에너지가 높은 계수를 의미한다.
도 3 은 일반모드 또는 비-일반모드로 코딩하기에 적합한 신호의 예들이다. 도 3 의 (A)를 참조하면, 특정 주파수 대역에 치우치지 않고 전체 주파수가 골고루 포함되어 있음을 알 수 있다. 이와 같이 노이즈와 유사한 특성을 갖는 경우, 일반 모드로 코딩하기에 적합한 신호라 할 수 있다. 도 3 의 (B)를 참조하면, 전체 주파수 신호가 고루 포함되기 보다는 특정 대역(라인)이 강한 것을 알 수 있다. 상기 특정 대역은 주파수 변환 계수의 도메인에서는 펄스로 나타날 수 있는데, 이 펄스의 에너지가 전체 에너지에 비해서 높은 경우, 펄스 비율이 높으므로 비-일반 모드로 인코딩하기 적합한 신호라 할 수 있다. 도 3 의 (A)와 같은 신호는 노이즈에 가까운 신호이고, 도 3 의 (B)는 타악기 소리에 가까운 신호일 수 있다.
펄스비율 판단부(130)가 주파수 변환 계수의 도메인 상에서 높은 에너지를 갖는 펄스들을 추출하는 과정에 관해서는, 비-일반 모드의 코딩 방식이 적용되었을 때 수행되는 펄스 추출 과정과 동일할 수 있으므로, 이 추후 비-일반모드 인코딩부(150)에서의 세부 구성과 함께 설명하고자 한다.
만약에, 총 8개의 펄스를 추출한 경우, 다음과 같이 표현될 수 있다.
[수학식 1]
Figure pct00001
여기서, M 32(k)는 SWB 계수(고주파 대역의 주파수 변환 계수),
k 는 주파수 변환 계수의 인덱스,
P(j)는 펄스(또는 피크),j는 펄스 인덱스
여기서, 펄스 비율은 다음 수학식과 같이 표현될 수 있다.
[수학식 2]
Figure pct00002
여기서,
Figure pct00003
여기서, R peak8는 펄스 비율, E peak는 펄스의 총 에너지, E total는 전체 에너지.
이와 같이 펄스 비율(R peak8)을 추정한 후에, 펄스 비율이 특정 기준값(예: 0.6)을 넘지 못할 경우, 일반 모드(generic mode)로 결정하고, 기준값을 초과할 경우에는 비-일반 모드(non-generic mode)로 결정한다.
다시, 도 1 을 참조하면, 펄스비율 판단부(130)는 상기와 같은 과정을 통해 펄스 비율을 기준으로 일반 모드 또는 비-일반 모드를 결정하고, 넌-토널 모드일 때, 일반 모드인지 비-일반 모드인지 여부를 지시하는 제 2 모드 정보를 생성하여 디코더에 전송한다. 그러면 일반모드 인코딩부(140)의 세부 구성 및 비일반모드 인코딩부(150)의 세부 구성을 각각 별도의 도면을 참조하면서 설명하고자 한다.
그런 다음 하모닉비율 판단부(160), 넌-하모닉모드 인코딩부(170) 및 하모닉모드 인코딩부(180)의 각 세부구성에 대해서 별도 도면을 참조하면서 설명하고자 한다.
도 4 는 일반모드 인코딩부(140)의 세부 구성을 보여주는 도면이고, 도 5 는 일반모드로 인코딩한 경우의 신택스의 일 예이다.
우선 도 4 를 참조하면, 일반모드 인코딩부(140)는 정규화부(142), 서브밴드 생성부(144), 및 탐색부(146)를 포함한다. 일반모드인 경우에는, 고주파대역의 신호(SWB 신호)는 부호화된 저주파 대역의 신호(WB 신호)의 인벨롭과의 유사 정도를 이용하여 부호화한다.
정규화부(142)는 WB 신호의 인벨롭을 지수 도메인(logarithmic domain)에서 정규화한다. 여기서 WB 신호는 디코더에서도 알 수 있는 신호여야 하므로, 인코딩된 WB 신호를 이용하여 복원된 신호인 것이 바람직하다. WB 신호의 인벨롭(포락선)이 급속도로 변화하기 때문에, 2 개의 스케일링 팩터의 양자화는 정확히 할 수 없을 수 있기 때문에 지수 도메인에서 정규화하는 과정이 필요할 수 있다.
서브밴드 생성부(144)는 SWB 신호를 복수 개(약 4 개)의 서브 밴드로 분할한다. 예를 들어, SWB 신호의 주파수 변환 계수들이 총 280 개인 경우, 각 서브밴드는, 40, 70,70, 100 개의 계수들을 가질 수 있다.
탐색부(146)는 WB 신호의 정규화된 인벨롭을 탐색함으로써, SWB 신호의 각 서브밴드와 유사도를 연산하고, 이 유사도를 기반으로 하여 각 서브밴드와 유사한 인벨롭의 구간을 갖는 최대유사 WB 신호를 결정한다. 이 최대 유사 WB 신호의 시작 위치를 인벨롭 위치정보로서 생성한다.
그런 다음, 탐색부(146)는 원본 SWB 신호와 청각적으로 유사하게 만들기 위해, 두 개의 스케일링 정보를 결정할 수 있다. 이따, 제 1 스케일링 정보는 선형 도메인에서 서브밴드별로 결정되며, 제 2 스케일링 정보는 로그 도메인에서 서브밴드별로 결정될 수 있다.
이와 같이 일반모드 인코딩부(140)는 WB 신호의 인벨롭을 이용하여 SWB 신호를 인코딩하며, 인벨롭 위치정보 및 스케일링 정보를 생성한다.
도 5 를 참조하면, 일반 모드인 경우의 신택스의 일 예로서, 넌-토널인지 토널인지를 지시하는 제 1 모드 정보, 넌-토널일 경우 일반 모드인지 비-일반 모드인지를 지시하는 제 2 모드 정보가 각각 1 비트씩 할당된다. 그리고, 인벨롭 위치정보가 각 서브밴드별로 총 30 비트가 할당될 수 있다.
스케일링 정보는 각 서브밴드별 스케일링 부호 정보가 총 4 비트, 서브밴드별 제 1 스케일링 정보(총 4 개)는 총 16 비트가 할당될 수 있고, 서브밴드별 제 2 스케일링 정보들 총 4 개는 8 비트 코드북을 기반으로 벡터양자화되어 총 8 비트가 할당될 수 있으나, 본 발명은 이에 한정되지 아니한다.
이하, 도 6 이하를 참조하면서, 비-일반모드에서의 인코딩과정에 대해서 설명하고자 한다. 도 6 은 비-일반모드 인코딩부(150)의 세부 구성을 보여주는 도면이다. 도 6 을 참조하면, 비-일반모드 인코딩부(150)는 펄스 추출부(152), 참조 노이즈 생성부(154) 및 노이즈 탐색부(156)를 포함한다.
펄스 추출부(152)는 고주파 대역의 주파수 변환 계수들(SWB 신호)로부터 미리 결정된 개수의 펄스들을 추출하고, 상기 펄스들에 대한 정보인 펄스 정보(예: 펄스 위치 정보, 펄스 부호 정보, 펄스 크기 정보 등)을 생성한다. 여기서 펄스는 앞서 펄스비율 판단부(130)에서 정의한 펄스와 마찬가지이다. 이하, 도 7 내지 도 9 를 참조하면서, 펄스 추출에 대한 과정의 일 실시예에 대해서 구체적으로 설명하고자 한다.
우선, 펄스 추출부(152)는 SWB 신호를 아래와 같이 복수 개의 서브밴드 신호로 분할한다. 이때, 각 서브밴드는 총 64 개의 주파수 변환 계수들에 대응될 수 있다.
[수학식 3]
Figure pct00004
Figure pct00005
는 SWB 신호 중 제 1 서브밴드
그런 다음, 서브밴드별 에너지를 다음과 같이 산출한다.
[수학식 4]
Figure pct00006
E 0 은 제 1 서브밴드의 에너지
도 7 및 도 8 은 펄스 추출 과정을 설명하기 위한 도면이다. 우선 도 7 의 (A)를 참조하면, SWB 가 총 네 개의 서브밴드가 존재하고, 각 서브밴드별 펄스의 예가 도시되어 있다.
그런 다음, 서브밴드별 에너지(E0, E1, E2, E3)가 가장 큰 서브밴드(j=0, 1, 2, 3 중 하나)를 선택한다. 도 7 의 (B)를 참조하면, 제 1 서브밴드의 에너지(E0)가 가장 높아서, 제 1 서브밴드(j=0)가 선택된 예가 도시되어 있다.
그런 다음, 해당 서브밴드 내에서 가장 에너지가 높은 펄스를 메인 펄스로 결정한다. 그런 다음 메인 펄스와 인접한 두 개의 펄스들, 즉 메인 펄스의 왼쪽 펄스 및 오른쪽 펄스 중 에너지가 높은 펄스를 서브 펄스로 결정한다. 도 7 의 (C)를 참조하면, 제 1 서브밴드 중에서 메인 펄스와 서브 펄스를 결정한 예가 도시되어 있다.
특히, 메인 펄스 및 그에 인접한 서브 펄스를 추출하는 과정은, 주파수 변환 계수들이 MDCT 를 통해 생성된 계수들인 경우에 바람직하다. 왜냐하면, MDCT 의 독특한 특성 때문인데, 이 특성은 시간 이동(time shift)에 민감하고 위상 변화성(phase-variant)을 갖는 특징이다. 따라서, 주파수 분해능(frequency resolution)이 정확하지 않으므로, 하나의 특정 주파수가 1 개의 MDCT 계수에 대응되지 않고, 2 개 이상의 MDCT 계수에 대응될 수 있다. 따라서, MDCT 도메인에서 보다 정확하게 펄스를 추출하기 위해서, MDCT 의 메인 펄스만을 추출하기 보다는, 그에 인접한 서브 펄스를 부가적으로 추출한다.
한편, 서브 펄스는 메인 펄스의 좌측 또는 우측에 인접하기 때문에, 서브 펄스의 위치정보는 메인 펄스의 좌측인지 또는 우측인지를 지시하는 1 비트만으로 인코딩이 가능하기 때문에, 상대적으로 적은 비트를 사용하면서도 보다 정확한 펄스를 추정하는 것이 가능하다.
상기 메인 펄스 및 서브 펄스의 추출과정을 논리식으로 정리하면 아래와 같다. 단 아래 표현에 본 발명은 한정되지 아니한다.
Figure pct00007
이와 같이 펄스 추출부(152)는 SWB 신호에서 앞서 추출된 제 1 세트의 메인 펄스 및 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 생성한다.
도 8 의 (A)를 참조하면, 도 7 의 (C)에서 추출된 제 1 세트의 펄스가 제외되어 있음을 알 수 있다. 그 타깃 노이즈 신호에 대해서 상기 메인 펄스 및 서브 펄스의 추출과정을 반복한다. 즉, 가장 큰 에너지를 갖는 서브밴드를 결정하고, 해당 서브밴드 내에서 가장 큰 에너지를 갖는 펄스를 메인 펄스로 결정하고, 그 인접한 펄스들 중 하나를 서브 펄스로 결정하는 것이다. 이와 같이 추출된 제 2 세트의 메인 펄스 및 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 다시 정의함으로써, 제 N 세트까지 이 과정을 반복한다. 예를 들어, 상기 과정을 제 3 세트까지 반복하고, 상기 제 3 세트를 제외한 타깃 노이즈 신호에 대해서 2 개의 단독 펄스를 더 추출할 수 있다. 여기서 단독 펄스랑 상기와 같이 메인 및 서브의 관계 없이, 타깃 노이즈 신호 중 가장 에너지가 높은 펄스를 의미한다.
펄스 추출부(152)는 상기와 같이 정해진 개수의 펄스들을 추출한 후에, 이 펄스에 대한 정보인 펄스 정보를 생성한다. 여기서 정해진 개수의 펄스들은 예를 들어 총 8 개(총 3 세트의 메인 펄스들 및 서브 펄스들, 총 3 개의 단독 펄스들)일 수 있지만, 본 발명은 이에 한정되지 아니한다. 펄스 정보는, 펄스 위치 정보, 펄스 부호 정보, 펄스 크기 정보, 펄스 서브밴드 정보 중 하나 이상을 포함할 수 있다. 여기서 먼저 펄스 서브밴드 정보는, 해당 펄스가 몇 번째 서브밴드에 속하는지에 대한 정보이다.
도 11 은 비-일반모드로 인코딩한 경우의 신택스의 일 예인데, 여기서 펄스 관련 정보에 대해서만 참조하고자 한다. 도 11 은 서브밴드가 총 4 개이고, 펄스가 총 8 개일 때(각 3 개씩의 메인 펄스 및 서브 펄스들, 단독 펄스 2개)의 경우이다. 도 11 의 펄스 서브밴드 정보는 2 비트씩 총 10 비트가 할당되어 있음을 알 수 있다. 이는, 서브밴드가 총 4 개인 경우, 하나의 펄스가 서브밴드를 표시하기 위해서는 2 비트가 필요한데, 이는 각 세트의 메인 펄스 및 서브 펄스는 동일한 서브밴드에 속하기 때문에, 한 세트(메인 및 서브)의 펄스를 표현하기 위해 총 2 비트만 소요된다. 그런데 단독 펄스의 경우, 각 하나의 펄스를 표현하기 위해 2 비트씩이 소요된다.
따라서, 펄스 서브밴드 정보를 인코딩하기 위해서는 제 1 세트에 2 비트, 제 2 세트에 2 비트, 제 3 세트에 2 비트, 제 1 단독 펄스에 2 비트, 제 2 단독 펄스에 2 비트, 즉 총 10 비트가 필요하다.
또한, 펄스 위치 정보는, 특정 서브밴드 내에서는 펄스가 몇 번째 계수에 존재하는지를 나타내기 위한 정보이므로, 제 1 세트 내지 제 3 세트까지 각 6 비트, 제 1 단독 펄스에 6 비트, 제 2 단독 펄스에 6 비트, 총 30 비트가 소요된다.
또한, 펄스 부호 정보는, 총 8 개의 비트 각각 1 비트씩, 총 8 개의 비트가 소요되고, 펄스 크기 정보는, 4 개의 펄스들의 크기 정보를 8 비트의 코드북을 이용하여 벡터양자화하여, 총 16 비트를 할당한다.
다시 도 6 을 참조하면, 상기와 같은 과정을 통해 펄스 추출부(152)에 의해 추출된 펄스들이 고주파 대역의 신호(SWB 신호)로부터 제외됨으로써, 원본 노이즈 신호(
Figure pct00008
등)가 생성된다. 예를 들어, 총 280 개의 계수들 중에서 총 8 개의 펄스에 해당하는 계수를 제외시킨 경우, 원본 노이즈 신호는 총 272 개의 계수들에 대응할 수 있다. 도 9 는 펄스 추출 이전의 신호(SWB 신호) 및 펄스 추출 이후 신호(원본 노이즈 신호)의 일 예가 도시되어 있다. 도 9 의 (A)에서 원본 SWB 신호는 주파수 변환 계수 도메인 상에서 높은 피크 에너지를 갖는 펄스가 복수 개 포함되어 있는 반면에, 도 9 의 (B)는 그 펄스가 제외된 노이즈성(noise-like)의 신호만이 남는다.
도 6 의 참조 노이즈 생성부(154)는 저주파 대역의 주파수 변환 계수(WB 신호)를 근거로, 참조 노이즈 신호를 생성한다. 구체적으로, WB 신호의 전체 에너지를 근거로 임계치를 설정하고, 그 임계치 이상의 펄스를 제외시킴으로써, 참조 노이즈 신호를 생성한다.
도 10 은 참조 노이즈 생성과정을 설명하기 위한 도면이다. 도 10 의 (A)를 참조하면, WB 신호의 일 예가 주파수 변환 도메인 상에 표시되어 있다. 이 중 전체 에너지를 고려하여 임계치가 설정되었을 때, 임계치를 벗어나는 펄스도 존재하고, 임계치 범위 내에 존재하는 펄스도 있다. 임계치를 벗어나는 펄스를 제외시키면 도 10 의 (B)와 같은 신호가 남게 된다. 이와 같이 참조 노이즈 신호를 생성한 후, 정규화과정을 거친다. 그러면 도 10 의 (C)와 같이 표현될 수 있다.
참조 노이즈 생성부(154)는 상기와 같은 과정을 통해 WB 신호를 이용하여 참조 노이즈 신호
Figure pct00009
를 생성한다.
도 6 의 노이즈 탐색부(156)는 원본 노이즈 신호 및 참조 노이즈 신호
Figure pct00010
를 비교함으로써, 원본 노이즈 신호(
Figure pct00011
등)와 가장 유사한 참조 노이즈 신호의 구간을 결정하고, 노이즈 위치 정보 및 노이즈 에너지정보를 생성한다. 이 과정에 대한 일 실시예를 아래와 같이 구체적으로 설명하고자 한다.
우선, 원본 노이즈 신호(SWB 신호에서 펄스가 제외된 신호)를 아래와 같이 복수 개의 서브밴드 신호로 분할한다.
[수학식 5]
Figure pct00012
여기서의 각 서브밴드의 크기는 앞서 일반모드에서의 서브밴드와 동일한 크기를 가질 수 있다. 서브밴드의 길이 d j(k) j=0,...,3는 40, 70, 70, 100 개의 주파수 변환 계수들에 대응할 수 있다. 모든 서브밴드는 각 다른 검색시작 위치 k j 와 각기 다른 검색범위 w j 를 가지며, 참조 노이즈 신호
Figure pct00013
와의 유사정도를 검색한다. 검색시작 위치 k j 는 j=0, 2 일 때 0 으로 고정되고, j=1, 3 인 경우 이전 서브밴드의 최대 유사도를 갖는 서브밴드의 시작위치에 종속된다. j 번째 서브밴드에 대한 검색시작 위치 k j 및 검색범위w j는 다음과 같이 표현될 수 있다.
[수학식 6]
Figure pct00014
k j 는 검색시작 위치, BestIdx j는 최대유사 시작위치,
d j는 서브밴드의 길이, w j는 검색 범위
만약, k j 가 음수가 되면 0 으로 수정해주며, 280-d j-w j 보다 커지면, 280-d j-w j으로 수정해준다. 최대유사 시작위치는 BestIdx j 은 다음 과정을 통해 각 서브밴드별로 추정한다.
우선 유사정도지표 k' 에 해당하는 유사도corr(k')는 다음 수학식과 같이 연산된다. 일반 모드와 유사한 방법으로 부호화되나, 한 샘플(하나의 계수)가 아니라 4 개의 샘플 단위로 검색을 실시한다.
[수학식 7]
Figure pct00015
corr(k')는 유사도,
Figure pct00016
는 원본 노이즈(수학식 5 참조),
Figure pct00017
는 참조 노이즈, k j 는 검색시작 위치, k' 유사정도지표, w j는 검색 범위
유사정도지표k' 에 해당하는 에너지는 다음 수학식과 같이 연산된다.
[수학식 8]
Figure pct00018
실질적인 유사정도S(k')는 다음 수학식과 같다.
[수학식 9]
Figure pct00019
실질적인 유사정도 S(k') 가 최대값이 되는 서브밴드의 시작 위치BestIdx j는 다음과 같이 연산되며, BestIdx jLagIndex j 파라미터로 변환되어 노이즈 위치 정보로서 비트스트림에 포함된다.
Figure pct00020
앞서 노이즈 탐색부(156)가 노이즈 위치 정보를 생성한 과정에 대해서 설명한 바, 이하 노이즈 에너지 정보를 생성하는 과정에 대해서 설명하고자 한다. 참조 노이즈 신호는 원본 노이즈 신호와 유사한 파형을 유지하나, 그 에너지는 서로 다를 수 있다. 디코더에서 원본 노이즈와 유사한 에너지를 갖는 노이즈 신호를 가질 수 있도록, 원본 노이즈 신호의 에너지에 대한 정보인 노이즈 에너지 정보를 생성하여 디코더에 전송할 필요가 있다.
한편, 상기 노이즈 에너지의 값은 다이나믹 레인지가 크기 때문에, 펄스 비율이라는 값으로 변환하여 전송할 수 있다. 펄스 비율은 백분율 값이므로 0%~100%값을 가지므로 다이나믹 레인지가 작아서, 비트수를 절감할 수 있다. 이 변환 과정에 대해서 설명하고자 한다.
노이즈 신호의 에너지는 다음 수학식과 같이 SWB 신호의 전체 에너지에서 펄스 에너지를 제외한 값과 같다.
[수학식 10]
Figure pct00021
Noise energy 는 노이즈 에너지, M 32 는 SWB 신호,
Figure pct00022
는 펄스 에너지
Figure pct00023
상기 수학식을 백분율인 펄스 비율
Figure pct00024
로 나타내면 다음과 같다.
[수학식 11]
Figure pct00025
Figure pct00026
는 펄스 비율,
Figure pct00027
는 펄스 에너지, Noise energy 는 노이즈 에너지
즉, 인코더에서는 수학식 10 에 나타난 노이즈 에너지 Noise energy 대신에, 수학식 11 에 나타난 펄스 비율
Figure pct00028
을 전송한다. 이 펄스 비율에 해당하는 노이즈 에너지 정보는 도 11 에 도시된 바와 같이 4 비트로 인코딩될 수 있다.
그러면, 디코더에서는 우선, 펄스 추출부(152)에 의해 생성된 펄스 정보를 근거로 펄스 에너지 (
Figure pct00029
)를 생성한다. 그런 다음 펄스 에너지(
Figure pct00030
) 및 전송된 펄스 비율
Figure pct00031
을 다음 수학식에 대입함으로써, Noise energy는 노이즈 에너지를 생성한다.
[수학식 12]
Figure pct00032
상기 수학식 12 는 수학식 11 을 다시 정리한 식이다.
디코더는 전송된 펄스 비율을 상기와 같이 노이즈 에너지로 변환한 후, 노이즈 에너지는 참조 노이즈 신호의 각 계수에 다음과 같이 곱합으로써, 참조 노이즈 신호를 이용하여, 원본 노이즈 신호와 유사한 에너지 분포를 갖는 노이즈 신호를 획득할 수 있다.
[수학식 13]
Figure pct00033
노이즈 탐색부(156)는 상기와 같은 과정을 통해 노이즈 위치 정보를 생성하고, 노이즈 에너지 값을 펄스 비율로 변환하고, 이를 노이즈 에너지 정보로서 디코더에 전송한다.
도 12 는 특정 오디오 신호에 대해 일반 모드 및 비-일반모드로 인코딩된 결과를 보여주기 위한 도면이다. 도 12 의 (A)를 우선 참조하면, 특정 신호(예: 타악기와 같이 특정 주파수 대역이 강한 신호)에 대해서는 일반 모드로 인코딩한 후 합성한 결과와, 비-일반 모드로 인코딩한 후 다시 복호화한 결과가, 도 12 의 (A)에 나타난 바와 같이, 차이가 있을 수 있다. 도 12 의 (B)를 살펴보면, 도 12 에 나타난 원본 신호에 대해서는, 비-일반 모드로 인코딩한 결과가, 일반 모드로 인코딩한 결과보다 우수함을 알 수 있다.
즉, 오디오 신호의 특성에 따라, 미리 결정된 특정 펄스의 에너지가 높은 경우에는, 본 발명의 실시예에 따른 비-일반 모드로서 인코딩함으로써, 비트수 증가는 거의 없이 보다 음질을 높일 수 있다.
이하에서는, 프레임간의 유사성이 높아서 토널-모드로 분류된 경우, 도 1 에서 언급한 하모닉비율 판단부(160), 넌-하모닉모드 인코딩부(170) 및 하모닉모드 인코딩부(180)에 대해서 각각 설명하고자 한다.
우선 도 13 은 하모닉비율 판단부(160)의 세부 구성을 보여주는 도면이다. 도 13 을 참조하면, 하모닉비율 판단부(160)는, 하모닉트랙 추출부(162) 및 고정펄스 추출부(164) 및 하모닉비율 결정부(166)를 포함할 수 있는 데, 오디오 신호의 하모닉비율을 근거로 넌-하모닉 모드 및 하모닉 모드를 결정한다. 하모닉모드는 예를 들어, 단일 악기에 의한 하모닉 성분이 강한 신호, 또는 여러 악기에 의해서 발생하는 멀티플 피치(multiple pitch) 신호를 포함하는 신호를 인코딩하기에 적절한 모드이다.
도 14 는 하모닉비율이 높은 오디오 신호의 예이다. 도 14 를 참조하면, 주파수 변환 계수 도메인 상에서 기본 주파수의 배수가 되는 하모닉들이 강하게 나타나고 있음을 알 수 있다. 이러한 하모닉 특성이 강한 신호의 경우, 종래의 방식대로 인코딩을 할 경우, 하모닉에 해당하는 펄스를 모두 인코딩해야 하므로, 비트가 많이 소요되어 부호화기의 성능이 떨어지는 문제점이 있다. 반대로, 정해진 개수의 펄스만을 추출하는 인코딩 방식을 적용하였을 때, 모든 펄스를 추출하기 어렵기 때문에 음질이 저하되는 문제점이 있다. 따라서, 이러한 신호에 적절한 코딩 방식을 본원에서는 제안하고자 한다.
하모닉트랙 추출부(162)는 고주파 대역에 해당하는 주파수 변환 계수들에 대해서, 하모닉 트랙을 추출한다. 이 과정은 추후 하모닉모드 인코딩부(180)의 하모닉트랙 추출부(182)와 동일한 과정을 수행하므로, 추후에 구체적으로 설명하고자 한다.
고정펄스 추출부(164)는 정해진 영역에서 정해진 개수의 펄스를 추출한다(164). 이 과정은 추후 넌-하모닉모드 인코딩부(170)의 고정펄스 추출부(172)와 동일한 과정을 수행하므로, 추후에 구체적으로 설명하고자 한다.
하모닉비율 결정부(166)는, 하모닉 비율 즉, 추출된 하모닉트랙의 에너지의 합에 비한 고정펄스 에너지의 비율인 바, 하모닉 비율이 낮은 경우에는 넌-하모닉 모드로 결정하고, 하모닉 비율이 높은 경우에는 하모닉 모드로 결정한다. 앞서 설명한 바와 같이 넌-하모닉 모드인 경우 넌-하모닉모드 인코딩부(170)가 활성화되고, 하모닉 모드인 경우 하모닉모드 인코딩부(180)가 활성화된다.
도 15 는 넌-하모닉모드 인코딩부(170)의 세부 구성을 보여주는 도면이고, 도 16 은 넌-하모닉모드인 경우, 고정 펄스를 추출하는 규칙을 설명하기 위한 도면이고, 도 17 은 넌-하모닉모드로 인코딩한 경우의 신택스의 일 예이다.
우선, 도 15 를 참조하면, 넌-하모닉모드 인코딩부(170)는 고정펄스 추출부(172) 및 펄스위치정보 생성부(174)를 포함한다.
고정펄스 추출부(172)는 도 16 에 나타난 바와 같이 고정된 영역에서 고정된 개수의 고정 펄스를 추출한다.
[수학식 14]
Figure pct00034
여기서, M 32(k)는 SWB 신호,
Figure pct00035
는 HF 합성신호.
HF 합성 신호
Figure pct00036
는 존재하지 않기 때문에 0 으로 결정되고, M 32(k) 의 최대값을 찾는 과정이 된다. D(k) 에서 5 개의 서브밴드로 분할하여 D j를 만들고 각 서브밴드의 펄스의 개수는 이전에 결정된 개수 N j 값을 갖는다. 각 서브밴드별 N j 개의 가장 큰 값을 찾는 과정은 다음과 같다. 다음의 알고리즘은 정렬 알고리즘으로서 최대값 N 을 찾고 이를 input_data 라는 배열에 저장한다.
Figure pct00037
도 16 을 참조하면, 각 서브밴드 별로 다수의 위치 셋 중 하나, 즉, 제 1 위치 셋(예: 짝수 위치들) 또는 제 2 위치 셋(홀수 위치들)에서 정해진 개수(예: 10 개)의 펄스를 추출하는 예가 도시되어 있다. 제 1 서브밴드에서는 짝수의 위치(position: 280 등)에서 두 개의 펄스들(track 0)을, 홀수의 위치(position: 281, 등)에서도 두 개의 펄스들(track 1)을 추출한다. 제 2 서브밴드에서도 마찬가지로, 짝수의 위치(position: 280 등)에서 두 개의 펄스들(track 2)을, 홀수의 위치(position: 281, 등)에서도 두 개의 펄스들(track 3)를 추출한다. 그런 다음 제 3 서브밴드에서는, 위치와 상관없이 1 개의 펄스(track4)를, 제 4 서브밴드에서도, 위치와 상관없이 1 개의 펄스(track5)를 추출한다.
위와 같이, 고정 펄스를 추출하는 이유는, 즉, 정해진 위치에서 정해진 개수만큼의 펄스를 추출하는 이유는, 고정 펄스의 위치정보에 해당하는 비트수를 절약하기 위해서이다.
다시 도 15 를 참조하면, 펄스위치정보 생성부(174)는 추출된 고정펄스에 대해서, 정해진 규칙에 따라 고정펄스 위치정보를 생성한다. 도 17 은 넌-하모닉모드로 인코딩한 경우의 신택스의 일 예이다. 도 17 를 참조하면, 도 16 에 나타난 규칙대로 고정펄스를 추출할 경우, track0 내지 track3 까지의 총 8 개의 펄스는 짝수 또는 홀수로 위치가 정해져 있기 때문에, 고정펄스 위치정보를 인코딩하기 위한 비트수가 64 비트가 아니라 32 비트가 될 수 있다. track4 에 해당하는 펄스는 짝수 또는 홀수의 제한이 없으므로 64 비트가 소요되고, track5 의 경우에는 짝수 또는 홀수의 제한이 없지만, 위치가 472 부터 503 으로 제한되므로, 32 비트가 필요하다.
이하, 도 18 내지 도 20 과 함께 하모닉모드 인코딩 과정을 설명하고자 한다.
도 18 은 하모닉모드 인코딩부(180)의 세부 구성을 보여주는 도면이고, 도 19 는 하모닉트랙의 추출을 설명하기 위한 도면이고, 도 20 은 하모닉트랙 위치정보의 양자화를 설명하기 위한 도면이다.
도 18 을 참조하면, 하모닉모드 인코딩부(180)은 하모닉트랙 추출부(182) 및 하모닉정보 부호화부(184)를 포함한다.
하모닉트랙 추출부(182)는 고주파 대역에 해당하는 주파수 변환 계수들에 대해서 복수의 하모닉 트랙을 추출한다. 구체적으로, 제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙(제 1 하모닉 트랙 및 제 2 하모닉 트랙)을 추출하고, 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙(제 3 하모닉 트랙 및 제 4 하모닉 트랙)을 추출한다. 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋(예: 홀수) 중 하나에 대응될 수 있고, 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋(예: 짝수) 중 하나에 대응될 수 있다.
도 19 의 (A)를 참조하면, 제 1 피치를 갖는 제 1 하모닉 트랙 및 제 1 피치를 갖는 제 2 하모닉 트랙이 표현되어 있다. 예를 들어, 제 1 하모닉 트랙의 시작 위치는 짝수, 제 2 하모닉 트랙의 시작 위치는 홀수로 표현될 수 있다. 한편, 도 19 의 (B)를 참조하면, 제 2 피치를 갖는 제 3 하모닉 트랙 및 제 4 하모닉 트랙이 표시되어 있다. 제 3 하모닉 트랙의 시작위치는 홀수로 설정되고, 제 4 하모닉 트랙의 시작위치는 짝수로 설정될 수 있다. 한편, 각 그룹의 하모닉 트랙들이 3 개 이상일 경우(즉, 제 1 그룹에 A 하모닉 트랙, B 하모닉 트랙, C 하모닉 트랙이 포함, 제 2 그룹에 K 하모닉 트랙, L 하모닉 트랙, M 하모닉 트랙이 포함), A / K 하모닉 트랙에 대응하는 제 1 위치 셋은 3N(N 은 정수), B/ L 하모닉 트랙에 대응하는 제 2 위치 셋은 3N+1(N 은 정수), C/M 하모닉 트랙에 대응하는 제 3 위치 셋은 3N+2(N 은 정수)일 수 있다.
상기와 같은 복수의 하모닉 트랙은 다음 수학식을 통해 수행될 수 있다.
[수학식 14]
Figure pct00038
여기서, M 32(k)는 SWB 신호,
Figure pct00039
는 HF 합성신호.
HF 합성신호는 존재하지 않기 때문에 0 으로 초기값을 설정하면, M 32(k)의 최대값을 찾는 과정이 된다.
D(k) 는 미리 결정된 개수(예: 총 4 개)의 하모닉 트랙의 합으로 표현된다. 각각의 하모닉 트랙 D j는 최대한 2 개 이상의 피치 성분을 포함할 수 있으며, 하나의 피치 성분에 2 개의 하모닉 트랙D j을 추출할 수 있다. 각 피치 성분별 2 개의 가장 큰 값을 갖는 하모닉 트랙D j를 찾는 과정은 다음과 같다.
다음 수식은 오토코릴레이션(autocorrelation) 함수를 이용하여 가장 많은 에너지를 포함하는 하모닉 트랙 D j의 피치 P i를 찾는다. 피치의 범위를 주파수 변환 계수들의 20-27 의 계수로 제한하여 추출되는 하모닉의 개수를 제한할 수 있다.
[수학식 15]
Figure pct00040
다음 수식은 개별 피치 P i마다 가장 많은 에너지를 포함하는 총 2 개의 하모닉 트랙 D j의 시작위치 PS i를 계산하여 하모닉 트랙 D j를 추출하는 과정이다. 하모닉 트랙 D j의 시작위치 PS i의 범위는 추출되는 하모닉의 개수를 포함하여 계산되며, MDCT 도메인 신호의 특성을 반영하여 피치 P i에 의해 2 개의 시작위치 PS i에 의해서 총 2 개의 하모닉 트랙D j이 추출된다.
[수학식 16]
Figure pct00041
추출된 4 개의 하모닉 트랙D j의 피치 P i와 시작위치PS i의 범위와 개수는 도 19 의 (C)에 도시되어 있다.
하모닉정보 부호화부(184)는 하모닉트랙에 관한 상기 정보들을 인코딩하고 벡터양자화한다.
위의 과정에서 추출된 각 하모닉 트랙은 피치 P i와 시작위치PS i들으 위치정보를 갖고 있다. 추출된 피치 P i와 시작위치 PS i는 다음과 같이 부호화된다. 피치 P i는 HF 에서 존재할 수 있는 하모닉의 개수를 제한하여 3 비트를 사용하여 양자화되며, 시작위치 PS i는 4 비트를 사용하여 각각 양자화된다. 총 4 개의 하모닉 트랙을 추출하기 위한 위치정보는 2 개의 피치 P i개의 시작위치PS i를 사용하여 총 22 비트가 사용될 수 있으나 본 발명은 이에 한정되지 아니한다.
위 과정에서 추출되는 4 개의 하모닉 트랙은 최대 44 개의 펄스를 포함한다. 44 개의 펄스의 크기값과 부호정보를 모두 양자화하기 위해서는 많은 비트가 필요하다. 따라서 각각의 하모닉 트랙의 펄스 중 펄스 피츠 추출 알고리즘을 이용하여 에너지를 많이 포함하는 펄스를 추출하여 크기값과 부호화 정보를 다음 수식과 같이 별도 부호화한다.
다음의 알고리즘은 각각 하모닉 트랙에서 펄스 피크 PPi 추출 알고리즘으로서 에너지를 많이 포함하는 연속된 펄스를 찾고 크기값을 양자화하고, 부호정보를 다음 수식과 같이 별도로 부호화한다. 각각의 하모닉 트랙에서 펄스 피크를 추출하기 위해서 3 비트를 사용하며, 2 개의 하모닉 트랙에서 추출된 4 개의 펄스는 8 비트를 사용하여 그 크기값이 양자화되며, 각각의 부호정보를 위해 1 비트를 할당한다. 이를 통해 펄스 피크 추출알고리즘을 통해 추출된 펄스는 총 24 비트로 양자화된다.
[수학식 17]
Figure pct00042
위 과정에서 추출된 8 개의 펄스를 제외한 하모닉 트랙은 하나의 트랙으로 결합되어 DCT(Discrete Cosine Transform)을 이용하여 크기값과 부호정보를 동시에 양자화한다. DCT 양자화를 위해서는 19 비트가 사용된다.
추출된 4 개의 하모닉 트랙의 펄스 피크 추출 알고리즘을 통해 추출된 펄스와 이를 제외한 하모닉 트랙의 부호화 과정은 도 20 에 나타난 바와 같다. 도 20 을 참조하면, 제 1 그룹의 제 1 하모닉 트랙 중에 최대 펄스와 그의 인접펄스, 제 1 그룹의 제 2 하모닉 트랙 중에서 최대 펄스와 그의 인접 펄스에 대해 제 1 타깃 벡터(targetA)를 생성하고, 제 3 하모닉 트랙 중 최대 펄스와 그의 인접펄스, 제 4 하모닉 트랙 중 최대 펄스와 그의 인접 펄스에 대해서 제 2 타깃 벡터(targetB)를 생성한다. 제 1 타깃 벡터 및 제 2 타깃 벡터에 대해서 벡터-양자화를 수행하고, 각 하모닉 트랙들 중에서 상기 최대 펄스 및 인접 펄스를 제외한 나머지 부분들(residual)은 조합하여 이에 대해 주파수 변환을 수행한다. 이때 주파수 변환에는 앞서 언급한 바와 같이 DCT(Discrete Cosine Transform)가 사용될 수 있다.
그리고 상기에서 설명한 하모닉 트랙에 관한 정보의 일 예는 도 21 에 나타난 바와 같다.
도 22 은 특정 오디오 신호에 대해 넌-하모닉 모드 및 하모닉모드로 인코딩된 결과를 보여주기 위한 도면이다. 도 22 를 참조하면, 하모닉이 강한 신호에 대해서는 넌-하모닉 모드로 인코딩한 결과보다, 하모닉 모드로 인코딩한 결과가 원본 신호에 더욱 가깝기 때문에, 음질이 향상될 수 있음을 알 수 있다.
도 23 은 본 발명의 실시예에 따른 오디오 신호 처리 장치 중 디코더의 구성을 보여주는 도면이다. 도 23 을 참조하면, 본 발명의 실시예에 따른 디코더(200)는 모드결정부(210), 비-일반모드 디코딩부(230), 하모닉모드 디코딩부(250) 중 하나 이상을 포함하고, 일반모드 디코딩부(220), 넌-하모닉모드 디코딩부(240)를 더 포함할 수 있다. 한편, 수신된 오디오 신호에 대한 비트스트림를 파싱하는 디-멀티플렉서(미도시)를 더 포함할 수 있다.
모드결정부(210)는, 비트스트림을 통해 수신된 제 1 모드 정보 및 제 2 모드 정보를 근거로 현재 프레임에 대응하는 모드 즉, 현재 모드를 결정한다. 제 1 모드 정보는, 앞서 인코더(100)와 관련하여 언급한 바와 마찬가지로, 제 1 모드 정보는, 상기 넌-토널 모드 및 상기 토널 모드 중 하나를 지시하고, 제 2 모드 정보는, 상기 제 1 모드 정보가 넌-토널 모드를 지시하는 경우, 일반모드 또는 비-일반 모드 중 하나를 지시하고, 제 1 모드 정보가 토널 모드를 지시하는 경우, 넌-하모닉 모드 및 하모닉 모드 중 하나를 지시한다.
이 결정된 현재 모드에 따라서, 현재 프레임에 대해 네 가지 디코딩부들(220, 230, 240, 250) 중 하나가 활성화되고, 현재 모드에 따라서 각 모드에 대응하는 파라미터가 디멀티플렉서(미도시)에 의해 추출한다.
현재 모드가 일반 모드인 경우에는 인벨롭 위치정보 및 스케일링 정보 등이 추출된다. 그러면 일반모드 디코딩부(220)는 복원된 저주파 대역의 주파수 변환 계수들(WB 신호) 중에서 상기 인벨롭 위치정보에 대응하는 구간, 즉 최대유사 밴드의 인벨롭을 추출한다. 그런 다음, 상기 스케일링 정보를 이용하여 인벨롭을 스케일링 함으로써, 현재 프레임의 고주파 대역(SWB 신호)를 복원한다.
현재 모드가 비-일반 모드인 경우에는 펄스 정보, 노이즈 위치정보, 노이즈 에너지 정보 등이 추출된다. 그러면 비-일반모드 디코딩부(230)는, 펄스 정보를 근거로 복수 개의 펄스(예를 들어, 총 3 세트의 메인펄스 및 서브펄스, 2 개의 단독 펄스)를 생성한다. 여기서 펄스 정보는 펄스 위치 정보, 펄스 부호 정보, 및 펄스 크기 정보를 포함할 수 있는데, 상기 펄스 부호 정보에 따라 각 펄스들의 부호가 결정된다, 펄스 크기 정보 및 펄스 위치 정보에 따라서 각 펄스들의 크기 및 위치가 결정된다. 그런 다음, 노이즈 위치정보를 이용하여 복원된 WB 신호 중에서 노이즈로 사용할 구간을 결정하고, 상기 노이즈 에너지 정보를 이용하여 노이즈 에너지를 조절한 후, 상기 펄스들을 합함으로써, 현재 프레임의 SWB 신호를 복원한다.
현재 모드가 넌-하모닉 모드인 경우, 고정펄스들에 대한 정보인 고정펄스정보가 추출된다. 넌-하모닉모드 디코딩부(240)는 고정펄스정보를 이용하여 서브밴드별로 정해진 위치 및 정해진 개수만큼의 고정펄스를 획득한다. 고정펄스를 이용하여 현재 프레임의 SWB 신호를 생성한다.
현재 모드가 하모닉 모드인 경우, 하모닉트랙의 위치정보 등이 추출된다. 여기서 하모닉트랙의 위치정보는 제 1 피치를 갖는 제 1 그룹의 하모닉트랙들의 시작위치정보 및, 제 2 피치를 갖는 제 2 그룹의 하모닉트랙들의 시작위치정보를 포함한다. 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트랙 및 제 2 하모닉 트랙을 포함하고, 상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함할 수 있는데, 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대응되고, 상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대응될 수 있다.
여기서, 상기 제 1 피치 및 제 2 피치를 지시하는 피치 정보를 더 수신할 수 있다. 하모닉모드 디코딩부(250)은 상기 피치 정보 및 상기 시작위치정보를 이용하여 상기 시작 위치 정보에 대응하는 복수의 하모닉 트랙을 생성하고, 복수의 하모닉 트랙을 이용하여 현재 프레임에 해당하는 오디오 신호 즉 SWB 신호를 생성한다.
본 발명에 따른 오디오 신호 처리 장치는 다양한 제품에 포함되어 이용될 수 있다. 이러한 제품은 크게 스탠드 얼론(stand alone) 군과 포터블(portable) 군으로 나뉠 수 있는데, 스탠드 얼론군은 티비, 모니터, 셋탑 박스 등을 포함할 수 있고, 포터블군은 PMP, 휴대폰, 네비게이션 등을 포함할 수 있다.
도 24 는 본 발명의 실시예에 따른 오디오 신호 처리 장치가 구현된 제품의 개략적인 구성을 보여주는 도면이다. 우선 도 24 를 참조하면, 유무선 통신부(510)는 유무선 통신 방식을 통해서 비트스트림을 수신한다. 구체적으로 유무선 통신부(510)는 유선통신부(510A), 적외선통신부(510B), 블루투스부(510C), 무선랜통신부(510D) 중 하나 이상을 포함할 수 있다.
사용자 인증부는(520)는 사용자 정보를 입력 받아서 사용자 인증을 수행하는 것으로서 지문인식부(520A), 홍채인식부(520B), 얼굴인식부(520C), 및 음성인식부(520D) 중 하나 이상을 포함할 수 있는데, 각각 지문, 홍채정보, 얼굴 윤곽 정보, 음성 정보를 입력받아서, 사용자 정보로 변환하고, 사용자 정보 및 기존 등록되어 있는 사용자 데이터와의 일치여부를 판단하여 사용자 인증을 수행할 수 있다.
입력부(530)는 사용자가 여러 종류의 명령을 입력하기 위한 입력장치로서, 키패드부(530A), 터치패드부(530B), 리모컨부(530C) 중 하나 이상을 포함할 수 있지만, 본 발명은 이에 한정되지 아니한다.
신호 코딩 유닛(540)는 유무선 통신부(510)를 통해 수신된 오디오 신호 및/또는 비디오 신호에 대해서 인코딩 또는 디코딩을 수행하고, 시간 도메인의 오디오 신호를 출력한다. 오디오 신호 처리 장치(545)를 포함하는데, 이는 앞서 설명한 본 발명의 실시예(즉, 제 1 실시예에 따른 인코더(100) 및/또는 디코더(200), 제 2 실시예에 따른 인코더(300) 및/또는 디코더(400))에 해당하는 것으로서, 이와 같이 오디오 처리 장치(545) 및 이를 포함한 신호 코딩 유닛은 하나 이상의 프로세서에 의해 구현될 수 있다.
제어부(550)는 입력장치들로부터 입력 신호를 수신하고, 신호 디코딩부(540)와 출력부(560)의 모든 프로세스를 제어한다. 출력부(560)는 신호 디코딩부(540)에 의해 생성된 출력 신호 등이 출력되는 구성요소로서, 스피커부(560A) 및 디스플레이부(560B)를 포함할 수 있다. 출력 신호가 오디오 신호일 때 출력 신호는 스피커로 출력되고, 비디오 신호일 때 출력 신호는 디스플레이를 통해 출력된다.
도 25 는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도이다. 도 25 는 도 24 에서 도시된 제품에 해당하는 단말 및 서버와의 관계를 도시한 것으로서, 도 25 의 (A)를 참조하면, 제 1 단말(500.1) 및 제 2 단말(500.2)이 각 단말들은 유무선 통신부를 통해서 데이터 내지 비트스트림을 양방향으로 통신할 수 있음을 알 수 있다. 도 16 의 (B)를 참조하면, 서버(600) 및 제 1 단말(500.1) 또한 서로 유무선 통신을 수행할 수 있음을 알 수 있다.
본 발명에 따른 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
산업상 이용가능성
본 발명은 오디오 신호를 인코딩하고 디코딩하는 데 적용될 수 있다.

Claims (18)

  1. 오디오 신호에 대해서 주파수 변환을 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 단계;
    상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 단계; 및,
    상기 비-일반 모드가 선택된 경우, 다음 단계가 수행되는 단계;
    상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 펄스들을 추출하고, 펄스 정보를 생성하는 단계;
    상기 고주파 대역의 주파수 변환 계수들로부터 상기 펄스들을 제외한 원본 노이즈 신호를 생성하는 단계;
    상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 및,
    상기 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  2. 제 1 항에 있어서,
    상기 펄스 비율은, 현재 프레임의 전체 에너지에 대한 복수의 펄스들에 대한 에너지의 비율인 것을 특징으로 하는 오디오 신호 처리 방법.
  3. 제 1 항에 있어서,
    미리 결정된 개수의 펄스들을 추출하는 단계는
    가장 큰 에너지를 갖는 메인 펄스를 추출하는 단계;
    상기 메인 펄스에 인접한 서브 펄스를 추출하는 단계; 및
    상기 고주파 대역의 주파수 변환 계수에서 상기 메인 펄스 및 상기 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 생성하는 단계;
    상기 타깃 노이즈 신호에 대해서 상기 메인 펄스 및 상기 서브 펄스를 추출하는 것을 미리 정해진 횟수만큼 반복하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  4. 제 1 항에 있어서,
    상기 펄스 정보는, 펄스 위치 정보, 펄스 부호 정보, 펄스 크기 정보, 펄스 서브밴드 정보 중 하나 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  5. 제 1 항에 있어서,
    상기 참조 노이즈 신호를 생성하는 단계는,
    저주파 대역의 전체 에너지를 근거로 임계치를 설정하는 단계; 및
    상기 임계치 이상의 펄스를 제외시킴으로써, 상기 참조 노이즈 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  6. 제 1 항에 있어서,
    상기 노이즈 에너지정보를 생성하는 단계는,
    상기 미리 결정된 개수의 펄스의 에너지를 생성하는 단계;
    상기 원본 노이즈 신호의 에너지를 생성하는 단계;
    상기 펄스의 에너지 및 상기 원본 노이즈 신호의 에너지를 이용하여 펄스 비율을 획득하는 단계; 및,
    상기 펄스 비율을 노이즈 에너지 정보로서 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  7. 오디오 신호에 대해서 주파수 변환을 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 주파수 변환부;
    상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 펄스비율 판단부;
    상기 비-일반 모드가 선택된 경우에 동작하며, 다음을 포함하는 비-일반모드 인코딩부;
    상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 펄스들을 추출하고, 펄스 정보를 생성하는 펄스 추출부;
    상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 참조노이즈 생성부; 및,
    원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 노이즈 탐색부를 포함하고,
    상기 원본 노이즈 신호는, 상기 고주파 대역의 주파수 변환 계수들로부터 상기 펄스들을 제외함으로써 생성되는 것을 특징으로 하는 오디오 신호 처리 장치.
  8. 현재 프레임이 일반 모드 인지 아니면 비-일반 모드인지 여부를 지시하는 제 2 모드 정보를 수신하는 단계;
    상기 제 2 모드 정보가 현재 프레임이 비-일반 모드임을 지시하는 경우, 펄스 정보, 노이즈 위치정보 및 노이즈 에너지정보를 수신하는 단계;
    상기 펄스 정보를 이용하여, 주파수 변환 계수들에 대해서 미리 결정된 개수의 펄스들을 생성하는 단계;
    상기 노이즈 위치정보에 대응하는 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계;
    상기 노이즈 에너지정보를 이용하여 상기 참조 노이즈 신호의 에너지를 조절하는 단계; 및,
    상기 에너지 조절된 참조 노이즈 신호 및 상기 복수의 펄스를 이용하여 고주파 대역에 대응하는 주파수 변환 계수들을 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  9. 오디오 신호를 수신하는 단계;
    오디오 신호에 대해서 주파수 변환을 수행하여, 복수개의 주파수 변환 계수들을 획득하는 단계;
    상기 주파수 변환 계수에 대해서, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계;
    상기 하모닉 모드가 선택된 경우, 다음 단계가 수행되는 단계;
    제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙들을 결정하는 단계;
    제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙들을 결정하는 단계; 및,
    상기 복수의 하모닉 트랙들의 시작 위치 정보를 생성하는 단계를 포함하고,
    상기 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트랙 및 제 2 하모닉 트랙을 포함하고,
    상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함하고,
    상기 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대응되고,
    상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대응되는 것을 특징으로 하는 오디오 신호 처리 방법.
  10. 제 9 항에 있어서,
    상기 하모닉 비율은, 복수의 하모닉 트랙들의 에너지 및 복수 개의 펄스의 에너지를 근거로 생성된 것임을 특징으로 하는 오디오 신호 처리 방법.
  11. 제 9 항에 있어서,
    상기 제 1 위치 셋은 짝수 위치들에 해당하고, 제 2 위치 셋은 홀수 위치들에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
  12. 제 9 항에 있어서,
    상기 제 1 하모닉 트랙 중에서의 최대 펄스, 및 그의 인접 펄스, 상기 제 2 하모닉 트랙 중에서 최대 펄스, 및 그의 인접 펄스를 포함하는 제 1 타깃 벡터를 생성하는 단계;
    상기 제 3 하모닉 트랙 중에서의 최대 펄스, 그의 인접 펄스, 상기 제 4 하모닉 트랙 중에서의 최대 펄스, 그의 인접 펄스를 포함하는 제 2 타깃 벡터를 생성하는 단계;
    상기 제 1 타깃 벡터 및 상기 제 2 타깃 벡터를 벡터-양자화하는 단계;
    상기 하모닉 트랙들에서 상기 제 1 타깃 벡터 및 상기 제 2 타깃 벡터를 제외한 대상에 대해 주파수 변환하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  13. 제 9 항에 있어서,
    제 1 하모닉 트랙은 제 1 피치를 갖는 복수의 펄스들의 집합이고,
    제 2 하모닉 트랙은 제 1 피치를 갖는 복수의 펄스들의 집합이고,
    제 3 하모닉 트랙은 제 2 피치를 갖는 복수의 펄스들의 집합이고,
    제 4 하모닉 트랙은 제 2 피치를 갖는 복수의 펄스들의 집합인 것을 특징으로 하는 오디오 신호 처리 방법.
  14. 제 9 항에 있어서,
    상기 제 1 피치 및 상기 제 2 피치를 지시하는 피치 정보를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  15. 제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙들 및 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙을 포함하는 복수의 하모닉 트랙들의 시작 위치 정보를 수신하는 단계;
    상기 시작 위치 정보에 대응하는 복수의 하모닉 트랙을 생성하는 단계; 및,
    상기 복수의 하모닉 트랙을 이용하여 현재 프레임에 해당하는 오디오 신호를 생성하는 단계를 포함하고,
    상기 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트랙 및 제 2 하모닉 트랙을 포함하고,
    상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함하고,
    상기 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대응되고,
    상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대응되는 것을 특징으로 하는 오디오 신호 처리 방법.
  16. 오디오 신호에 대해서 주파수 변환을 수행하여, 복수개의 주파수 변환 계수들을 획득하는 단계;
    상기 주파수 변환 계수들에 대해서, 프레임간 유사성을 근거로 넌-토널 모드 및 토널 모드를 선택하는 단계;
    상기 넌-토널 모드가 선택된 경우, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 단계;
    상기 토널 모드가 선택된 경우, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계; 및,
    상기 선택된 모드에 따라서 상기 오디오 신호를 인코딩함으로써 파라미터를 생성하는 단계를 포함하고,
    상기 일반 모드인 경우, 상기 파라미터는 인벨롭 위치정보 및 스케일링 정보를 포함하고,
    상기 비-일반 모드인 경우, 상기 파라미터는 펄스정보 및 노이즈 에너지정보를 포함하고
    상기 넌-하모닉 모드인 경우, 상기 파라미터는 서브밴드별로 개수가 미리 정해진 고정 펄스들에 대한 정보인 고정 펄스정보를 포함하고,
    상기 하모닉 모드인 경우, 상기 파라미터는 제 1 그룹의 하모닉 트랙들의 위치정보들, 제 2 그룹의 하모닉 트랙들의 위치정보들을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  17. 제 16 항에 있어서,
    상기 선택된 모드에 따라서, 제 1 모드 정보 및 제 2 모드 정보를 생성하는 단계를 더 포함하고,
    상기 제 1 모드 정보는, 상기 넌-토널 모드 및 상기 토널 모드 중 하나를 지시하고,
    상기 제 2 모드 정보는, 상기 제 1 모드 정보가 넌-토널 모드를 지시하는 경우, 상기 일반모드 또는 상기 비-일반 모드 중 하나를 지시하고, 상기 제 1 모드 정보가 토널 모드를 지시하는 경우, 상기 넌-하모닉 모드 및 상기 하모닉 모드 중 하나를 지시하는 것을 특징으로 하는 오디오 신호 처리 방법.
  18. 비트스트림을 통해 제 1 모드 정보 및 제 2 모드 정보를 추출하는 단계;
    상기 제 1 모드 정보 및 제 2 모드 정보를 근거로 하여, 현재 프레임에 해당하는 현재 모드를 결정하는 단계;
    상기 현재 모드가 일반 모드인 경우, 인벨롭 위치 정보 및 스케일링 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계;
    상기 현재 모드가 비-일반 모드인 경우, 펄스정보 및 노이즈 에너지 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계;
    상기 현재 모드가 넌-하모닉 모드인 경우, 서브밴드별로 개수가 미리 정해진 고정 펄스들에 대한 정보인 고정펄스정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 및,
    상기 현재 모드가 하모닉 모드인 경우, 제 1 그룹의 하모닉 트랙의 위치정보들 및 제 2 그룹의 하모닉 트랙의 위치정보들을 이용하여 현재 프레임의 오디오 신호를 복원하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
KR1020127020609A 2010-01-15 2011-01-17 오디오 신호 처리 방법 및 장치 KR101764633B1 (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US29517010P 2010-01-15 2010-01-15
US61/295,170 2010-01-15
US34919210P 2010-05-27 2010-05-27
US61/349,192 2010-05-27
US37744810P 2010-08-26 2010-08-26
US61/377,448 2010-08-26
US201061426502P 2010-12-22 2010-12-22
US61/426,502 2010-12-22
PCT/KR2011/000324 WO2011087332A2 (ko) 2010-01-15 2011-01-17 오디오 신호 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20120121895A true KR20120121895A (ko) 2012-11-06
KR101764633B1 KR101764633B1 (ko) 2017-08-04

Family

ID=44352281

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127020609A KR101764633B1 (ko) 2010-01-15 2011-01-17 오디오 신호 처리 방법 및 장치

Country Status (5)

Country Link
US (2) US9305563B2 (ko)
EP (2) EP3002752A1 (ko)
KR (1) KR101764633B1 (ko)
CN (2) CN104252862B (ko)
WO (1) WO2011087332A2 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011087332A2 (ko) * 2010-01-15 2011-07-21 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US9472199B2 (en) 2011-09-28 2016-10-18 Lg Electronics Inc. Voice signal encoding method, voice signal decoding method, and apparatus using same
US8731911B2 (en) 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
WO2014030928A1 (ko) * 2012-08-21 2014-02-27 엘지전자 주식회사 오디오 신호 부호화 방법 및 오디오 신호 복호화 방법 그리고 이를 이용하는 장치
CN102893718B (zh) * 2012-09-07 2014-10-22 中国农业大学 带状旋耕播种机主动覆土方法
NL2012567B1 (en) * 2014-04-04 2016-03-08 Teletrax B V Method and device for generating improved fingerprints.
CN104978968A (zh) * 2014-04-11 2015-10-14 鸿富锦精密工业(深圳)有限公司 水印加载装置及水印加载的方法
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN109102811B (zh) * 2018-07-27 2021-03-30 广州酷狗计算机科技有限公司 音频指纹的生成方法、装置及存储介质
CN113557519A (zh) * 2019-03-14 2021-10-26 日本电气株式会社 信息处理设备、信息处理系统、信息处理方法以及记录介质
CN111223491B (zh) * 2020-01-22 2022-11-15 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
CN100395817C (zh) * 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
KR100788706B1 (ko) 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
US8630863B2 (en) 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
KR101377667B1 (ko) * 2007-04-24 2014-03-26 삼성전자주식회사 오디오/스피치 신호의 시간 도메인에서의 부호화 방법
KR101393300B1 (ko) * 2007-04-24 2014-05-12 삼성전자주식회사 오디오/스피치 신호 복호화 방법 및 장치
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
CN102460574A (zh) 2009-05-19 2012-05-16 韩国电子通信研究院 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备
WO2011087332A2 (ko) * 2010-01-15 2011-07-21 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
CN104252862B (zh) 2018-12-18
WO2011087332A3 (ko) 2011-12-01
CN104252862A (zh) 2014-12-31
US9305563B2 (en) 2016-04-05
WO2011087332A2 (ko) 2011-07-21
CN102870155B (zh) 2014-09-03
KR101764633B1 (ko) 2017-08-04
EP3002752A1 (en) 2016-04-06
EP2525357A4 (en) 2014-11-05
EP2525357B1 (en) 2015-12-02
EP2525357A2 (en) 2012-11-21
US20160217801A1 (en) 2016-07-28
CN102870155A (zh) 2013-01-09
US20130060365A1 (en) 2013-03-07
US9741352B2 (en) 2017-08-22

Similar Documents

Publication Publication Date Title
KR101764633B1 (ko) 오디오 신호 처리 방법 및 장치
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
KR101370515B1 (ko) 복합 확장 인지 템포 추정 시스템 및 추정방법
US9697840B2 (en) Enhanced chroma extraction from an audio codec
JP5175028B2 (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
JP2009515212A (ja) オーディオ圧縮
WO2021258940A1 (zh) 音频编解码方法、装置、介质及电子设备
KR20100086000A (ko) 오디오 신호 처리 방법 및 장치
KR20070017524A (ko) 부호화 장치, 복호화 장치, 및 이들의 방법
JP2016194710A (ja) 音声符号化装置および方法、並びに、音声復号装置および方法
US10706866B2 (en) Audio signal encoding method and mobile phone
US20030088402A1 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
EP1441330B1 (en) Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method
KR20130112871A (ko) 오디오 신호 처리 방법 및 장치
JP2005326862A (ja) 音声信号圧縮装置及び方法、音声信号復元装置及び方法、ならびにコンピュータ読取可能な記録媒体
JP3344944B2 (ja) オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
JP6400590B2 (ja) 音響信号符号化装置、音響信号復号装置、端末装置、基地局装置、音響信号符号化方法及び復号方法
JP3348759B2 (ja) 変換符号化方法および変換復号化方法
JPH09230898A (ja) 音響信号変換符号化方法及び復号化方法
JP2000259190A (ja) オーディオ信号圧縮方法及びオーディオ信号復号方法とオーディオ信号圧縮装置
Sathidevi et al. Low complexity scalable perceptual audio coder using an optimum wavelet packet basis representation and vector quantization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right