KR20070012194A - 혼합 구조의 스케일러블 음성 부호화 방법 및 장치 - Google Patents

혼합 구조의 스케일러블 음성 부호화 방법 및 장치 Download PDF

Info

Publication number
KR20070012194A
KR20070012194A KR1020060049038A KR20060049038A KR20070012194A KR 20070012194 A KR20070012194 A KR 20070012194A KR 1020060049038 A KR1020060049038 A KR 1020060049038A KR 20060049038 A KR20060049038 A KR 20060049038A KR 20070012194 A KR20070012194 A KR 20070012194A
Authority
KR
South Korea
Prior art keywords
signal
band
low
encoder
wideband
Prior art date
Application number
KR1020060049038A
Other languages
English (en)
Other versions
KR101171098B1 (ko
Inventor
성호상
김상욱
라케쉬 타오리
이강은
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US11/490,139 priority Critical patent/US8271267B2/en
Publication of KR20070012194A publication Critical patent/KR20070012194A/ko
Application granted granted Critical
Publication of KR101171098B1 publication Critical patent/KR101171098B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 스케일러블 광대역 음성 부호화 방법 및 장치에 관한 것으로서, 입력되는 광대역 음성입력신호를 저대역과 고대역으로 대역 분할하고, 대역 분할된 저대역 신호를 코드 여기 선형 예측 부호화(CELP : Code Excited Linear Prediction)방식으로 부호화하고, 대역 분할된 고대역 신호를 하모닉 방식으로 부호화하고, 저대역 및 고대역에서 각각 구해진 합성신호와 저대역 및 고대역으로 각각 입력되는 신호와의 차이를 나타낸 신호를 시가/주파수 매핑을 통한 개선 이산 여현 변환(MDCT : Modified Discrete Cosine Transform)을 이용하여 부호화한 후, 부호화된 신호를 다중화하고, 상기 다중화된 신호를 출력하여 모든 계층에서 높은 음질을 보장하는 스케일러블한 광대역 음성 부호화 장치 및 방법을 제공할 수 있다.

Description

혼합 구조의 스케일러블 음성 부호화 방법 및 장치{Scalable speech coding/decoding methods and apparatus using mixed structure}
도 1은 기존의 대역 확장 음성 부호화 장치의 블록도 일 예이다(US PAT 5455888).
도 2은 기존의 대역 확장 음성 부호화 장치의 블록도 일 예이다(US PAT 6895375).
도 3은 본 발명의 바람직한 일실시예에 따라 각 용어에 대한 정의를 나타낸 구조도이다.
도 4는 본 발명의 바람직한 일실시예에 따른 혼합구조의 스케일러블 음성 부호화 장치를 나타낸 구성도이다.
도 5는 본 발명의 바람직한 일실시예에 따라 비트스트림 형성부에서 출력되는 스케일러블한 비트스트림 구조를 나타낸 도면이다.
도 6은 본 발명의 바람직한 일실시예에 따른 혼합구조의 스케일러블 음성 복호화 장치를 나타낸 구성도이다.
도 7은 도 4의 혼합구조의 스케일러블 음성 부호화 장치에서 저대역 부호화부의 내부 구성을 나타낸 도면이다.
도 8은 도 4의 혼합구조의 스케일러블 음성 부호화 장치에서 고대역 부호화 부의 내부 구성을 나타낸 도면이다.
도 9는 도 4의 혼합구조의 스케일러블 음성 부호화 장치에서 광대역 부호화부의 내부 구성을 나타낸 도면이다.
도 10은 본 발명의 바람직한 일실시예에 따라 혼합구조의 스케일러블 음성 부호화 장치에서 이루어지는 부호화 과정을 나타낸 도면이다.
도 11은 본 발명의 바람직한 일실시예에 따라 혼합구조의 스케일러블 음성 복호화 장치에서 이루어지는 복호화 과정을 나타낸 도면이다.
본 발명은 음성 부호화 및 복호화에 관한 것으로서, 특히 스케일러블 광대역 음성 부호화 및 복호화 장치와 그 방법에 관한 것이다.
음성 통신의 응용 분야가 다양해지고 네트워크의 전송속도가 향상됨으로 인해 고품질의 음성 통신에 대한 필요성이 부각되고 있다. 이에 따라 기존의 음성 통신 대역인 0.3kHz∼3.4kHz에 비해 자연성과 명료도 등 다양한 측면에서 우수한 성능을 갖는 0.05kHz∼7kHz의 대역폭을 갖는 광대역 음성 신호의 전달이 요구되고 있다.
또한 네트워크 측면에서, 데이터를 패킷 단위로 전송하는 패킷 스위칭 네트워크(packet switching network)는 채널의 정체 현상을 초래할 수 있고, 이로 인한 패킷 손실과 음질 저하가 발생될 수 있다. 이를 해결하기 위하여 손상된 패킷을 은 닉하는 기술이 사용되고 있지만 이는 근본적인 처방이 될 수 없다. 따라서 상기 광대역 음성 신호를 효과적으로 압축하면서 채널의 정체 현상을 해결할 수 있는 스케일러블한 광대역 음성 부호화 및 복호화 기술이 제안되고 있다. 현재 제안되고 있는 광대역 음성 부호화 및 복호화는 0.05kHz∼7kHz 대역의 음성신호를 한꺼번에 압축하고 이를 복원하는 방식과 0.05kHz∼4kHz 대역과 4kHz∼7kHz 대역으로 나누어 계층적으로 압축하고, 이를 복원하는 방식으로 구분될 수 있다. 후자의 경우는 정체 현상의 정도에 따라 전달하는 계층의 양을 조절하여 주어진 채널 환경에서 최적의 통신이 가능하도록 하는 대역폭 확장 기능을 이용한 광대역 음성 부호화 및 복호화 방식이다. 대역폭 확장 방법에 의한 음성 부호화는 계층적(hierarchical) 코딩방식으로 음성신호를 부호화하고 복호화 한다. 즉, 음성신호를 기본 음질 계층(core layer)과 음질 향상 계층(speech enhancement layer)으로 나누어 음성신호를 부호화한다. 기본 계층은 최소한의 음질을 복원할 수 있는 정보만을 전송한다. 음질 향상 계층에서는 음질을 향상시킬 수 있는 추가 정보를 전송한다. 음질향상을 위하여, 대역폭 확장을 제공하기 위한 방식으로는 도 1에 기술된 US PAT 5455888, 도 2에 기술된 US PAT 6895375 등이 있다. 도 1 및 도 2에 기술된 종래의 기술은 스펙트럼 모양(Spectrum shape)와 파워 게인(Power gain)정보를 가지고서, ㅅ스ecㅍ펙트럼 모양(Spectrum shape)로 표현되는 스펙트럼 포락선 아래에 파워 게인(Power gain) 값을 이용해, 파워 레벨을 맞추어 주고 있다.
그러나 위와 같은 기존의 방식에 의해 고대역 음성 신호를 부호화하는 것은 낮은 비트율로 음성 신호를 전송할 때, 고음질의 복원이 어렵고, 비트율이 낮아질 수록 음질 복원 성능의 저하가 두드러진다. 그리고, 상기 방식들은 채널의 정체 현상을 해결할 수 있는 스케일러블한 광대역 음성 재생을 제공하지 못하고 있다.
본 발명이 이루고자 하는 기술적 과제는 스케일러블한 광대역 음성 부호화 및 복호화에 있어서, 고대역 음성 신호를 부호화 시 낮은 비트율로 음성 신호를 전송할 때, 비트율이 낮아 질수록 음질 복원 성능이 저하되는 문제를 해결하여 모든 계층에서 높은 음질을 보장하는 스케일러블한 광대역 음성 재생을 할 수 있는 장치 및 방법을 제공하는데 있다,
또한, 본 발명이 이루고자 하는 또 다른 기술적 과제는 음질과 대역폭 면에서 확장 기능을 갖는 광대역 음성 부호화 및 복호화에 있어서, 그 확장에 필요한 비트가 스케일러블한 구조를 갖는 광대역 음성 부호화 및 복호화 장치와 그 방법을 제공하는데 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 혼합 구조의 스케일러블 음성 부호화 장치는 음성 입력 신호를 소정의 주파수를 기준으로 저대역 신호와 고대역 신호로 분할하여 출력하는 대역 분할부; 상기 저대역 신호를 부호화하여 저대역에 해당하는 제 1 인덱스를 출력하고, 상기 고대역 신호의 부호화에 필요한 정보를 고대역 부호화부로 전송하며, 부호화하지 못한 제 1 에러 신호를 광대역 부호화부로 전송하는 저대역 부호화부; 상기 고대역 신호를 상기 저대역 부호화부로부터 수신한 정보를 이용하여 부호화한 고대역에 해당하는 제 2 인덱스를 출력하고, 부 호화하지 못한 제 2 에러신호를 상기 광대역 부호화부로 전송하는 고대역 부호화부; 상기 제 1 에러신호 및 상기 제 2 에러신호를 시간-주파수 매핑을 통한 개선 이산 여현 변환(MDCT : Modified Discrete Cosine Transform)을 이용하여, 광대역에 해당하는 제 3 인덱스를 출력하는 광대역 부호화부; 및 상기 저대역 부호화부로부터 수신한 제 1 인덱스, 상기 고대역 부호화부로부터 수신한 제 2 인덱스 및 상기 광대역 부호화부로부터 수신한 제 3 인덱스로 이루어진 스케일러블한 비트스트림을 출력하는 비트스트림 형성부를 포함한다.
상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 혼합 구조의 스케일러블 음성 부호화 방법은 음성 입력 신호를 소정의 주파수를 기준으로 저대역 신호와 고대역 신호로 분할하여 출력하는 단계; 상기 출력된 저대역 신호를 부호화하여 저대역에 해당하는 제 1 인덱스를 생성하여 출력하고, 상기 고대역 신호의 부호화에 필요한 소정의 정보 및 부호화하지 못한 제 1 에러신호를 출력하는 단계; 상기 출력된 고대역 신호를 상기 소정의 정보를 이용하여 부호화하고, 고대역에 해당하는 제 2 인덱스 및 부호화하지 못한 제 2 에러신호를 출력하는 단계; 상기 제 1 에러신호 및 상기 제 2 에러신호를 시간-주파수 매핑을 통한 개선 이산 여현 변환(MDCT : Modified Discrete Cosine Transform)을 이용하여 계수를 양자화하고, 광대역에 해당하는 제 3 인덱스를 출력하는 단계; 및 상기 제 1 인덱스, 상기 제 2 인덱스 및 상기 제 3 인덱스로 구성된 비트스트림을 출력하는 단계를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기된 혼합 구조의 스케일러블 음성 부호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 혼합 구조의 스케일러블 음성 복호화 장치는 네트워크의 상태에 따라 소정의 전송률로 절단된 스케일러블한 비트 스트림을 입력 받아, 상기 스케이러블한 비트 스트림을 재생에 사용될 주파수 대역에 따라 분리하여 각 주파수 대역에 대응하는 대역별 복호화부로 전송하는 비트스트림 분할부; 상기 비트스트림 분할부에서 저대역 신호로 분리된 비트스트림을 입력 받아 복호화하여 출력하고, 저대역에서 복호화된 계수들 중에서 고대역 신호의 복호화에 필요한 소정의 정보를 고대역 복호화부로 전송하는 저대역 복호화부; 상기 비트스트림 분할부로부터 입력받은 고대역 신호로 분리된 비트스트림을 상기 소정의 정보를 이용하여 복호화하여 출력하는 고대역 복호화부; 상기 비트스트림 분할부에서 입력받은 광대역 신호로 분리된 비트 스트림을 복호화하고, 소정의 주파수를 기준으로 저대역 신호 및 고대역 신호로 분할하여 출력하는 광대역 복호화부; 및 상기 저대역 복호화부에서 출력된 신호와 상기 광대역 복호화부에서 출력된 저대역 신호가 결합하여 생성된 제 1 합성신호 및 상기 고대역 복호화부에서 출력된 신호와 상기 광대역 복호화부에서 출력된 고대역 신호가 결합하여 생성된 제 2 합성신호를 입력 받아 대역 병합한 광대역 합성 신호를 출력하는 대역 병합부를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 혼합 구조의 스케일러블 음성 복호화 방법은 네트워크의 상태에 따라 소정의 전송률로 절단된 스케일러블한 비트스트림을 입력받아, 상기 스케이러블한 비트스트림을 재생에 사용 될 주파수 대역에 따라 저대역, 고대역 및 광대역으로 분리하여 출력하는 단계; 저대역 신호로 분리된 비트스트림을 입력 받아 복호화하여 출력하고, 저대역에서 복호화된 계수들 중에서 피치 신호 정보를 출력하는 단계; 고대역 신호로 분리된 비트스트림 및 상기 피치 신호 정보를 입력 받고, 상기 피치 신호 정보를 이용하여 상기 고대역 신호로 분리된 비트스트림을 복호화하여 출력하는 단계; 광대역 신호로 분리된 비트스트림을 입력 받아 복호화하고, 복호화된 광대역 신호를 소정의 주파수를 기준으로 저대역 신호 및 고대역 신호로 분할하여 출력하는 단계; 및 상기 (b) 단계에서 출력된 신호와 상기 (d) 단계에서 출력된 저대역 신호가 결합하여 생성된 제 1 합성신호 및 상기 (c) 단계에서 출력된 신호와 상기 (d) 단계에서 출력된 고대역 신호가 결합하여 생성된 제 2 합성신호를 입력 받아 대역 병합한 광대역 합성신호를 출력하는 단계를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기된 혼합 구조의 스케일러블 음성 부호화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
도 3 은 본 발명의 바람직한 일실시예에 따라 각 용어에 대한 정의를 나타낸 구조도이다. 16kHz로 샘플링된 0 ~ 8kHz까지의 주파수 성분을 가지는 입력 신호를 대역분할하면, 0 ~ 4kHz의 대역을 표현하는 신호인 저대역신호와 4 ~ 8 kHz의 대역을 표현하는 신호인 고대역 신호로 나눌 수 있다. 그러나, 이는 이론적으로 나눈 구간에 불과하고, 실제 음성 부호화에서는 협대역 신호와 광대역 신호로 나누어서 서비스를 한다. 여기서, 협대역 신호는 0.3 ~ 3.4 kHz의 대역에 해당하는 신호를 의미하고, 광대역 신호는 0.05 ~ 7 kHz의 대역에 해당하는 신호를 의미한다.
도 4는 본 발명의 바람직한 일실시예에 따른 혼합구조의 스케일러블 음성 부호화 장치를 나타낸 구성도이다.
본 발명에 따른 혼합구조의 스케일러블 음성 부호화 장치는 대역 분할부(100), 저대역 부호화부(200), 고대역 부호화부(300), 광대역 부호화부(400) 및 비트스트림 형성부(500)로 구성된다.
이하, 본 발명의 바람직한 일실시예에 따라 혼합구조의 스케일러블 음성부호화 장치에서 이루어지는 부호화 과정을 나타낸 도 10을 통해 부호화되는 과정을 살펴본다.
도 10은 본 발명의 바람직한 일실시예에 따라 혼합구조의 스케일러블 음성 부호화 장치에서 이루어지는 복호화 과정을 나타낸 도면이다.
102 단계에서 본 실시예에 따른 부호화 장치는 대역 분할부(100)를 통해 16kHz으로 샘플링된 0 ~ 8kHz의 광대역 음성 신호를 입력 받는다.
104 단계에서 대역 분할부(100)는 102 단계에서 입력 받은 광대역 음성 신호를 주파수 4kHz를 기준으로 하여, 0 ~4 kHz의 주파수 대역에 해당하는 저대역 신호와 4 ~ 8kHz의 주파수 대역에 해당하는 고대역 신호로 분류하여, 저대역 신호는 저대역 부호화부(200)(도 10에서 A에 해당)로 출력하고, 고대역 신호는 고대역 부호화부(300)(도 10에서 B에 해당)으로 각각 출력한다.
106 단계에서 저대역 부호화부(200)는 주파수 대역이 0 ~ 4kHz인 저대역 신호 성분을 입력받는다.
108 단계에서 저대역 부호화부(200)는 입력 받은 저대역 신호 성분을
코드 여기 선형 예측 부호화(CELP : Code Excited Linear Prediction)방식을 사용하여 부호화한다.
이하, 저대역 부호화부(200)의 내부 구성을 나타낸 도 7을 통해 코드 여기 선형 예측 부호화(CELP : Code Excited Linear Prediction)방식을 사용하여 입력된 저대역 신호를 부호화하는 과정을 살펴본다.
도 7은 도 4의 혼합구조의 스케일러블 음성 부호화 장치에서 저대역부호화부의 내부 구성을 나타낸 도면이다.
저대역 부호화부(200)는 기본 계층 부호화부(210), 음질 향상 계층 부호화부(220) 및 다중화기(230)으로 구성된다.
이하, 도 10 및 도 7을 참조하여, 도 4의 저대역 부호화부에서 입력된 저대역 신호의 부호화되는 과정을 살펴본다.
110 단계에서 기본 계층 부호화부(210)에서는 선형예측 분석 및 양자화부(미도시)에서 선형 예측계수를 구한 후 양자화를 한다. 양자화된 선형예측 계수는 다중화기(230)로 전달되고, 양자화된 선형예측 계수를 이용하여 생성한 여기신호를 합성필터부(미도시)를 통과시켜 제 1 합성 신호를 출력한다. 저대역 부호화부(200)에 입력된 저대역 신호에서 출력된 제 1 합성 신호만큼의 차이는 제 1 에러신호로서, 이는 도 4의 광대역 부호화부(400)로 전달된다.
또한, 생성한 여기신호의 에너지 계산을 하여 저대역 여기 에너지를 도 4의 고대역 부호화부(300)으로 출력한다. 양자화된 선형예측 계수를 이용하여 인지가중 필터(미도시)에서는 인지가중 선형 예측을 한다. 그 예측 신호를 이용하여 피치 분석부(미도시)에서 추출한 저대역 피치 지연 정보를 다중화기(230) 및 도 4의 고대역 부호화부(300)으로 출력한다.
그리고, 선형 예측된 잔차신호와 추출된 피치정보를 이용하여 합성에 의한 분석 방법(Analysis-by- Synthesis)을 통해 어댑티브 코드북(adaptive codebook) 인덱스와 이득, 그리고 픽스드 코드북(fixed-codebook) 인덱스와 이득을 구한다. 구해진 코드북 인덱스는 다중화기(230) 및 음질 향상 계층 복호화부(220)로 전달된다. 또한, 고정 코드북 탐색 후, 이득 값을 양자화한 정보는 다중화기(230) 및 음질 향상 계층 복호화부(220)으로 전달된다.
음질 향상 계층 부호화부(220)는 기본 계층 부호화부(210)으로부터 전달 받은 저대역 피치 지연 정보 및 이득 값 양자화 정보를 통해 음질 향상 계층의 고정 코드북 인덱스 및 이득 값 차 양자화 정보를 생성하여, 다중화기(230)로 전달한다.
다중화기(230)에서는 기본 계층 부호화부(210)로부터 전달 받은 선형 예측 계수 양자화 정보, 저대역 피치 지연 정보, 적응 코드북 인덱스, 이득 값 양자화 정보와 음질 향상 계층 부호화부(220)로부터 전달 받은 음질 향상 계층의 고정 코드북 인덱스 및 이득값 차 양자화 정보를 이용하여 저대역을 나타내는 저대역 인덱스를 출력한다.
다시 도 10을 참조하면, 112 단계에서 고대역 부호화부(300)는 주파수 대역이 4 ~ 8kHz인 고대역 신호 성분을 입력받는다.
114 단계에서 고대역 부호화부(300)는 저대역 부호화부(200)로부터 입력받은 고대역 신호를 부호화하기 위해 필요한 정보를 수신 받는다.
본 발명의 바람직한 일실시예에 의해 부호화 방식으로 하모닉 방식을 사용하는 경우에는 고대역 신호를 부호화하기 위해 필요한 정보로서, 저대역 피치 지연 정보 및 저대역 여기 에너지의 정보 등이 있다.
116 단계에서 고대역 부호화부(300)는 저대역 부호화부로부터 수신한 저대역 피치 지연 정보 및 저대역 여기 에너지의 정보를 이용하여 입력받은 고대역 신호를 부호화한다.
이하, 고대역 부호화부(300)의 내부 구성을 나타낸 도 8을 통해 하모닉 방식을 사용하여 부호화하는 과정을 살펴본다.
고대역 부호화부(300)에는 부호화 기능을 가지는 구성요소로서 선형 예측 분석 및 양자화부(301), 시간/주파수 매핑부(302), 하모닉 분석부(303), 하모닉 위상 양자화부(304) 및 RMS 파워 양자화부(306)을 구비하고, 복호화 기능을 가지는 구성요소로서 하모닉 위상 역양자화부(305), RMS 파워 역양자화부(307), 하모닉 합성부(308), 주파수/시간 매핑부(309) 및 선형 예측 합성부(310)을 구비하며, 다중화기(311)을 포함한다.
도 8은 도 4의 혼합구조의 스케일러블 음성 부호화 장치에서 고대역 부호화부의 내부 구성을 나타낸 도면이다.
선형 예측 분석 및 양자화부(1001)에서는 QMF를 통해 입력 받은 고대역 입력 신호를 이용하여 일반적인 코드 여기 선형 예측 부호화(CELP : Code Excited Linear Prediction) 방식과 동일하게 선형예측부호화계수를 구한 후, 그 계수를 양 자화 한다. 양자화 된 파라메터는 출력되어 다중화기(311)로 전해진다. 선형 예측 분석 및 양자화부(301)에서는 양자화 된 계수를 이용하여 선형 예측을 하는데, 선형 예측 부호화는 파라메터에 의해 표현해 주는 방식이므로, 표현되지 못하고 남는 잔차신호가 발생한다. 이렇게 발생한 잔차 신호는 시간/주파수 매핑부(302)로 전해진다. 시간/주파수 매핑부(302)에서는 입력받은 잔차 신호에 대해 주파수 성분 별로 신호의 진폭과 위상 값들을 구한다. 시간/주파수 매핑부(302)에서 구한 성분 별 신호의 진폭과 위상 값들은 하모닉 분석부(303)로 보내진다. 하모닉 분석부(303)에서는 시간/주파수 매핑부(302)로부터 수신 받은 성분 별 신호의 진폭과 위상값 및 저대역 부호화부(200)로부터 입력 받은 저대역 피치 지연 신를 이용하여 하모닉 위치를 탐색한다. 그리고 탐색된 위치에 해당하는 주파수 정보를 부호화한다. 이때, 실제 입력 음성의 특성에 따라 피치가 다르게 나타나고, 이런 경우 하모닉의 개수가 다양하게 나타날 수 있으므로, 일부 하모닉만 양자화 되어질 수도 있다. 그러므로 한정된 전송률로 하모닉 위치에 해당하는 주파수 정보를 부호화하기 위해서는 하모닉 위치 중에서 중요한 신호를 결정해야 한다. 따라서, 하모닉 분석부(303)에서는 중요한 위치에 해당하는 신호를 골라내 처리를 수행한다. 이 때, 중요한 위치에 해당하는 신호에는 주파수 대역에서 상대적으로 낮은 주파수 위치에 있는 하모닉 성분, 전체 주파수 대역에서 에너지의 크기가 상대적으로 큰 값을 갖는 하모닉 성분 및 선형 예측 부호화 계수를 통해 복원할 때에 포만트(Formant)의 주파수 위치에 해당하는 하모닉 성분 값들이 될 수 있다. 하모닉 분석부(303)에서 부호화 할 하모닉 성분이 결정되면, 각 하모닉 위치에 해당하는 위상 정보를 추출하고, 추출 된 하모닉 위상 정보는 하모닉 위상 양자화부(1005)에서 양자화 된다. 하모닉 위상 양자화부(1005)는 구해진 각 하모닉의 위상들을 양자화하는데 스칼라 양자화(SQ : scalar quantizer), 벡터 양자화(VQ : vector quantizer) 등 다양한 방식으로 양자화 될 수 있다.
하모닉 분석부(303)의 또 다른 기능은 고대역의 RMS(Root Mean Square) 파워를 구하는 것이다. 고대역의 RMS 파워는 다양한 스케일러빌리티를 줄 때 각각의 계층에 대한 이득을 계산할 필요가 없도록 한다. 즉, 예를 들어 중요한 하모닉 위치 신호와 선형예측 부호화 계수를 이용하여 음성을 합성한 후 고대역의 에너지만큼 스케일을 하게 된다. 구해진 고대역의 RMS 파워는 RMS 파워 양자화부(306)에서 양자화 된다. RMS 파워 양자화부(306)에서는 고대역의 RMS 파워를 좀더 효율적으로 부호화하기 위해 저대역의 부호화된 통계정보를 이용한다. 본 발명의 바람직한 일실시예에서는 저대역 부호호부로부터 전달 받은 저대역 여기신호의 에너지 정보를 이용한다. 저대역 여기신호의 에너지와 고대역의 RMS 파워의 비율을 양자화하게 되면 좀 더 효율적으로 양자화가 가능하다.
이와 같은 과정에 의해 부호화는 완료가 되었으나, 전체 코덱에서 고대역 부분은 하나의 부분 모듈이므로, 부호화가 끝난 후 복호화 과정도 고대역 부호화 모듈에 포함이 되어야 출력 신호를 합성할 수 있다. 따라서, 복호화 과정이 필요하고 이는 다음과 같다.
하모닉 위상 역양자화부(305)에서는 양자화된 파라메터를 이용하여 위상을 역양자화 하여 하모닉 합성부(308)로 전송한다. 그리고 RMS 파워 역양자화부(307) 에서는 저대역 부호화부(200)로부터 수신한 저대역 여기 신호 에너지 정보를 이용하여 RMS 파워 양자화부(306)에서 이루어졌던 양자화 과정의 역과정을 이용하여 양자화된 RMS 파워를 구하며, 이 값을 하모닉 합성부(308)로 전송한다. 하모닉 합성부(308)에서는 전송된 값들과 미리 약속된 하모닉 위치정보와 복원할 하모닉의 개수 등을 참조하여 하모닉 성분을 합성한다. 합성된 하모닉 정보를 이용하여 주파수의 위상과 진폭정보를 도출한다.
이와 같은 주파수의 위상과 진폭 정보는 주파수/시간 매핑 부(309)를 통하여 시간 신호로 변환된다. 이렇게 변환된 신호는 선형 예측 합성부(310)의 여기신호가 된다. 선형 예측 합성부(310)에서는 이 여기신호를 이용하여, 합성필터를 통과시켜 최종 합성된 제 2 합성 신호를 출력한다. 고대역 부호화부(300)에 입력된 고대역 신호에서 출력된 제 2 합성 신호만큼의 차이를 표현한 신호는 제 2 에러 신호로서 광대역 부호화부(400)로 전달된다.
다시, 도 10을 참조하면, 120 단계에서 광대역 부호화부(400)는 저대역 부호화부(200)로부터 제 1 에러 신호를 입력받고, 고대역 부호화부(300)으로부터 제 2 에러신호를 입력받는다.
122 단계에서 광대역 부호화부(400)는 시간/주파수 매핑을 통한 개선 이산 여현 변환(MDCT : Modified Discrete Cosine Transform)을 이용하여, 입력 받은 제 1 에러 신호 및 제 2 에러 신호를 부호화한다.
이하, 광대역 부호화부(500)의 내부 구성을 나타낸 도 9를 통해 개선 이산 여현 변환(MDCT : Modified Discrete Cosine Transform) 방식을 사용하여 부호화하 는 과정을 살펴본다.
도 9는 도 4의 혼합구조의 스케일러블 음성 부호화 장치에서 광대역 부호화부(500)의 내부 구성을 나타낸 도면이다.
광대역 부호화부(500)는 시간/주파수 매핑부(510), 대역 분할부(520), 정규화 모듈(530) 및 양자화기(540)을 구비한다.
광대역 부호화부(500)의 시간 도메인의 입력 신호인 제 1 에러 신호 및 제 2 에러신호는 먼저 시간/주파수 매핑부(510)로 입력된다. 입력된 제 1 에러 신호 및 제 2 에러 신호는 먼저 저대역 신호를 시간-주파수 매핑을 통한 개선 이산 여현 변환 변환을 한다. 다음으로는 고대역 신호를 시간-주파수 매핑을 통한 개선 이산 여현 변환 변환을 한다. 각각에서 변환된 계수를 저대역, 고대역 순서로 통합을 하게 되면 광대역의 주파수신호가 된다. 대역분할부(520)에서는 광대역의 주파수신호를 대역 단위로 나누어서 처리를 한다. 대역의 간격은 다양한 방식이 적용될 수 있다. 바람직한 실시예로서는 모든 간격을 같은 간격으로 나누는 방식도 있고, 인간의 청각모델을 고려하여 낮은 대역에서는 좁게 나누고 높은 대역에서는 넓게 나누는 방식이 있을 수 있다.
정규화 모듈(530)에서 대역분할부(520)에서 대역분할된 신호를 각 대역별로 대역의 파워와 정규화된 계수들로 분류한다. 이를 수행하는 바람직한 일 실시예로는 먼저 각 대역의 RMS 파워 값을 구한 후, 모든 계수들이 RMS 파워로 나누어 정규화된 계수들을 구할 수 있다. 이 값들은 양자화기(540)에서 양자화된다.
다시 도 10을 참조하면, 126 단계에서 비트스트림 형성부(500)에서는 저대역 부호화부(200)로부터 제 1 인덱스를 입력 받고, 고대역 부호화부(300)로부터 제 2 인덱스를 입력 받고, 광대역 부호화부(400)로부터 제 3 인덱스를 입력 받는다.
128 단계에서 비트스트림 형성부(500)에서는 입력 받은 제 1 인덱스, 제 2 인덱스 및 제 3 인덱스를 결합하여 비트스트림을 생성하여 출력한다.
도 5는 본 발명의 바람직한 일실시예에 따라 도 4의 비트스트림 형성부에서 출력되는 스케일러블한 비트스트림의 구조를 나타낸 도면이다.
비트스트림은 코드 여기 선형 예측 부호화(CELP : Code Excited Linear Prediction) 구조의 저대역 부호화부(200)에서 부호화된 저대역 계층, 하모닉 구조의 고대역 부호화부(300)에서 부호화된 고대역 계층, 그리고 개선 이산 여현 변환(MDCT : Modified Discrete Cosine Transform)구조의 광대역 부호화부(400)에서 부호화된 광대역 계층의 순서로 이루어진다. 그리고 비트스트림은 반드시 있어야 하는 하나의 코어 계층과 다수의 인헨스먼트 계층으로 나눌 수 있다. 코어 계층에서 향상계층을 더할 때마다 음질이 향상되거나 대역이 늘어나는 특징이 있다. 그리고, 비트스트림은 협대역에 대한 정보와 광대역에 대한 정보로 나눌 수 있다. 협대역 정보는 저대역으로부터 구해진 정보를 의미하며 협대역 정보를 이용하여 스케일러블하게 K개의 계층을 구성한다. 광대역 정보는 고대역 정보와 광대역 정보로 이루어지며 광대역 정보를 이용하여 L개의 계층을 구성할 수 있다. 그러므로, 본 발명의 바람직한 일 실시예에 의한 비트스트림의 계층의 개수는 K+L개가 된다.
도 6은 본 발명의 바람직한 일실시예에 따른 혼합구조의 스케일러블 음성 복호화 장치를 나타낸 도면이다.
스케일러블 음성 복호화 장치는 비트스트림 분할부(1000), 저대역 복호화부(2000), 고대역 복호화부(3000), 광대역 복호화부(4000) 및 대역 병합부(5000)로 구성된다.
이하, 본 발명의 바람직한 일 실시예에 따라 혼합구조의 스케일러블 음성복호화 장치에서 복호화되는 과정을 나타낸 도 11을 통해 스케일러블 음성 복호화 장치에서 진행되는 절차를 살펴본다.
도 11은 본 발명의 바람직한 일실시예에 따라 혼합구조의 스케일러블 음성 복호화 장치에서 이루어지는 복호화 과정을 나타낸 도면이다.
1010 단계에서 비트스트림 분할부(1000)는 네트워크 환경에 따라 특정의 전송률로 절단된 비트스트림을 수신한다.
1020 단계에서 비트스트림 분할부(1000)는 수신한 비트스트림을 원하는 구문에 맞추어 해체되는 단계를 수행한다. 해체 시 재생에 사용될 주파수 대역이 저대역(0~4kHz)인지, 고대역(4kHz~8kHz)을 포함하는 광대역(0~8kHz)인지에 따라, 해당하는 비트스트림의 부분들을 분리해 주는 처리를 한다.
1030 단계에서 비트스트림 분할부(1000)는 주파수 대역에 따라 분리한 비트스트림을 각 대역 복호화부로 출력한다.
저대역(0~4kHz)에 해당하는 신호에 대해서는 저대역 복호화부(2000)로 출력하고, 고대역(4~8kHz)에 해당하는 신호에 대해서는 고대역 복호화부(3000)로 출력하고, 광대역(0~8kHz)에 해당하는 신호에 대해서는 광대역 복호화부(4000)으로 출력한다.
1040 단계에서 저대역 복호화부(2000)는 분리된 비트스트림의 부분들 가운데, 저대역(0 ~4 kHz)의 신호들을 포함하는 부분을 복호화한다.
1050 단계에서 저대역 복호화부(2000)는 저대역에서 복호화된 계수들 중에서 고대역 신호의 복호화에 필요한 정보를 출력하여, 고대역 복호화부(3000)로 전송한다. 이와 같은 고대역의 복호화에 필요한 정보로는 피치 정보 등이 있다.
1060 단계에서 저대역 복호화부(2000)는 1040 단계를 통해 복호화한 재생신호를 출력하여 대역 병합부(5000)로 전송한다.
1070 단계에서 고대역 복호화부(3000)는 분리된 비트스트림 중에서 고대역(4~8 kHz) 신호를 포함하는 부분을 복호화한다. 이 때, 고대역 복호화부(3000)는 저대역 복호화부(2000)로부터 수신 받은 피치 신호를 이용하여, 하모닉 위치를 구하고, 구한 하모닉 위치에 해당하는 정보를 이용하여 고대역 신호를 복호화하는 하모닉 방식을 사용한다.
1080 단계에서 고대역 복호화부(3000)는 1070 단계를 통해 복호화한 재생신호를 출력하여 대역 병합부(5000)로 전송한다.
1090 단계에서 광대역 복호화부(4000)는 분리된 비트스트림 중에서 광대역(0~ 8kHz)에 해당하는 신호들을 복호화한다.
1100 단계에서 광대역 복호화부(4000)는 복호화된 재생신호 중에서 저대역에 해당하는 신호와 고대역에 해당하는 신호를 분리하여 전송한다.
다시 도 6을 참조하면, 저대역 복호화부(2000), 고대역 복호화부(3000) 및 광대역 복호화부(4000)에서 출력되는 신호는 각 대역에 해당하는 신호끼리 병합되 어 대역병합부(5000)로 전달된다.
1120 단계에서 대역병합부(5000)는 저대역 복호화부(2000), 고대역 복호화부(3000) 및 광대역 복호화부(4000)로부터 입력받은 신호를 합성하여 각 계층에 해당하는 신호로 출력한다. K+1 계층으로 출력되는 신호는 저대역 복호화부(2000)와 고대역 복호화부(3000)로부터 출력된 신호만으로 구성되며, K+2 계층부터 K+L 계층까지로 출력되는 신호는 저대역 복호화부(2000), 고대역 복호화부(3000) 및 광대역 복호화부(4000)로부터 출력된 신호들이 모두 합성되어 출력된다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으 로 해석되어야 할 것이다.
본 발명에 따르면, 스케일러블한 음성 서비스를 가능하게 하고, 고대역 신호를 대역 확장 기법에 의하여 효과적으로 압축 표현하는 것이 가능해진다. 또한, 기존의 협대역 신호에 대한 음성 부호화 방식과 결합하여 용이하게 사용이 가능하며, 저대역 부호화 방식으로 코드 여기 선형 예측 부호화(CELP : Code Excited Linear Prediction) 구조를 사용함으로서, 음성신호에 대해 낮은 비트율에서 우수한 성능의 음질을 제공할 수 있다. 고대역 부호화부에서 출력된 신호는 저대역 신호화 더해져서, 낮은 전송률에서도 고음질의 음성 출력을 제공할 수 있고, 이에 광대역 구조의 출력 신호까지 합성하여 원음에 가까운 음성 출력뿐만 아니라 음악신호까지도 재생할 수 있다.

Claims (21)

  1. 음성 입력 신호를 소정의 주파수를 기준으로 저대역 신호와 고대역 신호로 분할하여 출력하는 대역 분할부;
    상기 저대역 신호를 부호화하여 저대역에 해당하는 제 1 인덱스를 출력하고, 상기 고대역 신호의 부호화에 필요한 정보를 고대역 부호화부로 전송하며, 부호화하지 못한 제 1 에러 신호를 광대역 부호화부로 전송하는 저대역 부호화부;
    상기 고대역 신호를 상기 저대역 부호화부로부터 수신한 정보를 이용하여 부호화한 고대역에 해당하는 제 2 인덱스를 출력하고, 부호화하지 못한 제 2 에러신호를 상기 광대역 부호화부로 전송하는 고대역 부호화부;
    상기 제 1 에러신호 및 상기 제 2 에러신호를 시간-주파수 매핑을 통한 개선 이산 여현 변환(MDCT : Modified Discrete Cosine Transform)을 이용하여, 광대역에 해당하는 제 3 인덱스를 출력하는 광대역 부호화부; 및
    상기 저대역 부호화부로부터 수신한 제 1 인덱스, 상기 고대역 부호화부로부터 수신한 제 2 인덱스 및 상기 광대역 부호화부로부터 수신한 제 3 인덱스로 이루어진 스케일러블한 비트스트림을 출력하는 비트스트림 형성부를 포함하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 부호화 장치.
  2. 제 1 항에 있어서,
    상기 비트스트림은 상기 제 1 인덱스로부터 구한 적어도 하나 이상의 계층으 로 구성된 협대역 정보 및 상기 제 2 인덱스 및 상기 제 3 인덱스로부터 구한 적어도 하나 이상의 계층으로 구성된 광대역 정보로 결합된 것을 특징으로 하는 혼합구조의 스케일러블 음성 부호화 장치.
  3. 제 1 항에 있어서,
    상기 제 1 에러신호는 상기 저대역 부호화부에 입력된 저대역 신호와상기 저대역 부호화부에서 발생한 여기 신호를 이용해 합성한 제 1 합성신호간의 차이를 나타낸 표현오차 신호이고, 상기 제 2 에러 신호는 상기 고대역 부호화부에 입력된 고대역 신호와 상기 고대역 부호화부에서 하모닉 합성을 통해 생성한 여기신호를 이용해 합성한 제 2 합성신호간의 차이를 나타낸 표현오차 신호인 것을 특징으로 하는 혼합구조의 스케일러블 음성 부호화 장치.
  4. 제 1 항에 있어서,
    상기 저대역 부호화부는 코드 여기 선형 예측 부호화(CELP : Code Excited Linear Prediction)방식을 사용하여 상기 저대역 부호화부에 입력된 저대역 신호를 다중화한 상기 제 1 인덱스를 생성하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 부호화 장치.
  5. 제 1 항에 있어서,
    상기 저대역 부호화부는 선형 에측 부호화를 사용하여 입력된 고대역 신호를 필터링하고, 고정 코드북 탐색 및 적응 코드북 탐색에 의해 상기 필터링된 음성신호의 여기신호를 생성하는 코드 여기 선형 예측 부호화(CELP : Code Excited Linear Prediction)구조인 것을 특징으로 하는 혼합구조의 스케일러블 음성 부호화 장치.
  6. 제 1 항에 있어서,
    상기 고대역 신호의 부호화에 필요한 정보는 상기 저대역의 피치 지연 정보 및 상기 저대역의 여기 에너지 정보를 포함하며,
    상기 고대역 부호화부는 선형예측부호화 계수를 양자화한 제 1 파라미터, 상기 저대역 부호화부로부터 수신한 피치 지연 정보를 이용하여 부호화할 하모닉 성분을 결정하고, 상기 결정에 따른 하모닉 위상을 양자화한 제 2 파라미터 및 고대역의 실효치 파워를 상기 저대역 부호화부로부터 수신한 저대역 여기 에너지 정보를 이용하여 양자화한 제 3 파라미터를 다중화하여 상기 제 2 인덱스를 생성하는 하모닉 부호화 방식을 사용하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 부호화 장치.
  7. (a) 음성 입력 신호를 소정의 주파수를 기준으로 저대역 신호와 고대역 신호로 분할하여 출력하는 단계;
    (b) 상기 출력된 저대역 신호를 부호화하여 저대역에 해당하는 제 1 인덱스를 생성하여 출력하고, 상기 고대역 신호의 부호화에 필요한 소정의 정보 및 부호 화하지 못한 제 1 에러신호를 출력하는 단계;
    (c) 상기 출력된 고대역 신호를 상기 소정의 정보를 이용하여 부호화하고, 고대역에 해당하는 제 2 인덱스 및 부호화하지 못한 제 2 에러신호를 출력하는 단계;
    (d) 상기 제 1 에러신호 및 상기 제 2 에러신호를 시간-주파수 매핑을 통한 개선 이산 여현 변환(MDCT : Modified Discrete Cosine Transform)을 이용하여 계수를 양자화하고, 광대역에 해당하는 제 3 인덱스를 출력하는 단계; 및
    (e) 상기 제 1 인덱스, 상기 제 2 인덱스 및 상기 제 3 인덱스로 구성된 비트스트림을 출력하는 단계를 포함하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 부호화 방법.
  8. 제 7 항에 있어서,
    상기 비트스트림은 상기 제 1 인덱스로부터 구한 적어도 하나 이상의 계층으로 구성된 협대역 정보 및 상기 제 2 인덱스 및 상기 제 3 인덱스로부터 구한 적어도 하나 이상의 계층으로 구성된 광대역 정보로 결합된 것을 특징으로 하는 혼합구조의 스케일러블 음성 부호화 방법.
  9. 제 7 항에 있어서,
    상기 제 1 에러신호는 상기 제 1 인덱스를 생성하는 저대역 부호화부에 입력된 저대역 신호와 상기 저대역 부호화부에서 발생한 여기신호를 이용해 합성한 제 1 합성신호간의 차이를 나타낸 표현 오차 신호이고,
    상기 제 2 에러신호는 상기 제 2 인덱스를 생성하는 고대역 부호화부에 입력된 고대역 신호와 상기 고대역 부호화부에서 하모닉 합성을 통해 생성한 여기신호를 이용해 합성한 제 2 합성신호간의 차이를 나타낸 표현 오차 신호인 것을 특징으로 하는 혼합구조의 스케일러블 음성 부호화 방법.
  10. 제 7 항에 있어서,
    상기 (b) 단계는 상기 저대역 신호를 코드 여기 선형 예측 부호화(CELP : Code Excited Linear Prediction)방식으로 출력된 정보를 다중화하여 상기 제 1 인덱스를 생성하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 부호화 방법.
  11. 제 7 항에 있어서,
    상기 소정의 정보는 상기 저대역의 피치 지연 정보 및 상기 저대역의 여기 에너지 정보를 포함하며,
    상기 (c) 단계는 선형예측부호화 계수를 양자화한 제 1 파라미터, 상기 피치 지연 정보를 이용하여 부호화할 하모닉 성분을 결정하고, 상기 결정에 따른 하모닉 위상을 양자화한 제 2 파라미터 및 고대역의 실효치 파워를 상기 저대역 여기 에너지 정보를 이용하여 양자화한 제 3 파라미터를 다중화하여 상기 제 2 인덱스를 생성하는 하모닉 부호화 방식을 사용하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 부호화 방법.
  12. 제 7항 내지 제 11항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  13. 네트워크의 상태에 따라 소정의 전송률로 절단된 스케일러블한 비트 스트림을 입력 받아, 상기 스케이러블한 비트 스트림을 재생에 사용될 주파수 대역에 따라 분리하여 각 주파수 대역에 대응하는 대역별 복호화부로 전송하는 비트스트림 분할부;
    상기 비트스트림 분할부에서 저대역 신호로 분리된 비트스트림을 입력 받아 복호화하여 출력하고, 저대역에서 복호화된 계수들 중에서 고대역 신호의 복호화에 필요한 소정의 정보를 고대역 복호화부로 전송하는 저대역 복호화부;
    상기 비트스트림 분할부로부터 입력받은 고대역 신호로 분리된 비트스트림을 상기 소정의 정보를 이용하여 복호화하여 출력하는 고대역 복호화부;
    상기 비트스트림 분할부에서 입력받은 광대역 신호로 분리된 비트 스트림을 복호화하고, 소정의 주파수를 기준으로 저대역 신호 및 고대역 신호로 분할하여 출력하는 광대역 복호화부; 및
    상기 저대역 복호화부에서 출력된 신호와 상기 광대역 복호화부에서 출력된 저대역 신호가 결합하여 생성된 제 1 합성신호 및 상기 고대역 복호화부에서 출력된 신호와 상기 광대역 복호화부에서 출력된 고대역 신호가 결합하여 생성된 제 2 합성신호를 입력 받아 대역 병합한 광대역 합성 신호를 출력하는 대역 병합부를 포 함하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 복호화 장치.
  14. 제 13 항에 있어서,
    상기 광대역 합성신호는 저대역 신호가 적어도 하나 이상의 계층으로 구분된 저대역 출력과 고대역 신호 및 광대역 신호가 적어도 하나 이상의 계층으로 구분된 광대역 출력을 포함하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 복호화 장치.
  15. 제 13 항에 있어서,
    상기 저대역 복호화부는 코드 여기 선형 예측 부호화(CELP : Code Excited Linear Prediction)방식을 사용하여 입력된 비트스트림을 복호화하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 복호화 장치.
  16. 제 13 항에 있어서,
    상기 소정의 정보는 저대역의 피치 신호를 포함하며,
    상기 고대역 복호화부는 상기 저대역의 피치 신호를 이용하여 하모닉 위치를 구하고, 그 구해진 위치에 해당하는 하모닉 정보를 이용하여 입력된 비트스트림을 복호화하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 복호화 장치.
  17. (a) 네트워크의 상태에 따라 소정의 전송률로 절단된 스케일러블한 비트스트 림을 입력받아, 상기 스케이러블한 비트스트림을 재생에 사용될 주파수 대역에 따라 저대역, 고대역 및 광대역으로 분리하여 출력하는 단계;
    (b) 저대역 신호로 분리된 비트스트림을 입력 받아 복호화하여 출력하고, 저대역에서 복호화된 계수들 중에서 피치 신호 정보를 출력하는 단계;
    (c) 고대역 신호로 분리된 비트스트림 및 상기 피치 신호 정보를 입력 받고, 상기 피치 신호 정보를 이용하여 상기 고대역 신호로 분리된 비트스트림을 복호화하여 출력하는 단계;
    (d) 광대역 신호로 분리된 비트스트림을 입력 받아 복호화하고, 복호화된 광대역 신호를 소정의 주파수를 기준으로 저대역 신호 및 고대역 신호로 분할하여 출력하는 단계; 및
    (e) 상기 (b) 단계에서 출력된 신호와 상기 (d) 단계에서 출력된 저대역 신호가 결합하여 생성된 제 1 합성신호 및 상기 (c) 단계에서 출력된 신호와 상기 (d) 단계에서 출력된 고대역 신호가 결합하여 생성된 제 2 합성신호를 입력 받아 대역 병합한 광대역 합성신호를 출력하는 단계를 포함하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 복호화 방법.
  18. 제 17 항에 있어서,
    상기 광대역 합성신호는 저대역 신호가 적어도 하나 이상의 계층으로 구분된 저대역 출력과 고대역 신호 및 광대역 신호가 적어도 하나 이상의 계층으로 구분된 광대역 출력을 포함하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 복호화 방법.
  19. 제 17 항에 있어서,
    상기 (b) 단계는 코드 여기 선형 예측 부호화(CELP : Code Excited Linear Prediction)방식을 사용하여 입력된 비트스트림을 복호화하는 것을 특징으로 하는 혼합구조의 스케일러블 음성 복호화 방법.
  20. 제 17 항에 있어서,
    상기 (c) 단계는 상기 피치 신호 정보를 이용하여 하모닉 위치를 구하고, 그 구해진 위치에 해당하는 하모닉 정보를 이용하여 입력된 비트스트림을 복호화하는 것을 특징으로 하는 방법.
  21. 제 17항 내지 제 20항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020060049038A 2005-07-22 2006-05-30 혼합 구조의 스케일러블 음성 부호화 방법 및 장치 KR101171098B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US11/490,139 US8271267B2 (en) 2005-07-22 2006-07-21 Scalable speech coding/decoding apparatus, method, and medium having mixed structure

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US70150205P 2005-07-22 2005-07-22
US60/701,502 2005-07-22

Publications (2)

Publication Number Publication Date
KR20070012194A true KR20070012194A (ko) 2007-01-25
KR101171098B1 KR101171098B1 (ko) 2012-08-20

Family

ID=38012686

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060049038A KR101171098B1 (ko) 2005-07-22 2006-05-30 혼합 구조의 스케일러블 음성 부호화 방법 및 장치

Country Status (2)

Country Link
US (1) US8271267B2 (ko)
KR (1) KR101171098B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100848324B1 (ko) * 2006-12-08 2008-07-24 한국전자통신연구원 음성 부호화 장치 및 그 방법
US8135585B2 (en) 2008-03-04 2012-03-13 Lg Electronics Inc. Method and an apparatus for processing a signal
KR20140106917A (ko) * 2013-02-27 2014-09-04 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
WO2014185569A1 (ko) * 2013-05-15 2014-11-20 삼성전자 주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
US9424857B2 (en) 2010-03-31 2016-08-23 Electronics And Telecommunications Research Institute Encoding method and apparatus, and decoding method and apparatus
US9773505B2 (en) 2008-09-18 2017-09-26 Electronics And Telecommunications Research Institute Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008035949A1 (en) * 2006-09-22 2008-03-27 Samsung Electronics Co., Ltd. Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
US9269372B2 (en) 2007-08-27 2016-02-23 Telefonaktiebolaget L M Ericsson (Publ) Adaptive transition frequency between noise fill and bandwidth extension
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US20100280833A1 (en) * 2007-12-27 2010-11-04 Panasonic Corporation Encoding device, decoding device, and method thereof
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
CN101527138B (zh) * 2008-03-05 2011-12-28 华为技术有限公司 超宽带扩展编码、解码方法、编解码器及超宽带扩展系统
CN101609679B (zh) * 2008-06-20 2012-10-17 华为技术有限公司 嵌入式编解码方法和装置
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
CN102598123B (zh) * 2009-10-23 2015-07-22 松下电器(美国)知识产权公司 编码装置、解码装置及其方法
JP5812998B2 (ja) * 2009-11-19 2015-11-17 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置
MX2012001696A (es) * 2010-06-09 2012-02-22 Panasonic Corp Metodo de extension de ancho de banda, aparato de extension de ancho de banda, programa, circuito integrado, y aparato de descodificacion de audio.
WO2013048171A2 (ko) * 2011-09-28 2013-04-04 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
CN103093757B (zh) * 2012-01-17 2014-10-29 大连理工大学 一种窄带码流转换为宽带码流的转换方法
CN102543089B (zh) * 2012-01-17 2013-04-17 大连理工大学 一种窄带码流转换为宽带码流的转换装置
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
KR102271852B1 (ko) * 2013-11-02 2021-07-01 삼성전자주식회사 광대역 신호 생성방법 및 장치와 이를 채용하는 기기
CN105765655A (zh) * 2013-11-22 2016-07-13 高通股份有限公司 高频带译码中的选择性相位补偿
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
TW321810B (ko) * 1995-10-26 1997-12-01 Sony Co Ltd
WO1999050828A1 (en) * 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US7330814B2 (en) 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
JP3870193B2 (ja) * 2001-11-29 2007-01-17 コーディング テクノロジーズ アクチボラゲット 高周波再構成に用いる符号器、復号器、方法及びコンピュータプログラム
DE10200653B4 (de) 2002-01-10 2004-05-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Skalierbarer Codierer, Verfahren zum Codieren, Decodierer und Verfahren zum Decodieren für einen skalierten Datenstrom
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
KR100503415B1 (ko) 2002-12-09 2005-07-22 한국전자통신연구원 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법
KR100513729B1 (ko) * 2003-07-03 2005-09-08 삼성전자주식회사 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
CA2603255C (en) * 2005-04-01 2015-06-23 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US8751225B2 (en) * 2010-05-12 2014-06-10 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100848324B1 (ko) * 2006-12-08 2008-07-24 한국전자통신연구원 음성 부호화 장치 및 그 방법
US8135585B2 (en) 2008-03-04 2012-03-13 Lg Electronics Inc. Method and an apparatus for processing a signal
US9773505B2 (en) 2008-09-18 2017-09-26 Electronics And Telecommunications Research Institute Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder
US11062718B2 (en) 2008-09-18 2021-07-13 Electronics And Telecommunications Research Institute Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder
US9424857B2 (en) 2010-03-31 2016-08-23 Electronics And Telecommunications Research Institute Encoding method and apparatus, and decoding method and apparatus
KR20140106917A (ko) * 2013-02-27 2014-09-04 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
WO2014185569A1 (ko) * 2013-05-15 2014-11-20 삼성전자 주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
US9881624B2 (en) 2013-05-15 2018-01-30 Samsung Electronics Co., Ltd. Method and device for encoding and decoding audio signal

Also Published As

Publication number Publication date
US8271267B2 (en) 2012-09-18
US20070033023A1 (en) 2007-02-08
KR101171098B1 (ko) 2012-08-20

Similar Documents

Publication Publication Date Title
KR101171098B1 (ko) 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
KR101139172B1 (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
EP2255358B1 (en) Scalable speech and audio encoding using combinatorial encoding of mdct spectrum
JP4950210B2 (ja) オーディオ圧縮
KR100818268B1 (ko) 오디오 데이터 부호화 및 복호화 장치와 방법
KR101435893B1 (ko) 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치
JP6050199B2 (ja) オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
EP2041745B1 (en) Adaptive encoding and decoding methods and apparatuses
US10255928B2 (en) Apparatus, medium and method to encode and decode high frequency signal
US20080140393A1 (en) Speech coding apparatus and method
WO2012053150A1 (ja) 音声符号化装置および音声復号化装置
KR20120032025A (ko) 디지털 오디오 신호들의 개선된 코딩/디코딩
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
JPH11177434A (ja) 音声符号化復号方式
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
KR20070008211A (ko) 스케일러블 대역 확장 음성 부호화/복호화 방법 및 장치
KR20080092823A (ko) 부호화/복호화 장치 및 방법
Deriche et al. A novel scalable audio coder based on warped linear prediction and the wavelet transform
Ning et al. Wideband audio compression using a combined wavelet and WLPC representation
Herre et al. 18. Perceptual Perceptual Audio Coding of Speech Signals

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee