KR20070028432A - 오디오 인코딩 방법 - Google Patents

오디오 인코딩 방법 Download PDF

Info

Publication number
KR20070028432A
KR20070028432A KR1020067026751A KR20067026751A KR20070028432A KR 20070028432 A KR20070028432 A KR 20070028432A KR 1020067026751 A KR1020067026751 A KR 1020067026751A KR 20067026751 A KR20067026751 A KR 20067026751A KR 20070028432 A KR20070028432 A KR 20070028432A
Authority
KR
South Korea
Prior art keywords
sub
input signal
encoder
encoders
signal
Prior art date
Application number
KR1020067026751A
Other languages
English (en)
Inventor
발레리 에스. 코트
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20070028432A publication Critical patent/KR20070028432A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

대응하는 인코딩된 출력 신호(30)를 생성하기 위해 입력 신호(20)를 인코딩하는 방법 및 또한 이 방법을 구현하기 위해 배열되는 인코더(10)가 기술된다. 이 방법은, (a) 입력 신호를 인코더(10)의 서브-인코더(300,310,320)에 분배하는 단계; (b) 서브-인코더(300,310,320)로부터 대응 표시 파라메타 출력(200,210,220)을 생성하기 위해 상기 서브-인코더(300,310,320)에서 분배된 입력 신호(20)를 처리하는 단계; 및 (c) 인코딩된 출력 신호(30)를 생성하기 위해 상기 서브-인코더(300,310,320)의 상기 파라메타 출력(200,210,220)을 결합하는 단계를 포함한다. 상기 서브-인코더(300,310,320)에서 입력 신호(20)의 처리는 분석을 위해 입력 신호(20)를 세그멘트화하는 단계를 포함하며, 이러한 세그멘트는 입력 신호(20)에 존재하는 정보 콘텐츠에 대한 응답으로 적어도 부분적으로 동적으로 가변되는 관련된 시간적인 지속기간을 가진다. 이러한 가변 세그멘트 지속기간은 지각적인 인코딩 품질을 개선시키고 달성 가능한 데이터 압축을 향상시킬 수 있다.
인코더, 세그멘트, 인코딩, 오디오, 디코더, 디코딩

Description

오디오 인코딩 방법{METHOD OF AUDIO ENCODING}
본 발명은 오디오 신호를 인코딩하는 방법에 대한 것이다. 그 위에, 본 발명은 또한 이 방법에 따라 동작하는 인코더 및 이러한 인코더에 의해 발생한 인코딩된 데이터의 구성에 대한 것이다. 더욱이, 본 발명은 추가적으로 이러한 인코더에 의해 발생한 데이터를 코딩하는 것이 가능한 디코더에 대한 것이다. 추가적으로, 본 발명은 또한 인코딩 방법을 이용하는 인코딩-디코딩 시스템에 관한 것이다.
오디오 인코더는 잘 알려져 있다. 이 인코더는 하나 이상의 입력 오디오 신호를 수신하고 이 신호를 처리하여 인코딩된 출력 데이터의 대응하는 비트-스트림을 생성하도록 동작 가능하다. 오디오 인코더 내에서 실행되는 이러한 처리 과정은 이 하나 이상의 입력 신호를 세그멘트로 분할하고, 이후 인코딩 출력 데이터 내로의 포함을 위해 데이터의 대응하는 부분을 생성하기 위한 각 세그멘트의 처리를 수반한다.
이러한 비트-스트림을 생성하는 종래 방법은 고정된 균일 시간 세그멘트를 사용한다. 유리하게는, 세그멘트는 적어도 부분적으로 중첩된다. 이러한 방식으로 실행되는 인코더의 한 예가 필립스 일렉트로닉스사 사유(proprietary)의 SSC 코덱이 되면, 이 코덱에서 동작 모드는 잘 알려진 국제 표준 MPEG 4 확장2(즉 "고품질 오디오를 위한 파라메트릭 코딩(Parametric coding for High Quality Audio)"에 관한 ISO/IEC 14496-3:2002/PDAM 2의 텍스트)에 포함되어 있다.
오디오 신호를 인코딩하는 다른 방법이 제안되었다. 예를 들면, 공개된 국제 PCT 출원 제PCT/SE00/01887호(즉, 국제출원번호 제WO01/26095호)에서, 적응형 원도우 스위칭을 사용하는 현대 오디오 인코더(즉, 오디오 인코더가 입력 신호 통계에 따라 시간 세그멘트 길이를 스위칭한다)가 기술되어 있다. 하나의 구현예에서, 입력 신호의 스펙트럼 포락선(envelope)의 비균일 시간 및 주파수 샘플링이 고정된 사이즈의 필터 뱅크로부터 서브-대역 샘플을 주파수 대역 및 시간 세그멘트로 적응적으로 그룹화함으로써 성취되며, 샘플링 각각은 하나의 포락선 샘플을 생성한다. 이는 필터 뱅크의 제한 내에서 임의 시간과 주파수 분해능(resolution)의 즉시적인 선택을 허용한다. 바람직하게는, 이러한 디코더는 비교적 긴 시간 세크먼트 및 정밀 주파수 분해능을 처리하지는 않는다. 신호 과도(transient)의 시간적 근접에서, 비교적 더 짧은 시간 세그멘트가 사용되며, 이에 의하여 더 큰 주파수 스텝이 데이터 사이즈를 제한 범위내로 유지되도록 하기 위해 사용될 수 있다. 더욱이, 이러한 비-균일 시간 샘플링으로부터 이익을 향상시키기 위해, 비트-스트림 프레임의 가변적인 길이가 사용된다.
본 발명자는 오디오 신호를 인코딩하는 경우, 예를 들면 앞서 기술한 가변적인 세그멘트화를 사용하는 것이 비트 전송율 및/또는 지각적 왜곡의 견지에서 더 유리함을 이해하고 있다. 예를 들면, 안정된 음조를 위해서는 더 긴 세그멘트를, 급속히 음조를 변화시키기 위해서는 더 짧은 세그멘트를 사용하고, 과도를 바로 앞서 선행하는 세그멘트를 시작하는 등등은 기술적으로 유리하다. 특히, 본 발명자는 동일한 인코더로 서로 다른 서브-코딩 방법을 위한 다른 시간 세그멘트화 패턴을 사용하는 것이 더 유익하다는 것을 직시하고 있다.
본 발명의 목적은 동적으로 가변하는 신호 세그멘트화를 이용하는 신호 인코딩의 개선된 방법을 제공하는 것이다.
본 발명의 제 1 측면에 따르면, 하나 이상의 대응하는 인코딩된 출력 신호를 생성하기 위해 하나 이상의 입력 신호를 인코딩하는 방법으로서,
(a) 상기 하나 이상의 입력 신호를 수신하여 인코더의 서브-인코더에 적절하게 이 신호를 분배하는 단계;
(b) 서브-인코더로부터 대응 표시 파라메타 출력을 생성하기 위해 상기 하나 이상의 분배된 입력 신호의 하나 이상의 신호 특성에 대하여 상기 서브-인코더에 분배된 상기 하나 이상의 입력 신호를 처리하는 단계; 및
(c) 상기 하나 이상의 인코딩된 출력 신호를 생성하기 위해 상기 서브-인코더의 상기 파라메타 출력을 결합하는 단계를 포함하며,
상기 서브-인코더에서 상기 하나 이상 분배된 입력 신호의 처리는 분석을 위한 세그멘트로 상기 하나 이상 분배된 입력 신호를 세그멘트화하는 단계를 포함하고, 상기 세그멘트는 상기 하나 이상의 분배된 입력 신호에 존재하는 정보 콘텐츠에 대한 응답으로 적어도 부분적으로 동하게 가변되는 관련된 시간적인 지속기간을 가지는, 입력 신호를 인코딩하는 방법이 제공된다.
본 발명은, 인코딩하는 방법이 지각적으로 더 좋은 인코딩 품질, 향상된 데이터 압축 중의 하나 이상을 제공할 수 있다는 점에 이점이 있다.
바람직하게는, 본 방법에 있어서, 하나 이상의 분배된 입력 신호의 세그멘트는 서브-인코더에서 상호 비동기적으로 처리된다. 이러한 비동기적인 동작은 본 방법에서 실행되는 신호 처리의 각 측면에 관하여 각 서브-인코더가 최적화되어 기능하게 하는 것을 가능하게 한다.
바람직하게는, 본 방법에 있어서, 각 서브-인코더에 관하여 하나 이상 분배된 입력 신호의 세그멘트는 적어도 부분적 시간적으로 중첩(overlapping)이다. 이러한 중첩은 하나의 세그멘트로부터 또 다른 시간적으로 이웃하는 세그멘트로 신호 특성에서 갑작스런 변화를 감소시킨다는 점에서 유익하다.
바람직하게는, 본 방법에 있어서, 정현파 입력 신호 정보 콘텐츠, 입력 신호 파형 정보 콘텐츠 및 입력 신호 잡음 정보 콘텐츠 중 적어도 하나에 관하여 상기 하나 이상의 분배된 입력 신호를 처리하기 위한 서브-인코더가 배열된다.
바람직하게는, 하나의 분배된 입력 신호의 세그멘트화 단계는,
(a) 상기 하나 이상의 분배된 입력 신호에서 존재하는 안정된 음조(steady tone)를 위하여 비교적 더 긴 세그멘트를 생성하는 단계;
(b) 상기 하나 이상의 분배된 입력 신호에서 존재하는 급격히 변경되는 음조를 위하여 비교적 더 짧은 세그멘트를 생성하는 단계; 및
(c) 상기 하나 이상의 분배된 입력 신호에서 발생한 실질적으로 바로 선행하는 과도를 종결하도록 세그멘트를 배열하는 단계 중 적어도 하나를 포함한다.
입력 신호 콘텐츠에서 의존하는 세그멘트의 이러한 적응은 본 방법에 의해 제공된 인코딩의 지각적인 품질을 향상하는데 유리하다.
바람직하게는, 본 방법에 있어서, 인코딩된 출력 신호는 프레임으로 서브-분할되며, 각 프레임은 상기 프레임과 관련된 시간적인 지속기간 내에서 시작하는 상기 서브-인코더로부터 제공된 세그멘트에 관련되는 정보를 포함한다. 프레임을 위한 이러한 정의는 본 방법을 사용하여 생성된 인코딩된 데이터의 시퀀스 내에서 랜덤 액세스를 제공하는 것을 더 용이하도록 한다. 따라서, 더 바람직하게는, 본 방법에 있어서, 각 프레임은 프레임 내에 포함된 세그멘트는 연대기적인 순서로 배열된다. 또한 더 바람직하게는, 본 방법에 있어서, 각 프레임은 상기 프레임의 시작시간과 상기 프레임의 시작후 시작하는 제 1 세그멘트 사이의 시간적인 지속기간을 설명하는 파라메타 데이터를 추가적으로 포함한다.
바람직하게는, 본 방법에 있어서, 각 프레임 내에 포함된 다수의 세그멘트는 상기 하나 이상의 분배된 입력 신호 내에 존재하는 정보 콘텐츠에 의존하면서 동적으로 가변 가능하다.
본 발명의 제 2 측면에 따르면, 하나 이상의 입력 신호의 처리 및 대응하는 하나 이상의 인코딩된 출력 신호의 발생을 가능하게 하는 인코더가 제공되며, 상기 인코더는 본 발명의 제 1 측면에 따른 방법을 구현하기 위해 배열된다.
본 발명의 제 3 측면에 따르면, 하나 이상의 인코딩된 출력신호를 수신하여 상기 신호를 하나 이상의 대응하는 디코딩된 신호를 생성하도록 디코딩을 실행하는 디코더로서, 본 발명의 제 1 측면에 따른 방법에 의해 발생된 하나 이상의 인코딩된 출력 신호를 처리할 수 있도록 배열되는 디코더가 제공된다.
본 발명의 제 4 측면에 따르면, 본 발명의 제 2 측면에 따른 인코더와 제 3 측면에 따른 디코더를 포함하도록 배열되는 신호 처리 시스템이 제공된다.
본 발명의 제 6 측면에 따르면, 본 발명의 제 1 측면에 따른 방법을 사용함으로써 생성된 인코딩된 출력 신호 데이터로서, 데이터 운반 매체에 의해 전달되는 인코딩된 출력 신호 데이터가 제공된다. 더 바람직하게는, 데이터 운반 매체는 통신 네트워크 및 데이터 저장 매체 중 적어도 하나를 포함한다.
본 발명의 제 7 측면에 따르면, 본 발명의 제 1 측면에 따른 방법을 구현하기 위한 컴퓨터 하드웨어 상에 실행 가능한 소프트웨어가 제공된다.
본 발명의 특징은 본 발명의 범위를 벗어나지 않으면서도 임의 조합으로 결합되기 쉬움을 이해할 것이다.
본 발명의 실시예가 이제 다음 도면을 참조하여 단지를 예시에 의해 기술될 것이다.
도 1은 오디오 입력 신호를 수신하여 이 신호를 인코딩된 출력 비트-스트림의 형태로 대응하는 인코딩된 출력 신호를 생성하도록 처리를 실행할 수 있는 인코 더의 개략적인 예시를 도시한 도면.
도 2는 이 분야에서 공지된 고정 세그멘트화를 이용하여 도 1의 인코더 내에서 발생하는 처리과정을 예시하는 시간적인 도면.
도 3은 본 발명에 따른 가변 가능한 세그멘트화를 이용하여 도 1의 인코더 내에서 발생하는 처리과정을 예시하는 시간적인 도면.
도 4는 병렬 방식으로 구성된 관련된 서브-인코더를 가지는 본 발명에 따른 인코더의 개략적인 예시를 도시한 도면.
도 5는 캐스케이드(cascaded) 방식으로 구성된 관련된 서브-인코더를 가지는 본 발명에 따른 인코더의 개략적인 예시를 도시한 도면.
도 6은 본 발명에 따른 인코더에 의해 발생한 인코딩된 데이터를 디코딩할 수 있는 본 발명에 따른 디코더의 개략적인 도면.
도 1에서, 입력 신호(20)(즉, Si)를 수신하여 이 신호(20)를 대응하는 인코딩된 출력 데이터(30)(즉, BS0)를 생성하는 공지된 인코더(10)가 도시된다. 출력 데이터(30)는 비트-스트림의 형태로 있다.
인코더(10)의 현재의 구현은 입력 신호(20)를 도 2에 기술된 동일한 길이의 세그멘트로 분할할 수 있는 능력에 의존한다. 즉 간단히 설명하면, 도 2에서의 아치는, 비록 실제 일부 중첩이 바람직하게는 이용될 수 있을 지라도, 상호 중첩이 없는 세그멘트 간격을 표시한다. 인코더(10)에 사용된 중첩은 선택적으로 가변 가능하도록 배열될 수 있고, 예를 들면 입력 신호(20)에서 정보 콘텐츠에 대한 응답으로 가변 가능하게 된다. 유리하게는, 입력 신호(20)에 존재하는 과도(transient)동안, 발생한 사전-에코 현상을 회피하기 위해 비교적 극소수의 중첩이 사용되거나 또는 중첩이 전혀 사용되지 않는다. 경과 시간(T)이 가로축(50)에 의해 표시되는 도 2에서의 시간 그래프가 도시된다. 신호(20)는, 예를 들면 상호 유사한 시간 지속기간인 프레임(F1, F2, F3)으로 분할된다. 인코더(10)에서, 신호(20)는 분석되고, 신호(20)를 설명하는 다양한 유형의 파라메타가 결정된다. 바람직하게는, 이들 파라메타는 다음과 같다.
(a) 100에 의해 표시된 과도적인 신호 정보 콘텐츠
(b) 110에 의해 표시된 정현파 신호 정보 콘텐츠
(c) 120에 의해 표시된 잡음관련 신호 정보 콘텐츠.
각 프레임(F1 내지 F3)은 예시된 각 파라메타의 유형에 관하여 세그멘트로 더 서브-분할되며, 예를 들면 프레임(F1 내지 F3)은 과도적인 정보 콘텐츠에 관한 세그멘트(t1 내지 t12), 정현파 정보 콘텐츠에 관한 세그멘트(s1 내지 s12), 잡음 정보 콘텐츠에 관한 세그멘트(n1 내지 n12)를 포함한다. 각 세그멘트는 세그멘트를 발생시키는 신호(20)의 일부를 설명하는 하나 이상의 파라메타를 발생시키며, 이들 하나 이상의 파라메타는 출력(30)에서 포함된다.
인코더(10)의 예는 세그멘트가 적어도 부분적으로 중첩된 실질적으로 16ms기 간의 세그멘트를 사용하는 필립스 사유의 SSC 코덱이다. 더욱이, 이 코덱은 3개의 다른 서브-코딩 방법을 사용하며 시간-차등적으로 세그멘트단위로 출력(30)에서 비트-스트림으로 세그멘트와 관련된 파라메타를 출력할 수 있다.
인코더(10)에서, 몇 개의 연속적인 세그멘트로부터의 파라메타는 대응하는 프레임을 형성하며: 예를 들면, 프레임(F1)은 세그멘트(t1 내지 t4), 세그멘트(s1 내지 s4), 세그멘트(n1 내지 n4)를 포함한다. 세그멘트가 동일한 길이가 되므로, 프레임(F1 내지 F3)은 비균일 속도로 또한 갱신된다. 더욱이, 프레임(F1 내지 F3)의 각각은, 통신 네트워크(예를 들면, 인터넷) 상으로 스트리밍하거나 순차 기록 및 순차 판독을 제공하는 데이터 운반 매체(예를 들면, 오디오 CD)상으로 저장하기에 적합한 비트-스트림 출력(30)을 렌더링하기에 거의 충분하다. 비록 단지 3개의 프레임(F1 내지 F3)이 고정된 시간-지속기간 세그멘트화를 예시하기 위해 도시되었을지라도, 신호(20)는 신호(20)에서 전달된 프로그램 콘텐츠의 지속기간에 의존하면서 출력 신호(30)에서 3개 이상의 고정된 지속기간 프레임에 의해 나타내지게 됨을 이해할 것이다.
예를 들면, 인터넷 또는 무선 네트워크와 같은 통신 네트워크 상으로 출력(30)의 전송 동안 패킷-손실의 경우, 고정된 기간의 프레임 및 세그멘트를 위한 에러 전파는 잠재적으로 에러 은닉(concealment)을 허용하면서 제한될 것이다. 더욱이, 이러한 고정된 지속기간은 또한 거의 임의의 주어진 시간에서 재생의 시작을 허용하며, 따라서 랜덤 액세스에 실질적으로 대응한다.
종래의 고정된 지속기간 세그멘트 및 관련 프레임을 이용하는 것으로부터 발 생하는 많은 유리한 특성에도 불구하고, 본 발명자는 가변 지속기간을 가지는 세그멘트를 사용하기 위해 인코더(10)를 구현하는 것으로부터 이점이 도출될 수 있음을 인식하였다. 더욱이, 데이터 압축 및 더 좋은 주관적인 재생(replay) 품질의 견지에서 추가적인 이점이 각 파라메타 유형을 위한 서로 다른 세그멘트의 사용으로부터 유도될 수 있다. 환언하면, 입력 신호 콘텐츠에 대한 응답으로 가변 가능한 세그멘트 지속기간은 비트-전송율 및 지각적인 왜곡에 관한 이점을 제공한다.
특히, 본 발명자는,
(a) 실질적으로 안정된 음조(steady tone)를 위하여 비교적 더 긴 세그멘트의 사용
(b) 급속히 변화하는 음조를 위하여 비교적 더 짧은 세그멘트의 사용
(c) 바로 선행, 즉 입력 신호(20)내의 과도에 앞서 시작하도록 세그멘트의 배열하는 것이 바람직함을 발견하였다:
그러므로, 도 3을 참조하여 후술되는 바와 같이, 서로 다른 서브-코딩 방법을 위한 상호 서로 다른 시간 세그멘트화 패턴, 즉 서로 다른 파라메타 유형의 생성을 사용하는 것이 유리하다.
도 3에서, 본 발명에 따른 방식으로 구현되는 경우, 인코더(20)로부터 파라메타 출력의 시간 그래프가 도시된다. 이 시간 그래프는 시간(T)을 표시하는 전술된 가로축(50) 및 3개의 파라메타 출력의 유형을 포함한다. 여기서 3개의 파라메타 출력의 유형은 다음과 같다.
(a) 입력 신호(20)에서 존재하는 정현파 정보를 설명하는 파라메타에 대응하는 세그멘트(s1 내지 s12), 여기서 이들 세그멘트는 그룹(200)에 의해 표시됨;
(b) 입력 신호(10)에서 존재하는 파형의 특성을 설명하는 파라메타에 대응하는 세그멘트(w1 내지 w12), 여기서 이들 세그멘트는 그룹(210) 별에 의해 표시됨; 및
(c) 입력 신호(20)에서 존재하는 잡음 정보를 설명하는 파라메타에 대응하는 세그멘트(n1 내지 n12), 여기서 이들 세그멘트는 그룹(220) 별로 표시됨.
그룹(200,210,220)에 대응하는 파라메타는 출력(30)을 생성하기 위해 결합된다. 바람직하게는, 비록 다른 개수의 서브-코더가 본 발명에 따라 사용되기 용이할 지라도, 그룹(200,210,220)은 도 4에 예시된 인코더(20) 내에 포함된 3개의 서브-코더에 대응한다는 것이 인식될 것이다.
도 4에서, 도 3에 제시된 데이터를 출력할 수 있는 인코더(10)는 도시된 바와 같이 구현되며, 이 경우 서브-코더(300,310,320)는 입력 신호(20)로부터 분할기(380)를 통하여 도출된 입력 신호(350,360,370)를 각기 수신하여 파라메타 그룹(200,210,220)에 각각 대응하는 대응 파라메타 출력을 생성하기 위해 병렬로 연결된다. 선택적으로, 분할기(380)는 서브-인코더(300,310,320)에 상호 유사한 입력 신호(350,360,370)를 제공하기 위해 배열된다. 대안적으로, 이들 입력 신호(350,360,370) 중의 하나 이상은 상호 서로 다르게 배열되므로 인코더(10) 내에서 실행되는 처리과정을 지원할 수 있다. 서브-코더(300,310,320)로부터의 파라메타 출력은 출력(30)을 생성하는 멀티플렉서(400)에 연결된다.
몇 개의 측면이 도 2로부터 차별화된 도 3에서 식별될 수 있으며, 이 측면은 다음과 같다.
(a) 입력 신호(20)는 도 2와 대조적으로 정현파 설명 파라메타, 파형 설명 파라메타 및 잡음 설명 파라메타에 의해 표시되며, 여기서 과도 설명 파라메타, 정현파 파라메타 및 잡음 설명 파라메타가 사용된다;
(b) 비록 프레임(F1 내지 F3)의 명목상 위치가 도 3에 도시되어 있을 지라도, 모든 세그멘트가 도 2와 대비하여, 프레임(F1 내지 F3)의 경계에서 종료되지는 않으며, 여기서 동기화가 도시된다;
(c) 다른 그룹(200,210,220)에서 세그멘트는 상호 다른 지속기간이다;
(d) 비록 인코더(10)가 예를 들면 그룹(220에 대해 더 규칙적인 일정한 지속기간 세그멘트화를 지원할 수 있을 지라도, 각 그룹(200,210) 내의 세그멘트는 상호 서로 다른 지속기간을 가지며, 여기서 잡음 콘텐츠에 관해 입력 신호(20)에서 존재하는 정보는 일정-지속기간 세그멘트 인코딩이 유리함을 가리킨다. 환언하면, 바람직하게는, 본 발명에 따라 동작하는 인코더(10)는 입력 신호(20)의 성질에 의존하면서 고정된 세그멘트 지속기간과 가변 가능한 세그멘트 지속기간 사이를 전환할 수 있다.
만일 필요하다면, 본 발명에 따라 동작하는 인코더(10)는 자신의 파라메타 그룹이 동시에 종결되도록 출력(30)에서 다중화(multiplex)되기 위해 배열할 수 있으며, 이에 의해 비교적 더 큰 프레임을 형성한다. 즉, 바람직하게는, 본 발명에 따라 동작하는 인코더(10)로부터의 출력(30)은 100㎳ 길이의 균일한 프레임으로 서브 분할된다. 바람직하게는, 프레임의 지속기간은 목적지 및 인코더(10)에 연결된 피크 비트-전송율 제한에 기초하여 결정된다. 바람직하게는, 이들 제한은 인코더 (10)가 연결되는 통신 네트워크에 의해 한정된다.
본 발명에 따라 생성된 출력 데이터(30)에서, 세그멘트와 관련된 파라메타는 각 패킷이 주어진 프레임에서 시작하는 모든 세그멘트에 관한 정보를 지니는 방식으로 데이터 패킷에 그룹화된다. 이러한 데이터 구성이 도 3에 예시된다.
도 3에 예시된 3개의 프레임을 위한 세그멘트화 패턴에 기반하여, 출력 데이터(30)는 표 1에 제시된 데이터의 시퀀스를 포함한다.
프레임 출력(30)에 포함된 세그멘트 데이터 패킷의 시퀀스
1 s1;s2;s3;w1;w2;w3;n1;n2;n3;n4
2 w4;n5;n6;n7;n8
3 s4;s5;w5;w6;n9;n10;n11;n12
4 ...,
바람직하게는, 출력(30)은 또한 주어진 프레임과 각 서브-코더를 위하여 제 1 후속 세그멘트 사이의 거리에 관한 정보를 전달하는 추가 파라메타를 포함한다. 바람직하게는, 이들 추가 파라메타는 예를 들면 5% 이하인 출력 데이터의 소비율(small ratio)을 나타낸다. 더욱이, 본 발명자는 인트라-세그멘트(intra-segment) 인코딩이 예를 들면 인트라-세그멘트 인코딩이 인코딩된 신호 저하(예를 들면, 디코딩된 오디오 품질 저하)를 겪지 않고서도 임의의 주어진 프레임의 제 1 세그멘트에서 재생의 시작을 허용하는 시간-차분 인코딩(time-differential encoding)만큼 잠재적으로 효과적이다. 예를 들면, 표 1에 의해 표시된 인코딩 방식은 또한 랜덤 액세스 및 에러 은닉(error concealment)을 제공할 수 있다.
예를 들면, 도 4에 예시된 바와 같이 본 발명에 따른 인코더는 소프트웨어 제어 하에서 동작하는 하나 이상의 연산 디바이스를 사용하여 구현되기 용이함을 이해할 것이다. 대안적으로, 또는 추가적으로, 인코더는 ASIC(Application Specific Integrated Circuit)의 형태로 구현가능하다.
도 4에 예시된 인코더(10)는 자신의 서브-인코더(300,310,320)가 병렬방식으로 배열될 수 있도록 구성된다. 인코더(10)를 위한 다른 구성도 가능함을 이해하여야 할 것이다. 예를 들면, 도 5에서, 2개의 감산 유닛(450,460)을 포함함으로써 캐스케이드 방식으로 연결된 서브-인코더(300,310,320)를 구비하는 인코더(10)가 도시된다. 반면에, 도 5에서의 제 1 서브-인코더(300)는 자신 내로 배분되는 입력 신호(20)를 수신하고, 제 2 및 제 3 서브-인코더는 입력 신호(20)의 특징이 출력(30)으로 인코딩됨에 따라 잉여 신호를 점진적으로 수신한다. 도 5에 제시된 인코더(10)를 위한 캐스케이드 구성은 인코딩 에러(즉, 서브-인코더의 동작시 발생하는 부정확성)는 적어도 부분적으로 보다 나중의 서브-인코더(310,320)에 의해 교정될 수 있으며, 이에 의해 결국 잠재적으로 도 4의 인코더(10)와 비교하여 지각적으로 더 좋은 인코딩 품질이 발생하게 된다는 점에서 유리한다.
본 발명에 따른 인코더를 보충하기 위하여. 대응하는 디코더는 출력(30)을 수신하여 입력 신호(Si)의 표현을 재구성할 수 있다. 즉, 예를 들면, 이러한 디코더가 도 6에 예시되어 있으며 500에 의해 일반적으로 표시된다. 바람직하게는, 디코더(500)는 예를 들면 상호 비동기적으로 비트-스트림 출력(30)을 처리할 수 있는 서브-디코더(510,520,530)인 복수의 서브-디코더로 구현된다. 더욱이, 바람직하게는, 디코더(500)는 하나 이상의 ASIC 및/또는 컴퓨터 하드웨어 상에서 동작하는 소프트웨어로서 구현된다. 비록 병렬 구성으로 연결된 자신의 서브-인코더(510,520,530)를 구비하는 디코더(500)가 도시될지라도, 디코더(500)가 또한 도 5에 예시된 인코더(10)의 방식과 유사한 캐스케이드 방식으로 구현될 수 있다.
앞서 기술된 본 발명의 실시예는 첨부된 청구항에 의해 한정된 본 발명의 범위로부터 벗어나지 않으면서 변경되기가 용이함을 이해해야 할 것이다.
첨부된 청구항에서, 괄호/대괄호에 포함된 숫자 및 다른 기호는 청구항의 이해를 돕기 위해 포함된 것으로 임의의 방식으로 청구항의 범위를 제한하기 위한 의도가 아니다.
"포함(Comprising)", "병합", "구비", "하다", "이다" 및 "갖다"와 같은 표현은 상세한 설명 및 해당 청구범위를 해석할 때, 비-제외적인 방식으로 해석되어야 하며, 즉 명백하게 한정되어 있지 않은 다른 아이템 또는 구성요소를 허용하는 것으로 해석되어야 한다. 또한, 단수의 참조는 복수의 참조로 해석되어야 하며, 역의 경우도 동일하다.
전술한 바와 같이, 본 발명은 오디오 신호를 인코딩하는 방법에 이용가능하며, 또한 이 방법에 따라 동작하는 인코더 및 이러한 인코더에 의해 발생한 인코딩된 데이터의 구성에 대해 이용 가능하다. 추가적으로 이러한 인코더에 의해 발생한 데이터를 코딩하는 것이 가능한 디코더에 대해서도 이용 가능하다. 또한 인코딩 방 법을 이용하는 인코딩-디코딩 시스템에 이용 가능하다.

Claims (16)

  1. 하나 이상의 대응하는 인코딩된 출력 신호(30)를 생성하기 위해 하나 이상의 입력 신호(20)를 인코딩하는 방법으로서,
    (a) 상기 하나 이상의 입력 신호(20)를 수신하여 인코더(10)의 서브-인코더(300,310,320)에 적절하게 이 신호를 분배하는 단계;
    (b) 서브-인코더(200,210,220)로부터 대응 표시 파라메타 출력을 생성하기 위해 상기 하나 이상의 분배된 입력 신호(20)의 하나 이상의 신호 특성(200,210,220)에 대하여 상기 서브-인코더(300,310,320)에 분배된 상기 하나 이상의 입력 신호(20)를 처리하는 단계; 및
    (c) 상기 하나 이상의 인코딩된 출력 신호(30)를 생성하기 위해 상기 서브-인코더(300,310,320)의 상기 파라메타 출력(200,210,200)을 결합하는 단계를 포함하며,
    상기 서브-인코더(300,310,320)에서 상기 하나 이상 분배된 입력 신호(20)의 처리는 분석을 위한 세그멘트로 상기 하나 이상 분배된 입력 신호(20)를 세그멘트화하는 단계를 포함하고, 상기 세그멘트는 상기 하나 이상의 분배된 입력 신호(20)에 존재하는 정보 콘텐츠에 대한 응답으로 적어도 부분적으로 동적으로 가변되는 관련된 시간적인 지속기간을 가지는
    입력 신호를 인코딩하는 방법.
  2. 제 1 항에 있어서,
    상기 서브-인코더로부터 발생하는 인코딩 잉여(residue)를 수용하기 위해 캐스케이드 방식으로 상기 서브-인코더가 구성되도록 배열하는 단계를 포함하는 입력 신호를 인코딩하는 방법.
  3. 제 1 항에 있어서,
    상기 하나 이상 분배된 입력 신호(20)의 세그멘트는 상기 서브 인코더(300,310,320)에서 상호 비동기적으로 처리되는 입력 신호를 인코딩하는 방법.
  4. 제 1 항에 있어서,
    각 서브-인코더(300,310,320)에 관하여 상기 하나 이상 분배된 입력 신호(20)의 세그멘트는 적어도 부분적 시간적으로 중첩인 입력 신호를 인코딩하는 방법.
  5. 제 1 항에 있어서,
    상기 서브-인코더(300,310,320)는, 정현파 입력 신호 정보 콘텐츠(200), 입력 신호 파형 정보 콘텐츠(210) 및 입력 신호 잡음 정보 콘텐츠(220) 중 적어도 하나에 관하여 상기 하나 이상의 분배된 입력 신호(20)를 처리하기 위해 배열되는 입력 신호를 인코딩하는 방법.
  6. 제 1 항에 있어서,
    상기 하나의 분배된 입력 신호(20)의 세그멘트화 단계는,
    (a) 상기 하나 이상의 분배된 입력 신호에서 존재하는 안정된 음조(steady tone)를 위하여 비교적 더 긴 세그멘트를 생성하는 단계;
    (b) 상기 하나 이상의 분배된 입력 신호에서 존재하는 급격히 변경되는 음조를 위하여 비교적 더 짧은 세그멘트를 생성하는 단계; 및
    (c) 상기 하나 이상의 분배된 입력 신호에서 발생한 실질적으로 바로 선행하는 과도를 종결하도록 세그멘트를 배열하는 단계 중 적어도 하나를 포함하는 입력 신호를 인코딩하는 방법.
  7. 제 1 항에 있어서,
    상기 인코딩된 출력 신호는 프레임(F1,F2,F3)으로 서브-분할되며, 각 프레임은 상기 프레임(F1,F2,F3; 테이블1)과 관련된 시간적인 지속기간 내에서 시작하는 상기 서브-인코더(300,310,320)로부터 제공된 세그멘트에 관련되는 정보를 포함하는 입력 신호를 인코딩하는 방법.
  8. 제 7 항에 있어서,
    각 프레임 내에 포함된 세그멘트는 연대기적인 순서로 배열되는 입력 신호를 인코딩하는 방법.
  9. 제 8 항에 있어서,
    각 프레임은 상기 프레임의 시작시간과 상기 프레임의 시작후 시작하는 제 1 세그멘트 사이의 시간적인 지속기간을 설명하는 파라메타 데이터를 포함하는 입력 신호를 인코딩하는 방법.
  10. 제 7 항에 있어서,
    각 프레임 내에 포함된 다수의 세그멘트는 상기 하나 이상의 분배된 입력 신호(20) 내에 존재하는 정보 콘텐츠에 의존하면서 동적으로 가변 가능한 입력 신호를 인코딩하는 방법.
  11. 하나 이상의 입력 신호(20)의 처리 및 대응하는 하나 이상의 인코딩된 출력 신호(30)의 발생을 가능하게 하는 인코더(10)로서,
    (a) 상기 하나 이상의 입력 신호(20)를 수신하여 인코딩(10)의 서브-인코더(300,310,320)에 적절하게 이 신호를 분배하는 수단;
    (b) 서브-인코더(200,210,220)로부터 대응 표시 파라메타 출력을 생성하기 위해 상기 하나 이상의 분배된 입력 신호(20)의 하나 이상의 신호 특성(200,210,220)에 대하여 상기 서브-인코더(300,310,320)에 분배된 상기 하나 이상의 입력 신호(20)를 처리하는 수단; 및
    (c) 상기 하나 이상의 인코딩된 출력 신호(30)를 생성하기 위해 상기 서브-인코더(300,310,320)의 상기 파라메타 출력(200,210,200)을 결합하는 수단을 포함 하며,
    상기 서브-인코더(300,310,320)에서 상기 하나 이상 분배된 입력 신호(20)의 처리는 분석을 위한 세그멘트로 상기 하나 이상 분배된 입력 신호(20)를 세그멘트화하는 것을 포함하고, 상기 세그멘트는 상기 하나 이상의 분배된 입력 신호(20)에 존재하는 정보 콘텐츠에 대한 응답으로 적어도 부분적으로 동적으로 가변되는 관련된 시간적인 지속기간을 가지는 인코더.
  12. 하나 이상의 인코딩된 출력 신호(30)를 수신하여 상기 신호를 대응하는 디코딩된 신호를 생성하도록 디코딩을 실행하는 디코더(500)로서,
    청구항 1의 방법에 의해 생성된 상기 하나 이상의 인코딩된 출력 신호(30)를 처리할 수 있도록 배열되는 디코더.
  13. 청구항 11의 인코더(10)와 청구항 12의 디코더(500)를 포함하도록 배열된 신호 처리 시스템.
  14. 제 1 항의 방법을 사용함으로써, 생성되는 인코딩된 출력 신호 데이터(30)로서, 상기 신호 데이터는 데이터 운반 매체에 의해 전달되는 인코딩된 출력 신호 데이터.
  15. 제 14 항에 있어서,
    상기 데이터 운반 매체는 통신 네트워크 및 데이터 저장 매체 중 적어도 하나를 포함하는 인코딩된 출력 신호 데이터.
  16. 제 1 항의 방법을 구현하기 위한 컴퓨터 하드웨어 상에 실행 가능한 소프트웨어.
KR1020067026751A 2004-06-21 2005-06-14 오디오 인코딩 방법 KR20070028432A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04102819 2004-06-21
EP04102819.2 2004-06-21

Publications (1)

Publication Number Publication Date
KR20070028432A true KR20070028432A (ko) 2007-03-12

Family

ID=34970750

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067026751A KR20070028432A (ko) 2004-06-21 2005-06-14 오디오 인코딩 방법

Country Status (6)

Country Link
US (1) US8065139B2 (ko)
EP (1) EP1761917A1 (ko)
JP (1) JP2008503766A (ko)
KR (1) KR20070028432A (ko)
CN (1) CN1973321A (ko)
WO (1) WO2006000951A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
US9111525B1 (en) * 2008-02-14 2015-08-18 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Apparatuses, methods and systems for audio processing and transmission
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
CN108496221B (zh) 2016-01-26 2020-01-21 杜比实验室特许公司 自适应量化

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
US5127054A (en) * 1988-04-29 1992-06-30 Motorola, Inc. Speech quality improvement for voice coders and synthesizers
JP3131542B2 (ja) * 1993-11-25 2001-02-05 シャープ株式会社 符号化復号化装置
US5701389A (en) * 1995-01-31 1997-12-23 Lucent Technologies, Inc. Window switching based on interblock and intrablock frequency band energy
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
JP3894722B2 (ja) * 2000-10-27 2007-03-22 松下電器産業株式会社 ステレオオーディオ信号高能率符号化装置
CN1408146A (zh) * 2000-11-03 2003-04-02 皇家菲利浦电子有限公司 音频信号的参数编码
JP2004519741A (ja) * 2001-04-18 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声の符号化
ATE305164T1 (de) * 2001-06-08 2005-10-15 Koninkl Philips Electronics Nv Editieren von audiosignalen

Also Published As

Publication number Publication date
JP2008503766A (ja) 2008-02-07
WO2006000951A1 (en) 2006-01-05
US20080275696A1 (en) 2008-11-06
CN1973321A (zh) 2007-05-30
US8065139B2 (en) 2011-11-22
EP1761917A1 (en) 2007-03-14

Similar Documents

Publication Publication Date Title
EP1895511B1 (en) Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus
KR101513184B1 (ko) 계층적 디코딩 구조에서의 디지털 오디오 신호의 송신 에러에 대한 은닉
JP2020170188A (ja) パラメトリック・マルチチャネル・エンコードのための方法
US7003448B1 (en) Method and device for error concealment in an encoded audio-signal and method and device for decoding an encoded audio signal
TWI363563B (en) Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
JP4586090B2 (ja) 信号処理方法、処理装置および音声復号器
JP5734517B2 (ja) 多チャンネル・オーディオ信号を処理する方法および装置
JP2019032550A (ja) フォワードエイリアシング消去を用いた符号器
EP1887563A1 (en) Packet loss concealment for a sub-band predictive coder based on extrapolation of exitation waveform
CA2314451C (en) Subband encoding and decoding system
CN105706165B (zh) 使用噪声填充的音频编码器、解码器、编码及解码方法
KR100722707B1 (ko) 멀티미디어 신호를 전송하기 위한 전송 시스템
JP2008261904A (ja) 符号化装置、復号化装置、符号化方法および復号化方法
JPWO2009081567A1 (ja) ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
JP2010204533A (ja) オーディオ復号装置及びオーディオ復号方法
JPH07123242B2 (ja) 音声信号復号化装置
TWI559294B (zh) 支援轉換長度切換的頻率域音源編碼器、解碼器、編碼方法、解碼方法及電腦程式
JP4359499B2 (ja) オーディオ信号の編集
KR20070028432A (ko) 오디오 인코딩 방법
JP6584431B2 (ja) 音声情報を用いる改善されたフレーム消失補正
MXPA05003937A (es) Codificacion de audio sinusoidal con actualizaciones de fases.
EP2038881B1 (en) Sound frame length adaptation
JP2007271916A (ja) 音声データ圧縮装置および伸張装置
KR19990053837A (ko) 오디오 신호의 에러 은닉 방법과 그 장치
KR0178731B1 (ko) 디지탈 오디오신호의 에러 보정방법 및 이를 이용한 서브밴드복호화장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee