KR20010040705A - 오디오 인코더 장치에서 효과적으로 고정 마스킹 임계값을구현하기 위한 시스템 및 방법 - Google Patents

오디오 인코더 장치에서 효과적으로 고정 마스킹 임계값을구현하기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20010040705A
KR20010040705A KR1020007008584A KR20007008584A KR20010040705A KR 20010040705 A KR20010040705 A KR 20010040705A KR 1020007008584 A KR1020007008584 A KR 1020007008584A KR 20007008584 A KR20007008584 A KR 20007008584A KR 20010040705 A KR20010040705 A KR 20010040705A
Authority
KR
South Korea
Prior art keywords
data
audio data
masking threshold
source
bit allocator
Prior art date
Application number
KR1020007008584A
Other languages
English (en)
Inventor
인린
Original Assignee
밀러 제리 에이
소니 일렉트로닉스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 밀러 제리 에이, 소니 일렉트로닉스 인코포레이티드 filed Critical 밀러 제리 에이
Publication of KR20010040705A publication Critical patent/KR20010040705A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

오디오 인코더 장치(312)에서 고정 마스킹 임계값을 효과적으로 구현하기 위한 시스템과 그 방법으로, 상기 오디오 인코더 장치는, 주파수 서브 밴드를 생성하기 위하여 소스 오디오 데이터(316)를 필터링하는 필터 뱅크(318)와, 상기 주파수 서브 밴드에 대응하는 마스킹 임계값을 저장하기 위한 룩업 테이블(326), 및 비트 할당기(322)를 포함하는데, 상기 비트 할당기는 마스킹된 오디오 데이터를 식별하고 버리기 위하여 마스킹 임계값을 사용하는데, 그렇게 함으로써 처리에 필요한 오디오 데이터의 총 량을 감소시킨다.

Description

오디오 인코더 장치에서 효과적으로 고정 마스킹 임계값을 구현하기 위한 시스템 및 방법 {SYSTEM AND METHOD FOR EFFECTIVELY IMPLEMENTING FIXED MASKING THRESHOLDS IN AN AUDIO ENCODER DEVICE}
1. 발명 분야
본 발명은 일반적으로 신호 처리 시스템에 관련된 것이고, 더 구체적으로는 오디오 인코더 장치에서 고정 마스킹 임계값(fixed masking thresholds)을 효과적으로 구현하기 위한 시스템 및 방법에 관련된 것이다.
2. 배경 기술 설명
오디오 데이터를 인코딩하는 효과적인 방법의 제공은 현 전자 시스템의 설계자들과 제작자들, 그리고 사용자들에게 있어 종종 주요한 고려사항이다. 최근의 디지털 오디오 기술의 발전은 그에 따른 정교한 고 성능 오디오 인코딩 방법론의 향상을 필요해왔다. 예를 들어, 기록 가능한 오디오 콤팩트디스크 장치의 동작은 일반적으로 인코더 디코더(CODEC:코덱) 시스템이 요구되는데, 이는 소스 오디오 데이터를 수신하여 (MPEG 같은)포맷으로 인코딩하기 위함이고, 그런 다음 상기 데이터는 상기 콤팩트디스크 장치를 이용하여 적절한 매체에 기록될 수 있다.
도 1을 참고하면, 오디오 코덱(110)의 일 실시예에 대한 블록도가 도시되어 있다. 도 1의 실시예에서, 코덱(110)은 디코더(114) 및 사이코 음향 모델러(PAM)(126)를 포함한 인코더(112)를 포함한다. 인 코딩하는 동안, 인코더(112)는 경로(116)를 통해 임의의 호환 오디오 소스로부터 소스 오디오 데이터를 수신하고, 이에 응답하여 상기 소스 오디오를 주파수 서브 밴드(frequency sub-bands)로 필터링하고, 그 다음 경로(138)를 통해 (기록 가능한 콤팩트디스크 장치 또는 컴퓨터 시스템 같은) 오디오 장치에 제공될 수 있는 인코딩된 오디오 데이터를 생성한다. PAM(126)의 작동은 도 2와 관련하여 후에 더 논의된다.
이제 도 2를 참고하면, 도 1의 코덱 시스템(110)에 대한 예시적인 마스킹 임계값의 일 실시예에 관한 그래프(210)가 도시되어 있다. 그래프(210)에서 수직축(212)은 오디오 데이터 신호 에너지를 도시하고, 또한 수평축(214)은 일련의 주파수 서브 밴드를 도시한다. 운용에 있어, PAM(126)은 소스 오디오 데이터를 수신하고, 그런 후에 마스킹 임계값(228)을 생성하기 위해 인간 청력(human hearing)의 특징을 이용한다. 실험을 통해 인간의 청력은, 주파수에 있어 낮은 에너지 사운드가 높은 에너지 사운드에 근접하면 일부 상기 낮은 에너지 사운드를 감지할 수 없다는 것이 확인됐다.
예를 들면, 서브 밴드 3(220)은 60 db 사운드(232), 30 db 사운드(234), 그리고 36 db의 마스킹 임계값을 포함한다. 30 db 사운드(234)는 마스킹 임계값(230)의 아래에 있고, 그러므로 사람의 귀는 60 db 사운드(232)의 마스킹 효과로 인하여 상기 30 db 사운드를 감지할 수 없다. 실제로, 인코더(112)는 마스킹 임계값(228)아래로 떨어진 모든 사운드를 오디오 데이터의 양을 줄이고 인코딩 처리를 신속히 처리하기 위하여 버린다.
그러므로, PAM(126)은 인코더(112)가 인코딩해야 하는 오디오 데이터의 양을 감소시키기 위한 유용한 정보를 제공한다. 그러나, 인코더(112)내에서 PAM(126)을 구현하는 것은 실제로는 인코더(112)의 복잡성을 증가시키고, 또한 인코더(112)를 제어하기 위하여 필요한 처리 전력은 대략 2배로 된다. 그러므로 PAM(126)의 성공적인 구현하기 위한 비용과 어려움은 도 1의 코덱 시스템(110)의 주요한 부정적인 면이다. 복잡성을 감소시키면서, 인코딩된 오디오 데이터에 있어서 여전히 용인 가능한 품질을 달성하는 인코더 장치는 시스템 제작자들과 사용자들에게 각각 이점(advantages)을 제공하게 된다. 그러므로, 앞서 말한 모든 이유로, 개선된 시스템과 방법이 오디오 인코더 장치에서 고정된 마스킹 임계값을 효과적으로 구현하는데 필요하다.
본 출원서(application)는 1998년 8월 4일에 출원되어 공동 계류중인 미국 특허(출원 번호 09/128,924), 제목 "개선된 사이코 음향 모델러를 구현하기 위한 시스템 및 방법(System And Method For Implementing A Refined Psycho-Acoustic Modeler)"에 관련되고, 1998년 9월 9일 출원되어 공동 계류중인 미국 특허(출원 번호 09/150,117), 제목"사이코 음향 모델러(PAM)에서 마스킹 기능을 효과적으로 구현하기 위한 시스템 및 방법{System And Method For Efficiently Implementing A Masking Function In A Psycho-Acoustic Modeler(PAM)}"에 관련되고, 또한 년 월 일에 출원되어 공동 계류중인 미국 특허(출원번호 ), 제목 "오디오 디코더 장치에서 결함을 방지하기 위한 시스템 및 방법(System And Method For Preventing Artifacts In An Audio Decoder Device)"에 관련되므로 상기 특허들은 여기에 참고적으로 통합된다.
도 1은 오디오 인코더-디코더(코덱) 시스템의 일 실시예에 대한 블록도.
도 2는 도 1의 코덱 시스템의 예시적인 마스킹 임계값의 일 실시예에 대한 그래프.
도 3은 본 발명에 따라, 코덱 시스템의 일 실시예에 대한 블록도.
도 4는 본 발명에 따라, 도 3의 인코더 필터 뱅크(encoder filter bank)의 일 실시예에 대한 블록도.
도 5는 본 발명에 따라, 도 3의 마스킹 임계값 룩업 테이블의 일 실시예에 대한 블록도.
도 6은 본 발명에 따라, 청력의 절대 임계값(absolute hearing thresholds)을 나타내는 그래프.
도 7은 본 발명에 따라, 예시적인 고정 마스킹 임계값의 일 실시예에 대한 그래프.
도 8은 본 발명에 따라, 고정 마스킹 임계값을 효과적으로 구현하기 위한 방법의 단계들을 나타내는, 일 실시예에 대한 흐름도.
본 발명에 따라, 오디오 인코더 장치에서 고정 마스킹 임계값을 효과적으로 구현하기 위한 시스템과 방법이 개시된다. 본 발명의 일 실시예에서, 상기 인코더의 시스템 설계자들은 먼저 마스킹 임계값 룩업(look-up) 테이블을 만든다. 상기 마스킹 임계값 룩업 테이블은 경험을 바탕으로 한(empirically-derived) 인간 청력의 절대 임계값(absolute human hearing thresholds)에 기초하는 마스킹 임계값들을 포함 될 수 있다. 대안 실시예에서, 룩업 테이블은 이와 비슷하게 인간 청력의 절대 임계값에서 벗어나도록 선택적으로 조정된 마스킹 임계값들을 포함한다.
다음으로, 인코더의 필터 뱅크(filter bank)는 필터링된 오디오 데이터를 비트 할당기(bit allocator)에 제공하기 위하여 소스 오디오 데이터를 수신하고 주파수 서브 밴드로 필터링 한다. 그리고 나서 상기 비트 할당기는 이에 응답하여, 룩업 테이블에 포함된 마스킹 임계값을 이용하여 필터링된 오디오 데이터를 분석한다. 구체적으로 상기 비트 할당기는, 룩업 테이블의 고정 마스킹 임계값 아래로 떨어진 임의의 필터링된 오디오 데이터인 마스킹된 오디오 데이터를 식별한다. 이와 비슷하게, 비트 할당기는 룩업 테이블의 고정 마스킹 임계값 위에 있는 임의의 필터링된 오디오 데이터를 마스킹 되지 않은(non-masked) 오디오 데이터로서 식별한다.
상기 비트 할당기는, 인코더에 의해 처리되어지는 필터링된 오디오 데이터의 총 량을 유리하게 감소시키기 위하여, 마스킹된 오디오 데이터로 식별된 필터링된 오디오 데이터를 버린다. 다음으로, 할당된 오디오 데이터를 양자화기(quantizer)에 발생시키기 위하여 비트 할당기는 모든 이용 가능한 할당 비트(allocation bits)를 필터링된 오디오 데이터에 할당하는데, 상기 필터링된 오디오 데이터는 마스킹 되지 않은(non-masked) 오디오 데이터로써 이전에 식별되었던 것이다.
이에 응답하여, 양자화기는 양자화된 오디오 데이터를 비트스트림 패커(bitstream packer)에 생성시키기 위하여, 할당된 오디오 데이터를 양자화 한다. 마지막으로, 본 발명에 따라 비트스트림 패커는 적절하고 호환 가능한 저장 매체에 저장하기 위한 인코딩된 오디오 데이터를 생성하기 위하여, 양자화된 오디오 데이터를 패킹(packs)한다. 따라서, 본 발명은 오디오 인코더 장치에서 고정 마스킹 임계값을 효과적으로 구현하기 위한 시스템과 방법을 능률적이고 효과적으로 제공한다.
본 발명은 신호 처리 시스템의 개선에 관한 것이다. 다음의 설명은 일반적인 당업자가 본 발명을 제조하고 이용하는 것을 가능하게 하기 위해 제공되고, 특허 출원과 특허 출원 요건의 상황에 맞게 제공된다. 바람직한 실시예에 대한 다양한 변경물이 당업자에게 쉽게 이뤄질 것이고, 본 명세서의 일반적인 원리는 다른 실시예에 적용 될 수 있다. 그러므로, 본 발명은 예시된 실시예에 국한되도록 의도되지 않고, 본 명세서에 설명된 원리와 특징에 일치되는 최대한의 범위에 부합한다.
본 발명은, 주파수 서브 밴드를 생성하기 위하여 소스 오디오 데이터를 필터링하는 필터 뱅크, 주파수 서브 밴드에 대응하는 마스킹 임계값을 저장하기 위한 룩업 테이블, 및 비트 할당기를 포함하는 인코더 장치를 포함하는데, 상기 비트 할당기는 마스킹된 오디오 데이터를 식별하여 버리기 위하여 마스킹 임계값을 이용하고, 그렇게 함으로써 인코더 장치의 처리가 필요한 오디오 데이터의 총 량을 감소시킨다.
도 3을 참고하면, 본 발명에 따라, 코덱(310)의 일 실시예에 대한 블록도가 도시되어있다. 도 3의 실시예에서, 코덱(310)은 인코더(312)와 디코더(314)를 포함한다. 인코더(312)는 바람직하게 필터 뱅크(318), 마스킹 임계값 룩업 테이블(326), 비트 할당기(322), 양자화기(332) 및 비트스트림 패커(336)를 포함한다. 디코더(314)는 바람직하게 비트스트림 언패커(unpacker)(344), 역양자화기(dequantizer)(348) 및 필터 뱅크(352)를 포함한다.
도 3의 실시예에서, 인코더(312)와 디코더(314)는 (도시되지 않은)처리 장치에 의해 실행되는 오디오 관리기(audio manager)라 불리는 프로그램 명령(instruction) 세트에 응답하여 작동하는 것이 바람직하다. 대안 실시예에서, 인코더(312)와 디코더(314)는 또한, 적절한 하드웨어 구성(configurations)을 이용하여 구현되고 제어될 수도 있다. 도 3의 실시예는 디지털 오디오 데이터를 인코딩하고 디코딩 하는 것을 구체적으로 논의하는데, 그러나, 본 발명은 다른 형태의 전자 정보를 다루고(manipulate) 처리하는 데에도 유리하게 이용될 수 있다.
인코딩하는 동안, 인코더(312)는 경로(316)를 통해 임의의 호환 가능한 오디오 소스로부터 소스 오디오 데이터를 수신한다. 도 3의 실시에에서, 경로(316)상의 소스 오디오 데이터는 바람직하게 선형 펄스 부호 변조(LPCM:linear pulse code modulation) 포맷으로 포맷된 디지털 오디오 데이터를 포함한다. 인코더(312)는 바람직하게, "프레임(frames)"으로 불리는 단위에서 소스 오디오 데이터의 16 비트 디지털 샘플을 처리한다. 바람직한 실시예에서, 각 프레임은 1152개의 샘플을 포함한다.
실제로, 필터 뱅크(318)는 필터링된 오디오 데이터를 생성하기 위하여, 소스 오디오 데이터를 수신하여 한 세트의 이산(discrete) 주파수 서브 밴드로 분리시킨다. 도 3의 실시예에서, 필터 뱅크(318)로부터 온 필터링된 오디오 데이터는 바람직하게, 독특한 32개의 분리된 주파수 서브 밴드를 포함한다. 그러면, 필터 뱅크(318)는 경로(320)를 통해 비트 할당기(322)에 필터링된 오디오 데이터(서브 밴드)를 제공한다.
그런 후, 비트 할당기(322)는 경로(328)를 통해 룩업 테이블(326)로부터 온 관련 정보에 액세스(accesses)하고, 이에 응답하여 할당된 오디오 데이터를 경로(330)를 통해 양자화기(332)로 생성시킨다. 비트 할당기(322)는, 필터 뱅크(318)로부터 수신된 각 서브 밴드에 포함되어 있는 신호를 나타내기 위하여, 2진 디지트(비트)를 할당함으로써 할당된 오디오 데이터를 생성한다. 룩업 테이블(326)과 비트 할당기(322)의 기능성(functionality)은 도 5내지 도 8과 관련하여 뒤에서 더 논의된다.
다음으로, 양자화기(332)는, 양자화된 오디오 데이터를 경로(334)를 통해 비트스트림 패커(336)에 생성시키기 위하여, 할당된 오디오 데이터를 압축하고 코딩(codes)한다. 비트스트림 패커(336)는 이에 응답하여, 경로(338)를 통해 (기록 가능한 콤팩트디스크 디바이스 또는 컴퓨터 시스템 같은)오디오 장치에 제공될 수 있는 인코딩된 오디오 데이터를 생성하기 위하여, 양자화된 오디오 데이터를 패킹한다.
디코딩하는 동안, 인코딩된 오디오 데이터는 경로(340)를 통해 오디오 장치로부터 비트스트림 언패커(344)에 제공된다. 비트스트림 언패커(344)는 이에 응답하여, 양자화된 오디오 데이터를 경로(346)를 통해 역 양자화기(348)에 생성시키기 위하여, 인코딩된 오디오 데이터를 언패킹(unpacks)한다. 그 다음 역 양자화기(348)는 역 양자화된 오디오 데이터를 경로(350)를 통해 필터 뱅크(352)에 생성시키기 위하여 양자화된 오디오 데이터를 역 양자화 한다. 필터 뱅크(352)는 이에 응답하여, 디코딩된 오디오 데이터를 오디오 생성하여 경로(354)를 통해 오디오 재생 시스템(audio playback system)에 제공하기 위하여, 역 양자화된 오디오 데이터를 필터링한다.
이제 도 4를 참조하면, 본 발명에 따라, 도 3의 인코더 필터 뱅크(318)의 일 실시예에 대한 블록도가 도시되어있다. 도 4의 실시예에서, 필터 뱅크(318)는 호환 가능한 오디오 소스로부터 소스 오디오 데이터를 경로(316)를 통해 수신한다. 그 후 필터 뱅크(318)는 이에 응답하여, 수신된 소스 오디오 데이터를 비트 할당기(322)에 각각 제공되는 일련의 주파수 서브 밴드로 분할한다. 도 4의 실시예에서 바람직하게, 32개의 서브 밴드{320(a) 내지 320(h)}를 생성하지만, 대안 실시예에서, 필터 뱅크(318)는 더 크거나 더 작은 수의 서브 밴드를 쉽게 출력할 수도 있다.
이제 도 5를 참조하면, 본 발명에 따라, 도 3의 마스킹 임계값 룩업 테이블(326)의 일 실시예에 대한 블록도가 도시되어있다. 본 발명의 다른 실시예에서, 룩업 테이블(326)은 임의의 다른 적절하고 호환성 있는 데이터 구조를 이용하여 쉽게 구현될 수 있다. 도 5의 실시예에서, 룩업 테이블(326)은 주파수 1(512) 내지 주파수 N(518)을 포함하며, 마스킹 임계값 1(520) 내지 마스킹 임계값 N(526)을 포함한다. 도 5의 실시예에서, 각각의 주파수(512 내지 518)는 개개의 마스킹 임계값(520 내지 526)에 일 대 일로 대응한다. 예를 들면, 주파수 1(512)은 마스킹 임계값 1(520)에 대응하고, 주파수 N(518)은 마스킹 임계값 N(526)에 대응한다.
도 5의 실시예에서, 주파수(512 내지 518)는 필터(318)에 의해 생성된 개개의 주파수 서브 밴드를 나타낼 수도 있고, 또는 다른 방법으로, 필터 뱅크(318)에 의해 생성된 필터링된 오디오 데이터로부터 온 각각의 주파수를 나타낼 수도 있다. 따라서 실제로, 비트 할당기(322)는 필터 뱅크(318)로부터 수신된 필터링된 오디오 데이터에 포함된 주파수 서브 밴드(512 내지 518) 또는 특정한 주파수를 식별할 수 있다. 그러면 비트 할당기(322)는, 룩업 테이블(326)을 참고하여, 특정한 주파수 또는 주파수 서브 밴드에 대응하는 마스킹 임계값(520 내지 526)에 액세스할 수 있다.
그러면, 비트 할당기(322)는 유리하게, 마스킹 임계값(520 내지 526) 아래로 떨어진 (필터링된 오디오 데이터로부터 온)임의의 마스킹된 오디오 데이터를 식별하여 버릴 수 있다. 그러므로 마스킹 임계값 룩업 테이블(326)을 갖는 인코더(312)를 구현하는 것은, 인코더(312)의 전체적인 복잡성을 확실히 감소시키면서, 여전히 마스킹 임계값을 활용하는 이점(benefits)을 유지한다.
이제 도 6을 참조하면, 본 발명에 따라, 절대 청력 임계값(616)을 도시하는 그래프(610)가 도시되어있다. 도 6에서, 그래프(610)의 수직축(612)은 오디오 데이터 신호 에너지를 데시벨(db)의 단위로 나타내고, 수평축(614)은 {필터 뱅크(318)에 의해 생성된}주파수 서브 밴드를 나타낸다.
그래프(610)에서, 절대 청력 임계값(616)은 실험적으로 결정된 인간 청력의 한계를 나타낸다. 다시 말하면, 인간의 청력은 절대 청력 임계값(616) 아래로 떨어지는 사운드 에너지를 감지하지 못한다. 본 발명의 선택된 실시예에서, 룩업 테이블(326)의 마스킹 임계값(520 내지 526)(도 5)은 절대 청력 임계값(616)을 참고하여 정의된다. 예를 들면, 마스킹 임계값(520 내지 526)은 절대 청력 임계값(616)과 실제로 동일할 수도 있다.
본 발명의 다른 실시예에서, 절대 청력 임계값(616)의 선택된 부분은, 인코더(312)의 개선된 성능을 성취하기 위하여 유리하게 변경될 수 있고 "조정(tuned)"될 수 있다. 예를 들어, 선택된 높은 주파수 서브 밴드는 룩업 테이블(326)에서 대응적 마스킹 임계값을 이용함으로 나타내어 질 수 있는데, 상기 대응적 마스킹 임계값은 절대 청력 임계값(616)에 포함되어 있는 상기 대응적 임계값보다 더 높은 임계값으로 조정된 것이다. 이와 같이, (선택된 더 높은 주파수 서브 밴드에 대한)룩업 테이블(326)의 이 같은 조정은 이용 가능한 할당 비트를 비트 할당기(322)에 의해 최적으로 할당하는 것을 용이하게 하면서, 인코딩된 오디오 데이터의 고 품질을 여전히 유지할 수 있다.
이제 도 7을 참조하면, 본 발명에 따라, 예시적인 고정 마스킹 임계값의 일 실시예에 대한 그래프(710)가 도시되어 있다. 그래프(710)의 수직축(712)은 오디오 데이터 신호 에너지를 나타내고, 또한 수평축(714)은 일련의 주파수 서브 밴드를 나타낸다. 그래프(710)는 본 발명의 원리를 설명하기 위하여 도시되어 있고, 그러므로 그래프(710)에 도시된 값들은 단지 예시적인 값일 뿐이다. 그러므로 본 발명은, 도 7의 그래프(710)에 나타나 있는 값과는 다른 동작 값(operational values)으로도 쉽게 작용할 수 있다.
도 7에서, 그래프(710)는 서브 밴드 1(716) 내지 서브밴드 6(726)을 포함하고, 도 7의 각 서브 밴드에 대하여 변하는 마스킹 임계 값(728)을 포함한다. 실제로, 비트 할당기(322)는 처음에 필터 뱅크(318)로부터 주파수 서브 밴드 1(716)을 수신하고, 이에 응답하여 룩업 테이블(326)을 참고하여 대응적 마스킹 임계값(730)에 액세스한다. 그러면 비트 할당기(322)는 유리하게, 서브 밴드 1(716)에서 마스킹 임계값(730) 아래에 있는 임의의 마스킹된 오디오 데이터를 식별하여 버린다.
비트 할당기(322)는 그 다음에 이와 비슷하게, 임의의 마스킹된 오디오 데이터를 식별하여 제거하기 위하여, 서브 밴드 2(718)의 마스킹 임계값(732)에 액세스하고 이용한다. 그러면 비트 할당기(322)는 현 프레임이 완성될 때까지 각 서브 밴드에 대한 마스킹 임계값에 연속으로 액세스하고 이용하는 것을 계속한다. 앞서 말한 처리는 모든 프레임이 인코더(312)에 의해 처리될 때까지 오디오 데이터의 각 프레임에 대하여 반복된다.
이제 도 8을 참조하면, 본 발명에 따라, 고정 마스킹 임계값을 효과적으로 구현하기 위한 일 실시예에 대한 방법 단계들의 흐름도가 도시되어 있다. 먼저, 단계(812)에서, 인코더(312)의 필터 뱅크(318)는, 필터링된 오디오 데이터를 비트 할당기(322)에 제공하기 위하여, 소스 오디오 데이터를 수신하고 주파수 서브 밴드로 필터링한다.
그 다음에, 단계(814)에서, 인코더(312)의 시스템 설계자는 마스킹 임계값 룩업 테이블(326)을 생성한다. 룩업 테이블(326)의 내용과 기능성(functionality)은 도 3과 도 5내지 도 7과 관련하여 위에서 논의됐다. 그런 다음, 단계(816)에서, 비트 할당기(322)는 룩업 테이블(326)에 포함된 고정 마스킹 임계값을 이용하여, 필터링된 오디오 데이터를 분석하는데, 이는 도 3과 도 5내지 도 7과 관련하여 위에서 논의한 바와 같다. 구체적으로, 비트 할당기(322)는 룩업 테이블(326)의 고정 마스킹 임계값 아래에 있는 임의의 필터링된 오디오 데이터를 마스킹된 오디오 데이터로써 식별한다. 비슷하게, 비트 할당기(322)는 룩업 테이블(326)의 고정 마스킹 임계값 위에 있는 임의의 필터링된 오디오 데이터를 마스킹 되지 않은(non-masking) 오디오 데이터로서 식별한다.
그러면, 단계(818)에서, 비트 할당기(322)는 유리하게, 이전 단계(816)에서 마스킹된 오디오 데이터로서 식별되어진 필터링된 오디오 데이터를 무시하거나 버릴 수 있다. 단계(820)에서, 비트 할당기(322)는 다음으로, {이전 단계(816)에서}마스킹 되지 않은 오디오 데이터로서 식별되어진 필터링된 오디오 데이터에 모든 이용 가능한 할당 비트를 할당하는데, 이것은 할당된 오디오 데이터를 양자화기(332)에 생성시키기 위함이다. 본 발명의 일 실시예에서, 단계(820)의 비트 할당 처리는, 년 월 일에 출원되어 공동 계류중인 "오디오 디코더 장치에서 결함을 방지하기 위한 시스템 및 방법(System And Method For Preventing Artifacts In An Audio Decoder Device)"라는 제목의 미국 특허(출원번호 )에서 밝힌, 이와 비슷한 기술들을 사용하여 실행 될 수 있으므로 상기 특허는 참조용으로 통합된다.
단계(822)에서, 양자화기는 이에 응답하여, 양자화된 오디오 데이터를 비트스트림 패커(336)에 생성시키기 위하여, 할당된 오디오 데이터를 양자화 한다. 마지막으로, 단계(824)에서 본 발명에 따라, 비트스트림 패커(336)는 양자화된 오디오 데이터를 패킹하는데, 이는 적절한 그리고 호환성 있는 저장 매체에 저장하기 위한 인코딩된 오디오 데이터를 생성하기 위함이다.
본 발명은 위에서 바람직한 실시예를 참고하여 설명됐다. 다른 실시예들이 본 명세서의 내용으로 미루어 당업자에게는 명백할 것이다. 예를 들면, 본 발명은 앞의 바람직한 실시예에서 설명된 것과는 다른 구성과 기술들을 사용하여 쉽게 구현 될 수 있다. 더불어, 본 발명은 바람직한 실시예로 앞에서 언급된 시스템과는 다른 시스템들과 관련하여 효과적으로 사용될 수 도 있다. 그러므로, 바람직한 실시예에 대한 이런 변경물과 다른 변경물들이 본 발명에 포함되는 것으로 의도되는데, 이것은 단지 첨부된 청구항으로만 제한된다.

Claims (29)

  1. 소스 데이터와 대응하는 마스킹 임계값을 생성하도록 구성된 데이터 구조(326) 및
    상기 마스킹 임계값을 참조하여, 상기 소스 데이터를 마스킹되지 않은(non-masked) 데이터로 변환하도록 구성된 비트 할당기(322)를 포함하는, 정보 처리 시스템.
  2. 제 1 항에 있어서, 상기 데이터 구조(326)와 상기 비트 할당기(322)는 소스 오디오 데이터(316)를 인코딩된 오디오 데이터(338)로 인코딩하기 위한 인코더 장치(312)의 부분을 형성하는, 정보 처리 시스템.
  3. 제 2 항에 있어서, 상기 소스 오디오 데이터(316)는 선형 펄스 부호 변조 포맷(LPCM:linear pulse code modulation)으로 수신되고, 인코딩된 오디오 데이터를 MPEG 포맷으로 생성하기 위하여 상기 인코더 장치(312)에 의해 인코딩되는, 정보 처리 시스템.
  4. 제 2 항에 있어서, 상기 인코더 장치(312)는 상기 소스 오디오 데이터(316)의 프레임들을 연속해서 처리하는데, 상기 프레임들이 데이터 샘플들을 포함하는, 정보 처리 시스템.
  5. 제 4 항에 있어서, 필터 뱅크(filter bank)(318)는 상기 프레임들을 수신하고, 이에 응답하여 상기 각 프레임들에 대한 서브 밴드(sub-band)를 생성하는, 정보 처리 시스템.
  6. 제 5 항에 있어서, 상기 서브 밴드는 32개의 주파수 서브 밴드를 포함하는, 정보 처리 시스템.
  7. 제 5 항에 있어서, 상기 데이터 구조(326)는 마스킹 임계값을 포함하는 룩업 테이블(look-up table)을 포함하는데, 상기 마스킹 임계값은 상기 주파수 서브 밴드에 일 대 일로 대응하는, 정보 처리 시스템.
  8. 제 7항에 있어서, 상기 마스킹 임계값은 신호 에너지 레벨을 나타내는데, 상기 신호 에너지 레벨의 아래에서는 상기 필터링된 오디오 데이터(320)가 상기 비트 할당기(322)에 의해 처리되지 않는, 정보 처리 시스템.
  9. 제 7 항에 있어서, 상기 룩업 테이블의 상기 마스킹 임계값이 인간 청력의 절대 임계값에 기초하여 조정되는, 정보 처리 시스템.
  10. 제 2 항에 있어서, 상기 비트 할당기(322)는 할당된 데이터를 양자화기(332)로 생성시키고, 상기 양자화기(332)는 이에 응답하여, 양자화된 오디오 데이터(334)를 비트스트림 패커(bitstream packer)(336)에 제공하여, 상기 비트 스트림 패커가 상기 인코딩된 오디오 데이터(338)를 생성시키는, 정보 처리 시스템.
  11. 데이터 구조(326)로부터 소스 데이터에 대응하는 마스킹 임계값을 생성하는 단계 및
    상기 데이터 구조(326)를 참조하여 마스킹 되지 않은 데이터를 생성하기 위하여, 비트 할당기(322)를 이용하여 상기 소스 데이터를 변환하는 단계를 포함하는, 정보 처리 방법.
  12. 제 11 항에 있어서, 상기 데이터 구조(326)와 상기 비트 할당기(322)는 소스 오디오 데이터(316)를 인코딩된 오디오 데이터(338)로 인코딩하기 위한 인코더 장치(312)의 부분을 형성하는, 정보 처리 방법.
  13. 제 12 항에서, 상기 소스 오디오 데이터(316)는 선형 펄스 부호 변조 포맷으로 수신되고, MPEG 포맷으로 인코딩된 오디오 데이터(338)를 생성하기 위하여 상기 인코더 장치(312)에 의하여 인코딩되는, 정보 처리 방법.
  14. 제 12 항에 있어서, 상기 인코더 장치(312)는 상기 소스 오디오 데이터(316)의 프레임들을 연속해서 처리하는데, 상기 프레임들은 데이터 샘플들을 포함하는, 정보 처리 방법.
  15. 제 14 항에 있어서, 필터 뱅크(318)는 상기 프레임들을 수신하고, 이에 응답하여 상기 각 프레임들에 대한 서브 밴드를 생성하는, 정보 처리 방법.
  16. 제 15 항에 있어서, 상기 서브 밴드는 32개의 주파수 서브 밴드를 포함하는, 정보 처리 방법.
  17. 제 15 항에 있어서, 상기 데이터 구조(326)는 마스킹 임계값을 포함하는 룩업 테이블을 포함하는데, 상기 마스킹 임계값이 상기 주파수 서브 밴드에 일 대 일로 대응하는, 정보 처리 방법.
  18. 제 17항에 있어서, 상기 마스킹 임계값은 신호 에너지 레벨을 나타내는데, 상기 에너지 레벨 아래에서는 상기 필터링된 오디오 데이터(320)가 상기 비트 할당기(322)에 의해 처리되지 않는, 정보 처리 방법.
  19. 제 17 항에 있어서, 상기 룩업 테이블의 상기 마스킹 임계값이 인간 청력의 절대 임계값에 기초하여 조정되는, 정보 처리 방법.
  20. 제 12 항에 있어서, 상기 비트 할당기(322)는 할당된 데이터를 양자화기(332)로 생성시키고, 상기 양자화기(332)는 이에 응답하여, 양자화된 오디오 데이터(334)를 비트스트림 패커(bitstream packer)(336)에 제공하여, 상기 비트 스트림 패커가 상기 인코딩된 오디오 데이터(338)를 생성하는, 정보 처리 방법.
  21. 소스 데이터에 대응하는 마스킹 임계값을 생성하기 위한 수단 및
    상기 마스킹 임계값을 참고하여, 상기 소스 데이터를 마스킹 되지 않은(non-masked) 데이터로 변환하기 위한 수단을 포함하는, 결함 방지 시스템.
  22. 데이터 구조(326)로부터 소스 데이터에 대응하는 마스킹 임계값을 생성하는 단계 및
    상기 데이터 구조(326)를 참고하여 마스킹 되지 않은 데이터를 생성하기 위하여, 비트 할당기(322)를 이용해 상기 소스 데이터를 변환하는 단계를 수행함으로써, 정보를 처리하기 위한 프로그램 명령들을 포함하는, 컴퓨터 판독 가능 매체.
  23. 제 22 항에 있어서, 상기 데이터 구조(326)로부터의 상기 마스킹 임계값은 인간 청력의 절대 임계값에 기초하는데, 상기 임계값 아래에서는 사운드 에너지(sound energy)가 인간의 청력에 의해 감지되지 않는, 컴퓨터 판독 가능 매체.
  24. 제 23 항에 있어서, 상기 마스킹 임계값이 상기 인간 청력의 절대 임계값에서 변화되도록 선택적으로 조정되는, 컴퓨터 판독 가능 매체.
  25. 제 24 항에 있어서, 상기 마스킹 임계값이 고 주파수 부분에서 상기 인간 청력의 절대 임계값 보다 더 높게 조정되는, 컴퓨터 판독 가능 매체.
  26. 제 22 항에 있어서, 상기 비트 할당기(322)는 상기 소스 데이터에 대응하는 상기 마스킹 임계값을 결정하기 위하여 상기 데이터 구조(326)에 액세스하고, 이에 응답하여 상기 마스킹 임계값 아래의 마스킹된 데이터를 버리는, 컴퓨터 판독 가능 매체.
  27. 제 22 항에 있어서, 상기 데이터 구조(326)와 상기 비트 할당기(322)는 기록 가능한 디지털 콤팩트디스크 시스템 내에 있는 인코더 장치(312)의 부분을 형성하는, 컴퓨터 판독 가능 매체.
  28. 제 22 항에 있어서, 상기 데이터 구조(326)와 상기 비트 할당기(322)는 오디오 관리기 프로그램(audio manager program)에 의해 제어되는, 컴퓨터 판독 가능 매체.
  29. 제 28 항에 있어서, 상기 오디오 관리기 프로그램은 처리 장치(processor device)에 의해 실행되는, 컴퓨터 판독 가능 매체.
KR1020007008584A 1998-12-28 1999-12-15 오디오 인코더 장치에서 효과적으로 고정 마스킹 임계값을구현하기 위한 시스템 및 방법 KR20010040705A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/221,394 US6418404B1 (en) 1998-12-28 1998-12-28 System and method for effectively implementing fixed masking thresholds in an audio encoder device
US09/221,394 1998-12-28
PCT/US1999/030193 WO2000039787A2 (en) 1998-12-28 1999-12-15 System and method for effectively implementing fixed masking thresholds in an audio encoder device

Publications (1)

Publication Number Publication Date
KR20010040705A true KR20010040705A (ko) 2001-05-15

Family

ID=22827639

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020007008584A KR20010040705A (ko) 1998-12-28 1999-12-15 오디오 인코더 장치에서 효과적으로 고정 마스킹 임계값을구현하기 위한 시스템 및 방법

Country Status (8)

Country Link
US (1) US6418404B1 (ko)
EP (1) EP1145223A3 (ko)
JP (1) JP2002534039A (ko)
KR (1) KR20010040705A (ko)
AU (1) AU3125800A (ko)
CA (1) CA2320169A1 (ko)
TW (1) TW451059B (ko)
WO (1) WO2000039787A2 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963649B2 (en) * 2000-10-24 2005-11-08 Adaptive Technologies, Inc. Noise cancelling microphone
DE60209888T2 (de) * 2001-05-08 2006-11-23 Koninklijke Philips Electronics N.V. Kodieren eines audiosignals
KR100476103B1 (ko) * 2002-08-09 2005-03-10 한국과학기술원 특징벡터의 필터링을 이용한 음성인식방법
KR100713452B1 (ko) 2003-12-06 2007-05-02 삼성전자주식회사 오디오 신호를 부호화하는 장치 및 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4866777A (en) * 1984-11-09 1989-09-12 Alcatel Usa Corporation Apparatus for extracting features from a speech signal
DE3805946A1 (de) 1988-02-25 1989-09-07 Fraunhofer Ges Forschung Vorrichtung zur ermittlung von charakteristischen parametern aus den eingangs- und ausgangssignalen eines systems fuer die audiosignalverarbeitung
US5040217A (en) 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
JP3446216B2 (ja) 1992-03-06 2003-09-16 ソニー株式会社 音声信号処理方法
JP3173218B2 (ja) 1993-05-10 2001-06-04 ソニー株式会社 圧縮データ記録方法及び装置、圧縮データ再生方法、並びに記録媒体
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
JP3277679B2 (ja) 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
US5809454A (en) * 1995-06-30 1998-09-15 Sanyo Electric Co., Ltd. Audio reproducing apparatus having voice speed converting function
JP3328532B2 (ja) 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法

Also Published As

Publication number Publication date
WO2000039787A3 (en) 2001-08-16
AU3125800A (en) 2000-07-31
CA2320169A1 (en) 2000-07-06
US20020029143A1 (en) 2002-03-07
EP1145223A2 (en) 2001-10-17
US6418404B1 (en) 2002-07-09
WO2000039787A2 (en) 2000-07-06
TW451059B (en) 2001-08-21
JP2002534039A (ja) 2002-10-08
EP1145223A3 (en) 2002-09-11

Similar Documents

Publication Publication Date Title
KR101182258B1 (ko) 스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법
EP1080462B1 (en) System and method for entropy encoding quantized transform coefficients of a signal
US9741351B2 (en) Adaptive quantization noise filtering of decoded audio data
US7835907B2 (en) Method and apparatus for low bit rate encoding and decoding
JP2006011456A (ja) 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
DE69401514D1 (de) Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung
WO1995032499A1 (fr) Procede de codage, procede de decodage, procede de codage-decodage, codeur, decodeur et codeur-decodeur
US6240379B1 (en) System and method for preventing artifacts in an audio data encoder device
CA2490064A1 (en) Audio coding method and apparatus using harmonic extraction
KR20030068716A (ko) 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템
KR100750115B1 (ko) 오디오 신호 부호화 및 복호화 방법 및 그 장치
WO2004044891A1 (ja) 音楽情報符号化装置及び方法、並びに音楽情報復号装置及び方法
US20050144017A1 (en) Device and process for encoding audio data
KR20020077959A (ko) 디지탈 오디오 부호화기 및 복호화 방법
KR20010040705A (ko) 오디오 인코더 장치에서 효과적으로 고정 마스킹 임계값을구현하기 위한 시스템 및 방법
JP4973397B2 (ja) 符号化装置および符号化方法、ならびに復号化装置および復号化方法
US6745162B1 (en) System and method for bit allocation in an audio encoder
KR100754389B1 (ko) 음성 및 오디오 신호 부호화 장치 및 방법
JP2003280691A (ja) 音声処理方法および音声処理装置
JPH0537395A (ja) 帯域分割符号化方法
JP2000078018A (ja) 音声符号化方式、音声符号化装置、及びデ―タ記録媒体
JP2001249699A (ja) 音声圧縮装置
JP2000293199A (ja) 音声符号化方法および記録再生装置
Stautner High quality audio compression for broadcast and computer applications
JP2003280697A (ja) 音声圧縮方法および音声圧縮装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid