KR101389830B1 - 일정한 비트 레이트 애플리케이션들을 위한 최적의 비트 할당을 가지는 오디오 및 음성 프로세싱 - Google Patents

일정한 비트 레이트 애플리케이션들을 위한 최적의 비트 할당을 가지는 오디오 및 음성 프로세싱 Download PDF

Info

Publication number
KR101389830B1
KR101389830B1 KR1020127019081A KR20127019081A KR101389830B1 KR 101389830 B1 KR101389830 B1 KR 101389830B1 KR 1020127019081 A KR1020127019081 A KR 1020127019081A KR 20127019081 A KR20127019081 A KR 20127019081A KR 101389830 B1 KR101389830 B1 KR 101389830B1
Authority
KR
South Korea
Prior art keywords
frames
transform coefficients
audio
bit allocation
bits
Prior art date
Application number
KR1020127019081A
Other languages
English (en)
Other versions
KR20120098905A (ko
Inventor
솜뎁 마줌다르
아민 파젤데코르디
하리나쓰 가루다드리
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20120098905A publication Critical patent/KR20120098905A/ko
Application granted granted Critical
Publication of KR101389830B1 publication Critical patent/KR101389830B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

복수의 프레임들을 생성하는 것 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― , 및 동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하는 것을 포함하는, 오디오 및 음성 프로세싱을 위한 방법들 및 장치.

Description

일정한 비트 레이트 애플리케이션들을 위한 최적의 비트 할당을 가지는 오디오 및 음성 프로세싱{AUDIO AND SPEECH PROCESSING WITH OPTIMAL BIT-ALLOCATION FOR CONSTANT BIT RATE APPLICATIONS}
본 특허 출원은 출원일이 2009년 12월 22일이고, 발명의 명칭이 "AUDIO AND SPEECH PROCESSING WITH OPTIMAL BIT-ALLOCATION FOR CONSTANT BIT RATE APPLICATION"인 가출원 제61/289,287호에 대한 우선권을 주장하며, 상기 가출원은 본 출원의 양수인에게 양도되고, 본 명세서에 명백하게 인용에 의해 포함된다.
본 개시는 일반적으로 통신들에 관한 것으로, 보다 상세하게는 오디오 및 음성 신호들을 프로세싱하기 위한 기법들에 관한 것이다.
대역폭이 근본적인 제한인 통신계에서, 오디오 및 음성 프로세싱은 멀티미디어 애플리케이션들에서 중요한 역할을 한다. 오디오 및 음성 프로세싱은 오디오 및 음성 신호들을 표현하는데 요구되는 정보량을 과감하게 감소시키기 위해서 신호 압축의 다양한 형태들을 종종 포함하며, 이로써 송신 대역폭을 감소시킨다. 이러한 프로세싱 시스템들은 종종 오디오 및 음성을 압축하기 위한 인코더들, 및 오디오 및 음성을 압축해제하기 위한 디코더들로 지칭된다.
전통적 오디오 및 음성 프로세싱 시스템들은 고 복잡도 및 지연의 대가로 복잡한 심리음향 모델들 및 필터들을 사용하여 상당한 압축 비들을 달성한다. 그러나, 신체 영역 네트워크(body area network)들의 맥락에서, 전력 및 레이턴시에 대한 엄격한(tight) 제약들이 신호 압축에 대한 더 단순한 저-복잡도 솔루션들을 요구한다. 압축 비들은 종종 전력 및 레이턴시 이득들에 대하여 트레이드 오프(trade off)된다.
본 개시의 일 양상에서, 오디오 또는 음성 프로세싱의 방법은, 복수의 프레임들을 생성하는 단계 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― , 및 동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하는 단계를 포함한다.
본 개시의 또 다른 양상에서, 오디오 또는 음성 프로세싱을 위한 장치는, 복수의 프레임들을 생성하고 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― , 그리고 동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하도록 구성되는 프로세싱 시스템을 포함한다.
본 개시의 또 다른 양상에서, 오디오 또는 음성 프로세싱을 위한 장치는, 복수의 프레임들을 생성하기 위한 수단 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― , 및 동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하기 위한 수단을 포함한다.
본 개시의 추가 양상에서, 오디오 또는 음성을 프로세싱하기 위한 컴퓨터 프로그램 물건은, 복수의 프레임들을 생성하고 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― , 그리고 동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하기 위한 하나 또는 그 초과의 프로세서들에 의해 실행가능한 코드들로 인코딩되는 컴퓨터 판독가능 매체를 포함한다.
본 개시의 추가 양상에서, 헤드셋은, 트랜스듀서, 프로세싱 시스템 및 프레임들을 송신하도록 구성되는 송신기를 포함하고, 상기 프로세싱 시스템은, 상기 트랜스듀서로부터의 오디오 또는 음성 출력으로부터 복수의 프레임들을 생성하고 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― , 그리고 동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하도록 구성된다.
본 개시의 또 다른 양상에서, 시계는, 사용자 인터페이스, 프로세싱 시스템 및 프레임들을 송신하도록 구성되는 송신기를 포함하고, 상기 프로세싱 시스템은, 상기 사용자 인터페이스로부터의 오디오 또는 음성 출력으로부터 복수의 프레임들을 생성하고 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― , 그리고 동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하도록 구성된다.
본 개시의 또 다른 양상에서, 센싱 장치는, 센서, 프로세싱 시스템 및 프레임들을 송신하도록 구성되는 송신기를 포함하고, 상기 프로세싱 시스템은, 상기 센서로부터의 오디오 또는 음성 출력으로부터 복수의 프레임들을 생성하고 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― , 그리고 동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하도록 구성된다.
도 1은 무선 통신 네트워크의 예를 도시하는 개념도이다.
도 2는 무선 통신들을 위한 장치를 도시하는 개념 블록도이다.
도 3은 수신 장치와 통신하는 송신 장치의 맥락에서 오디오 또는 음성 프로세싱 시스템의 예를 도시하는 개념 블록도이다.
도 4는 오디오 또는 음성 프로세싱 시스템의 예를 도시하는 기능 블록도이다.
도 5는 오디오 또는 음성을 프로세싱하기 위한 알고리즘의 방법의 예를 도시하는 흐름도이다.
도 6은 도 5의 방법 또는 알고리즘에서 변환 계수들에 비트들을 할당하는 프로세스의 예를 도시하는 흐름도이다.
도 7은 도 5의 알고리즘의 방법에서 변환 계수들에 비트들을 할당하기 위한 프로세스의 대안적 예를 도시하는 흐름도이다.
방법들 및 장치의 다양한 양상들이 첨부한 도면들을 참조하여 이하에서 보다 상세하게 설명된다. 그러나, 이러한 방법들 및 장치는 많은 상이한 형태들로 구현될 수 있으며, 본 개시에 제시되는 임의의 특정 구조 또는 기능에 제한되는 것으로 해석되지 않아야 한다. 오히려, 이러한 양상들은 본 개시가 철저하고 완전해지도록 제공되며, 당업자들에게 이러한 방법들 및 장치의 범위를 충분히 전달할 것이다. 본 개시의 임의의 다른 양상과 독립적으로 구현되든 또는 본 개시의 임의의 다른 양상과 결합되든 간에, 본 명세서에서의 교시들에 기초하여 당업자는 본 개시의 범위가 본 명세서에 개시되는 방법들 및 장치의 임의의 양상을 커버하는 것으로 의도된다는 것을 인식하여야 한다. 예를 들어, 본 명세서에 설명되는 임의의 개수의 양상들을 사용하여 장치가 구현될 수 있거나 또는 방법이 실시될 수 있다. 또한, 본 개시의 범위는 본 명세서에서의 이러한 개시의 전반에 걸쳐 제시되는 양상들에 더불어 또는 그 이외에, 다른 구조, 기능 또는 구조 및 기능을 사용하여 실시되는 이러한 장치 또는 방법을 커버하는 것으로 의도된다. 본 명세서에서의 개시의 임의의 양상은 청구항의 하나 또는 그 초과의 엘리먼트들에 의해 구현될 수 있다는 것이 이해되어야 한다.
이제, 오디오 및 음성 프로세싱의 몇몇 양상들이 제시될 것이다. 이러한 양상들은 무선 통신 네트워크 내의 송신 및 수신 장치를 참조하여 제시될 것이다. 송신 장치는 무선 매체를 통한 송신을 위해서 오디오 또는 음성을 압축하기 위한 인코더를 포함한다. 수신 장치는 송신 장치로부터의 무선 매체를 통해 수신되는 오디오 또는 음성을 확장하기 위한 디코더를 포함한다. 많은 애플리케이션들에서, 송신 장치는 송신 뿐만 아니라 수신하는 장치의 부분일 수 있다. 따라서, 이러한 장치는 디코더를 필요로 할 것이며, 이는 개별 프로세싱 시스템일 수 있거나 또는 인코더와 함께 "코덱"으로 알려져 있는 단일 프로세싱 시스템으로 통합될 수 있다. 유사하게는, 수신 장치는 수신 뿐만 아니라 송신하는 장치의 부분일 수 있다. 따라서, 이러한 장치는 인코더를 필요로 할 것이며, 이는 개별 프로세싱 시스템일 수 있거나, 또는 디코더와 함께 코덱으로 통합될 수 있다. 당업자들이 용이하게 인식할 바와 같이, 임의의 적합한 인코딩 또는 디코딩 기능이 독립형(stand-alone) 프로세싱 시스템에서 구현되든, 코덱으로 통합되든 또는 무선 장치 또는 무선 통신 네트워크 내의 다수의 엔티티들에 걸쳐 분산되든지에 관계없이, 본 개시의 전반에 걸쳐 설명되는 다양한 개념들은 임의의 적합한 인코딩 또는 디코딩 기능에 적용가능하다.
본 개시의 전반에 걸쳐 제시되는 다양한 오디오 및 음성 프로세싱 기법들은 헤드셋, 전화(예를 들어, 셀룰러 전화), 개인용 디지털 보조기(PDA), 엔터테인먼트 디바이스(예를 들어, 음악 또는 비디오 디바이스), 마이크로폰, 의료 센싱 디바이스(예를 들어, 생체인식 센서, 심박계(heart rate monitor), 보수계(pedometer), EKG 디바이스, 스마트 밴드에이지(smart bandage) 등), 사용자 I/O 디바이스(예를 들어, 시계, 원격 제어, 광 스위치, 키보드, 마우스 등), 의료 센싱 디바이스로부터 데이터를 수신할 수 있는 의료 모니터, 환경 센싱 디바이스(예를 들어, 타이어 공기압 모니터(tire pressure monitor)), 컴퓨터, 판매-시점관리 디바이스(point-of-sale device), 엔터테인먼트 디바이스, 보청기, 셋탑 박스, 또는 오디오 또는 음성 신호들을 프로세싱하는 임의의 다른 디바이스를 포함하는 다양한 무선 장치로의 통합에 적절하다. 무선 장치는 오디오 또는 음성 프로세싱에 더하여 다른 기능들을 포함할 수 있다. 예로서, 헤드셋, 시계 또는 센서는 장치와의 사용자 상호작용을 위한 다양한 오디오 또는 음성 트랜스듀서들(예를 들어, 마이크로폰 및 스피커들)을 포함할 수 있다.
본 개시의 전반에 걸쳐 제시되는 다양한 개념들로부터 이익을 얻을 수 있는 무선 통신 네트워크의 예가 도 1에 도시된다. 이 예에서, 사용자에 의해 착용된 헤드셋(102)은 셀룰러 전화(104), 디지털 오디오 플레이어(106)(예를 들어, MP3 플레이어) 및 컴퓨터(108)를 포함하는 다양한 무선 장치와 통신하는 것으로 도시된다. 임의의 주어진 시간에, 헤드셋(102)은 오디오 또는 음성을 이러한 장치 중 하나 또는 그 초과의 장치로 송신하거나 또는 이러한 장치 중 하나 또는 그 초과의 장치로부터 수신하고 있을 수 있다. 예로서, 오디오는 디지털 오디오 플레이어(106) 또는 컴퓨터(108)의 메모리에 저장되는 오디오 파일의 형태로 헤드셋(102)에 의해 수신될 수 있다. 대안적으로 또는 추가적으로, 헤드셋(102)은 또한 컴퓨터(108)로부터 원격 네트워크(예를 들어, 인터넷)로의 접속을 통해 스트리밍된 오디오를 수신할 수 있다. 헤드셋(102)은 또한 셀룰러 네트워크를 통한 호출 동안 셀룰러 전화(104)와의 음성 통신들을 지원할 수 있다. 헤드셋은 사용자가 호출에 착수(engage in)할 수 있게 하는 다양한 트랜스듀서들(예를 들어, 마이크로폰, 스피커)을 포함할 수 있다. 또한, 사용자는 착용가능하거나 또는 인체에 삽입될 수 있는 몇몇 다른 모바일 또는 컴팩트 장치를 가질 수 있다. 예로서, 사용자는 사용자 인터페이스로부터 컴퓨터(108)로 시간 및 다른 정보(이는 오디오 또는 음성을 포함할 수 있음)를 송신하는 시계(110) 및/또는 바이털(vital) 신체 파라미터들(예를 들어, 생체인식 센서, 심박계, 보수계 및 EKG 디바이스 등)을 모니터링하는 센서(112)를 착용하고 있을 수 있다. 센서(112)는 사람의 신체로부터 컴퓨터(108)로 정보(이는 오디오 또는 음성을 포함할 수 있음)를 송신하며, 여기서 정보는 인터넷 또는 다른 원격 네트워크로의 백홀 접속을 통해 의료 설비(예를 들어, 병원, 클리닉 등)로 포워딩될 수 있다.
본 개시의 전반에 걸쳐 제시되는 다양한 오디오 및 음성 프로세싱 기법들은 임의의 적합한 라디오 기술 또는 무선 프로토콜을 지원하는 무선 장치에서 사용될 수 있다. 예로서, 도 1에 도시되는 무선 장치는 초-광대역(UWB) 기술을 지원하도록 구성되는 개인 영역 네트워크의 부분일 수 있다. UWB는 단거리 고속 통신들을 위한 일반적 기술이며, 중심 주파수의 20 퍼센트보다 큰 대역폭 또는 적어도 500 MHz의 대역폭을 점유하는 스펙트럼을 가지는 임의의 라디오 기술로서 정의된다. 대안적으로, 무선 장치는 개인 영역 네트워크에 대한 블루투스 또는 일부 다른 적합한 무선 프로토콜을 지원하도록 구성될 수 있다. 셀룰러 전화(104)는 코드 분할 다중 액세스(CDMA) 2000, EV-DO(Evolution-Data Optimized), UMB(Ultra Mobile Broadband), 유니버셜 지상 라디오 액세스 네트워크(UTRAN), 롱 텀 에볼루션(LTE), 광대역 CDMA(W-CDMA), 고속 다운링크 패킷 데이터(HSDPA), 시분할-코드 분할 다중 액세스(TD-CDMA), 시분할-동기식 코드 분할 다중 액세스(TD-SCDMA) 또는 일부 다른 적합한 전기 통신 표준을 사용하여 광역 네트워크로의 접속을 지원하도록 구성될 수 있다. 컴퓨터(102)는 또한 이러한 네트워크들 중 하나 또는 그 초과로의 접속 및/또는 IEEE 802.11 네트워크로의 접속을 지원하도록 구성될 수 있다. 대안적으로 또는 추가적으로, 컴퓨터(102)는 표준 트위스티드 페어, 케이블 모뎀, 디지털 가입자 회선(DSL), 광섬유, 이더넷, 홈RF 또는 임의의 다른 적합한 유선 액세스 프로토콜을 사용하여 유선 접속을 지원하도록 구성될 수 있다.
도 2는 무선 통신들을 위한 장치를 도시하는 개념 블록도이다. 장치(200)는 오디오 또는 음성 소스(202), 오디오 또는 음성 싱크(204), 오디오 또는 음성 프로세싱 시스템(206) 및 트랜시버(208)를 가지는 것으로 도시된다. 이러한 양상에서, 장치(200)는 오디오 또는 음성 코덱으로서 기능을 하는 프로세싱 시스템(206)을 가지는 양-방향 통신 장치이다. "오디오 또는 음성 프로세싱 시스템"이라는 용어는 단지 오디오만을 프로세싱할 수 있는 프로세싱 시스템, 단지 음성만을 프로세싱할 수 있는 프로세싱 시스템 또는 오디오 및 음성 양자를 프로세싱할 수 있는 프로세싱 시스템을 의미하는 것으로 의도된다. 본 개시의 전반에 걸쳐 제시되는 다양한 개념들은 이러한 프로세싱 시스템들 각각에 적용되는 것으로 의도된다.
오디오 또는 음성 소스(202)는 오디오 또는 음성의 임의의 적합한 소스를 개념적으로 표현한다. 예로서, 오디오 또는 음성 소스(202)는 메모리로부터 압축된 오디오 파일들(예를 들어, MP3 파일들)을 리트리브(retrieve)하며, 이들을 적절한 파일 포맷 디코딩 방식을 사용하여 압축해제하는 장치(200)에서 실행하는 다양한 애플리케이션들을 표현할 수 있다. 대안적으로, 오디오 또는 음성 소스(202)는 장치의 사용자로부터의 아날로그 음성 신호를 디지털 샘플들로 프로세싱하기 위한 마이크로폰 및 연관된 회로를 표현할 수 있다. 대신에, 오디오 또는 음성 소스(202)는 유선 또는 무선 백홀로부터 오디오 또는 음성에 액세스할 수 있는 트랜시버 또는 모뎀을 표현할 수 있다. 당업자들이 용이하게 인식할 바와 같이, 오디오 또는 음성 소스(202)가 구현되는 방식은 송신 장치(200)의 특정 설계 및 애플리케이션에 의지할 것이다.
오디오 또는 음성 싱크(204)는 오디오 또는 음성을 수신할 수 있는 임의의 적합한 엔티티를 개념적으로 표현한다. 예로서, 오디오 또는 음성 싱크(204)는 메모리에 저장하기 위한 적절한 파일 포맷 인코딩 방식을 사용하여 오디오 파일들을 압축(예를 들어, MP3 파일들)하는 장치(200)에서 실행하는 다양한 애플리케이션들을 표현할 수 있다. 대안적으로, 오디오 또는 음성 싱크(204)는 오디오 또는 음성을 장치(200)의 사용자에게 제공하기 위한 스피커 및 연관된 회로를 표현할 수 있다. 대신에, 오디오 또는 음성 싱크(204)는 유선 또는 무선 백홀을 통해 오디오 또는 음성을 송신할 수 있는 트랜시버 또는 모뎀을 표현할 수 있다. 당업자들이 용이하게 인식할 바와 같이, 오디오 또는 음성 싱크(204)가 구현되는 방식은 송신 장치(200)의 특정 설계 및 애플리케이션에 의지할 것이다.
오디오 또는 음성 프로세싱 시스템(206)은 오디오 및 음성을 인코딩 및 디코딩하기 위해서 압축 알고리즘을 구현할 수 있다. 압축 알고리즘은 샘플링된 오디오 및 음성과 변환 도메인, 전형적으로, 주파수 도메인 사이에서 컨버팅(convert)하도록 변환기들을 사용할 수 있다. 변환 도메인에서, 컴포넌트 주파수들은 이들의 가청도(audibility)에 따라 할당된 비트들이다. 이러한 예에서, 프로세싱 시스템(206)은 각각의 프레임에 대한 최적의 비트 할당을 보장하기 위해서 임의의 변환 도메인 방식에 관계되는 프레임-바이-프레임(frame-by-frame) 프로세싱을 이용할 수 있다. 비트 할당들이 각각의 프레임에 대하여 특정화(specialize)되지만, 프로세싱 시스템(206)은 프레임들에 걸쳐 일정한 비트 레이트를 보장하도록 구성될 수 있다. 이러한 방식은 관심있는 전체 신호에 대하여 최적의 비트 할당 전략을 가능하게 하며, 이는 결국 주어진 품질 요건을 위한 최적의 압축 비 및 주어진 압축 비를 위한 최적의 품질을 보장한다.
트랜시버(208)는 무선 매체를 통한 오디오 또는 음성의 송신과 관련하여 다양한 물리(PHY) 및 매체 액세스 제어(MAC) 계층 기능들을 수행하기 위해서 사용될 수 있다. PHY 계층 기능들은 포워드 에러 보정(예를 들어, 터보(Turbo) 코딩/디코딩), 디지털 변조/복조(예를 들어, FSK, PSK, QAM 등) 및 RF 캐리어의 아날로그 변조/복조와 같은 몇몇 신호 프로세싱 기능들을 포함할 수 있다. MAC 계층 기능들은 몇몇 장치가 무선 매체로의 액세스를 공유할 수 있도록 PHY 계층을 통해 전송되는 오디오 또는 음성 컨텐츠를 관리하는 것을 포함할 수 있다.
도 3은 수신 장치와 통신하는 송신 장치의 맥락에서 오디오 또는 음성 프로세싱 시스템의 보다 상세한 예를 도시하는 개념 블록도이다. 다음의 논의에서, 송신 장치 및 수신 장치라는 용어들은 예시를 목적으로 사용되며, 이러한 장치가 송신 및 수신 기능들 양자를 수행할 수 없음을 내포하지 않는다.
송신 장치(300)는 오디오 또는 음성 소스(302), 오디오 또는 음성 프로세싱 시스템(304) 및 송신기(306)를 가지는 것으로 도시된다. 수신 장치(310)는 수신기(312), 오디오 또는 음성 프로세싱 시스템(314), 및 오디오 또는 음성 싱크(316)를 가지는 것으로 도시된다. 송신 장치(300) 내의 오디오 또는 음성 소스(302) 및 송신기(306), 및 수신 장치(310) 내의 수신기(312) 및 오디오 또는 음성 싱크(316)는 도 2와 관련하여 더 이전에 설명된 바와 동일한 방식으로 기능을 하며, 따라서 더 추가로 설명되지 않을 것이다. 오디오 및 음성 프로세싱 시스템들(304, 314)은 변환 도메인 로그 압신(companding)의 맥락에서 제시될 것이지만, 당업자들이 용이하게 인식할 바와 같이, 이러한 개념들은 오디오 또는 음성 압축이 프레임-바이-프레임 프로세싱을 포함하는 임의의 도메인으로 확장될 수 있다.
송신 장치(300) 내의 오디오 또는 음성 프로세싱 시스템(304)은 변환기(322)를 포함한다. 변환기(322)는 소스(302)로부터의 오디오 또는 음성을 주파수 도메인에서의 일련의 변환 계수들로 컨버팅하는 이산 코사인 변환기(DCT)일 수 있다. 변환기(322)의 출력은 프레임들이라 칭해지는 계수들의 세트들에서 프로세싱된다. 각각의 프레임은 N개의 변환 계수들로 구성된다. 각각의 프레임 내의 N개의 변환 계수들은 양자화기(326)로 입력되기 이전에 로그 압축기(324)에 의해 로그 압축(logarithmically compress)된다. 양자화기(326)는, 송신기(306)로 제공되어 무선 매체(308)를 통한 송신을 위해서 RF 캐리어 상으로 변조되기 이전에, 로그 압축된 N개의 변환 계수들을 양자화한다.
비트 할당기(328)는 로그 압축된 N개의 변환 계수들에 양자화기(326)에 의해 적용되는 양자화 레벨을 제어하도록 구성된다. 프로세싱 시스템(304)의 적어도 하나의 구성에서, 비트 할당기(328)는 각각의 프레임에 대한 로그 압축된 N개의 계수들에 걸쳐 비트들의 고정된 수 B를 분산하도록 구성된다. 이것은 프레임에서의 각각의 계수의 에너지와 상관되는 Mi (i = 1 , 2, ..., N) 중 적어도 하나에 기초하여 메트릭 M'을 계산함으로써 달성될 수 있다. 예로서, M은 단순히 계수의 진폭의 제곱일 수 있다. M'은 또한 하나의 프레임 보다 많은 프레임들에 대하여 계산될 수 있으며, 각각의 변환 빈의 변량(variance)일 수 있다. 길이 N의 이론상 최적의 비트 할당 벡터 v는 M'에 비례하여 B 비트들을 분산시킴으로써 계산된다. 이후, 이것은 이상적인 벡터 v에 "가장 근접한" 크기(K×N)의 사전 V(330) 내의 K개의 이용가능한 벡터들 중 하나에 매핑된다. K개의 이용가능한 벡터들은 dk 로 표현될 수 있다.
사전(330)은 벡터들의 세트 d k 를 포함하며, 이들 각각은 N개의 엘리먼트들 길이이다. 벡터 d k 내의 각각의 엘리먼트는 프레임에서의 대응하는 계수에 대한 가능한 비트 할당을 표현한다. 사전(330) 내의 각각의 벡터 d k 의 엘리먼트들의 합은 B와 동일하다. 이것은 프레임들에 걸쳐 그리고 프레임들의 집합(예를 들어, MAC 패킷들)에 걸쳐 일정한 비트 레이트를 보장한다. 각각의 프레임에 대하여, 일단 벡터 d k 가 비트 할당기(328)에 의해 선택되면, 이는 양자화기(326)로 제공되어 상기 프레임의 로그 압축된 N개의 변환 계수들이 양자화될 수 있다.
K개의 벡터들을 포함하는 사전 V에 대하여, ceiling(log2(K)) 비트들은 사전의 엘리먼트들을 인덱스하도록 요구된다. 일단 벡터 dk 가 프레임에 대한 비트 할당기(328)에 의해 선택되면, 선택된 벡터 dk 를 식별하는 대응하는 인덱스는 프레임을 디코딩하기 위한 수신 장치(310)로 프레임과 함께 송신될 수 있다. 인덱스는 대역 외 시그널링을 통해, 사이드 채널(side channel)을 통해, 프레임 내에서 인터리빙되어 또는 여러 다른 적합한 수단에 의해 전송될 수 있다. 사전(330) 내의 벡터들의 개수는 일반적으로 무선 매체(308) 상에서 인덱스를 전송하기 위한 대역폭 제한들의 함수일 수 있다.
다양한 방법들이 사전(330)을 생성하기 위해서 사용될 수 있다. 예로서, 통계적 메트릭 S i 는 트레이닝 데이터베이스의 다수의 프레임들에 걸쳐 각각의 빈에 대하여 계산될 수 있다. 이후, 통계적 메트릭 S i 는 사전의 엘리먼트들을 생성하기 위해서 k-평균 클러스터링(k-means clustering)과 같은 기법들에서 사용될 수 있다. 사전 내의 각각의 벡터는 자신의 엘리먼트들의 합이 B와 동일함을 보장하도록 구성될 수 있다. 추가적으로, 각각의 벡터는 양의 정수(positive whole number)들을 포함하도록 제약될 수 있다.
수신 장치(310)에서, 각각의 프레임 및 프레임의 대응하는 인덱스는 수신기(312)에 의해 RF 캐리어로부터 복원되어 오디오 또는 음성 프로세싱 시스템(314)으로 제공된다. 프로세싱 시스템(314)은, 인덱스를 사용하여 프레임에서의 계수들을 확장하는 역 양자화기(332)를 포함한다. 이후, 확장된 계수들의 프레임은 역 변환기(336)로 제공되어 프레임에서의 계수들을 시간 도메인에서의 디지털 샘플들로 다시 컨버팅하기 이전에, 로그 역함수를 실행하는 로그 익스펜더(expander)(334)로 제공될 수 있다. 시간 도메인 샘플들은 추가 프로세싱을 위한 오디오 또는 음성 싱크(316)로 제공될 수 있다.
오디오 및 음성 프로세싱 기법들은 프레임들의 세트에 대한 이상적인 비트 할당 벡터에 대하여 결정하기 위해서 이들의 조인트-통계(joint-statistics)를 사용하여 한 번에 다수의 프레임들을 프로세싱하도록 확장될 수 있다. 이것은 다수의 연속적인 프레임들에 걸쳐 동일한 비트 할당 벡터를 사용함으로써 무선 매체를 통해 전송되는데 요구되는 정보량을 감소시킬 것이다. 이것은 프레임들 사이에 상당한 상관이 존재하는 음성 또는 오디오와 같은 신호들에 적합할 것이다.
아키텍처 및/또는 용량 제약들로 인하여 신호 비트 할당 벡터가 요구되는 경우들에서, 오디오 또는 음성 프로세싱 시스템은 임의의 추가 정보가 무선 매체를 통해 프레임들과 함께 송신될 것을 요구하지 않는 1-엘리먼트 사전으로 특정화될 수 있다.
본 개시의 전반에 걸쳐 제시되는 다양한 개념들은 압축 인자들을 프레임 레벨로 특정화시키기 위한 방법을 제공한다. 이러한 방식은 본질적으로 일정한 비트 레이트를 유지하는 한편, 동시에 각각의 음성 또는 오디오 프레임이 최적으로 압축됨을 보장한다. 이러한 방식은 또한, 일반적으로 동적 비트 할당 방식들과 연관되며 MAC/PHY의 설계를 더 복잡하게 만드는, 전송을 위한 가변 비트 레이트 파이프에 대한 필요성을 요소화(element)한다.
또한, 이러한 개념들은 신호 구조에 대하여 불가지론적(agnostic)이며, 시간 또는 변환 도메인에서 신호의 구조의 임의의 심리음향 또는 선험적 지식을 요구하지 않는다. 각각의 프레임에서 개별 컴포넌트들의 에너지를 사용하여 비트 할당 결정들이 최적으로 이루어진다.
"오디오 또는 음성 프로세싱 시스템"은, 하드웨어로 구현되든, 소프트웨어로 구현되든, 또는 이 둘의 결합들로 구현되든 간에 본 개시의 전반에 걸쳐 제시되는 다양한 기능들을 수행하는 임의의 장치, 컴포넌트, 디바이스, 회로, 블록, 유닛, 모듈, 엘리먼트 또는 임의의 다른 엔티티를 의미하는 것으로 광범위하게 이해될 것이다. 이러한 기능이 하드웨어로 구현되는지 또는 소프트웨어로 구현되는지는 전체 시스템 상에 부과되는 특정 애플리케이션 및 설계 제약들에 의존한다. 당업자들은 각각의 특정 애플리케이션에 대한 다양한 방식들로 설명된 기능을 구현할 수 있다.
프로세싱 시스템은 하나 또는 그 초과의 프로세서들로 구현될 수 있다. 하나 또는 그 초과의 프로세서들 또는 이들 중 임의의 것은 컴퓨터 판독가능 매체 상에서 소프트웨어를 실행하기 위한 전용 하드웨어 또는 하드웨어 플랫폼일 수 있다. 소프트웨어는, 소프트웨어로 지칭되든, 펌웨어로 지칭되든, 미들웨어로 지칭되든, 마이크로코드로 지칭되든, 하드웨어 설명 언어로 지칭되든 또는 그 외의 것들로 지칭되든 간에, 명령들, 명령 세트들, 코드, 코드 세그먼트들, 프로그램 코드, 프로그램들, 서브프로그램들, 소프트웨어 모듈들, 애플리케이션들, 소프트웨어 애플리케이션들, 소프트웨어 패키지들, 루틴들, 서브루틴들, 객체들, 실행가능한 것들(exeutables), 실행 스레드들, 프로시저들, 기능들 등을 의미하는 것으로 광범위하게 해석될 것이다. 하나 또는 그 초과의 프로세서는 예로서, 마이크로프로세서들, 마이크로제어기들, 디지털 신호 프로세서(DSP)들, 필드 프로그램가능한 게이트 어레이(FPGA)들, 프로그램가능한 로직 디바이스(PLD)들, 상태 머신들, 게이티드(gated) 로직, 이산 하드웨어 회로들 및 본 개시의 전반에 걸쳐 설명되는 다양한 기능들을 수행하도록 구성되는 다른 적합한 프로세서들의 임의의 결합을 포함할 수 있다. 컴퓨터 판독가능 매체는 예로서, 자기 저장 디바이스(예를 들어, 하드 디스크, 플로피 디스크, 자기 스트립), 광학 디스크(예를 들어, 컴팩트 디스크(CD), 디지털 다목적 디스크(DVD)), 스마트 카드, 플래쉬 메모리 디바이스(예를 들어, 카드, 스틱, 키 드라이브), 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 프로그램가능한 ROM(PROM), 삭제가능한 PROM(EPROM), 전기적으로 삭제가능한 PROM(EEPROM), 레지스터, 이동식(removable) 디스크, 반송파, 송신 라인 또는 소프트웨어를 저장하거나 또는 송신하기 위한 임의의 다른 적합한 매체를 포함할 수 있다. 컴퓨터 판독가능 매체는 프로세싱 시스템의 내부에 또는 프로세싱 시스템의 외부에 상주할 수 있거나, 또는 프로세싱 시스템을 포함하는 다수의 엔티티들에 걸쳐 분산될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터 프로그램 물건에서 구현될 수 있다. 예로서, 컴퓨터 프로그램 물건은 패키지물(packaging material)들에 컴퓨터 판독가능 매체를 포함할 수 있다. 컴퓨터 판독가능 매체는 또한 사전을 구현하기 위해서 사용될 수 있다.
프로세싱 시스템 또는 프로세싱 시스템의 임의의 부분은 본 명세서에 기술되는 기능들을 수행하기 위한 수단을 제공할 수 있다. 도 4를 참조하면, 프로세싱 시스템(400)은 복수의 프레임들을 생성하기 위한 회로(402) ― 프레임들 각각은 복수의 변환 계수들을 포함함 ― , 및 동일한 프레임에서의 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 프레임들 중 적어도 2개의 프레임들에서의 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 프레임들 각각에서의 변환 계수들에 비트들을 할당하기 위한 회로(404)를 제공할 수 있다. 대안적으로, 컴퓨터 판독가능 매체 상의 코드는 본 명세서에 기술되는 기능들을 수행하기 위한 수단을 제공할 수 있다.
도 5는 오디오 또는 음성을 프로세싱하기 위한 알고리즘 또는 방법의 예를 도시하는 흐름도이다. 방법, 프로세스 또는 알고리즘은 오디오 또는 음성 프로세싱 시스템에 의해 또는 일부 다른 적합한 수단에 의해 구현될 수 있다. 도 5를 참조하면, 단계(502)에서 복수의 프레임들이 생성된다. 프레임들 각각은 복수의 변환 계수들을 포함한다. 단계(504)에서, 동일한 프레임에서의 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 프레임들 중 적어도 2개의 프레임들에서의 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 프레임들 각각에서의 변환 계수들에 비트들이 할당된다. 비트들의 할당은 복수의 비트 할당 벡터들을 포함하는 사전에 기초하여 이루어질 수 있다. 비트 할당 벡터들 각각은 복수의 엘리먼트들을 포함할 수 있고, 엘리먼트들 각각은 프레임들 중 임의의 프레임에서의 변환 계수들 중 대응하는 하나에 대한 가능한 비트 할당을 표현한다. 비트 할당 벡터들 각각에서의 엘리먼트들의 합은 고정된 수와 동일하다.
도 6은 프레임들 각각에서의 변환 계수들에 비트들을 할당하는 프로세스의 예를 도시하는 흐름도이다. 단계(602)에서, 프레임에 대한 변환 계수들 중 적어도 하나의 변환 계수의 크기에 기초하여 메트릭이 계산된다. 단계(604)에서, 메트릭에 기초하여 상기 프레임에 대한 사전으로부터 비트 할당 벡터들 중 하나가 선택된다. 단계(606)에서, 선택된 비트 할당 벡터에 기초하여 상기 프레임에 대한 변환 계수들이 양자화된다. 단계(608)에서, 선택된 비트 할당 벡터를 식별하는 인덱스가 프레임과 함께 송신된다. 인덱스는 프레임 내에서 또는 프레임과는 독립적으로 송신될 수 있다.
도 7은 프레임들 각각에서의 변환 계수에 비트들을 할당하기 위한 프로세스의 대안적 예를 도시하는 흐름도이다. 단계(702)에서, 적어도 2개의 프레임들의 변환 계수들 중 적어도 하나의 변환 계수의 크기에 기초하여 메트릭이 계산된다. 단계(704)에서, 메트릭에 기초하여 상기 적어도 2개의 프레임들에 대하여 사전으로부터 비트 할당 벡터들 중 하나가 선택된다. 단계(706)에서, 선택된 비트 할당 벡터에 기초하여 프레임들 중 상기 적어도 2개의 프레임들 각각에 대한 변환 계수들이 양자화된다. 단계(708)에서, 선택된 비트 할당 벡터를 식별하는 인덱스가 상기 적어도 2개의 프레임들 각각과 함께 송신된다.
개시되는 프로세스들에서의 단계들의 특정 순서 또는 계층이 예시적인 방식들의 예시라는 것이 이해된다. 설계 선호도들에 기초하여, 프로세스들에서의 단계들의 특정 순서 또는 계층이 재배열될 수 있다는 것이 이해된다. 첨부한 방법 청구항들은 샘플 순서로 다양한 단계들의 엘리먼트들을 제시하며, 제시된 특정 순서 또는 계층에 제한되는 것으로 의미되지는 않는다.
이전의 설명은 임의의 당업자가 본 명세서에서 설명된 다양한 양상들을 실시할 수 있게 하기 위해서 제공된다. 이러한 양상들에 대한 다양한 변경들은 당업자들에게 용이하게 명백해질 것이며, 본 명세서에서 정의된 일반적인 원리들은 다른 양상들에 적용될 수 있다. 따라서, 청구항들은 본 명세서에 나타낸 양상들에 제한되는 것으로 의도되지 않지만, 청구항들의 표현과 일치하는 전체 범위에 따를 것이며, 여기서 단수형의 엘리먼트에 대한 지칭은 특별히 "하나 그리고 오직 하나"로 표기되지 않는 한, "하나 그리고 오직 하나"를 의미하는 것으로 의도되지 않으며, "하나 또는 그 초과"를 의미하는 것으로 의도된다. 별도로 언급되지 않는 한, "일부"라는 용어는 하나 또는 그 초과를 지칭한다. 남성의 대명사(예를 들어, 그의)는 여성 및 중성(예를 들어, 그녀의 또는 그것의)을 포함하며, 그 역 또한 같다. 당업자들에게 알려져 있거나, 추후에 알려질 본 개시의 전반에 걸쳐 설명된 다양한 양상들의 엘리먼트들에 대한 모든 구조적 그리고 기능적 등가물들은 참조로 본 명세서에 명시적으로 통합되고, 청구항들에 의해 포함되는 것으로 의도된다. 더욱이, 이러한 개시가 청구항들에서 명백하게 기술되는지의 여부에 관계없이, 본 명세서에 개시되는 어떠한 것도 공중에 전용되는 것으로 의도되지 않는다. "~하기 위한 수단"이라는 문구를 사용하여 엘리먼트가 명시적으로 기술되지 않거나, 또는 방법 청구항의 경우, 엘리먼트가 "~하기 위한 단계"라는 문구를 사용하여 기술되지 않는 한, 어떠한 청구항 엘리먼트도 35 U.S.C.§112 여섯 번째 단락의 규정들 하에서 해석되어서는 안 된다.

Claims (43)

  1. 오디오 또는 음성 프로세싱의 방법으로서,
    복수의 프레임들을 생성하는 단계 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― ; 및
    동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하는 단계를 포함하고,
    상기 비트들의 할당은, 복수의 비트 할당 벡터들을 포함하는 사전(dictionary)에 기초하고,
    상기 할당은, 상기 프레임들 중 적어도 2개의 프레임들에 대하여 상기 사전으로부터 상기 비트 할당 벡터들 중 하나를 선택하는 것을 포함하고,
    상기 비트 할당 벡터들 각각은 인덱스에 의해 식별되고,
    상기 방법은, 상기 비트 할당 벡터에 대한 상기 인덱스와 함께 상기 프레임들 중 상기 적어도 2개의 프레임들을 송신하는 단계를 더 포함하는,
    오디오 또는 음성 프로세싱의 방법.
  2. 제 1 항에 있어서,
    상기 비트 할당 벡터들 각각은, 복수의 엘리먼트들을 포함하고,
    상기 엘리먼트들 각각은, 상기 프레임들 중 임의의 프레임에서의 상기 변환 계수들 중 대응하는 하나에 대한 가능한 비트 할당을 표현하고,
    상기 사전 내의 모든 비트 할당 벡터들의 상기 엘리먼트들의 합은, 고정된 수와 동일한,
    오디오 또는 음성 프로세싱의 방법.
  3. 제 1 항에 있어서,
    상기 프레임들 각각에 대한 상기 인덱스는, 상기 프레임 내에서 송신되는,
    오디오 또는 음성 프로세싱의 방법.
  4. 제 1 항에 있어서,
    상기 프레임들 각각에 대한 상기 인덱스는, 상기 프레임의 송신과는 독립적으로 송신되는,
    오디오 또는 음성 프로세싱의 방법.
  5. 제 1 항에 있어서,
    상기 선택은,
    상기 프레임들 중 상기 적어도 2개의 프레임들에 대한 상기 변환 계수들 중 적어도 하나의 변환 계수의 크기에 기초하여 메트릭을 계산하는 것, 및
    상기 메트릭에 기초하여 상기 비트 할당 벡터를 선택하는 것을 포함하는,
    오디오 또는 음성 프로세싱의 방법.
  6. 제 1 항에 있어서,
    상기 할당은, 선택된 비트 할당 벡터에 기초하여 상기 프레임들 중 상기 적어도 2개의 프레임들 각각에 대한 상기 변환 계수들을 양자화하는 것을 더 포함하는,
    오디오 또는 음성 프로세싱의 방법.
  7. 오디오 또는 음성 프로세싱을 위한 장치로서,
    프로세싱 시스템을 포함하고,
    상기 프로세싱 시스템은,
    복수의 프레임들을 생성하고 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― ; 그리고
    동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하도록 구성되고,
    상기 프로세싱 시스템은, 복수의 비트 할당 벡터들을 가지는 사전을 더 포함하고,
    상기 프로세싱 시스템은, 상기 사전에 기초하여 상기 비트들을 할당하도록 추가로 구성되고,
    상기 프로세싱 시스템은, 상기 프레임들 중 적어도 2개의 프레임들에 대하여 상기 사전으로부터 상기 비트 할당 벡터들 중 하나를 선택함으로써 비트들을 할당하도록 추가로 구성되고,
    상기 비트 할당 벡터들 각각은 인덱스에 의해 식별되고,
    상기 장치는, 상기 프레임들 중 상기 적어도 2개의 프레임들에 대하여 선택된 비트 할당 벡터에 대한 상기 인덱스와 함께 상기 프레임들 중 상기 적어도 2개의 프레임들을 송신하도록 구성되는 송신기를 더 포함하는,
    오디오 또는 음성 프로세싱을 위한 장치.
  8. 제 7 항에 있어서,
    상기 비트 할당 벡터들 각각은, 복수의 엘리먼트들을 포함하고,
    상기 엘리먼트들 각각은, 상기 프레임들 중 임의의 프레임에서의 상기 변환 계수들 중 대응하는 하나에 대한 가능한 비트 할당을 표현하고,
    상기 사전 내의 모든 비트 할당 벡터들의 상기 엘리먼트들의 합은, 고정된 수와 동일한,
    오디오 또는 음성 프로세싱을 위한 장치.
  9. 제 7 항에 있어서,
    상기 송신기는, 상기 프레임 내의 상기 프레임들 각각에 대한 상기 인덱스를 송신하도록 구성되는,
    오디오 또는 음성 프로세싱을 위한 장치.
  10. 제 7 항에 있어서,
    상기 송신기는, 상기 프레임의 송신과는 독립적으로 상기 프레임들 각각에 대한 상기 인덱스를 송신하도록 구성되는,
    오디오 또는 음성 프로세싱을 위한 장치.
  11. 제 7 항에 있어서,
    상기 프로세싱 시스템은, 상기 프레임들 중 상기 적어도 2개의 프레임들에 대한 상기 변환 계수들 중 적어도 하나의 변환 계수의 크기에 기초하여 메트릭을 계산하고 상기 메트릭에 기초하여 상기 비트 할당 벡터를 선택함으로써, 상기 비트 할당 벡터를 선택하도록 추가로 구성되는,
    오디오 또는 음성 프로세싱을 위한 장치.
  12. 제 7 항에 있어서,
    상기 프로세싱 시스템은, 상기 선택된 비트 할당 벡터에 기초하여 상기 프레임들 중 상기 적어도 2개의 프레임들 각각에 대한 상기 변환 계수들을 양자화함으로써 비트들을 할당하도록 추가로 구성되는,
    오디오 또는 음성 프로세싱을 위한 장치.
  13. 오디오 또는 음성 프로세싱을 위한 장치로서,
    복수의 프레임들을 생성하기 위한 수단 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― ; 및
    동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하기 위한 수단을 포함하고,
    상기 비트들을 할당하기 위한 수단은, 복수의 비트 할당 벡터들을 포함하는 사전에 기초하여 상기 비트들을 할당하기 위한 수단을 포함하고,
    상기 비트들을 할당하기 위한 수단은, 상기 프레임들 중 적어도 2개의 프레임들에 대하여 상기 사전으로부터 상기 비트 할당 벡터들 중 하나를 선택하기 위한 수단을 더 포함하고,
    상기 비트 할당 벡터들 각각은 인덱스에 의해 식별되고,
    상기 장치는, 상기 프레임들 중 상기 적어도 2개의 프레임들에 대하여 선택된 비트 할당 벡터에 대한 상기 인덱스와 함께 상기 프레임들 중 상기 적어도 2개의 프레임들을 송신하기 위한 수단을 더 포함하는,
    오디오 또는 음성 프로세싱을 위한 장치.
  14. 제 13 항에 있어서,
    상기 비트 할당 벡터들 각각은, 복수의 엘리먼트들을 포함하고,
    상기 엘리먼트들 각각은, 상기 프레임들 중 임의의 프레임에서의 상기 변환 계수들 중 대응하는 하나에 대한 가능한 비트 할당을 표현하고,
    상기 사전 내의 모든 비트 할당 벡터들의 상기 엘리먼트들의 합은, 고정된 수와 동일한,
    오디오 또는 음성 프로세싱을 위한 장치.
  15. 제 13 항에 있어서,
    상기 송신하기 위한 수단은, 상기 프레임들 내에서 상기 프레임들 각각에 대한 상기 인덱스를 송신하기 위한 수단을 포함하는,
    오디오 또는 음성 프로세싱을 위한 장치.
  16. 제 13 항에 있어서,
    상기 송신하기 위한 수단은, 상기 프레임의 송신과는 독립적으로 상기 프레임들 각각에 대한 상기 인덱스를 송신하기 위한 수단을 포함하는,
    오디오 또는 음성 프로세싱을 위한 장치.
  17. 제 13 항에 있어서,
    상기 비트 할당 벡터들 중 하나를 선택하기 위한 수단은, 상기 프레임들 중 상기 적어도 2개의 프레임들에 대한 상기 변환 계수들 중 적어도 하나의 변환 계수의 크기에 기초하여 메트릭을 계산하기 위한 수단, 및 상기 메트릭에 기초하여 상기 비트 할당 벡터를 선택하기 위한 수단을 포함하는,
    오디오 또는 음성 프로세싱을 위한 장치.
  18. 제 13 항에 있어서,
    상기 비트들을 할당하기 위한 수단은, 상기 선택된 비트 할당 벡터에 기초하여 상기 프레임들 중 상기 적어도 2개의 프레임들 각각에 대한 상기 변환 계수들을 양자화하기 위한 수단을 더 포함하는,
    오디오 또는 음성 프로세싱을 위한 장치.
  19. 오디오 또는 음성을 프로세싱하기 위한 컴퓨터 판독가능 매체로서,
    복수의 프레임들을 생성하고 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― ; 그리고
    동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하도록 프로세서에 의해 실행가능한 코드들로 인코딩되고,
    상기 비트들의 할당은, 복수의 비트 할당 벡터들을 포함하는 사전에 기초하고,
    상기 할당은, 상기 프레임들 중 적어도 2개의 프레임들에 대하여 상기 사전으로부터 상기 비트 할당 벡터들 중 하나를 선택하는 것을 포함하고,
    상기 비트 할당 벡터들 각각은 인덱스에 의해 식별되고,
    상기 컴퓨터 판독가능 매체는 상기 비트 할당 벡터에 대한 상기 인덱스와 함께 상기 프레임들 중 상기 적어도 2개의 프레임들을 송신하도록 상기 프로세서에 의해 실행가능한 코드들로 추가로 인코딩되는,
    컴퓨터 판독가능 매체.
  20. 헤드셋으로서,
    트랜스듀서;
    프로세싱 시스템; 및
    프레임들을 송신하도록 구성되는 송신기를 포함하고,
    상기 프로세싱 시스템은,
    상기 트랜스듀서로부터의 오디오 또는 음성 출력으로부터 복수의 프레임들을 생성하고 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― ; 그리고
    동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하도록 구성되고,
    상기 비트들의 할당은, 복수의 비트 할당 벡터들을 포함하는 사전에 기초하고,
    상기 할당은, 상기 프레임들 중 적어도 2개의 프레임들에 대하여 상기 사전으로부터 상기 비트 할당 벡터들 중 하나를 선택하는 것을 포함하고,
    상기 비트 할당 벡터들 각각은 인덱스에 의해 식별되고,
    상기 송신기는, 상기 비트 할당 벡터에 대한 상기 인덱스와 함께 상기 프레임들 중 상기 적어도 2개의 프레임들을 송신하도록 추가로 구성되는,
    헤드셋.
  21. 시계로서,
    사용자 인터페이스;
    프로세싱 시스템; 및
    프레임들을 송신하도록 구성되는 송신기를 포함하고,
    상기 프로세싱 시스템은,
    상기 사용자 인터페이스로부터의 오디오 또는 음성 출력으로부터 복수의 프레임들을 생성하고 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― ; 그리고
    동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하도록 구성되고,
    상기 비트들의 할당은, 복수의 비트 할당 벡터들을 포함하는 사전에 기초하고,
    상기 할당은, 상기 프레임들 중 적어도 2개의 프레임들에 대하여 상기 사전으로부터 상기 비트 할당 벡터들 중 하나를 선택하는 것을 포함하고,
    상기 비트 할당 벡터들 각각은 인덱스에 의해 식별되고,
    상기 송신기는, 상기 비트 할당 벡터에 대한 상기 인덱스와 함께 상기 프레임들 중 상기 적어도 2개의 프레임들을 송신하도록 추가로 구성되는,
    시계.
  22. 센싱 장치로서,
    센서;
    프로세싱 시스템; 및
    프레임들을 송신하도록 구성되는 송신기를 포함하고,
    상기 프로세싱 시스템은,
    상기 센서로부터의 오디오 또는 음성 출력으로부터 복수의 프레임들을 생성하고 ― 상기 프레임들 각각은 복수의 변환 계수들을 포함함 ― ; 그리고
    동일한 프레임에서의 상기 변환 계수들 중 적어도 2개의 변환 계수들이 상이한 비트 할당들을 가지고 상기 프레임들 중 적어도 2개의 프레임들에서의 상기 변환 계수들에 할당되는 비트들의 총 개수가 동일하도록, 상기 프레임들 각각에서의 상기 변환 계수들에 비트들을 할당하도록 구성되고,
    상기 비트들의 할당은, 복수의 비트 할당 벡터들을 포함하는 사전에 기초하고,
    상기 할당은, 상기 프레임들 중 적어도 2개의 프레임들에 대하여 상기 사전으로부터 상기 비트 할당 벡터들 중 하나를 선택하는 것을 포함하고,
    상기 비트 할당 벡터들 각각은 인덱스에 의해 식별되고,
    상기 송신기는, 상기 비트 할당 벡터에 대한 상기 인덱스와 함께 상기 프레임들 중 상기 적어도 2개의 프레임들을 송신하도록 추가로 구성되는,
    센싱 장치.
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
KR1020127019081A 2009-12-22 2010-12-22 일정한 비트 레이트 애플리케이션들을 위한 최적의 비트 할당을 가지는 오디오 및 음성 프로세싱 KR101389830B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US28928709P 2009-12-22 2009-12-22
US61/289,287 2009-12-22
US12/698,534 2010-02-02
US12/698,534 US8781822B2 (en) 2009-12-22 2010-02-02 Audio and speech processing with optimal bit-allocation for constant bit rate applications
PCT/US2010/061751 WO2011087833A1 (en) 2009-12-22 2010-12-22 Audio and speech processing with optimal bit-allocation for constant bit rate applications

Publications (2)

Publication Number Publication Date
KR20120098905A KR20120098905A (ko) 2012-09-05
KR101389830B1 true KR101389830B1 (ko) 2014-04-29

Family

ID=44152336

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127019081A KR101389830B1 (ko) 2009-12-22 2010-12-22 일정한 비트 레이트 애플리케이션들을 위한 최적의 비트 할당을 가지는 오디오 및 음성 프로세싱

Country Status (6)

Country Link
US (1) US8781822B2 (ko)
EP (1) EP2517198A1 (ko)
JP (1) JP5437505B2 (ko)
KR (1) KR101389830B1 (ko)
CN (1) CN102714037B (ko)
WO (1) WO2011087833A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9224089B2 (en) * 2012-08-07 2015-12-29 Qualcomm Incorporated Method and apparatus for adaptive bit-allocation in neural systems
US9942848B2 (en) * 2014-12-05 2018-04-10 Silicon Laboratories Inc. Bi-directional communications in a wearable monitor
CN106898349A (zh) * 2017-01-11 2017-06-27 梅其珍 一种语音控制计算机的方法和智能语音助手系统
EP4120062A1 (en) * 2021-07-15 2023-01-18 Nxp B.V. Method and apparatus for audio streaming

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP2906646B2 (ja) * 1990-11-09 1999-06-21 松下電器産業株式会社 音声帯域分割符号化装置
DE69233502T2 (de) * 1991-06-11 2006-02-23 Qualcomm, Inc., San Diego Vocoder mit veränderlicher Bitrate
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
KR970003559Y1 (ko) 1994-12-30 1997-04-18 기아자동차 주식회사 차량의 열변형 방지가 가능한 인스트루먼트 코어
JPH08251031A (ja) * 1995-03-07 1996-09-27 Mitsubishi Electric Corp 符号器および復号器
US5819224A (en) * 1996-04-01 1998-10-06 The Victoria University Of Manchester Split matrix quantization
JPH09288498A (ja) 1996-04-19 1997-11-04 Matsushita Electric Ind Co Ltd 音声符号化装置
US6006179A (en) * 1997-10-28 1999-12-21 America Online, Inc. Audio codec using adaptive sparse vector quantization with subband vector classification
AU3372199A (en) * 1998-03-30 1999-10-18 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
DE69924922T2 (de) 1998-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd., Kadoma Audiokodierungsmethode und Audiokodierungsvorrichtung
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
JP2000206990A (ja) 1999-01-12 2000-07-28 Ricoh Co Ltd デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US6909997B2 (en) * 2002-03-26 2005-06-21 Lockheed Martin Corporation Method and system for data fusion using spatial and temporal diversity between sensors
CN1492292A (zh) * 2003-07-14 2004-04-28 �׳��� Mp4多功能手表
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
DE102006004342B4 (de) * 2006-01-30 2011-09-15 Sennheiser Electronic Gmbh & Co. Kg Drahtlos-Kopfhörereinrichtung
CN101030379B (zh) 2007-03-26 2011-10-12 北京中星微电子有限公司 一种数字音频信号比特分配的方法和装置
CN101308657B (zh) 2007-05-16 2011-10-26 中兴通讯股份有限公司 一种基于先进音频编码器的码流合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
pedro de a. et al. " A new wavelet-based algorithm for compression of Emg singals", IEEE EMBS Conf., 2007. 8,23 *

Also Published As

Publication number Publication date
WO2011087833A1 (en) 2011-07-21
US8781822B2 (en) 2014-07-15
EP2517198A1 (en) 2012-10-31
JP5437505B2 (ja) 2014-03-12
CN102714037A (zh) 2012-10-03
JP2013515291A (ja) 2013-05-02
US20110153315A1 (en) 2011-06-23
CN102714037B (zh) 2014-09-03
KR20120098905A (ko) 2012-09-05

Similar Documents

Publication Publication Date Title
KR101278880B1 (ko) 변환-도메인 로그-압신을 사용하는 신호 프로세싱을 위한 방법 및 장치
US11862181B2 (en) Support for generation of comfort noise, and generation of comfort noise
TW200828268A (en) Dual-transform coding of audio signals
MX2014004797A (es) Método y aparato de codificación sin perdida de energia, método y aparato de codificación de audio, método y aparato de decodificación sin perdida de energia y método y aparato de decodificación de audio.
EP2863388B1 (en) Bit allocation method and device for audio signal
JPH0856163A (ja) 適応的デジタルオーディオ符号化システム
KR100519260B1 (ko) 고속 최적화된 무선마이크 장치 및 그 제어방법
JP2015507764A (ja) オーディオ・データを処理するための方法、装置、及びシステム
EP2087484A1 (en) Method, apparatus and computer program product for stereo coding
JP2002196792A (ja) 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
KR101389830B1 (ko) 일정한 비트 레이트 애플리케이션들을 위한 최적의 비트 할당을 가지는 오디오 및 음성 프로세싱
CN104509130A (zh) 立体声音频信号编码器
CN105957533B (zh) 语音压缩方法、语音解压方法及音频编码器、音频解码器
CN109286922B (zh) 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备
CN103035249B (zh) 一种基于时频平面上下文的音频算术编码方法
TWI602173B (zh) 音訊處理方法與非暫時性電腦可讀媒體
Abdullah Silence Encoding Technique for Compressing Digital Speech Signal
CN117061489A (zh) 基于水下电子设备的音频传输方法及其系统
CN117789737A (zh) 一种优化sbc编码器的方法、装置及电子设备
Sinha et al. Waveform coders
JP2009288561A (ja) 音声符号化装置、音声復号装置、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee