KR101454581B1 - 오디오 인코딩을 위한 장치 및 방법 - Google Patents

오디오 인코딩을 위한 장치 및 방법 Download PDF

Info

Publication number
KR101454581B1
KR101454581B1 KR1020147015911A KR20147015911A KR101454581B1 KR 101454581 B1 KR101454581 B1 KR 101454581B1 KR 1020147015911 A KR1020147015911 A KR 1020147015911A KR 20147015911 A KR20147015911 A KR 20147015911A KR 101454581 B1 KR101454581 B1 KR 101454581B1
Authority
KR
South Korea
Prior art keywords
bandwidth
sub
energy
audio signal
audio
Prior art date
Application number
KR1020147015911A
Other languages
English (en)
Other versions
KR20140085596A (ko
Inventor
홀리 엘. 프란코이스
Original Assignee
모토로라 모빌리티 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 모빌리티 엘엘씨 filed Critical 모토로라 모빌리티 엘엘씨
Publication of KR20140085596A publication Critical patent/KR20140085596A/ko
Application granted granted Critical
Publication of KR101454581B1 publication Critical patent/KR101454581B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

방법(600) 및 장치(100)는 오디오 신호의 인코딩을 제공한다. 비트 레이트 값(141)이 수신된다(605). 비트 레이트 값에 기초한 임계값들의 복수의 세트의 에너지 임계값들(371)의 세트가 선택된다(610). 에너지 임계값들의 각각 세트의 에너지 임계값들은 수신된 오디오 신호의 서브-대역들의 세트와 일-대-일 방식으로 대응한다(615). 서브-대역들의 세트의 각각 서브-대역 에너지가 결정된다(620). 대응하는 임계값을 초과하는 에너지를 가진 최고 주파수 서브-대역이 결정된다(625). 오디오 신호의 선택된 대역폭이 인코딩된다(630). 선택된 대역폭은 고역-통과의 차단 주파수를 초과하는 오디오 신호의 모든 저 주파수뿐만 아니라 대응하는 임계값을 초과하는 에너지를 가진 최고 주파수 서브-대역에 있는 오디오 신호의 주파수들도 포함한다.

Description

오디오 인코딩을 위한 장치 및 방법{APPARATUS AND METHOD FOR AUDIO ENCODING}
본 발명은 일반적으로 오디오 인코딩(encoding) 및 디코딩(decoding)에 관한 것이다.
지난 20년 동안 마이크로프로세서 속도는 몇 배로 증가해왔고, 디지털 신호 프로세서들(Digital Signal Processors: DSPs)은 유비쿼터스(ubiquitous)화 되었다. 아날로그 통신으로부터 디지털 통신으로의 전환은 실현 가능하며 매력적이 되어가고 있다. 디지털 통신은 대역폭을 더욱 효율적으로 활용할 수 있는 주요한 장점을 제공하며 오류 정정 기술들(error correcting techniques)을 사용할 수 있도록 허용한다. 따라서, 디지털 기술을 사용함으로써, 주어진 할당된 스펙트럼 공간(spectrum space)을 통해 더 많은 정보를 전송할 수 있고 정보를 더 신뢰성 있게 전송할 수 있다. 디지털 통신은 라디오 링크들(radio links)[무선(wireless)] 또는 물리적 네트워크 미디어(예를 들어 광섬유, 구리 네트워크)를 사용할 수 있다.
디지털 통신은 예를 들어 음성, 오디오, 이미지, 비디오 또는 원격 측정(telemetry)과 같은 상이한 타입들에 대해 사용될 수 있다. 디지털 통신 시스템은 전송 디바이스 및 수신 디바이스를 포함한다. 양-방향 통신을 할 수 있는 시스템에서, 각각의 디바이스는 전송 및 수신하는 회로들 모두를 가진다. 디지털 전송 또는 수신 디바이스에서, 신호가 입력(예를 들어, 마이크로폰, 카메라, 센서)에서 수신되는 단계 및 신호의 디지털화된 버전이 반송파(carrier wave)를 변조하도록 사용되고 전송되는 단계 사이에서, 신호 및 결과 데이터를 전달하는 다단계로 된(multiple staged) 프로세스들이 있다. (1) 신호가 입력에서 수신되고 디지털화된 이후에, (2) 소정의 초기 노이즈 필터링(noise filtering)이 적용될 수 있고, 이어서 (3) 소스 인코딩(source encoding)이 적용될 수 있으며, (4) 마지막으로 채널 인코딩(channel encoding)이 적용될 수 있다. 수신 디바이스에서, 채널 디코딩(channel decoding), 소스 복구(source recovery), 그리고 아날로그로의 변환 순서로, 역순으로 프로세스를 수행한다. 다음의 페이지들에서 설명될 본 발명은 소스 인코딩 단계에 주로 속하는 것으로 여겨진다.
소스 인코딩의 주된 목표는 가능한 정도로 지각 품질(perceived quality)을 유지하면서 비트 레이트를 감소시키는 것이다. 상이한 미디어 타입들을 위해 상이한 표준들이 개발되고 있다.
신규한 것으로 믿어지는 본 발명의 특징들은 첨부된 청구항들 내의 자세한 사항들에 기재되어 있다. 그러나, 본 발명 그 자체는, 조직 및 운영 방법 모두에 관하여, 그 목적들 및 장점들과 함께, 이하의 상세한 설명을 참조하면 가장 잘 이해될 수 있다. 첨부 도면들과 관련하여 설명이 취해진다.
도 1은 특정한 실시예들에 따른, 통신 디바이스의 블록도.
도 2는 특정한 실시예들에 따른, 통신 디바이스의 오디오 인코딩 기능부의 블록도.
도 3은 특정한 실시예들에 따른, 오디오 인코딩 기능부의 서브-대역 스펙트럼 분석(spectral analysis) 기능부의 블록도.
도 4는 특정한 실시예들에 따른, 통신 디바이스에서 몇몇 예시적인 신호들의 타이밍 다이어그램들(timing diagrams)을 도시하는 도면.
도 5는 특정한 실시예들에 따른, 도 4의 타이밍 다이어그램에 대한 확대된 일부를 도시하는 도면.
도 6-9는 다양한 실시예들에 따라, 오디오 인코딩 기능부의 작동을 도시하는 플로우 차트들.
통상의 기술자는 도면들 내의 요소들이 단순성과 명확성을 위해 도시되며 일정한 비율로 도시될 필요가 없다는 것을 이해할 것이다. 본 발명의 실시예들에 대한 이해를 향상하도록 도움을 주기 위해, 도면들 내의 몇몇 요소들의 크기들이 다른 요소들에 비해 과장될 수 있다.
본 발명은 여러 상이한 형태들의 실시예를 허용할 수 있지만, 본 기재는, 본 발명의 원리들의 하나의 예로서 여겨지며, 본 발명이 도시되고 설명되는 특정한 실시예들로 제한하도록 의도되지 않는다는 것을 이해하여, 도면에서 도시되고 본 명세서의 특정한 실시예들에서 상세하게 설명될 것이다. 이하의 설명에서, 동일한 참조 도면부호들은 도면들의 각각 관점들에서 동일, 유사 또는 대응하는 부분들을 설명하기 위해 사용된다.
본 문서에서, 제1 및 제2, 상부 및 하부, 및 등등과 같은 상관관계에 있는 용어들은 이러한 엔티티들 또는 액션들 간의 어떤 실제의 관계 또는 순서를 반드시 요구하거나 의미하지 않고, 오직 하나의 엔티티 또는 액션을 또 다른 엔티티 또는 액션과 구별하기 위해 사용된다. "포함한다(comprises)", "포함하는(comprising)" 또는 이들의 어떤 다른 변형은, 요소들의 목록을 포함하는 프로세스, 방법, 물건, 또는 장치가 오직 이러한 요소들만을 포함하지 않으며, 명시적으로 나열되어 있지 않거나 이러한 프로세스, 방법, 물건, 또는 장치에 내재하는 다른 요소들을 포함할 수 있도록, 비-배타적인 포함을 다루도록 의도된다. "...a를 포함한다(comprises ...a)"라는 문구(文句)에 의해 선행되는 요소는 요소를 포함하는 프로세스, 방법, 물건, 또는 장치에서 추가적인 동일한 요소들의 존재를 배제하지 않는다.
본 문서 전반에 걸쳐, "일 실시예(one embodiment)", "특정한 실시예들(certain embodiments)", "일 실시예(an embodiment)" 또는 유사한 용어들에 대한 참조는 실시예와 관련되어 설명되는 특정한 특징, 구조, 또는 특성이 본 발명의 적어도 하나의 실시예에 포함되었음을 의미한다. 따라서, 이러한 문구의 출현 또는 본 명세서 전반에 걸친 다양한 위치에서 출현이 반드시 모두 동일한 실시예를 지칭하지 않는다. 또한, 특정한 특징들, 구조들, 또는 특성들은 하나 이상의 실시예에서 제한 없이 임의의 적절한 방식으로 조합될 수 있다.
본 명세서에서 "또는"이라는 용어는 포괄적으로(inclusive) 해석되거나 임의의 하나 또는 임의의 조합을 의미한다. 따라서, "A, B, 또는 C"는 "A; B; C; A 및 B; A 및 C; B 및 C; A, B, 및 C 중 어떤 하나"를 의미한다. 이러한 정의에 대한 예외는 요소들, 수단들, 단계들 또는 실행들의 조합이 본질적으로 상호 배타적인 소정의 방식일 때만 발생할 것이다.
본 명세서에 설명된 실시예들은 신호들을 인코딩하는 것에 관한 것이다. 신호들은 음성 또는 디지털 정보로 변환되고 유선 또는 무선으로 통신하는 음악과 같은 다른 오디오일 수 있다.
도면들에 관하여, 동일한 도면부호들은 동일한 구성요소들을 지시하고, 도 1은 특정한 실시예들에 따른 무선 전자 통신 디바이스(100)의 블록도이다. 무선 전자 통신 디바이스(100)는, 모바일 셀 폰, 모바일 개인용 통신 디바이스, 셀룰러 기지국, 및 무선 통신 기능을 구비한 개인 컴퓨터와 같은, 다양한 타입의 무선 통신 디바이스들의 대표적인 타입이다. 일부 실시예들에 따라, 무선 전자 통신 디바이스(100)는 라디오 시스템(199; radio system), 휴먼 인터페이스 시스템(120; human interface system), 그리고 라디오 주파수 안테나[108; radio frequency(RF) antenna]를 포함한다.
휴먼 인터페이스 시스템(120)은 프로세싱 시스템(processing system) 및 [마이크로폰(102), 디스플레이/터치 키보드(104), 스피커(106)와 같은] 사용자들에 인터페이싱하는 전자 구성요소들뿐만 아니라 [주변 I/O 회로 및 전력 제어 회로(power control circuits)과 같은] 프로세싱 시스템을 지원하는 전자 구성요소들도 포함하는 시스템이다. 프로세싱 시스템은 중앙 처리 장치(CPU) 및 메모리를 포함한다. CPU는, 디스플레이/키보드(104)(리스트, 메뉴, 그래픽, 등등)로 정보를 제공하고 디스플레이/키보드(104)의 터치 표면상의 휴먼 엔트리들(human entries)을 감지하는 것과 같은, 모바일 통신 디바이스(100)의 휴먼 인터페이스 측면들에 주로 관련된 메모리 내의 소프트웨어 명령어들을 처리한다. 이러한 기능들은 휴먼 인터페이스 애플리케이션들[130; human interface applications(HIA)]의 세트로서 도시된다. HIA(130)는 마이크로폰(102)으로부터 아날로그/디지털 변환기[125; analog/digital(A/D) converter]를 통해 오디오 음성을 수신할 수도 있고, 그 다음으로 음성의 음성 인식을 수행할 수 있고 음성에 의한 명령들에 응답할 수 있다. HIA(130)은 신호음과 같은 톤(tones)을 디지털/아날로그 변환기[135; digital to analog(D/A) converter]를 통해 스피커(106)로 전송할 수도 있다. 휴먼 인터페이스 시스템(120)은, 햅틱(haptic) 디바이스 및 카메라와 같은, 도 1에서 도시되지 않은 다른 휴먼 인터페이스 디바이스들을 포함할 수도 있다.
라디오 시스템(199)은 프로세싱 시스템 및 (RF 증폭기와 같은) 안테나에 인터페이싱하는 전자 구성요소들뿐만 아니라 (주변 I/O 회로 및 전력 제어 회로과 같은) 프로세싱 시스템을 지원하는 전자 구성요소들도 포함하는 시스템이다. 프로세싱 시스템은 중앙 처리 장치(CPU) 및 메모리를 포함한다. CPU는, [송신기 시스템(170)으로 도시된] 데이터 패킷들로 인코딩되는 디지털화된 신호들을 송신하고 [수신기 시스템(140)으로 도시된] 디지털화된 신호들로 디코딩되는 데이터 패킷들을 수신하는 것과 같은, 모바일 통신 디바이스(100)의 라디오 인터페이스 측면들에 주로 관련된 메모리 내의 소프트웨어 명령어들을 처리한다. 안테나(108) 및 (도 1에 명시적으로 도시되지 않은) 수신기 시스템(140) 및 송신기 시스템(170)의 특정한 라디오 주파수 인터페이스 부분들이 없다면, 무선 전자 통신 디바이스(100)는 또한 케이블 노드들(cable nodes)과 같은 많은 유선 통신 디바이스들을 나타낼 것이다. 이하의 일부 실시예들은 개인용 통신 디바이스이다.
수신기 시스템(140)은 안테나(108)로 연결된다. 안테나(108)는 디지털로 인코딩된 신호를 가지는 채널을 포함할 수 있는 라디오 주파수(RF) 신호들을 인터셉팅한다(intercepts). 인터셉팅된 신호는 수신기 시스템(140)으로 연결되고, 수신기 시스템은 신호를 디코딩하고 이러한 실시예에서의 복구된 디지털 신호를 휴먼 인터페이스 시스템(120)으로 연결하고, 휴먼 인터페이스 시스템은 스피커를 구동하기 위해 복구된 디지털 신호를 아날로그 신호로 변환시킨다. 다른 실시예들에서, 복구된 디지털 신호는 이미지 또는 비디오를 휴먼 인터페이스 시스템(120)의 디스플레이상에 제공하도록 사용될 수 있다. 송신기 시스템(170)은 디지털화된 신호(126)를 휴먼 인터페이스 시스템(120)으로부터 수신하고, 이러한 디지털화된 신호는 예를 들어 디지털화된 음성 신호, 디지털화된 음악 신호, 디지털화된 이미지 신호, 또는 디지털화된 비디오 신호일 수 있고, 이는 무선 전자 통신 디바이스(100) 내에 내장된 수신기 시스템(140)으로부터 연결될 수 있거나, 전자 통신 디바이스(100)로 연결된 (도시되지 않은) 전자 디바이스로부터 공급받을 수 있다. 디지털화된 신호는 주기적으로 디지털화시키는 샘플링 레이트로 샘플링되는 신호이다. 디지털화된 샘플링 레이트는 예를 들어 8kHz, 16kHz, 32kHz, 48kHz, 또는 반드시 8kHz의 배수일 필요 없이 다른 샘플링 레이트들일 수 있다. 샘플링되는 신호의 대역폭은 샘플링 레이트의 절반(1/2)보다 작을 수 있다는 것으로 이해될 것이다. 예를 들어, 일부 실시예들에서 12kHz의 대역폭을 가진 신호는 48kHz 샘플링 레이트로 샘플링될 수 있다. 송신기 시스템(170)은 디지털화된 신호(126)를 분석하고, 디지털화된 신호를 안테나(108)를 통해 RF 채널 상에 송신되는 디지털 패킷들로 인코딩한다.
송신기 시스템(170)은 디지털화된 신호의 샘플들을 주기적으로 분석하고 디지털화된 신호의 샘플들을 대역폭에 효율적인 코드 워드들(182; code words)로 인코딩하는 오디오 코딩 기능부(181)를 포함한다. 코드 워드들(182)은, 디지털화된 신호(126)의 주파수 분석 및 네트워크 디바이스로부터의 메시지로 수신되며 수신기 시스템(140)으로부터 오디오 코딩 기능부(181)로 연결되는 비트 레이트 값(141)에 의해 결정되는 비트 레이트로 생성된다. 일부 실시예들에서, 네트워크로부터 수신된 비트 레이트 값(141)은 디바이스(100)가 네트워크로의 전송에 대해 초과하지 않을 수 있는 허용된 비트 레이트를 정의할 수 있고, 비트 레이트 값은 전형적으로 현재 네트워크 트래픽 부하에 기초하여 네트워크 운영자 또는 네트워크 디바이스에 의해 결정될 수 있다. 일부 실시예들에서, 디바이스(100)에 의해 비트 레이트 값은 평균값으로 충족되어야 하지만 (예를 들어 평균값의 10% 이상을 넘지 않는) 약간의 허용오차 내의 일시적인 값들을 가지는 허용된 비트 레이트를 정의할 수 있다. 비트 레이트 값의 이러한 타입에 대한 하나의 예는 수수료 구조에 따라 디바이스(100)가 전송 비트 레이트를 제한할 수 있다. 일부 실시예들에서, 비트 레이트 값(141)은 수신기 시스템(140) 대신에 휴먼 인터페이스 시스템(120)으로부터 연결될 수 있다. 패킷 생성기(187)는 증폭을 위해 RF 송신기(190)로 연결되는 패킷을 형성하기 위해 코드 워드들(182)을 사용하고, 그 다음에 안테나(108)에 의해 방사된다.
도 2를 참조하여, 특정한 실시예들에 따른 오디오 코딩 기능부(181)의 블록도가 도시된다. 오디오 코딩 기능부(181)는 변환기(205), 서브-대역 스펙트럼 분석 기능부(210), 임계값 로직 기능부(215), 그리고 오디오 인코딩 기능부(220)를 포함한다. 변환기(205)는 일부 실시예들에서 사용되지 않을 수 있다. 변환기(205)는 디지털화된 신호(126)를 디지털화된 신호(126)의 샘플링 레이트와 무관한 일정한 주기적인 레이트로 값들을 제공하는 변환된 신호(206)로 변환한다. 예를 들어, 8kHz, 12kHz, 및 16kHz와 같이 상이한 샘플링 레이트들을 가진 디지털화된 신호들(126) 모두는 48kHz의 주기적인 레이트에서 변환된 신호(206)로 변환될 수 있다. 변환은 많은 보간(interpolation) 기술 중 하나를 사용하는 것과 같은 표준 기술들에 의해 수행될 수 있다. 일부 실시예들에서, 디지털화된 신호(126)의 샘플링 레이트는 불변할 수 있고, 그에 따라 변환기(205)를 만드는 것이 불필요할 수 있다. 이러한 실시예들에서, 디지털화된 신호(126)는 서브-대역 스펙트럼 분석 기능부(210) 및 오디오 인코딩 기능부(220)로 직접 연결될 수 있다. 일부 실시예들에서, 디지털화된 신호(126)는 서브-대역 스펙트럼 분석 기능부(210) 및 오디오 인코딩 기능부(220)로 직접 연결될 수 있고, 변환 기능부는 서브-대역 스펙트럼 분석 기능부(210) 및 오디오 인코딩 기능부(220) 중 하나 또는 모두에서 수행될 수 있다. 서브-대역 스펙트럼 분석 기능부(210)는 서브-대역들의 정렬된 세트에 대한 각각의 에너지들을 분석하고 서브-대역 에너지 결과들(211)을 임계값 로직 기능부(215)로 연결하며, 이는 서브-대역 에너지 결과들(211) 및 비트 레이트 값(141)에 기초하여 코드 워드들(182)이 인코딩되는 각각 특정한 대역폭을 가진 복수의 프로토콜 중 하나의 프로토콜을 결정한다. (선택된 대역폭 또는 선택된 프로토콜로도 식별되는) 결정된 프로토콜(216)이 오디오 인코딩 기능부(220)로 연결되고, 서브-대역 에너지 결과들(211) 및 비트 레이트 값(141)에 따라 시간이 지나면서 변화하고, 이는 서브-대역 스펙트럼 분석 기능부(210)로 연결된다. 디지털화된 오디오 신호(126)의 인코딩을 수행하고 코드 워드들(182)을 생성하기 위해, 오디오 인코딩 기능부(220)가 선택된 대역폭(216)을 사용하고, 이에 따라서 인코딩 자원들을 최소화하며 오디오 신호를 전달하는 데 필요한 평균 대역폭을 감소시킨다. 복수의 프로토콜의 저 주파수 차단 값들(고역 통과 주파수)이 프로토콜들의 대역폭들의 순서와 같은 상한 주파수들(upper cutoff frequencies)의 순서인 값에 충분히 근접하며, 즉 더 높은 대역폭은 더 높은 상한 주파수와 상관관계를 가진다고 이해될 것이다.
도 3-5를 참조하여, 특정한 실시예들에 따라, 도 3에서 서브-대역 스펙트럼 분석 기능부(210)가 도시되고, 도 4 및 도 5에서 일부 예시적인 신호들의 타이밍 다이어그램들이 도시된다. 서브-대역 스펙트럼 분석 기능부(210)는 서브-프레임 고속 푸리에 변환[Fast Fourier Transform(FFT)] 기능부(305), 에너지 분석 기능부(308), N 개의 대역 분할 기능부의 세트(310-325), N 개의 대응하는 평활화 필터의 세트(330-345), 그리고 N 개의 대응하는 히스테리시스를 가진 임계값 기능부의 세트(350-365)를 포함한다. 디지털화된 신호(126) 또는 변환된 신호(206)가 서브-프레임 FFT 기능부(305)로 연결되고, 서브-프레임 FFT 기능부는 프레임 레이트의 임의의 배수(예를 들어 4배)의 레이트로 고속 푸리에 변환을 수행하고, 이는 디지털화된 신호(126) 또는 변환된 신호(206)의 레이트에 대응한다. 예를 들어, 디지털화된 신호(126) 또는 변환된 신호(206)에 대한 160개의 값들은 각각의 프레임 또는 서브-프레임에 포함될 수 있다. 종래의 기술들[예를 들어, 테이퍼된 오버랩들(tapered overlaps), 등등]이 프레임 또는 서브-프레임의 윈도잉(windowing)하기 위해 그리고 FFT를 수행하기 위해 사용될 수 있다. 각각의 프레임 또는 서브-프레임의 FFT에 의해 생성되는 값들의 세트는 에너지 분석 기능부(308)로 연결되고, 에너지 분석 기능부는 FFT 값들에 대한 각각의 세트를 종래의 방법(예컨대, FFT 값들의 절댓값의 제곱을 사용하는 방법)으로 에너지 스펙트럼 분포 값들의 대응하는 세트로 변환한다. FFT 값들의 세트들과 같은, 일련의 프레임들 또는 서브-프레임들에 대한 에너지 스펙트럼 분포들은 주기적인 프레임 또는 서브-프레임 레이트에서 생성되는 분포들에 기초한 주파수이다. 일 실시예에서, 대역 분할들(310-325), 평활화 필터들(330-345), 임계값(350-365)의 양을 식별하도록 사용되는 N 값은 4이다. 디지털화된 신호(126) 또는 변환된 신호(206)의 일 예가 도 4에서 오디오 플롯(405)으로 도시된다. 본 도면에서, 디지털화된 값들(예컨대, 디지털화된 전압 샘플들)이 함께 플롯에서 비교적 근접하게 위치하기 때문에, 오디오 플롯(405)은 연속적으로 보인다. 오디오 플롯(405) 아래는 오디오 스펙트로그램(spectrogram)을 나타내는 플롯(410)이다. 각각의 수직선은 0과 24kHz 사이의 주파수들에 대한 단일 프레임의 에너지 밀도를 나타내는 많은 그레이 스케일(grey scale) 값들(픽셀들 또는 점들)을 포함한다. 0이 아닌 에너지 값들을 가진 피크 주파수들은 플롯(411)에 의해 근사된다. 플롯(410)의 영역들의 대략 절반에 대한 각각의 프레임의 최대 에너지 밀도는 피크 값의 매우 아래이다. 이것의 일 예는 플롯(410)의 영역(413)이고, 이는 도 5에서 확대 뷰로 도시된다. 플롯(410)의 영역(412)과 같은, 다른 영역들은 더 균일하게 분포된 에너지를 가진다.
에너지 분석은 대역 분할 기능부들(310-325)로 연결되고, 이는 각각의 서브-대역에서 에너지의 총량을 결정한다. 본 명세서에서 사용될 일 예에 대한 서브-대역 영역들은, 대역 분할 #1(310)에 대해 0-7kHz, 대역 분할 #2(315)에 대해 7-8kHz, 대역 분할 #3(320)에 대해 8-16kHz, 그리고 (도 3에 도시되지 않은) 대역 분할 #4에 대해 16-20kHz이다. #1에서 #4까지의 대역 분할들의 예시적인 주파수 범위들은 도 4에서의 주파수 서브-대역들(415-418)로 식별된다. 이러한 예에 의해 나타나는 실시예들에 대하여, 서브-대역들의 이러한 세트가 겹치지 않고 0에서 24kHz까지의 전체 주파수 범위를 다루는 서브-대역들의 세트라는 것으로 이해될 것이다. 다른 실시예들에서, 서브-대역들의 세트는 0에서 24kHz까지의 전체 대역폭을 채우지 못할 수 있고; 서브-대역들 사이에 간극들(gaps)이 있을 수 있다. 일부 실시예들에서, 서브-대역들이 겹칠 수 있다. 대역 분할 기능부들(310-325)의 출력들이 평활화 필터들(330-345)로 연결될 수 있고, 이는 히스테리시스를 가진 임계값 기능부(350-365) 출력들에서 너무 빠른 변화를 일으킬 수 있는 고 주파수 효과들을 제거한다. 평활화 필터들(330-345)의 출력들은 히스테리시스를 가진 임계값 기능부(350-365)로 연결된다. 히스테리시스를 가진 임계값 기능부(350-365)의 각각은 또한 바이어스 표(370; bias table)로부터 임계값 신호(371)로 연결된다. 임계값 신호는 비트 레이트 값(141)에 의해 결정되는 히스테리시스를 가진 임계값 기능부(350-365)의 각각에 대한 바이어스 및 히스테리시스 값들을 포함한다. 비트 레이트 값(141)은 M 값들 중 하나의 값이고, M 값들의 각각은 N 개의 히스테리시스를 가진 임계값 기능부(350-365)에서 레벨들을 설정하도록 사용되고, 이는 신호(126, 206)을 인코딩하기 위해 사용되는 N 개의 프로토콜 중 하나를 선택하도록 사용되는 하나의 요소로써 사용된다. 특정한 실시예들에서, 각각의 프로토콜이 신호(126, 206)의 상이한 대역폭을 인코딩한다. 본 명세서에서 사용되는 일 예에서, M은 3이고, 3개의 값은 낮음(low), 중간(medium), 그리고 높음(high) 값들로서 식별된다. 비트 레이트 값(141)은 히스테리시스를 가진 임계값 기능부(350-365)의 각각에 대한 M 개의 임계값 중 하나를 선택한다. 따라서, 가능한 M 개의 비트 레이트 값의 각각은 서브-대역들에 대응하는 N 개의 임계값 세트를 선택한다. 각각의 히스테리시스를 가진 임계값 기능부(350-365)는 신호(211)의 일부인 출력 값을 생성한다. 출력 값은, 제1 히스테리시스 값을 초과하는 시간 동안에 입력이 임계값을 초과하는 경우 제1 상태[참(TRUE)]에 있고, 입력이 제2 히스테리시스 값을 초과하는 시간 동안에 입력이 임계값보다 작은 경우 제2 상태[거짓(FALSE)]에 있다. 히스테리시스 값들은 모든 서브-대역들에 대해 동일할 수 있고 이는 고정될 수 있다. 일부 실시예들에서, 히스테리시스를 가진 임계값 기능부들(350-365)에 대한 제1 및 제2 히스테리시스 값들은 2N 개의 상이한 값일 수 있고, 일부 실시예들에서, 제1 및 제2 N 개의 히스테리시스 값은 비트 레이트 값(141)에 의해 M 개의 값의 세트로부터 선택될 수 있다. 본 명세서에서 설명되는 예에 따라서, 제1 히스테리시스 값들은 0이고 제2 히스테리시스 값들은 히스테리시스를 가진 임계값 기능부들(350-365) 중에서 상이하지 않고 비트 레이트 값(141)에 따라 변하지 않는다.[그러나 임계값들은 비트 레이트 값(141)에 따라 변한다.]
다시 도 2를 참조하여, 서브-대역 스펙트럼 분석 기능부(210)로부터의 출력 신호(211)는 임계값 로직 기능부(215)로 연결된다. 임계값 로직 기능부(215)는 신호들(211)을 분석하고 제1 상태에서 N 개의 서브-대역의 최고 주파수를 표시하는 출력 신호들(211)의 값에 기초하여 인코딩 프로토콜을 선택한다. 이 주파수 미만의 서브-대역들은 또한 신호 검출의 목적으로 이러한 제1 상태에 있는 것으로 가정한다. 선택된 인코딩 프로토콜은, 오디오 인코딩 기능부(220)로 선택된 인코딩 프로토콜의 고역-통과의 차단주파수(high-pass cut-off frequency)를 초과하는 오디오 신호의 저 주파수 성분들뿐만 아니라 대응하는 임계값을 초과하는 에너지를 가진 최고 주파수 서브-대역(highest frequency sub-band)까지의 오디오 신호[디지털화된 신호(126) 또는 변환된 신호(206)]의 주파수들도 포함하는 신호(126, 206)의 대역폭을 인코딩한다. 일부 실시예들에서, 고역-통과의 차단 주파수를 초과하는 오디오 신호의 모든 저 주파수(all lower frequencies) 성분들은 선택된 인코딩 프로토콜의 대역폭에 포함된다. 일부 실시예들에서, 서브-대역 스펙트럼 분석(210) 및/또는 오디오 인코딩(220)에 앞서, 입력 신호(126)에 대해 고역 통과 또는 대역 통과(band-pass) 필터링을 적용하는 것이 필요하거나 바람직할 수 있으나, 이는 프로세싱 단계들 또는 프로세싱 로직에 현저하게 영향을 미치지는 않을 것이다. 본 명세서에서 설명되는 예에서, 선택된 인코딩 프로토콜은 7kHz 대역폭, 8kHz 대역폭, 12kHz 대역폭, 그리고 20kHz 대역폭 중 명목상 하나인 선택된 대역폭을 가진 프로토콜이나, 이는 10Hz에서 500Hz 사이에서 시작하여 7kHz까지 확장되는 대역, 10Hz에서 500Hz 사이에서 시작하여 8kHz까지 확장되는 대역, 10Hz에서 500Hz 사이에서 시작하여 12kHz까지 확장되는 대역, 또는 10Hz에서 500Hz 사이에서 시작하여 20kHz까지 확장되는 각각의 대역에 실제로 대응할 수 있다. 선택된 인코딩 프로토콜을 식별하는 다른 방법들이 사용될 수 있고, 두 가지 예의 방법은 인코딩 비트 레이트 또는 인덱싱된(indexed) 프로토콜 값(예를 들어 1에서 4까지의 값)이다.
표 1을 참조하여, 특정한 실시예들에 따라, 임계값들의 세트가 도시된다. 세트는 본 명세서에서 전술된 예를 위해 사용될 수 있고 바이어스 표(370)에 포함될 수 있는 세트이다(도 3). 이러한 예에 대하여, 임계값에 대한 최댓값은 100이고 신호(126, 206)의 총 에너지는 100의 값을 가진다.

서브-대역들

비트 레이트 값

7kHz까지

7-8kHz

8-12kHz

12-20kHz

낮음(Low)

30

6

50

60

중간(Medium)

25

5

45

50

높음(High)

20

4

25

30
에너지 밀도가 균일할 때, 각각의 서브-대역 내의 총 에너지는 최저 서브-대역으로부터 최고 서브-대역까지 각각 35, 5, 20, 그리고 40일 것이다. 비트 레이트 값(141)이 낮음(Low)이고 에너지 밀도가 균일할 때, 히스테리시스를 가진 임계값 기능부들(350-365)의 출력의 최저부터 최고까지 각각 참(TRUE), 거짓(FALSE), 거짓(FALSE), 그리고 거짓(FALSE)일 것이고, 이는 임계값을 초과하는 것이 0-7kHz에 대하여 오직 하나이기 때문이다. 임계값이 참(TRUE)인 최고 서브-대역이 0-7kHz 서브-대역이기 때문에, 선택된 대역폭은 7kHz이다. 에너지 밀도가 균일하고 비트 레이트 값(141)이 높음(High)일 때, 히스테리시스를 가진 임계값 기능부들(350-365)의 출력의 최저부터 최고까지 각각 참(TRUE), 참(TRUE), 거짓(FALSE), 그리고 참(TRUE)일 것이다. 임계값이 참인 최고 서브-대역이 12-20kHz 서브-대역이기 때문에, 임계값 로직 기능부(215)는 20kHz 대역폭을 제공하는 프로토콜을 선택한다. 도 4에서 플롯들(405, 410) 아래 3개의 플롯들(420, 425, 430)이 도시된다. 이러한 플롯들은 입력 신호(126, 206)가 표 1과 유사한 임계값들의 세트에 대해, 도 5의 플롯(405)으로 도시되는 신호일 때, 비트 레이트 값(141)의 3개의 값들(낮음, 중간, 높음)에 대한 임계값 로직 기능부(215)의 시간 대 출력(216)을 도시한다. 비트 레이트 값이 낮음(Low)일 때 플롯(420)이 생성되고, 비트 레이트 값이 중간(Medium)일 때 플롯(425)이 생성되며, 비트 레이트 값이 높음(High)일 때 플롯(430)은 생성된다. 플롯들(425, 430)보다 시간의 높은 비율의 최저 대역폭 값(7kHz)를 가진 플롯(420), 그리고 플롯들(420, 425)보다 시간의 높은 비율의 최대 대역폭 값을 가진 플롯(430)이 보일 수 있다. 이러한 차이는 임계값들을 수정함으로써 용이하게 확대되거나 감소될 수 있다. 플롯들의 영역(450)에서 명백하게 도시되듯이 제1 히스테리시스의 0 값은 최저로부터 최고로의 대역폭의 빠른 변화를 일으키는 반면, 플롯들의 영역(460)에서 명백하게 도시되듯이 제2 히스테리시스 값의 효과는 최고 대역폭으로부터 낮은 대역폭들로의 느린 변화를 보여준다. 평활화 필터들(330-345)에 의해 수행되는 필터링의 이점은, 약 10프레임보다 적은 값의 변화들 사이의 기간들을 가진 [플롯들(420-430)에 대한 그래프의 예에서의] 출력들(216)의 발생빈도가 매우 낮다는 사실에 비추어 볼 때 명백하다.
특정한 실시예에서, 최대로 허용된 송신 데이터 레이트를 초과하는 임의의 선택 가능한 대역폭들의 사용이 있다면, 송신기 시스템(170)은 언제나 송신된 데이터를 최대로 허용된 송신 데이터 레이트 미만으로 유지하는 낮은 대역폭 프로토콜로 대역폭들의 선택을 제한함으로써 이러한 대역폭들을 가진 프로토콜들이 사용되는 것을 방지하는 로직을 포함할 수 있다. 추가적인 제한이 수신기 시스템(140)에 의해 수신된 프로토콜 메시지에서 수신된 지시에 기초한 임계값 로직 기능부(215)에 포함될 수 있다. 예를 들어, 지시는 여러 상이한 표들의 하나를 선택하기 위해 사용될 수 있으며, 값들의 일부는 높은 대역폭들의 사용을 방지하도록 선택된 임계값들이 있을 수 있고, 또한 지시가 과도한 송신 데이터 레이트를 초래하는 경우에 선택된 대역폭을 낮은 대역폭으로 변경하는 로직일 수 있다.
비트 레이트 값을 선택함으로써 선택된 임계값들(및 일부 실시예들에서 히스테리시스 값들)의 세트들을 정의하는 유연성(flexibility)을 가짐으로써, 오디오 품질이 종래의 기술들을 사용한 시스템들에 대해 비트 레이트 제한들이 부과될 때보다 더 최적으로 유지되는 반면, 채널 조건들에 따라 평균 송신 비트 레이트가 낮아질 수 있다는 점이 이해될 것이다. 일부 실시예들에서, 입력 신호의 대역폭이 시간에 따라 변화하면서, 인코딩 프로토콜의 오디오 대역폭을 입력 신호의 오디오 대역폭에 가능한 한 가깝게 일치시키는 것이 바람직하다는 점이 이해될 것이다. 즉, 입력 신호 중에 차례로 선택된 인코딩 프로토콜들의 오디오 대역폭들이 입력 신호의 가변 대역폭(varying bandwidth)을 추적하도록 임계값들은 경험적으로 결정된다. 사용되는 입력 신호는 인코딩될 것으로 예상하는 전형적인 것들의 하나 이상의 오디오 입력신호 순서이다. 이러한 구성은 중간 채널 비트 레이트들[소위 중간(Med) 비트 레이트 설정]을 달성하는데 적합할 것이다. 일부 실시예들에서, 예를 들어 인코딩 프로토콜에 대해 이용가능한 채널 비트 레이트가 제한되고 입력 신호 대역폭이 감소하여 더 나은 사운딩 합성 오디오가 생성될 때, 오디오 대역폭 인코딩 프로토콜들이 선호되도록 서브-대역 스펙트럼 분석 기능부(210)가 편향될(biased) 수 있고, 이는 소위 낮음(Low) 비트 레이트 설정이다. 일부 실시예에서, 인코딩 프로토콜에 대해 채널 비트 레이트가 이용가능할 때, 더 높은 오디오 대역폭 인코딩 프로토콜들이 선호되도록 서브-대역 스펙트럼 분석 기능부(210)가 편향될 수 있고, 이는 소위 높음(High) 비트 레이트 설정이다. 일부 실시예들에서, 오디오 신호 중에 비트 레이트 값에서의 변화는, 사용되는 인코딩들 프로토콜들의 제한들 내에서 실시가능한 한 빠르게 이용가능한 세트로부터 임계값들의 세트의 선택을 변경하고, 이는 평균 채널 비트 레이트의 더 빠른 변화를 제공한다. 이는 공유된 대역폭을 사용하는 여러 디바이스들의 결합한 대역폭의 제어를 허용한다.
"선호되는" 낮은 오디오 대역폭 인코딩 프로토콜들은, 낮은 오디오 대역폭 인코딩 프로토콜을 사용하여, 제한된 시간 동안 낮은 오디오 대역폭 인코딩 프로토콜의 채널 비트 레이트와 [예를 들어 일부 실시예들에서 10% 이내, 다른 실시예들에서 유사성 허용(similarity tolerance)은 50%만큼 높을 수 있는] 유사한 채널 비트 레이트를 가진 높은 대역폭 인코딩 프로토콜만으로 스위칭하여 기본 출력이 인코딩되도록 임계값들이 경험적으로 설정된다는 것을 의미한다. 높은 오디오 대역폭을 인코딩하는 지각적 장점(perceptual advantage)이 낮은 오디오 대역폭들 내에 오디오 신호로 할당된 인코딩 비트들의 수를 감소시킴으로써 발생하는 저하(degradation)보다 중요할 정도로, 높은 서브-대역에서의 에너지가 충분히 클 때, 이러한 스위칭은 발생할 것이다. 낮은 오디오 대역폭 인코딩 프로토콜이 최저 오디오 서브-대역을 포함하고, 높은 서브-대역(들)까지 포함할 수 있으며, 특정한 높은 오디오 서브-대역을 포함하는(단, 최고 서브-대역은 포함하지 않는) 대역폭을 인코딩한다. 낮은 오디오 대역폭은 인코딩될 것으로 기대되는 타입의 입력 신호들에 기초하여 결정되고, 이론적인 방법들(예를 들어, 정확도), 경험적인 방법들[예를 들어 전문가의 청취, 평균 평가 점수(Mean Opinion Score: MOS) 시험]에 기초하여 결정될 수 있거나, 특정한 시간에 시스템에서 사용 가능한 최저 인코딩 프로토콜 대역폭일 수 있다. "선호되는" 높은 오디오 대역폭들은, 높은 오디오 대역폭 인코딩 프로토콜을 사용하여, 고 주파수 에너지, 예를 들어 입력 신호에서 최고(top) 서브-대역에 대응하는 에너지가 청취자에 의해 감지될 수 없는 시간에 낮은 대역폭 인코딩 프로토콜만으로 스위칭하여 기본 출력이 인코딩되도록 임계값들이 경험적으로 설정된다는 것을 의미한다. 높은 오디오 대역폭 인코딩 프로토콜은 최고 오디오 서브-대역을 포함하고, 낮은 서브-대역(들)까지 포함할 수 있으며, 특정한 낮은 오디오 서브-대역을 포함하는 대역폭을 인코딩한다. 높은 오디오 대역폭은 인코딩될 것으로 기대되는 타입의 입력 신호들에 기초하여 결정되고, 이론적인 방법들(예를 들어 정확도), 경험적인 방법들[예를 들어 전문가의 청취, 평균 평가 점수(MOS) 시험]에 기초하여 결정될 수 있거나, 특정한 시간에 시스템에서 사용 가능한 최고 인코딩 프로토콜 대역폭일 수 있다. 전술된 중간(Med), 낮음(Low), 그리고 높음(High) 비트 레이트들에 대해 경험적으로 결정된 임계값들 설정들은 표 1에서 도시된 것과 같은 대응 표의 형태로(단, 경험적으로 결정된 값들을 가짐) 하나의 실시예에서 사용될 수 있다. 하나의 실시예에서, 중간(Med), 낮음(Low), 그리고 높음(High) 비트 레이트들에 대한 제1 및 제2 히스테리시스 값들도 경험적으로 결정될 수 있다. 제1 및 제2 히스테리시스 값들은 중간(Med), 낮음(Low), 그리고 높음(High) 비트 레이트들에서의 각각의 전환들에 대해 같을 수 있다.
도 6을 참조하여, 특정한 실시예들에 따라, 오디오 신호를 인코딩하는 방법(600)의 소정의 단계들이 도시된다. 인코딩은 셀룰러 텔레폰(cellular telephone) 또는 넷-패드(net-pad), 또는 원격 측정 디바이스, 또는 고정된 네트워크 디바이스와 같은 개인용 통신 디바이스에서 수행될 수 있다. 단계들이 반드시 도시된 순서대로 수행될 필요는 없다. 단계(605)에서, 비트 레이트 값이 수신된다. 비트 레이트 값은 M 개의 비트 레이트 값 중 하나이다. 비트 레이트 값들은 아이덴티티들(identities)을 가질 수 있다. M이 3, 또는 인덱스 값들(제1, 제2, 등등)일 때, 이러한 아이덴티티들의 제한적이지 않은 예는: 낮음, 중간, 높음이다. 단계(610)에서 에너지 임계값들의 세트는 비트 레이트 값에 기초하여 선택된다. 에너지 임계값들의 세트는 에너지 임계값들의 복수(N 개)의 세트 중 하나이다. 에너지 임계값들의 각각 세트의 에너지 임계값은 오디오 신호의 서브-대역의 세트와 일-대-일 방식으로 대응한다. (따라서 오디오 신호의 N 개의 서브-대역이 있다.) 단계(615)에서, 오디오 신호가 수신된다. 단계(620)에서, N 개의 서브-대역 세트의 각각 세트의 에너지가 결정된다. 단계(625)에서, 대응하는 임계값을 초과하는 에너지를 가진 최고 주파수 서브-대역이 결정된다. 단계(630)에서, 오디오 신호의 선택된 대역폭이 인코딩된다. 선택된 대역폭은 실질적으로 오디오 신호의 모든 저 주파수들뿐만 아니라 대응하는 임계값을 초과하는 에너지를 가진 최고 주파수 서브-대역에 있는 오디오 신호의 주파수들도 포함한다. 단계(605-610)가 단계(615-620)의 이전에, 이후에, 또는 대략 동시에 수행될 수 있다는 점이 이해될 것이다. 본 명세서에서 설명되는 단계들과 도 2를 참조하여 설명되는 기능적인 블록들 사이의 관계는 단계들(615 및 620)은 서브-대역 스펙트럼 분석 기능부(210)에 의해 수행될 수 있고; 단계들(605, 610, 및 625)은 임계값 로직 기능부(215)에 의해 수행될 수 있고; 단계(630)는 오디오 인코딩 기능부(220)에 의해 수행될 수 있다.
도 7-9를 참조하여, 특정한 실시예들에 따라, 오디오 신호를 인코딩하는 방법(600)의 소정의 단계가 도시된다. 단계(705)에서(도 7), 선택된 대역폭은 최대로 허용된 송신 데이터 레이트를 초과하는 송신 데이터 레이트가 발생하지 않는 대역폭으로 제한된다. 단계(805)에서(도 8), 히스테리시스 값들의 세트는 비트 레이트 값에 기초하여 선택된다. 값들은 오디오 신호의 서브-대역들에 대응한다. 히스테리시스 값들은 낮은 선택된 대역폭으로부터 높은 선택된 대역폭으로의 변화에 대한 적어도 하나의 히스테리시스 지연 및 높은 선택된 대역폭으로부터 낮은 선택된 대역폭으로의 변화에 대한 히스테리시스 지연을 포함한다. 단계(905)에서(도 9), 이벤트 또는 이벤트들은, 각자의 주기적인 방식(periodic bases)으로, 에너지를 결정하는 단계(620), 최고 주파수 서브-대역을 결정하는 단계(625), 및 인코딩하는 단계(630) 중 적어도 하나의 단계를 수행하도록 사용되는 것에 응답한다. 이벤트들은 다른 이벤트들의 인터럽트(interrupts)이거나 다른 이벤트들의 카운트(counts)일 수 있다. 일부 실시예들에서, 이벤트들은 공통 주기를 사용하여 수행될 수 있다. 특정한 실시예들에서, 주기적인 방식이 모두 동일하지 않을 수 있다. 예를 들어, 에너지를 결정하는 단계(620)는 최고 주파수 서브-대역을 결정하는 단계(625)보다 높은 레이트에서 수행될 수 있다. 이는 몇몇 대역폭 결정들에 대한 지연을 추가하는 효과가 있을 수 있다. 추가적으로, 오디오 신호를 수신하는 단계(615)는, 서브-대역 스펙트럼 분석 기능부(210)에 의해 수행되는 각각 서브-대역의 에너지 결정에 사용되는 주기적인 방식(예를 들어, 오디오 프레임 레이트)보다 훨씬 긴 주기적인 방식(디지털화된 오디오 샘플링 레이트)으로 수행되는 것이 전형적이다.
본 문서에 설명된 프로세스들, (이에 제한되지 않지만) 예를 들어 도 6-9에 설명된 방법 단계들은, CPU의 프로세서가 읽을 수 있는 컴퓨터 판독 가능 매체 상에 포함된 프로그래밍된 명령들을 사용하여 수행될 수 있다. 컴퓨터 판독가능 매체는 마이크로프로세서에 의해 수행되는 명령들을 저장할 수 있는 임의의 유형의 매체이다. 매체는 CD 디스크, DVD 디스크, 자기 또는 광 디스크, 테이프, 그리고 이동식 또는 비-이동식 메모리 기반의 실리콘일 수 중 하나일 수 있거나 하나 이상을 포함할 수 있다. 프로그래밍 명령들은 패킷화된 또는 비-패킷화된 유선 또는 무선 전송 신호들의 형태로도 수행될 수 있다.
전술한 명세서에서, 본 발명의 구체적인 실시예들이 설명된다. 그러나, 통상의 기술자는 이하의 청구범위에 기재된 본 발명의 범위를 벗어나지 않고 다양한 변형들 및 변경들이 만들어질 수 있다는 것을 이해한다. 예로서, 일부 실시예에서 소정의 방법 단계들은 설명된 것보다 상이한 순서로 수행될 수 있고, 기능적인 블록들 내에서 설명된 기능부들은 상이하게 배열될 수 있다[예를 들어 바이어스 표(370) 및 히스테리시스를 가진 임계값 블록들(350-365)이 서브-대역 스펙트럼 분석 기능부(210) 대신에 임계값 로직 기능부(215)의 부분이 될 수 있다]. 다른 예로서, 통상의 기술자에게 공지된 어떤 특정한 조직 및 접근 기술들이 바이어스 표(370)와 같은 표들을 위해 사용될 수 있다. 따라서, 명세서 및 도면들은 제한적인 의미라기보다는 예시적인 것으로 여겨지며, 이러한 모든 변형은 본 발명의 범위 내에 포함되는 것으로 의도된다. 이점들, 장점들, 문제점에 대한 해결책들, 그리고 어떤 이점, 장점, 또는 해결책이 발생하게 하거나 더 명백해질 수 있게 하는 어떤 요소(들)는 어떤 또는 모든 청구항의 중요하고, 필요한, 또는 필수적인 특징들 또는 요소들로서 해석되어서는 안 된다. 본 발명은 본 출원 계속 중에 행해지는 어떤 보정들을 포함하는 첨부된 청구항들 및 이러한 주장된 청구항들의 모든 등가물에 의해서만 정의된다.

Claims (12)

  1. 통신 디바이스에서 오디오 신호의 인코딩(encoding)을 위한 방법으로서,
    상기 통신 디바이스에서 비트 레이트 값을 수신하는 단계;
    상기 통신 디바이스의 프로세싱 시스템에 의해, 상기 비트 레이트 값에 기초하여 에너지 임계값들(energy thresholds)의 세트 - 상기 에너지 임계값들의 세트는 에너지 임계값들의 복수의 세트 중의 하나이고, 에너지 임계값들의 각각의 세트의 상기 에너지 임계값들은 상기 오디오 신호의 서브-대역들(sub-bands)의 세트와 일-대-일 방식으로 대응함 - 를 선택하는 단계;
    상기 통신 디바이스에서 상기 오디오 신호를 수신하는 단계;
    상기 프로세싱 시스템에 의해, 상기 서브-대역들의 세트의 각각의 서브-대역의 에너지를 결정하는 단계;
    상기 프로세싱 시스템에 의해, 상기 대응하는 임계값을 초과하는 에너지를 가진 최고 주파수 서브-대역(highest frequency sub-band)을 결정하는 단계;
    상기 프로세싱 시스템에 의해, 고역-통과의 차단 주파수(high-pass cut-off frequency)를 초과하는 상기 오디오 신호의 모든 저 주파수들(all lower frequencies)뿐만 아니라 상기 대응하는 임계값을 초과하는 에너지를 가진 상기 최고 주파수 서브-대역에 있는 상기 오디오 신호의 주파수들도 포함하는 상기 오디오 신호의 선택된 대역폭을 결정하는 단계; 및
    상기 통신 디바이스의 오디오 코딩 기능부(audio coding function)에 의해, 상기 선택된 대역폭을 인코딩하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 프로세싱 시스템에 의해, 상기 선택된 대역폭을 최대로 허용된 송신 데이터 레이트를 초과하는 송신 데이터 레이트가 발생하지 않는 대역폭으로 제한하는 단계
    를 더 포함하는 방법.
  3. 제1항에 있어서,
    상기 프로세싱 시스템에 의해, 상기 오디오 신호의 서브-대역들의 상기 세트에 대응하는 상기 비트 레이트 값에 기초하여 히스테리시스(hysteresis) 값들의 세트를 선택하는 단계 - 상기 히스테리시스 값들은 낮은 선택된 대역폭으로부터 높은 선택된 대역폭으로의 변화에 대한 히스테리시스 지연(delay) 및 높은 선택된 대역폭으로부터 낮은 선택된 대역폭으로의 변화에 대한 히스테리시스 지연 중 적어도 하나를 포함함 -
    를 더 포함하는 방법.
  4. 제1항에 있어서,
    상기 프로세싱 시스템에 의해, 상기 오디오 신호의 인코딩 동안에, 각자의 주기적 방식(respective periodic bases)으로 상기 에너지를 결정하는 단계, 상기 최고 주파수 서브-대역을 결정하는 단계, 및 상기 인코딩하는 단계를 수행하는 단계
    를 더 포함하는 방법.
  5. 제1항에 있어서,
    에너지 임계값들의 두 개 이상의 세트의 상기 임계값들은, 낮은(lower) 오디오 대역폭 인코딩 프로토콜들이 선호되는(favored) 조건, 선택된 상기 인코딩 프로토콜들의 오디오 대역폭들이 입력 신호의 가변 대역폭(varying bandwidth)을 추적하는 조건, 및 높은(higher) 오디오 대역폭 인코딩 프로토콜들이 선호되는 조건 중에서 두 개 이상의 조건이 존재하도록 하는, 방법.
  6. 제1항에 있어서,
    상기 오디오 신호 동안 상기 비트 레이트 값의 변화가 상기 복수의 세트로부터 상기 임계값들의 세트의 상기 선택을 변경하는, 방법.
  7. 오디오 신호의 인코딩(encoding)을 위한 장치로서,
    비트 레이트 값을 수신하기 위한 통신 디바이스의 수신기; 및
    상기 비트 레이트 값에 기초한 에너지 임계값들의 세트 - 상기 에너지 임계값들의 세트는 에너지 임계값들의 복수의 세트 중의 하나이고, 에너지 임계값들의 각각의 세트의 상기 에너지 임계값들은 상기 오디오 신호의 서브-대역의 세트와 일-대-일 방식으로 대응함 - 를 선택하고;
    상기 오디오 신호를 수신하고,
    상기 서브-대역들의 세트의 각각의 서브-대역의 에너지를 결정하고,
    상기 대응하는 임계값을 초과하는 에너지를 가진 최고 주파수 서브-대역을 결정하고,
    고역-통과의 차단 주파수를 초과하는 상기 오디오 신호의 모든 저 주파수들뿐만 아니라 상기 대응하는 임계값을 초과하는 에너지를 가진 상기 최고 주파수 서브-대역에 있는 상기 오디오 신호의 주파수들도 포함하는 상기 오디오 신호의 선택된 대역폭을 결정하고;
    상기 선택된 대역폭을 인코딩하도록 구성된 상기 통신 디바이스의 프로세싱 시스템
    을 포함하는 장치.
  8. 제7항에 있어서,
    상기 통신 디바이스의 상기 프로세싱 시스템은, 상기 선택된 대역폭을 최대로 허용된 송신 데이터 레이트를 초과하는 송신 데이터 레이트가 발생하지 않는 대역폭으로 제한하도록 더 구성되는 장치.
  9. 제7항에 있어서,
    상기 통신 디바이스의 상기 프로세싱 시스템은, 상기 오디오 신호의 서브-대역들의 상기 세트에 대응하는 상기 비트 레이트 값에 기초하여 히스테리시스 값들 - 상기 히스테리시스 값들은 낮은 선택된 대역폭으로부터 높은 선택된 대역폭으로의 변화에 대한 히스테리시스 지연 및 높은 선택된 대역폭으로부터 낮은 선택된 대역폭으로의 변화에 대한 히스테리시스 지연 중 적어도 하나를 포함함 - 의 세트를 선택하도록 더 구성되는 장치.
  10. 제7항에 있어서,
    상기 통신 디바이스의 상기 프로세싱 시스템은, 상기 오디오 신호의 인코딩 동안에, 각자의 주기적인 방식으로 상기 에너지를 결정하고, 상기 최고 주파수 서브-대역을 결정하며, 상기 인코딩하도록 더 구성되는 장치.
  11. 제7항에 있어서,
    에너지 임계값들의 두 개 이상의 세트의 상기 임계값들은, 낮은(lower) 오디오 대역폭 인코딩 프로토콜들이 선호되는(favored) 조건, 선택된 상기 인코딩 프로토콜들의 오디오 대역폭들이 입력 신호의 가변 대역폭(varying bandwidth)을 추적하는 조건, 및 높은(higher) 오디오 대역폭 인코딩 프로토콜들이 선호되는 조건 중에서 두 개 이상의 조건이 존재하도록 하는, 장치.
  12. 제7항에 있어서,
    상기 오디오 신호 동안 상기 비트 레이트 값의 변화가 상기 복수의 세트로부터 상기 임계값들의 세트의 상기 선택을 변경하는, 장치.
KR1020147015911A 2011-12-12 2012-12-03 오디오 인코딩을 위한 장치 및 방법 KR101454581B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/316,895 2011-12-12
US13/316,895 US8666753B2 (en) 2011-12-12 2011-12-12 Apparatus and method for audio encoding
PCT/US2012/067532 WO2013090039A1 (en) 2011-12-12 2012-12-03 Apparatus and method for audio encoding

Publications (2)

Publication Number Publication Date
KR20140085596A KR20140085596A (ko) 2014-07-07
KR101454581B1 true KR101454581B1 (ko) 2014-10-28

Family

ID=47358302

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147015911A KR101454581B1 (ko) 2011-12-12 2012-12-03 오디오 인코딩을 위한 장치 및 방법

Country Status (7)

Country Link
US (1) US8666753B2 (ko)
EP (1) EP2791936A1 (ko)
JP (1) JP5775227B2 (ko)
KR (1) KR101454581B1 (ko)
CN (1) CN103999154B (ko)
CA (1) CA2859013C (ko)
WO (1) WO2013090039A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
JP6556473B2 (ja) * 2015-03-12 2019-08-07 株式会社東芝 送信装置、音声認識システム、送信方法、およびプログラム
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
EP3343558A4 (en) 2015-09-04 2018-07-04 Samsung Electronics Co., Ltd. Signal processing methods and apparatuses for enhancing sound quality
CN109416914B (zh) 2016-06-24 2023-09-26 三星电子株式会社 适于噪声环境的信号处理方法和装置及使用其的终端装置
CN109923786B (zh) * 2016-11-08 2023-10-24 皇家飞利浦有限公司 用于无线数据传输范围扩展的方法
GB201620317D0 (en) * 2016-11-30 2017-01-11 Microsoft Technology Licensing Llc Audio signal processing
CN112530444B (zh) 2019-09-18 2023-10-03 华为技术有限公司 音频编码方法和装置
CN112599140B (zh) * 2020-12-23 2024-06-18 北京百瑞互联技术股份有限公司 一种优化语音编码速率和运算量的方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742734A (en) 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US20100324708A1 (en) 2007-11-27 2010-12-23 Nokia Corporation encoder

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5115240A (en) 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US6091723A (en) * 1997-10-22 2000-07-18 Lucent Technologies, Inc. Sorting networks having improved layouts
CA2388358A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for multi-rate lattice vector quantization
AU2003219430A1 (en) * 2003-03-04 2004-09-28 Nokia Corporation Support of a multichannel audio extension
DE602004007945T2 (de) * 2003-09-29 2008-05-15 Koninklijke Philips Electronics N.V. Codierung von audiosignalen
JP2006018023A (ja) 2004-07-01 2006-01-19 Fujitsu Ltd オーディオ信号符号化装置、および符号化プログラム
JP2010503881A (ja) * 2006-09-13 2010-02-04 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声・音響送信器及び受信器のための方法及び装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742734A (en) 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US20100324708A1 (en) 2007-11-27 2010-12-23 Nokia Corporation encoder

Also Published As

Publication number Publication date
KR20140085596A (ko) 2014-07-07
WO2013090039A1 (en) 2013-06-20
CA2859013C (en) 2016-01-26
CA2859013A1 (en) 2013-06-20
US20130151260A1 (en) 2013-06-13
US8666753B2 (en) 2014-03-04
CN103999154A (zh) 2014-08-20
JP5775227B2 (ja) 2015-09-09
EP2791936A1 (en) 2014-10-22
JP2015505991A (ja) 2015-02-26
CN103999154B (zh) 2015-07-15

Similar Documents

Publication Publication Date Title
KR101454581B1 (ko) 오디오 인코딩을 위한 장치 및 방법
CN107408392B (zh) 译码方法和设备
EP3815082B1 (en) Adaptive comfort noise parameter determination
CN102158778A (zh) 一种降低耳机噪声的方法、设备和系统
US11568882B2 (en) Inter-channel phase difference parameter encoding method and apparatus
KR20030070244A (ko) 고속 최적화된 무선마이크 장치 및 그 제어방법
RU2419172C2 (ru) Системы и способы динамической нормализации для уменьшения потери точности для сигналов с низким уровнем
CN1902845A (zh) 数字麦克风
EP3991170A1 (en) Determination of spatial audio parameter encoding and associated decoding
JP5447628B1 (ja) 無線通信装置及び通信端末
US20200037072A1 (en) Wireless communication device, audio signal controlling method, and non-transitory computer-readable storage medium
JPH07283758A (ja) 無線通信装置
JP2005165183A (ja) 無線通信装置
WO2021095754A1 (ja) データ処理装置、データ処理方法およびデータ処理プログラム
JP6074661B2 (ja) 無線通信装置及び通信端末
KR20020012376A (ko) 특정 주파수대의 에너지 비를 이용한 톤 신호 검출 방법
US20180151190A1 (en) Voice processing method, voice communication device and computer program product thereof
JP2015227912A (ja) オーディオ符号化装置、および方法

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171012

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181010

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191008

Year of fee payment: 6