KR102610946B1 - 고 대역 여기 신호 생성 - Google Patents

고 대역 여기 신호 생성 Download PDF

Info

Publication number
KR102610946B1
KR102610946B1 KR1020227027791A KR20227027791A KR102610946B1 KR 102610946 B1 KR102610946 B1 KR 102610946B1 KR 1020227027791 A KR1020227027791 A KR 1020227027791A KR 20227027791 A KR20227027791 A KR 20227027791A KR 102610946 B1 KR102610946 B1 KR 102610946B1
Authority
KR
South Korea
Prior art keywords
signal
band
low
audio signal
amplitude
Prior art date
Application number
KR1020227027791A
Other languages
English (en)
Other versions
KR20220117347A (ko
Inventor
프라빈 쿠마르 라마다스
다니엘 제이 신더
스테빤 피에르 빌레뜨
비베크 라젠드란
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20220117347A publication Critical patent/KR20220117347A/ko
Application granted granted Critical
Publication of KR102610946B1 publication Critical patent/KR102610946B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Amplifiers (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuits Of Receivers In General (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

특정 방법은, 디바이스에서, 입력 신호의 성음 분류를 결정하는 단계를 포함한다. 입력 신호는 오디오 신호에 대응한다. 그 방법은 성음 분류에 기초하여 입력 신호의 표현의 포락선의 양을 제어하는 단계를 또한 포함한다. 그 방법은 포락선의 제어된 양에 기초하여 백색 잡음 신호를 변조하는 단계를 더 포함한다. 그 방법은 변조된 백색 잡음 신호에 기초하여 고 대역 여기 신호를 생성하는 단계를 또한 포함한다.

Description

고 대역 여기 신호 생성{HIGH BAND EXCITATION SIGNAL GENERATION}
우선권 주장
본 출원은 2014년 4월 30일자로 출원된 발명의 명칭이 "HIGH BAND EXCITATION SIGNAL GENERATION"인 미국 출원 제14/265,693호를 우선권 주장하며, 그 내용은 그 전부가 참조로 본원에 통합된다.
분야
본 개시물은 고 대역 여기 신호 생성에 일반적으로 관련된다.
기술에서의 진보가 컴퓨팅 디바이스들이 더 작고 더 강력해지게 하였다. 예를 들어, 작으며, 경량이고, 사용자들이 쉽게 운반하는 무선 컴퓨팅 디바이스들, 이를테면 휴대용 무선 전화기들, 개인 정보 단말기들 (PDA들), 및 페이징 디바이스들을 포함한 다양한 휴대용 개인 컴퓨팅 디바이스들이 현재 존재한다. 더 구체적으로는, 휴대용 무선 전화기들, 이를테면 셀룰러 전화기들 및 인터넷 프로토콜 (IP) 전화기들이 무선 네트워크들을 통해 음성 및 데이터 패킷들을 통신할 수 있다. 게다가, 많은 이러한 무선 전화기들은 그 속에 통합되는 다른 유형들의 디바이스들을 포함한다. 예를 들어, 무선 전화기는 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어를 또한 포함할 수 있다.
디지털 기법들에 의한 음성의 송신이, 특히 장 거리 및 디지털 무선 전화기 애플리케이션들에서 널리 퍼져 있다. 스피치가 샘플링 및 디지털화하여 송신된다면, 초당 64 킬로비트 (kbps) 정도의 데이터 레이트가 아날로그 전화기의 통화품질을 성취하는데 사용될 수도 있다. 압축 기법들이 복원된 스피치의 지각된 품질을 유지하면서 채널을 통해 전송되는 정보의 양을 감소시키는데 사용될 수도 있다. 스피치 분석과, 뒤따르는 코딩, 송신, 및 수신기에서의 재-합성의 사용을 통해, 데이터 레이트에서의 상당한 감소가 성취될 수도 있다.
스피치를 압축하기 위한 디바이스들이 많은 원거리통신 분야들에서의 사용을 찾을 수도 있다. 예를 들어, 무선 통신들은, 예컨대, 코드리스 전화들, 페이징, 무선 로컬 루프들, 셀룰러 및 개인 통신 서비스 (PCS) 전화 시스템들과 같은 무선 전화, 모바일 인터넷 프로토콜 (IP) 전화, 및 위성 통신 시스템들을 포함하는 많은 애플리케이션들을 갖는다. 특정 애플리케이션은 모바일 가입자들을 위한 무선 전화이다.
다양한 OTA (over-the-air) 인터페이스들이, 예컨대, 주파수 분할 다중 접속 (FDMA), 시분할 다중 접속 (TDMA), 코드 분할 다중 접속 (CDMA), 및 시분할-동기식 CDMA (TD-SCDMA) 를 포함하는 무선 통신 시스템들에 대해 개발되었다. 그것들에 관련하여, 예컨대, AMPS (Advanced Mobile Phone Service), 이동 통신용 글로벌 시스템 (GSM), 및 잠정 표준 95 (IS-95) 를 포함하는 다양한 국내 및 국제 표준들이 확립되었다. 예시적인 무선 전화 통신 시스템이 코드 분할 다중 접속 (CDMA) 시스템이다. IS-95 표준과 그것의 파생물들, 즉 IS-95A, ANSI J-STD-008, 및 IS-95B (본 명세서에서는 총괄하여 IS-95라고 지칭됨) 가, 셀룰러 또는 PCS 전화 통신 시스템들에 대한 CDMA OTA (over-the-air) 인터페이스의 사용을 특정하기 위해 통신 산업 협회 (TIA) 와 다른 널리 공지된 표준화 단체들에 의해 공포되어 있다.
나중에 "3G" 시스템들, 이를테면 cdma2000과 WCDMA로 진화되는 IS-95 표준은 더 많은 용량 및 고속 패킷 데이터 서비스들을 제공한다. cdma2000의 두 개의 변형예들이 TIA에 의해 발행된 문서들인 IS-2000 (cdma2000 1xRTT) 및 IS-856 (cdma2000 1xEV-DO) 에 의해 제시된다. cdma2000 1xRTT 통신 시스템은 153 kbps의 피크 데이터 레이트를 제공하는 반면 cdma2000 1xEV-DO 통신 시스템은 38.4 kbps부터 2.4 Mbps까지에 이르는 데이터 레이트들의 세트를 정의한다. WCDMA 표준은 3세대 파트너십 프로젝트 "3GPP", 문서 번호 3G TS 25.211, 3G TS 25.212, 3G TS 25.213, 및 3G TS 25.214에서 구체화된다. IMT-Advanced (International Mobile Telecommunications Advanced) 규격은 "4G" 표준들을 기술한다. IMT-Advanced 규격은 4G 서비스를 위한 피크 데이터 레이트를 (예컨대, 열차들 및 자동차들로부터의) 높은 이동도 통신에 대한 100의 초당 메가비트 (Mbit/s) 와 (예컨대, 보행자들 및 정지 사용자들로부터의) 낮은 이동도 통신에 대한 1의 초당 기가비트 (Gbit/s) 로 설정한다.
인간 스피치 생성의 모델에 관련한 파라미터들을 추출함으로써 스피치를 압축하는 기법들을 채용하는 디바이스들이 스피치 코더들이라 지칭된다. 스피치 코더들은 인코더와 디코더를 포함할 수도 있다. 인코더는 들어오는 스피치 신호를 시간의 블록들, 또는 분석 프레임들로 분할한다. 시간에서의 각각의 세그먼트의 지속기간 (또는 "프레임") 은 신호의 스펙트럼 포락선 (envelope) 이 상대적으로 정적으로 유지되는 것이 예상될 수도 있을 만큼 충분히 짧게 선택될 수도 있다. 예를 들어, 하나의 프레임 길이가 20 밀리초일 수도 있는데, 이는 8 킬로헤르츠 (kHz) 의 샘플링 레이트에서의 160 개 샘플들에 대응하지만, 특정 애플리케이션에 적합하다고 여겨지는 임의의 프레임 길이 또는 샘플링 레이트가 사용될 수도 있다.
인코더는 들어오는 스피치 프레임을 분석하여 특정한 관련 파라미터들을 추출한 다음, 그 파라미터들을 이진 표현으로, 예컨대, 비트들의 세트 또는 이진 데이터 패킷으로 양자화한다. 데이터 패킷들은 통신 채널 (즉, 유선 및/또는 무선 네트워크 접속) 을 통해 수신기와 디코더로 송신된다. 디코더는 그 데이터 패킷들을 프로세싱하며, 프로세싱된 데이터 패킷들을 역양자화하여 파라미터들을 생성하고, 역양자화된 파라미터들을 사용하여 스피치 프레임들을 재합성한다.
스피치 코더의 기능은 스피치에 내재하는 자연적인 리던던시들을 제거함으로써 디지털화된 스피치 신호를 저-비트-레이트 신호로 압축하는 것이다. 디지털 압축은 입력 스피치 프레임을 파라미터들의 세트로 표현하고 그 파라미터들을 비트들의 세트로 표현하는 양자화를 채용함으로써 성취될 수도 있다. 입력 스피치 프레임이 다수의 비트들 (Ni) 을 갖고 스피치 코더에 의해 생성된 데이터 패킷이 다수의 비트들 (No) 을 갖는다면, 스피치 코더에 의해 성취되는 압축비 (compression factor) 는 Cr = Ni/No이다. 도전과제는 타겟 압축비를 성취하면서도 디코딩된 스피치의 높은 음성 품질을 유지하는 것이다. 스피치 코더의 성능은 (1) 스피치 모델, 또는 위에서 설명된 분석 및 합성 프로세스의 조합이 얼마나 잘 수행하는지와, (2) 파라미터 양자화 프로세스가 프레임당 No 개 비트들의 타겟 비트 레이트에서 얼마나 잘 수행되는지에 의존한다. 따라서, 스피치 모델의 목표는 각각의 프레임에 대해 파라미터들의 작은 세트로 스피치 신호의 에센스, 또는 타겟 음성 품질을 캡처하는 것이다.
스피치 코더들은 스피치 신호를 설명하기 위해 파라미터들 (벡터들을 포함함) 의 세트를 일반적으로 이용한다. 양호한 파라미터들의 세트가 지각적으로 정확한 스피치 신호의 복원을 위해 낮은 시스템 대역폭을 제공하다. 피치, 신호 전력, 스펙트럼 포락선 (또는 포먼트들 (formants)), 진폭 및 위상 스펙트럼들이 스피치 코딩 파라미터들의 예들이다.
스피치 코더들은 높은 시간-분해능 프로세싱을 채용하여 스피치의 작은 세그먼트들 (예컨대, 5 밀리초 (ms) 서브-프레임들) 을 한꺼번에 인코딩함으로써 시간 도메인 스피치 파형을 캡처하는 것을 시도하는 시간 도메인 코더들로서 구현될 수도 있다. 각각의 서브-프레임에 대해, 코드북 공간으로부터의 고-정밀도 대표가 검색 알고리즘에 의해 찾아진다. 대안적으로, 스피치 코더들은, 입력 스피치 프레임의 단기 스피치 스펙트럼을 파라미터들의 세트로 캡처하고 (분석) 그리고 대응하는 합성 프로세스를 채용하여 스펙트럼 파라미터들로부터 스피치 파형을 재생성하는 것을 시도하는 주파수-도메인 코더들로서 구현될 수도 있다. 파라미터 양자화기는 파라미터들을 알려진 양자화 기법들에 따른 코드 벡터들의 저장된 표현들로 표현함으로써 그 파라미터들을 보존한다.
하나의 시간 도메인 스피치 코더는 코드 여기 선형 예측 (CELP) 코더이다. CELP 코더에서는, 스피치 신호에서, 단기 상관들, 또는 리던던시들이 단기 포먼트 필터의 계수들을 찾는 선형 예측 (LP) 분석에 의해 제거된다. 단기 예측 필터를 들어오는 스피치 프레임에 적용하는 것은 LP 레지듀 신호를 생성하는데, 이 LP 레지듀 신호는 장기 예측 필터 파라미터들과 후속하는 추계학적 (stochastic) 코드북으로 추가로 모델링 및 양자화된다. 따라서, CELP 코딩은 시간-도메인 스피치 파형을 인코딩하는 태스크를 별개의 태스크들, 즉 LP 단기 필터 계수들을 인코딩하는 태스크와 LP 레지듀를 인코딩하는 태스크로 분할한다. 시간 도메인 코딩은 고정된 레이트에서 (즉, 각각의 프레임에 대해 비트들의 동일한 수 (No) 를 사용하여) 또는 가변 레이트 (상이한 비트 레이트들이 상이한 유형들의 프레임 콘텐츠들에 대해 사용됨) 에서 수행될 수 있다. 가변-레이트 코더들은 파라미터들을 타겟 품질을 획득하기에 적절한 레벨로 인코딩하는데 필요한 비트들의 양을 사용하는 것을 시도한다.
CELP 코더와 같은 시간 도메인 코더들은 시간 도메인 스피치 파형의 정확도를 보존하기 위해 프레임당 비트들의 높은 수 (N0) 에 의존할 수도 있다. 이러한 코더들은 프레임당 비트들의 수 (No) 가 비교적 크다 (예컨대, 8 kbps 이상) 면 탁월한 음성 품질을 전달할 수도 있다. 낮은 비트 레이트들 (예컨대, 4 kbps 이하) 에서, 시간 도메인 코더들은 이용가능 비트들의 제한된 수로 인해 고품질 및 강건한 성능을 유지하는데 실패할 수도 있다. 낮은 비트 레이트들에서, 제한된 코드북 공간은 더 높은-레이트의 상업적 애플리케이션들에서 전개되는 시간 도메인 코더들의 파형-매칭 능력을 클리핑한다. 그런고로, 낮은 비트 레이트들에서 동작하는 많은 CELP 코딩 시스템들이 잡음으로서 특징화되는 지각적으로 현저한 왜곡을 겪는다.
낮은 비트 레이트들에서의 CELP 코더들에 대한 대안이 CELP 코더와 유사한 원리들 하에서 동작하는 "잡음 여기 선형 예측" (NELP) 코더이다. NELP 코더들은, 코드북보다는, 필터링된 의사-랜덤 잡음 신호를 사용하여 스피치를 필터링한다. NELP가 코딩된 스피치에 대해 더 간단한 모델을 사용하므로, NELP는 CELP보다 더 낮은 비트 레이트를 성취한다. NELP는 무성음 스피치 또는 침묵을 압축 또는 표현하기 위해 사용될 수도 있다.
2.4 kbps 정도의 레이트들에서 동작하는 코딩 시스템들이 사실상 일반적으로 파라미터적이다. 다시 말하면, 이러한 코딩 시스템들은 스피치 신호의 피치-기간 및 스펙트럼 포락선 (또는 포먼트들) 을 일정한 간격들로 설명하는 파라미터들을 송신함으로써 동작한다. 그러한 파라메트릭 코더들의 예시가 LP 보코더이다.
LP 보코더들은 유성음 스피치 신호를 피치 기간당 단일 펄스로 모델링한다. 이 기본적인 기법이, 무엇보다도, 스펙트럼 포락선에 관한 송신 정보를 포함하도록 확장될 수도 있다. 비록 LP 보코더들이 합리적인 성능을 일반적으로 제공하지만, 그들 LP 보코더들은 버즈 (buzz) 로서 특징화되는 지각적으로 현저한 왜곡을 도입할 수도 있다.
근년에, 파형 코더들 및 파라메트릭 코더들 양쪽 모두의 하이브리드들인 코더들이 출현하였다. 이들 하이브리드 코더들의 예시가 프로토타입-파형 보간 (PWI) 스피치 코딩 시스템이다. PWI 스피치 코딩 시스템은 프로토타입 피치 기간 (PPP) 스피치 코더로서 또한 알려져 있을 수도 있다. PWI 스피치 코딩 시스템은 유성음 스피치를 코딩하기 위한 효율적인 방법을 제공한다. PWI의 기본 개념은 고정된 간격들에서 대표 피치 사이클 (프로토타입 파형) 을 추출하며, 그것의 디스크립션을 송신하고, 프로토타입 파형들 사이를 보간함으로써 스피치 신호를 복원한다는 것이다. PWI 방법은 LP 잔차 신호 또는 스피치 신호 중 어느 하나로 동작할 수도 있다.
전통적인 전화기 시스템들 (예컨대, 공중전화 교환망들 (PSTN들)) 에서, 신호 대역폭은 300 헤르츠 (Hz) 내지 3.4 킬로헤르츠 (kHz) 의 주파수 범위로 제한된다. 광대역 (WB) 애플리케이션들, 이를테면 셀룰러 전화 및 VoIP (voice over internet protocol) 에서, 신호 대역폭은 50 Hz부터 7 kHz까지의 주파수 범위에 걸쳐 있을 수도 있다. 초광대역 (SWB) 코딩 기법들은 대략 16 kHz까지 연장하는 대역폭을 지원한다. 3.4 kHz의 협대역 전화로부터 16 kHz의 SWB 전화까지 신호 대역폭을 확장하는 것은 신호 복원의 품질, 명료도, 및 자연스러움을 개선할 수도 있다.
광대역 코딩 기법들이 신호의 더 낮은 주파수 부분 (예컨대, 50 Hz 내지 7 kHz, 또한 "저대역 (low-band)"이라 지칭됨) 의 인코딩 및 송신을 수반한다. 코딩 효율을 개선하기 위하여, 신호의 더 높은 주파수 부분 (예컨대, 7 kHz 내지 16 kHz, 또한 "고대역 (high-band)"이라 지칭됨) 은 완전히 인코딩되고 송신되지 못할 수도 있다. 저 대역 신호의 속성들은 고 대역 신호를 생성하는데 사용될 수도 있다. 예를 들어, 고 대역 여기 신호가 비선형 모델 (예컨대, 절대 값 함수) 를 사용하여 저 대역 잔차에 기초하여 생성될 수도 있다. 저 대역 잔차가 펄스들로 희박 코딩되는 경우, 희박 코딩된 잔차로부터 생성된 고 대역 여기 신호는 고 대역의 무성음화된 영역들에서 아티팩트들을 초래할 수도 있다.
고 대역 여기 신호 생성을 위한 시스템들 및 방법들이 개시된다. 오디오 디코더가 송신 디바이스에서 오디오 인코더에 의해 인코딩된 오디오 신호들을 수신할 수도 있다. 오디오 디코더는 특정 오디오 신호의 성음 분류 (voicing classification) (예컨대, 강유성음(strongly voiced), 약유성음(weakly voiced), 약무성음(weakly unvoiced), 강무성음(strongly unvoiced)) 를 결정할 수도 있다. 예를 들어, 특정 오디오 신호는 범위가 강유성음 (예컨대, 스피치 신호) 부터 강무성음 (예컨대, 잡음 신호) 까지에 이를 수도 있다. 오디오 디코더는 성음 분류에 기초하여 입력 신호의 표현의 포락선의 양을 제어할 수도 있다.
포락선의 양을 제어하는 것은 포락선의 특성 (예컨대, 형상, 주파수 범위, 이득, 및/또는 크기) 를 제어하는 것을 포함할 수도 있다. 예를 들어, 오디오 디코더는 인코딩된 오디오 신호로부터 저 대역 여기 신호를 생성할 수도 있고 성음 분류에 기초하여 저 대역 여기 신호의 포락선의 형상을 제어할 수도 있다. 예를 들어, 오디오 디코더는 저 대역 여기 신호에 적용된 필터의 차단 주파수에 기초하여 포락선의 주파수 범위를 제어할 수도 있다. 다른 예로서, 오디오 디코더는 성음 분류에 기초하여 선형 예측 코딩 (LPC) 계수들 중 하나 이상의 극점(pole)들을 조정함으로써 포락선의 크기, 포락선의 형상, 포락선의 이득, 또는 그 조합을 제어할 수도 있다. 추가의 예로서, 오디오 디코더는 성음 분류에 기초하여 필터의 계수들을 조정함으로써 포락선의 크기, 포락선의 형상, 포락선의 이득, 또는 그 조합을 제어할 수도 있는데, 그 필터가 저 대역 여기 신호에 적용된다.
오디오 디코더는 포락선의 제어된 양에 기초하여 백색 잡음 신호를 변조할 수도 있다. 예를 들어, 변조된 백색 잡음 신호는 성음 분류가 강무성음인 경우보다 성음 분류가 강유성음인 경우 저 대역 여기 신호에 더 많이 대응할 수도 있다. 오디오 디코더는 변조된 백색 잡음 신호에 기초하여 고 대역 여기 신호를 생성할 수도 있다. 예를 들어, 오디오 디코더는 저 대역 여기 신호를 확장할 수도 있고 변조된 백색 잡음 신호와 확장된 저 대역 신호를 결합하여 고 대역 여기 신호를 생성할 수도 있다.
특정 실시형태에서, 방법이, 디바이스에서, 입력 신호의 성음 분류를 결정하는 단계를 포함한다. 입력 신호는 오디오 신호에 대응한다. 그 방법은 성음 분류에 기초하여 입력 신호의 표현의 포락선의 양을 제어하는 단계를 또한 포함한다. 그 방법은 포락선의 제어된 양에 기초하여 백색 잡음 신호를 변조하는 단계를 더 포함한다. 그 방법은 변조된 백색 잡음 신호에 기초하여 고 대역 여기 신호를 생성하는 단계를 포함한다.
다른 특정한 실시형태에서, 장치가 성음 분류기, 포락선 조정기, 변조기, 및 출력 회로를 포함한다. 성음 분류기는 입력 신호의 성음 분류를 결정하도록 구성된다. 입력 신호는 오디오 신호에 대응한다. 포락선 조정기는 성음 분류에 기초하여 입력 신호의 표현의 포락선의 양을 제어하도록 구성된다. 변조기는 포락선의 제어된 양에 기초하여 백색 잡음 신호를 변조하도록 구성된다. 출력 회로는 변조된 백색 잡음 신호에 기초하여 고 대역 여기 신호를 생성하도록 구성된다.
다른 특정한 실시형태에서, 컴퓨터-판독가능 저장 디바이스는, 적어도 하나의 프로세서에 의해 실행되는 경우, 적어도 하나의 프로세서로 하여금 입력 신호의 성음 분류를 결정하게 하는 명령들을 저장한다. 그 명령들은, 적어도 하나의 프로세서에 의해 실행되는 경우, 또한, 적어도 하나의 프로세서로 하여금, 성음 분류에 기초하여 입력 신호의 표현의 포락선의 양을 제어하게 하며, 포락선의 제어된 양에 기초하여 백색 잡음 신호를 변조하게 하고, 변조된 백색 잡음 신호에 기초하여 고 대역 여기 신호를 생성하게 한다.
개시된 실시형태들 중 적어도 하나에 의해 제공된 특정 장점들은 무성음화된 오디오 신호에 대응하는 평활 사운딩 합성된 오디오 신호를 생성하는 것을 포함한다. 예를 들어, 무성음화된 오디오 신호에 대응하는 합성된 오디오 신호는 적거나 (또는 없는) 아티팩트들을 가질 수도 있다. 본 개시물의 다른 양태들, 장점들, 및 특징들은 다음의 섹션들: 즉, 도면의 간단한 설명, 상세한 설명 및 청구범위를 포함하는 본원의 검토 후에 명확하게 될 것이다.
도 1은 고 대역 여기 신호 생성을 수행하도록 동작 가능한 디바이스의 포함하는 시스템의 특정 실시형태를 예시하는 도면이며;
도 2는 고 대역 여기 신호 생성을 수행하도록 동작 가능한 디코더의 특정 실시형태를 예시하는 도면이며;
도 3은 고 대역 여기 신호 생성을 수행하도록 동작 가능한 인코더의 특정 실시형태를 예시하는 도면이며;
도 4는 고 대역 여기 신호 생성의 방법의 특정 실시형태를 예시하는 도면이며;
도 5는 고 대역 여기 신호 생성의 방법의 다른 실시형태를 예시하는 도면이며;
도 6은 고 대역 여기 신호 생성의 방법의 다른 실시형태를 예시하는 도면이며;
도 7은 고 대역 여기 신호 생성의 방법의 다른 실시형태를 예시하는 도면이며;
도 8은 고 대역 여기 신호 생성의 방법의 다른 실시형태를 예시하는 흐름도이며;
도 9는 도 1 내지 도 8의 시스템들 및 방법들에 따른 고 대역 여기 신호 생성을 수행하도록 동작 가능한 디바이스의 블록도이다.
본 명세서에서 설명되는 원리들은, 예를 들어, 고 대역 여기 신호 생성을 수행하도록 구성된 헤드셋, 핸드셋, 또는 다른 오디오 디바이스에 적용될 수도 있다. 문맥에서 명확히 제한되지 않는 한, "신호"라는 용어는 본 명세서에서는 와이어, 버스, 또는 다른 송신 매체 상에서 표현되는 바와 같은 메모리 위치 (또는 메모리 위치들의 세트) 의 상태를 포함하여 그것의 일반적인 의미들 중 임의의 것을 나타내기 위해 사용된다. 문맥에서 명확히 제한되지 않는 한, "생성하는"이란 용어는 본 명세서에서는 컴퓨팅하거나 그렇지 않으면 생산하는 것과 같은 그것의 일반적인 의미들 중 임의의 것을 나타내기 위해 사용된다. 문맥에서 명확히 제한되지 않는 한, "계산하는"이란 용어는 본 명세서에서는 컴퓨팅하는, 평가하는, 평활화 (smoothing) 하는 및/또는 복수 개의 값들 중에서 선택하는 것과 같은 그것의 일반적인 의미들 중의 임의의 것을 나타내는데 사용된다. 문맥에서 명확히 제한되지 않는 한, "획득하는 (obtaining)"이란 용어는 계산하는, 도출하는, (예컨대, 다른 컴포넌트, 블록 또는 디바이스로부터) 수신하는, 및/또는 (예컨대, 메모리 레지스터 또는 저장 엘리먼트들의 어레이로부터) 취출하는 것과 같은 그것의 일반적인 의미들 중 임의의 것을 나타내기 위해 사용된다.
문맥에서 명확히 제한되지 않는 한, "생산하는"이란 용어는 본 명세서에서는 계산하는, 생성하는 및/또는 제공하는 것과 같은 그것의 일반적인 의미들 중 임의의 것을 나타내기 위해 사용된다. 문맥에서 명확히 제한되지 않는 한, "제공하는"이란 용어는 본 명세서에서는 계산하는, 생성하는 및/또는 생산하는 것과 같은 그것의 일반적인 의미들 중 임의의 것을 나타내기 위해 사용된다. 문맥에서 명확히 제한되는 않는 한, "커플링된"이란 용어는 직접 또는 간접 전기 또는 물리적 접속을 나타내는데 사용된다. 접속이 간접적이면, "커플링된" 구조들 간에 다른 블록들 또는 컴포넌트들이 있을 수도 있다는 것이 본 기술분야의 통상의 기술자에 의해 잘 이해된다.
"구성"이란 용어는 그것의 특정 문맥에 의해 표시되는 바와 같은 방법, 장치/디바이스, 및/또는 시스템에 관련하여 사용될 수도 있다. "포함하는"이란 용어는 본 명세서의 상세한 설명 및 청구범위에서 사용되는 경우, 그것은 다른 엘리먼트들 또는 동작들을 배제하지는 않는다. "에 기초하여"라는 용어는 ("A가 B에 기초한다"에서처럼) (i)"적어도 ~에 기초하여" (예컨대, "A는 적어도 B에 기초한다") 와, 특정한 맥락에서 적당하면, (ii)"와 동일한" (예컨대, "A는 B와 동일하다") 과 같은 경우들을 포함하여 그것의 일반적인 의미들 중 임의의 것을 나타내기 위해 사용된다. A가 B에 기초하는 경우 (i) 에서, 이는 A가 B에 커플링되는 구성을 포함할 수도 있다. 마찬가지로, "에 응답하여"라는 용어는 "적어도 ~에 응답하여"를 포함하는 그것의 일반적인 의미들 중 임의의 것을 나타내기 위해 사용된다. "적어도 하나"라는 용어는 "하나 이상"을 포함하는 그것의 일상적 의미들 중 임의의 것을 나타내는데 사용된다. "적어도 둘"이라는 용어는 "둘 이상"을 포함하는 그것의 일상적 의미들 중 임의의 것을 나타내는데 사용된다.
"장치"와 "디바이스"라는 용어들은 특정 문맥에 의해 달리 표시되지 않는 한 포괄적이고 교환가능하게 사용된다. 달리 표시되지 않는 한, 특정한 특징부를 갖는 장치의 동작의 임의의 개시내용은 유사한 특징을 갖는 방법을 개시하도록 명확히 의도되어 있고 (반대의 경우도 마찬가지이다), 특정 구성에 따른 장치의 동작의 임의의 개시내용은 유사한 구성에 따른 방법을 개시하도록 명확히 의도되어 있다 (반대의 경우도 마찬가지이다). "방법", "프로세스", "절차", 및 "기법"이란 용어는 특정 문맥에 의해 달리 표시되지 않는 한 포괄적이고 교환가능하게 사용된다. "엘리먼트 (element)"와 "모듈"이란 용어는 더 큰 구성의 부분을 나타내는데 사용될 수도 있다. 문서의 부분의 참조에 의한 임의의 통합은 또한, 그 부분 내에서 참조되는 용어들 및 변수들의 정의들을 통합하도록 이해되어야 하고, 그러한 정의들은 그 문서의 다른 데서 뿐만 아니라 통합된 부분에서 참조되는 임의의 도면들에서 나타난다.
본원에서 사용되는 바와 같이, "통신 디바이스"라는 용어는 무선 통신 네트워크를 통한 음성 및/또는 데이터 통신을 위해 사용될 수도 있는 전자 디바이스라고 지칭된다. 통신 디바이스들의 예들은 셀룰러 폰들, 개인 정보 단말기들 (PDA들), 핸드헬드 디바이스들, 헤드셋들, 무선 모뎀들, 랩톱 컴퓨터들, 개인용 컴퓨터들 등을 포함한다.
도 1을 참조하면, 고 대역 여기 신호 생성을 수행하기 위해 동작 가능한 디바이스들을 포함하는 시스템의 특정 실시형태가 도시되고 전체로서 100으로 지정된다. 특정 실시형태에서, 시스템 (100) 의 하나 이상의 컴포넌트들은 (예컨대, 무선 전화기 또는 코더/디코더 (CODEC) 에서의) 디코딩 시스템 또는 장치 속, 인코딩 시스템 또는 장치 속에, 또는 둘 다 속에 통합될 수도 있다. 다른 실시형태들에서, 시스템 (100) 의 하나 이상의 컴포넌트들은 셋톱 박스, 음악 플레이어, 비디오 플레이어, 엔터테인먼트 유닛, 내비게이션 디바이스, 통신 디바이스, 개인 정보 단말기 (PDA), 고정된 로케이션 데이터 유닛, 또는 컴퓨터에 통합될 수도 있다.
다음의 설명에서, 도 1의 시스템 (100) 에 의해 수행되는 다양한 기능들이 특정한 컴포넌트들 또는 모듈들에 의해 수행되고 있는 것으로서 설명된다는 것에 주의해야 한다. 컴포넌트들 및 모듈들의 이 구분은 오직 예시만을 위한 것이다. 대체 실시형태에서, 특정 컴포넌트 또는 모듈에 의해 수행되는 기능이 다수의 컴포넌트들 또는 모듈들 중에서 분할될 수도 있다. 더구나, 대체 실시형태에서, 도 1의 둘 이상의 컴포넌트들 또는 모듈들이 단일 컴포넌트 또는 모듈 속에 통합될 수도 있다. 도 1에서 예시된 각각의 컴포넌트 또는 모듈이 하드웨어 (예컨대, 필드-프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적회로 (ASIC), 디지털 신호 프로세서 (DSP), 제어기 등), 소프트웨어 (예컨대, 프로세서에 의해 실행 가능한 명령들), 또는 그것들의 임의의 조합을 사용하여 구현될 수도 있다.
비록 도 1 내지 도 9에서 도시된 예시적인 실시형태들이 향상된 가변 레이트 코덱-협대역-광대역 (Enhanced Variable Rate Codec-Narrowband-Wideband, EVRC-NW) 에서 사용되는 것과 유사한 고-대역 모델에 관해 설명되지만, 예시적인 실시형태들 중 하나 이상은 임의의 다른 고-대역 모델을 사용할 수도 있다. 임의의 특정 모델의 사용은 오직 예를 위해서만 설명된다는 것이 이해되어야 한다.
시스템 (100) 은 네트워크 (120) 를 통해 제 1 디바이스 (102) 와 통신하고 있는 모바일 디바이스 (104) 를 포함한다. 모바일 디바이스 (104) 는 마이크로폰 (146) 에 커플링될 수도 있거나 또는 그 마이크로폰과 통신하고 있을 수도 있다. 모바일 디바이스 (104) 는 여기 신호 생성 모듈 (122), 고 대역 인코더 (172), 멀티플렉서 (MUX) (174), 송신기 (176), 또는 그 조합을 포함할 수도 있다. 제 1 디바이스 (102) 는 스피커 (142) 에 커플링될 수도 있거나 또는 스피커와 통신하고 있을 수도 있다. 제 1 디바이스 (102) 는 고 대역 합성기 (168) 를 통해 MUX (170) 에 커플링된 여기 신호 생성 모듈 (122) 를 포함할 수도 있다. 여기 신호 생성 모듈 (122) 은 성음 분류기 (160), 포락선 조정기 (162), 변조기 (164), 출력 회로 (166), 또는 그 조합을 포함할 수도 있다.
동작 동안, 모바일 디바이스 (104) 는 입력 신호 (130) (예컨대, 제 1 사용자 (152) 의 사용자 스피치 신호, 무성음화된 신호, 또는 그 둘 다) 를 수신할 수도 있다. 예를 들어, 제 1 사용자 (152) 는 제 2 사용자 (154) 와는 음성 호출에 관여할 수도 있다. 제 1 사용자 (152) 는 모바일 디바이스 (104) 를 사용할 수도 있고 제 2 사용자 (154) 는 제 1 디바이스 (102) 를 음성 호출을 위해 사용할 수도 있다. 음성 호출 동안, 제 1 사용자 (152) 는 모바일 디바이스 (104) 에 커플링된 마이크로폰 (146) 에 스피킹할 수도 있다. 입력 신호 (130) 는 제 1 사용자 (152) 의 스피치, 배경 잡음 (예컨대, 음악, 거리 소음, 다른 사람의 스피치 등), 또는 그 조합에 대응할 수도 있다. 모바일 디바이스 (104) 는 마이크로폰 (146) 을 통해 입력 신호 (130) 를 수신할 수도 있다.
특정 실시형태에서, 입력 신호 (130) 는 대략 50 헤르츠 (Hz) 부터 대략 16 킬로헤르츠 (kHz) 까지의 주파수 범위의 데이터를 포함하는 초광대역 (SWB) 신호일 수도 있다. 입력 신호 (130) 의 저 대역 부분과 입력 신호 (130) 의 고 대역 부분은 각각 50 Hz ~ 7 kHz 및 7 kHz ~ 16 kHz의 비-중첩 주파수 대역들을 점유할 수도 있다. 대체 실시형태에서, 저 대역 부분과 고 대역 부분은 각각 50 Hz ~ 8 kHz와 8 kHz ~ 16 kHz의 비-중첩 주파수 대역들을 점유할 수도 있다. 다른 대체 실시형태에서, 저 대역 부분과 고 대역 부분은 중첩될 수도 있다 (예컨대, 각각 50 Hz ~ 8 kHz와 7 kHz ~ 16 kHz).
특정 실시형태에서, 입력 신호 (130) 는 대략 50 Hz 내지 대략 8 kHz의 주파수 범위를 갖는 광대역 (WB) 신호일 수도 있다. 이러한 실시형태에서, 입력 신호 (130) 의 저 대역 부분은 대략 50 Hz 내지 대략 6.4 kHz의 주파수 범위에 대응할 수도 있고 입력 신호 (130) 의 고 대역 부분은 대략 6.4 kHz 내지 대략 8 kHz의 주파수 범위에 대응할 수도 있다.
특정 실시형태에서, 마이크로폰 (146) 은 입력 신호 (130) 를 캡처할 수도 있고 모바일 디바이스 (104) 에서의 아날로그-디지털 변환기 (ADC) 가 아날로그 파형으로부터의 캡처된 입력 신호 (130) 를 디지털 오디오 샘플들로 이루어진 디지털 파형으로 변환시킬 수도 있다. 디지털 오디오 샘플들은 디지털 신호 프로세서에 의해 프로세싱될 수도 있다. 이득 조정기가 오디오 신호의 진폭 레벨 (예컨대, 아날로그 파형 또는 디지털 파형) 을 증가 또는 감소함으로써 (예컨대, 아날로그 파형 또는 디지털 파형의) 이득을 조정할 수도 있다. 이득 조정기들은 아날로그 도메인 또는 디지털 도메인 중 어느 하나에서 동작할 수도 있다. 예를 들어, 이득 조정기가 디지털 도메인에서 동작할 수도 있고 아날로그-디지털 변환기에 의해 생성된 디지털 오디오 샘플들을 조정할 수도 있다. 이득 조정 후, 에코 제거기가 마이크로폰 (146) 에 들어가는 스피커의 출력에 의해 생성되었을 수도 있는 임의의 에코를 감소시킬 수도 있다. 디지털 오디오 샘플들은 보코더 (음성 인코더-디코더) 에 의해 "압축될" 수도 있다. 에코 제거기의 출력은 보코더 프리-프로세싱 블록들, 예컨대, 필터들, 잡음 프로세서들, 레이트 변환기들 등에 커플링될 수도 있다. 보코더의 인코더가 디지털 오디오 샘플들을 압축하고 송신 패킷 (디지털 오디오 샘플들의 압축된 비트들의 표현) 을 형성할 수도 있다. 특정 실시형태에서, 보코더의 인코더는 여기 신호 생성 모듈 (122) 을 포함할 수도 있다. 여기 신호 생성 모듈 (122) 은 제 1 디바이스 (102) 를 참조하여 설명되는 바와 같이 고 대역 여기 신호 (186) 를 생성할 수도 있다. 여기 신호 생성 모듈 (122) 은 고 대역 여기 신호 (186) 를 고 대역 인코더 (172) 에 제공할 수도 있다.
고 대역 인코더 (172) 는 고 대역 여기 신호 (186) 에 기초하여 입력 신호 (130) 의 고 대역 신호를 인코딩될 수도 있다. 예를 들어, 고 대역 인코더 (172) 는 고 대역 여기 신호 (186) 에 기초하여 고 대역 비트 스트림 (190) 을 생성할 수도 있다. 고 대역 비트 스트림 (190) 은 고 대역 파라미터 정보를 포함할 수도 있다. 예를 들어, 고 대역 비트 스트림 (190) 은 고 대역 선형 예측 코딩 (LPC) 계수들, 고 대역 선 스펙트럼 주파수들 (LSF), 고 대역 선 스펙트럼 쌍들 (LSP), 이득 형상 (예컨대, 특정 프레임의 서브-프레임들에 대응하는 시간적 이득 파라미터들), 이득 프레임 (예컨대, 특정 프레임에 대한 고-대역 대 저-대역의 에너지 비율에 대응하는 이득 파라미터들), 또는 입력 신호 (130) 의 고 대역 부분에 대응하는 다른 파라미터들 중 적어도 하나를 포함할 수도 있다. 특정 실시형태에서, 고 대역 인코더 (172) 는 벡터 양자화기, 은닉 마르코프 모델 (HMM), 또는 가우스 혼합 모델 (gaussian mixture model, GMM) 중 적어도 하나를 사용하여 고 대역 LPC 계수들을 결정할 수도 있다. 고 대역 인코더 (172) 는 LPC 계수들에 기초하여 고 대역 LSF, 고 대역 LSP, 또는 둘 다를 결정할 수도 있다.
고 대역 인코더 (172) 는 입력 신호 (130) 의 고 대역 신호에 기초하여 고 대역 파라미터 정보를 생성할 수도 있다. 예를 들어, 모바일 디바이스 (104) 의 디코더가 제 1 디바이스 (102) 의 디코더를 에뮬레이션할 수도 있다. 모바일 디바이스 (104) 의 디코더는, 제 1 디바이스 (102) 를 참조하여 설명되는 바와 같이, 고 대역 여기 신호 (186) 에 기초하여 합성된 오디오 신호를 생성할 수도 있다. 고 대역 인코더 (172) 는 합성된 오디오 신호와 입력 신호 (130) 의 비교에 기초하여 이득 값들 (예컨대, 이득 형상, 이득 프레임, 또는 둘 다) 을 생성할 수도 있다. 예를 들어, 이득 값들은 합성된 오디오 신호와 입력 신호 (130) 간의 차이에 대응할 수도 있다. 고 대역 인코더 (172) 는 고 대역 비트 스트림 (190) 을 MUX (174) 에 제공할 수도 있다.
MUX (174) 는 고 대역 비트 스트림 (190) 과 저 대역 비트 스트림을 결합하여 비트 스트림 (132) 을 생성할 수도 있다. 모바일 디바이스 (104) 의 저 대역 인코더가 입력 신호 (130) 의 저 대역 신호에 기초하여 저 대역 비트 스트림을 생성할 수도 있다. 저 대역 비트 스트림은 저 대역 파라미터 정보 (예컨대, 저 대역 LPC 계수들, 저 대역 LSF, 또는 양쪽 모두) 와 저 대역 여기 신호 (예컨대, 입력 신호 (130) 의 저 대역 잔차) 를 포함할 수도 있다. 송신 패킷은 비트 스트림 (132) 에 대응할 수도 있다.
송신 패킷은 모바일 디바이스 (104) 의 프로세서와 공유될 수도 있는 메모리에 저장될 수도 있다. 그 프로세서는 디지털 신호 프로세서와 통신하고 있는 제어 프로세서일 수도 있다. 모바일 디바이스 (104) 는 비트 스트림 (132) 을 네트워크 (120) 를 통해 제 1 디바이스 (102) 에게 송신할 수도 있다. 예를 들어, 송신기 (176) 는 송신 패킷의 일부 형태를 변조할 수도 있고 (다른 정보는 송신 패킷에 첨부될 수도 있고) 변조된 정보를 안테나를 통해 공중 경유로 전송할 수도 있다.
제 1 디바이스 (102) 의 여기 신호 생성 모듈 (122) 은 비트 스트림 (132) 을 수신할 수도 있다. 예를 들어, 제 1 디바이스 (102) 의 안테나가 송신 패킷을 포함하는 일부 형태의 착신 패킷들을 수신할 수도 있다. 비트 스트림 (132) 은 펄스 코드 변조 (PCM) 인코딩된 오디오 신호의 프레임들에 대응할 수도 있다. 예를 들어, 제 1 디바이스 (102) 에서의 아날로그-디지털 변환기 (ADC) 가 아날로그 신호로부터의 비트 스트림 (132) 을 다수의 프레임들을 갖는 디지털 PCM 신호로 변환시킬 수도 있다.
송신 패킷은 제 1 디바이스 (102) 에서 보코더의 디코더에 의해 "압축해제될" 수도 있다. 압축해제된 파형 (또는 디지털 PCM 신호) 은 복원된 오디오 샘플들이라고 지칭될 수도 있다. 복원된 오디오 샘플들은 보코더 포스트-프로세싱 (post-processing) 블록들에 의해 포스트-프로세싱될 수도 있고 에코 (echo) 를 제거하기 위해 에코 제거기에 의해 사용될 수도 있다. 명료함을 위해, 보코더의 디코더와 보코더 포스트-프로세싱 블록들이 보코더 디코더 모듈이라고 지칭될 수도 있다. 일부 구성들에서, 에코 제거기의 출력이 여기 신호 생성 모듈 (122) 에 의해 프로세싱될 수도 있다. 대안적으로, 다른 구성들에서, 보코더 디코더 모듈의 출력이 여기 신호 생성 모듈 (122) 에 의해 프로세싱될 수도 있다.
여기 신호 생성 모듈 (122) 은 저 대역 파라미터 정보, 저 대역 여기 신호, 및 고 대역 파라미터 정보를 비트 스트림 (132) 으로부터 추출할 수도 있다. 성음 분류기 (160) 는, 도 2를 참조하여 설명되는 바와 같이, 입력 신호 (130) 의 유성음화된/무성음화된 성질 (예컨대, 강유성음, 약유성음, 약무성음, 또는 강무성음) 을 나타내는 성음 분류 (180) 를 (예컨대, 0.0부터 1.0까지의 값으로) 결정할 수도 있다. 성음 분류기 (160) 는 성음 분류 (180) 를 포락선 조정기 (162) 에 제공할 수도 있다.
포락선 조정기 (162) 는 입력 신호 (130) 의 표현의 포락선을 결정할 수도 있다. 포락선은 시변 포락선일 수도 있다. 예를 들어, 포락선은 입력 신호 (130) 의 프레임당 한번 초과로 업데이트될 수도 있다. 다른 예로서, 포락선은 포락선 조정기 (162) 가 입력 신호 (130) 의 각각의 샘플을 수신함에 응답하여 업데이트될 수도 있다. 그 포락선의 형상의 변화 정도는 성음 분류가 강무성음에 대응하는 경우보다 성음 분류 (180) 가 강유성음에 대응하는 경우 더 클 수도 있다. 입력 신호 (130) 의 표현은 입력 신호 (130) 의 (또는 입력 신호 (130) 의 인코딩된 버전의) 저 대역 여기 신호, 입력 신호 (130) 의 (또는 입력 신호 (130) 의 인코딩된 버전의) 고 대역 여기 신호, 또는 하모닉 확장된 여기 신호를 포함할 수도 있다. 예를 들어, 여기 신호 생성 모듈 (122) 은 입력 신호 (130) 의 (또는 입력 신호 (130) 의 인코딩된 버전의) 저 대역 여기 신호를 확장함으로써 하모닉 확장된 여기 신호를 생성할 수도 있다.
포락선 조정기 (162) 는, 도 4 내지 도 7을 참조하여 설명되는 바와 같이, 성음 분류 (180) 에 기초하여 포락선의 양을 제어할 수도 있다. 포락선 조정기 (162) 는 포락선의 특성 (예컨대, 형상, 크기, 이득, 및/또는 주파수 범위) 를 제어함으로써 포락선의 양을 제어할 수도 있다. 예를 들어, 포락선 조정기 (162) 는, 도 4를 참조하여 설명되는 바와 같이, 필터의 차단 주파수에 기초하여 포락선의 주파수 범위를 제어할 수도 있다. 차단 주파수는 성음 분류 (180) 에 기초하여 결정될 수도 있다.
다른 예로서, 포락선 조정기 (162) 는, 도 5를 참조하여 설명되는 바와 같이, 성음 분류 (180) 에 기초하여 고 대역 선형 예측 코딩 (LPC) 계수들의 하나 이상의 극점들을 조정함으로써, 포락선의 형상, 포락선의 크기, 포락선의 이득, 또는 그 조합을 제어할 수도 있다. 추가의 예로서, 포락선 조정기 (162) 는, 도 6을 참조하여 설명되는 바와 같이, 성음 분류 (180) 에 기초하여 필터의 계수들을 조정함으로써, 포락선의 형상, 포락선의 크기, 포락선의 이득, 또는 그 조합을 제어할 수도 있다. 포락선의 특성은, 도 4 내지 도 6을 참조하여 설명된 바와 같이, 변환 도메인 (예컨대, 주파수 도메인) 또는 시간 도메인에서 제어될 수도 있다.
포락선 조정기 (162) 는 신호 포락선 (182) 을 변조기 (164) 에 제공할 수도 있다. 신호 포락선 (182) 은 입력 신호 (130) 의 표현의 포락선의 제어된 양에 대응할 수도 있다.
변조기 (164) 는 백색 잡음 (156) 을 변조하여 변조된 백색 잡음 (184) 을 생성하기 위해 신호 포락선 (182) 을 사용할 수도 있다. 변조기 (164) 는 변조된 백색 잡음 (184) 을 출력 회로 (166) 에 제공할 수도 있다.
출력 회로 (166) 는 변조된 백색 잡음 (184) 에 기초하여 고 대역 여기 신호 (186) 를 생성할 수도 있다. 예를 들어, 출력 회로 (166) 는 변조된 백색 잡음 (184) 과 다른 신호를 결합하여 고 대역 여기 신호 (186) 를 생성할 수도 있다. 특정 실시형태에서, 다른 신호는 저 대역 여기 신호에 기초하여 생성된 확장된 신호에 대응할 수도 있다. 예를 들어, 출력 회로 (166) 는 저 대역 여기 신호를 업샘플링하며, 절대 값 함수를 업샘플링된 신호에 적용하며, 절대 값 함수를 적용한 결과를 다운샘플링하고, 적응적 백색화 (whitening) 를 사용하여 다운샘플링된 신호를 선형 예측 필터 (예컨대, 4차 선형 예측 필터) 로 스펙트럼적으로 평탄화함으로써 확장된 신호를 생성할 수도 있다. 특정 실시형태에서, 출력 회로 (166) 는, 도 4 내지 도 7을 참조하여 설명되는 바와 같이, 하모닉시티 (harmonicity) 파라미터에 기초하여 변조된 백색 잡음 (184) 과 다른 신호를 스케일링할 수도 있다.
특정 실시형태에서, 출력 회로 (166) 는 제 1 비율의 변조된 백색 잡음과 제 2 비율의 비변조된 백색 잡음을 결합하여 스케일링된 백색 잡음을 생성할 수도 있고, 제 1 비율과 제 2 비율은, 도 7을 참조하여 설명되는 바와 같이, 성음 분류 (180) 에 기초하여 결정된다. 이 실시형태에서, 출력 회로 (166) 는 스케일링된 백색 잡음과 다른 신호를 결합하여 고 대역 여기 신호 (186) 를 생성할 수도 있다. 출력 회로 (166) 는 고 대역 여기 신호 (186) 를 고 대역 합성기 (168) 에 제공할 수도 있다.
고 대역 합성기 (168) 는 고 대역 여기 신호 (186) 에 기초하여 합성된 고 대역 신호 (188) 를 생성할 수도 있다. 예를 들어, 고 대역 합성기 (168) 는 특정 고 대역 모델에 기초하여 고 대역 파라미터 정보를 모델링 및/또는 디코딩할 수도 있고 고 대역 여기 신호 (186) 를 사용하여 합성된 고 대역 신호 (188) 를 생성할 수도 있다. 고 대역 합성기 (168) 는 합성된 고 대역 신호 (188) 를 MUX (170) 에 제공할 수도 있다.
제 1 디바이스 (102) 의 저 대역 디코더가 합성된 저 대역 신호를 생성할 수도 있다. 예를 들어, 저 대역 디코더는 특정 저 대역 모델에 기초하여 저 대역 파라미터 정보를 디코딩 및/또는 모델링할 수도 있고 저 대역 여기 신호를 사용하여 합성된 저 대역 신호를 생성할 수도 있다. MUX (170) 는 합성된 고 대역 신호 (188) 와 합성된 저 대역 신호를 결합하여 출력 신호 (116) (예컨대, 디코딩된 오디오 신호) 를 생성할 수도 있다.
출력 신호 (116) 는 이득 조정기에 의해 증폭 또는 억제될 수도 있다. 제 1 디바이스 (102) 는 출력 신호 (116) 를, 스피커 (142) 를 통해, 제 2 사용자 (154) 에게 제공할 수도 있다. 예를 들어, 이득 조정기의 출력은 디지털-아날로그 변환기에 의해 디지털 신호로부터 아날로그 신호로 변환되고, 스피커 (142) 를 통해 재생될 수도 있다.
따라서, 시스템 (100) 은 합성된 오디오 신호가 무성음화된 (또는 강무성음화된) 입력 신호에 대응하는 경우 "평활" 사운딩 합성된 신호의 생성을 가능하게 할 수도 있다. 합성된 고 대역 신호가 입력 신호의 성음 분류에 기초하여 변조되는 잡음 신호를 사용하여 생성될 수도 있다. 변조된 잡음 신호는 입력 신호가 강무성음인 경우보다 입력 신호가 강유성음인 경우 입력 신호에 더 가깝게 대응할 수도 있다. 특정 실시형태에서, 합성된 고 대역 신호는 입력 신호가 강무성음인 경우 감소되거나 무-희박성을 가져서, 더욱 평활화된 (예컨대, 더 적은 아티팩트들을 가짐) 합성된 오디오 신호를 초래할 수도 있다.
도 2를 참조하면, 고 대역 여기 신호 생성을 수행하도록 동작 가능한 디코더의 특정 실시형태가 개시되고 전체로서 200으로 지정된다. 특정 실시형태에서, 디코더 (200) 는, 도 1의 시스템 (100) 에 대응할 수도 있거나, 또는 그런 시스템에 포함될 수도 있다. 예를 들어, 디코더 (200) 는 제 1 디바이스 (102), 모바일 디바이스 (104), 또는 둘 다에 포함될 수도 있다. 디코더 (200) 는 수신 디바이스 (예컨대, 제 1 디바이스 (102)) 에서 인코딩된 오디오 신호의 디코딩을 예시할 수도 있다.
디코더 (200) 는 저 대역 합성기 (204), 성음 계수 (voicing factor) 생성기 (208), 및 고 대역 합성기 (168) 에 커플링된 디멀티플렉서 (DEMUX) (202) 를 포함한다. 저 대역 합성기 (204) 와 성음 계수 생성기 (208) 는 고 대역 합성기 (168) 에 여기 신호 생성기 (222) 를 통해 커플링될 수도 있다. 특정 실시형태에서, 성음 계수 생성기 (208) 는 도 1의 성음 분류기 (160) 에 대응할 수도 있다. 여기 신호 생성기 (222) 는 도 1의 여기 신호 생성 모듈 (122) 의 특정 실시형태일 수도 있다. 예를 들어, 여기 신호 생성기 (222) 는 포락선 조정기 (162), 변조기 (164), 출력 회로 (166), 성음 분류기 (160), 또는 그 조합을 포함할 수도 있다. 저 대역 합성기 (204) 와 고 대역 합성기 (168) 는 MUX (170) 에 커플링될 수도 있다.
동작 동안, DEMUX (202) 는 비트 스트림 (132) 을 수신할 수도 있다. 비트 스트림 (132) 은 펄스 코드 변조 (PCM) 인코딩된 오디오 신호의 프레임들에 대응할 수도 있다. 예를 들어, 제 1 디바이스 (102) 에서의 아날로그-디지털 변환기 (ADC) 가 아날로그 신호로부터의 비트 스트림 (132) 을 다수의 프레임들을 갖는 디지털 PCM 신호로 변환할 수도 있다. DEMUX (202) 는 비트 스트림 (132) 으로부터 비트 스트림의 저 대역 부분 (232) 과 비트 스트림의 고 대역 부분 (218) 을 생성할 수도 있다. DEMUX (202) 는 비트 스트림의 저 대역 부분 (232) 을 저 대역 합성기 (204) 에 제공할 수도 있고 비트 스트림의 고 대역 부분 (218) 을 고 대역 합성기 (168) 에 제공할 수도 있다.
저 대역 합성기 (204) 는 비트 스트림의 저 대역 부분 (232) 으로부터 하나 이상의 파라미터들 (242) (예컨대, 입력 신호 (130) 의 저 대역 파라미터 정보) 과 저 대역 여기 신호 (244) (예컨대, 입력 신호 (130) 의 저 대역 잔차) 를 추출 및/또는 디코딩할 수도 있다. 특정 실시형태에서, 저 대역 합성기 (204) 는 비트 스트림의 저 대역 부분 (232) 으로부터 하모닉시티 파라미터 (246) 를 추출할 수도 있다.
하모닉시티 파라미터 (246) 는 비트 스트림의 저 대역 부분 (232) 내에 비트 스트림 (232) 의 인코딩 동안 내장될 수도 있고 입력 신호 (130) 의 고 대역에서의 하모닉 대 잡음 에너지의 비율에 대응할 수도 있다. 저 대역 합성기 (204) 는 피치 이득 값에 기초하여 하모닉시티 파라미터 (246) 를 결정할 수도 있다. 저 대역 합성기 (204) 는 파라미터들 (242) 에 기초하여 피치 이득 값을 결정할 수도 있다. 특정 실시형태에서, 저 대역 합성기 (204) 는 비트 스트림의 저 대역 부분 (232) 으로부터 하모닉시티 파라미터 (246) 를 추출할 수도 있다. 예를 들어, 모바일 디바이스 (104) 는, 도 3을 참조하여 설명되는 바와 같이, 비트 스트림 (132) 에 하모닉시티 파라미터 (246) 를 포함시킬 수도 있다.
저 대역 합성기 (204) 는 특정 저 대역 모델을 사용하여 파라미터들 (242) 및 저 대역 여기 신호 (244) 에 기초하여 합성된 저 대역 신호 (234) 를 생성할 수도 있다. 저 대역 합성기 (204) 는 합성된 저 대역 신호 (234) 를 MUX (170) 에 제공할 수도 있다.
성음 계수 생성기 (208) 는 저 대역 합성기 (204) 로부터 파라미터들 (242) 을 수신할 수도 있다. 성음 계수 생성기 (208) 는 파라미터들 (242), 이전의 성음 결정, 하나 이상의 다른 팩터들, 또는 그 조합에 기초하여, 성음 계수 (236) (예컨대, 0.0부터 1.0까지의 값) 를 생성할 수도 있다. 성음 계수 (236) 는 입력 신호 (130) 의 유성음화된/무성음화된 성질 (예컨대, 강유성음, 약유성음, 약무성음, 또는 강무성음) 을 나타낼 수도 있다. 파라미터들 (242) 은 입력 신호 (130) 의 저 대역 신호의 제로 교차 율, 제 1 반사 계수, 저 대역 여기에서의 적응적 코드북 기여분의 에너지 대 저 대역 여기에서의 적응적 코드북 기여분과 고정된 코드북 기여분의 합의 에너지의 비율, 입력 신호 (130) 의 저 대역 신호의 피치 이득, 또는 그 조합을 포함할 수도 있다. 성음 계수 생성기 (208) 는 수학식 1에 기초하여 성음 계수 (236) 를 결정할 수도 있다.
성음 계수 = Σa i * p i + c, (수학식 1)
여기서 i∈{0, ..., M-1} 이며, a i c는 가중치들이며, p i 는 특정 측정된 신호 파라미터에 대응하고, M은 성음 계수 결정에서 사용되는 파라미터들의 수에 대응한다.
예시적인 실시형태에서, 성음 계수 = -0.4231 * ZCR + 0.2712 * FR + 0.0458 * ACB_to_excitation + 0.1849 * PG + 0.0138 * prev_voicing_decision 이며, 여기서 ZCR은 제로 교차 율에 대응하며, FR은 제 1 반사 계수에 대응하며, ACB_to_excitation은 저 대역 여기에서의 적응적 코드북 기여분의 에너지 대 저 대역 여기에서의 적응적 코드북 기여분과 고정된 코드북 기여분의 합의 에너지의 비율에 대응하며, PG는 피치 이득에 대응하고, previous_voicing_decision은 다른 프레임을 위해 이전에 컴퓨팅된 다른 성음 계수에 대응한다. 특정 실시형태에서, 성음 계수 생성기 (208) 는 유성음보다는 무성음으로서 프레임을 분류하기 위해 더 높은 임계값을 사용할 수도 있다. 예를 들어, 성음 계수 생성기 (208) 는, 선행 프레임이 무성음으로서 분류되었고 프레임이 제 1 임계값 (예컨대, 낮은 임계값) 을 충족시키는 성음 값을 갖는다면, 그 프레임을 무성음으로서 분류할 수도 있다. 성음 계수 생성기 (208) 는 입력 신호 (130) 의 저 대역 신호의 제로 교차 율, 제 1 반사 계수, 저 대역 여기에서의 적응적 코드북 기여분의 에너지 대 저 대역 여기에서의 적응적 코드북 기여분과 고정된 코드북 기여분의 합의 에너지의 비율, 입력 신호 (130) 의 저 대역 신호의 피치 이득, 또는 그 조합에 기초하여 성음 값을 결정할 수도 있다. 대안적으로, 성음 계수 생성기 (208) 는 프레임의 성음 값이 제 2 임계값 (예컨대, 매우 낮은 임계값) 을 충족시킨다면 그 프레임을 무성음으로서 분류할 수도 있다. 특정 실시형태에서, 성음 계수 (236) 는 도 1의 성음 분류 (180) 에 대응할 수도 있다.
여기 신호 생성기 (222) 는 저 대역 합성기 (204) 로부터 저 대역 여기 신호 (244) 와 하모닉시티 파라미터 (246) 를 수신할 수도 있고 성음 계수 생성기 (208) 로부터 성음 계수 (236) 를 수신할 수도 있다. 여기 신호 생성기 (222) 는, 도 1과 도 4 내지 도 7을 참조하여 설명되는 바와 같이, 저 대역 여기 신호 (244), 하모닉시티 파라미터 (246), 및 성음 계수 (236) 에 기초하여 고 대역 여기 신호 (186) 를 생성할 수도 있다. 예를 들어, 포락선 조정기 (162) 는, 도 1과 도 4 내지 도 7을 참조하여 설명되는 바와 같이, 성음 계수 (236) 에 기초하여 저 대역 여기 신호 (244) 의 포락선의 양을 제어할 수도 있다. 특정 실시형태에서, 신호 포락선 (182) 은 포락선의 제어된 양에 대응할 수도 있다. 포락선 조정기 (162) 는 신호 포락선 (182) 을 변조기 (164) 에 제공할 수도 있다.
변조기 (164) 는, 도 1과 도 4 내지 도 7을 참조하여 설명되는 바와 같이, 변조된 백색 잡음 (184) 을 생성하기 위해 신호 포락선 (182) 을 사용하여 백색 잡음 (156) 을 변조할 수도 있다. 변조기 (164) 는 변조된 백색 잡음 (184) 을 출력 회로 (166) 에 제공할 수도 있다.
출력 회로 (166) 는, 도 1과 도 4 내지 도 7을 참조하여 설명되는 바와 같이, 변조된 백색 잡음 (184) 과 다른 신호를 결합함으로써 고 대역 여기 신호 (186) 를 생성할 수도 있다. 특정 실시형태에서, 출력 회로 (166) 는, 도 4 내지 도 7을 참조하여 설명되는 바와 같이, 하모닉시티 파라미터 (246) 에 기초하여 변조된 백색 잡음 (184) 과 다른 신호를 결합할 수도 있다.
출력 회로 (166) 는 고 대역 여기 신호 (186) 를 고 대역 합성기 (168) 에 제공할 수도 있다. 고 대역 합성기 (168) 는 고 대역 여기 신호 (186) 와 비트 스트림의 고 대역 부분 (218) 에 기초하여 합성된 고 대역 신호 (188) 를 MUX (170) 에 제공할 수도 있다. 예를 들어, 고 대역 합성기 (168) 는 비트 스트림의 고 대역 부분 (218) 으로부터 입력 신호 (130) 의 고 대역 파라미터들을 추출할 수도 있다. 고 대역 합성기 (168) 는 특정 고 대역 모델에 기초하여 합성된 고 대역 신호 (188) 를 생성하기 위해 고 대역 파라미터들과 고 대역 여기 신호 (186) 를 사용할 수도 있다. 특정 실시형태에서, MUX (170) 는 합성된 저 대역 신호 (234) 와 합성된 고 대역 신호 (188) 를 결합하여 출력 신호 (116) 를 생성할 수도 있다.
따라서, 도 2의 디코더 (200) 는 합성된 오디오 신호가 무성음화된 (또는 강무성음) 입력 신호에 대응하는 경우 "평활" 사운딩 합성된 신호의 생성을 가능하게 할 수도 있다. 합성된 고 대역 신호가 입력 신호의 성음 분류에 기초하여 변조되는 잡음 신호를 사용하여 생성될 수도 있다. 변조된 잡음 신호는 입력 신호가 강무성음인 경우보다 입력 신호가 강유성음인 경우 입력 신호에 더 가깝게 대응할 수도 있다. 특정 실시형태에서, 합성된 고 대역 신호는 입력 신호가 강무성음인 경우 감소되거나 무-희박성을 가져서, 더욱 평활화된 (예컨대, 더 적은 아티팩트들을 가짐) 합성된 오디오 신호를 초래할 수도 있다. 덧붙여서, 이전의 성음 결정에 기초하여 성음 분류 (또는 성음 계수) 를 결정하는 것은 프레임의 오분류의 영향들을 완화시킬 수도 있고 유성음화된 및 무성음화된 프레임들 간에 더 평활한 천이를 초래할 수도 있다.
도 3을 참조하면, 고 대역 여기 신호 생성을 수행하도록 동작 가능한 인코더의 특정 실시형태가 개시되고 전체로서 300으로 지정된다. 특정 실시형태에서, 인코더 (300) 는, 도 1의 시스템 (100) 에 대응할 수도 있거나, 또는 그런 시스템에 포함될 수도 있다. 예를 들어, 인코더 (300) 는 제 1 디바이스 (102), 모바일 디바이스 (104), 또는 둘 다에 포함될 수도 있다. 인코더 (300) 는 송신 디바이스 (예컨대, 모바일 디바이스 (104)) 에서의 오디오 신호의 인코딩을 예시할 수도 있다.
인코더 (300) 는 저 대역 인코더 (304), 성음 계수 생성기 (208), 및 고 대역 인코더 (172) 에 커플링된 필터 뱅크 (302) 를 포함한다. 저 대역 인코더 (304) 는 MUX (174) 에 커플링될 수도 있다. 저 대역 인코더 (304) 와 성음 계수 생성기 (208) 는 고 대역 인코더 (172) 에 여기 신호 생성기 (222) 를 통해 커플링될 수도 있다. 고 대역 인코더 (172) 는 MUX (174) 에 커플링될 수도 있다.
동작 동안, 필터 뱅크 (302) 는 입력 신호 (130) 를 수신할 수도 있다. 예를 들어, 입력 신호 (130) 는 도 1의 모바일 디바이스 (104) 에 의해 마이크로폰 (146) 을 통해 수신될 수도 있다. 필터 뱅크 (302) 는 입력 신호 (130) 를 저 대역 신호 (334) 및 고 대역 신호 (340) 를 포함하는 다수의 신호들로 분리할 수도 있다. 예를 들어, 필터 뱅크 (302) 는 입력 신호 (130) 의 더 낮은 주파수 서브-대역 (예컨대, 50 Hz ~ 7 kHz) 에 대응하는 저역 통과 필터를 사용하여 저 대역 신호 (334) 를 생성할 수도 있고 입력 신호 (130) 의 더 높은 주파수 서브-대역 (예컨대, 7 kHz ~ 16 kHz) 에 대응하는 고역통과 필터를 사용하여 고 대역 신호 (340) 를 생성할 수도 있다. 필터 뱅크 (302) 는 저 대역 신호 (334) 를 저 대역 인코더 (304) 에 제공할 수도 있고 고 대역 신호 (340) 를 고 대역 인코더 (172) 에 제공할 수도 있다.
저 대역 인코더 (304) 는 저 대역 신호 (334) 에 기초하여 파라미터들 (242) (예컨대, 저 대역 파라미터 정보) 과 저 대역 여기 신호 (244) 를 생성할 수도 있다. 예를 들어, 파라미터들 (242) 은 저 대역 LPC 계수들, 저 대역 LSF, 저 대역 선 스펙트럼 쌍들 (LSP), 또는 그 조합을 포함할 수도 있다. 저 대역 여기 신호 (244) 는 저 대역 잔차 신호에 대응할 수도 있다. 저 대역 인코더 (304) 는 특정 저 대역 모델 (예컨대, 특정 선형 예측 모델) 에 기초하여 파라미터들 (242) 과 저 대역 여기 신호 (244) 를 생성할 수도 있다. 예를 들어, 저 대역 인코더 (304) 는 저 대역 신호 (334) 의 파라미터들 (242) (예컨대, 포먼트들에 대응하는 필터 계수들) 을 생성할 수도 있으며, 그 파라미터들 (242) 에 기초하여 저 대역 신호 (334) 를 역-필터링할 수도 있고, 역-필터링된 신호를 저 대역 신호 (334) 로부터 감산하여 저 대역 여기 신호 (244) (예컨대, 저 대역 신호 (334) 의 저 대역 잔차 신호) 를 생성할 수도 있다. 저 대역 인코더 (304) 는 파라미터들 (242) 과 저 대역 여기 신호 (244) 를 포함하는 저 대역 비트 스트림 (342) 을 생성할 수도 있다. 특정 실시형태에서, 저 대역 비트 스트림 (342) 은 하모닉시티 파라미터 (246) 를 포함할 수도 있다. 예를 들어, 저 대역 인코더 (304) 는, 도 2의 저 대역 합성기 (204) 를 참조하여 설명된 바와 같이, 하모닉시티 파라미터 (246) 를 결정할 수도 있다.
저 대역 인코더 (304) 는 파라미터들 (242) 을 성음 계수 생성기 (208) 에 제공할 수도 있고 저 대역 여기 신호 (244) 와 하모닉시티 파라미터 (246) 를 여기 신호 생성기 (222) 에 제공할 수도 있다. 성음 계수 생성기 (208) 는, 도 2를 참조하여 설명된 바와 같이, 파라미터들 (242) 에 기초하여 성음 계수 (236) 를 결정할 수도 있다. 여기 신호 생성기 (222) 는, 도 2와 도 4 내지 도 7을 참조하여 설명되는 바와 같이, 저 대역 여기 신호 (244), 하모닉시티 파라미터 (246), 및 성음 계수 (236) 에 기초하여 고 대역 여기 신호 (186) 를 결정할 수도 있다.
여기 신호 생성기 (222) 는 고 대역 여기 신호 (186) 를 고 대역 인코더 (172) 에 제공할 수도 있다. 고 대역 인코더 (172) 는, 도 1을 참조하여 설명된 바와 같이, 고 대역 신호 (340) 와 고 대역 여기 신호 (186) 에 기초하여 고 대역 비트 스트림 (190) 을 생성할 수도 있다. 고 대역 인코더 (172) 는 고 대역 비트 스트림 (190) 을 MUX (174) 에 제공할 수도 있다. MUX (174) 는 저 대역 비트 스트림 (342) 과 고 대역 비트 스트림 (190) 을 결합하여 비트 스트림 (132) 을 생성할 수도 있다.
따라서, 인코더 (300) 는 입력 신호의 성음 분류에 기초하여 변조된 잡음 신호를 사용하여 합성된 오디오 신호를 생성하는 수신 디바이스에서의 디코더의 에뮬레이션을 가능하게 할 수도 있다. 인코더 (300) 는 입력 신호 (130) 를 밀접하게 근사화하기 위해 합성된 오디오 신호를 생성하는데 사용되는 고 대역 파라미터들 (예컨대, 이득 값들) 을 생성할 수도 있다.
도 4 내지 도 7은 고 대역 여기 신호 생성의 방법들의 특정 실시형태들을 예시하는 도면들이다. 도 4 내지 도 7의 방법들의 각각은 도 1 내지 도 3의 시스템들 (100~300) 의 하나 이상의 컴포넌트들에 의해 수행될 수도 있다. 예를 들어, 도 4 내지 도 7의 방법들의 각각은 도 1의 고 대역 여기 신호 생성 모듈 (122) 의 하나 이상의 컴포넌트들, 도 2 및/또는 도 3의 여기 신호 생성기 (222), 도 2의 성음 계수 생성기 (208), 또는 그 조합에 의해 수행될 수도 있다. 도 4 내지 도 7은 변환 도메인에서, 시간 도메인에서, 또는 변환 도메인 또는 시간 도메인 중 어느 하나에서 표현되는 고 대역 여기 신호를 생성하는 방법들의 대안적 실시형태들을 예시한다.
도 4를 참조하면, 고 대역 여기 신호 생성의 방법의 특정 실시형태의 도면이 도시되고 전체가 400으로 지정된다. 방법 (400) 은 변환 도메인 또는 시간 도메인 중 어느 하나에서 표현되는 고 대역 여기 신호를 생성하는 것에 대응할 수도 있다.
방법 (400) 은, 성음 계수를 결정하는 단계를 404에서 포함한다. 예를 들어, 도 2의 성음 계수 생성기 (208) 는 대표 신호 (422) 에 기초하여 성음 계수 (236) 를 결정할 수도 있다. 특정 실시형태에서, 성음 계수 생성기 (208) 는 하나 이상의 다른 신호 파라미터들에 기초하여 성음 계수 (236) 를 결정할 수도 있다. 특정 실시형태에서, 여러 신호 파라미터들은 성음 계수 (236) 를 결정하기 위해 조합하여 작동할 수도 있다. 예를 들어, 성음 계수 생성기 (208) 는, 도 2 내지 도 3을 참조하여 설명된 바와 같이, 비트 스트림의 저 대역 부분 (232) (또는 도 3의 저 대역 신호 (334)), 파라미터들 (242), 이전의 성음 결정, 하나 이상의 다른 팩터들, 또는 그 조합에 기초하여 성음 계수 (236) 를 결정할 수도 있다. 대표 신호 (422) 는 비트 스트림의 저 대역 부분 (232), 저 대역 신호 (334), 또는 저 대역 여기 신호 (244) 를 확장함으로써 생성된 확장된 신호를 포함할 수도 있다. 대표 신호 (422) 는 변환 (예컨대, 주파수) 도메인 또는 시간 도메인에서 표현될 수도 있다. 예를 들어, 여기 신호 생성 모듈 (122) 은 변환 (예컨대, 푸리에 변환) 을 입력 신호 (130), 도 1의 비트 스트림 (132), 비트 스트림의 저 대역 부분 (232), 저 대역 신호 (334), 도 2의 저 대역 여기 신호 (244) 를 확장함으로써 생성된 확장된 신호, 또는 그 조합에 적용함으로써 대표 신호 (422) 를 생성할 수도 있다.
방법 (400) 은 저역 통과 필터 (LPF) 차단 주파수를 컴퓨팅하는 단계를 408에서 그리고 신호 포락선의 양을 제어하는 단계를 410에서 또한 포함한다. 예를 들어, 도 1의 포락선 조정기 (162) 는 성음 계수 (236) 에 기초하여 LPF 차단 주파수 (426) 를 컴퓨팅할 수도 있다. 성음 계수 (236) 가 강유성음 오디오를 나타낸다면, LPF 차단 주파수 (426) 는 더 높아져 시간적 포락선 (temporal envelope) 의 하모닉 성분의 더 높은 영향을 나타낼 수도 있다. 성음 계수 (236) 가 강무성음 오디오를 나타내는 경우, LPF 차단 주파수 (426) 는 더 낮아져서 시간적 포락선의 하모닉 성분의 더 낮거나 (또는 없는) 영향에 대응할 수도 있다.
포락선 조정기 (162) 는 신호 포락선 (182) 의 특성 (예컨대, 주파수 범위) 을 제어함으로써 신호 포락선 (182) 의 양을 제어할 수도 있다. 예를 들어, 포락선 조정기 (162) 는 저역 통과 필터 (450) 를 대표 신호 (422) 에 적용함으로써 신호 포락선 (182) 의 특성을 제어할 수도 있다. 저역 통과 필터 (450) 의 차단 주파수가 LPF 차단 주파수 (426) 와 실질적으로 동일할 수도 있다. 포락선 조정기 (162) 는 LPF 차단 주파수 (426) 에 기초하여 대표 신호 (422) 의 시간적 포락선을 추적함으로써 신호 포락선 (182) 의 주파수 범위를 제어할 수도 있다. 예를 들어, 저역 통과 필터 (450) 는 필터링된 신호가 LPF 차단 주파수 (426) 에 의해 정의된 주파수 범위를 갖도록 대표 신호 (422) 를 필터링할 수도 있다. 예시하기 위해, 필터링된 신호의 주파수 범위는 LPF 차단 주파수 (426) 미만일 수도 있다. 특정 실시형태에서, 필터링된 신호는 LPF 차단 주파수 (426) 미만의 대표 신호 (422) 의 진폭에 매칭되는 진폭을 가질 수도 있고 LPF 차단 주파수 (426) 를 초과하는 낮은 진폭 (예컨대, 실질적으로 0과 동일함) 을 가질 수도 있다.
그래프 (470) 는 원래의 스펙트럼 형상 (482) 을 예시한다. 원래의 스펙트럼 형상 (482) 은 대표 신호 (422) 의 신호 포락선 (182) 을 나타낼 수도 있다. 제 1 스펙트럼 형상 (484) 이 LPF 차단 주파수 (426) 를 갖는 필터를 대표 신호 (422) 에 적용함으로써 생성된 필터링된 신호에 대응할 수도 있다.
LPF 차단 주파수 (426) 는 추적 속력을 결정할 수도 있다. 예를 들어, 시간적 포락선은 성음 계수 (236) 가 무성음을 나타내는 경우보다 성음 계수 (236) 가 유성음을 나타내는 경우 더 빠르게 추적될 (예컨대, 더 빈번하게 업데이트될) 수도 있다. 특정 실시형태에서, 포락선 조정기 (162) 는 시간 도메인에서 신호 포락선 (182) 의 특성을 제어할 수도 있다. 예를 들어, 포락선 조정기 (162) 는 신호 포락선 (182) 의 특성을 샘플 단위로 제어할 수도 있다. 대체 실시형태에서, 포락선 조정기 (162) 는 변환 도메인에서 표현되는 신호 포락선 (182) 의 특성을 제어할 수도 있다. 예를 들어, 포락선 조정기 (162) 는 추적 속력에 기초하여 스펙트럼 형상을 추적함으로써 신호 포락선 (182) 의 특성을 제어할 수도 있다. 포락선 조정기 (162) 는 신호 포락선 (182) 을 도 1의 변조기 (164) 에 제공할 수도 있다.
방법 (400) 은 신호 포락선 (182) 과 백색 잡음 (156) 을 곱하는 단계를 412 에서 더 포함한다. 예를 들어, 도 1의 변조기 (164) 는 백색 잡음 (156) 을 변조하여 변조된 백색 잡음 (184) 을 생성하기 위해 신호 포락선 (182) 을 사용할 수도 있다. 신호 포락선 (182) 은 변환 도메인 또는 시간 도메인에서 표현되는 백색 잡음 (156) 을 변조할 수도 있다.
방법 (400) 은 혼합물을 결정하는 단계를 406에서 또한 포함한다. 예를 들어, 도 1의 변조기 (164) 는 하모닉시티 파라미터 (246) 및 성음 계수 (236) 에 기초하여 변조된 백색 잡음 (184) 에 적용될 제 1 이득 (예컨대, 잡음 이득 (434)) 과 대표 신호 (422) 에 적용될 제 2 이득 (예컨대, 하모닉 이득 (436)) 을 결정할 수도 있다. 예를 들어, 잡음 이득 (434) (예컨대, 0과 1 사이) 과 하모닉 이득 (436) 은 하모닉시티 파라미터 (246) 에 의해 나타내어진 하모닉 대 잡음 에너지의 비율에 매칭되도록 컴퓨팅될 수도 있다. 변조기 (164) 는 성음 계수 (236) 가 강무성음을 나타내는 경우 잡음 이득 (434) 을 증가시킬 수도 있고 성음 계수 (236) 가 강유성음을 나타내는 경우 잡음 이득 (434) 을 감소시킬 수도 있다. 특정 실시형태에서, 변조기 (164) 는 잡음 이득 (434) 에 기초하여 하모닉 이득 (436) 을 결정할 수도 있다. 특정 실시형태에서, 하모닉 이득 (436) = .
방법 (400) 은 변조된 백색 잡음 (184) 과 잡음 이득 (434) 을 곱하는 단계를 414에서 더 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 잡음 이득 (434) 을 변조된 백색 잡음 (184) 에 적용함으로써 스케일링된 변조된 백색 잡음 (438) 을 생성할 수도 있다.
방법 (400) 은 대표 신호 (422) 와 하모닉 이득 (436) 을 곱하는 단계를 416에서 또한 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 하모닉 이득 (436) 을 대표 신호 (422) 에 적용함으로써 스케일링된 대표 신호 (440) 를 생성할 수도 있다.
방법 (400) 은 스케일링된 변조된 백색 잡음 (438) 과 스케일링된 대표 신호 (440) 를 가산하는 단계를 418에서 더 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 스케일링된 변조된 백색 잡음 (438) 과 스케일링된 대표 신호 (440) 를 결합 (예컨대, 가산) 함으로써 고 대역 여기 신호 (186) 를 생성할 수도 있다. 대체 실시형태들에서, 동작 (414), 동작 (416), 또는 둘 다가, 도 1의 변조기 (164) 에 의해 수행될 수도 있다. 고 대역 여기 신호 (186) 는 변환 도메인 또는 시간 도메인에 있을 수도 있다.
따라서, 방법 (400) 은 성음 계수 (236) 에 기초하여 포락선의 특성을 제어함으로써 신호 포락선의 양을 제어되게 하는 것이 가능할 수도 있다. 특정 실시형태에서, 변조된 백색 잡음 (184) 과 대표 신호 (422) 의 비율은 하모닉시티 파라미터 (246) 에 기초하여 이득 계수들 (예컨대, 잡음 이득 (434) 및 하모닉 이득 (436)) 에 의해 동적으로 결정될 수도 있다. 변조된 백색 잡음 (184) 과 대표 신호 (422) 는 고 대역 여기 신호 (186) 의 하모닉 대 잡음 에너지의 비율이 입력 신호 (130) 의 고 대역 신호의 하모닉 대 잡음 에너지의 비율에 근사하도록 스케일링될 수도 있다.
특정 실시형태들에서, 도 4의 방법 (400) 은 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 또는 컨트롤러와 같은 프로세싱 유닛의 하드웨어 (예컨대, 필드-프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적회로 (ASIC) 등) 를 통해, 펌웨어 디바이스를 통해, 그것들의 임의의 조합으로 구현될 수도 있다. 일 예로서, 도 4의 방법 (400) 은, 도 9에 관해 설명되는 바와 같이, 명령들을 실행하는 프로세서에 의해 수행될 수 있다.
도 5를 참조하면, 고 대역 여기 신호 생성의 방법의 특정 실시형태의 도면이 도시되고 전체가 500으로 지정된다. 방법 (500) 은 변환 도메인에서 표현되는 신호 포락선의 양을 제어하는 것, 변환 도메인에서 표현된 백색 잡음을 변조하는 것, 또는 둘 다에 의해 고 대역 여기 신호를 생성하는 단계를 포함할 수도 있다.
방법 (500) 은 방법 (400) 의 동작들 (404, 406, 412, 및 414) 을 포함한다. 대표 신호 (422) 는, 도 4를 참조하여 설명된 바와 같이, 변환 (예컨대, 주파수) 도메인에서 표현될 수도 있다.
방법 (500) 은 대역폭 확장 계수를 컴퓨팅하는 단계를 508에서 또한 포함한다. 예를 들어, 도 1의 포락선 조정기 (162) 는 성음 계수 (236) 에 기초하여 대역폭 확장 계수 (526) 를 결정할 수도 있다. 예를 들어, 대역폭 확장 계수 (526) 는 성음 계수 (236) 가 강무성음을 나타내는 경우보다 성음 계수 (236) 가 강유성음을 나타내는 경우 더 큰 대역폭 확장을 나타낼 수도 있다.
방법 (500) 은 고 대역 LPC 극점들을 조정함으로써 스펙트럼을 생성하는 단계를 510에서 더 포함한다. 예를 들어, 포락선 조정기 (162) 는 대표 신호 (422) 에 연관된 LPC 극점들을 결정할 수도 있다. 포락선 조정기 (162) 는 신호 포락선 (182) 의 크기, 신호 포락선 (182) 의 형상, 신호 포락선 (182) 의 이득, 또는 그 조합을 제어함으로써 신호 포락선 (182) 의 특성을 제어할 수도 있다. 예를 들어, 포락선 조정기 (162) 는 대역폭 확장 계수 (526) 에 기초하여 LPC 극점들을 조정함으로써 신호 포락선 (182) 의 크기, 신호 포락선 (182) 의 형상, 신호 포락선 (182) 의 이득, 또는 그 조합을 제어할 수도 있다. 특정 실시형태에서, LPC 극점들은 변환 도메인에서 조정될 수도 있다. 포락선 조정기 (162) 는 조정된 LPC 극점들에 기초하여 스펙트럼을 생성할 수도 있다.
그래프 (570) 는 원래의 스펙트럼 형상 (582) 을 예시한다. 원래의 스펙트럼 형상 (582) 은 대표 신호 (422) 의 신호 포락선 (182) 을 나타낼 수도 있다. 원래의 스펙트럼 형상 (582) 은 대표 신호 (422) 에 연관된 LPC 극점들에 기초하여 생성될 수도 있다. 포락선 조정기 (162) 는 성음 계수 (236) 에 기초하여 LPC 극점들을 조정할 수도 있다. 포락선 조정기 (162) 는 조정된 LPC 극점들에 대응하는 필터를 대표 신호 (422) 에 적용하여 제 1 스펙트럼 형상 (584) 또는 제 2 스펙트럼 형상 (586) 을 갖는 필터링된 신호를 생성할 수도 있다. 필터링된 신호의 제 1 스펙트럼 형상 (584) 은 성음 계수 (236) 가 강유성음을 나타내는 경우 조정된 LPC 극점들에 대응할 수도 있다. 필터링된 신호의 제 2 스펙트럼 형상 (586) 은 성음 계수 (236) 가 강무성음을 나타내는 경우 조정된 LPC 극점들에 대응할 수도 있다.
신호 포락선 (182) 은 생성된 스펙트럼, 조정된 LPC 극점들, 조정된 LPC 극점들을 갖는 대표 신호 (422) 에 연관된 LPC 계수들, 또는 그 조합에 대응할 수도 있다. 포락선 조정기 (162) 는 신호 포락선 (182) 을 도 1의 변조기 (164) 에 제공할 수도 있다.
변조기 (164) 는, 방법 (400) 의 동작 (412) 을 참조하여 설명된 바와 같이, 신호 포락선 (182) 을 사용하여 백색 잡음 (156) 을 변조하여 변조된 백색 잡음 (184) 을 생성할 수도 있다. 변조기 (164) 는 변환 도메인에서 표현되는 백색 잡음 (156) 을 변조할 수도 있다. 도 1의 출력 회로 (166) 는, 방법 (400) 의 동작 (414) 을 참조하여 설명되는 바와 같이, 변조된 백색 잡음 (184) 및 잡음 이득 (434) 에 기초하여 스케일링된 변조된 백색 잡음 (438) 을 생성할 수도 있다.
방법 (500) 은 고 대역 LPC 스펙트럼 (542) 과 대표 신호 (422) 를 곱하는 단계를 512에서 또한 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 고 대역 LPC 스펙트럼 (542) 을 사용하여 대표 신호 (422) 를 필터링하여 필터링된 신호 (544) 를 생성할 수도 있다. 특정 실시형태에서, 출력 회로 (166) 는 대표 신호 (422) 에 연관된 고 대역 파라미터들 (예컨대, 고 대역 LPC 계수들) 에 기초하여 고 대역 LPC 스펙트럼 (542) 을 결정할 수도 있다. 예시하기 위해, 출력 회로 (166) 는 도 2의 비트 스트림의 고 대역 부분 (218) 에 기초하여 또는 도 3의 고 대역 신호 (340) 로부터 생성되는 고 대역 파라미터 정보에 기초하여 고 대역 LPC 스펙트럼 (542) 을 결정할 수도 있다.
대표 신호 (422) 는 도 2의 저 대역 여기 신호 (244) 로부터 생성되는 확장된 신호에 대응할 수도 있다. 출력 회로 (166) 는 필터링된 신호 (544) 를 생성하기 위해 고 대역 LPC 스펙트럼 (542) 을 사용하여 확장된 신호를 합성할 수도 있다. 합성은 변환 도메인에 있을 수도 있다. 예를 들어, 출력 회로 (166) 는 주파수 도메인에서 곱셈을 사용하여 합성을 수행할 수도 있다.
방법 (500) 은 필터링된 신호 (544) 와 하모닉 이득 (436) 을 곱하는 단계를 516에서 더 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 필터링된 신호 (544) 와 하모닉 이득 (436) 을 곱하여 스케일링된 필터링된 신호 (540) 를 생성할 수도 있다. 특정 실시형태에서, 동작 (512), 동작 (516), 또는 둘 다는, 도 1의 변조기 (164) 에 의해 수행될 수도 있다.
방법 (500) 은 스케일링된 변조된 백색 잡음 (438) 과 스케일링된 필터링된 신호 (540) 를 가산하는 단계를 518에서 또한 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 스케일링된 변조된 백색 잡음 (438) 과 스케일링된 필터링된 신호 (540) 를 결합하여 고 대역 여기 신호 (186) 를 생성할 수도 있다. 고 대역 여기 신호 (186) 는 변환 도메인에서 표현될 수도 있다.
따라서, 방법 (500) 은 성음 계수 (236) 에 기초하여 변환 도메인에서 고 대역 LPC 극점들을 조정함으로써 신호 포락선의 양을 제어되게 하는 것이 가능할 수도 있다. 특정 실시형태에서, 변조된 백색 잡음 (184) 과 필터링된 신호 (544) 의 비율은 하모닉시티 파라미터 (246) 에 기초하여 이득들 (예컨대, 잡음 이득 (434) 및 하모닉 이득 (436)) 에 의해 동적으로 결정될 수도 있다. 변조된 백색 잡음 (184) 과 필터링된 신호 (544) 는 고 대역 여기 신호 (186) 의 하모닉 대 잡음 에너지의 비율이 입력 신호 (130) 의 고 대역 신호의 하모닉 대 잡음 에너지의 비율에 근사하도록 스케일링될 수도 있다.
특정 실시형태들에서, 도 5의 방법 (500) 은 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 또는 컨트롤러와 같은 프로세싱 유닛의 하드웨어 (예컨대, 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적회로 (ASIC) 등) 를 통해, 펌웨어 디바이스를 통해, 그것들의 임의의 조합으로 구현될 수도 있다. 일 예로서, 도 5의 방법 (500) 은, 도 9에 관해 설명되는 바와 같이, 명령들을 실행하는 프로세서에 의해 수행될 수 있다.
도 6을 참조하면, 고 대역 여기 신호 생성의 방법의 특정 실시형태의 도면이 도시되고 전체가 600으로 지정된다. 방법 (600) 은 시간 도메인에서 신호 포락선의 양을 제어함으로써 고 대역 여기 신호를 생성하는 단계를 포함할 수도 있다.
방법 (600) 은 방법 (400) 의 동작들 (404, 406, 및 414) 과 방법 (500) 의 동작 (508) 을 포함한다. 대표 신호 (422) 와 백색 잡음 (156) 은 시간 도메인에 있을 수도 있다.
방법 (600) 은 LPC 합성을 수행하는 단계를 610에서 또한 포함한다. 예를 들어, 도 1의 포락선 조정기 (162) 는 대역폭 확장 계수 (526) 에 기초하여 필터의 계수들을 조정함으로써 신호 포락선 (182) 의 특성 (예컨대, 형상, 크기, 및/또는 이득) 을 제어할 수도 있다. 특정 실시형태에서, LPC 합성은 시간 도메인에서 수행될 수도 있다. 필터의 계수들은 고 대역 LPC 계수들에 대응할 수도 있다. LPC 필터 계수들은 스펙트럼 피크들을 표현할 수도 있다. LPC 필터 계수들을 조정함으로써 스펙트럼 피크들을 제어하는 것은 성음 계수 (236) 에 기초한 백색 잡음 (156) 의 변조 정도의 제어를 가능하게 할 수도 있다.
예를 들어, 스펙트럼 피크들은 성음 계수 (236) 가 유성음 스피치를 나타내는 경우 보존될 수도 있다. 다른 예로서, 성음 계수 (236) 가 무성음 스피치를 나타내는 경우 스펙트럼 피크들은 전체 스펙트럼 형상을 보존하면서 평활화될 수도 있다.
그래프 (670) 가 원래의 스펙트럼 형상 (682) 을 예시한다. 원래의 스펙트럼 형상 (682) 은 대표 신호 (422) 의 신호 포락선 (182) 을 나타낼 수도 있다. 원래의 스펙트럼 형상 (682) 은 대표 신호 (422) 에 연관된 LPC 필터 계수들에 기초하여 생성될 수도 있다. 포락선 조정기 (162) 는 성음 계수 (236) 에 기초하여 LPC 필터 계수들을 조정할 수도 있다. 포락선 조정기 (162) 는 조정된 LPC 필터 계수들에 대응하는 필터를 대표 신호 (422) 에 적용하여 제 1 스펙트럼 형상 (684) 또는 제 2 스펙트럼 형상 (686) 을 갖는 필터링된 신호를 생성할 수도 있다. 필터링된 신호의 제 1 스펙트럼 형상 (684) 은 성음 계수 (236) 가 강유성음을 나타내는 경우 조정된 LPC 필터 계수들에 대응할 수도 있다. 스펙트럼 피크들은, 제 1 스펙트럼 형상 (684) 에 의해 예시된 바와 같이, 성음 계수 (236) 가 강유성음을 나타내는 경우 보존될 수도 있다. 제 2 스펙트럼 형상 (686) 은 성음 계수 (236) 가 강무성음을 나타내는 경우 조정된 LPC 필터 계수들에 대응할 수도 있다. 제 2 스펙트럼 형상 (686) 에 의해 예시된 바와 같이, 성음 계수 (236) 가 강무성음을 나타내는 경우 스펙트럼 피크들이 평활화될 수도 있으면서도 전체 스펙트럼 형상이 보존될 수도 있다. 신호 포락선 (182) 은 조정된 필터 계수들에 대응할 수도 있다. 포락선 조정기 (162) 는 신호 포락선 (182) 을 도 1의 변조기 (164) 에 제공할 수도 있다.
변조기 (164) 는 변조된 백색 잡음 (184) 을 생성하기 위해 신호 포락선 (182) (예컨대, 조정된 필터 계수들) 을 사용하여 백색 잡음 (156) 을 변조할 수도 있다. 예를 들어, 변조기 (164) 는 변조된 백색 잡음 (184) 을 생성하기 위해 조정된 필터 계수들을 갖는 필터를 백색 잡음 (156) 에 적용할 수도 있다. 변조기 (164) 는 변조된 백색 잡음 (184) 을 도 1의 출력 회로 (166) 에 제공할 수도 있다. 출력 회로 (166) 는, 도 4의 동작 (414) 을 참조하여 설명된 바와 같이, 변조된 백색 잡음 (184) 과 잡음 이득 (434) 을 곱하여 스케일링된 변조된 백색 잡음 (438) 을 생성할 수도 있다.
방법 (600) 은 고 대역 LPC 합성을 수행하는 단계를 612에서 더 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 대표 신호 (422) 를 합성하여 합성된 고 대역 신호 (614) 를 생성할 수도 있다. 합성은 시간 도메인에서 수행될 수도 있다. 특정 실시형태에서, 대표 신호 (422) 는 저 대역 여기 신호를 확장함으로써 생성될 수도 있다. 출력 회로 (166) 는 고 대역 LPC들을 사용하여 합성 필터를 대표 신호 (422) 에 적용함으로써 합성된 고 대역 신호 (614) 를 생성할 수도 있다.
방법 (600) 은 합성된 고 대역 신호 (614) 와 하모닉 이득 (436) 을 곱하는 단계를 616에서 또한 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 하모닉 이득 (436) 을 합성된 고 대역 신호 (614) 에 적용하여 스케일링된 합성된 고 대역 신호 (640) 를 생성할 수도 있다. 대체 실시형태에서, 도 1의 변조기 (164) 는 동작 (612), 동작 (616), 또는 둘 다를 수행할 수도 있다.
방법 (600) 은 스케일링된 변조된 백색 잡음 (438) 과 스케일링된 합성된 고 대역 신호 (640) 를 가산하는 단계를 618에서 더 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 스케일링된 변조된 백색 잡음 (438) 과 스케일링된 합성된 고 대역 신호 (640) 를 결합하여 고 대역 여기 신호 (186) 를 생성할 수도 있다.
따라서, 방법 (600) 은 성음 계수 (236) 에 기초하여 필터의 계수들을 조정함으로써 신호 포락선의 양을 제어되게 하는 것이 가능할 수도 있다. 특정 실시형태에서, 변조된 백색 잡음 (184) 과 합성된 고 대역 신호 (614) 의 비율은 성음 계수 (236) 에 기초하여 동적으로 결정될 수도 있다. 변조된 백색 잡음 (184) 과 합성된 고 대역 신호 (614) 는 고 대역 여기 신호 (186) 의 하모닉 대 잡음 에너지의 비율이 입력 신호 (130) 의 고 대역 신호의 하모닉 대 잡음 에너지의 비율에 근사하도록 스케일링될 수도 있다.
특정 실시형태들에서, 도 6의 방법 (600) 은 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 또는 컨트롤러와 같은 프로세싱 유닛의 하드웨어 (예컨대, 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적회로 (ASIC) 등) 를 통해, 펌웨어 디바이스를 통해, 그것들의 임의의 조합으로 구현될 수도 있다. 일 예로서, 도 6의 방법 (600) 은, 도 9에 관해 설명되는 바와 같이, 명령들을 실행하는 프로세서에 의해 수행될 수 있다.
도 7을 참조하면, 고 대역 여기 신호 생성의 방법의 특정 실시형태의 도면이 도시되고 전체가 700으로 지정된다. 방법 (700) 은 시간 도메인 또는 변환 (예컨대, 주파수) 도메인에서 표현된 신호 포락선의 양을 제어함으로써 고 대역 여기 신호를 생성하는 것에 대응할 수도 있다.
방법 (700) 은 방법 (400) 의 동작들 (404, 406, 412, 414, 및 416) 을 포함한다. 대표 신호 (422) 는 변환 도메인 또는 시간 도메인에서 표현될 수도 있다. 방법 (700) 은 신호 포락선을 결정하는 단계를 710에서 또한 포함한다. 예를 들어, 도 1의 포락선 조정기 (162) 는 저역 통과 필터를 상수 계수와 함께 대표 신호 (422) 에 적용함으로써 신호 포락선 (182) 을 생성할 수도 있다.
방법 (700) 은 제곱평균제곱근 값을 결정하는 단계를 702에서 또한 포함한다. 예를 들어, 도 1의 변조기 (164) 는 신호 포락선 (182) 의 제곱평균제곱근 에너지를 결정할 수도 있다.
방법 (700) 은 제곱평균제곱근 값과 백색 잡음 (156) 을 곱하는 단계를 712에서 더 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 제곱평균제곱근 값과 백색 잡음 (156) 을 곱하여 비변조된 백색 잡음 (736) 을 생성할 수도 있다.
도 1의 변조기 (164) 는, 방법 (400) 의 동작 (412) 을 참조하여 설명된 바와 같이, 신호 포락선 (182) 과 백색 잡음 (156) 을 곱하여 변조된 백색 잡음 (184) 을 생성할 수도 있다. 백색 잡음 (156) 은 변환 도메인 또는 시간 도메인에서 표현될 수도 있다.
방법 (700) 은 변조된 및 비변조된 백색 잡음에 대한 이득의 비율을 결정하는 단계를 704에서 또한 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 잡음 이득 (434) 및 성음 계수 (236) 에 기초하여 비변조된 잡음 이득 (734) 과 변조된 잡음 이득 (732) 을 결정할 수도 있다. 인코딩된 오디오 신호가 강유성음 오디오에 대응한다고 성음 계수 (236) 가 나타낸다면, 변조된 잡음 이득 (732) 이 잡음 이득 (434) 의 더 높은 비율에 대응할 수도 있다. 인코딩된 오디오 신호가 강무성음 오디오에 대응한다고 성음 계수 (236) 가 나타낸다면, 비변조된 잡음 이득 (734) 이 잡음 이득 (434) 의 더 높은 비율에 대응할 수도 있다.
방법 (700) 은 비변조된 잡음 이득 (734) 과 비변조된 백색 잡음 (736) 을 곱하는 단계를 714에서 더 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 비변조된 잡음 이득 (734) 을 비변조된 백색 잡음 (736) 에 적용하여 스케일링된 비변조된 백색 잡음 (742) 을 생성할 수도 있다.
출력 회로 (166) 는, 방법 (400) 의 동작 (414) 을 참조하여 설명된 바와 같이, 변조된 잡음 이득 (732) 을 변조된 백색 잡음 (184) 에 적용하여 스케일링된 변조된 백색 잡음 (740) 을 생성할 수도 있다.
방법 (700) 은 스케일링된 비변조된 백색 잡음 (742) 과 스케일링된 백색 잡음 (744) 을 가산하는 단계를 716에서 또한 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는 스케일링된 비변조된 백색 잡음 (742) 과 스케일링된 변조된 백색 잡음 (740) 을 결합하여 스케일링된 백색 잡음 (744) 을 생성할 수도 있다.
방법 (700) 은 스케일링된 백색 잡음 (744) 과 스케일링된 대표 신호 (440) 를 가산하는 단계를 718에서 더 포함한다. 예를 들어, 출력 회로 (166) 는 스케일링된 백색 잡음 (744) 과 스케일링된 대표 신호 (440) 를 결합하여 고 대역 여기 신호 (186) 를 생성할 수도 있다. 방법 (700) 은 대표 신호 (422) 와 변환 (또는 시간) 도메인에서 표현되는 백색 잡음 (156) 을 사용하여 변환 (또는 시간) 도메인에서 표현되는 고 대역 여기 신호 (186) 를 생성할 수도 있다.
따라서, 방법 (700) 은 비변조된 백색 잡음 (736) 과 변조된 백색 잡음 (184) 의 비율이 성음 계수 (236) 에 기초하여 이득 계수들 (예컨대, 비변조된 잡음 이득 (734) 및 변조된 잡음 이득 (732)) 에 의해 동적으로 결정되게 하는 것을 가능하게 할 수도 있다. 강무성음 오디오에 대한 고 대역 여기 신호 (186) 는 희박하게 코딩된 저 대역 잔차에 기초하여 변조된 백색 잡음에 대응하는 고 대역 신호보다 더 적은 아티팩트들을 갖는 비변조된 백색 잡음에 대응할 수도 있다.
특정 실시형태들에서, 도 7의 방법 (700) 은 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 또는 컨트롤러와 같은 프로세싱 유닛의 하드웨어 (예컨대, 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적회로 (ASIC) 등) 를 통해, 펌웨어 디바이스를 통해, 그것들의 임의의 조합으로 구현될 수도 있다. 일 예로서, 도 7의 방법 (700) 은, 도 9에 관해 설명되는 바와 같이, 명령들을 실행하는 프로세서에 의해 수행될 수 있다.
도 8을 참조하면, 고 대역 여기 신호 생성의 방법의 특정 실시형태의 흐름도가 도시되고 전체가 800으로 지정된다. 방법 (800) 은 도 1 내지 도 3의 시스템들 (100~300) 의 하나 이상의 컴포넌트들에 의해 수행될 수도 있다. 예를 들어, 방법 (800) 은 도 1의 고 대역 여기 신호 생성 모듈 (122) 의 하나 이상의 컴포넌트들, 도 2 또는 도 3의 여기 신호 생성기 (222), 도 2의 성음 계수 생성기 (208), 또는 그 조합에 의해 수행될 수도 있다.
방법 (800) 은 디바이스에서, 입력 신호의 성음 분류를 결정하는 단계를 802에서 포함한다. 입력 신호는 오디오 신호에 대응할 수도 있다. 예를 들어, 도 1의 성음 분류기 (160) 는, 도 1을 참조하여 설명되는 바와 같이, 입력 신호 (130) 의 성음 분류 (180) 를 결정할 수도 있다. 입력 신호 (130) 는 오디오 신호에 대응할 수도 있다.
방법 (800) 은 성음 분류에 기초하여 입력 신호의 표현의 포락선의 양을 제어하는 단계를 804에서 또한 포함한다. 예를 들어, 도 1의 포락선 조정기 (162) 는, 도 1을 참조하여 설명된 바와 같이 성음 분류 (180) 에 기초하여 입력 신호 (130) 의 표현의 포락선의 양을 제어할 수도 있다. 입력 신호 (130) 의 표현은 비트 스트림의 저 대역 부분 (예컨대, 도 2의 비트 스트림 (232)), 저 대역 신호 (예컨대, 도 3의 저 대역 신호 (334)), 저 대역 여기 신호 (예컨대, 도 2의 저 대역 여기 신호 (244)) 를 확장함으로써 생성된 확장된 신호, 다른 신호, 또는 그 조합일 수도 있다. 예를 들어, 입력 신호 (130) 의 표현은 도 4 내지 도 7의 대표 신호 (422) 를 포함할 수도 있다.
방법 (800) 은 포락선의 제어된 양에 기초하여 백색 잡음 신호를 변조하는 단계를 806에서 더 포함한다. 예를 들어, 도 1의 변조기 (164) 는 신호 포락선 (182) 에 기초하여 백색 잡음 (156) 을 변조할 수도 있다. 신호 포락선 (182) 은 포락선의 제어된 양에 대응할 수도 있다. 예시하기 위해, 변조기 (164) 는, 도 4와 도 6 및 도 7에서와 같이, 시간 도메인에서 백색 잡음 (156) 을 변조할 수도 있다. 대안적으로, 변조기 (164) 는, 도 4 내지 도 7에서와 같이, 변환 도메인에서 표현되는 백색 잡음 (156) 을 변조할 수도 있다.
방법 (800) 은 변조된 백색 잡음 신호에 기초하여 고 대역 여기 신호를 생성하는 단계를 808에서 또한 포함한다. 예를 들어, 도 1의 출력 회로 (166) 는, 도 1을 참조하여 설명된 바와 같이, 변조된 백색 잡음 (184) 에 기초하여 고 대역 여기 신호 (186) 를 생성할 수도 있다.
따라서, 도 8의 방법 (800) 은 입력 신호의 포락선의 제어된 양에 기초하여 고 대역 여기 신호의 생성을 가능하게 할 수도 있는데, 포락선의 제어된 양은 성음 분류에 기초하여 제어된다.
특정 실시형태들에서, 도 8의 방법 (800) 은 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP), 또는 컨트롤러와 같은 프로세싱 유닛의 하드웨어 (예컨대, 필드 프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적회로 (ASIC) 등) 를 통해, 펌웨어 디바이스를 통해, 그것들의 임의의 조합으로 구현될 수도 있다. 일 예로서, 도 8의 방법 (800) 은, 도 9에 관해 설명되는 바와 같이, 명령들을 실행하는 프로세서에 의해 수행될 수 있다.
비록 도 1 내지 도 8의 실시형태들이 저 대역 신호에 기초하여 고 대역 여기 신호를 생성하는 것을 설명하지만, 다른 실시형태들에서 입력 신호 (130) 는 다수의 대역 신호들을 생성하도록 필터링될 수도 있다. 예를 들어, 다수의 대역 신호들은 더 낮은 대역 신호, 중간 대역 신호, 더 높은 대역 신호, 하나 이상의 추가적인 대역 신호들, 또는 그 조합을 포함할 수도 있다. 중간 대역 신호는 더 낮은 대역 신호보다 높은 주파수 범위에 대응할 수도 있고 더 높은 대역 신호는 중간 대역 신호보다 더 높은 주파수 범위에 대응할 수도 있다. 더 낮은 대역 신호와 중간 대역 신호는 중첩 또는 비-중첩 주파수 범위들에 대응할 수도 있다. 중간 대역 신호와 더 높은 대역 신호는 중첩 또는 비-중첩 주파수 범위들에 대응할 수도 있다.
여기 신호 생성 모듈 (122) 은 제 1 대역 신호 (예컨대, 더 낮은 대역 신호 또는 중간 대역 신호) 를 사용하여 제 2 대역 신호 (예컨대, 중간 대역 신호 또는 더 높은 대역 신호) 에 대응하는 여기 신호를 생성할 수도 있는데, 제 1 대역 신호는 제 2 대역 신호보다 더 낮은 주파수 범위에 대응한다.
특정 실시형태에서, 여기 신호 생성 모듈 (122) 은 제 1 대역 신호를 사용하여 다수의 대역 신호들에 대응하는 다수의 여기 신호들을 생성할 수도 있다. 예를 들어, 여기 신호 생성 모듈 (122) 은 더 낮은 대역 신호를 사용하여 중간 대역 신호에 대응하는 중간 대역 여기 신호, 더 높은 대역 신호에 대응하는 더 높은 대역 여기 신호, 하나 이상의 추가적인 대역 여기 신호들, 또는 그 조합을 생성할 수도 있다.
도 9를 참조하면, 디바이스 (예컨대, 무선 통신 디바이스) 의 특정 예시적인 실시형태의 블록도가 도시되어 있고 전체가 900으로 지정된다. 다양한 실시형태들에서, 디바이스 (900) 는 도 9에서 예시된 것보다 더 적거나 또는 더 많은 컴포넌트들을 가질 수도 있다. 예시적인 실시형태에서, 디바이스 (900) 는 도 1의 모바일 디바이스 (104) 또는 제 1 디바이스 (102) 에 대응할 수도 있다. 예시적인 실시형태에서, 디바이스 (900) 는 도 4 내지 도 8의 방법들 (400~800) 중 하나 이상에 따라 동작할 수도 있다.
특정 실시형태에서, 디바이스 (900) 는 프로세서 (906) (예컨대, 중앙 프로세싱 유닛 (CPU)) 를 포함한다. 디바이스 (900) 는 하나 이상의 추가적인 프로세서들 (910) (예컨대, 하나 이상의 디지털 신호 프로세서들 (DSP들)) 을 포함할 수도 있다. 프로세서들 (910) 은 스피치 및 음악 코더-디코더 (코덱) (908) 과, 에코 제거기 (912) 를 포함할 수도 있다. 스피치 및 음악 코덱 (908) 은 도 1의 여기 신호 생성 모듈 (122), 여기 신호 생성기 (222), 도 2의 성음 계수 생성기 (208), 보코더 인코더 (936), 보코더 디코더 (938), 또는 둘 다를 포함할 수도 있다. 특정 실시형태에서, 보코더 인코더 (936) 는 도 1의 고 대역 인코더 (172), 도 3의 저 대역 인코더 (304), 또는 둘 다를 포함할 수도 있다. 특정 실시형태에서, 보코더 디코더 (938) 는 도 1의 고 대역 합성기 (168), 도 2의 저 대역 합성기 (204), 또는 둘 다를 포함할 수도 있다.
예시된 바와 같이, 여기 신호 생성 모듈 (122), 성음 계수 생성기 (208), 및 여기 신호 생성기 (222) 는 보코더 인코더 (936) 및 보코더 디코더 (938) 에 의해 액세스 가능한 공유된 컴포넌트들일 수도 있다. 다른 실시형태들에서, 여기 신호 생성 모듈 (122), 성음 계수 생성기 (208), 및/또는 여기 신호 생성기 (222) 중 하나 이상은 보코더 인코더 (936) 및 보코더 디코더 (938) 내에 포함될 수도 있다.
비록 스피치 및 음악 코덱 (908) 이 프로세서들 (910) 의 컴포넌트 (예컨대, 전용 회로부 및/또는 실행가능 프로그래밍 코드) 로서 예시되지만, 다른 실시형태들에서 스피치 및 음악 코덱 (908) 의 하나 이상의 컴포넌트들, 이를테면 여기 신호 생성 모듈 (122) 이, 프로세서 (906), CODEC (934), 다른 프로세싱 컴포넌트, 또는 그 조합에 포함될 수도 있다.
디바이스 (900) 는 메모리 (932) 와 CODEC (934) 을 포함할 수도 있다. 디바이스 (900) 는 트랜시버 (950) 를 통해 안테나 (942) 에 커플링된 무선 제어기 (940) 를 포함할 수도 있다. 디바이스 (900) 는 디스플레이 제어기 (926) 에 커플링된 디스플레이 (928) 를 포함할 수도 있다. 스피커 (948), 마이크로폰 (946), 또는 둘 다는 CODEC (934) 에 커플링될 수도 있다. 특정 실시형태에서, 스피커 (948) 는 도 1의 스피커 (142) 에 대응할 수도 있다. 특정 실시형태에서, 마이크로폰 (946) 은 도 1의 마이크로폰 (146) 에 대응할 수도 있다. CODEC (934) 은 디지털-아날로그 변환기 (DAC) (902) 와 아날로그-디지털 변환기 (ADC) (904) 를 포함할 수도 있다.
특정 실시형태에서, CODEC (934) 은 마이크로폰 (946) 으로부터 아날로그 신호들을 수신하며, 그 아날로그 신호들을 아날로그-디지털 변환기 (904) 를 사용하여 디지털 신호들로 변환하고, 그 디지털 신호들을 스피치 및 음악 코덱 (908) 에, 이를테면 펄스 코드 변조 (PCM) 포맷으로 제공할 수도 있다. 스피치 및 음악 코덱 (908) 은 디지털 신호들을 프로세싱할 수도 있다. 특정 실시형태에서, 스피치 및 음악 코덱 (908) 은 디지털 신호들을 CODEC (934) 에 제공할 수도 있다. CODEC (934) 은 디지털 신호들을 디지털-아날로그 변환기 (902) 를 사용하여 아날로그 신호들로 변환할 수도 있고 그 아날로그 신호들을 스피커 (948) 로 제공할 수도 있다.
메모리 (932) 는, 본 명세서에서 개시된 방법들 및 프로세스들, 이를테면 도 4 내지 도 8의 방법들 (400~800) 중 하나 이상을 수행하기 위해, 프로세서 (906), 프로세서들 (910), CODEC (934), 디바이스 (900) 의 다른 프로세싱 유닛, 또는 그 조합에 의해 실행 가능한 명령들 (956) 을 포함할 수도 있다.
시스템들 (100~300) 의 하나 이상의 컴포넌트들은 전용 하드웨어 (예컨대, 회로부) 를 통해, 하나 이상의 태스크들을 수행하는 명령들을 실행하는 프로세서에 의해, 또는 그 조합에 의해 구현될 수도 있다. 일 예로서, 메모리 (932) 또는 프로세서 (906) 의 하나 이상의 컴포넌트들, 프로세서들 (910), 및/또는 CODEC (934) 은 메모리 디바이스, 이를테면 랜덤 액세스 메모리 (RAM), 자기저항성 (magnetoresistive) 랜덤 액세스 메모리 (MRAM), STT-MRAM (spin-torque transfer MRAM), 플래시 메모리, 판독전용 메모리 (ROM), 프로그래밍가능 판독전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독전용 메모리 (EPROM), 전기적으로 소거가능한 프로그래밍가능 판독전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 또는 콤팩트 디스크 판독전용 메모리 (CD-ROM) 일 수도 있다. 그 메모리 디바이스는, 컴퓨터 (예컨대, CODEC (934) 에서의 프로세서, 프로세서 (906), 및/또는 프로세서들 (910)) 에 의해 실행되는 경우, 컴퓨터로 하여금 도 4 내지 도 8의 방법들 (400~800) 중 하나 이상의 방법들의 적어도 부분을 수행하게 할 수도 있는 명령들 (예컨대, 명령들 (956)) 을 포함할 수도 있다. 일 예로서, 메모리 (932) 또는 프로세서 (906) 의 하나 이상의 컴포넌트들, 프로세서들 (910), CODEC (934) 은 컴퓨터 (예컨대, CODEC (934) 에서의 프로세서, 프로세서 (906), 및/또는 프로세서들 (910)) 에 의해 실행되는 경우, 컴퓨터로 하여금 도4 내지 도 8의 방법들 (400~800) 중 하나 이상 방법들의 적어도 부분을 수행하게 하는 명령들 (예컨대, 명령들 (956)) 을 포함하는 비일시적 컴퓨터-판독가능 매체일 수도 있다.
특정 실시형태에서, 디바이스 (900) 는 시스템-인-패키지 (system-in-package) 또는 시스템-온-칩 (system-on-chip) 디바이스 (예컨대, 이동국 모뎀 (MSM) (922) 에 포함될 수도 있다. 특정 실시형태에서, 프로세서 (906), 프로세서들 (910), 디스플레이 제어기 (926), 메모리 (932), CODEC (934), 무선 제어기 (940), 및 트랜시버 (950) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (922) 에 포함된다. 특정 실시형태에서, 입력 디바이스 (930), 이를테면 터치스크린 및/또는 키패드와, 전력 공급부 (944) 가 시스템-온-칩 디바이스 (922) 에 커플링된다. 더구나, 특정 실시형태에서, 도 9에 예시된 바와 같이, 디스플레이 (928), 입력 디바이스 (930), 스피커 (948), 마이크로폰 (946), 안테나 (942), 및 전력 공급부 (944) 는 시스템-온-칩 디바이스 (922) 외부에 있다. 그러나, 디스플레이 (928), 입력 디바이스 (930), 스피커 (948), 마이크로폰 (946), 안테나 (942), 및 전력 공급부 (944) 의 각각은 시스템-온-칩 디바이스 (922) 의 컴포넌트, 이를테면 인터페이스 또는 제어기에 커플링될 수 있다.
디바이스 (900) 는 모바일 통신 디바이스, 스마트 폰, 셀룰러 폰, 랩톱 컴퓨터, 컴퓨터, 태블릿, 개인 정보 단말기, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 음악 플레이어, 라디오, 디지털 비디오 플레이어, 디지털 비디오 디스크 (DVD) 플레이어, 튜너, 카메라, 내비게이션 디바이스, 디코더 시스템, 인코더 시스템, 또는 그것들의 임의의 조합을 포함할 수도 있다.
예시적인 실시형태에서, 프로세서들 (910) 은 도 1 내지 도 8을 참조하여 설명된 방법들 또는 동작들의 전부 또는 부분을 수행하도록 동작 가능할 수도 있다. 예를 들어, 마이크로폰 (946) 은 오디오 신호 (예컨대, 도 1의 입력 신호 (130)) 를 캡처할 수도 있다. ADC (904) 는 캡처된 오디오 신호를 아날로그 파형으로부터 디지털 오디오 샘플들로 이루어진 디지털 파형으로 변환할 수도 있다. 프로세서들 (910) 은 디지털 오디오 샘플들을 프로세싱할 수도 있다. 이득 조정기는 디지털 오디오 샘플들을 조정할 수도 있다. 에코 제거기 (912) 는 마이크로폰 (946) 에 들어가는 스피커 (948) 의 출력에 의해 만들어질 수도 있는 에코를 감소시킬 수도 있다.
보코더 인코더 (936) 는 프로세싱된 스피치 신호에 대응하는 디지털 오디오 샘플들을 압축할 수도 있고 송신 패킷 (예컨대, 디지털 오디오 샘플들의 압축된 비트들의 표현) 을 형성할 수도 있다. 예를 들어, 송신 패킷은 도 1의 비트 스트림 (132) 의 적어도 부분에 대응할 수도 있다. 송신 패킷은 메모리 (932) 에 저장될 수도 있다. 트랜시버 (950) 는 송신 패킷의 일부 형태를 변조할 수도 있고 (예컨대, 다른 정보는 송신 패킷에 첨부될 수도 있고) 변조된 데이터를 안테나 (942) 를 통해 송신할 수도 있다.
추가의 예로서, 안테나 (942) 는 수신 패킷을 포함하는 착신 패킷들을 수신할 수도 있다. 수신 패킷은 다른 디바이스에 의해 네트워크를 통해 전송될 수도 있다. 예를 들어, 수신 패킷은 도 1의 비트 스트림 (132) 의 적어도 부분에 대응할 수도 있다. 보코더 디코더 (938) 는 수신 패킷을 압축해제할 수도 있다. 압축해제된 파형은 복원된 오디오 샘플들이라고 지칭될 수도 있다. 에코 제거기 (912) 는 복원된 오디오 샘플들로부터 에코를 제거할 수도 있다.
스피치 및 음악 코덱 (908) 을 실행하는 프로세서들 (910) 는, 도 1 내지 도 8을 참조하여 설명되는 바와 같이, 고 대역 여기 신호 (186) 를 생성할 수도 있다. 프로세서들 (910) 은 고 대역 여기 신호 (186) 에 기초하여 도 1의 출력 신호 (116) 를 생성할 수도 있다. 이득 조정기가 출력 신호 (116) 를 증폭 또는 억제할 수도 있다. DAC (902) 는 출력 신호 (116) 를 디지털 파형으로부터 아날로그 파형으로 변환할 수도 있고 변환된 신호를 스피커 (948) 에 제공할 수도 있다.
설명된 실시형태들에 연계하여, 입력 신호의 성음 분류를 결정하는 수단을 포함하는 장치가 개시된다. 입력 신호는 오디오 신호에 대응할 수도 있다. 예를 들어, 성음 분류를 결정하는 수단은 도 1의 성음 분류기 (160), 입력 신호의 성음 분류를 결정하도록 구성되는 하나 이상의 디바이스들 (예컨대, 비일시적 컴퓨터 판독가능 저장 매체에 있는 명령들을 실행하는 프로세서), 또는 그것들의 임의의 조합을 포함할 수도 있다.
예를 들어, 성음 분류기 (160) 는 입력 신호 (130) 의 저 대역 신호의 제로 교차 율, 제 1 반사 계수, 저 대역 여기에서의 적응적 코드북 기여분의 에너지 대 저 대역 여기에서의 적응적 코드북 기여분과 고정된 코드북 기여분의 합의 에너지의 비율, 입력 신호 (130) 의 저 대역 신호의 피치 이득, 또는 그 조합을 포함하는 파라미터들 (242) 을 결정할 수도 있다. 특정 실시형태에서, 성음 분류기 (160) 는 도 3의 저 대역 신호 (334) 에 기초하여 파라미터들 (242) 을 결정할 수도 있다. 대체 실시형태에서, 성음 분류기 (160) 는 도 2의 비트 스트림의 저 대역 부분 (232) 으로부터 파라미터들 (242) 을 추출할 수도 있다.
성음 분류기 (160) 는 수학식에 기초하여 성음 분류 (180) (예컨대, 성음 계수 (236)) 를 결정할 수도 있다. 예를 들어, 성음 분류기 (160) 는 수학식 1 및 파라미터들 (242) 에 기초하여 성음 분류 (180) 를 결정할 수도 있다. 예시하기 위해, 성음 분류기 (160) 는, 도 4를 참조하여 설명된 바와 같이, 제로 교차 율의 가중된 합, 제 1 반사 계수, 에너지의 비율, 피치 이득, 이전의 성음 결정, 상수 값, 또는 그 조합을 계산함으로써 성음 분류 (180) 를 결정할 수도 있다.
그 장치는 성음 분류에 기초하여 입력 신호의 표현의 포락선의 양을 제어하는 수단을 또한 포함한다. 예를 들어, 포락선의 양을 제어하는 수단은 도 1의 포락선 조정기 (162), 성음 분류에 기초하여 입력 신호의 표현의 포락선의 양을 제어하도록 구성되는 하나 이상의 디바이스들 (예컨대, 비일시적 컴퓨터 판독가능 저장 매체에 있는 명령들을 실행하는 프로세서), 또는 그것들의 임의의 조합을 포함할 수도 있다.
예를 들어, 포락선 조정기 (162) 는 도 1의 성음 분류 (180) (예컨대, 도 2의 성음 계수 (236)) 에 차단 주파수 스케일링 계수를 곱함으로써 주파수 성음 분류를 생성할 수도 있다. 차단 주파수 스케일링 계수는 디폴트 값일 수도 있다. LPF 차단 주파수 (426) 는 디폴트 차단 주파수에 대응할 수도 있다. 포락선 조정기 (162) 는, 도 4를 참조하여 설명되는 바와 같이, LPF 차단 주파수 (426) 를 조정함으로써, 신호 포락선 (182) 의 양을 제어할 수도 있다. 예를 들어, 포락선 조정기 (162) 는 주파수 성음 분류를 LPF 차단 주파수 (426) 에 가산함으로써 LPF 차단 주파수 (426) 를 조정할 수도 있다.
다른 예로서, 포락선 조정기 (162) 는 도 1의 성음 분류 (180) (예컨대, 도 2의 성음 계수 (236)) 에 대역폭 스케일링 계수를 곱함으로써 대역폭 확장 계수 (526) 를 생성할 수도 있다. 포락선 조정기 (162) 는 대표 신호 (422) 에 연관된 고 대역 LPC 극점들을 결정할 수도 있다. 포락선 조정기 (162) 는 대역폭 확장 계수 (526) 에 극점 스케일링 계수를 곱함으로써 극점 조정 계수를 결정할 수도 있다. 극점 스케일링 계수는 디폴트 값일 수도 있다. 포락선 조정기 (162) 는, 도 5를 참조하여 설명된 바와 같이, 고 대역 LPC 극점들을 조정함으로써 신호 포락선 (182) 의 양을 제어할 수도 있다. 예를 들어, 포락선 조정기 (162) 는 고 대역 LPC 극점들을 극점 조정 계수만큼 원점 쪽으로 조정할 수도 있다.
추가의 예로서, 포락선 조정기 (162) 는 필터의 계수들을 결정할 수도 있다. 필터의 계수들은 디폴트 값들일 수도 있다. 포락선 조정기 (162) 는 대역폭 확장 계수 (526) 에 필터 스케일링 계수를 곱함으로써 필터 조정 계수를 결정할 수도 있다. 필터 스케일링 계수는 디폴트 값일 수도 있다. 포락선 조정기 (162) 는, 도 6을 참조하여 설명된 바와 같이, 필터의 계수들을 조정함으로써 신호 포락선 (182) 의 양을 제어할 수도 있다. 예를 들어, 포락선 조정기 (162) 는 필터의 계수들의 각각에 필터 조정 계수를 곱할 수도 있다.
그 장치는 포락선의 제어된 양에 기초하여 백색 잡음 신호를 변조하는 수단을 더 포함한다. 예를 들어, 백색 잡음 신호를 변조하는 수단은 도 1의 변조기 (164), 포락선의 제어된 양에 기초하여 백색 잡음 신호를 변조하도록 구성되는 하나 이상의 디바이스들 (예컨대, 비일시적 컴퓨터 판독가능 저장 매체에 있는 명령들을 실행하는 프로세서), 또는 그것들의 임의의 조합을 포함할 수도 있다. 예를 들어, 변조기 (164) 는 백색 잡음 (156) 과 신호 포락선 (182) 이 동일한 도메인에 있는지의 여부를 결정할 수도 있다. 백색 잡음 (156) 이 신호 포락선 (182) 과는 상이한 도메인에 있다면, 변조기 (164) 는 백색 잡음 (156) 을 신호 포락선 (182) 과는 동일한 도메인에 있도록 변환할 수도 있거나 또는 신호 포락선 (182) 을 백색 잡음 (156) 과는 동일한 도메인에 있도록 변환할 수도 있다. 변조기 (164) 는, 도 4를 참조하여 설명된 바와 같이, 신호 포락선 (182) 에 기초하여 백색 잡음 (156) 을 변조할 수도 있다. 예를 들어, 변조기 (164) 는 시간 도메인에서 백색 잡음 (156) 과 신호 포락선 (182) 을 곱할 수도 있다. 다른 예로서, 변조기 (164) 는 주파수 도메인에서 백색 잡음 (156) 과 신호 포락선 (182) 을 콘볼루션할 수도 있다.
그 장치는 변조된 백색 잡음 신호에 기초하여 고 대역 여기 신호를 생성하는 수단을 또한 포함한다. 예를 들어, 고 대역 여기 신호를 생성하는 수단은 도 1의 출력 회로 (166), 변조된 백색 잡음 신호에 기초하여 고 대역 여기 신호를 생성하도록 구성되는 하나 이상의 디바이스들 (예컨대, 비일시적 컴퓨터 판독가능 저장 매체에 있는 명령들을 실행하는 프로세서), 또는 그것들의 임의의 조합을 포함할 수도 있다.
특정 실시형태에서, 출력 회로 (166) 는, 도 4 내지 도 7을 참조하여 설명된 바와 같이, 변조된 백색 잡음 (184) 에 기초하여 고 대역 여기 신호 (186) 를 생성할 수도 있다. 예를 들어, 출력 회로 (166) 는, 도 4 내지 도 6을 참조하여 설명된 바와 같이, 변조된 백색 잡음 (184) 과 잡음 이득 (434) 을 곱하여 스케일링된 변조된 백색 잡음 (438) 을 생성할 수도 있다. 출력 회로 (166) 는 스케일링된 변조된 백색 잡음 (438) 과 다른 신호 (예컨대, 도 4의 스케일링된 대표 신호 (440), 도 5의 스케일링된 필터링된 신호 (540), 또는 도 6의 스케일링된 합성된 고 대역 신호 (640)) 를 결합하여 고 대역 여기 신호 (186) 를 생성할 수도 있다.
다른 예로서, 출력 회로 (166) 는, 도 7을 참조하여 설명된 바와 같이, 변조된 백색 잡음 (184) 과 도 7의 변조된 잡음 이득 (732) 을 곱하여 스케일링된 변조된 백색 잡음 (740) 을 생성할 수도 있다. 출력 회로 (166) 는 스케일링된 변조된 백색 잡음 (740) 과 스케일링된 비변조된 백색 잡음 (742) 을 결합 (예컨대, 가산) 하여 스케일링된 백색 잡음 (744) 을 생성할 수도 있다. 출력 회로 (166) 는 스케일링된 대표 신호 (440) 와 스케일링된 백색 잡음 (744) 을 결합하여 고 대역 여기 신호 (186) 를 생성할 수도 있다.
본 기술분야의 통상의 기술자들은 본원에서 개시된 실시형태들에 관련하여 설명되는 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 하드웨어 프로세서와 같은 프로세싱 디바이스에 의해 실행되는 컴퓨터 소프트웨어, 또는 양쪽 모두의 조합들로서 구현될 수도 있다는 것을 더 이해할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들, 및 단계들은 일반적으로 그것들의 기능성의 측면에서 위에서 설명되었다. 이러한 기능성이 하드웨어 또는 실행가능 소프트웨어 중 어느 것으로서 구현되는지는 전체 시스템에 부과되는 특정 애플리케이션 및 설계 제약들에 달려있다. 통상의 기술자들은 설명된 기능성을 각 특정 애플리케이션에 대하여 다양한 방식들로 구현할 수도 있지만, 이러한 구현 결정들은 본 개시물의 범위로부터의 일탈을 야기하는 것으로서 해석되지 않아야 한다.
본원에 개시된 실시형태들에 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이들 두 가지의 조합으로 직접 실시될 수도 있다. 소프트웨어 모듈이, RAM (random-access memory), MRAM (magnetoresistive random access memory), STT-MRAM (spin-torque transfer MRAM), 플래시 메모리, ROM (read-only memory), 프로그래밍가능 ROM (PROM), 소거가능한 프로그래밍가능 ROM (EPROM), 전기적으로 소거가능한 프로그래밍가능 ROM (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, CD-ROM (compact disc read-only memory) 과 같은 메모리 디바이스 내에 존재할 수도 있다. 예시적인 메모리 디바이스가 프로세서에 커플링되어서 그 프로세서는 메모리 디바이스로부터 정보를 읽을 수 있고 그 메모리 디바이스에 정보를 쓸 수 있다. 대체예에서, 메모리 디바이스는 프로세서에 통합될 수도 있다. 프로세서와 저장 매체는 주문형 집적회로 (ASIC) 내에 존재할 수도 있다. ASIC은 컴퓨팅 디바이스 또는 사용자 단말 내에 존재할 수도 있다. 대체예에서, 프로세서와 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말에 개별 컴포넌트들로서 존재할 수도 있다.
개시된 실시형태들의 이전의 설명은 본 기술분야의 통상의 기술자가 개시된 실시형태들을 제작하고 사용하는 것을 가능하게 하기 위해 제공된다. 이들 실시형태들에 대한 다양한 변형예들은 본 기술분야의 통상의 기술자들에게 쉽사리 명확하게 될 것이고, 본원에서 정의된 원리들은 본 개시물의 범위로부터 벗어남 없이 다른 실시형태들에 적용될 수도 있다. 따라서, 본 개시물은 본원에서 보인 실시형태들로 한정될 의도는 없으며 다음의 청구항들에 의해 정의된 원리들 및 신규한 특징들과 일치하는 가능한 가장 넓은 범위에 일치하는 것이다.

Claims (30)

  1. 디코더에서, 오디오 신호의 성음 분류 파라미터를 추출하는 단계;
    상기 성음 분류 파라미터에 기초하여 저역 통과 필터의 차단 주파수를 결정하는 단계로서, 상기 차단 주파수는, 상기 오디오 신호가 강 유성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 제 1 값; 상기 오디오 신호가 약 유성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 1 값보다 낮은 제 2 값; 상기 오디오 신호가 약 무성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 2 값보다 낮은 제 3 값; 또는 상기 오디오 신호가 강 무성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 3 값보다 낮은 제 4 값을 가지는, 상기 차단 주파수를 결정하는 단계;
    상기 오디오 신호의 저-대역 부분을 필터링하여 저-대역 오디오 신호를 생성하는 단계;
    상기 저역 통과 필터의 상기 차단 주파수에 기초하여 상기 저-대역 오디오 신호의 시간적 포락선 (temporal envelope) 의 진폭을 제어하는 단계;
    상기 시간적 포락선의 상기 진폭에 기초하여 백색 잡음 신호를 변조하여 변조된 백색 잡음 신호를 생성하는 단계;
    잡음 이득에 기초하여 상기 변조된 백색 잡음 신호를 스케일링하여 스케일링된 변조된 백색 잡음 신호를 생성하는 단계;
    상기 저-대역 오디오 신호의 스케일링된 버전과 상기 스케일링된 변조된 백색 잡음 신호를 믹싱하여 고-대역 여기 신호를 생성하는 단계;
    상기 고-대역 여기 신호에 기초하여 상기 오디오 신호의 디코딩된 버전을 생성하는 단계; 및
    상기 오디오 신호의 상기 디코딩된 버전을 스피커를 포함하는 디바이스에 제공하는 단계를 포함하는, 방법.
  2. 제 1 항에 있어서,
    상기 시간적 포락선의 상기 진폭을 제어하는 단계는,
    상기 저역 통과 필터를 상기 저-대역 오디오 신호에 적용하여 필터링된 저-대역 오디오 신호를 생성하는 단계; 및
    상기 시간적 포락선의 상기 진폭을 제어하여 상기 필터링된 저-대역 오디오 신호의 진폭과 매칭시키는 단계로서, 상기 필터링된 저-대역 오디오 신호의 상기 진폭은, 상기 필터링된 저-대역 오디오 신호의 상기 진폭이 상기 차단 주파수 미만인 경우 상기 저-대역 오디오 신호의 진폭에 매칭하는, 상기 필터링된 저-대역 오디오 신호의 진폭과 매칭시키는 단계를 포함하는, 방법.
  3. 제 1 항에 있어서,
    상기 잡음 이득은 상기 오디오 신호의 고-대역 부분에서의 하모닉 에너지 대 잡음 에너지의 비율에 기초하는, 방법.
  4. 제 1 항에 있어서,
    상기 저-대역 오디오 신호는 저-대역 여기 신호 또는 하모닉 확장된 저-대역 여기 신호를 포함하는, 방법.
  5. 제 1 항에 있어서,
    상기 고-대역 여기 신호에 기초하여 합성된 고-대역 신호를 생성하는 단계를 더 포함하는, 방법.
  6. 제 5 항에 있어서,
    상기 오디오 신호의 상기 저-대역 부분에 기초하여 합성된 저-대역 신호를 생성하는 단계를 더 포함하는, 방법.
  7. 제 6 항에 있어서,
    상기 오디오 신호의 상기 디코딩된 버전을 생성하는 단계는 상기 합성된 고-대역 신호와 상기 합성된 저-대역 신호를 결합하여 상기 오디오 신호의 상기 디코딩된 버전을 생성하는 단계를 포함하는, 방법.
  8. 제 1 항에 있어서,
    상기 디코더는 기지국으로 통합되는, 방법.
  9. 제 1 항에 있어서,
    상기 디코더는 모바일 디바이스로 통합되는, 방법.
  10. 제 1 항에 있어서,
    상기 저-대역 오디오 신호는 임계 수 보다 적은 수의 펄스들을 포함하고, 상기 저-대역 오디오 신호의 상기 스케일링된 버전과 상기 스케일링된 변조된 백색 잡음 신호를 믹싱하여 상기 고-대역 여기 신호를 생성하는 단계는 상기 저-대역 오디오 신호와 연관된 상기 오디오 신호의 상기 디코딩된 버전에서의 하나 이상의 아티팩트들을 감소시키거나 또는 제거하는, 방법.
  11. 오디오 신호의 성음 분류 파라미터를 추출하도록 구성된 성음 분류기;
    상기 성음 분류 파라미터에 기초하여 저역 통과 필터의 차단 주파수를 결정하고, 상기 저역 통과 필터의 상기 차단 주파수에 기초하여 저-대역 오디오 신호의 시간적 포락선의 진폭을 제어하도록 구성된 포락선 조정기로서, 상기 차단 주파수는, 상기 오디오 신호가 강 유성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 제 1 값; 상기 오디오 신호가 약 유성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 1 값보다 낮은 제 2 값; 상기 오디오 신호가 약 무성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 2 값보다 낮은 제 3 값; 또는 상기 오디오 신호가 강 무성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 3 값보다 낮은 제 4 값을 가지고, 상기 오디오 신호의 저-대역 부분은 상기 저-대역 오디오 신호를 생성하기 위해 필터링되는, 상기 포락선 조정기;
    상기 시간적 포락선의 상기 진폭에 기초하여 백색 잡음 신호를 변조하여 변조된 백색 잡음 신호를 생성하도록 구성된 변조기;
    잡음 이득에 기초하여 상기 변조된 백색 잡음 신호를 스케일링하여 스케일링된 변조된 백색 잡음 신호를 생성하도록 구성된 곱셈기;
    상기 저-대역 오디오 신호의 스케일링된 버전과 상기 스케일링된 변조된 백색 잡음 신호를 믹싱하여 고-대역 여기 신호를 생성하도록 구성된 가산기; 및
    상기 고-대역 여기 신호에 기초하여 상기 오디오 신호의 디코딩된 버전을 생성하도록 구성되고, 상기 오디오 신호의 상기 디코딩된 버전을 스피커를 포함하는 디바이스에 제공하도록 더 구성되는 회로를 포함하는, 장치.
  12. 제 11 항에 있어서,
    상기 포락선 조정기는,
    상기 저역 통과 필터를 상기 저-대역 오디오 신호에 적용하여 필터링된 저-대역 오디오 신호를 생성하고; 그리고
    상기 시간적 포락선의 상기 진폭을 제어하여 상기 필터링된 저-대역 오디오 신호의 진폭과 매칭시키되, 상기 필터링된 저-대역 오디오 신호의 상기 진폭은 상기 필터링된 저-대역 오디오 신호의 상기 진폭이 상기 차단 주파수 미만인 경우 상기 저-대역 오디오 신호의 진폭에 매칭하도록 구성되는, 상기 필터링된 저-대역 오디오 신호의 진폭을 매칭시키는, 장치.
  13. 제 11 항에 있어서,
    상기 잡음 이득은 상기 오디오 신호의 고-대역 부분에서의 하모닉 에너지 대 잡음 에너지의 비율에 기초하는, 장치.
  14. 제 11 항에 있어서,
    상기 저-대역 오디오 신호는 저-대역 여기 신호 또는 하모닉 확장된 저-대역 여기 신호를 포함하는, 장치.
  15. 제 11 항에 있어서,
    상기 고-대역 여기 신호에 기초하여 합성된 고-대역 신호를 생성하도록 구성된 저-대역 합성기를 더 포함하는, 장치.
  16. 제 15 항에 있어서,
    상기 오디오 신호의 상기 저-대역 부분에 기초하여 합성된 저-대역 신호를 생성하도록 구성된 고-대역 합성기를 더 포함하는, 장치.
  17. 제 16 항에 있어서,
    상기 회로는 상기 합성된 고-대역 신호와 상기 합성된 저-대역 신호를 결합하여 상기 오디오 신호의 상기 디코딩된 버전을 생성하도록 구성된 멀티플렉서를 포함하는, 장치.
  18. 제 11 항에 있어서,
    상기 성음 분류기, 상기 포락선 조정기, 상기 변조기, 상기 곱셈기, 및 상기 가산기는 기지국으로 통합되는, 장치.
  19. 제 11 항에 있어서,
    상기 성음 분류기, 상기 포락선 조정기, 상기 변조기, 상기 곱셈기, 및 상기 가산기는 모바일 디바이스로 통합되는, 장치.
  20. 디코더 내의 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 동작들을 수행하게 하는 명령들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 동작들은,
    오디오 신호의 성음 분류 파라미터를 추출하는 것;
    상기 성음 분류 파라미터에 기초하여 저역 통과 필터의 차단 주파수를 결정하는 것으로서, 상기 차단 주파수는, 상기 오디오 신호가 강 유성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 제 1 값; 상기 오디오 신호가 약 유성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 1 값보다 낮은 제 2 값; 상기 오디오 신호가 약 무성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 2 값보다 낮은 제 3 값; 또는 상기 오디오 신호가 강 무성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 3 값보다 낮은 제 4 값을 가지는, 상기 차단 주파수를 결정하는 것;
    상기 오디오 신호의 저-대역 부분을 필터링하여 저-대역 오디오 신호를 생성하는 것;
    상기 저역 통과 필터의 상기 차단 주파수에 기초하여 상기 저-대역 오디오 신호의 시간적 포락선의 진폭을 제어하는 것;
    상기 시간적 포락선의 상기 진폭에 기초하여 백색 잡음 신호를 변조하여 변조된 백색 잡음 신호를 생성하는 것;
    잡음 이득에 기초하여 상기 변조된 백색 잡음 신호를 스케일링하여 스케일링된 변조된 백색 잡음 신호를 생성하는 것;
    상기 저-대역 오디오 신호의 스케일링된 버전과 상기 스케일링된 변조된 백색 잡음 신호를 믹싱하여 고-대역 여기 신호를 생성하는 것;
    상기 고-대역 여기 신호에 기초하여 상기 오디오 신호의 디코딩된 버전을 생성하는 것; 그리고
    상기 오디오 신호의 상기 디코딩된 버전을 스피커를 포함하는 디바이스에 제공하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  21. 제 20 항에 있어서,
    상기 시간적 포락선의 상기 진폭을 제어하는 것은,
    상기 저역 통과 필터를 상기 저-대역 오디오 신호에 적용하여 필터링된 저-대역 오디오 신호를 생성하는 것; 및
    상기 시간적 포락선의 상기 진폭을 제어하여 상기 필터링된 저-대역 오디오 신호의 진폭과 매칭시키는 것으로서, 상기 필터링된 저-대역 오디오 신호의 상기 진폭은, 상기 필터링된 저-대역 오디오 신호의 상기 진폭이 상기 차단 주파수 미만인 경우 상기 저-대역 오디오 신호의 진폭에 매칭하는, 상기 필터링된 저-대역 오디오 신호의 진폭과 매칭시키는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  22. 제 20 항에 있어서,
    상기 잡음 이득은 상기 오디오 신호의 고-대역 부분에서의 하모닉 에너지 대 잡음 에너지의 비율에 기초하는, 비일시적 컴퓨터 판독가능 저장 매체.
  23. 제 20 항에 있어서,
    상기 저-대역 오디오 신호는 저-대역 여기 신호 또는 하모닉 확장된 저-대역 여기 신호를 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  24. 제 20 항에 있어서,
    상기 고-대역 여기 신호에 기초하여 합성된 고-대역 신호를 생성하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  25. 제 24 항에 있어서,
    상기 오디오 신호의 상기 저-대역 부분에 기초하여 합성된 저-대역 신호를 생성하는 것을 더 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  26. 제 25 항에 있어서,
    상기 오디오 신호의 상기 디코딩된 버전을 생성하는 것은 상기 합성된 고-대역 신호와 상기 합성된 저-대역 신호를 결합하여 상기 오디오 신호의 상기 디코딩된 버전을 생성하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  27. 오디오 신호의 성음 분류 파라미터를 추출하는 수단;
    상기 성음 분류 파라미터에 기초하여 저역 통과 필터의 차단 주파수를 결정하는 수단으로서, 상기 차단 주파수는, 상기 오디오 신호가 강 유성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 제 1 값; 상기 오디오 신호가 약 유성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 1 값보다 낮은 제 2 값; 상기 오디오 신호가 약 무성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 2 값보다 낮은 제 3 값; 또는 상기 오디오 신호가 강 무성음 신호임을 상기 성음 분류 파라미터가 나타내는 경우 상기 제 3 값보다 낮은 제 4 값을 가지는, 상기 차단 주파수를 결정하는 수단;
    상기 오디오 신호의 저-대역 부분을 필터링하여 저-대역 오디오 신호를 생성하는 수단;
    상기 저역 통과 필터의 상기 차단 주파수에 기초하여 상기 저-대역 오디오 신호의 시간적 포락선의 진폭을 제어하는 수단;
    상기 시간적 포락선의 상기 진폭에 기초하여 백색 잡음 신호를 변조하여 변조된 백색 잡음 신호를 생성하는 수단;
    잡음 이득에 기초하여 상기 변조된 백색 잡음 신호를 스케일링하여 스케일링된 변조된 백색 잡음 신호를 생성하는 수단;
    상기 저-대역 오디오 신호의 스케일링된 버전과 상기 스케일링된 변조된 백색 잡음 신호를 믹싱하여 고-대역 여기 신호를 생성하는 수단; 및
    상기 고-대역 여기 신호에 기초하여 상기 오디오 신호의 디코딩된 버전을 생성하고, 상기 오디오 신호의 상기 디코딩된 버전을 스피커를 포함하는 디바이스에 제공하는 수단을 포함하는, 장치.
  28. 제 27 항에 있어서,
    상기 고-대역 여기 신호에 기초하여 합성된 고-대역 신호를 생성하는 수단; 및
    상기 오디오 신호의 상기 저-대역 부분에 기초하여 합성된 저-대역 신호를 생성하는 수단을 더 포함하는, 장치.
  29. 제 27 항에 있어서,
    상기 추출하는 수단, 상기 결정하는 수단, 상기 필터링하는 수단, 상기 제어하는 수단, 상기 변조하는 수단, 상기 스케일링하는 수단, 및 상기 믹싱하는 수단은 기지국으로 통합되는, 장치.
  30. 제 27 항에 있어서,
    상기 추출하는 수단, 상기 결정하는 수단, 상기 필터링하는 수단, 상기 제어하는 수단, 상기 변조하는 수단, 상기 스케일링하는 수단, 및 상기 믹싱하는 수단은 모바일 디바이스로 통합되는, 장치.
KR1020227027791A 2014-04-30 2015-03-31 고 대역 여기 신호 생성 KR102610946B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US14/265,693 2014-04-30
US14/265,693 US9697843B2 (en) 2014-04-30 2014-04-30 High band excitation signal generation
PCT/US2015/023483 WO2015167732A1 (en) 2014-04-30 2015-03-31 High band excitation signal generation
KR1020167033053A KR102433713B1 (ko) 2014-04-30 2015-03-31 고 대역 여기 신호 생성

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167033053A Division KR102433713B1 (ko) 2014-04-30 2015-03-31 고 대역 여기 신호 생성

Publications (2)

Publication Number Publication Date
KR20220117347A KR20220117347A (ko) 2022-08-23
KR102610946B1 true KR102610946B1 (ko) 2023-12-06

Family

ID=52829451

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167033053A KR102433713B1 (ko) 2014-04-30 2015-03-31 고 대역 여기 신호 생성
KR1020227027791A KR102610946B1 (ko) 2014-04-30 2015-03-31 고 대역 여기 신호 생성

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167033053A KR102433713B1 (ko) 2014-04-30 2015-03-31 고 대역 여기 신호 생성

Country Status (28)

Country Link
US (2) US9697843B2 (ko)
EP (1) EP3138096B1 (ko)
JP (1) JP6599362B2 (ko)
KR (2) KR102433713B1 (ko)
CN (2) CN110827842B (ko)
AR (1) AR099952A1 (ko)
AU (1) AU2015253721B2 (ko)
BR (1) BR112016024971B1 (ko)
CA (1) CA2944874C (ko)
CL (1) CL2016002709A1 (ko)
DK (1) DK3138096T3 (ko)
ES (1) ES2711524T3 (ko)
HU (1) HUE041343T2 (ko)
IL (1) IL248562B (ko)
MX (1) MX361046B (ko)
MY (1) MY192071A (ko)
NZ (1) NZ724656A (ko)
PH (1) PH12016502137A1 (ko)
PL (1) PL3138096T3 (ko)
PT (1) PT3138096T (ko)
RU (1) RU2683632C2 (ko)
SA (1) SA516380088B1 (ko)
SG (1) SG11201607703PA (ko)
SI (1) SI3138096T1 (ko)
TR (1) TR201901357T4 (ko)
TW (1) TWI643186B (ko)
WO (1) WO2015167732A1 (ko)
ZA (1) ZA201607459B (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102138320B1 (ko) 2011-10-28 2020-08-11 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
CN103516440B (zh) * 2012-06-29 2015-07-08 华为技术有限公司 语音频信号处理方法和编码装置
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN104301064B (zh) 2013-07-16 2018-05-04 华为技术有限公司 处理丢失帧的方法和解码器
CN107452391B (zh) 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
US9697843B2 (en) 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
EP3696816B1 (en) 2014-05-01 2021-05-12 Nippon Telegraph and Telephone Corporation Periodic-combined-envelope-sequence generation device, periodic-combined-envelope-sequence generation method, periodic-combined-envelope-sequence generation program and recording medium
CN106683681B (zh) 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
US9984699B2 (en) * 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
CN108198571B (zh) * 2017-12-21 2021-07-30 中国科学院声学研究所 一种基于自适应带宽判断的带宽扩展方法及系统
WO2020157888A1 (ja) * 2019-01-31 2020-08-06 三菱電機株式会社 周波数帯域拡張装置、周波数帯域拡張方法、及び周波数帯域拡張プログラム
CN114171035A (zh) * 2020-09-11 2022-03-11 海能达通信股份有限公司 抗干扰方法及装置
US11682406B2 (en) * 2021-01-28 2023-06-20 Sony Interactive Entertainment LLC Level-of-detail audio codec

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181399A1 (en) * 2003-03-15 2004-09-16 Mindspeed Technologies, Inc. Signal decomposition of voiced speech for CELP speech coding
WO2006107839A2 (en) 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
JP2010501080A (ja) 2006-07-31 2010-01-14 クゥアルコム・インコーポレイテッド 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4764966A (en) * 1985-10-11 1988-08-16 International Business Machines Corporation Method and apparatus for voice detection having adaptive sensitivity
JP3343965B2 (ja) 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
ZA946674B (en) * 1993-09-08 1995-05-02 Qualcomm Inc Method and apparatus for determining the transmission data rate in a multi-user communication system
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
EP0878790A1 (en) 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
EP0945852A1 (en) * 1998-03-25 1999-09-29 BRITISH TELECOMMUNICATIONS public limited company Speech synthesis
US6078880A (en) * 1998-07-13 2000-06-20 Lockheed Martin Corporation Speech coding system and method including voicing cut off frequency analyzer
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6665403B1 (en) * 1999-05-11 2003-12-16 Agere Systems Inc. Digital gyrator
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US7222070B1 (en) * 1999-09-22 2007-05-22 Texas Instruments Incorporated Hybrid speech coding and system
BR0110530A (pt) * 2000-05-02 2003-04-08 Theravance Inc Composições farmacêuticas contendo um antibiótico glicopeptìdico e uma ciclodextrina
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
US7363219B2 (en) * 2000-09-22 2008-04-22 Texas Instruments Incorporated Hybrid speech coding and system
GB2370435A (en) * 2000-12-22 2002-06-26 Nokia Mobile Phones Ltd A polar loop transmitter for a mobile phone
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US6956914B2 (en) * 2001-09-19 2005-10-18 Gennum Corporation Transmit amplitude independent adaptive equalizer
US6985857B2 (en) * 2001-09-27 2006-01-10 Motorola, Inc. Method and apparatus for speech coding using training and quantizing
US6937978B2 (en) * 2001-10-30 2005-08-30 Chungwa Telecom Co., Ltd. Suppression system of background noise of speech signals and the method thereof
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP3918734B2 (ja) * 2002-12-27 2007-05-23 ヤマハ株式会社 楽音発生装置
KR101058062B1 (ko) * 2003-06-30 2011-08-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 잡음 부가에 의한 디코딩된 오디오의 품질 개선
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
KR101118217B1 (ko) * 2005-04-19 2012-03-16 삼성전자주식회사 오디오 데이터 처리 장치 및 방법
PT1875463T (pt) * 2005-04-22 2019-01-24 Qualcomm Inc Sistemas, métodos e aparelho para nivelamento de fator de ganho
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
EP3629328A1 (en) * 2007-03-05 2020-04-01 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for smoothing of stationary background noise
GB0705328D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
US8554550B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multi resolution analysis
KR101413967B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
KR101413968B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
JP4490507B2 (ja) * 2008-09-26 2010-06-30 パナソニック株式会社 音声分析装置および音声分析方法
CN101770776B (zh) * 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
RU2394284C1 (ru) * 2009-03-24 2010-07-10 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи
US8484020B2 (en) 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
US8311817B2 (en) * 2010-11-04 2012-11-13 Audience, Inc. Systems and methods for enhancing voice quality in mobile device
JP5649488B2 (ja) * 2011-03-11 2015-01-07 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム
CN102201240B (zh) * 2011-05-27 2012-10-03 中国科学院自动化研究所 基于逆滤波的谐波噪声激励模型声码器
US8972251B2 (en) * 2011-06-07 2015-03-03 Qualcomm Incorporated Generating a masking signal on an electronic device
WO2012169133A1 (ja) * 2011-06-09 2012-12-13 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
CN104221081B (zh) 2011-11-02 2017-03-15 瑞典爱立信有限公司 带宽扩展音频信号的高频带扩展的生成
EP2774148B1 (en) * 2011-11-03 2014-12-24 Telefonaktiebolaget LM Ericsson (PUBL) Bandwidth extension of audio signals
KR101897455B1 (ko) * 2012-04-16 2018-10-04 삼성전자주식회사 음질 향상 장치 및 방법
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9741350B2 (en) * 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
EP2972567A4 (en) * 2013-03-11 2016-12-07 Ohio State Innovation Foundation MULTI-CARRIER PROCESSING SYSTEMS AND METHODS IN HEARING AID PROSTHETIC DEVICES
CN105264600B (zh) * 2013-04-05 2019-06-07 Dts有限责任公司 分层音频编码和传输
CN105408957B (zh) * 2013-06-11 2020-02-21 弗朗霍弗应用研究促进协会 进行语音信号的频带扩展的装置及方法
US9384746B2 (en) * 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
GB201406574D0 (en) * 2014-04-11 2014-05-28 Microsoft Corp Audio Signal Processing
US9697843B2 (en) 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181399A1 (en) * 2003-03-15 2004-09-16 Mindspeed Technologies, Inc. Signal decomposition of voiced speech for CELP speech coding
WO2006107839A2 (en) 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
JP2008537165A (ja) 2005-04-01 2008-09-11 クゥアルコム・インコーポレイテッド 広帯域音声符号化のためのシステム、方法、及び装置
JP2010501080A (ja) 2006-07-31 2010-01-14 クゥアルコム・インコーポレイテッド 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ulrich Kornagel. Techniques for artificial bandwidth extension of telephone speech. Signal Processing, 2006.06.01, Vol.86, no.6, pp.1296-1306.*

Also Published As

Publication number Publication date
EP3138096B1 (en) 2018-11-14
BR112016024971B1 (pt) 2022-10-04
PH12016502137A1 (en) 2017-02-06
MX2016013941A (es) 2017-01-09
SG11201607703PA (en) 2016-11-29
CN106256000A (zh) 2016-12-21
TW201606757A (zh) 2016-02-16
CL2016002709A1 (es) 2017-02-17
BR112016024971A2 (pt) 2017-08-15
TWI643186B (zh) 2018-12-01
KR20220117347A (ko) 2022-08-23
PL3138096T3 (pl) 2019-05-31
IL248562A0 (en) 2016-12-29
SA516380088B1 (ar) 2021-01-28
JP2017517029A (ja) 2017-06-22
US20150317994A1 (en) 2015-11-05
SI3138096T1 (sl) 2019-03-29
JP6599362B2 (ja) 2019-10-30
AU2015253721B2 (en) 2020-05-28
BR112016024971A8 (pt) 2021-07-13
TR201901357T4 (tr) 2019-02-21
US9697843B2 (en) 2017-07-04
AU2015253721A1 (en) 2016-10-13
PT3138096T (pt) 2019-02-25
EP3138096A1 (en) 2017-03-08
RU2016142184A (ru) 2018-05-30
KR102433713B1 (ko) 2022-08-17
US10297263B2 (en) 2019-05-21
WO2015167732A1 (en) 2015-11-05
RU2016142184A3 (ko) 2018-11-09
RU2683632C2 (ru) 2019-03-29
AR099952A1 (es) 2016-08-31
DK3138096T3 (en) 2019-02-25
MY192071A (en) 2022-07-25
HUE041343T2 (hu) 2019-05-28
ES2711524T3 (es) 2019-05-06
KR20170003592A (ko) 2017-01-09
CN110827842B (zh) 2024-04-02
MX361046B (es) 2018-11-26
IL248562B (en) 2020-01-30
NZ724656A (en) 2021-12-24
ZA201607459B (en) 2018-11-28
CN110827842A (zh) 2020-02-21
CA2944874C (en) 2022-09-20
CN106256000B (zh) 2019-12-24
CA2944874A1 (en) 2015-11-05
US20170270942A1 (en) 2017-09-21

Similar Documents

Publication Publication Date Title
KR102610946B1 (ko) 고 대역 여기 신호 생성
KR101849871B1 (ko) 고대역 신호 특성에 기초한 시간 이득 조정
US9984699B2 (en) High-band signal coding using mismatched frequency ranges
US9818419B2 (en) High-band signal coding using multiple sub-bands

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant