KR101967572B1 - 인코더 선택 - Google Patents

인코더 선택 Download PDF

Info

Publication number
KR101967572B1
KR101967572B1 KR1020177027780A KR20177027780A KR101967572B1 KR 101967572 B1 KR101967572 B1 KR 101967572B1 KR 1020177027780 A KR1020177027780 A KR 1020177027780A KR 20177027780 A KR20177027780 A KR 20177027780A KR 101967572 B1 KR101967572 B1 KR 101967572B1
Authority
KR
South Korea
Prior art keywords
data
encoder
value
frame
determining
Prior art date
Application number
KR1020177027780A
Other languages
English (en)
Other versions
KR20170134430A (ko
Inventor
벤카트라만 에스 아티
벤카타 수브라마니암 찬드라 세카르 체비얌
비베크 라젠드란
수바싱하 샤민다 수바싱하
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20170134430A publication Critical patent/KR20170134430A/ko
Application granted granted Critical
Publication of KR101967572B1 publication Critical patent/KR101967572B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

디바이스는 제 1 분류기, 및 제 1 분류기에 커플링된 제 2 분류기를 포함한다. 제 1 분류기는 오디오 프레임의 분류를 음성 프레임 또는 비-음성 프레임으로서 표시하는 제 1 결정 데이터를 출력하도록 구성되며, 제 1 결정 데이터는 오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 데이터에 기초하여, 그리고, 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터에 기초하여, 결정된다. 제 2 분류기는 제 1 확률 데이터, 제 2 확률 데이터, 및 제 1 결정 데이터에 기초하여 제 2 결정 데이터를 출력하도록 구성되며, 제 2 결정 데이터는 오디오 프레임을 인코딩하는데 이용가능한 다수의 인코더들 중 특정의 인코더의 선택의 표시를 포함한다.

Description

인코더 선택{ENCODER SELECTION}
관련 출원들에 대한 상호 참조
본 출원은 "ENCODER SELECTION" 이란 발명의 명칭으로 2016년 3월 29일에 출원된 미국 특허출원 번호 제 15/083,867호, 및 "ENCODER SELECTION" 이란 발명의 명칭으로 2015년 4월 5일에 출원된 미국 가특허 출원번호 제 62/143,155호의 이익을 주장하며, 이들은 본원에서 전체적으로 참조로 명시적으로 포함된다.
분야
본 개시물은 일반적으로 인코더의 선택에 관한 것이다.
디지털 기법들에 의한 오디오의 리코딩 및 송신이 널리 보급되고 있다. 예를 들어, 오디오는 장거리 및 디지털 무선 전화기 애플리케이션들에서 송신될 수도 있다. 무선 전화기들과 같은, 디바이스들은 인간 보이스 (예컨대, 음성) 및 비-음성 (예컨대, 음악 또는 다른 사운드들) 를 나타내는 신호들을 전송하고 수신할 수도 있다.
일부 디바이스들에서, 다수의 코딩 기술들이 이용가능하다. 예를 들어, 디바이스의 오디오 코더-디코더 (코덱) 는 스위칭 코딩 접근법을 이용하여 다양한 콘텐츠를 인코딩할 수도 있다. 예시하기 위하여, 디바이스는 대수 코드-여기 선형 예측 (ACELP) 인코더와 같은 음성 인코더, 및 변환 코딩 여기 (TCX) 인코더 (예컨대, 변환 도메인 인코더) 와 같은 비-음성 인코더를 포함할 수도 있다. 음성 인코더는 음성 콘텐츠를 인코딩하는데 능숙할 수도 있으며, 음악 인코더와 같은 비-음성 인코더는 비활성 (inactive) 및 음악 콘텐츠를 인코딩하는데에 능숙할 수도 있다. 본원에서 사용할 때, "인코더" 는 스위칭 인코더의 인코딩 모드들 중 하나를 지칭할 수 있다는 점에 유의해야 한다. 예를 들어, ACELP 인코더 및 TCX 인코더는 스위칭 인코더 내 2개의 별개의 인코딩 모드들일 수 있다.
디바이스는 다수의 접근법들 중 하나를 이용하여 오디오 프레임을 분류하고 인코더를 선택할 수도 있다. 예를 들어, 오디오 프레임은 음성 프레임으로서 또는 비-음성 프레임 (예컨대, 음악 프레임) 으로서 분류될 수도 있다. 오디오 프레임이 음성 프레임으로서 분류되면, 디바이스는 음성 인코더를 선택하여 오디오 프레임을 인코딩할 수도 있다. 대안적으로, 오디오 프레임이 비-음성 프레임 (예컨대, 음악 프레임) 으로서 분류되면, 디바이스는 비-음성 인코더를 선택하여 오디오 프레임을 인코딩할 수도 있다.
오디오 프레임을 분류하는데 디바이스에 의해 사용될 수도 있는 제 1 접근법은 음성 특성들에 기초하는 가우시안 혼합 모델 (GMM) 을 포함할 수도 있다. 예를 들어, GMM 은 오디오 프레임의, 피치, 스펙트럼 형상, 상관 메트릭, 등과 같은, 음성 특성들을 이용하여, 오디오 프레임이 음성 프레임일 가능성이 더 있는지 또는 비-음성 프레임일 가능성이 더 있는지 여부를 결정할 수도 있다. GMM 은 음성 프레임들을 식별하는데 능숙할 수도 있지만, 비-음성 프레임들 (예컨대, 음악 프레임들) 을 식별하는데는 적합하지 않을 수도 있다.
제 2 접근법은 개방-루프 분류기를 포함할 수도 있다. 개방-루프 분류기는 어느 인코더 (예컨대, 음성 인코더 또는 비-음성 인코더) 가 오디오 프레임을 인코딩하는데 더 적합한지를 예측할 수도 있다. 용어 "개방-루프" 는 어느 인코더를 선택할지를 예측하기 전에 오디오 프레임이 명시적으로 인코딩되지 않는다는 것을 의미하기 위해 사용된다. 개방-루프 분류기는 비-음성 프레임들을 식별하는데는 능숙할 수도 있지만, 음성 프레임들을 식별하는데는 적합하지 않을 수도 있다.
오디오 프레임을 분류하는데 디바이스에 의해 사용될 수도 있는 제 3 접근법은 모델 기반의 분류기 및 개방-루프 분류기를 포함할 수도 있다. 모델 기반의 분류기는 개방-루프 분류기로 결정을 출력할 수도 있으며, 그 개방-루프 분류기는 오디오 프레임을 분류할 때에 그 결정을 이용할 수도 있다.
디바이스는 인입하는 오디오 신호를 프레임 단위로 분석할 수도 있으며, 음악 인코더와 같은, 음성 인코더 또는 비-음성 인코더를 이용하여 특정의 오디오 프레임을 인코딩할지 여부를 결정할 수도 있다. 특정의 오디오 프레임이 오분류되면 (예컨대, 음성 프레임으로서 또는 비-음성 프레임으로서 부적절하게 분류되면), 아티팩트들, 불량한 신호 품질, 또는 이들의 조합이 발생될 수도 있다.
특정한 양태에서, 디바이스는 제 1 분류기, 및 제 1 분류기에 커플링된 제 2 분류기를 포함한다. 제 1 분류기는 오디오 프레임의 분류를 음성 프레임 또는 비-음성 프레임으로서 표시하는 제 1 결정 데이터를 결정하도록 구성된다. 제 1 결정 데이터는 오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 데이터에 기초하여, 그리고 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터에 기초하여 결정된다. 제 2 분류기는 제 1 확률 데이터, 제 2 확률 데이터, 및 제 1 결정 데이터에 기초하여, 제 2 결정 데이터를 결정하도록 구성된다. 제 2 결정 데이터는 오디오 프레임을 인코딩하는데 이용가능한 다수의 인코더들 중 특정의 인코더의 선택의 표시를 포함한다.
다른 특정의 양태에서, 방법은 제 1 분류기로부터, 제 2 분류기에서 제 1 확률 데이터 및 제 2 확률 데이터를 수신하는 단계를 포함한다. 제 1 확률 데이터는 오디오 프레임이 음성 프레임일 제 1 우도와 연관되며, 제 2 확률 데이터는 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관된다. 본 방법은 또한 제 2 분류기에서 제 1 분류기로부터 제 1 결정 데이터를 수신하는 단계를 포함한다. 제 1 결정 데이터는 제 1 확률 데이터 및 제 2 확률 데이터에 기초한다. 제 1 결정 데이터는 오디오 프레임의 분류를 음성 프레임 또는 비-음성 프레임으로서 표시한다. 본 방법은 제 2 분류기에서, 제 1 확률 데이터, 제 2 확률 데이터, 및 제 1 결정 데이터에 기초하여, 제 2 결정 데이터를 결정하는 단계를 더 포함한다. 제 2 결정 데이터는 오디오 프레임을 인코딩할 다수의 인코더들 중 특정의 인코더의 선택을 표시한다.
다른 특정의 양태에서, 장치는 오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 데이터를 결정하는 수단 및 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터를 결정하는 수단을 포함한다. 본 장치는 또한 제 1 확률 데이터 및 제 2 확률 데이터에 기초하여 제 1 결정 데이터를 결정하는 수단을 포함한다. 제 1 결정 데이터는 오디오 프레임의 분류의 제 1 표시를 음성 프레임 또는 비-음성 프레임으로서 포함한다. 본 장치는 제 1 확률 데이터, 제 2 확률 데이터, 및 제 1 결정 데이터에 기초하여 제 2 결정 데이터를 결정하는 수단을 더 포함한다. 제 2 결정 데이터는 오디오 프레임을 인코딩할 인코더의 선택의 제 2 표시를 포함한다.
다른 특정의 양태에서, 컴퓨터-판독가능 저장 디바이스는, 프로세서에 의해 실행될 때, 프로세서로 하여금, 오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 데이터를 결정하는 것 및 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터를 결정하는 것을 포함하여 수행하도록 하는 명령들을 저장한다. 동작들은 또한 제 1 확률 데이터 및 제 2 확률 데이터에 기초하여 제 1 결정 데이터를 결정하는 것을 포함한다. 제 1 결정 데이터는 오디오 프레임의 분류를 음성 프레임 또는 비-음성 프레임으로서 표시한다. 동작들은 제 1 확률 데이터, 제 2 확률 데이터, 및 제 1 결정 데이터에 기초하여 제 2 결정 데이터를 결정하는 것을 더 포함한다. 제 2 결정 데이터는 오디오 프레임을 인코딩할 인코더의 선택을 표시한다.
다른 특정의 양태에서, 방법은 제 2 분류기에서, 제 1 분류기로부터 제 1 확률 데이터 및 제 1 결정 데이터를 수신하는 단계를 포함한다. 제 1 확률 데이터는 오디오 프레임이 음성 프레임일 제 1 우도와 연관된다. 제 1 결정 데이터는 오디오 프레임의 분류를 음성 프레임 또는 비-음성 프레임으로서 표시한다. 본 방법은 또한 제 2 분류기에서, 오디오 프레임과 연관되는 조건들의 세트가 만족되는지 여부를 결정하는 단계를 포함한다. 조건들의 세트의 제 1 조건은 제 1 확률 데이터에 기초하고, 조건들의 세트의 제 2 조건은 제 1 결정 데이터에 기초한다. 본 방법은 조건들의 세트가 만족되는지 여부를 결정하는 것에 응답하여, 선택을 다수의 인코더들 중 제 1 인코더 측으로 바이어스하도록 조정 파라미터의 값을 선택하는 단계를 더 포함한다.
본 개시물의 다른 양태들, 이점들, 및 특징들은 다음 섹션들: 도면들의 간단한 설명, 상세한 설명, 및 청구항들을 포함한, 출원서의 검토 후 명백해 알 수 있을 것이다.
도 1 은 인코더를 선택하도록 동작가능한 시스템의 특정의 예시적인 양태의 블록도이다.
도 2 는 도 1 의 시스템의 선택기의 특정의 예시적인 양태의 블록도이다.
도 3 은 도 1 의 시스템의 제 1 분류기의 특정의 예시적인 양태의 블록도이다.
도 4 는 도 1 의 시스템의 제 2 분류기의 특정의 예시적인 양태의 블록도이다.
도 5 는 인코더를 선택하는 방법을 예시하는 플로우 차트이다.
도 6 은 특정의 인코더 측으로 바이어스하도록 조정 파라미터의 값을 선택하는 방법을 예시하는 플로우 차트이다.
도 7 은 인코더를 선택하도록 동작가능한 디바이스의 특정의 예시적인 양태의 블록도이다.
도 8 은 인코더를 선택하도록 동작가능한 기지국의 특정의 예시적인 양태의 블록도이다.
본 개시물의 특정의 양태들이 도면들을 참조하여 아래에서 설명된다. 이 설명에서, 공통 특징들은 공통 참조 번호들에 의해 지정된다. 본원에서 사용될 때, 여러 전문용어는 단지 특정의 구현예들을 기술하려는 목적을 위해 사용되며 한정하려고 의도되지 않는다. 예를 들어, 단수형들 "한 (a)", "하나 (an)", 및 "그 (the)" 는 문맥에서 달리 분명히 표시하지 않는 한, 복수형들도 또한 포함시키려는 것이다. 또한, 용어들 "구비한다 (comprises)" 및 "구비하는 (comprising)" 이 "포함한다 (includes)" 또는 "포함하는 (including)" 과 상호교환가능하게 사용될 수도 있음을 알 수 있을 것이다. 추가적으로, 용어 "여기서 (wherein)" 이 "이때 (where)" 와 상호교환가능하게 사용될 수도 있음을 알 수 있을 것이다. 본원에서 사용될 때, 구조, 구성요소, 동작, 등과 같은 엘리먼트를 한정하는데 사용되는 서수의 용어 (예컨대, "제 1", "제 2", "제 3", 등) 는 다른 엘리먼트에 대해서 그 엘리먼트의 임의의 우선순위 또는 순서를 단독으로 표시하기 보다는, 오히려 그 엘리먼트를 (서수의 용어를 사용하지 않는다면) 동일한 이름을 가지는 다른 엘리먼트와 단순히 식별한다. 본원에서 사용될 때, 용어 "세트" 는 하나 이상의 엘리먼트들의 그룹을 지칭할 수도 있으며, 용어 "복수 (plurality)" 는 다수의 엘리먼트들을 지칭한다.
본 개시물에서, 인코더 또는 인코딩 모드를 선택하는 기법들이 설명된다. 디바이스는 오디오 프레임을 수신할 수도 있으며, 오디오 프레임을 인코딩하는데 사용될 다수의 인코더들 (또는, 인코딩 모드들) 중 특정의 인코더를 선택할 수도 있다. 본원에서 설명되는 기법들은 선택을 특정의 인코더 (예컨대, 음성 인코더 또는 비-음성/음악 인코더) 또는 특정의 인코딩 모드 측으로 바이어스하는데 사용되는 조정 파라미터 (예컨대, 히스테리시스 메트릭) 의 값을 설정하는데 사용될 수도 있다. 조정 파라미터는 오디오 프레임의 더 정확한 분류를 제공하는데 사용될 수도 있으며, 이것은 오디오 프레임을 인코딩하는데 사용되는 인코더의 향상된 선택을 초래할 수도 있다.
예시하기 위하여, 디바이스는 오디오 프레임을 수신할 수도 있으며, 제 1 분류기 및 제 2 분류기와 같은 다수의 분류기들을 이용하여, 오디오 프레임을 인코딩하는데 선택될 인코더를 식별할 수도 있다. 제 1 분류기는 음성 모델 (예컨대, 음성 모델 회로), 비-음성 모델 (예컨대, 비-음성 모델 회로), 또는 이들의 조합에 기초하여 제 1 결정 데이터를 발생시킬 수도 있다. 제 1 결정 데이터는 오디오 프레임이 음성-형 프레임인지 또는 비-음성 (예컨대, 음악, 배경 잡음, 등) 프레임인지 여부를 표시할 수도 있다. 음성 콘텐츠는 예시적인, 비한정적인 예들로서, 활성 음성, 비활성 음성, 시끄러운 음성, 또는 이들의 조합을 포함하는 것으로 지정될 수도 있다. 비-음성 콘텐츠는 예시적인, 비한정적인 예들로서, 음악 콘텐츠, 음악 형 콘텐츠 (예컨대, 보류 음악, 링 톤들, 등), 배경 잡음, 또는 이들의 조합을 포함하여 지정될 수도 있다. 다른 구현예들에서, 비활성 음성, 시끄러운 음성, 또는 이들의 조합은, 음성과 연관되는 특정의 인코더 (예컨대, 음성 인코더) 가 비활성 음성 또는 시끄러운 음성을 디코딩하는데 어려움이 있으면, 디바이스에 의해 비-음성 콘텐츠로서 분류될 수도 있다. 다른 구현예에서, 배경 잡음은 음성 콘텐츠로서 분류될 수도 있다. 예를 들어, 디바이스는 음성과 연관되는 특정의 인코더 (예컨대, 음성 인코더) 가 배경 잡음을 디코딩하는데 능숙하면 배경 잡음으로 음성 콘텐츠로서 분류할 수도 있다.
일부 구현예들에서, 제 1 분류기는 (예컨대, 가우시안 혼합 모델들에 기초한, 은닉 Markov 모델들에 기초한, 또는 신경망들에 기초한) 최대-우도 알고리즘과 연관될 수도 있다. 제 1 결정 데이터를 발생시키기 위해, 제 1 분류기는 오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 값 (예컨대, 제 1 확률 데이터), 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 값 (예컨대, 제 2 확률 데이터), 또는 이들의 조합과 같은, 하나 이상의 확률 값들을 발생시킬 수도 있다. 제 1 분류기는 제 1 확률 데이터, 제 2 확률 데이터, 또는 이들의 조합을 수신하고 제 1 결정 데이터를 발생시키는 상태 머신을 포함할 수도 있다. 제 1 결정 데이터는 상태 머신에 의해 출력되고 제 2 분류기에 의해 수신될 수도 있다.
제 2 분류기는 오디오 프레임을 인코딩할 다수의 인코더들 중 특정의 인코더의 선택과 연관되는 (예컨대, 표시하는) 제 2 결정 데이터를 발생시키도록 구성될 수도 있다. 제 2 결정 데이터는 오디오 프레임의 업데이트된 또는 수정된 분류에 대응할 수도 있다 (예컨대, 제 2 결정 데이터는 제 1 결정 데이터로부터의 상이한 분류를 표시할 수도 있다). 일부 구현예들에서, 제 1 결정 데이터는 제 2 결정 데이터와 동일한 분류를 표시할 수도 있다. 추가적으로 또는 대안적으로, 제 2 결정 데이터는 "최종 결정" 에 대응할 수도 있다 (예컨대, 오디오 프레임이 음성 프레임의 분류를 가지면, 음성 인코더가 선택된다). 제 2 분류기는 모델 기반의 분류기일 수도 있거나, 모델에 순수하게 기초하지 않는 분류기 (예컨대, 개방-루프 분류기) 일 수도 있거나, 또는 코딩 파라미터들의 세트에 기초할 수도 있다. 코딩 파라미터들은 예시적인, 비한정적인 예들로서, 코어 표시자, 코딩 모드, 코더 유형, 저역 (low pass) 코어 결정, 피치 값, 피치 안정성, 또는 이들의 조합을 포함할 수도 있다.
제 2 분류기는 제 1 결정 데이터, 제 1 확률 데이터, 제 2 확률 데이터, 또는 이들의 조합에 기초하여 제 2 결정 데이터를 발생시킬 수도 있다. 일부 구현예들에서, 제 2 분류기는 코딩 파라미터들의 세트 중 하나 이상을 이용하여, 제 2 결정 데이터를 발생시킬 수도 있다. 추가적으로, 제 2 분류기는 오디오 프레임과 연관된 하나 이상의 조건들에 기초하여 제 2 결정 데이터를 발생시킬 수도 있다. 예를 들어, 제 2 분류기는 본원에서 설명하는 바와 같이, 오디오 프레임과 연관되는 조건들의 세트가 만족되는지 여부를 결정할 수도 있다. 조건들의 세트의 하나 이상의 조건들이 만족되거나 (또는, 만족되지 않는) 것에 응답하여, 제 2 분류기는 선택을 제 1 인코더 (예컨대, 음성 인코더) 또는 제 2 인코더 (예컨대, 비-음성 인코더) 측으로 바이어스하도록 (예컨대, 영향을 미치도록) 조정 파라미터의 값을 결정할 수도 있다. 다른 구현예들에서, 제 2 분류기는 선택을 스위칭 인코더와 같은, 다수의 인코딩 모드들을 가지는 스위칭가능한 인코더의 특정의 인코딩 모드 측으로 바이어스하도록 (예컨대, 영향을 미치도록) 조정 파라미터의 값을 결정할 수도 있다. 조정 파라미터는 오디오 프레임에 대한 인코더의 선택을 향상시키기 위해 제 2 분류기에 의해 사용될 수도 있는 히스테리시스 메트릭 (예컨대, 시간-기반의 메트릭) 으로서 작용할 수도 있다. 예를 들어, 히스테리시스 메트릭은 순차적인 오디오 프레임들의 임계치 개수가 특정의 분류를 가지는 것으로 식별될 때까지 2개의 인코더들 사이에서 앞뒤로 스위칭하는 것을 지연시키거나 또는 감소시킴으로써, 인코딩된 오디오 프레임을 포함하는 인코딩된 오디오 스트림을 "평활화할" 수도 있다.
조건들의 세트는 인코더들 중 적어도 하나가 제 1 샘플 레이트 (예컨대, 오디오 샘플링 레이트) 와 연관되는 제 1 조건을 포함할 수도 있다. 일부 구현예들에서, 제 1 샘플 레이트는 예시적인 비한정적인 예로서, 12.8 킬로헤르츠 (kHz) 와 같은, 낮은 오디오 샘플링 레이트일 수도 있다. 다른 구현예들에서, 제 1 샘플 레이트는 14.4 kHz 또는 8 kHz 와 같이, 12.8 kHz 보다 크거나 또는 작을 수도 있다. 특정의 구현예에서, 제 1 샘플 레이트는 인코더들에 의해 사용되는 다른 샘플 레이트들보다 낮을 수도 있다. 조건들의 세트는 제 1 결정이 음성 프레임으로서의 오디오 프레임의 분류와 연관되는 제 2 조건을 포함할 수도 있다. 조건들의 세트는 오디오 프레임을 인코딩하는데 사용될 제 1 인코더와 연관되는 제 1 추정된 코딩 이득 값이 제 1 값보다 크거나 또는 동일한 제 3 조건을 포함할 수도 있으며, 여기서, 제 1 값은 제 2 추정된 코딩 이득 값과 제 2 값 사이의 차이와 연관된다.
일부 구현예들에서, 가장 최근에 분류된 프레임이 음성 콘텐츠와 연관되면, 조건들의 세트는 제 1 확률 값이 제 2 확률 값보다 크거나 또는 동일하다는 결정과 연관되는 조건을 포함할 수도 있다. 대안적으로, 다수의 최근에 분류된 프레임들의 각각의 프레임이 음성 콘텐츠와 연관되면, 조건들의 세트는 제 1 확률 값이 제 3 값보다 크거나 또는 동일하다는 결정과 연관되는 다른 조건을 포함할 수도 있으며, 여기서, 제 3 값은 제 2 확률 값과 제 4 값 사이의 차이와 연관된다.
일부 구현예들에서, 조건들의 세트는 제 1 임계치보다 크거나 또는 동일한 오디오 프레임의 다수의 서브-프레임들의 평균 보이싱 (voicing) 값과 연관되는 조건을 포함할 수도 있다. 추가적으로 또는 대안적으로, 조건들의 세트는 제 2 임계치보다 큰 오디오 프레임과 연관되는 비-정상성 (non-stationarity) 값과 연관되는 조건을 포함할 수도 있다. 추가적으로 또는 대안적으로, 조건들의 세트는 제 3 임계치 미만인 오디오 프레임과 연관되는 오프셋 값과 연관되는 조건을 포함할 수도 있다.
도 1 을 참조하면, 인코더를 선택하도록 동작가능한 시스템 (100) 의 특정의 예시적인 예가 개시된다. 시스템 (100) 은 디바이스 (102) 에 커플링되거나 또는 포함되는 마이크로폰을 통해서 수신되는 샘플링된 오디오 신호와 같은, 입력 음성 (110) 을 포함할 수도 있는 오디오 신호를 수신하도록 구성된 디바이스 (102) 를 포함한다. 디바이스 (102) 는 입력 음성 (110) 의 모두 또는 일부를 인코딩하기 위해 제 1 인코더 (132) 와 제 2 인코더 (134) 중에서 선택하도록 구성된다. 제 1 인코더 (132) 및 제 2 인코더 (134) 가 별개의 인코더들로서 예시되지만, 다른 구현예들에서, 제 1 인코더 (132) 및 제 2 인코더 (134) 는 단일 인코더 (예컨대, 스위칭 인코더) 에 포함될 수도 있다. 예를 들어, 제 1 인코더 (132) 및 제 2 인코더 (134) 는 스위칭 인코더의 상이한 인코딩 모드들에 대응할 수도 있다. 입력 음성 (110) 을 인코딩하는 것은 하나 이상의 다른 디바이스들로, 예컨대 무선 네트워크를 통해서 전송될 수도 있는, 인코딩된 오디오 프레임 (114) 과 같은, 인코딩된 오디오 프레임들의 세트를 발생시킬 수도 있다. 예를 들어, 디바이스 (102) 는 원격 디바이스와의, VoIP (Voice over Internet Protocol) 콜과 같은, 보이스 콜에 참가할 수도 있다. 일부 구현예들에서, 제 1 인코더 (132), 제 2 인코더 (134), 또는 양쪽은 예시적인, 비한정적인 예로서, 하나 이상의 프로토콜들/표준들에 따라서, 예컨대, 3세대 파트너쉽 프로젝트 (3GPP) 향상된 보이스 서비스들 (EVS) 프로토콜/표준에 따라서 (예컨대, 부합하여) 동작하도록 구성될 수도 있다.
디바이스 (102) 는 선택기 (120), 스위치 (130), 및 제 1 인코더 (132) 및 제 2 인코더 (134) 를 포함하는 다수의 인코더들을 포함하는 인코더 (104) 를 포함한다. 인코더 (104) 는 오디오 프레임 (112) 과 같은 입력 음성 (110) 을 포함하는 오디오 신호의 오디오 프레임들을 수신하도록 구성된다. 오디오 신호는 음성 데이터, 비-음성 데이터 (예컨대, 음악 또는 배경 잡음), 또는 양쪽을 포함할 수도 있다. 선택기 (120) 는 오디오 신호의 각각의 프레임이 제 1 인코더 (132) 또는 제 2 인코더 (134) 에 의해 인코딩되는지 여부를 결정하도록 구성될 수도 있다. 예를 들어, 제 1 인코더 (132) 는 ACELP 인코더와 같은 음성 인코더를 포함할 수도 있으며, 제 2 인코더 (134) 는 음악 인코더와 같은 비-음성 인코더를 포함할 수도 있다. 특정의 구현예에서, 제 2 인코더 (134) 는 TCX 인코더를 포함한다. 스위치 (130) 는 선택기 (120) 에 응답하여 오디오 프레임 (112) 을 제 1 인코더 (132) 또는 제 2 인코더 (134) 중 선택된 하나로 라우팅하여 인코딩된 오디오 프레임 (114) 을 발생시킨다.
선택기 (120) 는 제 1 분류기 (122) 및 제 2 분류기 (124) 를 포함할 수도 있다. 제 1 분류기 (122) 는 도 2 및 도 3 을 참조하여 설명된 특징-세트와 같은, 오디오 프레임 (112) 또는 오디오 프레임 (112) 의 부분을 수신하도록 구성될 수도 있다. 제 1 분류기 (122) 는 음성 프레임 또는 비-음성 프레임으로서 오디오 프레임 (112) 의 분류를 표시하는 제 1 결정 데이터 (146) 를 출력하도록 구성될 수도 있다. 제 1 결정 데이터 (146) 는 오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 데이터 (142) 에 기초하여 그리고 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터 (144) 에 기초하여 결정될 수도 있다. 예를 들어, 제 1 분류기 (122) 는 모델 기반의 분류기, GMM 회로 (예컨대, GMM 모듈), 또는 양쪽을 포함하거나 또는 그에 대응할 수도 있다. 제 1 분류기 (122) 의 특정의 구현예가 도 3 을 참조하여 더 상세히 설명된다.
제 2 분류기 (124) 는 제 1 분류기 (122) 에 커플링되어, 제 1 확률 데이터 (142), 제 2 확률 데이터 (144), 및 제 1 결정 데이터 (146) 에 기초하여 제 2 결정 데이터 (148) 를 출력하도록 구성된다. 제 2 결정 데이터 (148) 는 오디오 프레임 (112) 을 인코딩하는데 이용가능한 다수의 인코더들 (예컨대, 제 1 인코더 (132) 또는 제 2 인코더 (134)) 중 특정의 인코더의 선택을 표시한다. 일부 구현예들에서, 제 2 분류기 (124) 는 오디오 프레임 (112) 을 수신하도록 구성될 수도 있다. 제 2 분류기 (124) 는 오디오 프레임 (112) 을 제 1 분류기 (122) 로부터, 인코더 (104) 로부터, 또는 디바이스 (102) 의 다른 구성요소로부터 수신할 수도 있다. 추가적으로 또는 대안적으로, 제 2 분류기 (124) 는 조정 파라미터를 발생시키도록 구성될 수도 있다. 조정 파라미터의 값은 제 2 결정 데이터 (148) 를 다수의 인코더들 (예컨대, 제 1 인코더 (132) 또는 제 2 인코더 (134)) 중 특정의 인코더를 표시하는 것으로 바이어스할 (예컨대, 영향을 미칠) 수도 있다. 예를 들어, 조정 파라미터의 제 1 값은 특정의 인코더를 선택할 확률을 증가시킬 수도 있다. 제 2 분류기 (124) 는 개방-루프 분류기를 포함하거나 또는 그에 대응할 수도 있다. 제 2 분류기 (124) 의 특정의 구현예가 도 4 를 참조하여 더 자세히 설명된다.
스위치 (130) 는 선택기 (120) 에 커플링되며, 제 2 결정 데이터 (148) 를 수신하도록 구성될 수도 있다. 스위치 (130) 는 제 2 결정 데이터 (148) 에 따라서 제 1 인코더 (132) 또는 제 2 인코더 (134) 를 선택하도록 구성될 수도 있다. 스위치 (130) 는 제 2 결정 데이터 (148) 에 따라서 (예컨대, 기초하여) 오디오 프레임 (112) 을 제 1 인코더 (132) 또는 제 2 인코더 (134) 에 제공하도록 구성될 수도 있다. 다른 구현예들에서, 스위치 (130) 는 선택된 인코더의 출력을 활성화하거나 또는 인에이블하기 위해 신호를 선택된 인코더로 제공하거나 또는 라우팅한다.
제 1 인코더 (132) 및 제 2 인코더 (134) 는 스위치 (130) 에 커플링되어, 스위치 (130) 로부터 오디오 프레임 (112) 을 수신하도록 구성될 수도 있다. 다른 구현예들에서, 제 1 인코더 (132) 또는 제 2 인코더 (134) 는 디바이스 (102) 의 다른 구성요소로부터 오디오 프레임 (112) 을 수신하도록 구성될 수도 있다. 제 1 인코더 (132) 및 제 2 인코더 (134) 는 오디오 프레임 (112) 을 수신하는 것에 응답하여 인코딩된 오디오 프레임 (114) 을 발생시키도록 구성될 수도 있다.
동작 동안, 입력 음성 (110) 은 프레임 단위로 프로세싱될 수도 있으며, 특징들의 세트가 인코더 (104) 에서 (예컨대, 선택기 (120) 에서) 입력 음성 (110) 으로부터 추출될 수도 있다. 특징들의 세트는 제 1 분류기 (122) 에 의해 사용될 수도 있다. 예를 들어, 제 1 분류기 (122) (예컨대, 모델 기반의 분류기) 는 각각 음성의 단기 확률 ("lps") 및 음악의 단기 확률 ("lpm") 과 같은, 제 1 확률 데이터 (142) 및 제 2 확률 데이터 (144) 를 발생시켜 출력할 수도 있다. 도 3 과 관련하여 설명된 바와 같이, 특정의 프레임에 대응하는 lps 및 lpm 값들이 인코더 (104) 의 하나 이상의 상태들 (예컨대, 상태 파라미터들) 을 추적하여 특정의 프레임에 대한 음성 또는 음악의 결정 ("sp_aud_decision") 을 발생시키는 제 1 분류기 (122) 내 상태 머신에 제공될 수도 있다. 인코더 (104) 의 하나 이상의 상태들은 비활성 프레임들의 카운트, 음성 프레임들의 카운트, 음악 프레임들의 카운트, 등과 같은, 장기 파라미터들의 값들을 포함할 수도 있다. 상태 머신은 또한 보이스 활성도 검출기 (VAD) 로부터의 보이스 활성도 결정, 현재의 프레임의 에너지, 등과 같은 파라미터들을 수신할 수도 있다. VAD 가 "보이스" 활성도 검출기로서 설명되지만, VAD 는 (음성 또는 음악을 포함할 수도 있는) 활성 신호와 배경 잡음과 같은 비활성 신호 사이의 판별기인 것으로 이해되어야 한다.
제 2 분류기 (124) 는 프레임으로부터 추출된 단기 특징들을 이용하여, ACELP 인코딩에 대한 신호-대-잡음비 ("snr_acelp") 및 TCX 인코딩에 대한 신호-대-잡음비 ("snr_tcx") 로서 지칭되는, 2개의 코딩 이득 추정치들 또는 측정치들을 추정할 수도 있다. SNR 비들로서 지칭되지만, snr_acelp 및 snr_tcx 는 현재의 프레임이 음성 또는 음악일 우도에 각각 대응할 수도 있거나, 또는 프레임을 인코딩할 때에 제 1 인코더 (132) (예컨대, ACELP 인코더) 또는 제 2 인코더 (134) (예컨대, TCX 인코더) 의 추정된 유효성의 정도에 대응할 수도 있는 코딩 이득 추정치들 또는 다른 추정치들 또는 측정치들일 수도 있다. 제 2 분류기 (124) 는 제 1 결정 데이터 (146) (예컨대, "sp_aud_decision") 와 같은 장기 정보에 기초하여, 그리고 추가로, 제 1 확률 데이터 (142) (예컨대, "lps"), 제 2 확률 데이터 (144) (예컨대, "lpm"), 하나 이상의 다른 파라미터들, 또는 이들의 조합과 같은 제 1 분류기 (122) 로부터의 추가적인 데이터에 기초하여, snr_acelp, snr_tcx, 또는 양쪽을 수정할 (예컨대, 그의 값을 조정할) 수도 있다.
따라서, 선택기 (120) 는 분류기들 (122, 124) 중 어느 하나에서 발생될 수도 있는 장기 및 단기 파라미터들에 기초하여, 그리고 도 2 에 나타낸 바와 같이, 어느 인코더 (예컨대, 제 1 인코더 (132) 또는 제 2 인코더 (134)) 를 특정의 프레임에 적용할지의 결정을 바이어스할 (예컨대, 영향을 미칠) 수도 있다. 제 1 분류기 (122) 로부터의 추가적인 데이터 (예컨대, 제 1 확률 데이터 (142), 제 2 확률 데이터 (144), 또는 양쪽) 에 기초하여 인코더를 선택함으로써, 선택기 (120) 는 제 1 분류기 (예컨대, 모델-기반의 분류기 또는 개방-루프 분류기) 로부터의 결정을 이용하여 각각의 프레임에 대한 제 1 인코더 (132) 또는 제 2 인코더 (134) 를 선택하는 구현예에 비해, 제 1 인코더 (132) 또는 제 2 인코더 (134) 에 의해 인코딩될 프레임들을 선택하는데 있어 오탐지들 (false positives) 의 횟수 및 손실되는 검출들의 횟수를 감소시킬 수도 있다.
게다가, 도 1 이 제 1 인코더 (132) 및 제 2 인코더 (134) 를 예시하지만, 이것은 한정하는 것으로 간주되어서는 안된다는 점에 유의해야 한다. 대안적인 예들에서, 2개보다 많은 인코더들, 회로들, 또는 다른 모듈들이 포함될 수도 있다. 예를 들어, 인코더 (104) 는 하나 이상의 저 대역 (LB) "코어" 회로들 또는 모듈들 (예컨대, TCX 코어, ACELP 코어, 하나 이상의 다른 코어들, 또는 이들의 임의의 조합) 및 하나 이상의 고 대역 (HB)/대역폭 확장판 (BWE) 회로들 또는 모듈들을 포함할 수 있다. 음성 인코딩용으로 선택된 오디오 프레임 (112) 의 저 대역 부분은 프레임의 특성들 (예컨대, 프레임이 음성, 잡음, 음악, 등을 포함하는지 여부) 에 따라서, 인코딩을 위해 특정의 저 대역 코어 회로 또는 모듈에 제공될 수도 있다. 각각의 프레임의 고 대역 부분은 특정의 HB/BWE 회로 또는 모듈에 제공될 수도 있다.
도 2 는 도 1 의 선택기 (120) 의 특정의 예시적인 예 (200) 의 블록도이다. 예 (200) 에서, 선택기 (120) 는 입력 프레임 (예컨대, 도 1 의 오디오 프레임 (112)) 및 인코더 (104) 의 장기 상태에 대응하는 데이터를 수신하고, 음성/음악 결정 (예컨대, 도 1 의 제 1 결정 데이터 (146)) 을 출력하도록 구성된다. 단기 특징 추출기 (226) 는 입력 프레임을 수신하고 입력 프레임으로부터 추출된 특징-세트를 발생시키도록 구성된다. 예시하기 위하여, 단기 특징 추출기 (226) 는 입력 프레임에 기초하여 단기 특징들을 발생시키도록 구성될 수도 있다.
제 1 분류기 (122) 는 단기 특징 추출기 (226) 로부터의 특징-세트 및 장기 상태 데이터를 수신하도록 구성되는 모델-기반의 분류기로서 도시된다. 제 1 분류기 (122) 는 음성의 단기 확률 ("lps") 의 표시자 (예컨대, 도 1 의 제 1 확률 데이터 (142)), 음악의 단기 확률 ("lpm") 의 표시자 (예컨대, 도 1 의 제 2 확률 데이터 (144)), 및 음성/음악 결정 ("sp_aud_decision") (예컨대, 도 1 의 제 1 결정 데이터 (146)) 을 발생시키도록 구성된다. 일부 구현예들에서, 제 1 분류기 (122) 는 입력 프레임을 수신하도록 구성될 수도 있다.
제 2 분류기 (124) 는 입력 프레임 및 장기 상태 데이터를 수신하도록 구성된 개방-루프 분류기로서 도시된다. 제 2 분류기 (124) 는 또한 단기 특징 추출기 (226) 로부터 단기 특징들을 수신하고 제 1 분류기 (122) 로부터 음성의 단기 확률 ("lps") 의 표시자, 음악의 단기 확률 ("lpm") 의 표시자, 및 음성/음악 결정 ("sp_aud_decision") 을 수신하도록 구성될 수도 있다. 제 2 분류기 (124) 는 업데이트된 (또는, 수정된) 분류 결정 (예컨대, 도 1 의 제 2 결정 데이터 (148)) 을 출력하도록 구성된다. 제 2 분류기 (124) 는 제 2 결정 데이터를 스위치 (예컨대, 도 1 의 스위치 (130)) 또는 스위칭 인코더로 출력할 수도 있다. 추가적으로 또는 대안적으로, 제 2 분류기 (124) 는 단기 특징 추출기 (226) 로부터 특징-세트를 수신하도록 구성될 수도 있다.
제 1 분류기 (122) 의 세부 사항들이 도 3 에 도시된 특정의 예 (300) 에 따라서 예시된다. 예 (300) 에서, 제 1 분류기 (122) 는 음성 모델 (370) (예컨대, 음성 모델 회로), 음악 모델 (372) (예컨대, 음악 모델 회로), 및 상태 머신 (374) 을 포함한다. 음성 모델 (370) 은 도 2 의 단기 특징 추출기 (226) 로부터 수신된 특징-세트에 기초하여 음성의 단기 확률 ("lps") 의 표시자를 계산하도록 구성된다. 음악 모델 (372) 은 단기 특징 추출기 (226) 로부터 수신된 특징-세트에 기초하여 음악의 단기 확률 ("lpm") 의 표시자를 계산하도록 구성된다. 다른 구현예들에서, 제 1 분류기 (122) 는 입력 프레임을 수신할 수도 있으며 특징-세트를 결정할 수도 있다.
상태 머신 (374) 은 제 1 확률 데이터 (예컨대, 도 1 의 제 1 확률 데이터 (142) 에 대응하는, 음성 모델 (370) 로부터 출력된 음성의 단기 확률 ("lps") 의 표시자) 를 수신하도록 구성될 수도 있다. 상태 머신 (374) 은 제 2 확률 데이터 (예컨대, 도 1 의 제 2 확률 데이터 (144) 에 대응하는, 음악 모델 (372) 로부터 출력된 음악의 단기 확률 ("lpm") 의 표시자) 를 수신하도록 구성될 수도 있다. 상태 머신 (374) 은 제 1 확률 데이터 및 제 2 확률 데이터에 기초하여 음성/음악 결정 ("sp_aud_decision") (예컨대, 도 1 의 제 1 결정 데이터 (146)) 을 발생시키도록 구성될 수도 있다.
제 2 분류기 (124) 의 세부 사항들이 도 4 에 도시된 특정의 예 (400) 에 따라서 예시된다. 예 (400) 에서, 제 2 분류기 (124) 는 단기 음성 우도 추정기 (410), 단기 음악 우도 추정기 (412), 장기 결정 바이어싱 유닛 (414), 조정 파라미터 발생기 (416), 및 분류 결정 발생기 (418) 를 포함한다.
단기 음성 우도 추정기 (410) 는 (예컨대, 도 2 의 단기 특징 추출기 (226) 로부터의) 입력 프레임 및 입력 프레임 (예컨대, 도 1 의 오디오 프레임 (112)) 으로부터 추출된 단기 특징들의 세트를 수신하도록 구성된다. 단기 음성 우도 추정기 (410) 는 ACELP 인코더 (예컨대, 도 1 의 제 1 인코더 (132)) 를 이용하여 입력 프레임을 인코딩하는 추정된 코딩 이득 또는 효율에 대응하는 제 1 추정된 코딩 이득 값 (예컨대, "snr_acelp") 을 발생시키도록 구성된다.
단기 음악 우도 추정기 (412) 는 (예컨대, 도 2 의 단기 특징 추출기 (226) 로부터의) 입력 프레임 및 입력 프레임으로부터 추출된 단기 특징들의 세트를 수신하도록 구성된다. 단기 음악 우도 추정기 (412) 는 TCX 인코더 (예컨대, 도 1 의 제 2 인코더 (134)) 를 이용하여 입력 프레임을 인코딩하는 추정된 코딩 이득 또는 효율에 대응하는 제 2 추정된 코딩 이득 값 (예컨대, "snr_tcx") 을 발생시키도록 구성된다.
장기 결정 바이어싱 유닛 (414) 은 제 1 추정된 코딩 이득 값 (예컨대, "snr_acelp"), 제 2 추정된 코딩 이득 값 (예컨대, "snr_tcx"), 도 3 에 도시된 바와 같은 제 1 분류기 (122) 에 의해 발생되는 음성/음악 결정 ("sp_aud_decision"), 및 장기 상태 데이터를 수신하도록 구성된다. 장기 결정 바이어싱 유닛 (414) 은 장기 결정 바이어싱 유닛 (414) 에 입력되는 값들 중 하나 이상에 기초하여 출력을 발생시키도록 구성된다.
조정 파라미터 발생기 (416) 는 도 3 의 음성 모델 (370) 로부터 출력된 제 1 확률 데이터 (예컨대, "lps"), 도 3 의 음악 모델 (372) 로부터 출력된 제 2 확률 데이터 (예컨대, "lpm"), 장기 상태 데이터, 및 장기 결정 바이어싱 유닛 (414) 의 출력을 수신하도록 구성된다. 조정 파라미터 발생기 (416) 는 음성/음악 결정을 음성 인코더 측으로 또는 음악 인코더 측으로 바이어스하기 위해 분류 결정 발생기 (418) 에 의해 사용되는 조정 파라미터 (denoted "dsnr") 의 값을 설정하도록 구성된다. 조정 파라미터가 도 4 에서 그리고 아래에서 설명되는 예들에서 "dsnr" 로 라벨링되더라도, 조정 파라미터는 신호-대-잡음비에 대응하거나 또는 하지 않을 수도 있다. 예를 들어, 일부 구현예들에서, 조정 값은 신호-대-잡음비 에 대한 오프셋 (예컨대, "delta snr") 을 나타낼 수도 있는 반면, 다른 구현예들에서, 조정 파라미터는 코딩 이득 값 또는 코딩 이득 비에 대한 오프셋 (예컨대, "delta 코딩 이득"), 코딩 이득 추정치에 대한 또는 하나 이상의 다른 물리적인 값들 또는 모델 파라미터들에 대한 오프셋에 대응할 수도 있거나, 또는 물리적인 값 또는 모델 파라미터에 직접 대응하지 않는 수치 값일 수도 있다. 따라서, 라벨 "dsnr" 이 단지 편의상 사용되며 콘텐츠 또는 조정 파라미터의 사용에 대해 어떤 제한도 가해지지 않는 것으로 이해되어야 한다.
분류 결정 발생기 (418) 는 제 1 추정된 코딩 이득 값 (예컨대, "snr_acelp"), 제 2 추정된 코딩 이득 값 (예컨대, "snr_tcx"), 조정 파라미터 (예컨대, "dsnr"), 도 2 의 단기 특징 추출기 (226) 로부터의 단기 특징들의 세트, 장기 상태 데이터, 및 도 3 에 도시된 바와 같은 제 1 분류기 (122) 에 의해 발생된 음성/음악 결정 ("sp_aud_decision") 을 수신하도록 구성된다. 수신된 입력 값들에 기초하여, 분류 결정 발생기 (418) 는 도 1 의 제 2 결정 데이터 (148) 에 대응할 수도 있는 업데이트된 (또는, 수정된) 분류 결정을 출력하도록 구성된다.
조정 파라미터 ("dsnr") 의 값은 분류 결정 발생기 (418) 의 음성/음악 결정을 바이어스한다. 예를 들어, 조정 파라미터의 양의 값은 분류 결정 발생기 (418) 로 하여금 입력 프레임에 대해 음성 인코더를 선택하기 쉽게 할 수도 있으며, 조정 파라미터의 음의 값은 분류 결정 발생기 (418) 로 하여금 입력 프레임에 대해 비-음성 인코더를 선택하기 쉽게 할 수도 있다.
도 4 와 관련하여 설명된 바와 같이, 여러 파라미터들이 이용가능하며, 음성/음악 결정을 음성 또는 비-음성 측으로 바이어스하거나 또는 영향을 미치는데 사용될 수도 있다. 예를 들어, 제 1 분류기 (122) 의 결정 ("sp_aud_decision") 을 획득할 때에 음성 모델 및 음악 모델에 의해 중간 파라미터들로서 계산된, 음성의 단기 확률 ("lps"), 음악의 단기 확률 ("lpm"), 또는 이들의 조합이 제 2 분류기 (124) 의 음성/음악 결정을 바이어스하는데 사용될 수도 있다.
다른 예로서, 제 1 분류기 (122) 의 장기 결정 ("sp_aud_decision") 이 제 2 분류기 (124) 의 음성/음악 결정을 바이어스하는데 사용될 수도 있다. 다른 예로서, 단기 코딩 이득 추정치들 (예컨대, "snr_acelp" 및 "snr_tcx") 의 근사 (예컨대, 수치적인 유사성) 가 제 2 분류기 (124) 의 음성/음악 결정을 바이어스하는데 사용될 수도 있다.
다른 예로서, (예컨대, 장기 상태 데이터에서) ACELP/음성으로서 선택되었던 과거 연속된 프레임들의 개수가 제 2 분류기 (124) 의 음성/음악 결정을 바이어스하는데 사용될 수도 있다. 대안적으로, ACELP/과거 프레임들의 서브세트 중에서 선택된 음성 프레임들의 개수의 측정치 (이의 일 예는 과거 50 개의 프레임들에서의 ACELP/음성 프레임들의 퍼센티지일 수 있다) 가 제 2 분류기 (124) 의 음성/음악 결정을 바이어스하는데 사용될 수도 있다.
다른 예로서, (예컨대, 장기 상태 데이터에서) ACELP/음성과 TCX/음악 사이의 이전 프레임 결정이 제 2 분류기 (124) 의 음성/음악 결정을 바이어스하는데 사용될 수도 있다. 다른 예로서, 음성 에너지의 비-정상성 측정치 ("non_staX") 가 상이한 주파수 대역들 사이에서 현재의 프레임의 에너지와 과거 프레임의 에너지의 비들의 총합으로서 추정될 수도 있다. 비-정상성 측정치는 도 2 의 단기 특징 추출기 (226) 에 의해 제공되는 특징들의 세트에 포함될 수도 있다. 비-정상성 측정치는 제 2 분류기 (124) 의 음성/음악 결정을 바이어스하는데 사용될 수도 있다.
다른 예로서, 입력 프레임의 서브프레임들의 모두 (또는 서브프레임들의 서브세트) 중에서의 평균 (예컨대, 평균 또는 산술 평균) 보이싱이 제 2 분류기 (124) 의 음성/음악 결정을 바이어스하는데 사용될 수도 있다. 평균 보이싱은 음성의 시프트된 버전과의 서브프레임들에서의 음성의 정규화된 상관의 측정치를 포함할 수도 있다. 시프트된 버전의 시프트 양은 서브프레임의 계산된 피치 래그 (lag) 에 대응할 수도 있다. 높은 보이싱은 신호가 피치 래그에 실질적으로 매칭하는 반복 간격으로 매우 반복적임을 나타낸다. 평균 보이싱은 도 2 의 단기 특징 추출기 (226) 에 의해 제공되는 특징들의 세트에 포함될 수도 있다.
다른 예로서, 오프셋 파라미터가 제 2 분류기 (124) 의 음성/음악 결정을 바이어스하는데 사용될 수도 있다. 예를 들어, TCX 인코더가 음악 세그먼트들을 코딩하는데 사용되면, 음성/음악 결정을 바이어스할 때 오프셋 파라미터가 포함될 수도 있다. 오프셋 파라미터는 TCX 코딩 이득의 역 측정치 (inverse measure) 에 대응할 수도 있다. 오프셋 파라미터는 제 2 추정된 코딩 이득 값 ("snr_tcx") 에 반비례로 관련될 수도 있다. 특정의 구현예에서, 제 2 추정된 코딩 이득 값 ("snr_tcx") 에 대응하는 최소 기준들을 부과하기 위해 오프셋 파라미터의 값이 임계치 미만인지 (예컨대, 오프셋 < 74.0) 여부에 대해 결정이 이루어질 수도 있다. 제 1 추정된 코딩 이득 값 ("snr_acelp") 가 다른 임계치를 초과한다 (예컨대, snr_acelp > snr_tcx-4) 는 것을 입증하는 것에 더해서, 오프셋 파라미터가 임계치 미만이 아니라는 것을 입증하는 것은, 인코더들 중 어느 하나 또는 양쪽이 입력 프레임을 인코딩하기에 불충분한지 여부를 표시할 수도 있다. 인코더들 양쪽이 입력 프레임을 인코딩하기에 불충분하면, 제 3 인코더가 입력 프레임을 인코딩하는데 사용될 수도 있다. 인코더 선택을 바이어스하는데 사용될 수도 있는 여러 파라미터들이 위에 리스트되지만, 일부 구현예들이 하나 이상의 다른 파라미터들을 포함한, 리스트된 파라미터들 중 하나 이상, 또는 이들의 임의의 조합을 배제할 수도 있는 것으로 이해되어야 한다.
추가적인 데이터 (예컨대, 도 1 의 제 1 분류기 (122) 로부터의 데이터) 에 기초하여 코딩 이득 추정치들 또는 측정치들을 수정함 (예컨대, 그의 값을 조정함) 으로써, 제 2 분류기 (124) 는, 제 1 분류기 (예컨대, 모델-기반의 분류기 또는 개방-루프 분류기) 로부터의 결정을 이용하여 각각의 프레임에 대해 제 1 인코더 (132) 또는 제 2 인코더 (134) 를 선택하는 구현예에 비해, 인코딩될 프레임들을 선택하는데 있어서 오탐지들의 횟수 및 손실된 검출들의 횟수를 감소시킬 수도 있다. 선택된 인코더를 이용하여 오디오 프레임들을 인코딩함으로써, 오디오 프레임들의 오분류에, 그리고, 잘못된 인코더를 이용하여 오디오 프레임들을 인코딩하는 것에 기인하는 아티팩트들 및 불량한 신호 품질이 감소되거나 또는 제거될 수도 있다.
도 1 내지 도 4 를 참조하여 설명되는 양태들의 가능한 구현예들을 예시하는 컴퓨터 코드의 여러 예들이 아래에 제시된다. 이 예들에서, 용어 "st->" 그 용어 뒤의 변수가 상태 파라미터 (예컨대, 도 1 의 인코더 (104) 의 상태, 도 1 의 선택기 (120) 의 상태, 또는 이들의 조합) 인 것을 표시한다. 예를 들어, "st->lps" 는 입력 프레임이 음성 프레임 ("lps") 일 단기 확률이 상태 파라미터인 것을 표시한다. 다음 예들은 도 1 의 시스템 (100), 도 2 내지 도 4 의 예들, 또는 양쪽에 기초한 구현예에 대응하며, 여기서, 제 1 분류기 (122) 은 모델-기반의 분류기이며, 제 2 분류기 (124) 는 개방-루프 분류기이며, 제 1 인코더 (132) 는 ACELP 인코더를 포함하며, 제 2 인코더 (134) 는 TCX 인코더를 포함한다.
컴퓨터 코드는 실행가능 코드의 부분이 아닌 코멘트들을 포함한다. 컴퓨터 코드에서, 코멘트의 시작은 순방향 슬래시와 별표 (예컨대, "/*") 로 표시되며, 코멘트의 끝은 별표와 순방향 슬래시 (예컨대, "*/") 로 표시된다. 예시하기 위하여, 코멘트 "코멘트 (COMMENT)" 는 의사-코드 내에 /* 코멘트 */ 로서 나타날 수도 있다.
제공된 예들에서, "==" 연산자는 "A==B" 가 A 의 값이 B 의 값과 같을 때 참 (TRUE) 의 값을 가지고, 그렇지 않으면 거짓 (FALSE) 의 값을 갖는, 등가 비교를 표시한다. "&&" 연산자는 논리 합 (AND) 연산을 표시한다. "||" 연산자는 논리 OR 연산을 표시한다. ">" (보다 큰) 연산자는 "보다 큰" 것을 나타내며, ">=" 연산자는 "보다 크거나 또는 동일한" 것을 나타내며, "<" 연산자는 "보다 작은" 것을 표시한다. 숫자 뒤의 용어 "f" 는 부동 소수점 (예컨대, 10진수) 숫자 형식을 표시한다. 앞에서 언급한 바와 같이, "st->A" 용어는 A 가 상태 파라미터임을 표시한다 (즉, "->" 문자는 논리 또는 산술 연산을 나타내지 않는다).
제공된 예들에서, "*" 는 곱셈 연산을 나타낼 수도 있으며, "+" 또는 "합 (sum)" 은 덧셈 연산을 나타낼 수도 있으며, "-" 는 감산 연산을 표시할 수도 있으며, "/" 는 나눗셈 연산을 나타낼 수도 있다. "=" 연산자는 할당을 나타낸다 (예컨대, "a=1" 는 1 의 값을 변수 "a" 에 할당한다). 다른 구현예들은 예 1 의 조건들의 세트에 더해서 또는 대신에, 하나 이상의 조건들을 포함할 수도 있다.
조건 "st->lps > st->lpm" 은 현재의 프레임이 음성-형일 단기 확률이 모델 기반의 분류기에 의해 계산될 때와 같은, 현재의 프레임이 음악-형일 단기 확률보다 더 높다는 것을 표시한다. 이들은 상태 머신 (374) 에서의 프로세싱이 제 1 분류기 (122) (예컨대, 모델 기반의 분류기) 에서 일어나기 전에 그 값들이 제 2 분류기 (124) 에 제공되거나 또는 탭 아웃 (tap out) 될 수도 있는 중간 파라미터들이다.
예를 들어, lps 는 관측된 특징들이 주어질 때 음성의 로그 확률에 대응할 수도 있으며, lpm 은 관측된 특징들이 주어질 때 음악의 로그 확률에 대응할 수도 있다. 예를 들어,
[수식 1]: lps = log(p(음성|특징들)*p(특징들)) = log(p(특징들|음성) + log(음성), 및
[수식 2]: lpm = log(p(음악|특징들)*p(특징들)) = log(p(특징들|음악)) + log(음악),
여기서, p(x) 는 x 의 확률을 표시하며, p(x|y) 는 y 가 주어질 때 x 의 확률을 표시한다. 일부 구현예들에서, lps 와 lpm 사이의 상대적인 비교들을 수행할 때, p(특징들) 은 공통 용어이기 때문에 무시될 수 있다. 용어 p(특징들|음성) 은 특징들이 음성에 속한다고 가정한, 관측된 특징들의 세트의 확률이다. 용어 p(특징들|음성) 은 음성에 대한 모델에 기초하여 계산될 수 있다. 용어 p(음성) 은 음성의 선험 확률이다. 일반적으로, 누군가 전화기에 이야기할 우도가 음악이 전화기에 플레이되고 있을 우도보다 더 높을 수도 있기 때문에, 모바일 통신 애플리케이션들에 대해 p(음성) > p(음악) 이다. 그러나, 대안적인 유즈 케이스들에서, p(음성) 와 p(음악) 은 임의로 관련될 수 있다.
파라미터들 lps 및 lpm 은 음성 및 음악의 선험 확률들과 함께, 음성 모델들, 음악 모델들, 또는 이들의 조합에 관한 정보와, 관측된 특징들의 세트가 음성 및 음악일 우도를 각각 나타낸다.
조건 "st->sr_core == 12800" 은 인코더 또는 인코더 동작 모드 (예컨대, 12.8 kHz 의 ACELP 코어 샘플 레이트) 를 표시할 수도 있다. 예를 들어, 일부 구현예들에서, 12.8 kHz 인코더 동작 모드는 더 높은 샘플링 레이트 인코더 동작 모드들에 비해, 증가된 음성/음악 오예측을 보일 수도 있다.
조건 "sp_aud_decision0 == 0" 은 입력 프레임이 음성 프레임임을 제 1 분류기 (122) 의 음성/음악 결정이 표시한다는 것을 표시할 수도 있다. 제 1 분류기 (122) 의 음성/음악 결정은, 모델 기반의 파라미터들 lps 및 lpm 이 계산된 후 그리고 (sp_aud_decision 이 빈번한 스위칭을 회피하도록 장기 정보를 고려하는) 상태 머신 (374) 프로세싱이 완료된 후, 발생된다.
용어 "st->acelpFramesCount" 는 ACELP (또는, 음성) 일 것으로 결정된 과거 연속된 프레임들의 개수의 카운트를 표시한다. 이 카운트는, 과거 연속된 ACELP 프레임들의 개수가 상대적으로 높을 때, 결정을 음성 측으로 바이어스하는데 사용될 수도 있다. 결정을 바이어스하는데 이 카운트를 이용하는 것은, lps 가 lpm 의 값과 유사한 값을 가질 때, 그리고 snr_acelp 가 snr_tcx 의 값과 유사한 값을 가질 때와 같은, 경계선상의 경우들에서, 증가된 바이어싱 효과를 제공할 수도 있다. 이것은 또한 ACELP/TCX 사이의 빈번한 스위칭을 회피한다.
예 1 에서 나타낸 바와 같은 조정 파라미터 "dsnr" 의 값을 설정함으로써 음성/음악 결정을 바이어스할지 여부를 결정하기 위해 조건들의 세트가 평가될 수도 있다.
if( (st->sr_core == 12800) && ((st->lps > st->lpm) || (st->acelpFramesCount >= 6 && (st->lps > st->lpm - 1.5f))) && (sp_aud_decision0 == 0) && (snr_acelp >= snr_tcx - 4) && st->acelpFramesCount >= 1)
{
dsnr = 4.0f; /*결정을 ACELP 측으로 바이어스하기 위해*/
}
예 1
st->acelpFramesCount >= 1 은 최종 프레임 (즉, 현재 평가중인 프레임보다 선행하는 프레임) 이 ACELP 프레임인 것으로 결정되었다는 것을 표시한다 (예컨대, 제 2 결정 데이터 (148) 는 제 1 인코더 (132) 의 선택을 표시한다) 는 점에 유의해야 한다. 최종 프레임 (이전 프레임) 이 ACELP 프레임인 것으로 결정되었으면, 예 1 의 조건들의 세트는 또한 st->lps > st->lpm 에 대한 체크를 포함한다. 그러나, 최종 6 개의 연속된 프레임들이 ACELP 프레임들인 것으로 결정되었으면, 예 1 의 조건들의 세트는, st->lps 가 st->lpm 미만이더라도, st->lps 의 값이 st->lpm 의 값의 1.5 이내인 한, 선택을 ACELP 프레임인 현재의 프레임 측으로 바이어스하도록, 현재의 프레임에 대한 조정 파라미터 "dsnr" 을 조정하는 것을 가능하게 한다. 또한, st->acelpFramesCount >= 6 은 적어도 최종 6 개의 프레임들이 ACELP 프레임들 프레임인 것으로 결정되었다 (예컨대, 제 2 결정 데이터 (148) 는 제 1 인코더 (132) 의 선택을 표시한다) 는 것을 표시하고, 그리고 최종 프레임 (즉, 현재 평가중인 프레임보다 선행하는 프레임) 이 ACELP 프레임인 것으로 결정되었다는 것을 내재적으로 표시한다는 점에 유의해야 한다. 예시하기 위하여, 일부 구현예들에서, st->lps 의 값은 일반적으로 -27 과 27 사이일 수도 있으며, st->lpm 의 값은 일반적으로 -16 과 23 사이일 수도 있다.
예 1 에서 적용된 바와 같은 조정 파라미터 (예컨대, dsnr = 4.0f) 의 수정 이후에도, 일부 구현예들에서, 조정 파라미터의 값이 분류 결정 발생기 (418) 의 음성/음악 결정 동안 적용되기 전에 추가로 조정될 (예컨대, 증가되거나 또는 감소될) 수도 있다는 점에 유의해야 한다. 따라서, 예 1 에서의 조정 파라미터 "dsnr" 의 수정은 예 1 의 조건들의 세트가 만족될 때 음성/ACELP 를 선택할 확률을 증가시키지만, 반드시 보장하지는 않는다.
다른 구현예들은 예 1 의 조건들의 세트에 더해서 또는 대신에, 하나 이상의 조건들을 포함할 수도 있다. 예를 들어, 파라미터 "non_staX" 는 현재 프레임과 과거 프레임 사이의 여러 주파수 대역들에서 에너지들의 절대 분산의 측정치를 표시할 수도 있다. 로그 (log) 도메인에서, non_staX 는 상이한 대역들 중에서 현재 프레임과 과거 프레임 사이의 절대 로그 에너지 차이들의 총합일 수도 있다. 파라미터 non_staX 의 값의 계산의 일 예가 예 2 에 제공된다.
for( band_i = band_start; i < band-stop; i++ )
/*band_start 로부터 band-stop 까지 루프*/
{
log_enr = log(enr[band_i]);
*non_staX = *non_staX + abs(log_enr - st->past_log_enr[band_i]);
st->past_log_enr[band_i] = log_enr;
}
예 2
음악 신호들, 특히 악기 신호들 (예컨대, 바이올린) 은 모든 주파수 대역들에서 매우 높은 정도의 정상성을 갖지만, 그들의 높은 고조파성으로 인해 종종 유성 음성으로 착각될 수 있다. 상대적으로 높은 비-정상성의 조건이 (예컨대, ACELP 인코더에 의해) 정지된 악기 신호들을 음성으로서 인코딩할 우도를 감소시키기 위해 사용될 수도 있다.
다른 예로서, 평균 보이싱 "mean(voicing_fr, 4) >= 0.3" 에 기초한 조건은 현재의 프레임의 4개의 서브프레임들 내 파라미터 voicing_fr 의 값들의 산술 평균이 0.3 보다 크거나 또는 같을 때 만족될 수도 있다. 프레임의 모든 서브프레임들에 대응할 수도 있는 4개의 서브프레임들이 고려되지만, 다른 구현예들에서, 4개보다 더 적은 서브프레임들이 고려될 수도 있다. 파라미터 voicing_fr 은 다음과 같이 결정될 수도 있다:
[수식 3]:
Figure 112017095332127-pct00001
Figure 112017095332127-pct00002
수식 3 에서, τi 는 서브프레임 i 에서 추정된 피치 기간이다. Voicing_fr[i] 는 서브프레임 i 에 대한 보이싱 파라미터이다. 1 의 값을 가지는 Voicing_fr[i] 는 현재의 서브프레임에서의 음성과 샘플들의 세트 사이의 상관 τi 가 매우 높다는 것을 표시하며, 값 0 은 그 상관이 매우 낮다는 것을 의미한다. Voicing_fr 은 음성의 반복성의 측정치일 수도 있다. 보이싱된 (voiced frame) 프레임은 매우 반복적이며, 조건 "mean(voicing_fr, 4) > 0.3" 이 음성-형 신호들에 대해 만족될 수도 있다.
다른 예로서, 오프셋 파라미터에 기초한 조건 "오프셋 < 74.0f" 가 음성/음악 결정을 음성 측으로 바이어스할지 여부를 결정할 때에 사용될 수도 있다. 오프셋 파라미터는 snr_tcx 에 반비례적으로 관련되는데, 오프셋 값에서의 증가가 snr_tcx 에서의 감소를 초래하고 반대의 경우도 마찬가지이며, 그리고 오프셋 파라미터를 낮은 값으로 제한하는 것이 효과적인 TCX 인코딩을 위해 하계를 초과하는 레벨을 갖도록 snr_tcx 를 간접적으로 제한한다는 것을 의미한다. 오프셋 파라미터가 장기 상태, 단기 특징들, 등에 기초하여 제 2 분류기 내에서 계산된다는 점에 유의해야 한다. 일 구현예에서, snr_tcx 와 오프셋 사이의 관계는 다음과 같을 수도 있다:
[수식 4]:
Figure 112017095332127-pct00003
(여기서, sh 는 가중된 음성이며, 가중은 입력 음성의 LPC들 상에서 이루어진다)
또는
[수식 5]:
Figure 112017095332127-pct00004
.
다른 예로서, 음성/음악 결정은 예 3 에 예시된 바와 같이, 음악 신호에서의 ACELP 프레임들의 발생을 감소시키기 위해 "sp_aud_decision0 == 1" 일 때 (예컨대, 제 1 결정 데이터 (146) 는 음악 프레임을 표시할 때) 음악 측으로 바이어스될 수도 있다.
if((st->sr_core == 12800) && sp_aud_decision0 == 1)
{
/* TCX 를 선정할 확률을 증가시켜, 결정을 TCX 측으로 바이어스한다*/
dsnr = -2.0f;
}
예 3
제 2 분류기 (124) 의 결정을 ACELP 또는 TCX 측으로 바이어스하기 위해, 예 1 과 비교하여 확장된 제안된 조건들의 세트가 예 4 에 제공된다.
if((st->sr_core == 12800) && ((st->lps > st->lpm) && mean(voicing_fr, 4) >= 0.3f || (st->acelpFramesCount >= 6 && (st->lps > st->lpm - 1.5f))) && (sp_aud_decision0 == 0) && (non_staX > 5.0f) && (snr_acelp >= snr_tcx - 4) && st->acelpFramesCount >= 1 && (오프셋 < 74.0f))
{
/* 결정을 ACELP/음성 측으로 바이어스한다 */
dsnr = 4.0f;
}
else if((st->sr_core == 12800) && sp_aud_decision0 == 1)
{
/* TCX 를 선정할 확률을 증가시켜, 결정을 TCX 측으로 바이어스한다*/
dsnr = -2.0f;
}
예 4
제 2 분류기 (124) 의 결정을 ACELP 또는 TCX 측으로 바이어스하기 위해, 제안된 조건들의 다른 세트가 예 5 에 제공된다. 예 5 에서, 0.3 보다 높은 mean(voicing_fr, 4) 는 독립적인 조건을 의미한다.
if( (st->sr_core == 12800) && mean(voicing_fr, 4) >= 0.3f && ((st->lps > st->lpm) || (st->acelpFramesCount >= 6 && (st->lps > st->lpm - 1.5f))) && (sp_aud_decision0 == 0) && (non_staX > 5.0f) && (snr_acelp >= snr_tcx - 4) && st->acelpFramesCount >= 1 && (오프셋 < 74.0f))
{
/*결정을 ACELP/음성 측으로 바이어스한다*/
dsnr = 4.0f;
}
else if((st->sr_core == 12800) && sp_aud_decision0 == 1)
{
/* TCX 를 선정할 확률을 증가시켜, 결정을 TCX 측으로 바이어스한다*/
dsnr = -2.0f;
}
예 5
예들 1 및 3-5 가 조정 파라미터 "dsnr" 의 값들을 설정하는 것에 대응하는 조건들의 세트들의 예들을 제공하지만, 다른 구현예들은 하나 이상의 조건들을 배제하고, 하나 이상의 다른 조건들, 또는 이들의 임의의 조합을 포함할 수도 있다. 예를 들어, 예들 1 및 3-5 가 증가된 음성/음악 오예측을 나타낼 수도 있는 인코더 동작 모드 (예컨대, 12.8 kHz 샘플 레이트) 를 표시하는 조건 "st->sr_core == 12800" 을 포함하지만, 다른 구현예들에서는, 조정 파라미터를 설정하기 위해 조건들의 세트에, 하나 이상의 다른 인코더 모드들이 포함되거나, 또는 어떤 인코더 모드도 포함되지 않을 수도 있다. 수치 값들 (예컨대, 74.0f) 이 예들의 일부에서 제공되지만, 이러한 값들은 단지 예들로서 제공되며, 다른 구현예들에서는 감소된 오예측을 제공하기 위해 다른 값들이 결정될 수도 있다. 추가적으로, 본원에서 사용되는 파라미터 표시들 (예컨대, "lps", "lpm", 등) 은 단지 예시를 위한 것이다. 다른 구현예들에서, 파라미터들은 상이한 이름들로 지칭될 수도 있다. 예를 들어, 음성 파라미터의 확률은 "prob_s" 또는 "lp_prob_s" 로 지칭될 수도 있다. 또, 시간-평균 (저역) 파라미터들 ("lp" 로 지칭됨) 이 설명되었으며, 도 1 내지 도 4 및 예들 1 및 3-5 는 시간-평균 또는 저역 파라미터 대신 다른 파라미터들 (예컨대, "prob_s", "prob_m", 등) 을 이용할 수 있다.
도 5 는 인코더의 선택을 결정하는 방법 (500) 을 예시하는 플로우 차트이다. 방법 (500) 은 음성 인코딩과 비-음성 인코딩 중에서 선택하는 인코더에서 또는 그에 의해 수행될 수도 있다. 예를 들어, 본 방법 (500) 은 도 1 의 인코더 (104) 에서 수행될 수도 있다.
방법 (500) 은 502 에서, 제 1 분류기로부터, 제 2 분류기에서 제 1 확률 데이터 및 제 2 확률 데이터를 수신하는 단계를 포함한다. 제 1 확률 데이터는 오디오 프레임이 음성 프레임일 제 1 우도와 연관되며 제 2 확률 데이터는 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관된다. 예시하기 위하여, 제 1 확률 데이터 (142) 및 제 2 확률 데이터 (144) 가 도 1 의 제 1 분류기 (122) 로부터 제 2 분류기 (124) 에서 수신된다. 예를 들어, 제 1 분류기는 모델 기반의 분류기와 연관될 수도 있으며, 제 2 분류기는 개방-루프 모델 또는 개방-루프 분류기와 연관될 수도 있다.
제 1 결정 데이터가 504 에서, 제 2 분류기에서 제 1 분류기로부터 수신될 수도 있으며, 제 1 결정 데이터는 음성 프레임 또는 비-음성 프레임으로서 오디오 프레임의 분류를 표시한다. 제 1 결정 데이터는 제 1 분류기의 상태 머신으로부터 제 2 분류기에서 수신될 수도 있다. 예를 들어, 제 1 결정 데이터는 도 1 의 제 1 결정 데이터 (146) 에 대응할 수도 있다.
방법 (500) 은 또한 506 에서, 제 2 분류기에서, 제 1 확률 데이터, 제 2 확률 데이터, 및 제 1 결정 데이터에 기초하여 제 2 결정 데이터를 결정하는 단계를 포함한다. 제 2 결정 데이터는 오디오 프레임을 인코딩할 다수의 인코더들 중 특정의 인코더의 선택을 표시하도록 구성된다. 예를 들어, 다수의 인코더들은 각각 도 1 의 제 1 인코더 (132) 및 제 2 인코더 (134) 와 같은, 제 1 인코더 및 제 2 인코더를 포함할 수도 있다. 제 1 인코더는 음성 인코더를 포함할 수도 있으며, 제 2 인코더는 비-음성 인코더를 포함할 수도 있다. 예시하기 위하여, 비-음성 인코더는 TCX 인코더와 같은, 음악 인코더를 포함할 수도 있다.
방법 (500) 은 제 2 분류기의 출력으로부터의 제 2 결정 데이터를 다수의 인코더들 중 특정의 인코더를 선택하도록 구성된 스위치에 제공하는 단계를 포함할 수도 있다. 오디오 프레임은 선택된 인코더를 이용하여 인코딩된다. 예를 들어, 도 1 의 제 2 분류기 (124) 는 제 1 인코더 (132) 또는 제 2 인코더 (134) 중 하나를 선택하기 위해 스위치 (130) 에 제공되는 제 2 결정 데이터 (148) 를 출력할 수도 있다.
방법 (500) 은 오디오 프레임을 인코딩하는데 사용될 다수의 인코더들 중 제 1 인코더와 연관되는 제 1 추정된 코딩 이득 값을 결정하는 단계 및 오디오 프레임을 인코딩하는데 사용될 다수의 인코더들 중 제 2 인코더와 연관되는 제 2 추정된 코딩 이득 값을 결정하는 단계를 포함할 수도 있다. 예를 들어, 제 1 추정된 코딩 이득 값은 도 4 의 단기 음성 우도 추정기 (410) 에 의해 출력된 값 (예컨대, snr_acelp) 에 대응할 수도 있으며, 제 2 추정된 코딩 이득 값은 단기 음악 우도 추정기 (412) 에 의해 출력된 값 (예컨대, snr_tcx) 에 대응할 수도 있다. 방법 (500) 은 조정 파라미터의 값에 기초하여 제 1 추정된 코딩 이득 값을 조정하는 단계를 포함할 수도 있다. 예를 들어, 도 4 에서의 조정 파라미터 "dsnr" 의 값은 도 4 의 조정 파라미터 발생기 (416) 에 의해 출력될 수도 있으며, snr_acelp 의 값을 조정하기 위해 분류 결정 발생기 (418) 에 의해 사용될 수도 있다. 하나 이상의 인코더들의 선택은 조정된 제 1 추정된 코딩 이득 값 및 제 2 추정된 코딩 이득 값에 기초할 수도 있다.
방법 (500) 은 조정 파라미터 (예컨대, "dsnr") 의 값을 선택하는 단계를 포함할 수도 있다. 그 값은 제 1 확률 데이터 (예컨대, lps), 제 2 확률 데이터 (예컨대, lpm), 장기 상태 데이터, 또는 제 1 결정 (예컨대, sp_aud_decision) 중 적어도 하나에 기초할 수도 있다. 예를 들어, 조정 파라미터의 값은 도 4 의 조정 파라미터 발생기 (416) 에 의해 선택될 수도 있다. 제 2 결정 데이터는 조정 파라미터 발생기 (416) 로부터 수신되는 조정 파라미터의 값에 응답하는 분류 결정 발생기 (418) 의 출력과 같은, 조정 파라미터의 값에 기초하여 결정될 수도 있다. 조정 파라미터의 값은 선택을 음성과 연관되는 제 1 인코더 또는 비-음성과 연관되는 제 2 인코더 측으로 바이어스하도록 선택될 수도 있다.
방법 (500) 은 오디오 프레임과 연관되는 조건들의 세트가 만족되는지 여부를 결정하는 단계, 및 조건들의 세트가 만족되는 것에 응답하여, 선택을 음성과 연관되는 제 1 인코더 측으로 바이어스하도록 조정 파라미터의 값을 선택하는 단계를 포함할 수도 있다. 조건들의 세트는 예 1 에서의 조건 "st->sr_core == 12800" 과 같이, 오디오 프레임이 12.8 kHz 의 코어 샘플 레이트와 연관된다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다. 조건들의 세트는 예 1 에서의 조건 "sp_aud_decision0 == 0" 과 같이, 오디오 프레임이 음성 프레임으로 분류된다는 것을 제 1 결정 데이터가 표시한다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다. 조건들의 세트는 오디오 프레임을 인코딩하는데 사용될 제 1 인코더와 연관되는 제 1 추정된 코딩 이득 값 (예컨대, snr_acelp) 이 제 1 값보다 크거나 또는 동일하다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다. 제 1 값은 예 1 에서의 조건 "snr_acelp >= snr_tcx - 4" 와 같이, 제 2 추정된 코딩 이득 값 (예컨대, snr_tcx) 과 제 2 값 (예컨대, 4) 사이의 차이와 연관된다. 조건들의 세트는 가장 최근에 분류된 프레임이 음성 콘텐츠를 포함하는 것으로 분류된다 (예컨대, 예 1 에서의 "st->acelpFramesCount >= 1") 고 결정하고 그리고 제 1 확률 데이터에 의해 표시되는 제 1 확률 값이 제 2 확률에 의해 표시되는 제 2 확률 값보다 크다 (예컨대, 예 1 의 "st->lps > st->lpm") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다.
조건들의 세트는 가장 최근에 분류된 프레임들의 개수에 대응하는 각각의 프레임이 음성 콘텐츠를 포함하는 것으로 분류된다 (예컨대, 예 1 에서의 "st->acelpFramesCount >= 6") 고 결정하고 그리고 제 1 확률 데이터에 의해 표시되는 제 1 확률 값 (예컨대, "st->lps") 이 제 3 값보다 크거나 또는 동일하다 (예컨대, 예 1 에서의 "st->lpm - 1.5") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다. 제 3 값은 제 2 확률 데이터에 의해 표시되는 제 2 확률 값 (예컨대, "st->lpm") 과 제 4 값 (예컨대, 1.5) 사이의 차이와 연관될 수도 있다.
조건들의 세트는 오디오 프레임의 다수의 서브-프레임들의 평균 보이싱 값이 제 1 임계치보다 크거나 또는 동일하다 (예컨대, 예 4 에서의 "mean(voicing_fr, 4) >= 0.3") 고 결정하고, 오디오 프레임과 연관되는 비-정상성 값이 제 2 임계치보다 크다 (예컨대, 예 4 에서의 "non-staX > 5.0") 고 결정하고, 그리고 오디오 프레임과 연관되는 오프셋 값이 제 3 임계치 미만이다 (예컨대, 예 4 에서의 "오프셋 < 74") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다.
특정의 양태에서, 본 방법 (500) 은 오디오 프레임과 연관되는 조건들의 제 2 세트가 만족되는지 여부를 결정하는 단계, 및 조건들의 제 2 세트가 만족되는 것에 응답하여, 예 3 을 참조하여 설명된 바와 같이, 선택을 비-음성과 연관되는 제 2 인코더 측으로 바이어스하도록 조정 파라미터의 값을 선택하는 단계를 포함한다. 조건들의 제 2 세트는 오디오 프레임이 12.8 kHz 의 코어 샘플 레이트와 연관된다 (예컨대, 예 3 에서의 "st->st_core == 12800") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다. 대안적으로 또는 추가적으로, 조건들의 제 2 세트는 오디오 프레임이 비-음성 프레임으로서 분류된다고 제 1 결정 데이터가 표시한다 (예컨대, 예 3 에서의 "sp_aud_decision0 == 1") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다.
방법 (500) 은 특정의 오디오 프레임의 더 정확한 분류 및 특정의 오디오 프레임을 인코딩하는데 사용되는 인코더의 향상된 선택을 가능하게 할 수도 있다. 제 1 분류기로부터의 확률 데이터 및 제 1 결정 데이터를 이용하여 선택을 결정함으로써, 오디오 프레임들이 음성 프레임들 또는 음악 프레임들로서 정확하게 분류될 수도 있으며, 오분류된 음성 프레임들의 개수가 종래의 분류 기법들에 비해 감소될 수도 있다. 분류된 오디오 프레임들에 기초하여, 인코더 (예컨대, 음성 인코더 또는 비-음성 인코더) 가 오디오 프레임을 인코딩하도록 선택될 수도 있다. 선택된 인코더를 이용하여 음성 프레임들을 인코딩함으로써, 오디오 프레임들의 오분류에서, 그리고 오디오 프레임들을 인코딩하는데 잘못된 인코더를 이용하는 것에서 기인하는 아티팩트들 및 불량한 신호 품질이 감소될 수도 있다.
도 6 은 특정의 인코더 측으로 바이어스하도록 조정 파라미터의 값을 선택하는 방법 (600) 을 예시하는 플로우 차트이다. 방법 (600) 은 음성 인코딩과 비-음성 인코딩 중에서 선택하는 인코더에서 또는 그에 의해 수행될 수도 있다. 예를 들어, 본 방법 (600) 은 도 1 의 인코더 (104) 에서 수행될 수도 있다.
602 에서, 제 1 분류기로부터의 제 1 확률 데이터 및 제 1 결정 데이터가 제 2 분류기에서 수신된다. 제 1 확률 데이터는 오디오 프레임이 음성 프레임일 제 1 우도와 연관된다. 예를 들어, 제 1 확률 데이터는 도 1 의 제 1 분류기 (122) 로부터 제 2 분류기 (124) 에서 수신된, 제 1 확률 데이터 (142), 제 2 확률 데이터 (144), 또는 이들의 조합에 대응할 수도 있다. 제 1 결정 데이터는 도 1 의 제 1 결정 데이터 (146) 와 같이, 오디오 프레임의 분류를 음성 프레임 또는 비-음성 프레임으로서 표시한다.
방법 (600) 은 또한 604 에서, 제 2 분류기에서, 오디오 프레임과 연관되는 조건들의 세트가 만족되는지 여부를 결정하는 단계를 포함한다. 조건들의 세트의 제 1 조건은 제 1 확률 데이터에 기초하고, 조건들의 세트의 제 2 조건은 제 1 결정 데이터에 기초한다. 예를 들어, 제 1 조건은 예 1 에서의 "st->lps > st->lpm" 에 대응할 수도 있으며, 제 2 조건은 예 1 에서의 "sp_aud_decision0 == 0" 에 대응할 수도 있다.
방법 (600) 은 606 에서, 조건들의 세트가 만족된다고 결정하는 것에 응답하여, 제 1 선택을 다수의 인코더들 중 제 1 인코더 측으로 바이어스하도록 조정 파라미터의 값을 설정하는 단계를 더 포함한다. 예를 들어, 조정 파라미터의 값은 분류 결정 발생기 (418) 에 제공되는 도 4 의 조정 파라미터 발생기 (416) 의 출력의 값에 대응할 수도 있다. 예시하기 위하여, 제 1 선택을 제 1 인코더 측으로 바이어스하도록 조정 파라미터의 값을 설정하는 것은 예 1 에서의 "dnsr = 4.0" 과 같이, 조정 파라미터의 값을 설정하는 (또는, 업데이트하는) 것에 대응할 수도 있다. 제 1 인코더는 음성 인코더를 포함하거나 또는 그에 대응할 수도 있다.
특정한 양태에서, 조건들의 세트는 오디오 프레임이 12.800 kHz 의 샘플 레이트와 연관된다 (예컨대, 예 1 에서의 "st->sr_core == 12800") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정된다. 조건들의 세트는 제 1 결정 데이터가 음성 프레임으로서 오디오 프레임의 분류를 표시한다 (예컨대, 예 1 에서의 "sp_aud_decision0 == 0") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다. 조건들의 세트는 제 1 인코더에서 오디오 프레임을 인코딩하는 것에 연관되는 제 1 추정된 코딩 이득 값 (예컨대, "snr_acelp") 이 제 2 추정된 코딩 이득 값 (예컨대, "snr_tcx") 과 제 2 값 사이의 차이와 연관되는 제 1 값보다 크거나 또는 동일하다 (예컨대, 예 1 에서의 "snr_acelp >= snr_tcx - 4") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다.
특정한 양태에서, 조건들의 세트는 가장 최근에 분류된 프레임이 음성 콘텐츠를 포함하는 것으로 분류된다 (예컨대, 예 1 에서의 "st->acelpFramesCount >= 1") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정된다. 특정한 양태에서, 조건들의 세트는 제 1 확률 데이터에 의해 표시되는 제 1 확률 값이 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터에 의해 표시되는 제 2 확률 값보다 크다 (예컨대, "st->lps > st-lpm") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정된다.
조건들의 세트는 가장 최근에 분류된 프레임들의 개수에 대응하는 각각의 프레임이 음성 콘텐츠를 포함하는 것으로 분류된다 (예컨대, "st->acelpFramesCount >= 6") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다. 조건들의 세트는 예 1 에서의 조건 "st->lps > st-lpm - 1.5" 와 같이, 제 1 확률 데이터에 의해 표시되는 제 1 확률 값 (예컨대, "st->lps") 이 제 2 확률 데이터에 의해 표시되는 제 2 확률 값 (예컨대, "st->lpm") 과 제 4 값 사이의 차이와 연관되는 제 3 값보다 크거나 또는 동일하다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다. 제 2 확률 데이터는 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관될 수도 있다.
조건들의 세트는 오디오 프레임의 다수의 서브-프레임들의 평균 보이싱 값이 제 1 임계치보다 크거나 또는 동일하다 (예컨대, 예 4 에서의 "mean(voicing_fr, 4) >= 0.3") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다. 조건들의 세트는 오디오 프레임과 연관되는 비-정상성 값이 제 2 임계치보다 크다 (예컨대, 예 4 에서의 "non_staX > 5.0") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다. 조건들의 세트는 오디오 프레임과 연관되는 오프셋 값이 제 3 임계치보다 작다 (예컨대, 예 4 에서의 "오프셋 < 74.0") 고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정될 수도 있다.
일부 구현예들에서, 본 방법 (600) 은 예 3 의 조건들의 세트와 같은, 오디오 프레임과 연관되는 조건들의 제 2 세트가 만족되는지 여부를 결정하는 단계를 포함할 수도 있다. 방법 (600) 은 또한 조건들의 제 2 세트가 만족된다고 결정하는 것에 응답하여, 제 2 선택을 다수의 인코더들 중 제 2 인코더 측으로 바이어스하도록 조정 파라미터의 값을 제 1 값으로부터 제 2 값으로 업데이트하는 단계로서, 제 2 인코더가 비-음성 인코더를 포함하는, 상기 업데이트하는 단계를 포함할 수도 있다. 예를 들어, 제 2 선택을 제 2 인코더 측으로 바이어스하도록 조정 파라미터의 값을 업데이트하는 것은 도 4 의 조정 파라미터 발생기 (416) 의 출력의 값을 설정함으로써 수행될 수도 있다 (예컨대, 예 3 에서의 "dsnr = -2.0"). 예시하기 위하여, 조건들의 제 2 세트는 오디오 프레임이 12.8 kHz 의 샘플 레이트와 연관된다고 결정하고 그리고 제 1 결정 데이터가 비-음성 프레임으로서 오디오 프레임의 분류를 표시한다고 결정하는 (예컨대, 예 3 에서의 "(st->sr_core == 12800) && (sp_aud_decision0 == 1)") 것에 응답하여 만족되도록 결정될 수도 있다.
조정 파라미터를 이용하여 선택을 결정함으로써, 오디오 프레임들이 음성 프레임들 또는 음악 프레임들로서 분류될 수도 있으며, 오분류된 음성 프레임들의 개수가 종래의 분류 기법들에 비해 감소될 수도 있다. 분류된 오디오 프레임들에 기초하여, 인코더 (예컨대, 음성 인코더 또는 비-음성 인코더) 가 오디오 프레임을 인코딩하는데 선택될 수도 있다. 선택된 인코더를 이용하여 음성 프레임들을 인코딩함으로써, 오디오 프레임들의 오분류에서, 그리고 오디오 프레임들을 인코딩하는데 잘못된 인코더를 이용하는 것에서 기인하는 아티팩트들 및 불량한 신호 품질이 감소될 수도 있다.
특정의 양태들에서, 도 5 및 도 6 의 방법 중 들 중 하나 이상, 예들 1-5, 또는 이들의 조합은 필드-프로그래밍가능 게이트 어레이 (FPGA) 디바이스, 주문형 집적 회로 (ASIC), 프로세싱 유닛, 예컨대 중앙 처리 유닛 (CPU), 디지털 신호 프로세서 (DSP), 제어기, 다른 하드웨어 디바이스, 펌웨어 디바이스, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 일 예로서, 도 5 및 도 6 의 방법들 중 하나 이상, 예들 1-5, 또는 이들의 조합은, 개별적으로 또는 조합하여, 도 7 및 도 8 에 대해 설명된 바와 같이, 명령들을 실행하는 프로세서에 의해 수행될 수도 있다. 예시하기 위하여, 도 5 의 방법 (500) 의 부분은 도 6 의 제 2 부분 또는 예 1 의 제 3 부분과 결합될 수도 있다.
도 7 을 참조하면, 디바이스 (700) (예컨대, 무선 통신 디바이스) 의 특정의 예시적인 예의 블록도가 도시된다. 여러 구현예들에서, 디바이스 (700) 는 도 7 에 예시된 것보다 더 많거나 또는 더 적은 구성요소들을 가질 수도 있다. 예시적인 예에서, 디바이스 (700) 는 도 1 의 디바이스 (102) 에 대응할 수도 있다. 예시적인 예에서, 디바이스 (700) 는 도 5 및 도 6 의 방법들 중 하나 이상, 예들 1-5 중 하나 이상, 또는 이들의 조합에 따라서 동작할 수도 있다.
특정의 예에서, 디바이스 (700) 는 프로세서 (706) (예컨대, CPU) 를 포함한다. 디바이스 (700) 는 프로세서 (710) (예컨대, DSP) 와 같은, 하나 이상의 추가적인 프로세서들을 포함할 수도 있다. 프로세서 (710) 는 오디오 코더-디코더 (코덱) (708) 를 포함할 수도 있다. 예를 들어, 프로세서 (710) 는 오디오 코덱 (708) 의 동작들을 수행하도록 구성된 하나 이상의 구성요소들 (예컨대, 회로) 을 포함할 수도 있다. 다른 예로서, 프로세서 (710) 는 오디오 코덱 (708) 의 동작들을 수행하는 하나 이상의 컴퓨터-판독가능 명령들을 실행하도록 구성될 수도 있다. 오디오 코덱 (708) 이 프로세서 (710) 의 구성요소로서 예시되지만, 다른 예들에서, 오디오 코덱 (708) 의 하나 이상의 구성요소들이 프로세서 (706), 코덱 (734), 다른 프로세싱 구성요소, 또는 이들의 조합에 포함될 수도 있다.
오디오 코덱 (708) 은 보코더 인코더 (736) 를 포함할 수도 있다. 보코더 인코더 (736) 는 인코더 선택기 (760), 음성 인코더 (762), 및 비-음성 인코더 (764) 를 포함할 수도 있다. 예를 들어, 음성 인코더 (762) 는 도 1 의 제 1 인코더 (132) 에 대응할 수도 있으며, 비-음성 인코더 (764) 는 도 1 의 제 2 인코더 (134) 에 대응할 수도 있으며, 인코더 선택기 (760) 는 도 1 의 선택기 (120) 에 대응할 수도 있다.
디바이스 (700) 는 메모리 (732) 및 코덱 (734) 을 포함할 수도 있다. 컴퓨터-판독가능 저장 디바이스와 같은 메모리 (732) 는 명령들 (756) 을 포함할 수도 있다. 명령들 (756) 은 도 5 및 도 6 의 방법들 중 하나 이상, 예들 1-5, 또는 이들의 조합을 수행하는, 프로세서 (706), 프로세서 (710), 또는 이들의 조합에 의해 실행가능한 하나 이상의 명령들을 포함할 수도 있다. 디바이스 (700) 는 (예컨대, 트랜시버를 통해서) 안테나 (742) 에 커플링된 무선 제어기 (740) 를 포함할 수도 있다.
디바이스 (700) 는 디스플레이 제어기 (726) 에 커플링된 디스플레이 (728) 를 포함할 수도 있다. 스피커 (741), 마이크로폰 (746), 또는 양자는 코덱 (734) 에 커플링될 수도 있다. 코덱 (734) 은 디지털-대-아날로그 변환기 (DAC) (702) 및 아날로그-대-디지털 변환기 (ADC) (704) 를 포함할 수도 있다. 코덱 (734) 은 마이크로폰 (746) 으로부터 아날로그 신호들을 수신하고, ADC (704) 를 이용하여 아날로그 신호들을 디지털 신호들로 변환하고, 그리고 디지털 신호들을 오디오 코덱 (708) 에 제공할 수도 있다. 오디오 코덱 (708) 은 디지털 신호들을 프로세싱할 수도 있다. 일부 구현예들에서, 오디오 코덱 (708) 은 디지털 신호들을 코덱 (734) 에 제공할 수도 있다. 코덱 (734) 은 DAC (702) 를 이용하여 디지털 신호들을 아날로그 신호들로 변환할 수도 있으며 아날로그 신호들을 스피커 (741) 에 제공할 수도 있다.
인코더 선택기 (760) 는 본원에서 설명하는 바와 같이, 조건들의 하나 이상의 세트들에 기초하여 조정 파라미터의 값을 설정 (또는, 업데이트) 함으로써, 인코더의 선택의 바이어싱을 포함한, 인코더 선택의 하드웨어 구현을 구현하는데 사용될 수도 있다. 대안적으로, 또는 추가적으로, 소프트웨어 구현 (또는, 결합된 소프트웨어/하드웨어 구현) 이 구현될 수도 있다. 예를 들어, 명령들 (756) 은 프로세서 (710) 또는 디바이스 (700) 의 다른 프로세싱 유닛 (예컨대, 프로세서 (706), 코덱 (734), 또는 양자) 에 의해 실행가능할 수도 있다. 예시하기 위하여, 명령들 (756) 은 도 1 의 선택기 (120) 에 관하여 수행되는 것으로 설명된 동작들에 대응할 수도 있다.
특정의 구현예에서, 디바이스 (700) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (722) 에 포함될 수도 있다. 특정의 구현예에서, 메모리 (732), 프로세서 (706), 프로세서 (710), 디스플레이 제어기 (726), 코덱 (734), 및 무선 제어기 (740) 는 시스템-인-패키지 또는 시스템-온-칩 디바이스 (722) 에 포함된다. 특정의 구현예에서, 입력 디바이스 (730) 및 전원 (744) 은 시스템-온-칩 디바이스 (722) 에 커플링된다. 더욱이, 특정의 구현예에서, 도 7 에 예시된 바와 같이, 디스플레이 (728), 입력 디바이스 (730), 스피커 (741), 마이크로폰 (746), 안테나 (742), 및 전원 (744) 은 시스템-온-칩 디바이스 (722) 의 외부에 있다. 특정의 구현예에서, 디스플레이 (728), 입력 디바이스 (730), 스피커 (741), 마이크로폰 (746), 안테나 (742), 및 전원 (744) 의 각각은 인터페이스 또는 제어기와 같은, 시스템-온-칩 디바이스 (722) 의 구성요소에 커플링될 수도 있다.
디바이스 (700) 는 통신 디바이스, 인코더, 디코더, 스마트 폰, 셀룰러폰, 모바일 통신 디바이스, 랩탑 컴퓨터, 컴퓨터, 태블릿, 개인 휴대정보 단말기 (PDA), 셋 탑 박스, 비디오 플레이어, 엔터테인먼트 유닛, 디스플레이 디바이스, 텔레비전, 게이밍 콘솔, 뮤직 플레이어, 라디오, 디지털 비디오 플레이어, 디지털 비디오 디스크 (DVD) 플레이어, 튜너, 카메라, 네비게이션 디바이스, 디코더 시스템, 인코더 시스템, 기지국, 운송체, 또는 이들의 조합을 포함할 수도 있다.
예시적인 구현예에서, 프로세서 (710) 는 도 1 내지 도 6 을 참조하여 설명된 방법들 또는 동작들 중 일부 또는 모두, 예들 1-5, 또는 이들의 조합을 수행하도록 동작가능할 수도 있다. 예를 들어, 마이크로폰 (746) 은 사용자 음성 신호에 대응하는 오디오 신호를 캡쳐할 수도 있다. ADC (704) 는 캡쳐된 오디오 신호를 아날로그 파형으로부터 디지털 오디오 샘플들로 이루어지는 디지털 파형으로 변환할 수도 있다. 프로세서 (710) 는 디지털 오디오 샘플들을 프로세싱할 수도 있다.
보코더 인코더 (736) 는 디지털 오디오 샘플들의 각각의 수신된 프레임이 음성 또는 비-음성 오디오 데이터에 대응하는지 여부를 프레임 단위로 결정할 수도 있으며, 프레임을 인코딩할 대응하는 인코더 (예컨대, 음성 인코더 (762) 또는 비-음성 인코더 (764)) 를 선택할 수도 있다. 보코더 인코더 (736) 에서 발생된 인코딩된 오디오 데이터는 변조 및 안테나 (742) 를 통한 변조된 데이터의 송신을 위해 무선 제어기 (740) 에 제공될 수도 있다.
따라서, 디바이스 (700) 는 프로세서 (예컨대, 프로세서 (706) 또는 프로세서 (710)) 에 의해 실행될 때, 프로세서로 하여금, 오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 데이터 (예컨대, 도 1 의 제 1 확률 데이터 (142)) 를 결정하는 것 및 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터 (예컨대, 도 1 의 제 2 확률 데이터 (144)) 를 결정하는 것을 포함하는 동작들을 수행하게 하는 명령들 (예컨대, 명령들 (756)) 을 저장하는 컴퓨터-판독가능 저장 디바이스 (예컨대, 메모리 (732)) 를 포함할 수도 있다. 동작들은 또한 제 1 확률 데이터 및 제 2 확률 데이터에 기초하여 제 1 결정 데이터 (예컨대, 도 1 의 제 1 결정 데이터 (146)) 를 결정하는 것을 포함할 수도 있다. 제 1 결정 데이터는 오디오 프레임의 분류를 음성 프레임 또는 비-음성 프레임으로서 표시한다. 동작들은 또한 제 1 확률 데이터, 제 2 확률 데이터, 및 제 1 결정 데이터에 기초하여 제 2 결정 데이터 (예컨대, 도 1 의 제 2 결정 데이터 (148)) 를 결정하는 것을 포함할 수도 있다. 제 2 결정 데이터는 오디오 프레임을 인코딩할 인코더 (예컨대, 음성 인코더 (762) 또는 비-음성 인코더 (764)) 의 선택을 표시한다.
도 8 을 참조하면, 기지국 (800) 의 특정의 예시적인 예의 블록도가 도시된다. 여러 구현예들에서, 기지국 (800) 은 도 8 에 예시된 것보다 더 많은 구성요소들 또는 더 적은 구성요소들을 가질 수도 있다. 예시적인 예에서, 기지국 (800) 은 도 1 의 디바이스 (102) 를 포함할 수도 있다. 예시적인 예에서, 기지국 (800) 은 도 5 및 도 6 의 방법들 중 하나 이상, 예들 1-5 중 하나 이상, 또는 이들의 조합에 따라서 동작할 수도 있다.
기지국 (800) 은 무선 통신 시스템의 부분일 수도 있다. 무선 통신 시스템은 다수의 기지국들 및 다수의 무선 디바이스들을 포함할 수도 있다. 무선 통신 시스템은 롱텀 에볼류션 (LTE) 시스템, 코드분할 다중접속 (CDMA) 시스템, GSM (Global System for Mobile Communications) 시스템, 무선 로컬 영역 네트워크 (WLAN) 시스템, 또는 어떤 다른 무선 시스템일 수도 있다. CDMA 시스템은 광대역 CDMA (WCDMA), CDMA 1X, 발전-데이터 최적화된 (EVDO), 시분할 동기 CDMA (TD-SCDMA), 또는 CDMA 의 어떤 다른 버전을 구현할 수도 있다.
무선 디바이스들은 또한 사용자 장비 (UE), 이동국, 터미널, 액세스 단말기, 가입자 유닛, 스테이션, 등으로서 지칭될 수도 있다. 무선 디바이스들은 셀룰러폰, 스마트폰, 태블릿, 무선 모뎀, 개인 휴대정보 단말기 (PDA), 핸드헬드 디바이스, 랩탑 컴퓨터, 스마트북, 넷북, 태블릿, 코드리스 폰, 무선 가입자 회선 (WLL) 국, Bluetooth 디바이스, 등을 포함할 수도 있다. 무선 디바이스들은 도 7 의 디바이스 (700) 를 포함하거나 또는 그에 대응할 수도 있다.
메시지들 및 데이터 (예컨대, 오디오 데이터) 를 전송하고 수신하는 것과 같은, 여러 기능들이 기지국 (800) 의 하나 이상의 구성요소들에 의해 (및/또는 미도시된 다른 구성요소들에서) 수행될 수도 있다. 특정의 예에서, 기지국 (800) 은 프로세서 (806) (예컨대, CPU) 를 포함한다. 기지국 (800) 은 트랜스코더 (810) 를 포함할 수도 있다. 트랜스코더 (810) 는 오디오 코덱 (808) 을 포함할 수도 있다. 예를 들어, 트랜스코더 (810) 는 오디오 코덱 (808) 의 동작들을 수행하도록 구성된 하나 이상의 구성요소들 (예컨대, 회로) 을 포함할 수도 있다. 다른 예로서, 트랜스코더 (810) 는 오디오 코덱 (808) 의 동작들을 수행하는 하나 이상의 컴퓨터-판독가능 명령들을 실행하도록 구성될 수도 있다. 오디오 코덱 (808) 이 트랜스코더 (810) 의 구성요소로서 예시되지만, 다른 예들에서, 오디오 코덱 (808) 의 하나 이상의 구성요소들이 프로세서 (806), 다른 프로세싱 구성요소, 또는 이들의 조합에 포함될 수도 있다. 예를 들어, 보코더 디코더 (838) 가 수신기 데이터 프로세서 (864) 에 포함될 수도 있다. 다른 예로서, 보코더 인코더 (836) 가 송신 데이터 프로세서 (866) 에 포함될 수도 있다.
트랜스코더 (810) 는 2개 이상의 네트워크들 사이에서 메시지들 및 데이터를 트랜스코딩하도록 기능할 수도 있다. 트랜스코더 (810) 는 메시지 및 오디오 데이터를 제 1 포맷 (예컨대, 디지털 포맷) 으로부터 제 2 포맷으로 변환하도록 구성될 수도 있다. 예시하기 위하여, 보코더 디코더 (838) 는 제 1 포맷을 가지는 인코딩된 신호들을 디코딩할 수도 있으며, 보코더 인코더 (836) 는 디코딩된 신호들을 제 2 포맷을 가지는 인코딩된 신호들로 인코딩할 수도 있다. 추가적으로 또는 대안적으로, 트랜스코더 (810) 는 데이터 레이트 적응을 수행하도록 구성될 수도 있다. 예를 들어, 트랜스코더 (810) 는 오디오 데이터의 포맷을 변경함이 없이, 데이터 레이트를 상향변환하거나 또는 데이터 레이트를 하향변환할 수도 있다. 예시하기 위하여, 트랜스코더 (810) 는 64 kbit/s 신호들을 16 kbit/s 신호들로 하향변환할 수도 있다.
오디오 코덱 (808) 은 보코더 인코더 (836) 및 보코더 디코더 (838) 를 포함할 수도 있다. 보코더 인코더 (836) 는 도 7 을 참조하여 설명된 바와 같은, 인코더 선택기, 음성 인코더, 및 비-음성 인코더를 포함할 수도 있다. 보코더 디코더 (838) 는 디코더 선택기, 음성 디코더, 및 비-음성 디코더를 포함할 수도 있다.
기지국 (800) 은 메모리 (832) 를 포함할 수도 있다. 컴퓨터-판독가능 저장 디바이스와 같은, 메모리 (832) 는 명령들을 포함할 수도 있다. 명령들은 도 5 및 도 6 의 방법들 중 하나 이상, 예들 1-5, 또는 이들의 조합을 수행하는, 프로세서 (806), 트랜스코더 (810), 또는 이들의 조합에 의해 실행가능한 하나 이상의 명령들을 포함할 수도 있다. 기지국 (800) 은 안테나들의 어레이에 커플링된, 제 1 트랜시버 (852) 및 제 2 트랜시버 (854) 와 같은, 다수의 송신기들 및 수신기들 (예컨대, 트랜시버들) 을 포함할 수도 있다. 안테나들의 어레이는 제 1 안테나 (842) 및 제 2 안테나 (844) 를 포함할 수도 있다. 안테나들의 어레이는 도 7 의 디바이스 (700) 와 같은 하나 이상의 무선 디바이스들과 무선으로 통신하도록 구성될 수도 있다. 예를 들어, 제 2 안테나 (844) 는 무선 디바이스로부터 데이터 스트림 (814) (예컨대, 비트 스트림) 을 수신할 수도 있다. 데이터 스트림 (814) 은 메시지들, 데이터 (예컨대, 인코딩된 음성 데이터), 또는 이들의 조합을 포함할 수도 있다.
기지국 (800) 은 백홀 접속부와 같은, 네트워크 접속부 (860) 를 포함할 수도 있다. 네트워크 접속부 (860) 는 무선 통신 네트워크의 하나 이상의 기지국들 또는 코어 네트워크와 통신하도록 구성될 수도 있다. 예를 들어, 기지국 (800) 은 코어 네트워크로부터 네트워크 접속부 (860) 를 통해서 제 2 데이터 스트림 (예컨대, 메시지들 또는 오디오 데이터) 을 수신할 수도 있다. 기지국 (800) 은 제 2 데이터 스트림을 프로세싱하여 메시지들 또는 오디오 데이터를 발생시키고, 메시지들 또는 오디오 데이터를 안테나들의 어레이의 하나 이상의 안테나들을 통해서 하나 이상의 무선 디바이스에 또는 네트워크 접속부 (860) 를 통해서 다른 기지국에 제공할 수도 있다. 특정의 구현예에서, 네트워크 접속부 (860) 는 예시적인, 비한정적인 예로서 광역 네트워크 (WAN) 접속부일 수도 있다.
기지국 (800) 은 트랜시버들 (852, 854), 수신기 데이터 프로세서 (864), 및 프로세서 (806) 에 커플링된 복조기 (862) 를 포함할 수도 있으며, 수신기 데이터 프로세서 (864) 는 프로세서 (806) 에 커플링될 수도 있다. 복조기 (862) 는 트랜시버들 (852, 854) 로부터 수신된 변조된 신호들을 복조하여, 복조된 데이터를 수신기 데이터 프로세서 (864) 에 제공하도록 구성될 수도 있다. 수신기 데이터 프로세서 (864) 는 복조된 데이터로부터 메시지 또는 오디오 데이터를 추출하여 메시지 또는 오디오 데이터를 프로세서 (806) 로 전송하도록 구성될 수도 있다.
기지국 (800) 은 송신 데이터 프로세서 (866) 및 송신 다중 입력-다중 출력 (MIMO) 프로세서 (868) 를 포함할 수도 있다. 송신 데이터 프로세서 (866) 는 프로세서 (806) 및 송신 MIMO 프로세서 (868) 에 커플링될 수도 있다. 송신 MIMO 프로세서 (868) 는 트랜시버들 (852, 854) 및 프로세서 (806) 에 커플링될 수도 있다. 송신 데이터 프로세서 (866) 는 프로세서 (806) 로부터 메시지들 또는 오디오 데이터를 수신하여, 예시적인, 비한정적인 예들로서, CDMA 또는 직교 주파수-분할 멀티플렉싱 (OFDM) 과 같은 코딩 방식에 기초하여 메시지들 또는 오디오 데이터를 코딩하도록 구성될 수도 있다. 송신 데이터 프로세서 (866) 는 코딩된 데이터를 송신 MIMO 프로세서 (868) 에 제공할 수도 있다.
코딩된 데이터는 멀티플렉싱된 데이터를 발생시키기 위해 CDMA 또는 OFDM 기법들을 이용하여 파일럿 데이터와 같은 다른 데이터와 멀티플렉싱될 수도 있다. 멀티플렉싱된 데이터는 그후 변조 심볼들을 발생시키기 위해 특정의 변조 방식 (예컨대, 2진 위상-시프트 키잉 ("BPSK"), 직교 위상-시프트 키잉 ("QSPK"), M-ary 위상-시프트 키잉 ("M-PSK"), M-ary 직교 진폭 변조 ("M-QAM"), 등) 에 기초하여 송신 데이터 프로세서 (866) 에 의해 변조될 (즉, 심볼 맵핑될) 수도 있다. 특정의 구현예에서, 코딩된 데이터 및 다른 데이터는 상이한 변조 방식들을 이용하여 변조될 수도 있다. 각각의 데이터 스트림에 대한 데이터 레이트, 코딩, 및 변조는 프로세서 (806) 에 의해 실행되는 명령들에 의해 결정될 수도 있다.
송신 MIMO 프로세서 (868) 는 송신 데이터 프로세서 (866) 로부터 변조 심볼들을 수신하도록 구성될 수도 있으며, 변조 심볼들을 추가로 프로세싱할 수도 있으며 데이터에 대해 빔형성을 수행할 수도 있다. 예를 들어, 송신 MIMO 프로세서 (868) 는 빔형성 가중치들을 변조 심볼들에 적용할 수도 있다. 빔형성 가중치들은 변조 심볼들이 송신되는 안테나들의 어레이의 하나 이상의 안테나들에 대응할 수도 있다.
동작 동안, 기지국 (800) 의 제 2 안테나 (844) 는 데이터 스트림 (814) 을 수신할 수도 있다. 제 2 트랜시버 (854) 는 제 2 안테나 (844) 로부터 데이터 스트림 (814) 을 수신할 수도 있으며 데이터 스트림 (814) 을 복조기 (862) 에 제공할 수도 있다. 복조기 (862) 는 데이터 스트림 (814) 의 변조된 신호들을 복조하여 복조된 데이터를 수신기 데이터 프로세서 (864) 에 제공할 수도 있다. 수신기 데이터 프로세서 (864) 는 복조된 데이터로부터 오디오 데이터를 추출하여, 추출된 오디오 데이터를 프로세서 (806) 에 제공할 수도 있다.
프로세서 (806) 는 트랜스코딩을 위해 오디오 데이터를 트랜스코더 (810) 에 제공할 수도 있다. 트랜스코더 (810) 의 보코더 디코더 (838) 는 오디오 데이터를 제 1 포맷으로부터 디코딩된 오디오 데이터로 디코딩할 수도 있으며 보코더 인코더 (836) 는 디코딩된 오디오 데이터를 제 2 포맷으로 인코딩할 수도 있다. 일부 구현예들에서, 보코더 인코더 (836) 는 무선 디바이스로부터 수신된 것보다 더 높은 데이터 레이트 (예컨대, 상향변환) 또는 더 낮은 데이터 레이트 (예컨대, 하향변환) 를 이용하여 오디오 데이터를 인코딩할 수도 있다. 다른 구현예들에서, 오디오 데이터는 트랜스코딩되지 않을 수도 있다. 트랜스코딩 (예컨대, 디코딩 및 인코딩) 이 트랜스코더 (810) 에 의해 수행되는 것으로 예시되지만, 트랜스코딩 동작들 (예컨대, 디코딩 및 인코딩) 은 기지국 (800) 의 다수의 구성요소들에 의해 수행될 수도 있다. 예를 들어, 디코딩은 수신기 데이터 프로세서 (864) 에 의해 수행될 수도 있으며, 인코딩은 송신 데이터 프로세서 (866) 에 의해 수행될 수도 있다.
보코더 디코더 (838) 및 보코더 인코더 (836) 는 데이터 스트림 (814) 의 각각의 수신된 프레임이 음성 또는 비-음성 오디오 데이터에 대응하는지 여부를 프레임 단위로 결정할 수도 있으며, 프레임을 트랜스코딩할 (예컨대, 디코딩하고 인코딩할) 대응하는 디코더 (예컨대, 음성 디코더 또는 비-음성 디코더) 및 대응하는 인코더를 선택할 수도 있다. 트랜스코딩된 데이터와 같은, 보코더 인코더 (836) 에서 발생된 인코딩된 오디오 데이터는 프로세서 (806) 를 경유하여 송신 데이터 프로세서 (866) 또는 네트워크 접속부 (860) 에 제공될 수도 있다.
트랜스코더 (810) 로부터의 트랜스코딩된 오디오 데이터는 OFDM 과 같은, 변조 방식에 따라서 코딩하여 변조 심볼들을 발생시키기 위해 송신 데이터 프로세서 (866) 에 제공될 수도 있다. 송신 데이터 프로세서 (866) 는 추가적인 프로세싱 및 빔형성을 위해 변조 심볼들을 송신 MIMO 프로세서 (868) 에 제공할 수도 있다. 송신 MIMO 프로세서 (868) 는 빔형성 가중치들을 적용할 수도 있으며, 변조 심볼들을 제 1 트랜시버 (852) 를 통해서 제 1 안테나 (842) 와 같은, 안테나들의 어레이의 하나 이상의 안테나들에 제공할 수도 있다. 따라서, 기지국 (800) 은 무선 디바이스로부터 수신된 데이터 스트림 (814) 에 대응할 수도 있는 트랜스코딩된 데이터 스트림 (816) 을 다른 무선 디바이스에 제공할 수도 있다. 트랜스코딩된 데이터 스트림 (816) 은 데이터 스트림 (814) 과는 상이한 인코딩 포맷, 데이터 레이트, 또는 양쪽을 가질 수도 있다. 다른 구현예들에서, 트랜스코딩된 데이터 스트림 (816) 은 다른 기지국 또는 코어 네트워크로의 송신을 위해 네트워크 접속부 (860) 에 제공될 수도 있다.
따라서, 기지국 (800) 은 프로세서 (예컨대, 프로세서 (806) 또는 트랜스코더 (810)) 에 의해 실행될 때, 프로세서로 하여금, 오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 데이터를 결정하는 것 및 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터를 결정하는 것을 포함하는 동작들을 수행하게 하는 명령들을 저장하는 컴퓨터-판독가능 저장 디바이스 (예컨대, 메모리 (832)) 를 포함할 수도 있다. 동작들은 또한 제 1 확률 데이터 및 제 2 확률 데이터에 기초하여 제 1 결정 데이터를 결정하는 것을 포함할 수도 있다. 제 1 결정 데이터는 오디오 프레임의 분류를 음성 프레임 또는 비-음성 프레임으로서 표시한다. 동작들은 또한 제 1 확률 데이터, 제 2 확률 데이터, 및 제 1 결정 데이터에 기초하여 제 2 결정 데이터를 결정하는 것을 포함할 수도 있다. 제 2 결정 데이터는 오디오 프레임을 인코딩할 인코더의 선택 또는 오디오 프레임을 디코딩할 디코더의 선택을 표시할 수도 있다.
설명되는 양태들과 관련하여, 장치는 오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 데이터를 결정하는 수단을 포함할 수도 있다. 예를 들어, 제 1 확률 데이터를 결정하는 수단은 도 1 내지 도 3 의 제 1 분류기 (122), 도 3 의 음성 모델 (370), 도 7 의 인코더 선택기 (760), 도 7 의 명령들 (756) 을 실행하는 프로세서 (706) 또는 프로세서 (710), 도 8 의 프로세서 (806) 또는 트랜스코더 (810), 오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 데이터를 결정하도록 구성된 하나 이상의 다른 디바이스들, 또는 이들의 임의의 조합을 포함할 수도 있다.
본 장치는 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터를 결정하는 수단을 포함할 수도 있다. 예를 들어, 제 2 확률 데이터를 결정하는 수단은 도 1 내지 도 3 의 제 1 분류기 (122), 도 3 의 음악 모델 (372), 도 7 의 인코더 선택기 (760), 도 7 의 명령들 (756) 을 실행하는 프로세서 (706) 또는 프로세서 (710), 도 8 의 프로세서 (806) 또는 트랜스코더 (810), 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터를 결정하도록 구성된 하나 이상의 다른 디바이스들, 또는 이들의 임의의 조합을 포함할 수도 있다.
본 장치는 제 1 확률 데이터 및 제 2 확률 데이터에 기초하여 제 1 결정 데이터를 결정하는 수단으로서, 제 1 결정 데이터가 오디오 프레임의 분류의 제 1 표시를 음성 프레임 또는 비-음성 프레임으로서 포함하는, 상기 결정하는 수단을 포함할 수도 있다. 예를 들어, 제 1 결정 데이터를 결정하는 수단은 도 1 내지 도 3 의 제 1 분류기 (122), 도 3 의 상태 머신 (374), 도 7 의 인코더 선택기 (760), 도 7 의 명령들 (756) 을 실행하는 프로세서 (706) 또는 프로세서 (710), 도 8 의 프로세서 (806) 또는 트랜스코더 (810), 제 1 확률 데이터 및 제 2 확률 데이터에 기초하여 제 1 결정 데이터를 결정하도록 구성된 하나 이상의 다른 디바이스들, 또는 이들의 임의의 조합을 포함할 수도 있다.
본 장치는 제 1 확률 데이터, 제 2 확률 데이터, 및 제 1 결정 데이터에 기초하여 제 2 결정 데이터를 결정하는 수단으로서, 제 2 결정 데이터가 오디오 프레임을 인코딩할 인코더의 선택의 제 2 표시를 포함하는, 상기 결정하는 수단을 포함할 수도 있다. 예를 들어, 제 2 결정 데이터를 결정하는 수단은 도 1 내지 도 2 및 4 의 제 2 분류기 (124), 장기 결정 바이어싱 유닛 (414), 조정 파라미터 발생기 (416), 분류 결정 발생기 (418), 인코더 선택기 (760), 도 7 의 명령들 (756) 을 실행하는 프로세서 (706) 또는 프로세서 (710), 도 8 의 프로세서 (806) 또는 트랜스코더 (810), 제 1 확률 데이터, 제 2 확률 데이터, 및 제 1 결정 데이터에 기초하여 제 2 결정 데이터를 결정하도록 구성된 하나 이상의 다른 디바이스들, 또는 이들의 임의의 조합을 포함할 수도 있다. 특정의 구현예에서, 제 1 확률 데이터를 결정하는 수단, 제 2 확률 데이터를 결정하는 수단, 및 제 1 결정 데이터를 결정하는 수단은 도 1 을 참조하여 설명된 바와 같이, GMM 회로에 포함된다.
제 1 확률 데이터를 결정하는 수단, 제 2 확률 데이터를 결정하는 수단, 제 1 결정 데이터를 결정하는 수단, 및 제 2 결정 데이터를 결정하는 수단은 인코더, 셋 탑 박스, 뮤직 플레이어, 비디오 플레이어, 엔터테인먼트 유닛, 네비게이션 디바이스, 통신 디바이스, PDA, 컴퓨터, 또는 이들의 조합에 통합된다.
본원에서 설명되는 설명의 양태들에서, 도 1 의 시스템 (100), 도 2 의 예 (200), 도 3 의 예 (300), 도 3 의 예 (400), 도 7 의 디바이스 (700), 도 8 의 기지국 (800), 또는 이들의 조합에 의해 수행되는 여러 기능들이 어떤 회로 또는 구성요소들에 의해 수행되는 것으로 설명된다. 그러나, 이 회로 또는 구성요소들의 분할은 단지 예시를 위한 것이다. 대안적인 예에서, 특정의 회로 또는 구성요소들에 의해 수행되는 기능은 대신에, 다수의 구성요소들 또는 모듈들 간에 분할될 수도 있다. 더욱이, 대안적인 예에서, 도 1 내지 도 4, 7, 및 8 의 2개 이상의 회로들 또는 구성요소들은 단일 회로 또는 구성요소로 통합될 수도 있다. 도 1 내지 도 4, 7, 및 8 에 예시된 각각의 회로 또는 구성요소는 하드웨어 (예컨대, ASIC, DSP, 제어기, FPGA 디바이스, 등), 소프트웨어 (예컨대, 로직, 모듈들, 프로세서에 의해 실행가능한 명령들, 등), 또는 이들의 임의의 조합을 이용하여 구현될 수도 있다.
당업자들은 본원에서 개시된 예들과 관련하여 설명되는 여러가지 예시적인 로직 블록들, 구성들, 모듈들, 회로들 및 알고리즘 단계들이 전자적 하드웨어, 프로세서에 의해 실행되는 컴퓨터 소프트웨어, 또는 양쪽의 조합들로서 구현될 수도 있음을 또한 알 수 있을 것이다. 여러가지 예시적인 구성요소들, 블록들, 구성들, 모듈들, 회로들, 및 단계들 일반적으로 그들의 기능의 관점에서 위에서 설명되었다. 이런 기능이 하드웨어 또는 프로세서 실행가능한 명령들로 구현되는지 여부는 특정의 애플리케이션 및 전체 시스템에 부과되는 설계 제한 사항들에 의존한다. 숙련자들은 각각의 특정의 애플리케이션 마다 설명한 기능을 여러가지 방법으로 구현할 수도 있으며, 이런 구현 결정들은 본 개시물의 범위로부터의 일탈을 초래하는 것으로 해석되어서는 안된다.
본원에서 개시된 예들과 관련하여 설명되는 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이 둘의 조합으로 직접 포함될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 프로그래밍가능 판독 전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 컴팩트 디스크 판독 전용 메모리 (CD-ROM), 또는 당업계에 알려져 있는 임의의 다른 유형의 비-일시성 저장 매체에 상주할 수도 있다. 예시적인 저장매체는 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기록할 수도 있도록 프로세서에 커플링된다. 대안적으로는, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC 에 상주할 수도 있다. ASIC 는 컴퓨팅 디바이스 및 사용자 터미널에 상주할 수도 있다. 대안적으로는, 프로세서 및 저장 매체는 컴퓨팅 디바이스 및 사용자 터미널에 별개의 구성요소들로서 상주할 수도 있다.
개시된 예들의 상기 설명은 당업자가 개시된 구현예들을 제조하고 이용가능하도록 제공된다. 이들 예들에 대한 여러 변경들은 당업자들에게 쉽게 알 수 있을 것이며, 본원에서 정의하는 원리들은 본 개시물의 정신 또는 범위로부터 일탈함이 없이, 다른 구현예들에 적용될 수도 있다. 따라서, 본 개시물은 본원에서 나타낸 예들에 한정시키려는 것이 아니며, 가능한 한, 다음 청구항들에 의해 정의되는 바와 같은 원리들 및 신규한 특징들에 부합하는 최광의의 범위를 부여받게 하려는 것이다.

Claims (47)

  1. 오디오 신호를 인코딩하기 위한 디바이스로서,
    오디오 프레임의 분류를 음성 프레임 또는 비-음성 프레임으로서 표시하는 제 1 결정 데이터를 출력하도록 구성된 제 1 분류기로서, 상기 제 1 결정 데이터는 상기 오디오 프레임이 상기 음성 프레임일 제 1 우도 (likelihood) 와 연관되는 제 1 확률 데이터에 기초하여 그리고 상기 오디오 프레임이 상기 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터에 기초하여 결정되는, 상기 제 1 분류기;
    상기 제 1 분류기로부터 상기 제 1 결정 데이터, 상기 제 1 확률 데이터, 및 상기 제 2 확률 데이터를 수신하도록 결합된 제 2 분류기로서, 상기 제 2 분류기는 상기 제 1 확률 데이터, 상기 제 2 확률 데이터, 및 상기 제 1 결정 데이터에 기초하여 제 2 결정 데이터를 출력하도록 구성되고, 상기 제 2 결정 데이터는 상기 오디오 프레임을 인코딩하는데 이용가능한 다수의 인코더들 중 특정의 인코더의 선택의 표시를 포함하는, 상기 제 2 분류기; 및
    상기 특정의 인코더의 선택을 표시하는 상기 제 2 결정 데이터에 응답하여 상기 오디오 프레임을 인코딩하도록 구성된 상기 특정의 인코더를 포함하는, 오디오 신호를 인코딩하기 위한 디바이스.
  2. 제 1 항에 있어서,
    상기 다수의 인코더들은 제 1 인코더 및 제 2 인코더를 포함하며, 상기 제 2 결정 데이터에 기초하여 상기 제 1 인코더 또는 상기 제 2 인코더를 선택하도록 구성된 스위치를 더 포함하는, 오디오 신호를 인코딩하기 위한 디바이스.
  3. 제 2 항에 있어서,
    상기 제 1 인코더는 음성 인코더를 포함하며, 상기 제 2 인코더는 비-음성 인코더를 포함하는, 오디오 신호를 인코딩하기 위한 디바이스.
  4. 제 3 항에 있어서,
    상기 제 2 인코더는 음악 인코더를 포함하는, 오디오 신호를 인코딩하기 위한 디바이스.
  5. 제 3 항에 있어서,
    상기 제 1 인코더는 대수 코드-여기 선형 예측 (algebraic code-excited linear prediction, ACELP) 인코더를 포함하며, 상기 제 2 인코더는 변환 코딩 여기 (transform coded excitation, TCX) 인코더를 포함하는, 오디오 신호를 인코딩하기 위한 디바이스.
  6. 제 1 항에 있어서,
    상기 제 1 분류기는 가우시안 혼합 모델 모듈을 포함하며, 상기 제 2 분류기는 개방-루프 분류기를 포함하는, 오디오 신호를 인코딩하기 위한 디바이스.
  7. 제 1 항에 있어서,
    상기 제 1 분류기는 상태 머신을 포함하며, 상기 상태 머신은 상기 제 1 확률 데이터 및 상기 제 2 확률 데이터를 수신하여 상기 제 1 확률 데이터 및 상기 제 2 확률 데이터에 기초하여 상기 제 1 결정 데이터를 발생시키도록 구성되는, 오디오 신호를 인코딩하기 위한 디바이스.
  8. 제 1 항에 있어서,
    상기 제 2 분류기는 상기 제 1 확률 데이터, 상기 제 2 확률 데이터, 및 상기 제 1 결정 데이터에 기초하여 조정 파라미터를 발생시키도록 구성된 조정 파라미터 발생기를 포함하며, 상기 제 2 분류기는 상기 조정 파라미터의 값에 추가로 기초하여 상기 제 2 결정 데이터를 출력하도록 구성되는, 오디오 신호를 인코딩하기 위한 디바이스.
  9. 제 1 항에 있어서,
    다수의 인코딩 모드들에서 동작하도록 구성된 스위칭 인코더를 더 포함하며,
    상기 다수의 인코더들은 상기 스위칭 인코더의 상기 다수의 인코딩 모드들에 대응하고, 그리고
    상기 특정의 인코더는 상기 스위칭 인코더의 특정의 인코딩 모드에 대응하는, 오디오 신호를 인코딩하기 위한 디바이스.
  10. 제 1 항에 있어서,
    상기 다수의 인코더들을 더 포함하며,
    상기 제 1 분류기, 상기 제 2 분류기, 및 상기 다수의 인코더들은 모바일 통신 디바이스 또는 기지국에 통합되는, 오디오 신호를 인코딩하기 위한 디바이스.
  11. 제 1 항에 있어서,
    상기 오디오 프레임을 포함하는 오디오 신호를 수신하도록 구성된 수신기;
    상기 수신기에 커플링되어, 상기 오디오 신호를 복조하도록 구성된 복조기;
    상기 복조기에 커플링된 프로세서; 및
    다수의 디코더들을 더 포함하는, 오디오 신호를 인코딩하기 위한 디바이스.
  12. 제 11 항에 있어서,
    상기 수신기, 상기 복조기, 상기 프로세서, 및 상기 다수의 디코더들은 모바일 통신 디바이스에 통합되는, 오디오 신호를 인코딩하기 위한 디바이스.
  13. 제 11 항에 있어서,
    상기 수신기, 상기 복조기, 상기 프로세서, 및 상기 다수의 디코더들은 기지국에 통합되는, 오디오 신호를 인코딩하기 위한 디바이스.
  14. 제 1 항에 있어서,
    상기 제 1 분류기는 단기 특징 데이터 및 장기 상태 데이터에 추가로 기초하여 상기 제 1 결정 데이터를 출력하도록 구성되고, 그리고 상기 제 2 분류기는 상기 단기 특징 데이터 및 상기 장기 상태 데이터에 추가로 기초하여 상기 제 2 결정 데이터를 출력하도록 구성되는, 오디오 신호를 인코딩하기 위한 디바이스.
  15. 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법으로서,
    제 2 분류기에서, 제 1 분류기로부터, 제 1 확률 데이터 및 제 2 확률 데이터를 수신하는 단계로서, 제 1 확률 데이터는 오디오 프레임이 음성 프레임일 제 1 우도와 연관되며 상기 제 2 확률 데이터는 상기 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는, 상기 제 1 확률 데이터 및 제 2 확률 데이터를 수신하는 단계;
    상기 제 2 분류기에서 상기 제 1 분류기로부터 제 1 결정 데이터를 수신하는 단계로서, 상기 제 1 결정 데이터는 상기 오디오 프레임의 분류를 상기 음성 프레임 또는 상기 비-음성 프레임으로서 표시하는, 상기 제 1 결정 데이터를 수신하는 단계;
    상기 제 2 분류기에서, 상기 제 1 확률 데이터, 상기 제 2 확률 데이터, 및 상기 제 1 결정 데이터에 기초하여, 제 2 결정 데이터를 결정하는 단계로서, 상기 제 2 결정 데이터는 상기 오디오 프레임을 인코딩할 다수의 인코더들 중 특정의 인코더의 선택을 표시하는, 상기 제 2 결정 데이터를 결정하는 단계; 및
    상기 제 2 분류기의 출력으로부터 스위치로 상기 제 2 결정 데이터를 제공하는 단계를 포함하고,
    상기 스위치는 상기 제 2 결정 데이터에 기초하여 상기 다수의 인코더들의 특정의 인코더를 선택하고, 그리고 상기 오디오 프레임은 상기 특정의 인코더를 사용하여 인코딩되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  16. 제 15 항에 있어서,
    상기 제 1 결정 데이터는 상기 제 1 분류기의 상태 머신으로부터 상기 제 2 분류기에서 수신되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  17. 제 15 항에 있어서,
    상기 다수의 인코더들은 제 1 인코더 및 제 2 인코더를 포함하며, 상기 제 1 인코더는 음성 인코더를 포함하며, 상기 제 2 인코더는 비-음성 인코더를 포함하는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  18. 제 15 항에 있어서,
    상기 다수의 인코더들 중 제 1 인코더와 연관되는 제 1 추정된 코딩 이득 값을 결정하는 단계; 및
    상기 다수의 인코더들 중 제 2 인코더와 연관되는 제 2 추정된 코딩 이득 값을 결정하는 단계를 더 포함하는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  19. 제 18 항에 있어서,
    조정 파라미터의 값을 선택하는 단계를 더 포함하며,
    상기 조정 파라미터의 값은 상기 제 1 확률 데이터, 상기 제 2 확률 데이터, 장기 상태 데이터, 또는 상기 제 1 결정 데이터 중 적어도 하나에 기초하여 선택되며, 상기 제 2 결정 데이터는 상기 조정 파라미터의 값에 추가로 기초하여 결정되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  20. 제 19 항에 있어서,
    상기 조정 파라미터의 값에 기초하여 상기 제 1 추정된 코딩 이득 값을 조정하는 단계를 더 포함하며,
    상기 특정의 인코더의 선택은 상기 조정된 제 1 추정된 코딩 이득 값 및 상기 제 2 추정된 코딩 이득 값에 기초하는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  21. 제 20 항에 있어서,
    상기 조정 파라미터의 값은 상기 선택을 음성과 연관되는 상기 제 1 인코더 또는 비-음성과 연관되는 상기 제 2 인코더 측으로 바이어스하도록 선택되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  22. 제 15 항에 있어서,
    오디오 프레임과 연관되는 조건들의 세트가 만족되는지 여부를 결정하는 단계; 및
    상기 조건들의 세트가 만족되는 것에 응답하여, 상기 선택을 음성과 연관되는 제 1 인코더 측으로 바이어스하도록 조정 파라미터의 값을 선택하는 단계를 더 포함하는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  23. 제 22 항에 있어서,
    상기 오디오 프레임이 12,800 Hertz 의 샘플 레이트와 연관되는지 여부를 결정하는 단계를 더 포함하며,
    상기 조건들의 세트는 상기 오디오 프레임이 12,800 Hertz 의 상기 샘플 레이트와 연관된다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  24. 제 22 항에 있어서,
    상기 조건들의 세트는 상기 오디오 프레임이 상기 음성 프레임으로서 분류된다고 상기 제 1 결정 데이터가 표시한다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  25. 제 22 항에 있어서,
    상기 오디오 프레임을 인코딩하는데 사용될 상기 제 1 인코더와 연관된 제 1 추정된 코딩 이득 값이 제 1 값보다 크거나 또는 동일한지 여부를 결정하는 단계를 더 포함하며,
    상기 제 1 값은 제 2 추정된 코딩 이득 값과 제 2 값 사이의 차이와 연관되며, 상기 조건들의 세트는 상기 제 1 추정된 코딩 이득 값이 상기 제 1 값보다 크거나 또는 동일하다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  26. 제 22 항에 있어서,
    가장 최근에 분류된 프레임이 음성 콘텐츠를 포함하는 것으로 분류되는지 여부를 결정하는 단계; 및
    상기 제 1 확률 데이터에 의해 표시되는 제 1 확률 값이 상기 제 2 확률 데이터에 의해 표시되는 제 2 확률 값보다 큰지 여부를 결정하는 단계를 더 포함하며,
    상기 조건들의 세트는 상기 가장 최근에 분류된 프레임이 상기 음성 콘텐츠를 포함하는 것으로 분류된다고 결정하는 것에 적어도 부분적으로 응답하여, 그리고, 상기 제 1 확률 값이 상기 제 2 확률 값보다 크다고 결정하는 것에 응답하여 만족되도록 결정되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  27. 제 22 항에 있어서,
    가장 최근에 분류된 프레임들의 개수에 대응하는 각각의 프레임이 음성 콘텐츠를 포함하는 것으로 분류되는지 여부를 결정하는 단계; 및
    상기 제 1 확률 데이터에 의해 표시되는 제 1 확률 값이 제 3 값보다 크거나 또는 동일한지 여부를 결정하는 단계로서, 상기 제 3 값은 상기 제 2 확률 데이터에 의해 표시되는 제 2 확률 값과 제 4 값 사이의 차이와 연관되는, 상기 결정하는 단계를 더 포함하며,
    상기 조건들의 세트는 상기 가장 최근에 분류된 프레임들의 개수에 대응하는 각각의 프레임이 상기 음성 콘텐츠를 포함하는 것으로 분류된다고 결정하는 것에 적어도 부분적으로 응답하여, 그리고, 상기 제 1 확률 값이 상기 제 3 값보다 크거나 또는 동일하다고 결정하는 것에 응답하여 만족되도록 결정되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  28. 제 22 항에 있어서,
    상기 오디오 프레임의 다수의 서브-프레임들의 평균 보이싱 값이 제 1 임계치보다 크거나 또는 동일한지 여부를 결정하는 단계;
    상기 오디오 프레임과 연관되는 비-정상성 값이 제 2 임계치보다 큰지 여부를 결정하는 단계; 및
    상기 오디오 프레임과 연관되는 오프셋 값이 제 3 임계치 미만인지 여부를 결정하는 단계를 더 포함하며,
    상기 조건들의 세트는 상기 평균 보이싱 값이 상기 제 1 임계치보다 크거나 또는 동일하다고 결정하고, 상기 비-정상성 값이 상기 제 2 임계치보다 크다고 결정하고, 그리고 상기 오프셋 값이 상기 제 3 임계치 미만이라고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  29. 제 15 항에 있어서,
    오디오 프레임과 연관되는 조건들의 제 2 세트가 만족되는지 여부를 결정하는 단계; 및
    상기 조건들의 제 2 세트가 만족되는 것에 응답하여, 상기 선택을 비-음성과 연관되는 제 2 인코더 측으로 바이어스하도록 조정 파라미터의 값을 선택하는 단계를 더 포함하는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  30. 제 29 항에 있어서,
    상기 오디오 프레임이 12,800 Hertz 의 샘플 레이트와 연관되는지 여부를 결정하는 단계를 더 포함하며,
    상기 조건들의 제 2 세트는 상기 오디오 프레임이 12,800 Hertz 의 상기 샘플 레이트와 연관된다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  31. 제 29 항에 있어서,
    상기 오디오 프레임이 상기 비-음성 프레임으로서 분류된다고 상기 제 1 결정 데이터가 표시하는지 여부를 결정하는 단계를 더 포함하며,
    상기 조건들의 제 2 세트는 상기 오디오 프레임이 상기 비-음성 프레임으로서 분류된다고 상기 제 1 결정 데이터가 표시한다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  32. 제 15 항에 있어서,
    상기 제 2 분류기는 모바일 통신 디바이스 또는 기지국을 포함하는 디바이스에 포함되는, 오디오 신호를 인코딩하기 위한 인코더를 선택하는 방법.
  33. 오디오 신호를 인코딩하기 위한 장치로서,
    오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 데이터를 결정하는 수단;
    상기 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터를 결정하는 수단;
    상기 제 1 확률 데이터 및 상기 제 2 확률 데이터에 기초하여 제 1 결정 데이터를 결정하는 수단으로서, 상기 제 1 결정 데이터는 상기 오디오 프레임의 분류의 제 1 표시를 상기 음성 프레임 또는 상기 비-음성 프레임으로서 포함하는, 상기 제 1 결정 데이터를 결정하는 수단;
    상기 제 1 결정 데이터, 상기 제 1 확률 데이터, 및 상기 제 2 확률 데이터를 수신하고, 그리고 상기 제 1 확률 데이터, 상기 제 2 확률 데이터, 및 상기 제 1 결정 데이터에 기초하여 제 2 결정 데이터를 결정하는 수단으로서, 상기 제 2 결정 데이터는 상기 오디오 프레임을 인코딩하기 위한 수단의 선택의 제 2 표시를 포함하는, 상기 제 2 결정 데이터를 결정하는 수단; 및
    상기 인코딩하기 위한 수단의 선택을 표시하는 상기 제 2 결정 데이터에 응답하여 상기 오디오 프레임을 인코딩하기 위한 수단을 포함하는, 오디오 신호를 인코딩하기 위한 장치.
  34. 제 33 항에 있어서,
    상기 제 1 확률 데이터를 결정하는 수단은 음성 모델 회로를 포함하며, 상기 제 2 확률 데이터를 결정하는 수단은 비-음성 모델 회로를 포함하며, 상기 제 1 결정 데이터를 결정하는 수단은 상태 머신을 포함하며, 상기 제 2 결정 데이터를 결정하는 수단은 개방-루프 분류기를 포함하는, 오디오 신호를 인코딩하기 위한 장치.
  35. 제 33 항에 있어서,
    상기 제 1 확률 데이터를 결정하는 수단, 상기 제 2 확률 데이터를 결정하는 수단, 및 상기 제 1 결정 데이터를 결정하는 수단은 가우시안 혼합 모델 회로에 포함되는, 오디오 신호를 인코딩하기 위한 장치.
  36. 제 33 항에 있어서,
    상기 제 1 확률 데이터를 결정하는 수단, 상기 제 2 확률 데이터를 결정하는 수단, 상기 제 1 결정 데이터를 결정하는 수단, 및 상기 제 2 결정 데이터를 결정하는 수단은 모바일 통신 디바이스 또는 기지국에 통합되는, 오디오 신호를 인코딩하기 위한 장치.
  37. 명령들을 저장하는 컴퓨터-판독가능 저장 디바이스로서,
    상기 명령들은, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
    오디오 프레임이 음성 프레임일 제 1 우도와 연관되는 제 1 확률 데이터를 발생시키기 위해 제 1 동작을 수행하는 것;
    상기 오디오 프레임이 비-음성 프레임일 제 2 우도와 연관되는 제 2 확률 데이터를 발생시키기 위해 제 2 동작을 수행하는 것;
    상기 제 1 확률 데이터 및 상기 제 2 확률 데이터에 기초하여 제 1 결정 데이터를 발생시키기 위해 제 3 동작을 수행하는 것으로서, 상기 제 1 결정 데이터가 상기 오디오 프레임의 분류를 상기 음성 프레임 또는 상기 비-음성 프레임으로서 표시하는, 상기 제 3 동작을 수행하는 것;
    상기 제 1 확률 데이터, 상기 제 2 확률 데이터, 및 상기 제 1 결정 데이터를 사용하여 제 2 결정 데이터를 발생시키기 위한 제 4 동작을 수행하는 것으로서, 상기 제 2 결정 데이터가 상기 오디오 프레임을 인코딩할 인코더의 선택을 표시하는, 상기 제 4 동작을 수행하는 것; 및
    상기 인코더를 사용하여 상기 오디오 프레임의 인코딩을 개시하는 것을 포함하는 동작들을 수행하게 하는, 컴퓨터-판독가능 저장 디바이스.
  38. 제 37 항에 있어서,
    상기 명령들은 추가로, 상기 프로세서로 하여금,
    제 1 인코더에서 상기 오디오 프레임의 인코딩과 연관되는 제 1 추정된 코딩 이득 값을 결정하는 것;
    제 2 인코더에서 상기 오디오 프레임의 인코딩과 연관되는 제 2 추정된 코딩 이득 값을 결정하는 것; 및
    조정 파라미터의 값에 기초하여 상기 제 1 추정된 코딩 이득 값을 조정하는 것을 포함하는 동작들을 수행하게 하며,
    상기 제 2 결정 데이터는 상기 조정된 제 1 추정된 코딩 이득 값 및 상기 제 2 추정된 코딩 이득 값에 기초하여 결정되는, 컴퓨터-판독가능 저장 디바이스.
  39. 제 37 항에 있어서,
    상기 명령들은 추가로, 상기 프로세서로 하여금, 상기 선택을 음성 콘텐츠와 연관되는 제 1 인코더 측으로 바이어스하도록 조정 파라미터의 값을 선택하는 것을 포함하는 동작들을 수행하게 하는, 컴퓨터-판독가능 저장 디바이스.
  40. 오디오 신호를 인코딩하기 위한 특정의 인코더 측으로 선택을 바이어스하도록 조정 파라미터의 값을 선택하는 방법으로서,
    제 2 분류기에서, 제 1 분류기로부터 제 1 확률 데이터 및 제 1 결정 데이터를 수신하는 단계로서, 상기 제 1 확률 데이터는 오디오 프레임이 음성 프레임일 제 1 우도와 연관되며, 상기 제 1 결정 데이터는 상기 오디오 프레임의 분류를 상기 음성 프레임 또는 비-음성 프레임으로서 표시하는, 상기 수신하는 단계;
    상기 제 2 분류기에서, 상기 오디오 프레임과 연관되는 조건들의 세트가 만족되는지 여부를 결정하는 단계로서, 상기 조건들의 세트의 제 1 조건은 상기 제 1 확률 데이터에 기초하며 상기 조건들의 세트의 제 2 조건은 상기 제 1 결정 데이터에 기초하는, 상기 결정하는 단계;
    상기 조건들의 세트가 만족된다고 결정하는 것에 응답하여, 제 1 선택을 다수의 인코더들 중 제 1 인코더 측으로 바이어스하도록 상기 조정 파라미터의 제 1 값을 선택하는 단계; 및
    상기 제 2 분류기의 출력으로부터 스위치로 제 2 결정 데이터를 제공하는 단계로서, 상기 제 2 결정 데이터는 상기 조정 파라미터의 상기 제 1 값에 기초하여 결정되는, 상기 제 2 결정 데이터를 제공하는 단계를 포함하고,
    상기 스위치는 상기 제 2 결정 데이터에 기초하여 상기 다수의 인코더들의 특정의 인코더를 선택하고, 그리고 상기 오디오 프레임은 상기 특정의 인코더를 사용하여 인코딩되는, 오디오 신호를 인코딩하기 위한 특정의 인코더 측으로 선택을 바이어스하도록 조정 파라미터의 값을 선택하는 방법.
  41. 제 40 항에 있어서,
    상기 조건들의 세트는,
    상기 오디오 프레임이 12,800 Hertz 의 샘플 레이트와 연관된다고 결정하는 것;
    상기 제 1 결정 데이터가 상기 오디오 프레임의 분류를 상기 음성 프레임으로서 표시한다고 결정하는 것; 및
    상기 제 1 인코더에서 상기 오디오 프레임을 인코딩하는 것과 연관되는 제 1 추정된 코딩 이득 값이 특정 값보다 크거나 또는 동일하다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정되는, 오디오 신호를 인코딩하기 위한 특정의 인코더 측으로 선택을 바이어스하도록 조정 파라미터의 값을 선택하는 방법.
  42. 제 40 항에 있어서,
    상기 조건들의 세트는,
    가장 최근에 분류된 프레임이 음성 콘텐츠를 포함하는 것으로 분류된다고 결정하는 것; 및
    상기 제 1 확률 데이터에 의해 표시되는 제 1 확률 값이 제 2 확률 데이터에 의해 표시되는 제 2 확률 값보다 크다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정되며,
    상기 제 2 확률 데이터는 상기 오디오 프레임이 상기 비-음성 프레임일 제 2 우도와 연관되는, 오디오 신호를 인코딩하기 위한 특정의 인코더 측으로 선택을 바이어스하도록 조정 파라미터의 값을 선택하는 방법.
  43. 제 40 항에 있어서,
    상기 조건들의 세트는,
    가장 최근에 분류된 프레임들의 개수에 대응하는 각각의 프레임이 음성 콘텐츠를 포함하는 것으로 분류된다고 결정하는 것; 및
    상기 제 1 확률 데이터에 의해 표시되는 제 1 확률 값이 제 3 값보다 크거나 또는 동일하다고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정되며,
    상기 제 3 값은 제 2 확률 데이터에 의해 표시되는 제 2 확률 값과 제 4 값 사이의 차이와 연관되며, 상기 제 2 확률 데이터는 상기 오디오 프레임이 상기 비-음성 프레임일 제 2 우도와 연관되는, 오디오 신호를 인코딩하기 위한 특정의 인코더 측으로 선택을 바이어스하도록 조정 파라미터의 값을 선택하는 방법.
  44. 제 40 항에 있어서,
    상기 조건들의 세트는,
    상기 오디오 프레임의 다수의 서브-프레임들의 평균 보이싱 값이 제 1 임계치보다 크거나 또는 동일하다고 결정하는 것;
    상기 오디오 프레임과 연관되는 비-정상성 값이 제 2 임계치보다 크다고 결정하는 것; 및
    상기 오디오 프레임과 연관되는 오프셋 값이 제 3 임계치 미만이라고 결정하는 것에 적어도 부분적으로 응답하여 만족되도록 결정되는, 오디오 신호를 인코딩하기 위한 특정의 인코더 측으로 선택을 바이어스하도록 조정 파라미터의 값을 선택하는 방법.
  45. 제 40 항에 있어서,
    상기 오디오 프레임과 연관되는 조건들의 제 2 세트가 만족되는지 여부를 결정하는 단계; 및
    상기 조건들의 제 2 세트가 만족된다고 결정하는 것에 응답하여, 제 2 선택을 상기 다수의 인코더들 중 비-음성 인코더 측으로 바이어스하도록 상기 조정 파라미터를 상기 제 1 값으로부터 제 2 값으로 업데이트하는 단계를 더 포함하는, 오디오 신호를 인코딩하기 위한 특정의 인코더 측으로 선택을 바이어스하도록 조정 파라미터의 값을 선택하는 방법.
  46. 제 45 항에 있어서,
    상기 조건들의 제 2 세트는,
    상기 오디오 프레임이 12,800 Hertz 의 샘플 레이트와 연관된다고 결정하는 것; 및
    상기 제 1 결정 데이터가 상기 오디오 프레임의 분류를 상기 비-음성 프레임으로서 표시한다고 결정하는 것에 응답하여 만족되도록 결정되는, 오디오 신호를 인코딩하기 위한 특정의 인코더 측으로 선택을 바이어스하도록 조정 파라미터의 값을 선택하는 방법.
  47. 제 40 항에 있어서,
    상기 제 2 분류기는 모바일 통신 디바이스 또는 기지국을 포함하는 디바이스에 포함되는, 오디오 신호를 인코딩하기 위한 특정의 인코더 측으로 선택을 바이어스하도록 조정 파라미터의 값을 선택하는 방법.
KR1020177027780A 2015-04-05 2016-03-30 인코더 선택 KR101967572B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562143155P 2015-04-05 2015-04-05
US62/143,155 2015-04-05
US15/083,867 2016-03-29
US15/083,867 US9886963B2 (en) 2015-04-05 2016-03-29 Encoder selection
PCT/US2016/025049 WO2016164231A1 (en) 2015-04-05 2016-03-30 Encoder selection

Publications (2)

Publication Number Publication Date
KR20170134430A KR20170134430A (ko) 2017-12-06
KR101967572B1 true KR101967572B1 (ko) 2019-04-09

Family

ID=57017102

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177027780A KR101967572B1 (ko) 2015-04-05 2016-03-30 인코더 선택

Country Status (11)

Country Link
US (1) US9886963B2 (ko)
EP (1) EP3281198B1 (ko)
JP (1) JP6377862B2 (ko)
KR (1) KR101967572B1 (ko)
CN (1) CN107408383B (ko)
AU (1) AU2016244807B2 (ko)
BR (1) BR112017021352B1 (ko)
ES (1) ES2770681T3 (ko)
HU (1) HUE046877T2 (ko)
TW (1) TWI640979B (ko)
WO (1) WO2016164231A1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
CN105609118B (zh) * 2015-12-30 2020-02-07 生迪智慧科技有限公司 语音检测方法及装置
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
US20230215448A1 (en) * 2020-04-16 2023-07-06 Voiceage Corporation Method and device for speech/music classification and core encoder selection in a sound codec
CN111554312A (zh) * 2020-05-15 2020-08-18 西安万像电子科技有限公司 控制音频编码类型的方法、装置和系统
CN112599140B (zh) * 2020-12-23 2024-06-18 北京百瑞互联技术股份有限公司 一种优化语音编码速率和运算量的方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020111798A1 (en) 2000-12-08 2002-08-15 Pengjun Huang Method and apparatus for robust speech classification
US20110202337A1 (en) * 2008-07-11 2011-08-18 Guillaume Fuchs Method and Discriminator for Classifying Different Segments of a Signal

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6983242B1 (en) * 2000-08-21 2006-01-03 Mindspeed Technologies, Inc. Method for robust classification in speech coding
US20030101049A1 (en) * 2001-11-26 2003-05-29 Nokia Corporation Method for stealing speech data frames for signalling purposes
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
EP1808852A1 (en) 2002-10-11 2007-07-18 Nokia Corporation Method of interoperation between adaptive multi-rate wideband (AMR-WB) and multi-mode variable bit-rate wideband (VMR-WB) codecs
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
WO2009118044A1 (en) * 2008-03-26 2009-10-01 Nokia Corporation An audio signal classifier
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
CN108074579B (zh) * 2012-11-13 2022-06-24 三星电子株式会社 用于确定编码模式的方法以及音频编码方法
CN104112451B (zh) * 2013-04-18 2017-07-28 华为技术有限公司 一种选择编码模式的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020111798A1 (en) 2000-12-08 2002-08-15 Pengjun Huang Method and apparatus for robust speech classification
US20110202337A1 (en) * 2008-07-11 2011-08-18 Guillaume Fuchs Method and Discriminator for Classifying Different Segments of a Signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EVS Codec Detailed Algorithmic Description (3GPP TS 26.445 version 12.0.0 Release 12). ETSI TS 126 445 V12.0.0. 2014.11.*

Also Published As

Publication number Publication date
US9886963B2 (en) 2018-02-06
US20160293175A1 (en) 2016-10-06
EP3281198A1 (en) 2018-02-14
CN107408383A (zh) 2017-11-28
TW201642246A (zh) 2016-12-01
TWI640979B (zh) 2018-11-11
AU2016244807A1 (en) 2017-09-14
ES2770681T3 (es) 2020-07-02
WO2016164231A1 (en) 2016-10-13
CN107408383B (zh) 2019-01-15
JP2018513408A (ja) 2018-05-24
BR112017021352B1 (pt) 2024-03-12
BR112017021352A2 (pt) 2018-06-26
HUE046877T2 (hu) 2020-03-30
KR20170134430A (ko) 2017-12-06
JP6377862B2 (ja) 2018-08-22
EP3281198B1 (en) 2019-11-06
AU2016244807B2 (en) 2019-07-18

Similar Documents

Publication Publication Date Title
KR101967572B1 (ko) 인코더 선택
US11729079B2 (en) Selecting a packet loss concealment procedure
TWI661422B (zh) 用於音訊帶寬選擇之器件及裝置、操作一解碼器之方法及電腦可讀儲存器件
US9830921B2 (en) High-band target signal control
US9972334B2 (en) Decoder audio classification
US9111531B2 (en) Multiple coding mode signal classification
TWI775838B (zh) 用於在多源環境中之非諧波語音偵測及頻寬擴展之裝置、方法、電腦可讀媒體及設備
JP2008058983A (ja) 音声コーディングにおける雑音のロバストな分類のための方法
Farsi et al. Improving voice activity detection used in ITU-T G. 729. B

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant