KR20140116487A - 다중 코딩 모드 신호 분류 - Google Patents

다중 코딩 모드 신호 분류 Download PDF

Info

Publication number
KR20140116487A
KR20140116487A KR1020147022400A KR20147022400A KR20140116487A KR 20140116487 A KR20140116487 A KR 20140116487A KR 1020147022400 A KR1020147022400 A KR 1020147022400A KR 20147022400 A KR20147022400 A KR 20147022400A KR 20140116487 A KR20140116487 A KR 20140116487A
Authority
KR
South Korea
Prior art keywords
speech
classifier
music
coder
coding mode
Prior art date
Application number
KR1020147022400A
Other languages
English (en)
Inventor
벤카트라만 스리니바사 아티
에단 로버트 두니
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20140116487A publication Critical patent/KR20140116487A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

개선된 오디오 분류가 애플리케이션들의 인코딩에 제공된다. 초기 분류가 수행된 다음, 더 미세한 분류가 수행되어 이전에 이용가능한 것 보다 높은 정확도 및 낮은 복잡성으로 스피치 분류 및 뮤직 분류들을 생성한다. 오디오는 스피치 또는 뮤직으로서 하나의 프레임에 걸쳐 프레임 기반으로 분류된다. 프레임이 초기 분류에 의해 뮤직으로서 분류되는 경우, 그 프레임은 제 2 의 더 미세한 분류를 겪어서, 프레임이 뮤직이고 스피치 (예를 들어, 초기 분류에 의해 스피치로서 분류되지 않을 수도 있는 음조 및/또는 구조화된 스피치) 가 아님을 확인한다. 구현에 의존하여, 하나 이상의 파라미터들이 더 미세한 분류에 사용될 수도 있다. 예시의 파라미터들은 보이싱, 수정된 상관관계, 신호 활동, 및 장기 피치 이득을 포함한다.

Description

다중 코딩 모드 신호 분류{MULTIPLE CODING MODE SIGNAL CLASSIFICATION}
관련 출원들의 상호 참조
본 출원은 2012년 1월 13일자로 출원된 미국 가특허출원 제61/586,374호에 대해 35 U.S.C.§119(e) 의 이익하에 우선권을 주장한다. 이에 의해 이 가특허출원은 본 명세서에서 전부 참조로서 명백히 통합된다.
디지털 기법들에 의한 보이스 (또한 스피치로서도 지칭됨) 및 뮤직의 송신은, 무선 통신 디바이스들, 개인 휴대정보 단말기 (PDA) 들, 랩탑 컴퓨터들, 데스크탑 컴퓨터들, 모바일 및/또는 위성 무선 전화기들 등을 포함하는, 광범위한 디바이스들에 통합되고 널리 분산되고 있다. 예시의 분야는 무선 통신이다. 무선 통신 분야는, 예를 들어 코드리스 전화기, 페이징, 무선 로컬 루프, 셀룰러 및 PCS 전화 시스템과 같은 무선 전화, 모바일 인터넷 프로토콜 (IP) 전화, 및 위성 통신 시스템을 포함하는, 많은 애플리케이션들을 갖는다.
전기통신 네트워크에서, 정보는 송신 통신 디바이스와 수신 통신 디바이스 사이에서 인코딩된 형태로 전달된다. 송신 통신 디바이스는 보이스 신호들 및/또는 뮤직 신호들과 같은 원래의 정보를 인코딩된 정보로 인코딩하고 그것을 수신 통신 디바이스에 전송한다. 수신 통신 디바이스는 수신된 인코딩된 정보를 디코딩하여 원래의 정보를 재현한다. 인코딩 및 디코딩은 코덱을 사용하여 수행된다. 보이스 신호들 및/또는 뮤직 신호들의 인코딩은 송신 통신 디바이스에 위치된 코덱에서 수행되고, 디코딩은 수신 통신 디바이스에 위치된 코덱에서 수행된다.
최신 코덱에서, 다중 코딩 모드들은 스피치, 뮤직 및 혼합된 컨텐츠와 같은 입력 소스들의 상이한 타입들을 취급하기 위해 포함된다. 최적의 성능을 위해, 입력 신호의 각 프레임에 대한 최적의 코딩 모드가 선택되고 사용되어야 한다. 가장 효율적인 코딩 스킴들을 선택하고 최저 데이터 레이트를 달성하기 위한 정확한 분류가 필요하다.
이러한 분류는 복잡성을 줄이기 위해 개방 루프 방식으로 수행될 수 있다. 이 경우, 최적 모드 분류자는 다양한 코딩 모드들의 주요 피쳐들을 고려하여야 한다. 일부 모드들 (예컨대, 대수 코드 여기 선형 예측 (ACELP) 과 같은 스피치 코딩 모드들) 은 과거 및 현재 프레임들 간의 상관관계를 활용하는 어댑티브 코드북 (ACB) 을 포함한다. 일부 다른 모드들 (예컨대, 뮤직/오디오에 대한 수정 이산 코사인 변환 (MDCT) 코딩 모드들) 은 그러한 피쳐를 포함하지 않을 수도 있다. 따라서, 이전 프레임과 높은 상관관계를 갖는 입력 프레임들이 ACB 를 갖거나 또는 다른 인터 프레임 상관관계 모델링 기법들을 포함하는 모드로 분류되는 것을 보장하는 것이 중요하다.
이전의 해결책들은 폐쇄 루프 모드 판정들 (예를 들어, AMR-WB+, USAC) 또는 다양한 유형들의 개방 루프 판정들 (예를 들어, AMR-WB+, EVRC-WB) 을 이용하였지만, 이들 해결책들은 복잡하거나 그 성능들이 에러에 취약하다.
개선된 오디오 분류가 인코딩 애플리케이션들에 제공된다. 초기 분류가 수행된 후, 보다 미세한 분류가 수행되어, 이전에 이용가능한 것 보다 정확도가 높고 복잡성이 낮은 스피치 분류들 및 뮤직 분류들을 생성한다.
오디오는 부분별 (예를 들어, 프레임별) 기반에 의해 스피치 또는 뮤직으로서 분류된다. 초기 분류에 의해 프레임이 뮤직으로서 분류되는 경우, 그 프레임은 제 2 의 보다 미세한 분류를 겪어서, 프레임이 뮤직이고 스피치 (예를 들어, 초기 분류에 의해 스피치로서 분류되지 않을 수도 있는 음조 (tonal) 이고 및/또는 구조화되는 스피치) 가 아니라는 것을 확인한다.
구현에 의존하여, 하나 이상의 파라미터들이 보다 미세한 분류에 사용될 수도 있다. 예시의 파라미터들은 보이싱, 수정된 상관관계, 신호 활동, 및 장기 피치 이득을 포함한다. 이들 파라미터들은 단지 예시일 뿐이고 한정을 의미하지 않는다.
이러한 개요는 하기의 상세한 설명에서 더 기재되는 개념들의 선택을 개략적인 형태로 도입하기 위해 제공된다. 이 개요는 청구된 구성 요소의 본질적인 피쳐들 또는 주요 피쳐들을 식별하고자 하는 것이 아니고 또한 청구된 구성 요소의 범위를 한정하기 위해 사용하고자 하는 것도 아니다.
상기 개요뿐만 아니라 다음의 예시적인 실시형태들의 상세한 설명은, 첨부된 도면들과 함께 읽혀질 때 보다 잘 이해하게 된다. 실시형태들을 예시하기 위해, 실시형태들의 예시의 구성들이 도면들에 나타나 있다; 하지만, 실시형태들은 개시된 특정 방법들 및 수단들에 한정되지 않는다. 도면들에서:
도 1a는 소스 디바이스가 인코딩된 비트 스트림을 수신 디바이스로 송신하는 일 예의 시스템을 도시하는 블록 다이어그램이다.;
도 1b는 본 명세서에 기재된 바와 같이 사용될 수도 있는 2 개의 디바이스들의 블록 다이어그램이다.
도 2는 다중 코딩 모드 신호 분류 및 인코더 시스템의 일 구현의 블록 다이어그램이다.
도 3은 오디오를 분류하는 일 구현의 동작 플로우이다.
도 4는 일 예의 이동국의 다이어그램이다.
도 5는 예시의 컴퓨팅 환경을 나타낸다.
개시된 실시형태들은 스피치 및 뮤직과 같은 오디오의 다양한 유형들을 갖는 환경들에서 여러 가지의 코딩 모드들에 대한 분류 기법들을 제시한다. 오디오 프레임들의 유형들은 가장 효율적인 방식으로 인코딩을 위해 신뢰성있고 정확하게 식별될 수 있다. 본 명세서에서의 예시들 및 설명은 오디오 프레임들을 지칭하지만, 오디오 신호들의 일반적으로 더 많은 부분들이 고려되고 본 명세서에 개시된 구현들에 따라 사용될 수도 있다.
도 1a는 소스 디바이스 (12a) 가 통신 링크 (15) 를 통해 수신 디바이스 (14a) 로 인코딩된 비트스트림을 송신하는 일 예의 시스템 (10) 을 도시하는 블록 다이어그램이다. 비트스트림은 하나 이상의 패킷들로서 나타낼 수도 있다. 소스 디바이스 (12a) 및 수신 디바이스 (14a) 는 모두 디지털 디바이스일 수도 있다. 특히, 소스 디바이스 (12a) 는, 인코딩 데이터를 스피치 압축을 위한 패킷들로 사용하는 3GPP2 EVRC-B 표준 또는 유사한 표준들과 일치하는 데이터를 인코딩할 수도 있다. 시스템 (10) 의 디바이스들 (12a, 14a) 중 하나 또는 양자는, 오디오 인코딩 프로세스를 개선하기 위해서, 하기에서 보다 상세하게 설명되는 바와 같이, (상이한 코딩 모델들에 기초한) 인코딩 모드들 및 오디오 (예를 들어, 스피치 및/또는 뮤직) 압축을 위한 인코딩 레이트들의 선택을 구현할 수도 있다. 소스 디바이스 또는 수신 디바이스를 포함할 수도 있는, 일 예의 기지국이 도 4와 관련하여 설명된다.
통신 링크 (15) 는 무선 링크, 물리적 송신 라인, 광파이버, 패킷 기반 네트워크, 예컨대 근거리 네트워크, 광역 네트워크, 또는 글로벌 네트워크, 예컨대 인터넷, 공중전화 네트워크 (PSTN), 또는 데이터를 전달할 수 있는 임의의 다른 통신 링크를 포함할 수도 있다. 통신 링크 (15) 는 저장 매체에 연결될 수도 있다. 따라서, 통신 링크 (15) 는 임의의 적절한 통신 매체, 또는 가능한대로, 소스 디바이스 (12a) 로부터 압축된 스피치 데이터를 수신 디바이스 (14a) 로 송신하기 위한, 상이한 네트워크들 및 링크들의 집합체를 나타낸다.
소스 디바이스 (12a) 는 사운드를 캡춰하는 하나 이상의 마이크로폰들 (16) 을 포함할 수도 있다. 연속적인 사운드가 디지타이저 (18) 로 전송된다. 디지타이저 (18) 는 이산 간격들로 사운드를 샘플링하고 스피치를 양자화 (디지털화) 한다. 디지털화된 스피치는 메모리 (20) 에 저장될 수도 있고 및/또는 인코더 (22) 로 전송될 수 있으며, 인코더 (22) 에서는, 디지털화된 스피치 샘플들이, 종종 20ms 프레임에 걸쳐 인코딩될 수도 있다.
특히, 인코더는 들어오는 스피치 신호를 시간 블록으로 분할하거나 프레임들 또는 부분들을 분석한다. 시간 (또는 프레임) 에서의 각 세그먼트의 기간은 일반적으로 신호의 스펙트럴 포곡선이 상대적으로 정적인 상태에 있을 것으로 예상되기에 충분히 짧도록 선택된다. 특정 애플리케이션에 적합하다고 간주되는 임의의 프레임 길이 또는 샘플링 레이트가 사용될 수 있지만, 예를 들어, 하나의 전형적인 프레임 길이는 20 ms 이며, 이는 8 kHz 의 전형적인 샘플링 레이트의 160 샘플들에 대응한다.
인코더 (22) 에서 수행되는 인코딩 프로세스는 하나 이상의 패킷들을 생성하여 송신기 (24) 로 전송하며, 이는 통신 링크 (15) 를 통해 수신 디바이스 (14a) 로 전송될 수도 있다. 예를 들어, 인코더는 들어오는 프레임을 분석하여, 소정의 관련 파라미터들을 추출한 후, 그 파라미터들을 2 진 표시로, 즉 비트들의 세트 또는 2 진 데이터 패킷으로 양자화한다. 데이터 패킷들은 통신 채널 (즉, 유선 및/또는 무선 네트워크 접속) 을 통해 수신기 및 디코더로 송신된다. 디코더는 데이터 패킷들을 프로세싱하고, 그들을 비양자화하여 파라미터들을 생성하고, 이 비양자화된 파라미터들을 이용하여 오디오 프레임들을 재합성한다.
인코더 (22) 는, 예를 들어, 다양한 하드웨어, 소프트웨어, 펌웨어, 또는 본 명세서에 기재된 바와 같이, 프로그램가능한 소프트웨어 모듈들을 실행하여 인코딩 기법들을 제어하는, 하나 이상의 디지털 신호 프로세서들 (DSP) 를 포함할 수도 있다. 연관된 메모리 및 로직 회로가 인코딩 기법들의 제어 시 DSP 를 지원하기 위해 제공될 수도 있다. 기술되는 바와 같이, 인코딩 모드들 및 레이트들이 스피치 프레임 또는 뮤직 프레임이 결정되고 인코딩되고 있는지 여부에 의존하여 인코딩 전에 및/또는 인코딩 동안에 변화될 수 있는 경우, 인코더 (22) 는 보다 강인하게 수행할 수도 있다.
수신 디바이스 (14a) 는 오디오 데이터를 수신하고 디코딩할 수 있는 임의의 디지털 오디오 디바이스의 형태를 취할 수도 있다. 예를 들어, 수신 디바이스 (14a) 는, 예를 들어 중간 링크들, 라우터들, 다른 네트워크 장비 등을 통하여, 송신기 (24) 로부터 패킷들을 수신하는 수신기 (26) 를 포함할 수도 있다. 수신 디바이스 (14a) 는 또한 하나 이상의 패킷들을 디코딩하기 위한 디코더 (28), 및 스피치 디코더 (28) 에 의한 패킷들의 디코딩 후 재구성된 오디오를 사용자가 듣게 할 수 있는 하나 이상의 스피커들 (30) 을 포함할 수도 있다.
일부 경우, 소스 디바이스 (12b) 및 수신 디바이스 (14b) 는 각각, 디지털 오디오 데이터를 인코딩 및 디코딩하기 위해, 도 1b에 나타낸 바와 같은 스피치 인코더/디코더 (코덱)(32) 를 포함할 수도 있다. 특히, 소스 디바이스 (12b) 및 수신 디바이스 (14b) 양자는 송신기들 및 수신기들 뿐만 아니라 메모리 및 스피커들을 포함할 수도 있다. 본 명세서에서 고려되는 많은 인코딩 기법들은 스피치 및/또는 뮤직을 압축하기 위해 인코더를 포함하는 디지털 오디오 디바이스의 맥락에서 기재된다.
하지만, 인코더는 코덱 (32) 의 부분을 형성할 수도 있음을 알고 있다. 그 경우, 코덱은 하드웨어, 소프트웨어, 펌웨어, DSP, 마이크로프로세서, 범용 프로세서, 주문형 집적회로 (ASIC), 필드 프로그램가능 게이트 어레이 (FPGA), 이산 하드웨어 컴포넌트들 또는 그 다양한 조합물들 내에서 구현될 수도 있다. 또한, 당업자는 코더들이 DSP, ASIC, 이산 게이트 로직, 펌웨어 또는 임의의 종래의 프로그램가능 소프트웨어 모듈 및 마이크로프로세서에 의해 구현될 수도 있다는 것을 알고 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터들, 또는 당업계에 알려진 기록가능한 저장 매체의 임의의 다른 형태에 상주할 수 있다. 대안으로, 임의의 종래의 프로세서, 제어기, 또는 상태 머신이 마이크로프로세서에 대해 치환될 수 있다. 컴퓨팅 디바이스의 일 예가 도 5와 관련하여 설명된다.
도 2는 다중 코딩 모드 신호 분류 및 인코더 시스템 (200) 의 구현의 블록 다이어그램이다. 일 구현에서, 시스템 (200) 은, 도 1a 및 도 1b에 대하여 설명된 소스 디바이스 또는 수신 디바이스와 같은 디바이스로 사용될 수도 있다. 예를 들어, 시스템 (200) 은 소스 디바이스 (12a) 의 인코더와 함께 동작할 수도 있다.
다중 코딩 모드 신호 분류 및 인코더 시스템 (200) 은 초기 분류자 (210)(또한 제 1 분류자로서도 지칭됨) 및 미세 분류자 (220)(또한, 제 2 분류자로서도 지칭됨) 를 포함한다. 시스템 (200) 은 또한 미세 분류자 (220) 및 그 연관된 더 미세한 분류 기능을 인에이블 또는 디스에이블하기 위해 (예를 들어, 사용자에 의해) 선택될 수도 있는 미세 분류자 선택 스위치 (230) 를 포함한다.
스피치 코더들 및 뮤직 코더와 같은 다양한 유형의 코더들이 시스템 (200) 내에 포함된다. 일 구현에서, (예를 들어, 코드 여기 선형 예측 (CELP) 형 코더 또는 스피치 코딩 모드와 같은) "코딩 모드 1" (240) 로서 지칭되는 제 1 코딩 모드가 제공되고 초기 분류자 (210) 에 의한 분류에 반응하여 사용될 수도 있다. (예를 들어, CELP/변환 하이브리드 코어 또는 제 2 스피치 코딩 모드와 같은) "코딩 모드 2" (260) 로서 지칭되는 제 2 코딩 모드가 제공되고 미세 분류자 (220) 에 의한 분류에 응답하여 사용될 수도 있다.
(예를 들어, 변환 코더 또는 뮤직 코딩 모드와 같은) "코딩 모드 3" (250) 으로서 지칭되는 제 3 코딩 모드가 제공되고 초기 분류자 (210) 및/또는 미세 분류자 (220) 에 의한 분류에 응답하여 사용될 수도 있다. 이러한 유형들의 코딩 모드들 및 코더들은 잘 알려져 있으며, 추가적인 기재들은 간결성을 위해 생략된다. 코딩 모드들 1, 2 및 3 에 대해 기재된 예시의 코딩 모드들 및 코더들은 단지 예시들일 뿐이며 한정을 의미하지 않는다. 임의의 적절한 스피치 코딩 모드(들) 및/또는 코더(들) 과 뮤직 코딩 모드(들) 및/또는 코더(들) 이 사용될 수도 있다.
도 3은 오디오를 분류하는 방법 (300) 의 일 구현의 동작 플로우이다. 310 에서, 초기 분류자 (210) 는 입력 오디오 프레임 (또는 스피치와 같은 오디오 신호 또는 뮤직과 같은 오디오 신호로서 오디오 신호의 부분을 분류하기 위한 오디 오 신호의 다른 부분) 을 수신하고, 320 에서 스피치 또는 뮤직으로서 그것을 분류한다. 초기 분류자 (210) 는 스피치 또는 뮤직으로서 오디오 프레임 또는 부분을 분류하는 임의의 분류자일 수도 있다.
일부 구현들에서, 초기 분류자 (210) 는 (임의의 수의 분류자들이 구현에 의존하여 사용될 수 있지만, "분류자 1" 및 "분류자 2" 로서 320에 나타낸) 2 이상의 분류자를 포함할 수도 있다. 예를 들어, 초기 분류자는 스피치에 완전히 치우치는 분류자, 및 뮤직에 더 치우치는 분류자와 같은 또 다른 상이한 분류자를 포함할 수도 있다. 이들 2 개의 분류자들은, 320에서 (구현에 의존하여) 출력 프레임 상에서 순차적으로 동작하거나, 때때로 동시에 동작할 수도 있으며, 그 결과들은 330 또는 340 중 어느 하나로 전송되는 결과를 형성하기 위해 결합된다.
스피치가 초기 분류자 (210) 에 의해 뮤직으로서 검출되게 되는 작은 가능성이 있다. 이로써, 일부 스피치 프레임들이 초기에 뮤직으로서 분류될 수도 있다. 예를 들어, 스피치를 나타내는, 매우 낮은 레벨의 배경 뮤직 또는 노래 보이스의 존재 시의 스피치는, 초기 분류자 (210) 에 의해 스피치로서 분류될 수 없을 수도 있다. 대신, 초기 분류자 (210) 는 그러한 신호들을 뮤직으로서 분류할 수도 있다. 예를 들어, 거리의 차량 경적 소리 노이즈 또는 전형적인 사무실에서의 전화 벨과 같은, 다른 배경 노이즈의 존재는, 또한 뮤직으로서의 스피치의 잘못된 분류 증가에 기여할 수도 있다.
320에서, 프레임이 초기 분류자 (210) 에 의해 스피치 프레임이라고 결정되면, 프레임은 인코딩을 위해 코딩 모드 1 (240)(예를 들어, CELP 형 코더) 에 제공된다. 일부 구현들에서, 임의의 알려진 CELP 형 코더가 사용될 수도 있다.
한편, 320에서, 프레임이 초기 분류자 (210) 에 의해 뮤직 프레임이라고 결정되면, 340에서, (예를 들어, "인에이블됨" 및 "인에이블되지 않음" 에 각각 대응하는 디바이스 상의 "온" 및 "오프" 선택 스위치를 통해, 이전에 인에이블된 피쳐를 갖는 사용자에 의해) 보다 미세한 분류자가 인에이블되는지가 결정된다. 이러한 더 미세한 분류자는 제 1 분류자의 결정을 보강하는 제 2 라운드 분류이다. 일 구현에서, 오디오 데이터를 프로세싱하기 위한 더 미세한 분류가 사용자에 의해 선택적으로 인에이블될 수 있다.
340에서 결정된 바와 같이 더 미세한 분류가 인에이블되지 않으면, 350에서 프레임은 뮤직 프레임으로서 인코딩을 위해 코딩 모드 3 (250)(예를 들어, 변환 코더) 에 제공된다. 하지만, 340에서 결정된 바와 같이 더 미세한 분류가 인에이블되면, 프레임은 부가적인, 더 미세한 분류를 위해 360에서 미세 분류자 (220) 에 제공된다. 더 미세한 분류는 추가로 스피치 프레임을 뮤직 프레임과 구별하기 위해 이용된다.
일 구현에서, 더 미세한 분류는, 프레임이 음조 및/또는 보이싱된 스피치의 준정적 특성들과는 대조적으로, 소정의 유형들의 뮤직의 특성인 광대역 노이즈와 같다는 것을 확인하기 위해 이용된다. 360에서 더 미세한 분류가 뮤직 프레임으로서 식별되는 프레임을 야기하면, 프레임은 350에서 뮤직 프레임으로서 인코딩하기 위해 코딩 모드 3 으로 전송된다.
360에서 더 미세한 분류가 스피치 프레임으로서 식별되는 프레임을 야기하면, 프레임은 370에서 스피치 프레임을 인코딩하기 위해 코딩 모드 2 (260) 으로 전송된다. 위에 주시된 바와 같이, 일 구현에서, 코딩 모드 2 (260) 는 CELP/변환 하이브리드 코더일 수도 있으며, 이는 음조 및/또는 구조화된 스피치 프레임들을 코딩하기 위해 사용될 수도 있다. 대안의 구현에서, 370에서 코딩 모드 2 (260) 는 330에서 사용된 코딩 모드 1 과 같은 CELP 형 코더일 수도 있다.
일 구현에서, (예를 들어, 미세 분류자 (220) 의 의해) 360에서 수행된 더 미세한 분류는, 프레임이 스피치 프레임 또는 뮤직 프레임인지 여부를 결정하기 위해서, 프레임의 다양한 특성들 또는 피쳐들을 하나 이상의 임계치들과 비교할 수도 있다.
일부 구현들에서, 프레임의 보이싱은 제 1 임계치 (THR1) 와 비교될 수도 있다. 프레임의 보이싱이 THR1 보다 크면, 프레임이 스피치 프레임인 것이 결정된다. THR1의 일예 값이 0.99 이지만, 구현에 의존하여 임의의 값이 사용될 수도 있다. 보이싱은 0 (스피치 프레임과 상관관계가 없는 것에 대응) 부터 1 (스피치 프레임과의 높은 상관관계에 대응) 까지의 범위이다.
일부 구현들에서, 가중화된 신호 상관관계가 제 2 임계치 (THR2) 와 비교될 수도 있다. 가중화된 신호 상관관계가 THR2 보다 크면, 프레임이 스피치 프레임인 것이 결정된다. THR2 의 일예 값이 0.87 이지만, 구현에 의존하여 임의의 값이 사용될 수도 있다. 신호 상관관계는 0 (랜덤 노이즈에 대응) 부터 1 (높게 구조화된 사운드에 대응) 까지의 범위이다.
일부 구현들에서, 장기 피치 이득은 제 3 임계치 (THR3) 와 비교될 수도 있다. 장기 피치 이득이 THR3 보다 크면, 프레임이 스피치 프레임인 것이 결정된다. THR3 의 일예 값이 0.5 이지만, 구현에 따라 임의의 값이 사용될 수도 있다. 장기 피치 이득은 과거 여기와 현재의 예측 잔류 사이에서 정규화된 상호 상관관계이다. 장기 피치 이득은 0 (과거 프레임에서의 에러가 현재 프레임을 나타내는데 적절하지 않음을 표시) 부터 1 (과거 프레임에서의 잔류 에러의 이용이 현재 프레임을 완전히 나타낼 수 있는 것을 표시) 까지의 범위이다.
일부 구현들에서, 현재 프레임의 음조성 (tonality) 이 결정되고 임계치 (THR4) 와 비교될 수도 있다. 신호의 음조성은 스펙트럴 평탄도 측정 또는 스펙트럴 피크 대 평균 비 측정을 이용하여 측정될 수 있다. 스펙트럼이 임의의 중요한 국부적인 피크들을 포함하지 않으면, 스펙트럴 평탄도 측정은 1에 가까워지는 경향이 있다. 반면, 스펙트럼이 국부화된 피크들을 갖는 강한 기울기를 나타내면, 스펙트럴 평탄도 특성은 0에 가까워지게 된다. 음조성이 THR4 보다 크면, 프레임이 스피치 프레임인 것이 결정된다. THR4에 대한 일예 값이 0.75 이지만, 구현에 따라 임의의 값이 사용될 수도 있다.
부가적으로 또는 대안으로, 일부 구현들에서, 임의의 신호 활동이 있는지가 결정될 수도 있다. 신호 활동이 없다면 (즉, 프레임이 조용하다면), 인코딩할 유용한 신호가 없다는 것이 결정되고, 그것은 스피치 프레임으로서 인코딩될 수도 있다.
일부 구현들에서, 360에서 프레임이 스피치 프레임인 것을 결정하기 위한 어떠한 조건들도 충족되지 않으면, 프레임이 뮤직 프레임인 것이 결정된다.
임의의 하나 이상의 비교들 및/또는 임계치들이 구현에 의존하여 사용될 수 있는 것처럼, 본 명세서에 기재된 비교들 및 임계치들은 한정하려는 것을 의미하지 않는다. 부가적 및/또는 대안의 비교들 및 임계치들이 또한 구현에 의존하여 사용될 수도 있다.
따라서, 구현에서, 프레임이 스피치로서 (초기 분류자 (210) 에 의해) 초기에 분류되는 경우, CELP 코더로 전달된다. 하지만, 프레임이 뮤직으로서 분류되면, 보다 미세한 분류가 인에이블되는지 여부가 검증된다. 더 미세한 분류는 외부 사용자 제어를 이용하여 인에이블될 수 있다. 더 미세한 분류가 인에이블되지 않으면, 초기에 뮤직으로서 분류된 프레임은 인코딩을 위해 변환 코더로 라우팅된다. 더 미세한 분류가 인에이블되면, 소정 기준의 논리적 조합 (예를 들어, 보이싱, 수정된 상관관계, 신호 활동, 장기 피치 이득 등) 이 변환 코더와 CELP/변환 코더의 하이브리드 사이의 선택을 위해 사용될 수도 있다. THR1, THR2, THR3 및 THR4는, 예를 들어 샘플링 레이트 및 신호 유형들에 의존하고 실험적으로 결정될 수도 있는 임계치 값들이다.
일 구현에서, 강한 음조 신호들이 (어댑티브 코드북이 없는) MDCT 모드에서 코딩되는 것이 방지되고, 대신 어댑티브 코드북을 사용하는 선형 예측 코딩 (LPC) 모드들로 제공된다.
본 명세서에 기재된 코더들 및 분류자들의 컴포넌트들은 전자 하드웨어로서, 컴퓨터 소프트웨어로서, 또는 양자의 조합으로 구현될 수도 있다. 본 명세서에서는 이러한 컴포넌트들이 그 기능성 면에서 기재된다. 기능성이 하드웨어 또는 소프트웨어로서 구현되는지의 여부는, 전체 시스템에 부과되는 설계 제약들 및특정 애플리케이션에 의존하게 된다. 당업자들은 이러한 환경들 하에서 하드웨어 및 소프트웨어의 호환성 및 각각의 특정 애플리케이션에 대해 기재된 기능성을 구현하는 최상의 방법을 인식하게 된다.
본 명세서에 사용되는 바와 같이, 용어 "결정하는 것" (및 그 문법적 변형들) 은 매우 넓은 의미로 사용된다. 용어 "결정하는 것" 은 매우 다양한 액션들을 포함하며, 따라서 "결정하는 것" 은 계산하는 것, 컴퓨팅하는 것, 프로세싱하는 것, 도출하는 것, 조사하는 것, 룩업하는 것 (예를 들어, 테이블, 데이터베이스 또는 다른 데이터 구조에서 룩업하는 것), 확인하는 것 등을 포함할 수 있다. 또한, "결정하는 것" 은 수신하는 것 (예를 들어, 정보를 수신하는 것), 액세스하는 것 (예를 들어, 메모리 내의 데이터에 액세스하는 것) 등을 포함할 수 있다. 또한, "결정하는 것" 은 해결하는 것, 선택하는 것, 선정하는 것, 확립하는 것 등을 포함할 수 있다.
용어 "신호 프로세싱" (및 그 문법적 변형들) 은 신호들의 프로세싱 및 해석을 지칭한다. 관심 신호들은 사운드, 이미지들 및 기타 다수를 포함할 수도 있다. 그러한 신호들의 프로세싱은 저장, 재구성, 노이즈로부터의 정보의 분리, 압축 및 피쳐 추출을 포함할 수도 있다. 용어 "디지털 신호 프로세싱" 은 이들 신호들의 프로세싱 방법들 및 디지털 표현에서의 신호들의 연구를 지칭할 수도 있다. 디지털 신호 프로세싱은 이동국들, 비이동국들 및 인터넷과 같은 많은 통신 기술들의 엘리먼트이다. 디지털 신호 프로세싱을 위해 이용되는 알고리즘은 디지털 신호 프로세서들 (때때로 DSP들로서 약칭됨) 로 불리는 특수 마이크로프로세서들을 사용할 수도 있는, 특수 컴퓨터들을 사용하여 수행될 수도 있다.
달리 표시되지 않으면, 특정 피쳐를 갖는 장치의 동작의 임의의 개시는 또한 유사 피쳐를 갖는 방법을 개시하는 것으로 명백히 의도되며 (그리고 그 역 또한 같음), 특정 구성에 따른 장치의 동작의 임의의 개시는 또한 유사 구성에 따른 방법을 개시하는 것으로 명백히 의도된다 (그리고 그 역 또한 같음).
도 4는 무선 통신 시스템에서 일 예의 이동국 (400) 의 설계의 블록 다이어그램을 나타낸다. 이동국 (400) 은 셀룰러 폰, 단말기, 핸드셋, PDA, 무선 모뎀, 코드리스 전화기 등일 수도 있다. 무선 통신 시스템은 CDMA 시스템, GSM 시스템 등일 수도 있다.
이동국 (400) 은 수신 경로 및 송신 경로를 통해 양방향 통신을 제공할 수 있다. 수신 경로 상에서, 기지국들에 의해 송신된 신호들은 안테나 (412) 에 의해 수신되고 수신기 (RCVR)(414) 에 제공된다. 수신기 (414) 는 수신된 신호를 컨디셔닝 및 디지털화하고 샘플들을 추가 프로세싱을 위해 디지털 섹션 (420) 에 제공한다. 송신 경로 상에서, 송신기 (TMTR)(416) 는 디지털 섹션 (420) 으로부터 송신되는 데이터를 수신하고, 그 데이터를 프로세싱하고 컨디셔닝하며, 변조된 신호를 생성하며, 이는 안테나 (412) 를 통해 기지국들로 송신된다. 수신기 (414) 및 송신기 (416) 는 CDMA, GSM 등을 지원할 수도 있는 트랜시버의 부분일 수도 있다.
디지털 섹션 (420) 은, 예를 들어, 모뎀 프로세서 (422), 축소 명령 세트 컴퓨터/디지털 신호 프로세서 (RISC/DSP)(424), 제어기/프로세서 (426), 내부 메모리 (428), 일반적인 오디오 인코더 (432), 일반적인 오디오 디코더 (434), 그래픽/디스플레이 프로세서 (436), 및 외부 버스 인터페이스 (EBI)(438) 와 같은, 다양한 프로세싱, 인터페이스 및 메모리 유닛들을 포함한다. 모뎀 프로세서 (422) 는 데이터 송신 및 수신을 위한 프로세싱, 예를 들어 인코딩, 변조, 복조 및 디코딩을 수행할 수도 있다. RISC/DSP (424) 는 무선 디바이스 (400) 를 위한 일반적인 그리고 특수한 프로세싱을 수행할 수도 있다. 제어기/프로세서 (426) 는 디지털 섹션 (420) 내의 다양한 프로세싱 및 인터페이스 유닛들의 동작을 지시할 수도 있다. 내부 메모리 (428) 는 디지털 섹션 (420) 내의 다양한 유닛들의 데이터 및/또는 명령들을 저장할 수도 있다
일반적인 오디오 인코더 (432) 는 오디오 소스 (442), 마이크로폰 (443) 등으로부터의 입력 신호들의 인코딩을 수행할 수도 있다. 일반적인 오디오 디코더 (434) 는 코딩된 오디오 데이터의 디코딩을 수행할 수도 있고 출력 신호들을 스피커/헤드셋 (444) 에 제공할 수도 있다. 그래픽/디스플레이 프로세서 (436) 는 디스플레이 유닛 (446) 에 나타낼 수도 있는, 그래픽들, 비디오들, 이미지들, 및 텍스트들의 프로세싱을 수행할 수도 있다. EBI (438) 는 디지털 섹션 (420) 과 메인 메모리 (448) 사이의 데이터 전송을 용이하게 할 수도 있다.
디지털 섹션 (420) 은 하나 이상의 프로세서들, DSP들,마이크로프로세서들, RISC들 등에 의해 구현될 수도 있다. 디지털 섹션 (420) 은 또한 하나 이상의 주문형 집적 회로(ASIC)들 및/또는 일부 다른 유형의 집적 회로(IC)들 상에 제조될 수도 있다.
도 5는 예시의 구현들 및 양태들이 구현될 수도 있는 예시적인 컴퓨팅 환경을 나타낸다. 컴퓨팅 시스템 환경은 단지 적절한 컴퓨팅 환경의 일 예일 뿐이고 기능성 또는 사용의 범위로서의 어떠한 한정을 제안하고자 하는 것은 아니다.
컴퓨터에 의해 실행되는 프로그램 모듈과 같은, 컴퓨터 판독가능 명령들이 사용될 수도 있다. 일반적으로, 프로그램 모듈들은, 특정 태스크들을 수행하거나 특정 추상 데이터 유형을 구현하는 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등을 포함한다. 분산된 컴퓨팅 환경들은, 통신 네트워크 또는 다른 데이터 송신 매체를 통해 링크되는, 원격 프로세싱 디바이스들에 의해 태스크가 수행되는 곳에서 이용될 수도 있다 분산된 컴퓨팅 환경에서, 프로그램 모듈들 및 다른 데이터는 메모리 저장 디바이스들을 포함하는 로컬 및 원격 컴퓨터 저장 매체의 양자에 위치될 수도 있다.
도 5를 참조하면, 본 명세서에 개시된 양태들을 구현하는 예시적인 시스템은 컴퓨팅 디바이스 (500) 와 같은 컴퓨팅 디바이스를 포함한다. 가장 기본적인 구성에서, 컴퓨팅 디바이스 (500) 는 일반적으로 적어도 하나의 프로세싱 유닛 (502) 및 메모리 (504) 를 포함한다. 컴퓨팅 디바이스의 정확한 구성 및 유형에 의존하여, 메모리 (504) 는 (랜덤 액세스 메모리 (RAM) 와 같은) 휘발성, (리드 온니 메모리 (ROM), 플래시 메모리 등과 같은) 비휘발성, 또는 이 2개의 일부 조합일 수도 있다. 이러한 가장 기본적인 구성은 파선 (506) 으로 도 5에 도시된다.
컴퓨팅 디바이스 (500) 는 부가적인 피쳐들 및/또는 기능성을 가질 수도 있다. 예를 들어, 컴퓨팅 디바이스 (500) 는 자기 또는 광학 디스크들 또는 테이프를 포함하는 부가적인 스토리지 (탈착식 및/또는 비탈착식) 를 포함할 수도 있지만 이에 한정되지 않는다. 그러한 부가적인 스토리지는 탈착식 스토리지 (508) 및 비탈착식 스토리지 (510) 로 도 5에 도시된다.
컴퓨팅 디바이스 (500) 는 일반적으로 다양한 컴퓨터 판독가능 매체들을 포함한다. 컴퓨터 판독가능 매체는 디바이스 (500) 에 의해 액세스될 수 있고 휘발성 및 비휘발성 매체들, 및 탈착식 및 비탈착식 매체들을 포함할 수 있는 임의의 이용가능한 매체들일 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보의 저장을 위해 임의의 방법 또는 기술에서 구현되는 휘발성 및 비휘발성, 그리고 탈착식 및 비탈착식 매체들을 포함한다. 메모리 (504), 탈착식 스토리지 (508), 및 비탈착식 스토리지 (510) 는 모두 컴퓨터 저장 매체의 예들이다. 컴퓨터 저장 매체는 RAM, ROM, 전기적 소거가능 프로그램가능 리드온니 메모리 (EEPROM), 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크 (DVD) 또는 다른 광학 스토리지, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 디스트 디바이스들 또는 원하는 정보를 저장하기 위해 사용될 수 있고 컴퓨팅 디바이스 (500) 에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만 이에 한정되지 않는다. 임의의 그러한 컴퓨터 저장 매체는 컴퓨팅 디바이스 (500) 의 부분일 수도 있다.
컴퓨팅 디바이스 (500) 는 디바이스가 다른 디바이스들과 통신할 수 있도록 하는 통신 접속(들)(512) 을 포함할 수도 있다. 컴퓨팅 디바이스 (500) 는 또한 키보드, 마우스, 펜, 보이스 입력 디바이스, 터치 입력 디바이스 등과 같은 입력 디바이스(들)(514) 를 가질 수도 있다. 디스플레이, 스피커, 프린터 등과 같은 출력 디바이스(들)(516) 이 또한 포함될 수도 있다. 이러한 모든 디바이스들은 종래에 잘 알려져 있고 여기서에 길게 논의될 필요는 없다.
일반적으로, 본 명세서에 기재된 임의의 디바이스는 무선 또는 유선 폰, 셀룰러 폰, 랩탑 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 PC 카드, PDA 외부 또는 내부 모뎀, 무선 또는 유선 채널 등을 통해 통신하는 디바이스와 같은, 다양한 유형의 디바이스들을 나타낼 수도 있다. 디바이스는 액세스 단말기 (AT), 액세스 유닛, 가입자 유닛, 이동국, 이동 디바이스, 이동 유닛, 이동 전화, 이동, 원격국, 원격 단말기, 원격 유닛 사용자 디바이스, 사용자 장비, 핸드헬드 디바이스, 비이동국, 비이동 디바이스, 엔드포인트 등과 같은 다양한 명칭을 가질 수도 있다. 본 명세서에 개시된 임의의 디바이스는 명령들 및 데이터를 저장하는 메모리 뿐만 아니라 하드웨어, 소프트웨어, 펌웨어 또는 그 조합을 가질 수도 있다.
본 명세서에 기재된 기법들은 다양한 수단에 의해 구현될 수도 있다. 예를 들어, 이들 기법들은 하드웨어, 펌웨어, 소프트웨어 또는 그 조합에서 구현될 수도 있다. 당업자는 본 명세서의 개시물과 관련하여 기재된 다양한 예시적인 로직 블록들, 모듈들, 회로들 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어 또는 양자의 조합으로서 구현될 수도 있다. 하드웨어 및 소프트웨어의 이러한 호환성을 명확히 예시하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들은 일반적으로 그 기능성 면에서 위에서 기재되었다. 그러한 기능성이 하드웨어로서 구현되는지 또는 소프트웨어로서 구현되는지는 전체 시스템에 부과된 특정 애플리케이션 및 디자인 제약들에 의존한다. 당업자는 그 기재된 기능성을 각각의 특정 애플리케이션에 대해 다양한 방식들로 구현할 수도 있지만, 그러한 구현 결정들은 본 개시물의 범위로부터의 일탈을 야기하는 것으로서 해석되지 않아야 한다.
하드웨어 구현에 대하여, 그 기법들을 수행하기 위해 사용되는 프로세싱 유닛은 하나 이상의 ASIC들, DSP들, 디지털 신호 프로세싱 디바이스(DSPD)들, 프로그램가능 로직 디바이스(PLD)들, FPGA들, 프로세서들, 제어기들, 마이크로 제어기들, 마이크로프로세서들, 전자 디바이스들, 본 명세서에 기재된 기능들을 수행하기 위해 설계된 다른 전자 유닛들, 컴퓨터 또는 그 조합 내에서 구현될 수도 있다.
따라서, 본 명세서의 개시물과 관련하여 기재된 다양한 예시적인 로직 블록들, 모듈들 및 회로들은 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그램가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트 또는 본 명세서에 기재된 기능들을 수행하기 위해 설계된 그 임의의 조합에 의해 구현되거나 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안으로, 프로세서는 임의의 종래 프로세서, 제어기, 마이크로제어기 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어 DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 접속하는 하나 이상의 마이크로프로세서들 또는 임의의 다른 그러한 구성으로서 구현될 수도 있다.
펌웨어 및/또는 소프트웨어 구현에 대하여, 그 기법들은, RAM, ROM, 비휘발성 RAM, 프로그램가능 ROM, EEPROM, 플래시 메모리, 컴팩 디스크 (CD), 자기 또는 광학 데이터 저장 디바이스 등과 같은, 컴퓨터 판독가능 매체 상에 명령들로서 포함될 수도 있다. 그 명령들은 하나 이상의 프로세서에 의해 실행가능할 수도 있고, 프로세서(들)로 하여금 본 명세서에 기재된 기능성의 소정의 양태들을 수행하게 할 수도 있다.
소프트웨어로 구현되는 경우, 그 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장될 수도 있고 이를 통해 송신될 수도 있다. 컴퓨터 판독가능 매체는 하나의 장소에서 다른 장소로의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하는 통신 매체 및 컴퓨터 저장 매체의 양자를 포함한다. 저장 매체는 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 사용가능한 매체일 수도 있다. 한정이 아닌 예로서, 이러한 컴퓨터 판독가능 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지, 또는 다른 자기 스토리지 디바이스들, 또는 원하는 프로그램 코드 수단을 명령들 또는 데이터 구조들의 형태로 전달하거나 또는 저장하는데 사용될 수 있고 범용 또는 특수 목적 컴퓨터, 또는 범용 또는 특수 목적 프로세서에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속은 적당히 컴퓨터 판독가능 매체라 할 수 있다. 예를 들어, 소프트웨어가 웹 사이트, 서버, 또는 공축 케이블, 광파이버 케이블, 꼬임쌍선, 디지털 가입자 라인 (DSL), 또는 적외선, 무선 및 마이크로파와 같은 무선 기술들을 이용하는 다른 원격 소스로부터 전송되면, 공축 케이블, 광파이버 케이블, 꼬임쌍선, DSL, 또는 적외선, 무선 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다. 디스크 (disk) 및 디스크 (disc) 는, 본 명세서에서 사용한 바와 같이, CD, 레이저 디스크, 광 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크 및 블루-레이 디스크를 포함하며, 여기서 디스크 (disk) 들은 보통 데이터를 자기적으로 재생시키는 한편, 디스크 (disc) 들은 레이저를 사용하여 데이터를 광학적으로 재생시킨다. 위의 조합들은 또한 비일시적 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.
소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 탈착식 디스크, CD-ROM, 또는 당업계에 알려진 저장 매체의 다른 형태에 상주할 수도 있다. 예시의 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독하고, 저장 매체에 정보를 기록할 수 있도록 프로세서에 커플링된다. 대안으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC에 상주할 수도 있다. ASIC은 사용자 단말기에 상주할 수도 있다. 대안으로, 프로세서 및 저장 매체는 사용자 단말기에 이산 컴포넌트들로서 상주할 수도 있다.
상기 개시물의 기재는 당업자가 본 개시물을 제조 또는 사용할 수 있도록 제공한다. 본 개시물에 대한 다양한 변경들은 당업자에게 용이하게 자명할 것이며, 본 명세서에서 정의된 일반적인 원리들은 본 개시물의 범위 또는 사상으로부터 벗어나지 않으면서 다른 변형물들에 적용될 수도 있다. 따라서, 본 개시물은 본 명세서에 기재된 예들에 한정하고자 하는 것이 아니라 본 명세서에 개시된 원리들 및 신규한 특징들과 부합하는 최광의 범위를 부여받아야 하는 것이다.
예시적인 구현들이 하나 이상의 독립형 컴퓨터 시스템의 맥락에서 현재 개시된 청구물의 양태들을 사용하는 것을 언급할 수도 있지만, 청구물은 그렇게 한정되는 것이 아니라 오히려 네트워크 또는 분산된 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 관련하여 구현될 수도 있다. 다시 한번, 현재 개시된 청구물의 양태들은 복수의 프로세싱 칩들 또는 디바이스들 내에서 또는 이들을 통해 구현될 수도 있고, 스토리지는 복수의 디바이스들을 통해 유사하게 작용될 수도 있다. 그러한 디바이스들은 예를 들어 PC들, 네트워크 서버들 및 핸드헬드 디바이스들을 포함할 수도 있다.
청구물이 구조적 피쳐들 및/또는 방법론적 동작들에 특정되는 언어로 기재되었지만, 첨부된 청구항들에서 정의되는 청구물은 상기 기재된 특정 피쳐들 또는 동작들에 반드시 한정되지 않는다. 오히려, 위에 기재된 특정 피쳐들 및 동작들은 청구항들을 구현하는 예시의 형태들로서 개시된다.

Claims (50)

  1. 제 1 분류자에서 오디오 신호의 부분을 수신하는 단계;
    상기 제 1 분류자에서 상기 오디오 신호의 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 단계;
    상기 부분이 상기 제 1 분류자에 의해 스피치로서 분류된다면, 제 1 코딩 모드를 사용하여 상기 스피치를 인코딩하는 단계; 및
    상기 부분이 상기 제 1 분류자에 의해 뮤직으로서 분류된다면:
    상기 부분을 제 2 분류자에 제공하고;
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하고;
    상기 부분이 상기 제 2 분류자에서 스피치로서 분류된다면, 상기 부분을 제 2 코딩 모드를 사용하여 인코딩하고; 그리고
    상기 부분이 상기 제 2 분류자에서 뮤직으로서 분류된다면, 상기 부분을 제 3 코딩 모드를 사용하여 인코딩하는 단계
    를 포함하는, 방법.
  2. 제 1 항에 있어서,
    상기 오디오 신호의 상기 부분은 프레임인, 방법.
  3. 제 1 항에 있어서,
    상기 제 1 코딩 모드는 제 1 스피치 코더를 포함하고, 상기 제 2 코딩 모드는 제 2 스피치 코더를 포함하며, 상기 제 3 코딩 모드는 뮤직 코더를 포함하는, 방법.
  4. 제 3 항에 있어서,
    상기 제 1 스피치 코더는 코드 여기 선형 예측 (CELP) 형 코더이고, 상기 제 2 스피치 코더는 CELP/변환 하이브리드 코더이며, 상기 뮤직 코더는 변환 코더인, 방법.
  5. 제 1 항에 있어서,
    상기 부분을 제 2 분류자에 제공하기 전에 상기 제 2 분류자가 인에이블되는 지를 결정하고, 상기 제 2 분류자가 인에이블되지 않으면, 상기 부분을 상기 제 3 코딩 모드로 인코딩하는 단계를 더 포함하는, 방법.
  6. 제 1 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 단계는, 상기 부분의 복수의 피쳐들을 하나 이상의 임계치들과 비교하여 상기 부분이 뮤직의 특성들을 갖는지 또는 보이싱된 스피치의 특성들을 갖는지를 분류하는 단계를 포함하는, 방법.
  7. 제 6 항에 있어서,
    상기 뮤직의 특성들은 뮤직의 광대역 노이즈와 같은 특성들을 포함하고, 상기 보이싱된 스피치의 특성들은 보이싱된 스피치의 음조 (tonal) 특성들 또는 보이싱된 스피치의 준정적 (quasi-stationary) 특성들 중 적어도 하나를 포함하는, 방법.
  8. 제 1 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 단계는, 상기 부분의 보이싱을 제 1 임계치와 비교하는 단계, 수정된 상관관계를 제 2 임계치와 비교하는 단계, 또는 장기 피치 이득 (long term picth gain) 을 제 3 임계치와 비교하는 단계 중 적어도 하나를 포함하는, 방법.
  9. 제 8 항에 있어서,
    상기 보이싱은 스피치와 상관관계가 없는 것에 대응하는 0 부터 스피치와의 높은 상관관계에 대응하는 1 까지의 범위이고; 상기 수정된 상관관계는 랜덤 노이즈에 대응하는 0 부터 고도로 구조화된 사운드에 대응하는 1 까지의 범위이고; 상기 장기 피치 이득은 과거 여기 (excitation) 와 현재 예측 잔류 사이의 정규화된 상호 상관관계이며; 그리고 상기 장기 피치 이득은 과거 부분에서의 에러가 현재 부분을 나타내는데 적당하지 않은 것을 표시하는 0 부터 과거 부분에서의 잔류 에러가 현재 부분을 완전히 나타낼 수 있는 것을 표시하는 1 까지의 범위인, 방법.
  10. 제 1 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 단계는, 상기 부분에서 임의의 신호 활동이 있는지를 결정하고, 신호 활동이 없다면, 인코딩하기에 유용한 신호가 없음을 결정하고 상기 부분을 스피치로서 인코딩하는 단계를 포함하는, 방법.
  11. 제 1 분류자에서 오디오 신호의 부분을 수신하는 수단;
    상기 제 1 분류자에서 상기 오디오 신호의 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 수단;
    상기 부분이 상기 제 1 분류자에 의해 스피치로서 분류되는 경우 제 1 코딩 모드를 사용하여 상기 스피치를 인코딩하는 수단;
    상기 부분이 상기 제 1 분류자에 의해 뮤직으로서 분류될 때 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 수단;
    상기 부분이 상기 제 2 분류자에서 스피치로서 분류될 때 상기 부분을 제 2 코딩 모드를 사용하여 인코딩하는 수단; 및
    상기 부분이 상기 제 2 분류자에서 뮤직으로서 분류될 때 상기 부분을 제 3 코딩 모드를 사용하여 인코딩하는 수단을 포함하는, 장치.
  12. 제 11 항에 있어서,
    상기 오디오 신호의 상기 부분은 프레임인, 장치.
  13. 제 11 항에 있어서,
    상기 제 1 코딩 모드는 제 1 스피치 코더를 포함하고, 상기 제 2 코딩 모드는 제 2 스피치 코더를 포함하며, 상기 제 3 코딩 모드는 뮤직 코더를 포함하는, 장치.
  14. 제 13 항에 있어서,
    상기 제 1 스피치 코더는 코드 여기 선형 예측 (CELP) 형 코더이고, 상기 제 2 스피치 코더는 CELP/변환 하이브리드 코더이며, 상기 뮤직 코더는 변환 코더인, 장치.
  15. 제 11 항에 있어서,
    상기 부분을 제 2 분류자에 제공하기 전에 상기 제 2 분류자가 인에이블되는 지를 결정하고, 상기 제 2 분류자가 인에이블되지 않으면, 상기 부분을 상기 제 3 코딩 모드로 인코딩하는 수단을 더 포함하는, 장치.
  16. 제 11 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 수단은, 상기 부분의 복수의 피쳐들을 하나 이상의 임계치들과 비교하여 상기 부분이 뮤직의 특성들을 갖는지 또는 보이싱된 스피치의 특성들을 갖는지를 분류하는 수단을 포함하는, 장치.
  17. 제 16 항에 있어서,
    상기 뮤직의 특성들은 뮤직의 광대역 노이즈와 같은 특성들을 포함하고, 상기 보이싱된 스피치의 특성들은 보이싱된 스피치의 음조 (tonal) 특성들 또는 보이싱된 스피치의 준정적 (quasi-stationary) 특성들 중 적어도 하나를 포함하는, 장치.
  18. 제 11 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 수단은, 상기 부분의 보이싱을 제 1 임계치와 비교하는 수단, 수정된 상관관계를 제 2 임계치와 비교하는 수단, 또는 장기 피치 이득 (long term picth gain) 을 제 3 임계치와 비교하는 수단 중 적어도 하나를 포함하는, 장치.
  19. 제 18 항에 있어서,
    상기 보이싱은 스피치와 상관관계가 없는 것에 대응하는 0 부터 스피치와의 높은 상관관계에 대응하는 1 까지의 범위이고; 상기 수정된 상관관계는 랜덤 노이즈에 대응하는 0 부터 고도로 구조화된 사운드에 대응하는 1 까지의 범위이고; 상기 장기 피치 이득은 과거 여기 (excitation) 와 현재 예측 잔류 사이의 정규화된 상호 상관관계이며; 그리고 상기 장기 피치 이득은 과거 부분에서의 에러가 현재 부분을 나타내는데 적당하지 않은 것을 표시하는 0 부터 과거 부분에서의 잔류 에러가 현재 부분을 완전히 나타낼 수 있는 것을 표시하는 1 까지의 범위인, 장치.
  20. 제 11 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 수단은, 상기 부분에서 임의의 신호 활동이 있는지를 결정하고, 신호 활동이 없다면, 인코딩하기에 유용한 신호가 없음을 결정하고 상기 부분을 스피치로서 인코딩하는 수단을 포함하는, 장치.
  21. 컴퓨터 판독가능 명령들을 포함하는 비일시적 컴퓨터 판독가능 매체로서,
    상기 명령들은 프로세서로 하여금:
    제 1 분류자에서 오디오 신호의 부분을 수신하게 하고;
    상기 제 1 분류자에서 상기 오디오 신호의 상기 부분을 스피치로서 또는 뮤직으로서 분류하게 하고;
    상기 부분이 상기 제 1 분류자에 의해 스피치로서 분류된다면, 제 1 코딩 모드를 사용하여 상기 스피치를 인코딩하게 하며; 그리고
    상기 부분이 상기 제 1 분류자에 의해 뮤직으로서 분류된다면:
    상기 부분을 제 2 분류자에 제공하고;
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하고;
    상기 부분이 상기 제 2 분류자에서 스피치로서 분류된다면, 상기 부분을 제 2 코딩 모드를 사용하여 인코딩하고; 그리고
    상기 부분이 상기 제 2 분류자에서 뮤직으로서 분류된다면, 상기 부분을 제 3 코딩 모드를 사용하여 인코딩하게 하는, 비일시적 컴퓨터 판독가능 매체.
  22. 제 21 항에 있어서,
    상기 오디오 신호의 상기 부분은 프레임인, 비일시적 컴퓨터 판독가능 매체.
  23. 제 21 항에 있어서,
    상기 제 1 코딩 모드는 제 1 스피치 코더를 포함하고, 상기 제 2 코딩 모드는 제 2 스피치 코더를 포함하며, 상기 제 3 코딩 모드는 뮤직 코더를 포함하는, 비일시적 컴퓨터 판독가능 매체.
  24. 제 23 항에 있어서,
    상기 제 1 스피치 코더는 코드 여기 선형 예측 (CELP) 형 코더이고, 상기 제 2 스피치 코더는 CELP/변환 하이브리드 코더이며, 상기 뮤직 코더는 변환 코더인, 비일시적 컴퓨터 판독가능 매체.
  25. 제 21 항에 있어서,
    상기 프로세서로 하여금 상기 부분을 제 2 분류자에 제공하기 전에 상기 제 2 분류자가 인에이블되는지를 결정하게 하고, 상기 제 2 분류자가 인에이블되지 않으면, 상기 부분을 상기 제 3 코딩 모드로 인코딩하게 하는 명령들을 더 포함하는, 비일시적 컴퓨터 판독가능 매체.
  26. 제 21 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 것은, 상기 부분의 복수의 피쳐들을 하나 이상의 임계치들과 비교하여 상기 부분이 뮤직의 특성들을 갖는지 또는 보이싱된 스피치의 특성들을 갖는지를 분류하는 것을 포함하는, 비일시적 컴퓨터 판독가능 매체.
  27. 제 26 항에 있어서,
    상기 뮤직의 특성들은 뮤직의 광대역 노이즈와 같은 특성들을 포함하고, 상기 보이싱된 스피치의 특성들은 보이싱된 스피치의 음조 (tonal) 특성들 또는 보이싱된 스피치의 준정적 (quasi-stationary) 특성들 중 적어도 하나를 포함하는, 비일시적 컴퓨터 판독가능 매체.
  28. 제 21 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 것은, 상기 부분의 보이싱을 제 1 임계치와 비교하는 것, 수정된 상관관계를 제 2 임계치와 비교하는 것, 또는 장기 피치 이득 (long term picth gain) 을 제 3 임계치와 비교하는 것 중 적어도 하나를 포함하는, 비일시적 컴퓨터 판독가능 매체.
  29. 제 28 항에 있어서,
    상기 보이싱은 스피치와 상관관계가 없는 것에 대응하는 0 부터 스피치와의 높은 상관관계에 대응하는 1 까지의 범위이고; 상기 수정된 상관관계는 랜덤 노이즈에 대응하는 0 부터 고도로 구조화된 사운드에 대응하는 1 까지의 범위이고; 상기 장기 피치 이득은 과거 여기 (excitation) 와 현재 예측 잔류 사이의 정규화된 상호 상관관계이며; 그리고 상기 장기 피치 이득은 과거 부분에서의 에러가 현재 부분을 나타내는데 적당하지 않은 것을 표시하는 0 부터 과거 부분에서의 잔류 에러가 현재 부분을 완전히 나타낼 수 있는 것을 표시하는 1 까지의 범위인, 비일시적 컴퓨터 판독가능 매체.
  30. 제 21 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 것은, 상기 부분에서 임의의 신호 활동이 있는지를 결정하고, 신호 활동이 없다면, 인코딩하기에 유용한 신호가 없음을 결정하고 상기 부분을 스피치로서 인코딩하는 것을 포함하는, 비일시적 컴퓨터 판독가능 매체.
  31. 제 1 분류자에서 오디오 신호의 부분을 수신하고;
    상기 제 1 분류자에서 상기 오디오 신호의 상기 부분을 스피치로서 또는 뮤직으로서 분류하고;
    상기 부분이 상기 제 1 분류자에 의해 스피치로서 분류된다면, 제 1 코딩 모드를 사용하여 상기 스피치를 인코딩하며; 그리고
    상기 부분이 상기 제 1 분류자에 의해 뮤직으로서 분류된다면:
    상기 부분을 제 2 분류자에 제공하고;
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하고;
    상기 부분이 상기 제 2 분류자에서 스피치로서 분류된다면, 상기 부분을 제 2 코딩 모드를 사용하여 인코딩하고; 그리고
    상기 부분이 상기 제 2 분류자에서 뮤직으로서 분류된다면, 상기 부분을 제 3 코딩 모드를 사용하여 인코딩하도록
    구성된, 프로세서.
  32. 제 31 항에 있어서,
    상기 오디오 신호의 상기 부분은 프레임인, 프로세서.
  33. 제 31 항에 있어서,
    상기 제 1 코딩 모드는 제 1 스피치 코더를 포함하고, 상기 제 2 코딩 모드는 제 2 스피치 코더를 포함하며, 상기 제 3 코딩 모드는 뮤직 코더를 포함하는, 프로세서.
  34. 제 33 항에 있어서,
    상기 제 1 스피치 코더는 코드 여기 선형 예측 (CELP) 형 코더이고, 상기 제 2 스피치 코더는 CELP/변환 하이브리드 코더이며, 상기 뮤직 코더는 변환 코더인, 프로세서.
  35. 제 31 항에 있어서,
    상기 프로세서는 또한, 상기 부분을 제 2 분류자에 제공하기 전에 상기 제 2 분류자가 인에이블되는지를 결정하고, 상기 제 2 분류자가 인에이블되지 않으면, 상기 부분을 상기 제 3 코딩 모드로 인코딩하도록 구성되는, 프로세서.
  36. 제 31 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 것은, 상기 부분의 복수의 피쳐들을 하나 이상의 임계치들과 비교하여 상기 부분이 뮤직의 특성들을 갖는지 또는 보이싱된 스피치의 특성들을 갖는지를 분류하는 것을 포함하는, 프로세서.
  37. 제 36 항에 있어서,
    상기 뮤직의 특성들은 뮤직의 광대역 노이즈와 같은 특성들을 포함하고, 상기 보이싱된 스피치의 특성들은 보이싱된 스피치의 음조 (tonal) 특성들 또는 보이싱된 스피치의 준정적 (quasi-stationary) 특성들 중 적어도 하나를 포함하는, 프로세서.
  38. 제 31 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 것은, 상기 부분의 보이싱을 제 1 임계치와 비교하는 것, 수정된 상관관계를 제 2 임계치와 비교하는 것, 또는 장기 피치 이득 (long term picth gain) 을 제 3 임계치와 비교하는 것 중 적어도 하나를 포함하는, 프로세서.
  39. 제 38 항에 있어서,
    상기 보이싱은 스피치와 상관관계가 없는 것에 대응하는 0 부터 스피치와의 높은 상관관계에 대응하는 1 까지의 범위이고; 상기 수정된 상관관계는 랜덤 노이즈에 대응하는 0 부터 고도로 구조화된 사운드에 대응하는 1 까지의 범위이고; 상기 장기 피치 이득은 과거 여기 (excitation) 와 현재 예측 잔류 사이의 정규화된 상호 상관관계이며; 그리고 상기 장기 피치 이득은 과거 부분에서의 에러가 현재 부분을 나타내는데 적당하지 않은 것을 표시하는 0 부터 과거 부분에서의 잔류 에러가 현재 부분을 완전히 나타낼 수 있는 것을 표시하는 1 까지의 범위인, 프로세서.
  40. 제 31 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 것은, 상기 부분에서 임의의 신호 활동이 있는지를 결정하고, 신호 활동이 없다면, 인코딩하기에 유용한 신호가 없음을 결정하고 상기 부분을 스피치로서 인코딩하는 것을 포함하는, 프로세서.
  41. 오디오 신호의 부분을 수신하고, 상기 오디오 신호의 상기 부분을 스피치로서 또는 뮤직으로서 분류하고, 상기 부분이 스피치로서 분류되면, 제 1 코딩 모드를 사용하여 상기 스피치를 인코딩하며, 상기 부분이 뮤직으로서 분류되면, 상기 부분을 제 2 분류자에 제공하는, 제 1 분류자; 및
    상기 부분이 상기 제 1 분류자에 의해 뮤직으로서 분류되는 경우, 상기 부분을 스피치로서 또는 뮤직으로서 분류하고, 상기 부분이 상기 제 2 분류자에서 스피치로서 분류되면, 상기 부분을 제 2 코딩 모드를 사용하여 인코딩하며, 상기 부분이 상기 제 2 분류자에서 뮤직으로서 분류되면, 상기 부분을 제 3 코딩 모드를 사용하여 인코딩하는, 상기 제 2 분류자
    를 포함하는, 시스템.
  42. 제 41 항에 있어서,
    상기 오디오 신호의 상기 부분은 프레임인, 시스템.
  43. 제 41 항에 있어서,
    상기 제 1 코딩 모드는 제 1 스피치 코더를 포함하고, 상기 제 2 코딩 모드는 제 2 스피치 코더를 포함하며, 상기 제 3 코딩 모드는 뮤직 코더를 포함하는, 시스템.
  44. 제 43 항에 있어서,
    상기 제 1 스피치 코더는 코드 여기 선형 예측 (CELP) 형 코더이고, 상기 제 2 스피치 코더는 CELP/변환 하이브리드 코더이며, 상기 뮤직 코더는 변환 코더인, 시스템.
  45. 제 41 항에 있어서,
    상기 부분을 제 2 분류자에 제공하기 전에 상기 제 2 분류자가 인에이블되는 지를 결정하고, 상기 제 2 분류자가 인에이블되지 않으면, 상기 부분을 상기 제 3 코딩 모드로 인코딩하는 것을 더 포함하는, 시스템.
  46. 제 41 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 것은, 상기 부분의 복수의 피쳐들을 하나 이상의 임계치들과 비교하여 상기 부분이 뮤직의 특성들을 갖는지 또는 보이싱된 스피치의 특성들을 갖는지를 분류하는 것을 포함하는, 시스템.
  47. 제 46 항에 있어서,
    상기 뮤직의 특성들은 뮤직의 광대역 노이즈와 같은 특성들을 포함하고, 상기 보이싱된 스피치의 특성들은 보이싱된 스피치의 음조 (tonal) 특성들 또는 보이싱된 스피치의 준정적 (quasi-stationary) 특성들 중 적어도 하나를 포함하는, 시스템.
  48. 제 41 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 것은, 상기 부분의 보이싱을 제 1 임계치와 비교하는 것, 수정된 상관관계를 제 2 임계치와 비교하는 것, 또는 장기 피치 이득 (long term picth gain) 을 제 3 임계치와 비교하는 것 중 적어도 하나를 포함하는, 시스템.
  49. 제 48 항에 있어서,
    상기 보이싱은 스피치와 상관관계가 없는 것에 대응하는 0 부터 스피치와의 높은 상관관계에 대응하는 1 까지의 범위이고; 상기 수정된 상관관계는 랜덤 노이즈에 대응하는 0 부터 고도로 구조화된 사운드에 대응하는 1 까지의 범위이고; 상기 장기 피치 이득은 과거 여기 (excitation) 와 현재 예측 잔류 사이의 정규화된 상호 상관관계이며; 그리고 상기 장기 피치 이득은 과거 부분에서의 에러가 현재 부분을 나타내는데 적당하지 않은 것을 표시하는 0 부터 과거 부분에서의 잔류 에러가 현재 부분을 완전히 나타낼 수 있는 것을 표시하는 1 까지의 범위인, 시스템.
  50. 제 41 항에 있어서,
    상기 제 2 분류자에서 상기 부분을 스피치로서 또는 뮤직으로서 분류하는 것은, 상기 부분에서 임의의 신호 활동이 있는지를 결정하고, 신호 활동이 없다면, 인코딩하기에 유용한 신호가 없음을 결정하고 상기 부분을 스피치로서 인코딩하는 것을 포함하는, 시스템.
KR1020147022400A 2012-01-13 2012-12-21 다중 코딩 모드 신호 분류 KR20140116487A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261586374P 2012-01-13 2012-01-13
US61/586,374 2012-01-13
US13/722,669 2012-12-20
US13/722,669 US9111531B2 (en) 2012-01-13 2012-12-20 Multiple coding mode signal classification
PCT/US2012/071217 WO2013106192A1 (en) 2012-01-13 2012-12-21 Multiple coding mode signal classification

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020177000172A Division KR20170005514A (ko) 2012-01-13 2012-12-21 다중 코딩 모드 신호 분류

Publications (1)

Publication Number Publication Date
KR20140116487A true KR20140116487A (ko) 2014-10-02

Family

ID=48780608

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020147022400A KR20140116487A (ko) 2012-01-13 2012-12-21 다중 코딩 모드 신호 분류
KR1020177000172A KR20170005514A (ko) 2012-01-13 2012-12-21 다중 코딩 모드 신호 분류

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020177000172A KR20170005514A (ko) 2012-01-13 2012-12-21 다중 코딩 모드 신호 분류

Country Status (12)

Country Link
US (1) US9111531B2 (ko)
EP (1) EP2803068B1 (ko)
JP (1) JP5964455B2 (ko)
KR (2) KR20140116487A (ko)
CN (1) CN104040626B (ko)
BR (1) BR112014017001B1 (ko)
DK (1) DK2803068T3 (ko)
ES (1) ES2576232T3 (ko)
HU (1) HUE027037T2 (ko)
IN (1) IN2014MN01588A (ko)
SI (1) SI2803068T1 (ko)
WO (1) WO2013106192A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
KR102561265B1 (ko) * 2012-11-13 2023-07-28 삼성전자주식회사 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
CN106409310B (zh) 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
CN104424956B9 (zh) 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
CN110992965B (zh) * 2014-02-24 2024-09-03 三星电子株式会社 信号分类方法和装置以及使用其的音频编码方法和装置
PL3594948T3 (pl) * 2014-05-08 2021-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Klasyfikator sygnału audio
CN107424621B (zh) * 2014-06-24 2021-10-26 华为技术有限公司 音频编码方法和装置
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
CN104867492B (zh) * 2015-05-07 2019-09-03 科大讯飞股份有限公司 智能交互系统及方法
KR102398124B1 (ko) 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
WO2017117234A1 (en) * 2016-01-03 2017-07-06 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
JP6996185B2 (ja) * 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
CN116149499B (zh) * 2023-04-18 2023-08-11 深圳雷柏科技股份有限公司 用于鼠标的多模式切换控制电路及切换控制方法

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR9206143A (pt) * 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US5778335A (en) 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
EP1959434B1 (en) * 1999-08-23 2013-03-06 Panasonic Corporation Speech encoder
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6625226B1 (en) * 1999-12-03 2003-09-23 Allen Gersho Variable bit rate coder, and associated method, for a communication station operable in a communication system
US6697776B1 (en) * 2000-07-31 2004-02-24 Mindspeed Technologies, Inc. Dynamic signal detector system and method
US6694293B2 (en) 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7363218B2 (en) * 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
AU2004319556A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US8010350B2 (en) 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
CN1920947B (zh) * 2006-09-15 2011-05-11 清华大学 用于低比特率音频编码的语音/音乐检测器
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
KR100925256B1 (ko) * 2007-05-03 2009-11-05 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
CN101393741A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种宽带音频编解码器中的音频信号分类装置及分类方法
CN101399039B (zh) * 2007-09-30 2011-05-11 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
CA2716817C (en) 2008-03-03 2014-04-22 Lg Electronics Inc. Method and apparatus for processing audio signal
CN101236742B (zh) * 2008-03-03 2011-08-10 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
WO2010003521A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and discriminator for classifying different segments of a signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR101261677B1 (ko) * 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法
CN101814289A (zh) * 2009-02-23 2010-08-25 数维科技(北京)有限公司 低码率dra数字音频多声道编码方法及其系统
JP5519230B2 (ja) * 2009-09-30 2014-06-11 パナソニック株式会社 オーディオエンコーダ及び音信号処理システム
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
WO2012109734A1 (en) 2011-02-15 2012-08-23 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec

Also Published As

Publication number Publication date
SI2803068T1 (sl) 2016-07-29
EP2803068B1 (en) 2016-04-13
BR112014017001A2 (pt) 2017-06-13
EP2803068A1 (en) 2014-11-19
JP2015507222A (ja) 2015-03-05
KR20170005514A (ko) 2017-01-13
IN2014MN01588A (ko) 2015-05-08
WO2013106192A1 (en) 2013-07-18
ES2576232T3 (es) 2016-07-06
BR112014017001A8 (pt) 2017-07-04
HUE027037T2 (en) 2016-08-29
US20130185063A1 (en) 2013-07-18
JP5964455B2 (ja) 2016-08-03
CN104040626A (zh) 2014-09-10
US9111531B2 (en) 2015-08-18
BR112014017001B1 (pt) 2020-12-22
DK2803068T3 (en) 2016-05-23
CN104040626B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
US9111531B2 (en) Multiple coding mode signal classification
CN101681627B (zh) 使用音调规则化及非音调规则化译码的信号编码方法及设备
CA2658560C (en) Systems and methods for modifying a window with a frame associated with an audio signal
CN101322182B (zh) 用于检测音调分量的系统、方法和设备
US8924222B2 (en) Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
JP5096474B2 (ja) オーディオ信号を符号化及び復号化する方法及び装置
KR20080083719A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
KR101892662B1 (ko) 스피치 처리를 위한 무성음/유성음 결정
JP2007534020A (ja) 信号符号化
ZA200606714B (en) Codings Model Selection
KR20150119151A (ko) 개인화된 대역폭 확장
Gong et al. Pitch delay based adaptive steganography for amr speech stream
Nishimura Data hiding in pitch delay data of the adaptive multi-rate narrow-band speech codec
TW201434033A (zh) 用於判定音調脈衝週期信號界限之系統及方法
KR20070017379A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
E601 Decision to refuse application
AMND Amendment
A107 Divisional application of patent
J201 Request for trial against refusal decision
J301 Trial decision

Free format text: TRIAL NUMBER: 2017101000042; TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20170103

Effective date: 20170421