KR20170102387A - 스피치 처리를 위한 무성음/유성음 결정 - Google Patents

스피치 처리를 위한 무성음/유성음 결정 Download PDF

Info

Publication number
KR20170102387A
KR20170102387A KR1020177024222A KR20177024222A KR20170102387A KR 20170102387 A KR20170102387 A KR 20170102387A KR 1020177024222 A KR1020177024222 A KR 1020177024222A KR 20177024222 A KR20177024222 A KR 20177024222A KR 20170102387 A KR20170102387 A KR 20170102387A
Authority
KR
South Korea
Prior art keywords
frame
unvoiced
parameter
speech
voiced
Prior art date
Application number
KR1020177024222A
Other languages
English (en)
Other versions
KR101892662B1 (ko
Inventor
양 가오
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20170102387A publication Critical patent/KR20170102387A/ko
Application granted granted Critical
Publication of KR101892662B1 publication Critical patent/KR101892662B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/93

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명의 일 실시예에 따르면, 스피치 처리 방법은 복수의 프레임을 포함하는 스피치 신호의 현재 프레임의 무성음/유성음 스피치의 특성을 반영하는 무성음/유성음 파라미터를 결정하는 단계를 포함한다. 평활화된 무성음/유성음 파라미터(smoothed unvoicing/voicing parameter)는 상기 스피치 신호의 현재 프레임 이전의 프레임의 상기 무성음/유성음 파라미터의 정보를 포함하기 위해 결정된다. 상기 무성음/유성음 파라미터와 상기 평활화된 무성음/유성음 파라미터 간의 차이가 계산된다. 상기 스피치 처리 방법은, 상기 계산된 차이를 결정 파라미터로서 사용하여 상기 현재 프레임이 무성음 스피치를 포함하는지 또는 유성음 스피치를 포함하는지를 판정하기 위한 무성음/유성음 결정 포인트를 생성하는 단계를 추가로 포함한다.

Description

스피치 처리를 위한 무성음/유성음 결정{UNVOICED/VOICED DECISION FOR SPEECH PROCESSING}
본 발명은 일반적으로 스피치 처리 기술 분야에 관한 것으로서, 구체적으로, 스피치 처리를 위한 무성음/유성음 결정에 관한 것이다.
스피치 코딩은 스피치 파일의 비트 레이트를 감소시키는 처리를 말한다. 스피치 코딩은 스피치를 포함하는 디지털 오디오 신호의 데이터 압축 애플리케이션이다. 스피치 코딩은, 스피치 신호를 모델링하기 위해, 결과 모델링 파라미터를 압축 비트스트림으로 나타내기 위한 범용의 데이터 압축 알고리즘과 결합되어, 오디오 신호 처리 기술을 이용하는 스피치-특정 파라미터 평가를 사용한다. 스피치 코딩의 목적은, 디코딩된(압축이 풀린) 스피치가 원본 스피치로부터 지각적으로 구별될 수 없도록 비트 당 샘플 수를 감소시켜, 필요한 메모리 저장 공간, 전송 대역폭 및 전송 전력의 절감을 달성하는 것이다.
그러나, 스피치 코더는 손실 있는 코더이며, 예컨대, 디코딩된 신호는 원본과 상이하다. 따라서, 스피치 코딩의 목적 중 하나는 주어진 비트 레이트로 왜곡(또는 인지할 수 있는 손실)을 최소화하거나, 또는 정해진 왜곡에 도달하도록 비트 레이트를 최소화하는 것이다.
스피치는 대부분의 다른 오디오 신호보다 훨씬 단순한 신호이며, 스피치의 속성들에 관하여 더 많은 통계적 정보가 이용 가능하다는 점에서, 스피치 코딩은 다른 형식의 오디오 코딩과 상이하다. 그 결과, 오디오 코딩에 관련된 일부 청각 정보는 스피치 코딩 콘텍스트에 불필요할 수 있다. 스피치 코딩에서, 가장 중요한 기준은, 제한된 양의 전송 데이터로 스피치의 “쾌적함(pleasantness)”과 명료함(intelligibility)을 보존하는 것이다.
스피치의 명료성은, 실제 문자 그대로의 콘텍스트 외에도, 화자의 아이덴티티, 감정, 인토네이션, 바이브레이션 등을 포함하고, 이들은 완전한 명료성을 위해 모두 중요하다. 열화된 스피치가 완전하게 명료할 수도 있는 것이지만, 경우에 따라서는 청자를 성가시게 할 수 있기 때문에, 열화된 스피치의 쾌적함의 더욱 추상적인 개념에서는 명료함과 다른 속성이다.
스피치 파형의 중복(redundancy)은, 유성 및 무성음 스피치 신호과 같은, 여러 상이한 유형의 스피치 신호에 대해 고려될 수 있다. 유성 사운드, 예컨대, ‘a’, ‘b’는 근본적으로 성대의 떨림으로 인한 것이며, 진동한다. 따라서, 짧은 시구간 동안, 이들은 정현파(sinusoid)와 같은 주기적 신호의 합에 의해 양호하게 모델링된다. 다시 말해, 유성음 스피치에 있어서, 스피치 신호는 기본적으로 주기적이다. 그러나, 이 주기성은 스피치 세그먼트의 기간 동안 가변적일 수 있고, 주기적 파형의 형상은 대체로 세그먼트마다 점차적으로 변한다. 저 비트 레이트 스피치 코딩은 이러한 주기성을 분석하여 이득을 얻을 수 있다. 유성음 스피치 주기는 피치(pitch)라고도 불리며, 피치 예측은 주로 롱-텀 예측(Long-Term Prediction, LTP)이라고 불린다. 반면, ‘s’, ‘sh’와 같은 무성 사운드는 잡음에 더 유사하다. 무성음 스피치 신호가 랜덤 잡음에 더 유사하고, 보다 적은 양의 예측 가능성을 가지기 때문이다.
일반적으로, 모든 파라매트릭 스피치 코딩 방법은, 전송해야 하는 정보의 양을 줄이고, 짧은 인터벌 동안 신호의 스피치 샘플의 파라미터를 추정하기 위해 스피치 신호에 내재된 중복을 이용하도록 한다. 이 중복은 주로, 준-주기적 레이트(quasi-periodic rate)로 스피치 파형 형상의 반복 및 스피치 신호의 느린 변화 스펙트럼 포락선(spectral envelop)으로부터 발생한다.
스피치 파형의 중복은, 유성음 및 무성음과 같은, 여러 상이한 유형의 스피치 신호에 대해 고려될 수 있다. 스피치 신호가 기본적으로 유성음 스피치에 대해 주기적이지만, 이 주기성은 스피치 세그먼트의 기간 동안 가변적일 수 있고, 주기적 파형의 형상은 대체로 세그먼트마다 점차적으로 변한다. 저 비트 레이트 스피치 코딩은 이러한 주기성을 분석하여 이득을 얻을 수 있다. 유성음 스피치 주기는 피치(pitch)로도 불리며, 피치 예측은 주로 롱-텀 예측(Long-Term Prediction, LTP)으로도 불린다. 무성음 스피치에 대해서는, 신호가 랜덤 잡음에 더 가깝고, 적은 양의 예측 가능성을 가진다.
어느 경우에나, 파라매트릭 코딩은, 스피치 신호의 여기 컴포넌트를 스펙트럼 포락선 컴포넌트로부터 분리함으로써 스피치 세그먼트의 중복을 줄이는데 사용될 수 있다. 느리게 변하는 스펙트럼 포락선은 숏-텀 예측(Short-Term Prediction, STP)으로도 불리는 선형 예측 코딩(Linear Prediction Coding, LPC)에 의해 나타내어질 수 있다. 저 비트 레이트 스피치 코딩은 이러한 숏-텀 예측을 분석하여 이득을 얻을 수 있다. 코딩 이점은 파라미터가 변하는 느린 레이트로부터 발생한다. 다만, 파라미터가 몇 밀리초 내에서 유지된 값과 크게 다르게 되는 경우는 드물다. 이에 따라, 8 kHz, 12.8 kHz 또는 16 kHz의 샘플링 레이트에서, 스피치 코딩 알고리즘은, 명목 상의 프레임 기간이 10에서 30 밀리초의 범위 내에 있도록 한다. 20 밀리초의 프레임 기간은 가장 일반적인 선택이다.
G.723.1, G.729, G.718, 인핸스드 풀 레이트(Enhanced Full Rate, EFR), 선택 가능한 모드 보코더(Selectable Mode Vocoder, SMV), 적응 멀티-레이트(Adaptive Multi-Rate, AMR), 변동 레이트 멀티모드 광대역(Variable-Rate Multimode Wideband, VMR-WB), 또는 적응 멀티-레이트 광대역(Adaptive Multi-Rate Wideband, AMR-WB)와 같은 보다 최신의 알려진 표준에서는, 코드 여기 선형 예측 기술(Code Excited Linear Prediction Technique, CELP)이 적용되었다. CELP는 보통 코딩된 여기(Coded Excitation), 롱-텀 예측 및 숏-텀 예측의 기술적 조합으로 이해된다. CELP는 주로 특정 사람 음성 특성 또는 사람 보컬 음성 생성 모델로부터 이득을 얻어 스피치 신호를 인코딩하는데 사용된다. 상이한 코덱에 대한 CELP의 세부 사항은 매우 상이하지만, CELP 스피치 코딩은 스피치 압축 분야에서 매우 대중적인 알고리즘 원칙이다. 이 대중성으로 인해, CELP 알고리즘은 다양한 ITU-T, MPEG, 3GPP, 및 3GPP2 표준에서 사용되고 있다. CELP의 변형은 대수 CELP(algebraic CELP), 릴렉스드 CELP(relaxed CELP), 낮은 지연 CELP 및 벡터 합 여기 선형 예측(low-delay CELP and vector sum excited linear prediction), 등을 포함한다. CELP는 알고리즘의 클래스에 대한 범용 용어이며, 특정 코덱에 대한 것은 아니다.
CELP 알고리즘은 4가지 메인 아이디어에 기초한다. 첫째, 선형 예측(linear prediction, LP)을 통한 스피치 생성의 소스-필터 모델이 사용된다. 스피치 생성의 소스-필터 모델은 선형 음향 필터, 성도(vocal tract)(및 방사 특성) 및 성대와 같은 사운드 소스의 조합으로 스피치를 모델링한다. 스피치 생성의 소스-필터 모델의 구현에서, 사운드 소스 또는 여기 신호는 주로 유성음 스피치에 대한 주기적 임펄스 열(impulse train) 또는 무성음 스피치에 대한 백색 잡음으로 모델링된다. 둘째, 적응 및 고정 코드북은 LP 모델의 입력 (여기)로 사용된다. 셋째, 분석은 “지각적인 가중 도메인”의 폐-루프(closed-loop)에서 수행된다. 넷째, 벡터 양자화(vector quantization, VQ)가 적용된다.
본 발명의 일 실시예에 따르면, 스피치 처리 방법은, 복수의 프레임을 포함하는 스피치 신호의 현재 프레임의 무성음/유성음 스피치의 특성을 반영하는 무성음/유성음 파라미터를 결정하는 단계를 포함한다. 평활화된 무성음/유성음 파라미터(smoothed unvoicing/voicing parameter)가 상기 스피치 신호의 현재 프레임 이전의 프레임의 상기 무성음/유성음 파라미터의 정보를 포함하기 위해 결정된다. 상기 무성음/유성음 파라미터와 상기 평활화된 무성음/유성음 파라미터 간의 차이가 계산된다. 상기 스피치 처리 방법은, 상기 계산된 차이를 결정 파라미터로서 사용하여 상기 현재 프레임이 무성음 스피치를 포함하는지 또는 유성음 스피치를 포함하는지를 판정하는 무성음/유성음 결정 포인트를 생성하는 단계를 추가로 포함한다.
다른 실시예에서, 스피치 처리 장치는 프로세서; 및 상기 프로세서에 의한 실행을 위해 프로그래밍을 저장하는 컴퓨터로 판독 가능한 저장 매체를 포함한다. 상기 프로그래밍은, 복수의 프레임을 포함하는 스피치 신호의 현재 프레임의 무성음/유성음 스피치의 특성을 반영하는 무성음/유성음 파라미터를 결정하는 명령; 및 상기 스피치 신호의 현재 프레임 이전의 프레임의 상기 무성음/유성음 파라미터의 정보를 포함하기 위해 평활화된 무성음/유성음 파라미터를 결정하는 명령을 포함한다. 상기 프로그래밍은, 상기 무성음/유성음 파라미터와 상기 평활화된 무성음/유성음 파라미터 간의 차이를 계산하는 명령; 및 상기 계산된 차이를 결정 파라미터로서 사용하여 상기 현재 프레임이 무성음 스피치를 포함하는지 또는 유성음 스피치를 포함하는지를 판정하는 무성음/유성음 결정 포인트를 생성하는 명령을 추가로 포함한다.
다른 실시예에서, 스피치 처리 방법은, 스피치 신호의 현재 프레임에 대해, 시간 도메인에서 상기 스피치 신호의 제1 에너지 포락선으로부터 제1 주파수 대역에 대한 제1 파라미터를 결정하고, 및 상기 시간 도메인에서 스피치 신호의 제2 에너지 포락선으로부터 제2 주파수 대역에 대한 제2 파라미터를 결정하는 단계를 포함한다. 평활화된 제1 파라미터 및 평활화된 제2 파라미터가 상기 스피치 신호의 현재 프레임 이전의 프레임으로부터 결정된다. 상기 제1 파라미터는 상기 평활화된 제1 파라미터와 비교되고, 상기 제2 파라미터는 상기 평활화된 제2 파라미터와 비교된다. 무성음/유성음 결정 포인트는, 상기 비교를 결정 파라미터로서 사용하여 상기 현재 프레임이 무성음 스피치를 포함하는지 또는 유성음 스피치를 포함하는지를 판정하기 위해 생성된다.
본 발명 및 이들의 이점의 보다 완전한 이해를 위해, 첨부된 도면과 함께 이하의 설명을 참조할 수 있다.
도 1은, 본 발명의 실시예에 따른 저 주파수 대역 스피치 신호의 시간 도메인 에너지 평가를 도시한다.
도 2는, 본 발명의 실시예에 따른 고 주파수 대역 스피치 신호의 시간 도메인 에너지 평가를 도시한다.
도 3은, 본 발명의 일 실시예를 구현하는 종래의 CELP 인코더를 사용하여 원본 스피치의 인코딩 동안 수행되는 동작을 도시한다.
도 4는, 본 발명의 일 실시예를 구현하는 종래의 CELP 디코더를 사용하여 원본 스피치의 디코딩 동안 수행되는 동작을 도시한다.
도 5는, 본 발명의 실시예를 구현하는데 사용되는 종래의 CELP 인코더를 도시한다.
도 6은, 본 발명의 일 실시예에 따른 도 5의 인코더에 대응하는 기본적인 CELP 디코더를 도시한다.
도 7은, CELP 스피치 코딩의 고정된 코드북 또는 코딩된 여기 코드북을 구성하는 잡음과 유사한 후보 벡터를 도시한다.
도 8은, CELP 스피치 코딩의 고정된 코드북 또는 코딩된 여기 코드북을 구성하는 펄스와 유사한 후보 벡터를 도시한다.
도 9는, 유성음 스피치에 대한 여기 스펙트럼의 일 예시를 도시한다.
도 10은, 무성음 스피치에 대한 여기 스펙트럼의 일 예시를 도시한다.
도 11은, 배경 잡음 신호에 대한 여기 스펙트럼의 일 예시를 도시한다.
도 12a 및 도 12b는, 대역폭 확장을 가지는 주파수 도메인 인코딩/디코딩의 예시를 도시하며, 도 12a는 BWE 측 정보를 가지는 인코더를 도시하는 반면, 도 12b는 BWE를 가지는 디코더를 도시한다.
도 13a 내지 도 13c는 앞서 설명된 다양한 실시예에 따른 스피치 프로세싱 조작을 설명한다.
도 14는, 본 발명의 일 실시예에 따른 통신 시스템(10)을 도시한다.
도 15는, 여기서 개시된 장치 및 방법을 구현하는데 이용될 수 있는 처리 시스템의 블록도를 도시한다.
최신 오디어/스피치 디지털 신호 통신 시스템에서, 디지털 신호는 인코더에서 압축되고, 압축된 정보 또는 비트-스트림은 패키지화되어 통신 채널을 통해 프레임 단위로 디코더에 전송될 수 있다. 디코더는 압축된 정보를 수신하고, 오디오/스피치 디지털 신호를 획득하기 위해 이 압축된 데이터를 디코딩한다.
스피치 신호를 보다 효율적으로 인코딩하기 위해, 스피치 신호는 상이한 클래스로 분류될 수 있고, 각 클래스는 상이한 방식으로 인코딩된다. 예를 들어, G.718, VMR-WB, 또는 AMR-WB와 같은 일부 표준에서, 스피치 신호는 UNVOICED, TRANSITION, GENERIC, VOICED, 및 NOISE로 분류된다.
유성음 스피치 신호는 신호의 준-주기적 유형이며, 이는 주로 고 주파수 영역에서 보다 저 주파수 영역에서 더 많은 에너지를 가진다. 반대로, 무성음 스피치 신호는 신호의 잡음-유사 신호이며, 이는 주로 저 주파수 영역에서 보다 고 주파수 영역에서 더 많은 에너지를 가진다. 유성음/무성음 분류 또는 무성음 결정은 스피치 신호 코딩, 스피치 신호 대역폭 확장(bandwidth extension, BWE), 스피치 신호 향상 및 스피치 신호 배경 잡음 감소(noise reduction, NR)의 분야에서 널리 사용된다.
스피치 코딩에서, 무성음 스피치 신호와 유성음 스피치 신호는 상이한 방식으로 인코딩/디코딩될 수 있다. 스피치 신호 대역폭 확장에서, 무성음 스피치 신호의 확장된 고 대역 신호 에너지는 유성음 스피치 신호의 확장된 고 대역 신호 에너지와 상이하게 제어될 수 있다. 스피치 신호 배경 잡음 감소에서, NR 알고리즘은 유성음 스피치 신호와 무성음 스피치 신호에 대해 상이할 수 있다. 따라서, 로버스트(robust) 무성음 결정은 전술한 유형의 애플리케이션에 있어서 중요하다.
본 발명의 실시예는, 스피치 코딩, 대역폭 확장, 및/또는 스피치 향상 작동(speech enhancement operation)에 앞서 오디오 신호를 유성음 신호 또는 무성음 신호로 분류하는 정확성을 향상시킨다. 따라서, 본 발명의 실시예는 스피치 신호 코딩, 스피치 신호 대역폭 확장, 스피치 신호 향상 및 스피치 신호 배경 잡음 감소에 적용될 수 있다. 구체적으로, 본 발명의 실시예는 대역폭 확장의 ITU-T AMR-WB 스피치 코더의 표준을 향상시키는데 사용될 수 있다.
본 발명의 실시예에 따라 오디오 신호를 유성음 신호 또는 무성음 신호로 분류하는 정확성을 향상시키는데 사용되는 스피치 신호의 특성의 실례는 도 1 및 도 2를 이용하여 설명될 것이다. 스피치 신호는 2가지 체제로 평가된다: 아래의 실례의 저 주파수 대역 및 고 주파수 대역.
도 1은, 본 발명의 실시예에 따른 저 주파수 대역 스피치 신호의 시간 도메인 에너지 평가를 도시한다.
저 주파수 대역 스피치의 시간 도메인 에너지 포락선(1101)은 시간에 따라 평활화된 에너지 포락선이고, 무성음 스피치 영역(1103) 및 유성음 스피치 영역(1104)에 의해 분리된 제1 배경 잡음 영역(1102) 및 제2 배경 잡음 영역(1105)을 포함한다. 유성음 스피치 영역(1104)의 저 주파수 유성음 스피치 신호는 무성음 스피치 영역(1103)의 저 주파수 무성음 스피치 신호보다 높은 에너지를 갖는다. 또한, 저 주파수 무성음 스피치 신호는 저 주파수 배경 잡음 신호에 비해 높거나 가까운 에너지를 갖는다.
도 2는, 본 발명의 실시예에 따른 고 주파수 대역 스피치 신호의 시간 도메인 에너지 평가를 도시한다.
도 1과 달리, 고 주파수 스피치 신호는 상이한 특성을 갖는다. 시간에 따라 평활화된 에너지 포락선인, 고 대역 스피치 신호(1201)의 시간 도메인 에너지 포락선은, 무성음 스피치 영역(1203) 및 유성음 스피치 영역(1204)에 의해 분리된 제1 배경 잡음 영역(1202) 및 제2 배경 잡음 영역(1205)을 포함한다. 고 주파수 유성음 스피치 신호는 고 주파수 무성음 스피치 신호보다 낮은 에너지를 갖는다. 고 주파수 무성음 스피치 신호는 고 주파수 배경 잡음 신호에 비해 더 높은 에너지를 갖는다. 그러나, 고 주파수 무성음 스피치 신호(1203)는 무성음 스피치(1204)보다 상대적으로 짧은 기간을 갖는다.
본 발명의 실시예는 시간 도메인의 상이한 주파수 대역에서의 무성음 스피치와 유성음 스피치 사이의 특성의 이 차이를 활용한다. 예를 들어, 현재 프레임의 신호는, 신호의 에너지가 고 대역이 아닌 저 대역에서 대응하는 무성음 신호보다 높은 것으로 판정함으로써, 유성음 신호인 것으로 식별될 수 있다. 유사하게, 현재 프레임의 신호는, 신호의 에너지가 저 대역에서 대응하는 유성음 신호보다 낮으나, 고 대역에서 대응하는 유성음 신호보다 높은 것으로 판정함으로써, 무성음 신호인 것으로 식별될 수 있다.
일반적으로, 2개의 주요 파라미터가 무성음/유성음 스피치 신호를 검출하는데 사용된다. 하나의 파라미터는 신호 주기성을 나타내고, 다른 파라미터는 스펙트랄 틸트를 나타내며, 이는 주파수가 증가함에 따라 강도가 떨어지는 정도이다.
대중적인 신호 주기성 파라미터는 아래의 방정식 (1)으로 규정된다.
Figure pat00001
방정식 (1)에서, 은 가중 스피치 신호이고, 분자는 상관관계이고, 분모는 에너지 정규화 인자이다. 주기성 파라미터는 “피치 상관관계” 또는 “유성음(voicing)”으로도 불린다. 다른 예시에서 유성음 파라미터는 아래의 방정식 (2)로 규정된다.
Figure pat00002
(2)에서, ep(n)와 ec(n)는 여기 컴포넌트 신호이고, 추가로 아래와 같이 설명될 것이다. 다양한 애플리케이션에서, 방정식 (1)과 (2)의 일부 변형이 사용될 수 있으나, 이들은 여전이 신호 주기성을 나타낼 수 있다.
가장 대중적인 스펙트랄 틸트 파라미터는 아래의 방정식 (3)으로 규정된다.
Figure pat00003
방정식 (3)에서, s(n)은 스피치 신호이다. 주파수 도메인 에너지가 이용 가능한 경우, 스펙트랄 틸트 파라미터는 방정식 (4)로 설명될 수 있다.
Figure pat00004
방정식 (4)에서, ELB 는 저 주파수 대역 에너지이고, EHB 는 고 주파수 대역 에너지이다.
스펙트랄 틸트를 반영할 수 있는 다른 파라미터는 제로-크로스 레이트(Zero-Cross Rate, ZCR)로 불린다. ZCR은 프레임 또는 서브프레임 상의 증/감의 신호 변화 레이트를 카운트한다. 주로, 고 주파수 대역 에너지가 저 주파수 대역 에너지에 비해 높은 경우, ZCR도 높다. 그 외에, 고 주파수 대역 에너지가 저 주파수 대역 에너지에 비해 낮은 경우, ZCR도 낮다. 실제 애플리케이션에서, 방정식 (3)과 (4)의 일부 변형이 사용될 수 있으나, 이들은 여전히 스펙트랄 틸트를 나타낼 수 있다.
이전에 설명한 바와 같이, 무성음/유성음 분류 또는 무성음/유성음 결정은 스피치 신호 코딩, 스피치 신호 대역폭 확장(BWE), 스피치 신호 향상 및 스피치 신호 배경 잡음 감소(NR)의 분야에서 널리 사용된다.
스피치 코딩에서, 차후에 설명될 바와 같이, 무성음 스피치 신호는 잡음-유사 여기를 이용하여 코딩될 수 있고, 유성음 스피치 신호는 펄스-유사 여기로 코딩될 수 있다. 스피치 신호 대역폭 확장에서, 무성음 스피치 신호의 확장된 고 대역 신호 에너지는 증가될 수 있는 반면, 유성음 스피치 신호의 확장된 고 대역 신호 에너지는 감소될 수 있다. 스피치 신호 배경 잡음 감소(NR)에서, NR 알고리즘은 무성음 스피치 신호에 대해 덜 활동적이며(aggressive), 유성음 스피치 신호에 대해 더 활동적일 수 있다. 따라서, 로버스트 무성음 또는 유성음 결정은 전술한 유형의 애플리케이션에 중요하다. 무성음 스피치 및 유성음 스피치의 특성에 기초하여, 주기성 파라미터 Pvoicing와 스펙트랄 틸트 파라미터 Ptilt 모두 또는 이들의 변형 파라미터는 무성음/유성음 클래스를 검출하는데 주로 사용된다. 그러나, 본 출원의 발명자는, 주기성 파라미터 Pvoicing와 스펙트랄 틸트 파라미터 Ptilt 또는 이들의 변형 파라미터의 “절대(absolute) 값이 스피치 신호 레코딩 장치, 배경 잡음 레벨, 및/또는 스피커에 의해 영향 받는다는 것을 습득했다. 이러한 영향은 사전 결정되기 어려워서, 비-로버스트(un-robust) 무성음/유성음 스피치 검출을 야기할 가능성이 있다.
본 발명의 실시예는, “절대” 값 대신 , 주기성 파라미터 Pvoicing와 스펙트랄 틸트 파라미터 Ptilt 또는 이들의 변형 파라미터의 “상대(relative)” 값을 사용하는 개선된 무성음/유성음 스피치 검출을 설명한다. “상대” 값은 “절대” 값보다 스피치 신호 레코딩 장치, 배경 잡음 레벨, 및/또는 스피커에 의해 훨씬 적게 영향을 받아서, 더 많은 로버스트 무성음/유성음 스피치 검출을 야기한다.
예를 들어, 조합된 무성음 파라미터가 아래의 방정식 (5)로 정의될 수 있다.
Figure pat00005
방정식 (5)의 마지막 부분의 점들은 다른 파라미터가 추가될 수 있다는 것을 나타낸다. Pc _ unvoicing의 “절대” 값이 커지는 경우, 무성음 스피치 신호일 확률이 크다. 조합된 무성음 파라미터가 아래의 방정식 (6)으로 설명될 수 있다.
Figure pat00006
방정식 (6)의 마지막 부분의 점들은 다른 파라미터가 추가될 수 있다는 것을 나타낸다. Pc _voicing의 “절대” 값이 커지는 경우, 유성음 스피치 신호일 확률이 크다. Pc _ unvoicing 또는 Pc _voicing의 “상대” 값이 정의되기 전에, Pc _ unvoicing 또는 Pc_voicing의 강하게 평활화된 파라미터(strongly smoothed parameter)가 먼저 정의된다. 예를 들어, 현재 프레임의 파라미터는 아래의 방정식 (7)의 부등식으로 설명되는 바와 같이 이전 프레임으로부터 평활화될 수 있다.
Figure pat00007
(7)
방정식 (7)에서, Pc_unvoicing_sm는 Pc_unvoicing의 강하게 평활화된 값이다.
유사하게, 평활화된 조합된 유성음 파라미터 Pc _voicing_sm는 방정식 (8)을 이용한 아래의 부등식을 이용하여 결정될 수 있다.
Figure pat00008
(8)
여기서, 방정식 (8)에서, Pc_voicing_sm는 Pc_voicing의 강하게 평활화된 값이다.
유성음 스피치의 통계적 반응은 무성음 스피치의 통계적 반응과 상이하며, 따라서 다양한 실시예에서, 전술한 부등식을 결정하는 파라미터(예컨대, 0.9, 0.99, 7/8, 255/256)가 결정될 수 있고, 나아가 필요한 경우에는 경험에 기초하여 개량된다.
Pc _ unvoicing 또는 Pc _voicing의 “상대” 값은 아래에 설명되는 방정식 (9)와 (10)으로 정의될 수 있다.
Figure pat00009
Pc_unvoicing_diff는 Pc_unvoicing의 "상대" 값이고; 유사하게,
Figure pat00010
Pc_unvoicing는 Pc_voicing의 "상대" 값이다.
아래의 부등식은 무성음 검출에 적용되는 예시 실시예이다. 이 예시 실시예에서, 플래그 Unvoiced_ flagTRUE 로 설정하는 것은 스피치 신호가 무성음 스피치이라는 것을 나타내는 반면, 플래그 Unvoiced_ flagFALSE 로 설정하는 것은 스피치 신호가 무성음 스피치가 아니라는 것을 나타낸다.
Figure pat00011
아래의 부등식은 유성음 검출에 적용되는 예시 실시예이다. 이 예시 실시예에서, 플래그 Voiced_ flagTRUE 로 설정하는 것은 스피치 신호가 유성음 스피치이라는 것을 나타내는 반면, 플래그 Voiced_ flagFALSE 로 설정하는 것은 스피치 신호가 유성음 스피치가 아니라는 것을 나타낸다.
Figure pat00012
VOICED 클래스로부터 스피치 신호를 식별한 후, 스피치 신호가 CELP와 같은 시간 도메인 코딩 접근으로 코딩될 수 있다. 본 발명의 실시예는 인코딩 전에 UNVOICED 신호를 VOICED 신호로 재분류하는데 적용될 수도 있다.
다양한 실시예에서, 전술한 개선된 무성음/유성음 검출 알고리즘은 AMR-WB-BWE 및 NR를 개선하는데 사용될 수 있다.
도 3은, 본 발명의 일 실시예를 구현하는 종래의 CELP 인코더를 사용하여 원본 스피치의 인코딩 동안 수행되는 동작을 도시한다.
도 3은, 합성된 스피치(102)과 원본 스피치(101) 간의 가중 에러(weighted error)(109)가 주로 합성에 의한 분석 접근(analysis-by-synthesis approach)을 이용하여 최소화되는 종래의 초기 CELP 인코더를 도시하며, 이는 인코딩 (분석)이 폐-루프에서 디코딩된 (합성) 신호를 지각적으로 최적화하여 수행된다는 것을 의미한다.
모든 스피치 코더가 활용하는 기본 원칙은 스피치 신호가 상당히 연관된 파형이라는 사실이다. 실례로, 스피치는 아래의 방정식 (11)에서와 같이 자기 회귀(autoregressive, AR) 모델을 이용하여 나타낼 수 있다.
Figure pat00013
방정식 (11)에서, 각 샘플은 이전 L개의 샘플의 선형 조합에 백색 잡음을 더한 것으로 나타내어진다. 가중 계수 a1, a2, ... aL는 선형 예측 계수(Linear Prediction Coefficients, LPC)로 불린다. 각 프레임에 대해, 전술한 모델을 이용하여 생성된 {X1, X2, ... , XN}의 스펙트럼이 입력 스피치 프레임의 스펙트럼과 가깝게 매칭될 수 있도록, 가중 계수 a1, a2, ... aL이 선택된다.
그 외에, 스피치 신호는 하모닉 모델과 잡음 모델의 조합에 의해 나타내어질 수도 있다. 모델의 하모닉 부분은 사실상 신호의 주기적 요소의 퓨리에 급수 표현이다. 일반적으로, 유성음 신호에 대해, 스피치의 하모닉 플러스 잡음 모델은 하모닉과 잡음 모두의 혼합으로 구성된다. 유성음 스피치의 하모닉과 잡음의 비율은 주파수, 스피치 세그먼트 특성(예컨대, 스피치 세그먼트가 어느 정도 주기적인지), 및 말하는 사람 특징(예컨대, 말하는 사람의 음성이 어느 정도 정상인지 어느 정도 호흡음(breathy)이 있는지)을 포함하는 많은 인자에 의존한다. 더 높은 주파수의 유성음 스피치는 더 높은 비율의 잡음-유사 컴포넌트를 갖는다.
선형 예측 모델과 하모닉 잡음 모델은 스피치 신호를 모델링하고 코딩하는 2가지 메인 방법이다. 선형 예측 모델은 구체적으로 스피치의 스펙트럼 포락선을 모델링하는데 좋은 반면, 하모닉 잡음 모델은 스피치의 견고한 구조를 모델링하는데 좋다. 2가지 방법은 이들의 상대적인 강점에서 이득을 얻도록 조합될 수 있다.
앞서 지시된 바와 같이, CELP 코딩 전, 헤드셋의 마이크로폰에의 입력 신호는, 예컨대 초당 8000 샘플의 레이트로 필터링되고 샘플링된다. 각 샘플은 그 후, 예컨대 샘플당 13 비트로 양자화된다. 샘플링된 스피치는 20 ms의 프레임 또는 세그먼트로 분할된다(예컨대, 이 경우에는 160 샘플).
스피치 신호가 분석되고, 이것의 LP 모델, 여기 신호 및 피치가 추출된다. LP 모델은 스피치의 스펙트럼 포락선을 나타낸다. 이것은 선 스펙트럼 주파수(line spectral frequencies, LSF) 계수의 세트로 변환되고, 이는 LSF 계수는 양호한 양자화 속성을 가지기 때문에, 선형 예측 파라미터의 다른 표현이다. LSF 계수는 스칼라 양자화될 수 있거나, 또는 보다 효율적으로는 이전에 트레이닝된(trained) LSF 벡터 코드북을 이용하여 벡터 양자화될 수 있다.
코드-여기(code-excitation)는 코드벡터를 포함하는 코드북을 포함하고, 이는 각 코드벡터가 거의 화이트 스펙트럼을 가질 수 있도록 모두 독립적으로 선택되는 컴포넌트를 갖는다. 입력 스피치의 각 서브프레임에 대해, 각 코드벡터는 숏-텀 선형 예측 필터(103)과 롱-텀 예측 필터(105)를 통해 필터링되고, 출력은 스피치 샘플과 비교된다. 각 서브프레임에서, 출력이 입력 스피치와 가장 매칭하는(최소한의 에러) 코드벡터는 그 서브프레임을 나타내기 위해 선택된다.
코딩된 여기(108)는 일반적으로 펄스-유사 신호 또는 잡음-유사 신호를 포함하며, 이는 코드북에 수학적으로 구성되거나 저장된다. 코드북은 인코더와 수신 디코더 모두에 이용 가능하다. 스토캐스틱(stochastic) 또는 고정된 코드북일 수 있는, 코딩된 여기(108)는 (명시적으로 또는 내재적으로) 코덱으로 하드-코딩된(hard-coded) 벡터 양자화 딕셔너리(vector quantization dictionary)일 수 있다. 이러한 고정된 코드북은 대수적 코드-여기 선형 예측일 수 있거나 또는 명시적으로 저장될 수 있다.
코드북에서의 코드벡터는 입력 스피치의 에너지와 동일한 에너지를 만들기 위해 적절한 게인에 의해 조정된다. 이에 따라, 코딩된 여기(108)의 출력은, 선형 필터를 거치기 전에, 게인 Gc (107)에 의해 조정된다.
숏-텀 선형 예측 필터(103)는 입력 스피치의 스펙트럼과 유사하도록 코트벡터의 ‘화이트’ 스펙트럼을 구체화(shape)한다. 동일하게, 시간 도메인에서, 숏-텀 선형 예측 필터(103)는 숏-텀 상관관계(이전 샘플과의 상관관계)를 화이트 시퀀스에 포함시킨다. 여기를 구체화하는 필터는 형식 1/A(z)(숏-텀 선형 예측 필터(103))의 모든-폴 모델을 가지며, 여기서 A(z)는 예측 필터로 불리고 선형 예측(예컨대, 레빈슨-더빈 알고리즘(Levinson-Durbin algorithm))을 이용하여 획득될 수 있다. 하나 이상의 실시예에서, 모든-폴 필터는 사람 성도(vocal tract)의 양호한 표현이며 계산하기 용이하기 때문에, 모든-폴 필터가 사용될 수 있다.
숏-텀 선형 예측 필터(103)는 원본 신호(101)을 분석하여 획득되며 계수의 세트에 의해 나타내어진다:
Figure pat00014
앞서 설명한 바와 같이, 유성음 스피치의 영역은 롱 텀 주기성을 보인다. 피치로 알려진 이 주기는 피치 필터 1/(B(z))에 의해 합성된 스펙트럼에 소개된다. 롱-텀 예측 필터(105)의 출력은 피치와 피치 게인에 의존한다. 하나 이상의 실시예에서, 피치는 원본 신호, 잔여 신호 또는 가중 원본 신호로부터 추정된다. 하나의 실시예에서, 롱-텀 예측 기능 (B(z))은 다음과 같이 방정식 (13)을 이용하여 표현될 수 있다.
Figure pat00015
가중 필터(110)는 전술한 숏-텀 예측 필터와 연관된다. 전형적인 가중 필터 중 하나는 방정식 (14)에서 설명되는 것과 같이 나타내어질 수 있다.
Figure pat00016
여기서,
Figure pat00017
이다.
다른 실시예에서, 가중 필터 W(z)는, 아래의 방정식 (15)의 한 실시예에서 설명되는 바와 같이 대역폭 확장의 사용에 의해 LPC 필터로부터 파생될 수 있다.
Figure pat00018
방정식 (15)에서, γ1 > γ2이고, 이는 폴이 원점(origin)에서 앞으로 이동된 인자이다.
이에 따라, 스피치의 모든 프레임에 대해, LPC와 피치가 계산되고 필터가 업데이트된다. 스피치의 모든 서브프레임에 대해, ‘최적의’ 필터링된 출력을 생산하는 코드벡터는 서브프레임을 대표하기 위해 선택된다. 게인의 대응하는 양자화된 값은 적절한 디코딩을 위해 디코더에 전송되어야 한다. LPC와 피치 값은 또한 양자화되어야 하며, 디코더에서 필터를 복원하기 위해 모든 프레임마다 전송되어야 한다. 이에 따라, 코딩된 여기 인덱스, 양자화된 게인 인덱스, 양자화된 롱-텀 예측 파라미터 인덱스 및 양자화된 숏-텀 예측 파라미터 인덱스는 디코더에 전송된다.
도 4는, 본 발명의 일 실시예를 구현하는 종래의 CELP 디코더를 사용하여 원본 스피치의 디코딩 동안 수행되는 동작을 도시한다.
스피치 신호는 대응하는 필터를 통해 수신된 코드벡터를 통과함으로써 디코더에서 복원된다. 그 결과, 포스트-프로세싱을 제외한 모든 블록은 도 3의 인코더에서 설명된 바와 같이 동일한 정의를 갖는다.
코딩된 CELP 비트스트림은 수신 장치에서 수신되고 언팩(unpacked)된다. 수신된 각 서브프레임에 대해, 수신된 코딩된 여기 인덱스, 양자화된 게인 인덱스, 양자화된 롱-텀 예측 파라미터 인덱스 및 양자화된 숏-텀 예측 파라미터 인덱스는 대응하는 디코더, 예컨대 게인 디코더(81), 롱-텀 예측 디코더(82) 및 쇼-텀 예측 디코더(83)를 이용하여 대응하는 파라미터를 찾는데 사용된다. 예를 들면, 코드-여기(402)의 대수적 코드 벡터와 여기 펄스의 위치 및 진폭 사인은 수신된 코딩된 여기 인덱스로부터 결정될 수 있다.
도 4을 참조하면, 디코더는 코딩된 여기(201), 롱-텀 예측(203), 숏-텀 예측(205)을 포함하는 여러 블록의 조합이다. 초기 디코더는 합성된 스피치(206) 후에 포스트-프로세싱 블록(207)을 추가로 포함한다. 포스트-프로세싱은 숏-텀 포스트-프로세싱과 롱-텀 포스트-프로세싱을 추가로 포함할 수 있다.
도 5는, 본 발명의 실시예를 구현하는데 사용되는 종래의 CELP 인코더를 도시한다.
도 5는 롱-텀 선형 예측을 향상시키기 위해 추가적인 적응 코드북을 사용하는 기본 CELP 인코더를 도시한다. 여기는 적응 코드북(307)과 코드 여기(308)로부터 기여도를 합산하여 생산되며, 이는 앞서 설명된 바와 같이 스토캐스틱(stochastic) 또는 고정된 코드북일 수 있다. 적응 코드북 내의 엔트리는 여기의 지연된 버전을 포함한다. 이것은 유성음 사운드와 같은 주기적 신호를 효율적으로 코딩할 수 있도록 한다.
도 5을 참조하면, 적응 코드북(307)은 피치 주기에서 반복 과거 여기 피치 사이클 및 과거 합성된 여기(304)를 포함한다. 피치 래그(Pitch lag)는 이것이 크거나 긴 경우 정수 값으로 인코딩될 수 있다. 피치 래그는 이것이 작거나 짧은 경우 주로 보다 정확한 분수 값으로 인코딩된다. 피치의 주기적 정보는 여기의 적응 컴포넌트를 생성하기 위해 이용된다. 이 여기 컴포넌트는 게인 Gp(35)(피치 게인으로도 불림)에 의해 조정된다.
롱-텀 예측은, 유성음 스피치가 강한 주기성을 가지기 때문에, 유성음 스피치 코딩에 있어서 매우 중요한 역할을 가진다. 유성음 스피치의 가까운 피치 사이클은 서로 유사하며, 이는 수학적으로 이하의 여기 표현에서의 피치 게인 Gp이 높거나 또는 1에 가깝다는 것을 의미한다. 결과 여기는 개별적 여기의 조합으로써 방정식 (16)로 표현될 수 있다.
Figure pat00019
여기서 ep(n)는 피드백 루프를 통해 과거 여기(304)를 포함하는 적응 코드북(307)으로부터 오는, n에 의해 인덱스되는 샘플 시리즈의 하나의 서브프레임이다(도 5). ep(n)는, 저 주파수 영역이 주로 고 주파수 영역보다 더 주기적이거나 또는 더 하모닉이기 때문에, 적응적으로 저역 통과 필터인될 수 있다. ec(n)는 현재 여기 기여도인 코딩된 여기 코드북(308)(고정된 코드북이라고도 불림)으로부터 온 것이다. 나아가, ec(n)는 예컨대 고역 통과 필터링 향상, 피치 향상, 확산 향상, 포먼트(formant) 향상, 등을 이용하여 향상될 수도 있다.
유성음 스피치에 대해, 적응 코드북(307)에서의 ep(n)의 기여도가 지배적이며, 피치 게인 Gp(305)는 값 1 정도이다. 여기는 대체로 각 서브프레임에 대해 업데이트된다. 전형적인 프레임 크기는 20 밀리초이며 전형적인 서브프레임 크기는 5 밀리초이다.
도 3에서 설명된 바와 같이, 고정된 코딩된 여기(308)는 선형 필터를 통과하기 전에 게인 Gc(306)에 의해 조정된다. 고정된 코딩된 여기(108)와 적응 코드북(307)으로부터의 2개의 조정된 여기 컴포넌트는 숏-텀 선형 예측 필터(303)를 통해 필터링하기 전에 함께 추가된다. 2개의 게인(Gp 및 Gc)은 양자화되어 디코더에 전송된다. 이에 따라, 코딩된 여기 인덱스, 적응 코드북 인덱스, 양자화된 게인 인덱스, 및 양자화된 숏-텀 예측 파라미터 인덱스는 수신 오디오 장치에 전송된다.
도 5에 도시된 장치를 이용하여 코딩된 CELP 비트스트림은 수신 장치에서 수신된다. 도 6은 수신 장치의 대응하는 디코더를 도시한다.
도 6은, 본 발명의 일 실시예에 따른 도 5의 인코더에 대응하는 기본적인 CELP 디코더를 도시한다. 도 6은 메인 디코더로부터 합성된 스피치(407)을 수신하는 포스트-프로세싱 블록(408)을 포함한다. 이 디코더는 적응 코드북(307)을 제외하고 도 2와 유사하다.
수신된 각 서브프레임에 대해, 수신된 코딩된 여기 인덱스, 양자화된 코딩된 게인 인덱스, 양자화된 게인 인덱스, 양자화된 피치 인덱스, 양자화된 적응 코드북 게인 인덱스 및 양자화된 숏-텀 예측 파라미터 인덱스는 대응하는 디코더, 예컨대 게인 디코더(81), 피치 디코더(84), 적응 코드북 게인 디코더(85) 및 숏-텀 예측 디코더(83)를 이용하여 대응하는 파라미터를 찾는데 사용된다.
다양한 실시예에서, CELP 디코더는 여러 블록의 조합이고, 코딩된 여기(402), 적응 코드북(401), 숏-텀 예측(406) 및 포스트-프로세싱(408)을 포함한다. 포스트-프로세싱을 제외한 모든 블록은 도 5의 인코더에서 설명된 바와 같이 동일한 정의를 가진다. 포스트-프로세싱은 숏-텀 포스트-프로세싱과 롱-텀 포스트-프로세싱을 추가로 포함할 수 있다.
이미 언급한 바와 같이, CELP는 주로 특정 사람 음성 특성 또는 사람 보컬 음성 생성 모델로부터 이득을 얻어 스피치 신호를 인코딩하는데 사용된다. 보다 효율적으로 스피치 신호를 인코딩하기 위해, 스피치 신호는 상이한 클래스로 분류될 수 있고, 각 클래스는 상이한 방식으로 인코딩된다. 유성음/무성음 분류 또는 무성음/유성음 결정은 상이한 클래스의 모든 분류 중에서 중요하고 기본적인 분류일 수 있다. 각 클래스에 대해, LPC 또는 STP 필터는 항상 스펙트럼 포락선을 나타내는데 사용된다. 그러나, LPC 필터의 여기는 상이할 수 있다. 무성음 신호는 잡음-유사 여기와 함께 코딩될 수 있다. 반면에, 유성음 신호는 펄스-유사 여기와 함께 코딩될 수 있다.
코드-여기 블록(도 5의 라벨 308과 도 6의 라벨 402를 참조함)은 일반 CELP 코딩에 대해 고정된 코드북(Fixed Codebook, FCB)의 위치를 도시한다. FCB로부터의 선택된 코드 벡터는 주로 Gc (306)로 표시된 게인에 의해 조정된다.
도 7은, CELP 스피치 코딩의 고정된 코드북 또는 코딩된 여기 코드북을 구성하는 잡음과 유사한 후보 벡터를 도시한다.
잡음과 유사한 벡터를 포함하는 FCB는 지각적 품질 측면에서 무성음 신호에 대한 최적의 구조일 수 있다. 이것은 적응 코드북 기여도 또는 LTP 기여도가 작거나 존재하지 않을 수 있기 때문이며, 메인 여기 기여도는 무성음 클래스 신호에 대해 FCB 컴포넌트에 의존한다. 이 경우에, 펄스-유사 FCB가 사용되는 경우, 스피치 신호로 합성된 출력은 저 비트 레이트 코딩에 대해 설계된 펄스-유사 FCB로부터 선택된 코드 벡터에 제로가 많기 때문에 스피키(spiky)한 소리를 낼 수 있다.
도 7을 참조하면, FCB 구조는 코딩된 여기를 구성하기 위해 잡음과 유사한 후보 벡터를 포함한다. 잡음-유사 FCB(501)는 특정 잡음-유사 코드 벡터(502)를 선택하고, 이는 게인(503)에 의해 조정된다.
도 8은, CELP 스피치 코딩의 고정된 코드북 또는 코딩된 여기 코드북을 구성하는 펄스와 유사한 후보 벡터를 도시한다.
펄스-유사 FCB는 지각적 측면에서 유성음 클래스 신호에 대해 잡음-유사 FCB보다 양호한 품질을 제공한다. 이것은 적응 코드북 기여도 또는 LTP 기여도가 매우 주기적인 유성음 클래스 신호에 대해 지배적일 수 있으며 메인 여기 기여도는 유성음 클래스 신호에 대한 FCB 컴포넌트에 의존하지 않는다. 잡음-유사 FCB가 사용되는 경우, 스피치 신호로 합성된 출력은, 저 비트 레이트 코딩에 대해 설계된 잡음-유사 FCB로부터 선택된 코드 벡터를 사용하여 양호한 파형 매칭을 가지기 어렵기 때문에 시끄러운 소리가 나거나 덜 주기적일 수 있다.
도 8을 참조하면, FCB 구조는 코딩된 여기를 구성하기 위해 복수의 펄스와 유사한 후보 벡터를 포함할 수 있다. 펄스-유사 코드 벡터(602)는 펄스-유사 FCB(601)로부터 선택되고 게인(603)에 의해 조정된다.
도 9는 유성음 스피치에 대한 여기 스펙트럼의 일 예시를 도시한다. LPC 스펙트럼 포락선(704)을 제거한 후, 여기 스펙트럼(702)은 거의 편평하다. 저 대역 여기 스펙트럼(701)은 주로 고 대역 스펙트럼(703)보다 더 하모닉하다. 이론적으로, 이상적이거나 양자화되지 않은 고 대역 여기 스펙트럼은 저 대역 여기 스펙트럼과 거의 동일한 에너지 레벨을 가질 수 있다. 실제로는, 저 대역과 고 대역 모두 CELP 기술로 인코딩되는 경우, 합성되거나 양자화된 고 대역 스펙트럼은 적어도 2가지 이유로 합성되거나 양자화된 저 대역 스펙트럼보다 낮은 에너지 레벨을 가질 수 있다. 첫째, 폐-루프 CELP 코딩은 고 대역보다 저 대역을 더 강조한다. 둘째, 저 대역 신호에 대해 매칭하는 파형은, 고 대역 신호의 빠른 변화로 인한 것 뿐만 아니라 고 대역 신호의 보다 잡음과 유사한 특성으로 인해, 고 대역 신호보다 용이하다.
AMR-WB와 같은 저 비트 레이트 CELP 코딩은 대체로 인코딩되지 않으나, 대역폭 확장(BWE) 기술로 디코더에서 생성된다. 이 경우에, 고 대역 여기 스펙트럼은 일부 랜덤 잡음을 추가하면서 저 대역 여기 스펙트럼으로부터 간단하게 복사될 수 있다. 고 대역 스펙트럼 에너지 포락선은 저 대역 스펙트럼 에너지 포락선으로부터 예측되거나 추정될 수 있다. 고 대역 신호 에너지의 적절한 제어는 BWE가 사용되는 경우 중요해진다. 무성음 스피치 신호와 달리, 생성된 고 대역 유성음 스피치 신호의 에너지는 최적의 지각적 품질을 달성하기 위해 적절하게 감소되어야 한다.
도 10은, 무성음 스피치에 대한 여기 스펙트럼의 일 예시를 도시한다.
무성음 스피치의 경우에, 여기 스펙트럼(802)은 LPC 스펙트럼 포락선(804)을 제거한 후에는 거의 편평하다. 저 대역 여기 스펙트럼(801)과 고 대역 스펙트럼(803) 모두 잡음과 유사하다. 이론적으로, 이상적이거나 양자화되지 않은 고 대역 여기 스펙트럼은 저 대역 여기 스펙트럼과 거의 동일한 에너지 레벨을 가질 수 있다. 실제로는, 저 대역과 고 대역 모두 CELP 기술로 인코딩되는 경우, 합성되거나 양자화된 고 대역 스펙트럼은 2가지 이유로 합성되거나 양자화된 저 대역 스펙트럼과 동일하거나 약간 높은 에너지 레벨을 가질 수 있다. 첫째, 폐-루프 CELP 코딩은 높은 에너지 영역을 더 강조한다. 둘째, 저 대역 신호에 대해 매칭하는 파형이 고 대역 신호보다 용이하지만, 잡음과 유사한 신호에 대해 매칭하는 양호한 파형을 가지기 어렵다.
유성음 스피치 코딩과 유사하게, AMR-WB와 같은 무성음 저 비트 레이트 CELP 코딩에 대해, 고 대역은 대체로 인코딩되지 않으나 BWE 기술로 디코더에서 생성된다. 이 경우에, 무성음 고 대역 여기 스펙트럼은 일부 랜덤 잡음을 추가하면서 무성음 저 대역 여기 스펙트럼으로부터 간단하게 복사될 수 있다. 무성음 스피치 신호의 고 대역 스펙트럼 에너지 포락선은 저 대역 스펙트럼 에너지 포락선으로부터 예측되거나 추정될 수 있다. 무성음 고 대역 신호의 에너지를 적절하게 제어하는 것은 BWE가 사용되는 경우 특히 중요해진다. 유성음 스피치 신호와 달리, 생성된 고 대역 무성음 스피치 신호의 에너지는 최적의 지각적 품질을 달성하기 위해 적절하게 증가되는 것이 좋다.
도 11은, 배경 잡음 신호에 대한 여기 스펙트럼의 일 예시를 도시한다.
여기 스펙트럼(902)은 LPC 스펙트럼 포락선을 제거한 후에는 거의 편평하다. 저 대역 여기 스펙트럼(901)은 고 대역 스펙트럼(903)과 같이 대체로 잡음과 유사하다. 이론적으로, 배경 잡음 신호의 이상적이거나 양자화되지 않은 고 대역 여기 스펙트럼은 저 대역 여기 스펙트럼과 거의 동일한 에너지 레벨을 가질 수 있다. 실제로는, 저 대역과 고 대역 모두 CELP 기술로 인코딩되는 경우, 배경 잡음 신호의 합성되거나 양자화된 고 대역 스펙트럼은 2가지 이유로 합성되거나 양자화된 저 대역 스펙트럼보다 낮은 에너지 레벨을 가질 수 있다. 첫째, 폐-루프 CELP 코딩은 고 대역보다 높은 에너지를 가지는 저 대역을 더 강조한다. 둘째, 저 대역 신호에 대해 매칭하는 파형은, 고 대역 신호보다 용이하다. 스피치 코딩과 유사하게, 배경 잡음 신호의 저 비트 레이트 CELP 코딩에 대해, 고 대역은 대체로 인코딩되지 않으나, BWE 기술로 디코더에서 생성된다. 이 경우에, 배경 잡음 신호의 고 대역 여기 스펙트럼은 일부 랜덤 잡음을 추가하면서 저 대역 여기 스펙트럼으로부터 간단하게 복사될 수 있으며, 배경 잡음 신호의 고 대역 스펙트럼 에너지 포락선은 저 대역 스펙트럼 에너지 포락선으로부터 예측되거나 추정될 수 있다. 고 대역 배경 잡음 신호의 제어는 BWE가 사용되는 경우 스피치 신호와 상이할 수 있다. 스피치 신호와 달리, 생성된 고 대역 배경 잡음 신호의 에너지는 최적의 지각적 품질을 달성하기 위해 시간에 대해 안정화되는 것이 좋다.
도 12a 및 도 12b는, 대역폭 확장을 가지는 주파수 도메인 인코딩/디코딩의 예시를 도시한다. 도 12a는 BWE 측 정보를 가지는 인코더를 도시하는 반면, 도 12b는 BWE를 가지는 디코더를 도시한다.
도 12a을 먼저 참조하면, 저 대역 신호(1001)는 저 대역 파라미터(1002)를 사용하여 주파수 도메인에서 인코딩된다. 저 대역 파라미터(1002)가 양자화되고, 양자화 인덱스는 비트스트림 채널(1003)을 통해 수신 오디오 액세스 장치에 전송된다. 오디오 신호로부터 추출된 고 대역 신호(1004)는 고 대역 측 파라미터(1005)를 사용하여 작은 양의 비트로 인코딩된다. 양자화된 고 대역 측 파라미터(HB 측 정보 인덱스)는 비트스트림 채널(1006)을 통해 수신 오디오 액세스 장치에 전송된다.
도 12b을 참조하면, 디코더에서, 저 대역 비트스트림(1007)은 디코딩된 저 대역 신호(1008)을 생성하는데 사용된다. 고 대역 측 비트스트림(1010)은 고 대역 측 파라미터(1011)를 디코딩하고 생성하는데 사용된다. 고 대역 신호(1012)는 고 대역 측 파라미터(1011)로부터 도움을 받아 저 대역 신호(1008)로부터 생성된다. 최종 오디오 신호(1009)는 저 대역 신호와 고 대역 신호를 조합하여 생성된다. 주파수 도메인 BWE는 생성된 고 대역 신호의 적절한 에너지 제어도 필요하다. 에너지 레벨은 무성음, 유성음, 및 잡음 신호에 대해 상이하게 설정될 수 있다. 따라서, 스피치 신호의 고 품질 분류도 주파수 도메인 BWE를 위해 요구된다.
배경 잡음 감소 알고리즘의 연관된 세부 사항은 아래에서 설명된다. 일반적으로, 무성음 스피치 신호는 잡음과 유사하기 때문에, 무성음 영역의 배경 잡음 감소(NR)는 무성음 영역보다 덜 활동적이어야 하며, 이는 잡음 마스킹 효과(noise masking effect)로부터 이득을 얻는다. 다시 말해, 동일한 레벨 배경 잡음은 무성음 영역보다 유성음 영역에서 더 잘 들리므로, NR은 무성음 영역보다 유성음 영역에서 더 활동적이어야 한다. 이러한 경우에, 고 품질 무성음/유성음 결정이 요구된다.
일반적으로, 무성음 스피치 신호는 주기성을 가지지 않는 잡음-유사 신호이다. 나아가, 무성음 스피치 신호는 저 주파수 영역보다 고 주파수 영역에서 더 많은 에너지를 갖는다. 반면, 유성음 스피치 신호는 반대의 특성을 가진다. 예를 들어, 유성음 스피치 신호는 준-주기적 유형의 신호이며, 이는 대체로 고 주파수 영역보다 저 주파수 영역에서 더 많은 에너지를 갖는다(도 9 및 도 10 참조).
도 13a 내지 도 13c는 앞서 설명된 다양한 실시예를 이용하는 스피치 프로세싱의 개략적인 실례이다.
도 13a를 참조하면, 스피치 프로세싱을 위한 방법은 프로세싱될 스피치 신호의 복수의 프레임을 수신하는 것을 포함한다(박스 1310). 다양한 실시예에서, 스피치 신호의 복수의 프레임은, 예컨대 마이크로폰을 포함하는 동일한 오디오 장치 내에서 생성될 수 있다. 다른 실시예에서, 스피치 신호는 일 예시로 오디오 장치에서 수신될 수 있다. 예를 들어, 스피치 신호는 추후에 인코딩되거나 디코딩될 수 있다. 각 프레임에 대해, 현재 프레임의 무성음/유성음 스피치의 특성을 반영하는 무성음/유성음 파라미터가 결정된다(박스 1312). 다양한 실시예에서, 무성음/유성음 파라미터는 주기성 파라미터, 스펙트랄 틸트 파라미터, 또는 다른 변형을 포함할 수 있다. 이 방법은, 스피치 신호의 이전 프레임의 무성음/유성음 파라미터의 정보를 포함하기 위해 평활화된 무성음 파라미터를 결정하는 것을 추가로 포함한다(박스 1314). 무성음/유성음 파라미터와 평활화된 무성음/유성음 파라미터 사이의 차이가 획득된다(박스 1316). 그렇지 않으면, 무성음/유성음 파라미터와 평활화된 무성음/유성음 파라미터 사이의 상대 값(예컨대 비율)이 획득될 수 있다. 현재 프레임이 무성음/유성음 스피치로 처리되기에 보다 적합한지를 판정하는 경우, 무성음/유성음 결정은 결정된 차이를 이용하여 결정 파라미터로서 정해진다(박스 1318).
도 13b을 참조하면, 스피치 프로세싱을 위한 방법은 스피치 신호의 복수의 프레임을 수신하는 것을 포함한다(박스 1320). 실시예는 유성음 파라미터를 이용하여 설명되지만 무성음 파라미터를 이용하여 동일하게 적용된다. 조합된 유성음 파라미터는 각 프레임에 대해 결정된다(박스 1322). 하나 이상의 실시예에서, 조합된 유성음 파라미터는 주기성 파라미터와 틸트 파라미터와 평활화된 조합된 유성음 파라미터일 수 있다. 평활화된 조합된 유성음 파라미터는 스피치 신호의 하나 이상의 이전 프레임 동안 조합된 유성음 파라미터를 평활화하여 획득될 수 있다. 조합된 유성음 파라미터는 평활화된 조합된 유성음 파라미터와 비교된다(박스 1324). 현재 프레임은 결정 과정에서의 비교를 이용하여 VOICED 스피치 신호 또는 UNVOICED 스피치 신호로 분류된다. 스피치 신호는 스피치 신호의 결정된 분류에 따라 처리, 예컨대 인코딩 또는 디코딩될 수 있다.
다음으로 도 13c을 참조하면, 다른 예시 실시예에서, 스피치 프로세싱을 위한 방법은 스피치 신호의 복수의 프레임을 수신하는 것을 포함한다(박스 1330). 시간 도메인에서 스피치 신호의 제1 에너지 포락선이 결정된다(박스 1332). 제1 에너지 포락선은 제1 주파수 대역, 예컨대 4000 Hz와 같은 저 주파수 대역 내에서 결정될 수 있다. 평활화된 저 주파수 대역 에너지는 이전 프레임을 이용하여 제1 에너지 포락선으로부터 결정될 수 있다. 스피치 신호의 평활화된 저 주파수 대역 에너지에 대한 저 주파수 대역 에너지의 제1 비율 또는 차이가 계산된다(박스 1334). 스피치 신호의 제2 에너지 포락선은 시간 도메인에서 결정된다(박스 1336). 제2 에너지 포락선은 제2 주파수 대역 내에서 결정된다. 제2 주파수 대역은 제1 주파수 대역보다 상이한 주파수 대역이다. 예를 들어, 제2 주파수는 고 주파수 대역일 수 있다. 일 예시에서, 제2 주파수 대역은 4000 Hz와 8000 Hz 사이에 있을 수 있다. 스피치 신호의 하나 이상의 이전 프레임 동안의 평활화된 고 주파수 대역 에너지가 계산된다. 차이 또는 제2 비율이 각 프레임에 대해 제2 에너지 포락선을 이용하여 결정된다(박스 1338). 제2 비율은 평활화된 고 주파수 대역 에너지에 대한 현재 프레임의 스피치 신호의 고 주파수 대역 에너지 사이의 비율로 계산될 수 있다. 현재 프레임은 결정 과정에서 제1 비율 또는 제2 비율을 이용하여 VOICED 스피치 신호 또는 UNVOICED 스피치 신호로 분류된다(박스 1340). 분류된 스피치 신호가 스피치 신호의 결정된 분류에 따라, 예컨대 인코딩, 디코딩 등과 같이 처리된다(박스 1342).
하나 이상의 실시예에서, 스피치 신호가 UNVOICED 스피치 신호인 것으로 판정되는 경우, 스피치 신호는 잡음-유사 여기를 이용하여 인코딩/디코딩될 수 있고, 스피치 신호가 VOICED 신호로 판정되는 경우, 스피치 신호는 펄스-유사 여기로 인코딩/디코딩된다.
추가 실시예에서, 스피치 신호가 UNVOICED 신호인 것으로 판정되는 경우, 스피치 신호는 주파수 도메인에서 인코딩/디코딩될 수 있고, 스피치 신호가 VOICED 신호로 판정되는 경우, 스피치 신호는 시간 도메인에서 인코딩/디코딩된다.
이에 따라, 본 발명의 실시예는 스피치 코딩에 대한 무성음/유성음 결정, 대역폭 확장, 및/또는 스피치 향상을 개선하는데 사용될 수 있다.
도 14는, 본 발명의 일 실시예에 따른 통신 시스템(10)을 도시한다.
통신 시스템(10)은 통신 링크(38 및 40)을 통해 네트워크(36)에 연결되어 있는 오디오 액세스 장치(7 및 8)를 가진다. 일 실시예에서, 오디오 액세스 장치(7 및 8)는 인터넷 프로토콜(VOIP) 장치를 통한 음성이고, 네트워크(36)는 광대역 네트워크(WAN), 퍼블릭 스위치드 텔레폰 네트워크(public switched telephone network, PTSN) 및/또는 인터넷이다. 다른 실시예에서, 통신 링크(38 및 40)는 유선 및/또는 무선 브로드밴드 연결이다. 다른 실시예에서, 오디오 액세스 장치(7 및 8)는 셀룰러 또는 모바일 텔레폰이며, 링크(38 및 40)는 무선 모바일 텔레폰 채널이고 네트워크(36)는 모바일 텔레폰 네트워크로 나타낸다.
오디오 액세스 장치(7)는 음악 또는 사람의 스피치와 같은 사운드를 아날로그 오디오 입력 신호(28)로 변환하기 위해 마이크로폰(12)을 사용한다. 마이크로폰 인터페이스(16)는 CODEC(20)의 인코더(22)로의 입력에 대해 아날로그 오디오 입력 신호(28)를 디지털 오디오 신호(33)로 변환한다. 인코더(22)는 본 발명의 실시예에 따라 네트워크 인터페이스(26)를 통해 네트워크에의 전송을 위해 인코딩된 오디오 신호 TX를 생성한다. CODEC(20) 내의 디코더(24)는 네트워크 인터페이스(26)를 통해 네트워크(36)로부터 인코딩된 오디오 신호 RX를 수신하고, 인코딩된 오디오 신호 RX를 디지털 오디오 신호(34)로 변환한다. 스피커 인터페이스(18)는 디지털 오지오 신호(34)를 확성기(14)를 구동하기 적합한 오디오 신호(30)로 변환한다.
본 발명의 실시예에서, 오디오 액세스 장치(7)는 VOIP 장치이고, 오디오 액세스 장치(7) 내의 일부 또는 모든 컴포넌트는 헤드셋 내에서 구현된다. 그러나 일부 실시예에서는, 마이크로폰(12)과 확성기(14)가 개별 유닛이고, 마이크로폰 인터페이스(16), 스피커 인터페이스(18), CODEC(20) 및 네트워크 인터페이스(26)는 개인용 컴퓨터 내에 구현된다. CODEC(20)은 컴퓨터 또는 전용 프로세서 상에서 실행되는 소프트웨어 또는 전용 하드웨어, 예컨대 애플리케이션 특정 집적 회로(application specific integrated circuit, ASIC) 상에서 구형될 수 있다. 마이크로폰 인터페이스(16)는 아날로그-투-디지털(A/D) 변환기에 의해 구현될 뿐만 아니라 헤드셋 내 및/또는 컴퓨터 내에 위치한 다른 인터페이스 회로망에 의해 구현된다. 유사하게, 스피커 인터페이스(18)는 디지털-투-아날로그 변환기에 의해 구현될 뿐만 아니라 헤드셋 내 및/또는 컴퓨터 내에 위치한 다른 인터페이스 회로망에 의해 구현된다. 추가 실시예에서, 오디오 액세스 장치(7)는 종래에 알려진 다른 방식으로 구현되고 분할될 수 있다.
오디오 액세스 장치(7)가 셀룰러 또는 모바일 텔레폰인 본 발명의 실시예에서, 오디오 액세스 장치(7) 내의 구성 요소는 셀룰러 헤드셋 내에 구현된다. CODEC(20)은 헤드셋 내의 프로세서 상에서 실행되는 소프트웨어에 의해 또는 전용 하드웨어에 의해 구현된다. 본 발명의 추가 실시예에서, 오디오 액세스 장치는, 구내 전화 및 무선 헤드셋과 같은 피어-투-피어 유선 및 무선 디지털 통신 시스템과 같은 다른 장치에서 구현될 수 있다. 소비자 오디오 장치와 같은 애플리케이션에서, 오디오 액세스 장치는, 예컨대 디지털 마이크로폰 시스템 또는 음악 플레이백 장치에서, 인코더(22) 또는 디코더(24)만 가지며 CODEC을 포함할 수 있다. 본 발명의 다른 실시예에서, CODEC(20)은, 예컨대 PTSN에 액세스하는 셀룰러 기지국에서 마이크로폰(12)과 스피커(14) 없이 사용될 수 있다.
본 발명의 다양한 실시예에서 설명되는 무성음/유성음 분류를 개선하는 스피치 프로세싱은 예를 들어 인코더(22) 또는 디코더(24)에서 구현될 수 있다. 무성음/유성음 분류를 개성하는 스피치 프로세싱은 다양한 실시예에서 하드웨어 또는 소프트웨어로 구현될 수 있다. 예를 들면, 인코더(22) 또는 디코더(24)가 디지털 신호 프로세싱(digital signal processing, DSP) 칩의 부분일 수 있다.
도 15는, 여기서 개시된 장치 및 방법을 구현하는데 이용될 수 있는 처리 시스템의 블록도를 도시한다. 특정 장치는 도시된 모든 컴포넌트 또는 컴포넌트의 서브세트만을 활용할 수 있으며, 통합의 레벨은 장치마다 다양할 수 있다. 나아가, 장치는, 복수의 프로세싱 유닛, 프로세서, 메모리, 전송기, 수신기, 등과 같은 컴포넌트의 복수의 인스턴스를 포함할 수 있다. 프로세싱 시스템은, 스피커, 마이크로폰, 마우스, 터치스크린, 키패드, 키보드, 프린터, 디스플레이, 등과 같은 하나 이상의 입/출력 장치를 갖춘 프로세싱 유닛을 포함할 수 있다. 프로세싱 유닛은 버스에 연결된 중앙 처리 장치(CPU), 메모리, 대용량 저장 장치, 비디오 어댑터, 및 I/O 인터페이스를 포함할 수 있다.
버스는, 메모리 버스 또는 메모리 제어기, 주변 버스, 비디오 버스 등을 포함하는 여러 버스 아키텍처의 임의의 유형 중 하나 이상일 수 있다. CPU는 임의의 유형의 전기적 데이터 프로세서를 포함할 수 있다. 메모리는 임의의 유형의 시스템 메모리, 예컨대 스태틱 랜덤 액세스 메모리(SRAM), 다이나믹 랜덤 액세스 메모리(DRAM), 동기 DRAM(SDRAM), 리드-온리 메모리(ROM), 이들의 조합을 포함할 수 있다. 일 실시예에서, 메모리는 부트-업에서 사용하기 위한 ROM, 프로그램을 위한 DRAM 및 프로그램을 실행하는 동안 사용할 데이터 스토리지를 포함할 수 있다.
대용량 저장 장치는, 데이터, 프로그램 및 다른 정보를 저장하고 버스를 통해 이 데이터, 프로그램 및 다른 정보에 액세스 가능하도록 구성되어 있는 임의의 유형의 저장 장치를 포함할 수 있다. 대용량 저장 장치는, 예컨대 하나 이상의 솔리드 스테이트 드라이브, 하드 디스크 드라이브, 마그네틱 디스크 드라이브, 광 디스크 드라이브 등을 포함할 수 있다.
비디오 어댑터 및 I/O 인터페이스는 외부 입력 및 출력 장치를 프로세싱 유닛에 연결하기 위한 인터페이스를 제공한다. 도시된 바와 같이, 입력 및 출력 장치의 예시는 비디오 어댑터에 연결되어 있는 디스플레이와 I/O 인터페이스에 연결되어 있는 마우스/키보드/프린터를 포함한다. 다른 장치는 프로세싱 유닛에 연결될 수 있고, 추가적이거나 소수의 인터페이스 카드가 이용될 수 있다. 예를 들어, USB(Universal Serial Bus)(도시되지 않음)와 같은 직렬 인터페이스는 프린터를 위한 인터페이스를 제공하는데 사용될 수 있다.
프로세싱 유닛은 또한, 이더넷 케이블 등과 같은 유선 링크 및/또는 노드 또는 상이한 네트워크에 액세스하기 위한 무선 링크를 포함할 수 있는 하나 이상의 네트워크 인터페이스를 포함한다. 네트워크 인터페이스는 프로세싱 유닛이 네트워크를 통해 원격 유닛과 통신할 수 있도록 한다. 예를 들어, 네트워크 인터페이스는 하나 이상의 전송기/전송 안테나 및 하나 이상의 수신기/수신 안테나를 통해 무선 통신을 제공할 수 있다. 일 실시예에서, 프로세싱 유닛은 로컬 영역 네트워크 또는 광대역 네트워크에 연결되어, 다른 프로세싱 유닛, 인터넷, 원격 저장 시설, 등과 같은 원격 장치와 통신한다.
이 발명이 예시적인 실시예를 참조하여 설명되지만, 이 설명은 제한의 의미로 의도된 것은 아니다. 예시적인 실시예의 다양한 변형 및 조합 뿐만 아니라 본 발명의 다른 실시예는 설명을 참조하여 통상의 기술자에게 명백할 것이다. 예를 들어, 앞서 설명된 다양한 실시예는 서로 조합될 수 있다.
본 발명 및 이의 이점이 상세하게 설명되었으나, 다양한 변형, 대체 및 개조가 첨부된 청구항에 의해 정의되는 본 발명의 사상 및 범위로부터 벗어나지 않고 만들어질 수 있다는 것을 이해해야 한다. 예를 들어, 앞서 논의된 많은 특성 및 기능은 소프트웨어, 하드웨어 또는 펌웨어, 또는 이들의 조합으로 구현될 수 있다. 나아가, 본 출원의 범위는 본 명세서에서 설명된 프로세스, 머신, 제조, 물질의 구성, 방식, 방법 및 단계의 구체적인 실시예에 한정되는 것으로 의도되지 않는다. 통상의 기술자는 본 발명의 개시로부터 용이하게 이해할 것이기 때문에, 여기서 설명된 대응하는 실시예로 실질적으로 동일한 결과를 당설하거나 실질적으로 동일한 기능을 수행하는, 현재 존재하거나 추후에 개발될, 프로세스, 머신, 제조, 물질의 구성, 방식, 방법 또는 단계는 본 발명에 다라 활용될 수 있다. 이에 따라, 첨부된 청구항은 이들의 범위 내에 이러한 프로세스, 머신, 제조, 물질의 구성, 방식, 방법 또는 단계를 포함하도록 의도된다.

Claims (16)

  1. 스피치 처리 방법으로서,
    복수의 프레임을 포함하는 스피치 신호의 제1 프레임에 대한 무성음 파라미터를 결정하는 단계 - 상기 무성음 파라미터는 상기 제1 프레임의 적어도 2개의 스피치 특성을 반영함 - ;
    상기 제1 프레임 이전의 제2 프레임의 무성음 파라미터의 정보에 따라 상기 제1 프레임에 대한 평활화된 무성음 파라미터(smoothed unvoicing parameter)를 결정하는 단계;
    상기 제1 프레임의 무성음 파라미터와 상기 평활화된 무성음 파라미터 간의 차이를 계산하는 단계; 및
    상기 계산된 차이에 따라 상기 제1 프레임의 분류를 결정하는 단계 - 상기 분류는 무성음(unvoiced) 또는 유성음(voiced)을 포함함 -
    를 포함하는 스피치 처리 방법.
  2. 제1항에 있어서,
    상기 무성음 파라미터는 주기성 파라미터(periodicity parameter)와 스펙트랄 틸트 파라미터(spectral tilt parameter)의 곱인, 스피치 처리 방법.
  3. 제2항에 있어서,
    상기 곱은 (1-Pvoicing)×(1-Ptilt)이고,
    상기 Pvoicing은 상기 주기성 파라미터이며, 상기 Ptilt는 상기 스펙트랄 틸트 파라미터인, 스피치 처리 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 제1 프레임의 평활화된 무성음 파라미터는 상기 제1 프레임의 무성음 파라미터와 상기 제2 프레임의 평활화된 무성음 파라미터를 가중화하여 결정되며,
    상기 제2 프레임의 평활화된 무성음 파라미터는, 상기 제2 프레임의 평활화된 무성음 파라미터가 상기 제1 프레임의 무성음 파라미터보다 큰 경우, 적게(less heavily) 가중화되는, 스피치 처리 방법.
  5. 제4항에 있어서,
    상기 제2 프레임의 평활화된 무성음 파라미터가 상기 제1 프레임의 무성음 파라미터보다 큰 경우, 상기 제2 프레임의 평활화된 무성음 파라미터의 가중 인자는 0.9이고, 상기 제1 프레임의 무성음 파라미터의 가중 인자는 0.1이고,
    상기 제2 프레임의 평활화된 무성음 파라미터가 상기 제1 프레임의 무성음 파라미터보다 크지 않은 경우, 상기 제2 프레임의 평활화된 무성음 파라미터의 가중 인자는 0.99이고, 상기 제1 프레임의 무성음 파라미터의 가중 인자는 0.01인, 스피치 처리 방법.
  6. 제5항에 있어서,
    상기 계산된 차이에 따라 상기 제1 프레임의 분류를 결정하는 것은,
    상기 계산된 차이가 0.1보다 큰 경우, 상기 제1 프레임은 무성음으로 분류되고,
    상기 계산된 차이가 0.05보다 작은 경우, 상기 제1 프레임은 유성음으로 분류되는, 스피치 처리 방법.
  7. 제6항에 있어서,
    상기 계산된 차이가 0.05 내지 0.1 사이인 경우, 상기 제1 프레임의 분류는 상기 제1 프레임의 이전 프레임과 동일한, 스피치 처리 방법.
  8. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 스피치 처리 방법은,
    상기 제1 프레임이 무성음으로 분류된 경우, 상기 제1 프레임을 주파수 도메인에서 디코딩하고, 상기 제1 프레임이 유성음으로 분류된 경우, 상기 제1 프레임을 시간 도메인에서 디코딩하는 단계
    를 더 포함하는 스피치 처리 방법.
  9. 스피치 처리 장치로서,
    프로세서; 및
    컴퓨터 명령을 저장하는 비일시적(non-transitory) 컴퓨터 판독 가능 저장 매체
    를 포함하고,
    상기 프로세서에 의해 실행되면 상기 컴퓨터 명령은 상기 프로세서로 하여금:
    복수의 프레임을 포함하는 스피치 신호의 제1 프레임에 대한 무성음 파라미터를 결정하고 - 상기 무성음 파라미터는 상기 제1 프레임의 적어도 2개의 스피치 특성을 반영함 - ;
    상기 제1 프레임 이전의 제2 프레임의 무성음 파라미터의 정보에 따라 상기 제1 프레임에 대한 평활화된 무성음 파라미터(smoothed unvoicing parameter)를 결정하고;
    상기 제1 프레임의 무성음 파라미터와 상기 평활화된 무성음 파라미터 간의 차이를 계산하고;
    상기 계산된 차이에 따라 상기 제1 프레임의 분류를 결정 - 상기 분류는 무성음(unvoiced) 또는 유성음(voiced)을 포함함 -
    하도록 하는, 스피치 처리 장치.
  10. 제9항에 있어서,
    상기 무성음 파라미터는 주기성 파라미터(periodicity parameter)와 스펙트랄 틸트 파라미터(spectral tilt parameter)의 곱인, 스피치 처리 장치.
  11. 제10항에 있어서,
    상기 곱은 (1-Pvoicing)×(1-Ptilt)이고,
    상기 Pvoicing은 상기 주기성 파라미터이며, 상기 Ptilt는 상기 스펙트랄 틸트 파라미터인, 스피치 처리 장치.
  12. 제9항 내지 제11항 중 어느 한 항에 있어서,
    상기 제1 프레임의 평활화된 무성음 파라미터는 상기 제1 프레임의 무성음 파라미터와 상기 제2 프레임의 평활화된 무성음 파라미터를 가중화하여 결정되며,
    상기 제2 프레임의 평활화된 무성음 파라미터는, 상기 제2 프레임의 평활화된 무성음 파라미터가 상기 제1 프레임의 무성음 파라미터보다 큰 경우, 적게 가중화되는, 스피치 처리 장치.
  13. 제12항에 있어서,
    상기 제2 프레임의 평활화된 무성음 파라미터가 상기 제1 프레임의 무성음 파라미터보다 큰 경우, 상기 제2 프레임의 평활화된 무성음 파라미터의 가중 인자는 0.9이고, 상기 제1 프레임의 무성음 파라미터의 가중 인자는 0.1이고,
    상기 제2 프레임의 평활화된 무성음 파라미터가 상기 제1 프레임의 무성음 파라미터보다 크지 않은 경우, 상기 제2 프레임의 평활화된 무성음 파라미터의 가중 인자는 0.99이고, 상기 제1 프레임의 무성음 파라미터의 가중 인자는 0.01인, 스피치 처리 장치.
  14. 제13항에 있어서,
    상기 계산된 차이가 0.1보다 큰 경우, 상기 제1 프레임은 무성음으로 분류되고, 상기 계산된 차이가 0.05보다 작은 경우, 상기 제1 프레임은 유성음으로 분류되는, 스피치 처리 장치.
  15. 제14항에 있어서,
    상기 계산된 차이가 0.05 내지 0.1 사이인 경우, 상기 제1 프레임의 분류는 상기 제1 프레임의 이전 프레임과 동일한, 스피치 처리 장치.
  16. 제9항 내지 제11항 중 어느 한 항에 있어서,
    상기 프로세서는, 상기 제1 프레임이 무성음으로 분류된 경우, 상기 제1 프레임을 주파수 도메인에서 디코딩하고, 상기 제1 프레임이 유성음으로 분류된 경우, 상기 제1 프레임을 시간 도메인에서 디코딩하도록 더 구성되어 있는, 스피치 처리 장치.
KR1020177024222A 2013-09-09 2014-09-05 스피치 처리를 위한 무성음/유성음 결정 KR101892662B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361875198P 2013-09-09 2013-09-09
US61/875,198 2013-09-09
US14/476,547 2014-09-03
US14/476,547 US9570093B2 (en) 2013-09-09 2014-09-03 Unvoiced/voiced decision for speech processing
PCT/CN2014/086058 WO2015032351A1 (en) 2013-09-09 2014-09-05 Unvoiced/voiced decision for speech processing

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167002696A Division KR101774541B1 (ko) 2013-09-09 2014-09-05 스피치 처리를 위한 무성음/유성음 결정

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020187024060A Division KR102007972B1 (ko) 2013-09-09 2014-09-05 스피치 처리를 위한 무성음/유성음 결정

Publications (2)

Publication Number Publication Date
KR20170102387A true KR20170102387A (ko) 2017-09-08
KR101892662B1 KR101892662B1 (ko) 2018-08-28

Family

ID=52626401

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020187024060A KR102007972B1 (ko) 2013-09-09 2014-09-05 스피치 처리를 위한 무성음/유성음 결정
KR1020167002696A KR101774541B1 (ko) 2013-09-09 2014-09-05 스피치 처리를 위한 무성음/유성음 결정
KR1020177024222A KR101892662B1 (ko) 2013-09-09 2014-09-05 스피치 처리를 위한 무성음/유성음 결정

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020187024060A KR102007972B1 (ko) 2013-09-09 2014-09-05 스피치 처리를 위한 무성음/유성음 결정
KR1020167002696A KR101774541B1 (ko) 2013-09-09 2014-09-05 스피치 처리를 위한 무성음/유성음 결정

Country Status (16)

Country Link
US (4) US9570093B2 (ko)
EP (2) EP3005364B1 (ko)
JP (2) JP6291053B2 (ko)
KR (3) KR102007972B1 (ko)
CN (2) CN105359211B (ko)
AU (1) AU2014317525B2 (ko)
BR (1) BR112016004544B1 (ko)
CA (1) CA2918345C (ko)
ES (2) ES2908183T3 (ko)
HK (1) HK1216450A1 (ko)
MX (1) MX352154B (ko)
MY (1) MY185546A (ko)
RU (1) RU2636685C2 (ko)
SG (2) SG10201701527SA (ko)
WO (1) WO2015032351A1 (ko)
ZA (1) ZA201600234B (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US9972334B2 (en) 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
WO2017196422A1 (en) * 2016-05-12 2017-11-16 Nuance Communications, Inc. Voice activity detection feature based on modulation-phase differences
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
RU2668407C1 (ru) * 2017-11-07 2018-09-28 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи
CN108447506A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音处理方法和语音处理装置
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
CN109119094B (zh) * 2018-07-25 2023-04-28 苏州大学 一种利用声带建模反演的嗓音分类方法
WO2021156375A1 (en) * 2020-02-04 2021-08-12 Gn Hearing A/S A method of detecting speech and speech detector for low signal-to-noise ratios
CN112885380A (zh) * 2021-01-26 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050177364A1 (en) * 2002-10-11 2005-08-11 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
WO2008151408A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
JPH06110489A (ja) * 1992-09-24 1994-04-22 Nitsuko Corp 音声信号処理装置及びその方法
JP3655652B2 (ja) * 1993-09-02 2005-06-02 シーメンス アクチエンゲゼルシヤフト 自動的通話方向切換のための方法および回路装置
JPH07212296A (ja) * 1994-01-17 1995-08-11 Japan Radio Co Ltd Vox制御通信装置
US5991725A (en) * 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
KR20000022285A (ko) 1996-07-03 2000-04-25 내쉬 로저 윌리엄 음성 액티비티 검출기 및 검출 방법
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6415029B1 (en) * 1999-05-24 2002-07-02 Motorola, Inc. Echo canceler and double-talk detector for use in a communications unit
JP3454214B2 (ja) * 1999-12-22 2003-10-06 三菱電機株式会社 パルス雑音除去装置およびこれを含む中波am音声放送受信機
JP3689616B2 (ja) * 2000-04-27 2005-08-31 シャープ株式会社 音声認識装置及び音声認識方法、音声認識システム、並びに、プログラム記録媒体
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
RU2331933C2 (ru) * 2002-10-11 2008-08-20 Нокиа Корпорейшн Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
US7519530B2 (en) * 2003-01-09 2009-04-14 Nokia Corporation Audio signal processing
US7698141B2 (en) * 2003-02-28 2010-04-13 Palo Alto Research Center Incorporated Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
KR100744352B1 (ko) 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
JP2007149193A (ja) * 2005-11-25 2007-06-14 Toshiba Corp ディフェクト信号生成回路
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
JP2007292940A (ja) * 2006-04-24 2007-11-08 Toyota Motor Corp 音声識別装置及び音声識別方法
US8010352B2 (en) * 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
MY144271A (en) * 2006-10-20 2011-08-29 Dolby Lab Licensing Corp Audio dynamics processing using a reset
US7817286B2 (en) * 2006-12-22 2010-10-19 Hitachi Global Storage Technologies Netherlands B.V. Iteration method to improve the fly height measurement accuracy by optical interference method and theoretical pitch and roll effect
US7873114B2 (en) * 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
EP2162880B1 (en) 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
CN101221757B (zh) 2008-01-24 2012-02-29 中兴通讯股份有限公司 高频杂音处理方法及分析方法
CN101261836B (zh) * 2008-04-25 2011-03-30 清华大学 基于过渡帧判决及处理的激励信号自然度提高方法
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
US20110123121A1 (en) * 2009-10-13 2011-05-26 Sony Corporation Method and system for reducing blocking artefacts in compressed images and video signals
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
TWI403304B (zh) * 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
CN102655480B (zh) 2011-03-03 2015-12-02 腾讯科技(深圳)有限公司 相似邮件处理系统和方法
KR101352608B1 (ko) * 2011-12-07 2014-01-17 광주과학기술원 음성 신호의 대역폭 확장 방법 및 그 장치
US8909539B2 (en) 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
US20130151125A1 (en) * 2011-12-08 2013-06-13 Scott K. Mann Apparatus and Method for Controlling Emissions in an Internal Combustion Engine
KR101398189B1 (ko) * 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
CN102664003B (zh) * 2012-04-24 2013-12-04 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
US8924209B2 (en) * 2012-09-12 2014-12-30 Zanavox Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050177364A1 (en) * 2002-10-11 2005-08-11 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
WO2008151408A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711

Also Published As

Publication number Publication date
EP3352169A1 (en) 2018-07-25
US20180322895A1 (en) 2018-11-08
CN110097896B (zh) 2021-08-13
MX352154B (es) 2017-11-10
JP2018077546A (ja) 2018-05-17
AU2014317525A1 (en) 2016-02-11
US20170110145A1 (en) 2017-04-20
ZA201600234B (en) 2017-08-30
SG11201600074VA (en) 2016-02-26
BR112016004544B1 (pt) 2022-07-12
CN105359211B (zh) 2019-08-13
SG10201701527SA (en) 2017-03-30
EP3005364A4 (en) 2016-06-01
WO2015032351A1 (en) 2015-03-12
HK1216450A1 (zh) 2016-11-11
RU2636685C2 (ru) 2017-11-27
KR102007972B1 (ko) 2019-08-06
ES2908183T3 (es) 2022-04-28
MX2016002561A (es) 2016-06-17
US10347275B2 (en) 2019-07-09
KR20180095744A (ko) 2018-08-27
JP6291053B2 (ja) 2018-03-14
US10043539B2 (en) 2018-08-07
MY185546A (en) 2021-05-19
RU2016106637A (ru) 2017-10-16
ES2687249T3 (es) 2018-10-24
KR101774541B1 (ko) 2017-09-04
JP2016527570A (ja) 2016-09-08
US20200005812A1 (en) 2020-01-02
US20150073783A1 (en) 2015-03-12
AU2014317525B2 (en) 2017-05-04
JP6470857B2 (ja) 2019-02-13
US11328739B2 (en) 2022-05-10
BR112016004544A2 (ko) 2017-08-01
CA2918345A1 (en) 2015-03-12
EP3005364B1 (en) 2018-07-11
US9570093B2 (en) 2017-02-14
KR20160025029A (ko) 2016-03-07
EP3352169B1 (en) 2021-12-08
CA2918345C (en) 2021-11-23
CN110097896A (zh) 2019-08-06
KR101892662B1 (ko) 2018-08-28
CN105359211A (zh) 2016-02-24
EP3005364A1 (en) 2016-04-13

Similar Documents

Publication Publication Date Title
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
US11328739B2 (en) Unvoiced voiced decision for speech processing cross reference to related applications
US9418671B2 (en) Adaptive high-pass post-filter

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant