KR20010007416A - 음성부호화장치 및 방법, 입력신호 판정방법,음성복호장치 및 방법 및 프로그램 제공매체 - Google Patents

음성부호화장치 및 방법, 입력신호 판정방법,음성복호장치 및 방법 및 프로그램 제공매체 Download PDF

Info

Publication number
KR20010007416A
KR20010007416A KR1020000033295A KR20000033295A KR20010007416A KR 20010007416 A KR20010007416 A KR 20010007416A KR 1020000033295 A KR1020000033295 A KR 1020000033295A KR 20000033295 A KR20000033295 A KR 20000033295A KR 20010007416 A KR20010007416 A KR 20010007416A
Authority
KR
South Korea
Prior art keywords
section
background noise
parameter
decoding
speech
Prior art date
Application number
KR1020000033295A
Other languages
English (en)
Other versions
KR100767456B1 (ko
Inventor
마에다유지
니시구치마사유키
Original Assignee
이데이 노부유끼
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이데이 노부유끼, 소니 가부시끼 가이샤 filed Critical 이데이 노부유끼
Publication of KR20010007416A publication Critical patent/KR20010007416A/ko
Application granted granted Critical
Publication of KR100767456B1 publication Critical patent/KR100767456B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

음성코덱에 있어서, 음성구간 중에서 중요한 이유를 갖는 유성음에 비교적 많은 전송비트량을 부여하고, 이하 무성음, 배경잡음의 순으로 비트수를 줄임으로써 총 전송비트수를 억제할 수 있고, 평균 전송비트량을 적게 할 수 있다.
입력단자(1)에서 입력된, 필터처리가 실시된 상기 입력 음성신호의 실효(root mean square, r.m.s)값을 연산하는 r.m.s 연산부(2)와, 상기 실효값( rms)에서 실효값의 정상레벨을 연산하는 정상레벨 연산부(3)와, r.m.s 연산부(2)의 출력 r.m.s를 정상레벨 연산부(3)의 출력 min_rms로 제산하여 후술하는 제산값(rmsg)을 연산하는 제산연산자(4)와, 쌍수진폭차분 연산부(8)로부터의 쌍수진폭차분(wdif)보다 판정플래그(decflag)를 출력하는 퍼지추론부(9)를 갖춰서 이룬다.

Description

음성부호화장치 및 방법, 입력신호 판정방법, 음성복호장치 및 방법 및 프로그램 제공매체{Audio encoding device and method, input signal judgement method, audio decoding device and method, and medium provided to program}
본 발명은, 입력음성신호의 무성음구간과 유성음구간에서 비트율를 가변하여 부호화하는 부호화장치 및 방법에 관한 것이다. 또, 상기 부호화장치 및 방법에 의해 부호화되어서 전송되어 온 부호화 데이터를 복호하는 복호장치 및 방법에 관한 것이다. 또, 상기 부호화방법, 복호방법을 소프트웨어적으로 실행시키기 위한 프로그램 제공매체에 관한 것이다.
근래, 전송로를 필요로 하는 통신분야에 있어서는, 전송대역의 유효이용을 실현하기 위해, 전송하고자 하는 입력신호의 종류, 예를 들면 유성음과 무성음구간으로 나눠지는 음성신호구간과, 배경잡음 구간과 같은 종류에 의해, 부호화비트를 가변하고서 전송하는 것이 고려되도록 되었다.
예를 들면, 배경잡음 구간으로 판단되면, 부호화 파라미터를 전혀 보내지 않고, 복호화장치 측에서는, 특히 배경잡음을 생성하는 것을 하지 않고, 단순히 뮤트하는 것이 고려되었다.
그러나, 이것으로는 통신상대가 음성을 발하고 있으면 그 음성에는 배경잡음이 실리고 있으나, 음성을 발하지 않을 때에는 돌연 무음으로 되게 되므로 부자연스런 통화가 되게 된다.
그 때문에, 가변비트 코덱에 있어서는, 배경잡음 구간으로서 판단되면 부호화의 파라미터의 몇 개를 보내지 않고, 복호화장치 측에서는 과거의 파라미터를 반복 이용하여 배경잡음을 생성한다는 것을 행하고 있었다.
그런데, 상술한 바와 같이, 과거의 파라미터를 그대로 반복 이용하면, 잡음자체가 피치를 갖는 것같은 인상을 받고, 부자연스러운 잡음이 될 적이 많다. 이것은, 레벨 등을 바꿔도 선스펙트럼쌍(LSP) 파라미터가 동일한 한 일어나게 된다.
다른 파라미터를 난수 등으로 바꾸도록 하여도, LSP 파라미터가 동일하면, 부자연스러운 느낌을 주게 된다.
본 발명은, 상기 실정을 감안하여 이룩된 것이며, 음성코덱에 있어서, 음성구간 중에서 중요한 이유를 갖는 유성음에 비교적 많은 전송비트량을 부여하고, 이하 무성음, 배경잡음의 순으로 비트수를 줄임으로써 총전송 비트수를 억제할 수 있고, 평균전송 비트량을 작게 할 수 있는 음성부호화장치 및 방법, 입력신호 판정방법, 복호장치 및 방법 및 프로그램 제공매체의 제공을 목적으로 한다.
도 1은 본 발명의 실시형태가 되는 휴대전화장치의 구성을 나타내는 블록도이다.
도 2는 상기 휴대전화장치를 구성하는 음성부호화장치의 내부에 있어서, 입력신호 판정부와 파라미터 제어부를 제외한 상세한 구성도이다.
도 3은 입력신호 판정부와 파라미터 제어부의 상세한 구성도이다.
도 4는 rms의 정상레벨을 연산하는 처리를 나타내는 플로차트이다.
도 5는 퍼지추론부에서의 퍼지룰을 설명하기 위한 도면이다.
도 6은 상기 퍼지룰에서의 신호레벨에 관한 멤버십함수의 특성도이다.
도 7은 상기 퍼지룰에서의 스펙트럼에 관한 멤버십함수의 특성도이다.
도 8은 상기 퍼지룰에서의 추론결과의 멤버십함수의 특성도이다.
도 9는 상기 퍼지추론부에서의 추론의 구체예를 나타내는 도면이다.
도 10은 파라미터 생성부에 있어서의 전송파라미터를 결정하는 처리의 일부를 나타내는 플로차트이다.
도 11은 파라미터 생성부에 있어서의 전송파라미터를 결정하는 처리의 나머지의 일부를 나타내는 플로차트이다.
도 12는 MPEG4에서 채용되고 있는 음성코덱 HVXC(Harmonic Vector Excitation Coding)을 예로 들고, 각 조건에서의 부호화비트의 내역을 나타내는 도면이다.
도 13은 음성 복호화장치의 상세한 구성을 나타내는 블록도이다.
도 14는 음성 복호화장치의 기본적인 부분과 그 주변의 구성을 나타내는 블록도이다.
도 15는 LPC파라미터 재생제어부에 의한 LPC파라미터 재생부의 제어의 상세를 나타내는 플로차트이다.
도 16은 헤더비트의 구성도이다.
도 17은 본 발명을 적용할 수 있는 전송시스템의 블록도이다.
도 18은 상기 전송시스템을 구성하는 서버의 블록도이다.
도 19는 상기 전송시스템을 구성하는 클라이언트 단말의 블록도이다.
* 도면의 주요부분에 대한 부호의 설명
2 rms연산부 3 정상레벨 연산부
9 퍼지추론부 11 카운터 제어부
12 파라미터 생성부 21a 입력신호 판정부
21b 파라미터 제어부
본 발명에 관계되는 음성부호화장치는, 상기 과제를 해결하기 위해, 입력음성신호의 무성음구간과 유성음구간에서 가변율에 의한 부호화를 행하는 음성부호화장치에 있어서, 시간축상에서의 입력음성신호를 소정의 단위로 구분하고, 이 단위로 구한 신호레벨과 스펙트럼 포락의 시간적인 변화에 의거하여, 무성음구간을 배경잡음 구간과 음성구간으로 나눠서 판정하는 입력신호 판정수단을 갖추고, 상기 입력신호 판정수단으로 판정된 배경잡음 구간의 파라미터와, 상기 음성구간의 파라미터와, 유성음구간의 파라미터에 대한 부호화비트의 할당을 다르게 하는 것을 특징으로 한다.
또, 본 발명에 관계되는 음성부호화방법은, 상기 과제를 해결하기 위해, 입력음성신호의 무성음구간과 유성음구간에서 가변율에 의한 부호화를 행하는 음성부호화방법에 있어서, 시간축상에서의 입력음성신호를 소정의 단위로 구분하고, 이 단위로 구한 신호레벨과 스펙트럼 포락의 시간적인 변화에 의거하여, 무음성구간을 비경잡음구간과 음성구간으로 나눠서 판정하는 입력신호 판정공정을 갖추고, 상기 입력신호 판정공정에서 판정된 배경잡음구간의 파라미터와, 상기 음성구간의 파라미터와, 유성음구간의 파라미터에 대한 부호화비트의 할당을 다르게 하는 것을 특징으로 한다.
본 발명에 관계되는 입력신호 판정방법은, 상기 과제를 해결하기 위해, 시간축상에서의 입력음성신호를 소정의 단위로 구분하고, 이 단위로 입력신호의 신호레벨의 시간적인 변화를 구하는 공정과, 상기 단위에서의 스펙트럼 포락의 시간적인 변화를 구하는 공정과, 상기 신호레벨 및 스펙트럼 포락의 시간적인 변화에서 배경잡음인지 아닌지를 판정하는 공정과를 갖추는 것을 특징으로 한다.
본 발명에 관계되는 음성복호장치는, 상기 과제를 해결하기 위해, 음성구간의 파라미터와, 유성음구간의 파라미터에 대한 부호화비트의 할당이 다르게 전송되어 온 부호화비트를 복호하는 복호장치에 있어서, 상기 부호화비트에서 음성구간인지 또는 배경잡음 구간인지를 판정하는 판정수단과, 상기 판정수단에서 배경잡음 구간을 나타내는 정보를 추출하였을 때에는 현재 또는 현재 및 과거에 수신한 LPC계수, 현재 또는 현재 및 과거에 수신한 CELP의 게인인덱스 및 내부에서 랜덤하게 생성한 CELP의 셰이프 인덱스를 이용하여 상기 부호화비트를 복호하는 복호수단을 갖추는 것을 특징으로 한다.
본 발명에 관계되는 음성복호방법은, 상기 과제를 해결하기 위해 무음성구간의 파라미터와, 유음성구간의 파라미터에 대한 부호화비트의 할당이 다르게 전송되어 온 부호화비트를 복호하는 복호방법에 있어서, 상기 부호화비트에서 음성구간인지, 또는 배경잡음 구간인지를 판정하는 판정공정과, 상기 판정공정에서 배경잡음 구간을 나타내는 정보를 추출하였을 때에는, 현재 또는 현재 및 과거에 수신한 LPC계수, 현재 또는 현재 및 과거에 수신한 CELP의 게인인덱스 및 내부에서 랜덤하게 생성한 CELP의 셰이프 인덱스를 이용하여 상기 부호화비트를 복호하는 복호공정을 갖추는 것을 특징으로 한다.
본 발명에 관계되는 프로그램 제공매체는, 상기 과제를 해결하기 위해, 입력음성신호의 무음성구간과 유음성구간에서 가변율에 의한 부호화를 행하는 음성부호화 프로그램을 제공하는 프로그램 제공매체에 있어서, 시간축상에서의 입력음성신호를 소정의 단위로 구분하고, 그 단위로 구한 신호레벨과 스펙트럼 포락의 시간적인 변화에 의거하여 무음성구간을 배경잡음 구간과 음성구간으로 나눠서 판정하는 입력신호 판정공정을 갖추고, 상기 입력신호 판정공정에서 판정된 배경잡음 구간의 파라미터와, 상기 음성구간의 파라미터와, 유성음구간의 파라미터에 대한 부호화비트의 할당을 다르게하는 프로그램을 제공하는 것을 특징으로 한다.
또, 본 발명에 관계되는 프로그램 제공매체는, 상기 과제를 해결하기 위해, 무성음구간의 파라미터와, 유성음구간의 파라미터에 대한 부호화비트의 할당이 다르게 전송되어 온 부호화비트를 복호하기 위한 복호프로그램을 제공하기 위한 프로그램 제공매체에 있어서, 상기 부호화비트에서 음성구간인지 또는 배경잡음 구간인지를 판정하는 판정공정과, 상기 판정공정에서 배경잡음 구간을 나타내는 정보를 추출하였을 때에는, 현재 또는 현재 및 과거에 수신한 LPC계수, 현재 또는 현재 및 과거에 수신한 CELP의 게인인덱스 및 내부에서 랜덤하게 생성한 CELP의 셰이프 인덱스를 이용하여 상기 부호화비트를 복호하는 복호공정을 갖추는 프로그램을 제공하는 것을 특징으로 한다.
(실시예)
이하, 본 발명에 관계되는 부호화장치 및 방법, 및 음성복호장치 및 방법의 실시의 형태에 대해서 도면을 참조하면서 설명한다.
기본적으로는, 주로 송신측에서 음성을 분석함으로써 부호화 파라미터를 구하고, 그들을 전송한 후, 수신측에서 음성을 합성하는 시스템을 들 수 있다. 특히, 송신측에서는 입력음성의 성질에 따라서 부호화의 모드구분을 행하고, 비트율를 가변으로 하는 것으로 전송비트율의 평균값을 작게 한다.
구체예로서는, 도 1에 구성을 나타내고, 휴대전화장치를 들 수 있다. 이 휴대전화장치는, 본 발명에 관계되는 부호화장치 및 방법 및 복호장치 및 방법을 도 1에 나타내는 바와 같은, 음성부호화장치(20) 및 음성복호화장치(31)로서 이용한다.
음성부호화장치(20)는, 입력음성신호의 무음성(UnVoiced: UV)구간의 비트율를 유성음(Voiced: V)의 구간의 비트율보다 적게 하는 부호화를 행한다. 또한, 무음성구간에 있어서 배경잡음구간(비음성구간)과 음성구간을 판정하고, 비음성구간에 있어서는 다시 저비트율에 의해 부호화를 행한다. 또, 비음성구간과 음성구간을 판정하여 플래그에 의해 복호화장치(31)측에 전한다.
이 음성부호화장치(20) 내부에서, 입력음성신호 중의 무음성구간 또는 유음성구간의 판정, 또는 무음성구간의 비음성구간과 음성구간의 판정은 입력신호 판정부(21a)가 행한다. 이 입력신호 판정부(21a)의 상세에 대해서는 후술한다.
먼저, 송신측의 구성을 설명한다. 마이크로폰(1)에서 입력된 음성신호는, A/D변환기(10)에 의해 디지털신호로 변환되고, 음성부호화장치(20)에 의해 가변율의 부호화가 실시되고, 전송로 부호화기(22)에 의해 전송로의 품질이 음성품질에 영향을 받기 어렵게 부호화 된 후, 변조기(23)에서 변조되고, 송신기(24)에서 송신처리가 실시되고, 안테나공용기(25)를 통해서, 안테나(26)에서 송신된다.
한편, 수신측의 음성복호화장치(31)는, 음성구간인지, 비음성구간인지를 표시하는 플래그를 수신하는 동시에, 비음성구간에 있어서는, 현재 또는 현재 및 과거에 수신한 LPC계수, 현재 또는 현재 및 과거에 수신한 CELP(부호여기선형예측)의 게인인덱스 및 부호기 내부에서 랜덤하게 생성한 CELP의 셰이프 인덱스를 이용하여 복호한다.
수신측의 구성에 대해서 설명한다. 안테나(26)에서 포촉한 전파는, 안테나공용기(25)를 통해서 수신기(27)에서 수신되고, 복조기(29)에서 복조되고, 전송로 복호화기(30)에서 전송로 오류가 정정되고, 음성복호화장치(31)에서 복호되고, D/A변환기(32)에서 아날로그 음성신호로 되돌려져서, 스피커(33)에서 출력된다.
또, 제어부(34)는 상기 각부를 제어하고, 신세사이저(28)는 송수신 주파수를 송신기(24) 및 수신기(27)에 부여하고 있다. 또, 키패드(35) 및 LCD표시기(36)는 맨머신 인터페이스에 이용된다.
다음에, 음성부호화장치(20)의 상세에 대해서 도 2 및 도 3을 이용하여 설명한다. 도 2는 음성부호화장치(20) 내부에 있어서, 입력신호 판정부(21a)와 파라미터 제어부(21b)를 제외한 부호화부의 상세한 구성도이다. 또, 도 3은 입력신호 판정부(21a)와 파라미터 제어부(21b)의 상세한 구성도이다.
먼저, 입력단자(101)에는 8KHz 샘플링된 음성신호가 공급된다. 이 입력음성신호는, 하이패스필터(HPF)(109)에서 불필요한 대역의 신호를 제거하는 필터처리가 시행된 후, 입력신호 판정부(21a)와, LPC(선형예측부호화)분석·양자화부(113)의 LPC분석회로(132)와, LPC 역필터회로(111)에 보내진다.
입력신호 판정부(21a)는, 도 3에 나타내는 바와 같이 입력단자(1)에서 입력된, 필터처리가 시행된 상기 입력음성신호의 실효(root mean square, r.m.s)값을 연산하는 r.m.s 연산부(2)와, 상기 실효값(rms)에서 실효값의 정상레벨을 연산하는 정상레벨 연산부(3)와, r.m.s연산부(2)의 출력r.m.s를 정상레벨 연산부(3)의 출력min-rms에서 제산하여 후술하는 연산값(rmsg)DMF 연산하는 제산연산자(4)와, 입력단자(1)로부터의 입력음성신호를 LPC분석하고, LPC계수(α(m))를 구하는 LPC 분석부(5)와, LPC 분석부(5)로부터의 LPC계수(α(m))를 LPC 캡스트럼계수(CL(m))로 변환하는 LPC 캡스트럼계수 연산부(6)와, LPC 캡스트럼계수 연산부(6)의 LPC 캡스트럼계수(CL(m))에서 평균쌍수진폭(logAmp(i))을 구하는 쌍수진폭 연산부(7)와, 쌍수진폭 연산부(7)의 평균쌍수진폭(logAmp(i))에서 쌍수진폭차분(wdif)을 구하는 쌍수진폭차분 연산부(8)와, 제산연산자(4)로부터의 rmsg와, 쌍수진폭차분 연산부(8)로부터의 쌍수진폭차분(wdif)에서 판정플래그(decflag)를 출력하는 퍼지추론부(9)를 갖춰서 이룬다. 또한, 도 3에는 설명의 형편상, 상기 입력음성신호에서 후술하는 idVUV 판정결과를 출력하는 V/UV판정부(115)를 포함하는 동시에, 각종 파라미터를 부호화하여 출력하는 도 2에 나타내는 부호화부를 음성부호화기(13)로서 나타내고 있다.
또, 파라미터 제어부(21b)는, 상기 V/UV판정부(115)로부터의 idVUV 판정결과와 상기 퍼지추론부(9)로부터의 판정결과(decflag)를 기초로, 배경잡음 카운터(bgnCnc), 배경잡음 주기카운터(bgnintvl)를 세트하는 카운터 제어부(11)와, 갱신플래그(Flag)를 결정하고, 출력단자(106)에서 출력하는 파라미터 생성부(12)를 갖춰서 이룬다.
다음에 입력신호 판정부(21a) 및 파라미터 제어부(21b)의 상기 각부의 상세한 동작에 대해서 설명한다. 먼저, 입력신호 판정부(21a)의 각부는 이하와 같이 동작한다.
r.m.s연산부(2)는, 8KHz 샘플링된 상기 입력음성신호를 20msec마다의 프레임(160샘플)으로 분할한다. 그리고, 음성분석에 대해서는 서로 오버랩하는 32msec(256샘플)로 실행한다. 여기서 입력신호(s(n))를 8분할하여 구간출력(ene(i))을 다음의 수학식 1에서 구한다.
이렇게 하여 구한 ene(i)에서 신호구간의 전후의 비(ratio)를 최대로 하는 경계(m)를 다음의 수학식 2 또는 수학식 3에 의해 구한다. 여기서 수학식 2는 전반이 후반보다 클 때의 비(ratio)이고, 수학식 3은 후반이 전반보다 클 때의 비(ratio)이다.
단, m = 2, …6의 사이에 한정한다.
이렇게 하여 구해진 경계(m)에서, 전반 혹은 후반의 큰쪽의 평균전력에서 신호의 실효값(rms)을 다음의 수학식 4 혹은 수학식 5에서 구한다. 수학식 4는 전반이 후반보다 클 때의 실효값(rms)이고, 수학식 5는 후반이 전반보다 클 때의 실효값(rms)이다.
정상레벨 연산부(3)는, 상기 실효값(rms)에서 도 4에 나타내는 플로차트에 따라서 실효값의 정상레벨을 연산한다. 스텝(S1)에서 과거의 프레임의 실효값(rms)의 안정상태에 의거한 카운터(st_cnt)가 4 이상인지 아닌지를 판단하고, 4 이상이라면 스텝(S2)으로 진행하고, 과거의 연속하는 4프레임의 rms중 2번째로 큰 것을 near_rms으로 한다. 다음에, 스텝(S3)에서 그것 이전의 rms인 far_rms(i)(i=0,1)와 near_rms에서 최소의 값(minval)을 구한다.
이렇게 하여 구한 최소의 값(minval)이 스텝(S4)에서 정상적인 rms인 값(min_rms)보다 클 때, 스텝(S5)으로 진행하고, min_rms를 다음의 수학식 6에 나타내는 바와 같이 갱신한다.
그후, 스텝(S6)에서 far_rms를 다음의 수학식 7, 수학식 8에 나타내는 바와 같이 갱신한다.
다음에, 스텝(S7)에서, rms와 표준레벨(STD_LEVEL)중, 작은 쪽을 max-val로 한다. 거기서, STD_LEVEL은 -30dB위의 신호레벨에 상당하는 값으로 한다. 이것은, 현재의 rms가 상당히 레벨이 높은 것일 때 오동작하지 않도록, 상한을 결정하기 위한 것이다. 그리고, 스텝(S8)에서 maxval를 min_rms와 비교하여 min_rms를 이하와 같이 갱신한다. 즉, maxval이 min_rms보다 작을 때에는 스텝(S9)에서 수학식 9에 나타내는 바와 같이, 또, maxval이 min_rms 상일 때에는 스텝(S10)에서 수학식 10식에 나타내는 바와 같이 min_rms를 조금만 갱신한다.
다음에, 스텝(S11)에서 mir_rms가 무음레벨(MIN_LEVEL)보다 작을 때 min_rms=MIN_LEVEL로 한다. MIN_LEVEL은 -66dB위의 신호레벨에 상당하는 값으로 한다.
그런데 스텝(S12)에서 신호의 전후반의 신호레벨의 비(ration)가 4보다 작고, rms가 STD_LEVEL보다 작을 때에는 프레임의 신호는 안정되어 있으므로 스텝(S13)으로 진행하여 안정성을 나타내는 카운터(st_cnt)를 1보 진행하고, 그렇지 않을 때에는 안정성이 부족하므로 스텝(S14)으로 진행하여 st_cnt=0으로 한다. 이와 같이하여 목적으로 하는 정상의 rms를 얻을 수 있다.
제산연산자(4)는 r.m.s연산부(2)의 출력r.m.s를 정상레벨 연산부(3)의 출력(min_rms)으로 제산하여 rmsg를 연산한다. 즉, 이 rmsg는 정상적인 rms에 대해서 지금의 rms가 어느 정도의 레벨인지를 나타내는 것이다.
다음에, LPC분석부(5)는 상기 입력음성신호(s(n))에서 단기예측(LPC)계수(α(m))(m=1, …,10)을 구한다. 또한, 음성부호화기(13) 내부에서의 LPC분석에 의해 구해진 LPC계수(α(m))를 이용할 수도 있다. LPC 캡스트럼계수 연산부(6)는 상기 LPC계수(α(m))를 LPC 캡스트럼계수(CL(m))로 변환한다.
쌍수진폭연산부(7)는 LPC 캡스트럼계수(CL(m))에서 쌍수 2승 진폭특성(In|HL(ejΩ)|2)을 다음의 수학식 11에서 구할 수 있다.
그러나, 여기서는 근사적으로 우변의 총계 계산의 상한을 무한대가 아니고 16까지로 하고, 다시 적분을 구함으로써 구간평균(logAmp(i))을 다음의 수학식 12 및 수학식 13에서 구한다. 그런데, CL(0)=0 이므로 생략한다.
여기서, ω는 평균구간(ω=Ωi+1- Ωi)으로 500Hz(= π/8)로 하고 있다. 여기서는, logAmp(i)에 대해서는 0∼2kHz까지를 500Hz씩 4등분한 i=0, ,3까지 계산한다.
다음에, 쌍수진폭차분 연산부(8)와 퍼지추론부(9)의 설명으로 옮긴다. 본 발명에서는, 무음, 배경잡음의 검출에는 퍼지이론을 이용한다. 이 퍼지추론부(9)는, 상기 제산연산자(4)가 rms를 min_rms로 나눠서 얻은 값(rmsg)과, 후술하는 쌍수진폭차분 연산부(8)로부터의 wdif를 이용하여 판정플래그(decflag)를 출력한다.
도 5에, 퍼지추론부(9)에서의 퍼지룰을 나타내는 상단(a)에 대해서는 무음, 배경잡음(background noise)에 대한 룰, 중단(b)은 주로 잡음파라미터 갱신(parameter renovation)을 위한 룰, 하단(c)은 음성(speech)을 위한 룰이다. 또, 이 중에서, 좌열은 rms를 위한 멤버십함수, 중열은 스펙트럼 포락을 위한 멤버십함수, 우열은 추론결과이다.
퍼지추론부(9)는, 먼저, 제산연산자(4)에 의해 상기 rms를 상기 min_rms으로 나눠서 얻은 값(rmsg)을 도 5의 좌열에 나타내는 멤버십함수로 분류한다. 여기서, 상단에서 멤버십함수(μAil(x1))(i=1,2,3)를 도 6에 나타내는 바와 같이 정의한다. 또한, x1=rmsg로 한다. 즉, 도 5의 좌열에 나타내는 멤버십함수는, 상단(a), 중단(b), 하단(c)의 순으로, 도 6에 나타내는 (μA1l(x1)), (μA2l(x1)), (μA3l(x1))로 정의 된다.
한편, 쌍수진폭차분 연산부(8)는, 과거 n(예를 들면 4)프레임분의 스펙트럼의 쌍수진폭(logAmp(i))을 유지하고, 그 평균인 aveAmp(i)를 구하고, 그것과 현재의 logAmp(i)의 차분의 2승계(wdif)를 다음의 수학식 14에서 구한다.
퍼지추론부(9)는, 쌍수수진폭차분 연산부(8)가 상기와 같이 구한 wdif를 도 5의 중열에 나타내는 멤버십함수로 분류한다. 여기서, 상단에서 멤버십함수(μAi2(x2))(i=1,2,3)를 도 7에 나타내는 바와 같이 정의한다. 또한, x2= wdif로 한다. 즉, 도 5의 중열에 나타내는 멤버십함수는, 상단(a), 중단(b), 하단(c)의 순으로, 도 7에 나타내는 μAl2(x2), μA22(x2), μA32(x2)로 정의된다. 그런데, 여기서 혹시 rms가 기출의 정수(MIN_LEVEL)(무음레벨)보다 작을때에는 도 7에는 따르지 않고, μAl2(x2)=1, μA22(x2)=μA32(x2)=0 으로 한다. 왜냐하면, 신호가 미묘하게 될 때, 스펙트럼의 변동이 통상 이상으로 크게, 차별의 방해가 되기 때문이다.
퍼지추론부(9)는, 이렇게하여 구한 μAij(xj)보다 추론결과인 멤버십함수(μBi(y))를 이하에 설명하는 바와 같이 구한다. 먼저, 도 5의 상중하단 각각의 μAi1(x1))과 μAi2(x2)보다 작은 쪽을 다음의 수학식 15에 나타내는 바와 같이 그 단의 μBi(y)로 한다. 그러나, 여기서 음성을 나타내는 멤버십함수(μA3l(x1))와 (μA32(x2))의 어느쪽이 1이 될때, μBl(y) = μB2(y) = 0, μB3(y) = 1 로 출력하는 구성을 추가하여도 좋다.
이 수학식 15에서 얻어진 각단의 μBl(y)는 도 5의 우열의 함수의 값에 해당하는 것이다. 여기서 멤버십함수(μBl(y))를 도 8에 나타내는 바와 같이 정의한다. 즉, 도 5의 우열에 나타내는 멤버십함수는, 상단(a), 중단(b), 하단(c)의 순으로, 도 8에 나타내는 μBl(y), μB2(y), μB3(y)로 정의된다.
이들의 값을 기초로 퍼지추론부(9)는 추론하는바, 다음의 수학식 16에 나타내는 바와 같은 면적법에 의한 판정을 행한다.
여기서, y*는 추론결과이고, yi*는 각단의 멤버십함수의 중심이고, 도 5에 있어서는 상단, 중단, 하단의 순으로, 0.1389, 0.5, 0.8611로 되어 있다. 또, Si는 면적에 해당된다. S1∼S2는 멤버십함수(μBl(y))를 이용하여 다음의 수학식 17, 18, 19에서 구해진다.
이들의 값에서 구해진 추론결과(y*)의 값에 의해 판정플래그(decFlag)의 출력값을 다음과 같이 정의한다.
0y*0.34 → decFalg = 0
0.34〈 y*〈 0.66 → decFalg = 2
0.66y*1 → decFalg = 1
여기서, decFlag = 0 은 판정결과가 배경잡음을 나타내는 결과이다. decFlag = 2는 파라미터를 갱신하여야할 배경잡음을 나타내는 결과이다. 또, decFlag = 1은 음성을 판별한 결과이다.
도 9에 구체적 예를 나타낸다. 지금 임시로 x1= 1.6, x2= 0.35 이었다고 한다. 여기서부터 μAij(xj), μAi2(x2) μBi(y)는 이하와 같이 구해진다.
μA11(x1) = 0.4, μA12(x2) = 0, μB1(y) = 0
μA21(x1) = 0.4, μA22(x2) = 0.5, μB2(y) = 0.4
μA31(x1) = 0.6, μA32(x2) = 0.5, μB3(y) = 0.5
여기서부터 면적을 계산하면 S1=0, S2=0.2133, S3=0.2038이 되고 결국 y* = 0.6785 가 되고 decFlag = 1이 된다. 즉, 음성으로 한다.
여기까지가 입력신호 판정부(21a)의 동작이다. 계속하여 파라미터제어부(21b)의 각부의 상세한 동작에 대해서 설명한다.
카운터제어부(11)는, 상기 V/UV판정부(115)로부터의 idVUV 판정결과와 상기 퍼지추론부(9)로부터의 decflag를 기초로 배경잡음 카운터(bgnCnt), 배경잡음주기 카운터(bgnIntvl)를 세트한다.
파라미터 생성부(12)는, 카운터제어부(11)로부터의 bgnIntvl와 상기 idVDV판정결과에서 idVUV 파라미터와, 갱신플래그(Flag)를 결정하고, 출력단자(106)에서 전송한다.
이 전송파라미터를 결정하는 플로차트를 도 10 및 도 11로 나눠서 표시한다. 배경잡음 카운터(bgncnt), 배경잡음동기 카운터(bgnIntvl)(어느 것도 초기값 0)를 정의한다. 먼저, 도 10의 스텝(S21)에서 입력신호의 분석결과가 무음성(idVUV=0)의 경우, 스텝(S22) 및 스텝(S24)을 통해서 decFlag = 0이면 스텝(S25)으로 진행하여 배경잡음 카운터(bgnCnt)를 1보 진행하고, decFlag = 2이면 bgnCnt를 유지한다. 스텝(S26)에서 bgnCnt가 정수(BGN_CNT)(예를 들면 6)보다 클 때 스텝(S27)으로 진행하고, idVUV가 배경잡음을 나타내는 값 1에 세트된다. 또, 스텝(S28)에서 dcfFlag = 0 일 때에는 bgnIntvl를 스텝(S29)으로 1보 진행시키고, 여기서 스텝(S31)에서 bgnIntvl이 정수(BGN_INTVL)(예를 들면 16)와 같을 때 스텝(S32)으로 진행하여 bgnIntvl = 0 로 세트된다. 또, 스텝(S28)에서 decFlag = 2 일때, 스텝(S30)으로 진행하고, bgnIntvl = 0 으로 세트된다.
그런데, 스텝(S21)에서 유성음(idvuv = 2, 3)의 경우, 혹은 스텝(S22)에서 decflag = 1 의 경우, 스텝(S23)으로 진행하고, bgnCnt = 0, bgnIntvl = 0 으로 세트된다.
도 11로 옮겨서, 스텝(S33)에서 무성음 혹은 배경잡음(idVUV = 0.1)의 경우, 혹시 스텝(S35)에서 무성음(idVUV = 0)이면, 스텝(S36)에서 무성음 파라미터가 출력된다.
스텝(S35)에서 배경잡음(idVUV=1)이고, 또한 스텝(S37)에서 bgnIntvl=0이면, 스텝(S38)에서 배경잡음 파라미터(BGN=Back Ground Noise)가 출력된다. 한편, 스텝(S37)에서 bgnIntvl>0이면, 스텝(S39)으로 진행하여 헤더비트만이 송신된다.
헤더비트의 구성을 도 16에 나타낸다. 여기서, 상위 2비트는 idVUV비트 그 자체가 세트되는바, 배경잡음기간(idVUV=1)의 경우도 갱신프레임이 아닌 다음의 1비트에 0, 갱신프레임이라면 다음의 1비트에 1을 세트한다.
MPEG4에서 채용되고 있는 음성코덱 HVXC(Harmonic Vector Excitation Coding)를 예로 들고, 각 조건에서의 부호화비트의 내역을 도 12에 나타낸다.
idVUV는 유성음, 무성음, 배경잡음 갱신시, 배경잡음 비갱신시에 각각 2비트 부호화된다. 갱신플래그에는 배경잡음 갱신시, 배경잡음 비갱신시에 각각 1비트가 할당된다.
LSP파라미터는, LSP0, LSP2, LSP3, LSP4, LSP5로 나눠진다. LSP0는 10차의 LSP파라미터의 코드북 인덱스이며, 엔벌로프의 기본적인 파라미터로서 사용되고, 20msec의 프레임에서는 5비트가 할당된다. LSP2는 5차의 저주파수역 오차보정의 LSP파라미터의 코드북 인덱스이며, 7비트가 할당된다. LSP3은 5차의 고주파수역 오차보정의 LSP파라미터의 코드북 인덱스이며, 5비트가 할당된다. LSP5는 10차의 전대역 오차보정의 LSP파라미터의 코드북 인덱스이며, 8비트가 할당된다. 이중, LSP2, LSP3 및 LSP5는 앞의 단계에서의 오차를 뫼워주기 위해 사용되는 인덱스이며, 특히 LSP2와 LSP3은 LSP0이고 엔벌로프를 표현하지 못하였을 때에 보조적으로 이용된다. LSP4는 부호화시의 부호화모드가 직접모드(straight mode)인지, 차분모드(differential mode)인지의 1비트의 선택플래그이다. 원래의 파형에서 분석하여 구한 오리지널의 LSP파라미터에 개한, 양자화에 의해 구한 직접모드의 LSP와, 양자화된 차분에 의해 구한 LSP의 차가 적은 편의 모드의 선택을 나타낸다. LSP4가 0일 때에는 직접모드이며, LSP4가 1일 때에는 차분모드이다.
유성음시에는 모든 LSP파라미터를 부호화 비트로 한다. 무성음 및 배경잡음 갱신시는 LSP5를 제외한 부호화 비트로 한다. 배경잡음 갱신시는 LSP5 부호화 비트를 보내지 않는다. 특히, 배경잡음 갱신시의 LSP5 부호화 비트는 직근 3프레임의 LSP파라미터의 평균을 취한 것을 양자화하여 얻어진 부호화 비트로 한다.
피치(PCH) 파라미터는, 유성음시만 7비트의 부호화 비트가 된다. 스펙트럼 엔벌로프의 코드북 파라미터(idS)는, idSO로 기패되는 제 0LPC잔차 스펙트럼 코드북인덱스와 idS1로 기패되는 제 1LPC잔차 스펙트럼 코드북인덱스로 구분된다. 유성음시에 함께 4비트의 부호화비트가 된다. 또, 잡음코드북 인덱스(idSL0 0이나 idSL0 1)는, 무성음시에 6비트 부호화된다.
또, LPC잔차 스펙트럼 게인코드북 인덱스(idG)는 유성음시에, 5비트의 부호화비트가 된다. 또, 잡음코드북 게인인덱스(idGL0 0이나 idGL1 1)에는, 무성음시에 각각 4비트의 부호화 비트가 할당된다. 배경잡음 갱신시에는 idSL0 0에 4비트만의 부호화 비트가 할당된다. 이 배경잡음 갱신시의 idGL0 0 4비트에 대해서도 직근 4프레임(8서브프레임)의 Celp게인의 평균을 취한것을 양자화하여 얻어진 부호화비트로 한다.
또, idS0_4k로 기재되는 제 0확장 LPC잔차 스펙트럼 코드북인덱스와, idS1_4k로 기재되는 제 1확장 LPC잔차 스펙트럼 코드북인덱스와, idS2_4k로 기재되는 제 2확장 LPC잔차 스펙트럼 코드북 인덱스와, idS3_4k로 기재되는 제 3확장 LPC잔차 스펙트럼 코드북 인덱스에는, 유음성시에 7비트, 10비트, 9비트, 6비트가 부호화 비트로서 할당된다.
이것에 의해, 유성음시는 80비트, 무성음시는 40비트, 배경잡음 갱신시는 25비트, 배경잡음 비갱신시는 3비트가 토탈비트로서 할당된다.
여기서, 상기 도 12에 나타낸 부호화 비트를 생성하는 음성부호화기에 대하여 상기 도 2를 이용하여 상세히 설명한다.
입력단자(101)에 공급된 음성신호는, 하이패스필터(HPF)(109)에서 불필요한 대역의 신호를 제거하는 필터처리가 실시된 후, 상술한 바와 같이 입력신호 판정부(21a)에 보내지는 동시에, LPC(선형예측 부호화)분석·양자화부(113)의 LPC 분석회로(132)와, LPC 역필터회로(111)에 보내진다.
LPC분석·양자화부(113)의 LPC 분석회로(132)는, 상술한 바와 같이 입력음성 신호파형의 256샘플 정도의 길이를 1블록으로서 해밍창을 걸어서, 자기상관법에 의해 선형예측계수, 소위 α파라미터를 구한다. 데이터출력의 단위가 되는 프레이밍의 간격은, 160샘플 정도로 한다. 샘플링주파수(fs)가 예를 들면 8kHz일 때, 1프레임 간격은 160샘플로 20msec이 된다.
LPC 분석회로(132)로부터의 α파라미터는, α→LSP 변환회로(133)에 보내져서, 선스펙트럼쌍(LSP) 파라미터로 변환된다. 이것은, 직접형의 필터계수로서 구한 α파라미터를 예를 들면 10개, 5쌍의 LSP 파라미터로 변환한다. 변환은 예를 들면 뉴톤-랩손법 등을 이용하여 행한다. 이 LSP 파라미터로 변환하는 것은, α파라미터보다도 보간특성이 뛰어나고 있기 때문이다.
α→LSP 변환회로(133)로부터의 LSP 파라미터는, LSP 양자화기(134)에 의해 매트릭스 혹은 벡터 양자화된다. 이때, 프레임간 차분을 취하고서 벡터 양자화하여도 좋고, 복수 프레임분을 모아서 매트릭스 양자화하여도 좋다. 여기서는 20msec을 1프레임으로 하고, 20msec마다 산출되는 LSP 파라미터를 2프레임분 모아서, 매트릭스 양자화 및 벡터 양자화하고 있다.
이 LSP 양자화기(134)로부터의 양자화출력, 즉 LSP양자화의 인덱스는, 단자(102)를 거쳐서 추출되고, 또 양자화가 끝난 LSP벡터는 LSP 보간회로(136)에 보내진다.
LSP 보간회로(136)는, 상기 20msec 혹은 40msec마다 양자화된 LSP벡터를 보간하고, 8배의 비트로 한다. 즉, 2.5msec마다 LSP벡터가 갱신되도록 한다. 이것은, 잔차파형을 하모닉부호화 복호화방법에 의해 분석 합성하면, 그 합성파형의 엔벌로프는 상당히 완만하고 스므즈한 파형으로 되기 때문에, LPC계수가 20msec마다 급격히 변화하면 이음을 발생하는 일이 있기 때문이다. 즉, 2.5msec마다 LPC계수가 서서히 변화하여 가도록 하면, 이와 같은 이음의 발생을 방지할 수 있다.
이와 같은 보간이 행해진 2.5msec마다의 LSP벡터를 이용하여 입력음성의 역필터링을 실행하기 위해, LSP→α변환회로(137)에 의해, LSP 파라미터를 예를 들면 10차정도의 직접형 필터의 계수인 α파라미터로 변환한다. 이 LSP→α변환회로(137)로부터의 출력은, 상기 LPC 역필터회로(111)에 보내지고, 이 LPC 역필터회로(111)에서는, 2.5msec마다 갱신되는 α파라미터에 의해 역필터링처리를 행하여, 원활한 출력을 얻도록 하고 있다. 이 LPC 역필터회로(111)로부터의 출력은, 사인파분석 부호화부(114), 구체적으로는 예를 들면 하모닉 부호화회로의 직교변환회로(145), 예를 들면 DFT(이산푸리에변환)회로에 보내진다.
LPC분석·양자화부(113)의 LPC 분석회로(132)로부터의 α파라미터는, 청각가중필터 산출회로(139)에 보내져서 청각가중을 위한 데이터가 구해지고, 이 가중데이터가 후술하는 청각가중의 벡터 양자화기(116)와, 제 2부호화부(120)의 청각가중필터(125) 및 청각가중의 합성필터(122)에 보내진다.
하모닉 부호화회로 등의 사인파분석 부호화부(114)에서는, LPC 역필터회로(111)로부터의 출력을 하모닉 부호화의 방법으로 분석한다. 즉 피치검출, 각 하모닉스의 진폭(AM)의 산출, 유성음(V)/무성음(UV)의 판별을 행하고, 피치에 의해 변화하는 하모닉스의 엔벌로프 혹은 진폭(AM)의 개수를 차원변환하여 일정수로 하고 있다.
도 2에 나타내는 사인파분석 부호화부(114)의 구체예에 있어서는, 일반의 하모닉 부호화를 상정하고 있으나, 특히, MBE(Multiband Excitation: 멀티밴드여기)부호화의 경우에는, 동시각(같은 블록 혹은 프레임내)의 주파수축영역 소위 밴드마다 유성음(Voiced)부분과 무성음(Unvoiced)부분이 존재한다는 가정에서 모델화하게 된다. 그 이외의 하모닉 부호화에서는, 1블록 혹은 프레임내의 음성이 유성음인지 무성음인지의 택일적인 판정이 되게 된다. 또한, 이하의 설명중의 프레임마다의 V/UV란, MBE부호화에 적용한 경우에는 전밴드가 UV일 때를 당해 프레임의 UV로 하고 있다. 여기서 상기 MBE의 분석 합성방법에 대해서는, 본건 출원인이 앞서 제안한 일본국 특원평 4-91422호 명세서 및 도면에 상세한 구체예를 개시하고 있다.
도 2의 사인파분석 부호화부(114)의 오픈루프 피치서치부(141)에는, 상기 입력단자(101)로부터의 입력음성신호가, 또 제로크로스 카운터(142)에는, 상기 HPF(하이패스필터)(109)로부터의 신호가 각각 공급되어 있다. 사인파분석 부호화부(114)의 직교변환회로(145)에는, LPC 역필터회로(111)로부터의 LPC잔차 혹은 선형예측잔차가 공급되어 있다. 오픈루프 피치서치부(141)에서는, 입력신호의 LPC잔차를 취하여 오픈루프에 의한 비교적 라프한 피치의 서치가 행해지고, 추출된 조피치 데이터는 고정밀도 피치서치(146)에 보내져서, 후술하는 바와 같은 크로즈드루프에 의한 고정밀도의 피치서치(피치의 파인서치)가 행해진다. 또, 오픈루프 피치서치부(141)에서는, 상기 조피치 데이터와 함께 LPC잔차의 자기상관의 최대치를 파워로 정규화한 정규화 자기상관의 최대치(r(P))가 추출되어, V/UV(유성음/무성음)판정부(115)에 보내지고 있다.
직교변환회로(145)에서는, 예를 들면 DFT(이산푸리에변환) 등의 직교변환처리가 실시되어서, 시간 축상의 LPC잔차가 주파수 축상의 스펙트럼 진폭데이터로 변환된다. 이 직교변환회로(145)로부터의 출력은, 고정밀도 피치서치(146) 및 스펙트럼진폭 혹은 엔벌로프를 평가하기 위한 스펙트럼 평가부(148)에 보내진다.
고정밀도(파인) 피치서치부(146)에는, 오픈루프 피치서치부(141)에서 추출된 비교적 라프한 조피치 데이터와, 직교변환부(145)에 의해, 예를 들면 DFT된 주파수 축상의 데이터가 공급되어 있다. 이 고정밀도 피치서치부(146)에서는, 상기 조피치 데이터값을 중심으로, 0.2∼0.5시각에서 ±수샘플씩 흔들어서, 최적한 소수점부(플로팅)의 파인피치 데이터의 값에 뒤따른다. 이때의 파인서치의 방법으로서는, 소위 합성에 의한 분석(Analysis by Synthesis)법을 이용하여, 합성된 파워스펙트럼이 원음의 파워스펙트럼에 가장 가깝게되도록 피치를 선택하고 있다. 이와 같은 크로즈드 루프에 의한 고정밀도 피치서치부(146)로부터의 피치데이터에 대해서는, 스위치(118)를 거쳐서 출력단자(104)에 보내고 있다.
스펙트럼 평가부(148)에서는, LPC잔차의 직교변환출력으로서의 스펙트럼진폭 및 피치에 의거하여 각 하모닉스의 크기 및 그 집합인 스펙트럼 엔벌로프가 평가되고, 고정밀도 피치서치부(146), V/UV(유성음/무성음)판정부(115) 및 청각가중의 벡터양자화기(116)에 보내진다.
V/UV(유성음/무성음)판정부(115)는, 직교변환회로(145)로부터의 출력과, 고정밀도 피치서치부(146)로부터의 최적 피치와, 스펙트럼 평가부(148)로부터의 스펙트럼 진폭데이터와, 오픈루프 피치서치부(146)로부터의 정규화 자기상환 최대치(r(P))와, 제로크로스 카운터(142)로부터의 제로크로스 카운터값에 의거하여, 당해 프레임의 V/UV판정이 행해진다. 또한, MBE의 경우의 각 밴드마다의 V/UV판정결과의 경계위치도 당해 프레임의 V/UV판정의 일조건으로 하여도 좋다. 이 V/UV판정부(115)로부터의 판정출력은, 출력단자(105)를 거쳐서 추출된다.
그런데, 스펙트럼 평가부(148)의 출력부 혹은 벡터 양자화기(116)의 입력부에는, 데이터수변환(일종의 샘플링비트 변환)부가 설치되어 있다. 이 데이터수변환부는, 상기 피치에 따라서 주파수 축상에서의 분할대역수가 다르고, 데이터수가 다른 것을 고려하여 엔벌로프의 진폭데이터ㅣAmㅣ를 일정한 개수로 하기 위한 것이다. 즉, 예를 들면 유효대역을 3400kHz까지로 함년, 이 유효대역이 상기 피치에 따라서, 8밴드∼63밴드로 분할되게 되고, 이들의 각 밴드마다 얻어지는 상기 진폭데이터ㅣAmㅣ의 개수(mMX+1)도 8∼63으로 변화하게 된다. 이 때문에 데이터수 변환부(119)에서는, 이 가변개수(mMX+1)의 진폭데이터를 일정 개수(M)개, 예를 들면 44개의 데이터로 변환하고 있다.
이 스펙트럼 평가부(148)의 출력부 혹은 벡터 양자화기(116)의 입력부에 설치된 데이터수 변환부로부터의 상기 일정 개수(M개)(예를 들면 44개)의 진폭데이터 혹은 엔벌로프 데이터가, 벡터 양자화기(116)에 의해 소정 개수, 예를 들면 44개의 데이터마다 모아져서 벡터가 되고, 가중벡터 양자화가 실시된다. 이 가중은 청각가중필터 산출회로(139)로부터의 출력에 의해 부여된다. 벡터 양자화기(116)로부터의 상기 엔벌로프의 인덱스(idS)는, 스위치(17)를 거쳐서 출력단자(103)에서 추출된다. 또한, 상기 가중벡터 양자화에 앞서서, 소정의 개수의 데이터로 이루는 벡터에 대해서 적당한 리크계수를 이용한 프레임간 차분을 취하여 놓도록 하여도 좋다.
다음에, 소위 CELP(부호여기 선형예측) 부호화구성을 가지고 있는 부호화부에 대하여 설명한다. 이 부호화부는 입력음성신호의 무성음부분의 부호화를 위해 사용되고 있다. 이 무성음부분용의 CELP 부호화구성에 있어서, 잡음코드북, 소위 스토캐틱·코드북(stochastic code book)(121)로부터의 대표치 출력인 무성음의 LPC잔차에 상당하는 노이즈출력을 게인회로(126)를 거쳐서, 청각가중의 합성필터(122)에 보내고 있다. 가중의 합성필터(122)에서는, 입력된 노이즈를 LPC 합성처리하고, 얻어진 가중 무성음의 신호를 감산기(123)에 보내고 있다. 감산기(123)에는, 상기 입력단자(101)에서 HPF(하이패스필터)(109)를 거쳐서 공급된 음성신호를 청각가중필터(125)에서 청각가중한 신호가 입력되어 있고, 합성필터(122)로부터의 신호와의 차분 혹은 오차를 추출하고 있다. 또한, 청각가중필터(125)의 출력에서 청각가중 합성필터의 영입력응답을 사전에 차감하여 놓는 것으로 한다. 이 오차를 거리계산회로(124)에 보내서 거리계산을 행하고, 오차가 최소가 되는 대표치 벡터를 잡음코드북(121)에서 서치한다. 이와 같은 합성에 의한 분석(Analysis by Synthesis)법을 이용한 크로즈드 루프서치를 사용한 시간축파형의 벡터양자화를 행하고 있다.
이 CELP 부호화구성을 이용한 부호화부로부터의 UV(무성음)부분용의 데아토로서는, 잡음코드북(121)으로부터의 코드북의 셰이프인덱스(idS1)과, 게인회로(126)로부터의 코드북의 게인인덱스(idS1)와, 게인회로(126)로부터의 코드북의 게인인덱스(idG1)가 추출된다. 잡음코드북(121)으로부터의 UV데이터인 셰이프인덱스(idS1)는, 스위치(127s)를 거쳐서 출력단자(107s)에 보내지고, 게인회로(126)의 UV데이터인 게인 인덱스(idG1)는, 스위치(127g)를 거쳐서 출력단자(107s)에 보내지고 있다.
여기서, 이들의 스위치(127s, 127g) 및 상기 스위치(117, 118)는, 상기 이들의 스위치(117, 118)는, 상기 U/UV판정부(115)로부터의 U/UV 판정결과에 의해 온/오프제어되고, 스위치(117, 118)는 현재 전송하고저 하는 프레임의 음성신호의 U/UV 판정결과가 유성음(V)일 때 온이 되고, 스위치(127s, 127g)는 현재 전송하고저 하는 프레임의 음성신호가 무성음(UV)일 때 온이 된다.
이상과 같이 구성되는 음성부호화기에 의해, 가변비트로 부호화된 각 파라미터, 즉 LSP파라미터(LSP), 유성음/무성음 판정파라미터(idvuv), 피치파라미터(PCH), 스펙트럼 엔벌로프의 코드북 파라미터(ids) 및 게인인덱스(idg), 잡음코드북 파라미터(ids) 및 게인인덱스(idG1)는, 상기 도 1에 나타내는 전송로 부호화기(22)에 의해 전송로의 품질이 음성품질에 영향을 받기 어렵게 부호화된 후, 변조기(23)에서 변조되고, 송신기(24)에서 송신처리가 실시되고, 안테나공용기(25)를 통해서, 아날로그(26)에서 송신된다. 또, 상기 파라미터는, 상술한 바와 같이 파라미터 제어부(21b)의 파라미터 생성부(12)에도 공급된다. 그리고, 파라미터 생성부(12)는, U/UV판정부(115)로부터의 판정결과(idVUV)와, 상기 파라미터와 카운터 제어부(21b)는, 혹시 U/UV판정부(115)로부터 배경잡음이라고 하는 idVUV=1이 보내져 왔을 때에는, LSP 양자화부(134)에 LSP 양자화의 방법인 차분모드(LSP4=1)를 금지하고, 직접모드(LSP4=0)로 양자화를 행하도록 제어한다.
다음에, 상기 도 1에 나타낸 휴대전화장치의 수신측의 음성복호화장치(31)에 대해서 상세히 설명한다. 음성복호화장치(31)에는 안테나로 포착하고, 안테나공용기(25)를 통해서 수신기(27)에서 수신되고, 복조기(29)에서 복조되고, 전송로 복호화기(30)에서 전송로 오류가 정정된 수신비트가 입력된다.
이 음성복호화장치(31)의 상세한 구성을 도 13에 나타낸다. 이 음성복호화장치는 입력단자(200)에서 입력된 수신비트에서 헤더비트를 추출하고, 도 16에 따라서 idVUV와 갱신플래그를 분리하는 동시에, 부호비트(code bits)를 출력하는 헤더비트 해석부(201)와, 상기 idVUV와 갱신플래그에서 후술하는 스위치(243) 및 스위치(248)의 전환을 제어하는 전환제어부(241)와, 후술하는 시퀀스로 LPC파라미터, 혹은 LSP파라미터를 결정한다. LPC파라미터 재생제어부(240)와, 상기 부호비트 중의 LSP인덱스에서 LPC파라미터를 재생하는 LPC파라미터 재생부(213)와, 상기 부호비트를 개개로 파라미터 인덱스로 분해하는 부호비트 해석부(209)와, 전환제어부(241)에 의해 전환이 제어되고, 배경잡음 갱신프레임을 수신하였을 때 닫혀지고, 그 이외는 열리는 스위치(248)와, 전환제어부(241)에 의해 전환이 제어되고, 회계잡음 갱신프레임을 수신하였을 경우, RAM(244)방향으로 닫혀지고, 그 이외는 헤더비트 해석부(201)방향으로 닫혀지는 스위치(243)와, UV셰이프 인덱스를 난수에 의해 발생하는 난수발생기(208)와, 무성음을 합성하는 무성음 합성부(220)와, 엔벌로프 인덱스에서 엔벌로프 역벡터 양자화하는 역벡터 양자화부(212)와, idVUV, 피치, 엔벌로프에서 유성음을 합성하는 유성음 합성부(211)와, LPC 합성필터(214)와, 배경잡음 갱신프레임 수신시에 부호비트를 유지하고, 배경잡음 비갱신프레임 수신시에 부호비트를 공급하는 RAM(244)을 갖춘다.
먼저, 헤더비트 해석부(201)는, 입력단자(200)를 거쳐서 공급된 수신비트에서 헤더비트를 추출하고, idVUV와 갱신플래그(Flag)를 분리하여 해당 프레임의 비트수를 인식한다. 또, 후속의 비트가 존재하는 경우, 부호비트로서 출력한다. 혹시 도 16에 나타낸 헤더비트의 구성의 상위 2비트가 00이라면 무성음(Unvoicedx speech)으로 알 수 있으므로 다음의 38비트를 독해한다. 또, 상위 2비트가 01이라면 배경잡음(BGN)으로 알 수 있으므로 다음의 1비트가 0이면 배경잡음의 비갱신프레임이므로 거기서 끝나고, 혹시 다음의 1비트가 1이면 배경잡음의 갱신프레임을 독해하기 위해 다음의 22비트를 독해한다. 혹시 상위 2비트가 10/11이면 유성음으로 알 수 있으므로 다음의 78비트를 독해한다.
전환제어부(241)에서는, idVUV와 갱신플래그를 보고 혹시 idVUV=1일 때, 갱신플래그(Flag=1)라면 갱신이므로 스위치(248)를 닫고, 부호비트를 RAM(244)에 공급하고, 동시에 스위치(243)를 헤더비트 해석부(201)측에 닫은 부호비트를 부호비트 해석부(209)에 공급하고, 역으로 갱신플래그(Flag=0)라면 비갱신이므로 스위치(248)를 열고, 다시 스위치(243)를 RAM(244)측에 닫고, 갱신시의 부호비트를 공급한다. idVUV1의 경우 스위치(248)는 열고, 스위치(243)가 상편으로 닫는다.
부호비트 해석부(209)는, 헤더비트 해석부(201)에서 스위치(243)를 거쳐서 입력된 부호비트를 개개의 파라미트 인덱스, 즉 LSP인덱스, 피치, 엔벌로프 인덱스, UV게인 인덱스, UV셰이프 인덱스로 분해한다.
난수발생기(208)는, UV셰이프 인덱스를 난수에 의해 발생하는바, 스위치(249)가 idVUV=1인 배경잡음 프레임을 수신하였을 때, 전환제어부(241)에서 닫혀지고, 무성음합성부(220)에 공급한다. idVUV1이면 부호비트 해석부(209)에서 스위치(249)를 통해서 무성음합성부(220)에 UV셰이프 인덱스를 공급한다.
LPC파라미터 재생제어부(240)는, 내부에 도시하지 않은 전환제어부와, 인덱스 판정부를 갖추고, 전환제어부에서 idVUV를 검출하고, 그 검출결과에 의거하여 LPC파라미터 재생제어부(213)의 동작을 제어한다. 상세한 것에 대해서는 후술한다.
LPC파라미터 재생제어부(213), 무성음합성부(220), 역벡터 양자화부(212), 유성음합성부(211) 및 LPC 합성필터(214)는, 음성복호화기(31)의 기본적인 부분이다. 도 14에, 이 기본적인 부분과 그 주변의 구성을 나타낸다.
입력단자(202)에는, 상기 LSP벡터 양자화출력, 소위 코드북의 인덱스가 공급되고 있다.
이 LSP인덱스는, LPC파라미터 재생제어부(213)에 보내진다. LPC파라미터 재생제어부(213)는, 상술한 바와 같이 부호비트 중의 LSP인덱스에서 LPC파라미터를 재생하는바, LPC파라미터 재생제어부(240)의 내부의 도시하지 않은 상기 전환제어부에 의해 제어된다.
먼저, LPC파라미터 재생제어부(213)에 대해서 설명한다. LPC파라미터 재생제어부(213)는 LSP의 역양자화기(231)와, 전환스위치(251)와, LSP 보간회로(232)(V용) 및 LSP 보간회로(233)(UV용)와, LSP→변환회로(234)(V용) 및 LSP 보간회로(235)(UV용)와, 스위치(252)와, RAM(253)과, 프레임 보간회로(245)와, LSP 보간회로(246)(BGN용)와, LSP→변환회로(247)(BGN용)를 갖춰서 이룬다.
LSP의 역양자화기(231)에서는 LSP인덱스에서 LSP 파라미터를 역양자화한다. 이 LSP 역양자화기(231)에 있어서의 LSP 파라미터의 생성에 대해서 설명한다. 여기서는, 배경잡음 카운터(bgnIntvl)(초기치0)를 도입한다. 유성음(idVUV=2,3) 혹은 무성음(idVUV=0)의 경우, 통상의 복호처리로 LSP 파라미터를 생성한다.
배경잡음(idVUV=1)의 경우, 혹시 그것이 갱신프레임의 경우 bgnIntvl=0으로 하고, 그렇지 않기 때문에 bgnIntvl을 1보 진행시킨다. 단, bgnIntvl을 1보 진행시키는 것으로 후술하는 정수(BGN_INTVL_RX)와 동등하게 될 경우는, bgnIntvl을 1보 진행시키지 않는다.
그리고, 다음의 (20)식과 같이 LSP 파라미터를 생성한다. 여기서 갱신프레임의 직전에 수신된 LSP 파라미터를 qLSP(prev)(1, ,10), 갱신프레임에서 수신된 LSP 파라미터를 qLSP(curr)(1, ,10), 보간에 의해 생성하는 LSP 파라미터를 qLSP(curr)(1, ,10)로 하고, 다음의 수학식 20에 의해 구한다.
여기서, BGN_INTVL_RX는 정수, bgnIntvl’는 bgnIntvl과 난수(rnd(=-3, 3))를 이용하여 다음의 수학식 21에 의해 생성하는바, 혹시 bgnIntvl’< 0일 때 bgnIntvl’=bgnIntvl, bgnIntvl’BGN_INTVL_RX일 때, bgnIntvl’=bgnIntvl로 한다.
또, LPC파라미터 재생제어부(240) 둥의 도시하지 않은 전환제어부는, V/UV파라미터(dVUV), 갱신플래그(Flag)를 기초로 LPC파라미터 재생부(213) 내부의 스위치(251 및 252)를 제어한다.
스위치(251)는, idVUV=0, 2, 3일 때 상편 단자에, idVUV=1일 때 하편 단자로 전환된다. 스위치(252)는 갱신플래그(Flag=1), 즉 배경잡음 갱신프레임일 때, 닫혀져서 LSP파라미터가 RAM(253)에 공급되고, qLSP(prev)가 qLSP(curr)에 의해 갱신된 후, qLSP(curr)를 갱신한다. RAM(253)은 qLSP(prev), qLSP(curr)를 유지한다.
프레임 보간회로(245)는, qLSP(curr), qLSP(prev)에서 내부카운터(bgnIntvl)를 이용하여 qLSP를 생성한다. LSP보간회로(245)는 LSP를 보간한다. LSP→변환회로(247)는 BGN용 LSP를로 변환한다.
다음에, LPC파라미터 재생제어부(240)에 의한 LPC파라미터 재생부(213)의 제어의 상세에 대해서는 도 15의 플로파트를 이용하여 설명한다.
먼저, LPC파라미터 재생제어부(240)의 전환제어부에 있어서, 스텝(S41)에서 V/UV 판정파라미터(idVUV)를 검출하고, 0이면 스텝(S42)으로 진행하고, LSP 보간회로(233)에서 LSP 보간하고, 다시 스텝(S43)으로 진행하여 LSP→변환회로(235)에서 LSP를로 변환한다.
스텝(S41)에서 idVUV=1이며, 또한 스텝(S44)에서 갱신플래그(Flag=1)이면, 갱신프레임이므로, 스텝(S45)에 있어서 프레임 보간회로(245)에서 bgnIntvl=0으로 한다.
스텝(S44)에서 갱신플래그(Flag=0)이며, 또한 스텝(S46)에서 bgnIntvl< BGN_INTVL_RX1이기 때문에 스텝(S43)으로 진행하고, bgnIntvl을 1보 진행시킨다.
다음에, 스텝(S48)에서 프레임 보간회로(245)에 의해 bgnIntvl’을 난수(rnd)를 발생시켜서 구한다. 단, 스텝(S49)에서 bgnIntvl’< 0인지 bgnIntvl’BGN_INTVL_RX일 때, 스텝(S50)에서 bgnIntvl’=bgnIntvl로 한다.
다음에, 스텝(S51)에서 프레임 보간회로(245)에 의해 LSP를 프레임 보간하고, 스텝(S52)에서 LSP 보간회로(245)에 의해 LSP 보간하고, 스텝(S53)에서 LSP→변환회로(247)에 의해 LSP를로 변환한다.
또한, 스텝(S52)에서 idVUV=2, 3이기 때문에, 스텝(S54)으로 진행하고, LSP 보간회로(232)에서 LSP 보간하고, 스텝(S55)에서 LSP→변환회로(234)에 의해 LSP를로 변환한다.
또, LPC 합성필터(214)는, 유움성부분의 LPC 합성필터(236)와, 무움성부분의 LPC 합성필터(237)를 분리하고 있다. 즉, 유움성부분과 무움성부분에서 LPC의 계수보간을 독립으로 행하도록 하여, 유움성에서 무움성에의 천이부나, 무움성에서 유움성에의 천이부나, 무움성에서 유움성에의 천이부에서 전혀 성질이 다른 LSP끼리를 보간함으로써 악영향을 방지하고 있다.
또, 입력단자(203)에는, 상기 스펙트럼 엔벌로프(Am)의 가중벡터 양자화된 코드인덱스 데이터가 공급되고, 입력단자(204)에는 상기 피치파라미터(PCH)의 데이터가 공급되고, 입력단자(205)에는 상기 V/UV 판정파라미터(idVUV)가 공급되어 있다.
입력단자(203)로부터의 스펙트럼 엔벌로프(Am)의 벡터 양자화된 인덱스 데이터는, 역스펙트럼 양자화기(212)에 보내져서 역스펙트럼 양자화가 실시되고, 상기 데이터수 변환에 대응하는 역변환이 실시되어서, 스펙트럼 엔벌로프의 데이터로 되어서, 유성음 합성부(211)의 사인파 합성회로(215)에 보내지고 있다.
또한, 인코드시에 스펙트럼의 벡터 양자화에 앞서서 프레임간 차분을 취하고 았는 경우에는, 여기서의 역스펙트럼 양자화 후에 프레임간 차분의 복호를 행하고서 데이터수 변환을 행하고, 스펙트럼 엔벌로프의 데이터를 얻는다.
사인파 합성회로(215)에는, 입력단자(204)로부터의 피치 및 입력단자(205)로부터의 상기 V/UV 판정데이터(idVUV)가 공급되어 있다. 사인파 합성회로(215)에서는, 상기 도 2에 나타낸 LPC역필터(111)로부터의 출력에 상당하는 LPC잔차 데이터가 추출되고, 이것이 가산기(218)에 보내지고 있다. 이 사인파 합성의 구체적인 방법에 대해서는, 예를 들면 본건 출원인이 앞서 제안한 일본국 특원평 4-91422호의 명세서 및 도면, 혹은 일본국 특원평6-198451호의 명세서 및 도면에 개시되어 있다.
또, 역스펙트럼 양자화기(212)로부터의 엔벌로프의 데이터와, 입력단자(204, 205)로부터의 피치, V/UV 판정데이터(idVUV)란, 유성음(V)부분의 노이즈가산을 위한 노이즈 합성회로(216)에 보내지고 있다. 이 노이즈 합성회로(216)로부터의 출력은, 가중중첩 가산회로(217)를 거쳐서 가산기(218)에 보내고 있다. 이것은, 사인파 합성에 의해 유성음의 LPC 합성필터에의 입력이 되는 엑사이테이션(Excitation:여기, 여진)을 만들면, 남성 등의 낮은 피치의 음으로 코막힘감이 있는 점 및 V(유성음)과 UV(무음성)에서 음질이 급격히 변화하여 부자연스럽게 느끼는 경우가 있는 점을 고려하고, 유성음부분의 LPC 합성필터 입력, 즉 엑사이테이션에 대해서, 음성부호화 데이터에 의거한 파라미터, 예를 들면 피치, 스펙트럼 엔벌로프진폭, 프레임내의 최대진폭, 잔차신호의 레벨 등을 고려한 노이즈를 LPC 잔차신호의 유성음부분에 부가하고 있는 것이다.
가산기(218)로부터의 가산출력은, LPC 합성필터(214)의 유성음용의 합성필터(236)에 보내져서 LPC의 합성처리가 실시됨으로써 시간파형데이터가 되고, 다시 유성음용 포스트필터(238v)에서 필터처리된 후, 가산기(239)에 보내진다.
다음에, 도 14의 입력단자(207a 및 207g)에는, 부호비트 해석부(209)로부터 부호비트에서 분해된다. UV데이터로서의 셰이프 인덱스 및 게인 인덱스가 각각 공급된다. 게인 인덱스는 무성음 합성부(220)에 보내지고 있다. 단자(207a)로부터의 셰이프 인덱스는, 전환스위치(249)의 피선택단자에 보내지고 있다. 이 전환스위치(249)의 또 하나의 피선택단자에는 난수발생기(208)로부터의 출력이 공급된다. 그리고, 배경잡음 프레임을 수신하였을 때에는, 상기 도 13에 나타낸 전환제어부(241)의 제어에 의해, 스위치(249)가 난수발생기(208)측에 닫혀지고, 무성음 합성부(220)에는 난수발생기(208)로부터의 셰이프 인덱스가 공급된다. 또, idVUV1이면 부호비트 해석부(209)에서 스위치(249)를 통해서 셰이프 인덱스가 공급된다.
즉, 여기신호의 생성에 대해서는, 유성음(idVUV= 2,3) 혹은 무성음(idVUV=0)의 경우에는 통상의 복호처리에 의해 여기신호를 생성하는바, 배경잡음(idVUV=1)의 경우에는 Celp)의 셰이프 인덱스(idSL00, idSL01)를 난수(rnd(=0, , ))를 발생시켜서 생성한다. 여기서, N_SHAPE_LO_1은, Celp 셰이프 코드벡터의 수이다. 또한, Celp 게인인덱스(idGL00, idGL01)는 갱신프레임 중의 idGL00를 양 서브프레임에 적용한다.
이상, 본 발명의 부호화장치 및 방법의 구체예가 되는 부호화장치와, 복호장치 및 방법의 구체예가 되는 복호장치를 갖춘 휴대전화장치에 대해서 설명하여 왔으나, 본 발명은 휴대전화장치의 부호화장치, 복호장치에만 적용이 한정되는 것은 아니다. 예를 들면 전송시스템에도 적용할 수 있다.
도 17은, 본 발명을 적용한 전송시스템(시스템이란, 복수의 장치가 논리적으로 집합한 것을 말하고, 각 구성의 장치가 동일 케이스체 중에 있는지 없는지는 묻지 않는다)의 일실시형태의 구성예를 나타내고 있다.
이 전송시스템에서는, 상기 복호장치를 클라이언트 단말(63)을 갖추고, 상기 복호장치를 서버(61)가 갖추고 있다. 클라이언트 단말(63)과 서버(61)는, 예를 들면 인터넷이나 ISDN(Integrated Service Digital Network), LAN(Local Area Network), PSTN(Public Switched Telephne Network) 등의 네트워크(62)에서 접속되어 있다.
클라이언트 단말(63)에서 서버(61)에 대하여, 네트워크(62)를 거쳐서 예를 들면, 곡 등의 오디오신호의 요구가 있으면, 서버(61)에 있어서 그 요구가 있었던 곡에 대응하는 오디오신호의 부호화 파라미터를 입력음성의 성질에 따라서 부호화의 모드구분을 행하고, 네트워크(62)를 거쳐서 클라이언트 단말(63)에 전송한다. 클라이언트 단말(63)에서는, 상기 복호방법에 따라서 서버(61)에서 전송로 오류에 대하여 보호되어 온 부호화 파라미터를 복호하여 예를 들면 스피커와 같은 출력장치에서 음성으로서 출력한다.
도 18은, 도 17의 서버(61)의 하드웨어 구성예를 나타내고 있다.
ROM(Read Only Memory)(71)에는, 예를 들면 IPL(Initial Program Loading)프로그램 등이 기억되어 있다. CPU(Central Processing Unit)(72)는, 예를 들면 ROM(71)에 기억되어 있는 IPL프로그램에 따라서, 외부기억장치(76)에 기억(기록)된 OS(Operating System)의 프로그램을 실행하고, 또한 그 OS의 제어하에서 외부기억장치(76)에 기억된 소정의 어플리케이션 프로그램을 실행하는 것에서, 입력신호의 성질에 따른 부호화모드로 부호화를 행하여 비트비트를 가변으로 하고, 클라이언트 단말(63)에의 송신처리 등을 행한다. RAM(Random Access Memory)(73)은, CPU(72)의 동작상 필요한 프로그램이나 데이터 등을 기억한다. 입력장치(74)는, 예를 들면 카보드나 마우스, 마이크, 외부인터페이스 등으로 구성되고, 필요한 데이터나 커맨드를 입력할 때에 조작된다. 또한 입력장치(74)는, 외부에서 클라이언트 단말(63)에 대하여 제공하는 디지털 오디오신호의 입력을 받아들이는 인터페이스로서도 기능하도록 되어 있다. 출력장치(75)는, 예를 들면 디스플레이나, 스피커, 프린터 등으로 구성되고, 필요한 정보를 표시, 출력한다. 외부기억장치(76)는, 예를 들면 하드디스크 등으로 이루고, 상술한 OS나 소정의 어플리케이션 프로그램 등을 기억하고 있다. 또 외부기억장치(76)는, 기타 CPU(72)의 동작상 필요한 데이터 등도 기억한다. 통신장치(77)는, 네트워크(62)를 거쳐서의 통신에 필요한 제어를 행한다.
외부기억장치(76)에 기억되어 있는 소정의 어플리케이션 프로그램이란, 상기 도 1에 나타낸 음성부호화기(3)와, 전송로 부호화기(4)와, 변조기(7)의 기능을 CPU(72)에 실행시키기 위한 프로그램이다.
또 도 19는, 도 17의 클라이언트 단말(63)의 하드웨어 구성예를 나타내고 있다.
클라이언트 단말(63)은, ROM(81) 내지 통신장치(87)로 구성되고, 상술한 ROM(71) 내지 통신장치(77)로 구성되는 서버(61)와 기본적으로 동일하게 구성되어 있다.
단, 외부기억장치(86)에는 어플리케이션 프로그램으로서, 서버(61)로부터의 부호화 데이터를 복호하기 위한, 본 발명에 관계되는 복호방법을 실행하기 위한 프로그램이나, 기타의 후술하는 처리를 행하기 위한 프로그램 등이 기억되어 있고, CPU(82)에서는 이들의 어플리케이션 프로그램이 실행되는 것으로, 전송비트비트가 가변으로 된 부호화 데이터의 복호, 재생처리 등이 행해지도록 되어 있다.
즉, 외부기억장치(86)에는, 상기 도 1에 나타낸 복조기(13)와, 전송로 복호화기(14)와, 음성 복호화기(17)의 기능을 CPU(82)에 실행시키기 위한 어플리케이션 프로그램이 기억되어 있다.
이 때문에, 클라이언트 단말(63)에서는. 외부기억장치(86)에 기억되어 있는 복호방법을 상기 도 1에 나타낸 하드웨어 구성을 필요로 하지 않고, 소프트웨어로서 실현할 수 있다.
또한, 클라이언트 단말(63)에서는. 외부기억장치(86)에 서버(61)로부터 전송되어 온 상기 부호화 데이터를 기억하여 두고, 소망의 시간에 그 부호화 데이터를 독출하여, 상기 복호방법을 실행하고 소망의 시간에 음성을 출력장치(85)에서 출력하도록 하여도 좋다. 또, 상기 부호화 데이터를 외부기억장치(86)와는 별도의 외부기억장치, 예를 들면 광자기디스크나 다른 기록매체에 기록하여 놓아도 좋다.
또, 상술의 실시형태에 있어서는, 서버(61)의 외부기억장치(76)로서도 광기록매체, 광자기 기록매체, 자기기록매체 등의 기록 가능한 매체를 사용하여, 이 기록매체에 부호화 된 부호화 데이터를 기록하여 놓아도 좋다.
본 발명에 의하면, 음성코덱에 있어서, 음성구간 중에서 중요한 이유를 갖는 유성음에 비교적 많은 전송비트량을 부여하고, 이하 무성음, 배경잡음의 순으로 비트수를 줄임으로써 총 전송비트수를 억제할 수 있고, 평균 전송비트량을 적게 할 수 있다.

Claims (15)

  1. 입력음성신호의 무성음구간과 유성음구간에서 가변율에 의한 부호화를 행하는 음성부호화장치에 있어서,
    시간축상에서의 입력음성신호를 소정의 단위로 구분하고, 이 단위로 구한 신호레벨과 스펙트럼 포락의 시간적인 변화에 의거하여, 무성음구간을 배경잡음구간과 음성구간으로 나눠서 판정하는 입력신호 판정수단을 갖추고,
    상기 입력신호 판정수단으로 판정된 배경잡음구간의 파라미터와, 상기 음성구간의 파라미터와, 유음성구간의 파라미터에 대한 부호화비트의 할당을 다르게 하는 것을 특징으로 하는 음성부호화장치.
  2. 제 1항에 있어서,
    상기 무성음구간의 파라미터에 대한 비트율를 상기 유성음구간의 파라미터에 대한 비트율보다 적게 하는 것을 특징으로 하는 음성부호화장치.
  3. 제 1항에 있어서,
    상기 배경잡음구간의 파라미터에 대한 비트율를 상기 음성구간의 파라미터에 대한 비트율보다 적게 하는 것을 특징으로 하는 음성부호화장치.
  4. 제 1항에 있어서,
    상기 배경잡음구간에 있어서 배경잡음 파라미터의 갱신의 유무를 나타내는 정보를, 배경잡음구간의 신호레벨 및 스펙트럼 포락의 시간적인 변화에 의거해서 제어하여 생성하는 것을 특징으로 하는 음성부호화장치.
  5. 제 1항에 있어서,
    상기 배경잡음구간의 신호레벨 및 스펙트럼 포락의 시간적인 변화량이 작을 때에는, 배경잡음구간을 나타내는 정보 및 배경잡음 파라미터의 비갱신을 나타내는 정보를 송출하고, 그 변화량이 클 때에는 배경잡음구간을 나타내는 정보 및 갱신한 배경잡음 파라미터와 배경잡음 파라미터가 갱신된 것을 나타내는 정보를 송출하는 것을 특징으로 하는 음성부호화장치.
  6. 제 5항에 있어서,
    배경잡음구간에 있어서의 배경잡음을 표현하는 파라미터의 일정시간 이상의 연속을 제한하기 위해, 적어도 어느 일정시간의 길이로 배경잡음 파라미터를 갱신하는 것을 특징으로 하는 음성부호화장치.
  7. 제 6항에 있어서,
    상기 배경잡음 파라미터는 스펙트럼 포락을 나타내는 LPC계수 및 CELP의 여기신호의 게인파라미터의 인덱스로 이루는 것을 특징으로 하는 음성부호화장치.
  8. 입력음성신호의 무성음구간과 유성음구간에서 가변율에 의한 부호화를 행하는 음성부호화방법에 있어서,
    시간축상에서의 입력음성신호를 소정의 단위로 구분하고, 이 단위로 구한 신호레벨과 스펙트럼 포락의 시간적인 변화에 의거하여 무성음구간을 배경잡음구간과 음성구간으로 나눠서 판정하는 입력신호 판정공정을 갖추고,
    상기 입력신호 판정공정에서 판정된 배경잡음구간의 파라미터와, 상기 음성구간의 파라미터와, 유음성구간의 파라미터에 대한 부호화비트의 할당을 다르게하는 것을 특징으로 하는 음성부호화방법.
  9. 시간축상에서의 입력음성신호를 소정의 단위로 구분하고, 이 단위로 입력신호의 신호레벨의 시간적인 변화를 구하는 공정과,
    상기 단위에서의 스펙트럼 포락의 시간적인 변화를 구하는 공정과,
    상기 신호레벨 및 스펙트럼 포락의 시간적인 변화에서 배경잡음인지 아닌지를 판정하는 공정과를 갖추는 것을 특징으로 하는 입력신호 판정방법.
  10. 제 9항에 있어서,
    퍼지추론을 이용하여 배경잡음인지 아닌지를 판정하는 것을 특징으로 하는 입력신호 판정방법.
  11. 음성구간의 파라미터와, 유성음구간의 파라미터에 대한 부호화비트의 할당이 다르게 전송되어 온 부호화비트를 복호하는 복호장치에 있어서,
    상기 부호화비트에서 음성구간인지, 또는 배경잡음 구간인지를 판정하는 판정수단과,
    상기 판정수단으로 배경잡음구간을 나타내는 정보를 추출하였을 때에는, 현재 또는 현재 및 과거에 수신한 LPC계수, 현재 또는 현재 및 과거에 수신한 CELP의 게인인덱스 및 내부에서 랜덤하게 생성한 CELP의 셰이프인덱스를 이용하여 상기 부호화비트를 복호하는 복호수단을 갖추는 것을 특징으로 하는 복호장치.
  12. 제 11항에 있어서,
    상기 복호수단은, 상기 판정수단으로 배경잡음 구간이라고 판정된 구간에 있어서는, 과거에 수신한 LPC계수와 현재 수신한 LPC계수, 또는 과거에 수신한 LPC계수 끼리를 보간하여 생성한 LPC계수를 이용하여 배경잡음 구간의 신호를 합성할 때에, LPC계수를 보간하는 보간계수의 생성에 난수를 사용하는 것을 특징으로 하는 복호장치.
  13. 무성음구간의 파라미터와, 유성음구간의 파라미터에 대한 부호화비트의 할당이 다르게 전송되어 온 부호화비트를 복호하는 복호방법에 있어서,
    상기 부호화비트에서 음성구간인지, 또는 배경잡음 구간인지를 판정하는 판정공정과,
    상기 판정공정에서 배경잡음 구간을 나타내는 정보를 추출하였을 때에는 현재 또는 현재 및 과거에 수신한 LPC계수, 현재 또는 현재 및 과거에 수신한 CELP의 게인인덱스 및 내부에서 랜덤하게 생성한 CELP의 셰이프인덱스를 이용하여 상기 부호화비트를 복호하는 복호공정과를 갖추는 것을 특징으로 하는 복호방법.
  14. 입력음성신호의 무성음구간과 유성음구간에서 가변율에 의한 부호화를 행하는 음성부호화 프로그램을 제공하는 프로그램 제공매체에 있어서,
    시간축상에서의 입력음성신호를 소정의 단위로 구분하고, 이 단위로 구한 신호레벨과 스펙트럼 포락의 시간적인 변화에 의거하여 무성음구간을 배경잡음구간과 음성구간으로 나눠서 판정하는 입력신호 판정공정을 갖추고,
    상기 입력신호 판정공정에서 판정된 배경잡음구간의 파라미터와, 상기 음성구간의 파라미터와, 유성음구간의 파라미터에 대한 부호화비트의 할당을 다르게 하는 프로그램을 제공하는 것을 특징으로 하는 프로그램 제공매체.
  15. 무성음구간의 파라미터와, 유성음구간의 파라미터에 대한 부호화비트의 할당이 다르게 전송되어 온 부호화비트를 복호하기 위한 복호프로그램을 제공하기 위한 프로그램 제공매체에 있어서,
    상기 부호화비트에서 음성구간인지, 또는 배경잡음 구간인지를 판정하는 판정공정과,
    상기 판정공정에서 배경잡음 구간을 나타내는 정보를 추출하였을 때에는 현재 또는 현재 및 과거에 수신한 LPC계수, 현재 또는 현재 및 과거에 수신한 CELP의 게인인덱스 및 내부에서 랜덤하게 생성한 CELP의 셰이프인덱스를 이용하여 상기 부호화비트를 복호하는 복호공정을 갖추는 프로그램을 제공하는 것을 특징으로 하는 프로그램 제공매체.
KR1020000033295A 1999-06-18 2000-06-16 음성부호화장치 및 방법, 입력신호 판정방법,음성복호장치 및 방법 및 프로그램 제공매체 KR100767456B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP17335499A JP4438127B2 (ja) 1999-06-18 1999-06-18 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
JP99-173354 1999-06-18

Publications (2)

Publication Number Publication Date
KR20010007416A true KR20010007416A (ko) 2001-01-26
KR100767456B1 KR100767456B1 (ko) 2007-10-16

Family

ID=15958866

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000033295A KR100767456B1 (ko) 1999-06-18 2000-06-16 음성부호화장치 및 방법, 입력신호 판정방법,음성복호장치 및 방법 및 프로그램 제공매체

Country Status (7)

Country Link
US (1) US6654718B1 (ko)
EP (2) EP1061506B1 (ko)
JP (1) JP4438127B2 (ko)
KR (1) KR100767456B1 (ko)
CN (1) CN1135527C (ko)
DE (2) DE60027956T2 (ko)
TW (1) TW521261B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100911278B1 (ko) * 2005-02-28 2009-08-11 닛본 덴끼 가부시끼가이샤 음원 공급 장치 및 음원 공급 방법
KR101034453B1 (ko) * 2006-07-31 2011-05-17 퀄컴 인코포레이티드 비활성 프레임들의 광대역 인코딩 및 디코딩을 위한 시스템, 방법, 및 장치

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7386449B2 (en) 2002-12-11 2008-06-10 Voice Enabling Systems Technology Inc. Knowledge-based flexible natural speech dialogue system
JP4138803B2 (ja) * 2003-01-30 2008-08-27 松下電器産業株式会社 光ヘッドとこれを備えた装置及びシステム
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
KR101236259B1 (ko) 2004-11-30 2013-02-22 에이저 시스템즈 엘엘시 오디오 채널들을 인코딩하는 방법 및 장치
JP5106115B2 (ja) 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
JP4793539B2 (ja) * 2005-03-29 2011-10-12 日本電気株式会社 符号変換方法及び装置とプログラム並びにその記憶媒体
TWI318397B (en) * 2006-01-18 2009-12-11 Lg Electronics Inc Apparatus and method for encoding and decoding signal
KR101244310B1 (ko) * 2006-06-21 2013-03-18 삼성전자주식회사 광대역 부호화 및 복호화 방법 및 장치
US8725499B2 (en) 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
CN101568957B (zh) 2006-12-27 2012-05-02 英特尔公司 用于语音分段的方法和设备
KR101413967B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
CN101582263B (zh) * 2008-05-12 2012-02-01 华为技术有限公司 语音解码中噪音增强后处理的方法和装置
CN108831501B (zh) * 2012-03-21 2023-01-10 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
CN103581603B (zh) * 2012-07-24 2017-06-27 联想(北京)有限公司 一种多媒体数据的传输方法及电子设备
US9357215B2 (en) * 2013-02-12 2016-05-31 Michael Boden Audio output distribution

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
TW271524B (ko) * 1994-08-05 1996-03-01 Qualcomm Inc
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
US6148282A (en) * 1997-01-02 2000-11-14 Texas Instruments Incorporated Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
JP3273599B2 (ja) * 1998-06-19 2002-04-08 沖電気工業株式会社 音声符号化レート選択器と音声符号化装置
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100911278B1 (ko) * 2005-02-28 2009-08-11 닛본 덴끼 가부시끼가이샤 음원 공급 장치 및 음원 공급 방법
US8271110B2 (en) 2005-02-28 2012-09-18 Nec Corporation Sound source supply apparatus and sound source supply method
KR101034453B1 (ko) * 2006-07-31 2011-05-17 퀄컴 인코포레이티드 비활성 프레임들의 광대역 인코딩 및 디코딩을 위한 시스템, 방법, 및 장치
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US9324333B2 (en) 2006-07-31 2016-04-26 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames

Also Published As

Publication number Publication date
DE60027956T2 (de) 2007-04-19
EP1598811A3 (en) 2005-12-14
CN1135527C (zh) 2004-01-21
KR100767456B1 (ko) 2007-10-16
EP1061506A3 (en) 2003-08-13
EP1061506B1 (en) 2006-05-17
EP1598811A2 (en) 2005-11-23
CN1282952A (zh) 2001-02-07
DE60027956D1 (de) 2006-06-22
EP1598811B1 (en) 2008-05-14
US6654718B1 (en) 2003-11-25
TW521261B (en) 2003-02-21
JP4438127B2 (ja) 2010-03-24
EP1061506A2 (en) 2000-12-20
JP2001005474A (ja) 2001-01-12
DE60038914D1 (de) 2008-06-26

Similar Documents

Publication Publication Date Title
KR100767456B1 (ko) 음성부호화장치 및 방법, 입력신호 판정방법,음성복호장치 및 방법 및 프로그램 제공매체
US7680651B2 (en) Signal modification method for efficient coding of speech signals
JP4132109B2 (ja) 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
JP4121578B2 (ja) 音声分析方法、音声符号化方法および装置
US5495555A (en) High quality low bit rate celp-based speech codec
JP3653826B2 (ja) 音声復号化方法及び装置
KR100718712B1 (ko) 복호장치와 방법 및 프로그램 제공매체
KR100526829B1 (ko) 음성부호화방법및장치음성복호화방법및장치
KR100351484B1 (ko) 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체
KR100538987B1 (ko) 음성부호화방법및장치,피치검출방법
JP2002055699A (ja) 音声符号化装置および音声符号化方法
KR100421648B1 (ko) 음성코딩을 위한 적응성 표준
US6012023A (en) Pitch detection method and apparatus uses voiced/unvoiced decision in a frame other than the current frame of a speech signal
Mano et al. Design of a pitch synchronous innovation CELP coder for mobile communications
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JP3232701B2 (ja) 音声符号化方法
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
JP4826580B2 (ja) 音声信号の再生方法及び装置
JP3896654B2 (ja) 音声信号区間検出方法及び装置
WO2001009880A1 (en) Multimode vselp speech coder
JPH06195098A (ja) 音声符号化方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]
FPAY Annual fee payment

Payment date: 20121002

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130927

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140926

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee