KR19980024790A - 음성부호화방법 및 장치, 음성복호화방법 및 장치 - Google Patents

음성부호화방법 및 장치, 음성복호화방법 및 장치 Download PDF

Info

Publication number
KR19980024790A
KR19980024790A KR1019970047832A KR19970047832A KR19980024790A KR 19980024790 A KR19980024790 A KR 19980024790A KR 1019970047832 A KR1019970047832 A KR 1019970047832A KR 19970047832 A KR19970047832 A KR 19970047832A KR 19980024790 A KR19980024790 A KR 19980024790A
Authority
KR
South Korea
Prior art keywords
voiced
pitch
pitch intensity
speech
unvoiced
Prior art date
Application number
KR1019970047832A
Other languages
English (en)
Other versions
KR100526829B1 (ko
Inventor
히데아끼 나루사와
겐이찌 히노
후미히꼬 오오따니
마사히로 이하라
마사유끼 니시구찌
가즈유끼 이이지마
준 마쯔모또
Original Assignee
이데이 노브유끼
소니 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이데이 노브유끼, 소니 가부시끼가이샤 filed Critical 이데이 노브유끼
Publication of KR19980024790A publication Critical patent/KR19980024790A/ko
Application granted granted Critical
Publication of KR100526829B1 publication Critical patent/KR100526829B1/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 유성음부분의 재생음성이 웅웅거리지않는 자연스러운 음성을 출력할수 있는 음성부호화방법 및 장치, 음성복호화방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명에 따르면, 복호기측의 사인파분석부호화부(114)는 입력음성신호의 피치를 검출한다. 피치강도를 나타내는 정보뿐만아니라, 음성신호의 유성음이나 무성음다움을 나타내는 정보를 포함하는 피치강도정보는 V/UV판별 및 피치강도정보생성부(115)에서 생성된다. 피치강도데이터는 부호음성신호를 따라서 부호기측에 보내져서 피치강도정보에 의거하여 제어된 노이즈성분을 유성음분석부에서 부호음성신호의 유성음부에 가산되고 그 결과의 신호를 복호하여 출력한다.

Description

음성부호화방법 및 장치, 음성복호화방법 및 장치
본 발명은, 입력음성신호가 시간축상에서 소정의 부호화단위로 분할하는 음성부호화방법 및 장치에 관한 것이다. 본 발명은 또한 관계된 음성복호화방법 및 장치에 관한 것이다.
지금까지, 음성신호나 음향신호를 포함하는 오디오신호의 시간영역이나 주파수영역에 있어서의 통계적성질과 인간의 청감상의 특징을 이용하여 신호압축을 행하는 부호화방법이 여러 가지 알려져 있다. 이와 같은 부호화방법은 시간영역에서의 부호화, 주파수영역에서의 부호화, 분석합성부호화등으로 크게 분류된다.
음성신호의 고능률부호화의 기술중에서, 하모닉부호화, 멀티밴드여기(MBE : Multiband Excitation)부호화 등의 사인파분석부호화나, 대역분할부호화(SBC : Sub-band Coding), 선형예측부호화(LPC : Linear Predictive Coding) 혹은 이산코사인변환(DCT), MDCT(변형된 DCT : Modified DCT), 고속프리에변환(FFT)등이 알려져 있다.
그런데, 종래의 예를 들면 LPC잔차에 대한 하모닉부호화에서는 음성신호의 V/UV판별이 V와 UV사이에서 2종류중 택일적인 판단이므로, 유성음부분에서의 재생음성이 윙윙거리는 음으로 되는 경향이 있다.
이것을 방지하기 위해, 복호기측은 재생음성을 출력하는 데 있어 유성음부분에 노이즈를 부가하고 있다. 그러나, 이 방법에서는 노이즈를 너무 가하면 재생음성이 시끄럽게 되고, 노이즈가 충분하지 않으면 재생음성이 윙윙거리게 되어버리기 때문에, 노이즈부가의 정도를 설정하는 것이 어려웠다.
부호기측에서 입력음성신호의 피치강도를 검출하고, 그 검출된 피치강도에 대응하는 피치강도신호를 생성하여 결과의 피치강도신호를 복호기측에 송신하고, 복호기측에서는 그 송신된 피치강도정보에 따라서 상기 노이즈부가의 정도를 가변함으로써 자연의 재생유성음을 얻을 수 있는 음성부호화방법 및 음성부호화장치, 이와 관련된 음성복호화방법 및 장치를 제공하는 것을 목적으로 한다.
도 1은 본 발명에 관계되는 음성부호화방법을 실시하기 위한 음성부호화장치의 기본구성을 나타내는 블록도이다.
도 2는 본 발명에 관계되는 음성복호화방법의 실시하기 위한 음성복호화장치의 기본구성을 나타내는 블록도이다.
도 3은 본 발명의 실시의 형태가 되는 음성부호화장치의 보다 구체적인 구성을 나타내는 블록도이다.
도 4는 본 발명의 실시의 형태가 되는 음성복호화장치의 보다 구체적인 구성을 나타내는 블록도이다.
도 5는 출력데이터의 비트레이트를 나타내는 표이다.
도 6은 V/UV판정결과와 probV의 값이 설정되는 조건을 나타내는 표이다.
도 7은 피치강도정보(probV)를 생성하는 동작순서를 나타내는 플로우차트이다.
도 8은 V/UV상태에 따라서 LSP보간의 전환을 나타내는 표이다.
도 9는 10차의 LPC분석에 의해 얻어진 α파라미터에 의거하는 10차의 LSP(선형스펙트럼쌍)을 나타내는 도이다.
도 10은 무성음(UV) 프레임에서 유성음(V)프레임으로의 천이에서 이득변화의 모습을 설명하기 위한 도이다.
도 11은 프레임에서 프레임으로 합성되는 스펙트럼이나 파형의 보간처리를 설명하기 위한 도이다.
도 12는 유성음(V) 프레임과 무성음(UV)프레임사이의 접속부에서의 중첩을 설명하기 위한 도이다.
도 13은 유성음합성시의 노이즈가산처리를 설명하기위한 도이다.
도 14는 유성음합성의 때에 가산되는 노이즈의 진폭계산의 예를 나타내는 도이다.
도 15는 포스트필터의 구성예를 나타내는 도이다.
도 16은 포스트필터의 필터계수갱신주기와 이득갱신주기를 설명하기 위한 도이다.
도 17은 포스트필터의 이득과 필터계수의 프레임연결부분에서의 합병동작을 설명하기위한 도이다.
도 18은 본 발명의 실시의 형태가 되는 음성신호 부호화장치가 이용되는 휴대단말의 송신측 구성을 나타내는 블록도이다.
도 19는 본 발명의 실시의 형태가 되는 음성신호 복호화장치가 이용되는 휴대단말의 수신측 구성을 나타내는 블록도이다.
* 도면의 주요부분에 대한 부호설명
110 제 1부호화부 111 LPC역필터
113 LPC분석양자화부 114 사인파분석부호화부
115 V/UV판별 및 피치강도정보생성부 120 제 2부호화부
121 잡음코드북 122 가중합성필터
123 감산기 124 거리계산회로
125 청각가중필터
본 발명은 입력음성신호의 사인파분석부호화를 행하는 음성부호화방법 및 장치를 제공한다. 상기 입력음성신호의 유성음부분의 전대역에 있어서의 피치강도가 검출되고 검출된 피치강도에 대응하는 피치강도정보가 출력된다.
본 발명은 또한 입력음성신호에 대하여 사인파분석부호화를 실시하여 얻은 부호화음성신호를 입력음성신호의 유성음부분의 전대역에 있어서의 피치강도를 나타내는 피치강도정보에 의거하여 노이즈성분이 사인파합성파형에 부가됨에 따라서복호화하는 음성복호화방법 및 장치를 제공한다.
본 발명에 관계되는 음성부호화방법 및 장치, 음성복호화방법 및 장치에 있어서, 예를 들면 휴대전화시스템 등에 적용하기에 적합한 자연의 재생음성이 생성될수 있다.
도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명을 구체화하는 부호화방법을 실시하는 부호화장치의 기본구성을 나타내고 있다.
도 1의 음성신호부호화장치의 근본적인 기본개념은 입력음성신호의 선형예측부호화(LPC)잔차와 같은 단기예측잔차를 구하여 하모닉코딩(harmonic coding)과 같은 사인파분석부호화를 행하는 제 1의 부호화부(110)와 입력음성신호를 위상재생가능성이 있는 파형부호화에 의해 부호화하는 제 2부호화부(120)를 가지고, 제 1부호화부(110)와 제 2부호화부(120)가 입력신호의 유성음(V)의 부호화와 입력신호의 무성음(UV)의 부분의 부호화에 각각 이용된다.
제 1부호화부(110)는 예를 들면 LPC잔차를 하모닉부호화나 멀티밴드여기(MBE)부호화와 같은 사인파분석부호화를 행하는 구성이 이용한다. 제 2부호화부(120)는 예를 들면 합성에 의한 분석법을 이용하여 최적벡터의 폐루프탐색에 의한 벡터양자화를 이용한 부호여기선형예측(CELP)부호화를 실행하는 구성을 이용한다.
도 1의 예에서는 입력단자(101)에 공급된 음성신호가 제 1부호화부(110)의 LPC역필터(111) 및 LPC분석·양자화부(113)에 보내지고 있다. LPC분석·양자화부(113)에서 얻어진 LPC계수 혹은 소위 α파라미터는 제 1부호화부(110)의 LPC역필터(111)에 보내진다. LPC역필터(111)로부터 입력음성신호의 선형예측잔차(LPC잔차)가 구해진다. LPC분석·양자화부(113)로부터 선스펙트럼쌍(LSP)의 양자화출력이 구해져서 후술하는 바와 같은 출력단자(102)에 보내진다. LPC역필터(111)로부터의 LPC잔차는 사인파분석부호화부(114)에 보내진다.
사인파분석부호화부(114)는 피치검출 및 스펙트럼 엔벌로프의 진폭계산이 행해지는 반면, 유성음(V)/무성음(UV)판별부(115)에 의해 입력음성신호의 V/UV의 판별 및 상기 음성신호중의 유성음(V)의 피치강도정보의 생성이 행해진다. 피치강도정보는 음성신호의 피치강도를 나타내는 정보뿐만아니라, 음성신호의 유성음이나 무성음다움을 나타내는 정보를 포함한다.
사인파분석부호화부(114)로부터의 스펙트럼 엔벌로프진폭데이터는 벡터양자화부(116)에 보내진다. 스펙트럼 엔벌로프의 양자화출력으로서 벡터양자화부(116)에서의 코드북 인덱스는 스위치(117)를 통하여 출력단자(103)에 보내지는 반면, 사인파분석부호화부(114)에서의 출력이 스위치(118)를 통하여 출력단자(104)에 보내진다. V/UV판별 및 피치강도정보생성부(115)에서의 V/UV판별출력은 출력단자(105)에 보내지고, 스위치(117,118)에 제어신호로서 보내진다. 입력음성신호가 유성음(V)이면, 인덱스 및 피치가 선택되어 출력단자(103 및 104)에서 각각 얻어진다. V/UV판별 및 피치강도정보생성부(115)에서의 피치강도정보는 출력단자(105)에 출력된다.
도 1의 제 2부호화부(120)는 본 예에서 부호여기선형예측부호화(CELP부호화)구성을 가지고, 잡음코드북(121)의 출력이 가중합성필터(122)에 의해 합성처리되고, 결과의 가중음성이 감산기(123)에 보내지고, 입력단자(101)에 공급된 음성신호가 청각가중필터(125)를 통하여 얻어진 음성과의 오차가 구해지고, 이 오차가 거리계산회로(124)에 보내져서 거리계산을 행하고, 오차를 최소화하는 벡터를 잡음코드북(121)에 의해 탐색하는 합성에 의한 분석법을 이용하는 폐루프탐색를 이용한 시간축파형을 스펙트럼 양자화하고 있다. 이러한 CELP부호화는 상술한 바와 같이 무성음부분의 부호화에 이용된다. 잡음코드북(121)에서의 UV데이터로서 코드북 인덱스는 V/UV판별 및 피치강도정보생성부(115)에서의 유성음(V)의 피치강도정보가 무성음(UV)을 나타내는 때 온으로 되는 스위치(127)를 통하여 출력단자(107)에서 얻어진다.
도 2는 본 발명에 따르는 음성복호화법을 실시하는 음성복호화장치의 기본 구조를 도 1의 음성부호화장치에 유사한 장치로서 나타내는 블록도이다.
도 2를 참조하여, CRC체크 및 불량프레임 마스킹회로(281)의 입력단자(202)에는 상기 도 1의 출력단자(102)에서의 LSP(선스펙트럼쌍)의 양자화출력으로서의 코드북 인덱스가 입력된다. 입력단자(203, 204 및 205)에는 도 1의 출력단자(103, 104 및 105)에서의 출력, 즉 엔벌로프 양자화출력으로서의 인덱스, 피치 및 피치강도에 의거하는 파라미터이고 V/UV판별결과를 포함하는 피치강도정보가 각각 입력된다.
입력단자(203)에서의 엔벌로프 양자화출력으로서의 인덱스는 역벡터양자화부(212)에 보내져 역벡터양자화되고, LPC잔차의 스펙트럼 엔벌로프가 구해지고 유성음합성부(211)에 보내진다. 유성음합성부(211)는 사인파합성에 의해 유성음부분의 선형예측부호화(LPC)잔차를 합성한다. 유성음합성부(211)에는 입력단자(204 및 205)에서의 피치 및 피치강도정보도 공급되고 있다. 유성음합성부(211)에서의 유성음의 LPC잔차는 LPC합성필터(214)에 보내진다. 입력단자(207)에서의 UV데이터의 인덱스는 무성음합성부(220)에 보내져서 잡음코드북을 참조함으로써 무성음부분의 LPC잔차가 얻어진다. 이 LPC 잔차도 LPC합성필터(214)에 보내진다. LPC합성필터(214)에서는 상기 유성음부분의 LPC잔차와 무성음부분의 LPC잔차가 LPC합성에 의해 처리된다. 또는 유성음부분의 LPC잔차와 무성음부분의 LPC잔차가 서로 가산되어 LPC합성처리될 수 있다. 입력단자(202)에서의 LSP의 인덱스 데이터는 LPC파라미터재생부(213)에 보내지고, LPC의 α파라미터가 구해져서 LPC합성필터(214)에 보내진다. LPC합성필터(214)에 의해 합성된 음성신호는 출력단자(201)에서 얻어진다.
상기 도 1에 나타낸 음성부호화장치의 보다 구체적인 구성에 대하여 도 3을 참조하면서 설명한다. 도 3에 있어서, 상기 도 1의 각부와 대응하는 부분에는 동일한 지시부호를 붙이고 있다.
도 3에 나타낸 음성부호화장치에 있어서, 입력단자(101)에 공급된 음성신호는 하이패스필터(HPF)(109)에 의해 불필요한 대역의 신호를 제거하는 필터링처리가 실시된 후, LPC(linear prediction encoding)분석양자화부(113)의 LPC분석회로(132)와 LPC역필터회로(111)에 보내진다.
LPC분석양자화부(113)의 LPC분석회로(132)는 입력신호파형의 256샘플정도의 길이를 블록으로서 해밍창을 적용하여, 자기상관법에 의해 선형예측계수, 즉 소위 α파라미터를 구한다. 데이터출력의 단위로서 플레임의 간격은 160샘플정도가 된다. 샘플링주파수(fs)가 예를 들면 8kHz이면, 1프레임간격은 20msec 또는 160샘플이 된다.
LPC분석회로(132)에서의 α파라미터는 α→LSP변환회로(133)에 보내지고, 선스펙트럼쌍(LSP)파라미터로 변환된다. 이것은 직접형의 필터계수로서 구해진 α파라미터를 예를 들면 10개, 즉 5쌍의 LSP파라미터로 변환한다. 이 변환은 예를 들면 뉴튼랩슨법을 이용하여 행해진다. α파라미터가 LSP파라미터로 변환하는 이유는 LSP파라미터가 α파라미터보다도 보간특성이 우수하기때문이다.
α→LSP변환회로(133)에서의 LSP파라미터는 LSP양자화부(134)에 의해 매트릭스 혹은 벡터양자화된다. 이때, 프레임 대 프레임의 차분을 취하므로 벡터양자화할수 있고, 복수프레임분을 모아서 매트릭스 양자화할수 있다. 여기에서는 20msec를 1프레임분으로 하고, 20msec 마다 산출되는 LSP파라미터를 2프레임분 모아서 매트릭스양자화 및 벡터양자화할 수 있다.
LSP양자화부(134)의 양자화출력, 즉 LSP양자화의 인덱스 데이터는 단자(102)에서 얻어지고, 또 양자화된 LSP벡터는 LSP보간회로(136)에 보내진다.
LSP보간회로(136)는 20msec 혹은 40msec 마다 양자화된 LSP의 벡터를 보간하고 8배의 비율을 제공한다. 즉, 2.5msec마다 LSP벡터가 갱신된다. 그 이유는 잔차파형이 하모닉 부호화/복호화방법에 의한 합성으로 분석처리되면, 그 합성파형의 엔벌로프가 대단히 완만한 파형으로 되기 때문에 LPC계수가 20msec마다 급격히 변화하면 이질적인 잡음이 발생하기 때문이다. 즉, 2.5msec마다 LPC계수가 서서히 변화하면, 이와 같은 이음의 발생을 방지할 수 있다.
2.5msec마다 보간된 LSP벡터를 이용하여 입력음성의 역필터링을 실행하기 위하여, LSP→α변환회로(137)에 의해 LSP파라미터는 예를 들면 10차 직접형 필터의 계수인 α파라미터로 변환한다. LSP→α변환회로(137)의 출력은 LPC역필터회로(111)에 보내지고 2.5msec마다 갱신되는 α파라미터를 사용하여 역필터링처리를 행하여 원만한 출력을 얻는다. LPC역필터(111)의 출력은 하모닉부호화회로화 같은 사인파분석부호화부(114)의 DFT(이산프리에변환)회로와 같은 직교변환회로(145)에 보내진다.
LPC분석/양자화부(113)의 LPC분석회로(132)에서의 α파라미터는 청각가중필터산출회로(139)에 보내지고 청각가중을 위한 데이터가 구해진다. 이들 가중데이터가 청각가중의 벡터양자화부(116)와 제 2부호화부(120)의 청각가중필터(125) 및 청각가중의 합성필터(122)에 보내진다.
하모닉부호화회로의 사인파분석부호화부(114)는 LPC역필터(111)에서의 출력을 하모닉부호화의 방법으로 분석한다. 즉, 피치검출, 각 하모닉스의 진폭(Am)의 산출, 유성음(V)/무성음(UV)의 판별이 행해지고, 피치에 의해 변화하는 하모닉스의 엔벌로프 혹은 진폭(Am)의 개수가 차원변환되어 일정하게 된다.
도 3에 나타내는 사인파분석부호화부(114)의 구체예에 있어서는 일반의 하모닉부호화가 사용된다. 특히, 멀티밴드여기부호화(MBE)에서 동시각(동일블록 혹은 프레임내)의 각각의 주파수영역 혹은 밴드마다에 유성음부분과 무성음부분이 존재한다는 가정으로 모델화하게 된다. 그 이외의 하모닉부호화기술에서는 1블록 혹은 프레임내의 음성이 유성음인지 무성음인지의 택일적인 판별이 이루어지게 된다. 이하의 설명에서 MBE부호화가 관련된 한에 있어서는 전밴드가 UV이면 주어진 프레임을 UV로 판단하고 있다. 상술한 바와 같은 MBE의 분석합성방법의 기술의 구체적인 예에 대하여는 본건 출원인의 이름으로 출원한 일본특허 출원번호 4-91442에서 얻을 수 있다.
도 3의 사인파분석부호화부(114)의 개루프 피치탐색부(141)와 영교차카운터(142)에는 입력단자(101)에서의 입력음성신호가 하이패스필터(HPF)(109)에서의 신호가 각각 공급되고 있다. 사인파분석부호화부(114)의 직교변환회로(145)에는 LPC역필터(111)에서의 LPC잔차 혹은 선형예측잔차가 공급되고 있다. 개루프탐색부(141)는 입력신호의 LPC잔차를 취해서 비교적 개략적인 개루프피치의 탐색을 행한다. 추출된 개략피치데이터는 고정밀도 피치탐색부(146)에 보내지고, 후술하는 것같은 폐루프에 의한 고정밀도의 피치탐색이 행해진다.
구체적으로, 개루프에 의한 개략피치탐색은 P차의 LPC계수(αp(1≤p≤P))를 예를 들면 자기상관법으로 구한다. 즉, P차의 LPC계수(αp(1≤p≤P))가 x(n)이 프레임당 N샘플의 입력이고 해밍창으로 x(n)을 곱하여서 얻은 xw(n)(0≤nN)로부터 자기상관법에 의해 구해진다.
LPC잔차(resi(n)(0≤nN))는 다음식(1)에 의해 역필터링하여 얻어진다.
잔차가 resi(n)(0≤nN)의 일시부에 있어서 정확하게 구해지고 있지 않으므로, 이들 잔차는 0으로 교체된다. 그결과를 resi'(n)(0≤nN)으로 표시한다. 1kHz정도의 fc로LPF 또는 HPF에 의해 필터링처리된 자기상관치(Rk)가 (2)식에 의해 산출된다.
여기에서, 20≤k148이고, k는 자기상관치를 구하는 때에 샘플을 시프트한 양이다.
(2)식을 직접 계산하는 대신에 resi'(n)에 N개, 예를 들면 256개의 0을 메워서 FFT, 파워스펙트럼, 역FFT의 순서로 자기상관치(Rk)를 산출할수 있다.
여기에서, 산출한 Rk를 자기상관의 0번째의 피크(R0)(파워)로 규격화하고, 내림차순으로 늘어놓은 것을 r'(n)으로 한다.
R'(0)을 R0/R0=1이므로,
1=r'(0)r'(1)r'(2) …
괄호안의 수치는 순서를 나타낸다.
이 프레임내의 정규화된 자기상관의 최대치r'(1)를 주는 k가 피치의 후보를 나타낸다. 통상의 유성음구간에서는 r'(1)은 0.4r'(1)0.9이다.
또한 본출원인에 의해 출원된 일본 특허출원 8-16433에서 개시하고 있는 것같이 잔차의 LFP후의 최대피크r'L(1) 또는 잔차의 HFP후의 최대피크r'H(1)에서 보다 신뢰성이 높은 측이 선택되어 사용될수 있다.
일본 특허출원 8-16433호에서 개시되어 있는 예에 있어서는 직접 선행한 프레임의 r'(1)이 산출되고, 그것을 rP[2]에 대입된다. rP[0], rP[1], rP[2]가 과거, 현재, 미래의 프레임에 대응하고 있으므로, rP[1]의 값을 현재의 프레임의 최대피크r'(1)으로서 사용할수 있다.
개루프 피치탐색부(141)에서는 파워로 정규화된 LPC잔차의 자기상관의 최대치인 정규화자기상관최대치r'(1)가 구해지고, 개략피치데이터와 함께 V/UV판별부 및 피치강도정보생성부(115)에 공급된다. 정규화자기상관최대치r'(1)의 상대크기가 LPC잔차신호의 피치강도를 개략 표현하고 있다.
자기상관최대치r'(1)의 크기를 적절한 임계치와 유성음의 정도, 즉 피치강도로 그 분할된 크기에 따라서 k종류로 분류한다. 이들 k그룹을 표현하는 비트패턴을 부호기에 의해 복호기로 출력하고, 복호기에서는 사인파합성에 의해 생성된 유성음의 여기에 가변대역폭, 가변이득의 노이즈를 부가한다.
직교변환회로(145)는 DFT(이산프리에변환)과 같은 직교변환처리가 실시되고 시간축상의 LPC잔차가 주파수축상의 스펙트럼진폭데이타로 변환된다. 이 직교변환회로(145)에서의 출력은 고정밀도 피치탐색부(146) 및 스펙트럼진폭 혹은 엔벌로프를 평가하기 위한 스펙트럼평가부(148)에 보내진다.
고정밀도 피치탐색부(146)에는 개루프피치탐색부(141)에서 추출된 비교적 개략피치데이터와 직교변환부(145)에 의해 DFT에 의해 얻어진 주파수축상의 데이터가 공급되고 있다. 이 고정밀도피치탐색부(146)는 개략피치값데이터를 중심으로 0.2∼0.5의 비율로 ±수 샘플씩 피치데이터를 흔들고, 최적한 소수점(플로우팅 포인트)의 고정밀 피치데이터의 값으로 궁극적으로 된다. 고정밀 탐색의 기술로서 합성에 의한 분석법을 이용하므로 파워스펙트럼이 원음의 파워스펙트럼에 가장 근접하게 되도록 피치를 선택하고 있다. 폐루프에 의한 고정밀도의 피치탐색부(146)에서의 피치데이터는 스펙트럼평가부(148)에 보내지고 스위치(118)를 거쳐서 출력단자(104)에 보내진다.
스펙트럼 평가부(148)에서는 LPC잔차의 직교변환출력으로서의 스펙트럼진폭 및 피치에 의거하여 각 하모닉스의 크기 및 하모닉스의 집합인 스펙트럼 엔벌로프가 평가되고, 고정밀도피치탐색부(146), V/UV판별부(115) 및 청각가중의 벡터양자화부(116)에 보내진다.
V/UV판별부 및 피치강도정보생성부(115)는 직교변환회로(145)에서의 출력과 고정밀도피치탐색부(146)에서의 최적피치와 스펙트럼평가부(148)에서의 스펙트럼진폭데이터와 개루프피치탐색부(141)에서의 정규화자기상관최대치r'(1)와 영교차카운터(142)에서의 영교차카운터값에 의거하여 상기 프레임의 V/UV판별이 행해진다. 또한, MBE에 대하여 각 밴드마다의 V/UV판별의 경계위치를 V/UV판별의 조건으로서 사용할수 있다. V/UV판별 및 피치강도정보생성부(115)에서의 V/UV판별결과는 스위치(117,118)의 제어신호로서 보내지고 있고, 유성음(V)에 대하여 인덱스 및 피치가 선택되어 출력단자(103 및 104)에서 각각 얻어진다. V/UV판별 및 피치강도정보생성부(115)에서의 피치강도정보는 출력단자(105)에서 얻어진다.
스펙트럼평가부(148)의 출력부 혹은 벡터양자화부(116)의 입력부에는 데이터수변환부(일종의 샘플링레이트변환을 실행하는 부)가 설치되어 있다. 데이터수변환부는 상기 피치에 따라서 주파수축상에서의 분할대역수와 데이터수가 다른 것을 고려하여 엔벌로프의 진폭데이터(|Am|)를 설정하기 위하여 사용된다. 즉, 유효대역을 3400kHz까지로 하면, 이 유효대역이 상기 피치에 따라서 8∼63밴드로 분할된다. 각 밴드마다에 얻어지는 상기 진폭데이터(|Am|)의 개수(mMX+1)도 8∼63의 범위에서 변화된다. 그래서 데이터수변환부(119)는 이 가변개수(mMX+1)의 진폭데이터를 소정개수(M)개 예를 들면 44개의 데이터로 변환하고 있다.
스펙트럼평가부(148)의 출력부 혹은 스펙트럼양자화부(116)의 입력부에 설치된 데이터수변환부에서 44와 같은 소정개수(M)개의 진폭데이터 혹은 엔벌로프데이터가 벡터양자화부(116)에 의해 소정개수, 예를 들면 44개의 데이터마다 모아져서 벡터양자화된다. 이 가중치는 청각가중필터산출회로(139)에서의 출력에 의해 공급된다. 벡터양자화부(116)에서의 엔벌로프의 인덱스는 스위치(117)를 거쳐서 출력단자(103)에서 얻어진다. 가중벡터양자화에 앞서서, 소정개수의 데이터로 이루어지는 벡터에 대하여 적당한 누출계수를 이용한 프레임간차분을 취하는 것도 바람직하다.
제 2부호화부(120)에 대하여 설명한다. 제 2부호화부(120)는 부호여기선형예측(CELP)부호화구성을 가지고 있고, 특히 입력음성신호의 무성음부분의 부호화를 위해 이용되고 있다. 이 무성음부분용의 CELP부호화구성에 있어서, 잡음코드북, 소위 스토캐스틱코드북(stochastic code book)(121)에서의 대표치출력인 무성음의 LPC잔차에 상당하는 노이즈출력이 이득회로(126)를 거쳐서 청각가중의 합성필터(122)에 보내지고 있다. 청각가중의 합성필터(122)에서는 입력된 노이즈를 LPC합성처리하여 결과의 가중무성음의 신호를 감산기(123)에 보내고 있다. 감산기(123)에는 입력단자(101)에서 하이패스필터(HPF)(109)를 거쳐서 공급되고 청각가중필터(125)에서 청각가중된 음성신호가 입력되고 있고, 합성필터(122)에서 신호로부터 청각가중 음성신호의 차분 혹은 오차를 구하고 있다. 한편, 청각가중필터(125)의 출력에서 청각가중합성필터의 영입력응답을 미리 감산된다. 이 오차를 거리계산회로(124)에 보내어 거리를 구하고, 오차가 최소로 되는 대표치벡터를 잡읍코드북(121)에 의해 탐색한다. 합성에 의한 분석법을 차례로 이용한 폐루프탐색를 이용한 시간축파형의 벡터양자화를 행하고 있다.
CELP부호화구성을 이용한 제 2부호화부(120)에서의 무성음(UV)부의 데이터로서 잡음코드북(121)에서의 코드북의 형상인덱스와 이득회로(126)에서의 코드북의 이득인덱스가 얻어진다. 잡음코드북(121)에서의 UV데이터인 형상인덱스는 스위치(127s)를 거쳐서 출력단자(107s)에 보내지고, 이득회로(126)의 UV데이터인 이득인덱스는 스위치(127g)를 거쳐서 출력단자(107g)에 보내진다.
이들 스위치(127s, 127g) 및 스위치(117, 118)는 V/UV판별부(115)에서의 V/UV판별결과에 따라서 온/오프된다. 특히, 스위치(117,118)는 현재전송하고자 하는 프레임의 음성신호의 V/UV판별결과가 유성음(V)의 때 온으로 되고, 스위치(127s, 127g)는 현재 전송하고자 하는 프레임의 음성신호가 무성음(UV)의 때 온으로 된다.
도 4는 상기 도 2에 나타낸 본 발명의 실시예를 나타내는 음성복호화장치의 보다 구체적인 구성을 나타내고 있다. 이 도면에 있어서 도2의 각부와 대응하는 부분과 성분은 동일 지시수치에 의해 표시되어 있다.
이 도면에 있어서, 입력단자(202)에는 상기 도 1, 3의 출력단자(102)에서의 출력에 상당하는 LSP의 스펙트럼양자화출력, 소위 코드북의 인덱스가 공급되고 있다.
이 LSP인덱스는 LPC파라미터재생부(213)의 LSP의 역벡터양자화부(231)에 보내지고 선스펙트럼(LSP)쌍 데이터에 역벡터양자화되고, LSP보간회로(232, 233)에 보내지고 LSP의 보간처리된다. 그 결과데이터는 LSP→α변환회로(234, 235)에 보내지고 선형예측부호(LPC)의 α파라미터에 변환되고 LPC합성필터(214)에 보내진다. LSP보간회로(232) 및 LSP→α변환회로(234)는 유성음(V)용으로 설계되고, LSP보간회로(233) 및 LSP→α변환회로(235)는 무성음(UV)용으로 설계되어 있다. LPC합성필터(214)는 유성음부분의 LPC합성필터(236)와 무성음부분의 LPC합성필터(237)를 분리하고 있다. 즉, 유성음부분과 무성음부분에서 LPC의 계수보간을 독립하여 행함으로써 유성음에서 무성음으로의 천이부나, 그 역에서 전부 성질이 다른 LSP의 보간의 결과로서 생기는 악영향이 없다.
도 4의 입력단자(203)에 상기 도1, 도3의 부호기측의 단자(103)의 출력에 대응하는 스펙트럼엔벌로프(Am)의 가중벡터양자화된 코드인덱스데이터가 공급된다. 입력단자(204, 205)에는 상기 도 3의 단자(104)에서의 피치데이터 및 도 1, 3의 단자(105)에서의 피치강도정보가 공급되고 있다.
입력단자(203)에서의 스펙트럼 엔벌로프(Am)의 벡터양자화된 인덱스데이터는 역벡터양자화부(212)에 보내져 역벡터양자화가 실시되고, 데이터수변환의 역변환이 실시된다. 결과의 스펙트럼 엔벌로프의 데이터는 유성음 합성부(211)의 사인파합성회로(215)에 보내지고 있다.
부호기동안에 스펙트럼성분의 벡터양자화에 앞서서 프레임간차분을 취하면 역벡터양자화, 프레임간 차분의 복호 및 데이터변환의 순서로 실시되고 스펙트럼 엔벌로프 데이터를 생성한다.
사인파합성회로(215)는 입력단자(204)에서의 피치 및 입력단자(205)에서의 V/UV판별데이터가 공급되고 있다. 사인파합성회로(215)에서는 상술한 도 1, 도 3의 LPC역필터(111)에서의 출력에 상당하는 LPC잔차데이터가 구해져서 가산기에 보내지고 있다. 이 사인파합성의 구체적인 기술에 대하여는 본건 출원인이 출원한 일본특허출원번호 4-91422, 6-198451에 개시되어 있다.
역벡터양자화부(212)에서의 엔벌로프의 데이터와 입력단자(204, 205)에서의 V/UV판별데이터뿐만 아니라 피치는 유성음(V)부분의 노이즈가산을 위하여 노이즈합성회로(216)에 보내지고 있다. 이 노이즈합성회로(216)에서의 출력은 가중 중첩가산회로(217)를 거쳐서 가산기(218)에 보내지고, 사인파합성회로(215)에 보내진다. 구체적으로, 사인파합성에 의해 유성음의 LPC합성필터로의 입력으로서 여기(Excitation)를 만들면, 남성 등의 낮은 피치음에서 웅웅거리는 소리의 느낌이 생성되고 유성음(V)과 무성음(UV)에서 음질이 급격히 변화하여 이질감을 느끼는 것을 고려하여 유성음부분의 LPC합성필터입력, 즉 여기에 대하여 음성부호화데이터에 의거하는 파라미터, 예를 들면 피치, 스펙트럼 엔벌로프진폭, 프레임내의 최대진폭 혹은 잔차신호의 레벨 등을 고려한 노이즈가 LPC잔차신호의 유성음부분에 더해진다.
한편, 노이즈성분은 노이즈합성회로(216)에서 가중중첩가산회로(217)를 거쳐서 가산기(218)에 보내져서 상기 유성음(V)부분에 더해지고 피치강도정보에 의거하여 그 레벨이 제어될뿐아니라, 예를 들면 상기 유성음부분에 부가되는 노이즈성분의 대역폭이 피치강도정보에 의거하여 제어되거나, 부가되는 노이즈성분의 레벨과 대역폭이 피치강도정보에 의거하여 제어되거나, 상기 부가하는 노이즈성분의 레벨에 따라서 상기 합성되는 유성음 때문에 하모닉스진폭도 제어될수 있다.
가산기(218)에서의 가산출력은 LPC합성필터(214)의 유성음용의 합성필터(236)에 보내지고 LPC합성처리가 실시됨으로써 시간파형데이터를 생성하고, 다시 유성음용 포스트필터(238v)에 의해 필터되어 가산기(239)에 보내지게 된다.
도 4의 입력단자(207s 및 207g)에는 상기 도3의 출력단자(107s 및 107g)에서의 UV데이터로서의 형상인덱스 및 이득인덱스가 각각 공급되고 무성음합성부(220)에 보내지고 있다. 단자(207s)에서의 형상인덱스와 단자(207g)에서의 이득인덱스는 무성음합성부(220)의 잡음코드북(221)과 이득회로(222)에 각각 보내지고 있다. 잡음코드북(221)에서 독출된 대표치출력은 여기벡터 즉, 무성음의 LPC잔차에 대응하는 노이즈신호성분이고, 이득회로(222)에 보내져서 소정의 이득의 진폭으로 되고, 윈도잉(windowing)회로(223)에 보내지고, 상기 유성음부분과의 연결을 원활히하기 위하여 윈도잉처리가 실시된다. 또한, 이 윈도잉회로(223)에는 입력단자(205)에서 피치강도정보가 공급되고 있다.
윈도잉회로(223)에서의 출력은 LPC합성필터(214)의 무성음(UV)용의 합성필터(237)에 보내진다. 합성필터(237)에 보내진 데이터가 LPC합성처리가 실시되어 무성음부분의 시간파형데이터로 된다. 무성음부분의 시간파형데이터는 무성음용 포스트필터(238u)에 의해 필터처리되어 가산기(239)에 보내진다.
가산기(239)에서는 유성음용 포스트필터(238v)에서의 시간파형신호와 무성음용 포스트필터(238u)에서의 무성음부분의 시간파형데이터가 서로 가산되고, 그 가산된 데이터가 출력단자(201)에서 얻어진다.
상술의 음성부호화장치는 요구되는 음성의 질에 따라서 다른 비트레이트의 데이터를 출력할수 있다. 즉, 출력데이터의 비트레이트가 가변되어 출력된다.
구체적으로는 출력데이터의 비트레이트를 저비트레이트와 고비트레이사이에서 전활될수 있다. 예를 들면 저비트레이트를 2kbps로 하고, 고비트레이트를 6kbps로 하면, 출력데이터에 도 5에 나타내는 비트레이트를 가지는 비트레이트의 데이터이다.
출력단자(104)에서의 피치데이터에 대하여는 유성음에 대하여 항상 7bits/20msec의 비트레이트로 모든 시각에서 출력되고, 출력단자(105)에서의 V/UV판별출력을 모든 시각에서 2bits/20msec이다. 출력단자(102)에서 출력되는 LSP양자화의 인덱스는 32bits/40msec와 48bits/40msec와의 사이에서 전환이 행해진다. 한편, 출력단자(103)에서 출력되는 유성음시(V)의 인덱스는 15bits/20msec와 87bits/20msec와의 사이에서 전환이 행해진다. 출력단자(107s, 107g)에서 출력되는 무성음시(UV)의 인덱스는 11bits/10msec와 23bits/5msec와의 사이에서 전환이 행해진다. 이것에 의해, 유성음시(V)의 출력데이터는 2kbps에서는 40bits/20msec로 되고, 6kbps에서는 120bits/20msec로 된다. 또, 무성음시(UV)의 출력데이터는 2kbps에서는 39bits/20msec로 되고, 6kbps에서는 117bits/20msec로 된다.
또, 상기 LSP양자화, 유성음시(V) 그리고 무성음시(UV)의 인덱스에 대하여는 후술하는 각부의 구성과 연관하여 설명한다.
다음에, 도 3의 음성부호화장치에 있어서, V/UV판별 및 피치강도정보생성부(115)의 구체예에 대하여 설명한다.
이 V/UV판별 및 피치강도정보생성부(115)는 직교변환회로(145)에서의 출력과, 고정밀도피치탐색부(146)에서의 최적피치와 스펙트럼평가부(148)에서의 스펙트럼 진폭데이터와 개루프 피치탐색부(141)에서의 정규화자기상관최대치(r(p))와, 영교차카운터(412)에서의 영교차카운터값에 의거하여 해당 프레임의 V/UV판별을 행한다. MBE의 경우와 동일한 각 밴드마다의 V/UV판별결과의 경계위치도 상기 프레임의 일조건으로 사용되고 있다.
MBE의 경우의 각 밴드마다의 V/UV판별결과를 이용한 V/UV판별조건에 대하여 이하에 설명한다.
MBE의 경우의 제 m번째의 하모닉스의 크기를 나타내는 파라미터 혹은 진폭은|Am|은
에 의해 표시된다.
이 식에 있어서, |S(j)|는 LPC잔차를 DFT하여 얻은 스펙트럼이고, |E(j)|는 기저신호의 스펙트럼인 구체적으로는 a m , bm은 하부 및 상부 한계치이고, 제 m하모닉에 차례대로 대응하는 제 m밴드에 대응하는 주파수의 인덱스(J)에 의해 표현되는 256 포인트의 해밍창이다. 또, 이고, 각 밴드마다의 V/UV판별을 위해 NSR(잡음 대 신호비)를 이용한다. 이 제 m밴드의 NSR은
로 표시된다. 이 NSR값이 0.3과 같은 소정의 임계치보다도 크면, 즉, 에러가 크면, 그 밴드에서 |Am||E(j)|에 의한 |S(j)|의 근사가 좋지 않은, 즉, 상기 여기신호|E(j)|가 기저로서 부적당하다는것으로 판단할수 있다. 그래서, 상기 밴드를 UV(Unvoiced, 무성음)으로 판별한다. 그 이외의 때는 근사가 어느정도 양호하게 행해지고 있는 것으로 판단할수 있고, 그 밴드를 V(Voiced, 유성음)으로 판별한다.
여기에서, 상기 각 밴드(하모닉스)의 NSR은 각 하모닉스마다의 스펙트럼 유사도를 나타내고 있다. NSR의 하모닉스의 이득의 합계를 NSRall로서 다음과 같이 정의한다.
이 스펙트럼유사도(NSRall)가 어느 임계치보다 큰지 작은지에 의해 V/UV판별에 이용되는 기본규칙을 결정한다. 여기에서는 이 임계치를 THNSR=0.3으로 하여 둔다. 이 기본규칙은 프레임파워, 영교, LPC잔차의 자기상관의 최대치에 관한 것이다. NSRTHNSR의 때에 이용되는 기본규칙에서는 규칙이 적용되면 상기 프레임은 V, 적용되는 룰이 없는 경우는 UV로 된다.
NSRall≥THNSR의 때에 이용되는 룰베이스의 경우에서 룰이 적용되면 UV, 적용되지 않으면 V로 된다.
여기에서, 구체적인 룰은 다음과 같은 것이다.
NSRallTHNSR에 대하여,
numZero XP 24, firmPow340 그리고 r'(1)0.32이면, 상기 프레임은 V이다.
NSRall≥THNSR에 대하여,
numZero XP 30, firmPow900 그리고 r'(1)0.23이면, 상기 프레임은 UV이다.
여기에서, 각각의 변수는 다음과 같이 정의된다.
numZero XP : 프레임당 영교수
firmPow : 프레임 파워
r'(1) : 자기상관의 최대치
상기와 같은 구체화된 룰의 집합을 나타내는 룰은 V/UV의 판별을 위하여 고려된다.
다음에, 상술한 V/UV판별 및 피치강도정보생성부(115)에 있어서, 음성신호중의 유성음(V)의 피치강도를 구체화하는 파라미터로서 피치강도정보(probV)를 생성하는 동작의 순서를 설명한다. 도 6은 V/UV판별결과와 자기상관을 구하는 때에 샘플을 시프트한 양을 k로 하고, 자기상관치(Rk)를 0번째의 피크(R0)(파워)로 규격화하여 내림차순으로 정열한 r'(n)의 프레임내의 최대치(r'(1))를 적절한 임계치로 잘라서 얻은 최대치(r'(1))의 진폭에 따라서 유성음의 정도(즉 피치강도)를 k단계로 분류하기 위하여 2종류의 임계치(TH1 및 TH2)에 의거하여 probV의 값이 설정되는 조건을 나타내고 있다.
즉, V/UV판별결과가 완전히 무성음(UV:unvoiced)인 것을 나타내면 유성음부분의 피치강도를 나타내는 피치강도정보(probV)의 값은 0으로 된다. 상술한 유성음부분(V)으로 노이즈부가는 행해지지 않으므로 CELP부호화에만 의해 보다 명료한 자음이 생성된다.
또, V/UV판별결과가 r'(1)TH1의 요구를 만족하면(Mixed Voiced-0), 피치강도정보(probV)의 값이 1로 된다. probV의 값에 따라서 유성음부(V)로의 노이즈부가가 행해진다.
V/UV판별결과가 TH1≤r'(1)TH2을 만족하면(Mixed Voiced-1), 피치강도정보(probV)의 값이 2로 된다. 그리고, 이 probV의 값에 따라서 유성음부(V)로의 노이즈부가가 행해진다.
그리고, V/UV판별결과가 완전히 유성음(V)이면, probV의 값은 3으로 된다.
이러한 방법으로, 피치강도를 나타내는 파라미터인 피치강도정보(probV)를 2bits로 부호화함으로써 종래의 V/UV 판단결과에 더하여 U/V판단의 결과가 유성음을 나타내면 그 유성음의 강도를 3단계로 표현할수 있다. 또한, 종래 V/UV판별결과는 1비트로 주어지고 있지만, 도 5에 나타낸 것같이 피치데이터의 수를 8bits에서 7bits로 감하고, 남은 1비트가 2bits의 probV를 표현하기 위하여 사용되고 있다. 2종류의 임계치(TH1 및 TH2)의 구체적인 값으로서 TH1=0.55, TH2=0.7등이다.
상기 피치강도를 나타내는 파라미터인 피치강도정보(probV)를 생성하는 동작순서를 도 7의 플로우차트를 참조하면서 설명한다. 여기에서는 2종류의 임계치(TH1 및 TH2)가 설정되고, 음성신호의 현재의 프레임의 V/UV는 이미 판별완료인 것으로 가정한다.
먼저, 스텝(S1)에 있어서 입력음성신호에 대하여 전술한 방법으로 V/UV판별이 행해진다. 스텝(S1)의 판별결과가 UV이면 스텝(S2)에 있어서 유성음(V)의 피치강도정보(probV)가 0으로 설정되어 출력된다. 스텝(S1)의 판별결과가 V이면 스텝(S3)에 있어서, r'(1)TH1에 대한 판별이 행해진다.
스텝(S3)의 판별결과가 yes인 경우에는 스텝(S4)에 있어서 유성음(V)의 피치강도정보(probV)가 1로 설정되어 출력된다. 한편, 스텝(S3)의 판별결과가 No이면 스텝(S5)에 있어서, r'(1)TH2에 대한 판별이 행해진다.
스텝(S5)의 판별결과가 yes인 경우에는 스텝(S6)에 있어서 유성음(V)의 피치강도정보(probV)가 2로 설정되어 출력된다. 한편, 스텝(S5)의 판별결과가 No이면 스텝(S7)에 있어서, 유성음(V)의 피치강도정보(probV)가 3으로 설정되어 출력된다.
도 4를 참조하여 음성복호화장치의 구체적인 구성예의 부호화음성신호가 복호되는 방법을 설명한다. 출력데이터의 비트레이트는 도 5에 나타내는 것으로 가정한다. 기본적으로는 종래의 MBE의 무성음의 합성과 동일의 방법으로 노이즈합성이 행해진다.
도 4의 음성복호화장치의 요부의 보다 구체적인 구성 및 동작에 대하여 설명한다.
LPC합성필터(214)는 상술한 것같이 유성음(V)용의 합성필터(236)과, 무성음(UV)용의 합성필터(237)로 분리되어 있다. 즉, 합성필터를 분리하지 않고 LSP가 V/UV구별없이 LSP의 보간을 20샘플 즉, 2.5msec마다 행하면 V→UV 또는 UV→V천이부에서 전부 성질이 다른 LSP끼리 보간된다. 그 결과, V의 잔차에 UV의 LPC가, UV의 잔차에 V의 LPC가 이용됨으로써 이음이 발생하게 된다. 이와 같은 악영향을 방기하기 위해, LPC합성필터를 V용고 UV용으로 분리하고, LPC계수보간을 V와 UV용으로 독립하여 행한 것이다.
이 경우의 LPC합성필터(236, 237)의 계수보간방법에 대하여 설명한다. 구체적으로 다음의 도 8에 나타낸 것같이, V/UV의 상태에 따라서 LSP의 보간을 전환하고 있다.
도 6에 있어서, 균등간격 LSP란 예를 들면 10차 LPC분석을 취하면, 평평한 필터의 특성과 이득이 1인 것에 대하여 α파라미터에서
α0= 1, α1= α2= … = α10= 0인 LSP이고
LSPi= (π/11) x I 0≤α≤10 이다.
이와 같은 10차 LPC분석, 즉 10차 LSP가 도 17에 나타낸 것같이 0∼π사이에서 11균등한 위치에 균등간격으로 배열된 LSP로 완전히 편평한 스펙트럼에 대응하고 있다. 이러한 경우에서, 합성필터의 전대역이득은 이 시각에서 최소 스루(through)특성을 가진다.
도 10은 이득변화의 방법을 개략적으로 나타내고 있다. 구체적으로, 도 10은 무성음(UV)부분로부터 유성음(V)부분으로의 천이동안 1/Huv(z)의 이득 및 1/Hv(z)의 이득이 어떻게 변화하는지를 나타내고 있다.
보간을 행하는 단위는 1/Hv(z)의 계수에 대하여 2.5msec(20샘플)이고, 또 1/Huv(z)의 계수는 비트레이트가 2kbps에서 10msec(80샘플), 6kbps의 비트레이트에 대하여 5msec(40샘플)이다. 또한, UV시에 대하여 제 2부호화부(120)는 합성에 의한 분석법을 이용한 파형매칭을 행하고 있으므로, 반드시 균등간격LSP를 보간시키지 않아도, 인접하는 V 부분의 LSP와의 보간을 행할수 있다. 제 2부호화부(120)에 있어서의 UV부의 부호화처리에 있어서는 V→UV로의 천이부에서 1/A(z)의 가중 합성필터(122)의 내부상태를 클리어함으로써 제로입력응답를 0으로 설정한다.
이들의 LPC합성필터(236, 237)의 출력은 각각 독립으로 설치된 포스트필터(238u, 238v)에 보내지고 있다. 포스트필터의 강도, 주파수응답이 V와 UV에서 다른 값으로 설정되어 있다.
LPC잔차신호, 즉, LPC합성필터입력인 여기의 V부와 UV부분사이의 연결부의 윈도잉에 대하여 설명한다. 이것은 도 4에 나타내는 유성음합성부(211)의 사인파합성회로(215)와 무성음합성부(220)의 윈도잉회로(223)에 의해 각각 행해진다. 여기의 V부의 합성법에 대하여는 본 출원인이 제안한 일본특허출원번호 4-91422호에서 개시되어 있고, 여기의 V부의 고속합성법은 본 출원인이 제안한 일본특허출원번호 6-198451호에 상세히 설명되어 있다. 금회의 구체예에서는 이 고속합성방법을 이용하여 V부의 여기를 생성하고 있다.
유성음(V)부분에서는 인접하는 프레임의 스펙트럼을 이용하여 스펙트럼을 보간하여 사인파합성하기 때문에, 도 11에 나타낸 것같이 제 n프레임과 제 n+1프레임과의 사이에 걸리는 전체의 파형을 만들 수 있다. 그러나, 도 8의 제 n+1프레임과 제 n+2프레임과 같이, V와 UV에 걸치는 부분에 대하여 UV부분은 ±80샘플 (전체 160샘플이 1프레임간격이다)의 데이터만을 부호화 및 복호화하고 있다.
도 20에 나타낸 것같이 V측에서는 인접하는 프레임사이의 중심점(CN)을 넘어서 윈도잉를 행하고, UV측에서는 중심점(CN)까지의 윈도잉를 행하고, 접속부분을 오버랩시키고 있다. UV→V의 천이부분에서는 그 역의 과정을 행하고 있다. V측의 윈도잉는 도 20에서 파선으로 나타내는 것같이 할수 있다.
유성음(V)부분에서의 노이즈합성 및 노이즈가산에 대하여 설명한다. 이것은 도 4의 노이즈합성회로(216), 가중중첩회로(217), 및 가산기(218)를 이용하여 LPC합성필터입력이 되는 여기와 연결하여 다음의 파라미터를 고려한 노이즈를 LPC잔차신호의 유성음부분에 더함으로써 행해진다.
즉, 상기 파라미터로서는 피치랙(Pch), 유성음의 스펙트럼진폭(Am[i]), 프레임내의 최대 스펙트럼진폭(Amax), 및 잔차신호의 레벨(Lev)를 들수 있다. 피치랙(Pch)은 fs=8kHz와 같은 소정의 샘플링주파수(fs)에서의 피치주기내의 샘플수이고, 스펙트럼진폭 Am[i]의 i는 fs/2의 대역내에서의 하모닉스의 본수를 I=Pch/2로 하는 때 0iI의 범위내의 정수이다.
다음의 설명에서, 하모닉스의 진폭(Am[i])와 피치강도정보(probV)에 의거하여 유성음합성의 때에 노이즈부가처리를 가정한다.
도 13은 도 4에 나타내는 노이즈합성회로(216)의 기본구성을 나타내고, 도 14는 노이즈 진폭하모닉스 진폭제어회로(410)의 기본구성을 나타내고 있다.
먼저, 도 13에 있어서, 노이즈 진폭·하모닉스 진폭제어회로(410)의 입력단자(411, 412)에는 하모닉스의 진폭(Am[i])과 피치강도정보(probV)가 각각 입력된다. 노이즈 진폭 하모닉스 진폭제어회로(410)에서는 이하에 설명한 바와 같이 상기 하모닉스의 진폭(Am[i])을 스케일다운한 버전인 Am_h[i]와 Am_noise[i]가 출력된다. 그리고, 상기 Am_h[i]는 유성음합성부(211)에 보내지고, Am_noise[i]는 승산회로(403)에 보내진다. 한편, 화이트 노이즈 발생회로(401)는 시간축상의 화이트노이즈 신호파형에 256샘플과 같은 소정의 길이를 가지는 적당한 해밍창과 같은 창함수에 의해 윈도잉된 가우션노이즈가 출력되고, 이것이 STFT처리부(402)에 의해 STFT(Short-term Fourier Transform)처리를 실시함으로써, 노이즈의 주파수축상의 파워스펙트럼을 얻는다. 이 STFT처리부(402)에서의 파워스펙트럼을 진폭처리하기 위한 승산기(403)에 보내고, 노이즈진폭제어회로(410)에서의 출력을 승산하고 있다. 승산기(403)에서의 출력은 ISTFT처리부(404)에 보내지고, 위상은 원래의 화이트 노이즈의 위상을 이용하여 역 STFT(ISTFT)처리를 실시함으로서 시간축상의 신호로 변환한다. ISTFT처리부(404)에서의 출력은 가중중첩가산회로(217)에 보내진다.
또한, 상기 도 13의 예에 있어서는 화이트 노이즈 발생부(401)에서 시간영역의 노이즈를 발생하여 그것을 STFT 등의 직교변환을 행하므로 주파수영역의 노이즈를 발생하고 있다. 그러나, 노이즈발생부에서 직접적으로 주파수영역의 노이즈를 발생될수 있다. 즉, 주파수영역의 파라미터를 직접발생함으로써 STFT나 FFT 등의 직교변환처리를 절약할수 있다.
구체적으로는 ±x의 범위의 란수를 발생하여 그것을 FFT스펙트럼의 실부와 허부로서 취급한다. 또한, 0에서 최대치(max)까지의 범위의 정의 란수를 발생하고 그것을 FFT스펙트럼의 진폭으로서 취급하는 반면, -π에서 π까지의 란수를 발생하고 그것을 FFT스펙트럼의 위상으로서 취급한다.
이렇게 함으로써 도 13의 FFT처리부(402)가 불필요하게 되고, 구성의 간략화 혹은 연산량의 저감화가 도모된다.
또, 도 13의 화이트노이즈발생과 STFT부분은 란수를 발생시키고, 그것을 화이트노이즈의 스펙트럼의 실부, 허부 또는 진폭, 위상 처리를 행할수도 있다. 이와 같이 하면, 도 13의 STFT를 생략할수 있고, 연산량이 감소된다.
이 노이즈발생을 위해, 노이즈의 진폭정보(Am_noise[i])가 필요하다. 그러나, 그것은 전송되고 있지않으므로 유성음의 하모닉스의 진폭정보(Am[i])에서 생성한다. 또, 상기 노이즈합성을 행하기 위하여 진폭정보(Am[i])에서 Am_noise[i]를 생성하는 동시에, 노이즈의 진폭정보(Am_noise[i])에 의거하여 노이즈를 더하는 유성음부분의 진폭정보(Am[i])의 스케일다운버전인 Am_h[i]를 생성한다. 그리고, 하모닉합성(사인파합성)을 발생하기 위하여 Am[i]의 대신에 Am_h[i]를 사용한다.
이하에, Am_noise[i] 및 Am_h[i]를 생성하는 동작순서를 나타낸다.
현재의 피치에 있어서의 4000Hz까지의 하모닉스의 본수를 send 로 표시하면,
send = [피치/2]
샘플링주파수 fs에 대하여 8000Hz이다. 또, AN1, AN2, AN3, AH1, AH2, AH3, B는 정수(승산계수)이고, TH1, TH2, TH3 는 임계치이다.
노이즈진폭제어회로(410)는 예를 들면 도 14와 같은 기본구성을 가지고, 상기 도4의 스펙트럼 엔벌로프의 양자화부(212)에서 단자(411)를 통하여 주어지는 유성음(V)에 대한 상기 스펙트럼진폭Am[i]과 상기 도 4의 입력단자(205)로부터 입력단자(412)를 거쳐서 주어지는 상기 피치강도정보(probV)에 의거하여 승산기(403)에서 승산계수가 되는 노이즈진폭 Am_noise[i]을 구하고 있다. 이 Am_noise[i]에 의해 합성되는 노이즈진폭이 제어되게 된다. 즉, 도 14를 참조하여, 피치강도정보(probV)는 최적의 AN, B_TH치의 산출회로(415) 및 최적의 AH, B_TH치의 산출회로(416)에 들어간다. 최적의 AN, B_TH치의 산출회로(415)의 출력은 노이즈의 가중회로(417)에서 가중되고, 가중출력은 승산기(419)에 보내지고 입력단자(411)로부터 들어온 스펙트럼진폭Am[i]과 승산함으로서 노이즈진폭 Am_noise[i]을 생성하고, 한편, 최적의 AH, B_TH치의 산출회로(416)에서의 출력은 노이즈의 가중회로(418)에서 가중하여 얻어진 출력을 승산기(420)에 보내어 입력단자(411)에서 입력된 스펙트럼진폭Am[i]과 승산함으로써 스케일 다운한 하모닉스진폭(Am_h[i])을 얻고 있다.
구체적으로는 이하와 같이, Am_[i] 및 probV에서 Am_h[i], Am_noise [i]( 0≤i≤send)를 결정한다.
probV=0이면, 즉 무성음(UV)시에는 Am[i]정보가 존재하지 않고, CELP부호화만을 행한다.
probV=1이면 (Mixed Voiced-0)
Am_noise[i]는
Am_noise[i]=0 (0≤isend x B_TH1)
Am_noise[i]= AN1 x Am[i] (send x B_TH1≤i≤send)
Am_h[i]는
Am_h[i]=0 (0≤isend x B_TH1)
Am_h[i]= AN1 x Am[i] (send x B_TH1≤i≤send)
probV=2이면 (Mixed Voiced-1)
Am_noise[i]는
Am_noise[i]=0 (0≤isend x B_TH2)
Am_noise[i]= AN2 x Am[i] (send x B_TH2≤i≤send)
Am_h[i]는
Am_h[i]=0 (0≤isend x B_TH2)
Am_h[i]= AN2 x Am[i] (send x B_TH2≤i≤send)
probV=3이면 (Full Voiced)
Am_noise[i]는
Am_noise[i]=0 (0≤isend x B_TH3)
Am_noise[i]= AN3 x Am[i] (send x B_TH3≤i≤send)
Am_h[i]는
Am_h[i]=0 (0≤isend x B_TH3)
Am_h[i]= AN3 x Am[i] (send x B_TH3≤i≤send)
노이즈합성가산의 제 1구체예로서, 음성부분에 더한 노이즈의 대역은 일정하고 레벨(계수)를 가변으로 한다고 가정하여 설명한다. 이와 같은 경우의 구체예는
probV=1 인때 B_TH1=0.5
AN1=0.5
AH1=0.6
probV=2 인때 B_TH2=0.5
AN2=0.3
AH2=0.8
probV=3 인때 B_TH3=0.7
AN3=0.2
AH3=1.0
이다.
노이즈합성가산의 제 2구체예로서, 음성부분에 더한 노이즈의 레벨(계수)는 일정하고, 대역을 가변으로 가정한다. 이와 같은 경우의 구체예는
probV=1 인때 B_TH1=0.6
AN1=0.5
AH1=0.2
probV=2 인때 B_TH2=0.8
AN2=0.5
AH2=0.2
probV=3 인때 B_TH3=1.0
AN3=0.5 (Don't care)
AH3=0 (Don't care)
이다.
다음에, 노이즈합성가산의 제 3구체예로서, 음성부분에 더한 노이즈의 레벨(계수)도, 대역도 가변으로 가정한다. 이와 같은 경우의 구체예는
probV=1 인때 B_TH1=0.5
AN1=0.5
AH1=0.6
probV=2 인때 B_TH2=0.7
AN2=0.4
AH2=0.8
probV=3 인때 B_TH3=1.0
AN3= x (Don't care)
AH3= x (Don't care)
이다.
이와 같이 하여 유성음부분에 노이즈를 가산하는 것으로, 보다 자연스러운 유성음을 얻을수 있다.
다음에, 포스트필터(238v, 238u)에 대하여 설명한다.
도 15는 도 4 예에서 포스트필터(238v, 238u)로서 이용되는 포스트필터를 나타내고 있다. 포스트필터의 요부가 되는 스펙트럼정형필터(440)는 포먼트강조필터(441)와 고역강조필터(442)로 이루어져 있다. 이 스펙트럼정형필터(440)에서의 출력은 스펙트럼정형에 의한 이득변화를 보정하기 위한 이득조정회로(443)에 보내지고 있다. 이 이득조정회로(443)의 이득(G)은 이득제어회로(445)에 의해 스펙트럼정형필터(440)의 입력(x)와 출력(y)을 비교하여 이득변화를 계산하고, 보정치를 산출하는 것으로 결정된다.
LPC합성필터의 분모(Hv(z), Huv(z))의 계수, 소위 α파라미터를 αi로 하면, 스펙트럼 정형필터(440)의 특성PF(z)은
로 표현된다. 이 식의 분수부분이 포먼트강조필터특성을 나타내는 반면(1-kz-1)의 부분이 고역강조필터의 특성을 나타낸다. β, γ, k는 정수이므로 일예로서 β=0.6, γ=0.8, k=0.3이다.
이득조정회로(443)의 이득(G)은
로 주어진다. 위 식에서, x(i)와 y(i)는 스펙트럼정형필터(440)의 입력과 출력을 각각 나타낸다.
상기 스펙트럼 정형필터(440)의 계수의 갱신주기는 도 16에 나타낸 것같이, LPC합성필터의 계수인 α파라미터의 갱신주기와 동일하게 20샘플, 2.5msec인 것에 대하여 이득조정회로(443)의 이득(G)의 갱신주기는 160샘플, 20msec이다.
이와 같이, 포스트필터의 스펙트럼 정형필터(440)의 계수의 갱신주기에 비교하여 스펙트럼 정형필터(443)의 이득(G)의 계수의 갱신주기를 길게 취함으로써 이득조정의 변동에 의한 악영향을 방지하고 있다.
즉, 일반의 포스트필터에 있어서는 스펙트럼정형필터의 계수의 갱신주기와 이득의 갱신주기를 동일하게 하고 있고, 이득의 갱신주기를 20샘플, 2.5msec로 하면, 도 16에 나타낸 바와 같이 1피치의 주기중에서 이득값이 변동하게 되고, 클릭노이즈를 발생한다. 본 실시예에 있어서는 이득의 전환주기를 보다 길게, 예를 들면 1프레임분의 160샘플, 20msec로 함으로써, 급격한 이득의 변동을 방지할수 있고, 또 역으로 스펙트럼 정형필터의 계수의 갱신주기를 160샘플, 20msec로 하는 때에는 원활한 필터특성의 변화가 얻어지지 않고, 합성파형에 악영향이 생기지만, 이 필터계수의 갱신주기를 20샘플, 2.5msec로 짧게 함으로써 효과적인 포스트필터처리가 가능하게 된다.
또한, 인접하는 프레임간에서의 이득을 연결처리함으로써, 도 17에 나타낸 것같이 전 프레임의 필터계수 및 이득과 현 프레임의 필터계수 및 이득을 산출한 결과에 다음과 같은 삼각창
W(i) = I/120 (0≤i≤20)와
1-W(i) (0≤i≤20)
을 걸어서 , 페이드인, 페이드아웃을 행하여 서로 가산한다. 즉, 도 17에서는 전프레임의 이득(G1)이 현프레임의 이득(G2)에 합쳐지는 모습을 나타내고 있다. 특히, 전프레임의 이득, 필터계수를 사용하는 비율이 서서히 감쇠하는 반면, 현프레임의 이득, 필터계수의 사용이 서서히 증가한다. 또한, 도 17의 시각(T)에 있어서의 현프레임의 필터와 전프레임의 필터의 내부상태는 동일상태, 즉 전프레임의 최종상태에서 시작한다.
이상 설명한 것같은 신호부호 및 신호복호화장치는 예를 들면 도 18 및 도 19에 나타낸 것같은 휴대통신단말 혹은 휴대전화기 등에 사용되는 음성코드북으로서 사용할수 있다.
즉, 도 18은 상기 도 1, 도 3에 나타낸 것같은 구성을 가지는 음성부호화부(160)을 이용하여 이루어지는 휴대단말의 송신측구성을 나타내고 있다. 이 도 18의 마이크로폰(161)에서 집음된 음성신호는 앰프(162)에서 증폭되고, A/D(아날로그/디지탈) 변환기(163)에 의해 디지탈신호로 변환되어서, 도 1, 도 3에 나타낸 것같은 구성을 가지는 음성부호화부(160)에 보내진다. 이 입력단자(101)에 상기 A/D변환기(163)에서의 디지탈신호가 입력된다. 음성부호화부(160)에서는 상기 도 1, 도 3과 함께 설명한 것같은 부호화처리가 행해진다. 도 1, 도 2의 각 출력단자에서의 출력신호는 음성부호화부(160)의 출력신호로서 전송로부호화부(164)에 보내져서 공급된 신호의 채널코딩처리가 실시된다. 전송로부호화부(164)의 출력신호가 변조회로(165)에 보내져 변조되고, D/A(디지탈/아날로그)변환부(166), RF앰프(167)를 거쳐서 안테나(168)에 보내진다.
도 19는 상기 도 2, 도 4에 나타낸 것같은 구성을 가지는 음성복호화부(260)를 이용하여 이루는 휴대단말의 수신측 구성을 나타내고 있다. 이 도 19의 안테나(261)에서 수신된 음성신호는 RF앰프(262)에서 증폭되고, A/D(아날로그/디지탈) 변환기(263)를 거쳐서 복조회로(264)에 보내지고, 복조신호가 전송로복호화부(265)에 보내진다. 복호부(265)의 출력신호는 상기 도2, 도 4에 나타낸 것같은 구성을 가지는 음성복호화부(260)에 보내진다. 음성복호화부(260)는 상기 도2, 도 4와 함께 설명한 바와 같이 신호를 복호화처리한다. 도 2, 도 4의 출력단자(201)에서의 출력신호가 음성복호화부(260)에서의 신호로서 D/A(디지탈/아날로그) 변환기(266)에 보내진다. 이 D/A변환기(266)에서의 아날로그 음성신호가 스피커(268)에 보내진다.
본 발명은 상기 실시의 형태에만 한정되는 것은 아니고, 예를 들면 상기 도 1, 도 3의 음성분석측(인코드측)의 구성이나, 도 2, 도 4의 음성합성측(디코드측)의 구성에 대하여는 각부를 하드웨어적으로 기재하고 있지만, 디지탈신호 프로세서(DSP) 등을 이용하여 소프트웨어 프로그램에 의해 실현하는 것도 가능하다. 또, 복호기측의 합성필터(236, 237)이나 포스트필터(238v, 238u)는 도 4와 같이 유성음용과 무성음용으로 분리되지 않고 유성음 및 무성음의 공용의 LPC합성필터 또는 포스트필터를 이용하도록 하여도 좋다. 다시, 본 발명의 적용범위는 전송이나 기록 및/또는 재생에 한정되지 않고, 피치나 스피드변환, 규칙음성합성, 혹은 잡음억압과 같은 여러 가지의 용도에 응용할수 있는 것은 물론이다.
이상 설명한 바와 같이, 본 발명의 음성부호화방법, 음성복호화방법 및 장치에 의하면, 엔코더측에서 입력음성신호의 피치강도를 검출하고, 그 피치강도에 따른 피치강도보정을 복호기측에 송신하고, 복호기측에서는 그 피치강도정보에 따라서 노이즈부가의 정도가감을 가변으로 함으로서 유성음부분의 재생음성이 웅웅거리는 음성으로 되지않고, 자연스러운 재생음성을 얻을수 있다.

Claims (12)

  1. 입력음성신호의 사인파분석부호화를 행하는 음성부호화방법에 있어서,
    상기 입력음성이 유성음인지 무성음인지 판정하는 공정과,
    상기 판정결과에 의거하여 상기 입력음성신호의 유성음부분의 전대역에 있어서의 피치강도를 검출하는 공정과,
    검출된 피치강도에 대응하는 파라미터인 피치강도정보를 출력하는 공정을 포함하여 구성되어 있는 것을 특징으로 하는 음성부호화방법.
  2. 제 1항에 있어서,
    상기 입력음성신호의 유성음 혹은 무성음의 판별결과에 의거하여 사인파분석부호화에 의해 부호화된 부호화음성신호와 함께 상기 검출된 피치강도정보가 상기 입력음성신호의 유성음부분에 대하여 출력되고,
    상기 입력음성신호의 무성음부분에 대하여 부호여기선형예측부호화에 의해 부호화된 음성신호가 출력되는 것을 특징으로 하는 음성부호화방법.
  3. 제 1항에 있어서,
    입력음성신호의 유성음/무성음 판별결과에 의거하여 유성음으로 판단된 부분에 대하여만 피치강도판별을 행하는 것을 특징으로 하는 음성부호화방법.
  4. 입력음성신호의 사인파분석부호화를 행하는 음성부호화장치에 있어서,
    상기 입력음성이 유성음인지 무성음인지 판정하는 수단과,
    상기 판정결과에 의거하여 상기 입력음성신호의 유성음부분의 전대역에 있어서의 피치강도를 검출하는 수단과,
    검출된 피치강도에 대응하는 파라미터인 피치강도정보를 출력하는 수단을 포함하여 구성되어 있는 것을 특징으로 하는 음성부호화방법.
  5. 입력음성신호에 대하여 사인파분석부호화를 실시하여 얻은 부호화음성신호를 복호화하는 음성복호화방법에 있어서,
    상기 입력음성이 유성음인지 무성음인지 판별하는 공정과,
    상기 판별에 의거하여 입력음성신호의 유성음부분의 전대역에 있어서의 피치강도의 파라미터인 피치강도정보에 의거하여 노이즈성분을 사인파합성파형에 부가하는 공정을 포함하여 구성되어 있는 것을 특징으로 하는 음성부호화방법.
  6. 제 5항에 있어서,
    상기 사인파합성파형에 부가되는 노이즈성분의 레벨은 상기 피치강도정보에 의거하여 제어되는 것을 특징으로 하는 음성복호화방법.
  7. 제 5항에 있어서,
    상기 사인파합성파형에 부가되는 노이즈성분의 대역폭은 상기 피치강도정보에 의거하여 제어되는 것을 특징으로 하는 음성복호화방법.
  8. 제 5항에 있어서,
    상기 사인파합성파형에 부가되는 노이즈성분의 레벨과 대역폭이 상기 피치강도정보에 의거하여 제어되는 것을 특징으로 하는 음성복호화방법.
  9. 제 5항에 있어서,
    상기 사인파합성파형에 부가되는 노이즈성분의 레벨에 따라서, 상기 사인파합성되는 유성음에 대하여 하모닉스진폭이 제어되는 것을 특징으로 하는 음성복호화방법.
  10. 제 5항에 있어서,
    상기 부호화음성신호의 무성음부분에 대하여 부호선형여기예측복호화방법에 의한 음성복호화가 실시되는 것을 특징으로 하는 음성복호화방법.
  11. 제 5항에 있어서,
    상기 부호화음성신호의 유성음으로 판단된 부분에 대하여 상기 사인파합성복호화를 행하고, 상기 입력음성신호의 무성음으로 판단되는 부분에 대하여 부호여기선형예측복호화를 행하는 것을 특징으로 하는 음성복호화방법
  12. 입력음성신호에 대하여 사인파분석부호화를 실시하여 얻어진 부호화음성신호를 복호화하는 음성복호화장치에 있어서,
    사인파합성파형에 부가되는 노이즈성분의 레벨과 대역폭을 상기 피치강도정도에 의거하여 제어하는 수단과,
    유성음/무성음 판별결과에 의거하여 상기 입력음성신호의 유성음으로 판단된 부분에 대하여 상기 사인파합성복호화를 행하는 수단과,
    상기 입력음성신호의 무성음으로 판단된 부분에 대하여 부호여기선형예측복호화를 행하는 수단을 포함하여 구성되어 있는 것을 특징으로 하는 복호화장치.
KR1019970047832A 1996-09-20 1997-09-19 음성부호화방법및장치음성복호화방법및장치 KR100526829B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP25066396A JP4040126B2 (ja) 1996-09-20 1996-09-20 音声復号化方法および装置
JP96-250663 1996-09-20

Publications (2)

Publication Number Publication Date
KR19980024790A true KR19980024790A (ko) 1998-07-06
KR100526829B1 KR100526829B1 (ko) 2006-01-27

Family

ID=17211203

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970047832A KR100526829B1 (ko) 1996-09-20 1997-09-19 음성부호화방법및장치음성복호화방법및장치

Country Status (4)

Country Link
US (1) US6047253A (ko)
JP (1) JP4040126B2 (ko)
KR (1) KR100526829B1 (ko)
ID (1) ID18305A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100640865B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 품질 향상 방법 및 장치
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
KR100794140B1 (ko) * 2006-06-30 2008-01-10 주식회사 케이티 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
US8554552B2 (en) 2008-10-31 2013-10-08 Samsung Electronics Co., Ltd. Apparatus and method for restoring voice

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
JP4063508B2 (ja) * 2001-07-04 2008-03-19 日本電気株式会社 ビットレート変換装置およびビットレート変換方法
US6985857B2 (en) * 2001-09-27 2006-01-10 Motorola, Inc. Method and apparatus for speech coding using training and quantizing
TW564400B (en) * 2001-12-25 2003-12-01 Univ Nat Cheng Kung Speech coding/decoding method and speech coder/decoder
JP2003280691A (ja) 2002-03-19 2003-10-02 Sanyo Electric Co Ltd 音声処理方法および音声処理装置
KR101016978B1 (ko) * 2002-09-17 2011-02-25 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템
US8086448B1 (en) * 2003-06-24 2011-12-27 Creative Technology Ltd Dynamic modification of a high-order perceptual attribute of an audio signal
JP4380669B2 (ja) * 2006-08-07 2009-12-09 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
US8726125B1 (en) * 2007-06-06 2014-05-13 Nvidia Corporation Reducing interpolation error
US8725504B1 (en) 2007-06-06 2014-05-13 Nvidia Corporation Inverse quantization in audio decoding
US8934539B2 (en) * 2007-12-03 2015-01-13 Nvidia Corporation Vector processor acceleration for media quantization
US8798992B2 (en) * 2010-05-19 2014-08-05 Disney Enterprises, Inc. Audio noise modification for event broadcasting
WO2013019562A2 (en) * 2011-07-29 2013-02-07 Dts Llc. Adaptive voice intelligibility processor
JP6561499B2 (ja) * 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4890328A (en) * 1985-08-28 1989-12-26 American Telephone And Telegraph Company Voice synthesis utilizing multi-level filter excitation
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
US5138661A (en) * 1990-11-13 1992-08-11 General Electric Company Linear predictive codeword excited speech synthesizer
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JPH0612098A (ja) * 1992-03-16 1994-01-21 Sanyo Electric Co Ltd 音声符号化装置
JP3475446B2 (ja) * 1993-07-27 2003-12-08 ソニー株式会社 符号化方法
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
KR0155798B1 (ko) * 1995-01-27 1998-12-15 김광호 음성신호 부호화 및 복호화 방법
JP3653826B2 (ja) * 1995-10-26 2005-06-02 ソニー株式会社 音声復号化方法及び装置
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
JP4005154B2 (ja) * 1995-10-26 2007-11-07 ソニー株式会社 音声復号化方法及び装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100640865B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 품질 향상 방법 및 장치
US7590524B2 (en) 2004-09-07 2009-09-15 Lg Electronics Inc. Method of filtering speech signals to enhance quality of speech and apparatus thereof
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US7778825B2 (en) 2005-08-01 2010-08-17 Samsung Electronics Co., Ltd Method and apparatus for extracting voiced/unvoiced classification information using harmonic component of voice signal
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
US7860708B2 (en) 2006-04-11 2010-12-28 Samsung Electronics Co., Ltd Apparatus and method for extracting pitch information from speech signal
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
KR100794140B1 (ko) * 2006-06-30 2008-01-10 주식회사 케이티 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법
US8554552B2 (en) 2008-10-31 2013-10-08 Samsung Electronics Co., Ltd. Apparatus and method for restoring voice

Also Published As

Publication number Publication date
JP4040126B2 (ja) 2008-01-30
KR100526829B1 (ko) 2006-01-27
US6047253A (en) 2000-04-04
ID18305A (id) 1998-03-26
JPH1097296A (ja) 1998-04-14

Similar Documents

Publication Publication Date Title
KR100526829B1 (ko) 음성부호화방법및장치음성복호화방법및장치
JP3653826B2 (ja) 音声復号化方法及び装置
KR100487136B1 (ko) 음성복호화방법및장치
EP0770987B1 (en) Method and apparatus for reproducing speech signals, method and apparatus for decoding the speech, method and apparatus for synthesizing the speech and portable radio terminal apparatus
EP0837453B1 (en) Speech analysis method and speech encoding method and apparatus
KR100427754B1 (ko) 음성부호화방법및장치와음성복호화방법및장치
KR100452955B1 (ko) 음성부호화방법, 음성복호화방법, 음성부호화장치, 음성복호화장치, 전화장치, 피치변환방법 및 매체
KR100767456B1 (ko) 음성부호화장치 및 방법, 입력신호 판정방법,음성복호장치 및 방법 및 프로그램 제공매체
KR100538987B1 (ko) 음성부호화방법및장치,피치검출방법
EP0843302B1 (en) Voice coder using sinusoidal analysis and pitch control
US6012023A (en) Pitch detection method and apparatus uses voiced/unvoiced decision in a frame other than the current frame of a speech signal
JP3785363B2 (ja) 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
JP3468862B2 (ja) 音声符号化装置
KR100421816B1 (ko) 음성복호화방법 및 휴대용 단말장치
JP3896654B2 (ja) 音声信号区間検出方法及び装置
EP1164577A2 (en) Method and apparatus for reproducing speech signals

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121022

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20131018

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20141024

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee