KR100538987B1 - 음성부호화방법및장치,피치검출방법 - Google Patents

음성부호화방법및장치,피치검출방법 Download PDF

Info

Publication number
KR100538987B1
KR100538987B1 KR1019970048768A KR19970048768A KR100538987B1 KR 100538987 B1 KR100538987 B1 KR 100538987B1 KR 1019970048768 A KR1019970048768 A KR 1019970048768A KR 19970048768 A KR19970048768 A KR 19970048768A KR 100538987 B1 KR100538987 B1 KR 100538987B1
Authority
KR
South Korea
Prior art keywords
pitch
high reliability
encoding
pitch information
information
Prior art date
Application number
KR1019970048768A
Other languages
English (en)
Other versions
KR19980024970A (ko
Inventor
가즈유끼 이이지마
마사유끼 니시구찌
준 마쯔모또
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR19980024970A publication Critical patent/KR19980024970A/ko
Application granted granted Critical
Publication of KR100538987B1 publication Critical patent/KR100538987B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

검출하기 위한 피치보다도 반(half) 피치 또는 2배피치가 더 강한 자기상관을 나타내는 음성신호에 대해서도 고정밀의 피치검출을 행할 수 있는 피치검출 방법 및 장치에 관한 것이다. 입력 음성신호는 그것이 유성음인지 무성음인지에 대해 판별되고, 입력 음성신호의 유성음부와 무성음부는 각각 사인파 분석 부호화부(114)와 부호여기 부호화부(120)에 의해 부호화되어, 각 부호화출력을 생성한다. 사인파 분석 부호화부(114)는 부호화출력에 대해 피치탐색을 실시하여 입력 음성신호로부터 피치정보를 구하하고, 검출된 피치정보에 기초하여 고신뢰성 피치정보를 설정한다. 피치검출의 결과는 소위 고신뢰성 피치정보에 기초하여 결정된다. 본 발명은 상기의 피치검출 방법을 이용하는 음성 부호화 방법 및 음성 부호화 장치도 또한 제공한다.

Description

음성 부호화 방법 및 장치, 피치검출방법
본 발명은, 입력 음성신호를 시간축 상에서 부호화단위로써 소정의 블록 단위로 분할하며, 그 부호화 단위에 기초하여 부호화하는 음성 부호화 방법 및 장치에 관한 것이다. 본 발명은 또한, 상기 음성 부호화방법 및 장치를 이용하는 피치검출 방법에 관한 것이다.
이제까지는, 음성신호와 음향신호를 포함하는 오디오신호의 시간영역 및 주파수영역에서의 통계적 성질과 인간의 청감상의 특성을 이용하여 신호압축을 행하는 부호화 방법이 다양하게 알려져 있다. 이러한 부호화 방법은, 시간영역에서의 부호화와, 주파수영역에서의 부호화 및 분석-합성 부호화로 크게 분류된다.
음성신호의 고효율 부호화의 기술 중에는, 하모닉(harmonic) 부호화 또는 멀티-밴드 여기(MBE: Multi-Band Excitation) 부호화 등과 같은 사인파 분석 부호화와, 서브-밴드 부호화(SBC: Sub-Band Coding)와, 선형 예측 부호화(LPC: Linear Predictive Coding)와, 이산 코사인 변환(DCT: Discrete Cosine Transform)과, 변형된 DCT(MDCT: Modified DCT) 및 고속 푸리에변환(FFT: Fast Fourier Transform)이 있다.
한편, 입력 음성신호의 피치를 파라미터로써 이용하는 여기신호를 생성하는 사인파 합성부호화에서, 피치검출이 중요한 역할을 한다. 종래의 음성신호 부호화 회로에 이용되는 자기상관방법을 이용하며, 샘플의 이동량을 1샘플 이하로 하는 프랙셔널 탐색(fractional search)을 가함으로써 피치검출 정밀도를 개선하게 되는 피치검출 방법에서는, 음성신호 내에 반 피치(half-pitch)나 2배피치(double pitch)가 검출되기 희망하는 피치보다 강한 상관관계를 나타내는 경우에, 피치검출은 실패하게 된다.
그러므로, 본 발명의 목적은, 음성신호에서 반 피치나 2배 피치가 검출되기 희망하는 피치보다 강한 상관관계를 갖게 되는 음성신호에 대해서 피치를 바르게 검출할 수 있는 피치검츨방법을 제공하는 것이다.
본 발명의 다른 목적은, 상기 설명된 피치검출 방법을 이용함으로써 이질적인 잡음(extraneous noise)이 전혀 없는 매우 명료하고 자연스런 재생음을 생성할 수 있는 음성신호 부호화방법 및 장치를 제공하는 것이다.
본 발명은, 입력 음성신호를 소정 부호화단위로 시간축 상에서 분할하여 부호화 단위 마다의 음성신호의 기본 주기에 대응하는 피치를 검출하는 피치 검출방법을 제공한다. 이 피치검출 방법은, 소정 피치검출조건에서 피치정보를 검출하는 피치탐색단계와, 검출된 피치정보와 입력 음성신호의 음성레벨과 입력 음성신호의 자기상관 피크값에 기초해서 피치검출조건에서 보다 피치일 가능성이 높을 경우 참이 되는 조건을 만족시키는 고신뢰성 피치정보를 설정하는 단계와, 설정된 고신뢰성 피치정보에 기초해서 피치를 검출하는 단계를 포함한다.
본 발명에 따른 피치검출 방법에 의하면, 반-피치나 2배 피치를 잘못 검출하지 않고 고정밀도의 피치검출을 행할 수 있게 된다.
본 발명은, 입력 음성신호를 시간축 상에서 소정 부호화단위로 분할하여, 그 부호화 단위로 부호화하는 음성신호 부호화방법 및 장치를 제공한다. 상기 부호화방법 및 장치는, 상기 규정된 피치검출 방법에 의해 피치를 검출하여 입력 음성신호의 단기 예측 잔차를 구하는 예측부호화와, 구해진 단기 예측 잔차에 대해서 사인파 분석 부호화를 실시하는 사인파 분석 부호화와, 입력 음성신호에 대하여 파형분석 부호화를 행하는 파형분석 부호화와, 입력 음성신호에 대해서 유성음/무성음을 판정하는 판정을 포함한다.
본 발명에 따른 상기 음성 부호화 방법 및 장치에 의하면, 음성신호 중의 반-피치나 2배 피치의 오검출(誤檢出)없이 피치검출을 행할 수 있으며, 따라서 예를들어 p, k 및 t와 같은 파열음이나 마찰음을 명료하게 재생할 수 있는 한편, 유성음부와 무성음부 사이의 전이부에 있는 이질적인 음성(extraneous sound)은 생성되지 않게 되며, 따라서 윙윙거림이 없는 명료하고 자연스런 음성을 재생할 수 있게 된다.
이하에는 도면을 참고하여 본 발명의 바람직한 실시예에 대해서 상세하게 설명한다.
도 1은 본 발명을 구체화하는 피치검출 방법 및 음성신호 부호화방법을 실시하는 부호화장치의 기본 구성을 나타내고 있다.
도 1의 음성신호 부호화장치의 기초가 되는 기본개념에 의하면, 부호화 장치는 입력 음성신호의 선형예측부호화(LPC)잔차와 같은 단기 예측 잔차를 구하여 하모닉 코딩(harmonic coding)과 같은 사인파 분석 부호화를 행하는 제 1부호화부(110)와, 위상재생가능성이 있는 파형부호화에 의해 입력 음성신호를 부호화하는 제 2부호화부(120)를 갖추어 구성되며, 제 1부호화부(110)와 제 2부호화부(120)가 입력신호의 유성음(V)의 부호화와 입력신호의 무성음(UV)의 부분의 부호화에 각각 이용된다.
제 1부호화부(110)는 예를 들면 LPC잔차를 하모닉부호화나 멀티밴드여기(MBE)부호화와 같은 사인파 분석 부호화를 행하는 구성을 이용한다. 제 2부호화부(120)는 예를 들면 합성에 의한 분석법을 이용하고, 폐루프탐색에 의한 최적벡터의 폐루프(closed-loop) 탐색에 의한 벡터양자화를 이용한 부호여기선형예측(CELP)을 실행하는 구성을 이용한다.
도 1의 실시예에서는, 입력단자(101)에 공급된 음성신호가 제 1부호화부(110)의 LPC역필터(111) 및 LPC분석 및 양자화부(113)에 보내진다. LPC분석 양자화부(113)에서 얻어진 LPC계수 혹은 소위 α-파라미터는 제 1부호화부(110)의 LPC역필터(111)에 보내진다. LPC역필터(111)로부터 입력 음성신호의 선형예측잔차(LPC잔차)가 구해진다. LPC분석 양자화부(113)로부터 선스펙트럼쌍(LSP)의 양자화출력이 구해져서 후술하는 바와 같이 출력단자(102)에 보내진다. LPC역필터(111)로부터의 LPC잔차는 사인파 분석 부호화부(114)에 보내진다.
사인파 분석 부호화부(114)는 피치검출 및 스펙트럼 엔벌로프의 진폭계산을 행하는 한편, V/UV판정을 행한다. 사인파 분석 부호화부(114)로부터의 스펙트럼 엔벌로프 진폭데이터는 벡터양자화부(116)에 보내진다. 벡터양자화부(116)로부터의 코드북 인덱스는 스펙트럼 엔벌로프의 벡터양자화 출력으로써, 스위치(117)를 거쳐서 출력단자(103)에 보내지며, 반면 사인파 분석 부호화부(114)의 출력은 스위치(118)를 거쳐서 출력단자(104)에 보내진다. V/UV판정부(115)에서의 V/UV판정출력은 출력단자(105)에 보내지고, 스위치(117, 118)에 제어신호로서 보내진다. 입력 음성신호가 유성음(V)이면, 인덱스 및 피치가 선택되어 출력단자(103, 104)에서 각각 얻어진다.
도 1의 제 2부호화부(120)는 본 실시예에서 부호여기 선형예측부호화(CELP부호화)구성을 가지며, 잡음코드북(121)의 출력이 가중합성필터(122)에 의해 합성처리되고, 결과의 가중음성이 감산기(123)에 보내지고, 입력단자(101)에 공급된 후 청각가중필터(125)를 통하여 얻어진 음성신호와 가중 음성 사이의 오차가 구해지고, 이렇게 얻어진 오차가 거리계산회로(124)에 보내져서 거리계산을 행하고, 오차를 최소화하는 벡터를 잡음코드북(121)에 의해 탐색하게 되는 합성에 의한 분석법을 이용하는 폐루프탐색를 이용한 시간축파형을 벡터양자화한다. 이러한 CELP부호화는 상술한 바와 같이 무성음부분의 부호화에 이용된다. 코드북 인덱스는, 잡음코드북(121)에서의 UV데이터로서 V/UV판정부(115)에서의 V/UV판정의 결과가 무성음(UV)을 나타내는 때 온으로 되는 스위치(127)를 통하여 출력단자(107)에서 얻어진다.
도 2는 본 발명에 따르는 음성 복호화법을 실시하기 위한 음성 복호화장치의 기본 구조를 도 1의 음성신호 부호화장치에 대응 장치로서 나타내는 블록도이다.
도 2에 도시된 바와같이, 입력단자(202)에는 상기 도 1의 출력단자(102)에서의 선형스펙트럼쌍(LSP)의 양자화출력으로서의 코드북 인덱스가 입력된다. 입력단자(203, 204 및 205)에는 도 1의 출력단자(103, 104 및 105)에서의 출력, 즉 엔벌로프 양자화출력으로서의 인덱스, 피치 및 V/UV판정결과가 각각 입력된다. 입력단자(207)에는 출력단자(107)로부터의 무성음(UV)용 데이터로써의 인덱스가 입력된다.
입력단자(203)에서의 엔벌로프 양자화출력으로서의 인덱스는 역벡터양자화부(212)에 보내져 역벡터양자화되고, LPC잔차의 스펙트럼 엔벌로프가 구해지고 그것이 유성음합성부(211)에 보내진다. 유성음합성부(211)는 사인파합성에 의해 유성음부분의 선형예측부호화(LPC)잔차를 합성한다. 유성음합성부(211)에는 입력단자(204 및 205)에서의 피치 및 V/UV판정결과가 공급된다. 유성음합성부(211)로부터의 유성음의 LPC잔차는 LPC합성필터(214)에 보내진다. 입력단자(207)로부터의 UV데이터의 인덱스 데이터는 무성음합성부(220)에 보내져서 잡음코드북을 참조함으로써 무성음부분의 LPC잔차가 얻어진다. 이 LPC 잔차도 LPC합성필터(214)에 보내진다. LPC합성필터(214)에서는 상기 유성음부분의 LPC잔차와 무성음부분의 LPC잔차가 LPC합성에 의해 독립적으로 처리된다. 또는 유성음부분의 LPC잔차와 무성음부분의 LPC잔차가 서로 가산되어 LPC합성처리될 수 있다. 입력단자(202)로부터의 LSP 인덱스 데이터는 LPC파라미터 재생부(213)에 보내지고, 여기서 LPC의 α-파라미터가 구해져서 LPC합성필터(214)에 보내진다. LPC합성필터(214)에 의해 합성된 음성신호는 출력단자(201)에서 얻어진다.
상기 도 1에 나타낸 음성 부호화 장치의 보다 구체적인 구성에 대하여 도 3을 참조하면서 설명한다. 도 3에 있어서, 상기 도 1의 각부와 대응하는 부분에는 동일한 도면부호를 붙이고 있다.
도 3에 나타낸 음성 부호화 장치에 있어서, 입력단자(101)에 공급된 음성신호는 하이패스필터(HPF)(109)에 의해 불필요한 대역의 신호를 제거하는 필터링처리가 실시된 후, LPC(linear prediction encoding)분석/양자화부(113)의 LPC분석회로(132)와 LPC역필터회로(111)에 보내진다.
LPC분석/양자화부(113)의 LPC분석회로(132)는 입력신호파형의 256샘플정도의 길이를 1 블록으로서 해밍창(Hamming window)을 적용하여, 자기상관법에 의해 선형예측계수, 즉 소위 α-파라미터를 구한다. 데이터출력의 단위로서 플레임의 간격은 160샘플정도가 된다. 샘플링주파수(fs)가 예를 들어 8kHz이면, 1프레임간격은 20msec 또는 160샘플이 된다.
LPC분석회로(132)로부터의 α-파라미터는 α→LSP변환회로(133)에 보내지고, 선스펙트럼쌍(LSP)파라미터로 변환된다. 이것은 직접형의 필터계수로서 구해진 α파라미터를 예를 들면 10개, 즉 5쌍의 LSP파라미터로 변환한다. 이 변환은 예를 들면 뉴튼랩슨법(Newton-Rhapson method)을 이용하여 행해진다. α파라미터가 LSP파라미터로 변환되는 이유는 LSP파라미터가 α파라미터보다도 보간특성이 우수하기 때문이다.
α→LSP변환회로(133)로부터의 LSP파라미터는 LSP양자화부(134)에 의해 매트릭스 혹은 벡터양자화된다. 이때, 프레임간 차분을 취하므로 벡터양자화할 수 있고, 또는 다수 프레임을 모아서 매트릭스 양자화할 수도 있다. 여기에서는 20msec이고, 20msec 마다 산출되는 LSP파라미터의 프레임 2개를 모아서 매트릭스양자화 및 벡터양자화한다.
LSP양자화부(134)의 양자화출력, 즉 LSP양자화의 인덱스 데이터는 단자(102)에서 얻어지고, 또 양자화된 LSP벡터는 LSP보간회로(136)에 보내진다.
LSP보간회로(136)는 20msec 혹은 40msec 마다 양자화된 LSP의 벡터를 보간하여, 8배의 비율을 제공한다. 즉, 2.5msec마다 LSP벡터가 갱신된다. 그 이유는 잔차파형이 하모닉 부호화/복호화방법에 의해 분석합성처리되면, 합성파형의 엔벌로프가 대단히 완만한 파형으로 되기 때문에 LPC계수가 20msec마다 급격히 변화하면 이질적인 잡음이 발생하기 때문이다. 즉, 2.5msec마다 LPC계수가 서서히 변화하면, 이와 같은 이질적인 잡음의 발생을 방지할 수 있다.
2.5msec마다 생성되는 보간된 LSP벡터를 이용하여 입력음성의 역필터링을 실행하기 위하여, LSP→α변환회로(137)에 의해 LSP파라미터는 예를 들면 10차 직접형 필터의 필터계수인 α파라미터로 변환한다. LSP→α변환회로(137)의 출력은 LPC역필터회로(111)에 보내지고, 2.5msec마다 갱신되는 α파라미터를 사용하여 역필터링처리를 행하여 완만한 출력을 얻는다. LPC역필터(111)의 출력은 하모닉 부호화회로와 같은 사인파 분석 부호화부(114)의 DCT회로와 같은 직교변환회로(145)에 보내진다.
LPC분석/양자화부(113)의 LPC분석회로(132)에서의 α파라미터는 청각가중필터 산출회로(139)에 보내지고 여기서 청각가중을 위한 데이터가 구해진다. 이들 가중데이터가 청각가중 벡터양자화부(116)와 제 2부호화부(120)의 청각가중필터(125) 및 청각가중의 합성필터(122)에 보내진다.
하모닉부호화회로의 사인파 분석 부호화부(114)는 LPC역필터(111)의 출력을 하모닉부호화 방법으로 분석한다. 즉, 피치검출, 각 하모닉스의 진폭(Am)의 산출, 유성음(V)/무성음(UV)의 판별이 행해지고, 피치에 의해 변화하는 각 하모닉스의 엔벌로프 혹은 진폭(Am)의 개수가 차원변환되어 일정하게 된다.
도 3에 나타내는 사인파 분석 부호화부(114)의 구체예에 있어서는 일반의 하모닉부호화가 사용된다. 특히, 멀티밴드여기(MBE)부호화에서 동시각(동일블록 혹은 1프레임내)의 각각의 주파수영역 혹은 대역마다 유성음부분과 무성음부분이 존재한다는 가정으로 모델화하게 된다. 그 이외의 하모닉부호화기술에서는 1블록 혹은 프레임 내의 음성이 유성음인지 무성음인지의 택일적인 판별이 이루어지게 된다. 이하의 설명에서 MBE부호화가 관련된 한에 있어서는 모든 대역이 UV이면 주어진 프레임을 UV로 판단하고 있다. 상술한 바와 같은 MBE의 분석합성방법의 기술의 구체적인 예에 대하여는 본 출원인의 이름으로 출원한 일본특허 출원번호 4-91442에서 얻을 수 있다.
도 3의 사인파 분석 부호화부(114)의 개루프(open-loop) 피치탐색부(141)와 영교차카운터(142)에는 입력단자(101)로부터의 입력 음성신호와 하이패스필터(HPF)(109)로부터의 신호가 각각 공급된다. 사인파 분석 부호화부(114)의 직교변환회로(145)에는 LPC역필터(111)로부터의 LPC잔차 혹은 선형예측잔차가 공급된다.
개루프 피치탐색부(141)는 입력신호의 LPC잔차를 취해서 1.0스텝의 개루프 피치탐색을 행한다. 추출된 개략 피치데이터는 후술하는 바와같은 폐루프탐색에 의한 고정밀도 피치탐색부(146)에 보내진다. 개루프 피치탐색부(141)는 후술되는 바와같이 폐루프에 의해 0.25스텝의 고정밀도 피치탐색을 행한다.
개루프 피치탐색부(141)는 추출된 개략 피치정보에 기초해서 고신뢰성 피치정보를 설정한다. 우선, 고신뢰성 피치정보의 후보값은 개략 피치정보용 조건 보다 더욱 엄격한 조건으로 설정되며, 개략 피치정보와 비교하여 부적절한 후보값을 갱신하거나 버린다. 고신뢰성 피치정보를 설정하거나 갱신하는 것에 대해서는 이하에 설명할 것이다.
개루프 피치탐색부(141)로부터는, 상기 설명된 개략 피치정보 및 고정밀 피치정보와 함께, LPC잔차의 자기상관피크의 최대값을 파워에서 정규화할 때 얻어지는 정규화 자기상관값의 최대값 r'(1)이 취출된다. 이렇게 취출된 최대값r'(1)은 유성음/무성음 판정부(115)에 보내진다.
후술될 V/UV판정부(115)의 판정출력도 상기 설명된 개루프 탐색을 위한 파라미터로써 이용될 수 있다. 유성음(V)으로 판정된 음성신호부분에서 추출되는 피치정보만이 상기 설명된 개루프 탐색에 이용된다.
직교변환회로(145)는 이산 푸리에변환(DFT) 등과 같은 직교변환처리를 행하여, 시간축상의 LPC잔차를 주파수축상의 스펙트럼 진폭데이터로 변환한다. 직교변환회로(145)의 출력은 고정밀 피치 탐색부(146) 및 스펙트럼진폭이나 엔벌로프를 평가하기 위한 스펙트럼 평가부(148)에 보내진다.
고정밀 피치 탐색부(146)에는 개루프 피치탐색부(141)에 의해 추출된 비교적 러프(rough)한 개략 피치데이터와 직교변환부(145)에 의한 DFT에 의해 구해진 주파수 영역 데이터가 공급된다. 고정밀 피치 탐색부(146)는 피치데이터를 개략 피치값 데이터를 중심으로 0.2 내지 0.5의 레이트로 ±수샘플씩 진동하여, 최종적으로 최적의 소수점(플로팅포인트(floating point))이 있는 고정밀 피치데이터 값에 도달하게 된다. 합성에 의한 분석법을 고정밀의 탐색기술로써 이용하여, 파워스펙트럼이 원음의 파워스펙트럼에 가장 근접하게 되는 피치를 선택하게 된다. 폐루프 고정밀 피치 탐색부(146)로부터의 피치데이터는 스펙트럼 평가부(148)에 보내지는 한편 스위치(118)를 거쳐 출력단자(104)에 보내진다.
스펙트럼 평가부(148)에서는, LPC잔차의 직교변환출력으로써의 스펙트럼진폭과 피치에 기초해서, 각 하모닉스의 진폭과 하모닉스의 집합으로써의 스펙트럼 엔벌로프가 평가되고, 그것이 고정밀 피치 탐색부(146)과, V/UV판정부(115) 및 청각가중 벡터양자화부(116)에 보내진다.
V/UV판정부(115)는, 직교변환회로(145)의 출력과, 고정밀 피치 탐색부(146)로부터의 최적피치와, 스펙트럼 평가부(9148)로부터의 스펙트럼 진폭데이터와, 개루프 피치탐색부(141)로부터의 규격화 자기상관 최대값 r'(1)과, 영교차 카운터(142)로부터의 영교차 카운터값에 기초해서 프레임의 V/UV판정을 실시한다. 또한, MBE 경우의 대역에 기초한의 V/UV판정의 경계위치도 V/UV판정의 조건으로써 이용될 수 있다. V/UV판정부(115)의 V/UV판정출력은 출력단자(105)에서 취출된다.
스펙트럼 평가부(148)의 출력부와 벡터양자화부(116)의 입력부에는, 데이터수 변환부(일종의 샘플링 레이트 변환을 수행하는 장치)가 설치된다. 데이터수 변환부는, 상기 피치에 대해서 주파수축상에서의 분할대역수가 다르고 데이터수가 다르다는 것을 고려해서, 엔벌로프의 진폭데이터|Am|를 소정의 일정값으로 설정하는데 이용된다. 즉, 유효대역이 3400kHz까지라면, 유효대역은 8개 대역∼63개 대역으로 분할될 수 있다. 대역마다에서 얻어지는 상기 진폭데이터|Am|의 개수 mMX+1는 8∼63의 범위에서 변경된다. 따라서, 데이터수 변환부(119)는 그 가변개수 mMX+1의 진폭데이터를 일정 개수 M개의 데이터, 즉 44개의 데이터로 변환한다.
스펙트럼 평가부(148)의 출력부 또는 벡터양자화부(116)의 입력부에 설치된 데이터수 변환부로부터의 소정개수 M, 즉 44개의 진폭데이터 또는 엔벌로프 데이터는, 벡터양자화부(116)에 의해, 소정 개수의 데이터, 예를들어 44개의 데이터마다 단위로서 모여서 가중벡터양자화처리된다. 이 가중은 청각가중필터 계산회로(139)의 출력에 의해 공급된다. 벡터양자화부(116)로부터의 엔벌로프의 인덱스는 스위치(117)를 거쳐 출력단자(103)에서 취출된다. 가중벡터양자화에 앞서, 소정 수의 데이터로 이루어진 벡터에 대해 적절한 리크계수를 이용한 프레임간 차분을 취하는 것이 좋다.
제 2부호화부(120)에 대해서 설명한다. 제 2부호화부(120)는 부호여기 선형예측(CELP)부호화 구성을 가지며, 특히 입력 음성신호의 무성음부를 부호화하는데 이용된다. 무성음부분용의 CELP부호화 구성에서, 잡음코드북, 즉 소위 스터캐스틱(stochastic) 코드북(121)으로부터의 대표값 출력으로써 무성음성부분의 LPC잔차에 대응하는 잡음출력은 이득회로(126)을 거쳐서 청각가중 합성필터(122)에 보내진다. 청각가중 합성필터(122)는 입력잡음을 LPC-합성하여, 결과의 가중 무성음 신호를 감산기(123)에 보낸다. 감산기(123)에는, 상기 입력단자(101)로부터 하이패스필터(HPF)(109)를 거쳐 공급된 후 청각가중필터(125)에 의해 청각가중된 음성신호가 공급되며, 감산기(123)에서는 합성필터(122)에서의 신호와 상기 청각가중 음성신호와의 차분 또는 오차를 구한다. 한편, 청각가중필터(125)의 출력에서 청각가중 합성필터의 영입력 대답을 사전에 감산한다. 이 오차는 거리계산회로(124)에 보내서 거리를 계산하고, 잡음 코드북(121)에 의해 오차를 최소화하는 대표값 벡터를 탐색한다. 상기 설명은 합성에 의한 분석법을 이용한 폐루프 탐색에 의해 시간영역파형의 벡터양자화를 행하는 것을 요약한 것이다.
CELP부호화 구성을 이용한 제 2부호화부(120)로부터의 무성음(UV)부용의 데이터로써는, 잡음 코드북(121)로부터의 코드북의 형상인덱스와 이득회로(126)로부터의 코드북의 이득인덱스가 구해진다. 잡음 코드북(121)으로부터의 VU데이터인 형상인덱스는 스위치(127s)를 거쳐서 출력단자(107s)에 보내지는 한편, 이득회로(126)의 UV데이터인 이득인덱스는 스위치(127g)를 거쳐서 출력단자(107g)에 보내진다.
스위치(127s, 127g)와 상기 스위치(117, 118)는 V/UV판정부(115)로부터의 V/UV판정결과에 의존하여 온/오프된다. 구체적으로, 송신되려하는 프레임의 음성신호의 V/UV판정결과가 유성음(V)임을 나타내는 경우 스위치(117, 118)가 온되며 반면, 송신되려하는 프레임의 음성신호가 무성음(UV)일 경우, 스위치(127s, 127g)가 온으로 된다.
상기 설명된 고신뢰성 피치정보를 설명한다.
고신뢰성 피치정보는 2배피치 또는 반피치의 오검출을 방지하기 위해서 종래의 피치정보와 함께 이용되는 평가파라미터이다. 도 3에 도시된 음성신호 부호화장치에서는, 고신뢰성 피치정보는, 사인파 분석 부호화부(114)의 개루프 피치탐색부(141)에 의해서, 입력단자(101)에 입력된 입력 음성신호 피치정보와, 음성레벨(프레임 레벨) 및 자기상관 피크값에 기초해서, 고신뢰성 피치정보의 후보값으로써 설정된다. 이렇게 설정된 고신뢰성 피치정보의 후보값은, 다음 프레임의 개루프 탐색의 결과와 비교되고, 만일 2개의 피치값이 서로 충분히 근접하게 되면, 고신뢰성 피치정보로써 등록된다. 만일 그렇지 않다면, 그 후보값은 폐기된다. 등록된 고신뢰성 피치정보는, 그것이 소정시간동안 갱신되지 않은 채로 남아있게 되는 경우에도 폐기된다.
상기 고신뢰성 피치정보를 설정하고 리셋하는 구체적인 작동순서의 알고리즘(algorithm)에 대해서는 1프레임을 부호화단위로 하여 이하에 설명한다.
이하의 설명에 이용되는 변수의 정의는 다음과 같다.
rb1Pch : 고신뢰성 피치정보
rb1PchCd : 고신뢰성 피치정보의 후보값
rb1PchHoldState : 고신뢰성 피치정보 유지시간
lev : 음성레벨(프레임 레벨)(rms)
Ambiguous(p0, p1, range)는 이하의 4개 조건,
abs(p0-2.0×p1)/p0<range
abs(p0-3.0×p1)/p0<range
abs(p0-p1/2.0)/p0<range
abs(p0-p1/3.0)/p0<range
중 어느 하나를 만족시키게 되면, 즉 2개의 피치값(p0, p1)이 서로에 대해 2배, 3배 또는 1/2, 1/3의 관계라면, 참이 되는 함수이다. 상기 부등식에서, range는 소정의 상수이다. 반면,
pitch[0] : 바로전 프레임의 피치
pitch[1] : 현재 프레임의 피치
pitch[2] : 다음(미래) 프레임의 피치
r'(n) : 자기상관 피크값
lag(n) : 피치래그(pitch lag)(피치주기를 샘플수로 표시함)
라고 가정하며, 여기서 r'(n)는 자기상관의 0번째 피크(R0)(파워)에 의해 규정되어 산출된 자기상관값(Rk)을 나타내며, 감소하는 크기의 순서로 정렬되며, n은 순서를 나타낸다.
상기 자기상관 피크값(r'(n))과 피치래그(lag(n))는 현 프레임에 대하여도 보존된다고 가정한다. 이들은 각각 crntR'(n) 및 crntlag(n)로 표시된다. 더욱이, 다음
rp[0] : 바로전(과거) 프레임의 자기상관피크의 최대값 r'(1)
rp[1] : 현재 프레임의 자기상관피크의 최대값 r'(1)
rp[2] : 다음(미래) 프레임의 자기상관피크의 최대값 r'(1)
이라 가정한다.
더욱이, 현재 프레임의 피치, 자기상관 피크값이나 피치값이 어떤 소정의 조건을 만족시킴으로써, 고신뢰성 피치정보의 후보값이 설정되며, 이 후보값과 다음 프레임의 피치 사이의 차가 소정 값보다 작을 경우에만 고신뢰성 피치정보가 등록된다고 가정한다.
이하에는, 검출된 개략 피치정보에 기초해서 고신뢰성 피치정보를 설정하는 구체적인 알고리즘에 대해서 설명한다.
[조건 1]
if rb1Pch×0.6<pitch[1]<rb1Pch×1.8
and
rp[1]>0.39
and
lev>200.0
or
rp[1]>0.65
or
rp[1]>0.30 and abs(pitch[1]-rb1PchCd)<8.0 and lev>400.0
then
[조건 2]
if rb1PchCd≠0.0 and abs(pitch[1]-rb1PchCd)<8
and !Ambiguous(rb1Pch, pitch[1], 0.11)
then
[처리 1]
rb1Pch=pitch[1]
endif
[처리 2]
rb1PchCd=pitch[1]
else
[처리 3]
rb1PchCd=0.0
endif
상기 알고리즘에 의해 고신속성 피치정보를 설정하는 작동순서에 대해서는 도 4의 플로우차트를 참고하여 설명한다.
만일 스텝(S1)에서, '조건 1'이 만족된다면, 스텝(S2)으로 진행하여, '조건 2'가 만족되는지 여부를 판별한다. 만일 스텝(S1)에서 '조건 1'이 만족되지 않는다면, 스텝(S5)에 도시된 '처리 3'이 실행되고, 그 실행의 결과가 고신속성 피치정보로써 판명된다.
스텝(S2)에서, '조건 2'가 만족되면, 스텝(S3)의 '처리 1'이 실행되고, 그후 스텝(S4)에서의 '처리 2'를 실행한다. 반편, 스텝(S2)에서 '조건 2'가 만족되지 않는다면, 스텝(S3)의 '처리 1'이 실행되지 않고, 스텝(S4)의 '처리 2'가 실행된다.
스텝(S4)의 '처리 2'의 실행 결과가 고신뢰성 피치정보로써 출력된다.
만일, 고신뢰성 피치정보 등록 후에, 예를들어 5개 프레임 동안 계속해서 고신뢰성 피치정보가 새롭게 등록되지 않는다면, 등록된 고신뢰성 피치정보는 리셋된다.
이하에는 한번 설정된 고신뢰성 피치정보를 리셋하는 알고리즘의 예를 설명한다.
[조건 3]
if rb1PchHoldState=5
then
[처리 4]
rb1Pch=0.0
rb1PchHoldState=0
else
[처리 5]
rb1PchHoldState++
endif
상기 알고리즘에 의해서 고신뢰성 피치정보를 리셋하는 작동순서는 도 5의 플로우차트를 참고하여 설명한다.
만일, 스텝(S6)에서 '조건 3'이 만족되면, 스텝(S7)에 도시된 '처리 4'가 실행되어서 고신뢰성 피치정보를 리셋하게 된다. 반대로, 만일 스텝(S6)에서 '조건 3'이 만족되지 않으면, 스텝(S7)의 '처리 4'를 행하지 않고 스텝(S8)에 표시된 '처리 5'가 실행되어서, 고신뢰성 피치정보를 리셋하게 된다.
상기와 같이 고신뢰성 피치정보가 설정되고 리셋된다.
상기 설명된 음성신호 부호화장치에서는, 요구되는 음성품질에 의존하여 다른 비트레이트의 데이터를 출력할 수 있다. 즉, 출력데이터는 다양한 비트레이트를 갖는 출력데이터로 출력될 수 있다.
구체적으로, 출력데이터의 비트레이트는 낮은 비트레이트와 높은 비트레이트 사이에서 전환될 수 있다. 예를들어, 만일 낮은 비트레이트가 2kbps이고 높은 비트레이트가 6kbps이면, 출력데이터는 다음의 도 6에 도시된 비트레이트를 갖는 데이터이다.
출력단자(104)로부터의 피치데이터는 유성음 동안에 항상 8bits/20msec의 비트레이트로 출력되며, 출력단자(105)로부터 출력된 V/UV판별은 항상 1bit/20msec이다. 출력단자(102)로부터 출력된 LSP양자화의 인덱스는 32bits/40msec와 48bits/40msec 사이에서 전환된다. 반면, 출력단자(103)에 의해 출력되는 유성음(V) 동안의 인덱스는 15bits/20msec와 87bits/20msec 사이에서 전환된다. 출력단자(107s, 107g)로부터 출력된 무성음(UV)동안의 인덱스는 11bits/10msec와 23bits/5msec 사이에서 전환된다. 유성음(V)동안의 출력데이터는 2kbps에서는 40bits/20msec이며, 6kbps에서는 120bits/20msec이다. 반면, 무성음(UV)동안의 출력데이터는 2kbps에서는 39bits/20msec이며 6kbps에서는 117bits/20msec이다. LSP양자화의 인덱스와, 유성음(V)동안의 인덱스와 무성음(UV)동안의 인덱스는 이하에서 각종 구성성분의 구성과 연결하여 설명할 것이다.
이하에는 도 3의 음성 부호화 장치내의, 유성음/무성음(V/UV) 판별부(115)의 구체적인 예를 설명한다.
이 V/UV판정부(115)는, 입력 음성신호의 프레임 평균에너지(lev)와, 정규화 자기상관 피크값(rp)과, 스펙트럼 유사도(pos)와, 영교차수(nZero)와 피치래그(pch)에 기초해서, 프레임의 V/UV판별을 행한다.
즉, V/UV판정부(115)에는, 직교변환회로(145)의 출력에 기초해서, 입력 음성신호의 스펙트럼 엔벌로프의 프레임 평균에너지(lev) 즉, 프레임 평균(rms) 또는 동등한 값(lev)이 공급되며, 개루프 피치탐색부(141)로부터의 정규화 자기상관 피크값(rp)과, 영교차 카운터(142)로부터의 영교차값(nZero)과, 영교차 카운터(142)로부터의 최적 피치로써의 피치래그(pch)가 공급된다. 영교차수는 샘플 수로 표시되는 피치주기이다. MBE경우와 동일한 대역에 기초한 V/UV판정의 경계위치도 프레임의 V/UV판정의 한 조건으로 이용될 수 있다. 이것은 스펙트럼 유사도(pos)로써 V/UV판정부(115)에 공급된다.
MBE 경우, 대역에 기초한 V/UV판정결과를 이용한 V/UV판별조건은 다음과 같다.
MBE의 경우에 제 m번째 하모닉스의 크기를 나타내는 파라미터나 진폭|Am|은 다음과 같이 표시될 수 있다.
Figure pat00001
이 식에서, |S(j)|는 LPC잔차를 DFT할 때 얻어지는 스펙트럼이며, |E(j)|는 기저신호의 스펙트럼이며, 구체적으로는 256포인트 해밍창이며, am, bm은 인덱스(j)로 표시되며, m번째 하모닉스에 순차적으로 대응하는 m번째 대역에 대응하는 주파수의 하한값 및 상한값이다. 대역에 기초한 V/UV판정을 위해, 잡음 대 신호비(NSR)가 이용된다. m번째 대역의 NSR은 다음과 같다.
Figure pat00002
만약 NSR값이 소정의 임계값, 일예로 0.3보다 크면, 즉 오차가 보다 더 크다면, 그 대역에서 |Am||E(j)|에 의한 |S(j)|의 근사가 좋지 않다고, 즉 여기신호 |E(j)|가 베이스로서 적당하지 않다고 판단된다. 따라서 그 대역은 무성음(UV)이라고 판단된다. 만약 상기와 같지 않다면, 근사가 매우 잘 행해졌다고 판단되므로, 따라서 그 대역은 유성음(V)이라고 판단된다.
한편, 기본 피치 주파수로 분할된 대역의 수가 음성의 피치에 따라 대략 8 내지 63의 범위에서 변한다면, 대역에 기초한 V/UV 플래그의 개수도 변한다. 따라서 V/UV판정의 결과는 고정된 주파수 대역을 분할할때 얻어진 소정의 수의 대역마다 분류(축퇴)된다. 구체적으로, 가청영역을 포함한 소정 주파수 영역은 예를들어 12개의 대역으로 분할되고, 각 대역에 대해서 V/UV판정이 행해진다. 구체적으로, 대역에 기초한 V/UV판정 데이터에 있어서 모든 대역에서 유성음(V)영역과 무성음(UV)영역 사이의 1개 이하의 구분위치나 경계위치를 표시하는 데이터는, 스펙트럼 유사도(pos)로서 사용된다. 스펙트럼 유사도(pos)에 의해 가정될 수 있는 값은 1≤pos≤12이다.
V/UV판정부(115)에 공급된 입력 파라미터는 함수계산되어서, 유성음(V)과의 유사도를 나타내는 함수값의 계산을 행하게 된다. 이 함수의 구체적인 예에 대해서는 이하에 설명한다.
먼저, 함수(pLev(lev))의 값이 입력 음성신호의 프레임 평균에너지의 값(lev)에 기초하여 계산된다. 이 함수(pLev(lev))로서,
pLev(lev) = 1.0/(1.0 + exp(-(lev - 400.0)/100.0))이 사용된다.
그리고 나서, 함수(pR0r(rp))의 값이 정규화 자기상관 피크(rp)의 값(0≤rp≤1.0))에 따라 계산된다. 함수(pR0r(rp))의 구체적인 예는 다음과 같다.
pR0r(rp) = 1.0/(1.0 + exp(-(rp - 0.3)/0.06))
그리고나서, 함수(pP0s(pos))의 값이 유사도(pos)의 값(1≤pos≤12)에 따라 계산된다. 함수(pP0s(pos))의 구체적인 예는 다음과 같다.
pP0s(pos) = 1.0/(1.0 + exp(-(pos - 1.5)/0.8))
그리고나서, 함수(pNZero(nZero))의 값이 영교차수(nZero)의 값(1≤nZero≤160)에 기초하여 구해진다. 함수(pNZero(nZero))의 구체적인 예는 다음과 같다.
pNZero(nZero) = 1.0/(1.0 + exp((nZero - 70.0)/12.0))
그리고나서, 함수(pPch(pch))의 값이 피치래그(pch)의 값(20≤pch≤147))에 따라 구해진다. 함수(pPch(pch))의 구체적인 예는 다음과 같다.
pPch(pch) = 1.0/(1.0 + exp(-(pch - 12.0)/2.5))
×1.0/(1.0 + exp((pch - 105.0)/6.0))
상기 함수 pLev(lev), pR0r(rp), pNZero(nZero), pPch(pch)에 의해 계산된 파라미터 lev, rp, pos, nZero, pch에 대해 V와의 유사도를 사용하여, V와의 최종적 유사도가 계산된다. 이 경우에, 다음 두 사항이 고려될 필요가 있다.
다시말해, 첫 번째 사항으로서, 만역 자기상관 피크값이 보다 더 작지만 프레임 평균에너지가 매우 크다면, 음성은 유성음이라 판단되어야 한다. 즉, 가중된 합은 서로 강한 보완관계를 갖는 두 파라미터에 대해 취해진다. 두 번째 사항으로서, V와의 유사도를 독립적으로 나타내는 파라미터가 곱에 의해 처리된다.
따라서, 서로 보완관계를 갖는 자기상관 피크값과 프레임 평균에너지가 가중 부가에 의해 합해지는 반면, 다른 파라미터는 곱에 의해 처리된다. V와의 최종적 유사도를 나타내는 함수(f(lev, rp, pos, nZero, pch))는 다음과 같이 계산된다.
f(lev, rp, pos, nZero, pch)
= ((1.2pR0r(rp) + 0.8pLev(lev))/2.0)
×pPos(pos)×pNZero(nZero)×pPch(pch)
가중 파라미터(α = 1.2, β = 0.8)는 경험적으로 구해진 값으로 나타나 있다.
V/UV판정은 소정의 임계값으로 함수(f)의 값을 판별하므로써 행해진다. 구체적으로 만약 f가 최종적으로 0.5정도이면, 프레임은 유성음(V)인 반면, f가 0.5보다 작으면, 프레임은 무성음(UV)이다.
한편, 정규화된 자기상관 피크값(rp)에 대해 V일 가능성을 구하기 위한 상기한 함수(pR0r(rp))는 함수(pR0r(rp))를 근사하는 함수들(pR0r'(rp)), 즉
pR0r'(rp) = 0.6x 0≤x≤7/34
pR0r'(rp) = 4.0(x - 0.175) 7/34≤x≤67/170
pR0r'(rp) = 0.6x + 0.64 67/170≤x≤0.6
pR0r'(rp) = 1 0.6≤x≤1.0
에 의해 대체될 수도 있다.
종합적으로, 상기한 V/UV판정의 기본 개념은 V/UV판정에 대한 파라미터(x), 일예로 상기한 입력 파라미터(lev, rp, pos, nZero, pch)가 다음에 의해 표현되는 S자형 함수(g(x))에 의해 변환된다.
g(x) = A/1(1 + exp(-(x-b)/a))
여기서 A, a, b는 상수이고, 이 S자형 함수(g(x))에 의해 변환된 파라미터는 V/UV판정을 위해 사용된다.
만약 이 입력 파라미터(lev, rp, pos, nZero, pch)가 일반화되어서 n개의 입력 파라미터(여기서, n은 자연수)가 x1, x2, …, xn에 의해 표현되면, 이 입력 파라미터 xk(여기서, k=1, 2, …, n)에 의한 V와의 유사도는 함수 gk(xk)에 의해 표현되고 V와의 최종 유사도는
f(x1, x2, …, xn) = F(g1(x1), g2(x2), …, gn(xn))
에 의해 평가된다.
함수(gk(xk))(k = 1, 2, …, n)로서, ck 내지 dk(ck 및 dk는 상수이고 ck<dk)의 어떤 값이라도 취할 수 있는 범위를 갖는 임의 함수가 사용될 수 있다. 함수(gk(xk))로서, ck 내지 dk의 어떤 값이라도 취할 수 있는 범위를 갖는, 다른 기울기를 갖는 복수의 직선으로 구성된 임의의 함수가 또한 사용될 수 있다.
함수(gk(xk))로서, ck 내지 dk의 어떤 값이라도 취할 수 있는 임의의 연속 함수가 마찬가지로 사용될 수 있다.
또한, 함수(gk(xk))로서,
gk(xk) = Ak/(1 + exp(-(xk - bk)/ak))
(여기서 k = 1, 2, …, n 및 Ak, ak, bk는 입력 파라미터 xk와는 다른 상수이거나 또는 곱셈에 의한 이의 결합이다)
에 의해 표현되는 S형 함수가 사용될 수 있다.
S형 함수 또는 곱셈에 의한 이의 결합이 다른 기울기를 갖는 복수의 직선에 의해 근사될 수 있다.
입력 파라미터는 입력 음성신호의 프레임 평균에너지(lev), 정규화 자기상관(rp), 스펙트럼 유사도(pos), 영교차의 수(nZero), 피치 래그(pch)로 열거될 수 있다.
만약 상기 입력 파라미터(lev, rp, pos, nZero, pch)에 대해 V와의 유사도를 나타내는 함수가 각각 pLev(lev), pR0(rp), pPos(pos), pNZero(nZero), pPch(pch)에 의해 표현되면, 이 함수들에 의해 V와의 최종 유사도를 표현하는 함수(f(lev, rp, pos, nZero, pch))는
f(lev, rp, pos, nZero, pch)
= ((αpR0(rp) + βpLev(lev))/(α+β))
×pPos(pos)×pNZero(nZero)×pPch(pch)
(여기서, α, β는 각각 pR0r 및 pLev를 적당하게 가중하기 위한 상수이다.)
에 의해 계산될 수 있다.
상기한 바와 같이 얻어진 함수(f)의 값은 V/UV판정을 하기 위한 소정의 임계값을 사용하여 판별된다.
피치 검출이 고신뢰성 피치정보를 사용하여 행해지는 방식이 이제 설명된다.
피치 검출은 기준값으로서 상기한 연산에 의해 구해진 고신뢰성 피치정보(rblPch)와 함께, 이전 프레임 (prevVUV)의 V/UV판정의 결과를 사용하여 행해진다고 가정한다.
이 경우에, 고신뢰성 피치정보(rblPch)와 이전 프레임(prevVUV)의 V/UV판정의 결과의 조합에 따라 다음의 네 경우((i) 내지 (iv))가 있다.
(i)prevVUV ≠ 0 이고 rblPch ≠ 0
피치 검출은 고신뢰성 피치정보를 참고하여 행해진다. 직전 프레임이 이미 유성음(V)으로 판단되었으므로, 직전 프레임의 정보를 우선적으로 피치검출에 관계시킨다.
(ii)prevVUV = 0 이고 rblPch ≠ 0
직전 프레임이 무성음(UV)이므로, 그 피치는 사용될 수 없고, 따라서 피치검출이 rblPch에만 관계하여 행해진다.
(iii)prevVUV = 1 이고 rblPch = 0
적어도 직전 프레임이 유성음(V)으로 판단되므로, 피치검출은 이것의 피치만을 사용하여 행해진다.
(iv)prevVUV = 0 이고 rblPch = 0
직전 프레임이 무성음(UV)으로 판단되므로, 피치검출은 다음에 올 미래 프레임 피치에 관하여 행해진다.
상기한 네 경우가 도 7 및 도 8의 순서도를 참고로 구체적으로 설명될 것이다.
도 7 및 도 8에서, !는 부정을 나타내고, &&는 'and'를 나타내고 trkPch는 최종적으로 검출된 피치인 피치를 나타낸다.
SearchPeaks(frm)(frm ={0, 2})는 만약 rp[1]≥rp[frm]이거나 만약 rp[1]>0.7이면 pitch[1]인 그리고 그렇지 않다면 crntLag(n)를 n =0, 1, … 에 대해 순서대로 탐색할 때 0.81×pitch[frm]<crntLag(n)<1.2×pitch[frm]를 최초로 만족시키는 crntLag(n)를 그 값으로서 갖는 함수이다.
마찬가지로, SearchPeaks3Frms는 만약 비교시에 rp[0], rp[1] 및 rp[2], rp[1]가 rp[0] 또는 rp[2]보다 크거나 0.7보다 크면 pitch[1]와 같고, 그렇지 않으면 참조 프레임으로서 자기상관 피크 rp[0] 또는 rp[2]의 보다 큰 값을 갖는 프레임을 사용하여 상기한 SearchPeaks(frm)과 동일한 작동을 행하는 함수이다.
먼저, 스텝(S10)에서, '직전 프레임(prevVUV)의 V/UV판정의 결과가 0이 아닌 한편 고신뢰성 피치 정보(rblPch)는 0.0이 아니다'는 조건이 만족되는지 여부가 판단된다. 만약 이 조건이 만족되지 않으면, 처리는 다음에 설명될 스텝(S29)으로 간다. 만약 조건이 만족되면, 처리는 스텝(S11)으로 간다.
스텝(S11)에서,
status0 = Ambiguous(pitch[0], rblPch, 0.11)
status1 = Ambiguous(pitch[1], rblPch, 0.11)
status2 = Ambiguous(pitch[2], rblPch, 0.11)
이 정의된다.
스텝(S12)에서, 조건'status0과 status1과 status2 중 아무것도 유효하지 않음'을 만족하는지 여부가 판단된다. 만약 이 조건을 만족하면 처리는 스텝(S13)으로 가고 만약 만족하지 않으면 스텝(S18)으로 간다.
스텝(S18)에서, 조건'status0 및 status2가 유효하지 않음'이 만족되는지가 판단된다. 만약 이 조건이 만족되면, 처리는 스텝(S19)으로 가서 피치로서 SearchPeaks(0)가 채택되고, 만약 만족되지 않으면, 처리는 스텝(S20)으로 간다.
스텝(S20)에서, 조건'status1 및 status2가 유효하지 않음'이 만족되는지가 판단된다. 만약 이 조건이 만족되면, 처리는 스텝(S21)으로 가서 피치로서 SearchPeaks(2)가 채택되고, 만약 만족되지 않으면 처리는 스텝(S22)으로 간다.
스텝(S22)에서, 조건'status0이 유효하지 않음'이 만족되는지가 판단된다. 만약 이 조건이 만족되면, trkPch = pitch[0]이 피치로서 정해지고, 만약 만족되지 않으면, 처리는 스텝(S24)으로 간다.
스텝(S24)에서, 조건'status1이 유효하지 않음'이 만족되는지가 판단된다. 만약 이 조건이 만족되면 trkPch = pitch[1]이 피치로서 정해지고 만약 만족되지 않으면 처리는 스텝(S26)으로 간다.
스텝(S26)에서, 'status2가 유효하지 않음'이 만족되는지가 판단된다. 만약 이 조건이 만족되면, trkPch = pitch[2]가 피치로서 정해지고, 만약 만족되지 않으면, 처리는 스텝(S28)으로 가서 피치로서 trkPch = pitch[0]이 채택된다.
상기 스텝(S13)에서, 함수 Ambiguous(pitch[2], pitch[1], 0.11)가 참인지 거짓인지가 판단된다. 만약 이 함수가 참이면 처리는 스텝(S14)으로 가서 SearchPeaks(0)가 피치로서 채택된다. 만약 함수가 거짓이면, 처리는 스텝(S15)으로 가서 SearchPeaks3frms()가 피치로서 채택된다.
스텝(S15)에서, 함수 Ambiguous(pitch[0], pitch[1], 0.11)가 참인지 거짓인지가 판단된다. 만약 이 함수가 참이면, 처리는 스텝(S16)으로 가서 SearchPeaks(2)이 피치로서 채택된다. 만약 이 함수가 거짓이면, 처리는 스텝(S17)으로 가서 SearchPeaks3frms()가 피치로서 채택된다.
그리고나서, 상기 스텝(S29)에서, 조건'직전 프레임이 UV이고 고신뢰성 피치정보가 0.0임'이 만족되는지가 판단된다. 만약 이 조건이 만족되지 않으면, 처리는 스텝(S38)으로 가고 만약 만족되면 스텝(S30)으로 간다.
스텝(S30)에서,
status0 = Ambiguous(pitch[0], rblPch, 0.11)
status1 = Ambiguous(pitch[2], rblPch, 0.11)
가 정의된다.
스텝(S31)에서, 조건'status0 및 status1이 유효하지 않음'이 만족되는지가 판단된다. 만약 이 조건이 만족되면 처리는 스텝(S32)으로 가서 SearchPeaks(2)가 피치로서 채택되고, 만족되지 않으면 처리는 스텝(S33)으로 간다.
스텝(S33)에서, 조건'status0이 유효하지 않음'이 만족되는지가 판단된다. 만약 이 조건이 만족되면, trkPch = pitch[1]이 피치로서 정해지고, 만족되지 않으면 처리는 스텝(S35)으로 간다.
스텝(S35)에서 조건'status1이 유효하지 않음'이 만족되는지가 판단된다. 만약 이 조건이 만족되면 trkPch = pitch[2]가 피치로서 정해지고 만약 만족되지 않으면 처리는 스텝(S37)으로 가서 trkPch = rblPch가 피치로서 채택된다.
상기한 스텝(S38)에서, 조건 '직전 프레임이 UV가 아니고 고신뢰성 피치정보가 0.0임'이 만족되는지 여부가 판단된다. 만약 이 조건이 만족되지 않으면, 처리는 스텝(S40)으로 가서 SearchPeaks(2)가 피치로서 채택된다. 조건이 만족되면, 처리는 스텝(S40)으로 간다.
스텝(S40)에서, 함수 Ambiguous(pitch[0], pitch[2], 0.11)가 참인지 거짓인지가 판단된다. 만약 이 함수가 거짓이면, 처리는 스텝(S41)으로 가서 SearchPeaks3Frms()가 피치로서 채택된다. 만약 함수가 참이면, 처리는 스텝(S42)으로 가서 SearchPeaks(0)가 피치로서 채택된다.
상기한 작동의 순서로 고신뢰성 피치정보를 사용하는 피치검출이 행해진다.
상기의 구체적인 예에서, 피치검출은 고신뢰성 피치정보와 함께 V/UV검출의 결과를 사용하여 행해진다. 통상의 피치검출을 위해 V/UV검출의 결과만을 사용한 또 다른 구체적인 예가 이하 설명된다.
피치검출에 대해 현재 부호화 단위와 다른 부호화 단위의 V/UV검출의 결과를 사용하기 위해, V/UV판정은
정규화 자기상관 피크값 r'(n) (0≤r'(n)≤1.0)
영교차의 수 nZero(0≤nZero≤160)
프레임 평균레벨(lev)
의 세 파라미터로부터만 주어진다.
이 세 파라미터에 대해, V와의 유사도가 다음식에 의해 연산된다.
[수학식 1]
pRp(rp) = 1.0/(1.0 + exp(-(rp - 0.3/0.06)))
[수학식 2]
pNZero(nZero) = 1.0/ {exp((nZero - 70.0)/12.0)}
[수학식 3]
pLev(lev) = 1.0/ {1.0 + exp(-(lev - 400.0/100.0))}
수학식 1 내지 수학식 3을 사용하여, V와의 최종 유사도는 다음 식에 의해 정의된다.
[수학식 4]
f(nZero,rp,lev)
=pNZero(nZero)× {1.2×pRp(rp)+0.8×pLev(lev)} /2.0
만약 f가 0.5정도이면, 프레임은 유성음(V)이라고 판단되고, 만약 f가 0.5보다 작으면, 프레임은 무성음(UV)이라고 판단된다.
V/UV판정의 결과만을 사용하는 피치검출의 작동의 구체적인 순서가 도 9의 순서도를 참고로 설명된다.
prevVUV는 직전 프레임의 V/UV판정의 결과라고 나타나 있다. 1 및 0의 prevVUV의 값은 각각 V 및 UV를 나타낸다.
먼저, 스텝(S50)에서, V/UV판정은 현재 프레임에 대해 이루어져 '판정의 결과 (prevVUV)가 1의 값을 가짐'의 여부, 즉 프레임이 유성음인지 여부가 판단된다. 만약 프레임이 스텝(S50)에서 UV임이 판단되면, 처리는 스텝(S51)으로 가서 trkPch = 0.0가 피치로서 채택된다. 반면, 만약 스텝(S50)의 결과가 V이면, 처리를 스텝(S52)으로 간다.
스텝(S52)에서, '과거 및 미래 프레임의 V/UV판정의 결과가 1임의 여부, 즉 두 프레임 모두가 V인지 여부가 판단된다. 만약 결과가 부정이면, 처리는 이하 설명될 스텝(S53)으로 간다. 만약 두 프레임이 모두 V이면, 처리는 스텝(S54)으로 간다.
스텝(S54)에서, 두 피치 pitch[2], pitch[1]와 상수 0.11간의 관계를 설명하는 함수 Ambiguous(pitch[2], pitch[1], 0.11)가 참인지 거짓인지 여부가 판단된다. 만약 상기 함수가 참이면, 처리는 스텝(S55)으로 가서 trkPch = SearchPeaks(0)를 정한다. 즉 만약 rp[1]≥rp[0] 또는 rp[01]>0.7이면 pitch[1]는 유효하다. 만약 그렇지 않으면, crntLag(n)가 n = 0, 1, 2, …의 순서로 탐색되어 0.81×pitch[0]<crntLag(n)<1.2×pitch[0]을 만족시키는 crntLag(n)가 설정된다. 만약 함수 Ambiguous(pitch[0], pitch[1], 0.11)가 거짓이면, 처리는 스텝(S56)으로 간다.
스텝(S56)에서, 두 피치 pitch[0], pitch[1]와 상수 0.11사이의 관계를 설명하는 함수 Ambiguous(pitch[0], pitch[1], 0.11)가 참인지 거짓인지가 판단된다. 만약 함수가 참이면, 처리는 스텝(S57)으로 가서 trkPch = SearchPeaks(2)를 정한다. 만약 함수 Ambiguous(pitch[0], pitch[1], 0.11)가 거짓이면, 처리는 스텝(S58(trkPch = SearchPeaks3Frm()))으로 가서 rp(0), rp(1), rp(2)를 비교한다. 만약 rp[1]가 rp[0] 또는 rp[2]정도이거나 0.7보다 크면, pitch[1]가 사용된다. 만약 그렇지 않으면 상기한 SearchPeaks(frm)과 동일한 작동이 참조 프레임으로서 자기상관 피크값(rp[0] 및 rp[2]) 중 보다 큰 값을 갖는 프레임을 사용하여 행해진다.
상기한 스텝(S53)에서, '과거 프레임의 V/UV판정의 결과가 1임'의 여부, 즉 프레임이 V인지 여부가 판단된다. 만약 과거 프레임이 V이면, 처리는 스텝(S59)으로 가서 피치로서 trkPch = SearchPeaks(0)를 정한다. 만약 과거 프레임이 UV이면 처리는 스텝(S60)으로 간다.
스텝(S60)에서, '미래 프레임에 대한 V/UV판정의 결과가 1임'의 여부, 즉 미래 프레임이 V인지 여부가 판단된다. 만약 결과가 긍정이면, 처리는 스텝(S61)으로 가서 trkPch = SearchPeaks(0)가 피치로서 받아들여진다. 만약 미래 프레임이 UV이면, 처리는 스텝(S62)으로 가고 여기서 미래 프레임의 피치 pitch[1]가 trkPch에 대한 피치로서 받아들여진다.
도 10a 내지 도 10c는 V/UV판정의 상기한 결과를 음성샘플의 피치검출에 적용한 결과를 나타낸다. 도 10a 내지 도 10c에서, 가로축과 세로축은 각각 프레임의 수와 피치를 나타낸다.
도 10a는 종래의 피치검출 방법에 의해 검출된 피치 궤적을 나타내고, 도 10b는 도 10c에 도시된 고신뢰성 피치정보와 V/UV판정의 결과 모두가 사용된 본 발명의 피치 검출방법에 의해 검출된 피치 궤적을 나타낸다.
이 결과로부터 본 발명의 피치 검출 방법은 유성음(V)이라고 판단된 음성신호의 부분에 대해 고신뢰성 피치정보가 정해지고 소정의 시간(여기에서는 5프레임)동안 상기 값이 유효하다는 것을 알 수 있다. 이 결과 도 10a의 150번째 샘플에 나타난 피치부분을 갑작스럽게 변화할 때 잘못된 피치검출이 발생되지 않는다.
상기 신호 부호화 및 신호 복호화 장치는 예를들어 도 11 및 도 12에 도시된 휴대용 통신단말기 또는 휴대용 전화기에 있는 음성 코덱(codec)으로서 사용될 수 있다.
도 11은 도 1 및 도 3에 도시된 바와같이 구성된 음성 부호화부(160)를 사용하는 휴대용 단말기의 송신측을 나타낸다. 도 11의 마이크(161)에 의해 모아진 음성신호는 증폭기(162)에 의해 증폭되고 아날로그/디지털(A/D)변환기(163)에 의해 디지털신호로 변환되어 도 1 및 도 3에 도시된 바와같이 구성된 음성 부호화부(160)로 보내진다. A/D변환기(163)로부터의 디지털 신호는 입력 단자(101)로 보내진다. 음성 부호화부(160)는 도 1 및 도 3과 관련하여 설명된 부호화를 행한다. 도 1 및 도 3의 출력단자의 출력신호는 음성 부호화부(160)의 출력신호로서 송신 채널 부호화부(164)로 보내져서 이렇게 공급된 신호에 채널 부호화를 행한다. 송신 채널 부호화부(164)의 출력신호는 변조를 위해 변조회로(165)로 보내지고 그리고나서 디지털/아날로그 변환기(166)와 RF 증폭기(167)를 통해 안테나(168)로 공급된다.
도 12는 도 2에 도시된 바와같이 구성된 음성 복호화부(260)를 사용하는 휴대용 단말기의 수신측을 나타낸다. 도 12의 안테나(261)에 의해 수신된 음성신호는 RF 증폭기(262)에서 증폭되고 아날로그/디지털(A/D) 변환기(263)를 통해 복조 회로(264)로 보내지고, 이로부터의 복조 신호는 송신 채널 복호부(265)로 보내진다. 복호부(265)의 출력신호는 도 2에 도시된 바와같이 구성된 음성 복호부(260)로 공급된다. 음성 복호부(260)는 도 2와 관련하여 설명된 방식으로 신호를 복호한다. 도 2의 출력단자(201)에서의 출력신호는 디지털/아날로그(D/A) 변환기(266)로 음성 복호부(260)의 신호로서 보내진다. D/A 변환기(266)로부터의 아날로그 음성신호는 스피커(268)로 보내진다.
본 발명은 상기한 실시예에 제한되지 않는다. 비록 도 1 및 도 3의 음성 분석측(부호화측)의 구조와 도 2의 음성 합성측(복호화측)의 구조가 하드웨어로서 설명되었지만, 디지털 신호 처리기(DSP)를 사용하는 소프트웨어에 의해 이행될 수도 있다. 또한 본 발명의 범위는 송신 또는 기록 및/또는 재생뿐만아니라 피치 또는 음성변환이나 규칙에 의한 음성합성 또는 잡음 압축 등의 다양한 다른 분야에도 적용될 수 있음을 알 수 있다.
상기 설명한 바와같이 본 발명의 피치검출 방법에 의하면, 피치탐색에 의해 검출된 피치정보와, 입력 음성신호의 음성레벨과, 상기 입력 음성신호의 자기상관 피크값과에 기초해서, 상기 피치정보보다도 피치일 가능성이 높은 경우에 참이 되는 조건을 만족하는 고신뢰성 피치정보를 설정하고, 이것에 의거하여 피치를 결정하기 때문에, 입력 음성신호 중의 반피치나 2배피치를 잘못검출하지 않고 고정밀도의 피치검출을 행할 수 있다.
또, 본 발명의 음성신호 부호화방법 및 장치에 의하면, 상기 본 발명의 피치검출 방법을 적용하며, 또한 입력 음성신호에 대한 유성음/무성음 판정결과에 의거하여, 입력 음성신호의 유성음부분에 대해서는 사인파 분석 부호화를 행하고, 무성음부분에 대해서는 파형부호화에 의한 부호화를 행하기 때문에, 고효율이며, 더욱이 반피치나 2배피치를 잘못검출하지 않고 고정밀의 부호화를 행할 수 있고, 무성음부분에서도 윙윙거림이 없는 자연스런 재생음이 얻어지고, 유성음부분에 있어서도 자연스러운 음성을 얻을 수 있다. 또, 무성음부분과 유성음부분과의 전이부분에서 이질적인 음성 등을 생성하지 않는다.
도 1은 본 발명에 따른 음성 부호화 방법을 실시하기 위한 음성 부호화 장치의 기본 구성을 나타내는 블록도이다.
도 2는 본 발명에 따른 음성 복호화 방법을 실시하기 위한 음성 복호화 장치의 기본 구성을 나타내는 블록도이다.
도 3은 본 발명을 실시하는 음성 부호화 장치의 보다 구체적인 구성을 나타내는 블록도이다.
도 4는 고신뢰성 피치정보를 설정하기 위한 작동순서를 나타내는 플로우차트도이다.
도 5는 고신뢰성 피치정보를 리셋하기 위한 작동순서를 나타내는 플로우차트도이다.
도 6은 각종 비트레이트의 데이터를 나타내는 표이다.
도 7은 도 3의 구성에서 피치검출을 위한 대표적인 작동순서를 나타내는 플로우차트도이다.
도 8은 도 3의 구성에서 피치검출을 위한 대표적인 작동순서를 나타내는 플로우차트도이다.
도 9는 도 3의 구성에서 피치검출을 위한 대표적인 작동순서를 나타내는 플롤우차트도이다.
도 10은 도 3의 구성에서 피치검출의 결과를 나타내는 도면이다.
도 11은 본 발명의 음성신호 부호화장치를 이용하는 휴대 단말장치의 송신측의 구성을 나타내는 블록도이다.
도 12는 본 발명의 음성신호 복호화장치를 이용하는 휴대 단말장치의 수신측의 구성을 나타내는 블록도이다.
* 도면의 주요부분에 대한 부호설명
110. 제 1부호화부 111. LPC역필터
113. LPC분석 및 양자화부 114. 사인파 분석 부호화부
115. V/UV판정부(유성음/무성음 판정부)
116. 벡터양자화부 120. 제 2부호화부
121. 잡음코드북 122. 청각가중 합성필터
123. 감산기 124. 거리계산회로
125. 청각가중필터 211. 유성음 합성부
212. 역벡터양자화부 213. LPC파라미터 재생부
214. LPC합성필터 220. 무성음 합성부

Claims (6)

  1. 입력 음성신호의 기본주기에 대응하는 피치를 검출하기 위한 피치검출 방법에 있어서,
    소정 피치검출조건에서 피치정보를 검출하는 피치탐색단계와,
    검출된 피치정보와, 상기 입력 음성신호의 음성레벨과, 입력 음성신호의 자기상관 피크값에 기초해서, 피치일 가능성을 평가하는 고신뢰성 피치정보를 설정하는 단계와,
    설정된 고신뢰성 피치정보에 기초해서 피치를 결정하는 단계를 포함하여 이루어진 것을 특징으로 하는 피치검출 방법.
  2. 제 1항에 있어서,
    상기 고신뢰성 피치정보를 설정하는 단계는, 고신뢰성 피치정보의 후보값을 설정하고, 상기 고신뢰성 피치정보와 충분히 근접한 피치가 검출되면 고신뢰성 피치정보의 후보값을 갱신하며, 그렇지 않다면 고신뢰성 피치정보의 후보값을 버리고, 상기 후보값이 소정 시간 동안 유지되면 고신뢰성 피치정보의 후보값을 설정하는 것을 특징으로 하는 피치검출 방법.
  3. 제 1항에 있어서,
    상기 설정된 고신뢰성 피치정보는 소정 시간 동안 유지되며, 고신뢰성 피치정보가 다음 부호화단위에서 검출되는 피치와 충분히 근접할 경우에는 고신뢰성 피치정보의 값이 갱신되고, 만일 고신뢰성 피치정보가 상기 소정시간 이내에 갱신되지 않으면 상기 값이 버려지는 것을 특징으로 하는 피치검출 방법.
  4. 제 1항에 있어서,
    상기 피치탐색단계는 개루프(open-loop) 탐색에 의한 개략 피치 탐색단계이며, 고정밀의 피치탐색은 폐루프(closed-loop) 탐색에 의해 실시되는 것을 특징으로 하는 피치검출 방법.
  5. 입력 음성신호가 소정 부호화단위로 분할되어서 그 부호화단위 마다 부호화되는 음성신호 부호화방법에 있어서,
    입력 음성신호를 유성음인지 무성음인지에 대해서 판정하는 단계와,
    소정 피치검출조건 하에서 입력 음성신호의 기본주기에 대응하는 피치정보를 검출하는 피치탐색단계와,
    검출된 피치정보와, 입력 음성신호의 음성레벨과 입력 음성신호의 자기상관 피크값에 기초하여, 피치일 가능성을 평가하는 고신뢰성 피치정보를 설정하는 단계와,
    설정된 고신뢰성 피치정보에 기초하여 피치를 결정하는 단계와,
    결정된 피치를 이용하여 입력 음성신호의 단기 예측 잔차를 구하는 예측부호화단계와,
    구해진 단기 예측 잔차에 대해서 사인파 분석 부호화를 행하는 사인파 분석 부호화단계를 포함하여 이루어진 것을 특징으로 하는 음성신호 부호화방법.
  6. 입력 음성신호를 소정 부호화단위로 분할하여 그 부호화단위 마다 부호화하는 음성신호 부호화장치에 있어서,
    입력 음성신호의 단기예측 잔차를 구하기 위한 예측부호화 수단과,
    구해진 단기예측 잔차에 대해서 사인파 분석 부호화를 실시하기 위한 사인파 분석 부호화수단과,
    입력 음성신호를 파형부호화하기 위한 파형부호화 수단과,
    입력 음성신호를 유성음인지 무성음인지에 대해서 판정하기 위한 판정수단과,
    입력 음성신호의 피치를 검출하여 피치정보를 구하는 수단과,
    검출된 피치정보에 대해서 고신뢰성 피치정보를 설정하는 수단을 포함하여 구성되며,
    여기서 상기 사인파 분석 부호화수단에 의한 부호화출력은, 상기 판정수단의 판정결과에 기초해서 유성음이라고 알려진 부호화단위 동안에 취출되며, 상기 부호여기 선형예측 부호화수단에 의한 부호화출력은, 무성음으로 알려진 부호화단위 동안에 취출되며,
    상기 사인파 분석 부호화수단에 의한 부호화출력은, 상기 설정된 고신뢰성 피치정보에 기초하여 결정되는 피치를 갖는 것을 특징으로 하는 음성 부호화 장치.
KR1019970048768A 1996-09-27 1997-09-25 음성부호화방법및장치,피치검출방법 KR100538987B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP96-257128 1996-09-27
JP8257128A JPH10105194A (ja) 1996-09-27 1996-09-27 ピッチ検出方法、音声信号符号化方法および装置

Publications (2)

Publication Number Publication Date
KR19980024970A KR19980024970A (ko) 1998-07-06
KR100538987B1 true KR100538987B1 (ko) 2006-03-22

Family

ID=17302125

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970048768A KR100538987B1 (ko) 1996-09-27 1997-09-25 음성부호화방법및장치,피치검출방법

Country Status (4)

Country Link
US (1) US6243672B1 (ko)
JP (1) JPH10105194A (ko)
KR (1) KR100538987B1 (ko)
SG (1) SG53078A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006174A (en) * 1990-10-03 1999-12-21 Interdigital Technology Coporation Multiple impulse excitation speech encoder and decoder
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
FI116992B (fi) * 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
US20070163425A1 (en) * 2000-03-13 2007-07-19 Tsui Chi-Ying Melody retrieval system
US7035932B1 (en) * 2000-10-27 2006-04-25 Eric Morgan Dowling Federated multiprotocol communication
KR100463417B1 (ko) * 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
KR100526110B1 (ko) * 2003-11-19 2005-11-08 학교법인연세대학교 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
US7933767B2 (en) * 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
KR100986957B1 (ko) * 2005-12-05 2010-10-12 퀄컴 인코포레이티드 토널 컴포넌트들을 감지하는 시스템들, 방법들, 및 장치들
KR100827153B1 (ko) 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
KR101441898B1 (ko) * 2008-02-01 2014-09-23 삼성전자주식회사 주파수 부호화 방법 및 장치와 주파수 복호화 방법 및 장치
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
WO2010091554A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种基音周期检测方法和装置
CN101572089B (zh) * 2009-05-21 2012-01-25 华为技术有限公司 信号周期检测方法及其装置
US8990094B2 (en) 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US9071340B2 (en) * 2013-09-02 2015-06-30 Samsung Electronics Co., Ltd. Method and apparatus for generating orthogonal codes with wide range of spreading factor
US10290303B2 (en) * 2016-08-25 2019-05-14 Google Llc Audio compensation techniques for network outages
US9779755B1 (en) 2016-08-25 2017-10-03 Google Inc. Techniques for decreasing echo and transmission periods for audio communication sessions

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265489A (ja) * 1992-03-18 1993-10-15 Sony Corp ピッチ抽出方法
JPH0736491A (ja) * 1993-07-22 1995-02-07 Matsushita Electric Ind Co Ltd ピッチ抽出装置
JPH0736492A (ja) * 1993-07-20 1995-02-07 Matsushita Electric Ind Co Ltd コードブック作成装置
KR950016102A (ko) * 1993-11-22 1995-06-17 양승택 씨이엘피(celp) 보코더에서의 부호화 방법
JPH0844395A (ja) * 1994-08-04 1996-02-16 Fujitsu Ltd 音声ピッチ検出装置
JPH0887298A (ja) * 1994-09-16 1996-04-02 Sony Corp オーディオ信号処理方法とその装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4803730A (en) 1986-10-31 1989-02-07 American Telephone And Telegraph Company, At&T Bell Laboratories Fast significant sample detection for a pitch detector
EP0280827B1 (en) 1987-03-05 1993-01-27 International Business Machines Corporation Pitch detection process and speech coder using said process
US4809334A (en) * 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5003604A (en) 1988-03-14 1991-03-26 Fujitsu Limited Voice coding apparatus
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
CA2149163C (en) * 1994-06-28 1999-01-26 Jeffrey Wayne Daugherty Detection of tones while minimizing incorrect identification of other sounds as tones
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5774836A (en) * 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265489A (ja) * 1992-03-18 1993-10-15 Sony Corp ピッチ抽出方法
JPH0736492A (ja) * 1993-07-20 1995-02-07 Matsushita Electric Ind Co Ltd コードブック作成装置
JPH0736491A (ja) * 1993-07-22 1995-02-07 Matsushita Electric Ind Co Ltd ピッチ抽出装置
KR950016102A (ko) * 1993-11-22 1995-06-17 양승택 씨이엘피(celp) 보코더에서의 부호화 방법
JPH0844395A (ja) * 1994-08-04 1996-02-16 Fujitsu Ltd 音声ピッチ検出装置
JPH0887298A (ja) * 1994-09-16 1996-04-02 Sony Corp オーディオ信号処理方法とその装置

Also Published As

Publication number Publication date
US6243672B1 (en) 2001-06-05
KR19980024970A (ko) 1998-07-06
SG53078A1 (en) 1998-09-28
JPH10105194A (ja) 1998-04-24

Similar Documents

Publication Publication Date Title
KR100538987B1 (ko) 음성부호화방법및장치,피치검출방법
KR100427754B1 (ko) 음성부호화방법및장치와음성복호화방법및장치
KR100496670B1 (ko) 음성 분석 방법 및 음성 부호화 방법 및 장치
KR100487136B1 (ko) 음성복호화방법및장치
Kleijn Encoding speech using prototype waveforms
EP0770987B1 (en) Method and apparatus for reproducing speech signals, method and apparatus for decoding the speech, method and apparatus for synthesizing the speech and portable radio terminal apparatus
JP3653826B2 (ja) 音声復号化方法及び装置
KR100526829B1 (ko) 음성부호화방법및장치음성복호화방법및장치
JP3840684B2 (ja) ピッチ抽出装置及びピッチ抽出方法
JP3680380B2 (ja) 音声符号化方法及び装置
KR100767456B1 (ko) 음성부호화장치 및 방법, 입력신호 판정방법,음성복호장치 및 방법 및 프로그램 제공매체
KR100452955B1 (ko) 음성부호화방법, 음성복호화방법, 음성부호화장치, 음성복호화장치, 전화장치, 피치변환방법 및 매체
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
KR100538985B1 (ko) 음성부호화방법및장치와피치검출방법및장치
JPH10214100A (ja) 音声合成方法
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
JP4826580B2 (ja) 音声信号の再生方法及び装置
JP3896654B2 (ja) 音声信号区間検出方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111213

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20121207

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee