KR19980032825A - 음성 분석 방법 및 음성 부호화 방법 및 장치 - Google Patents

음성 분석 방법 및 음성 부호화 방법 및 장치 Download PDF

Info

Publication number
KR19980032825A
KR19980032825A KR1019970052654A KR19970052654A KR19980032825A KR 19980032825 A KR19980032825 A KR 19980032825A KR 1019970052654 A KR1019970052654 A KR 1019970052654A KR 19970052654 A KR19970052654 A KR 19970052654A KR 19980032825 A KR19980032825 A KR 19980032825A
Authority
KR
South Korea
Prior art keywords
pitch
search
pitch search
speech
harmonics
Prior art date
Application number
KR1019970052654A
Other languages
English (en)
Other versions
KR100496670B1 (ko
Inventor
니시구찌마사유끼
마쯔모또준
이이지마가즈유끼
이노우에아끼라
Original Assignee
이데이노브유끼
소니가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이데이노브유끼, 소니가부시끼가이샤 filed Critical 이데이노브유끼
Publication of KR19980032825A publication Critical patent/KR19980032825A/ko
Application granted granted Critical
Publication of KR100496670B1 publication Critical patent/KR100496670B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

발명에 의한 음성 분석 방법과 음성 부호화 방법 및 장치는 음성 스펙트럼의 하모닉스가 기본파의 정수배와 엇갈리더라도, 하모닉스의 진폭이 올바르게 평가되어 고명확성의 재생출력을 생성한다. 이 목적을 위해, 입력 음성의 주파수 스펙트럼은 주파수축상에서 다수의 대역으로 구분되고 이 대역마다에서 피치 탐색과 하모닉스의 진폭의 평가가 스펙트럼 형상으로부터 얻어진 최적 피치를 사용하여 동시에 행해진다. 스펙트럼 형상으로서 하모닉스의 구조를 사용하고 개방루프 개략 피치 탐색에 의해 미리 검출된 개략 피치에 기초하여, 주파수 스펙트럼 전체에 대한 제 1피치 탐색과 제 1피치 탐색보다 더 정밀한 제 2피치 탐색으로 이루어진 고정밀 피치 탐색이 행해진다. 제 2피치 탐색은 주파수 스펙트럼의 고범위측과 저범위측 각각에 대해 독립적으로 행해진다.

Description

음성 분석 방법 및 음성 부호화 방법 및 장치
본 발명은 입력 음성신호가 부호화 단위로서 프레임 또는 블록에 의하여 구분되고, 이 부호화 단위에 기초한 음성신호의 기본 주기에 해당하는 피치가 검출되고, 이 음성신호는 부호화 단위마다 상기 검출된 피치에 따라 분석되는 음성 분석 방법에 관한 것이다. 본 발명은 또한 이 음성 분석 방법을 사용하는 음성 부호화 방법 및 장치에 관한 것이다.
지금까지는 시간영역 및 주파수영역에서의 신호의 통계적 성질 및 인간의 청감상 특성을 이용하여서 신호압축을 위해 (음성 및 음향 신호를 포함한)오디오 신호를 부호화하기 위한 다양한 부호화 방법이 알려져 있다. 이 부호화 방법은 개략 시간영역 부호화, 주파수영역 부호화, 분석/합성 부호화로 구분된다.
음성신호의 고효율 부호화의 예들은 하모닉스 부호화 또는 다중대역여기(MBE) 부호화 등의 사인파 분석 부호화와, 부대역 부호화(SBC)와, 선형예측 부호화(LPC)와, 이산 코사인 변형(DCT)과, 변경된 DCT(MDCT)와, 고속 푸리에 변환(FFT)을 포함한다.
종래의 LPC잔차에 대한 하모닉스의 부호화, MBE, STC, 또는 하모닉스 부호화에서, 개략 피치용 피치 탐색은 개방루프에서 행해지고 그 다음으로 정밀 피치용 고정밀 피치 탐색이 행해진다. 이 정밀 피치용 피치 탐색시에, 고정밀 피치 탐색(정수보다 작은 샘플값으로 분수 피치 탐색) 및 주파수 범위에서 파형의 진폭 평가는 동시에 행해진다. 이 고정밀 피치 탐색은 전체적인 주파수 스펙트럼의 합성 파형, 즉 합성 스펙트럼과 LPC잔차의 스펙트럼 등의 오리지널 스펙트럼의 왜곡을 최소화하기 위해 행해진다.
그런데, 인간의 음성의 주파수 스펙트럼에서, 스펙트럼 성분이 반드시 기본파의 정수배에 해당하는 주파수로 존재하지는 않는다. 반대로, 이 스펙트럼 성분은 주파수축을 따라 미세하게 이동될 수도 있다. 이 경우에는, 고정밀 피치 탐색이 단일의 기본 주파수 또는 음성신호의 전체 주파수 스펙트럼에 대한 피치를 사용하여 행해지더라도 주파수 스펙트럼의 진폭 평가가 올바르게 수행될 수 없는 경우가 있다.
따라서 본 발명의 목적은 기본파의 정수배로부터 현재 음성의 주파수 스펙트럼의 하모닉스의 진폭의 엇갈림을 올바르게 평가하기 위한 음성 분석 방법 및 상기 음성 분석 방법을 적용하므로써 고정밀의 재생 출력을 생성하는 방법 및 장치를 제공하는 것이다.
도 1은 본 발명을 구체화하는 음성 부호화 방법을 행하는데 적합한 음성 부호화 장치의 기본 구조를 나타내는 블록도이다.
도 2는 본 발명을 구체화하는 음성 복호화 방법을 행하는데 적합한 음성 복호화 장치의 기본 구조를 나타내는 블록도이다.
도 3은 본 발명을 구체화하는 음성 부호화 장치의 더 상세한 구조를 나타내는 블록도이다.
도 4는 본 발명을 구체화하는 음성 복호화 장치의 더 상세한 구조를 나타내는 블록도이다.
도 5는 하모닉스의 진폭을 평가할 때 작동의 기본 순서를 나타낸다.
도 6은 프레임마다 처리된 주파수 스펙트럼의 중첩을 나타낸다.
도 7a 및 도 7b는 베이스 생성을 나타낸다.
도 8a, 도 8b, 도 8c는 정수 탐색 및 분수 탐색을 나타낸다.
도 9는 정수 탐색의 작동의 전형적인 순서를 나타내는 순서도이다.
도 10은 고주파수 범위에서의 정수 탐색 작동의 전형적인 순서를 나타내는 순서도이다.
도 11은 저주파수 범위에서의 정수 탐색 작동의 전형적인 순서를 나타내는 순서도이다.
도 12는 피치를 최종적으로 설정하기 위한 작동의 전형적인 순서를 나타내는 순서도이다.
도 13은 각 주파수 범위에 대해 최적 하모닉스의 진폭을 구하는 작동의 전형적인 순서를 나타내는 순서도이다.
도 14는 도 13에서 이어지는, 각 주파수 범위에 대해 최적 하모닉스의 진폭을 구하기 위한 작동의 전형적인 순서를 나타내는 순서도이다.
도 15는 출력 데이터의 비트속도를 나타낸다.
도 16은 본 발명을 구체화하는 음성 부호화 장치를 사용하는 휴대 단말기의 송신단의 구조를 나타내는 블록도이다.
도 17은 본 발명을 구체화하는 음성 부호화 장치를 사용하는 휴대 단말기의 수신단의 구조를 나타내는 블록도이다.
* 도면의 주요부분에 대한 부호설명
110. 제 1부호화부 111. LPC역필터
113. LPC분석 양자화부 114. 사인파 분석 부호화부
115. V/UV판정부 120. 제 2부호화부
121. 잡음코드북 122. 가중 합성 필터
123. 감산기 124. 거리계산회로
125. 청각 가중 필터
본 발명에 의한 음성 분석 방법에서, 입력 음성신호는 소정의 부호화 단위에 의해 시간축상에서 구분되고, 이와같이 부호화 단위로 구분된 음성신호의 기본 주기와 동일한 피치가 검출되고 음성신호는 이 검출된 피치에 의거하여 부호화 단위마다 분석된다. 이 방법은 입력 음성신호에 해당하는 신호의 주파수 스펙트럼을 주파수축 상에서 다수의 대역으로 구분하고 대역마다 스펙트럼형으로부터 유도된 피치를 사용하여 피치 탐색 및 하모닉스의 진폭의 평가를 동시에 행하는 단계를 포함한다.
본 발명에 의한 음성 분석 방법에 의하면, 기본파의 정수배로부터의 하모닉스의 진폭의 엇갈림이 올바르게 평가될 수 있다.
본 발명의 부호화 방법 및 장치에서, 입력 음성신호는 소정의 복수의 부호화 단위로 시간축상에서 구분되고, 각 부호화 단위마다 음성신호의 기본 주기에 해당하는 피치가 검출되고, 이 음성신호는 검출된 피치에 의거하여 부호화 단위마다 부호화된다. 입력 음성신호에 해당하는 신호의 주파수 스펙트럼은 주파수축 상에서 다수의 대역으로 구분되고 대역마다 스펙트럼형으로부터 유도된 피치를 사용하여 피치 탐색 및 하모닉스의 진폭의 평가가 동시에 행해진다.
본 발명에 의한 음성 분석 방법에 의하면, 기본파의 정수배로부터 하모닉스의 진폭의 엇갈림이 올바르게 평가될 수 있어서 윙윙거리는 음감이나 왜곡이 없는 고명확성의 재생출력을 얻을 수 있다.
구체적으로, 입력 음성신호의 주파수 스펙트럼은 주파수축상에서 다수의 대역으로 구분되고, 이 각각에서 동시에 피치 탐색과 하모닉스의 진폭의 평가가 행해진다. 스펙트럼형은 하모닉스의 구조이다. 개방루프 개략 피치 탐색에 의해 미리 검출된 개략 피치에 따른 제 1피치 탐색이 전체의 주파수 스펙트럼에 대해 행해지고 이와 동시에 제 2피치 탐색이 제 1피치 탐색보다 높은 정밀도로 주파수 스펙트럼의 고주파수 범위측 및 저주파수 범위측 각각에 대해 독립적으로 행해진다. 기본파의 정수배로부터의 음성 스펙트럼의 하모닉스의 진폭의 엇갈림이 올바르게 평가될 수 있어서 고정밀 재생출력을 얻을 수 있다.
도면을 참고로 본 발명의 바람직한 실시예가 상세하게 설명될 것이다.
도 1은 본 발명을 구체화하는 음성 분석 방법 및 음성 부호화 방법을 이행하는 음성 부호화 장치(음성 부호기)의 기본 구조를 나타낸다.
도 1의 음성 신호 부호기의 기초가 되는 기본 개념은, 이 부호기가, 일예로 하모닉스 코딩(Coding)과 같은 사인파 분석 부호화를 행하기 위해, 입력 음성신호의, 예로 선형 예측 부호화(LPC) 잔차(Residuals)와 같은 단기 예측 잔차를 구하기 위한 제 1부호화부(110)와, 입력 음성신호를 위상재현성을 갖는 파형 부호화에 의해 부호화하기 위한 제 2부호화부(120)를 갖는다는 것이고, 상기 제 1부호화부(110)와 제 2부호화부(120)는 각각 입력 신호의 유성음(V) 부분을 부호화하고 입력 신호의 무성음(UV) 부분을 부호화하는데 사용된다는 것이다.
제 1부호화부(110)는 일예로 하모닉스 부호화나 다중대역여기(MBE) 부호화와 같은 사인파분석 부호화로 예를들어 LPC잔차를 부호화하는 구성을 사용한다. 제 2부호화부(120)는 최적 벡터의 폐쇄루프탐색에 의한 벡터양자화를 폐쇄루프에 의해 사용하고 또한 예를들어 합성에 의한 분석 방법을 사용하여 부호 여기 선형예측(CELP)을 행하는 구성이다.
도 1에 도시된 실시예에서, 입력단자(101)로 공급된 음성신호는 제 1부호화부(110)의 LPC 역필터(111)와 LPC 분석 및 양자화부(113)로 보내진다. LPC 분석 양자화부(113)에 의해 얻어진 LPC계수 또는 이른바 α파라미터는 제 1부호화부(110)의 LPC 역필터(111)로 보내진다. LPC 역필터(111)로부터 입력 음성신호의 선형 예측 잔차(LPC 잔차)를 출력한다. LPC 분석 양자화부(113)로부터 선형 스펙트럼쌍(LSPs)의 양자화 출력이 출력되어 후술될 출력 단자(102)로 보내진다. 사인파분석 부호화부(114)는 V/UV 판정부(115)에 의한 V/UV판정 뿐만 아니라 피치검출과, 스펙트럼 엔벌로프의 진폭의 계산을 행한다. 사인파 분석 부호화부(114)로부터의 스펙트럼 엔벌로프 진폭 데이터는 벡터양자화부(116)로 보내진다. 스펙트럼 엔벌로프의 벡터양자화 출력으로서, 벡터양자화부(116)로부터의 코드북 인덱스는 스위치(117)를 경유하여 출력단자(103)로 보내지는 반면, 사인파분석 부호화부(114)의 출력은 스위치(118)를 통해 출력단자(104)로 보내진다. V/UV판정부(115)의 V/UV판정출력은 출력단자(105)로 보내지고, 제어신호로서 스위치(117, 118)에 보내진다. 만약 입력 음성신호가 유성음(V)이면, 인덱스와 피치가 선택되어 출력단자(103, 104)에 출력된다.
본 실시예에서, 도 1의 제 2부호화부(120)는 부호 여기 선형 예측 부호화(CELP부호화)구성을 갖고, 합성에 의한 분석 방법을 이용하는 폐쇄루프탐색을 사용하여 시간영역 파형을 벡터양자화하는데, 여기에서 잡음 코드북(121)의 출력은 가중 합성필터(122)에 의해 합성되고, 이 결과의 가중 음성은 감산기(123)로 보내지고, 이 가중 음성과 입력단자(101)에 그리고 이로부터 청각 가중 필터(125)를 통해 공급된 오차가 출력되고, 이와같이 구해진 오차는 거리계산회로(124)로 보내져서 거리계산을 이행하고 상기 오차를 최소화하는 벡터가 잡음 코드북(121)에 의해 탐색된다. 이 CELP부호화는 상기했듯이, 무성음부분을 부호화 하는데 사용된다. 잡음 코드북(121)으로부터의 UV데이터로서 코드북 인덱스는 V/UV 판정의 결과가 무성음(UV)일 때 켜지는 스위치(127)를 통해 출력단자(107)에서 출력된다.
도 2는, 도 1의 음성 신호 부호기에 대응하는 장치로서, 본 발명에 의한 음성 복호화 방법을 수행하기 위한 음성신호 복호화 장치의 기본 구조를 나타내는 블록도이다.
도 2를 참고하면, 도 1의 출력단자(102)로부터의 선형 스펙트럼쌍(LSPs)의 양자화 출력으로서 코드북 인덱스는 입력단자(202)로 공급된다. 도 1의 출력단자(103, 104, 105)의 출력, 즉 피치, V/UV판정 출력 및 인덱스 데이터가 엔벌로프 양자화 출력 데이터로서 각각 입력단자(203, 204, 205)에 입력된다. 도 1의 출력단자(107)로부터의 무성음(UV)에 대한 인덱스 데이터가 입력단자(207)에 입력된다.
입력단자(203)의 엔벌로프 양자화 출력으로서 인덱스는 역벡터양자화를 위해 역벡터양자화부(212)로 보내지고 LPC잔차의 스펙트럼 엔벌로프를 찾아서 이를 유성음 합성기(211)로 보낸다. 유성음 합성기(211)는 사인파 합성에 의해 유성음 부분의 선형 예측 부호화(LPC)잔차를 합성한다. 유성음 합성기(211)에는 또한 입력단자(204, 205)로부터의 피치 및 V/UV판정 출력이 공급된다. 유성음 합성부(211)로부터의 유성음의 LPC잔차는 LPC 합성필터(214)로 보내진다. 입력단자(207)로부터의 UV데이터의 인덱스 데이터는 무성음 합성부(220)로 보내지고 여기에서 무성음 부분의 LPC잔차를 꺼내기 위해 잡음 코드북이 참고가 되어야 한다. 이 LPC잔차는 또한 LPC 합성필터(214)로 보내진다. LPC 합성필터(214)에서, 유성음 부분의 LPC 잔차와 무성음 부분의 LPC 잔차가 LPC 합성에 의해 독립적으로 처리된다. 대신에, 서로 합해진 유성음 부분의 LPC 잔차와 무성음 부분의 LPC 잔차가 LPC 합성처리될 수도 있다. 입력단자(202)로부터의 LSP 인덱스 데이터는 LPC파라미터 재생부(213)로 보내지고 여기에서 LPC의 α파라미터는 꺼내져서 LPC 합성필터(214)로 보내진다. LPC 합성필터(214)에 의해 합성된 음성신호는 출력 단자(201)에서 꺼내진다.
도 3을 참고로, 도 1에 도시된 음성 신호 부호기의 더 상세한 구조를 이제 설명한다. 도 3에서, 도 1과 비슷한 부분 또는 구성요소는 동일한 참고부호로 표시한다.
도 3에 도시된 음성 신호 부호기에서, 입력단자(101)에 공급된 음성 신호는 고범위 통과 필터(HPF)(109)에 의해 여과되어 불필요한 범위의 신호가 제거되고 이로부터 LPC 분석/양자화부(113)의 LPC(선형 예측 부호화) 분석회로(132)와 LPC 역필터(111)에 공급된다.
LPC 분석/양자화부(113)의 LPC 분석 회로(132)는 샘플링 주파수(fs = 8kHz)를 갖는 입력 신호 파형의 256샘플 정도의 입력 신호 파형의 길이를 1블록으로서, 해밍창(Hamming Window)을 적용하고, 이른바 α파라미터인 선형 예측 계수를 자기 상관법에 의해 구한다. 1데이터 출력부로서 프레임 간격은 개략 160샘플로 설정된다. 일예로, 만약 샘플링 주파수(fs)가 8kHz이면 1프레임 간격은 20msec 또는 160샘플이다.
LPC 분석 회로(132)로부터의 α파라미터는 α-LSP 변환회로(133)로 보내져서 선형 스펙트럼쌍(LSP) 파라미터로 변환된다. 이것은 직접형 필터계수로서 구해진 α파라미터를, 일예로 LSP 파라미터의 5쌍인 10으로 변환한다. 이 변환은, 일예로 뉴튼-랩슨법에 의해 수행된다. α파라미터가 LSP 파라미터로 변환되는 이유는 LSP 파라미터가 보간 특성에서 α파라미터보다 우수하기 때문이다.
α-LSP 변환회로(133)로부터의 LSP파라미터는 LSP 양자화기(134)에 의한 매트릭스-또는 벡터이다. 벡터양자화 이전의 프레임간 차이를 취하거나 여기에 매트릭스 양자화를 수행하기 위해 복수의 프레임을 모을 수 있다. 이 경우에, 20msec마다 계산된, 각각 20msec 길이의, LSP 파라미터의 2프레임이 함께 취급되어 매트릭스 양자화 및 벡터양자화 처리된다. LSP 범위에서 LSP 파라미터를 양자화하기 위해, α 또는 k파라미터가 바로 양자화될 수도 있다. LSP 양자화의 인덱스 데이터인 양자화기(134)의 양자화 출력은 단자(102)에서 출력되는 반면, 양자화 LSP 벡터는 LSP 보간 회로(136)로 보내진다.
LSP 보간회로(136)는 8배속(오버샘플링)을 제공하기 위해, 20msec 또는 40msec 마다 양자화된 LSP 벡터를 보간한다. 즉, LSP 벡터는 2.5msec 마다 갱신된다. 이것은, 만약 잔차 파형이 하모닉스 부호화/복호화 방법에 의해 분석/합성 처리되면, 합성 파형의 엔벌로프가 매우 매끄러운 파형을 나타내므로, LPC 계수가 20msec 마다 갑작스럽게 변화하면 이상음이 발생될 것 같다. 다시말해, 만약 LPC 계수가 2.5msec마다 서서히 변하면, 상기 이상잡음의 발생이 방지될 수 있다.
2.5msec 마다 생성된 보간 LSP 벡터를 사용하여 입력 음성을 역필터링하기 위해, LSP 파라미터는 LSP→α 변환회로(137)에 의해 α파라미터로 변환된다(이것은 일예로 10차정도의 직접형 필터의 필터계수이다). LSP→α변환회로(137)의 출력은 LPC 변환 필터회로(111)로 보내져서, 역필터링을 실행하여 2.5msec 마다 갱신된 α파라미터를 사용하여 매끄러운 출력을 생성한다. LPC 역필터(111)의 출력은, 일예로 하모닉스 부호화 회로와 같은 사인파 분석 부호화부(114)의, 일예로 DCT 회로와 같은 직교 변환회로(145)로 보내진다.
LPC 분석/양자화부(113)의 LPC분석회로(132)로부터의 α파라미터는 청각가중 계산 회로(139)로 보내져서 청각 가중을 위한 데이터가 구해진다. 이 가중 데이터는 청각 가중 벡터양자화기(116)와 제 2부호화부(120)의 청각 가중 필터(125)와 청각 가중 합성필터(122)로 보내진다.
하모닉스 부호화 회로의 사인파 분석 부호화부(114)는 하모닉스 부호화 방법으로 LPC 역필터(111)의 출력을 분석한다. 다시말해, 피치검출, 각 하모닉스의 진폭(Am)산출 및 유성음(V)/무성음(UV) 판별이 행해지고, 피치로 변화된 각 하모닉스의 엔벌로프 또는 진폭(Am)의 개수는 차원변환에 의해 일정하게 된다.
도 3에 도시된 사인파 분석 부호화부(114)의 구체적인 예에서는, 일반적인 하모닉스 부호화가 사용된다. 특히, 다중대역여기(MBE) 부호화에서, 모델화할 때 동시각(동일한 블록 또는 프레임)의 주파수영역 즉 대역마다 유성음 부분과 무성음 부분이 존재한다고 가정한다. 다른 하모닉스 부호화 기술에서는, 1블록 또는 1프레임의 음성이 유성음인지 무성음인지가 택일적으로 판단된다. 다음 설명에서, MBE 부호화가 관련된 한에 있어서는, 대역 전체가 UV이면 소정의 프레임이 UV인 것으로 판정된다. 상기한 MBE에 대한 분석합성방법기술의 구체적인 예는 본 출원의 출원인의 이름으로 제출된 일본 특허출원번호 4-91442에 나와 있다.
도 3의 사인파 분석 부호화부(114)의 개방루프 피치 탐색부(141)와 영교차 카운터(142)에는 입력단자(101)로부터의 입력 음성신호와 고범위 통과 필터(HPF)(109)로부터의 신호가 각각 공급된다. 사인파 분석 부호화부(114)의 직교 변환회로(145)에는 LPC 역필터(111)로부터의 LPC 잔차 즉 선형 예측 잔차가 공급된다.
개방루프 피치 탐색부(141)는 개방루프 피치 탐색에 의해 비교적 개략 피치 탐색을 행하기 위해 입력신호의 LPC잔차를 취한다. 추출된 개략 피치 데이터는 고정밀 피치 탐색부(146)로 보내지고 여기서 후술될 폐쇄루프 탐색에 의해 정밀 피치 탐색이 행해진다. 사용된 피치 데이터는 이른바 피치 래그, 즉 시간축상에 샘플의 수로서 표현된 피치 주기이다. 유성음/무성음(V/UV) 판정부(115)로부터의 판정 출력은 또한 개방루프 피치 탐색을 위한 파라미터로서 사용될 수도 있다. 유성음(V)으로 판정된 음성신호의 부분으로부터 추출된 피치정보만이 상기 개방루프 피치 탐색을 위해 사용된다.
직교 변환회로(145)는, 일예로 256포인트 이산(離散) 푸리에 변환(DFT)과 같은 직교변환을 행하여 타임축의 LPC잔차를 주파수축의 스펙트럼 진폭 데이터로 변환한다. 직교 변환회로(145)의 출력은 고정밀 피치 탐색부(146)와 스펙트럼 진폭 또는 엔벌로프를 평가하기 위해 구성된 스펙트럼 평가부(148)로 보내진다.
고정밀 피치 탐색부(146)에는 개방루프 피치 탐색부(141)에 의해 추출된 비교적 개략 피치 데이터와 직교 변환부(145)에 의해 DFT에 의해 얻어진 주파수 영역 데이터가 공급된다. 개략 피치(P0)에 따라, 고정밀 피치 탐색부(146)는 정수 탐색 및 분수 탐색으로 이루어지는 2단계 고정밀 피치 탐색을 행한다.
정수 탐색은 여러개의 샘플의 세트가 피치를 선택하기 위해 중심으로서 개략 피치 주위에서 변화되는 피치 추출 방법이다. 분수 탐색은 분수의 샘플, 즉 분수에 의해 표현된 샘플의 수가 피치를 선택하기 위해 중심으로서 개략 피치 주위에서 변화되는 피치 검출 방법이다.
상기한 정수 탐색 및 분수 탐색에 대한 기술로서, 이른바 합성에 의한 분석 방법이 피치를 선택하기 위해 사용되어서 합성된 파워 스펙트럼은 원음의 파워 스펙트럼에 가장 근접하게 될 것이다.
스펙트럼 평가부(148)에서, 각 하모닉스와 하모닉스의 합으로서의 스펙트럼 엔벌로프의 진폭은 LPC잔차의 직교 변환 출력으로서의 스펙트럼 진폭과 피치를 기초로 평가되어, 고정밀 피치 탐색부(146)와 V/UV판정부(115)와 청각 가중 벡터양자화부(116)로 보내진다.
V/UV판정부(115)는, 직교 변환회로(145)의 출력, 고정밀 피치 탐색부(146)로부터의 최적 피치, 스펙트럼 평가부(148)로부터의 스펙트럼 진폭 데이터, 개방루프 피치 탐색부(141)로부터의 정규화 자기 상관의 최대값(r(p)) 및 영교차 카운터(142)로부터의 영교차 카운터값에 따라 프레임의 V/UV를 판정한다. 또한, MBE에 있어서 대역에 따른 V/UV판정의 경계위치는 V/UV 판정에 대한 조건으로 또한 사용될 수 있다. V/UV 판정부(115)의 판정출력은 출력단자(105)에서 출력된다.
스펙트럼 평가부(148)의 출력부 또는 벡터양자화부(116)의 입력부에는 데이터수 변환부(일종의 샘플링율 변환을 수행하는 부)가 장치된다. 데이터수 변환부는 주파수축에 구분된 대역의 수와 데이터의 수가 피치와 다름을 고려하여 엔벌로프의 진폭 데이터(|Am|)를 일정한 값으로 설정하는데 사용된다. 다시말해, 만약 유효대역이 3400kHz까지이면, 유효대역은 피치에 따라 8 내지 63대역으로 구분될 수 있다. 각 대역 마다 얻어진 진폭 데이터 (|Am|)의 개수 mMX+1은 8 내지 63의 범위에서 변화된다. 따라서 데이터수 변환부(119)는 가변개수 (mMX+1)개의 진폭 데이터를, 일예로 44데이터와 같은 데이터의 일정개수 (M)개로 변환한다.
스펙트럼 평가부(148)의 출력부 즉 벡터양자화부(116)의 입력부에 제공된, 데이터 개수 변환부로부터의, 일예로 44와 같은 일정개수 (M)개의 진폭데이터나 엔벌로프 데이터는 데이터 양자화부(116)에 의해, 한 단위로서 일예로 44데이터와 같은 일정개수의 데이터에 의하여 함께 처리되고, 이에의해 벡터양자화부(116)에 의해 가중 벡터양자화된다. 이 중량은 청각 가중 필터 연산부(139)의 출력에 의해 공급된다. 벡터양자화기(116)로부터의 엔벌로프의 인덱스는 스위치(117)에 의해 출력단자(103)에서 출력된다. 가중 벡터양자화에 앞서, 일정개수의 데이터로 이루어진 벡터에 대해 적당한 리키지(Leakage) 계수를 사용하여 프레임간 차이를 취하는 것이 바람직하다.
제 2부호화부(120)를 설명한다. 제 2부호화부(120)는 이른바 부호여기선형예측(CELP) 부호화 구조를 갖고, 특히 입력 음성신호의 무성음 부분을 부호화하기 위해 사용된다. 입력 음성신호의 무성음 부분을 위한 CELP 부호화 구조에서, 이른바 스토캐스틱 코드북(121)인 잡음 코드북의 대표출력으로서 무성음 부분의 LPC잔차에 해당하는 잡음출력은 이득 제어회로(126)를 통해 청각 가중 합성필터(122)로 보내진다. 청각 가중 합성필터(122)는 LPC합성에 의해 입력 잡음을 LPC합성하고 이 결과의 가중 무성음 신호를 감산기(123)로 보낸다. 고역 통과 필터(HPF)(109)를 통해 입력단자(101)로부터 보내지고 청각 가중 필터(125)에 의해 청각 가중된 음성신호는 감산기(123)로 공급된다. 감산기(123)는 청각 가중 음성신호와 합성필터(122)로부터의 신호와의 차이 또는 오차를 구한다. 반면, 청각 가중 합성필터의 제로 입력응답은 미리 청각 가중 필터(125)의 출력으로부터 감산된다. 이 오차는 거리계산회로(124)로 공급되어 거리를 계산한다. 상기 오차를 최소화할 대표값 벡터는 잡음 코드북(121)에서 탐색된다. 상기한 것은 합성에 의한 분석법에 의해 폐쇄루프 탐색를 사용하는 시간영역 파형의 벡터 양자화의 요약이다.
CELP 부호화 구조를 사용하는 제 2부호기(120)로부터 무성음(UV)부분을 위한 데이터로서 잡음 코드북(121)으로부터의 코드북의 형상(Shape) 인덱스와 이득 회로(126)로부터의 코드북의 이득 인덱스가 출력된다. 잡음 코드북(121)으로부터의 UV데이터인 형상(Shape) 인덱스는 스위치(127s)를 통해 출력 단자(107s)로 보내지는 반면, 이득 회로(126)의 UV데이터인 이득 인덱스는 스위치(127g)를 통해 출력 단자(107g)로 보내진다.
이 스위치(127s, 127g)와 스위치(117, 118)는 V/UV판정부(115)로부터의 V/UV판정결과에 따라 온/오프 된다. 구체적으로, 만약 현재 송신된 프레임의 음성신호의 V/UV판정의 결과가 유성음(V)을 나타내면, 스위치(117, 118)가 온되는 반면, 만약 현재 송신된 프레임의 음성신호가 무성음(UV)이면, 스위치(127s, 127g)가 온된다.
도 4는 도 2에 도시된 음성신호 복호기의 더 상세한 구조를 나타낸다. 도 4에서, 동일한 부호는 도 2에 도시된 해당 구성요소를 지시하는데 사용된다.
도 4에서, 도 1 및 도 3의 출력단자(102)에 대응하는 LSPs의 벡터 양자화 출력, 즉 코드북 인덱스는 입력단자(202)로 공급된다.
LSP 인덱스는 LPC 파라미터 재생부(213)의 LSP의 역벡터양자화기(231)로 보내져서 선스펙트럼쌍(LSP) 데이터로 역 벡터 양자화되고 그리고나서 LSP보간을 위해 LSP보간회로(232, 233)로 공급된다. 이 결과의 보간 데이터는 LSP→α변환회로(234, 235)에 의해 α파라미터로 변환되어 LPC합성필터(214)로 보내진다. LSP보간회로(232)와 LSP→α변환회로(234)는 유성음(V)을 위해 고안된 것인 반면, LSP보간회로(233)와 LSP→α변환회로(235)는 무성음(UV)을 위해 고안된 것이다. LPC합성필터(214)는 유성음 부분의 LPC합성필터(236)와 무성음 부분의 LPC합성필터(237)로 이루어져 있다. 즉, LPC계수보간은 유성음 부분과 무성음 부분에 대해 독립적으로 행해져서 그렇지 않다면 유성음 부분으로부터 무성음 부분으로의 천이부분에서 발생될 즉 반대로 완전히 다른 성질의 LSPs의 보간에 의해 발생될 어떤 잘못된 결과를 방지한다.
도 4의 입력단자(203)에는 도 1 및 도 3의 부호기의 단자(103)의 출력에 해당하는 가중 벡터 양자화 스펙트럼 엔벌로프(Am)에 대응하는 코드 인덱스 데이터가 공급된다. 입력단자(204)에는 도 1 및 도 3의 단자(104)로부터의 피치 데이터가 공급되고 입력단자(205)에는 도 1 및 도 3의 단자(105)로부터의 V/UV판정 데이터가 공급된다.
입력단자(203)로부터의 스펙트럼 엔벌로프(Am)의 벡터 양자화 인덱스 데이터는 역 벡터 양자화를 위해 역벡터양자화기(212)로 공급되고 여기서 데이터수 변환으로부터 역전된 변환이 행해진다. 이 결과의 스펙트럼 엔벌로프 데이터는 사인파 합성회로(215)로 보내진다.
만약 프레임간 차이가 부호화시에 스펙트럼의 벡터 양자화 전에 구해지면, 프레임간 차이는 스펙트럼 엔벌로프 데이터를 생성하기 위해 역 벡터 양자화 후에 복호화 된다.
사인파 합성회로(215)에는 입력단자(204)로부터의 피치와 입력단자(205)로부터의 V/UV판정 데이터가 공급된다. 사인파 합성회로(215)로부터, 도 1 및 도 3에 도시된 LPC 역필터(111)의 출력에 해당하는 LPC 잔차 데이터는 출력되어 가산기(218)로 보내진다. 사인파 합성의 상세한 기술은 일예로, 본 출원인에 의해 제출된 일본 특허 출원번호 4-91442 및 6-198451에 나와있다.
역벡터양자화기(212)의 엔벌로프 데이터와 입력단자(204, 205)로부터의 피치 및 V/UV판정데이터는 유성음 부분(V)에 대해 잡음가산을 위해 잡음 합성회로(216)로 보내진다. 잡음 합성회로(216)의 출력은 가중중첩 및 가산회로를 통해 가산기(218)로 보내진다. 구체적으로, 만약 유성음의 LPC합성필터로의 입력으로서의 여기(excitation)가 사인파 합성에 의해 생성되면, 윙윙거리는 음감이 남성의 음성과 같은 저피치 음으로 생성되고 음질이 유성음과 무성음사이에서 갑작스럽게 변화하여서 부자연스러운 청감이 발생되는 것을 고려하여, 잡음은 LPC잔차 신호의 유성음 부분에 가산된다. 상기 잡음은 유성음 부분의 LPC합성필터 입력, 즉 여기와 관련하여 피치, 스펙트럼 엔벌로프의진폭, 프레임에서의 최대진폭,또는 잔차신호레벨 등의 음성 부호화 데이터와 관련된 파라미터를 참작한다.
가산기(218)의 총 출력은 LPC합성필터(214)의 유성음용 합성필터(23)로 보내지고 여기서 LPC합성이 시간파형 데이터를 형성하기 위해 행해지고 그리고나서 유성음용 포스트 필터(238v)에 의해 필터되어 가산기(239)로 보내진다.
도 3의 출력 단자(107s, 107g)로부터의 UV데이터로서, 형상 인덱스 및 이득 인덱스는 도 4의 입력단자(207S, 207g)로 각각 공급되고, 그리고나서 무성음 합성부(220)로 공급된다. 단자(207s)로부터의 형상 인덱스는 무성음 합성부(220)의 잡음 코드북(221)으로 보내는 반면, 단자(207g)로부터의 이득 인덱스는 이득 회로(222)로 보내진다. 잡음 코드북(221)으로부터 독출된 대표값 출력은 무성음의 LPC잔차에 해당하는 잡음 신호성분이다. 이것은 이득회로(222)에서 소정의 이득진폭이 되고 윈도 회로(223)로 보내져서 유성음 부분에 접합을 매끄럽게 하기 위해 윈도된다.
윈도 회로(223)의 출력은 LPC합성필터(214)의 무성음(UV)용 합성필터로 보내진다. 합성필터(237)로 보내진 데이터는 LPC합성으로 처리되어 무성음 부분을 위한 시간 파형 데이터가 된다. 무성음 부분의 시간파형 데이터는 가산기(239)로 보내지기 전에 무성음 부분(238u)을 위한 포스트 필터에 의해 여과된다.
가산기(239)에서, 유성음(238v)용 포스트 필터로부터의 시간파형 신호와 무성음용 포스트 필터(238u)로부터의 유성음 부분을 위한 시간파형 데이터는 서로 가산되어 이 결과의 합 데이터는 출력단자(201)에서 출력된다.
본 발명에 의한 음성 분석 방법이 적용되는 제 1부호화부(110)에 의한 처리의 기본 작동이 도 5에 나타난다.
입력 음성신호는 LPC 분석 스텝(S51) 및 개방루프 피치 탐색(개략 피치 탐색) 스텝(S55)으로 보내진다.
LPC 분석스텝(S51)에서, 입력 신호파형의 256샘플의 길이를 1블록으로서 해밍창을 적용하여서, 자기상관법에 의해 선형 예측 계수, 즉 이른바 α파라미터를 구한다.
그리고나서, LSP 양자화 및 LPC 역필터 스텝(S52)에서, 스텝(S52)에서 구해진 것으로서 α파라미터는 LPC양자화기에 의해 매트릭스 또는 벡터 양자화된다. 한편, α파라미터는 LPC 역필터로 보내져서 입력 음성신호의 선형 예측 잔차(LPC잔차)를 출력한다.
그리고나서, LPC잔차신호에 대한 윈도 스텝(S53)에서, 해밍창과 같은 적절한 윈도가 스텝(S52)에서 출력된 LPC잔차신호에 적용된다. 윈도는 도 6에 도시된 바와같이 두 개의 인접한 프레임을 교차하는 것이다.
다음으로, FFT 스텝(S54)에서, 스텝(S53)에서 윈도된 LPC잔차가 주파수축상의 파라미터인 FFT스펙트럼 성분으로 변환하기 위해 일예로 250포인트로 FFT된다. N포인트로 FFT된 음성신호의 스펙트럼은 0 내지 π에 대해 X(0) 내지 X(N/2-1) 스펙트럼 데이터로 구성된다.
개방루프 피치 탐색(개략 피치 탐색) 스텝(S55)에서, 입력신호의 LPC잔차가 개략 피치를 출력하기 위한 개방루프에 의한 개략 피치 탐색을 행하기 위해 받아들여진다.
고정밀 피치 탐색 및 스펙트럼 진폭 평가 스텝(S56)에서, 스텝(S55)에서 얻어진 FFT스펙트럼 데이터와 소정의 베이스를 사용하여 스펙트럼 진폭이 계산된다.
도 3에 도시된 음성 부호기의 직교 변환회로(145)와 스펙트럼 평가부(148)에서의 스펙트럼 진폭 평가를 구체적으로 설명한다.
먼저, 다음 설명에서 사용된 파라미터 X(j), E(j), A(m)는 다음과 같이 정의된다. :
X(j)(1≤j≤128) : FFT 스펙트럼
E(j)(1≤j≤128) : 베이스
A(m) : 하모닉스의 진폭
스펙트럼 진폭의 평가 에러(ε(m))는 다음 수학식 1에 의해 주어진다.
상기 FFT 스펙트럼(X(j))은 직교 변환에 의해 푸리에 변환시에 얻어진 주파수축상의 파라미터이다. 베이스(E(j))는 미리정해져 있는 것으로 가정한다.
수학식 1을 미분하고 그 결과를 0으로 설정하므로써 얻어진 다음식 :
은 풀어져서 극한값을 부여하는 A(m), 즉 상기 평가 오차의 최소값을 부여하는 A(m)을 구하여 다음 수학식 2를 얻는다.
상기 수학식에서, a(m)과 b(m)은 단일 피치(ω0)로 저범위에서 고범위까지 주파수 스펙트럼을 구분하여 얻어진 m번째 대역의 상한 및 하한 FFT계수의 인덱스들을 나타낸다. m번째 하모닉스의 중심 주파수는 (a(m)+b(m))/2에 해당한다.
상기 베이스(E(j))로서, 256포인트 해밍창 자체가 사용될 수도 있다. 대신에, 일예로 2048포인트 윈도를 얻기 위해 256포인트 해밍창에 0을 채워넣고, 2048포인트 윈도를 256 또는 2048 포인트로 FFT하여서 얻어진 상기 스펙트럼이 사용될 수도 있다. 그런데 상기 경우에 하모닉스의 진폭(|A(m)|)의 평가에서 엇갈림을 적용하여서 E(0)가 도 7b에 도시된 바와같이 (a(m)+b(m))/2 위치에 중첩될 필요가 있다. 상기 경우에, 수학식은 더 정밀하게 다음 수학식 3이 된다.
마찬가지로, m번째 대역의 평가 에러(ε(m))는 다음 수학식 4에 나타난 바와 같다.
이 경우에, 베이스(E(j))는 -128≤j≤127 또는 -1024≤j≤1023의 영역에서 정의된다.
도 3에 도시된 고정밀 피치 탐색부(146)에 의한 고정밀 피치 탐색을 구체적으로 설명한다.
하모닉스의 스펙트럼의 고정밀 진폭 평가를 위해 고정밀 피치를 얻을 필요가 있다. 즉, 만약 피치가 저정밀이면, 진폭평가가 올바르게 수행될 수 없어서 명확한 재생음이 얻어질 수 없다.
본 발명에 의한 음성 분석 방법에서 피치 탐색의 기본 작동순서로 돌아가서, 개략 피치값(P0)은 개방루프 피치 탐색부(141)에 의해 행해진 이전의 개략 개방루프 피치 탐색에 의해 얻어진다. 이 개략 피치값(P0)에 기초하여, 다음으로 정수 탐색 및 분수 탐색으로 이루어진 2단계 고정밀 피치 탐색이 고정밀 피치 탐색부(146)에 의해 행해진다.
개방루프 피치 탐색부(141)에 의해 구해진 개략 피치는, 전후측 프레임에서 개방루프 피치(개략 피치)에의 접합을 고려하여, 분석된 프레임의 LPC잔차의 자기상관의 최대값에 따라 구해진다.
정수 탐색은 주파수 스펙트럼의 모든 대역에 대해 수행되는 반면, 분수 탐색은 주파수 스펙트럼으로부터 구분된 각 대역에 대해 수행된다.
도 9 내지 도 12의 순서도를 참고하여, 고정밀 피치 탐색의 전형적인 작동순서를 설명한다. 개략 피치값(P0)은 이른바 샘플의 수에 대해 피치 주기를 나타내는 피치 래그이고 k는 루프의 반복회수를 나타낸다.
고정밀 피치 탐색은 정수 탐색, 고범위측 분수 탐색, 저범위측 분수 탐색의 순서로 행해진다. 이 탐색 단계에서, 피치 탐색이 행해져서 합성 스펙트럼과 오리지널 스펙트럼간에 오차, 즉 평가 오차(ε(m))가 최소화된다. 따라서, 수학식 3에 의해 얻어진 하모닉스의 진폭(|A(m)|)과 수학식 4에 의해 계산된 평가 오차(ε(m))는 고정밀 피치 탐색 단계에 포함되어서, 스펙트럼 성분의 고정밀 피치 탐색 및 진폭의 평가가 동시에 행해진다.
도 8a는 피치검출이 정수 탐색에 의해 주파수 스펙트럼의 모든 대역에 대해 행해지는 방식을 나타낸다. 이로부터, 만약 전체 대역의 스펙트럼 성분의 진폭을 단일 피치(ω0)로 평가하려 한다면 오리지널 스펙트럼 및 합성 스펙트럼간에 보다 큰 천이를 일으킨다는 것을 알 수 있고, 이것은 이 방법에만 의존한다면 신뢰할 수 있는 진폭 평가가 실현될 수 없다는 것을 나타낸다.
도 9는 상기한 정수 탐색의 상세한 작동 순서를 나타낸다.
스텝(S1)에서는, 정수 탐색을 위한 샘플의 수와 분수 탐색을 위한 샘플의 수와 분수 탐색을 위한 스텝(S)의 크기를 각각 산출하는 NUMP_INT, NUMP_FLT, STEP_SIZE의 값이 설정된다. 구체적 예로서, NUMP_INT=3, NUMP_FLT=5, STEP_SIZE=0.25이다.
스텝(S2)에서는, 피치(Pch)의 초기값이 개략 피치(P0)와 NUMP_INT로부터 산출되고, 루프 카운터가 재설정되고 이와함께 k가 재설정된다(k=0).
스텝(S3)에서는, 하모닉스의 진폭(|Am|), 저주파수 범위에서만의 진폭 오차의 합(εrl), 고주파수 범위에서만의 진폭 오차의 합(εrh)이 계산된다. 다음에, 스텝(S3)에서의 상세한 작동을 설명한다.
스텝(S4)에서는, '저주파수 범위에서만의 진폭 오차의 합(εrl)과 고주파수 범위에서만의 진폭 오차의 합(εrh)의 총합은 minεr보다 작거나 k=0이다'의 여부를 검색한다. 만약 이 조건이 만족되지 않으면 처리는 스텝(S5)를 통하지 않고 스텝(S6)으로 간다. 만약 상기 조건이 만족되면 처리는 스텝(S5)으로 가서
minεr= εrlrh
minεrl= εrl
minεrh= εrh
FinalPitch = Pch'Am_tmp(m)=|A(m)|
가 설정된다.
스텝(S6)에서는, Pch= Pch+ 1
가 설정된다.
스텝(S7)에서는, 'k는 NUMP_INT보다 작다'는 조건이 만족되는지 여부를 검색한다. 만약 이 조건이 만족되면, 처리는 스텝(S3)으로 복귀한다. 만약 만족되지 않으면, 처리는 스텝(S8)으로 간다.
도 8b는 분수에 의한 피치검출이 주파수 스펙트럼의 고범위측에서 행해지는 방식을 나타낸다. 이로부터 고주파수 범위의 평가 오차가, 상기한 주파수 스펙트럼의 모든 대역에 대해 행해지는 정수 탐색의 경우에 보다 더 작아질 수 있다는 것을 알 수 있다.
도 10은 고주파수 범위측상의 분수 탐색의 구체적인 작동의 순서를 나타낸다.
스텝(S8)에서는,
Pch= FinalPitch - (NUMP_FLT - 1)/2×STEP_SIZE
k = 0
이 설정된다. FinalPitch는 상기한 모든 대역의 정수 탐색에 의해 얻어진 피치이다.
스텝(S9)에서는, 'k=(NUMP_FLT - 1)/2'의 조건이 만족되는지 여부가 검색된다. 만약 이 조건이 만족되지 않으면, 처리는 스텝(S10)으로 간다. 만약 이 조건이 만족되면, 처리는 스텝(S11)으로 간다.
스텝(S10)에서는, 처리가 스텝(S12)으로 가기전에, 하모닉스의 진폭(|Am|)과 고주파수 범위에서만의 진폭 오차의 합(εrh)이 피치(Pch)와 입력 음성신호의 스펙트럼(X(j))으로부터 계산된다. 스텝(S10)에서의 구체적인 작동은 다음에 설명될 것이다.
스텝(S11)에서는,
εrh= minεrh
|A(m)|= Am_tmp(m)
이 설정되고, 그리고나서 처리는 스텝(S12)으로 간다.
스텝(S12)에서는, 'εrh가 minεr보다 작거나 또는 k=0'의 조건이 만족되는지 여부가 검색된다. 만약 이 조건이 만족되지 않으면, 처리는 스텝(S13)을 통하지 않고 스텝(S14)으로 간다. 만약 상기 조건이 만족되면, 처리는 스텝(S13)으로 간다.
스텝(S13)에서는,
minεr= εrh
FinalPitch_h = Pch
Am_h(m) = |A(m)|
이 설정된다.
스텝(S14)에서는,
Pch= Pch+ STEP_SIZE
k = k + 1
이 설정된다.
스텝(S15)에서는, 'k는 NUMP_FLT보다 작다'는 조건이 만족되는지 여부가 검색된다. 만약 이 조건이 만족되면, 처리는 스텝(S9)으로 복귀한다. 만약 상기 조건이 만족되지 않으면, 처리는 스텝(S16)으로 한다.
도 8c는 피치검출이 주파수 스펙트럼의 저주파수 범위측상에서 분수 탐색에 의해 행해지는 방식을 나타낸다. 이로부터 저범위측의 평가 오차가 전체 주파수 스펙트럼에 대한 정수 탐색의 경우에서 보다 작아질 수 있다는 것을 알 수 있다.
도 11은 저범위측상의 분수 탐색의 구체적인 작동순서를 나타낸다.
스텝(S16)에서는,
Pch= FinalPitch - (NUMP_FLT - 1)/2×STEP_SIZE
k = 0
가 설정된다. FinalPitch는 상기한 전체 스펙트럼의 정수 탐색에 의해 얻어진 피치이다.
스텝(S17)에서는, 'k는 (NUMP_FLT-1)/2와 같다'는 조건이 만족되는지 여부가 검색된다. 만약 이 조건이 만족되지 않으면, 처리는 스텝(S18)으로 간다. 만약 상기 조건이 만족되면, 처리는 스텝(S19)으로 간다.
스텝(S18)에서는, 하모닉스의 진폭(|Am|)과 저범위측상에서만의 진폭 오차가 입력 음성신호의 피치(Pch) 및 스펙트럼(X(j))으로부터 계산되고, 처리는 스텝(S20)으로 간다. 스텝(S18)에서의 구체적인 작동은 다음에 설명될 것이다.
스텝(S19)에서는,
εrl= minεrl
|Am|= Am_tmp(m)
가 설정되고, 처리는 스텝(S20)으로 간다.
스텝(S20)에서는, 'εrl은 minεr보다 작거나 k=0이다'는 조건이 만족되는지 여부가 검색된다. 만약 이 조건이 만족되지 않으면, 처리는 스텝(S21)을 통하지 않고 스텝(S22)으로 간다. 만약 상기 조건이 만족되면, 처리는 스텝(S21)으로 간다.
스텝(S21)에서는,
minεr= εrl
FinalPitch_1 = Pch
Am_l(m) = |A(m)|
이 설정된다.
스텝(S22)에서는,
Pch= Pch+ STEP_SIZE
k = k+1
이 설정된다.
스텝(S23)에서는, 'k가 NUMP_FLT보다 작다'는 조건이 만족되는지 여부가 판단된다. 만약 이 조건이 만족되면, 처리는 스텝(S17)으로 복귀한다. 만약 상기 조건이 만족되지 않으면, 처리는 스텝(S24)으로 간다.
도 12는 구체적으로 도 9 내지 도 11에 도시된 주파수 스펙트럼의 모든 대역에 대한 정수 탐색과 고범위측 및 저범위측 모두에 대한 분수 탐색에 의해 얻어진 피치 데이터로부터 최종적으로 출력된 피치를 발생시키는 작동의 순서를 나타낸다.
스텝(S24)에서는, Am_l(m)으로부터 저범위측상의 Am_l(m)을 사용하여 Am_h(m)으로부터 고범위측상의 Am_h(m)을 사용하여 Final_Am(m)을 산출한다.
스텝(S25)에서는, 'FinalPitch_h는 20보다 작다'는 조건이 만족되는지 여부가 검색된다. 만약 이 조건이 만족되지 않으면, 처리는 스텝(S26)을 통하지 않고 스텝(S27)으로 간다. 만약 상기 조건이 만족되지 않으면, 처리는 스텝(S26)으로 간다.
스텝(S26)에서는,
FinalPitch_h = 20
이 설정된다.
스텝(S27)에서는, 'FinalPitch_l이 20보다 작다'는 조건이 만족되는지 여부가 검색된다. 만약 이 조건이 만족되지 않으면, 처리는 스텝(S26)을 통하지 않고 종료된다. 만약 상기 조건이 만족되면, 처리는 스텝(S28)으로 간다.
스텝(S28)에서는,
FinalPitch_l = 20
가 설정되어 처리가 종료한다.
상기 스텝(S25) 내지 스텝(S28)은 최소 피치가 20으로 제한되는 경우를 나타낸다.
작동의 상기 순서는 FinalPitch_l, FinalPitch_h, Final_Am(m)을 산출한다.
도 13 및 도 14는 상기한 피치 검출 처리에 의해 얻어진 피치에 따른 주파수 스펙트럼으로부터 구분된 대역에서 최적 하모닉스의 진폭을 구하기 위한 설명적인 방법을 나타낸다.
스텝(S30)에서는,
ω0= N/Pch
Th = N/2 β
εrl= 0
εrh= 0
그리고
send=
이 설정되는데, 여기에서 ω0는 저범위에서 고범위까지의 범위를 1피치로 나타내는 경우의 피치이고, N은 음성신호의 LPC잔차를 FFT하는데 사용된 샘플의 수이고, Th는 저범위측과 고범위측을 구별하기 위한 인덱스이다. 반면, β는 일예로 β=50/250의 값을 갖는 소정의 변수이다. 상기 수학식에서,send는 전체 주파수 스펙트럼에서의 하모닉스의 수이고 피치(Pch/2)의 분수부분을 반올림하므로써 정수값을 갖는다.
스텝(S31)에서, 주파수축상에 다수의 대역으로 구분된 주파수 스펙트럼의 m번째 대역, 즉 m번째 하모닉스에 해당하는 대역을 나타내는 변수인 m의 값은 0으로 설정된다.
스텝(S32)에서, m의 값이 0인지 여부의 조건이 조사된다. 만약 이 조건이 만족되지 않으면, 처리는 스텝(S33)으로 간다. 만약 상기 조건이 만족되면 처리는 스텝(S34)으로 간다.
스텝(S33)에서,
a(m) = b(m-1)+1
이 설정된다.
스텝(S34)에서, a(m)은 0으로 설정된다.
스텝(S35)에서,
b(m)=nint((m+0.5)×ω0)(여기에서, nint는 가장 가까운 정수를 부여한다)
가 설정된다.
스텝(S36)에서, 'b(m)은 N/2보다 크거나 같다'는 조건이 조사된다. 만약 이 조건이 만족되지 않으면, 처리는 스텝(S37)을 통하지 않고 스텝(S38)으로 간다. 만약 상기 조건이 만족되면,
b(m) = N/2 - 1
이 설정된다.
스텝(S38)에서, 다음 수학식에 의해 표현되는 하모닉스의 진폭(|A(m)|)
이 설정된다.
스텝(S39)에서, 다음 수학식에 의해 표현되는 평가 오차(ε(m))
가 설정된다. 스텝(S40)에서, 'b(m)은 Th보다 작거나 같다'는 조건이 만족되는지 여부가 판단된다. 만약 이 조건이 만족되지 않으면, 처리는 스텝(S41)으로 간다. 만약 상기 조건이 만족되면, 처리는 스텝(S42)으로 간다.
스텝(S41)에서,
εrh= εrh+ ε(m)
이 설정된다. 스텝(S42)에서,
εrlrl+ ε(m)
이 설정된다. 스텝(S43)에서,
m = m+1
이 설정된다.
스텝(S44)에서는, 'm이send보다 작거나 같다'는 조건이 만족되는지 여부가 검색된다. 만약 이 조건이 만족되면, 처리는 스텝(S32)으로 간다. 만약 상기 조건이 만족되지 않으면, 처리는 종료된다.
만약 X(j)만큼 큰 비율 R배로 샘플링하여 얻어진 베이스(E(j))가 사용되면, 하모닉스의 진폭(|A(m)|)과 평가 오차ε(m)는 다음 수학식 :
수학식 :
에 의해 각각 주어진다.
예를들어, 256포인트 해밍창에 0을 채워넣고 2048포인트 FFT를 행하고나서 8배 오버샘플링하여 얻어진 상기 베이스(E(j))가 사용될 수도 있다.
본 발명의 음성 분석 방법에서 피치 검출을 위해, 하모닉스의 진폭의 최적값은, 저주파수 범위측에서만의 진폭 오차(εrl)와 고주파수 범위측에서만의 진폭 오차(εrh)의 합을 최소화하는 것을 독립적으로 최대한 활용하므로써 주파수 스펙트럼의 각 대역에 대해 얻어질 수 있다.
다시말해, 만약 저주파수 범위측에서만의 진폭 오차(εrl)의 합만 상기 스텝(S18)에서 필요하다면, m=0에서 m=Th의 영역에 대해 상기 처리를 행하는 것으로 충분하다. 반대로, 만약 고주파수 범위측(εrh)에서만의 진폭오차의 합만 스텝(S10)에서 필요하다면, 실질적으로 m=Th에서 m=send의 영역에 대해 상기 처리를 하는 것으로 충분하다. 그런데, 이 경우에 저주파수 범위측과 고주파수 범위측간에 약간의 중첩에 대해 접합처리를 행하여서 접합영역의 하모닉스가 저주파수 범위측과 고주파수 범위측간에 피치 이동으로 인해 저하되는 것을 방지하는 것이 필요하다.
상기 음성 분석 방법을 행하기 위한 부호기에서, 실제로 전송된 피치는 어느것을 원하든지 간에 FinalPicth_l 또는 FinalPicth_h가 되어도 된다. 그 이유는 만약, 복호기에서 부호화된 음성신호를 합성하고 복호할 때에, 하모닉스의 위치가 어느 정도로 벗어난다면, 하모닉스의 진폭이 전체 주파수 스펙트럼에서 올바르게 평가되어서 어떤 문제도 생기지 않기 때문이다. 만약, 예를들어 FinalPicth_l이 피치 파라미터로서 디코더로 전송되면, 고주파수 범위측에서의 스펙트럼 위치는 본래 위치로부터 약간 엇갈린 위치, 즉 분석시의 위치에서 나타난다. 그런데, 이 엇갈림은 청감상 문제가 되는 정도는 아니다.
물론, 만약 비트 속도에서 여유가 있다면, FinalPitch_l 또는 FinalPicth_h 모두가 피치 파라미터로서 전송되어도 되고 또는 FinalPitch_l와 FinalPicth_h간의 차이가 전송되어도 되는데, 이 경우에 복호기는 FinalPitch_l와 FinalPicth_h를 저범위측 스펙트럼과 고범위측 스펙트럼에 적용하여서 더 자연스러운 합성음을 얻기 위해 사인파 분석을 행한다. 비록 정수 탐색이 전체 주파수 스펙트럼상의 상기한 실시예에서 수행되었지만 정수 탐색이 구분 대역마다에 대해 수행되어도 된다.
반면, 음성 부호화 장치는 필요한 음질을 얻을 때 다른 비트속도의 데이터를 출력하여서 출력데이터는 다양한 비트 속도로 출력될 수 있다.
구체적으로, 출력데이터의 비트 속도는 저비트 속도와 고비트 속도사이에서 전환될 수 있다. 예를들어, 만약 저비트 속도가 2kbps이고 고비트 속도가 6kbps이면 출력 데이터는 도 15에 도시된 비트 속도가 된다.
출력단자(104)로부터의 피치 정보는 항상 유성음에 대해서는 8bits/20msec로 출력되고, 출력단자(105)의 V/UV판정출력은 항상 1bit/20msec가 된다. 출력단자(102)에서 출력된 LSP양자화에 대한 인덱스 데이터는 32bits/40msec와 48bits/40msec사이에서 전환된다. 반면, 출력단자(103)에서 출력된 유성음(V)용 인덱스는 15bits/20msec와 87bits/20msec사이에서 전환되는 반면, 무성음(UV)용 인덱스 데이터는 11bits/msec와 23bits/5msec사이에서 전환된다. 따라서, 유성음(V)용 출력데이터는 2kbps와 6kbps에 대해 각각 40bits/20msec와 120bits/20msec이다. 무성음(UV)용 출력데이터는 2kbps와 6kbps에 대해 각각 39bits/20msec와 117bits/20msec이다. LSP양자화용 인덱스 데이터, 유성음(V)용 인덱스 데이터, 무성음(UV)용 인덱스 데이터는 관련 요소와 연관하여 다음에 설명될 것이다.
도 3의 음성 부호기에서 유성음/무성음(V/UV) 판정부(115)의 상세한 구조가 이제 설명될 것이다.
유성음/무성음(V/UV) 판정부(115)에서, 현재 프레임에 대한 V/UV판정은 직교변환부(145)의 출력, 고정밀 피치 탐색부(146)로부터의 최적 피치, 스펙트럼 평가부(148)로부터의 스펙트럼 진폭 데이터, 개방루프 피치 탐색부(141)로부터의 자기상관의 정규화 최대값(r'(l)), 영교차 카운터(142)로부터의 영교차 카운트값에 따라 얻어진다. MBE에서와 마찬가지로 대역에 기초한 V/UV판정결과의 경계위치도 또한 현재 프레임의 V/UV판정에 대한 조건으로서 사용된다.
MBE에 대해 대역 기초한 V/UV판정결과를 사용하는 V/UV판정결과가 이제 설명된다.
MBE에 대해 m번째 하모닉스의 크기를 나타내는 파라미터, 즉 진폭(|Am|)은 다음 수학식에 의해 표현된다. :
상기 수학식에서, |X(j)|는 LPC잔차를 DFT하여서 얻어진 스펙트럼인 반면, |E(j)|는 256포인트 해밍창을 DFT하여서 얻어진 베이스 신호의 스펙트럼이다. 잡음 대 신호비(NSR)는 다음 수학식에 의해 표현된다.
만약 NSR값이 소정의 임계값, 일예로 0.3보다 크면, 즉 만약 오차가 더 크면 그 대역에 대해 |Am||E(j)|에 의한 |X(j)|의 근사가 좋지 않다고, 즉 여기신호|E(j)|가 베이스로서 부적절하다고 판단될 수 있다. 따라서, 상기 대역은 무성음(UV)으로 판단된다. 그렇지않다면 근사는 매우 만족스러워서 상기 대역은 유성음(V)이라고 판단된다.
각 대역(하모닉스)의 NSR은 하모닉스마다의 스펙트럼 유사도를 나타낸다. NSR 또는 NSTall의 하모닉스의 이득 가중 합은 :
NSRall=(m|Am|NSRm)/(m|Am|)
에 의해 정의된다.
V/UV판정을 위해 사용된 룰(rule) 베이스는 이 스펙트럼 유사도(NSRall)가 어떤 임계값보다 큰지 작은지 여부에 따라 판정된다. 여기에서 이 임계값은 ThNSR= 0.3으로 설정된다. 이 룰 베이스는 LPC잔차의 자기상관의 최대값, 프레임 파워, 영교차와 관련된다. NSRall<ThNSR에 대해 사용된 룰 베이스에 있어서, 프레임은 룰이 적용되면 V이고 적용가능한 룰이 없으면 UV이다.
구체적인 룰은 다음과 같다. :
NSRall<ThNSR에 있어서, 만약 numZeroXP<24이고 frmPow>340이고 r0<0.32이면 프레임은 V이다.
NSRall<ThNSR에 있어서, 만약 numZeroXP<30이고 frmPow>9040이고 r0<0.23이면 프레임은 UV이다.
상기에서 변수는 다음과 같이 정의된다.
numZeroXP : 프레임당 영교차의 회수
frmPow : 프레임파워
r'(l) : 최대 자기상관값
V/UV판정은 상기에 주어진 것과 같은 룰의 세트인 룰 베이스를 참고하므로써 행해진다. 반면, 만약 복수 대역에 대한 피치 탐색이 MBE의 대역 기초한 V/UV판정에 적용되면, 이동된 하모닉스로 인한 오동작이 발생하는 것이 방지될 수 있어서 더 정확한 V/UV판정을 가능하게 한다.
상기한 신호 부호화 장치 및 신호 복호화 장치는 도 16 및 도 17에서 예로 도시된 휴대통신 단말기나 휴대 전화용으로 사용된 음성 코덱으로서 사용될 수도 있다.
구체적으로, 도 16은 도 1 및 도 3에 도시된 바와같이 구성된 음성 부호화부(160)를 사용하는 휴대용 단말기의 송신단의 구조를 나타낸다. 마이크(161)에 의해 모아진 음성신호들은 증폭기(162)에 의해 증폭되고 A/D변환기(163)에 의해 디지털 신호로 변환되고 그리고나서 음성 부호화부(160)로 보내진다. 이 음성 부호화부(160)는 도 1 및 도 3에 도시된 바와같이 구성된다. 음성 부호화부(160)의 입력단자(101)로 A/D변환기(163)로부터의 디지털 신호가 보내진다. 음성 부호화부(160)는 도 1 및 도 3을 참고로 설명된 부호화 작동을 행한다. 도 1 및 도 2의 출력단자의 출력신호는 음성부호화부(160)의 출력신호로서 송신경로 부호화부(164)로 보내지고 여기서 채널부호화가 상기 신호에 적용된다. 송신경로 부호화부(164)의 출력신호는 변조회로(165)로 보내져서 변조되고 이 결과의 변조된 신호는 디지털/아날로그(D/A)변환기(166) 및 RF증폭기(167)를 통해 안테나(168)로 보내진다.
도 17은 도 2 및 도 4에 도시된 바와같은 기본 구조를 갖는 음성 복호화부(260)를 사용하는 휴대용 단말기의 수신기 구조를 나타낸다. 도 17의 안테나(261)에 의해 수신된 음성신호는 RF증폭기(262)에 의해 증폭되고 아날로그/디지털(A/D)변환기(263)를 통해 복조회로(264)로 보내져서 복조된다. 이 복조된 신호는 송신경로 복호화부(265)로 보내진다. 복조회로(264)의 출력신호는 음성 복호화부(260)로 보내져서 도 2를 참고로 설명된 복호화가 행해진다. 도 2의 출력단자(201)의 출력신호는 음성 복호화부(260)로부터의 신호로서 디지털/아날로그(D/A)변환기(266)로 보내지고, 이의 출력 아날로그 음성신호는 스피커(268)로 보내진다.
본 발명은 본 발명을 단지 예시하는 상기 실시예에 제한되지 않는다. 예를들어, 하드웨어로서 설명된 도 1 및 도 3의 음성 분석측(부호기측) 또는 도 2 및 도 4의 음성 합성측(복호기측)의 구성은 이른바 디지털 신호 처리기(DSP)를 사용하는 소프트 프로그램에 의해 이행될 수도 있다. 본 발명의 적용범위는 송신 또는 기록/재생에 제한되지 않고 피치변환, 속도변환, 룰에 의한 음성의 합성 또는 잡음압축을 포함할 수도 있다.
하드웨어로서 설명된 도 3의 음성 분석측(부호기측)의 구성은 마찬가지로 이른바 디지털 신호 처리기(DSP)를 사용하는 소프트웨어 프로그램에 의해 실현될 수도 있다.
본 발명은 송신 또는 기록/재생에 제한되지 않고 피치변환, 속도변환, 룰 에 의한 음성의 합성 또는 잡음압축을 포함할 수도 있다.
하드웨어로서 설명된 도 3의 음성분석측(부호화측)의 구성은 마찬가지로 이른바 디지털 신호 처리기(DSP)를 사용하는 소프트웨어 프로그램에 의해 실현될 수도 있다.
본 발명은 송신 또는 기록/재생에 제한되지 않고 피치변환, 속도변환, 룰에 의한 음성의 합성 또는 잡음 압축과 같은 다른 다양한 용도에 적용될 수도 있다.
이상 설명한 바와같이, 본 발명의 음성 분석 방법, 음성 부호화 방법 및 장치에 있어서, 입력 음성신호의 주파수 스펙트럼을 주파수축상에서 다수의 대역으로 구분하고, 이 각 대역마다에 스펙트럼 형상에 기초하여, 각각의 피치 탐색과 하모닉스의 진폭의 평가가 동시에 행해진다. 스펙트럼 형상으로서 하모닉스의 구조를 사용하고 개방루프 개략 피치 탐색에 의해 미리 검출된 개략 피치에 기초하여, 주파수 스펙트럼 전체에 대한 제 1피치 탐색과 제 1피치 탐색보다 더 정밀한 제 2피치 탐색으로 이루어진 고정밀 피치 탐색이 행해진다. 제 2피치 탐색은 주파수 스펙트럼의 고범위측과 저범위측 각각에 대해 독립적으로 행해진다. 이에따라, 음성 스펙트럼의 하모닉스가 기본파의 정수배와 엇갈리더라도, 하모닉스의 진폭이 올바르게 평가되어 고명확성의 재생출력을 생성한다.

Claims (11)

  1. 입력 음성신호가 시간축상에서 소정의 부호화 단위로 구분되고, 이와 같이 부호화 단위로 구분된 음성신호의 기본 주기와 동일한 피치가 검출되고, 음성신호가 이 검출된 피치에 따라 부호화 단위마다 분석되는 음성 분석 방법에 있어서,
    입력 음성신호에 해당하는 신호의 주파수 스펙트럼을 주파수축상에서 다수의 대역으로 구분하는 단계와,
    대역마다 스펙트럼 형상으로부터 얻어진 피치를 사용하여 피치 탐색 및 하모닉스의 진폭의 평가를 동시에 행하는 단계와,
    를 포함하여 구성된 것을 특징으로 하는 음성 분석 방법.
  2. 제 1항에 있어서,
    스펙트럼 형상은 하모닉스의 구조인 것을 특징으로 하는 음성 분석 방법.
  3. 제 1항에 있어서,
    피치 탐색 및 하모닉스의 진폭의 평가는 개방루프 탐색에 의해 미리 검출된 개략 피치에 기초하여 행해지는 것을 특징으로 하는 음성 분석 방법.
  4. 제 1항에 있어서,
    피치 탐색은 상기 개략 피치 탐색에 의해 검출된 개략 피치에 기초하여 행해진 제 1피치 탐색과 상기 제 1피치 탐색보다 더 정밀한 제 2피치 탐색으로 이루어진 고정밀 피치 탐색이고, 상기 제 2피치 탐색은 주파수 스펙트럼의 고주파수 범위측과 저주파수 범위측 각각에서 독립적으로 행해지는 것을 특징으로 하는 음성 분석 방법.
  5. 제 1항에 있어서,
    제 1피치 탐색은 주파수 스펙트럼 전체에 대해 행해지고, 상기 제 2피치 탐색은 주파수 스펙트럼의 고범위측과 저범위측 각각에 대해 독립적으로 행해지는 것을 특징으로 하는 음성 분석 방법.
  6. 입력 음성신호가 소정의 부호화 단위에 의해 시간축상에서 구분되고, 이와 같이 부호화 단위로 구분된 음성신호의 기본 주기와 동일한 피치가 검출되고 음성신호는 이 검출된 피치에 기초하여 부호화 단위마다 부호화되는 음성 부호화 방법에 있어서,
    입력 음성신호에 해당하는 신호의 주파수 스펙트럼을 주파수축상에서 다수의 대역으로 구분하는 단계와,
    대역마다 스펙트럼의 형상으로부터 얻어진 피치를 사용하여 피치 탐색과 하모닉스의 진폭의 평가를 동시에 행하는 단계와,
    를 포함하여 구성된 것을 특징으로 하는 음성 부호화 방법.
  7. 제 6항에 있어서,
    스펙트럼의 형상은 하모닉스의 구조이고, 상기 개략 피치 탐색에 의해 검출된 개략 피치에 기초하여 행해지는 제 1피치 탐색과 상기 제 1피치 탐색보다 더 정밀한 제 2피치 탐색으로 이루어진 고정밀 피치 탐색은 피치 탐색과 하모닉스의 진폭의 평가를 동시에 행하는 단계에서 행해지는 것을 특징으로 하는 음성 부호화 방법.
  8. 제 6항에 있어서,
    상기 제 1피치 탐색은 주파수 스펙트럼 전체에 대해서 행해지고 상기 제 2피치 탐색은 주파수 스펙트럼의 고주파수 범위측과 저주파수 범위측 각각에 독립적으로 행해지는 것을 특징으로 하는 음성 부호화 방법.
  9. 입력 음성신호가 소정의 부호화 단위에 의해 시간축상에서 구분되고, 이와같이 부호화 단위로 구분된 음성신호의 기본 주기와 동일한 피치가 검출되고 음성신호는 이 검출된 피치에 기초하여 부호화 단위마다 분석되는 음성 부호화 장치에 있어서,
    입력 음성신호에 해당하는 신호의 주파수 스펙트럼을 주파수축상에서 다수의 대역으로 구분하는 수단과,
    대역마다 스펙트럼 형상으로부터 얻어진 피치를 사용하여 피치 탐색과 하모닉스의 진폭의 평가를 동시에 행하는 수단과,
    를 포함하여 구성된 것을 특징으로 하는 음성 부호화 장치.
  10. 제 9항에 있어서,
    스펙트럼의 형상은 하모닉스의 구조이고, 피치 탐색과 하모닉스의 진폭의 평가를 동시에 행하기 위한 상기 수단은 상기 개략 피치 탐색에 의해 검출된 개략 피치에 기초하여 행해진 제 1피치 탐색과 상기 제 1피치 탐색보다 더 정밀한 제 2피치 탐색으로 이루어진 고정밀 피치 탐색을 행하는 것을 특징으로 하는 음성 부호화 장치.
  11. 제 9항에 있어서,
    상기 제 1피치 탐색은 주파수 스펙트럼 전체에 대해 행해지고 상기 제 2피치 탐색은 주파수 스펙트럼의 고주파수 범위측과 저주파수 범위측 각각에서 독립적으로 행해지는 것을 특징으로 하는 음성 부호화 장치.
KR1019970052654A 1996-10-18 1997-10-14 음성 분석 방법 및 음성 부호화 방법 및 장치 KR100496670B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP96-276501 1996-10-18
JP27650196A JP4121578B2 (ja) 1996-10-18 1996-10-18 音声分析方法、音声符号化方法および装置

Publications (2)

Publication Number Publication Date
KR19980032825A true KR19980032825A (ko) 1998-07-25
KR100496670B1 KR100496670B1 (ko) 2006-01-12

Family

ID=17570349

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970052654A KR100496670B1 (ko) 1996-10-18 1997-10-14 음성 분석 방법 및 음성 부호화 방법 및 장치

Country Status (6)

Country Link
US (1) US6108621A (ko)
EP (1) EP0837453B1 (ko)
JP (1) JP4121578B2 (ko)
KR (1) KR100496670B1 (ko)
CN (1) CN1161751C (ko)
DE (1) DE69726685T2 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
KR100713366B1 (ko) * 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
KR20220112560A (ko) * 2021-02-04 2022-08-11 주식회사 퀀텀에이아이 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템
KR102581221B1 (ko) * 2023-05-10 2023-09-21 주식회사 솔트룩스 재생 중인 응답 발화를 제어 및 사용자 의도를 예측하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999003095A1 (en) * 1997-07-11 1999-01-21 Koninklijke Philips Electronics N.V. Transmitter with an improved harmonic speech encoder
JP4641620B2 (ja) * 1998-05-11 2011-03-02 エヌエックスピー ビー ヴィ ピッチ検出の精密化
US6418407B1 (en) * 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for pitch determination of a low bit rate digital voice message
JP3916834B2 (ja) * 2000-03-06 2007-05-23 独立行政法人科学技術振興機構 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
TW525146B (en) * 2000-09-22 2003-03-21 Matsushita Electric Ind Co Ltd Method and apparatus for shifting pitch of acoustic signals
JP3997522B2 (ja) * 2000-12-14 2007-10-24 ソニー株式会社 符号化装置および方法、復号装置および方法、並びに記録媒体
KR100821499B1 (ko) * 2000-12-14 2008-04-11 소니 가부시끼 가이샤 정보 추출 장치
KR100463417B1 (ko) * 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
JP4381291B2 (ja) * 2004-12-08 2009-12-09 アルパイン株式会社 車載用オーディオ装置
KR20060067016A (ko) 2004-12-14 2006-06-19 엘지전자 주식회사 음성 부호화 장치 및 방법
KR100827153B1 (ko) 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
JPWO2008001779A1 (ja) * 2006-06-27 2009-11-26 国立大学法人豊橋技術科学大学 基本周波数推定法および音響信号推定システム
JP4380669B2 (ja) * 2006-08-07 2009-12-09 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
US9099099B2 (en) 2011-12-21 2015-08-04 Huawei Technologies Co., Ltd. Very short pitch detection and coding
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
WO2014077254A1 (ja) * 2012-11-15 2014-05-22 株式会社Nttドコモ 音声符号化装置、音声符号化方法、音声符号化プログラム、音声復号装置、音声復号方法及び音声復号プログラム
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
JP6759927B2 (ja) * 2016-09-23 2020-09-23 富士通株式会社 発話評価装置、発話評価方法、および発話評価プログラム
JP2022055464A (ja) * 2020-09-29 2022-04-08 Kddi株式会社 音声分析装置、方法及びプログラム
US11545143B2 (en) * 2021-05-18 2023-01-03 Boris Fridman-Mintz Recognition or synthesis of human-uttered harmonic sounds

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3681530A (en) * 1970-06-15 1972-08-01 Gte Sylvania Inc Method and apparatus for signal bandwidth compression utilizing the fourier transform of the logarithm of the frequency spectrum magnitude
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
JPS5921039B2 (ja) * 1981-11-04 1984-05-17 日本電信電話株式会社 適応予測符号化方式
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system
CA1252568A (en) * 1984-12-24 1989-04-11 Kazunori Ozawa Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
US5115240A (en) * 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
US5127053A (en) * 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
CA2105269C (en) * 1992-10-09 1998-08-25 Yair Shoham Time-frequency interpolation with application to low rate speech coding
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
JP3475446B2 (ja) * 1993-07-27 2003-12-08 ソニー株式会社 符号化方法
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
JP3277692B2 (ja) * 1994-06-13 2002-04-22 ソニー株式会社 情報符号化方法、情報復号化方法及び情報記録媒体
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
US5717819A (en) * 1995-04-28 1998-02-10 Motorola, Inc. Methods and apparatus for encoding/decoding speech signals at low bit rates
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
JP3653826B2 (ja) * 1995-10-26 2005-06-02 ソニー株式会社 音声復号化方法及び装置
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
US7493254B2 (en) 2001-08-08 2009-02-17 Amusetec Co., Ltd. Pitch determination method and apparatus using spectral analysis
KR100713366B1 (ko) * 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
KR20220112560A (ko) * 2021-02-04 2022-08-11 주식회사 퀀텀에이아이 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템
KR102581221B1 (ko) * 2023-05-10 2023-09-21 주식회사 솔트룩스 재생 중인 응답 발화를 제어 및 사용자 의도를 예측하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체

Also Published As

Publication number Publication date
CN1187665A (zh) 1998-07-15
JPH10124094A (ja) 1998-05-15
EP0837453A3 (en) 1998-12-30
DE69726685D1 (de) 2004-01-22
EP0837453B1 (en) 2003-12-10
DE69726685T2 (de) 2004-10-07
EP0837453A2 (en) 1998-04-22
KR100496670B1 (ko) 2006-01-12
CN1161751C (zh) 2004-08-11
JP4121578B2 (ja) 2008-07-23
US6108621A (en) 2000-08-22

Similar Documents

Publication Publication Date Title
KR100496670B1 (ko) 음성 분석 방법 및 음성 부호화 방법 및 장치
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
KR100427754B1 (ko) 음성부호화방법및장치와음성복호화방법및장치
EP1262956B1 (en) Signal encoding method and apparatus
JP3653826B2 (ja) 音声復号化方法及び装置
KR100487136B1 (ko) 음성복호화방법및장치
US5495555A (en) High quality low bit rate celp-based speech codec
KR100452955B1 (ko) 음성부호화방법, 음성복호화방법, 음성부호화장치, 음성복호화장치, 전화장치, 피치변환방법 및 매체
KR100526829B1 (ko) 음성부호화방법및장치음성복호화방법및장치
KR100767456B1 (ko) 음성부호화장치 및 방법, 입력신호 판정방법,음성복호장치 및 방법 및 프로그램 제공매체
JP2002023800A (ja) マルチモード音声符号化装置及び復号化装置
KR100538987B1 (ko) 음성부호화방법및장치,피치검출방법
EP0843302B1 (en) Voice coder using sinusoidal analysis and pitch control
JPH10214100A (ja) 音声合成方法
KR100538985B1 (ko) 음성부호화방법및장치와피치검출방법및장치
JP4826580B2 (ja) 音声信号の再生方法及び装置
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
EP1164577A2 (en) Method and apparatus for reproducing speech signals
JPH11119796A (ja) 音声信号区間検出方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120604

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee