KR19990081663A - 음성 인식 방법 - Google Patents

음성 인식 방법 Download PDF

Info

Publication number
KR19990081663A
KR19990081663A KR1019980015696A KR19980015696A KR19990081663A KR 19990081663 A KR19990081663 A KR 19990081663A KR 1019980015696 A KR1019980015696 A KR 1019980015696A KR 19980015696 A KR19980015696 A KR 19980015696A KR 19990081663 A KR19990081663 A KR 19990081663A
Authority
KR
South Korea
Prior art keywords
speech
lsp
voice
speech recognition
recognition method
Prior art date
Application number
KR1019980015696A
Other languages
English (en)
Other versions
KR100269357B1 (ko
Inventor
이윤근
김기백
이병수
이종석
Original Assignee
구자홍
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자 주식회사 filed Critical 구자홍
Priority to KR1019980015696A priority Critical patent/KR100269357B1/ko
Priority to US09/295,523 priority patent/US6321195B1/en
Priority to CN99105366A priority patent/CN1125437C/zh
Publication of KR19990081663A publication Critical patent/KR19990081663A/ko
Application granted granted Critical
Publication of KR100269357B1 publication Critical patent/KR100269357B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

선형 스펙트럼 쌍(LSP)을 특징 벡터로 사용하는 경우에 발생하는 오류를 개선하는 음성 인식 방법에 관한 것으로서, 특히 음성 신호가 입력되면 먼저 LSP를 추출한 후 이를 하기 식에 의해 다시 유사-캡스트럼으로 변환하여 음성 인식시의 특징 벡터로 이용함으로써,
음성의 자음 성분에서도 좋은 특징 벡터로 이용될 수 있어 보다 좋은 성능을 갖는 음성 인식기를 구현할 수 있다. 특히, 음성 샘플로부터 특징 벡터를 추출하는 것이 불가능한 프로세서를 사용하는 경우에 유효하며, 보코더가 내장된 통신 기기의 음성 인식에 적용하면 별도의 LSP 추출 과정을 거치지 않아도 되므로 계산량 측면에서 많은 이득을 볼 수 있다.

Description

음성 인식 방법
본 발명은 음성 인식에 관한 것으로서, 특히 선형 스펙트럼 쌍(Line Spectral Pairs ; LSP)을 특징 벡터로 사용하는 경우에 발생하는 오류를 개선하는 음성 인식 방법에 관한 것이다.
디지털 신호 처리 기술 발전은 인간의 의사 전달 수단인 음성 신호를 다양한 방면에 응용할 수 있는 가능성을 보여주었다. 이를 가능하게 하는 음성 인식 기술 중 가장 간단한 것은 화자 종속 고립 단어 인식이다. 이는 훈련시킨 사람의 목소리만을 인식할 수 있으며, 단어(또는 짧은 문장) 단위로 발성된 음성만 인식할 수 있다. 이를 위한 음성 인식 알고리즘은 이미 많이 알려져 있는데 크게 음성 구간 검출 과정과 특징(feature) 추출과정, 그리고 매칭 과정으로 나눌 수 있다.
즉, 도 1에 도시된 바와 같이 마이크(11)를 통해 음성 신호가 입력되면 A/D 컨버터(12)에서 이를 디지털 신호로 변환한 후 음성 구간 검출부(13)로 출력한다. 상기 음성 구간 검출부(13)는 디지털 음성 신호를 짧은 구간의 신호(즉, 프레임)로 분할한 후 각 프레임의 에너지와 영교차율(Zero Crossing Rate) 그리고, 시간길이 정보를 이용하여 입력된 신호중에서 실제 발성된 음성 구간만을 검출한 후 특징 추출부(14)로 출력한다. 상기 특징 추출부(14)에서는 음성 구간에 해당하는 프레임의 특징(feature)을 추출하여 입력된 음성의 테스트 패턴을 만든 후 매칭부(15)로 출력한다. 상기 매칭부(16)에서는 테스트 패턴과 기준 데이터용 메모리(16)에 저장된 각 기준 패턴들과 각각 비교하여 테스트 패턴과 가장 유사한 특징을 갖는 기준 패턴을 인식된 음성으로 출력한다. 이때, 상기 기준 데이터용 메모리(16)에 음성 신호의 기준 패턴을 저장하는 경우도 마찬가지로, 상기 특징 추출부(14)에서 음성 구간에 해당하는 프레임의 특징을 추출하여 기준 패턴을 만든 후 기준 데이터용 메모리(15)에 저장하는데, 이와 같은 동작을 인식하고자 하는 음성 신호에 대하여 반복 수행하여 기준 패턴을 기준 데이터용 메모리(15)에 데이터베이스화하게 된다.
한편, 상기 특징 추출부(14)의 특징 추출 과정에서 이용되는 음성신호 처리방법 중 하나인 LPC(Linear Prediction Coding)는 과거의 신호들에 의한 현재 신호의 예측과 또 실제의 현재 신호와의 차이에 해당하는 오류를 최소화하는 방향으로 음성 신호를 처리하고 있다. 즉, LPC는 역 필터(Inverse Filter)의 개념을 도입한 것으로, 성대를 움직이는 자극을 역 필터의 입력으로 생각하여 유성음시 주기적 펄스열, 무성음시 불규칙 잡음이라 생각하여 이 입력이 성도를 통해 나온 신호를 우리가 들을 수 있는 음성 신호로 생각하고, 이 생각으로부터 음성 신호를 처리하여 역 필터에 관한 최적의 정보를 알아내는 것이다.
이러한 LPC 이론에 의한 모델 베이스(model base)의 음성 분석·합성의 이론과 실험적 연구가 도입되어 PARCOR(Partial Auto Correlation)법, LSP등이 개발되었다.
상기 LSP는 음성에서 포만트 정보를 나타내는 것으로, 각 계수들의 크기가 순서대로 배열되는 특징(Ordering property)을 갖고 있을뿐만 아니라 변형에 강하기 때문에 음성 압축 분야에서 스펙트럼 포락(Spectrum envelope)을 양자화하는데 널리 사용되고 있으며, 특히 음성 데이터를 코딩할 때 많이 사용한다.
즉, p차 선형 계수에 의해서 결정되는 조음 필터의 주파수 응답 함수를 라고 하고, 인간의 성도가 성문파가 완전 반사되는 이상적인 공명관이라고 가정하면, LSP 계수는 두 개의 가상 필터 함수 Pp(z), Qp(z) 의 폴(pole)들이 존재하는 z 평면상에서의 위치를 나타나게 된다. 이때, Pp(z)와 Qp(z) 는 다음의 수학식 1과 같이 표현된다.
상기 수학식 1의 Ap(z), Bp(z)는 하기의 수학식 2와 같은 관계가 있다.
Bp(z) = z-(p+1)Ap(z)
이때, 인간의 성도를 이상적인 공명관으로 가정했으므로, 반사시의 에너지 손실이 없다. 따라서, Pp(z)와 Qp(z) 는 선 스펙트럼(Line spectrum) 형태가 된다. 또한, Pp(z)와 Qp(z) 의 모든 근들은 z 평면상에서 단위원(unit circle) 위에 존재하며, Pp(z)와 Qp(z) 의 근들이 단위원 위에서 교대로 배열되는 특징을 갖는다. 그리고, 일단 Pp(z)와 Qp(z) 의 근들이 모두 구해지면 이를 이용해서 LSP 계수를 손쉽게 구할 수 있다.
이러한 LSP를 보코더를 통해 엔코딩된 음성 데이터로부터 음성 인식을 해야 할 때, 음성의 특징 벡터로 사용하면 계산량 측면에서 많이 유리해진다. 특히 실시간으로 엔코딩 패킷으로부터 데이터를 디코딩하고 음성 샘플로부터 특징 벡터를 추출하는 것이 불가능한 프로세서를 사용하는 경우에 LSP를 음성의 특징 벡터로 사용하면 계산을 간편하게 할 수 있다.
그러나, 음성의 극점이 제대로 나타나지 않는 경우는 LSP가 제대로 추출되지 않으므로 음성의 자음 성분에서는 좋은 특징 벡터로 이용될 수 없는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 LSP를 유사-캡스트럼(Pseudo-cepstrum)으로 변환하여 음성 인식의 특징 벡터로 이용하는 음성 인식 방법을 제공함에 있다.
도 1은 일반적인 음성 인식 시스템의 구성 블록도
도 2는 본 발명에 따른 음성 인식 방법을 수행하기 위한 흐름도
도면의 주요부분에 대한 부호의 설명
11 : 마이크 12 : A/D 컨버터
13 : 음성 구간 검출부 14 : 특징 추출부
15 : 매칭부 16 : 기준 데이터용 메모리
상기와 같은 목적을 달성하기 위한 본 발명에 따른 음성 인식 방법은, 음성이 입력되면 먼저 선형 스펙트럼 쌍(LSP)을 추출한 후 이를 다시 유사-캡스트럼으로 변환하여 음성 인식시의 특징 벡터로 이용함을 특징으로 한다.
이러한 음성 인식 방법에 의해 음성의 자음 성분에서도 좋은 특징 벡터로 이용될 수 있으며, 보코더가 내장된 통신 기기의 음성 인식에 적용하면 별도의 LSP 추출 과정을 거치지 않아도 되므로 계산량 측면에서 많은 이득을 볼 수 있다.
본 발명의 다른 목적, 특징 및 잇점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
이하, 본 발명의 바람직한 실시예를 첨부도면을 참조하여 상세히 설명한다.
도 2는 본 발명에 따른 음성 인식 방법을 수행하기 위한 흐름도로서, 보코더를 이용하여 LSP 계수를 추출하는 경우를 실시예로 하고 있다. 상기 보코더는 음원 코딩을 사용하는 부호기로서, 상기 보코더의 출력 데이터는 스펙트럼 정보를 나타내는 계수, 음성의 여기신호(Excitation signal)를 모델링하는 정보와 게인등으로 이루어져 있다. 예를 들어, QCELP의 경우는 LSP 계수, 코드북(codebook) 인덱스와 게인, 롱-텀 예측기(long-term predictor)의 지연값과 게인등이다.
즉, 마이크를 통해 음성이 입력되면(단계 201), PCM(Pulse Code Modulation) 또는 μ-law PCM등으로 변조한 후 보코더에서 엔코딩한다(단계 202). 상기 단계 202에서 엔코딩된 음성 신호를 짧은 구간의 신호(프레임)로 분할한 후 각 프레임의 에너지와 영교차율을 측정하여 실제 발성된 음성 구간만을 검출한다(단계 203). 일예로, 상기 엔코딩 결과로 출력되는 코드북 게인을 에너지 정보로 이용할 수 있다.
상기 단계 203에서 음성 구간이 검출되면 음성 구간에 해당하는 프레임의 특징을 추출하는데, 본 발명은 보코더를 예로 든 경우이므로, 보코더에서 출력되는 LSP 계수를 이용한다. 즉, 상기 보코더에서는 엔코딩 결과로 음성의 스펙트럼 파라미터 예컨대, LSP 계수를 출력하므로 별도의 특징 추출 과정을 거치지 않아도 되는 장점이 있다. 그러나, 상기 LSP 계수는 전술된 바와같이 문제가 있으므로, LSP 계수를 하기의 수학식 3에 의해 유사-캡스트럼으로 변환한다(단계 204).
즉, 어떤 신호의 캡스트럼은 하기의 수학식 4와 같이 그 신호의 스펙트럼에 로그(log)를 취하고 다시 역 푸리에 변환(Inverse Fourier Transform ; IFT)한 것을 말하며, 여기서 추출되는 것이 캡스트럼 계수이다. 상기 캡스트럼(cepstrum)이라는 용어는 스펙트럼(spectrum)이라는 단어의 앞부분을 역순으로 배열하여 만들어진 것이다. 또한, 캡스트럼은 주파수 영역의 함수를 역변환한 것이기 때문에 시간 영역의 함수라고 할 수 있으며, 캡스트럼이 갖는 특징 중 하나는 음성이 갖는 정보에서 스펙트럼 포락 정보와 세부 구조를 분리해낸다는 것이다.
여기서, S(w)는 파워 스펙트럼이고, Cn은 캡스트럴 계수이다.
하기의 수학식 5를 통해 캡스트럴 거리는 rms(Root mean square) 로그 스펙트럴 거리와 같음을 알 수 있다.
따라서, 캡스트럼을 이용하면 파워 스펙트럼의 차이를 간단하게 구할 수 있어 많이 이용되고 있다.
그러나, LSP 파라미터로부터는 캡스트럼을 얻지 못하므로, 상기된 수학식 3과 같이 LSP 파라미터를 캡스트럼과 비슷한 유사-캡스트럼(pseudo cepstrum)으로 변환한다.
상기 변환된 유사-캡스트럼은 테스트 패턴 또는 기준 패턴의 특징 벡터로 이용된다. 즉, 상기 과정이 음성 신호의 기준 패턴을 저장하는 경우라면 상기 특징 벡터를 기준 패턴으로하여 기준 데이터용 메모리(16)에 저장하고, 상기 과정이 음성 매칭을 위한 경우라면 상기 특징 벡터를 입력되는 음성의 테스트 패턴으로하여 기준 데이터용 메모리(16)로부터 출력되는 기준 패턴들과 비교하는 매칭 과정을 수행한다(단계 205). 상기 단계 205에서는 테스트 패턴과 기준 패턴 사이의 유사도를 측정할 때 입력 음성과 저장되어 있는 음성의 발성 속도가 다를 수 있으므로 음성의 발성 속도에 따른 오차를 줄이기 위하여 이들을 타임 와핑(time-warping)하여 비교하는데 여기서, DTW(Dynamic Time Warping)방법이 이용된다. 즉, 등록된 각 기준 패턴의 수만큼 DTW를 수행하여 등록되어 있는 각 기준 패턴에 대한 유사도가 모두 계산되면 가장 유사한 기준 패턴을 추출한다. 상기 DTW 방법에는 여러 가지가 제안되어 있는데, 그중 하나가 테스트 패턴과 데이터베이스화된 기준 패턴들 사이의 스펙트럴(spectral) 거리를 측정하고 테스트 패턴과 가장 가까운 스펙트럴 거리를 갖는 기준 패턴을 인식 패턴으로서 선택하는 방법이 있다.
그리고, 상기 단계 205에서 추출된 기준 패턴의 유사도가 일정 수준이상 예컨대, 일정 임계치 이하이면 인식된 결과가 올바른 것이라고 판단하고(단계 206), 상기 추출된 기준 패턴을 인식 결과로 출력한다(단계 207). 한편, 가장 유사한 기준 패턴과 테스트 패턴의 유사도가 일정 임계치 이상일 경우 등록되어 있지 않은 음성이 입력된 것으로 판별한다.
이와 같이, 본 발명은 CELP 계열 보코더를 사용하는 개인 휴대 통신기기의 음성 인식에 적용하면 더욱 효율적이다.
이상에서와 같이 본 발명에 따른 음성 인식 방법에 의하면, 테스트 패턴 및 기준 패턴을 만들 때 특징 벡터로 이용되는 LSP를 유사-캡스트럼으로 변환함으로써, 음성의 자음 성분에서도 좋은 특징 벡터로 이용될 수 있어 보다 좋은 성능을 갖는 음성 인식기를 구현할 수 있다. 특히, 음성 샘플로부터 특징 벡터를 추출하는 것이 불가능한 프로세서를 사용하는 경우에 유효하며, 보코더가 내장된 통신 기기의 음성 인식에 적용하면 별도의 LSP 추출 과정을 거치지 않아도 되므로 계산량 측면에서 많은 이득을 볼 수 있다.

Claims (4)

  1. 마이크나 전화를 통하여 음성이 입력되면 입력된 음성의 특징을 추출한 후 추출된 특징을 매칭을 위해 기준 패턴과 테스트 패턴의 발생에 이용하는 음성 인식 방법에 있어서,
    상기 특징 추출 과정은 입력된 음성 신호로부터 먼저 선형 스펙트럼 쌍(LSP) 파라미터를 추출한 후 추출된 LSP 파라미터를 다시 유사-캡스트럼으로 변환하는 단계가 더 포함됨을 특징으로 하는 음성 인식 방법.
  2. 제 1 항에 있어서, 상기 유사-캡스트럼 변환 단계는
    하기 식으로 정의함을 특징으로 하는 음성 인식 방법.
  3. 음성이 입력되면 변조를 수행한 후 변조된 음성 신호에 대해 엔코딩을 수행하는 보코더가 내장된 전화기의 음성 인식 방법에 있어서,
    상기 보코더에서 엔코딩되어 출력되는 선형 스펙트럼 쌍(LSP)을 유사-캡스트럼으로 변환하여 음성 인식시의 특징 벡터로 이용함을 특징으로 하는 음성 인식 방법.
  4. 제 3 항에 있어서, 상기 유사-캡스트럼 변환 단계는
    하기 식으로 정의함을 특징으로 하는 음성 인식 방법.
KR1019980015696A 1998-04-28 1998-04-30 음성 인식 방법 KR100269357B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1019980015696A KR100269357B1 (ko) 1998-04-30 1998-04-30 음성 인식 방법
US09/295,523 US6321195B1 (en) 1998-04-28 1999-04-21 Speech recognition method
CN99105366A CN1125437C (zh) 1998-04-28 1999-04-28 语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980015696A KR100269357B1 (ko) 1998-04-30 1998-04-30 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR19990081663A true KR19990081663A (ko) 1999-11-15
KR100269357B1 KR100269357B1 (ko) 2000-10-16

Family

ID=19536961

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980015696A KR100269357B1 (ko) 1998-04-28 1998-04-30 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR100269357B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100464310B1 (ko) * 1999-03-13 2004-12-31 삼성전자주식회사 선 스펙트럼 쌍을 이용한 패턴 정합 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100464310B1 (ko) * 1999-03-13 2004-12-31 삼성전자주식회사 선 스펙트럼 쌍을 이용한 패턴 정합 방법

Also Published As

Publication number Publication date
KR100269357B1 (ko) 2000-10-16

Similar Documents

Publication Publication Date Title
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
Spanias Speech coding: A tutorial review
Kleijn Encoding speech using prototype waveforms
KR100629669B1 (ko) 분산 음성인식 시스템
EP0528324A2 (en) Auditory model for parametrization of speech
US20080059156A1 (en) Method and apparatus for processing speech data
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
Athineos et al. LP-TRAP: Linear predictive temporal patterns
CN108108357A (zh) 口音转换方法及装置、电子设备
Cernak et al. Composition of deep and spiking neural networks for very low bit rate speech coding
RU2427044C1 (ru) Текстозависимый способ конверсии голоса
Goh et al. Robust speech recognition using harmonic features
CN114550741A (zh) 一种语义识别的方法和系统
KR100269357B1 (ko) 음성 인식 방법
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
Chow et al. Speaker identification based on log area ratio and Gaussian mixture models in narrow-band speech: speech understanding/interaction
Kim et al. Use of spectral autocorrelation in spectral envelope linear prediction for speech recognition
Prakash et al. Fourier-Bessel based Cepstral Coefficient Features for Text-Independent Speaker Identification.
Min et al. Deep vocoder: Low bit rate compression of speech with deep autoencoder
Kim et al. Performance improvement of a bitstream-based front-end for wireless speech recognition in adverse environments
Spanias et al. Speech coding and speech recognition technologies: a review
Burnett et al. A mixed prototype waveform/CELP coder for sub 3 kbit/s
Genoud et al. Deliberate Imposture: A Challenge for Automatic Speaker Verification Systems.
Ali et al. Low bit-rate speech codec based on a long-term harmonic plus noise model
CN112233686B (zh) Nvocplus高速宽带声码器的语音数据处理方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090619

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee