KR101862352B1 - 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 - Google Patents

음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR101862352B1
KR101862352B1 KR1020110098935A KR20110098935A KR101862352B1 KR 101862352 B1 KR101862352 B1 KR 101862352B1 KR 1020110098935 A KR1020110098935 A KR 1020110098935A KR 20110098935 A KR20110098935 A KR 20110098935A KR 101862352 B1 KR101862352 B1 KR 101862352B1
Authority
KR
South Korea
Prior art keywords
voice
speech
frames
frame
conversion rule
Prior art date
Application number
KR1020110098935A
Other languages
English (en)
Other versions
KR20120040649A (ko
Inventor
엄기완
한창우
강태균
김남수
홍두화
이재원
임형준
Original Assignee
삼성전자주식회사
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 서울대학교 산학협력단 filed Critical 삼성전자주식회사
Priority to US13/276,775 priority Critical patent/US8892436B2/en
Publication of KR20120040649A publication Critical patent/KR20120040649A/ko
Application granted granted Critical
Publication of KR101862352B1 publication Critical patent/KR101862352B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(a) 음성 인식 장치에 입력되는 제1음성을 소정의 프레임으로 분할하는 단계; (b) 상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 단계; 및 (c) 상기 음성 인식 장치가 상기 변환된 제2음성의 프레임을 인식하는 단계를 포함하되, 상기 (b) 단계는, 상기 제1음성의 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하는 단계를 포함하는 본 발명의 일 실시예에 따른 음성 인식 방법이 개시된다.

Description

음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법{FRONT-END PROCESSOR FOR SPEECH RECOGNITION, AND APPARATUS AND METHOD OF SPEECH RECOGNITION USING THE SAME}
본 발명은 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법에 관한 것이다. 보다 구체적으로, 본 발명은 선형 동적 시스템을 이용하여 입력되는 음성을 변환하여 변환된 음성을 인식하는 음성 인식 장치 및 방법에 관한 것이다.
일반적인 음성 인식 장치에는 좋은 장비와 좋은 환경에서 녹음한 음성이 학습된 음향모델이 저장되어 있다. 여기서, 좋은 환경이란, 음성 인식 우도(likelihood)가 높게 측정될 수 있는 잡음, 반향 및 녹음 기기 등에 의한 왜곡이 거의 없는 환경을 의미한다. 음성 인식 장치에 어떤 화자가 발성한 음성이 입력되면 음성 인식 장치는 입력된 음성과 음향모델을 비교하여 입력된 음성을 인식한다.
그러나, 특정 환경에서 발성한 음성은 음향모델의 생성을 위한 음성에 비해 장비의 성능, 환경적인 요인(주변 잡음, 반향 등) 등으로 인하여 잡음 및 왜곡이 많이 존재한다. 따라서, 특정 환경에서 발성한 음성에 대한 음성 인식 장치의 인식률이 저하되는 문제점이 있다. 즉, 음향모델의 생성을 위한 음성을 녹음한 환경(이하, 기본 환경)과 음성 인식을 위해 어떤 화자의 음성을 녹음한 환경(이하, 테스트 환경)의 차이로 인해 음성 인식 장치의 음성 인식률이 저하되는 것이다.
본 발명은 선형 동적 시스템을 이용하여 테스트 환경에서 발성된 음성을 변환하여 음성 인식 장치의 인식률을 상승시키는 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 테스트 환경에서 발성된 음성을 특징 벡터-시퀀스 대 특징 벡터-시퀀스로 변환하여 음성 인식 장치의 인식률을 상승시키는 장치 및 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 실시예에 따른 음성 인식 방법은,
(a) 음성 인식 장치에 입력되는 제1음성을 소정의 프레임으로 분할하는 단계; (b) 상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 단계; 및 (c) 상기 음성 인식 장치가 상기 변환된 제2음성의 프레임을 인식하는 단계를 포함하되, 상기 (b) 단계는, 상기 제1음성의 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하는 단계를 포함할 수 있다.
상기 제1음성 및 제2음성의 프레임은, 프레임에 포함되는 음성 신호를 나타내는 특징값을 포함할 수 있다.
상기 (b) 단계는, (b-1) 상기 분할된 제1음성의 프레임들을 복수의 그룹으로 클러스터링하는 단계; (b-2) 상기 복수의 그룹에 각각 대응되는 변환 규칙을 적용하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하는 단계; 및 (b-3) 상기 변환된 제2음성의 프레임들을 조합하는 단계를 포함할 수 있다.
상기 (b-1)단계는, VQ(Vector Quantization) 또는 GMM(Gaussian Mixture Model) 기반의 클러스터링 방식을 이용하여 수행되는 것이 바람직하다.
상기 제1음성은 상기 제2음성보다 더 낮은 음성 인식 우도(likelihood)를 갖는 것이 바람직하다.
상기 변환 규칙은, 상기 음성 인식 장치에 입력된 제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 결정된 변환 규칙일 수 있다.
상기 음성 인식 방법은, (d) 상기 변환 규칙을 결정하는 단계를 더 포함하며, 상기 (d) 단계는, (d-1) 상기 제1음성 데이터와 상기 제2음성 데이터를 상기 소정의 프레임으로 분할하는 단계; (d-2) 상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제1변환 규칙을 임의의 값으로 설정하는 단계; (d-3) 상기 프레임들 및 상기 제1변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제2변환 규칙에 영향을 미치는 제1변수값을 도출하는 단계; (d-4) 상기 제1변수값을 이용하여 상기 제2변환 규칙을 결정하는 단계; (d-5) 상기 프레임들 및 상기 제2변환 규칙을 기초로 상기 프레임들간의 제3변환 규칙에 영향을 미치는 제2변수값을 도출하는 단계; (d-6) 상기 제2변수값을 이용하여 상기 제3변환 규칙을 결정하는 단계; 및 (d-7) 상기 프레임들간의 상관 관계를 나타내는 제n변환 규칙의 값이 소정 값으로 수렴할 때까지 상기 (d-5) 및 (d-6) 단계를 반복하여 상기 변환 규칙을 결정하는 단계를 포함할 수 있다.
상기 음성 인식 방법은, (k) 상기 제1음성 데이터와 상기 제2음성 데이터의 분할된 프레임들을 복수의 그룹으로 클러스터링하는 단계; 및 (l) 상기 복수의 그룹 각각에 대해 상기 (d-2) 내지 (d-7) 단계를 수행하여 상기 복수의 그룹에 각각 대응되는 상기 변환 규칙을 결정하는 단계를 더 포함할 수 있다.
상기 (d-3) 및 (d-5) 단계는, EM(Expectation Maximization) 알고리즘 중 기대(expectation) 단계로서 칼만 필터링(Kalman filtering)에 의해 수행되는 것이 바람직하다.
상기 (d-4) 및 (d-6) 단계는, EM(Expectation Maximization) 알고리즘 중 최대화(maximization) 단계로서 우도(likelihood)가 최대화되도록 수행되는 것이 바람직하다.
본 발명의 다른 실시예에 따른 음성 인식 장치는,
제1음성을 입력받아 소정의 프레임으로 분할하는 음성 입력부; 상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 음성 변환부; 및 상기 제2음성의 프레임들을 인식하는 인식부를 포함하되, 상기 음성 변환부는, 상기 제1음성의 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환할 수 있다.
상기 제1음성 및 상기 제2음성의 프레임은, 프레임에 포함되는 음성 신호를 나타내는 특징값을 포함할 수 있다.
상기 음성 인식 장치는, 상기 분할된 제1음성의 프레임들을 복수의 그룹으로 클러스터링하는 클러스터링부를 더 포함하되, 상기 음성 변환부는, 상기 복수의 그룹에 각각 대응되는 변환 규칙을 적용하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하고, 상기 변환된 제2음성의 프레임들을 조합할 수 있다.
상기 클러스터링부는, VQ(Vector Quantization) 또는 GMM(Gaussian Mixture Model) 기반의 클러스터링 방식을 이용하여 상기 분할된 제1음성의 프레임들을 클러스터링하는 것이 바람직하다.
상기 제1음성은 상기 제2음성보다 더 낮은 음성 인식 우도를 갖는 것이 바람직하다.
상기 음성 인식 장치는, 제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 상기 변환 규칙을 결정하는 변환 규칙 결정부를 더 포함할 수 있다.
상기 변환 규칙 결정부는, (a) 상기 제1음성 데이터와 상기 제2음성 데이터를 소정의 프레임으로 분할하는 단계; (b) 상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제1변환 규칙을 임의의 값으로 설정하는 단계; (c) 상기 프레임들 및 상기 제1변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제2변환 규칙에 영향을 미치는 제1변수값을 도출하는 단계; (d) 상기 제1변수값을 이용하여 상기 제2변환 규칙을 결정하는 단계; (e) 상기 프레임들 및 상기 제2변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제3변환 규칙에 영향을 미치는 제2변수값을 도출하는 단계; (f) 상기 제2변수값을 이용하여 상기 제3변환 규칙을 결정하는 단계; 및 (g) 상기 프레임들간의 상관 관계를 나타내는 제n변환 규칙의 값이 소정 값으로 수렴할 때까지 상기 (e) 및 (f) 단계를 반복하는 단계를 포함하여 상기 변환 규칙을 결정할 수 있다.
상기 음성 인식 장치는, 상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들을 복수의 그룹으로 클러스터링하는 클러스터링부를 더 포함하되, 상기 변환 규칙 결정부는, 상기 복수의 그룹 각각에 대해 상기 (b) 내지 (g)단계를 수행하여 상기 복수의 그룹에 각각 대응되는 상기 변환 규칙을 결정할 수도 있다.
상기 (c) 및 (e) 단계는, EM(Expectation Maximization) 알고리즘 중 기대(expectation) 단계로서 칼만 필터링(Kalman filtering)에 의해 수행되는 것이 바람직하다.
상기 (d) 및 (f) 단계는, EM(Expectation Maximization) 알고리즘 중 최대화(maximization) 단계로서 우도(likelihood)가 최대화되도록 수행되는 것이 바람직하다.
본 발명의 또 다른 실시예에 따른 음성 인식을 위한 전처리 장치는,
제1음성을 입력받아 소정의 프레임으로 분할하는 음성 입력부; 및 상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 음성 변환부를 포함하되, 상기 음성 변환부는, 상기 제1음성의 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환할 수 있다.
도 1은 음성 인식 장치에서 사용되는 특징 변환 기법을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 구성을 도시하는 블록도이다.
도 3은 본 발명의 다른 실시예에 따른 음성 인식 장치의 구성을 도시하는 블록도이다.
도 4는 본 발명의 다른 실시예에 따른 음성 인식 방법의 흐름을 도시하는 순서도이다.
도 5는 본 발명의 다른 실시예에 따라 도 4의 S20 단계를 구체적으로 도시하는 순서도이다.
도 6은 본 발명의 다른 실시예에 따른 음성 인식 방법에서 변환 규칙을 결정하는 흐름을 도시하는 순서도이다.
도 7은 본 발명의 다른 실시예에 따른 음성 인식을 위한 전처리 장치의 구성을 도시하는 블록도이다.
도 8은 본 발명의 일 실시예에 따른 음성 인식 방법 및 장치의 효과를 도시하기 위한 도면이다.
이하, 첨부된 도면을 참조하면서 예시적인 실시예를 통해 본 발명을 상세히 설명하기로 하며, 본 발명은 이에 한정되지 않는다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지의 기능 및 구성에 대한 상세한 설명은 생략될 것이다.
음성 인식 장치에서 이용하는 특징 변환 기법이란, 테스트 환경에서 녹음한 음성을 기본 환경에서 녹음한 음성처럼 변환하여 테스트 환경에서 녹음한 음성의 잡음 및 왜곡을 제거하고, 음성 인식 장치의 인식률을 상승시키는 기법이다. 즉, 특징 변환 기법은 음성 인식 장치에 입력되는 음성을 음성 인식 장치의 음향모델을 생성하기 위해 사용한 음성(이하, 기본 음성)과 유사하게 변형하여 음성 인식 장치의 인식률을 상승시킨다.
도 1은 특징 변환 기법을 설명하기 위한 도면이다.
도 1을 참조하면, 테스트 환경에서 녹음한 음성인 X=(x1, x2,…,xT)가 입력되고, 변환된 음성인 Y=(y1, y2,…,yT)가 출력되는 것을 확인할 수 있다. 입력되는 음성 X는 소정의 프레임으로 분할되고, 소정의 프레임에 포함되는 음성 신호를 나타내는 특징값 x1, x2,…,xT들이 출력 음성인 Y의 프레임에 포함되는 음성 신호를 나타내는 특징값 y1, y2,…,yT로 변환된다. 여기서, 상기 특징값은 프레임별 음성 신호의 특징 벡터를 포함할 수 있다. 음성 인식 장치는 Y를 인식하여 음성 인식률을 상승시킬 수 있다.
특징 변환 기법 중 스테레오 데이터 기반 방식은 동일한 문장에 대해 특정 화자가 발성한 음성을 기본 환경과 테스트 환경에서 동시에 녹음하고, 녹음된 양 음성간의 변환 규칙을 생성하여, 이후에 테스트 환경에서 녹음된 음성을 변환 규칙을 이용하여 변환하는 방식이다.
본 명세서에서 음성 장치가 음성을 '인식'한다는 것은 음성으로부터 언어적 의미 내용을 식별한다는 것을 의미한다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치(100)의 구성을 도시하는 블록도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 음성 인식 장치(100)는 음성 입력부(110), 음성 변환부(120) 및 인식부(130)를 포함한다. 또한, 도 3에 도시된 바와 같이 본 발명의 다른 실시예에 따른 음성 인식 장치(200)는 본 발명의 일 실시예에 따른 음성 인식 장치(100)에 비하여 클러스터링부(140) 또는 변환 규칙 결정부(150)를 더 포함할 수 있다.
음성 입력부(110)는 화자가 발성한 제1음성을 입력받고, 이를 소정의 프레임으로 분할한다.
음성 입력부(110)는 화자가 발성하는 제1음성을 실시간으로 입력받을 수 있고, 외부 서버 등에 이미 저장되어 있었던 제1음성을 수신받을 수도 있다.
음성 입력부(110)는 제1음성을 소정의 시간단위인 프레임으로 분할한다. 프레임은 분할된 음성 신호 또는 음성 신호의 특징을 나타내는 특징값으로서 특징 벡터를 포함할 수 있다.
음성 변환부(120)는 제1음성의 분할된 프레임들 각각에 변환 규칙을 적용하여 제2음성의 프레임으로 변환시킨다. 음성 변환부(120)는 제1음성의 잡음 및 왜곡 등을 제거하여 기본 음성과 유사한 특징을 갖는 제2음성을 생성하는 것이다. 여기서, 변환 규칙은 특정 파라미터들에 의해 구체화될 수 있다.
본 명세서에서 프레임을 변환시킨다는 것은 프레임의 음성 신호 자체 또는 프레임의 음성 신호의 특징을 나타내는 특징 벡터를 변환시킨다는 것을 의미한다.
본 발명의 일 실시예에 따른 음성 인식 장치(100)에서 음성 변환부(120)가 제1음성의 프레임들을 변환하는 경우, 제1음성의 프레임의 이전에 위치한 프레임들을 반영하여, 제1음성의 프레임을 제2음성의 프레임으로 변환한다. 즉, 과거의 입력도 고려하여 음성을 변환시키는 것이다.
구체적으로, 제1음성이 첫 번째에 위치하는 제1프레임부터 마지막에 위치하는 제n프레임까지 분할되었다면, 제5프레임을 변환하는 경우, 제5프레임에 해당하는 음성 신호뿐만 아니라, 제1 내지 제4프레임 중 적어도 하나의 음성 신호도 반영하여 제5프레임을 변환하는 것이다. 즉, 이러한 방법에 의해 특징 벡터 대 특징 벡터 변환이 아닌 특징 벡터-시퀀스 대 특징 벡터-시퀀스 변환이 이루어질 수 있다.
제1음성에 반향(reverberation)이 존재한다면, 제1프레임의 음성 신호는 이후의 프레임들에게 영향을 미칠 것이다. 이러한 경우에 특징 벡터 대 특징 벡터 변환을 수행한다면, 제2프레임에 변환 규칙을 적용하더라도 동일한 의미를 갖는 제2음성의 음성 신호로 변환되지 않을 것이다.
따라서, 본 발명의 일 실시예에 따른 음성 생성 방법에서는 제1음성의 제n프레임을 변환하는 경우 제1 내지 제n-1프레임 중 적어도 하나의 음성 신호도 함께 고려하여 변환한다. 또는, 제1음성의 제n프레임을 변환하는 경우, 제1 내지 제n-1프레임들의 음성 신호도 함께 고려하여 변환할 수도 있다. 이에 의해, 제1음성에 반향이나 잡음 및 왜곡이 존재하더라도 안정적으로 변환시킬 수 있다.
인식부(130)는 변환된 제2음성의 프레임을 인식한다. 인식부(130)는 변환된 제2음성을 음향모델과 비교하여 제2음성의 언어적 의미 내용을 식별하는 것이다.
본 발명의 다른 실시예에 따른 음성 인식 장치(200)는 클러스터링부(140)를 더 포함할 수 있다.
클러스터링부(140)는 분할된 제1음성의 프레임들을 복수의 그룹으로 클러스터링(clustering)한다. 제1음성의 프레임들 중 유사한 특징을 갖는 프레임들끼리 그룹화하여 각 특징에 적합한 변환 규칙을 적용하기 위함이다.
본 발명의 일 실시예에 따른 음성 인식 장치(200)의 클러스터링부(140)는 VQ(Vector Quantization) 또는 GMM(Gaussian Mixture Model) 기반의 클러스터링 방식을 이용하여 제1음성의 프레임들을 클러스터링할 수 있다.
VQ란, 주어진 표본 데이터 집합을 벡터 공간에서 몇 개의 그룹으로 클러스터링 하는 방법이다.
GMM이란, 주어진 표본 데이터 집합의 분포 밀도를 단 하나의 확률 밀도 함수로 모델링하는 방법을 개선한 밀도 추정 방법으로서, 복수 개의 가우시안 확률밀도함수로 데이터의 표본을 모델링하는 방법이다.
본 발명의 다른 실시예에 따른 음성 인식 장치(200)는 변환 규칙 결정부(150)를 더 포함할 수 있다.
변환 규칙 결정부(150)는 제1음성 데이터와 제1음성 데이터보다 잡음 및 왜곡이 적은 제2음성 데이터와의 관계에서 변환 규칙을 결정한다.
또한, 제1음성은 제2음성보다 더 낮은 음성 인식 우도(likelihood)를 갖는 신호일 수 있다. 구체적으로, 동일 데이터량을 가질 때, 제1음성이 제2음성보다 잡음 및 왜곡을 더 많이 포함한다.
여기서, 우도란, 어떤 음성이 주어졌을 때, 그 음성의 특징 벡터가 기본 음성에 의해 생성된 음향 모델에 속할 확률이다. 즉, 음성 인식 장치에 입력되는 음성의 특징 벡터를 x, 음향 모델을 m이라 하면 우도는 p(x|m)으로 표현된다.
변환 규칙 결정부(150)는 본 발명의 일 실시예에 따른 음성 인식 장치의 내부에 포함될 수도 있고, 음성 인식 장치에 외부에 구비되어 변환 규칙을 음성 인식 장치로 송신할 수도 있다.
변환 규칙 결정부(150)에는 제1음성 데이터와 제2음성 데이터로부터 미리 훈련된 모델이 저장되어 있으며, 모델은 변환 규칙 결정부에 직접 저장될 수 있고, 외부의 서버 등에서 전송될 수도 있다. 또는 변환 규칙 결정부(150)가 직접 제1음성 데이터와 제2음성 데이터를 훈련하여 모델을 저장할 수도 있다.
제1음성 데이터와 제2음성 데이터는 동일한 대본을 읽고, 발성한 음성들인 것이 바람직하다. 또한, 제1음성 데이터는 제1음성과 동일한 테스트 환경에서 녹음된 음성이고, 제2음성 데이터는 음성 인식 장치의 기본 음성과 동일한 환경에서 녹음된 음성인 것이 바람직하다. 예를 들어, 특정 화자가 대본을 읽고, 발성한 음성을 기본 음성의 녹음을 위해 사용하였던 마이크와 이에 비해 성능이 좋지 않은 음성 인식 장치의 마이크로 동시에 녹음하여 생성될 수 있다.
즉, 제1음성 데이터와 제2음성 데이터 사이에서 결정된 변환 규칙을 음성 인식 장치(100)에 입력되는 제1음성에 적용하여 음성 인식 장치(100)의 기본 음성과 유사한 제2음성이 생성되는 것이다.
다음으로, 제1음성 데이터와 제2음성 데이터 간의 상관 관계를 나타내는 변환 규칙을 생성하는 예시적인 방법에 대해 설명될 것이다.
먼저, (a) 제1음성 데이터와 제2음성 데이터를 소정의 프레임으로 분할한다. 다음으로 (b) 제1음성 데이터와 제2음성 데이터의 프레임들간의 상관관계를 나타내는 제1변환 규칙을 임의의 값으로 설정한다.
(c) 제1음성 데이터와 제2음성 데이터의 프레임들 및 제1변환 규칙을 기초로 프레임들간의 상관 관계를 나타내는 제2변환 규칙에 영향을 미치는 제1변수값을 도출한다.
(d) 제1변수값을 이용하여 제2변환 규칙을 결정하고, (e) 제1음성 데이터와 제2음성 데이터의 프레임들 및 제2변환 규칙을 기초로 제1음성 데이터와 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제3변환 규칙에 영향을 미치는 제2변수값을 도출한다. (f) 다시 제2변수값을 이용하여 제3변환 규칙을 결정한다.
(g) 상기 (e) 및 (f) 단계를 반복하여 제1음성 데이터와 제2음성 데이터의 프레임간의 상관 관계를 나타내는 제n변환 규칙의 값이 소정의 값으로 수렴하도록 한다. 수렴된 제n변환 규칙을 제1음성 데이터와 제2음성 데이터 간의 변환 규칙으로 결정한다.
본 발명의 일 실시예에 따른 음성 인식 장치에서 제1 및 제2변수값을 도출하는 방법은 EM(Expectation Maximization) 알고리즘 중 기대(expectation)단계로서 칼만 필터링(Kalman filtering)에 의해 수행되는 것이 바람직하다. 또한, 본 발명의 일 실시예에 따른 음성 인식 장치에서 제2변환 규칙 및 제3변환 규칙을 결정하는 방법은 EM(Expectation Maximization) 알고리즘 중 최대화(maximization)단계로서 우도(likelihood)가 최대화되도록 수행되는 것이 바람직하다.
칼만 필터는 과거의 측정 데이터와 새로운 측정 데이터를 사용하여 데이터에 포함된 노이즈를 제거시켜 새로운 결과를 추정하는데 사용되는 알고리즘이고, EM 알고리즘은 확률 모델에 관측 불가능한 변수들이 포함되어 있는 경우 최대우도(Maximum likelihood)나 최대 사후확률 우도를 구하는 방법으로서, 당업자에게 공지된 방법들이므로 본 명세서에서는 상세한 설명을 생략한다.
상기에서 설명한 바와 같이, 본 발명의 다른 실시예에 따른 음성 인식 장치는 제1음성의 분할된 프레임들을 복수의 그룹으로 클러스터링하고, 복수의 그룹에 각각 대응되는 변환 규칙을 적용할 수도 있다.
복수의 그룹에 각각 대응되는 변환 규칙을 결정하기 위한 방법으로서, 먼저 클러스터링부(140)는 제1음성 데이터와 제2음성 데이터의 프레임들을 복수의 그룹으로 클러스터링한다. 다음으로, 변환 규칙 결정부(150)는 복수의 그룹 각각에 대해 상기 (b) 내지 (g) 단계를 수행하여 복수의 그룹 각각에 대응되는 변환 규칙들을 결정할 수 있다.
다음으로, 음성 인식 장치에서 제1음성을 제2음성으로 변환하는 방법에 대해 수학적으로 설명될 것이다.
제1음성을 X, 제1음성에서 변환되는 제2음성을 Y라 한다. X 및 Y를 소정의 프레임으로 분할하고, 각 프레임의 특징 벡터를 추출하면 X=(x1, x2,…,xT), Y=(y1, y2,…,yT)가 된다. 입력을 xt, 출력을 yt라 하고, xt와 yt의 관계에서 xt의 과거값도 고려하면, 다음과 같은 관계식이 성립한다. 여기서, zt는 과거의 xt의 값을 나타내는 함수이다.
Figure 112011076189119-pat00001
여기서, A(k), B(k), C(k) 및 D(k)는 각각 dz×dz, dz×dx, dy×dz, dy×dz 차원의 매트릭스이며, zt는 dz-차원 백터이다. ut (k) 및 wt (k)는 가우시안 분포의 랜덤 벡터이며, 다음과 같다.
Figure 112011076189119-pat00002
여기서,
Figure 112011076189119-pat00003
(μ,
Figure 112011076189119-pat00004
)는 평균 벡터 μ와 공분산 매트릭스
Figure 112011076189119-pat00005
를 갖는 가우시안 PDF(probability density function)이다.
Figure 112011076189119-pat00006
는 Q(k)와 R(k)를 포함한다.
변환 규칙이 λ(k)={A(k), B(k), μu (k), C(k), D(k), μw (k), Q(k), R(k)}로 주어지면, 제1음성 X에 대한 제2음성 Y는 다음과 같은 관계식을 갖는다.
Figure 112011076189119-pat00007
식 (1)
제1음성의 특징 벡터 xt에서 yt로 변환될 때, zt라는 변수가 반영되며, zt는 과거의 xt에 대한 값이므로, 결국 본 발명의 일 실시예에 따른 음성 인식 장치에서는 제1음성의 프레임을 변환할 때, 해당 프레임의 이전에 위치한 프레임을 반영하여 제2음성의 프레임을 생성한다.
제1음성의 프레임들이 복수의 그룹으로 클러스터링이 된 경우, 각 복수의 그룹에서 생성된 제2음성의 프레임들을 조합하여야 한다.
본 발명의 일 실시예에 따른 음성 인식 장치에서 상기 클러스터링이 GMM 기반의 클러스터링 기법에 의해 수행된 경우, 사후 확률(posterior probabilities) p(k|xt)을 계산할 수 있기 때문에, 연판정(soft decision)이 적용된다. 다음으로 제2음성의 프레임들의 특징 벡터들이 다음과 같이 조합될 수 있다.
Figure 112011076189119-pat00008
식 (2)
다음으로는, 제1음성 데이터와 제2음성 데이터 간의 변환 규칙을 결정하는 방법에 대해 수학적으로 설명될 것이다.
제1음성 데이터를 X, 제2음성 데이터를 Y라 하고, 이들을 프레임으로 분할하면, 식 (1)과 동일한 관계식이 성립한다.
우선, 제1음성 데이터와 제2음성 데이터의 프레임들간의 제1변환 규칙을 임의로 설정한다.
다음으로, 칼만 필터링에 따른 하기의 식에 의해 제1변수인 z1을 계산한다.
Figure 112011076189119-pat00009
식 (3)
다음으로, z1과 프레임들의 특징 벡터를 이용하여 하기의 EM 알고리즘에 따라 유사도를 최대화하는 제2변환 규칙을 결정한다.
Figure 112011076189119-pat00010
식 (4)
여기서, L(X, Y, Z|λ)는 다음과 같다.
Figure 112011076189119-pat00011
또한,
Figure 112011076189119-pat00012
는 갱신된 변환 규칙인 제2변환 규칙이고,
Figure 112011076189119-pat00013
는 현재의 변환 규칙인 제1변환 규칙이다.
Figure 112011076189119-pat00014
는 칼만 필터링에 의해 도출된 제1변수값의 사후 PDF이다.
보조함수인
Figure 112011076189119-pat00015
의 최대화는 미분을 하여 다음의 관계식이 만족하도록 하면 가능하다.
Figure 112011076189119-pat00016
식 (5)
식 (5)에 대한 해는 다음의 식과 같다.
Figure 112011076189119-pat00017
식 (6)
Figure 112011076189119-pat00018
식 (7)
Figure 112011076189119-pat00019
식 (8)
Figure 112011076189119-pat00020
식 (9)
여기서
Figure 112011076189119-pat00021
={
Figure 112011076189119-pat00022
,
Figure 112011076189119-pat00023
,
Figure 112011076189119-pat00024
,
Figure 112011076189119-pat00025
,
Figure 112011076189119-pat00026
,
Figure 112011076189119-pat00027
,
Figure 112011076189119-pat00028
,
Figure 112011076189119-pat00029
}은 갱신된 변환 규칙, 즉 제2변환 규칙이다.
제2변환 규칙과 프레임들의 특징 벡터를 이용하여 식 (3)을 통해 제2변수값를 계산하고, 제2변수값을 식 (6), (7), (8) 및 (9)에 대입하여 제3변환 규칙을 결정한다.
이와 같이 반복적으로 변환 규칙을 계산하여, 제n변환 규칙의 값이 소정의 값으로 수렴하는 경우, 제n변환 규칙을 제1음성 데이터와 제2음성 데이터 간의 변환 규칙으로 결정한다.
도 4는 본 발명의 다른 실시예에 따른 음성 인식 방법(300)의 흐름을 도시하는 순서도이다.
음성 입력부(110)는 입력되는 제1음성을 소정의 프레임으로 분할한다(S10).
음성 변환부(120)는 제1음성의 프레임에 변환 규칙을 적용하여 제2음성의 프레임으로 변환한다(S20). 음성 변환부(120)는 제1음성의 프레임의 이전에 위치한 프레임들도 반영하여, 제1음성의 프레임을 제2음성의 프레임으로 변환한다. 음성 변환부(120)를 통해 제1음성은 잡음 및 왜곡이 제거되고, 음성 인식 장치(100)의 음향모델의 생성을 위한 기본 음성과 유사한 제2음성으로 변환된다.
음성 인식 장치(100)의 인식부(130)는 제2음성의 프레임들을 인식하여 언어적 의미 내용을 식별한다(S30).
도 4에서 설명한 본 발명의 다른 실시예에 따른 음성 인식 방법(300)은 도 2 및 도 3에서 설명한 본 발명의 일 또는 다른 실시예에 따른 음성 인식 장치(100, 200)를 통하여 수행될 수 있으며, 음성 인식 장치(100, 200)의 각 구성이 수행하는 동작 구성과 동일한 기술적 사상을 포함한다. 따라서, 도 2 및 도 3에서와 중복되는 설명은 생략한다.
도 5는 본 발명의 다른 실시예에 따라 도 4의 단계 S20을 구체적으로 도시하는 순서도이다.
먼저 클러스터링부(140)는 제1음성의 프레임들을 복수의 그룹으로 클러스터링한다(S22). 클러스터링부(140)는 VQ(Vector Quantization) 또는 GMM(Gaussian Mixture Model) 기반의 클러스터링 방식을 이용하여 클러스터링하는 것이 바람직하다.
음성 변환부(120)는 복수의 그룹에 각각 대응되는 변환 규칙을 복수의 그룹에 포함된 프레임들에 적용하여 제1음성의 프레임을 제2음성의 프레임으로 변환한다(S24).
음성 변환부(120)는 변환된 제2음성의 프레임들을 조합하여(S26), 인식부(130)가 제2음성의 프레임들을 인식할 수 있도록 한다.
도 6은 본 발명의 다른 실시예에 따른 음성 인식 방법에서 변환 규칙을 결정하는 흐름을 도시하는 순서도이다.
먼저, 음성 입력부(110)는 제1음성 데이터와 제2음성 데이터를 소정의 프레임으로 분할한다(S40).
변환 규칙 결정부(150)는 제1음성 데이터와 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제1변환 규칙을 임의의 값으로 설정한다(S50).
제1변환 규칙 및 프레임들을 기초로 제1음성 데이터와 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제2변환 규칙에 영향을 미치는 제1변수값을 도출한다(S60).
다음으로, 제1변수값을 이용하여 제2변환 규칙을 결정한다(S70).
프레임들 및 제2변환 규칙을 기초로 제1음성 데이터와 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제3변환 규칙에 영향을 미치는 제2변수값을 도출한다(S80).
제2변수값을 이용하여 제3변환 규칙을 결정하고(S90), 제1음성 데이터와 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제n변환 규칙의 값이 수렴할 때까지 S80 및 S90 단계를 반복한다(S100). 수렴된 제n변환 규칙을 제1음성 데이터와 제2음성 데이터 간의 변환 규칙으로 결정한다.
상기에서 설명한 바와 같이, 본 발명의 다른 실시예에 따른 음성 인식 방법은 제1음성의 분할된 프레임들을 복수의 그룹으로 클러스터링하고, 복수의 그룹에 각각 대응되는 변환 규칙을 적용할 수 있다.
복수의 그룹에 각각 대응되는 변환 규칙을 결정하기 위한 방법으로서, 먼저 클러스터링부(140)는 제1음성 데이터와 제2음성 데이터의 프레임들을 복수의 그룹으로 클러스터링한다. 다음으로, 변환 규칙 결정부(150)는 복수의 그룹 각각에 대해 상기 S50 내지 S100 단계를 수행하여 복수의 그룹 각각에 대응되는 변환 규칙들을 결정할 수 있다.
본 발명의 다른 실시예에 따른 음성 인식 방법에서 제1 및 제2변수값을 도출하는 방법은 EM 알고리즘 중 기대 단계로서 칼만 필터링(Kalman filtering)에 의해 수행되는 것이 바람직하다. 또한, 본 발명의 다른 실시예에 따른 음성 인식 방법에서 제2변환 규칙 및 제3변환 규칙을 결정하는 방법은 EM 알고리즘 중 최대화 단계로서 우도가 최대화 되도록 수행되는 것이 바람직하다.
도 7은 본 발명의 또 다른 실시예에 따른 음성 인식을 위한 전처리 장치(600)의 구성을 도시하는 블록도이다.
본 발명의 다른 실시예에 따른 전처리 장치는 음성 입력부(610) 및 음성 변환부(620)를 포함할 수 있다.
음성 입력부(610)는 제1음성을 입력받아 소정의 프레임으로 분할하고, 음성 변환부(620)는 분할된 각각의 프레임에 변환 규칙을 적용하여 제1음성의 프레임을 제2음성의 프레임으로 변환한다. 변환된 제2음성의 프레임이 음성 인식 장치에 입력되어 인식될 수 있다.
음성 변환부(620)는 제1음성의 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 제1음성의 프레임을 제2음성의 프레임으로 변환할 수 있다.
음성 입력부(610) 및 음성 변환부(620)의 상세한 기능은 본 발명의 일 또는 다른 실시예에 따른 음성 인식 장치(100, 200)의 음성 입력부(110) 및 음성 변환부(120)가 수행하는 동작 구성과 동일한 기술적 사상을 포함한다. 따라서, 중복되는 설명은 생락한다.
실험예
고가의 마이크로 녹음한 음성으로부터 학습된 음향모델이 음성 인식 장치에 저장되어 있는 경우, 음성 인식 장치에서의 인식률을 향상시키는 실험을 하였다.
본 발명의 일 실시예에 따른 음성 인식 장치 및 방법에 따라 음성 인식을 수행하였다(제1방법). 결과 비교를 위해 음성 인식 장치에 구비된 마이크를 통해 녹음한 음성 그대로 음성 인식을 수행하였고(제2방법), 음성 인식 장치의 기본 음성을 녹음하기 위해 사용한 마이크를 통해 녹음한 음성 그대로 음성 인식을 수행하였다(제3방법).
도 8은 본 발명의 일 실시예에 따른 음성 인식 방법 및 장치로 실험을 하였을 때의 결과를 도시하는 도면이다.
제2방법에 의해 음성 인식을 수행하였을 때 85.50%의 인식률이 보였으며, 제3방법에 의해 음성 인식을 수행하였을 때에는 91.03%의 인식률을 보였다.
본 발명의 일 실시예에 따라 제1방법으로 음성 인식을 수행하였을 때에는 90.12%의 인식률을 보였다. 제3방법에 의한 음성 인식률을 상한이라고 하면, 제1방법에 의한 음성 인식은 제2방법에 비해 약 83.54%의 성능 향상을 보였으며, 약 31.86%의 에러 감소 효과를 보였다.
전술한 바와 같이 본 발명의 일 또는 다른 실시예에 따른 음성 인식 장치 및 방법은 음성 인식 성능을 향상시킬 수 있으며, 그에 따라서 정확한 음성 인식을 실현할 수 있다. 구체적으로, 저가의 음성 인식 장치에서 음성 인식시 발생하는 잡음 및 왜곡 등으로 인한 음성 인식률의 저하 문제를 해결하여 음성 인식 성능을 향상시킬 수 있다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이상, 본 발명을 상기 실시예를 들어 설명하였으나, 본 발명은 이에 제한되는 것이 아니다. 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있으며 이러한 수정과 변경 또한 본 발명에 속하는 것임을 알 수 있을 것이다.
100, 200: 음성 인식 장치
110, 610: 음성 입력부
120, 620: 음성 변환부
130: 인식부
140: 클러스터링부
150: 변환 규칙 결정부
600: 전처리 장치

Claims (21)

  1. (a) 음성 인식 장치에 입력되는 제1음성을 소정의 프레임으로 분할하는 단계;
    (b) 상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 단계; 및
    (c) 상기 음성 인식 장치가 상기 변환된 제2음성의 프레임을 인식하는 단계를 포함하되,
    상기 (b) 단계는,
    상기 제1음성의 제 n-1 프레임 및 제 n-1 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여 상기 제1음성의 제 n 프레임을 상기 제2음성의 제 n 프레임으로 변환하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  2. 제1항에 있어서,
    상기 제1음성 및 제2음성의 프레임은,
    프레임에 포함되는 음성 신호를 나타내는 특징값을 포함하는 것을 특징으로 하는 음성 인식 방법.
  3. 제1항에 있어서,
    상기 (b) 단계는,
    (b-1) 상기 분할된 제1음성의 프레임들을 복수의 그룹으로 클러스터링하는 단계;
    (b-2) 상기 복수의 그룹에 각각 대응되는 변환 규칙을 적용하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하는 단계; 및
    (b-3) 상기 변환된 제2음성의 프레임들을 조합하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  4. 제3항에 있어서,
    상기 (b-1)단계는,
    VQ(Vector Quantization) 또는 GMM(Gaussian Mixture Model) 기반의 클러스터링 방식을 이용하여 수행되는 것을 특징으로 하는 음성 인식 방법.
  5. 제1항에 있어서,
    상기 제1음성은 상기 제2음성보다 더 낮은 음성 인식 우도(likelihood)를 갖는 것을 특징으로 하는 음성 인식 방법.
  6. 제1항에 있어서,
    상기 변환 규칙은,
    상기 음성 인식 장치에 입력된 제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 결정된 변환 규칙인 것을 특징으로 하는 음성 인식 방법.
  7. (a) 음성 인식 장치에 입력되는 제1음성을 소정의 프레임으로 분할하는 단계;
    (b) 상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 단계;
    (c) 상기 음성 인식 장치가 상기 변환된 제2음성의 프레임을 인식하는 단계; 및
    (d) 상기 음성 인식 장치에 입력된 제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 상기 변환 규칙을 결정하는 단계를 포함하며,
    상기 (b) 단계는,
    상기 제1음성의 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하는 단계를 포함하고,
    상기 (d) 단계는,
    (d-1) 상기 제1음성 데이터와 상기 제2음성 데이터를 상기 소정의 프레임으로 분할하는 단계;
    (d-2) 상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제1변환 규칙을 임의의 값으로 설정하는 단계;
    (d-3) 상기 프레임들 및 상기 제1변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제2변환 규칙에 영향을 미치는 제1변수값을 도출하는 단계;
    (d-4) 상기 제1변수값을 이용하여 상기 제2변환 규칙을 결정하는 단계;
    (d-5) 상기 프레임들 및 상기 제2변환 규칙을 기초로 상기 프레임들간의 제3변환 규칙에 영향을 미치는 제2변수값을 도출하는 단계;
    (d-6) 상기 제2변수값을 이용하여 상기 제3변환 규칙을 결정하는 단계; 및
    (d-7) 상기 프레임들간의 상관 관계를 나타내는 제n변환 규칙의 값이 소정 값으로 수렴할 때까지 상기 (d-5) 및 (d-6) 단계를 반복하여 상기 변환 규칙을 결정하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  8. 제7항에 있어서,
    상기 음성 인식 방법은,
    (k) 상기 제1음성 데이터와 상기 제2음성 데이터의 분할된 프레임들을 복수의 그룹으로 클러스터링하는 단계; 및
    (l) 상기 복수의 그룹 각각에 대해 상기 (d-2) 내지 (d-7) 단계를 수행하여 상기 복수의 그룹에 각각 대응되는 상기 변환 규칙을 결정하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  9. 제7항에 있어서,
    상기 (d-3) 및 (d-5) 단계는,
    EM(Expectation Maximization) 알고리즘 중 기대(expectation) 단계로서 칼만 필터링(Kalman filtering)에 의해 수행되는 것을 특징으로 하는 음성 인식 방법.
  10. 제7항에 있어서,
    상기 (d-4) 및 (d-6) 단계는,
    EM(Expectation Maximization) 알고리즘 중 최대화(maximization) 단계로서 우도(likelihood)가 최대화되도록 수행되는 것을 특징으로 하는 음성 인식 방법.
  11. 제1음성을 입력받아 소정의 프레임으로 분할하는 음성 입력부;
    상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 음성 변환부; 및
    상기 제2음성의 프레임들을 인식하는 인식부를 포함하되,
    상기 음성 변환부는,
    상기 제1음성의 제 n-1 프레임 및 제 n-1 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 상기 제1음성의 제 n 프레임을 상기 제2음성의 제 n 프레임으로 변환하는 것을 특징으로 하는 음성 인식 장치.
  12. 제11항에 있어서,
    상기 제1음성 및 상기 제2음성의 프레임은,
    프레임에 포함되는 음성 신호를 나타내는 특징값을 포함하는 것을 특징으로 하는 음성 인식 장치.
  13. 제11항에 있어서,
    상기 음성 인식 장치는,
    상기 분할된 제1음성의 프레임들을 복수의 그룹으로 클러스터링하는 클러스터링부를 더 포함하되,
    상기 음성 변환부는,
    상기 복수의 그룹에 각각 대응되는 변환 규칙을 적용하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하고, 상기 변환된 제2음성의 프레임들을 조합하는 것을 특징으로 하는 음성 인식 장치.
  14. 제13항에 있어서,
    상기 클러스터링부는,
    VQ(Vector Quantization) 또는 GMM(Gaussian Mixture Model) 기반의 클러스터링 방식을 이용하여 상기 분할된 제1음성의 프레임들을 클러스터링하는 것을 특징으로 하는 음성 인식 장치.
  15. 제11항에 있어서,
    상기 제1음성은 상기 제2음성보다 더 낮은 음성 인식 우도를 갖는 것을 특징으로 하는 음성 인식 장치.
  16. 제11항에 있어서,
    상기 음성 인식 장치는,
    제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 상기 변환 규칙을 결정하는 변환 규칙 결정부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  17. 제1음성을 입력받아 소정의 프레임으로 분할하는 음성 입력부;
    제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 변환 규칙을 결정하는 변환 규칙 결정부;
    상기 분할된 각각의 프레임에 상기 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 음성 변환부; 및
    상기 제2음성의 프레임들을 인식하는 인식부를 포함하되,
    상기 음성 변환부는,
    상기 제1음성의 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하고,
    상기 변환 규칙 결정부는,
    (a) 상기 제1음성 데이터와 상기 제2음성 데이터를 소정의 프레임으로 분할하는 단계;
    (b) 상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제1변환 규칙을 임의의 값으로 설정하는 단계;
    (c) 상기 프레임들 및 상기 제1변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제2변환 규칙에 영향을 미치는 제1변수값을 도출하는 단계;
    (d) 상기 제1변수값을 이용하여 상기 제2변환 규칙을 결정하는 단계;
    (e) 상기 프레임들 및 상기 제2변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제3변환 규칙에 영향을 미치는 제2변수값을 도출하는 단계;
    (f) 상기 제2변수값을 이용하여 상기 제3변환 규칙을 결정하는 단계; 및
    (g) 상기 프레임들간의 상관 관계를 나타내는 제n변환 규칙의 값이 소정 값으로 수렴할 때까지 상기 (e) 및 (f) 단계를 반복하는 단계를 포함하여 상기 변환 규칙을 결정하는 것을 특징으로 하는 음성 인식 장치.
  18. 제17항에 있어서,
    상기 음성 인식 장치는,
    상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들을 복수의 그룹으로 클러스터링하는 클러스터링부를 더 포함하되,
    상기 변환 규칙 결정부는,
    상기 복수의 그룹 각각에 대해 상기 (b) 내지 (g)단계를 수행하여 상기 복수의 그룹에 각각 대응되는 상기 변환 규칙을 결정하는 것을 특징으로 하는 음성 인식 장치.
  19. 제17항에 있어서,
    상기 (c) 및 (e) 단계는,
    EM(Expectation Maximization) 알고리즘 중 기대(expectation) 단계로서 칼만 필터링(Kalman filtering)에 의해 수행되는 것을 특징으로 하는 음성 인식 장치.
  20. 제17항에 있어서,
    상기 (d) 및 (f) 단계는,
    EM(Expectation Maximization) 알고리즘 중 최대화(maximization) 단계로서 우도(likelihood)가 최대화되도록 수행되는 것을 특징으로 하는 음성 인식 장치.
  21. 제1음성을 입력받아 소정의 프레임으로 분할하는 음성 입력부; 및
    상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 음성 변환부를 포함하되,
    상기 음성 변환부는,
    상기 제1음성의 제 n-1 프레임 및 제 n-1 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 상기 제1음성의 제 n 프레임을 상기 제2음성의 제 n 프레임으로 변환하는 것을 특징으로 하는 음성 인식을 위한 전처리 장치.
KR1020110098935A 2010-10-19 2011-09-29 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 KR101862352B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/276,775 US8892436B2 (en) 2010-10-19 2011-10-19 Front-end processor for speech recognition, and speech recognizing apparatus and method using the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US39447510P 2010-10-19 2010-10-19
US61/394,475 2010-10-19

Publications (2)

Publication Number Publication Date
KR20120040649A KR20120040649A (ko) 2012-04-27
KR101862352B1 true KR101862352B1 (ko) 2018-05-30

Family

ID=46140507

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110098935A KR101862352B1 (ko) 2010-10-19 2011-09-29 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101862352B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102272453B1 (ko) * 2014-09-26 2021-07-02 삼성전자주식회사 음성 신호 전처리 방법 및 장치
KR102704648B1 (ko) 2018-04-10 2024-09-10 삼성전자주식회사 전자 장치 및 그 제어 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nam Soo Kim et al., ‘Feature compensation based on switching linear dynamic model’, IEEE Signal Processing Letters, Vol.12, No.6, June 2005.*

Also Published As

Publication number Publication date
KR20120040649A (ko) 2012-04-27

Similar Documents

Publication Publication Date Title
EP1515305B1 (en) Noise adaption for speech recognition
EP3594940B1 (en) Training method for voice data set, computer device and computer readable storage medium
US9489965B2 (en) Method and apparatus for acoustic signal characterization
US11894008B2 (en) Signal processing apparatus, training apparatus, and method
US7571095B2 (en) Method and apparatus for recognizing speech in a noisy environment
JPH0850499A (ja) 信号識別方法
US10373604B2 (en) Noise compensation in speaker-adaptive systems
US8892436B2 (en) Front-end processor for speech recognition, and speech recognizing apparatus and method using the same
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
WO2024055752A9 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
JP2004279466A (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
CN117877491B (zh) 一种带声纹识别的自适应拾音方法
KR101862352B1 (ko) 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법
CN116741144B (zh) 一种语音音色转换方法和系统
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
JP2013114151A (ja) 雑音抑圧装置、方法及びプログラム
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
KR20210145733A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
JP4233831B2 (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
KR20220069776A (ko) 자동음성인식을 위한 음성 데이터 생성 방법
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム
WO2023105778A1 (ja) 音声信号の処理方法、音声信号処理装置、およびプログラム
JP2016139025A (ja) パラメータ決定装置、パラメータ決定方法、およびプログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant