KR20110028095A - 실시간 화자 적응을 통한 음성 인식 시스템 및 방법 - Google Patents

실시간 화자 적응을 통한 음성 인식 시스템 및 방법 Download PDF

Info

Publication number
KR20110028095A
KR20110028095A KR1020090086024A KR20090086024A KR20110028095A KR 20110028095 A KR20110028095 A KR 20110028095A KR 1020090086024 A KR1020090086024 A KR 1020090086024A KR 20090086024 A KR20090086024 A KR 20090086024A KR 20110028095 A KR20110028095 A KR 20110028095A
Authority
KR
South Korea
Prior art keywords
speech
voice
speech recognition
pitch
warping
Prior art date
Application number
KR1020090086024A
Other languages
English (en)
Inventor
이길호
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020090086024A priority Critical patent/KR20110028095A/ko
Priority to US12/836,971 priority patent/US20110066426A1/en
Publication of KR20110028095A publication Critical patent/KR20110028095A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

실시간 화자 적응을 통한 음성 인식 시스템 및 방법이 개시된다. 음성 인식 시스템은 입력된 음성 신호에서 음성 구간의 피치를 추정하고, 추정된 피치를 이용하여 음성 인식을 위한 음성 특징을 추출하며, 음성 특징을 이용하여 음성 신호에 대해 음성 인식을 수행할 수 있다. 음성 인식 시스템은 화자에 따라 적응적으로 정규화하여 음성 인식을 위한 음성 특징을 추출함으로써 음성 인식의 성능을 향상시킬 수 있다.
화자, 음성 인식, 워핑, 피치, 성도 길이 정규화

Description

실시간 화자 적응을 통한 음성 인식 시스템 및 방법{SYSTEM AND METHOD FOR SPEAKER-ADAPTIVE SPEECH RECOGNITION IN REAL TIME}
음성 인식 시스템 및 방법에 관한 것으로, 보다 구체적으로, 화자의 특성을 음성 인식 시스템에 반영하여 음성 인식의 성능이 향상된 음성 인식 시스템 및 방법에 관한 것이다.
음성인식은 특정 화자에 대해서만 인식하는 화자종속 시스템과 화자에 상관없이 인식하는 화자독립 시스템으로 구분될 수 있다. 구체적으로, 화자종속 음성 인식은 사용자의 음성을 저장, 등록하고, 입력된 음성의 패턴과 저장된 음성의 패턴을 비교하여 음성 인식을 수행한다. 반면, 화자독립 음성인식은 불특정 다수 화자의 음성을 인식하기 위한 것으로, 다수 화자의 음성을 수집하여 통계적인 모델을 학습하고, 학습된 모델을 이용하여 음성 인식을 수행한다.
종래의 경우, 음성 인식을 위해 음향 모델에 대해 모든 가능한 정규화 계수를 적용하여 가장 높은 확률을 갖는 계수를 선택하는 방법이 적용되었다. 그러나, 상기 방법은 많은 연산량이 필요하므로, 동시에 다수의 음성 인식을 수행하기에는 무리가 있었다. 또한, 종래의 방법에 의하면, 실시간 처리 및 단말향 음성 인식 시스템에 적합하지 않았다.
따라서, 연산량과 처리 시간을 줄임으로써 실시간으로 음성 인식을 수행할 수 있는 방법이 요구되고 있다.
음성 인식 시스템은 음성 신호로부터 음성 구간을 추출하여 상기 음성 구간에 대해 피치(pitch)를 추정하는 피치 추정부, 상기 추정된 피치를 이용하여 상기 음성 구간에서 음성 인식을 위한 음성 특징을 추출하는 음성 특징 추출부 및 상기 음성 특징을 이용하여 상기 음성 신호에 대해 음성 인식을 수행하는 음성 인식부를 포함할 수 있다.
음성 인식 시스템의 음성 특징 추출부는 추정된 피치를 이용하여 성도 길이 정규화를 위한 워핑 계수를 계산하는 워핑 계수 계산부 및 상기 워핑 계수를 이용하여 주파수 워핑(frequency warping)을 수행하는 주파수 워핑부를 포함할 수 있다.
음성 인식 시스템은 상기 워핑 계수의 정확도를 향상시키기 위해 상기 음성 인식에 대한 사용자 피드백을 수행하는 사용자 피드백부를 더 포함할 수 있다.
음성 인식 방법은 음성 신호로부터 음성 구간을 추출하여 상기 음성 구간에 대해 피치(pitch)를 추정하는 단계, 상기 추정된 피치를 이용하여 상기 음성 구간에서 음성 인식을 위한 음성 특징을 추출하는 단계 및 상기 음성 특징을 이용하여 상기 음성 신호에 대해 음성 인식을 수행하는 단계를 포함할 수 있다.
음성 인식 시스템 및 방법에 의하면, 화자에 따른 음성의 특성을 정규화하는 방법을 사용하여 음성 인식 특징을 추출함으로써 음성 인식의 성능을 향상시킬 수 있다.
음성 인식 시스템 및 방법에 의하면, 불특정 화자의 음성 신호에 대해 성도 길이 정규화를 수행하여 음성 인식의 성능을 향상시킬 수 있다.
음성 인식 시스템 및 방법에 의하면, 적은 연산으로 성도 길이 정규화를 위한 워핑 계수를 추정하여 실시간 처리가 가능할 수 있다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일실시예에 따른 음성 인식 시스템의 동작을 설명하기 위한 도면이다.
음성 인식 시스템(100)은 입력된 음성 신호로부터 화자의 특성을 추출하여 음성 인식에 반영함으로써, 음성 인식의 성능을 향상시킬 수 있다. 특히, 음성 인식 시스템(100)은 실시간으로 화자 적응의 음성 인식을 수행할 수 있다.
음성 인식 시스템(100)은 음성 신호로부터 피치를 추정하고, 피치를 이용하여 성도 길이 정규화 계수를 계산함으로써 음성 특징을 추출할 수 있다. 그러면, 음성 인식 시스템(100)은 음성 특징을 이용하여 음성 인식을 수행하고, 음성 인식 결과를 사용자로부터 피드백을 받아 보다 정확한 정규화 계수를 계산함으로써 음성 인식의 성능을 향상시킬 수 있다.
도 2는 본 발명의 일실시예에 따른 음성 인식 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 2를 참고하면, 음성 인식 시스템(100)은 피치 추정부(201), 음성 특징 추출부(202), 음성 인식부(203)를 포함할 수 있다. 일례로, 음성 인식 시스템(100)은 사용자 피드백부(204)를 더 포함할 수 있다.
피치 추정부(201)는 음성 신호로부터 음성 구간을 추출하여 음성 구간에 대해 피치를 추정할 수 있다. 이 때, 피치(pitch)는 사람이 느끼는 음의 고유 주파수를 의미할 수 있다.
음성 특징 추출부(202)는 음성 신호의 음성 구간에 대해 추정된 피치를 이용하여 음성 구간에서 음성 인식을 위한 음성 특징을 추출할 수 있다.
피치 추정부(201) 및 음성 특징 추출부(202)에 대해서는 도 3에서 보다 구체적으로 설명한다.
음성 인식부(203)는 음성 인식을 위해 추출된 음성 특징을 이용하여 음성 신호에 대해 음성 인식을 수행할 수 있다.
사용자 피드백부(204)는 음성 인식에 대한 사용자 피드백을 수행하여 음성 특징부(202)에 피드백 결과를 전달할 수 있다. 결국, 음성 인식 결과는 반복적인 피드백 과정을 통해 성능이 향상될 수 있다.
도 3은 본 발명의 일실시예에 따른 피치 추정부 및 음성 특징 추출부의 세부 구성을 도시한 블록 다이어그램이다.
도 3을 참고하면, 피치 추정부(201)는 음성 구간 추출부(301) 및 유성음 판단부(302)를 포함할 수 있다.
음성 구간 추출부(301)는 입력된 음성 신호에서 음성의 시작과 끝을 포함하는 음성 구간을 추출할 수 있다. 예를 들어, 음성 신호는 마이크 등의 장치를 통해 음성 인식 시스템(100)에 입력될 수 있다. 입력 신호에서 음성 구간이 아닌 경우, 음성 구간을 추출하는 과정은 생략될 수 있다.
유성음 판단부(302)는 추출된 음성 구간이 유성음인지 여부를 판단할 수 있다. 일례로, 유성음 판단부(302)는 피치의 신뢰도를 파악함으로써 음성 구간이 유성음인지 또는 무성음인지 판단할 수 있다.
이 때, 음성 구간이 유성음 프레임인 경우, 피치 추정부(201)는 음성 구간에 대한 피치를 추정할 수 있다. 반대로, 음성 구간이 무성음 프레임인 경우, 피치 추정부(201)는 이전 유성음 프레임의 피치를 현재 무성음 프레임의 피치로 대체할 수 있다. 여기서, 유성음(voice)은 성대의 진동으로 발생하는 음성을 의미한다. 그리고, 무성음(unvoice)은 성대의 진동을 수반하지 않은 음성을 의미한다.
피치 추정부(201)를 통해 음성 구간에 대해 추정된 피치는 음성 특징 추출부(202)로 전달될 수 있다. 또한, 음성 인식에 대한 사용자 피드백도 음성 특징 추출부(202)로 전달될 수 있다.
도 3을 참고하면, 음성 특징 추출부(202)는 전처리부(303), 윈도우 처리부(304), 워핑 계수 계산부(305) 및 주파수 워핑부(306)를 포함할 수 있다. 추가로, 음성 특징 추출부(202)는 필터 뱅크 집적부(307), 로그 스케일링부(308) 및 DCT 수행부(309)를 더 포함할 수 있다.
전처리부(303)는 음성 신호의 고주파 대역을 강조하기 위한 전처리(pre- processing)를 수행할 수 있다. 일례로, 전처리부(303)는 하기 수학식 1에 따라 전처리를 수행할 수 있다.
Figure 112009056140931-PAT00001
여기서, Spre는 전처리된 입력 신호를 의미하고, Sin은 입력 신호를 의미한다. 수학식 1은 일례에 불과하고, 시스템의 구성에 따라 변경될 수 있다.
윈도우 처리부(304)는 전처리된 음성 신호에 대해 해밍 윈도우(Hamming Window)를 처리할 수 있다. 일례로, 윈도우 처리부(304)는 하기 수학식 2에 따른 해밍 윈도우를 전처리된 음성 신호에 대해 처리할 수 있다.
Figure 112009056140931-PAT00002
상기 수학식 2는 일례에 불과하고, 시스템의 구성에 따라 변경될 수 있다.
워핑 계수 계산부(305)는 피치 추정부(201)를 통해 추정된 음성 구간의 피치를 이용하여 성도 길이 정규화를 위한 워핑 계수(warping factor)를 계산할 수 있다. 이 때, 워핑 계수 계산부(305)는 해밍 윈도우가 처리된 음성 신호에 대해 워핑 계수를 계산할 수 있다. 여기서, 성도 길이 정규화(Vocal Tract Length Normalization)은 화자별로 다른 성도 길이를 표준 화자에 맞게 음성 신호를 워핑(warping)시키는 방법을 의미한다. 워핑(warping)은 화자의 음성 신호를 표준 신호에 근접하도록 왜곡시키는 것을 의미한다. 일례로, 워핑 계수 계산부(305)는 하기 수학식 3에 따라 워핑 계수를 계산할 수 있다.
Figure 112009056140931-PAT00003
Wfactor는 워핑 계수를 의미하며, 0.8에서 1.4의 값을 가질 수 있다. 도 3을 참고하면, 피치는 100에서 400사이에 분포할 수 있고, 피치의 평균값은 203.777을 나타낸다. α는 음성 인식률을 의미한다. 수학식 3은 일례에 불과하고, 시스템의 구성에 따라 변경될 수 있다.
사용자 피드백부(204)는 워핑 계수의 정확도를 향상시키기 위해 음성 인식에 대한 사용자 피드백을 수행할 수 있다. 그러면, 워핑 계수 계산부(305)는 사용자 피드백을 고려하여 워핑 계수를 계산할 수 있다. 이 때, 사용자 피드백은 이전 피치, 워핑 계수 또는 음성 인식률 중 적어도 하나의 정보를 포함할 수 있다.
주파수 워핑부(306)는 워핑 계수를 이용하여 주파수 워핑을 수행할 수 있다. 구체적으로, 주파수 워핑부(306)는 음성 신호에 대한 주파수 해석을 수행하고, 주파수 해석시 워핑 계수를 이용하여 주파수 워핑을 수행할 수 있다. 일례로, 주파수 도메인에서 주파수 워핑은 piecewise방법과 bilinear 방법이 적용될 수 있다.
필터 뱅크 집적부(307)는 음성 인식을 위한 음성 특징을 추출하기 위해, 필터 뱅크 집적(Filter Bank Integration)을 수행할 수 있다.
로그 스케일링부(308)는 필터 뱅크 집적부(307)를 통해 계산된 각 필터링 값 에 대한 로그 값을 계산할 수 있다.
DCT 수행부(309)는 로그 값에 대해 DCT(Discrete Cosine Transform: 이산 코사인 변환을 수행할 수 있다.
도 5는 본 발명의 일실시예에 따른 피치 추정 방법과 Maximum Likelihood(ML) 방법의 워핑 계수를 나타내는 도면이다.
ML 방법은 가능한 모든 워핑 계수(Warping Factor)에 대해 음성인식을 수행한 뒤 Likelihood 값이 가장 큰 워핑 계수를 선택하는 방법을 의미한다. 이 방법은 향상된 음성인식의 결과를 얻을 수 있으나 다양한 경우에 대해 병렬 처리가 필요하며 따라서 많은 연산량이 필요하다.
도 4에 도시된 ML 방법은 0.8부터 1.4까지 0.05 간격으로 워핑(Warping)을 수행하여 이중 Likelihood 값이 가장 큰 워핑 계수를 표시하였다. 본 발명의 일실시예에 따른 피치 방법과의 상관계수를 구하면 약 0.81로 상관도가 우수함을 알 수 있다.
도 6은 본 발명의 일실시예에 따라 200개 발화에 대한 피치 추정 처리 시간을 나타내는 도면이다.
특히, 도 6은 음성 구간에 대한 피치 추정 시간을 줄이기 위해 유성음 10 프레임 피치를 추정하는 실시예를 나타낸다. 전체 발화에 대한 피치 추정 시간이 도5와 같이 적게 소요될지라도 본 발명은 실시간 화자 적응을 목적으로 하기 때문에 이에 대한 시간 역시 추가적으로 줄일 필요가 있다. 도 6에서는 유성음 10 프레임에 대해 피치를 추정하는 것을 도시하였으나, 유성음에 대한 프레임의 개수는 변경될 수 있다.
따라서 음성 인식 시스템(100)은 유성음 프레임에서 피치를 구하여 워핑 계수를 계산하고, 해당 프레임에 워핑을 수행하며, 무성음 프레임인 경우 이전 유성음 프레임의 피치를 사용하여 워핑 계수를 계산하여, 주파수 워핑을 수행한다.
음성 인식 시스템(100)은 최소 유성음 n개 프레임에 대해 서로 다른 워핑 계수를 적용하고 이후 프레임에 대해서는 n번째 프레임 값을 사용하여 피치 추정 시간을 줄였다. 도 6에서 10번째 프레임 값을 마지막 프레임까지 적용하였으나 10번째 프레임까지의 평균 값을 마지막 프레임까지 적용할 수도 있다.
도 7은 본 발명의 일실시예에 따른 음성 인식 방법의 전체 과정을 도시한 플로우차트이다.
단계(S701)에서, 음성 인식 시스템(100)은 음성 신호로부터 음성 구간을 추출하여 음성 구간에 대해 피치(pitch)를 추정할 수 있다. 일례로, 음성 인식 시스템(100)은 음성 신호에서 음성의 시작과 끝을 포함하는 음성 구간을 추출하고, 음성 구간이 유성음인지 여부를 판단할 수 있다. 이 때, 음성 구간이 유성음 구간인 경우, 음성 인식 시스템(100)은 음성 구간에 대한 피치를 추정할 수 있다. 그리고, 음성 구간이 무성음 구간인 경우, 음성 인식 시스템(100)은 이전 유성음 구간의 피치를 음성 구간에 대한 피치로 대체할 수 있다.
단계(S702)에서, 음성 인식 시스템(100)은 음성 구간에 대해 추정된 피치를 이용하여 음성 구간에서 음성 인식을 위한 음성 특징을 추출할 수 있다. 이 때, 음성 인식 시스템(100)은 추정된 피치를 이용하여 성도 길이 정규화를 위한 워핑 계수를 계산하고, 워핑 계수를 이용하여 주파수 워핑을 수행할 수 있다. 일례로, 워핑 계수를 계산하기 이전에, 음성 인식 시스템(100)은 음성 신호의 고주파 대역을 강조하기 위한 전처리를 수행하고, 전처리된 음성 신호에 대해 해밍 윈도우를 처리할 수 있다.
단계(S703)에서, 음성 인식 시스템(100)은 추출된 음성 특징을 이용하여 음성 신호에 대해 음성 인식을 수행할 수 있다.
단계(S704)에서, 음성 인식 시스템(100)은 워핑 계수의 정확도를 향상시키기 위해 음성 인식에 대한 사용자 피드백을 수행할 수 있다. 이 경우, 음성 인식 시스템(100)은 사용자 피드백을 고려하여 워핑 계수를 계산할 수 있다. 일례로, 사용자 피드백은 피치, 워핑 계수 또는 음성 인식률 중 적어도 하나의 정보를 포함할 수 있다.
도 7에서 설명되지 않은 부분은 도 1 내지 도 6에 기재된 설명을 참고할 수 있다.
또한 본 발명의 일실시예에 따른 음성 인식 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD- ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 시스템이 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 일실시예는 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일실시예에 따른 음성 인식 시스템의 동작을 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 음성 인식 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명의 일실시예에 따른 피치 추정부 및 음성 특징 추출부의 세부 구성을 도시한 블록 다이어그램이다.
도 4는 입력된 음성 신호의 피치 분포의 일례를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 피치 추정 방법과 Maximum Likelihood(ML) 방법의 워핑 계수를 나타내는 도면이다.
도 6은 본 발명의 일실시예에 따라 200개 발화에 대한 피치 추정 처리 시간을 나타내는 도면이다.
도 7은 본 발명의 일실시예에 따른 음성 인식 방법의 전체 과정을 도시한 플로우차트이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 음성 인식 시스템
201: 피치 추정부
202: 음성 특징 추출부
203: 음성 인식부
204: 사용자 피드백부

Claims (10)

  1. 음성 신호로부터 음성 구간을 추출하여 상기 음성 구간에 대해 피치(pitch)를 추정하는 피치 추정부;
    상기 추정된 피치를 이용하여 상기 음성 구간에서 음성 인식을 위한 음성 특징을 추출하는 음성 특징 추출부; 및
    상기 음성 특징을 이용하여 상기 음성 신호에 대해 음성 인식을 수행하는 음성 인식부
    를 포함하는 음성 인식 시스템.
  2. 제1항에 있어서,
    상기 피치 추정부는,
    상기 음성 신호에서 음성의 시작과 끝을 포함하는 음성 구간을 추출하는 음성 구간 추출부; 및
    상기 음성 구간이 유성음인지 여부를 판단하는 유성음 판단부
    를 포함하는 음성 인식 시스템.
  3. 제2항에 있어서,
    상기 피치 추정부는,
    상기 음성 구간이 유성음 프레임인 경우, 상기 음성 구간에 대한 피치를 추 정하고, 상기 음성 구간이 무성음 프레임인 경우, 이전 유성음 프레임의 피치를 상기 음성 구간에 대한 피치로 대체하는 것을 특징으로 하는 음성 인식 시스템.
  4. 제1항에 있어서,
    상기 음성 특징 추출부는,
    상기 추정된 피치를 이용하여 성도 길이 정규화를 위한 워핑 계수를 계산하는 워핑 계수 계산부; 및
    상기 워핑 계수를 이용하여 주파수 워핑(frequency warping)을 수행하는 주파수 워핑부
    를 포함하고,
    상기 음성 인식부는,
    상기 주파수 워핑된 음성 특징을 이용하여 음성 인식을 수행하는 것을 특징으로 하는 음성 인식 시스템.
  5. 제4항에 있어서,
    상기 음성 특징 추출부는,
    상기 음성 신호의 고주파 대역을 강조하기 위한 전처리를 수행하는 전처리부; 및
    상기 전처리된 음성 신호에 대해 해밍 윈도우(hamming window)를 처리하는 윈도우 처리부
    를 더 포함하고,
    상기 워핑 계수 계산부는,
    상기 해밍 윈도우가 처리된 음성 신호에 대해 워핑 계수를 계산하는 것을 특징으로 하는 음성 인식 시스템.
  6. 제4항에 있어서,
    상기 음성 인식 시스템은,
    상기 워핑 계수의 정확도를 향상시키기 위해 상기 음성 인식에 대한 사용자 피드백을 수행하는 사용자 피드백부
    를 더 포함하는 음성 인식 시스템.
  7. 제6항에 있어서,
    상기 워핑 계수 계산부는,
    상기 사용자 피드백을 고려하여 상기 워핑 계수를 계산하는 것을 특징으로 하는 음성 인식 시스템.
  8. 제6항에 있어서,
    상기 사용자 피드백은,
    피치, 워핑 계수 또는 음성 인식률 중 적어도 하나의 정보를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  9. 음성 신호로부터 음성 구간을 추출하여 상기 음성 구간에 대해 피치(pitch)를 추정하는 단계;
    상기 추정된 피치를 이용하여 상기 음성 구간에서 음성 인식을 위한 음성 특징을 추출하는 단계; 및
    상기 음성 특징을 이용하여 상기 음성 신호에 대해 음성 인식을 수행하는 단계
    를 포함하는 음성 인식 방법.
  10. 제9항에 있어서,
    상기 워핑 계수의 정확도를 향상시키기 위해 상기 음성 인식에 대한 사용자 피드백을 수행하는 단계
    를 더 포함하는 음성 인식 방법.
KR1020090086024A 2009-09-11 2009-09-11 실시간 화자 적응을 통한 음성 인식 시스템 및 방법 KR20110028095A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090086024A KR20110028095A (ko) 2009-09-11 2009-09-11 실시간 화자 적응을 통한 음성 인식 시스템 및 방법
US12/836,971 US20110066426A1 (en) 2009-09-11 2010-07-15 Real-time speaker-adaptive speech recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090086024A KR20110028095A (ko) 2009-09-11 2009-09-11 실시간 화자 적응을 통한 음성 인식 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20110028095A true KR20110028095A (ko) 2011-03-17

Family

ID=43731398

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090086024A KR20110028095A (ko) 2009-09-11 2009-09-11 실시간 화자 적응을 통한 음성 인식 시스템 및 방법

Country Status (2)

Country Link
US (1) US20110066426A1 (ko)
KR (1) KR20110028095A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017069556A1 (ko) * 2015-10-21 2017-04-27 삼성전자 주식회사 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
CN103366737B (zh) * 2012-03-30 2016-08-10 株式会社东芝 在自动语音识别中应用声调特征的装置和方法
US9263030B2 (en) * 2013-01-23 2016-02-16 Microsoft Technology Licensing, Llc Adaptive online feature normalization for speech recognition
US10026396B2 (en) 2015-07-28 2018-07-17 Google Llc Frequency warping in a speech recognition system
US10431236B2 (en) * 2016-11-15 2019-10-01 Sphero, Inc. Dynamic pitch adjustment of inbound audio to improve speech recognition
US11961522B2 (en) * 2018-11-28 2024-04-16 Samsung Electronics Co., Ltd. Voice recognition device and method
US11328730B2 (en) 2019-07-19 2022-05-10 Nextiva, Inc. Automated audio-to-text transcription in multi-device teleconferences
DE102020102468B3 (de) 2020-01-31 2021-08-05 Robidia GmbH Verfahren zur Steuerung einer Anzeigevorrichtung und Anzeigevorrichtung zur dynamischen Anzeige eines vordefinierten Textes

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5121428A (en) * 1988-01-20 1992-06-09 Ricoh Company, Ltd. Speaker verification system
EP0459384B1 (en) * 1990-05-28 1998-12-30 Matsushita Electric Industrial Co., Ltd. Speech signal processing apparatus for cutting out a speech signal from a noisy speech signal
EP0527527B1 (en) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5577160A (en) * 1992-06-24 1996-11-19 Sumitomo Electric Industries, Inc. Speech analysis apparatus for extracting glottal source parameters and formant parameters
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
KR100269255B1 (ko) * 1997-11-28 2000-10-16 정선종 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US6401067B2 (en) * 1999-01-28 2002-06-04 International Business Machines Corporation System and method for providing user-directed constraints for handwriting recognition
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
JP3450237B2 (ja) * 1999-10-06 2003-09-22 株式会社アルカディア 音声合成装置および方法
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US20020065649A1 (en) * 2000-08-25 2002-05-30 Yoon Kim Mel-frequency linear prediction speech recognition apparatus and method
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US6701291B2 (en) * 2000-10-13 2004-03-02 Lucent Technologies Inc. Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis
US7035797B2 (en) * 2001-12-14 2006-04-25 Nokia Corporation Data-driven filtering of cepstral time trajectories for robust speech recognition
US7698136B1 (en) * 2003-01-28 2010-04-13 Voxify, Inc. Methods and apparatus for flexible speech recognition
US7386443B1 (en) * 2004-01-09 2008-06-10 At&T Corp. System and method for mobile automatic speech recognition
US7844045B2 (en) * 2004-06-16 2010-11-30 Panasonic Corporation Intelligent call routing and call supervision method for call centers
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
CN101004911B (zh) * 2006-01-17 2012-06-27 纽昂斯通讯公司 用于生成频率弯曲函数及进行频率弯曲的方法和装置
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017069556A1 (ko) * 2015-10-21 2017-04-27 삼성전자 주식회사 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR20170046294A (ko) * 2015-10-21 2017-05-02 삼성전자주식회사 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체
US10796688B2 (en) 2015-10-21 2020-10-06 Samsung Electronics Co., Ltd. Electronic apparatus for performing pre-processing based on a speech recognition result, speech recognition method thereof, and non-transitory computer readable recording medium

Also Published As

Publication number Publication date
US20110066426A1 (en) 2011-03-17

Similar Documents

Publication Publication Date Title
US9536547B2 (en) Speaker change detection device and speaker change detection method
KR20110028095A (ko) 실시간 화자 적응을 통한 음성 인식 시스템 및 방법
US9536525B2 (en) Speaker indexing device and speaker indexing method
US9224392B2 (en) Audio signal processing apparatus and audio signal processing method
EP2216775B1 (en) Speaker recognition
JP4218982B2 (ja) 音声処理
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
US8346551B2 (en) Method for adapting a codebook for speech recognition
JP2019510248A (ja) 声紋識別方法、装置及びバックグラウンドサーバ
WO2014153800A1 (zh) 语音识别系统
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
KR100717401B1 (ko) 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
JP2016180839A (ja) 雑音抑圧音声認識装置およびそのプログラム
KR100682909B1 (ko) 음성 인식 방법 및 장치
JP2013114151A (ja) 雑音抑圧装置、方法及びプログラム
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
Sadjadi et al. Robust front-end processing for speaker identification over extremely degraded communication channels
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
Singhal et al. Automatic speech recognition for connected words using DTW/HMM for English/Hindi languages
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
Kannadaguli et al. Phoneme modeling for speech recognition in Kannada using Hidden Markov Model
US20210256970A1 (en) Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium
KR20090061566A (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right