KR20150145024A - 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 - Google Patents

화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 Download PDF

Info

Publication number
KR20150145024A
KR20150145024A KR1020140074238A KR20140074238A KR20150145024A KR 20150145024 A KR20150145024 A KR 20150145024A KR 1020140074238 A KR1020140074238 A KR 1020140074238A KR 20140074238 A KR20140074238 A KR 20140074238A KR 20150145024 A KR20150145024 A KR 20150145024A
Authority
KR
South Korea
Prior art keywords
speaker
speech recognition
data
speech
statistical
Prior art date
Application number
KR1020140074238A
Other languages
English (en)
Inventor
김동현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140074238A priority Critical patent/KR20150145024A/ko
Priority to US14/709,359 priority patent/US9530403B2/en
Publication of KR20150145024A publication Critical patent/KR20150145024A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

본 발명은 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법을 제공한다. 상기 화자적응 음성인식 시스템의 단말은 화자의 음성데이터를 음성인식서버로 송신하는 음성녹음부, 상기 송신된 음성데이터를 인식한 상기 음성인식서버로부터 상기 화자의 발화에 대한 음향학적 통계정보가 포함된 통계변수를 수신하고 상기 수신된 통계변수를 누적하는 통계변수누적부, 상기 누적된 통계변수를 이용하여 상기 화자의 발화에 대한 변환매개변수를 생성하고 상기 생성된 변환매개변수를 상기 음성인식서버로 송신하는 변환매개변수생성부 및 상기 음성인식서버가 상기 송신된 변환매개변수를 이용하여 상기 화자의 음성데이터를 인식하고 상기 인식한 결과데이터를 송신하면, 상기 결과데이터를 수신하여 표시하는 결과표시UI부를 포함한다.

Description

화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법{TERMINAL AND SERVER OF SPEAKER-ADAPTATION SPEECH-RECOGNITION SYSTEM AND METHOD FOR OPERATING THE SYSTEM}
본 발명은 화자적응 기반의 음성인식 시스템으로서, 구체적으로는, 사용자의 단말에서 점진적으로 화자적응을 수행하고 음성인식서버에서 화자적응된 정보를 이용하여 화자로부터 발화된 음성을 인식하는 음성인식 시스템에 관한 것이다.
종래의 음성인식 시스템은 사용자의 단말에 설치된 음성녹음 프로그램과 여러 가지의 음성인식 알고리즘 및 메모리 자원을 이용하여 사용자의 음성을 인식하는 온라인 서버로 구성된다. 이러한 구성은 온라인 서버의 자원을 더 쉽게 이용할 수 있는 환경과 더 작아지는 단말 환경에 호응할 수 있도록 개인 사용자의 특성을 반영하여 음성인식의 성능을 향상시키는 방향으로 개발되고 있으며, 이를 위해 화자적응 기술이 이용되고 있다.
화자적응 기술은 화자로부터 발화된 음성과 음향모델과의 간격을 화자의 음성 특징에 적합하게 변형하고 줄이는 기술로서, MAP(Maximum A Posterior), MLLR(Maximum Likelihood Linear Regression), MAPLR(Maximum A Posterior Linear Regression), eigen-voice 등의 여러 가지 방법들이 이용된다.
종래의 온라인 서버를 이용한 음성인식 시스템에서 화자적응 기술이 이용되기 위해서는 두 가지 요소가 필요하다. 첫 번째 요소는 적응 데이터와 함께 정답 전사문(Transcription)이 주어져야 한다는 것이고, 두 번째 요소는 화자를 구별할 수 있도록 화자 아이디를 부여해야 한다는 것이다.
구체적으로, 첫 번째 요소는 음성인식 시스템에 화자적응을 위한 사전학습(Pre-learning) 과정을 구성하여 많이 사용되며, 이때 사전학습 과정이란 미리 정답 전사문이 주어진 단어들이나 문장들을 사용자가 발화하게 하여 화자적응을 수행하는 것을 의미한다. 두 번째 요소는 단말 자체에 음성인식장치가 존재하여 화자 구별을 필요로 하지 않는 경우와 달리, 온라인 서버의 음성인식장치를 이용하는 경우 많이 사용되며, 이때 화자 아이디는 서버에 접속하는 단말의 화자를 구별해야 화자에 적합한 적응을 수행할 수 있기 때문에 필요하다.
그러나, 이러한 사전학습 과정이나 화자 아이디를 부여하는 방법은 번거로울 뿐 아니라, 서버에 화자 별로 할당된 공간을 필요로 하기 때문에 데이터의 과부화를 일으킬 수 있는 문제점이 존재한다.
본 발명은 전술한 문제점을 해결하기 위하여, 음성인식된 결과로부터 화자적응을 위해 필요한 통계변수를 추출하고, 추출된 통계변수를 단말에 지속적으로 누적하여 저장함으로써 음성인식서버가 화자의 음성을 인식할 때, 누적된 통계변수로부터 생성된 정보를 이용하여 화자의 음성을 인식하는 음성인식 시스템을 제공하는 것을 목적으로 한다.
상술한 목적을 달성하기 위한 본 발명의 일면에 따른 화자적응 음성인식 시스템의 단말은 화자의 음성데이터를 음성인식서버로 송신하는 음성녹음부, 상기 송신된 음성데이터를 인식한 상기 음성인식서버로부터 상기 화자의 발화에 대한 음향학적 통계정보가 포함된 통계변수를 수신하고 상기 수신된 통계변수를 누적하는 통계변수누적부, 상기 누적된 통계변수를 이용하여 상기 화자의 발화에 대한 변환매개변수를 생성하고 상기 생성된 변환매개변수를 상기 음성인식서버로 송신하는 변환매개변수생성부 및 상기 음성인식서버가 상기 송신된 변환매개변수를 이용하여 상기 화자의 음성데이터를 인식하고 상기 인식한 결과데이터를 송신하면, 상기 결과데이터를 수신하여 표시하는 결과표시UI부를 포함한다.
한편, 본 발명의 일면에 따른 화자적응 음성인식 시스템의 단말 운용 방법은 화자의 음성데이터를 음성인식서버로 송신하는 단계, 상기 송신된 음성데이터를 인식한 상기 음성인식서버로부터 상기 화자의 발화에 대한 음향학적 통계정보가 포함된 통계변수를 수신하면 상기 수신된 통계변수를 누적하는 단계, 상기 누적된 통계변수를 이용하여 상기 화자의 발화에 대한 변환매개변수를 생성하고, 상기 생성된 변환매개변수를 상기 음성인식서버로 송신하는 단계 및 상기 음성인식서버가 상기 송신된 변환매개변수를 이용하여 상기 화자의 음성데이터를 인식하고 상기 인식한 결과데이터를 송신하면, 상기 결과데이터를 수신하여 표시하는 단계를 포함한다.
그리고, 본 발명의 일면에 따른 화자적응 음성인식 시스템의 서버는 단말로부터 화자의 음성데이터를 수신하여 음성인식을 수행하고, 상기 수행된 음성인식의 결과데이터를 출력하는 음성인식부, 상기 출력된 결과데이터를 이용하여 상기 화자의 발화에 대한 음향학적 통계정보가 포함된 통계변수를 생성하는 통계변수생성부 및 상기 생성된 통계변수를 상기 단말에 누적시키는 통계변수전송부를 포함하며, 상기 음성인식부는 상기 단말이 상기 누적된 통계변수를 이용하여 상기 화자의 발화에 대한 변환매개변수를 생성하면, 상기 생성된 변환매개변수를 상기 단말로부터 수신하여 상기 화자로부터 발화된 음성데이터를 인식한다.
본 발명에 따르면, 단말에 누적저장된 통계변수를 이용하여 불필요한 사전학습 과정이나 화자 아이디 부여 없이 화자로부터 발화된 음성을 인식하는 이점을 제공한다. 또한, 화자적응에 필요한 정보 또한 단말에 저장하기 때문에 서버에 저장되는 정보의 양을 줄여 서버의 부담을 줄일 수 있고, 화자의 입장에서도 음성인식을 위해 개인정보를 서버에 보내거나 저장하는 불편함을 줄일 수 있는 이점을 제공한다.
도 1 내지 도 3은 본 발명의 일실시예에 따른 화자적응 기반의 음성인식 시스템의 구성을 나타낸 블록도이다.
도 4는 본 발명의 일실시예에 따른 화자적응 기반의 음성인식 시스템이 통계변수를 생성하는 과정을 나타낸 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이므로 본 발명의 권리범위는 청구항의 기재에 의해 정하여진다.
한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자에 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가함을 배제하지 않는다. 이하, 본 발명의 따른 실시예를 첨부된 도면을 참조하여 상세하게 설명하도록 한다.
도 1은 본 발명의 일실시예에 따른 화자적응 기반의 음성인식 시스템의 구성을 나타낸 블록도이다.
도 1에 도시된 바와 같이, 본 발명의 음성인식 시스템(100)은 화자의 단말(110) 및 음성인식서버(120)를 포함한다.
단말(110)은 화자의 음성을 녹음하고 음성인식된 결과를 표시하는 장치로서, 음성녹음부(111), 통계변수누적부(112), 변환매개변수생성부(113), 변환매개변수전송부(114) 및 결과표시UI부(115)를 포함한다.
음성녹음부(111)는 화자로부터 발화된 음성을 녹음하고 녹음된 음성데이터를 유무선 통신 방식을 이용하여 음성인식서버(120)로 송신한다.
통계변수누적부(112)는 화자의 음성데이터를 인식한 음성인식서버(120)로부터 화자의 발화에 대한 음향학적 통계정보가 포함된 통계변수를 수신하고 수신된 통계변수를 누적하여 저장한다.
이때, 통계변수는 가중치(
Figure pat00001
)를 할당 받아 기저장된 통계변수와 합산되어 저장되는 것으로서, 할당 받은 가중치가 0.5보다 커지면 최근 입력된 통계변수에 비중을 주어 통계변수의 누적효과보다 최근 환경 변화에 빠르게 대응하는 효과를 주며, 할당 받은 가중치가 0.5이면 환경 변화보다 통계변수의 누적효과에 비중을 주도록 한다. 이를 위해 수학식 1 및 수학식 2를 이용하여 가중치가 반영된 통계변수를 계산할 수 있다.
Figure pat00002
Figure pat00003
여기서,
Figure pat00004
Figure pat00005
는 특징벡터 적응에 feature space Maximum Likelihood Linear Regression (fMLLR) 방법을 이용하는 경우를 가정하여 계산한 통계변수이고,
Figure pat00006
Figure pat00007
는 가중치를 할당 받아 계산된 통계변수이며,
Figure pat00008
는 0.5보다 크거나 같고 1 미만인 가중치를 의미한다(
Figure pat00009
).
변환매개변수생성부(113)는 통계변수누적부(112)에 누적된 통계변수를 이용하여 화자의 발화에 대한 변환매개변수를 생성하고, 생성된 변환매개변수를 변환매개변수전송부(114)를 통해 음성인식서버(120)로 송신한다.
이때, 변환매개변수전송부(114)는 음성녹음부(111)가 화자의 음성데이터를 음성인식서버(120)로 전달함과 동시에 음성인식서버(120)로 변환매개변수가 송신되도록 설정될 수 있다.
변환매개변수를 생성하는 알고리즘은 특징벡터 적응에 fMLLR 방법을 이용하는 경우를 예로 들면, 수학식 3과 같이 목적함수
Figure pat00010
를 구하는 식을 변환매개변수
Figure pat00011
를 유도하는 식으로 변환하여 이용할 수 있다.
Figure pat00012
여기서,
Figure pat00013
는 변환매개변수의 확장된 공통인자(cofactor)의 행 벡터이며,
Figure pat00014
Figure pat00015
의 i행 벡터이다. 수학식 3을 미분하여 변환매개변수
Figure pat00016
를 유도하도록 수학식 4와 같이 정리할 수 있다.
Figure pat00017
여기서
Figure pat00018
는 가우시안 점유확률들의 누적 합이다. 수학식 4를
Figure pat00019
에 대한 2차식으로 유도해서 수학식 5와 같이 정리하면 i행 벡터의 변환매개변수
Figure pat00020
를 계산할 수 있다.
Figure pat00021
이와 같이 누적된 통계변수와 변환매개변수를 계산할 수 있는 조건이라면, 종래의 특징벡터 적응에 이용되는 fMLLR 뿐만 아니라 fMAPLR(feature space Maximum A Posteriori Linear Regression), fMPE(feature space Minimum Phone Error rate)와 같은 다양한 알고리즘이 이용될 수 있다.
결과표시UI부(115)는 변환매개변수생성부(113)가 생성한 변환매개변수를 이용하여 음성인식서버(120)가 화자의 음성데이터를 인식하면, 인식된 결과데이터를 음성인식서버(120)로부터 수신하여 화자 인터페이스(UI, User Interface)를 통해 표시한다.
음성인식서버(120)는 음성인식 서비스를 제공하는 서버로서, 전처리부(121), 특징벡터변환부(122), 음성인식부(123), 음성인식결과전송부(124), 신뢰도평가부(125), 통계변수생성부(126) 및 통계변수전송부(127)를 포함한다.
전처리부(121)는 단말(110)로부터 수신한 음성데이터를 잡음 처리, 스펙트럼 정규화(Spectral Normalization) 처리, 끝점 검출 처리와 같은 방법으로 전처리하고, 전처리된 음성데이터로부터 특징벡터열을 추출한다.
여기서, 특징벡터열은 음성에 대한 특징적인 파라미터로서, 특징벡터열을 추출하기 위해서 Mel 주파수 캡스트럼(MFCC, Mel-Frequency Cepstral Coefficient) 방법이나 인지선형예측(PLP, Perceptual Linear Prediction) 방법 등의 여러 가지 방법을 사용할 수 있다.
특징벡터변환부(122)는 단말(110)로부터 수신한 변환매개변수를 이용하여 전처리부(121)에서 추출한 특징벡터를 화자의 발화 특징에 맞게 변환한다. 만약, 변환매개변수가 없으면 특징벡터변환부(122)는 전처리부(121)에서 추출한 특징벡터를 변환과정 없이 음성인식부(123)로 전달한다.
음성인식부(123)는 특징벡터변환부(122)에서 변환한 특징벡터 또는 전처리부(121)에서 추출한 특징벡터를 기저장된 음향모델 및 언어모델을 이용하여 인식하고, 인식된 결과데이터를 음성인식결과전송부(124)로 전달한다.
음성인식결과전송부(124)는 음성인식부(123)가 인식한 단어열과 같은 결과데이터를 신뢰도평가부(125)로 전달하고, 또한, 단말(110)로 송신하여 표시하도록 한다.
신뢰도평가부(125)는 음성인식부(123)가 인식한 단어열의 신뢰도를 평가한다. 구체적으로, 신뢰도평가부(125)는 인식된 단어열의 신뢰도를 평가하여 평가된 신뢰도가 기설정된 기준 이상이면 해당 단어열에 가중치를 할당하고, 평가된 신뢰도가 기설정된 기준 이하이면 해당 단어열을 삭제한다.
통계변수생성부(126)는 음성인식결과전송부(124)로부터 전달된 결과데이터 및 신뢰도평가부(125)에서 평가한 단어열의 신뢰도를 이용하여 통계변수를 생성하고, 생성된 통계변수를 통계변수전송부(127)를 통하여 단말(110)에 누적시킨다. 이때, 통계변수생성부(126)가 통계변수를 생성하는 구체적인 방법은 이하, 도 4를 참조하여 구체적으로 설명한다.
도 4는 본 발명의 일실시예에 따른 화자적응 기반의 음성인식 시스템이 통계변수를 생성하는 과정을 나타낸 흐름도이다.
음성인식서버(120)의 통계변수생성부(126)는 인식된 단어열을 신뢰도평가부(125)로부터 전달받아 전달된 단어열을 단어열의 발음기호와 대응하는 트라이폰 인덱스열로 변환하고(S400), 변환된 트라이폰 인덱스열을 대응하는 음향모델의 스테이트 인덱스열로 변환한다(S410).
통계변수생성부(126)는 전처리부(121)가 화자의 음성데이터로부터 추출한 특징벡터열과 변환된 스테이트 인덱스열을 이용하여 스테이트 발생확률을 측정한다(S420).
본 발명의 다른 실시예에 따르면 음성인식부(123)는 통계변수 생성에 도움을 주기 위하여 인식된 단어열을 이용하여 스테이트 인덱스열을 직접 생성하고, 생성된 스테이트 인덱스열을 통계변수생성부(126)로 전달하도록 설정될 수 있다.
그리고, 통계변수생성부(126)는 측정된 스테이트 발생확률을 이용하여 스테이트의 포워드-백워드 확률을 측정하고(S430), 측정된 스테이트의 포워드-백워드 확률을 이용하여 스테이트 점유확률을 계산한다(S440).
본 발명의 다른 실시예에 따르면 통계변수생성부(126)는 스테이트의 포워드-백워드 확률이 아닌, 스테이트 포워드 확률만 이용하는 비터비(Viterbi) 알고리즘을 이용하여 스테이트 점유확률을 계산하도록 설정될 수 있다.
이후, 통계변수생성부(126)는 계산된 스테이트 점유확률과 기저장된 음향모델의 통계치(예컨대, GMM(Gaussian Mixture Model)의 경우, 평균값과 분산값)를 이용하여 통계변수를 측정한다(S450).
수학식 6 및 수학식 7은 특징벡터 적응 방법 중 하나인 fMLLR 방법을 이용하여 통계변수를 계산하는 식이다.
Figure pat00022
Figure pat00023
여기서,
Figure pat00024
Figure pat00025
는 특징벡터 적응에 fMLLR 방법을 이용하는 경우를 가정하여 계산한 통계변수를 의미하고,
Figure pat00026
Figure pat00027
는 각각
Figure pat00028
(가우시안)의 평균벡터와 분산벡터의 i번째 차수의 값을 의미한다.
Figure pat00029
는 t번째 프레임에서 가우시안의 점유확률을 의미하고,
Figure pat00030
는 t번째 프레임에서 입력된 특징벡터의 n차원을 (n+1)로, 기본값 1이 포함된 차원으로 확장시킨 벡터를 의미한다.
본 발명은 음성인식서버(120)에서 음성을 인식한 결과를 이용하여 통계변수를 생성하고, 생성된 통계변수를 단말(110)에 누적시켜 단말(110)이 누적된 통계변수를 이용하여 변환매개변수를 생성하면, 음성인식서버(120)에서 이를 이용하여 화자의 음성을 인식하는 것으로서, 이와 같은 구조가 순차적으로 회전하기 때문에 점진적으로 화자에 적응된 음성인식 시스템(100)을 제공할 수 있다.
도 2는 본 발명의 다른 실시예에 따라 음성인식서버의 전처리부 및 특징벡터변환부를 단말에 구현한 화자적응 기반의 음성인식 시스템의 구성을 나타낸 블록도이다.
본 발명의 다른 실시예에 따르면 음성인식서버(120)의 전처리부(121) 및 특징벡터변환부(122)를 단말(100)에 구현하여 녹음된 음성데이터의 전처리와 특징벡터 추출을 단말(100)에서 수행하고, 추출된 특징벡터를 음성인식서버(120)로 송신하여 음성인식 하도록 할 수 있다. 이에 따라, 단말(100)에서 음성인식서버(120)로 송신되는 데이터의 양을 감소시킬 수 있는 이점을 제공한다.
도 2에 도시된 바와 같이, 단말(210)의 음성녹음부(211)는 화자로부터 발화된 음성을 녹음하고 녹음된 음성데이터를 전처리부(212)로 전달한다.
전처리부(212)는 음성녹음부(211)로부터 전달받은 음성데이터를 잡음 처리, 스펙트럼 정규화 처리, 끝점 검출 처리와 같은 방법으로 전처리하고, 전처리된 음성데이터로부터 특징벡터열을 추출하여 특징벡터변환부(213)로 전달한다.
특징벡터변환부(213)는 변환매개변수생성부(216)에서 생성된 변환매개변수를 이용하여 전처리부(212)에서 추출된 특징벡터를 화자의 발화 특징에 맞게 변환하고, 변환된 특징벡터를 특징벡터전송부(214)를 통하여 음성인식서버(220)로 송신한다. 만약, 기생성된 변환매개변수가 없으면 특징벡터변환부(213)는 전처리부(212)에서 추출한 특징벡터를 변환과정 없이 특징벡터전송부(214)를 통하여 음성인식서버(220)로 송신한다.
음성인식서버(220)의 음성인식부(221)는 단말(210)로부터 수신한 특징벡터를 기저장된 음향모델 및 언어모델을 이용하여 음성인식하고, 음성인식된 결과데이터를 음성인식결과전송부(222)를 통하여 단말(210)로 송신하여 화자에게 표시하도록 한다.
도 3은 본 발명의 다른 실시예에 따라 음성인식서버의 전처리부, 특징벡터변환부, 신뢰도평가부 및 통계변수생성부를 단말에 구현한 화자적응 기반의 음성인식 시스템의 구성을 나타낸 블록도이다.
본 발명의 다른 실시예에 따르면 음성인식서버(120)의 전처리부(121), 특징벡터변환부(122), 신뢰도평가부(125) 및 통계변수생성부(126)를 단말(110)에 구현하여 녹음된 음성데이터의 전처리, 특징벡터 추출, 음성인식된 단어열의 신뢰도평가 및 통계변수생성을 단말(110)에서 수행하고, 추출된 특징벡터를 음성인식서버(120)로 송신하여 음성인식 하도록 할 수 있다.
이는, 단말(110)의 하드웨어 성능이 향상됨에 따라 여분의 음성인식 연산을 지원할 수 있는 특성을 반영하고, 음성인식서버(120)의 일부 메모리 자원을 단말(110)에 저장하여 화자적응에 이용하도록 하여 다수의 단말(110)로부터 요청을 받는 음성인식서버(120)의 부담을 감소시키기 위한 구조로서, 음성인식서버(120)가 보다 간단한 구조를 가져 본래의 음성인식 기능을 빠르게 처리할 수 있도록 하는 이점을 제공한다.
도 3에 도시된 바와 같이, 단말(310)의 신뢰도평가부(315)는 음성인식서버(320)로부터 수신한 결과데이터에 포함된 단어열의 신뢰도를 평가하고, 평가한 단어열의 신뢰도 및 음성인식서버(320)로부터 수신한 결과데이터를 통계변수생성부(316)로 전달한다.
통계변수생성부(316)는 신뢰도평가부(315)에서 평가한 단어열의 신뢰도 및 신뢰도평가부(315)로부터 전달된 결과데이터를 이용하여 통계변수를 생성하고, 생성된 통계변수를 통계변수누적부(317)에 누적시킨다.
음성인식서버(320)의 음성인식결과전송부(322)는 음성인식부(321)에서 음성인식한 단어열과 같은 결과데이터를 단말(310)로 송신하여 화자에게 표시하거나, 수신한 결과데이터를 이용하여 단말(310)이 통계변수를 생성할 수 있도록 한다.
이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면, 본 발명의 본질적 특성을 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능하다. 따라서 본 발명에 표현된 실시예들은 본 발명의 기술적 사상을 한정하는 것이 아니라, 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 권리범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 특허청구범위에 의하여 해석되어야 하고, 그와 동등하거나, 균등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (20)

  1. 화자의 음성데이터를 음성인식서버로 송신하는 음성녹음부;
    상기 송신된 음성데이터를 인식한 상기 음성인식서버로부터 상기 화자의 발화에 대한 음향학적 통계정보가 포함된 통계변수를 수신하고 상기 수신된 통계변수를 누적하는 통계변수누적부;
    상기 누적된 통계변수를 이용하여 상기 화자의 발화에 대한 변환매개변수를 생성하고 상기 생성된 변환매개변수를 상기 음성인식서버로 송신하는 변환매개변수생성부; 및
    상기 음성인식서버가 상기 송신된 변환매개변수를 이용하여 상기 화자의 음성데이터를 인식하고 상기 인식한 결과데이터를 송신하면, 상기 결과데이터를 수신하여 표시하는 결과표시UI부
    를 포함하는 화자적응 음성인식 시스템의 단말.
  2. 제1항에 있어서,
    상기 음성데이터로부터 특징벡터를 추출하는 전처리부; 및
    상기 추출된 특징벡터를 상기 변환매개변수를 이용하여 상기 화자의 발화 특징에 맞게 변환하는 특징벡터변환부
    를 더 포함하는 화자적응 음성인식 시스템의 단말.
  3. 제2항에 있어서, 상기 전처리부는
    상기 음성데이터를 잡음처리, 스펙트럼 정규화(Spectral Normalization) 및 끝점검출처리 중 적어도 하나의 방법으로 전처리하고, 상기 전처리된 음성데이터로부터 특징벡터를 추출하는 것
    인 화자적응 음성인식 시스템의 단말.
  4. 제2항에 있어서, 상기 특징벡터변환부는
    상기 전처리부가 상기 특징벡터를 추출하면, 상기 추출된 특징벡터를 상기 변환매개변수생성부가 생성한 상기 변환매개변수를 이용하여 상기 화자의 발화 특징에 맞게 변환하는 것
    인 화자적응 음성인식 시스템의 단말.
  5. 제1항에 있어서,
    상기 음성인식서버로부터 상기 음성데이터를 인식한 결과데이터를 수신하고, 상기 결과데이터에 포함된 단어열의 신뢰도를 평가하는 신뢰도평가부; 및
    상기 결과데이터 및 상기 평가된 신뢰도를 이용하여 상기 통계변수를 생성하는 통계변수생성부
    를 더 포함하는 화자적응 음성인식 시스템의 단말.
  6. 제5항에 있어서, 상기 신뢰도평가부는
    상기 평가된 신뢰도가 기설정된 기준 이상이면 해당 단어열에 가중치를 할당하고, 상기 평가된 신뢰도가 기설정된 기준 이하이면 해당 단어열을 삭제하는 것
    인 화자적응 음성인식 시스템의 단말.
  7. 제5항에 있어서, 상기 통계변수생성부는
    상기 결과데이터에 포함된 단어열에 대응하는 음향모델 및 언어모델 중 적어도 하나의 방법을 이용하여 상기 통계변수를 생성하는 것
    인 화자적응 음성인식 시스템의 단말.
  8. 화자의 음성데이터를 음성인식서버로 송신하는 단계;
    상기 송신된 음성데이터를 인식한 상기 음성인식서버로부터 상기 화자의 발화에 대한 음향학적 통계정보가 포함된 통계변수를 수신하면 상기 수신된 통계변수를 누적하는 단계;
    상기 누적된 통계변수를 이용하여 상기 화자의 발화에 대한 변환매개변수를 생성하고, 상기 생성된 변환매개변수를 상기 음성인식서버로 송신하는 단계; 및
    상기 음성인식서버가 상기 송신된 변환매개변수를 이용하여 상기 화자의 음성데이터를 인식하고 상기 인식한 결과데이터를 송신하면, 상기 결과데이터를 수신하여 표시하는 단계
    를 포함하는 화자적응 음성인식 시스템의 단말 운용 방법.
  9. 제8항에 있어서,
    상기 음성데이터로부터 특징벡터를 추출하는 단계;
    상기 추출된 특징벡터를 상기 변환매개변수를 이용하여 상기 화자의 발화 특징에 맞게 변환하는 단계; 및
    상기 화자의 발화 특징에 맞게 변환된 특징벡터 및 상기 음성데이터를 상기 음성인식서버로 송신하는 단계
    를 더 포함하는 화자적응 음성인식 시스템의 단말 운용 방법.
  10. 제9항에 있어서, 상기 음성데이터로부터 특징벡터를 추출하는 단계는
    상기 화자의 음성데이터를 잡음처리, 스펙트럼 정규화 및 끝점검출처리 중 적어도 하나의 방법으로 전처리하고, 상기 전처리된 화자의 음성데이터로부터 특징벡터를 추출하는 것
    인 화자적응 음성인식 시스템의 단말 운용 방법.
  11. 제8항에 있어서, 상기 생성된 변환매개변수를 상기 음성인식서버로 송신하는 단계는
    상기 음성데이터를 상기 음성인식서버로 송신할 때, 상기 변환매개변수를 상기 음성인식서버로 송신하는 것
    인 화자적응 음성인식 시스템의 단말 운용 방법.
  12. 제8항에 있어서, 상기 수신된 통계변수를 누적하는 단계는
    상기 통계변수에 가중치를 할당하여 기저장된 통계변수와 합산하여 저장하는 것
    인 화자적응 음성인식 시스템의 단말 운용 방법.
  13. 단말로부터 화자의 음성데이터를 수신하여 음성인식을 수행하고, 상기 수행된 음성인식의 결과데이터를 출력하는 음성인식부;
    상기 출력된 결과데이터를 이용하여 상기 화자의 발화에 대한 음향학적 통계정보가 포함된 통계변수를 생성하는 통계변수생성부; 및
    상기 생성된 통계변수를 상기 단말에 누적시키는 통계변수전송부를 포함하되,
    상기 음성인식부는,
    상기 단말이 상기 누적된 통계변수를 이용하여 상기 화자의 발화에 대한 변환매개변수를 생성하면, 상기 생성된 변환매개변수를 상기 단말로부터 수신하여 상기 화자로부터 발화된 음성데이터를 인식하는 것
    인 화자적응 음성인식 시스템의 서버.
  14. 제13항에 있어서,
    상기 음성데이터를 잡음처리, 스펙트럼 정규화 및 끝점검출처리 중 적어도 하나의 방법으로 전처리하고, 상기 전처리된 화자의 음성데이터로부터 특징벡터를 추출하는 전처리부; 및
    상기 추출된 특징벡터를 상기 변환매개변수를 이용하여 상기 화자의 발화 특징에 맞게 변환하는 특징벡터변환부
    를 더 포함하는 화자적응 음성인식 시스템의 서버.
  15. 제13항에 있어서, 상기 음성인식부는
    상기 단말로부터 상기 음성데이터를 수신할 때, 상기 변환매개변수를 상기 단말로부터 수신하는 것
    인 화자적응 음성인식 시스템의 서버.
  16. 제13항에 있어서, 상기 음성인식부는
    상기 단말로부터 수신한 상기 변환매개변수가 없으면, 상기 특징벡터를 이용하여 상기 음성데이터를 음성인식하고, 상기 음성인식한 결과데이터를 상기 단말로 송신하는 것
    인 화자적응 음성인식 시스템의 서버.
  17. 제13항에 있어서,
    상기 결과데이터에 포함된 단어열의 신뢰도를 평가하고, 상기 평가된 신뢰도에 따라 상기 단어열에 가중치를 부여하여 상기 통계변수생성부로 전달하는 신뢰도평가부
    를 더 포함하는 화자적응 음성인식 시스템의 서버.
  18. 제17항에 있어서, 상기 신뢰도평가부는
    상기 평가된 신뢰도가 기설정된 기준 이상이면 해당 단어열에 가중치를 할당하고, 상기 평가된 신뢰도가 기설정된 기준 이하이면 해당 단어열을 삭제하는 것
    인 화자적응 음성인식 시스템의 서버.
  19. 제13항에 있어서, 상기 통계변수생성부는
    상기 결과데이터에 포함된 단어열에 대응하는 음향모델 및 언어모델 중 적어도 하나의 방법을 이용하여 상기 통계변수를 생성하는 것
    인 화자적응 음성인식 시스템의 서버.
  20. 제13항에 있어서, 상기 통계변수생성부는
    상기 결과데이터에 포함된 단어열을 이용하여 상기 단어열의 스테이트 점유확률을 계산하고, 상기 계산된 스테이트 점유확률과 기저장된 음향모델의 통계치를 이용하여 통계변수를 측정하는 것
    인 화자적응 음성인식 시스템의 서버.
KR1020140074238A 2014-06-18 2014-06-18 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 KR20150145024A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140074238A KR20150145024A (ko) 2014-06-18 2014-06-18 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
US14/709,359 US9530403B2 (en) 2014-06-18 2015-05-11 Terminal and server of speaker-adaptation speech-recognition system and method for operating the system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140074238A KR20150145024A (ko) 2014-06-18 2014-06-18 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법

Publications (1)

Publication Number Publication Date
KR20150145024A true KR20150145024A (ko) 2015-12-29

Family

ID=54870210

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140074238A KR20150145024A (ko) 2014-06-18 2014-06-18 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법

Country Status (2)

Country Link
US (1) US9530403B2 (ko)
KR (1) KR20150145024A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200025750A (ko) * 2018-08-31 2020-03-10 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
KR102613698B1 (ko) * 2023-07-31 2023-12-14 주식회사 효돌 사용자 음성 데이터에 기초하여 사용자 유형화를 수행하는방법 및 장치

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN105632489A (zh) * 2016-01-20 2016-06-01 曾戟 一种语音播放方法和装置
US10949602B2 (en) 2016-09-20 2021-03-16 Nuance Communications, Inc. Sequencing medical codes methods and apparatus
US10140574B2 (en) * 2016-12-31 2018-11-27 Via Alliance Semiconductor Co., Ltd Neural network unit with segmentable array width rotator and re-shapeable weight memory to match segment width to provide common weights to multiple rotator segments
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
DE10047718A1 (de) * 2000-09-27 2002-04-18 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
DE10122828A1 (de) * 2001-05-11 2002-11-14 Philips Corp Intellectual Pty Verfahren zum Training oder zur Adaption eines Spracherkenners
KR100676084B1 (ko) 2005-01-14 2007-01-31 한국정보통신대학교 산학협력단 소형 이동 단말기의 화자 및 환경적응 음성 인식 방법
CN100426377C (zh) * 2005-10-21 2008-10-15 华为技术有限公司 一种实现语音识别功能的方法
US20070129946A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C High quality speech reconstruction for a dialog method and system
KR100766061B1 (ko) 2005-12-09 2007-10-11 한국전자통신연구원 화자적응 방법 및 장치
KR100826875B1 (ko) 2006-09-08 2008-05-06 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
CN101320560A (zh) * 2008-07-01 2008-12-10 上海大学 语音识别系统应用采样速率转化提高识别率的方法
JP5558284B2 (ja) 2010-09-15 2014-07-23 株式会社Nttドコモ 音声認識システム、音声認識方法、および音声認識プログラム
KR101281958B1 (ko) 2011-09-06 2013-07-03 한국전자통신연구원 온라인 비지도 특징 벡터 적응 기법을 이용한 음성 인식 시스템 및 방법
KR101892733B1 (ko) 2011-11-24 2018-08-29 한국전자통신연구원 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200025750A (ko) * 2018-08-31 2020-03-10 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
KR102613698B1 (ko) * 2023-07-31 2023-12-14 주식회사 효돌 사용자 음성 데이터에 기초하여 사용자 유형화를 수행하는방법 및 장치

Also Published As

Publication number Publication date
US9530403B2 (en) 2016-12-27
US20150371634A1 (en) 2015-12-24

Similar Documents

Publication Publication Date Title
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
JP6538779B2 (ja) 音声対話システム、音声対話方法、および音声対話システムを適合させる方法
KR102371188B1 (ko) 음성 인식 장치 및 방법과 전자 장치
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
US9966077B2 (en) Speech recognition device and method
US10235994B2 (en) Modular deep learning model
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US10650802B2 (en) Voice recognition method, recording medium, voice recognition device, and robot
US8831939B2 (en) Voice data transferring device, terminal device, voice data transferring method, and voice recognition system
KR101622111B1 (ko) 대화 시스템 및 그의 대화 방법
US8386254B2 (en) Multi-class constrained maximum likelihood linear regression
US8996373B2 (en) State detection device and state detecting method
KR20120054845A (ko) 로봇의 음성인식방법
US10553206B2 (en) Voice keyword detection apparatus and voice keyword detection method
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
KR20210155401A (ko) 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
CN111986675A (zh) 语音对话方法、设备及计算机可读存储介质
US10971149B2 (en) Voice interaction system for interaction with a user by voice, voice interaction method, and program
US20230070000A1 (en) Speech recognition method and apparatus, device, storage medium, and program product
KR20210153165A (ko) 음성 인식 기능을 제공하는 인공 지능 기기, 인공 지능 기기의 동작 방법
JP5229124B2 (ja) 話者照合装置、話者照合方法およびプログラム
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
EP2541544A1 (en) Voice sample tagging
CN113327596B (zh) 语音识别模型的训练方法、语音识别方法和装置

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination