KR20120031548A - 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법 - Google Patents

다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법 Download PDF

Info

Publication number
KR20120031548A
KR20120031548A KR1020100092980A KR20100092980A KR20120031548A KR 20120031548 A KR20120031548 A KR 20120031548A KR 1020100092980 A KR1020100092980 A KR 1020100092980A KR 20100092980 A KR20100092980 A KR 20100092980A KR 20120031548 A KR20120031548 A KR 20120031548A
Authority
KR
South Korea
Prior art keywords
speaker
recognition
database
command
acoustic
Prior art date
Application number
KR1020100092980A
Other languages
English (en)
Inventor
방영규
Original Assignee
주식회사 씨에스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 씨에스 filed Critical 주식회사 씨에스
Priority to KR1020100092980A priority Critical patent/KR20120031548A/ko
Publication of KR20120031548A publication Critical patent/KR20120031548A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법이 개시된다. 본 발명에 따른 음성 인식 방법은 (a) 메모리의 용량 한도에 맞게 대응하고자 하는 화자 수만큼 인식 모델을 복수 개 복사하여 준비된 복수 개의 음향 데이터베이스와 키워드 거절 모델 및 기타 명령어 거절 모델을 사용하여 명령어 인식을 1차 음성 인식으로서 수행하는 단계; (b) 상기 (a) 단계에서 명령어 인식을 수행하는 과정에서 명령어로 인식된 경우에는 키워드의 마지막 폰으로부터 더미로 향하는 로그우도비를 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스를 상기 (a) 단계에서 명령어를 발성한 화자에 대한 음향 데이터베이스로 결정하는 단계; (c) 상기 (b) 단계에서 결정된 음향 데이터베이스를 사용한 음성 인식을 2차 음성 인식으로서 수행하는 단계; (d) 상기 (c) 단계에서 인식결과가 승인된 경우에 그 인식 결과에 따른 기기 제어를 수행하는 단계; 및 (e) 음성을 저장하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화함으로써 해당 화자의 음향 데이터베이스를 갱신하는 단계;를 포함하는 것을 특징으로 한다.
본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법은 종래 기술의 경우 수동적으로 적응화를 함에 의하여 사용자에게 불편함을 주었던 단점을 해결하여 자동적으로 적응화를 수행하도록 하되 종래 기술의 경우 적응화 이후 화자 종속적인 경향을 가지게 되어 적응된 화자 또는 적응되지 않은 화자에 대하여 인식률이 떨어지는 문제를 해결하여 인식률을 높이면서도 시스템의 복잡도가 낮다.

Description

다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법{Voice recognition method for automatically adapting with respect to a plurality of speaker's voices}
본 발명은 화자 적응화를 적용한 음성 인식 방법에 관한 것으로 더 상세하게는 다수의 화자에 대하여 자동으로 적응화하는 음성 인식 방법에 관한 것이다.
종래의 음성 인식 방법에서는 화자를 인식하여 음성 인식률을 높이고 있다. 대한민국 공개특허 제 10-2010-27865호에는 화자 및 음성 인식 장치 및 그 방법이 개시되어 있다. 상기 공개 특허에 따르면 1차 인식에서 화자인식을 하고 2차인식에서 음성인식을 하기 때문에 화자 인식용 데이터베이스와 음성 인식용 데이터베이스를 별개로 사용하게 되고 그로 인하여 시스템의 사이즈가 커지고 복잡도가 높아져 음성 인식 시간이 길어질 뿐만 아니라 음성 인식 시스템의 제조 원가 상승 요인이 된다는 문제점이 있다.
또한 상기 방법에 따르면 적응화 이후 화자 종속적인 성향을 가지게 되어 기존의 적응된 화자 또는 적응되지 않은 화자에 대하여 인식률이 감소된다는 문제점이 있다.
본 발명은 상기한 문제점들을 해결하기 위하여 개발된 것으로 본 발명이 이루고자 하는 기술적 과제는 종래 기술의 경우 수동적으로 적응화를 함에 의하여 사용자에게 불편함을 주었던 단점을 해결하여 자동적으로 적응화를 수행하도록 하되 종래 기술의 경우 적응화 이후 화자 종속적인 경향을 가지게 되어 적응된 화자 또는 적응되지 않은 화자에 대하여 인식률이 떨어지는 문제를 해결하여 인식률을 높이면서도 시스템의 복잡도를 줄인 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법을 제공하는 것이다.
상기 기술적 과제를 이루기 위한 본 발명에 따른 음성 인식 방법은
(a) 메모리의 용량 한도에 맞게 대응하고자 하는 화자 수만큼 인식 모델을 복수 개 복사하여 준비된 복수 개의 음향 데이터베이스와 키워드 거절 모델 및 기타 명령어 거절 모델을 사용하여 명령어 인식을 1차 음성 인식으로서 수행하는 단계;
(b) 상기 (a) 단계에서 명령어 인식을 수행하는 과정에서 명령어로 인식된 경우에는 키워드의 마지막 폰으로부터 더미로 향하는 로그우도비를 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스를 상기 (a) 단계에서 명령어를 발성한 화자에 대한 음향 데이터베이스로 결정하는 단계;
(c) 상기 (b) 단계에서 결정된 음향 데이터베이스를 사용한 음성 인식을 2차 음성 인식으로서 수행하는 단계;
(d) 상기 (c) 단계에서 인식결과가 승인된 경우에 그 인식 결과에 따른 기기 제어를 수행하는 단계; 및
(e) 음성을 저장하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화함으로써 해당 화자의 음향 데이터베이스를 갱신하는 단계;를 포함하는 것을 특징으로 한다.
또한, 상기 (e) 단계는,
(e-1) 명령어 데이터베이스를 보유하고 있는지를 체크하는 단계; 및
(e-2) 상기 (e-1) 단계에서 명령어 데이터베이스를 보유하고 있지 않은 것으로 체크되면 음성을 저장하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화함으로써 해당 화자의 음향 데이터베이스를 갱신하는 단계;를 포함하는 것이 바람직하다.
또한, 상기 (e-1) 단계는,
(e-1-1) 상기 (b) 단계에서 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스가 존재하지 않는지 체크하는 단계; 및
(e-1-2) 상기 (e-1-1) 단계에서 모든 음향 데이터베이스에 대하여 동일한 값이 얻어져 가장 높은 값을 가지는 음향 데이터베이스가 존재하지 않는 것으로 체크되면 상기 (a) 단계에서 명령어를 발성한 화자에게 할당된 음향 데이터베이스가 없는 것으로 체크하는 단계;를 포함하는 것이 보다 바람직하다.
즉, 본 발명에 따르면 적응 모델과 적응되지 않은 모델을 따로 보유하여 이미 적응된 화자로 판단된 경우에는 해당 화자의 적응 모델을 선택하여 인식을 하고 적응되지 않은 화자인 것으로 판단된 경우에는 적응되지 않은 모델을 선택하여 인식한다. 여러 명의 적응 모델을 한꺼번에 검색하면 검색을 필요로 하는 모델의 사이즈가 커지게 되므로 인식 시간이 길어지는 문제가 있어 본 발명에 따르면 키워드 인식 또는 기타 명령어 인식을 위한 1차 인식에서 발성한 화자가 기존에 적응된 화자인지의 여부를 판단하게 되는데 그 과정에서는 화자별 인식 모델의 로그 우도비를 계산하게 된다.
본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법은 종래 기술의 경우 수동적으로 적응화를 함에 의하여 사용자에게 불편함을 주었던 단점을 해결하여 자동적으로 적응화를 수행하도록 하되 종래 기술의 경우 적응화 이후 화자 종속적인 경향을 가지게 되어 적응된 화자 또는 적응되지 않은 화자에 대하여 인식률이 떨어지는 문제를 해결하여 인식률을 높이면서도 시스템의 복잡도가 낮다.
도 1은 본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법을 수행하는 시스템의 구조를 개략적으로 나타낸 블록도,
도 2는 도 1의 시스템 내에서 수행되는 본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법의 주요 단계들을 나타낸 흐름도,
이하 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.
도 1에는 본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법을 수행하는 시스템의 구조를 블록도로써 개략적으로 나타내었다. 도 1을 참조하면, 본 발명에 따른 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법을 수행하는 시스템은 입력부(100)에서 음성을 입력하고 제1 인식부(102)에서 키워드 및 명령어를 인식한다. 제1 인식부(102)에서 키워드 및 명령어를 인식할 때에는 음성 모델 데이터베이스(104)를 사용한다. 음성 모델 데이터베이스(104)에 저장되는 음성 모델는 거절모델(106)과 인식모델(108)로 구분할 수 있다. 거절모델(106)은 키워드의 변별력을 높여주는 키워드 거절 모델(106_1)과, 키워드 이외의 명령어의 거절률을 높여주기 위한 기타 거절 모델(106_2)로 나누어질 수 있다. 인식모델(108)은 명령어 문장을 이루는 음소집합들을 말하는데, 메모리의 용량 한도에 맞게 대응하고자 하는 화자 수만큼 인식 모델을 복수 개 복사하여 복수 개의 음향 데이터베이스(108_1, 108_2, 108_3, 108_4,... ) 를 준비한다. 향후 이러한 복수 개의 음향 데이터베이스(108_1, 108_2, 108_3, 108_4, ... )에 저장된 인식모델에 대하여 적응화가 이루어지면 초기의 동일하게 복사된 인식모델이 화자별로 각각 적응화되어 갱신되면서 서로 다른 인식모델로 변경된다.
본 발명에 따르면 음성인식은 두 단계로 나뉘어져 음성 인식을 수행한다. 제1 인식부(102)에 의한 첫 번째 인식에서는 명령어를 발성했는지를 확인하는 명령어 인식 과정(S200)을 수행하고 명령어를 발성한 것으로 확인된 경우에 대해서만 발성한 화자에 대한 구분을 하는 과정(S202)을 수행한다. 명령어를 발성했는지 확인하는 방법은 첫 번째 인식에서 거절 단어가 인식되지 않고 명령어가 인식되었다면 명령어를 발성한 것으로 간주한다. 또는 인식한 단어 중에 키워드가 포함되어 있어도 명령어를 발성한 것으로 간주할 수 있다. 발성한 화자에 대해서 구분하는 방법은 상기 단계(S200)에서 명령어 인식을 수행하는 과정에서 명령어로 인식된 경우에는 키워드의 마지막 폰으로부터 더미로 향하는 로그우도비(Log-likelihood ratio)를 각각의 음향 데이터베이스(108_1, 108_2,...)와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스를 상기 단계(S200)에서 명령어를 발성한 화자에 대하여 2차 음성 인식에 사용할 인식 모델을 저장한 음향 데이터베이스, 즉, 2차 인식 모델로서 결정한다(S204).
예컨대, 음성 인식 과정에서는 각 단어들이 인식된 후 더미(dummy) 노드를 거쳤다가 다시 또 다른 단어들로 확장된다. 예를 들면 “나래야” → 더미 →“안방” → 더미 →“불켜” 와 같다. 더미 노드에서는 자신에게로 향하는 모든 단어들의 각각의 확률값을 계산하여 가장 높은 확률 값을 가지는 단어를 인식 후보로 등록한다. 본 특허의 아이디어는 키워드의 마지막 폰으로부터 더미로 향하는 로그우도비를 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스를 2차 인식에서 사용하고자 하는 것이다.
만일 키워드가 “나래야”이고 화자의 수에 대응하는 수 만큼의 그 수가 결정되는 음향 데이터베이스의 수가 4개라고 가정한다면, “나래야”는 제1 음향 데이터베이스에 속하는 n-a+r, a-r+ae, r-ae+ja 폰 세트와, 제2 음향 데이터베이스에 속하는 n2-a2+r2, a2-r2+ae2, r2-ae2+ja2 폰 세트와 n3-a3+r3, a3-r3+ae3, r3-ae3+ja3 폰 세트와, n4-a4+r4, a4-r4+ae4, r4-ae4+ja4 폰 세트로 구성될 수 있다. 따라서 r-ae+ja, r2-ae2+ja2, r3-ae3+ja3, r4-ae4+ja4 폰들은 더미로 향하는 폰들이 될 것이다. 이제 더미에서 r-ae+ja, r2-ae2+ja2, r3-ae3+ja3, r4-ae4+ja4 폰들에 대해서 로그우도비를 각각 구하는데, 이때 가장 높은 값을 얻은 폰이 화자에 가장 적합한 음향 데이터베이스라고 결정하는 것이다. 화자 적응을 하게 되면 음향 데이터베이스들이 화자의 발성성향에 맞추어 화자 종속의 성격을 가지는 데이터베이스로 변형되는데 이렇게 변형된 음향 데이터베이스에 속하는 폰이 가장 높은 로그 우도비 값을 가지게 될 것이기 때문이다.
위와 같은 과정을 “나래야” 즉 키워드 수준에서 생각해 볼 수 있고, 좀더 넓게는 “나래야 거실 조명 켜”와 같이 1차 인식에서 전체 명령어를 인식한 후에 어떤 음향 데이터베이스에 속하는 단어가 인식되었는지를 따져 2차 인식에서 사용할 음향 데이터베이스를 선택할 수 있다.
이제, 제2 인식부(112)는 상기 단계(S204)에서 결정된 음향 데이터베이스를 사용한 음성 인식을 2차 음성 인식으로서 수행한다(S206). 결과 판단부(114)는 단계(S206)에서 이루어진 음성 인식에 대하여 올바르게 인식되었는지를 판단하여 올바르게 인식된 경우에는 그를 승인하고, 기기제어부(116)는 상기 단계(S206)에서 인식결과가 승인된 경우(S208)에 그 인식 결과에 따른 기기 제어를 수행한다(S210).
다음으로, 적응화부(118)는 음성을 저장(S212)하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화(S214)함으로써 해당 화자의 음향 데이터베이스를 갱신(S216)한다
대안적으로, 제2 인식부(112)는 두 번째 인식에 대해서 제1 인식부(102)에 의한 첫 번째 인식결과가 명령어 발성을 했다고 판단되면 발성한 화자에 대하여 적응된 모델 또는 적응되지 않은 화자일 경우 적응되지 않은 모델을 선택하여 인식을 수행할 수 있다. 첫 번째 인식을 수행함에 있어서 방대한 모델을 검색하는 단점을 보완하기 위하여 모델을 최소화하여 구성한다. 모델을 최소화하여 구성하는 방법은 거절 모델을 구성함에 있어서 키워드 거절모델을 중점으로 구성하여 거절 모델을 최소화 한다. 키워드 중심의 거절 모델을 구성하는 방법은 필러 모델과, 키워드에 포함된 모노폰 모델과, 가비지 키워드 모델이 사용될 수 있다. 두 번째 인식을 수행할 때 검색 모델은 거절모델 전체와 선택된 적응모델을 사용한다.
최종 인식이 완료되고 인식 승인이 허가되면 적응화를 수행한다. 적응화를 수행하는 방법은 현재 발성한 화자가 기존에 적응화를 수행한 화자인지 아닌지를 따져 적응화를 수행하지 않은 화자인 경우 발성 음성을 저장하고 적응화를 수행하여 새로운 모델을 생성한다. 기존에 적응화를 한 화자이면 현재 발성 명령어가 적응화를 하지 않은 명령어이면 음성을 저장하고 기존에 적응화를 위해 저장했던 음성과 함께 새로운 적응화를 수행한다.
보다 바람직하게는, 해당 화자에 대한 명령어 데이터베이스를 보유하고 있는지를 체크(S230)하여, 상기 단계(S230)에서 명령어 데이터베이스를 보유하고 있지 않은 것으로 체크되면 음성을 저장(S212)하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화(S214)함으로써 해당 화자의 음향 데이터베이스를 갱신(S216)한다. 단계(S230)은 상기 단계(S204)에서 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스가 존재하지 않는지 체크하고, 모든 음향 데이터베이스에 대하여 동일한 값이 얻어져 가장 높은 값을 가지는 음향 데이터베이스가 존재하지 않는 것으로 체크되면 상기 단계에서 명령어를 발성한 화자에게 할당된 음향 데이터베이스가 없는 것으로 체크함으로써 이루어질 수 있다.
100: 입력부
102: 제1 인식부
104: 음성모델 데이터베이스
106: 거절모델
106_1: 키워드 거절모델 106_2: 기타 거절모델
108: 인식모델
108_1: 제1 화자 음향 데이터베이스 108_2: 제2 화자 음향 데이터베이스
112: 제1 인식부
114: 결과 판단부
116: 기기제어부
118: 적응화부

Claims (3)

  1. (a) 메모리의 용량 한도에 맞게 대응하고자 하는 화자 수만큼 인식 모델을 복수 개 복사하여 준비된 복수 개의 음향 데이터베이스와 키워드 거절 모델 및 기타 명령어 거절 모델을 사용하여 명령어 인식을 1차 음성 인식으로서 수행하는 단계;
    (b) 상기 (a) 단계에서 명령어 인식을 수행하는 과정에서 명령어로 인식된 경우에는 키워드의 마지막 폰으로부터 더미로 향하는 로그우도비를 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스를 상기 (a) 단계에서 명령어를 발성한 화자에 대한 음향 데이터베이스로 결정하는 단계;
    (c) 상기 (b) 단계에서 결정된 음향 데이터베이스를 사용한 음성 인식을 2차 음성 인식으로서 수행하는 단계;
    (d) 상기 (c) 단계에서 인식결과가 승인된 경우에 그 인식 결과에 따른 기기 제어를 수행하는 단계; 및
    (e) 음성을 저장하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화함으로써 해당 화자의 음향 데이터베이스를 갱신하는 단계;를 포함하는 것을 특징으로 하는 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법.
  2. 제1항에 있어서, 상기 (e) 단계는,
    (e-1) 해당 화자의 명령어 데이터베이스를 보유하고 있는지를 체크하는 단계; 및
    (e-2) 상기 (e-1) 단계에서 명령어 데이터베이스를 보유하고 있지 않은 것으로 체크되면 음성을 저장하고 저장된 음성을 사용하여 해당 화자에 대한 음향 데이터 베이스를 적응화함으로써 해당 화자의 음향 데이터베이스를 갱신하는 단계;를 포함하는 것을 특징으로 하는 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법.
  3. 제2항에 있어서, 상기 (e-1) 단계는,
    (e-1-1) 상기 (b) 단계에서 각각의 음향 데이터베이스와 비교하여 가장 높은 값(score)을 가지는 음향 데이터베이스가 존재하지 않는지 체크하는 단계; 및
    (e-1-2) 상기 (e-1-1) 단계에서 모든 음향 데이터베이스에 대하여 동일한 값이 얻어져 가장 높은 값을 가지는 음향 데이터베이스가 존재하지 않는 것으로 체크되면 상기 (a) 단계에서 명령어를 발성한 화자에게 할당된 음향 데이터베이스가 없는 것으로 체크하는 단계;를 포함하는 것을 특징으로 하는 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법.


KR1020100092980A 2010-09-27 2010-09-27 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법 KR20120031548A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100092980A KR20120031548A (ko) 2010-09-27 2010-09-27 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100092980A KR20120031548A (ko) 2010-09-27 2010-09-27 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법

Publications (1)

Publication Number Publication Date
KR20120031548A true KR20120031548A (ko) 2012-04-04

Family

ID=46134958

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100092980A KR20120031548A (ko) 2010-09-27 2010-09-27 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR20120031548A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018043895A1 (ko) * 2016-08-31 2018-03-08 삼성전자 주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법
US11250850B2 (en) 2017-11-23 2022-02-15 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
US11804228B2 (en) 2018-09-10 2023-10-31 Samsung Electronics Co., Ltd. Phoneme-based speaker model adaptation method and device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018043895A1 (ko) * 2016-08-31 2018-03-08 삼성전자 주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법
US11330320B2 (en) 2016-08-31 2022-05-10 Samsung Electronics Co., Ltd. Display device and method for controlling display device
US11250850B2 (en) 2017-11-23 2022-02-15 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
US11804228B2 (en) 2018-09-10 2023-10-31 Samsung Electronics Co., Ltd. Phoneme-based speaker model adaptation method and device

Similar Documents

Publication Publication Date Title
US8200495B2 (en) Methods and systems for considering information about an expected response when performing speech recognition
CA2745991C (en) Adaptation of automatic speech recognition acoustic models
Bruguier et al. Phoebe: Pronunciation-aware contextualization for end-to-end speech recognition
US7865362B2 (en) Method and system for considering information about an expected response when performing speech recognition
US9275637B1 (en) Wake word evaluation
US7778830B2 (en) Training speaker-dependent, phrase-based speech grammars using an unsupervised automated technique
KR101237799B1 (ko) 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법
JP4709663B2 (ja) ユーザ適応型の音声認識方法及び音声認識装置
US8069046B2 (en) Dynamic speech sharpening
EP2308042B1 (en) Method and device for generating vocabulary entries from acoustic data
US20140129218A1 (en) Recognition of Speech With Different Accents
JP4283984B2 (ja) 音声認識装置ならびに方法
US7447636B1 (en) System and methods for using transcripts to train an automated directory assistance service
JP2002149187A (ja) 音声認識装置および音声認識方法、並びに記録媒体
US7401023B1 (en) Systems and methods for providing automated directory assistance using transcripts
KR20120031548A (ko) 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법
US20170270923A1 (en) Voice processing device and voice processing method
JP2001296885A (ja) 文法制約を有するラベル機能を使用する口頭発話拒否
Fosler-Lussier Contextual word and syllable pronunciation models
KR101255141B1 (ko) 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법
KR20100051214A (ko) 화자 독립 음성 인식 처리 방법
JP3315565B2 (ja) 音声認識装置
JP3841342B2 (ja) 音声認識装置および音声認識プログラム
JPH06161488A (ja) 音声認識装置
JP2002082691A (ja) 発声内に含まれる会社名の自動認識方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application