KR101729972B1 - 타국인 발화 음성을 위한 음성 인식 장치 - Google Patents

타국인 발화 음성을 위한 음성 인식 장치 Download PDF

Info

Publication number
KR101729972B1
KR101729972B1 KR1020130055449A KR20130055449A KR101729972B1 KR 101729972 B1 KR101729972 B1 KR 101729972B1 KR 1020130055449 A KR1020130055449 A KR 1020130055449A KR 20130055449 A KR20130055449 A KR 20130055449A KR 101729972 B1 KR101729972 B1 KR 101729972B1
Authority
KR
South Korea
Prior art keywords
pronunciation
model database
model
speech
variation
Prior art date
Application number
KR1020130055449A
Other languages
English (en)
Other versions
KR20140135358A (ko
Inventor
오유리
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130055449A priority Critical patent/KR101729972B1/ko
Publication of KR20140135358A publication Critical patent/KR20140135358A/ko
Application granted granted Critical
Publication of KR101729972B1 publication Critical patent/KR101729972B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 따른 음성 인식 장치는, 입력된 음성에서 인식에 유용한 정보를 추출하여 특징벡터로 변환하는 특징추출부; 소정의 음향모델을 저장하는 음향모델 데이터베이스; 소정의 언어모델을 저장하는 언어모델 데이터베이스; 원어민의 발음모델에 타국인이 범할 수 있는 문법오류에 의해 발생하는 변이 발음이 더욱 포함된 발음모델을 저장하는 발음모델 데이터베이스; 상기 특징벡터를 토대로 상기 음향모델 데이터베이스, 상기 발음모델 데이터베이스, 및 상기 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 찾는 탐색부; 및 상기 탐색부의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력부를 포함하는 것을 특징으로 한다.

Description

타국인 발화 음성을 위한 음성 인식 장치{Speech recognition apparatus for utterance speech of foreigners}
본 발명은 음성 인식 기술에 관한 것으로 보다 상세하게는 타국인이 발화하는 음성을 보다 효과적으로 인식할 수 있는 음성 인식 장치에 관한 것이다.
일반적으로 자연어 처리 분야의 음성인식 시스템은 원어민의 음성으로 학습되기 때문에 원어민 음성에 대하여만 주로 최적화되어 있다. 따라서 원어민에 대한 음석인식 성능은 좋지만 타 언어권 화자, 즉 타국인이 발화하는 음성에 대한 음성인식 성능은 좋지 않다.
종래에 타국인 발화 음성에 대한 음성인식 성능을 개선하기 위한 방법으로, 타국인의 모국어에 존재하는 자음과 모음의 체계를 반영하는 변이 발음을, 원어민의 발음을 기반으로 구축된 발음 모델에 추가하는 방식이 있다.
타국인은 모국어의 자음/모음 체계로 인한 변이 발음을 발화할 뿐만 아니라, 음성인식 대상 언어와 타국인의 모국어의 서로 다른 문법 체계로 인하여 잘못된 문법을 사용함으로써 발음 오류를 발생시킬 수 있다.
따라서, 타국인 발화 음성에 대한 음성인식 성능을 개선하기 위한 상기와 같은 방식은, 타국인이 문법 오류를 범할 경우에 발생하는 발화 음성에 대하여는 좋은 음성인식 성능이 발휘될 수 없는 문제점이 있다.
이에 본 발명이 이루고자 하는 기술적 과제는, 타국인이 문법 오류를 범할 경우에 발생하는 발화 음성에 대하여 음성인식 성능을 개선할 수 있는 음성 인식 장치를 제공하는 데 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 음성 인식 장치는, 입력된 음성에서 인식에 유용한 정보를 추출하여 특징벡터로 변환하는 특징추출부; 소정의 음향모델을 저장하는 음향모델 데이터베이스; 소정의 언어모델을 저장하는 언어모델 데이터베이스; 원어민의 발음모델에 타국인이 범할 수 있는 문법오류에 의해 발생하는 변이 발음이 더욱 포함된 발음모델을 저장하는 발음모델 데이터베이스; 상기 특징벡터를 토대로 상기 음향모델 데이터베이스, 상기 발음모델 데이터베이스, 및 상기 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 찾는 탐색부; 및 상기 탐색부의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력부를 포함하는 것을 특징으로 한다.
상기 문법오류는 단복수 오류 및 시제 오류를 포함하는 것이 바람직하다.
상기 단복수 오류는 불규칙 복수형으로 인한 오류일 수 있다.
상기 시제 오류는 불규칙 시제변화로 인한 오류일 수 있다.
상기된 본 발명에 의하면, 타국인이 범하는 문법오류에 의해 발생하는 변이발음을 원어민의 발음모델에 추가함으로써, 타국인이 문법 오류를 범할 경우에 발생하는 발화 음성에 대하여 음성인식 성능을 개선할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 구성을 나타낸다.
도 2는 본 발명의 일 실시예에 의한 타국인 발화 음성을 위한 발음 모델을 생성하는 방법을 나타낸다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 구성을 나타낸다. 본 실시예에 따른 음성 인식 장치는, 특징추출부(101), 탐색부(102), 인식결과 출력부(103), 음향모델 데이터베이스(104), 발음모델 데이터베이스(105), 언어모델 데이터베이스(106)를 포함하여 이루어진다.
특징추출부(101)는 입력된 음성에서 인식에 유용한 정보를 추출하여 특징벡터로 변환한다.
탐색부(102)는 학습과정에서 미리 구해진 음향모델 데이터베이스(104)와 발음모델 데이터베이스(105), 그리고 언어모델 데이터베이스(106)를 이용하여 가장 확률이 높은 단어열을 예컨대 비터비 알고리즘을 이용하여 찾는다.
인식 결과 출력부(103)는 탐색부(102)의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공한다.
상기 음향모델 데이터베이스(104)는 소정의 음향모델을 저장하고, 상기 언어모델 데이터베이스(106)는 소정의 언어모델을 저장한다. 여기서 음향모델과 언어모델은 종래 기술을 따르는 바, 구체적인 설명은 생략하기로 한다.
상기 발음모델 데이터베이스(105)는 기존의 원어민의 발음모델에 타국인이 범할 수 있는 문법오류에 의해 발생하는 변이발음이 더욱 포함된 발음모델을 저장한다. 즉, 상기 발음모델 데이터베이스(105)는 원어민의 발음을 기반으로 구축된 원어민 발음 모델에 타국인이 범할 수 있는 문법오류에 의해 발생하는 변이 발음들이 추가된 발음모델이다. 필요에 따라, 상기 발음모델 데이터베이스(105)는 타국인의 모국어에 존재하는 자음과 모음의 체계를 반영하는 변이 발음들을 더 포함할 수도 있다.
여기서, 타국인이 범할 수 있는 문법오류로는, 단복수 오류 및 시제 오류 등이 있을 수 있다.
단복수 오류의 예로, 영어의 불규칙 복수형으로 인한 오류가 있다. 예컨대 "woman"의 올바른 복수형은 "women"인데, 불규칙 복수형에 익숙하지 않은 타국인은 "woman"의 복수형을 "womans"로 잘못 발화할 수 있다. 따라서 상기 발음모델 데이터베이스(105)는 "women"의 변이 발음으로 "womans"에 대응하는 발음을 포함한다. 다른 예로, "mouse"의 올바른 복수형은 "mice"인데, 타국인은 "mouse"의 복수형을 "mouses"로 잘못 발화할 수 있다. 따라서 상기 발음모델 데이터베이스(105)는 "mice"의 변이 발음으로 "mouses"에 대응하는 발음을 포함한다.
시제 오류의 예로, 영어의 불규칙 시제변화로 인한 오류가 있다. 예컨대 "forbid"의 올바른 과거형은 "forbade"인데, 불규칙 시제변화에 익숙하지 않은 타국인은 "forbid"의 과거형을 "forbided"로 잘못 발화할 수 있다. 따라서 상기 발음모델 데이터베이스(105)는 "forbade"의 변이 발음으로 "forbided"에 대응하는 발음을 포함한다. 다른 예로, "hold"의 올바른 과거형은 "held"인데, 타국인은 "hold"의 과거형을 "holded"로 잘못 발화할 수 있다. 따라서 상기 발음모델 데이터베이스(105)는 "held"의 변이 발음으로 "holded"에 대응하는 발음을 포함한다.
도 2는 본 발명의 일 실시예에 의한 타국인 발화 음성을 위한 발음 모델을 생성하는 방법을 나타낸다.
210단계에서, 타국인이 범할 수 있는 문법 오류에 의한 변이 발음들을 생성한다. 이러한 변이 발음들의 생성은, 음성학 등의 지식을 이용하거나, 타국인의 음성인식 대상 언어의 사용 데이터를 통계적으로 분석하여 얻어진 타국인의 문법 오류 규칙을 이용할 수 있다. 예컨대 210단계에서는, 위와 같이 "women"의 변이 발음으로 "womans"에 대응하는 발음을 생성하고, "mice"의 변이 발음으로 "mouses"에 대응하는 발음을 생성하고, "forbade"의 변이 발음으로 "forbided"에 대응하는 발음을 생성하고, "held"의 변이 발음으로 "holded"에 대응하는 발음을 생성한다.
220단계에서, 원어민의 발음을 기반으로 구축된 원어민 발음 모델에 상기 210단계에서 생성된 변이 발음들을 추가함으로써, 타국인 발화 음성을 위한 발음 모델이 생성된다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (5)

  1. 음성 인식 장치에 있어서,
    입력된 음성으로부터 특징벡터를 추출하는 특징추출부;
    소정의 음향모델을 저장하는 음향모델 데이터베이스;
    소정의 언어모델을 저장하는 언어모델 데이터베이스;
    원어민의 발음모델에 변이 발음이 추가된 발음모델을 저장하는 발음모델 데이터베이스;
    상기 특징벡터를 토대로 상기 음향모델 데이터베이스, 상기 발음모델 데이터베이스, 및 상기 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 찾는 탐색부; 및
    상기 탐색부의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력부;를 포함하되
    상기 발음모델 데이터베이스는,
    타국인이 범할 수 있는 문법 오류에 의한 상기 변이 발음을 생성하고,
    원어민의 발음 모델에 상기 변이 발음을 추가하여 생성된 발음 모델을 저장하는 것
    을 특징으로 하는 음성 인식 장치.
  2. 제1 항에 있어서,
    상기 탐색부는 비터비 알고리즘을 통해 상기 가장 확률이 높은 단어열을 찾는 것을 특징으로 하는 음성 인식 장치.
  3. 삭제
  4. 제1 항에 있어서,
    상기 변이 발음은 음성학 또는 타국인의 음성인식 대상 언어의 사용 데이터를 통계적으로 분석하여 획득한 문법 오류 규칙에 따라 생성하는 것을 특징으로 하는 음성 인식 장치.
  5. 제4 항에 있어서,
    상기 변이 발음은 타국인의 모국어에 존재하는 자음과 모음의 체계를 반영하는 발음을 더 포함할 수 있는 것을 특징으로 하는 음성 인식 장치.
KR1020130055449A 2013-05-16 2013-05-16 타국인 발화 음성을 위한 음성 인식 장치 KR101729972B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130055449A KR101729972B1 (ko) 2013-05-16 2013-05-16 타국인 발화 음성을 위한 음성 인식 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130055449A KR101729972B1 (ko) 2013-05-16 2013-05-16 타국인 발화 음성을 위한 음성 인식 장치

Publications (2)

Publication Number Publication Date
KR20140135358A KR20140135358A (ko) 2014-11-26
KR101729972B1 true KR101729972B1 (ko) 2017-04-25

Family

ID=52456133

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130055449A KR101729972B1 (ko) 2013-05-16 2013-05-16 타국인 발화 음성을 위한 음성 인식 장치

Country Status (1)

Country Link
KR (1) KR101729972B1 (ko)

Also Published As

Publication number Publication date
KR20140135358A (ko) 2014-11-26

Similar Documents

Publication Publication Date Title
US10134388B1 (en) Word generation for speech recognition
KR102413693B1 (ko) 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법
Schuster et al. Japanese and korean voice search
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
Tachbelie et al. Using different acoustic, lexical and language modeling units for ASR of an under-resourced language–Amharic
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
Menacer et al. An enhanced automatic speech recognition system for Arabic
Hu et al. Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
KR102580904B1 (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
Juhár et al. Recent progress in development of language model for Slovak large vocabulary continuous speech recognition
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Lamel et al. Automatic speech-to-text transcription in Arabic
Wang et al. Direct posterior confidence for out-of-vocabulary spoken term detection
KR101333194B1 (ko) 통계 기반의 다중 발음 사전 생성 장치 및 방법
Smirnov et al. A Russian keyword spotting system based on large vocabulary continuous speech recognition and linguistic knowledge
Mabokela et al. An integrated language identification for code-switched speech using decoded-phonemes and support vector machine
Tarján et al. A bilingual study on the prediction of morph-based improvement.
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
Yeh et al. Recognition of highly imbalanced code-mixed bilingual speech with frame-level language detection based on blurred posteriorgram
KR101729972B1 (ko) 타국인 발화 음성을 위한 음성 인식 장치
JP2012255867A (ja) 音声認識装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant