KR20030001668A - 연속 음성인식기의 성능 개선 방법 - Google Patents

연속 음성인식기의 성능 개선 방법 Download PDF

Info

Publication number
KR20030001668A
KR20030001668A KR1020010036476A KR20010036476A KR20030001668A KR 20030001668 A KR20030001668 A KR 20030001668A KR 1020010036476 A KR1020010036476 A KR 1020010036476A KR 20010036476 A KR20010036476 A KR 20010036476A KR 20030001668 A KR20030001668 A KR 20030001668A
Authority
KR
South Korea
Prior art keywords
words
word
triphone
phoneme
pronunciation
Prior art date
Application number
KR1020010036476A
Other languages
English (en)
Other versions
KR100736496B1 (ko
Inventor
김훈
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020010036476A priority Critical patent/KR100736496B1/ko
Publication of KR20030001668A publication Critical patent/KR20030001668A/ko
Application granted granted Critical
Publication of KR100736496B1 publication Critical patent/KR100736496B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks

Abstract

본 발명은 대어휘 한국어 연속 음성인식시 인식 단어간 음소 변이 네트워크를 이용하는 연속 음성인식기의 성능 개선 방법에 관한 것으로, 입력수단을 통해 음성을 입력하는 단계와, 상기 입력음성을 트라이폰 열로 구성하는 단계와, 상기 트라이폰열로부터 인접하는 단어에 따라 발음이 변화하는 모든 경우를 표현하고 있는 사전을 이용하여 음성인식을 수행하는 단계로 이루어져 전자사전 소프트웨어, 대화체 처리, 이메일 작성등 연속음성 인식이 필요한 모든 분야에 적용할 경우 인식 성능 향상 효과를 볼 수 있은 음성인식 방법을 제공하기 위한 것이다.

Description

연속 음성인식기의 성능 개선 방법 {performance improvement method of continuation voice recognition system}
본 발명은 한국어 연속 음성 인식에 관한 것으로 특히 대어휘 한국어 연속 음성인식시 인식 단어간 음소 변이 네트워크를 이용하는 연속 음성인식기의 성능 개선 방법에 관한 것이다. 본 발명은 특히 전자사전 소프트웨어, 대화체 처리, 이메일 작성등 연속음성 인식이 필요한 모든 분야에 적용할 경우 인식 성능 향상 효과를 볼 수 있은 음성인식 방법을 제공한다.
일반적으로 대어휘 한국어 연속음성을 인식하는 데는 한국어의 언어적인 특성에 의하여 몇 가지 문제가 발생하게 된다. 한국어는 문장이 어절단위로 나누어지고 용언이 다양하게 활용되는데 이것을 모두 다른 어휘로 할 경우 인식해야 할 대상 어휘의 수가 몇 배로 증가하게 된다. 따라서 대부분의 한국어 연속음성 인식 시스템은 제한된 영역의 문장만을 대상으로 하여 왔다. 이와 같이 인식영역을 제한하지 않고 인식 대상 어휘의 수를 처리 가능한 수준으로 줄이기 위해서는 의미를 가지는 최소 단위인 형태소로 어절을 세분할 필요가 있게 되는 것이다. 그런데 형태소를 인식단위로 할 경우 인식 대상 단어의 길이가 짧아져 서로간의 변별력이 떨어지고 문장내의 단어의 수가 많아져 단어간 음운 변화의 영향을 많이 받으므로 인식기의 성능이 저하하게 되는 문제점이 발생하게 된다. 따라서 이러한 단점을 보완하기 위하여 두개의 형태소 단위가 이어질 때 발생하는 발음 변이를 모두 표현함으로써 형태소 단위로 분리 되기 이전의 어절단위 발음 열과 같은 인식 효과를 얻을 수 있는 방법이 필요하게 되었다.
본 발명은 종래 기술의 이러한 문제점을 해결하기 위하여 발음 사전을 증가 시키지 않고 모든 일상적인 문장을 인식하는 데 그 목적이 있다. 본 발명의 또 다른 목적은 인접 단어간의 발음변환이 규칙에 의해 자동적으로 적용되도록 하는데 있다. 이러한 본 발명의 목적을 이루기 위한 제 1 특징에 따르면, 인식 대상 단어간 음소 변이를 반영하는 것이며, 본 발명의 제 2 특징은 인접하는 단어에 따라 발음이 변하는 모든 경우를 표현하는 데 있다. 본 발명의 제 3 특징은 모든 음소가 인접할 때 변화하는 형태가 표의 형태로 규칙화 되어 발음 사전의 작성에 이용되도록 하는데 있다. 본 발명의 다른 목적이나 특징은 이하 설명하는 바람직한 실시예에 의해서 명백히 들어날 것이다.
도1은 일반적인 연속 음성인식 시스템의 구성도
도2는 본 발명 음성인식 동작 플로우챠트
********* 도면 주요 부분에 대한 부호의 설명 ********
10 : 특징 추출부 20 : 탐색부
30 : 후 처리부 40 : 음향모델 데이터베이스
50 : 발음사전 데이터베이스 60 : 언어모델 데이터베이스
이하 본 발명의 바람직한 실시예에 대하여 설명하면 다음과 같다.
먼저 이해를 돕기위해 트라이폰에 대하여 설명하면 다음과 같다. 인식 대상인 음소는 좌우에 위치하는 음소에 크게 영향을 받으며, 이러한 영향을 고려하기 위하여 세분화한 인식단위가 트라이폰(Triphone)이다. 트라이폰은 조음화 현상을 모델링(modeling)하는 인식 단위로 큰 장점을 지니지만 일반적으로 그 갯수가 많아 충분히 학습되기 어렵다. 따라서 한정된 학습 데이타를 사용하여 트라이폰과 같은 상세한 인식단위를 학습하려면 학습성의 결여 문제가 발생하게 된다. 학습성 결여 문제를 해결하기 위하여 제안된 방법들로서 문맥 통합, 보간법, 인식단위 감축 규칙등을 사용하고 있다.
도1은 일반적인 연속 음성인식 시스템의 구성 예시도로서 그 동작을 설명하면 다음과 같다. 입력된 음성은 특징 추출부(10)에서 인식에 필요한 정보만을 추출한 특징 벡터로 변환되고, 상기 특징 벡터로 부터 탐색부(20)에서 학습과정에서 미리 구해진 음향 모델 데이터베이스(40)와 발명 사전 데이터베이스(50), 언어 모델 데이터베이스(60)를 이용하여 가장 확률이 높은 단어열을 찾게 된다. 이때 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(20)에서 이러한 트리를 탐색하게 된다. 그 다음으로 후처리부 (30)에서는 탐색 결과로 부터 잡음 기호등을 제거하고, 음절단위로 모아쓰기를 하여 최종 인식 결과출력하는 것이다. 이러한 연속음성인식 시스템의 본 발명의 동작 이해를 돕기 위하여 설명한 것으로, 그 구성은 본 발명에서 그대로 적용될 수 있으며, 필요에 따라 어떠한 변경도 가능하다.
본 발명의 동작을 도2 내지 도 5를 참조하여 설명하면 다음과 같다.
음성을 인식하기 위해서는 어휘를 음소의 열로 표현한 사전이 필요하다. 예를 들어 "한국" 이라는 단어를 인식할 때는 <도2>과 같이 단어를 트라이폰의 열로 구성하여 인식할 수 있다. 연속 음성인식의 경우에는 단어가 연결될 때 단어 경계에서 이웃하는 단어의 영향을 받아 음가가 변하므로 <도3>과 같이 단어의 양 끝에서도 좌우 문맥을 고려한 트라이폰을 사용해야 한다. 그런데, 단어가 연결되어 발음될 때, 단어의 경계에 잇는 음소들은 인접한 단어에 영향을 받아 다른 음소로 변하게 된다.
"한국"의 경우에 첫번째 음소 "ㅎ"은 앞에 오는 단어에 따라 생략되어 들리지 않게 되기도 하고, "칸국", "탄국", 또는 "판국"으로 발음되기도 한다. 마지막 음소인 "ㄱ"도 마찬가지로 뒤에 따라오는 음소에 따라 경음화 되거나 유성음화 되거나, 또는 "한궁말과 같이"ㅇ"으로 발음 나기도 한다. 따라서 단순히 일반적으로 사용하는 다언간 음소 모델 방법인 <도3>과 같이 단어의 양 끝 음소를 트라이폰으로 바꾸는 것 만으로는 단어간 음소 모델링이 되지 않는다.
<도3>의 경우는 트라이폰(triphone)의 센타폰(center_phone)이 이웃하는 단어에 관계 없이 고정되어 있으므로 인해 실제 발음 나는 현상을 나타내지 못한다. 즉 미국과 한국이 이어질 때 <도3> 에서는 k-h-a가 사용되는데 실제 필요한 트라이폰은 k-h-a가 아니라 k-kh-a 트라이폰이 필요하게 된다.
본 발명에서는 <도4>와 같이 그래프의 형태로 인접하는 단어에 따라 발음이 변화하는 모든 경우를 표현한다. <도4> 에서 hx,kh,th, ph는 각각 유성음화된 "ㅎ", "ㅋ", "ㅌ", "ㅍ"을 표현한다. 이러한 사전은 각 단어마다 수작업으로 작성하지 않고, 각 단어의 양 끝에 오는 음소와 인접하게 되는 음소가 주어지면 음운변환 규칙을 이용하여 자동적으로 작성되도록 한다. 즉 모든 음소가 인접할 때 변화하는 형태가 표의 형태로 규칙화 되어 발음 사전의 작성에 이용되는 것이다.
인식시에 단어의 양 끝에 있는 트라이폰 들은 문맥에 따라 다른 단어들과 연결된다. <도4>에서 트라이폰 "n-hx-a"로 표기된 노드는 음소 "n"으로 끝나는 단어 다음에 연결된다. 이렇게 모든 단어들을 서로 연결하면 음소의 노드로 이루어진 네트워크가 만들어진다. 각 노드의 링크를 따라가다 보면 형태소들이 연결되어 원래의 어절의 발음열과 같은 음소 열을 얻을 수 있게 되어 어절 단위의 인식기와 같은 효과를 얻을 수 있다. 예를 들어 "한국"이라는 단어가 "이"와 연결되면 "한구기"에 해당하는 음소열이 얻어지고, "말"과 연결되면 "한궁말"에 해당하는 음소열이 얻어지게 되는 것이다.
이상에서 살펴본 바와 같이 본 발명을 적용할 경우 단어간 음소의 변이가 반영된 네트워크를 이용하여 두개의 형태소 단위가 이어질 때 발생하는 발음 변이를 모두 표현함으로써 어절 단위의 발음 열과 같은 효과를 얻을 수 있으며,이 방법으로 형태소 단위로 단위로 어절 단위 인식기의 성능을 낼 수 있어 어휘수의 증가 없이 일상적으로 사용되는 대부분의 텍스트를 구성할 수 있는 효과가 있다.

Claims (2)

  1. 연속 음성 인식 방법에 있어서, 입력수단을 통해 음성을 입력하는 단계와, 상기 입력음성을 트라이폰 열로 구성하는 단계와, 상기 트라이폰열로부터 인접하는 단어에 따라 발음이 변화하는 모든 경우를 표현하고 있는 사전을 이용하여 음성인식을 수행하는 단계로 이루어진 것을 특징으로 하는 연속 음성인식기의 성능 개선 방법.
  2. 제1항에 있어서, 상기 사전은 각 단어의 양 끝에 오는 음소와 인접하게 되는 음소가 주어지면 음운 변환 규칙을 이용하여 자동적으로 작성되는 것을 특징으로 하는 연속 음성인식기의 성능 개선 방법.
KR1020010036476A 2001-06-26 2001-06-26 연속 음성인식기의 성능 개선 방법 KR100736496B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020010036476A KR100736496B1 (ko) 2001-06-26 2001-06-26 연속 음성인식기의 성능 개선 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020010036476A KR100736496B1 (ko) 2001-06-26 2001-06-26 연속 음성인식기의 성능 개선 방법

Publications (2)

Publication Number Publication Date
KR20030001668A true KR20030001668A (ko) 2003-01-08
KR100736496B1 KR100736496B1 (ko) 2007-07-06

Family

ID=27711096

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010036476A KR100736496B1 (ko) 2001-06-26 2001-06-26 연속 음성인식기의 성능 개선 방법

Country Status (1)

Country Link
KR (1) KR100736496B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100443247B1 (ko) * 2001-12-26 2004-08-04 주식회사 케이티 공명음과 /ㅎ/음 인접부에서의 발음 모델링 시스템 및 그방법
KR101250897B1 (ko) * 2009-08-14 2013-04-04 한국전자통신연구원 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
US8645139B2 (en) 2009-06-03 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method of extending pronunciation dictionary used for speech recognition
US10321227B2 (en) 2016-11-25 2019-06-11 Samsung Electronics Co., Ltd. Electronic device for controlling microphone parameter
CN112183086A (zh) * 2020-09-23 2021-01-05 北京先声智能科技有限公司 基于意群标注的英语发音连读标记模型

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2777794B2 (ja) * 1991-08-21 1998-07-23 東陶機器株式会社 トイレ装置
KR0173204B1 (ko) * 1995-12-23 1999-03-30 양승택 한국어 변이음 집단화 수형도를 이용한 변이음 단위의 음성인식 방법
JPH101999A (ja) * 1996-06-17 1998-01-06 Kyowa Plast Sangyo Kk 便器用接続フランジおよび同フランジと便器との連結構造
KR100240106B1 (ko) * 1997-07-25 2000-01-15 구자홍 불균일 인식 단위를 이용한 연속 음성 인식 방법
KR100244859B1 (ko) * 1997-08-21 2000-02-15 구자홍 새로운 단어에 대한 음성인식 단위 모델링 방법
KR100259777B1 (ko) * 1997-10-24 2000-06-15 정선종 텍스트/음성변환기에서의최적합성단위열선정방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100443247B1 (ko) * 2001-12-26 2004-08-04 주식회사 케이티 공명음과 /ㅎ/음 인접부에서의 발음 모델링 시스템 및 그방법
US8645139B2 (en) 2009-06-03 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method of extending pronunciation dictionary used for speech recognition
KR101250897B1 (ko) * 2009-08-14 2013-04-04 한국전자통신연구원 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
US10321227B2 (en) 2016-11-25 2019-06-11 Samsung Electronics Co., Ltd. Electronic device for controlling microphone parameter
CN112183086A (zh) * 2020-09-23 2021-01-05 北京先声智能科技有限公司 基于意群标注的英语发音连读标记模型

Also Published As

Publication number Publication date
KR100736496B1 (ko) 2007-07-06

Similar Documents

Publication Publication Date Title
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US8126714B2 (en) Voice search device
CN107705787A (zh) 一种语音识别方法及装置
KR20050111182A (ko) 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
CN112562640A (zh) 多语言语音识别方法、装置、系统及计算机可读存储介质
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
KR100930714B1 (ko) 음성인식 장치 및 방법
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
Shivakumar et al. A study on impact of language model in improving the accuracy of speech to text conversion system
KR100736496B1 (ko) 연속 음성인식기의 성능 개선 방법
Stefan-Adrian et al. Rule-based automatic phonetic transcription for the Romanian language
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
CN113160828A (zh) 智能辅助机器人交互方法、系统、电子设备及存储介质
KR100511247B1 (ko) 음성 인식 시스템의 언어 모델링 방법
KR20030010979A (ko) 의미어단위 모델을 이용한 연속음성인식방법 및 장치
JP2001092482A (ja) 音声合成システム、および音声合成方法
Khamdamov et al. Syllable-Based Reading Model for Uzbek Language Speech Synthesizers
CN113515952B (zh) 一种用于蒙古语对话模型联合建模方法、系统及设备
KR100614933B1 (ko) 대화체 및 낭독체 대어휘 연속음성인식시스템의 고빈도어휘열 인식단위 생성장치 및 그 방법
KR100835985B1 (ko) 핵심어 인식 기반의 탐색 네트워크 제한을 이용한연속음성인식 장치 및 방법
KR0157026B1 (ko) 한국어 기본음소단위군으로 구성한 한국어 형태소 발음사전을 사용한 한국어 연속음성 인식시스템 및 그 방법

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100331

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee