KR20030080155A - 발음 제약 사전을 이용한 음성 인식기 - Google Patents

발음 제약 사전을 이용한 음성 인식기 Download PDF

Info

Publication number
KR20030080155A
KR20030080155A KR1020020018668A KR20020018668A KR20030080155A KR 20030080155 A KR20030080155 A KR 20030080155A KR 1020020018668 A KR1020020018668 A KR 1020020018668A KR 20020018668 A KR20020018668 A KR 20020018668A KR 20030080155 A KR20030080155 A KR 20030080155A
Authority
KR
South Korea
Prior art keywords
pronunciation
dictionary
constraint
phoneme
recognition
Prior art date
Application number
KR1020020018668A
Other languages
English (en)
Inventor
이상호
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020020018668A priority Critical patent/KR20030080155A/ko
Publication of KR20030080155A publication Critical patent/KR20030080155A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 음성 인식기에서 발음 제약 사전을 이용하여 음성을 인식할 때 인식 후보들 중에서 발음상 불가능한 후보들을 미리 제거하여 음성 인식기의 정확도와 인식 속도를 향상시키는 기술에 관한 것이다. 이러한 본 발명은 학습 문장과 그에 해당하는 발음을 입력받아 복수 발음 사전(2)과 발음 제약 사전(3)을 생성하는 사전 생성기(1)와; 상기 복수발음 사전(2)에 대응하여 불필요한 발음을 제약하기 위한 인간 가독형의 발음 제약 사전(3)과; 상기 발음 제약 사전(3)이 기계가 읽을 수 있는 형태의 테이블로 변환된 발음 제약 테이블(4)과; 음성 입력시 상기 복수 발음 사전(2)을 이용하여 음성 인식 후보들을 격자구조로 구축한 후, 상기 발음 제약 테이블(4)을 근거로 결합 가능 확률이 매우 낮은 후보간의 링크를 절단하고 나머지 후보들을 대상으로 음성을 인식하여 그 인식결과를 출력하는 탐색기(6)에 의해 달성된다.

Description

발음 제약 사전을 이용한 음성 인식기 {VOICE RECOGNITION UNIT USING DICTIONARY FOR PRONUNCIATION LIMITATION}
본 발명은 음성 인식기의 음성인식 성능을 향상시키는 기술에 관한 것으로, 특히 복수 발음 사전을 이용하는 한국어 대어휘 연속 음성 인식기에서 발음 제약 사전을 이용하여 음성을 인식할 때 인식 후보들 중에서 발음상 불가능한 후보들을 미리 제거하여 음성 인식기의 정확도와 인식 속도를 향상시킬 수 있도록 한 발음제약 사전을 이용한 음성 인식기에 관한 것이다.
일반적으로, 음성인식이란 전화, 휴대폰 또는 마이크를 통해 입력된 사람의 음성을 컴퓨터가 분석하여 특징을 추출하고 미리 입력된 단어 또는 문장에서 가장 근접한 결과를 인식 결과로 출력하는 최첨단의 소프트웨어 기술이다. 음성인식 기술은 크게 사용자에 따라 화자종속과 화자독립으로 분류되고, 인식 대상의 어휘수에 따라 소어휘 인식기술과 대어휘 인식기술로 분류되며, 단어 단위로 인식하는 단어인식기술, 음소 단위로 인식하는 가변어인식기술, 문장 단위로 인식하는 연속음성인식기술, 문장에서 핵심어만 인식하는 핵심어 인식기술, 인식한 음성을 문자로 받아쓰는 딕테이션(dictation) 등으로 분류된다. 이러한 음성인식기술은 소용량 엔진의 경우 화자인증, PC 제어, 전화기, 휴대폰, 가전제품, 게임기 등에 적용되며, 대용량 엔진의 경우 음성 워드 프로세서, 음성 포탈 서비스 등에 적용된다.
최근 대어휘 음성을 연속적으로 인식하고자 하는 요구에 부응하여 음성 인식기의 인식속도와 정확도 등에 대한 성능을 향상시키려는 연구가 활발하게 진행되고있다. 일반적으로, 세 개의 연속된 음소(triphone) 단위를 인식 단위로 정의하고, 인식 단어는 그 트리폰들의 열(sequence)로 정의된다. 이때, 인식 단어는 여러개의 발음을 가질 수 있다.
예를 들어, 도 1에서와 같이 "있/형용사"의 가능한 발음으로서같이 각각세 종류가 가능하다. 그러나, 이러한 방식은 한 단어의 가능한 변이 발음만을 제공한 것일 뿐, 복수 발음 사전으로 인한 발음과 생성(pronunciation overgeneration) 문제를 해결하지 못한다.
예를 들어, 화자가 "인수"를 발음 했을 때, 도 2에서와 같이 "있/vj(3)"/in/에서 "소/ef(2)"/so/로 인식 후보들의 천이가 가능하게 되므로, 이 경우 "인수/na"/insu/와의 음향 우도(acoustic likelihood)는 단지 /o/와 /u/ 모델들의 우도 차이가 된다. 물론 언어 사전 확률(language prior probability)은 서로 다르지만, 이 예제에서는 "있/vj" 다음에 "소/ef"가 올 확률이 높으므로 최종 인식 결과에 영향을 미치는 부분은 /o/와 /u/의 우도 차이가 된다.
이때, /o/의 우도가 /u/의 우도보다 높으면 화자가 "인수"라고 발음했음에도 불구하고 "있소"로 인식하게 된다. 이와 같이 복수 발음 사전을 이용할 때, 관측 단어의 발음 변이들은 다른 관측 단어의 발음 변이들과의 접속 정보가 존재하지 않을 경우, 상기 예와 같이 발음과 생성에 의한 오인식 결과를 초래할 수 있다.
그러나, 종래의 음성 인식기에 있어서는 접속정보를 이용하여 한국어 대어휘를 연속적으로 인식할 때, 발음상 불가능한 후보들까지 모두 포함하고 있어 인식의 정확도와 인식속도를 저하시키게 되는 문제점이 있었다.
따라서, 본 발명의 목적은 복수 발음 사전을 이용하는 한국어 대어휘 연속 음성 인식기에서, 복수 발음 사전과 함께 그에 해당하는 발음 제약 사전을 구축하고, 이를 근거로 두 후보 단어의 결합 가능성을 조사하여 결합 가능성이 매우 낮거나 불가능한 후보의 링크를 절단하는 발음제약 사전을 이용한 음성 인식기를 제공함에 있다.
도 1은 음성 인식기를 위한 복수 발음 사전의 예시표.
도 2는 음성 인식 과정에서 음성 인식 후보들의 링크 관계를 나타낸 설명도.
도 3은 본 발명의 발음제약 사전을 이용한 음성 인식기의 블록도.
도 4는 도 3에서 발음 제약 사전의 구현예를 나타낸 표.
도 5는 도 3에서 발음 제약 테이블의 자료 구조에 대한 예시도.
도 6은 발음 제약 테이블을 생성하는 코드의 예시도.
도 7은 언어 모델의 확률값을 계산할 때 발음 제약 테이블을 조사하는 원리를 나타낸 예시도.
***도면의 주요 부분에 대한 부호의 설명***
1 : 사전 생성기2 : 복수 발음 사전
3 : 발음 제약 사전4 : 발음 제약 테이블
5 : 탐색기
본 발명의 제1특징에 따르면, 복수 발음 사전과 함께 그에 해당하는 발음 제약 사전을 룩업 테이블에 구축하고, 이를 이용하여 두 후보 단어의 결합 가능성을 조사한다.
본 발명의 제2특징에 따르면, 발음 제약 사전의 구조는 결합 가능성 조사시 별도의 계산을 필요로 하지 않고, 단지 메모리 룩업 테이블에 의해 가능하도록 자료 구조를 효율적으로 생성한다.
본 발명의 제3특징에 따르면, 계산량과 자료 구조의 중복(redundancy) 표현을 최소화하여 그에 따른 메모리 비용을 최소화한다.
본 발명의 제4특징에 따르면, 발음 제약 사전은 두 단어의 발음 접속 가능성이 앞 단어의 마지막 음소와 뒷 단어의 글자 첫 음소, 뒷 단어의 발음 첫 음소 사이의 정보로 해결할 수 있다고 가정한다.
본 발명의 제5특징에 따르면, 결합 가능성 조사 결과는 언어 모델의 확률을제공할 때, 만약 결합이 불가능한 상태이면 매우 낮은 확률값을 제공하여, 탐색기(search engine)에서 두 후보의 링크를 절단한다.
도 3은 본 발명에 의한 발음제약 사전을 이용한 음성 인식기의 블록도로서 이에 도시한 바와 같이, 학습 문장과 그에 해당하는 발음을 입력받아 복수 발음 사전(2)과 발음 제약 사전(3)을 생성하는 사전 생성기(1)와; 상기 복수발음 사전(2)에 대응하여 불필요한 발음을 제약하기 위한 인간 가독형 발음 제약 사전(3)과; 상기 발음 제약 사전(3)이 기계가 읽을 수 있는 형태의 압축 테이블로 변환된 발음 제약 테이블(4)과; 사람의 음성이 입력될 때 상기 복수 발음 사전(2)을 이용하여 음성 인식 후보들을 격자구조로 구축한 후, 상기 발음 제약 테이블(4)을 근거로 결합 가능 확률이 매우 낮은 후보간의 링크를 절단하고 나머지 후보들을 대상으로 음성을 인식하여 그 인식결과를 출력하는 탐색기(6)로 구성한 것으로, 이와 같은 본 발명의 작용을 첨부한 도 1 및 도 2, 도 4 내지 도 7을 참조하여 상세히 설명하면 다음과 같다.
사전 생성기(1)에서는 학습 문장과 그에 해당하는 발음을 입력받아 복수 발음 사전(2)과 발음 제약 사전(3)을 생성한다. 상기 복수 발음 사전(2)은 인식 단어들의 복수 발음을 표현한 도 1과 같은 사전이고, 발음 제약 사전(3)은 그 복수발음 사전(2)에 대응하여 불필요한 발음을 제약하기 위한 사전으로서 사람이 읽을 수 있는 형태로 표현되어 있다. 발음 제약 테이블(4)은 상기 발음 제약 사전(3)을 근거로 하여 기계가 읽을 수 있는 압축된 형태로 구축된 것이다.
탐색기(6)는 사람의 음성이 입력될 때 상기 복수 발음 사전(2)을 이용하여상기 도 2와 같이 음성 인식 후보들을 격자구조로 구축한다. 이후, 상기 탐색기(6)는 전처리 과정으로서 상기 발음 제약 테이블(4)을 근거로 결합 가능 확률이 매우 낮은 두 후보의 링크를 절단한 다음 나머지 후보들과 음향 모델, 언어 모델을 근거로 입력 음성을 인식하여 그 인식결과를 출력하게 된다. 이하, 음성 인식을 위한 주요 처리과정에 대해 좀더 상세히 설명하면 다음과 같다.
상기 발음 제약 사전(3)에는 도 4에서와 같이 네 개의 정보가 저장되어 있다. 즉, 복수 발음 사전(2)의 엔트리(entry)가 그대로 저장되고, 엔트리의 글자 형태에서의 첫 음소 정보, 발음 형태에서의 첫 음소 정보, 관측 엔트리 다음에 올 수 있는 첫 음소 정보가 저장되어 있다.
특히 다음에 오는 단어들의 첫 음소 정보(q,ph)는 두 변수의 쌍으로 표현된다. 이때, q는 0 또는 1의 값을 가지고, ph는 음성 인식기에서 정의한 음소들 중 하나의 음소가 된다. 상기 q의 값이 0일 경우에는 다음 서기소(grapheme) 자체에서의 첫 음소가 ph이고, 이 단어 발음의 첫 음소 또한 ph인 경우를 의미한다. 그러나, q의 값이 1일 경우에는 단어 발음의 첫 음소는 ph이지만, 서기소 자체의 첫 음소는 ph가 아님을 의미한다.
도 4에서경우 네 개의 정보(1_gg,1_dd,1_ss,1_jj)를 가지고 있다. 이것은 예를 들어, 같이 다음 단어 발음의 첫 음소가서기소 형태는 이와 다르다는 것(ㄱ,ㄷ,ㅅ,ㅈ)을 의미한다. 또한,경우는 {0_n} 하나의 정보만을 가지고 있는 것을 알 수 있는데, 이 경우는 다음 단어 발음의 첫 음소가 /ㄴ/이며, 이 단어의 서기소 형태 또한 반드시 "ㄴ"으로 시작되어야 한다는 것을 의미한다.
이상의 정보를 가지고 있으면, 상기 도 2에 나타난 백포인터(backpointer)들 중 "있/vj(3)"/in/에서 "소/ef"/ss o/, "소/ef(2)"/s o/로의 천이가 모두 불가능하다는 것을 알 수 있다. 상기 "소/ef"/ss o/는 자신의 첫 음소 정보가 1_ss이며('ㅅ'으로 기록되었으나 'ㅆ'으로 발음되었다), "소/ef(2)"/s o/는 0_s이다. 두 경우 모두 {0_n} 집합에 존재하지 않는 것이므로 이는 탐색기(5)에서 음성인식 이전에 미리 해당 링크를 절단해도 된다는 것을 의미한다.
도 5는 상기 발음 제약 테이블(4)의 자료 구조를 나타낸 것이다. 하나의 엔트리 뒤에 올 수 있는 음소 정보(p,ph) 쌍을 저장하기 위해 두 개의 비트 벡터(bit vector)를 이용하게 되며, 자기 자신의 첫 음소 정보(p,ph)를 표현하기 위한 방법으로서, which가 q값을 갖고, ith와 mask가 ph 정보를 갖는다. ith는 비트 벡터에서 몇 번째 바이트(byte)를 조사할 것인지를 결정하는데 사용되고, mask는 그 바이트와의 비트 연산(bit and operation )을 통해 값이 저장되어 있는지 조사하는데 사용된다.
도 6은 상기 발음 제약 테이블(4)을 생성하는 코드를 나타낸 것이고, 도 7은 언어 모델(language model)의 확률값을 계산할 때 그 발음 제약 테이블(4)을 조사하는 원리를 나타낸 것이다.을 룩업할 때 pronidx_3은의 인덱스이고, pronidx_2는의 인덱스이다. 도 7에서와 같이 테이블을 조사하기 위해 3번의 할당 연산(assignment operation)과 1번의 비트 연산(bit AND operation)과 1번의 비교 연산이 필요하다.
본 발명의 성능을 알아보기 위해 총 900 문장에 해당하는 음성을 실험하였다. 이때, 인식 단어는 총 60,000 단어이고, 그 단어의 복수 발음 사전(2)의 엔트리 개수는 81,905이었다. 발음 제약 테이블(4)의 용량은 1.01 Mbyte 이었다. 그 결과 발음 제약 테이블(4)의 정보를 사용하지 않았을 때 음절 인식률이 85.3%이었으나, 본 발명을 이용하였을 때에는 85.7%로 향상되는 것을 확인할 수 있었다.
이상에서 상세히 설명한 바와 같이 본 발명은 복수 발음 사전을 이용하는 한국어 대어휘 연속 음성 인식기에서, 복수 발음 사전과 함께 그에 해당하는 발음 제약 사전을 구축하고, 이를 근거로 두 후보 단어의 결합 가능성을 조사하여 결합 가능성이 매우 낮거나 불가능한 후보의 링크를 절단 함으로써, 음성 인식률과 인식 속도가 향상되고, 메모리 용량을 줄어드는 효과가 있다.
또한, 복수 발음 사전을 사용하는 연결형 단어 인식기(connected word recognition) 등의 분야에 적용하여 인식률을 향상시킬 수 있는 효과가 있다.

Claims (4)

  1. 학습 문장과 그에 해당하는 발음을 입력받아 복수 발음 사전(2)과 발음 제약 사전(3)을 생성하는 사전 생성기(1)와; 상기 복수발음 사전(2)에 대응하여 불필요한 발음을 제약하기 위한 인간 가독형의 발음 제약 사전(3)과; 상기 발음 제약 사전(3)이 기계가 읽을 수 있는 형태의 테이블로 변환된 발음 제약 테이블(4)과; 음성 입력시 상기 복수 발음 사전(2)을 이용하여 음성 인식 후보들을 격자구조로 구축한 후, 상기 발음 제약 테이블(4)을 근거로 결합 가능 확률이 매우 낮은 후보간의 링크를 절단하고 나머지 후보들을 대상으로 음성을 인식하여 그 인식결과를 출력하는 탐색기(6)로 구성한 것을 특징으로 하는 발음제약 사전을 이용한 음성 인식기.
  2. 제1항에 있어서, 발음 제약 테이블(4)은 상기 복수 발음 사전(2)의 엔트리, 그 엔트리의 글자 형태에서의 첫 음소 정보, 발음 형태에서의 첫 음소 정보, 관측 엔트리 다음에 올 수 있는 첫 음소 정보를 구성 요소로 하는 것을 특징으로 하는 발음제약 사전을 이용한 음성 인식기.
  3. 제1항 또는 제2항에 있어서, 발음 제약 테이블(4)의 첫 음소 정보(q,ph)는 두 변수의 쌍으로 표현하되, q의 값이 0이면 다음 서기소 자체에서의 첫 음소가 ph이고 이 단어 발음의 첫 음소 또한 ph인 경우를 의미하고, q의 값이 1일 경우에는단어 발음의 첫 음소는 ph이지만, 서기소 자체의 첫 음소는 ph가 아님을 의미하는 것을 특징으로 하는 발음제약 사전을 이용한 음성 인식기.
  4. 제1항에 있어서, 발음 제약 테이블(4)은 하나의 엔트리 뒤에 올 수 있는 음소 정보(p,ph) 쌍을 저장하기 위해 두 개의 비트 벡터를 이용하는 것을 특징으로 하는 발음제약 사전을 이용한 음성 인식기.
KR1020020018668A 2002-04-04 2002-04-04 발음 제약 사전을 이용한 음성 인식기 KR20030080155A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020018668A KR20030080155A (ko) 2002-04-04 2002-04-04 발음 제약 사전을 이용한 음성 인식기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020018668A KR20030080155A (ko) 2002-04-04 2002-04-04 발음 제약 사전을 이용한 음성 인식기

Publications (1)

Publication Number Publication Date
KR20030080155A true KR20030080155A (ko) 2003-10-11

Family

ID=32377941

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020018668A KR20030080155A (ko) 2002-04-04 2002-04-04 발음 제약 사전을 이용한 음성 인식기

Country Status (1)

Country Link
KR (1) KR20030080155A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100484493B1 (ko) * 2002-12-12 2005-04-20 한국전자통신연구원 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
KR100825690B1 (ko) * 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100484493B1 (ko) * 2002-12-12 2005-04-20 한국전자통신연구원 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
KR100825690B1 (ko) * 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법

Similar Documents

Publication Publication Date Title
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
KR100597110B1 (ko) 사전 데이터 압축 방법
US5949961A (en) Word syllabification in speech synthesis system
US8126714B2 (en) Voice search device
EP1970898A1 (en) Speech recognition system and method for speech recognition
MXPA06003431A (es) Metodo para sintetizar voz.
KR20060049290A (ko) 혼성-언어 텍스트의 음성 변환 방법
WO2000058943A1 (fr) Systeme et procede de synthese de la parole
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
US20020087317A1 (en) Computer-implemented dynamic pronunciation method and system
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
US20050267755A1 (en) Arrangement for speech recognition
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JP3576066B2 (ja) 音声合成システム、および音声合成方法
KR20030080155A (ko) 발음 제약 사전을 이용한 음성 인식기
KR20030010979A (ko) 의미어단위 모델을 이용한 연속음성인식방법 및 장치
JP2001188556A (ja) 音声認識方法及び装置
JP6995967B2 (ja) 生成装置、認識システム、および、有限状態トランスデューサの生成方法
JP2979912B2 (ja) 音声認識装置
Bharthi et al. Unit selection based speech synthesis for converting short text message into voice message in mobile phones
Pawate et al. Implementation of an HMM-based Speaker-independent Speech Recognition System on the TMS320C2x and TMS320C5x
Buza et al. Original Method for Romanian Text-to-Speech Synthesis Based on Syllable Concatenation
Surwase et al. Technical aspects in development of Marathi calculator using text to speech synthesizer

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination