KR20010054869A - 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법 - Google Patents

음성인식을 위한 단어 모델링에서의 묵음 삽입 방법 Download PDF

Info

Publication number
KR20010054869A
KR20010054869A KR1019990055861A KR19990055861A KR20010054869A KR 20010054869 A KR20010054869 A KR 20010054869A KR 1019990055861 A KR1019990055861 A KR 1019990055861A KR 19990055861 A KR19990055861 A KR 19990055861A KR 20010054869 A KR20010054869 A KR 20010054869A
Authority
KR
South Korea
Prior art keywords
word
silence
modeling
speech recognition
rule
Prior art date
Application number
KR1019990055861A
Other languages
English (en)
Inventor
박성준
Original Assignee
이계철
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이계철, 한국전기통신공사 filed Critical 이계철
Priority to KR1019990055861A priority Critical patent/KR20010054869A/ko
Publication of KR20010054869A publication Critical patent/KR20010054869A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 음성인식을 위한 단어의 모델링에서 단어 내에 묵음이 존재하는 구간을 명시적으로 묵음으로 표시하여 훈련 및 인식을 수행함으로써 인식률을 향상시키기 위한 묵음 삽입 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 단어의 모델링에 사용될 단어의 기본 단위들을 정의하는 제 1 단계; 인식 대상 단어를 정의된 상기 기본 단위를 이용하여 표기하는 제 2 단계; 묵음의 삽입에 대한 규칙을 정의하는 제 3 단계; 및 상기 인식 대상 단어에 대하여 상기 묵음 삽입 규칙을 적용하여 상기 묵음을 삽입하여 새로운 단어 모델로 정의하는 제 4 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 음성인식시스템 등에 이용됨.

Description

음성인식을 위한 단어 모델링에서의 묵음 삽입 방법{METHOD OF INSERTING SHORT PAUSE IN WORD MODELING FOR SPEECH RECOGNITION}
본 발명은 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 단어내의 특정 음소 앞에 묵음이 삽입된 것으로 모델링함으로써 단어의인식률을 향상시키는 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
음성 인식을 위해서는 인식 대상이 되는 단어들의 적절한 모델링이 필요하다. 그 한 가지 방법은 단어가 유사 음소(phoneme-like unit)로 구성되어 있다고 가정하여 음소의 연결로 만드는 것이며, 기존에는 한 단어 내에서 묵음이 없으며 단지 음소들만 연결된 것으로 가정하였다.
그런데, 특정 음소 앞에서는 짧은 묵음(short pause)이 들어가는 경우가 있는데 이것은 그 음소의 조음상의 원리에 의해 항상 일어나는 현상이다. 이렇게 실제 발음에 있어서 특정 음소 앞에 묵음(pause)이 들어가기 때문에 기존의 방법으로는 모델링이 적절하게 되지 않는 문제점이 있었다.
본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로, 음성인식을 위한 단어의 모델링에서 단어 내에 묵음이 존재하는 구간을 명시적으로 묵음으로 표시하여 훈련 및 인식을 수행함으로써 인식률을 향상시키기 위한 묵음 삽입 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명이 적용되는 음성인식시스템의 구성예시도.
도 2 는 본 발명에 따른 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법에 대한 일실시예 흐름도.
*도면의 주요 부분에 대한 부호의 설명
11 : 끝점검출부 12 : 특징추출부
13 : 패턴비교부 14 : 기준패턴부
상기 목적을 달성하기 위한 본 발명은, 음성인식시스템에 적용되는 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법에 있어서, 단어의 모델링에 사용될 단어의 기본 단위들을 정의하는 제 1 단계; 인식 대상 단어를 정의된 상기 기본 단위를 이용하여 표기하는 제 2 단계; 묵음의 삽입에 대한 규칙을 정의하는 제 3 단계; 및 상기 인식 대상 단어에 대하여 상기 묵음 삽입 규칙을 적용하여 상기 묵음을 삽입하여 새로운 단어 모델로 정의하는 제 4 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명은, 대용량 프로세서를 구비한 음성인식시스템에, 단어의 모델링에 사용될 단어의 기본 단위들을 정의하는 제 1 기능; 인식 대상 단어를 정의된 상기 기본 단위를 이용하여 표기하는 제 2 기능; 묵음의 삽입에 대한 규칙을 정의하는 제 3 기능; 및 상기 인식 대상 단어에 대하여 상기 묵음 삽입 규칙을 적용하여 상기 묵음을 삽입하여 새로운 단어 모델로 정의하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명이 적용되는 연속음성인식시스템의 구성예시도이다.
사용자의 음성이 입력되면, 먼저 끝점검출부(11)에서 음성 구간을 찾는다. 다음으로 특징추출부(12)에서는 앞에서 찾아진 음성 구간의 신호로부터 음성의 특징을 추출해 낸다. 실제의 음성 인식 작업을 수행하는 패턴비교부(13)에서는 추출해 낸 음성 특징 데이터와 기준패턴부(14)에 미리 가지고 있는 기준 패턴 데이터를비교하여 가장 유사한 기준 패턴을 찾아서 그것으로 인식 결과를 삼는다. 이때, 패턴비교부(13)에서 찾은 묵음도 함께 이용하여 연속음성인식을 수행하는 것이 본 발명에서 설명하고자 하는 부분이다.
도 2 는 본 발명에 따른 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법에 대한 일실시예 흐름도이다.
음성을 파형으로 보면 특정 음소 앞에서는 묵음이 들어가는 것을 볼 수 있다. 이것은 그 음소의 조음상 특성에 의한 것이며, 항상 묵음이 존재한다고 생각할 수 있다.
예를 들어 '학교'라는 단어의 경우, 이를 발음상으로 표기하면 '하꾜'가 되며, '하'와 '꾜' 사이에는 묵음 구간이 존재한다. 'ㄲ'과 같은 폐쇄음을 발음할 때는 그런 현상이 생기기 때문이다. 다른 예로서 '자동차'의 경우에는 '동'과 '차' 사이에 묵음 구간이 있음을 파형을 통해서 알 수 있다. 여기서 묵음은 다른 음소들이 차지하는 길이만큼 또는 그 이상의 시간을 차지하는 경우가 대부분이다.
따라서, 단어 내에서 묵음 구간을 형성하는 음소 앞에는 묵음이 있음을 명시함으로써, 이를 훈련하거나 인식할 때에 사용하면 향상된 인식률을 얻을 수 있다.
음소 기반의 모델링에서 '학교'를 음소 표기로 한 예를 들면, 'h a gg yo'로 표시할 수 있는데, 'a'와 'gg' 사이에 있는 묵음을 나타내는 구간이 'a'와 'gg' 속에 포함되어 모델링이 될 것이다. 여기에서 묵음을 의미하는 기호 'sp'를 삽입한
다면 'h a sp gg yo'가 되는 것이다. 문제는 어떤 음소 앞에, 어떤 음소 뒤에, 또는 어떤 음소 사이에 묵음을 삽입할 것인지를 결정해야 하는 일인데, 음성학적인 규칙에 따라 묵음을 삽입할 수도 있고, 실제 사람들이 발화한 음성을 수집 분석하여 묵음이 생기는 경우들을 정리하여 이를 활용할 수도 있다. 어떤 방법을 사용하든지 음소의 훈련이나 인식에서 묵음이 삽입되는 경우를 일관되게 유지하면 된다. 즉, 훈련할 때는 묵음이 없는 것으로 하였는데, 인식할 때는 묵음이 있는 것을 사용하면 인식이 제대로 안 될 수 있다.
도 2 는 본 발명에 따라 단어를 모델링함에 있어서 묵음을 삽입하는 흐름도의 한 예를 나타낸 것이다.
우선, 단어의 모델링에 사용될 음소들을 정의하고(201), 인식 대상이 되는 단어들을 이 정의된 음소들을 사용하여 표기한다(202). 그리고, 어떤 경우에 묵음을 삽입할 것인지에 대한 규칙을 정의한다(203). 이것은 앞에서 밝힌 바와 같이 음성학적 규칙이나 실제 음성 데이터의 분석에 의해 얻어질 수 있다.
이제는 인식 대상이 되는 단어 각각에 대해서 묵음 삽입 규칙을 적용하여 묵음을 삽입하고, 이를 새로운 단어 모델로 정의한다. 즉, 인식대상 단어에서 점검하지 않은 단어가 있는지를 확인하고(204), 확인 결과, 점검하지 않은 단어가 없으면 단어 모델링 과정을 종료한다.
인식대상 단어에서 점검하지 않은 단어가 있는지를 확인한 결과, 점검하지 않은 단어가 있으면 인식 대상 단어에서 점검하지 않은 단어를 하나 선택하여(205), 선택된 단어에 대하여 아직 적용하지 않은 묵음 삽입 규칙이 있는지를 판단한다(206). 판단 결과, 적용하지 않은 묵음 삽입 규칙이 있으면, 묵음 삽입 규칙에서 적용하지 않은 규칙을 현재 선택된 단어에 적용하고(207), 선택된 단어에 대하여 아직 적용하지 않은 묵음 삽입 규칙이 있는지를 판단하는 과정(206)부터 반복 수행한다.
선택된 단어에 대하여 아직 적용하지 않은 묵음 삽입 규칙이 있는지를 판단한 결과, 적용하지 않은 묵음 삽입 규칙이 없으면, 인식대상 단어에서 점검하지 않은 단어가 있는지를 확인하는 과정(204)부터 반복 수행한다.
이 예에서는 단어의 기본 단위로 음소를 사용할 때만을 설명하였으나, 기본 단위를 음절이나 다른 단위를 사용할 경우에도 적용할 수 있다.
음소를 사용할 경우, 묵음 구간이 거의 확실히 존재하는 경우는 'ㅋ','ㅌ','ㅍ','ㅊ','ㄲ','ㄸ','ㅉ','ㅆ'와 같은 격음, 경음의 앞이며, 이들 음소가 단어의 첫머리에 있지 않을 때에는 단어를 모델링할 때 음소 앞에 묵음이 있는 것으로 한다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 음성 인식을 위한 단어의 모델링에서 단어 내에 묵음이 존재하는 구간은 명시적으로 묵음으로 표시하여 훈련 및 인식을 수행함으로써 인식률을 향상시킬 수 있는 효과가 있다.

Claims (6)

  1. 음성인식시스템에 적용되는 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법에 있어서,
    단어의 모델링에 사용될 단어의 기본 단위들을 정의하는 제 1 단계;
    인식 대상 단어를 정의된 상기 기본 단위를 이용하여 표기하는 제 2 단계;
    묵음의 삽입에 대한 규칙을 정의하는 제 3 단계; 및
    상기 인식 대상 단어에 대하여 상기 묵음 삽입 규칙을 적용하여 상기 묵음을 삽입하여 새로운 단어 모델로 정의하는 제 4 단계
    를 포함하는 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법.
  2. 제 1 항에 있어서,
    상기 기본 단위는,
    상기 단어에 존재하는 음소인 것을 특징으로 하는 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법.
  3. 제 1 항에 있어서,
    상기 기본 단위는,
    상기 단어에 존재하는 음절인 것을 특징으로 하는 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 제 4 단계는,
    상기 인식 대상 단어 중에서 점검하지 않은 단어가 있는지를 확인하는 제 5 단계;
    점검하지 않은 상기 인식 대상 단어 중에서 하나를 선택하여 선택된 상기 단어에 대하여 아직 적용되는 않은 상기 묵음 삽입 규칙이 있는지를 판단하는 제 6 단계;
    상기 제 6 단계의 판단 결과, 선택된 상기 단어에 대하여 아직 적용되는 않은 상기 묵음 삽입 규칙이 있으면 상기 묵음 삽입 규칙에서 적용하지 않은 규칙을 선택된 상기 단어에 적용하고 아직 적용되지 않은 상기 묵음 삽입 규칙이 있는지를 판단하는 제 6 단계부터 반복 수행하는 제 7 단계; 및
    상기 제 6 단계의 판단 결과, 선택된 상기 단어에 대하여 아직 적용되는 않은 상기 묵음 삽입 규칙이 없으면 상기 인식 대상 단어 중에서 점검하지 않은 단어가 있는지를 확인하는 제 5 단계부터 반복 수행하는 제 8 단계
    를 포함하는 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법.
  5. 제 4 항에 있어서,
    상기 묵음은,
    격음과 경음의 경우에 상기 단어의 첫머리에 위치하지 않으면 상기 격음이나 경음의 앞에 삽입되는 것을 특징으로 하는 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법.
  6. 대용량 프로세서를 구비한 음성인식시스템에,
    단어의 모델링에 사용될 단어의 기본 단위들을 정의하는 제 1 기능;
    인식 대상 단어를 정의된 상기 기본 단위를 이용하여 표기하는 제 2 기능;
    묵음의 삽입에 대한 규칙을 정의하는 제 3 기능; 및
    상기 인식 대상 단어에 대하여 상기 묵음 삽입 규칙을 적용하여 상기 묵음을 삽입하여 새로운 단어 모델로 정의하는 제 4 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990055861A 1999-12-08 1999-12-08 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법 KR20010054869A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990055861A KR20010054869A (ko) 1999-12-08 1999-12-08 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990055861A KR20010054869A (ko) 1999-12-08 1999-12-08 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법

Publications (1)

Publication Number Publication Date
KR20010054869A true KR20010054869A (ko) 2001-07-02

Family

ID=19624309

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990055861A KR20010054869A (ko) 1999-12-08 1999-12-08 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법

Country Status (1)

Country Link
KR (1) KR20010054869A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100981540B1 (ko) * 2003-04-24 2010-09-10 주식회사 케이티 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100981540B1 (ko) * 2003-04-24 2010-09-10 주식회사 케이티 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법

Similar Documents

Publication Publication Date Title
Johnson The auditory/perceptual basis for speech segmentation
US4284846A (en) System and method for sound recognition
Sambur Speaker recognition using orthogonal linear prediction
JPS6147440B2 (ko)
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
JPH05265483A (ja) 複数の出力を与える音声認識法
JPS62232691A (ja) 音声認識装置
Boite et al. A new approach towards keyword spotting.
JPS6138479B2 (ko)
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Sultana et al. A survey on Bengali speech-to-text recognition techniques
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Ishihara et al. Automatic transformation of environmental sounds into sound-imitation words based on Japanese syllable structure.
KR20010054869A (ko) 음성인식을 위한 단어 모델링에서의 묵음 삽입 방법
JPS63165900A (ja) 会話音声認識方式
JPH0774960B2 (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP3357752B2 (ja) パターンマッチング装置
Padmaja et al. A comparative study of silence and non silence regions of speech signal using prosody features for emotion recognition
JPS63161499A (ja) 音声認識装置
KR100349341B1 (ko) 유사단어 및 문장 인식시의 인식율 개선 방법
JPS63217399A (ja) 音声区間検出装置
Kaur et al. Automatic marking of Punjabi syllables boundaries in a sound file
JPS61260299A (ja) 音声認識装置

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination