KR100484493B1 - 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법 - Google Patents

다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법 Download PDF

Info

Publication number
KR100484493B1
KR100484493B1 KR10-2002-0079264A KR20020079264A KR100484493B1 KR 100484493 B1 KR100484493 B1 KR 100484493B1 KR 20020079264 A KR20020079264 A KR 20020079264A KR 100484493 B1 KR100484493 B1 KR 100484493B1
Authority
KR
South Korea
Prior art keywords
pronunciation
speech recognition
continuous speech
phoneme
vocabulary
Prior art date
Application number
KR10-2002-0079264A
Other languages
English (en)
Other versions
KR20040051350A (ko
Inventor
강병옥
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0079264A priority Critical patent/KR100484493B1/ko
Publication of KR20040051350A publication Critical patent/KR20040051350A/ko
Application granted granted Critical
Publication of KR100484493B1 publication Critical patent/KR100484493B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Abstract

본 발명은 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법에 관한 것으로서, 더 상세하게는 대화체 연속음성인식 과정에서 사용되는 발음사전이 일반적인 발음변이를 포용하도록 한 다중 발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 확장된 발음사전을 적용하여 대화체 연속 음성인식에서 인식성능을 향상시키고, 정형화된 출력패턴을 얻을 수 있도록 한 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법에 관한 것이다.
즉, 본 발명은 대화체에서 나타나는 음운 축약, 음운 탈락, 전형적인 오발화, 발화 오류 등을 발음사전에 수용할 때 각각의 대표어휘에 대한 변이발음으로 처리하고; 언어모델과 어휘사전은 대표어휘만을 이용해 구성하도록 하며; 음성인식기의 탐색부에서는 각각의 변이발음의 발음열도 탐색하되 대표어휘로 언어모델을 참조하도록 하고, 인식결과를 출력하도록 함으로써, 음성인식 성능을 향상시키고, 정형화된 출력패턴을 얻을 수 있도록 한다.

Description

다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법{Spontaneous continuous speech recognition system and method using mutiple pronunication dictionary}
본 발명은 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법에 관한 것으로서, 더 상세하게는 대화체 연속 음성인식 과정에서 사용되는 발음사전이 일반적인 발음변이(예; 음운 축약, 음운 탈락, 전형적인 오발화, 발화 오류 등)를 포용하도록 한 다중 발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 확장된 발음사전을 적용하여 대화체 연속 음성인식에서 인식성능을 향상시키고, 정형화된 출력패턴을 얻을 수 있도록 한 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법에 관한 것이다.
잘 알려진 바와 같이, 일반적인 연속 음성인식 시스템은 도 1과 같은 구성을 갖는다. 도 1을 참조하면, 일반적인 연속 음성인식 시스템에 있어서 입력된 음성은 특징추출부(101)에서 인식에 유용한 정보만을 추출한 특징벡터로 변환되고, 이러한 특징벡터로부터 탐색부(102)에서 학습과정에서 미리 구해진 음향모델 데이터베이스(104)와 발음사전 데이터베이스(105), 언어모델 데이터베이스(106)를 이용하여 가장 확률이 높은 단어열을 비터비 알고리듬을 이용하여 찾게 된다. 여기서 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(102)는 이러한 트리를 탐색한다. 마지막으로, 인식 결과 출력부(103)는 탐색부(102)의 출력을 이용하여 인식 결과를 제공한다.
도 2는 도 1의 발음사전 데이터 베이스(105)에 사용되는 종래기술에 의한 탐색 트리의 예시도로서, 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리 기반 탐색 기술을 나타낸다. 도 2에서 (201)은 루트(Root) 노드, (202)는 일반 노드, (203)은 리프(Leaf) 노드, (204)는 단어간 천이를 각각 나타낸다.
도 2를 참조하면, 처음 시작 혹은 한 어휘가 결정된 후 탐색경로는 모두 하나의 가상적인 루트(Root) 노드(201)에 연결된 형태를 갖는다. 이후에 음성 입력이 들어오면 매 프레임마다 트리의 모든 노드에서의 확률값을 계산한 후에, 각 노드로 들어오는 천이들 중에 가장 확률이 높은 천이만을 남긴다. 탐색을 진행하여 리프(Leaf) 노드(203) 들에 도달해 어휘가 결정되면, 리프(Leaf) 노드(204)에서 루트(Root) 노드(201)로의 천이는 단어가 변경되므로 어휘간의 연결에 통계적인 형태의 언어모델 데이터베이스(105; 도 1)가 적용된다.
상기와 같이 종래기술에 의한 발음사전은 대표어에 대한 각각의 발음변이를 모두 개별적인 어휘로 처리하여, 언어모델 역시 변이발음 개개에 대해 통계를 내야 하므로 언어모델의 효율성이 떨어지게 된다. 예를들면, '어떻게' 와 '어트께'는 문장내에서 동일한 의미로서 언어모델 측면에서 동일한 통계적 특성을 갖는데도, 각각 따로 계산되게 되는 문제점을 가지고 있었다.
한편, 당업자에게 잘 알려진 내용으로서, 대화체 음성은 낭독체와 달리 자연스런 발화로 인해 간투어, 반복, 수정, 사투리 어휘 등이 많이 나타나고, 발음 변이가 심하다. 특히, 대화체에서 발음 변이는 음운축약, 음운 탈락, 전형적인 오발화, 발화 오류 등의 다양한 형태로 나타난다.
상기와 같은 대화체에서의 발음변이 요소를 모두 수용하여 언어모델을 구성할 경우 언어모델이 약화되고, 어휘 수가 증가하는 단점으로 인해 대화체 음성인식에서 인식률 하락의 원인이 될 수 있다. 또한 음성인식 결과로 나타나는 출력 패턴이 정형화 되지 않아, 음성인식 뒤에 그 결과를 사용하는 언어번역 등의 적용에 문제가 될 수 있다.
본 발명이 이루고자 하는 기술적 과제는 상기한 문제점들을 해결하기 위하여 창출된 것으로서, 대화체 연속 음성인식 과정에서 사용되는 발음사전이 일반적인 발음변이들, 예를 들면 음운 축약, 음운 탈락, 전형적인 오발화, 발화 오류 등을 포용하도록 한 다중 발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 확장된 발음사전을 적용하여 대화체 연속 음성인식에서 인식성능을 향상시키고, 정형화된 출력패턴을 얻을 수 있을 뿐만 아니라 언어모델의 효율성을 높이도록 한 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법을 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위하여 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 시스템은, 소정의 음향모델과 관련한 정보가 저장되어 있는 음향모델 데이터베이스와; 소정의 언어모델과 관련한 정보가 저장되어 있는 언어모델 데이터베이스와; 대표어 뿐만 아니라 대화체 음성에서 나타나는 음운 축약, 음운 탈락, 오발화, 발화 오류 등과 같은 각종 발음변이 정보를 수용한 다중 발음사전 데이터베이스와; 입력된 음성에서 인식에 유용한 정보만을 추출하여 특징벡터로 변환하는 특징추출 수단과; 상기 특징벡터를 토대로 소정의 학습과정에서 미리 구해진 상기 음향모델 데이터베이스와 다중 발음사전 데이터베이스 및 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 비터비 알고리즘을 이용하여 찾는 탐색수단; 및 상기 탐색수단의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력수단을 포함하여 된 것을 특징으로 한다.
본 발명 대화체 연속 음성인식 시스템에 있어서, 상기 다중 발음사전 데이터베이스에 수용되는 데이터들에 있어서 그 첫 번째 열은 발음사전의 표제어이고, 그 두 번째 열은 상기 표제어에 대한 발음을 나타내고, 상기 표제어의 발음변이가 있을 경우 상기 표제어에 괄호가 붙은 형태로 대표어 뒤에 따라오도록 구성되고, 상기 언어모델 데이터베이스는 해당 어휘의 대표어만으로 구축된다.
본 발명 대화체 연속 음성인식 시스템에 있어서, 상기 탐색수단은 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리기반 탐색을 이용하고, 상기 트리기반 탐색에서 다음 어휘로 천이할 때 변이발음에 대한 대표어로 상기 언어모델 데이터베이스를 참조한다.
그리고, 상기 목적을 달성하기 위한 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 방법은, 대화체 연속 음성인식을 위해 대화체 음성에서 빈번하게 나타나는 음운 축약, 음운 탈락, 오발화, 발화 오류 등과 같은 발음변이를 포용하는 다중 발음사전을 사용하는 단계; 및 입력된 음성을 인식하기 위한 트리기반 탐색에서 다음 어휘로 천이할 때 변이발음에 대한 대표어로 해당하는 대표어만으로 구축된 언어모델 데이터베이스를 사용하는 단계를 포함하여 된 것을 특징으로 한다.
본 발명 대화체 연속 음성인식 방법에 있어서, 대화체 텍스트 코퍼스에서 미리 약속된 전사방식을 통해 대표어와 발음변이를 포함하는 확장된 다중 발음사전을 구성하는 단계를 포함한다.
이하, 첨부한 도면을 참조하면서 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및 방법의 바람직한 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어서 관련된 공지기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 것이다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 또한, 도면을 설명함에 있어서, 종래기술에서 사용하였던 구성부재와 동일한 작용을 하는 구성부재들에 대해서는 같은 부재번호를 사용하고 이들에 대한 상세한 설명은 생략하기로 한다.
도 3은 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 시스템의 구성도이고, 도 4 및 도 5는 각각 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 방법을 설명하기 위한 예시도이다.
도 3을 참조하면, 본 발명에 따른 연속 음성인식 시스템에 있어서, 입력된 음성은 특징추출부(301)에서 인식에 유용한 정보만을 추출한 특징벡터로 변환된다. 상기 특징추출부(301)에 의해 변환된 상기 특징벡터를 참조하여 탐색부(302)는 학습과정에서 미리 구해진 음향모델 데이터베이스(304)와, 대표어 뿐만 아니라 대화체 음성에서 나타나는 음운 축약, 음운 탈락, 오발화, 발화 오류 등과 같은 각종 발음변이 정보를 수용한 다중 발음사전 데이터베이스(305), 및 해당 어휘의 대표어만으로 구축된 언어모델 데이터베이스(306)를 이용하여 가장 확률이 높은 단어열을 비터비 알고리듬을 이용하여 찾는다. 여기서 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(302)는 이러한 트리를 탐색한다. 마지막으로, 인식 결과 출력부(303)는 탐색부(302)의 출력을 이용하여 인식 결과를 제공한다. 상기 다중 발음사전 데이터베이스(305)는 대화체 음성에서 나타나는 각종 발음 변이들을 수용한다는 것은 전술한 바와 같다.
도 4은 본 발명에 사용되는 확장된 다중 발음사전 데이터베이스(305)에 저장되어 사용되는 확장된 다중 발음사전의 구성 예시도이다. 도 4을 참조하면, 첫번째 열은 발음사전의 표제어이며, 두번째 열은 그 표제어에 대한 발음을 나타낸다. 표제어의 발음변이가 있을 경우 표제어에 괄호가 붙은 형태로 대표어(표제어) 뒤에 따라온다.
도 5는 본 발명에 사용되는 확장된 다중 발음사전 데이터베이스(305)에서 사용되는 탐색트리의 예시도이다. 각 노드(501)(502)(503)가 갖는 의미는 도 2와 같은 종래의 발음사전 데이터베이스(105)에서 사용되는 탐색 트리와 같으나 탐색과정에서의 본 발명과 종래기술의 차이점은 다음과 같다.
도 2와 도 5에 각각 도시된 바와 같이 종래기술과 본 발명 모두 트리내의 노드를 탐색할 때 대표어에 대한 발음변이에 대해 각각 음향모델 데이터베이스(104)(304))를 참조하면서 확률값을 계산해 나가는 면에서는 같으나, 하나의 단어가 결정된 후 다음 단어로 천이(204)(504)할 때 언어모델 데이터베이스(104)(304)를 참조하는 방식이 다르다.
즉, 종래기술에서는 각각의 리프 노드(203)에서 다음 단어로 천이(204)할 때 하나의 대표어에 대한 변이발음에 대해서 따로 언어모델 데이터베이스(105)가 적용되는데 비해, 본 발명에서는 도 5에 도시한 바와 같이 리프 노드(503)에서 다음 단어로 천이(504)할 때 각 변이발음에 대한 대표어를 가지고 언어모델 데이터베이스(305)를 참조한다. 도 5에서 부재번호 501은 루트(Root) 노드, 502는 일반 노드를 나타내는데, 이들 각각은 전술한 도 2의 루트 노드(201), 일반 노드(202)와 같음을 알 수 있다.
이상에서 설명한 바와 같이 본 발명에 따른 대화체 연속 음성인식 시스템 및 방법은, 대화체 음성에서 나타나는 발음 변이를 수용한 확장된 다중 발음사전을 이용하여 탐색과정에 적용하고, 대표 어휘로만 언어모델을 구성하여 언어모델의 효율성을 높여 인식률을 향상시키고, 결과적으로 정형화된 출력형태를 갖도록 하는 이점을 제공한다.
이상 본 발명의 바람직한 실시예에 대해 상세히 기술하였지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음을 알 수 있을 것이다. 따라서 본 발명의 앞으로의 실시예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.
도 1은 일반적인 연속 음성인식 시스템의 구성도.
도 2는 종래기술에 의한 발음사전이 사용된 탐색 트리의 예시도.
도 3은 본 발명에 따른 다중 발음사전을 이용한 대화체 연속 음성인식 시스템의 구성도.
도 4는 본 발명에 따른 확장된 다중 발음사전의 예시도.
도 5는 본 발명에 따른 확장된 다중 발음 사전이 사용된 탐색 트리의 예시도.
<도면의 주요부분에 대한 부호의 설명>
301...특징 추출부
302...탐색부
303...인식결과 출력부
304...음향모델 데이터베이스
305...다중 발음사전 데이터베이스
306...언어모델 데이터베이스

Claims (4)

  1. 대화체 연속 음성인식 시스템에 있어서,
    음향모델과 관련한 정보가 저장되어 있는 음향모델 데이터베이스;
    언어모델과 관련한 정보가 저장되어 있는 언어모델 데이터베이스;
    대표어 뿐만 아니라 대화체 음성에서 나타나는 음운 축약, 음운 탈락, 오발화, 발화 오류로 이루어진 각종 발음변이 정보를 수용한 다중 발음사전 데이터베이스;
    입력된 음성에서 인식에 유용한 정보만을 추출하여 특징벡터로 변환하는 특징추출 수단;
    상기 특징벡터를 토대로 학습과정에서 미리 구해진 상기 음향모델 데이터베이스와 다중 발음사전 데이터베이스 및 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 비터비 알고리즘을 이용하여 찾는 탐색수단; 및
    상기 탐색수단의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력수단을 포함하고,
    상기 다중 발음사전 데이터베이스에 수용되는 데이터들에 있어서 그 첫 번째 열은 발음사전의 표제어이고, 그 두 번째 열은 상기 표제어에 대한 발음을 나타내고, 상기 표제어의 발음변이가 있을 경우 상기 표제어에 괄호가 붙은 형태로 대표어 뒤에 따라오도록 구성되고,
    상기 언어모델 데이터베이스는 해당 어휘의 대표어만으로 구축된 것을 특징으로 하는 다중 발음사전을 이용한 대화체 연속 음성인식 시스템.
  2. 삭제
  3. 제1항에 있어서, 상기 탐색수단은 대상 어휘를 발음에 따라 트리의 형태로 묶는 트리기반 탐색을 이용하고, 상기 트리기반 탐색에서 다음 어휘로 천이할 때 변이발음에 대한 대표어로 상기 언어모델 데이터베이스를 참조하도록 된 것을 특징으로 하는 다중 발음사전을 이용한 대화체 연속 음성인식 시스템.
  4. 대화체 연속 음성인식 방법에 있어서,
    대화체 연속 음성인식을 위해 대화체 음성에서 빈번하게 나타나는 음운 축약, 음운 탈락, 오발화, 발화 오류로 이루어진 발음변이를 포용하는 다중 발음사전을 사용하는 단계; 및
    입력된 음성을 인식하기 위한 트리기반 탐색에서 다음 어휘로 천이할 때 변이발음에 대한 대표어로 해당하는 대표어만으로 구축된 언어모델 데이터베이스를 사용하는 단계를 포함하여 된 것을 특징으로 하는 다중 발음사전을 이용한 대화체 연속 음성인식 방법.
KR10-2002-0079264A 2002-12-12 2002-12-12 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법 KR100484493B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0079264A KR100484493B1 (ko) 2002-12-12 2002-12-12 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0079264A KR100484493B1 (ko) 2002-12-12 2002-12-12 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법

Publications (2)

Publication Number Publication Date
KR20040051350A KR20040051350A (ko) 2004-06-18
KR100484493B1 true KR100484493B1 (ko) 2005-04-20

Family

ID=37345320

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0079264A KR100484493B1 (ko) 2002-12-12 2002-12-12 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법

Country Status (1)

Country Link
KR (1) KR100484493B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228732A (zh) * 2016-12-14 2018-06-29 公立大学法人首都大学东京 语言存储方法和语言对话系统
CN112511877A (zh) * 2020-12-07 2021-03-16 四川长虹电器股份有限公司 一种智能电视语音连续对话及交互的方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100718147B1 (ko) * 2005-02-01 2007-05-14 삼성전자주식회사 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법
KR100890404B1 (ko) * 2007-07-13 2009-03-26 한국전자통신연구원 음성 인식을 이용한 자동 번역 방법 및 장치
KR101068120B1 (ko) * 2008-12-12 2011-09-28 한국전자통신연구원 다중 탐색 기반의 음성 인식 장치 및 그 방법
KR101139469B1 (ko) * 2010-03-25 2012-04-30 성중모 한국어사전
KR102616915B1 (ko) * 2021-09-13 2023-12-21 엔에이치엔클라우드 주식회사 국어 맞춤법 퀴즈 제공 방법 및 시스템

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970050120A (ko) * 1995-12-29 1997-07-29 구자홍 워드 스포팅 시스템에서의 음성인식방법
KR20000026814A (ko) * 1998-10-23 2000-05-15 정선종 연속 음성인식을 위한 어절 분리방법 및 그를 이용한 음성 인식방법
KR20000051760A (ko) * 1999-01-26 2000-08-16 구자홍 연속 음성 인식 시스템에 있어서 유사 형태소의 단위 선정 방법
KR20010077042A (ko) * 2000-01-31 2001-08-17 구자홍 트리 구조의 단어사전을 갖는 연속음성 인식 장치
JP2002304190A (ja) * 2001-02-14 2002-10-18 Sony Internatl Europ Gmbh 発音変化形生成方法及び音声認識方法
KR20030035286A (ko) * 2001-10-30 2003-05-09 손종목 소용량 음성인식 시스템 및 그 방법
KR20030080155A (ko) * 2002-04-04 2003-10-11 엘지전자 주식회사 발음 제약 사전을 이용한 음성 인식기

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970050120A (ko) * 1995-12-29 1997-07-29 구자홍 워드 스포팅 시스템에서의 음성인식방법
KR20000026814A (ko) * 1998-10-23 2000-05-15 정선종 연속 음성인식을 위한 어절 분리방법 및 그를 이용한 음성 인식방법
KR20000051760A (ko) * 1999-01-26 2000-08-16 구자홍 연속 음성 인식 시스템에 있어서 유사 형태소의 단위 선정 방법
KR20010077042A (ko) * 2000-01-31 2001-08-17 구자홍 트리 구조의 단어사전을 갖는 연속음성 인식 장치
JP2002304190A (ja) * 2001-02-14 2002-10-18 Sony Internatl Europ Gmbh 発音変化形生成方法及び音声認識方法
KR20030035286A (ko) * 2001-10-30 2003-05-09 손종목 소용량 음성인식 시스템 및 그 방법
KR20030080155A (ko) * 2002-04-04 2003-10-11 엘지전자 주식회사 발음 제약 사전을 이용한 음성 인식기

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228732A (zh) * 2016-12-14 2018-06-29 公立大学法人首都大学东京 语言存储方法和语言对话系统
CN112511877A (zh) * 2020-12-07 2021-03-16 四川长虹电器股份有限公司 一种智能电视语音连续对话及交互的方法

Also Published As

Publication number Publication date
KR20040051350A (ko) 2004-06-18

Similar Documents

Publication Publication Date Title
Lee et al. Acoustic modeling for large vocabulary speech recognition
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US7676365B2 (en) Method and apparatus for constructing and using syllable-like unit language models
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US5333275A (en) System and method for time aligning speech
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
Lyu et al. Speech recognition on code-switching among the Chinese dialects
JP2002520664A (ja) 言語に依存しない音声認識
Goronzy Robust adaptation to non-native accents in automatic speech recognition
US5875426A (en) Recognizing speech having word liaisons by adding a phoneme to reference word models
KR20060052663A (ko) 음운 기반의 음성 인식 시스템 및 방법
JP2002287787A (ja) 明確化言語モデル
CN100354929C (zh) 语音处理设备、语言处理方法
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
KR100484493B1 (ko) 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
Liu et al. Pronunciation modeling for spontaneous Mandarin speech recognition
CN104756183B (zh) 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符
Lamel et al. Speech recognition of European languages
Bahl et al. Continuous parameter acoustic processing for recognition of a natural speech corpus
Lyu et al. Modeling pronunciation variation for bi-lingual Mandarin/Taiwanese speech recognition
JP4790956B2 (ja) 音声認識器における綴りモード
KR100306205B1 (ko) 발음 접속 그래프를 이용한 tts 처리 방법 및 연속 음성 인식 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120330

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20130325

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee