KR100848148B1 - 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 - Google Patents

음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 Download PDF

Info

Publication number
KR100848148B1
KR100848148B1 KR1020070017119A KR20070017119A KR100848148B1 KR 100848148 B1 KR100848148 B1 KR 100848148B1 KR 1020070017119 A KR1020070017119 A KR 1020070017119A KR 20070017119 A KR20070017119 A KR 20070017119A KR 100848148 B1 KR100848148 B1 KR 100848148B1
Authority
KR
South Korea
Prior art keywords
syllable
sentence
candidates
syllables
words
Prior art date
Application number
KR1020070017119A
Other languages
English (en)
Inventor
김동현
육동석
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020070017119A priority Critical patent/KR100848148B1/ko
Application granted granted Critical
Publication of KR100848148B1 publication Critical patent/KR100848148B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을 이용한 문자 입력 장치, 그 방법 및 기록 매체가 개시된다.
본 발명은 사용자로부터 음성 정보를 수신하는 음성 입력부, 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델, 상기 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 상기 음절 모델과 비교하여 복수의 음절 후보를 생성하는 음절 후보 생성부, 상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 어절 및 문장 구성부 및 상기 복수의 문장 후보를 화면에 표시하는 문장 출력부를 포함한다.
본 발명에 의하면, 인식 시간을 줄이며, 음성 인식률을 저하시키지 않고, 적은 메모리의 음향 모델을 가지고 음성 인식을 수행할 수 있으며, 조음 현상을 피해 효과적인 문자 입력을 기대할 수 있으며, 발화자에게 인식된 후보들을 보여주고 확인 작업을 거치기 때문에 정확한 결과 처리가 가능하다.

Description

음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을 이용한 문자 입력 장치, 그 방법 및 기록 매체 {Apparatus and Method for syllabled speech recognition and inputting characters using syllabled speech recognition and Recording medium thereof}
도 1은 종래의 새로운 단어에 대한 음성인식 단위 모델링 방법에서 모노폰과 다이폰 및 트라이폰의 관계를 나타낸 것이다.
도 2는 본 발명의 일 실시예에 따른 음절 단위의 음성 인식 장치의 블럭도이다.
도 3은 본 발명의 다른 실시예에 따른 음절 단위의 음성 인식을 이용한 문자 입력 장치의 블럭도이다.
도 4a 및 도 4b는 도 3의 음절 후보 생성부(320)의 예시적인 동작을 나타낸 것이다.
도 4c는 도 3의 어절 및 문장 구성부(330)의 예시적인 동작을 나타낸 것이다.
도 4d는 도 3의 문장 출력부(340)의 예시적인 동작을 나타낸 것이다.
도 5는 본 발명의 또다른 실시예에 따른 음절 단위의 음성 인식 방법의 흐름도이다.
도 6은 본 발명의 또다른 실시예에 따른 음절 단위의 음성 인식을 이용한 문자 입력 방법의 흐름도이다.
본 발명은 음성 인식에 관한 것으로, 특히, 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을 이용한 문자 입력 장치, 그 방법 및 기록 매체에 관한 것이다.
음성은 사람마다 다르기 때문에 음성 인식을 위해, 음성을 적당한 전처리를 거친 뒤 디지털 신호로 바꾸어 특징을 추출한다.
추출된 음성패턴을 기준으로 하여 음성 입력신호를 인식하는 기술은 넓게는 인공지능(Artificial Intelligence)을 구현하기 위해 필요한 기술이고 좁게는 음성인식 전화기 등 각종 자동화 기기에 응용될 수 있다.
이러한 음성 인식 기술은 상기한 모든 제품에 채용하면 손이 자유로와지므로 행동의 동시성을 이룰수 있으며, 특히 손사용이 불편한 장애자들이 편리하게 사용할 수 있어 사람과 기계의 친숙성의 효과를 기대할 수 있다.
보통, 음성인식을 위한 음향모델을 설계하는데 있어 음성특징벡터의 공간을 128개 또는 256개로 벡터 양자화(Vector Quantization: VQ)하여 코드북(codebook)을 만든다. 음향 모델을 만들 때의 최소 단위를 음소라고 하는데, 한국어로 음성 인식을 구현하는 경우 대략 40개 정도의 음소를 이용한다. 이때, 좌우 음소까지 고 려하여 설계하는 것을 트라이폰(Triphone)이라 하며, 이론적으로 64000개(=40×40×40)의 트라이폰이 존재하지만 20000개 정도의 트라이폰이 발생하는 것이 일반적이다.
각 음소 모델들은 N개로 벡터 양자화된 공간에 대해 중요도에 따라 N개의 가중치(Weight)를 가지므로, M개의 트라이폰을 표현하기 위해서는 M×N바이트(Byte)가 필요하다.
통상, 연속 음성인식 시스템의 구현에 있어서 가장 중요한 문제들 중의 하나는 어휘 독립 모델링이다. 이는 학습과 인식시의 어휘의 차이가 음성 인식기의 성능 저하의 요인이 될 수 있기 때문이다. 특히, 좌우의 문맥 정보를 포함하는 3개의 음소, 즉 트라이폰과 같은 부단어 모델을 음성의 기본 인식단위로 할 경우 새로운 단어에 의해서 발생되는 트라이폰을 적절히 모델링하는 것은 매우 중요하다.
종래의 음성인식 시스템은 새로운 단어에 의해서 발생된 트라이폰이 훈련된 트라이폰 셋 (Set)에 존재하지 않는 경우 이 트라이폰을 다이폰 (Diphone)이나 모노폰 (Monophone)과 같이 덜 정확한 모델로 대체하는 방법이 주로 이용 되어져 왔다.
도 1은 종래의 새로운 단어에 대한 음성인식 단위 모델링 방법에서 모노폰과 다이폰 및 트라이폰의 관계를 나타낸 것이다.
여기서, 다이폰은 좌측 및 우측 중 어느 한쪽의 문맥만을 고려한 모델이고, 모노폰은 문맥을 고려하지 않은 모델이다.
이를 간략히 설명하면, 새로운 단어에 의하여 발생된 트라이폰이 훈련된 트 라이폰 셋에 존재하지 않을 때, 이 트라이폰에 대한 좌측 문맥 다이폰, 또는 우측 문맥 다이폰을 구하여 훈련된 다이폰 셋에 존재하면 상기 트라이폰을 좌측문맥 다이폰, 또는 우측 문맥으로 대체한다. 만약, 존재하지 않으면 모노폰이 존재하는가를 살펴보고 해당되는 모노폰이 있으면 현재의 트라이폰을 모노폰으로 대체하고, 존재하지 않으면 유사한 모노폰으로 대체한다.
일반적으로, 음성인식은 인식대상 어휘의 네트워크 구성, 탐색 알고리즘 구현, 음성의 특징을 추출하여 확률적으로 모델링한 음향학적 모델의 저장 공간을 위한 메모리가 필요하다. 그 중, 가장 큰 메모리 공간을 차지하는 것은 음향학적 모델로서 휴대 단말기와 같은 소형 단말기에 음성인식 기술을 구현하기 위해서는 음향학적 모델의 용량을 감소시키는 것이 중요하다.
모바일 단말 장치에서 음성인식을 수행할 때, 종래에 연속 발화된 단어나 문장을 인식하는 방법이 기본 40 개의 음소(phone)에 앞뒤 발음 영향을 고려하여 트라이폰 형식(40x40x40)의 음향 모델을 만들기 때문에 많은 메모리를 차지하는 커다란 음향 모델을 가지고 처리해야 한다. 그래서 실제로 사용하지 않거나 유사한 음소들을 묶어 1만여개의 트라이폰 모델로 만들어 사용하기도 한다.
그러나 종래의 음성 인식 방법은 지나치게 많은 메모리가 필요하여 모바일 단말 장치에 적합하지 않고, 후보 음소들을 찾기 위한 검색 공간이 커서 인식 시간이 많이 걸리고, 단어 내의 조음현상이 있는 곳에서는 화자의 발음 습관에 따라 인식률에 영향을 받는다는 문제점이 있다.
따라서, 본 발명이 이루고자 하는 첫번째 기술적 과제는 음성 인식에 적은 메모리가 필요로 하고, 인식 시간을 줄이며, 음성 인식률을 저하시키지 않는 음절 단위의 음성 인식 장치를 제공하는 데 있다.
본 발명이 이루고자 하는 두번째 기술적 과제는 적은 메모리의 음향 모델을 가지고 음성 인식을 수행할 수 있고, 조음 현상을 피해 효과적인 문자 입력을 기대할 수 있으며, 발화자에게 인식된 후보들을 보여주고 확인 작업을 거치기 때문에 정확한 결과 처리가 가능한 음절 단위의 음성 인식을 이용한 문자 입력 장치를 제공하는 데 있다.
본 발명이 이루고자 하는 세번째 기술적 과제는 상기의 음절 단위의 음성 인식 장치에 적용된 음절 단위의 음성 인식 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 네번째 기술적 과제는 상기의 음절 단위의 음성 인식을 이용한 문자 입력 장치에 적용된 음절 단위의 음성 인식을 이용한 문자 입력 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 다섯번째 기술적 과제는 상기의 음절 단위의 음성 인식 방법 및 음절 단위의 음성 인식을 이용한 문자 입력 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
상기의 첫번째 기술적 과제를 이루기 위하여, 본 발명은 사용자로부터 음성 정보를 수신하는 음성 입력부, 사용자에 의해 발음될 수 있는 음절들의 대표 발음 들로 구성되는 음절 모델, 상기 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 상기 음절 모델과 비교하여 복수의 음절 후보를 생성하는 음절 후보 생성부, 상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 어절 및 문장 구성부 및 상기 복수의 문장 후보를 화면에 표시하는 문장 출력부를 포함하는 음절 단위의 음성 인식 장치를 제공한다.
상기의 두번째 기술적 과제를 이루기 위하여, 본 발명은 사용자로부터 음성 정보를 수신하는 음성 입력부, 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델, 상기 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 상기 음절 모델과 비교하여 복수의 음절 후보를 생성하는 음절 후보 생성부, 상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 어절 및 문장 구성부, 상기 복수의 문장 후보를 화면에 표시하는 문장 출력부 및 상기 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 상기 선택된 문장 후보를 문자 입력값으로 설정하는 문자 입력부를 포함하는 음절 단위의 음성 인식을 이용한 문자 입력 장치를 제공한다.
상기의 세번째 기술적 과제를 이루기 위하여, 본 발명은 사용자로부터 음성 정보를 수신하는 단계, 상기 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델과 비교하여 복수의 음절 후보를 생성하는 단계, 상기 복수의 음절 후보로 조 합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 단계 및 상기 복수의 문장 후보를 화면에 표시하는 단계를 포함하는 음절 단위의 음성 인식 방법을 제공한다.
상기의 네번째 기술적 과제를 이루기 위하여, 본 발명은 사용자로부터 음성 정보를 수신하는 단계, 상기 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델과 비교하여 복수의 음절 후보를 생성하는 단계, 상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 단계, 상기 복수의 문장 후보를 화면에 표시하는 단계 및 상기 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 상기 선택된 문장 후보를 문자 입력값으로 설정하는 단계를 포함하는 음절 단위의 음성 인식을 이용한 문자 입력 방법을 제공한다.
상기의 다섯번째 기술적 과제를 이루기 위하여, 본 발명은 상기의 음절 단위의 음성 인식 방법 및 음절 단위의 음성 인식을 이용한 문자 입력 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
어절은 대체로 띄어쓰기 단위와 일치하는데, 문장에서 앞뒤로는 휴지를 두어 발음할 수 있으나 그 중에는 휴지를 둘 수 없는 한덩어리의 발화체로 정의된다.
본 발명은 휴대폰과 같은 모바일 단말 장치에서 손으로 문자를 입력하는 방법이 어렵고 불편한 사람들이나 자동차 운전자가 전화를 걸 때 음성으로 문자나 숫 자를 쉽게 입력하는 방법을 제공한다.
도 2는 본 발명의 일 실시예에 따른 음절 단위의 음성 인식 장치의 블럭도이다.
크게 음절 단위로 발화된 음성을 입력하는 음성 입력부(210), 입력된 음성에서 음절단위로 탐색하여 후보 어절 및 문장을 구성하는 음성 인식부(220, 230)와 인식된 문장을 모아서 최종 문장을 생성하는 문장 출력부(240)로 나눌 수 있다. 음성 입력부(210)를 통해 음절 단위로 음성이 입력된다. 음성 인식부(220, 230)에서는 입력된 음절의 특징을 추출하여 벡터로 만들고, 음절 벡터열을 음절 모델(225)과 비교하여 유사한 복수의 음절 후보를 생성하며, 어절 및 문장 구성부(230)는 먼저 발음된 음절과 조합이 가능한 확률을 단어 발음 사전과 언어 모델을 통해 구해서 어절들이 연결된 N개의 문장 후보를 만든다.
음성 입력부(210)는 사용자로부터 음성 정보를 수신한다. 음성 입력부(210)는 마이크 등의 음성 입력 수단 및 입력된 음성을 증폭하기 위한 앰프 등을 포함한다.
음절 후보 생성부(220)는 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 음절 모델(225)과 비교하여 복수의 음절 후보를 생성한다.
바람직하게는, 음절 후보 생성부(220)는 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 음절 특징 추출부(미도시) 및 음절 모델(225)에서 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 음절 탐색부(미도시)를 포함할 수 있다.
바람직하게는, 음절 후보 생성부(220)는 음절 모델에서 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 음성 입력부(210)를 이용하여 해당 음절에 대한 음성을 재입력시키는 음절 보정부(미도시)를 더 포함할 수 있다. 이때, 임계값은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자가 음성 인식의 신뢰도 수준을 고려하여 정할 수 있는 값이다. 이때, 음절 보정부는 불명확한 음절 발음에 대해서 다시 정확한 음절 발음으로 대체하는 역할을 한다.
음절 모델(225)은 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성된다. 음절 모델(225)은 유사한 발음의 이중 모음들을 갖는 음절들에 대해 한가지의 음절 발음만을 저장하고, 유사한 발음의 받침을 갖는 음절들에 대해 하나의 공통된 음절 발음만을 저장하도록 구성될 수 있다.
한글처럼 표음문자인 언어는 한 음절이 한글자로 표기가 가능하다. 그래서 음절 단위로 발화된 음성은 연속발음에서 발생하는 조음현상의 발생을 억제하여 비교적 정확한 발음 입력을 가능하게 한다. 한글 완성형 코드는 2350자이고 구별할 수 있는 대표 발음들로 묶으면 1000개 내외로 적은 양의 음절 모델을 만들 수 있다. 또한, 연속 발음된 음성도 가장 유사한 음절 후보 리스트를 탐색하고 언어 모델을 통해 생성 가능한 어절 및 문장을 구성하면 비교적 적은 음절 모델을 가지고도 음성 인식을 가능하게 한다.
어절 및 문장 구성부(230)는 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 어절들의 확률에 따라 어절들이 연결된 복수의 문장 후보를 생성한 다.
문장 출력부(240)는 복수의 문장 후보를 화면에 표시한다. 이때, 화면은 모바일 단말 장치에 적합한 LCD 패널, OLED 패널 등을 이용할 수 있다.
도 3은 본 발명의 다른 실시예에 따른 음절 단위의 음성 인식을 이용한 문자 입력 장치의 블럭도이다.
음성 입력부(310)는 사용자로부터 음성 정보를 수신한다. 음성 입력부(310)는 마이크 등의 음성 입력 수단 및 입력된 음성을 증폭하기 위한 앰프 등을 포함한다.
음절 후보 생성부(320)는 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 음절 모델(325)과 비교하여 복수의 음절 후보를 생성한다.
음절 모델(325)은 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성된다.
어절 및 문장 구성부(330)는 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 어절들의 확률에 따라 어절들이 연결된 복수의 문장 후보를 생성한다. 어절 및 문장 구성부(330)는 단어 발음 사전(331)을 이용하여 복수의 음절 후보로 조합 가능한 어절 후보를 추출하고, 언어 모델(332)에 따라 추출된 어절 후보의 연결 관계를 설정하여 문장 후보를 구성한다.
단어 발음 사전(331)은 단어들을 구성하는 음절 정보를 저장한다.
언어 모델(332)은 단어와 단어가 연결되어 문장을 구성할 확률을 저장한다.
문장 출력부(340)는 복수의 문장 후보를 화면에 표시한다. 이때, 화면은 모 바일 단말 장치에 적합한 LCD 패널, OLED 패널 등을 이용할 수 있다.
문자 입력부(350)는 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 선택된 문장 후보를 문자 입력값으로 설정한다. 이때, 문자 입력값은 모바일 단말 장치에서 문자 메시지 전송, 전화 번호 입력, 일정 관리 등의 입력값으로 사용된다.
화자에게 보여줘서 확인받는 N개의 문장 후보를 N-best 후보라고 한다. 이때 사용자는 모바일 단말기의 이동키와 선택 버튼으로 후보 중에 하나를 선택한다. 그리고 음성 입력이 아직 끝나지 않은 상태이면 음성 입력부(310)로 돌아가서 음성 입력을 다시 수행하고, 그렇지 않으면 문장 출력부(340) 및 문자 입력부(350)에서 최종 결정된 문장들을 모아 출력한다.
도 4a 내지 도 4d는 본 발명에서 '집에 오기 바람'이라고 모바일 기기에 말을 했을 때 인식하는 과정을 나타낸 것이다.
도 4a 및 도 4b는 도 3의 음절 후보 생성부(320)의 예시적인 동작을 나타낸 것이다. 도 4a에서 입력된 웨이브 파형에서 특징을 추출하여 벡터열을 만들고, 도 4b에서 이 벡터열과 가장 가까운 후보 음절 모델열들 네트워크로 나열한다.
도 4c는 도 3의 어절 및 문장 구성부(330)의 예시적인 동작을 나타낸 것이다. 네트워크의 후보 음절들은 단어 발음 사전을 통해 알맞은 단어 후보를 구성하게 되고( 집+애--> 집에 ), 단어와 단어 간의 구성은 언어모델을 통해 확률적으로 높은 것을 우선순위로 하여 후보 문장을 구성하게 된다.
도 4d는 도 3의 문장 출력부(340)의 예시적인 동작을 나타낸 것이다. 최종적 으로 높은 확률 점수를 갖는 후보 문장을 N-best 리스트로 사용자에게 보여준다.
도 5는 본 발명의 또다른 실시예에 따른 음절 단위의 음성 인식 방법의 흐름도이다.
먼저, 사용자로부터 음성 정보를 수신한다(510 과정).
다음, 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델과 비교하여 복수의 음절 후보를 생성한다(520 과정). 바람직하게는, 이 과정(520 과정)은 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 과정, 음절 모델에서 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 과정을 포함할 수 있다. 또한, 이 과정(520 과정)은 음절 모델에서 상기 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 해당 음절에 대한 음성을 재입력시키는 과정을 포함할 수 있다. 이때, 음성을 재입력 시키기 위해, 화면에 음성 재입력 메시지를 출력하거나 화자에게 음성 재입력을 요청하는 음성 메시지를 출력하게 할 수 있다.
음절 후보들이 생성되면, 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 어절들의 확률에 따라 어절들이 연결된 복수의 문장 후보를 생성한다(530 과정).
마지막으로, 복수의 문장 후보를 화면에 표시한다(540 과정).
도 6은 본 발명의 또다른 실시예에 따른 음절 단위의 음성 인식을 이용한 문자 입력 방법의 흐름도이다.
먼저, 사용자로부터 음성 정보를 수신한다(610 과정).
다음, 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델과 비교하여 복수의 음절 후보를 생성한다(620 과정).
음절 후보들이 생성되면, 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 어절들의 확률에 따라 어절들이 연결된 복수의 문장 후보를 생성한다(630 과정).
다음, 복수의 문장 후보를 화면에 표시한다(640 과정).
마지막으로, 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 선택된 문장 후보를 문자 입력값으로 설정한다(650 과정).
종래 방법은 발화된 단어에서 음절들만 추출하여 음성 인식한 뒤에 다시 음절들을 모아 단어를 만드는 형식이지만, 본 방법은 연속 발음 및 음절 단위로 끊어 발음한 음성 데이터를 입력으로 받아들이고, 이들을 모아 N개의 후보 문장을 만들어 발화자에게 선택하도록 한다.
본 발명에 의하면, 휴대폰과 같은 모바일 단말 장치를 고려할 때, 음절 단위 발화 모델을 사용하기 때문에 보다 적은 메모리의 음향 모델을 가지고 음성 인식을 수행할 수 있고, 조음 현상을 피해 효과적인 입력을 기대할 수 있으며, 발화자에게 인식된 후보들을 보여 줘서 확인 작업을 거치기 때문에 정확한 결과가 처리될 수 있다.
바람직하게는, 본 발명의 음절 단위의 음성 인식 방법을 컴퓨터에서 실행시 키기 위한 프로그램을 컴퓨터로 읽을 수 있는 기록매체에 기록하여 제공할 수 있다.
바람직하게는, 본 발명의 음절 단위의 음성 인식을 이용한 문자 입력 방법을 컴퓨터에서 실행시키기 위한 프로그램을 컴퓨터로 읽을 수 있는 기록매체에 기록하여 제공할 수 있다.
본 발명은 소프트웨어를 통해 실행될 수 있다. 소프트웨어로 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다.
컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다.
또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이 다.
상술한 바와 같이, 본 발명에 의하면, 인식 시간을 줄이며, 음성 인식률을 저하시키지 않고, 적은 메모리의 음향 모델을 가지고 음성 인식을 수행할 수 있으며, 조음 현상을 피해 효과적인 문자 입력을 기대할 수 있으며, 발화자에게 인식된 후보들을 보여주고 확인 작업을 거치기 때문에 정확한 결과 처리가 가능한 효과가 있다.

Claims (13)

  1. 삭제
  2. 삭제
  3. 사용자로부터 음성 정보를 수신하는 음성 입력부;
    사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델;
    상기 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 음절 특징 추출부;
    상기 음절 모델에서 상기 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 음절 탐색부;
    상기 음절 모델에서 상기 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 상기 음성 입력부를 이용하여 상기 해당 음절에 대한 음성을 재입력시키는 음절 보정부;
    상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 어절 및 문장 구성부; 및
    상기 복수의 문장 후보를 화면에 표시하는 문장 출력부를 포함하는 것을 특징으로 하는 음절 단위의 음성 인식 장치.
  4. 삭제
  5. 제 3 항에 있어서,
    상기 음절 모델은
    유사한 발음의 이중 모음들을 갖는 음절들에 대해 한가지의 음절 발음을 저장하고, 유사한 발음의 받침을 갖는 음절들에 대해 하나의 공통된 음절 발음을 저장하는 것을 특징으로 하는 음절 단위의 음성 인식 장치.
  6. 사용자로부터 음성 정보를 수신하는 음성 입력부;
    사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델;
    상기 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 음절 특징 추출부;
    상기 음절 모델에서 상기 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 음절 탐색부;
    상기 음절 모델에서 상기 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 상기 음성 입력부를 이용하여 상기 해당 음절에 대한 음성을 재입력시키는 음절 보정부;
    상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 어절 및 문장 구성부;
    상기 복수의 문장 후보를 화면에 표시하는 문장 출력부; 및
    상기 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 상기 선택된 문장 후보를 문자 입력값으로 설정하는 문자 입력부를 포함하는 음절 단위의 음성 인식을 이용한 문자 입력 장치.
  7. 삭제
  8. 삭제
  9. 사용자로부터 음성 정보를 수신하는 단계;
    상기 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 단계;
    상기 추출된 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델에서 상기 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 단계;
    상기 음절 모델에서 상기 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 상기 해당 음절에 대한 음성을 재입력시키는 단계;
    상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 단계; 및
    상기 복수의 문장 후보를 화면에 표시하는 단계를 포함하는 음절 단위의 음성 인식 방법.
  10. 삭제
  11. 제 9 항에 있어서,
    상기 음절 모델은
    유사한 발음의 이중 모음들을 갖는 음절들에 대해 한가지의 음절 발음을 저장하고, 유사한 발음의 받침을 갖는 음절들에 대해 하나의 공통된 음절 발음을 저장하는 것을 특징으로 하는 음절 단위의 음성 인식 방법.
  12. 사용자로부터 음성 정보를 수신하는 단계;
    상기 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 단계;
    상기 추출된 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델에서 상기 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 단계;
    상기 음절 모델에서 상기 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 상기 해당 음절에 대한 음성을 재입력시키는 단계;
    상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 단계;
    상기 복수의 문장 후보를 화면에 표시하는 단계; 및
    상기 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 상기 선택된 문장 후보를 문자 입력값으로 설정하는 단계를 포함하는 음절 단위의 음성 인식을 이용한 문자 입력 방법.
  13. 제 9 항, 제 11 항, 제 12 항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020070017119A 2007-02-20 2007-02-20 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 KR100848148B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070017119A KR100848148B1 (ko) 2007-02-20 2007-02-20 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070017119A KR100848148B1 (ko) 2007-02-20 2007-02-20 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체

Publications (1)

Publication Number Publication Date
KR100848148B1 true KR100848148B1 (ko) 2008-07-28

Family

ID=39825130

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070017119A KR100848148B1 (ko) 2007-02-20 2007-02-20 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체

Country Status (1)

Country Link
KR (1) KR100848148B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101122591B1 (ko) 2011-07-29 2012-03-16 (주)지앤넷 핵심어 인식에 의한 음성 인식 장치 및 방법
KR20200034163A (ko) * 2018-09-21 2020-03-31 주식회사 한글과컴퓨터 음성인식을 기반으로 동음 모음에 대한 보정 처리를 수행하는 전자 단말 장치 및 그 동작 방법
KR20200106644A (ko) * 2019-03-05 2020-09-15 충북대학교 산학협력단 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법
WO2023167399A1 (ko) * 2022-03-04 2023-09-07 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738458A (ja) * 1993-07-20 1995-02-07 Fujitsu General Ltd 音声表示送信装置と音声表示受信装置
KR20010044675A (ko) * 2001-03-15 2001-06-05 백종관 음절 단위로 음성인식을 수행하는 방법 및 그 장치
KR20020072637A (ko) * 2001-03-12 2002-09-18 (주) 엘지텔레콤 무선단말기를 이용한 음성정보의 문자 변환 장치 및 방법
KR20040008546A (ko) * 2002-07-18 2004-01-31 엘지전자 주식회사 연속 음성인식 기기의 오인식 수정 방법
KR20070084773A (ko) * 2006-02-21 2007-08-27 엘지전자 주식회사 이동통신 단말기의 텍스트 변환 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738458A (ja) * 1993-07-20 1995-02-07 Fujitsu General Ltd 音声表示送信装置と音声表示受信装置
KR20020072637A (ko) * 2001-03-12 2002-09-18 (주) 엘지텔레콤 무선단말기를 이용한 음성정보의 문자 변환 장치 및 방법
KR20010044675A (ko) * 2001-03-15 2001-06-05 백종관 음절 단위로 음성인식을 수행하는 방법 및 그 장치
KR20040008546A (ko) * 2002-07-18 2004-01-31 엘지전자 주식회사 연속 음성인식 기기의 오인식 수정 방법
KR20070084773A (ko) * 2006-02-21 2007-08-27 엘지전자 주식회사 이동통신 단말기의 텍스트 변환 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
이수정,서은경,최갑슨,김순협, "반음절쌍과 변형된 연쇄 상태분할을 이용한 연속 숫자음 인식의 성능향상", 멀티미디어학회 논문지 제9권 제1호, pp.23-32, 2006.01.31.*

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101122591B1 (ko) 2011-07-29 2012-03-16 (주)지앤넷 핵심어 인식에 의한 음성 인식 장치 및 방법
KR20200034163A (ko) * 2018-09-21 2020-03-31 주식회사 한글과컴퓨터 음성인식을 기반으로 동음 모음에 대한 보정 처리를 수행하는 전자 단말 장치 및 그 동작 방법
KR102119743B1 (ko) * 2018-09-21 2020-06-05 주식회사 한글과컴퓨터 음성인식을 기반으로 동음 모음에 대한 보정 처리를 수행하는 전자 단말 장치 및 그 동작 방법
KR20200106644A (ko) * 2019-03-05 2020-09-15 충북대학교 산학협력단 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법
KR102182408B1 (ko) 2019-03-05 2020-11-24 충북대학교 산학협력단 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법
WO2023167399A1 (ko) * 2022-03-04 2023-09-07 삼성전자주식회사 전자 장치 및 그 제어 방법

Similar Documents

Publication Publication Date Title
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
US7716050B2 (en) Multilingual speech recognition
US5949961A (en) Word syllabification in speech synthesis system
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
Kumar et al. Development of Indian language speech databases for large vocabulary speech recognition systems
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
CN112397056B (zh) 语音评测方法及计算机存储介质
CN111243599A (zh) 语音识别模型构建方法、装置、介质及电子设备
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
Chung et al. Automatic acquisition of names using speak and spell mode in spoken dialogue systems
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2001343992A (ja) 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP7190283B2 (ja) 音声認識結果整形モデル学習装置およびそのプログラム
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
Jackson Automatic speech recognition: Human computer interface for kinyarwanda language
Qian et al. Automatic speech recognition for automated speech scoring
Huang et al. Speech-Based Interface for Visually Impaired Users
Kurian et al. Automated Transcription System for MalayalamLanguage
JPH09288493A (ja) 音声認識方法および音声認識装置、並びに情報処理方法および情報処理装置
Hämäläinen et al. Modelling pronunciation variation with single-path and multi-path syllable models: Issues to consider

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120615

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee