KR100848148B1

KR100848148B1 - 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체

Info

Publication number: KR100848148B1
Application number: KR1020070017119A
Authority: KR
Inventors: 김동현; 육동석
Original assignee: 고려대학교 산학협력단
Priority date: 2007-02-20
Filing date: 2007-02-20
Publication date: 2008-07-28

Abstract

음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을 이용한 문자 입력 장치, 그 방법 및 기록 매체가 개시된다.

본 발명은 사용자로부터 음성 정보를 수신하는 음성 입력부, 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델, 상기 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 상기 음절 모델과 비교하여 복수의 음절 후보를 생성하는 음절 후보 생성부, 상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 어절 및 문장 구성부 및 상기 복수의 문장 후보를 화면에 표시하는 문장 출력부를 포함한다.

본 발명에 의하면, 인식 시간을 줄이며, 음성 인식률을 저하시키지 않고, 적은 메모리의 음향 모델을 가지고 음성 인식을 수행할 수 있으며, 조음 현상을 피해 효과적인 문자 입력을 기대할 수 있으며, 발화자에게 인식된 후보들을 보여주고 확인 작업을 거치기 때문에 정확한 결과 처리가 가능하다.

Description

음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을 이용한 문자 입력 장치, 그 방법 및 기록 매체 {Apparatus and Method for syllabled speech recognition and inputting characters using syllabled speech recognition and Recording medium thereof}

도 1은 종래의 새로운 단어에 대한 음성인식 단위 모델링 방법에서 모노폰과 다이폰 및 트라이폰의 관계를 나타낸 것이다.

도 2는 본 발명의 일 실시예에 따른 음절 단위의 음성 인식 장치의 블럭도이다.

도 3은 본 발명의 다른 실시예에 따른 음절 단위의 음성 인식을 이용한 문자 입력 장치의 블럭도이다.

도 4a 및 도 4b는 도 3의 음절 후보 생성부(320)의 예시적인 동작을 나타낸 것이다.

도 4c는 도 3의 어절 및 문장 구성부(330)의 예시적인 동작을 나타낸 것이다.

도 4d는 도 3의 문장 출력부(340)의 예시적인 동작을 나타낸 것이다.

도 5는 본 발명의 또다른 실시예에 따른 음절 단위의 음성 인식 방법의 흐름도이다.

도 6은 본 발명의 또다른 실시예에 따른 음절 단위의 음성 인식을 이용한 문자 입력 방법의 흐름도이다.

본 발명은 음성 인식에 관한 것으로, 특히, 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을 이용한 문자 입력 장치, 그 방법 및 기록 매체에 관한 것이다.

음성은 사람마다 다르기 때문에 음성 인식을 위해, 음성을 적당한 전처리를 거친 뒤 디지털 신호로 바꾸어 특징을 추출한다.

추출된 음성패턴을 기준으로 하여 음성 입력신호를 인식하는 기술은 넓게는 인공지능(Artificial Intelligence)을 구현하기 위해 필요한 기술이고 좁게는 음성인식 전화기 등 각종 자동화 기기에 응용될 수 있다.

이러한 음성 인식 기술은 상기한 모든 제품에 채용하면 손이 자유로와지므로 행동의 동시성을 이룰수 있으며, 특히 손사용이 불편한 장애자들이 편리하게 사용할 수 있어 사람과 기계의 친숙성의 효과를 기대할 수 있다.

보통, 음성인식을 위한 음향모델을 설계하는데 있어 음성특징벡터의 공간을 128개 또는 256개로 벡터 양자화(Vector Quantization: VQ)하여 코드북(codebook)을 만든다. 음향 모델을 만들 때의 최소 단위를 음소라고 하는데, 한국어로 음성 인식을 구현하는 경우 대략 40개 정도의 음소를 이용한다. 이때, 좌우 음소까지 고 려하여 설계하는 것을 트라이폰(Triphone)이라 하며, 이론적으로 64000개(=40×40×40)의 트라이폰이 존재하지만 20000개 정도의 트라이폰이 발생하는 것이 일반적이다.

각 음소 모델들은 N개로 벡터 양자화된 공간에 대해 중요도에 따라 N개의 가중치(Weight)를 가지므로, M개의 트라이폰을 표현하기 위해서는 M×N바이트(Byte)가 필요하다.

통상, 연속 음성인식 시스템의 구현에 있어서 가장 중요한 문제들 중의 하나는 어휘 독립 모델링이다. 이는 학습과 인식시의 어휘의 차이가 음성 인식기의 성능 저하의 요인이 될 수 있기 때문이다. 특히, 좌우의 문맥 정보를 포함하는 3개의 음소, 즉 트라이폰과 같은 부단어 모델을 음성의 기본 인식단위로 할 경우 새로운 단어에 의해서 발생되는 트라이폰을 적절히 모델링하는 것은 매우 중요하다.

종래의 음성인식 시스템은 새로운 단어에 의해서 발생된 트라이폰이 훈련된 트라이폰 셋 (Set)에 존재하지 않는 경우 이 트라이폰을 다이폰 (Diphone)이나 모노폰 (Monophone)과 같이 덜 정확한 모델로 대체하는 방법이 주로 이용 되어져 왔다.

여기서, 다이폰은 좌측 및 우측 중 어느 한쪽의 문맥만을 고려한 모델이고, 모노폰은 문맥을 고려하지 않은 모델이다.

이를 간략히 설명하면, 새로운 단어에 의하여 발생된 트라이폰이 훈련된 트 라이폰 셋에 존재하지 않을 때, 이 트라이폰에 대한 좌측 문맥 다이폰, 또는 우측 문맥 다이폰을 구하여 훈련된 다이폰 셋에 존재하면 상기 트라이폰을 좌측문맥 다이폰, 또는 우측 문맥으로 대체한다. 만약, 존재하지 않으면 모노폰이 존재하는가를 살펴보고 해당되는 모노폰이 있으면 현재의 트라이폰을 모노폰으로 대체하고, 존재하지 않으면 유사한 모노폰으로 대체한다.

일반적으로, 음성인식은 인식대상 어휘의 네트워크 구성, 탐색 알고리즘 구현, 음성의 특징을 추출하여 확률적으로 모델링한 음향학적 모델의 저장 공간을 위한 메모리가 필요하다. 그 중, 가장 큰 메모리 공간을 차지하는 것은 음향학적 모델로서 휴대 단말기와 같은 소형 단말기에 음성인식 기술을 구현하기 위해서는 음향학적 모델의 용량을 감소시키는 것이 중요하다.

모바일 단말 장치에서 음성인식을 수행할 때, 종래에 연속 발화된 단어나 문장을 인식하는 방법이 기본 40 개의 음소(phone)에 앞뒤 발음 영향을 고려하여 트라이폰 형식(40x40x40)의 음향 모델을 만들기 때문에 많은 메모리를 차지하는 커다란 음향 모델을 가지고 처리해야 한다. 그래서 실제로 사용하지 않거나 유사한 음소들을 묶어 1만여개의 트라이폰 모델로 만들어 사용하기도 한다.

그러나 종래의 음성 인식 방법은 지나치게 많은 메모리가 필요하여 모바일 단말 장치에 적합하지 않고, 후보 음소들을 찾기 위한 검색 공간이 커서 인식 시간이 많이 걸리고, 단어 내의 조음현상이 있는 곳에서는 화자의 발음 습관에 따라 인식률에 영향을 받는다는 문제점이 있다.

따라서, 본 발명이 이루고자 하는 첫번째 기술적 과제는 음성 인식에 적은 메모리가 필요로 하고, 인식 시간을 줄이며, 음성 인식률을 저하시키지 않는 음절 단위의 음성 인식 장치를 제공하는 데 있다.

본 발명이 이루고자 하는 두번째 기술적 과제는 적은 메모리의 음향 모델을 가지고 음성 인식을 수행할 수 있고, 조음 현상을 피해 효과적인 문자 입력을 기대할 수 있으며, 발화자에게 인식된 후보들을 보여주고 확인 작업을 거치기 때문에 정확한 결과 처리가 가능한 음절 단위의 음성 인식을 이용한 문자 입력 장치를 제공하는 데 있다.

본 발명이 이루고자 하는 세번째 기술적 과제는 상기의 음절 단위의 음성 인식 장치에 적용된 음절 단위의 음성 인식 방법을 제공하는 데 있다.

본 발명이 이루고자 하는 네번째 기술적 과제는 상기의 음절 단위의 음성 인식을 이용한 문자 입력 장치에 적용된 음절 단위의 음성 인식을 이용한 문자 입력 방법을 제공하는 데 있다.

본 발명이 이루고자 하는 다섯번째 기술적 과제는 상기의 음절 단위의 음성 인식 방법 및 음절 단위의 음성 인식을 이용한 문자 입력 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.

상기의 첫번째 기술적 과제를 이루기 위하여, 본 발명은 사용자로부터 음성 정보를 수신하는 음성 입력부, 사용자에 의해 발음될 수 있는 음절들의 대표 발음 들로 구성되는 음절 모델, 상기 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 상기 음절 모델과 비교하여 복수의 음절 후보를 생성하는 음절 후보 생성부, 상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 어절 및 문장 구성부 및 상기 복수의 문장 후보를 화면에 표시하는 문장 출력부를 포함하는 음절 단위의 음성 인식 장치를 제공한다.

상기의 두번째 기술적 과제를 이루기 위하여, 본 발명은 사용자로부터 음성 정보를 수신하는 음성 입력부, 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델, 상기 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 상기 음절 모델과 비교하여 복수의 음절 후보를 생성하는 음절 후보 생성부, 상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 어절 및 문장 구성부, 상기 복수의 문장 후보를 화면에 표시하는 문장 출력부 및 상기 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 상기 선택된 문장 후보를 문자 입력값으로 설정하는 문자 입력부를 포함하는 음절 단위의 음성 인식을 이용한 문자 입력 장치를 제공한다.

상기의 세번째 기술적 과제를 이루기 위하여, 본 발명은 사용자로부터 음성 정보를 수신하는 단계, 상기 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델과 비교하여 복수의 음절 후보를 생성하는 단계, 상기 복수의 음절 후보로 조 합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 단계 및 상기 복수의 문장 후보를 화면에 표시하는 단계를 포함하는 음절 단위의 음성 인식 방법을 제공한다.

상기의 네번째 기술적 과제를 이루기 위하여, 본 발명은 사용자로부터 음성 정보를 수신하는 단계, 상기 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델과 비교하여 복수의 음절 후보를 생성하는 단계, 상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 단계, 상기 복수의 문장 후보를 화면에 표시하는 단계 및 상기 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 상기 선택된 문장 후보를 문자 입력값으로 설정하는 단계를 포함하는 음절 단위의 음성 인식을 이용한 문자 입력 방법을 제공한다.

상기의 다섯번째 기술적 과제를 이루기 위하여, 본 발명은 상기의 음절 단위의 음성 인식 방법 및 음절 단위의 음성 인식을 이용한 문자 입력 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

어절은 대체로 띄어쓰기 단위와 일치하는데, 문장에서 앞뒤로는 휴지를 두어 발음할 수 있으나 그 중에는 휴지를 둘 수 없는 한덩어리의 발화체로 정의된다.

본 발명은 휴대폰과 같은 모바일 단말 장치에서 손으로 문자를 입력하는 방법이 어렵고 불편한 사람들이나 자동차 운전자가 전화를 걸 때 음성으로 문자나 숫 자를 쉽게 입력하는 방법을 제공한다.

크게 음절 단위로 발화된 음성을 입력하는 음성 입력부(210), 입력된 음성에서 음절단위로 탐색하여 후보 어절 및 문장을 구성하는 음성 인식부(220, 230)와 인식된 문장을 모아서 최종 문장을 생성하는 문장 출력부(240)로 나눌 수 있다. 음성 입력부(210)를 통해 음절 단위로 음성이 입력된다. 음성 인식부(220, 230)에서는 입력된 음절의 특징을 추출하여 벡터로 만들고, 음절 벡터열을 음절 모델(225)과 비교하여 유사한 복수의 음절 후보를 생성하며, 어절 및 문장 구성부(230)는 먼저 발음된 음절과 조합이 가능한 확률을 단어 발음 사전과 언어 모델을 통해 구해서 어절들이 연결된 N개의 문장 후보를 만든다.

음성 입력부(210)는 사용자로부터 음성 정보를 수신한다. 음성 입력부(210)는 마이크 등의 음성 입력 수단 및 입력된 음성을 증폭하기 위한 앰프 등을 포함한다.

음절 후보 생성부(220)는 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 음절 모델(225)과 비교하여 복수의 음절 후보를 생성한다.

바람직하게는, 음절 후보 생성부(220)는 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 음절 특징 추출부(미도시) 및 음절 모델(225)에서 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 음절 탐색부(미도시)를 포함할 수 있다.

바람직하게는, 음절 후보 생성부(220)는 음절 모델에서 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 음성 입력부(210)를 이용하여 해당 음절에 대한 음성을 재입력시키는 음절 보정부(미도시)를 더 포함할 수 있다. 이때, 임계값은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자가 음성 인식의 신뢰도 수준을 고려하여 정할 수 있는 값이다. 이때, 음절 보정부는 불명확한 음절 발음에 대해서 다시 정확한 음절 발음으로 대체하는 역할을 한다.

음절 모델(225)은 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성된다. 음절 모델(225)은 유사한 발음의 이중 모음들을 갖는 음절들에 대해 한가지의 음절 발음만을 저장하고, 유사한 발음의 받침을 갖는 음절들에 대해 하나의 공통된 음절 발음만을 저장하도록 구성될 수 있다.

한글처럼 표음문자인 언어는 한 음절이 한글자로 표기가 가능하다. 그래서 음절 단위로 발화된 음성은 연속발음에서 발생하는 조음현상의 발생을 억제하여 비교적 정확한 발음 입력을 가능하게 한다. 한글 완성형 코드는 2350자이고 구별할 수 있는 대표 발음들로 묶으면 1000개 내외로 적은 양의 음절 모델을 만들 수 있다. 또한, 연속 발음된 음성도 가장 유사한 음절 후보 리스트를 탐색하고 언어 모델을 통해 생성 가능한 어절 및 문장을 구성하면 비교적 적은 음절 모델을 가지고도 음성 인식을 가능하게 한다.

어절 및 문장 구성부(230)는 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 어절들의 확률에 따라 어절들이 연결된 복수의 문장 후보를 생성한 다.

문장 출력부(240)는 복수의 문장 후보를 화면에 표시한다. 이때, 화면은 모바일 단말 장치에 적합한 LCD 패널, OLED 패널 등을 이용할 수 있다.

음성 입력부(310)는 사용자로부터 음성 정보를 수신한다. 음성 입력부(310)는 마이크 등의 음성 입력 수단 및 입력된 음성을 증폭하기 위한 앰프 등을 포함한다.

음절 후보 생성부(320)는 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 음절 모델(325)과 비교하여 복수의 음절 후보를 생성한다.

음절 모델(325)은 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성된다.

어절 및 문장 구성부(330)는 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 어절들의 확률에 따라 어절들이 연결된 복수의 문장 후보를 생성한다. 어절 및 문장 구성부(330)는 단어 발음 사전(331)을 이용하여 복수의 음절 후보로 조합 가능한 어절 후보를 추출하고, 언어 모델(332)에 따라 추출된 어절 후보의 연결 관계를 설정하여 문장 후보를 구성한다.

단어 발음 사전(331)은 단어들을 구성하는 음절 정보를 저장한다.

언어 모델(332)은 단어와 단어가 연결되어 문장을 구성할 확률을 저장한다.

문장 출력부(340)는 복수의 문장 후보를 화면에 표시한다. 이때, 화면은 모 바일 단말 장치에 적합한 LCD 패널, OLED 패널 등을 이용할 수 있다.

문자 입력부(350)는 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 선택된 문장 후보를 문자 입력값으로 설정한다. 이때, 문자 입력값은 모바일 단말 장치에서 문자 메시지 전송, 전화 번호 입력, 일정 관리 등의 입력값으로 사용된다.

화자에게 보여줘서 확인받는 N개의 문장 후보를 N-best 후보라고 한다. 이때 사용자는 모바일 단말기의 이동키와 선택 버튼으로 후보 중에 하나를 선택한다. 그리고 음성 입력이 아직 끝나지 않은 상태이면 음성 입력부(310)로 돌아가서 음성 입력을 다시 수행하고, 그렇지 않으면 문장 출력부(340) 및 문자 입력부(350)에서 최종 결정된 문장들을 모아 출력한다.

도 4a 내지 도 4d는 본 발명에서 '집에 오기 바람'이라고 모바일 기기에 말을 했을 때 인식하는 과정을 나타낸 것이다.

도 4a 및 도 4b는 도 3의 음절 후보 생성부(320)의 예시적인 동작을 나타낸 것이다. 도 4a에서 입력된 웨이브 파형에서 특징을 추출하여 벡터열을 만들고, 도 4b에서 이 벡터열과 가장 가까운 후보 음절 모델열들 네트워크로 나열한다.

도 4c는 도 3의 어절 및 문장 구성부(330)의 예시적인 동작을 나타낸 것이다. 네트워크의 후보 음절들은 단어 발음 사전을 통해 알맞은 단어 후보를 구성하게 되고( 집+애--> 집에 ), 단어와 단어 간의 구성은 언어모델을 통해 확률적으로 높은 것을 우선순위로 하여 후보 문장을 구성하게 된다.

도 4d는 도 3의 문장 출력부(340)의 예시적인 동작을 나타낸 것이다. 최종적 으로 높은 확률 점수를 갖는 후보 문장을 N-best 리스트로 사용자에게 보여준다.

먼저, 사용자로부터 음성 정보를 수신한다(510 과정).

다음, 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델과 비교하여 복수의 음절 후보를 생성한다(520 과정). 바람직하게는, 이 과정(520 과정)은 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 과정, 음절 모델에서 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 과정을 포함할 수 있다. 또한, 이 과정(520 과정)은 음절 모델에서 상기 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 해당 음절에 대한 음성을 재입력시키는 과정을 포함할 수 있다. 이때, 음성을 재입력 시키기 위해, 화면에 음성 재입력 메시지를 출력하거나 화자에게 음성 재입력을 요청하는 음성 메시지를 출력하게 할 수 있다.

음절 후보들이 생성되면, 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 어절들의 확률에 따라 어절들이 연결된 복수의 문장 후보를 생성한다(530 과정).

마지막으로, 복수의 문장 후보를 화면에 표시한다(540 과정).

먼저, 사용자로부터 음성 정보를 수신한다(610 과정).

다음, 음성 정보에서 각 음절의 특징을 추출하고, 추출된 음절의 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델과 비교하여 복수의 음절 후보를 생성한다(620 과정).

음절 후보들이 생성되면, 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 어절들의 확률에 따라 어절들이 연결된 복수의 문장 후보를 생성한다(630 과정).

다음, 복수의 문장 후보를 화면에 표시한다(640 과정).

마지막으로, 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 선택된 문장 후보를 문자 입력값으로 설정한다(650 과정).

종래 방법은 발화된 단어에서 음절들만 추출하여 음성 인식한 뒤에 다시 음절들을 모아 단어를 만드는 형식이지만, 본 방법은 연속 발음 및 음절 단위로 끊어 발음한 음성 데이터를 입력으로 받아들이고, 이들을 모아 N개의 후보 문장을 만들어 발화자에게 선택하도록 한다.

본 발명에 의하면, 휴대폰과 같은 모바일 단말 장치를 고려할 때, 음절 단위 발화 모델을 사용하기 때문에 보다 적은 메모리의 음향 모델을 가지고 음성 인식을 수행할 수 있고, 조음 현상을 피해 효과적인 입력을 기대할 수 있으며, 발화자에게 인식된 후보들을 보여 줘서 확인 작업을 거치기 때문에 정확한 결과가 처리될 수 있다.

바람직하게는, 본 발명의 음절 단위의 음성 인식 방법을 컴퓨터에서 실행시 키기 위한 프로그램을 컴퓨터로 읽을 수 있는 기록매체에 기록하여 제공할 수 있다.

바람직하게는, 본 발명의 음절 단위의 음성 인식을 이용한 문자 입력 방법을 컴퓨터에서 실행시키기 위한 프로그램을 컴퓨터로 읽을 수 있는 기록매체에 기록하여 제공할 수 있다.

본 발명은 소프트웨어를 통해 실행될 수 있다. 소프트웨어로 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다.

컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이 다.

상술한 바와 같이, 본 발명에 의하면, 인식 시간을 줄이며, 음성 인식률을 저하시키지 않고, 적은 메모리의 음향 모델을 가지고 음성 인식을 수행할 수 있으며, 조음 현상을 피해 효과적인 문자 입력을 기대할 수 있으며, 발화자에게 인식된 후보들을 보여주고 확인 작업을 거치기 때문에 정확한 결과 처리가 가능한 효과가 있다.

Claims

삭제
삭제
사용자로부터 음성 정보를 수신하는 음성 입력부;

사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델;

상기 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 음절 특징 추출부;

상기 음절 모델에서 상기 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 음절 탐색부;

상기 음절 모델에서 상기 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 상기 음성 입력부를 이용하여 상기 해당 음절에 대한 음성을 재입력시키는 음절 보정부;

상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 어절 및 문장 구성부; 및

상기 복수의 문장 후보를 화면에 표시하는 문장 출력부를 포함하는 것을 특징으로 하는 음절 단위의 음성 인식 장치.
삭제
제 3 항에 있어서,

상기 음절 모델은

유사한 발음의 이중 모음들을 갖는 음절들에 대해 한가지의 음절 발음을 저장하고, 유사한 발음의 받침을 갖는 음절들에 대해 하나의 공통된 음절 발음을 저장하는 것을 특징으로 하는 음절 단위의 음성 인식 장치.
사용자로부터 음성 정보를 수신하는 음성 입력부;

사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델;

상기 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 음절 특징 추출부;

상기 음절 모델에서 상기 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 음절 탐색부;

상기 음절 모델에서 상기 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 상기 음성 입력부를 이용하여 상기 해당 음절에 대한 음성을 재입력시키는 음절 보정부;

상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 어절 및 문장 구성부;

상기 복수의 문장 후보를 화면에 표시하는 문장 출력부; 및

상기 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 상기 선택된 문장 후보를 문자 입력값으로 설정하는 문자 입력부를 포함하는 음절 단위의 음성 인식을 이용한 문자 입력 장치.
삭제
삭제
사용자로부터 음성 정보를 수신하는 단계;

상기 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 단계;

상기 추출된 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델에서 상기 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 단계;

상기 음절 모델에서 상기 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 상기 해당 음절에 대한 음성을 재입력시키는 단계;

상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 단계; 및

상기 복수의 문장 후보를 화면에 표시하는 단계를 포함하는 음절 단위의 음성 인식 방법.
삭제
제 9 항에 있어서,

상기 음절 모델은

유사한 발음의 이중 모음들을 갖는 음절들에 대해 한가지의 음절 발음을 저장하고, 유사한 발음의 받침을 갖는 음절들에 대해 하나의 공통된 음절 발음을 저장하는 것을 특징으로 하는 음절 단위의 음성 인식 방법.
사용자로부터 음성 정보를 수신하는 단계;

상기 음성 정보에서 각 음절의 특징을 추출한 벡터를 이용하여 벡터열을 생성하는 단계;

상기 추출된 특징을 사용자에 의해 발음될 수 있는 음절들의 대표 발음들로 구성되는 음절 모델에서 상기 벡터열과 가장 가까운 후보 음절들을 네트워크로 나열하는 단계;

상기 음절 모델에서 상기 벡터열과의 거리가 임계값 이하인 후보 음절들이 존재하지 않으면, 해당 음절의 문장 내에서의 위치를 화면에 표시하고, 상기 해당 음절에 대한 음성을 재입력시키는 단계;

상기 복수의 음절 후보로 조합 가능한 어절들의 확률을 연산하고, 상기 어절들의 확률에 따라 상기 어절들이 연결된 복수의 문장 후보를 생성하는 단계;

상기 복수의 문장 후보를 화면에 표시하는 단계; 및

상기 화면에 표시된 문장 후보들 중 어느 하나를 선택하기 위한 사용자 입력을 수신하고, 상기 선택된 문장 후보를 문자 입력값으로 설정하는 단계를 포함하는 음절 단위의 음성 인식을 이용한 문자 입력 방법.
제 9 항, 제 11 항, 제 12 항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.