KR19980076309A

KR19980076309A - 음성인식 방법 및 그 장치

Info

Publication number: KR19980076309A
Application number: KR1019970012962A
Authority: KR
Inventors: 유영욱; 염웅렬
Original assignee: 유영욱; 염웅렬
Priority date: 1997-04-09
Filing date: 1997-04-09
Publication date: 1998-11-16

Abstract

본 발명은 음성인식기술이 적용되는 상황에 적합한 문장들의 예(이를 '시나리오'라고 한다)를 예측한 후 문법분석에 기초하여 패턴매칭을 처리하는 음성인식 방법 및 장치에 관한 것이다.

이러한 본 발명의 장치는 음향분석부(31), 음성구간 추출부(32), 시나리오패턴 분석부(33), 시나리오패턴 사전(34), 문법분석 및 단어추출부(35), 음성 데이터베이스(36), 유사도 계산부(37), 단어 레이블 결정부(38), 문장 레이블 결정부(39)로 구성되어 소정의 상황에서 예측되는 다수의 시나리오를 설정한 후 각 시나리오에 따라 구분되어진 항목별로 가능한 단어들의 음성패턴을 저장하여 음성 데이터 베이스를 구축하고, 입력음성패턴을 음성 데이터 베이스에 저장된 음성패턴과 비교하여 음성을 인식하는 음성인식장치이다.

따라서, 본 발명은 무선이동화상회의시스템이나 장애자용 음성구동장치, 출입통제시스템 등에 이용될 수 있으며, 음성인식속도가 향상될 수 있다.

Description

음성인식 방법 및 그 장치

본 발명은 음성인식 방법 및 장치에 관한 것으로, 특히 음성인식기술이 적용되는 상황에 적합한 문장들의 예(이를 '시나리오'라고 한다)를 예측한 후 문법분석에 기초하여 패턴매칭을 처리하는 음성인식 방법 및 장치에 관한 것이다.

일반적으로 컴퓨터 기술의 발전과 더불어 다양한 휴먼인터페이스 기술들이 개발되면서 인간에게 제공되는 '편리성'은 더욱 질적인 면에서 성숙되고 있다. 즉, 종래에는 손과 발에 의해 작동되던 각종 메카니즘들이 이제는 인간의 음성으로 명령하여 제어할 수 있게 됨에 따라 손과 발의 동작이 자유로워질 수 있게 되었다.

이러한 휴먼 인터페이스 기술분야에서 '음성인식'은 가장 기본이 되는 기술이라할 수 있는데, 이 음성인식에 대한 기술내용은 1996년 5월 27일자로 공고된 공고번호 96-7132호의 음성인식장치 및 그 방법에 자세히 개시되어 있다.

상기 공고공보에 개시된 종래의 음성인식장치는 도 1에 도시된 바와 같이 음향분석부(11), 음성구간추출부(12), 비교패턴 한정부(13), 표준음성패턴 사전(14), 유사도 계산부(15), 레이블 결정부(16)로 구성되고, 상기 비교패턴 한정부(13)는 도 2에 도시된 바와 같이 모음구간 추출부(21), 모음 유사도계산부(23), 표준모음 음성패턴사전(22), 모음 레이블 결정부(24), 모음 순서열 사전(25)으로 구성되어 있다.

도 1 및 도 2에 도시된 음성인식장치는 음성의 언어적 특징에 관한 표준음성 패턴을 미리 기억하고 있다가 인식해야 할 새로운 음성이 입력되면, 이 입력 음성의 특징과 미리 기억된 음성 패턴을 비교하여 그 유사도가 최대인 음성으로 인식하는 패턴매칭방식(이를 프레임 매칭방식이라고도 함)의 음성인식장치이다.

전형적인 패턴매칭방식의 음성인식장치에서는 입력된 음성패턴과 표준 음성패턴의 전부를 비교하였다. 따라서, 표준 음성패턴 사전의 크기가 매우 방대하게 되면 입력된 음성의 패턴을 모든 표준 음성패턴과 비교하는데 많은 시간이 걸리기 때문에 실시간 처리가 어려웠다. 이러한 종래의 문제점을 해소하기 위하여 상기 공고공보에 개시된 종래의 음성인식 방법 및 장치는 도 2에 도시된 바와 같이 구성되는 비교패턴 한정부를 추가하여 입력음성의 특징을 분석한 후 표준음성패턴 중에서 입력음성의 특징과 부합되는 일부의 음성패턴만을 추출한 후 비교하므로써 인식속도를 향상시킨 것이다.

이때 종래의 음성인식장치에서 유사도를 구하기 위하여 사용되는 표준음성 패턴사전은 표준화된 음성패턴(범용 음성패턴)인데, 이러한 표준화된 음성패턴은 화자와는 독립적으로 '표준음성'이 존재한다는 가정하에서 이루어진 것이다. 그리고 유사도를 계산하는 과정에서 입력 음성패턴과 비교되는 표준 음성패턴의 수를 줄이기 위하여 음성을 자음과 모음의 음소로 분리한 후 입력패턴의 모음 수와 일치하는 일부의 표준 음성패턴만을 추출하였고, 이에 따라 유사도 계산에 소요되는 시간을 대폭적으로 줄일 수 있게 되었다.

그러나 잘 알려 진 바와 같이 표준적인 음성을 추출한다는 것은 대단히 힘들고 또한, 표준 음성패턴이 어떤 것인지를 선정한다는 것 자체가 불합리한 과정이며, 표준패턴을 구한다하여도 그 사전의 크기가 커지는 것과 비례하여 검색속도가 늦어지는 문제점이 있다. 즉, 패턴 매칭방식에서 음성패턴의 수가 많을수록 계산량이 증가하므로서 인식에 소요되는 시간이 길어질뿐만 아니라 인식률이 낮아지는 문제점이 있다.

그리고 종래에는 대부분의 음성패턴매칭이 단어 혹은 음절 단위로 이루어졌기 때문에 일련의 문장을 인식하기 위해서는 시간이 많이 소요되는 문제점이 있었다.

이에 본 발명은 특정의 사용자로 한정되는 음성 데이터 베이스를 구축한 후 시나리오에 따른 문법분석에 의해 제한된 음성패턴만을 추출하여 입력 음성패턴과 비교하므로써 인식속도를 현저히 향상시킬 수 있고, 입력음성의 인식자(identification)도 식별해 낼 수 있는 음성인식 방법 및 그 장치를 제공하는데 그 목적이 있다.

상기와 같은 목적을 달성하기 위하여 본 발명의 방법은, 소정의 상황에서 예측되는 다수의 시나리오를 설정한 후 각 시나리오에 따라 구분되어진 항목별로 가능한 단어들의 음성패턴을 저장하여 음성 데이터 베이스를 구축하는 과정과, 입력음성패턴을 상기 음성 데이터 베이스를 구축하는 과정에서 구축된 음성패턴과 비교하여 음성을 인식하는 과정으로 이루어진 음성인식방법에 있어서, 상기 음성을 인식하는 과정이, 입력음성을 분석하여 음성구간에 해당되는 문장음성패턴을 추출하는 제1 단계; 상기 입력된 문장음성패턴을 시나리오패턴 사전에 저장된 문장음성패턴과 비교하는 제2 단계; 상기 비교결과 일치하면 입력문장음성패턴을 분석하여 항목 인덱스와 해당 항목의 단어음성패턴을 추출하는 제3 단계; 상기 항목인덱스가 가리키는 항목에 해당되는 단어음성패턴들을 음성 데이터 베이스로부터 추출하는 제4 단계; 상기 입력 단어음성패턴과 음성 데이터 베이스의 음성패턴을 비교하여 유사도를 계산하는 제5 단계; 상기 유사도에 따라 단어 레이블을 결정한 후 입력문장의 각 항목에 대한 처리가 종료되지 않았으면 다음 항목에 대해 상기 제3 단계 내지 제5 단계를 반복하고, 종료되었으면 단어 레이블의 결합에 의해 문장 레이블을 결정하는 제6 단계를 포함하는 것을 특징으로 한다.

또한, 상기와 같은 목적을 달성하기 위하여 본 발명의 장치는, 소정의 상황에서 예측되는 다수의 시나리오를 설정한 후 각 시나리오에 따라 구분되어진 항목별로 가능한 단어들의 음성패턴을 저장하여 음성 데이터 베이스를 구축하고, 입력음성패턴을 상기 음성 데이터 베이스에 저장된 음성패턴과 비교하여 음성을 인식하는 음성인식장치에 있어서, 사용자의 음성을 입력받아 디지탈신호로 변환한 후 파라메터를 분석하는 음향분석부와; 상기 음향분석부의 출력에서 음성의 시점과 종점을 판단하여 음성구간의 음성패턴을 추출하는 음성구간추출부; 상황에 따라 예상되는 시나리오 패턴들을 저장하고 있는 시나리오패턴 사전; 상기 음성구간추출부에 의해 추출된 음성패턴을 상기 시나리오패턴사전의 문장패턴과 비교하여 시나리오 형태를 판정하는 시나리오패턴 분석부; 상기 시나리오패턴 분석부의 출력에 따라 입력문장패턴을 분석하여 항목별로 단어를 추출하고, 해당 항목인덱스를 출력하는 문법분석 및 단어추출부; 상기 문법분석 및 단어추출부가 출력하는 항목 인덱스에 따라 해당되는 단어패턴들을 출력하는 음성 데이터 베이스; 상기 문법분석 및 단어추출부가 출력하는 단어음성패턴과 상기 음성데이터베이스가 출력하는 음성패턴을 비교하여 두 패턴간의 유사도를 계산하는 유사도계산부; 상기 유사도 계산부의 유사도에 따라 입력 단어 음성패턴에 해당되는 단어레이블을 결정하는 단어 레이블 결정부; 상기 단어 레이블 결정부의 출력에 따라 단어 레이블을 결합하여 문장 레이블을 결정하는 문장레이블 결정부를 포함하는 것을 특징으로 한다.

도 1은 종래의 음성인식장치를 도시한 블록도,

도 2는 도 1에 도시된 비교패턴 한정부의 세부 블록도,

도 3은 본 발명에 따른 음성인식장치를 도시한 블록도,

도 4A 및 4B는 본 발명에 따른 음성인식과정을 도시한 과정도,

도 5는 음성패턴의 시점과 종점을 정하는 파형의 예,

도 6은 동일한 문장의 음성패턴이 사용자의 발성방법에 따라 달라지는 것을 도시한 파형도,

도 7은 이동 무선화상회의시스템에서 본 발명에 따른 음성인식장치를 적용한 것을 도시한 도면,

도 8A 내지 8D는 본 발명에 따라 '전화를 거는 동작'을 인식하기 위한 시나리오의 예와 문법구조의 예를 도시한 도면이다.

* 도면의 주요부분에 대한 부호의 설명 *

31: 음향분석부 32: 음성구간추출부

33: 문장패턴분석부 34: 문장패턴사전

35: 문법분석 및 단어추출부 36: 음성데이터베이스

37: 유사도계산부 38: 단어레이블 결정부

39: 문장레이블 결정부

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 자세히 설명하기로 한다.

먼저, 본 발명에서는 음성 데이터 베이스를 구축할 때, 기본적으로 개인의 음성 차이가 심한 것을 인정하여 데이터 베이스의 범위를 '사용 대상자'로 한정하여 음성 데이터 베이스를 구축한다. 즉, 종래에는 음성패턴사전을 구축할 경우에 특정 음성이 아닌 표준음성을 추출하기 위하여 불특정 다수의 음성을 표본화하여 가장 일반적인 표준 음성패턴을 구하였으나 본 발명에서는 반대로 개별적인 음성의 특징이 그대로 포함되는 음성패턴을 사용하므로써 입력음성의 인식자(identification)를 식별하여 보안시스템 등에도 이용될 수 있도록 한 것이다.

그리고 유사도를 산출하기 위해 입력 음성패턴과 개별적으로 구축된 음성데이터 베이스의 패턴들을 비교함에 있어서 음성 데이터 베이스의 모든 음성패턴들과 비교하는 것이 아니고, 문법분석에 따라 해당되는 음성패턴들만을 추출하여 비교하므로써 유사도 계산속도를 현저히 향상시켜 음성인식을 실시간으로 처리할 수 있도록 한 것이다.

이때, 다수 사용자의 음성을 기초로하여 음성 데이터 베이스를 구축한다면 기존의 표준음성사전과 동일하게 여겨질 수도 있으나, 기존의 표준음성 사전은 하나의 음절이나 혹은 단어에 대하여 하나의 표준음성만이 존재하나 본 발명의 방법에서는 다수 사용자의 음성을 사용하여 음성 데이터 베이스를 구축한다하여도 개개 음성의 특징은 그대로 존재하여 개별적인 음성 데이터 베이스가 구축되고, 이러한 개별적 음성 데이터 베이스의 집합으로서 전체 음성 데이터 베이스가 존재한다. 따라서 본 발명에서는 단순히 음성을 인식하는 것으로 그치는 것이 아니라 그 음성의 화자가 누구인지까지도 인식할 수 있다.

그리고 다수의 음성을 인식한다고 할 경우에도 등록된 화자를 인식하는 것의 집합이며, 등록되지 않은 화자들을 인식하는 것은 수렴 방정식으로 지정해 주지 않는다면 불가능하게 되며, 이 경우 수렴 방정식으로 이루어진 음성 데이터 베이스는 불특정 다수라는 추상적인 한 개인의 데이터 베이스인 것이다.

한편, 본 발명에서는 문장단위의 음성패턴을 인식함에 있어서 종래와 같이 모든 단어들을 비교하여 문장 전체를 인식하는 것이 아니라 들어온 음성패턴을 예상 시나리오에 따라 문법적으로 분석하여 해당 위치에 올 수 있는 단어들만을 비교의 대상으로 한정하므로써 인식속도를 향상시킨 것이다.

이러한 본 발명의 방법은 음성 데이터 베이스를 구축함에 있어서, 무작위적인 단어들을 사용하는 것이 아니라 본 발명이 적용되는 상황에 맞추어서 가능한 시나리오를 설정한 후 문법적인 분석이 가능하도록 데이터 베이스를 구축한다는 것이고, 유사도를 구하기 위해 음성 데이터 베이스로부터 패턴을 선택함에 있어서 문법적으로 가능한 패턴들로 한정한다는 것이다.

다른 한편, 도 3은 본 발명에 따른 음성인식장치를 도시한 블록도이고, 도 4A 및 도 4B는 본 발명에 따른 음성인식과정을 도시한 과정도이다.

본 발명에 따른 음성인식장치는 도 3에 도시된 바와 같이, 음향분석부(31), 음성구간 추출부(32), 시나리오패턴 분석부(33), 시나리오패턴 사전(34), 문법분석 및 단어추출부(35), 음성 데이터베이스(36), 유사도 계산부(37), 단어 레이블 결정부(38), 문장 레이블 결정부(39)로 구성되어 있다.

도 1에서 음향분석부(31)는 마이크로폰을 사용하여 발성된 입력음성을 전기적인 신호로 변환한 후 음향적인 특징을 분석한다. 이때 대역통과필터(BPF:Band Pass Filter)분석이나 선형예측코딩(LPC: Linear Prediction Coding)분석을 통하여 음향적으로 분석한다.

음성구간 추출부(32)는 도 5에 도시된 바와 같이 입력음성패턴의 크기를 분석하여 분석된 신호의 음성구간(음성패턴의 시점과 종점)을 검출한다. 도 5를 참조하면, 시간축상에서 음성 파형이 변화되는 것을 알 수 있는데, ①∼② 구간에서는 파형의 크기가 작아 잡음구간인 것을 알 수 있고, ②∼③구간이 사용자의 음성구간이고, ③∼이후 다시 잡음구간인 것을 알 수 있다. 이렇게 파형의 크기가 갑자기 커지는 ②지점을 음성구간의 시점으로 판단하고, 파형의 크기가 갑자기 작아지는 ③지점을 음성구간의 종점으로 판단하여 음성구간의 음성패턴을 추출할 수 있게 한다.

시나리오패턴 사전(34)은 상황에 따라 예측 가능한 시나리오 패턴들을 미리 저장하고 있는데, 이러한 시나리오패턴의 예는 도 6에 도시된 바와 같이 일련의 문장 음성패턴으로 이루어지며, 실제 저장되는 음성패턴의 형태는 음향적인 특징을 나타내는 시계열의 파라미터들이다. 도 6을 참조하면, (가)는 큰 소리로 입력된 음성신호의 패턴을 나타내고, (나)는 기본 음성패턴을 나타내며, (다)는 작은 소리로 입력된 음성신호패턴을 나타낸다. 그리고 (라)는 느리게 입력된 신호패턴을 나타내고, (마)는 정상적인속도로 입력되는 음성신호의 기본패턴을 나타내며, (바)는 빠르게 입력된 음성신호패턴을 나타낸다. 도 6에 도시된 바와 같이, 동일한 사람의 음성패턴도 발성시의 목소리의 크기와 발성속도에 따라 변이가 일어나게 된다. 따라서 패턴 매칭시에 다양한 음성패턴의 변이를 고려하여 사용권자의 음성유사도를 계산할 수 있도록 해야 한다.

시나리오패턴 분석부(33)는 음성구간 추출부(32)로부터 입력된 문장음성패턴과 시나리오패턴 사전에 저장된 문장패턴을 비교하여 해당 시나리오의 타입을 결정하고, 문법분석 및 단어추출부(35)는 정해진 시나리오 타입에 따라 입력음성문장패턴을 항목으로 구분하여 항목별로 단어를 추출한다. 이때 문법분석 및 단어추출부(35)는 추출된 입력 음성의 단어음성패턴을 유사도 계산부(37)로 출력함과 동시에 해당 항목 인덱스를 음성 데이터 베이스(36)로 출력하여 음성 데이터 베이스가 해당 항목의 단어들만을 선택적으로 출력하게 한다.

음성 데이터 베이스(36)는 본 발명이 적용되는 상황에서 미리 예상되는 시나리오에 따라 항목별로 가능한 단어음성패턴들을 저장하고 있으며, 문법분석 및 단어추출부(35)로부터 입력되는 항목 인덱스에 따라 해당 항목의 단어음성패턴들을 출력한다.

유사도 계산부(37)는 문법분석 및 단어추출부(35)로부터 출력되는 입력 단어음성패턴과 음성 데이터 베이스로부터 출력되는 해당 항목의 단어음성패턴들을 비교하여 유사도를 계산한다. 이때 음성 데이터 베이스(36)로부터 제공되는 음성단어패턴들은 종래와는 달리 음성 데이터 베이스에 저장된 모든 음성 패턴들이 아니라 본 발명에 따라 문장분석에 의해 선택된 특정한 항목의 음성패턴들임에 유의해야 할 것이다. 즉, 본 발명에 따른 문법분석 및 단어 추출부(35)는 입력된 문장음성패턴을 문법에 따라 분석하여 해당되는 단어 음성패턴만이 추출되어 유사도 계산에 사용되게 한다.

단어 레이블결정부(38)는 유사도 계산부(37)에서 계산된 유사도들에 근거하여 입력 단어음성패턴에 대한 인식결과로서 최대의 유사도를 갖는 단어 음성패턴의 '단어 음성 레이블'을 결정한다. 여기서 '단어 음성 레이블'이라함은 각각의 단어 음성패턴에 의해 서로 다르게 설정된 기호로서 심볼 혹은 카테고리라고도 한다.

문장 레이블 결정부(39)는 유사도 계산부(37)와 단어 레이블 결정부(38)에 의해 입력 단어음성패턴에 대한 단어 레이블이 결정되면, 이들을 결합하여 '문장 레이블'을 결정한다. 여기서, '문장 레이블'은 일련의 명령어가 단어들의 결합 혹은 하나의 문장에 의해 지시되는 경우에 입력 단어음성패턴에 의해 정해진 단어 레이블들을 결합하여 구해지는 새로운 레이블이다.

이와 같이 문장 레이블 결정부(39)에 의해 단어들의 결합 혹은 하나의 문장에 대한 레이블이 정해지면, 입력 음성패턴에 대한 음성인식이 이루어지게 되고, 이어 음성인식에 따른 명령이 지시되게 된다.

만일, 명령이 문장이 아닌 단어로 이루어진 경우에는 음성구간 추출부(32)에서 단어음성패턴이 추출되게 되고, 이 단어음성패턴은 문장패턴분석이 필요없이 바로 음성 데이터 베이스(36)에 저장되어 있는 단어음성패턴들과 비교되어 단어 레이블이 정해지게 된다. 그리고 단어 레이블이 정해지면 음성인식이 종료되어 인식된 명령이 수행되게 된다. 이때 음성 데이터 베이스(36)에 저장된 단어 음성 패턴들도 종래와 달리 본 발명이 적용되는 상황에서 예측 가능한 단어들만이 저장되어 있으므로 인식속도가 향상되게 된다.

한편, 본 발명에 따라 음성인식이 이루어지기 위해서는 도 4A에 도시된 바와 같이 음성 데이터 베이스를 구축하는 과정에서 음성 데이터 베이스가 먼저 구축되어야 한다. 그리고 음성 데이터 베이스가 구축된 다음에 도 4B와 같은 음성인식과정을 통해서 사용자의 입력 음성패턴이 분석되어 음성인식이 이루어지게 된다.

본 발명에서 처리되는 음성은 통상적으로 사용되는 퍼스널 컴퓨터용 사운드카드나 혹은 다른 음성처리장치에서 마이크를 통하여 입력단으로 들어온 음성 데이터를 샘플링하여 디지탈화하는 과정으로서 잡음의 제거루틴을 사용할 수도 있고, 그대로 사용할 수도 있다. 디지탈화된 음성은 음성 데이터의 분류와 세그먼테이션과정에서 단어와 불필요한 요소를 구분하여 해당 단어패턴을 추출하고, 이 추출된 단어패턴의 데이터를 정량화한다. 음성 데이타의 비교 인식과정에서는 정량화된 음성 데이터를 미리 저장된 음성 데이터와 비교하여 부합하는 단어를 찾아내되, 그 과정에서는 해당 데이터의 정량화된 주파수의 변이와 에너지의 양을 비교하여 시계열방식으로 편성하여 음성 데이터 베이스의 방정식과 비교하여 일정한 '변이'내에 위치하면 부합하는 것으로 한다. 비교결과 특정한 음성으로 인식하였으면 그 해당 데이터 베이스에서 지시하는 문자열이나 숫자열을 명령버퍼(혹은 입력버퍼)로 출력하여 해당 명령이 시스템에 입력되게 한다. 즉, 인식된 결과는 응용 프로그램에서 사용할 수 있도록 키보드 입력과 동일하게 여겨지도록 입력버퍼에 출력될 수 있으므로, 이를 응용 프로그램에서 입력수단으로 사용하도록 할 수 있다.

본 발명에서 사용되는 음성 데이터 베이스는 해당 자료의 음성이 수록된 파일을 분류하고 세그먼테이션화하여 일정한 범위내에서 파형과 음파에너지의 양을 시계열 함수로 편성한 다음, 이러한 함수를 겹쳐서 수렴함수를 구하는 방식으로 수행한다. 이때 함수의 수가 많아질수록 수렴성이 높아져서 더 명료한 인식도를 가질 수 있다. 또한 동일한 단어를 화자별로 구분하여 인식자를 붙여서 각각의 시계열 방정식으로하여 동일 화자의 함수들만을 수렴시킬 경우 화자별로 고유한 음성 데이터 베이스를 구축할 수도 있다. 이와 같이 음성 데이터베이스를 구축하는 것을 수식으로 표현하면 다음 수학식 1 내지 3과 같다.

[수학식 1]

[수학식 2]

[수학식 3]

상기 수학식 1 내지 3에 있어서, 함수 F()는 주파수를 나타내고, E()는 음파 에너지를 나타내며, t는 시계열, n은 음성단위, p는 개인 인식자, m은 동일단위의 개인수를 각각 나타낸다.

도 4A에서 단계(S1)에서는 본 발명이 적용되는 상황에 따라 허용 가능한 시나리오 패턴들을 결정한다. 이때 시나리오 패턴이라 함은 앞서 설명한 바와 같이, 본 발명이 적용되는 상황에서 사용자가 낼 수 있는 가능한 문장구조들의 예로서 단어들의 결합으로 이루어진다. 단계(S2)에서는 시나리오 패턴들에 대한 문법구조분석에 의해 항목을 결정한다. 여기서 항목이라함은 도 8A와 같이 도입어, 부서, 이름, 직위, 행위어 등을 의미하고, 이 항목에는 다수의 가능한 단어패턴들이 속할 수 있다. 예컨대, 이름 항목에는 '홍길동', '홍', 혹은 '나일등'등과 같이 다른 사람들의 이름이 올 수 있다.

단계(S3)에서는 개별음성에 따른 시나리오패턴사전을 생성하고, 단계(S4) 에서는 개별음성에 따른 음성데이터베이스를 구축한다. 이때 음성 데이터 베이스에는 항목별로 가능한 단어들의 음성패턴이 저장되고, 일련의 단어패턴들이 일치할 경우에 지정되어 출력되는 데이터 혹은 명령이 함께 저장되어 있다.

도 4B에서 단계(S11)에서는 입력음성을 분석한 후 음성구간을 추출하여 문장음성패턴을 형성한다. 즉, 사운드카드 등을 통해 사용자의 음성이 입력되면 디지탈로 변환한 후 잡음제거 루틴을 가동하여 잡음 등을 제거하고 음성패턴의 시점과 종점을 검출하여 입력 음성패턴을 구한다.

단계(S12)에서는 입력 문장 음성패턴을 시나리오패턴 사전의 문장 패턴과 비교하고, 단계(S13)에서는 단계(S12)의 비교결과 문장패턴이 일치한지를 판단한다. 판단결과 일치하지 않으면 부적절한 입력이므로, 단계(S14)에서 재입력을 요구하는 조치를 취하고, 일치하면 단계(S15) 내지 단계(S20)을 처리한다.

단계(S15)에서는 입력 문장음성패턴을 분석하여 항목을 구분한 후 항목 인덱스와 해당 단어음성패턴을 추출한다. 단계(S16)에서는 상기 항목인덱스에 따라 해당되는 음성패턴들을 음성 데이터 베이스로부터 추출하고, 단계(S17)에서는 입력 단어 음성패턴과 상기 데이터 베이스로부터 추출된 음성패턴들을 비교하여 유사도를 계산한다.

단계(S18)에서는 상기 유사도들을 고려하여 입력 단어음성패턴에 가장 일치하는 음성패턴의 단어 레이블을 결정하고, 입력 문장패턴에 대한 전체 처리동작이 종료되지 않았으면 상기 단계(S15) 내지 단계(S18)을 반복한다. 단계(S19)에서 입력 문장패턴에 대한 전체 처리동작이 종료되었으면, 단계(S20)에서 단어 레이블의 결합에 의해 문장 레이블을 결정한다.

이어서, 본 발명이 이동 화상회의시스템에 적용되는 예를 살펴보면 다음과 같다.

도 7은 본 발명이 적용되기에 적합한 이동 무선 화상회의시스템의 블록도이고, 도 8A는 이동 무선 화상회의시스템에서 전화를 접속하는 동작의 음성인식을 설명하기 위하여 도시한 시나리오의 예 및 문법구조이며, 도 8B는 도 8A와 같은 문법구조에서 제1 레이블을 추출하는 과정을 도시한 개념도이다. 그리고 도 8C는 제2 레이블을 추출하는 과정을 도시한 개념도이고, 도 8D는 제1 레이블과 제2 레이블의 결합에 의해 하나의 문장으로 이루어진 명령이 인식된 것을 도시한 개념도이다.

본 발명이 적용되는 무선이동 화상회의시스템은 도 7에 도시된 바와 같이, 사운드카드(80), 음성인식부(81), 키보드(82), 터치스크린(83), LCD패널(84), PC본체(85), 영상처리부(86), 모뎀(87), 무선송수신부(88), 화상회의부(89), 오퍼레이팅시스템(90) 등으로 구성되어 있다.

도 7에서 사운드카드(80)는 음성인식장치에서 음향분석부 및 음성구간추출부의 기능을 처리하며 디지탈화된 음성입력을 음성인식부(81)로 출력한다. 음성인식부(81)와 화상회의부(89)는 오퍼레이팅시스템(예컨대, 윈도즈'95 및 윈도즈 NT 등)상에서 운용되는 응용 프로그램으로 구현되는데, 음성인식부(81)는 본 발명에 따라 입력 음성패턴을 미리 저장된 음성 데이터 베이스의 음성패턴과 비교하여 인식결과로서 입력음성의 명령을 입력버퍼로 출력한다. 이때 음성인식동작은 앞서 설명한 바와 같이 본 발명의 음성인식방법에 의해서 상황에서 예측되는 시나리오에 한정되므로 실시간 인식동작이 이루어질 수 있게 된다.

예컨대, 차량 이동중 무선전화통신을 하기 위하여 사용자가 취하는 '전화를 거는 행위'를 음성인식하는 과정은 다음과 같다.

일반적으로 전화 통화에 수반되는 행위는 다음과 같이 5 단계가 있다.

첫째, 전화 수화기를 든다(ON-HOOK).

둘째, 전화번호를 누른다(Call set-up).

셋째, 통화하고자하는 상대방을 찾는다.

넷째, 상대방과 통화한다.

다섯째, 전화 수화기를 놓는다(OFF-HOOF).

이러한 5단계의 행위중에서 실제 음성을 사용하는 단계는 3단계 혹은 4단계이다. 여기서 4단계는 전화걸기를 위한 단계라기보다는 실제 통화를 하는 단계이므로 실제 음성을 이용하여 전화걸기 행위는 3단계뿐이라 할 수 있다.

통화하고자 하는 상대방을 찾는 언어행위에는 예를 들면 여보세요! 영업부 홍길동과장님을 부탁합니다. 혹은 여보세요! 홍과장님 부탁합니다.라는 문장이 사용된다. 이러한 전화걸기와 관련된 언어행위를 상기 5단계중 실제 전화걸기와 대응시키면,

여보세요------- 1단계: 전화수화기를 든다.(도입부)

영업부 홍과장-- 3단계: 통화 상대자를 찾기(전화번호 추출)

부탁합니다---- 2단계: 전화번호를 누른다.(전화걸기) 이라 할 수 있다.

여기서, 전화 수화기를 드는 동작이 이미 이루어졌다고 할 때, 전화번호를 추출하여 전화를 거는 동작은 도 8A 내지 도 8D와 같이 처리된다.

즉, 발신자는 도 8A에서와 같이 홍길동- 씨- 바꿔 -주십시오, 에, 홍 과장님 부착합니다, 홍길동 과장, 저, 홍길동씨 연결해주세요, 영업부 홍 과장님 부탁합니다 등등일 것이다.

이러한 문장들을 음절별로 구분하여 그 내용을 분석해보면 도 8A와 같이, 도입어, 부서, 이름, 직위, 행위어 항목으로 이루어지는 문법구조를 가질 것이다. 이와 같이 각각의 문장 음절에 따른 항목을 구분한 후, 주요한 항목들에 대한 음성패턴들을 모아 데이터 베이스를 형성한다. 이때 데이터 베이스를 구축함에 있어 종래와 같이 표준화된 음성패턴을 구축하는 것이 아니라 각 개인별로 음성패턴을 저장하되, 해당 음성패턴의 인식자를 함께 저장하여 패턴 매칭시에 입력음성패턴의 인식자까지를 예측할 수 있게 한다.

예컨대, 도 8B의 참조번호 '84'와 같이 부서, 이름, 직위, 및 전화번호 항목을 갖는 각 개별 사용자의 음성 데이터 베이스를 구축해 놓고, 부서, 이름, 직위항목의 입력패턴들과 각각 비교하여 부서, 이름, 직위가 일치할 경우 해당 전화번호(123-1234)를 제1 레이블로서 출력한다.

이때 입력음성 패턴을 비교할 경우에 입력 음성패턴에 대응하는 항목별로 음성데이터 베이스의 음성패턴을 추출하여 비교하므로써 처리속도를 대폭 향상시킬 수 있다. 즉, 입력음성패턴중에서 '부서' 항목에 속하는 음성패턴과 음성 데이터 베이스중에서 '부서'항목에 속하는 음성패턴들만을 비교하므로써 처리속도를 대폭적으로 향상시킬 수 있다.

이와 같이 전화번호에 해당하는 제1 레이블이 결정되면 이와 함께 혹은 제1 레이블결정과 병행하여 도 8C와 같이 행위어 항목을 비교하여 '전화걸기'에 해당하는 제2 레이블을 결정한 후, 도 8D와 같이 제1 레이블과 제2 레이블의 결합으로서 음성인식이 완료되고, 완료된 음성인식에 따라 해당 명령이 버퍼에 출력된다.

즉, 부서, 이름, 직위 항목의 패턴비교에 의해 특정인의 전화번호가 추출되고, 행위어 항목의 패턴비교에 의해 전화걸기 동작이 추출되면, 이에 따라 이동 무선 화상회의스템이 해당 전화번호로 발신자의 호를 연결시켜주게 된다.

도 7을 참조하면, 키보드(82) 및 터치스크린(83)은 입력장치이고, LCD 패널(84)은 디스플레이장치이며, 영상처리부(86)는 도시되지 않은 비디오 카메라로부터 입력되는 영상을 처리하기 위한 블록이고, 모뎀(87) 및 무선송수신부(88)는 화상회의시스템을 무선으로 구현하기 위한 통신처리장치이다. 그리고 PC본체부(85)는 오퍼레이팅시스템과 응용 프로그램들이 수행되는 플랫폼으로서 상기 입출력장치들과 연결되어 음성인식 및 화상회의 기능을 수행하게 한다.

이와 같은 본 발명의 기술적 사상은 앞서 설명한 바와 같은 실시예에 제한됨이 없이 당업계에서 통상의 지식을 가진자라면 다양한 다른 변형예에 적용할 수 있을 것이다. 예컨대, 본 발명은 음성인식으로 작동되는 화상정보시스템과, 사지마비 장애인용 보조기구의 음성인식장치, 시각 장애자용 음성인식 구동장치, 음성인식 퍼스날컴퓨터, 음성인식 출입통제시스템, 음성인식 보안장치, 일반적으로 PC 혹은 유사장치에 의하여 제어되는 장치의 구동장치 등에 널리 적용될 수 있을 것이다.

이상에서 살펴본 바와 같이 본 발명에 따른 음성인식방법 및 장치는 상황에 따라 예상되는 시나리오를 분석하여 고유의 문법구조를 형성한 후, 이 문법구조에 따라 음성 데이터 베이스를 구축함과 아울러 입력된 음성패턴의 문법구조를 분석하여 각 항목별로 입력음성패턴과 음성 데이터 베이스상의 음성패턴을 비교하므로써 비교 횟수를 줄여 신속하게 음성인식을 처리할 수 있는 효과가 있다. 특히, 음성 데이터 베이스를 구축함에 있어 표준화된 패턴을 사용하지 않고, 화자에 의존하는 개별적인 음성패턴으로 음성 데이터 베이스를 구축하므로써 입력음성패턴의 인식자까지를 식별할 수 있다.

Claims

소정의 상황에서 예측되는 다수의 시나리오를 설정한 후 각 시나리오에 따라 구분되어진 항목별로 가능한 단어들의 음성패턴을 저장하여 음성 데이터 베이스를 구축하는 과정과, 입력음성패턴을 상기 음성 데이터 베이스를 구축하는 과정에서 구축된 음성패턴과 비교하여 음성을 인식하는 과정으로 이루어진 음성인식방법에 있어서,

상기 음성을 인식하는 과정이,

입력음성을 분석하여 음성구간에 해당되는 문장음성패턴을 추출하는 제1 단계;

상기 입력된 문장음성패턴을 시나리오패턴 사전에 저장된 문장음성패턴과 비교하는 제2 단계;

상기 비교결과 일치하면 입력문장음성패턴을 분석하여 항목 인덱스와 해당 항목의 단어음성패턴을 추출하는 제3 단계;

상기 항목인덱스가 가리키는 항목에 해당되는 단어음성패턴들을 음성데이터베이스로부터 추출하는 제4 단계;

상기 입력 단어음성패턴과 음성 데이터 베이스의 음성패턴을 비교하여 유사도를 계산하는 제5 단계; 및

상기 유사도에 따라 단어 레이블을 결정한 후 입력문장의 각 항목에 대한 처리가 종료되지 않았으면 다음 항목에 대해 상기 제3 단계 내지 제5 단계를 반복하고, 종료되었으면 단어 레이블의 결합에 의해 문장 레이블을 결정하는 제6 단계를 포함하는 것을 특징으로 하는 음성인식방법.
소정의 상황에서 예측되는 다수의 시나리오를 설정한 후 각 시나리오에 따라 구분되어진 항목별로 가능한 단어들의 음성패턴을 저장하여 음성 데이터 베이스를 구축하고, 입력음성패턴을 상기 음성 데이터 베이스에 저장된 음성패턴과 비교하여 음성을 인식하는 음성인식장치에 있어서,

사용자의 음성을 입력받아 디지탈신호로 변환한 후 파라메터를 분석하는 음향분석부(31)와;

상기 음향분석부의 출력에서 음성의 시점과 종점을 판단하여 음성구간의 음성패턴을 추출하는 음성구간추출부(32);

상황에 따라 예상되는 시나리오 패턴들을 저장하고 있는 시나리오패턴 사전(34);

상기 음성구간추출부에 의해 추출된 음성패턴을 상기 시나리오패턴사전의 문장패턴과 비교하여 시나리오 형태를 판정하는 시나리오패턴 분석부(33);

상기 시나리오패턴 분석부의 출력에 따라 입력문장패턴을 분석하여 항목별로 단어를 추출하고, 해당 항목인덱스를 출력하는 문법분석 및 단어추출부(35);

상기 문법분석 및 단어추출부가 출력하는 항목 인덱스에 따라 해당되는 단어패턴들을 출력하는 음성 데이터 베이스(36);

상기 문법분석 및 단어추출부가 출력하는 단어음성패턴과 상기 음성데이터베이스가 출력하는 음성패턴을 비교하여 두 패턴간의 유사도를 계산하는 유사도계산부(37);

상기 유사도 계산부의 유사도에 따라 입력 단어 음성패턴에 해당되는 단어레이블을 결정하는 단어레이블 결정부(38); 및

상기 단어 레이블 결정부의 출력에 따라 단어 레이블을 결합하여 문장 레이블을 결정하는 문장레이블 결정부(39)를 포함하는 것을 특징으로 하는 음성인식장치.
제 2 항에 있어서, 상기 음향분석부(31)와 음성구간 추출부(32)가 사운드카드로 구현되는 것을 특징으로 하는 음성인식장치.
제 2 항에 있어서, 상기 시나리오패턴 사전(34)이 상기 인식장치가 적용되는 상황에 따라 한정되는 문장패턴들의 시계열 파라메터를 저장하고 있는 것을 특징으로 하는 음성인식장치.
제 2 항에 있어서, 상기 음성 데이터 베이스가 음성패턴에 의해 지정되는 출력 데이터, 명령어, 및 인식자들이 상기 음성패턴과 링크되어 저장된 것을 특징으로 하는 음성인식장치.