KR20100051214A

KR20100051214A - 화자 독립 음성 인식 처리 방법

Info

Publication number: KR20100051214A
Application number: KR1020080110261A
Authority: KR
Inventors: 방영규
Original assignee: 주식회사 씨에스
Priority date: 2008-11-07
Filing date: 2008-11-07
Publication date: 2010-05-17
Also published as: KR100998230B1

Abstract

실시간 음성 인식에서 오인식의 가능성을 저감시킨 화자 독립 음성 인식 처리 방법이 개시된다. 본 발명에 따른 화자 독립 음성 인식 처리 방법은 화자 독립 음성 인식의 연속어 인식방법을 이용하여 기계의 제어를 위한 음성 인식 처리를 수행하는 방법에 있어서, (a) 미리 정의된 일련의 단어가 인식되었는지를 식별하여 올바른 인식의 시작이 이루어졌는지를 결정하는 과정과, (b-1) 비 명령어를 가려내기 위하여 키워드에 포함되는 모노폰들 중에서 선택된 모노폰이 인식 모델로서 삽입되고 (b-2) 거절율을 높이고자 하는 특정 단어를 구성하는 음소들을 변형하여 새로운 모노폰을 만들어 거절 모델로서 삽입된 참조 모델을 사용하여 음성 인식 알고리즘에 의한 음성 인식을 수행하는 과정을 포함하는 것을 특징으로 한다.

본 발명에 따르면 상시 음성을 입력받을 수 있도록 언제나 인식 가능한 상태가 되는 실시간 음성 인식 장치에서 명령어가 아닌 소리, 즉, 비 명령어에 대하여 오인식을 일으키는 빈도를 낮춘다.

음성인식, 화자 독립, 모노폰, 참조 모델

Description

화자 독립 음성 인식 처리 방법{Speaker independent voice recognition processing method}

본 발명은 음성 인식 처리 방법에 관한 것으로 더 상세하게는 상시 음성을 입력 받을 수 있어 언제나 인식 가능한 상태가 되는 실시간 음성 인식에서 오인식을 줄일 수 있는 화자 독립 음성 인식 처리 방법에 관한 것이다.

음성인식 기술이 발달함에 따라 버튼 또는 리모컨으로 기계와 사람이 인터페이스되던 방식이 기계와 사람의 목소리가 인터페이스되는 방식으로 대체 되고 있다. 음성을 이용한 인터페이스는 별도의 도구를 소지해야 하고 제어하고자 하는 기계로 이동하여야 하는 불편함을 해소할 수 있기 때문에 더 많은 영역으로 확장되고 있다.

하지만, 사람의 음성을 인식하는 음성인식기는 주변에 항상 존재하는 소리에 대해서 어떤 것이 사람의 목소리인지 구별을 해야 하고, 기계의 제어를 위하여 발성한 목소리의 시작과 끝이 어디인지를 판별해야 되는 필요성이 있기 때문에 보통의 음성인식기는 화자가 버튼을 누르고 발성을 시작하고 다시 버튼을 누름으로써 완료를 하여 화자가 음성의 시작과 끝에 대한 정보를 인식기에 알려주어야 하는 불 편함이 있다.

최근에 이러한 불편함을 없애기 위하여 인식기가 항상 사람의 목소리를 입력받을 준비 상태에 있고 사람의 목소리가 입력되면 자동으로 사람의 목소리를 판별하여 그 시작과 끝을 정하여 인식하는 방법이 사용되고 있다.

하지만, 상기와 같은 방법도 주변의 잡음이나 기계를 제어하고자 하는 명령어가 아닌 목소리에 대하여 잘못 인식하는 경우(이하 오인식이라 칭함)가 자주 발생되고 있다.

한편, 종래의 음성 인식에서는 위에서 설명한 바와 같은 인식 과정에서 오인식하는 것과 별도로 인식된 소리를 기초로 명령어를 결정 과정에서 그릇된 결정하는 것도 실시간 음성 인식에서 걸림돌이 되고 있다.

도 1에는 일반적인 음성 인식 과정을 흐름도로써 나타내었다. 도 1을 참조하면 일반적인 음성 인식 과정에서는 먼저 음성 신호를 입력(S100)하고 입력된 음성 신호로부터 음성 부분을 검출(S102)하며, 검출된 음성에서 특징을 추출하여 저장 매체에 저장(S104)한다. 다음으로, 저장된 특징들에 대하여 음성인식 알고리즘을 사용하여 유사도 측정 및 인식하는 과정(S106)을 거쳐 추출된 소리가 무엇인지를 가려내고, 선택된 결과가 올바른지를 확인 및 결정(S108)하게 된다.

하지만, 상기와 같은 종래의 일반적인 음성 인식 과정은 추출된 소리가 무엇인지를 가려내기 위하여 유사도 측정 및 인식하는 과정(S106)에서 입력된 모든 소리들을 사전에 등록된 단어들 중에 하나로 인지하기 때문에 사전에 등록되지 않은 소리가 입력되었을 경우에도 사전에 있는 단어들 중 하나를 선택하게 되는 경우가 빈번하게 발생된다는 문제점이 있다.

또한, 종래의 음성 인식 과정은 잘못된 선택이 이루어졌을 경우를 대비하여 다음 단계에서 선택된 결과가 올바른지를 확인 및 결정(S108)을 하게 되는데 아직까지 완벽하게 정확한 결정을 내리는 음성인식기는 존재하지 않기 때문에 음성인식기는 명령어가 아닌 예컨대 음성 또는 주변의 소음과 같은 비 명령어를 명령어로 인식하여 오작동하는 치명적인 단점을 가지고 있다.

본 발명은 상기한 문제점을 해결하기 위하여 발명된 것으로 본 발명이 이루고자 하는 기술적 과제는 상시 음성을 입력받을 수 있어 언제나 인식 가능한 상태가 되는 실시간 음성 인식 장치에서 명령어가 아닌 소리, 즉, 비 명령어에 대하여 오인식을 일으키는 빈도를 낮춘 화자 독립 음성 인식 처리 방법을 제공하는 것이다.

상기 기술적 과제를 이루기 위한 본 발명에 따른 화자 독립 기반의 음성 인식 처리 방법은,

화자 독립 음성 인식의 연속어 인식방법을 이용하여 기계의 제어를 위한 음성 인식 처리를 수행하는 방법에 있어서,

(a) 미리 정의된 일련의 단어가 인식되었는지를 식별하여 올바른 인식의 시작이 이루어졌는지를 결정하는 과정과,

(b-1) 비 명령어를 가려내기 위하여 키워드에 포함되는 모노폰들 중에서 선택된 모노폰이 인식 모델로서 삽입되고, (b-2) 거절율을 높이고자 하는 특정 단어를 구성하는 음소들을 변형하여 새로운 모노폰을 만들어 거절 모델로서 삽입된 참조 모델을 사용하여 음성 인식 알고리즘에 의한 음성 인식을 수행하는 과정을 포함하는 것을 특징으로 한다.

또한, 상기 (a) 과정은,

(a-1) 미리 정의된 일련의 단어들의 음소를 어절별로 나누어 렉시컬 트리에 등록하고 어절별로 독립적으로 인식하는 과정;을 포함하는 것이 바람직하다.

또한, 상기 (b-2) 과정은,

(b-2-1) 거절율을 높이고자 하는 특정 단어의 처음 음소를 이루는 트라이폰에서 첫 번째 폰을 제외한 나머지 두 개의 폰이 같은 트라이폰들을 서로 결합하여 새로운 모노폰을 만들어 거절 모델로서 삽입된 참조 모델을 사용하여 음성 인식 알고리즘에 의한 음성 인식을 수행하는 과정;을 포함하는 것을 특징으로 하는 화자 독립 음성 인식 처리 방법.

또한, 상기 (b-2) 과정은,

(b-2-2) 거절율을 높이고자 하는 특정 단어의 처음 음소를 이루는 트라이폰 에서 마지막 폰을 제외한 첫 번째 폰과 두 번째 폰이 같은 트라이폰들을 서로 결합하여 새로운 모노폰을 만들어 거절 모델로서 삽입된 참조 모델을 사용하여 음성 인식 알고리즘에 의한 음성 인식을 수행하는 과정;을 포함하는 것도 가능하다.

이하 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세히 설명하기로 한다.

도 2에는 본 발명에 따른 화자 독립 음성 인식 처리 방법의 주요 과정을 나타내었다. 도 3에는 도 2의 과정에 사용되는 참조 모델의 구조를 설명하기 위한 개념도를 나타내었다. 도 2 및 도 3을 참조하면, 본 발명에 따른 화자 독립 음성 인식 처리 방법은 음성 검출 및 특징을 추출하는 통상의 과정(S200) 이후, 입력된 소리가 무엇인지를 음성 알고리즘 수행 단계에서 비 명령어를 가려내기 위하여 "키워드에 포함되는 모노폰들 중에서 선택된 모노폰"들로 이루어진 제1 모노폰 그룹(222)이 인식 모델(22)로서 삽입되고 "거절율을 높이고자 하는 특정 단어를 구성하는 음소들을 변형하여 만들어진 새로운 모노폰들"로 이루어진 제2 모노폰 그룹(242)을 거절 모델(24)에 삽입하여 이루어진 참조 모델(2)을 사용하여 음성 인식 알고리즘에 의한 음성 인식을 수행(S202)함으로써 바르지 못한 인식을 줄일 수 있게 한다. 위에서 인식 모델(22)에는 통상의 일반 인식 모델(220)이 포함되고 거절 모델(24)에는 통상의 일반 거절 모델(240)이 포함됨은 물론이다.

인식모델(22)에 새로이 추가되는 제1 모노폰 그룹(222)은 키워드 및 명령어의 각 단어들이 비 명령어로 인해 잘못 인식되지 못하도록 변별력을 더 강화하기 위하여 트라이폰을 만드는 과정에서 얻어진 모노폰들로 이루어 이루어질 수 있으며, 이러한 모노폰들을 인식 모델(22)로서 참조 모델(2)에 포함시킨다. 또한, 이러한 모노폰들을 렉시컬 트리에 키워드를 포함한 명령어의 각 단어들을 대신하여 인식할 수 있도록 위치시켜 등록한다. 이로써 키워드를 포함한 명령어들을 이루는 음소들로 표현할 수 없는 소리들이 입력되었을 때 그 소리들을 표현할 수 있는 모노폰 모델로 인식하도록 함으로써 오인식이 일어나지 않도록 한다.

예를 들어, “나비야 불 켜봐”라는 키워드를 포함한 명령어가 있다고 가정하고, “단비야 가스 불 줄여라”라는 비 명령어 소리가 입력되었다고 하면, “단비야”라는 단어는 참조모델에 모노폰이 없는 경우 “나비야”로 인식될 가능성이 많지만, 모노폰 모델이 참조모델에 포함되어 있다면, 모노폰 “아” 또는 “야” 혹은, “비읖”이 정확하게 모노폰으로서 인식되어야만 키워드를 포함한 명령어가 인식된 것으로 결정하므로 오인식의 가능성을 줄일 수 있게 된다.

또한, 본 발명에 따르면 일반적인 모노폰으로 걸러지지 않은 비 명령어 소리들을 키워드 및 본 명령어로 인식하지 못하도록 하기 위하여 키워드를 포함하여 오인식을 잘 일으키는 단어를 선별한 후 그 단어 앞 뒤에 위치할 수 있는 음소들을 서로 결합하여 만들어진 제2 모노폰 그룹(242)을 참조 모델에 삽입하고 렉시컬 트리에 등록한다.

도 4에는 거절 모델(24)에 삽입되는 제2 모노폰 그룹(242)을 설명하기 위한 도면을 나타내었다. 도 4를 참조하면 HMM 모델을 사용하는 트라이폰 모델에서 “나비야”(400)를 예로 들면, “n-a+b”, “a-b+i”, “b-i+ya”과 같이 분해되어 인식되는데, 여기서 가장 처음의 음성 모델 “n-a+b”에서 “n”대신에 다른 음소로 구성된 트라이폰 모델들, 예를 들면, “m-a+b”, “p-a+b”, “l-a+b”와 같은 모델들을 전부 결합하여(402) 새로운 모노폰 모델(404), 즉, 제2 모노폰 그룹(242)를 만든다. 여기서, 참조 모델(2)가 저장되는 크기 제한을 고려하여 새로운 모노폰 모델(404)은 거절율을 높이고자 하는 특정 단어의 처음 음소를 이루는 트라이폰에서 첫 번째 폰을 제외한 나머지 두 개의 폰이 같은 트라이폰들을 서로 결합하여 새로 운 모노폰을 만드는 것이 보다 바람직하다.

또한, “b-i+ya”에서 “ya”대신 다른 음소로 구성된 트라이폰 모델들을 전부 결합하여(406) 새로운 모노폰 모델(408), 즉, 제2 모노폰 그룹(242)를 만드는 것이다. 예컨대, 거절율을 높이고자 하는 특정 단어의 처음 음소를 이루는 트라이폰 에서 마지막 폰을 제외한 첫 번째 폰과 두 번째 폰이 같은 트라이폰들을 서로 결합하여 새로운 모노폰 그룹을 만들어 거절 모델로서 삽입된 참조 모델을 사용한다.

이렇게 만들어진 모노폰 모델들은 비 명령어 소리가 해당 단어로 인식되는 것을 막을 수가 있는데, 해당 단어의 첫 트라이폰 모델로 오인식된 영향으로 렉시컬 트리의 구조에 따라 해당 단어의 나머지 음소 모델이 인식 대상에 포함되어 단어 전체가 오인식되는 경우에 효과적일 수 있기 때문이다. 마찬가지로 해당 단어의 마지막 음소 모델 대신에 새로 만든 모노폰 모델이 인식될 수 있는 여지를 두어 단어 전체의 오인식을 줄일 수 있는 효과를 얻을 수 있다.

다음으로, 본 발명에 따른 화자 독립 음성 인식 처리 방법은 이와 동시에 인식된 결과를 확인 및 결정하는 단계에서 미리 정의된 일련의 단어가 인식되었는지를 식별하여 올바른 인식의 시작이 이루어졌는지를 결정하는 과정을 포함한다.

예컨대, 인식된 단어들에 대하여 단어 사전에서 검색(S204)하고, 미리 정의된 일련의 단어, 즉, 키워드가 인식되었는지를 식별(S210)하고, 단계(S210)에서 키워드가 인식되었다면 인식된 키워드 이후의 명령어를 인식 처리(S212)하고, 인식된 명령을 수행(S214)한다. 반면에, 미리 정의된 일련의 단어인 키워드가 인식되지 않 은 경우에는 명령어 처리를 하지 않는다.

즉, 본 발명은 단계(S204) 내지 단계(S214)를 참조하여 설명한 바와 같이 올바른 인식이 이루어지기 위해서 명령어뿐만 아니라 명령어 인식에 앞서 키워드가 인식되었는지를 식별하는 과정(단계 S204 내지 단계 203) 비 명령어에 해당하는 소리들이 명령어로 선택되지 못하도록 비 명령어들이 잘 선택할 수 있는 모델을 거절 모델(24)로서 참조 모델(2)에 포함시킨다.

도 5에는 단어 사전을 검색하는 과정을 컴퓨터 상에서 수행하기 위한 프로그램 코드의 예를 나타내었다. 도 5를 참조하면, 단어 사전을 검색하여 올바르게 조합된 명령어의 번호(i)를 리턴(return)하는 함수 코드의 일부가 나타내어져 있다.

상기 프로그램 코드들 중에서 '502'로 참조되는 명령어 라인은 short형의 Check 함수로서 short형의 ReID라는 배열 하나와 short형의 num이라는 변수 하나를 인자 값으로 설정하는데, ReID 배열에는 현재까지 인식된 단어들이 순서대로 저장된다.

예를 들어, “조명 누리야 에어컨 켜”라고 인식을 했고, 단어 사전상의 각 단어의 번호가 조명(2) 누리야(1) 에어컨(5) 켜(3)라고 가정하면, ReID 배열에는 {2, 1, 5, 3, 0, 0, 0, …}와 같은 데이터가 저장되며, num 변수에는 현재 인식된 단어들의 개수 데이터가 저장된다. 위의 예에서는 "4"가 저장된다.

이와 같은 배열과 변수를 가지고 함수가 실행이 되는데, '504'로 참조되는 명령어 라인에서 ReID 배열의 몇 번째 값이 키워드인 “누리야”의 사전번호인지 확인한다. 만약 키워드가 확인이 되지 않으면 “return -1”의 참조번호 '510' 명 령어 라인으로 이동하여 함수 실행을 중단한다. 또한, 키워드가 확인되면 참조번호 '506' 명령어 라인에서 키워드 “누리야” 이후에 인식된 단어들이 올바른 조합인지 '506' 명령어 라인에서 확인을 하여 참조번호 '508' 명령어 라인에서 올바른 조합이면 해당 명령어 번호를 결과물로서 도출한다. 만약 올바른 조합이 아니면 함수를 종료한다.

이로써, 본 발명에 따르면 명령어보다 앞서 키워드를 인식하도록 하기 위하여 키워드로 정한 단어를 표현하는 음소 모델을 참조 모델에 포함하여 인식기가 키워드를 인식할 수 있도록 하면서, 단어 사전에 키워드의 위치를 본 명령어 앞에 오도록 하여 키워드가 인식된 후에 본 명령어가 인식되었을 경우에만 인식 결과를 수용하도록 하고 순서가 지켜지지 않은 인식 결과에 대하여 거절할 수 있게 되는 것이다.

상기와 같은 본 발명에 따른 화자 독립 음성 인식 처리 방법은 음성 인식기가 상시 음성인식을 시도하는 실시간 음성인식에서 종종 발생하는 문제점으로써 비 명령어를 명령어로 인식하지 않고 상기 비 명령어에 대하여 적절히 거절하는 빈도를 높임으로써, 인식기의 신뢰성을 확보할 수 있다.

도 1은 일반적인 음성 인식 과정을 나타낸 흐름도,

도 2는 본 발명에 따른 화자 독립 음성 인식 처리 방법의 주요 과정을 나타낸 흐름도,

도 3은 도 2의 과정에 사용되는 참조 모델의 구조를 설명하기 위한 개념도,

도 4는 거절 모델(24)에 삽입되는 제2 모노폰 그룹(242)을 설명하기 위한 도면, 및

도 5는 단어 사전을 검색하는 과정을 컴퓨터 상에서 수행하기 위한 프로그램 코드의 예를 나타낸 도면.

Claims

화자 독립 음성 인식의 연속어 인식방법을 이용하여 기계의 제어를 위한 음성 인식 처리를 수행하는 방법에 있어서,

(a) 미리 정의된 일련의 단어가 인식되었는지를 식별하여 올바른 인식의 시작이 이루어졌는지를 결정하는 과정과;

(b-1) 비 명령어를 가려내기 위하여 키워드에 포함되는 모노폰들 중에서 선택된 모노폰이 인식 모델로서 삽입되고,

(b-2) 거절율을 높이고자 하는 특정 단어를 구성하는 음소들을 변형하여 새로운 모노폰을 만들어 거절 모델로서 삽입된 참조 모델을 사용하여 음성 인식 알고리즘에 의한 음성 인식을 수행하는 과정;을 포함하는 것을 특징으로 하는 화자 독립 음성 인식 처리 방법.
제1항에 있어서, 상기 (a) 과정은,

(a-1) 미리 정의된 일련의 단어들의 음소를 어절별로 나누어 렉시컬 트리에 등록하고 어절별로 독립적으로 인식하는 과정;을 포함하는 것을 특징으로 하는 화자 독립 음성 인식 처리 방법.
제1항에 있어서, 상기 (b-2) 과정은,

(b-2-1) 거절율을 높이고자 하는 특정 단어의 처음 음소를 이루는 트라이폰 에서 첫 번째 폰을 제외한 나머지 두 개의 폰이 같은 트라이폰들을 서로 결합하여 새로운 모노폰을 만들어 거절 모델로서 삽입된 참조 모델을 사용하여 음성 인식 알고리즘에 의한 음성 인식을 수행하는 과정;을 포함하는 것을 특징으로 하는 화자 독립 음성 인식 처리 방법.
제1항에 있어서, 상기 (b-2) 과정은,

(b-2-2) 거절율을 높이고자 하는 특정 단어의 처음 음소를 이루는 트라이폰 에서 마지막 폰을 제외한 첫 번째 폰과 두 번째 폰이 같은 트라이폰들을 서로 결합하여 새로운 모노폰을 만들어 거절 모델로서 삽입된 참조 모델을 사용하여 음성 인식 알고리즘에 의한 음성 인식을 수행하는 과정;을 포함하는 것을 특징으로 하는 화자 독립 음성 인식 처리 방법.