KR100556365B1

KR100556365B1 - 음성 인식장치 및 방법

Info

Publication number: KR100556365B1
Application number: KR1020030045765A
Authority: KR
Inventors: 신종근; 유창동; 김상균; 김종욱; 진민호
Original assignee: 엘지전자 주식회사
Priority date: 2003-07-07
Filing date: 2003-07-07
Publication date: 2006-03-03
Also published as: CN100345184C; EP1496499A2; EP1496499A3; CN1591566A; US20050033572A1; KR20050005868A; US8046223B2

Abstract

주변 환경음에 상관없이 원격에서도 음성 인식이 정확히 이루어질 수 있도록 한 음성 인식 장치 및 방법에 관한 것으로, 시작점 및 끝점 정보를 이용한 적응 필터링 방식으로 모든 입력음에서 반향음과 잡음을 제거하기 위한 반향 및 잡음 제거부와, 반향 및 잡음 제거부에서 출력되는 연속적인 사용자 음성에서 명령어를 검출하고 그 시작점 및 끝점 정보를 반향 및 잡음 제거부와 음성 인식부에 제공하는 시작점 및 끝점 검출부와, 시작점 및 끝점 검출부에서 검출된 명령어가 기설정된 명령어 리스트에 포함된 명령어일 경우 해당 명령에 따른 동작이 수행되도록 상기 명령어를 피제어기기로 전송하는 음성 인식부를 포함하므로 잡음 및 반향이 다수 존재하는 환경에서도 원격에서 사용자 음성만을 인식하고 해당 명령을 정확히 수행할 수 있으므로 사용자 편의를 극대화시킬 수 있다.

음성/원격/단어/필러/음성인식/반향 및 잡음제거

Description

음성 인식장치 및 방법{Apparatus and Method for Speech Recognition}

도 1은 본 발명에 따른 음성 인식장치가 적용된 A/V 기기의 구성을 나타낸 블록도

도 2는 도 1의 음성 인식장치의 구성을 나타낸 블록도

도 3은 본 발명에 따른 음성 인식방법을 나타낸 순서도

- 도면의 주요 부분에 대한 부호의 설명 -

10: A/V 기기 11: 제어부

20: 음성 인식 장치 21: 반향 및 잡음 제거부

22: 시작점 및 끝점 검출부 23: 음성 인식부

본 발명은 에이브이(AV)기기 등의 출력음과 같은 주변 환경음에 상관없이 원격에서 음성인식이 가능한 음성 인식장치 및 방법에 관한 것이다.

음성 인식기술은 인간의 가장 자연스러운 의사 전달 수단인 음성을 통해 기계나 컴퓨터에게 인간의 의사를 전달하여 원하는 동작을 하도록 하는 기술이다.

이러한 음성 인식 기술은 현재 여러 분야에서 사람들에게 많은 편리함을 제 공하고 있으며, 앞으로 그 발전이 더욱 기대되고 있다.

그러나 우리는 지금까지 티브이, 오디오 등의 A/V 기기를 제어하기 위해서, 리모콘을 이용하거나, 해당 기기에 설치된 버튼을 눌러야 했다.

리모콘을 이용할 경우, 항상 리모콘이 사용자 근처에 존재해야하고 사람이 직접 들고 손으로 조작해야 하는 번거로움이 있고, 리모콘이 작은 기기이므로 종종 그 위치를 찾기 힘들 때가 있다. 특히, 고령의 사용자의 경우 리모콘의 사용에 적지 않은 어려움을 느끼고 있는 실정이다.

이러한 문제점을 해결하기 위해 음성 인식 기술을 이용하여 동작 제어가 가능한 A/V 기기의 발명이 요구되고 있다.

그러나 티브이, 오디오 등의 A/V 기기의 경우 일반적인 음성 인식기로는 원하는 제어동작을 수행하기 힘들다.

그 이유는 일반적인 음성 인식기가 동작하는 환경이 사람의 음성이 주를 이루는 조용한 환경이 아니고, 주변 잡음과 A/V 기기의 소리가 사람의 음성에 비해 크기 때문이다.

또한 음성 인식기를 장착해야 하는 A/V 기기와 이를 사용하는 사용자간의 거리가 가깝지 않은 것도 또 하나의 이유이다.

즉, 종래의 음성 인식기는 장착 대상인 기기가 자체적인 음성출력이 이루어지고 원격 제어가 수행되는 A/V 기기에서는 음성인식이 정확히 이루어지지 못하는 문제점이 있다.

따라서 본 발명은 상기한 종래의 문제점을 해결하기 위하여 안출한 것으로서, 주변 환경음에 상관없이 원격에서도 음성 인식이 정확히 이루어질 수 있도록 한 음성 인식 장치 및 방법을 제공함에 그 목적이 있다.

본 발명에 따른 음성 인식 장치는 시작점 및 끝점 정보를 이용한 적응 필터링 방식으로 모든 입력음에서 반향음과 잡음을 제거하기 위한 반향 및 잡음 제거부와, 반향 및 잡음 제거부에서 출력되는 연속적인 사용자 음성에서 명령어를 검출하고 그 시작점 및 끝점 정보를 반향 및 잡음 제거부와 음성 인식부에 제공하는 시작점 및 끝점 검출부와, 시작점 및 끝점 검출부에서 검출된 명령어가 기설정된 명령어 리스트에 포함된 명령어일 경우 해당 명령에 따른 동작이 수행되도록 상기 명령어를 피제어기기로 전송하는 음성 인식부를 포함함을 특징으로 한다.

본 발명에 따른 음성 인식 방법은 사용자 명령을 포함한 연속적인 입력에서 반향 및 잡음을 적응 필터링 방식을 이용하여 제거하고 사용자 명령을 검출하는 단계와, 검출된 사용자 명령어의 핵심어 확률과 비핵심어 확률의 비율을 산출하는 단계와, 산출된 비율과 제1 문턱값 및 제2 문턱값의 비교 결과에 따라 해당 명령이 수행되도록 사용자 명령어를 피제어기기로 전송하는 단계를 포함함을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 음성 인식 장치 및 방법의 바람직한 일실시예를 상세히 설명하면 다음과 같다.

도 1은 본 발명에 따른 음성 인식 장치가 적용된 A/V 기기의 구성을 나타낸 블록도, 도 2는 도 1의 음성 인식 장치의 구성을 나타낸 블록도이고, 도 3은 본 발명에 따른 음성 인식 방법을 나타낸 순서도이다.

먼저, 본 발명에 따른 음성 인식 장치(20)를 A/V 기기중 하나인 티브이에 설치한 예가 도 1에 도시되어 있다.

이때 음성 인식 장치(20)의 위치는 사용자의 음성을 직접적으로 입력받을 수 있는 위치 즉, 티브이(10)의 화면 출력이 이루어지는 정면측이 가장 바람직하다.

그리고 음성 인식 장치(20)의 구성을 살펴보면, 도 2에 도시된 바와 같이, 타이밍 정보 즉, 시작점 및 끝점정보를 이용한 적응 필터링 방식으로 모든 입력음에서 반향음과 잡음을 제거하고 사용자 음성만을 검출하기 위한 반향 및 잡음 제거부(21), 상기 반향 및 잡음 제거부(21)에서 출력되는 연속적인 사용자 음성에서 명령어를 검출하고 그 시작점 및 끝점 정보를 상기 반향 및 잡음 제거부(21)와 음성 인식부(23)에 제공하는 시작점 및 끝점 검출부(22), 그리고 상기 시작점 및 끝점 검출부(22)에서 출력된 명령어가 기설정된 명령어 리스트에 포함된 명령어일 경우 해당 명령에 따른 동작이 수행되도록 A/V 기기(10)의 제어부(11)로 전송하는 음성 인식부(23)를 포함하여 구성된다.

이때 반향 및 잡음 제거부(21)는 M 채널 IIR(Infinite Impulse Response) 필터 뱅크를 사용한 서브 밴드(Sub band) 적응 필터링 방식이 적용된다.

그리고 시작점 및 끝점 검출부(22)는 상기 반향 및 잡음 제거부(21)의 출력에서 명령어만을 검출하여 음성 인식부(23)로 제공하고, 명령어의 시작점과 끝점을 상기 반향 및 잡음 제거부(21)로 제공한다. 이때 시작점과 끝점이 검출되더라도 무조건 명령어로 인식하는 것이 아니고, 명령어의 크기가 기설정된 기준값 이상일 경우에만 유효한 명령어로 검출하도록 구성되어 사용자가 명령어를 일정크기 이상으로 발음하도록 유도한다.

이어서 음성 인식부(23)는 상기 시작점 및 끝점 검출부(22)에서 출력된 명령어가 핵심어라고 판단될 경우 이를 A/V 기기(10)의 제어부(11)로 전송하고, 비핵심어라고 판단될 경우 사용자 확인(사용자에게 그 명령어를 선택할 것인지 여부를 묻거나 재입력을 요구)에 해당하는 화면표시를 A/V 기기(10)의 제어부(11)에 요청하도록 구성된다.

이와 같이 구성된 본 발명에 따른 음성 인식 방법을 도 3을 참조하여 상세히 설명하면 다음과 같다.

먼저, 사용자가 A/V 기기중 하나인 티브이를 시청하는 도중 볼륨을 높이고 싶을 경우, 예를 들어, '볼륨 업'이라고 말하게 되면, 상기 사용자의 음성인 '볼륨 업'과 티브이에서 출력되어 반향된 음성 및 잡음이 티브이의 음성 인식 장치(20)로 입력된다.

이때 반향 및 잡음 제거부(21)는 시작점 및 끝점 검출부(22)의 시작점 및 끝점 정보에 따라 전체 입력음에서 반향 및 잡음을 제거하고 시작점 및 끝점 검출부(22)는 그 출력을 이용하여 명령어를 검출한다(S31).

이때 시작점 및 끝점 검출부(22)는 반향 및 잡음 제거부(21)를 통해 입력되는 음성의 시작점과 끝점을 검출하여 각각 반향 및 잡음 제거부(21)로 알린다. 따라서 반향 및 잡음 제거부(21)는 상기 시작점 정보에 따라 적응을 멈추고 해당 필터 계수를 이용하여 반향을 제거하는 필터링 동작을 하고, 끝점 정보에 따라 적응을 다시 시작하여 최적의 필터 계수를 찾는다.

이어서 음성 인식부(23)는 인식된 명령어의 핵심어 확률과 비핵심어 확률을 산출한다(S32).

이때 음성 인식부(23)의 핵심어 확률은 다음과 같이 산출된다.

각각의 명령어 즉, 단어에 대한 모델을 만들고 입력된 음성을 각각의 단어 모델을 통과시켜 그 확률값들을 얻고, 이렇게 얻어진 확률값 중 가장 큰 확률을 가지는 단어 모델을 인식결과로 선택하게 된다. A/V 기기(10)가 티브이일 경우 50단어 정도의 적은 수의 명령어 집합에 대한 인식이므로 적은 수의 단어에 대해 높은 인식률을 보이는 단어 단위 모델을 생성한다.

또한 음성 인식부(23)의 비핵심어 확률은 각 단어에 대한 모델과 지정된 명령어가 아닌 단어에 대해 높은 확률을 가지도록 훈련된 필러(Filler) 모델을 이용하여 산출된다.

그리고 상기 단계(S32)에서 산출된 핵심어 확률과 비핵심어 확률의 비(比)를 제1 및 제2 문턱값과 비교하여 핵심어 인식 및 배제 동작을 수행한다.

이때 티브이와 같은 A/V 기기는 실제 사용자 음성 이외에 자체적으로 출력된 음성이 재 입력되는 등 잡음이 크므로 오동작을 배제하기 위해 두 가지 문턱값(dB 단위)을 사용한다. 제1 문턱값은 오동작의 확률이 0.5% 이내가 되도록 설정하고, 제2 문턱값은 오동작의 확률이 5% 이내가 되도록 설정한다.

따라서 상기 단계(S32)에서 핵심어 확률과 비핵심어 확률이 산출되면, 핵심어 확률과 비핵심어 확률의 비가 제1 문턱값보다 큰지 판단한다(S33).

이어서 상기 판단결과(S33), 핵심어 확률과 비핵심어 확률의 비가 제1 문턱값 이상이면 사용자 명령이 올바르게 인식된 것으로 판단하여 인식된 명령어를 A/V 기기(10)의 제어부(11)로 전송하여 해당 명령이 수행되도록 한다(S34).

따라서 A/V 기기(10)는 출력 음성의 볼륨을 올린다.

한편, 상기 판단결과(S33), 핵심어 확률과 비핵심어 확률의 비가 제1 문턱값 이상이 아니면, 제1 문턱값보다는 작고 제2 문턱값 이상인지 판단한다(S35).

이어서 상기 판단결과(S35), 핵심어 확률과 비핵심어 확률의 비가 제1 문턱값보다는 작고 제2 문턱값 이상이면, 사용자 확인을 요청한다(S36).

즉, A/V 기기(10)의 제어부(11)로 인식된 단어를 표시하고 예를 들어, 선택이라는 명령을 통해 확인할 수 있도록 하는 것이다. 따라서 A/V 기기(10)는 화면상에 인식된 단어 '볼륨 업'을 표시하게 된다.

그리고 상기 화면을 보고 사용자가 '선택'을 명령하는지 판단하고(S37), 사용자가 '선택'을 명령하면 상기 단계(S34)와 마찬가지로 인식된 명령어를 A/V 기기(10)의 제어부(11)로 전송하여 해당 명령이 수행되도록 한다(S38).

이때 사용자가 상기 화면을 보고 자신의 의사와는 다른 명령어일 경우, 아무런 동작을 필요로 하지 않으며, 다음 명령어가 입력되면 이미 인식된 명령어는 자동으로 무시된다.

한편, 상기 판단결과(S35), 핵심어 확률과 비핵심어 확률의 비가 제1 문턱값 보다는 작고 제2 문턱값 이상이 아니면, 즉, 핵심어 확률과 비핵심어 확률의 비가 제2 문턱값 미만이면 인식결과를 배제한다(S39).

즉, 인식된 명령어를 A/V 기기(10)로 전송하지 않고 무시한다.

상술한 본 발명은 환경 잡음 및 반향음 등이 발생하여 인식 환경이 열악한 A/V 기기의 예를 들어 설명하였으나, 환경 잡음이 많은 또 하나의 예로서, 자동차의 동작을 제어하는 경우 등에도 적용가능하며, 그 이외의 각종 기기의 경우 상기 A/V 기기에 비해 인식환경이 뛰어나므로 본 발명의 기술 적용이 쉽게 이루어질 수 있음은 명백하다.

본 발명에 따른 음성 인식 장치 및 방법은 잡음 및 반향이 다수 존재하는 환경에서도 원격에서 사용자 음성만을 인식하고 해당 명령을 정확히 수행할 수 있으므로 사용자 편의를 극대화시킬 수 있는 효과가 있다.

Claims

적응 필터링 방식으로 모든 입력음에서 반향음과 잡음을 제거하고, 사용자 음성만을 검출하거나, 시작점 및 끝점 검출부로부터 제공받은 시작점 및 끝점 정보를 이용한 적응 필터링 방식으로 모든 입력음에서 반향음과 잡음을 제거하고 사용자 음성만을 검출하기 위한 반향 및 잡음 제거부;

상기 반향 및 잡음 제거부에서 출력되는 연속적인 사용자 음성에서 명령어를 검출하고 그 시작점 및 끝점 정보를 상기 반향 및 잡음 제거부와 음성 인식부에 제공하는 시작점 및 끝점 검출부; 그리고

상기 시작점 및 끝점 검출부에서 출력된 사용자 명령어의 핵심어 확률과 비핵심어 확률의 비율을 산출하고, 상기 산출된 비율과 제 1 문턱값 및 제 2 문턱값의 비교 결과에 따라 해당 명령이 수행되도록 상기 사용자 명령어를 피제어기기로 전송하는 음성 인식부를 포함하여 이루어 지는 것을 특징으로 하는 음성 인식 장치.
제1 항에 있어서,

상기 반향 및 잡음 제거부는 IIR 필터 뱅크를 사용한 서브 밴드(Sub band) 적응 필터를 포함함을 특징으로 하는 음성 인식 장치.
제1 항에 있어서,

상기 음성 인식부는 명령어 판단을 위해 필러(Filler) 모델이 적용됨을 특징으로 하는 음성 인식 장치.
사용자 명령을 포함한 연속적인 입력에서 반향음 및 잡음을 적응 필터링 방식을 이용하여 제거하고, 상기 사용자 명령을 검출하는 단계;

상기 검출된 사용자 명령어의 핵심어 확률과 비핵심어 확률의 비율을 산출하는 단계; 그리고

상기 산출된 비율과 제 1 문턱값 및 제 2 문턱값의 비교 결과에 따라 해당 명령이 수행되도록 상기 사용자 명령어를 피제어기기로 전송하는 단계를 포함하여 이루어 지는 것을 특징으로 하는 음성 인식 방법.
제4 항에 있어서,

상기 사용자 명령을 포함한 연속적인 입력에서 반향 및 잡음을 적응 필터링 방식을 이용하여 제거하고 사용자 명령을 검출하는 단계는

상기 연속적인 입력에서 사용자 명령어의 시작점부터 필터 적응을 멈추고 사용자 명령어의 끝점에서 필터 적응을 시작하여 이루어짐을 특징으로 하는 음성 인식 방법.
제4 항에 있어서,

상기 비핵심어 확률은 사용자 명령을 필러(Filler) 모델 각각에 통과시켜 각 확률을 구하고 그중 최고값을 인식결과로 선택하여 산출됨을 특징으로 하는 음성 인식 방법.
제4 항에 있어서,

산출된 비율과 제1 문턱값 및 제2 문턱값의 비교 결과에 따라 해당 명령이 수행되도록 상기 사용자 명령어를 피제어기기로 전송하는 단계는

산출된 비율이 제1 문턱값 이상일 경우 상기 사용자 명령어를 피제어기기로 전송하는 단계와,

산출된 비율이 제1 문턱값 미만이고 제2 문턱값 이상일 경우 피제어기기를 통해 사용자 확인을 수행하고, 사용자 확인시 상기 사용자 명령어를 피제어기기로 전송하는 단계와,

산출된 비율이 제2 문턱값 미만일 경우 사용자 명령어를 무시하는 단계를 포함함을 특징으로 하는 음성 인식 방법.
제7 항에 있어서,

상기 제1 문턱값은 제2 문턱값에 비해 음성인식 오동작 확률이 낮도록 설정된 값임을 특징으로 하는 음성 인식 방법.