KR20060044008A

KR20060044008A - 다수의 화자 분별을 위한 음성 인식장치

Info

Publication number: KR20060044008A
Application number: KR1020040091783A
Authority: KR
Inventors: 이한웅
Original assignee: 주식회사 대우일렉트로닉스
Priority date: 2004-11-11
Filing date: 2004-11-11
Publication date: 2006-05-16

Abstract

본 발명은 다수의 화자가 동시에 음성 명령을 수행할 경우, 특정한 한 화자에 대한 음성 명령을 화상인식기술 및 음성인식기술을 이용하여 정확하게 인식하여 각종 명령을 수행하기 위한 것으로, 이를 위한 구성은 다수의 화자를 촬상하여 지향 거리를 측정하는 카메라와, 촬상된 영상 정보에 대한 화상을 인식하는 화상인식 처리부와, 특정 화자에 대한 영상 정보를 세팅하고 있는 중에, 화상인식 처리부에 의해 인식된 화상인식결과와 세팅된 특정 화자의 영상 정보를 비교하여 특정 화자의 위치 각을 파악하는 제어부와, 위치 각을 이용하여 지향성 줌 마이크의 지향 각도를 특정 화자로의 방향으로 구동하고, 지향 거리를 이용하여 특정 화자로의 근접 줌 기능을 구동하는 지향성 줌 마이크 구동부와, 지향성 줌 마이크에 의해 추출된 음성 정보를 인식하는 음성인식 처리부와, 인식된 음성 정보를 분석하는 음성인식 결과 처리부와, 분석된 분석결과정보를 이용하여 각종 명령을 수행하는 명령 수행부를 포함한다. 따라서, 다수 화자가 동시에 음성 명령을 수행하는 중에서도 특정화자만의 음성만을 분별 인식하여 특정 화자가 명령한 것을 수행 가능하게 할 수 있는 효과가 있다.

Description

다수의 화자 분별을 위한 음성 인식장치{A VOICE RECOGNITION APPARATUS FOR A NUMBER OF SPEAKER DIVISION}

도 1은 본 발명에 따른 다수의 화자 분별을 위한 음성 인식장치에 대한 블록 구성도이며,

도 2는 본 발명에 따른 다수의 화자 분별을 위한 음성 인식장치의 동작을 위한 상세 흐름도이다.

<도면의 주요부분에 대한 부호의 설명>

10 : 카메라 20 : 화상인식 처리부

30 : 제어부 40 : 지향성 줌 마이크 구동부

50 : 지향성 줌 마이크 60 : 음성인식 처리부

70 : 음성인식 결과 처리부 80 : 명령 수행부

S10,S20,...,Sn : 다수의 화자

본 발명은 다수의 화자 분별을 위한 음성 인식장치에 관한 것으로, 보다 상세하게 설명하면, 다수의 화자가 음성 명령을 동시에 수행할 경우, 그중 어느 특정 한 한 화자에 대한 음성 명령을 화상인식기술 및 음성인식기술을 이용하여 정확하게 인식할 수 있는 장치에 관한 것이다.

주지된 바와 같이, 음성 인식이란 사람이 발성한 음성을 지식 처리하는 것으로, 수많은 사람들의 실험으로 인해 각각의 단어(혹은, 문장)에 대한 음성 인식이 이루어져 있거나, 또는 사용자가 직접 단어(혹은, 문장)에 대한 학습을 수행시켜 음성 인식이 이루어지도록 하고 있다.

그 예로, 음성 인식에서 각각의 단어(혹은 문장)는 사용자의 고유한 주파수의 평균적인 값을 갖게 되는데, 사용자의 학습에 의해 자신의 고유한 주파수 값을 평균적인 값에 포함시키게 되면 사용자에 의한 음성 인식률은 재고될 수 있다.

이러한 음성 인식을 위한 방법에는 화자에 따라 화자종속 음성인식 방법과 화자독립 음성인식 방법으로 분류된다. 여기서, 화자종속 음성인식 방법은 특정인 한사람만을 위한 것으로 사용자의 입장에서는 종속 기준모델을 등록하기 위하여 학습과정이 필요하다. 반면에, 화자독립 음성인식 방법은 불특정 다수인을 위한 것으로 다수인이 학습에 참여하여 얻은 일반적인 독립 기준모델을 이용하여 음성을 인식하는 방법으로써, 이 독립 기준모델은 생산공장에서 제품화되어 공급되므로 사용자의 입장에서는 학습의 과정이 불필요하다.

그러나, 다수의 화자, 즉 동시에 한 명 이상의 사람이 동시에 말을 수행하는 다수 화자에서 특정 화자만에 대한 음성만을 인식할 때에는 상술한 음성 인식 방법으로는 정확한 음성 인식을 수행할 수 없는 문제점을 갖는다.

이에, 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로, 그 목적은 다수의 화자가 동시에 음성 명령을 수행할 경우, 특정한 한 화자에 대한 음성 명령을 화상인식기술 및 음성인식기술을 이용하여 정확하게 인식하여 각종 명령을 수행할 수 있는 다수의 화자 분별을 위한 음성 인식장치를 제공함에 있다.

상술한 목적을 달성하기 위한 본 발명에서 다수의 화자 분별을 위한 음성 인식장치는 다수의 화자를 촬상하여 지향 거리를 측정하는 카메라와, 촬상된 영상 정보에 대한 화상을 인식하는 화상인식 처리부와, 특정 화자에 대한 영상 정보를 세팅하고 있는 중에, 화상인식 처리부에 의해 인식된 화상인식결과와 세팅된 특정 화자의 영상 정보를 비교하여 특정 화자의 위치 각을 파악하는 제어부와, 위치 각을 이용하여 지향성 줌 마이크의 지향 각도를 특정 화자로의 방향으로 구동하고, 지향 거리를 이용하여 특정 화자로의 근접 줌 기능을 구동하는 지향성 줌 마이크 구동부와, 지향성 줌 마이크에 의해 추출된 음성 정보를 인식하는 음성인식 처리부와, 인식된 음성 정보를 분석하는 음성인식 결과 처리부와, 분석된 분석결과정보를 이용하여 각종 명령을 수행하는 명령 수행부를 포함하는 것을 특징으로 한다.

이하, 본 발명의 실시 예는 다수개가 존재할 수 있으며, 이하에서 첨부한 도면을 참조하여 바람직한 실시 예에 대하여 상세히 설명하기로 한다. 이 기술 분야의 숙련자라면 이 실시 예를 통해 본 발명의 목적, 특징 및 이점들을 잘 이해하게 될 것이다.

도 1은 본 발명에 따른 다수의 화자 분별을 위한 음성 인식장치(100)에 대한 블록 구성도로서, 다수의 화자(S10,S20,S30,S40)를 촬상한 영상 정보와 화자(S10,S20,S30,S40)들 각각까지의 지향 거리를 측정하여 화상인식 처리부(20)에 제공하는 카메라(10)와, 카메라(10)에 의해 촬상한 영상 정보를 이용하여 화자(S10,S20,S30,S40)들 각각에 대한 화상을 인식하고, 인식된 화상인식결과와 카메라(10)로부터 제공되는 지향 거리를 제어부(30)에 제공하는 화상인식 처리부(20)와, 특정 화자(예로, 화자(S10-3))만의 음성을 인식하기 위해 화자(S10-3)의 영상 정보를 세팅하고 있는 중에, 화상인식 처리부(20)로부터 제공되는 화자(S10,S20,S30,S40)들 각각에 대한 화상인식결과와 세팅된 화자(S10-3)의 영상 정보를 각각 비교하여 화자(S10-3)만을 인식한 다음에, 인식된 화자(S10-3)의 위치 각을 파악하고, 측정된 지향 거리를 지향성 줌 마이크 구동부(40)에 제공하는 제어부(30)와, 제어부(30)로부터 제공되는 화자(S10-3)의 위치 각과, 지향 거리를 이용하여 지향성 줌 마이크(50)의 지향 각도를 화자(S10-3)로의 방향과 일치하도록 구동하고, 이어서 지향 거리를 이용하여 화자(S10-3)에 최대한 근접되도록 줌 기능을 구동하는 지향성 줌 마이크 구동부(40)와, 지향성 줌 마이크 구동부(40)에 의해 화자(S10-3)로의 정 방향과 최대 근접 줌 기능이 활성화되어 화자(S10-3)의 음성을 추출하는 지향성 줌 마이크(50)와, 지향성 줌 마이크(50)에 의해 추출된 음성 정보를 인식하고, 인식된 음성 정보를 음성인식 결과 처리부(70)에 제공하는 음성인식 처리부(60)와, 음성인식 처리부(60)에 의해 인식된 음성 정보를 분석한 분석결과정보를 명령 수행부(80)에 제공하는 음성인식 결과 처리부(70)와, 음성인식 결과 처리부(70)에 의해 분석된 분석결과정보를 이용하여 각종 명령을 수행하는 명령 수행 부(80)를 포함한다.

도 2의 흐름도를 참조하면서, 상술한 구성을 바탕으로 본 발명에 따른 다수의 화자 분별을 위한 음성 인식장치의 동작에 대하여 보다 상세하게 설명한다.

먼저, 카메라(10)는 다수의 화자(S10,S20,...,Sn)를 모두 촬상할 수 있는데, 이중, 일 실시 예에 따라, 화자(S10,S20,S30,S40)들만을 포함시킨 각도(S1)로 촬상한 영상 정보와 화자(S10,S20,S30,S40)들 각각까지의 지향 거리를 측정하여 화상인식 처리부(20)에 제공한다(단계 201).

화상인식 처리부(20)는 카메라(10)에 의해 촬상한 영상 정보를 이용하여 화자(S10,S20,S30,S40)들 각각에 대한 화상을 인식하고, 인식된 화상인식결과와, 그리고카메라(10)로부터 제공되는 지향 거리를 제어부(30)에 제공한다(단계 202).

제어부(30)는 다수의 화자(S10,S20,...,Sn)중 특정 화자(예로, 화자(S10-3))만의 음성을 인식하기 위해 화자(S10-3)의 영상 정보를 세팅하고 있는 중에(단계 202-5), 화상인식 처리부(20)로부터 제공되는 화자(S10,S20,S30,S40)들 각각에 대한 화상인식결과와 세팅된 화자(S10-3)의 영상 정보를 각각 비교 판단한다(단계 203).

상기 판단(203)결과, 세팅된 화자(S10-3)의 영상 정보가 없을 경우, 상술한 판단 과정을 재 수행한다(단계 204).

반면에, 상기 판단(203)결과, 세팅된 화자(S10-3)의 영상 정보가 있을 경우, 그 화자(S10-3)만을 인식하고, 인식된 화자(S10-3)의 위치 각을 파악하고, 측정된 지향 거리를 지향성 줌 마이크 구동부(40)에 제공한다(단계 205).

지향성 줌 마이크 구동부(40)는 제어부(30)로부터 제공되는 화자(S10-3)의 위치 각과, 지향 거리를 이용하여 지향성 줌 마이크(50)의 지향 각도를 화자(S10-3)로의 방향과 일치하도록 구동한다(단계 206).

이와 동시에, 지향성 줌 마이크 구동부(40)는 제어부(30)로부터 제공되는 지향 거리를 이용하여 화자(S10-3)에 최대한 근접되도록 줌 기능을 구동한다(단계 207).

이때, 지향성 줌 마이크(50)는 지향성 줌 마이크 구동부(40)의 구동 제어에 의해 화자(S10-3)로의 정 방향과 최대 근접 줌 기능으로 활성화하여 화자(S10-3)의 음성을 추출한다(단계 208).

그러면, 음성인식 처리부(60)는 지향성 줌 마이크(50)에 의해 추출된 음성 정보를 인식하고, 인식된 음성 정보를 음성인식 결과 처리부(70)에 제공한다(단계 209).

음성인식 결과 처리부(70)는 음성인식 처리부(60)에 의해 인식된 음성 정보를 분석한 분석결과정보를 명령 수행부(80)에 제공한다(단계 210).

명령 수행부(80)는 음성인식 결과 처리부(70)에 의해 분석된 분석결과정보를 이용하여 각종 명령을 수행한다(단계 211).

따라서, 다수의 화자가 동시에 음성 명령을 수행할 경우, 특정한 한 화자에 대한 음성 명령을 화상인식기술 및 음성인식기술을 이용하여 정확하게 인식하여 각종 명령을 수행함으로써, 다수 화자가 동시에 음성 명령을 수행하는 중에서도 특정화자만의 음성만을 분별 인식하여 특정 화자가 명령한 것을 수행 가능하게 할 수 있는 것이다.

또한, 본 발명의 사상 및 특허청구범위 내에서 권리로서 개시하고 있으므로, 본원 발명은 일반적인 원리들을 이용한 임의의 변형, 이용 및/또는 개작을 포함할 수도 있으며, 본 명세서의 설명으로부터 벗어나는 사항으로서 본 발명이 속하는 업계에서 공지 또는 관습적 실시의 범위에 해당하고 또한 첨부된 특허청구범위의 제한 범위 내에 포함되는 모든 사항을 포함한다.

상기에서 설명한 바와 같이, 본 발명은 다수의 화자가 동시에 음성 명령을 수행할 경우, 특정한 한 화자에 대한 음성 명령을 화상인식기술 및 음성인식기술을 이용하여 정확하게 인식하여 각종 명령을 수행함으로써, 다수 화자가 동시에 음성 명령을 수행하는 중에서도 특정화자만의 음성만을 분별 인식하여 특정 화자가 명령한 것을 수행 가능하게 할 수 있는 효과가 있다.

Claims

다수의 화자를 촬상하여 지향 거리를 측정하는 카메라와,

상기 촬상된 영상 정보에 대한 화상을 인식하는 화상인식 처리부와,

특정 화자에 대한 영상 정보를 세팅하고 있는 중에, 상기 화상인식 처리부에 의해 인식된 화상인식결과와 상기 세팅된 특정 화자의 영상 정보를 비교하여 상기 특정 화자의 위치 각을 파악하는 제어부와,

상기 위치 각을 이용하여 지향성 줌 마이크의 지향 각도를 상기 특정 화자로의 방향으로 구동하고, 상기 지향 거리를 이용하여 상기 특정 화자로의 근접 줌 기능을 구동하는 지향성 줌 마이크 구동부와,

상기 지향성 줌 마이크에 의해 추출된 음성 정보를 인식하는 음성인식 처리부와,

상기 인식된 음성 정보를 분석하는 음성인식 결과 처리부와,

상기 분석된 분석결과정보를 이용하여 각종 명령을 수행하는 명령 수행부

를 포함하는 다수의 화자 분별을 위한 음성 인식장치.
제 1 항에 있어서,

상기 지향성 줌 마이크는, 상기 특정 화자로의 정 방향과 최대 근접 줌 기능으로 활성화하여 상기 특정 화자의 음성을 추출하는 것을 특징으로 하는 다수의 화자 분별을 위한 음성 인식장치.