KR101884446B1

KR101884446B1 - 다자간 회의에서의 화자 인식 및 화자 추적 방법

Info

Publication number: KR101884446B1
Application number: KR1020160176717A
Authority: KR
Inventors: 이석필; 변성우; 한혁수
Original assignee: 상명대학교산학협력단
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2018-08-30
Also published as: KR20180073168A

Abstract

본 발명은 적어도 3개 이상의 마이크로폰을 포함하는 마이크로폰 어레이의 각 마이크로폰의 3차원 좌표값을 특정하여 3차원 좌표의 3개 축에 할당하는 단계와, 화자의 발화음성을 수집하여, 상기 3개 이상의 마이크로폰 각각에 수신되는 화자 음성의 도달시간을 측정하는 단계와, 상기 3개 축에 할당된 각 마이크로폰에 도달하는 상기 화자 음성의 도달 시간의 차로부터 3차원 좌표상의 화자 위치를 측정하는 단계를 포함하는 화자 위치 추적 방법 및 이를 수행하는 시스템을 제공한다.
본 발명에 따르면, 다자간 회의 혹은 화상회의 환경에서 화자 인식과 화자의 위치를 추적할 수 있다. 또한, 화상회의 환경에서 화자의 위치를 추적하여 카메라를 현재 말하고 있는 화자로 자동으로 조정할 수 있으며, 후처리 기능으로써 위치에 따른 화자 인식 결과로 회의 내용을 각 화자로 매핑시켜 주는 기능으로 발전될 수 있다.

Description

다자간 회의에서의 화자 인식 및 화자 추적 방법{Speaker identification and speaker tracking method for Multilateral conference environment}

본 발명은 화자의 위치를 추적하는 방법 및 시스템에 관한 것으로서, 구체적으로는 다자간 회의 혹은 화상회의 환경에서 화자를 인식하고 화자의 위치를 추적하는 방법 및 시스템에 관한 것이다.

컴퓨팅 환경에서 신호 처리는 여러 분야에서 발전하여 왔으며, 화자 인식, 화자 감정 분석, 화자 위치 추적등의 화자 분석 분야의 연구도 더욱 많아지고 있고 있다. 화자 위치추적은 화상 회의 때의 카메라의 자동 스티어링, 주밍 또는 동작인식을 위해서 매우 활발히 연구되고 있는 분야로서, 시간 지연 추정(TDE; Time Delay Estimation) 방법을 이용하는데, 교차 스펙트랄 함수(cross spectral fucntion) 기반의 방식과 일반화된 교차 상관(GCC: General Cross Correlation) 함수 기반의 방식으로 분류될 수 있다.

그러나 종래의 위 두 가지 방식 모두 그 정확도 및 신뢰도에 있어서 충분한 성능을 보이고 있지는 못하여, 따라서 복수의 화자가 근접하여 발화하는 다자간 회의 또는 화상회의에 적용하기에 불충분한 성능을 보이고 있다.

본 발명은, 전술한 종래기술의 문제를 해결하기 위하여, 다자간 회의 혹은 화상회의 환경에서 각 마이크로폰에 도착하는 시간 차이를 이용하여 높은 신뢰도로 화자의 위치를 추적할 수 있는 방법 및 시스템을 제공하려는 것을 목적으로 한다.

전술한 과제를 이루기 위하여, 적어도 3개 이상의 마이크로폰을 포함하는 마이크로폰 어레이의 각 마이크로폰의 3차원 좌표값을 특정하여 3차원 좌표의 3개 축에 할당하는 단계와, 화자의 발화음성을 수집하여, 상기 3개 이상의 마이크로폰 각각에 수신되는 화자 음성의 도달시간을 측정하는 단계와, 상기 3개 축에 할당된 각 마이크로폰에 도달하는 상기 화자 음성의 도달 시간의 차로부터 3차원 좌표상의 화자 위치를 측정하는 단계를 포함하는 화자 위치 추적 방법이 제공된다.

매 화자 위치를 측정하는 단계를 수행한 이후에 상기 화자 위치를 저장하여 이력 데이터를 구성하고, 이로부터 3차원 좌표상에서의 분포 영역을 파악하여, 그 중심에 해당하는 위치를 화자 위치로 간주하는 보정 단계를 더 포함할 수 있다.

또한, 매 화자 위치를 측정하는 단계를 수행한 이후에 상기 화자 위치를 저장하여 이력 데이터를 구성하고, 이로부터 3차원 좌표상에서의 가장 많이 추적된 위치를 화자 위치로 간주하는 보정을 수행할 수 있다.

이에 더하여, 화자 위치를 측정하는 단계를 수행한 이후, 측정된 화자 위치로 카메라를 이동시키는 단계와, 상기 카메라에 촬영되는 영상내의 움직임을 파악하는 단계와, 상기 움직임이 화자의 입모양의 움직임으로 판단되면, 상기 화자의 입모양을 카메라의 정 중앙에 위치하도록 카메라의 회전 및/또는 틸팅 제어를 수행하는 단계를 더 포함하여 화자의 위치를 카메라 영상의 정중앙에 위치시키는 것이 바람직하다.

전술한 방법을 수행하기 위한 화자 인식 시스템으로서, 3축으로 소정 간격 이격되어 배치되는 적어도 3개의 마이크로폰을 포함하는 마이크로폰 어레이와, 상기 마이크로폰에 수집되는 화자 음성의 도달시간의 차이와, 상기 각 마이크로폰의 위치로부터 화자의 위치를 추적하는 위치추적부와, 상기 위치추적부에서 추적한 화자의 위치로 카메라의 방향을 이동시키는 카메라 제어부를 포함하는 화자 인식 화상회의 시스템이 제공된다.

위 시스템은 촬영된 영상으로부터 화자의 입모양을 추출하여 입모양 움직임 여부를 파악하는 움직임 추출부를 더 포함할 수 있다.

본 발명은 다자간 회의 혹은 화상회의 환경에서 화자 인식과 화자의 위치를 추적할 수 있다.

또한, 화상회의 환경에서 화자의 위치를 추적하여 카메라를 현재 말하고 있는 화자로 자동으로 조정할 수 있으며, 후처리 기능으로써 위치에 따른 화자 인식 결과로 회의 내용을 각 화자로 매핑시켜 주는 기능으로 발전될 수 있다.

도 1은 다자간 회의 혹은 화상회의 환경의 개념도.
도 2는 마이크로폰 어레이 구조를 도시한 도면.
도 3은 3차원 좌표 추정의 설명을 위한 도면.

다자간 회의 혹은 화상회의 환경의 개념도는 도 1과 같다.

다자간 회의나 화상화의 환경은 좁은 공간에 다수의 사람들이 밀집되어 있으므로, 다른 경우에 비하여 화자의 위치 인식에 보다 정밀한 방식이 요구된다.

따라서, 본 발명에서는 적어도 3개의 마이크로폰 어레이를 활용하여 현재 화자의 위치를 3차원 좌표로 추정하여 인식/추적할 수 있도록 한다.

마이크로폰 어레이의 배치의 예시는 도 2와 같다.

상호 이격되어 분산 배치되어 화자로부터 발성되는 음성이 각 마이크로폰에 도달하는 시간의 차이가 발생할 수 있도록한다.

화자의 음성신호가 서로 다른 위치에 있는 마이크로폰으로 도착하는 시간 차이인 TDOA(Time Difference Of Arrival)를 측정하기 위하여 첫 번째로 각 마이크로폰에서 관측된 음성신호 간의 상호 상관 계수(Cross Correlation)를 계산한다.

상호 상관 계수 값이 가장 큰 값을 가질 때의 샘플 차이를 신호 간의 시간 차이로 정의하고, 두 마이크로폰의 거리 차이는 시간 차이와 공기 중의 소리의 속도를 곱하여 추정한다.

한편, 공기 중의 소리 속도는 일반적으로 340m/s로 계산될 수 있으나, 이는 영상 15도 기준 공기 중에서 소리의 속도이며, 실제로는 온도 및 밀도, 습도의 영향을 크게 받는다.

따라서, 본 발명에서는 화자 인식 시스템이 설치된 공간의 온도와 습도의 영향을 측정하여 보정을 거친 소리의 속도를 이용한다.

도 3은 화자의 위치(x, y, z)와 3개의 3축으로 분산 배치된 마이크로폰과의 공간 관계를 도시한 되면이다.

도 3에서 빨간색 점(x, y, z)에서 화자의 발화가 발생했다고 가정했을 때, 다음과 같은 수학식으로 나타낼 수 있다.

수학식 1 내지 3을 x,y,z 에 대하여 풀면 다음과 같은 수학식 4 내지 6으로 나타낼 수 있다.

그리고 수학식 4 내지 6을 수학식 1 내지 3에 대입하여 풀면 다음과 같이 x, y, z에 대한 2차식으로 나타낼 수 있다.

여기에서 k 는

이고, i 는

이며, j 는

이다. 따라서, 화자의 위치는 x,y,z에 대한 2차식 수학식 7 내지 9를 풀어서 측정할 수 있다.

한편, 도 2에 도시된 바와 같이 구성된 마이크로폰 어레이를 활용하여 전술한 방식에 따라 화자와의 거리에 따른 위치 추적 정확도를 실험하여 아래의 표 1과 같은 결과를 얻었다.

	화자와의 거리에 따른 평균 절대오류값
	x	y	z
100Cm	5.91	5.6	2.05
150Cm	6.59	7.02	2.6
200Cm	9.26	9.45	3.8

전반적으로 양호한 결과를 보였으나, 화자와 마이크로폰 어레이 간의 거리가 멀어질수록 정확도가 떨어지는 양상을 보임을 알 수 있다.

이는 마이크로폰 어레이를 구성하는 개별 마이크로폰들과 화자의 각도(α, β, γ)에 기인한 것으로서, 개별 마이크로폰과 화자간의 각도가 클수록 정확도가 높아진다.

즉, 마이크로폰 어레이를 화자와 근접시킬수록, 그리고 개별 마이크로폰 간의 간격을 크게 할수록 정확도는 높아진다. 하지만, 현실적인 물리적인 제약으로 인하여, 화자와의 근접도와 개별 마이크로폰의 간격은 어느 범위내에서 제한된다.

따라서, 본 발명에서는 정확도를 더욱 높이기 위하여 추가의 보정안을 제공한다.

도 4 내지 6은 전술한 실시예에 따라 2명, 5명, 7명의 화자가 회의를 하는 경우에 파악된 결과이다.

도시된 바와 같이, 측정시의 오류값으로 인하여 한 점에 집중되지는 않고 이산되어 있는 양상은 있지만, 동일 화자에 대한 위치 측정치는 일정 영역을 점유하고 있음을 알 수 있다.

따라서, 본 발명에서는 회의가 진행되면서 다수의 발화자의 위치가 측정된 분포값으로부터 화자의 위치를 추정하는 방식으로 화자 위치 추적 정확도를 높이는 방식을 취한다.

즉, 다수의 측정을 통하여 마이크로폰 어레이와 화자의 위치, 마이크로폰 어레이 내의 개별 마이크로폰간의 간격에 따라 평균 오류값은 일정한 양상을 보이게 되므로, 위치 추적된 결과치의 분포의 영역 역시 각 회의시마다 이용되는 마이크로폰 어레이의 구성 및 화자와 마이크로폰 어레이간의 거리에 따라서 일정한 양상을 보이게 되며, 분포 영역의 넓고 적음과 상관없이 분포 영역의 중심점 또는 각 영역에서 가장 많이 추적된 위치가 화자의 실제 위치일 가능성이 높다.

즉, 위치 추적 정확도를 높이기 위하여 추적 데이터를 지속적으로 저장 관리하며, 현재 측정된 시점에서의 이력 데이터를 파악하여 분포 영역의 중심점 또는 가장 많이 추적된 위치를 화자의 실제 위치로 간주하고, 이에 따라 카메라의 줌/스티어링 조정을 하면 보다 정확한 화상회의 시스템을 구현할 수 있다.

또한, 측정을 거듭하면서 축적된 이력 데이터의 분포 영역의 중심점과 가장 많이 추적된 위치가 일치할 경우에는 그 위치가 실제 화자의 위치인 것으로 간주한다.

물론, 다음 측정시 분포 영역을 미리 설정한 거리 이상 벗어나는 경우는 화자가 이동하는 것으로 간주하고 기존의 이력데이터를 소거하고 새로운 이력데이터를 수집하여 전술한 방식으로 추적된 위치를 보정한다.

이에 더하여, 보다 정밀도를 높이기 위하여, 카메라에 촬영되는 영상을 처리하여 보완할 수 있다.

1차로 전술한 수학식에 기초하여 화자의 위치를 추적한 후, 또는 이력 데이터를 이용하여 위치를 보정하여 대략의 위치를 파악한 후, 카메라에 촬영된 영상을 분석하여 화자들이 있는 공간내에서 현재 화자의 위치를 파악한다. 이를 위해서 카메라가 촬영한 영상과 화자들이 있는 공간의 좌표값 매칭 작업이 수반될 수 있다.

한편, 화상회의 시스템의 경우 화자의 절대 좌표값을 인식하는 것보다, 화자가 카메라의 중앙에 위치하도록 카메라를 조정하는 것이 더 중요한 일이 되는데, 이를 위해서 개략적으로 파악된 화자 위치로 카메라를 회전 및/또는 틸팅하여 카메라에 인식되는 입모양의 움직임을 영상처리를 통하여 파악하고 움직임이 있는 입모양을 카메라의 정중앙에 위치하도록 카메라의 회전각도를 조절함으로써 보다 정확하게 화자 영상을 제공하는 화상회의 시스템을 구현할 수 있다.

영상처리의 정확도를 높이기 위하여, 화자 입모양 움직임 영상을 파악하는 별도의 카메라가 구비되는 것도 좋다.

이상, 다자간 회의 또는 화상회의시 화자의 위치를 추적하는 방법과 화상회의시 보다 정확하고 자연스러운 카메라의 이동을 위한 각 실시예를 설명하였으나, 이는 본 발명의 구성을 설명하기 위한 예시일 뿐이고, 본 발명의 권리범위가 이에 한정되는 것은 아니다. 본 발명의 기술적 사상을 벗어나지 않는 다양한 변형과 변경의 실시 유형 역시 본 발명의 권리범위에 속함은 물론이며, 본 발명의 권리범위는 이하의 특허청구범위에 의하여 정하여져야 할 것이다.

Claims

적어도 3개 이상의 마이크로폰을 포함하는 마이크로폰 어레이의 각 마이크로폰의 3차원 좌표값을 특정하여 3차원 좌표의 3개 축에 할당하는 단계와,
화자의 발화음성을 수집하여, 상기 3개 이상의 마이크로폰 각각에 수신되는 화자 음성의 도달시간을 측정하는 단계와,
상기 3개 축에 할당된 각 마이크로폰에 도달하는 상기 화자 음성의 도달 시간의 차로부터 3차원 좌표상의 화자 위치를 측정하는 단계를 포함하고,
매 화자 위치를 측정하는 단계를 수행한 이후에, 상기 화자 위치를 저장하여 이력 데이터를 구성하고, 이로부터 3차원 좌표상에서의 분포 영역을 파악하여 그 중심에 해당하는 위치를 화자 위치로 간주하는 보정 단계를 더 포함하는
화자 위치 추적 방법.
삭제
제1항에 있어서,
매 화자 위치를 측정하는 단계를 수행한 이후에 상기 화자 위치를 저장하여 이력 데이터를 구성하고, 이로부터 3차원 좌표상에서의 가장 많이 추적된 위치를 화자 위치로 간주하는 보정 단계
를 더 포함하는 화자 위치 추적 방법.
제1항에 있어서, 상기 화자 위치를 측정하는 단계를 수행한 이후,
측정된 화자 위치로 카메라를 이동시키는 단계와,
상기 카메라에 촬영되는 영상내의 움직임을 파악하는 단계와,
상기 움직임이 화자의 입모양의 움직임으로 판단되면, 상기 화자의 입모양을 카메라의 정 중앙에 위치하도록 카메라의 회전 및/또는 틸팅 제어를 수행하는 단계
를 더 포함하는 화자 위치 추적 방법.
3축으로 소정 간격 이격되어 배치되는 적어도 3개의 마이크로폰을 포함하는 마이크로폰 어레이와,
상기 마이크로폰에 수집되는 화자 음성의 도달시간의 차이와, 상기 각 마이크로폰의 위치로부터 화자의 위치를 추적하되, 매 화자 위치를 측정한 후, 상기 화자 위치를 저장하여 이력 데이터를 구성하고, 이로부터 3차원 좌표상에서의 분포 영역을 파악하여 그 중심에 해당하는 위치를 화자 위치로 간주하는 보정 단계를 더 수행하는 위치추적부와,
상기 위치추적부에서 추적한 화자의 위치로 카메라의 방향을 이동시키는 카메라 제어부를 포함하는 화자 인식 화상회의 시스템.
제5항에 있어서,
촬영된 영상으로부터 화자의 입모양을 추출하여 입모양 움직임 여부를 파악하는 움직임 추출부를 더 포함하는 화자 인식 화상회의 시스템.