KR20120097296A

KR20120097296A - 다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템 및 방법

Info

Publication number: KR20120097296A
Application number: KR1020110016798A
Authority: KR
Inventors: 곽근창
Original assignee: 곽근창
Priority date: 2011-02-24
Filing date: 2011-02-24
Publication date: 2012-09-03

Abstract

본 발명은 다중화자의 동시발생 음성신호의 다중음원에 대한 분리방법으로 로봇에 부착된 다채널 음원보드과 원형 마이크로폰 어레이로부터 취득된 다중화자의 동시발생 음성신호로부터 분석되어진다. 먼저, 혼합된 음성신호로부터 수정된 부공간분석기법에 의해 각 화자의 방향과 거리를 추정하고, 이러한 정보에 기반하여 수정된 최소분산 빔포밍방법에 의해 음원을 분리한다. 이렇게 분리된 음성정보로부터 각 화자의 위치와 방향을 알고, 화자가 누구이며 무슨 명령을 내리고 있는지의 통합 로봇청각시스템을 구현한다. 또한, 음성신호만에 의한 화자추적을 할 경우 음성이 발성되지 않은 구간에 대해서는 화자 추적이 어려우므로 로봇카메라에 얻어진 영상과 결합한 멀티모달 화자추적을 수행한다.

Description

다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템 및 방법 {Robot auditory system through sound separation from multi-channel speech signals of multiple speakers}

본 발명은 지능형 서비스 로봇환경에서 로봇핵심 응용기술인 시청각기반 인간-로봇 상호작용기술 가운데 다중화자의 동시발생 음성에 대해서 음원분리기 및 그에 따른 로봇청각시스템에 관한 것으로 상세하게는 로봇환경에서 획득한 다채널 음성신호로부터 수정된 부공간 분석방법에 의한 다중 음성들의 방향과 거리를 추정하고, 얻어진 방향과 거리정보에 근거하여 수정된 최소분산 빔포밍에 의해 음원들을 분리하며, 최종적으로 분리된 음성으로부터 음성 인식과 화자추적 및 화자인식을 하는 통합 로봇청각시스템에 관한 것이다.

다중화자의 동시발성 음성에 대한 음원추적 및 음원분리 기술과 음성인식, 화자추적 및 인식을 포함한 통합 로봇 청각시스템은 맞춤형 로봇 서비스 응용에 활용될 수 있으며, 차세대 지능형 로봇산업을 이끌어갈 로봇전문 기술인력을 양성할 수 있을 뿐만 아니라 후속연구를 파생시킬 수 있다. 기술의 응용방법으로는 홈서비스 로봇, 교육 및 오락로봇, u-헬스 로봇 등과 같은 서비스로봇뿐만 아니라 다양한 신호처리관련 응용분야에 적용이 가능하다.

국외 배경기술로 도시바는 호출하는 화자에게 로봇의 머리를 회전하는 음원추적기술을 보유하고 있지만 현재 음원을 분리하는 기술은 연구되고 있지 않고 있다. NEC는 각 화자의 헤드셋을 통해 얻어진 입력 신호를 분리하고 분리된 음성을 통해 인식을 수행하는 제한된 음원분리 기술을 보유하고 있지만, 실제 로봇환경에서 화자가 헤드셋을 부착하기에는 어려운 문제점이 있다. 혼다는 호출음성을 듣고 음원추적을 수행하고 얼굴인식을 통해 사용자가 누구인지 알아낼 수 있지만, 다중화자의 동시발성 음성에 대한 음원분리 기술은 보유하고 있지 않고 있다. 교토대학은 음원분리를 통해 간단한 숫자 혹은 명령어 음성인식을 수행하고 있지만, 음성을 발성한 각 화자가 누구인지 알 수 있는 화자인식 기술은 보유하고 있지 않고 있다. MIT는 오감기반 지능적 상호작용을 할 수 있는 로봇 등에 대한 연구를 수행하고 있으며, 모터 소음을 피하기 위해 각 화자의 입 근처에 부착된 싱글 마이크로폰을 이용하고 있기 때문에 다채널을 통한 음원분리 기술은 포함하고 있지 않은 실정이다. 현재 미국과 유럽은 다양한 형태의 지능형 서비스 로봇을 위해 인간-로봇 상호작용 관련 기술개발 및 연구가 활발히 진행 중이지만 상용화 수준에 이르지 못하고 있으며, 다중화자의 동시발성 음성에 대한 음원추적 및 분리기술은 일본에 비해 연구가 미진한 실정이다.

국내배경기술로는 로봇환경에서 음원분리에 대한 초기연구가 있었지만 기초적인 연구만을 수행하고, 지속적으로 연구가 진행되지 않았으며, 일부 연구자들에 의해 BSS(Blind Source Separation)연구가 진행되고 있지만, 지능형 로봇에서 음원분리 기술을 성공적으로 적용한 사례가 없다.

본 발명은 로봇응용 서비스를 수행하기 위해 여러 명이 로봇주위에서 동시에 발성한 다채널 음성신호로부터 음원추적 및 음원분리를 수행하고, 분리된 음성으로부터 음성인식, 화자추적 및 화자인식을 통한 통합 로봇청각시스템 및 방법을 제공하고자 하는 것을 목적으로 한다. 이렇게 함으로써, 인간친화적인 청각시스템을 통해 로봇주위에 있는 화자의 거리, 방향 등을 알고, 화자가 누구인지 무슨 명령을 하고 있는지를 알 수 있어 맞춤형 로봇 응용서비스를 수행할 수 있다.

상기 목적을 달성하기 위한 본 발명의 음원 분리기는 로봇에 장착된 원형 마이크로폰 어레이로부터 다중화자의 다채널 음성신호들을 획득하는 입력수단; 수정된 부공간 분석방법에 의한 다중 음성들의 방향과 거리를 추정하고, 얻어진 방향과 거리정보에 근거하여 수정된 최소분산 빔포밍에 의해 분리된 음성신호의 분석수단을 포함하여 구성될 수 있다.

본 발명의 실시예에 따른 음원분리 및 로봇청각시스템은 다채널 음성신호를 입력받아 음성을 검출하는 단계; 검출된 음성신호에서 부공간 분석방법에 의한 방향과 거리를 계산하는 단계; 수정된 최소분산 빔포밍 방법에 의해 음원을 분리하는 단계; 분리된 음원으로부터 음성인식을 수행하는 단계; 분리된 음성신호로부터 화자를 인식하고 추적하는 단계; 로봇카메라에 의한 화자추적 보정단계를 포함하여 구성될 수 있다.

본 발명에 따른 음원분리기 및 통합 로봇청각시스템을 통해 다중화자의 동시발생 음성신호로부터 음원추적을 수행하여 각 화자의 방향 및 위치를 추적하고, 이 정보에 근거하여 각 화자의 음성들을 분리하여 각 화자가 로봇에게 무슨 명령을 하고 있는지를 알 수 있다. 또한, 로봇 주위에 있는 각 화자가 누구이며 어떤 방향과 위치에서 음성을 발생하였는지와 어떤 방향과 경로를 통해 이동하고 있는지를 알 수 있는 다중 화자추적을 동시에 수행할 수 있는 이점을 가지고 있다.

도 1은 본 발명의 실시예에 따른 다중화자의 동시발성 음성신호에 대한 음원분리기의 신호흐름을 도시한 블록도이다.
도 2는 본 발명의 실시예에 따른 다중화자의 동시발성 음성신호에 대한 음원분리 및 통합 로봇청각시스템의 각 단계를 도시한 순서도이다.

첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 살펴본다. 도 1은 본 발명의 실시예에 따른 다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템의 신호흐름을 도시한 블록도이다.

상기 실시예에 따른 음원분리기는 다채널 음원보드와 마이크로폰으로부터 다중화자의 동시발생 음성신호를 획득하는 입력수단(10)과 수정된 부공간분석기법에 의해 화자의 방향과 거리를 추정하고, 수정된 최소분산 빔포밍방법에 의해 음원을 분리하기 위한 분석수단(20)을 포함하여 구성된다.

도 2는 본 발명의 실시예에 따른 다중화자의 동시발성 음성신호에 대한 음원분리와 그에 따른 통합 로봇청각시스템의 각 단계를 도시한 순서도이다. 상기 실시예에 따른 음원분리는 입력수단(10)에서 서비스로봇에 장착된 다채널 음원보드로부터 얻어진 음성신호를 입력받는 것으로 시작된다(S201).

다채널기반 음성신호처리 기술의 음원파형은 평면 파형으로 다루어지기 때문에, 다채널기반 음성신호처리는 좀 더 간단하고 쉽게 수행된다. 그러나, 서비스 로봇환경에서 실제 화자들은 마이크로폰 배열근처인 로봇주위에서 종종 대화를 한다. 음원소스가 마이크로폰 배열 근처에 있을 때, 음성 필드는 근거리 필드로 다루어져야만 한다. TV 컨퍼런스에서 개발되어지는 것과 같은 대규모 마이크로폰 배열에 대해서, 근거리 필드 설계는 마이크로폰 사이의 위상 차이의 변동이 크기 때문에 상대적으로 쉽다. 이 경우에 전형적인 DSBF(delay-and-sum beamformer)방법은 잘 작동한다. 한편, 서비스 로봇에서 사용하는 소규모 마이크로폰 배열에 대해서는 위상차이의 변동이 적기 때문에 다채널기반 음성신호처리를 어렵게 만든다. 고성능 다채널 음성신호처리기술로써 알려진 부공간 분석의 수정된 방법(MSA: Modified Subspace Analysis)이 근거리 필드에서 음원추적에 대해 적용되어진다. 이렇게 수정된 방법에 의해, 근거리 필드에서 다중화자의 동시발성 음성소스에 대해 방향과 거리를 동시에 추정할 수 있다. 다음 단계는 음원소스의 추정된 위치정보에 근거로 해서, 공간 역 필터가 다중음원으로부터 오는 신호들을 분리할 수 있는 수정된 최소분산 빔포밍(MMSB: Modified Minimum Variance Beamforming)을 이용함으로써 설계되어진다. 다중화자의 동시발성 음성에 대한 음원추적 및 분리 기술에 대해서 간략히 살펴보면 다음과 같다.

원거리 필드문제에 대해서 발전된 일반적인 부공간 어레이 처리기술을 먼저 살펴보면, 공간 상관 행렬은 각 주파수에서 독립적으로 정의되어진다.

는 m번째 마이크로폰에서 입력신호의 단구간 푸우리에 변환을 나타내며, k는 주파수 지수이며 M은 마이크로폰의 수이다. 입력벡터가 다음 모델을 만족한다고 가정하면 수학식 1과 같이 정의되어진다.

수학식 1

벡터 는 d번째 소스에 대한 위치벡터이며, 근거리 필드에서 이 벡터는 수학식 2와 같이 표현되어진다.

수학식 2

과

은 각각 d번째 소스부터 m번째 마이크로폰까지 거리와 전파시간이며, 는 이산치 각 주파수,

는 d번째 소스의 주파수 스펙트럼이다.

는 m번째 마이크로폰에서 관측된 배경잡음의 스펙트럼을 나타낸다.

공간 상관행렬

의 고유치 분해는 수학식 3과 같으며,

는 고유벡터 행렬을 나타내고, 그것의 열은 의 고유벡터로 구성된다. 행렬 는 고유 행렬이며, 그것들의 대각성분은

의 고유치로 구성된다.

수학식3

SNR이 높고 배경잡음이 방향성이 없다고 가정하면, 방향성의 신호에너지는 D개의 가장 큰 고유치로 집중되며, 배경잡음의 에너지는 모든 고유치에 대해 균등하게 펼쳐진다. 또한, 가장 큰 D개의 고유치에 대응하는 고유벡터는 위치벡터에 의해 스팬된 부공간의 기저가 된다. 나머지 고유벡터는 신호 부공간의 직교 부공간의 기저가 된다. 이것에 의해 스팬된 공간은 잡음 부공간이다. 직교성을 이용함으로써, 공간 스펙트럼은 수학식 4에 의해 추정되어진다.

수학식 4

벡터

는 임의의 방향벡터이며, 전체방향에 대해 스팬되어진다.

가 소스 방향벡터의 하나와 매치될 때

의 피크값을 주면서 직교성으로 인해 0이 된다. 부공간방법을 소규모 어레이를 가진 근거리 필드문제에 적용하는 것에 대해서, 방향벡터 는 수학식 5와 같이 정규화된 위치 벡터에 의해 표현되어진다.

수학식 5

벡터

는 포인트

에 대한 위치벡터이며,

과

은

에서의 포인트로부터 m번째 마이크로폰까지 전파시간과 거리이다.

이렇게 함으로써 음원소스의 방향뿐만 아니라 거리를 추정할 수 있다. 음원분리에 대해서 MMVB에 의해 공간 역 필터가 설계된다. 여기서 공간 역 필터는 추정된 위치정보로부터 구축되어진다. 만약

와

가 상관관계가 없다고 가정하면, 공간 상관행렬은 수학식 6과 같이 표현되어진다.

수학식 6

직접적으로

의 추정을 이용하는 것 대신에 본 과제에서는 가상 상관행렬을 사용하는 수정된 방법이 적용되어진다. Q는 방향요소를 추출하는 공간 역 필터의 구축에 사용되며, 행렬

는 음원추적에 의해 추정되어진 위치벡터이다. 대각행렬

는 음원소스의 가상 상호 스펙트럼 행렬이고, 그것의 대각요소들은 가상적인 방향 음원들의 전력 스펙트럼에 대응한다. 대각 요소들은 역 필터의 파라미터들이며 원하는 방향성 패턴을 얻기 위해 임의로 선택되어진다. 이와 관련된 내용은 수학식 7과 같다.

수학식7

한편,

는 시스템에 대해 DSBF와 같은 방향성을 더함으로써 방향성이 없는 배경 잡음이 줄어든다.

는 가상 배경잡음의 상관행렬이고

에 대응되어진다.

는 가상 노이즈의 파워를 나타내며, 임의로 선택되어질 수 있는 시스템 파라미터이다.

를 이용함으로써, d번째 소스에 대한 음원소스 전력 스펙트럼은 수학식 8과 같이 추정되어진다.

수학식 8

마지막으로 얻어진 음원 분리된 신호를 가지고 통합 로봇청각시스템인 음성인식과 화자인식 및 추적을 수행한다. 최종적으로 음성신호만에 의한 화자추적을 할 경우 음성이 발성되지 않은 구간에 대해서는 추적이 어려우므로 로봇카메라에 의한 영상과 결합한 멀티모달 형태의 화자추적이 수행된다.

Claims

로봇에 부착된 다채널 음원보드와 원형 어레이 마이크로폰을 통해 얻어진 다중화자의 동시발생 음성신호로부터 수정된 부공간분석에 의해 화자의 방향과 거리를 추정하고, 수정된 최소분산 빔포밍방법에 의해 음원을 분리하는 방법
분리된 음성정보로부터 각 화자의 위치와 방향을 알고, 화자가 누구이며 무슨 명령을 내리고 있는지의 통합 로봇청각시스템을 구현하는 방법
음성신호만에 의한 화자추적을 할 경우 음성이 발성되지 않은 구간에 대해서는 추적이 어려우므로 로봇카메라에 얻어진 영상과 결합한 멀티모달 형태의 화자를 추적하는 방법