KR20080088669A

KR20080088669A - 오디오 및 비디오 소스 데이터를 분리하고 평가하는 기술

Info

Publication number: KR20080088669A
Application number: KR1020087022807A
Authority: KR
Inventors: 아라 네피안; 쉬얌순다르 라자람
Original assignee: 인텔 코오퍼레이션
Priority date: 2004-03-30
Filing date: 2005-03-25
Publication date: 2008-10-02
Also published as: KR101013658B1; JP2007528031A; CN1930575A; US20050228673A1; EP1730667A1; WO2005098740A1; KR20070004017A; JP5049117B2; CN1930575B

Abstract

오디오와 비디오를 분리하고 평가하는 방법, 시스템, 및 장치가 제공된다. 오디오와 비디오를 캡처하고; 상기 비디오를 평가하여 하나 이상의 화자들의 스피킹을 검출한다. 시각적 특징들을 상기 화자들의 스피킹과 연관시킨다. 각각의 화자와 연관된 오디오를 분리시킬 목적으로 또한 오디오와 연관된 잡음을 필터링 제거(filtering out)할 목적으로 오디오와 비디오를 분리하고 오디오의 대응 부분들을 상기 시각적 특징들에 매핑시킨다.

오디오, 음성 인식, 시각적 특징

Description

오디오 및 비디오 소스 데이터를 분리하고 평가하는 기술{TECHNIQUES FOR SEPARATING AND EVALUATING AUDIO AND VIDEO SOURCE DATA}

본 발명의 실시예들은 일반적으로 오디오 인식에 관한 것이며, 보다 상세하게는 오디오와 함께 시각적 특징들을 이용하여 음성 프로세싱을 향상시키는 기술에 관한 것이다.

음성 인식은 소프트웨어 기술분야에서 계속 진보되고 있다. 대부분 분야에서, 하드웨어의 향상으로 인해 이러한 진보는 가능해졌다. 예를 들어, 프로세서들이 더욱 빠르고 더욱 저렴해졌으며, 메모리 사이즈가 프로세서 내에서 더욱 커지고 더욱 풍부해졌다. 그 결과, 프로세싱 및 메모리 디바이스들 내에서 정확하게 음성을 검출하고 프로세싱하는데 상당한 진보가 이루어졌다.

그러나, 가장 강력한 프로세서 및 풍부한 메모리에도 불구하고, 음성 인식은 많은 점에서 문제점이 존재한다. 예를 들어, 소정의 화자로부터 오디오가 캡처되는 경우에, 화자의 환경과 관련된 다양한 배경 잡음이 종종 존재한다. 이러한 배경 잡음은 화자가 실제로 말할 때를 검출하기 곤란하게 하고, 캡처된 오디오의 어느 부분들이 무시되어야 하는 배경 잡음에 기인한 것인지에 반해 캡처된 오디오의 어느 부분들이 화자에 기인한 것인지를 검출하기 곤란하게 한다.

둘 이상의 화자가 음성 인식 시스템에 의해 모니터되는 경우에 또 다른 문제점이 발생할 수 있다. 이는 화상 회의 중과 같은 2인 이상의 사람들이 대화하는 경우에 발생한다. 음성은 대화로부터 적절하게 수집될 수도 있지만, 화자들 중 특정인과 적절히 연관되지 못할 수도 있다. 또한, 복수의 화자들이 존재하는 환경에서는, 2인 이상의 사람이 실제로 동시에 말할 수도 있는데, 이는 기존 및 종래의 음성 인식 시스템에서 상당한 분해 문제점을 발생시킨다.

대부분의 종래의 음성 인식 기술은 주로 캡처된 오디오에 초점을 맞추고 몇몇 결정 및 분해를 행하기 위하여 광범위한 소프트웨어 분석을 이용함으로써 이러한 문제점들 및 다른 문제점들을 다루려고 시도하였다. 그러나, 음성이 발생하는 경우에 화자와 함께 발생하는 시각적인 변화도 존재하는데, 즉 화자의 입이 위아래로 움직인다. 이러한 시각적 특징들은 종래의 음성 인식 기술을 증대시키고 더욱 견고하고 정확한 음성 인식 기술을 생성하는데 이용될 수 있다.

따라서, 서로 오디오 및 비디오를 제휴하여 분리 및 평가하는 향상된 음성 인식 기술이 요구되고 있다.

제1 화자 및 제2 화자의 전자적 비디오를 모니터하고, 말하는 제1 및 제2 화자와 연관된 오디오를 동시에 캡처하며, 제1 및 제2 화자들이 그들 각자의 입을 움직이고 있는 때를 검출하기 위해 비디오를 분석하고, 그 분석에 기초하여 캡처된 오디오의 부분들을 제1 화자에 매칭시키고 다른 부분들을 제2 화자에 매칭시키며, 그 분석이 제1 및 제2 화자들에 대한 입의 움직임을 검출하지 못할 때 오디오의 캡처를 중지하고, 제1 화자가 제2 화자와 동시에 말하는 경우에도 캡처된 오디오에서 제1 화자가 제2 화자와 구별되는 오디오 및 비디오 소스의 분리 및 분석 방법이 제공된다.

화자가 말할 때 오디오가 반영되므로, 그 결과는 보다 정확한 음성 분석용 오디오의 표현이다. 또한, 오디오는 하나 이상의 화자가 카메라에 의해 캡처되는 경우에 특정 화자의 것이라 여겨질 수 있다. 이는 다른 오디오 특징들과 연관된 하나의 화자의 음성이 다른 오디오 특징과 연관된 다른 화자의 음성과 분간되게 할 수 있다. 또한, 다른 프레임들 (프레임들은 입 동작을 나타내지 않음) 로부터의 잠재적인 잡음은 그 주파수 대역에 따라 용이하게 식별될 수 있으며 그들이 이야기할 때 화자들과 연관된 주파수 대역으로부터 편집될 수 있다. 이러한 방식으로, 보다 정확한 음성의 반영이 화자의 환경으로부터 획득되고 필터링되며, 다 른 화자들과 연관된 음성이 2인의 화자가 동시에 이야기하는 때라도 보다 정확하게 구분될 수 있다.

도 1a 는 오디오 및 비디오를 분리 및 평가하는 하나의 방법 (100A) 의 흐름도이다. 이러한 방법은 컴퓨터 액세스 가능한 매체로 구현된다. 일 실시예에서, 이러한 프로세싱은 하나 이상의 프로세서들 상에 존재하고 그 위에서 실행되는 하나 이상의 소프트웨어 애플리케이션이다. 몇몇 실시예에서, 소프트웨어 애플리케이션들은 분배를 위해 탈착가능한 컴퓨터 판독가능 매체 상에 구현되어 프로세싱 디바이스와 인터페이스할 경우에 실행용 프로세싱 디바이스로 로딩된다. 다른 실시예에서, 소프트웨어 애플리케이션은 서버 또는 원격 서비스와 같이, 네트워크를 통한 원격 프로세싱 디바이스상에서 프로세싱된다.

또 다른 실시예에서, 하나 이상의 소프트웨어 명령의 부분들이 네트워크를 통해 원격 장치로부터 다운로딩되고 로컬 프로세싱 디바이스상에서 인스톨 및 실행된다. 소프트웨어 명령으로의 액세스는 임의의 배선 (hardwired), 무선 또는 배선 및 무선 네트워크의 조합을 통해 발생할 수 있다. 또한, 일 실시예에서, 방법 프로세싱의 몇몇 일부는 프로세싱 디바이스의 펌웨어 내에 구현되거나 프로세싱 디바이스 상에서 프로세싱하는 동작 시스템 내에서 구현될 수도 있다.

우선, 이러한 방법 (100A) 을 포함하는 프로세싱 디바이스에 인터페이스되는 카메라(들) 및 마이크로폰(들) 에 환경이 제공된다. 몇몇 실시예에서, 카메라 및 마이크로폰은 동일한 장치 내에서 통합된다. 다른 실시예에서, 카메라, 마이 크로폰 및 이러한 방법 (100A) 을 갖는 프로세싱 디바이스는 모두 프로세싱 디바이스 내에 통합된다. 카메라 및/또는 마이크로폰이 이러한 방법 (100A) 을 실행시키는 프로세싱 디바이스 내에 직접 통합되지 않는다면, 비디오 및 오디오는 임의의 배선, 무선, 또는 배선과 무선 접속의 조합 또는 변환을 통해 프로세서에 전달될 수 있다. 이러한 카메라는 비디오 (즉, 시간에 따라 변하는 화상들) 를 전자적으로 캡처하고 마이크로폰은 오디오을 전자적으로 캡처한다.

이러한 방법 (100A) 을 프로세싱하는 목적은, 하나 이상의 화자와 연관된 적절한 오디오 (음성) 를 정확하게 연관시키는 베이지안 망과 연관된 파라미터들을 학습시키고, 또한 화자의 환경과 연관된 잡음을 정확하게 식별하여 배제시키기 위함이다. 이를 행하기 위해서, 이러한 방법은 트레이닝 세션 동안 화자들과 연관된 캡처된 전자적 오디오 및 비디오를 샘플링하는데, 오디오는 마이크로폰(들) 에 의해 전자적으로 캡처되고 비디오는 카메라(들) 에 의해 전자적으로 캡처된다. 오디오-비주얼 데이터 시퀀스는 시간 0 에서 시작하여 시간 T 까지 계속되는데, 여기에서 T 는 0 보다 큰 정수이다. 시간의 단위는 밀리초, 마이크로초, 초, 분, 시 등이 될 수 있다. 트레이닝 세션의 길이 및 시간의 단위들은 이러한 방법 (100A) 에 구성가능한 파라미터들이며, 본 발명의 임의의 특정 실시예에 한정하는 것으로 의도되지 않는다.

110 에서, 카메라는 카메라의 시야에 있는 하나 이상의 화자들과 연관된 비디오를 캡처한다. 이러한 비디오는 프레임들과 연관되며 각각의 프레임은 트레이닝 세션에 대한 특정 시간의 단위와 연관된다. 동시에, 비디오가 캡처될 때 에, 111 에서 마이크로폰은 화자들과 연관된 오디오를 캡처한다. 110 및 111 에서의 비디오 및 오디오는 이러한 방법 (100A) 을 실행하는 프로세싱 디바이스에 액세스 가능한 환경 내에서 전자적으로 캡처된다.

비디오 프레임들이 캡처되면, 이들은 이러한 프레임 내에서 캡처된 화자들의 얼굴들 및 입들을 검출할 목적으로 112 에서 분석 또는 평가된다. 각각의 프레임 내에서의 얼굴들과 입들의 검출은 언제 화자들의 입들이 움직이고 언제 화자들의 입들이 움직이지 않는지를 결정하기 위해 수행된다. 우선, 얼굴들을 검출하는 단계는 분석된 프레임 각각의 화소 영역을 화자의 얼굴들로서 식별된 영역으로 한정함으로써 입과 연관된 동작을 검출하는 단계의 복잡성을 감소시키는데 보조한다.

일 실시예에서, 얼굴 검출은 하나의 프레임 내에서 하나의 얼굴을 식별하도록 트레이닝된 신경망을 이용함으로써 달성된다. 신경망으로의 입력은 복수의 화소들을 갖는 프레임이고, 출력은 하나의 화자의 하나의 얼굴을 식별하는 보다 작은 화소들을 갖는 원래 프레임의 보다 작은 부분이다. 그 후, 얼굴을 나타내는 화소들은 얼굴 내의 입을 식별하고 분석용으로 순차적으로 제공되는 각각의 얼굴로부터 입의 변화를 모니터하는 화소 벡터 매칭 및 분류기 (classifier) 에 전달된다.

이를 수행하기 위한 하나의 기술은 입 영역을 이루는 화소들의 총 개수를 계산하는 것인데, 이를 위해서 연속된 프레임들과 함께 발생하는 절대적 차이는 구성가능한 임계값을 증가시킨다. 이러한 임계값은 구성가능하고, 이것이 초과된다 면 이는 입이 동작하였음을 나타내고, 이것이 초과되지 않았다면 이는 입이 동작하지 않음을 나타낸다. 프로세싱된 프레임들의 시퀀스는 임계값을 갖는 구성가능한 필터 사이즈 (예를 들어, 9 또는 기타) 로 저역 통과 필터링되어 시각적 특징들과 연관된 이진 시퀀스를 생성할 수 있다.

시각적 특징들은 113 에서 생성되고, 어떠한 프레임들이 입 동작을 포함하고 어떠한 프레임들이 동작하지 않는 입을 포함하는지를 나타내는 프레임들과 연관된다. 이러한 방식으로, 각각의 프레임들은 트랙킹 (tracking) 및 모니터되어 캡처된 비디오에 대한 프레임들이 프로세싱될 때 언제 화자의 입이 동작하고 언제 동작하지 않는지를 결정한다.

비디오 프레임들 내에서 화자가 말하는지 말하는 때 및 말하지 않는 때를 식별하는 전술한 예시적인 기술들은 본 발명의 실시예를 한정하는 것으로 의도되지 않는다. 이러한 예시들은 설명의 목적으로 제공되며, 이전에 프로세싱된 프레임에 대하여 하나의 프레임 내의 입이 동작하는지 또는 동작하지 않는지를 식별하는데 이용되는 임의의 기술이 본 발명의 실시예에 속하는 것으로 의도된다.

120 에서, 믹싱된 오디오 비디오가 마이크로폰으로부터의 오디오 데이터 및 시각적 특징들 양자를 이용하여 서로 분리된다. 이러한 오디오는 비디오의 업샘플링된 (upsampled) 캡처 프레임들에 직접 대응하는 시간선 (time line) 과 연관된다. 비디오 프레임들은 사운드 신호들과는 다른 레이트로 캡처된다 (종래의 장치는 종종 30 fps (초당 프레임) 를 허용하며, 오디오는 14.4 Kfps (킬로 (천) 초당 프레임) 로 캡처됨). 또한, 비디오의 각각의 프레임은 화자의 입이 언제 동 작하고 언제 동작하지 않는지를 식별하는 시각적 특징들을 포함한다. 다음으로, 오디오는 화자의 입이 동작함을 나타내는 시각적 특징들을 갖는 대응하는 프레임들의 동일한 시간 구획 (time slice) 에 대하여 선택된다. 즉, 130 에서, 프레임들과 연관된 시각적 특징들은 프레임 및 오디오 양자와 연관된 동일한 시간 구획 동안 오디오와 매칭된다.

화자가 말할 때 오디오가 반영되므로, 그 결과는 보다 정확한 음성 분석용 오디오의 표현이다. 또한, 오디오는 하나 이상의 화자가 카메라에 의해 캡처되는 경우에 특정 화자의 것이라 여겨질 수 있다. 이는 다른 오디오 특징들과 연관된 하나의 화자의 음성이 다른 오디오 특징과 연관된 다른 화자의 음성과 분간되게 할 수 있다. 또한, 다른 프레임들 (프레임들은 입 동작을 나타내지 않음) 로부터의 잠재적인 잡음은 그 주파수 대역에 따라 용이하게 식별될 수 있으며 그들이 이야기할 때 화자들과 연관된 주파수 대역으로부터 편집될 수 있다. 이러한 방식으로, 보다 정확한 음성의 반영이 화자의 환경으로부터 획득되고 필터링되며, 다른 화자들과 연관된 음성이 2인의 화자가 동시에 이야기하는 때라도 보다 정확하게 구분될 수 있다.

오디오 및 비디오를 정확하게 분리하고 특정 화자를 갖는 오디오의 선택적인 일부에 오디오를 적절하게 재매칭 (re-matching) 하는 것과 연관된 특징 및 파라미터가 이러한 분리를 모델링하고 베이지안 망에서 재매칭하기 위한 목적으로 형식화되고 표현될 수 있다. 예를 들어, 오디오 및 시각적 관측은 Z_it=[W_it×X_it··· W_it×X_Mt]^T, t=1-T (여기에서 T 는 정수임) 로 나타내어질 수 있는데, 이는 믹싱된 오디오 관측 X_jt, j=1-M 과 시각적 특징 W_it, i=1-N 사이의 곱으로서 획득되고, 여기에서 M 은 마이크로폰의 개수이고 N 은 오디오-비주얼 소스 또는 화자의 개수이다. 이러한 오디오 및 비주얼 관측의 선택은 어떠한 비주얼 음성도 관측되지 않을 때에 오디오 신호의 급격한 감소를 허용함으로서 사운드의 침묵 검출을 향상시킨다. 오디오 및 비주얼 음성 믹싱 프로세스는 이하의 식과 같이 주어질 수 있다:

식 (1)-(5) 에서, s_it 는 시간 t 에서 i^th 화자에 대응하는 오디오 샘플이고, C_s 는 오디오 샘플들의 공분산 (covariance) 행렬이다. 식 (1) 은 오디오 소스들의 정적 독립을 나타낸다. 식 (2) 는 평균 0 의 가우시안 (Gaussian) 밀도 함수를 나타내고, 공분산 C_s 는 각각의 소스에 대한 사운드 샘플들을 나타낸다. 식 (3) 의 파라미터 b 는 동일한 화자에 대응하는 연속적인 오디오 샘플들 사이의 선형 관계를 나타내고, C_ss 는 연속적인 시간의 순간에서의 사운드 샘플들의 공분산 행렬이다. 식 (4) 는 사운드 믹싱 프로세스를 나타내는 가우시안 밀도 함수를 표현하는데, A=[a_ij],i=1-N,j=1-M 은 오디오 믹싱 행렬이고, C_x 는 믹싱된 관측 오디오 신호의 공분산 행렬이다. V_i 는 오디오-비주얼 관측 Z_it 를 알려지지 않은 분리된 소스 신호들과 관련시키는 M×N 행렬이다. 이러한 오디오 및 비주얼 베이스 믹싱 모델은 (식 (1) 에서 식별되는) 소스 독립 제약을 갖는 칼만 (Kalman) 필터로서 관측될 수 있다. 모델 파라미터들을 학습시키는데 있어서, 오디오 관측의 백화 (whitening) 는 행렬 A 의 초기 추정값을 제공한다. 모델 파라미터들 A, V, bi, Cs, Css 및 Cz 는 최우 추정법 (maximum likelihood estimation method) 을 이용하여 학습된다. 또한, 이러한 소스들은 제약된 칼만 필터 및 학습된 파라미터들을 이용하여 추정된다. 이러한 파라미터들은 비주얼 관측 및 잡음의 관점에서 화자들의 음성을 모델링하는 베이지안 망을 구성하는데 이용될 수 있다. 모델 파라미터들을 갖는 샘플 베이지안 망은 도 1b 의 100B 도면에서 도시된다.

도 2 는 오디오 및 비디오 분리 및 평가에 대한 다른 방법 200 의 흐름도이다. 이러한 방법 200 은 컴퓨터 판독가능 및 액세스가능 매체에 구현된다. 이러한 방법 200 의 프로세싱은 탈착가능한 컴퓨터 판독가능 매체상에, 오퍼레이팅 시스템 내, 펌웨어 내, 방법 200 을 실행하는 프로세싱 디바이스와 연관된 메모리 또는 스토리지 (storage) 내, 또는 이러한 방법이 원격 서비스로서 동작하는 원격 프로세싱 디바이스 내에 전체 또는 부분적으로 구현될 수 있다. 방법 200 과 연관된 명령들은 네트워크를 통해 액세스될 수 있고, 이러한 네트워크는 배선, 무선, 또는 배선 및 무선의 조합일 수 있다.

처음에, 카메라 및 마이크로폰 또는 복수의 카메라들 및 마이크로폰들이 하나 이상의 화자들과 연관된 비디오 및 오디오를 모니터 및 캡처하도록 구성된다. 이러한 오디오 및 비주얼 정보는 210 에서 전자적으로 캡처 또는 기록된다. 다음으로, 211 에서, 비디오가 오디오로부터 분리되지만, 비디오 및 오디오가 필요하다면 후의 스테이지에서 재믹싱될 수 있도록, 비디오 및 오디오는 시간과 각각의 비디오 프레임 및 각각의 기록된 오디오의 각 부분을 연관시키는 메타데이터 (metadata) 를 보유한다. 예를 들어, 비디오의 프레임 1 은 시간 1 과 연관될 수 있고, 시간 1 에서 오디오와 연관된 오디오 단편 (snippet) 1 이 존재한다. 이러한 시간 의존성은 비디오 및 오디오와 연관된 메타데이터이고, 단일 멀티미디어 데이터 파일에서 비디오 및 오디오를 함께 재믹싱하거나 재통합하는데 이용될 수 있다.

다음으로, 220 및 221 에서, 비디오 프레임들이 각각의 프레임들과 시각적 특징들을 획득 및 연관시키기 위하여 분석된다. 시각적 특징들은 화자가 이야기하는 때에 대한 단서를 제공하는, 언제 화자의 입이 동작하는지 또는 동작하지 않는지를 식별한다. 몇몇 실시예에서, 시각적 특징들은 비디오 및 오디오가 211 에서 분리되기 전에 캡처 또는 결정된다.

일 실시예에서, 화자들의 얼굴들을 나타내는 화소 세트로 각각의 프레임 내에서 프로세싱을 다운시킬 필요가 있는 화소들을 감소시킬 목적으로 222 에서 신경망을 프로세싱함으로써, 비주얼 큐 ( visual cue) 가 각각의 비디오 프레임과 연관된다. 일단 얼굴 영역이 알려지면, 프로세싱된 프레임의 얼굴 화소들은, 화자들 의 입들이 223 에서 동작하는 또는 동작하지 않는 때를 검출하는 필터링 알고리즘으로 전달된다. 필터링 알고리즘은, 화자의 입이 동작한다고 (열렸다고) 검출된 때에 이전의 프로세싱된 프레임들에 대해 화자가 말하고 있다는 결정이 이루어지도록, 이전의 프로세싱된 프레임들을 추적한다. 각각의 비디오 프레임과 연관된 메타데이터는 화자들의 입들이 동작하는 또는 동작하지 않는 때를 식별하는 시각적 특징들을 포함한다.

일단 모든 비디오 프레임들이 프로세싱되면, 이미 분리되지 않았다면 오디오 및 비디오가 211 에서 분리되고, 후속적으로 230 에서 오디오 및 비디오가 서로 재매칭되거나 재믹싱된다. 매칭 프로세스동안, 화자의 입이 동작하는지를 나타내는 시각적 특징들을 갖는 프레임들은 231 에서 동일한 시간 구획동안 오디오와 재믹싱된다. 예를 들어, 비디오의 프레임 5 가 화자가 말하고 있음을 나타내는 시각적 특징을 가지고, 프레임 5 는 시간 10 에 기록되고 시간 10 에서의 오디오 단편이 획득되고 프레임 5 와 재믹싱된다고 생각할 수 있다.

몇몇 실시예에서, 화자가 말하고 있음을 나타내는 시각적 특징들을 갖지 않는 프레임에서 오디오와 연관된 주파수 대역이 240 에서 잠재적 잡음으로 표시되고, 화자가 말하는 프레임에 매칭되는 오디오로부터 동일한 잡음을 제거할 목적으로 화자가 말하고 있음을 나타내는 프레임에서 사용될 수 있도록, 매칭 프로세스는 보다 견고해질 수 있다.

예를 들어, 제1 주파수 대역이 화자가 말하고 있지 않은 프레임들 1-9 에서의 오디오 내에서 검출되고 및 프레임 (10) 에서 화자가 말하고 있다고 하자. 제 1 주파수 대역은 또한 대응 오디오가 프레임 (10) 에 매칭됨에 따라 나타난다. 프레임 (10) 은 제 2 주파수 대역을 갖는 오디오와 또한 매칭된다. 따라서, 제 1 주파수 대역이 잡음이라는 것이 판정되었으므로, 이런 제 1 주파수 대역은 프레임 (10) 에 매칭된 오디오로부터 필터링 제거 (filtered out) 될 수 있다. 그 결과, 프레임 (10) 에 매칭된 확실히 더 정확한 오디오 단편을 얻게 되고, 이는 이 오디오 단편에 대하여 수행되는 음성 인식 기술을 향상시킨다.

비슷한 방식으로, 동일 프레임 내의 두 개의 다른 화자 간을 구별하는 데에 이 매칭이 사용될 수 있다. 예를 들어, 프레임 (3) 에서 제 1 화자가 말하고, 프레임 (5) 에서 제 2 화자가 말하는 상황을 고려해보자. 다음으로, 프레임 (10) 에서 제 1 및 제 2 화자 모두가 동시에 말하는 상황을 상정하자. 프레임 (3) 과 관련된 오디오 단편은 제 1 세트의 시각적 특징을 갖고, 프레임 (5) 에서의 오디오 단편은 제 2 세트의 시각적 특징을 갖는다. 따라서, 프레임 (10) 에서, 오디오 단편은 각각의 별개의 세그먼트가 다른 화자와 연관되면서 두 개의 별개의 세그먼트로 필터링될 수 있다. 잡음 제거에 관해 이상 논의한 기술은, 캡처된 오디오의 명확성을 더 향상시키기 위해서, 동시에 말하고 있는, 별개의 화자들 간을 구별하는 데에 사용되는 기술들과 통합될 수 있고 이 기술들에 의해 확장될 수 있다. 이는 음성 인식 시스템이 분석을 위해 더 신뢰성 있는 오디오를 구비하도록 하여 줄 수 있다.

몇몇 실시예에서, 도 1a 를 참조하여 앞서 논의한 대로, 매칭 프로세스가 형식화(formalize) 되어 베이지안 망을 구성하는 데에 (241) 사용될 수 있는 파라미 터들을 생성할 수 있다. 파라미터들로 구성된 베이지안 망은, 다음 차례에서 화자들과 상호작용하고 잡음 제거를 위한 동적 결정을 내리고 다른 화자들 간을 구별하고 동일 시점에 말하고 있는 다른 화자들 간을 구별하는 데에 사용될 수 있다. 이후 베이지안 망이 임의의 주어진 시점에서 오디오가 잠재적 잡음인 것을 인식했을 때, 이 네트워크는 몇몇 오디오에 대해 필터링 제거하거나 제로 출력을 산출할 수 있다.

도 3 은 오디오 및 비디오를 분리하고 평가하는 또 다른 방법 (300) 의 흐름도이다. 본 방법은 소프트웨어 명령들, 펌웨어 명령들 또는 소프트웨어 및 펌웨어 명령들의 조합과 같은 컴퓨터 판독 가능 및 액세스가능 매체에서 구현될 수 있다. 명령들은 임의의 네트워크 연결 상에서 원격으로 프로세스 디바이스상에 인스톨되거나, 운영 체제 내에 미리 인스톨되거나 또는 하나 또는 그 이상의 탈착 가능 컴퓨터 판독 가능 매체로부터 인스톨될 수 있다. 방법 (300) 의 명령들을 실행하는 프로세스 디바이스는 또한, 별개의 카메라 또는 마이크로폰 장치들, 복합 마이크로폰 및 카메라 장치, 또는 프로세스 디바이스와 통합된 카메라 및 마이크로폰 장치와 인터페이스한다.

310 에서, 제 1 화자 및 말하고 있는 제 2 화자와 연관되어 비디오가 모니터된다. 모니터된 비디오와 동시적으로, (310A) 에서, 제 1 및 제 2 화자들의 음성 (voice) 과 연관되어 화자들의 환경과 연관된 임의의 배경 잡음과 연관되어 오디오가 캡처된다. 비디오는 화자들의 화상들과 이들의 주변 일부를 캡처하고 오디오는 화자들 및 이들의 환경과 연관된 음성 (speech) 을 캡처한다.

320 에서, 비디오는 프레임들로 성분 분해된다. 각각의 프레임은 이것이 기록되었던 특정의 시간과 연관된다. 더욱이, 각각의 프레임은 화자들의 입의 동작 또는 비동작을 검출하도록 분석된다. 몇몇 실시예에서, 321 에서, 이는 프레임들을 더 작은 조각들로 성분 분해하고 이후 시각적 특징을 각각의 프레임과 연관지움으로써 성취된다. 시각적 특징은 어느 화자가 말하고 있고 어느 화자가 말하지 않고 있는지를 표시한다. 일 시나리오에서, 이는, 먼저 각각의 프로세스된 프레임 내에서 화자들의 얼굴들을 식별하는 훈련된 신경망 (trained neural network) 을 사용하고 그 후 이전에 프로세스된 프레임들에 대해 상대적으로 얼굴들과 연관된 입들의 동작을 살펴보는 벡터 분류 또는 매칭 알고리즘에게 이 얼굴들을 전달함으로써 이뤄질 수 있다.

322 에서, 시각적 특징을 획득할 목적으로 각각의 프레임을 분석한 후에, 오디오와 비디오를 분리시킨다. 비디오의 프레임 또는 오디오의 단편 각각은, 이들이 처음에 언제 캡처 혹은 기록되었는지와 연관된 시간 스탬프를 포함한다. 이 시간 스탬프는, 필요하면, 오디오가 적당한 프레임들과 리믹싱되게 허용하고, 오디오가 화자들 중 특정한 하나와 보다 정확하게 매칭되도록 허용하며, 잡음이 감소되거나 제거되도록 허용한다.

330 에서, 오디오의 일부는 제 1 화자와 매칭되고, 오디오의 일부는 제 2 화자와 매칭된다. 이는 각각의 프로세스된 프레임 및 그 시각적 특징에 기초한 다양한 방식으로 행해질 수 있다. 매칭은, 331 에서, 분리된 오디오와 비디오의 시간 종속성에 기초하여 발생한다. 예를 들어, 332 에 나타낸 바와 같이, 프레 임들이, 어떠한 화자도 말을하고 있지 않는 것을 나타내는 시각적 특징들을 갖고 있는, 동일한 시간 스탬프 (stamp) 를 갖는 오디오에 매칭된 프레임들을 이용하여, 화자들의 환경 내에서 발생하고 이는 잡음과 관련된 주파수들의 대역을 식별할 수 있다. 프레임들 및 대응하는 오디오 단편들에서 식별된 잡음 주파수 대역을 이용하여, 검출된 음성을 보다 명확하고 선명하게 할 수 있다. 게다가, 단 하나의 화자만이 말하고 있는, 오디오에 매칭된 프레임들을 이용하여, 고유의 오디오 특징들을 이용함으로써 양쪽 화자들이 서로 다른 프레임에서 소리를 내고 있는 때를 식별할 수 있다.

일부 실시예들에서, 340 에서, 화자에 의해 발생하고 있는 후속 상호작용에 대하여 320 및 330 의 분석 및/또는 매칭 프로세스를 모델링할 수 있다. 즉, 베이지안 망 (Bayesian network) 은 분석 및 매칭을 정의하는 파라미터로 구성되어, 베이스 모델이, 후속 시간에 제 1 및 제 2 화자를 갖는 세션에 직면했을 때 음성 분리 및 인식을 결정하고 향상시킬 수 있게 된다.

도 4 는 오디오 및 비디오 소스 분리 및 분석 시스템 (400) 의 도면이다. 오디오 및 비디오 소스 분리 및 분석 시스템 (400) 은 컴퓨터 액세스 가능 매체에 구현되며, 도 1a-3 및 방법 100A, 200 및 300 각각에 대하여 전술한 기술을 구현한다. 즉, 비디오 중에 화자들로부터 나오는 오디오와 제휴하여 화자들과 관련된 비디오를 평가하는 기술을 포함함으로써, 동작시에, 오디오 및 비디오 소스 분리 및 분석 시스템 (400) 이 음성의 인식을 향상시킨다.

오디오 및 비디오 소스 분리 및 분석 시스템 (400) 은 카메라 (401), 마이크 로폰 (402) 및 프로세싱 디바이스 (403) 를 포함한다. 일부 실시예들에서, 3개의 디바이스들 (401-403) 이 하나의 복합 디바이스에 통합된다. 다른 실시예들에서, 3개의 디바이스들 (401-403) 이 인터페이스하여 로컬 또는 네트워킹된 접속을 통해 서로 통신한다. 통신은 배선 접속, 무선 접속 또는 배선 접속과 무선 접속의 조합을 통해 발생할 수 있다. 게다가, 일부 실시예들에서는, 카메라 (401) 및 마이크로폰 (402) 이 단일의 복합 디바이스 (예컨대, 비디오 캠코더 등) 에 통합되어 프로세싱 디바이스 (403) 에 인터페이스한다.

프로세싱 디바이스 (403) 는 명령들 (404) 을 포함하며, 이들 명령들 (404) 은 도 1a-3의 방법 100A, 200 및 300에서 제시한 기술을 각각 구현한다. 명령들은 프로세서 (403) 및 그 관련 메모리 또는 통신 명령들을 통해 마이크로폰 (402) 으로부터 오디오 그리고 카메라 (401) 로부터 비디오를 수신한다. 비디오는 말을 하고 있거나 혹은 그렇지 않은 하나 이상의 화자들의 프레임들을 나타내고, 오디오는 화자들과 관련된 배경 잡음 및 음성과 관련된 오디오를 나타낸다.

명령들 (404) 은 시각적 특징들과 각 프레임을 관련시킬 목적으로 오디오의 각 프레임을 분석한다. 시각적 특징들은, 하나의 특정 화자 또는 화자 둘 모두가 말을 하고 있거나 말을 하고 있지 않은 때를 식별한다. 일부 실시예들에서는, 명령들 (404) 이 다른 애플리케이션 또는 명령들의 세트와 제휴하여 이를 성취한다. 예를 들어, 각각의 프레임은 트레이닝된 신경망 애플리케이션 (404A) 으로 식별된 화자들의 얼굴을 가질 수 있다. 프레임들 내의 얼굴들이, 얼굴들의 입들이 움직이는지 움직이지 않는지 여부를 검출하기 위해, 프레임들의 얼굴들을 이전에 프로세스된 프레임들의 얼굴들에 대하여 평가하는 벡터 매칭 애플리케이션 (404B) 에 전달될 수 있다.

시각적 특징들이 비디오의 각 프레임과 관련된 이후에 명령들 (404) 은 오디오 및 비디오 프레임들을 분리한다. 오디오 단편과 비디오 프레임 각각은 시간 스탬프를 포함한다. 시간 스탬프는 카메라 (401), 마이크로폰 (402), 또는 프로세서 (403) 에 의해 할당될 수 있다. 다르게는, 명령들 (404) 이 오디오 및 비디오를 분리할 때 명령들 (404) 은 그 시점에 시간 스탬프를 할당한다. 시간 스탬프는 분리된 오디오 및 비디오를 재믹싱하고 재매칭하는데 사용할 수 있는 시간 의존성을 제공한다.

다음으로, 명령들 (404) 은 프레임들 및 오디오 단편들을 독립적으로 평가한다. 따라서, 어떠한 화자도 말하고 있지 않음을 나타내는 시각적 특징들을 갖는 프레임들은, 잠재적 잡음을 식별할 목적으로, 오디오 단편들과 그들의 대응 주파수 대역의 매칭을 식별하기 위해 사용될 수 있다. 잠재적 잡음은 화자가 말하고 있음을 나타내는 시각적 특징들을 갖는 프레임으로부터 필터링될 수 있어, 오디오 단편들의 명료성을 개선할 수 있고, 이 명료성은 오디오 단편을 평가하는 음성 인식 시스템을 개선할 것이다. 명령들 (404) 은 각각의 개별 화자와 관련된 공유의 오디오 특징들을 평가하고 분별하는데 사용될 수도 있다. 다시, 이 고유의 오디오 특징들은 단일 오디오 단편을 각각 고유의 화자와 관련된 고유의 오디오 특징을 갖는 두 개의 오디오 단편으로 분리하는데 사용될 수 있다. 따라서, 명령들 (404) 은 다수의 화자들이 동시에 말할 때 개개의 화자를 인지할 수 있다.

일부 실시예에서, 명령들 (404) 이 카메라 (401) 및 마이크로폰 (402) 을 통해 하나 이상의 화자들과 초기에 상호작용하는 것으로부터 습득하고 수행하는 프로세싱은 베이지안 망 애플리케이션 (404C) 으로 형성될 수 있는 파라미터 데이터로 일정한 형태를 갖추게 될 수 있다. 이는, 베이지안 망 애플리케이션으로 하여금, 화자들과의 후속 스피킹 세션에서 명령들 (404) 에 독립적인 카메라(401), 마이크로폰 (402), 및 프로세서 (403) 와 상호작용하는 것을 허가한다. 화자들이 새로운 환경에 있다면, 명령들 (404) 은 다시 베이지안 망 애플리케이션 (404C) 에 의해 사용될 수 있어, 그 성능을 개선할 수 있다.

도 5 는 오디오 및 비디오 소스 분리 및 분석 장치 (500) 에 대한 도이다. 오디오 및 비디오 소스 분리 및 분석 장치 (500) 는 컴퓨터 판독가능 매체 (501) 에 위치하고, 소프트웨어, 펌웨어, 또는 소프트웨어와 펌웨어의 조합으로 구현된다. 하나 이상의 프로세싱 디바이스로 로딩되는 경우에 오디오 및 비디오 소스 분리 및 분석 장치 (500) 는 음성이 발생할 때 동시에 모니터되는 오디오를 통합함으로써 하나 이상의 화자들과 관련된 음성의 인식을 개선한다. 오디오 및 비디오 소스 분리 및 분석 장치 (500) 는 하나 이상의 컴퓨터 판독가능 매체 혹은 원격 저장 위치에 전적으로 위치할 수 있고 그 후에 실행을 위한 프로세싱 디바이스에 전달될 수 있다.

오디오 및 비디오 소스 분리 및 분석 장치 (500) 는 오디오 및 비디오 소스 분리 로직 (502), 얼굴 검출 로직 (503), 입 검출 로직 (504), 및 오디오 및 비디오 매칭 로직 (505) 을 포함한다. 얼굴 검출 로직 (503) 은 비디오 프레임들 내 에 있는 얼굴들의 위치를 검출한다. 일 실시예에서, 얼굴 검출 로직 (503) 은 화소들로 이루어진 프레임을 취득하고, 이 화소들로 이루어진 서브셋이 하나의 얼굴인지 혹은 복수의 얼굴인지를 식별하기 위해 설계된 정규 신경망 (trained neural network) 이다.

입 검출 로직 (504) 은 얼굴들과 연관된 화소들을 취하고 얼굴의 입과 관련된 화소들을 식별한다. 입 검출 로직 (504) 은 또한 얼굴의 입이 움직이거나 움직이지 않는 때를 결정하기 위하여 서로 관련된 얼굴들의 복수의 프레임들을 평가한다. 입 검출 로직 (504) 의 결과들은, 오디오 비디오 매칭 로직에 의하여 소비되는 시각적 특징으로서 비디오의 각각의 프레임과 연관된다.

입 검출 로직 (504) 이 시각적 특징들을 비디오의 각각의 프레임과 연관시켰으면, 오디오 및 비디오 분리 로직 (503) 은 오디오로부터 비디오를 분리시킨다. 일부 실시예들에서, 오디오 및 비디오 분리 로직 (503) 은 입 검출 로직 (504) 이 각각의 프레임을 프로세스하기 전에 오디오로부터 비디오를 분리한다. 비디오의 각각의 프레임 및 오디오의 각각의 단편은 시간 스탬프들을 포함한다. 이 시간 스탬프들은 분리시에 오디오 및 비디오 분리 로직 (502) 에 의하여 할당될 수 있거나, 비디오를 캡처하는 카메라 및 오디오를 캡처하는 마이크로폰과 같이, 다른 프로세스에 의하여 할당될 수 있다. 또는, 비디오 및 오디오를 캡처하는 프로세서는 비디오 및 오디오를 시간 스탬프하는 명령들을 사용할 수 있다.

오디오 및 비디오 매칭 로직 (505) 은 비디오 프레임들 및 오디오의 분리된 시간 스탬프된 스트림들을 수신하며, 비디오 프레임들은 입 검출 로직 (504) 에 의 하여 할당된 관련 시각적 특징들을 갖는다. 각각의 프레임 및 단편은 그 후 잡음의 식별, 특정하고 고유한 화자들과 연관된 스피치의 식별을 위하여 평가된다. 이 매칭 및 선택적 리믹싱과 연관된 파라미터들은 말하는 화자를 모델링하는 베이지안 망을 구성하도록 이용될 수 있다.

오디오 및 비디오 소스 분리 및 분석 장치 (500) 의 일부 구성요소들은 다른 구성요소들에 포함될 수 있으며 도 5 에 포함되지 않은 일부 추가적인 구성요소들이 부가될 수 있다. 따라서, 도 5 는 예시적인 목적으로만 제시되며 본 발명의 실시예들을 제한하려는 것이 아니다.

상기 설명은 예시적인 것이며, 제한적인 것이 아니다. 상기 설명을 복습하면 많은 다른 실시예들이 당업자에게는 자명할 것이다. 따라서, 본 발명의 실시예들의 범위는 첨부된 청구범위들과, 그 청구범위에 부여된 균등물들의 전체 범위를 참조하여 결정되어야 한다.

독자가 기술적인 개시의 본질 및 요지를 신속히 확인하도록 하는 요약서를 요구하는 37 C.F.R.§1.72(b)에 부합하기 위한 요약서가 제공된다. 요약서는 청구범위의 범위 또는 의미를 해석하거나 제한하기 위하여 이용되지 않을 것이라는 이해를 갖고 제시된다.

실시예들에 대한 이전의 설명에서, 본 개시를 합리화하기 위하여 단일의 실시예에 다양한 특징들이 그룹화되어 있다. 이러한 개시의 방법은 본 발명의 청구된 실시예들은 각각의 청구항에 명확하게 기재된 것보다 더 많은 특징들을 요구하는 의도를 반영하는 것으로서 해석되지 않는다. 오히려, 이하의 청구범위가 반영하는 바와 같이, 본 발명의 주제는 단일의 개시된 실시예의 모든 특징들보다 작게 존재한다. 따라서, 이하의 청구범위는 실시예들의 설명에 포함되며, 각각의 청구항은 별도의 예시적인 실시예로서 존재한다.

도 1a 는 오디오 및 비디오 분리 및 평가를 위한 방법의 흐름도이다.

도 1b 는 도 1 의 방법으로부터 생성된 모델 파라미터들을 갖는 예시적인 베이지안 망 (Bayesian network) 의 도이다.

도 2 는 오디오 및 비디오 분리 및 평가를 위한 다른 방법의 흐름도이다.

도 3 은 오디오 및 비디오 분리 및 평가를 위한 또 다른 방법의 흐름도이다.

도 4 는 오디오 및 비디오 소스 분리 및 분석 시스템의 도이다.

도 5 는 오디오 및 비디오 소스 분리 및 분석 장치의 도이다.

Claims

오디오 및 비디오 소스의 분리 및 분석 방법으로서,

제1 화자 및 제2 화자의 전자적 비디오를 모니터하는 단계와;

말하는 상기 제1 및 제2 화자와 연관된 오디오를 동시에 캡처하는 단계와;

상기 제1 및 제2 화자들이 그들 각자의 입을 움직이고 있는 때를 검출하기 위해 상기 비디오를 분석하는 단계와;

상기 분석에 기초하여 상기 캡처된 오디오의 부분들을 상기 제1 화자에 매칭시키고 다른 부분들을 상기 제2 화자에 매칭시키는 단계와;

상기 분석이 상기 제1 및 제2 화자들에 대한 입의 움직임을 검출하지 못할 때 오디오의 캡처를 중지하는 단계

를 포함하고,

상기 제1 화자가 상기 제2 화자와 동시에 말하는 경우에도 상기 캡처된 오디오에서 상기 제1 화자가 상기 제2 화자와 구별되는 오디오 및 비디오 소스의 분리 및 분석 방법.