KR20210145733A

KR20210145733A - 신호 처리 장치 및 방법, 그리고 프로그램

Info

Publication number: KR20210145733A
Application number: KR1020217028642A
Authority: KR
Inventors: 나오야 다카하시
Original assignee: 소니그룹주식회사
Priority date: 2019-03-27
Filing date: 2020-03-13
Publication date: 2021-12-02
Also published as: BR112021018647A2; EP3951777A4; US20220189496A1; US11862141B2; WO2020195924A1; EP3951777A1; CN113646837A

Abstract

본 기술은, 보다 간단하게 음원 분리를 할 수 있도록 하는 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이다. 신호 처리 장치는, 소정의 음원을 포함하는 학습용 음향 신호로부터 소정의 음원을 분리하도록 미리 학습된 소정의 음원 분리 모델에 의한 음원 분리를, 입력된 음향 신호에 대하여 재귀적으로 행하는 음원 분리부를 구비한다. 본 기술은 신호 처리 장치에 적용할 수 있다.

Description

신호 처리 장치 및 방법, 그리고 프로그램

본 기술은, 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것으로, 특히 보다 간단하게 음원 분리를 할 수 있도록 한 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이다.

예를 들어 복수 화자의 음성 인식(예를 들어, 특허문헌 1 참조)이나 캡셔닝, 음성의 명료화 등, 복수 화자의 동시 발화를 분리하여 취급하고 싶은 상황은 많이 존재한다.

종래, 복수의 화자의 발화가 포함된 혼합 음성의 음향 신호를, 각 화자의 음향 신호로 분리하는 음원 분리 방법으로서, 방향 정보를 사용하는 방법(예를 들어, 특허문헌 2 참조)이나, 음원의 독립성을 가정하는 방법이 제안되어 있다.

그러나, 그들 방법에서는, 단일의 마이크로폰에서의 실현이나, 복수의 음원으로부터의 소리의 도래 방향이 동일한 방향인 상황에서의 대응이 곤란하였다.

그래서, 이러한 상황에서 동시에 발화된 음성을 분리하는 방법으로서, Deep Clustering(예를 들어, 비특허문헌 1 참조)이나 Permutation Invariant Training(예를 들어, 비특허문헌 2 참조)이 알려져 있다.

일본 특허 공표 제2017-515140호 공보 일본 특허 공개 제2010-112995호 공보

J. R. Hershey, Z. Chen, and J. Le Roux, "Deep Clustering: Discriminative Embeddings for Segmentation and Separation" M. Kolbaek, D. Yu, Z.-H. Tan, and J. Jensen, "Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 10, pp. 1901-1913, 2017.

그러나, 상술한 기술에서는, 화자수가 미지인 혼합 음성으로부터 각 화자의 발화를 분리하는 것은 용이하지 않았다.

예를 들어 Deep Clustering이나 Permutation Invariant Training에서는, 동시에 발화한 화자의 수가 기지인 것이 전제로 되어 있다.

그러나, 일반적으로 화자수가 미지인 상황은 수많이 존재한다. 그러한 경우, 이들 방법에서는 화자수를 추정하는 모델이 별도로 필요해지고, 화자수마다 화자의 발화를 분리하는 음원 분리 모델(분리 알고리즘)을 준비하는 등, 알고리즘을 전환할 필요가 있다.

그 때문에, 이들 방법에 의해 화자수가 미지인 혼합 음성으로부터 화자마다의 발화를 분리하려고 하면, 개발 시간의 증대나 음원 분리 모델을 유지해두기 위한 메모리양 증가가 발생하고, 또한 화자수의 추정이 정확하게 행해지지 않았을 때에는 대폭 성능이 악화되어버린다.

본 기술은 이러한 상황을 감안하여 이루어진 것이며, 보다 간단하게 음원 분리를 할 수 있도록 하는 것이다.

본 기술의 일 측면의 신호 처리 장치는, 소정의 음원을 포함하는 학습용 음향 신호로부터 상기 소정의 음원을 분리하도록 미리 학습된 소정의 음원 분리 모델에 의한 음원 분리를, 입력된 음향 신호에 대하여 재귀적으로 행하는 음원 분리부를 구비한다.

본 기술의 일 측면의 신호 처리 방법 또는 프로그램은, 소정의 음원을 포함하는 학습용 음향 신호로부터 상기 소정의 음원을 분리하도록 미리 학습된 소정의 음원 분리 모델에 의한 음원 분리를, 입력된 음향 신호에 대하여 재귀적으로 행하는 스텝을 포함한다.

본 기술의 일 측면에 있어서는, 소정의 음원을 포함하는 학습용 음향 신호로부터 상기 소정의 음원을 분리하도록 미리 학습된 소정의 음원 분리 모델에 의한 음원 분리가, 입력된 음향 신호에 대하여 재귀적으로 행해진다.

도 1은 재귀적인 음원 분리에 대하여 설명하는 도면이다.
도 2는 신호 처리 장치의 구성예를 나타내는 도면이다.
도 3은 음원 분리 처리에 대하여 설명하는 흐름도이다.
도 4는 재귀적인 음원 분리에 대하여 설명하는 도면이다.
도 5는 신호 처리 장치의 구성예를 나타내는 도면이다.
도 6은 음원 분리 처리에 대하여 설명하는 흐름도이다.
도 7은 컴퓨터의 구성예를 나타내는 도면이다.

이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.

<제1 실시 형태>

<본 기술에 대하여>

먼저, 본 기술의 개요에 대하여 설명한다. 여기에서는, 복수의 화자가 동시에, 또는 다른 타이밍에 발화하였을 때의 혼합 음성을 하나 또는 복수의 마이크로폰에 의해 수음(收音)함으로써 얻어진 입력 음향 신호로부터, 단일의 음원 분리 모델을 사용하여 각 화자의 발화(음성)을 분리하는 예에 대하여 설명한다.

특히, 여기에서는 입력 음향 신호에 기초하는 혼합 음성에 포함되는 화자수는 미지인 것으로 한다. 본 기술로는, 단일의 음원 분리 모델을 사용하여, 입력 음향 신호에 대하여 재귀적으로 음원 분리를 행함으로써, 보다 간단하게 입력 음향 신호로부터 불특정한 미지수의 각 화자의 발화(음성)을 분리할 수 있도록 하였다.

또한, 여기에서는 음원의 소리가 화자의 발화인 예에 대하여 설명하지만, 이에 한정되지 않고, 동물의 울음 소리나 악기 소리 등 어떤 것이어도 된다.

본 기술에서 사용되는 음원 분리 모델은, 입력 음성을 화자에 따라서 분리하도록 학습된 뉴럴 네트워크 등의 모델이다. 즉, 음원 분리 모델은, 음원으로서의 화자의 발화를 포함하는 혼합 음성의 학습용 음향 신호로부터, 화자의 발화 음향 신호를 분리하도록 미리 학습된 것이다.

음원 분리 모델은, 소정의 음원 분리 알고리즘에 따라서 연산 계수를 사용한 연산을 행함으로써, 입력 음향 신호를 각 음원(화자)의 음향 신호(이하, 분리 신호라고도 칭함)로 분리하는 것이며, 음원 분리 알고리즘과 연산 계수에 의해 실현된다.

본 기술에서는, 화자수가 미지 또는 기지인 혼합 음성의 입력 음향 신호에 대하여 음원 분리 모델을 사용한 음원 분리가 행해진다.

그리고, 얻어진 분리 신호에 기초하여, 소정의 종료 조건이 충족되었는지의 여부가 판정되고, 종료 조건이 충족되었다고 판정될 때까지, 분리 신호에 대하여 동일한 음원 분리 모델에 의한 음원 분리가 재귀적으로 행해지고, 최종적으로 각 음원(화자)의 분리 신호가 얻어진다.

여기서, 구체적인 예로서, 음원으로서의 2명의 화자의 발화가 포함되는 학습용 음향 신호를, 한쪽 화자의 발화를 포함하는 분리 신호와, 다른 쪽 화자의 발화를 포함하는 분리 신호로 분리하도록 학습된 2 화자 분리 모델을 음원 분리 모델로서 사용하는 경우에 대하여 설명한다.

이러한 음원 분리 모델은, 예를 들어 Deep Clustering이나 Permutation Invariant Training 등의 학습 방법에 의한 학습에 의해 얻을 수 있다.

2 화자 분리 모델에서는, 화자수가 2명인 혼합 음성의 입력 음향 신호가 입력되었을 때에는, 각 화자의 발화(음성)의 분리 신호를 음원 분리 결과로서 출력하는 것이 기대된다.

또한, 2 화자 분리 모델에서는, 화자수가 1명인 음성의 입력 음향 신호가 입력되었을 때에는, 그 1명의 화자의 발화의 분리 신호와, 무음의 분리 신호를 음원 분리 결과로서 출력할 것이 기대된다.

한편, 2 화자 분리 모델의 입력, 즉 입력 음향 신호가 3 화자 이상의 복수 화자의 혼합 음성의 신호일 경우에는, 그러한 혼합 음성은 2 화자 분리 모델의 학습 시에는 나타나지 않은 입력이 된다.

이 경우, 3 화자의 혼합 음성의 입력에 대하여, 예를 들어 도 1에 나타내는 바와 같이 한쪽의 분리 신호에 2 화자의 발화(음성)가 포함되도록 음원 분리가 행해진다.

도 1에 나타내는 예에서는, 입력 음향 신호에 기초하는 혼합 음성에는 화자 PS1 내지 화자 PS3의 3명의 화자의 발화가 포함되어 있다.

이러한 입력 음향 신호에 대하여, 화살표 Q11에 나타내는 바와 같이 2 화자 분리 모델에 의해 음원 분리, 즉 화자 분리를 행한 결과, 한쪽의 분리 신호에는 화자 PS1의 발화만이 포함되고, 다른 쪽의 분리 신호에는 화자 PS2 및 화자 PS3의 발화만이 포함되도록 혼합 음성이 분리된다.

또한, 예를 들어 화살표 Q12에 나타내는 바와 같이 화자 PS1의 발화만이 포함되어 있는 분리 신호에 대하여, 2 화자 분리 모델에 의해 추가로 음원 분리를 행한 결과, 한쪽의 분리 신호에는 화자 PS1의 발화만이 포함되고, 다른 쪽의 분리 신호는 무음 신호가 되게 음성이 분리된다.

마찬가지로, 예를 들어 화살표 Q13에 나타내는 바와 같이 화자 PS2 및 화자 PS3의 발화만이 포함되어 있는 분리 신호에 대하여, 2 화자 분리 모델에 의해 또한 음원 분리를 행한 결과, 한쪽의 분리 신호에는 화자 PS2의 발화만이 포함되고, 다른 쪽의 분리 신호에는 화자 PS3의 발화만이 포함되도록 혼합 음성이 분리된다.

이렇게 입력 음향 신호에 대하여 동일한 2 화자 분리 모델에 의해 재귀적으로 음원 분리를 행하면, 화자 PS1 내지 화자 PS3의 각각만이 포함되는 분리 신호가 얻어진다.

이 예에서는, 화살표 Q11에 나타내는 1회째의 음원 분리가 행해진 시점에 있어서, 얻어진 분리 신호에는 최대라도 2 화자의 발화밖에 포함되어 있지 않고, 대부분의 경우, 입력 음향 신호가 3 화자의 발화의 분리 신호와 무음의 분리 신호로 분리되는 일은 없다.

따라서, 1회째의 음원 분리가 행해진 시점에서, 모든 분리 신호는 2 화자 분리 모델에 의해 해석하는 것이 가능한 음성, 즉 화자마다의 분리 신호를 얻을 수 있는 신호로 되어 있으며, 그러한 분리 신호에 대하여 화살표 Q12나 화살표 Q13에 나타내는 바와 같이 재귀적인 음원 분리를 행함으로써 각 화자의 분리 신호를 얻을 수 있다.

또한, 입력 음향 신호가 4 이상의 화자수의 발화의 혼합 음성인 경우에도, 재귀적으로 행하는 음원 분리의 횟수를 증가시킴으로써, 최종적으로 화자마다의 분리 신호를 얻을 수 있다.

또한, 입력 음향 신호에 대하여 재귀적으로 음원 분리를 행하여 각 화자의 분리 신호를 분리(추출)하는 경우, 입력 음향 신호의 혼합 음성의 화자수가 미지(불명)일 때에는, 재귀적인 음원 분리를 종료하기 위한 종료 조건이 필요해진다.

이 종료 조건은, 음원 분리로 얻어진 분리 신호가 1명의 화자의 발화만이 포함되는 신호일 때에 충족되는 조건, 바꾸어 말하면, 분리 신호에 2 이상의 화자의 발화가 포함되어 있지 않은 상태로 되었을 때에 충족되는 조건이 된다.

여기에서는, 일례로서 음원 분리에 의해 얻어진 한쪽의 분리 신호가 무음 신호인 경우, 보다 상세하게는 한쪽의 분리 신호의 평균 레벨(에너지)이 소정의 역치 이하인 경우에 종료 조건이 충족된, 즉 각 화자의 분리 신호가 얻어졌다고 여기는 것으로 한다.

이상과 같은 본 기술에 의하면, 입력 음향 신호의 화자수가 미지인 경우에도, 화자수를 추정하는 모델이나 화자수마다의 음원 분리 모델, 음원의 방향을 나타내는 방향 정보 등을 필요로 하지 않고 간단하게 음원 분리를 행하여, 각 음원(화자)의 분리 신호를 얻을 수 있다.

따라서, 본 기술에서는 음원 분리 모델 등의 개발 시간의 증대나 음원 분리 모델을 유지해두기 위한 메모리양의 증가를 대폭 억제할 수 있다.

즉, 본 기술에서는, 입력 음향 신호의 화자수에 구애받지 않고, 하나의 음원 분리 모델에서 각 화자의 분리 신호를 얻을 수 있으므로, 시스템의 단순화나 필요 메모리양의 삭감, 음원 분리 모델의 개발의 단일화 등을 실현할 수 있다.

게다가, 본 기술에서는 재귀적으로 음원 분리를 행함으로써, 각 회의 음원 분리에서 푸는 문제(태스크)를 간단하게 할 수 있고, 그 결과, 분리 성능을 향상시킬 수 있다.

또한, 여기에서는 음원 분리 모델로서 2 화자 분리 모델을 사용하는 예에 대하여 설명하였다. 그러나, 이에 한정되지 않고, 3 화자 분리 모델 등, 입력 음향 신호를 3 이상의 화자마다의 분리 신호로 분리하는 복수 화자의 화자 분리 모델 등에 의해 재귀적인 음원 분리를 행하게 해도 된다.

예를 들어 3 화자 분리 모델은, 음원으로서 3명의 화자의 발화가 포함되는 학습용 음향 신호를, 3명의 화자 각각의 발화를 포함하는 3개의 분리 신호 각각, 즉 3개의 화자마다의 분리 신호로 분리하도록 학습된 화자 분리 모델이다.

<신호 처리 장치의 구성예>

이어서, 본 기술을 적용한 신호 처리 장치에 대하여 설명한다.

본 기술을 적용한 신호 처리 장치는, 예를 들어 도 2에 나타내는 바와 같이 구성된다.

도 2에 나타내는 신호 처리 장치(11)는 음원 분리부(21) 및 종료 판정부(22)를 갖고 있다.

음원 분리부(21)에는, 외부로부터 입력 음향 신호가 입력된다. 또한, 음원 분리부(21)는 미리 학습에 의해 얻어진 음원 분리 모델을 유지하고 있다.

또한, 이 실시 형태에서는, 입력 음향 신호는 화자수, 특히 동시에 발화를 행한 화자수가 미지인 혼합 음성의 음향 신호인 것으로서 설명을 행한다. 또한, 여기서는 음원 분리부(21)가 유지하고 있는 음원 분리 모델은 2 화자 분리 모델인 것으로 한다.

음원 분리부(21)는 종료 판정부(22)로부터 공급되는 종료 판정의 결과에 따라서, 공급된 입력 음향 신호에 대하여 유지하고 있는 음원 분리 모델에 기초하여 음원 분리를 재귀적으로 행하고, 그 결과 얻어진 분리 신호를 종료 판정부(22)에 공급한다.

종료 판정부(22)는 음원 분리부(21)로부터 공급된 분리 신호에 기초하여, 재귀적인 음원 분리를 종료할지 여부, 즉 종료 조건이 충족되었는지의 여부를 판정하는 종료 판정을 행하고, 그 판정 결과를 음원 분리부(21)에 공급한다.

또한, 종료 판정부(22)는 종료 조건이 충족되었다고 판정된 경우, 음원 분리에 의해 얻어진 분리 신호를 각 화자의 발화 음향 신호로서 후단에 출력한다.

<음원 분리 처리의 설명>

계속해서, 도 3의 흐름도를 참조하여, 신호 처리 장치(11)에 의해 행해지는 음원 분리 처리에 대하여 설명한다.

스텝 S11에 있어서 음원 분리부(21)는, 유지하고 있는 음원 분리 모델에 기초하여, 공급된 입력 음향 신호에 대한 음원 분리를 행하고, 그 결과 얻어진 분리 신호를 종료 판정부(22)에 공급한다.

구체적으로는, 음원 분리부(21)는 음원 분리 모델을 구성하는 연산 계수와, 입력 음향 신호에 기초하여, 음원 분리 모델에 대응하는 음원 분리 알고리즘을 따라서 연산 처리를 행하고, 음원 분리 모델의 출력인 2개의 분리 신호를 얻는다.

스텝 S12에 있어서 종료 판정부(22)는, 음원 분리부(21)로부터 공급된 분리 신호에 기초하여, 1회의 음원 분리에 의해 얻어진 2개의 분리 신호의 페어(조)마다 종료 판정을 행하고, 모든 페어가 종료 조건을 충족하는지 여부를 판정한다.

구체적으로는, 예를 들어 종료 판정부(22)는 하나의 페어에 대하여, 그 페어를 구성하는 2개의 분리 신호 중 하나의 분리 신호의 평균 레벨이 소정의 역치 이하인 경우, 그 페어는 종료 조건을 충족하고 있다고 판정한다.

스텝 S12에 있어서 모든 페어가 종료 조건을 충족하고 있지 않다고 판정된 경우, 종료 판정부(22)는 종료 조건을 충족하고 있지 않은 페어를 나타내는 정보를 종료 판정의 결과로서 음원 분리부(21)에 공급하고, 그 후, 처리는 스텝 S13으로 진행된다.

스텝 S13에 있어서 음원 분리부(21)는 종료 판정부(22)로부터 공급된 종료 판정의 결과에 기초하여, 종료 조건을 충족하고 있지 않은 페어를 구성하는 각 분리 신호에 대하여 음원 분리 모델에 의한 음원 분리를 행하고, 그 결과 얻어진 분리 신호를 종료 판정부(22)에 공급한다.

예를 들어 스텝 S13에서는, 스텝 S11에 있어서 사용된 음원 분리 모델과 동일한 음원 분리 모델이 사용되어 음원 분리가 행해진다.

또한, 예를 들어 스텝 S11에 있어서는 3 화자 분리 모델이 사용되어 음원 분리가 행해지고, 스텝 S13에 있어서는 2 화자 분리 모델이 사용되어 음원 분리가 행해지는 등, 서로 다른 복수의 음원 분리 모델이 사용되어 음원 분리가 재귀적으로 행해져도 된다.

스텝 S13의 처리에서 재귀적인 음원 분리가 행해지면, 그 후, 처리는 스텝 S12로 되돌아가고, 모든 페어가 종료 조건을 충족한다고 판정될 때까지, 상술한 처리가 반복해서 행해진다.

예를 들어 도 1에 나타낸 예에 있어서는, 화살표 Q12에 나타낸 음원 분리에서는 한쪽의 분리 신호가 무음 신호가 되므로, 화살표 Q12에 나타낸 음원 분리의 결과로서 얻어진 분리 신호의 페어는, 종료 조건을 충족하게 된다.

이에 비해, 도 1의 화살표 Q13에 나타낸 음원 분리에서는 무음의 분리 신호가 얻어지지 않기 때문에, 종료 조건을 충족한다고는 판정되지 않고, 화살표 Q13에 나타낸 음원 분리로 얻어진 2개의 분리 신호 각각에 대하여 스텝 S13에서 재귀적인 음원 분리가 행해지게 된다.

또한, 도 3의 스텝 S12에 있어서 모든 페어가 종료 조건을 충족한다고 판정된 경우, 입력 음향 신호가 각 화자의 분리 신호로 분리되었으므로, 처리는 스텝 S14로 진행된다.

스텝 S14에 있어서 종료 판정부(22)는, 지금까지의 음원 분리에 의해 얻어진 화자마다의 분리 신호를 후단에 출력하고, 음원 분리 처리는 종료된다.

이상과 같이 하여 신호 처리 장치(11)는, 종료 조건이 충족될 때까지, 입력 음향 신호에 대하여 재귀적으로 음원 분리를 행하여, 각 화자의 분리 신호를 얻는다. 이렇게 함으로써, 보다 간단하면서 또한 충분한 분리 성능으로 음원 분리를 할 수 있다.

<제2 실시 형태>

<분리 결과의 합성에 대하여>

그런데, 음원 분리 모델로서 화자 분리 모델을 사용하여, 입력 음향 신호에 대하여 재귀적으로 음원 분리를 행한 경우, 어떤 화자의 발화가 다른 분리 결과, 즉 다른 분리 신호로 분산되어버리는 경우도 있다.

구체적으로는, 예를 들어 도 1에 도시한 바와 같이 화자 PS1 내지 화자 PS3의 발화가 포함되는 혼합 음성의 입력 음향 신호에 대하여 2 화자 분리 모델을 사용하여 음원 분리를 행하였다고 한다.

이 경우, 예를 들어 도 1의 화살표 Q11에 나타낸 음원 분리의 결과과 같이, 어느 화자의 발화가 하나의 분리 신호만으로 나타나는 것은 아니고, 도 4에 나타내는 바와 같이, 어떤 화자의 발화가 2개의 분리 신호로 분산되어 나타나는 경우가 있다. 또한, 도 4에 있어서 도 1에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있고, 그 설명은 적절히 생략한다.

도 4에 나타내는 예에서는, 화자 PS1 내지 화자 PS3의 발화가 포함되는 혼합 음성의 입력 음향 신호에 대하여, 2 화자 분리 모델에 의해 재귀적으로 음원 분리(화자 분리)가 행해지고 있다.

여기에서는, 먼저 화살표 Q21에 나타내는 바와 같이 입력 음향 신호에 대하여 음원 분리가 행해진다.

그 결과, 화자 PS1의 발화와 화자 PS2의 발화 일부가 포함되는 분리 신호, 및 화자 PS3의 발화와 화자 PS2의 발화 일부가 포함되는 분리 신호가 얻어지고 있다.

즉, 화자 PS1이나 화자 PS3의 발화는 하나의 분리 신호로만 나타나 있지만, 화자 PS2의 발화는 2개의 분리 신호로 분산되어 있다.

여기서, 화살표 Q21에 나타낸 음원 분리의 결과로서 얻어진, 화자 PS1의 발화와 화자 PS2의 발화 일부가 포함되는 분리 신호에 대하여, 화살표 Q22에 나타내는 바와 같이 2 화자 분리 모델에 의한 재귀적인 음원 분리를 행하면, 화자마다의 분리 신호가 얻어진다.

즉, 이 예에서는 화살표 Q22에 나타내는 음원 분리의 결과로서, 화자 PS1의 발화만이 포함되는 분리 신호와, 화자 PS2의 발화 일부만이 포함되는 분리 신호가 얻어지고 있다.

마찬가지로, 화살표 Q21에 나타낸 음원 분리의 결과로서 얻어진, 화자 PS3의 발화와 화자 PS2의 발화 일부가 포함되는 분리 신호에 대하여, 화살표 Q23에 나타내는 바와 같이 2 화자 분리 모델에 의한 재귀적인 음원 분리를 행하면, 화자마다의 분리 신호가 얻어진다.

즉, 이 예에서는 화살표 Q23에 나타내는 음원 분리의 결과로서, 화자 PS3의 발화만이 포함되는 분리 신호와, 화자 PS2의 발화 일부만이 포함되는 분리 신호가 얻어지고 있다.

이러한 예에 있어서도, 결과로서 각 분리 신호에는 1명의 화자의 발화만이 포함되어 있다. 단, 여기에서는 화자 PS2의 발화가 2개의 분리 신호로 분산되어버린다.

그래서, 2 이상의 복수의 분리 음성, 즉 복수의 분리 신호로 분산되어버린 동일 화자의 분리 음성(발화)을 합성함으로써, 분산된 화자의 발화를 하나로 통합하도록 해도 된다.

그러한 경우, 분리 신호를 입력으로 하고, 화자의 식별 결과를 출력으로 하는 화자 식별 모델을 이용할 수 있다.

구체적으로는, 예를 들어 미리 임의의 다수의 화자를 식별하는 뉴럴 네트워크 등이 화자 식별 모델로서 학습된다. 여기서, 화자 식별 모델의 학습 시의 화자는, 학습 시의 화자수가 많으면, 실제로 음원 분리를 행하고자 하는 화자가 포함되어 있을 필요는 없다.

이와 같이 하여 화자 식별 모델이 준비되면, 이 화자 식별 모델이 사용되고, 음원 분리에 의해 얻어진 분리 신호, 즉 분리 신호에 대응하는 화자의 클러스터링이 행해진다.

클러스터링 시에는, 각 분리 신호가 화자 식별 모델에 입력되어 화자 식별이 행해진다.

이 때, 화자 식별 모델의 출력, 즉 화자 식별의 결과 또는 화자 식별 모델의 중간층 액티베이션(출력), 즉 화자 식별 결과를 얻기 위한 연산 처리에 있어서의 도중까지의 연산 결과가, 입력으로 된 분리 신호에 관한 화자를 나타내는 특징량(speaker embedding)이 된다.

또한, 화자를 나타내는 특징량의 산출 시에는, 분리 신호의 무음 구간을 무시하여 계산을 행하는 것이 가능하다.

각 분리 신호(분리 음성)에 대하여 특징량이 얻어지면, 그들 특징량끼리의 거리, 즉 특징량간의 거리가 구해지고, 특징량간의 거리가 역치 이하인 분리 신호는 동일 화자의 분리 신호가 된다.

또한, 클러스터링의 결과, 동일 화자의 것으로 여겨진 복수의 분리 신호가 합성되고, 합성에 의해 얻어진 하나의 분리 신호가, 그 화자의 최종적인 분리 신호가 된다.

따라서, 예를 들어 도 4의 예에서는, 화살표 Q22에 나타낸 음원 분리에 의해 얻어진 화자 PS2의 발화 일부만이 포함되는 분리 신호와, 화살표 Q23에 나타낸 음원 분리에 의해 얻어진 화자 PS2의 발화 일부만이 포함되는 분리 신호가 동일 화자의 것으로 여겨진다.

그리고, 그들 분리 신호를 가산함으로써 분리 신호가 합성되고, 그 결과 얻어진 하나의 신호가, 화자 PS2의 발화를 포함하는 최종적인 분리 신호로서 출력된다.

<신호 처리 장치의 구성예>

이상과 같이 음원 분리에 의해 얻어진 분리 신호의 클러스터링이 행해지는 경우, 신호 처리 장치는, 예를 들어 도 5에 나타내는 바와 같이 구성된다. 또한, 도 5에 있어서 도 2에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있고, 그 설명은 적절히 생략한다.

도 5에 나타내는 신호 처리 장치(51)는 음원 분리부(21), 종료 판정부(22) 및 동일 화자 판정부(61)를 갖고 있다.

이 신호 처리 장치(51)의 구성은, 새롭게 동일 화자 판정부(61)를 마련한 점에서 신호 처리 장치(11)의 구성과 다르고, 그 밖의 점에서는 신호 처리 장치(11)와 동일한 구성으로 되어 있다.

동일 화자 판정부(61)는 재귀적인 음원 분리에 의해 얻어진 복수의 분리 신호가 동일 화자의 신호인지 여부를 판정하는 동일 화자 판정을 행하고, 그 판정 결과에 따라서 동일 화자의 복수의 분리 신호를 합성하여, 최종적인 화자의 분리 신호를 생성한다.

보다 구체적으로는, 동일 화자 판정부(61)는 미리 학습에 의해 구해진 화자 식별 모델을 유지하고 있으며, 유지하고 있는 화자 식별 모델과, 종료 판정부(22)로부터 공급된 화자마다의 분리 신호에 기초하여 클러스터링을 행한다. 즉, 동일 화자 판정부(61)는 클러스터링을 행함으로써 동일 화자 판정을 행한다.

또한, 동일 화자 판정부(61)는 클러스터링에 의해 동일 화자의 것으로 여겨진 분리 신호를 합성하여, 그 화자의 최종적인 분리 신호로 함과 함께, 최종적으로 얻어진 각 화자의 분리 신호를 후단에 출력한다.

<음원 분리 처리의 설명>

계속해서, 도 6의 흐름도를 참조하여, 신호 처리 장치(51)에 의해 행해지는 음원 분리 처리에 대하여 설명한다.

또한, 스텝 S41 내지 스텝 S43의 처리는 도 3의 스텝 S11 내지 스텝 S13의 처리와 마찬가지이므로, 그 설명은 생략한다.

스텝 S41 내지 스텝 S43에서 재귀적인 음원 분리가 행해지고, 각 화자의 분리 신호가 얻어지면, 그들 분리 신호가 종료 판정부(22)로부터 동일 화자 판정부(61)에 공급되고, 그 후, 처리는 스텝 S44로 진행된다. 즉, 스텝 S42에 있어서 모든 페어가 종료 조건을 충족한다고 판정된 경우, 처리는 스텝 S44로 진행된다.

스텝 S44에 있어서 동일 화자 판정부(61)는, 유지하고 있는 화자 식별 모델과, 종료 판정부(22)로부터 공급된 분리 신호에 기초하여, 그들의 분리 신호마다 화자를 나타내는 특징량을 산출한다.

즉, 동일 화자 판정부(61)는 분리 신호를 입력으로 하여 화자 식별 모델에 의한 연산을 행함으로써, 분리 신호마다 화자를 나타내는 특징량을 산출한다.

스텝 S45에 있어서 동일 화자 판정부(61)는, 스텝 S44에서 구한 특징량에 기초하여, 동일 화자의 분리 신호가 있는지 여부를 판정한다. 즉, 동일 화자 판정이 행해진다.

예를 들어 동일 화자 판정부(61)는 모든 분리 신호 중 임의의 2개의 분리 신호에 대하여, 그들 2개의 분리 신호의 특징량간의 거리를 구하고, 그 거리가 소정의 역치 이하인 경우, 그들 2개의 분리 신호는 동일 화자의 것(신호)이라고 판정한다.

동일 화자 판정부(61)는 모든 분리 신호를 대상으로 하여, 2개의 분리 신호의 조합으로서 취할 수 있는 모든 조합에 대하여 동일 화자의 것인지 여부의 판정을 행한다.

그리고 동일 화자 판정부(61)는 모든 조합에서 동일 화자의 것은 아니라는 판정 결과가 얻어진 경우, 스텝 S45에 있어서 동일 화자의 분리 신호가 없다고 판정한다.

동일 화자 판정부(61)에서는, 이상의 스텝 S44 및 스텝 S45의 처리가 클러스터링의 처리로서 행해진다.

스텝 S45에 있어서 동일 화자의 분리 신호가 있다고 판정된 경우, 스텝 S46에 있어서 동일 화자 판정부(61)는 동일 화자의 것으로 여겨진 복수의 분리 신호를 합성하여, 그 화자의 최종적인 분리 신호로 한다.

동일 화자의 분리 신호가 합성되고, 최종적인 각 화자의 분리 신호가 얻어지면, 그 후 처리는 스텝 S47로 진행된다.

한편, 스텝 S45에 있어서 동일 화자의 분리 신호가 없다고 판정된 경우, 이미 각 화자의 분리 신호가 얻어져 있으므로, 스텝 S46의 처리는 스킵되고, 처리는 스텝 S47로 진행된다.

스텝 S45에 있어서 동일 화자의 분리 신호가 없다고 판정되었거나, 또는 스텝 S46의 처리가 행해지면, 스텝 S47에 있어서 동일 화자 판정부(61)는, 최종적으로 얻어진 화자마다의 분리 신호를 후단에 출력하고, 음원 분리 처리는 종료된다.

이상과 같이 하여 신호 처리 장치(51)는, 종료 조건이 충족될 때까지 입력 음향 신호에 대하여 재귀적으로 음원 분리를 행함과 함께, 분리 신호의 클러스터링을 행하여 동일 화자의 분리 신호를 합성하고, 최종적인 화자마다의 분리 신호를 얻는다.

이렇게 함으로써, 보다 간단하면서 또한 충분한 분리 성능으로 음원 분리를 할 수 있다. 특히 신호 처리 장치(51)에서는, 동일 화자의 분리 신호를 합성함으로써, 신호 처리 장치(11)에 있어서의 경우보다도 더욱 분리 성능을 향상시킬 수 있다.

<제3 실시 형태>

<일대다 화자 분리 모델에 대하여>

그런데, 이상에 있어서는 m명(단, m≥2)의 화자의 발화가 포함되어 있는 혼합 음성의 음향 신호를, 화자마다의 m개의 분리 신호로 분리시키도록 학습한 m 화자 분리 모델을 사용하여 음원 분리를 행하는 예에 대하여 설명하였다.

특히, 음원 분리 시에는, 소정의 화자의 발화가 복수의 분리 신호로 분산되어 나타날 가능성이 있기 때문에, 제2 실시 형태에서는 클러스터링을 행하고, 적절히 분리 신호를 합성하는 예에 대하여 설명하였다.

그러나, 이와 같은 화자 분리 모델에 한정되지 않고, 그 밖에도, 예를 들어 불확정의 화자수에 대하여 학습을 행함으로써 얻어지는 화자 분리 모델(이하, 일대다 화자 분리 모델이라고도 칭함)을 사용하여 음원 분리를 행하게 해도 된다.

일대다 화자 분리 모델은 임의의 미지(불확정)의 화자수의 혼합 음성의 학습용 음향 신호를, 소정의 1명의 화자의 발화(음성)만을 포함하는 분리 신호와, 혼합 음성에 포함되는 복수의 화자 중 상기 소정의 1명의 화자를 제외한 나머지 화자의 발화를 포함하는 분리 신호로 분리하도록 학습된 뉴럴 네트워크 등의 화자 분리 모델이다.

여기서, 일대다 화자 분리 모델에 의한 음원 분리의 분리 결과, 즉 일대다 화자 분리 모델의 출력을 헤드라고도 칭하는 것으로 한다.

특히, 여기에서는 1명의 화자의 발화가 포함되는 분리 신호가 출력되는 측을 헤드 1이라고도 칭하고, 기타 나머지 화자의 발화가 포함되는 분리 신호가 출력되는 측을 헤드 2라고도 칭하는 것으로 한다. 또한, 헤드 1과 헤드 2를 특별히 구별할 필요가 없을 경우에는, 간단히 헤드라고 칭하는 것으로 한다.

일대다 화자 분리 모델의 학습 시에는, 학습용 음향 신호의 화자수 m을 랜덤으로 변화시키면서, 그 화자수 m의 학습용 음향 신호가 사용되어 손실 함수 L이 최소가 되도록 학습이 행해진다.

이 때, 화자수 m은 최대 화자수 M 이하가 되도록 설정된다. 또한, 일대다 화자 분리 모델은 항상, 학습용 음향 신호의 혼합 음성에 포함되는 m명의 화자 중, 손실이 가장 작아지는 1명의 화자의 발화만을 포함하는 분리 신호가 헤드 1의 출력이 되고, 나머지 (m-1)명의 화자의 발화를 포함하는 분리 신호가 헤드 2의 출력이 되도록 학습된다.

또한, 일대다 화자 분리 모델의 학습 시의 손실 함수 L은, 예를 들어 다음 식 (1)로 표시된다.

또한, 식 (1)에 있어서 j는 학습용 음향 신호, 즉 학습용의 혼합 음성을 나타내는 인덱스이며, i는 j번째의 혼합 음성에 포함되는 발화의 화자를 나타내는 인덱스이다.

또한, 식 (1)에 있어서 L_i ^1j는, j번째의 혼합 음성의 학습용 음향 신호 x^j를 음원 분리하였을 때의 헤드 1의 출력 ｓ'¹(x^j)과, i번째의 화자의 발화 음향 신호 s_i ^j를 비교하였을 때의 손실 함수를 나타내고 있다. 이 손실 함수 L_i ^1j는, 예를 들어 다음 식 2에 나타내는 제곱 오차로 정의할 수 있다.

또한, 식 (1)에 있어서의 L_i ^2j는, j번째의 혼합 음성의 학습용 음향 신호 x^j를 음원 분리하였을 때의 헤드 2의 출력 ｓ'²(x^j)와, i번째의 화자 이외의 나머지 화자 k의 음향 신호 s_k ^j의 합을 비교하였을 때의 손실 함수를 나타내고 있다. 이 손실 함수 L_i ^2j는, 예를 들어 다음 식 (3)에 나타내는 제곱 오차로 정의할 수 있다.

이상과 같은 학습에 의해 얻어진 일대다 화자 분리 모델은, 항상 헤드 1의 출력으로서 1 화자의 발화만의 분리 신호가 얻어지고, 헤드 2의 출력으로서 나머지 화자의 발화의 분리 신호가 얻어질 것이 기대된다.

따라서, 예를 들어 도 1에 나타낸 예와 마찬가지로, 일대다 화자 분리 모델에 의해 입력 음향 신호에 대하여 재귀적으로 음원 분리를 행하는 것만으로, 각 화자의 발화만을 포함하는 분리 신호가 차례로 분리되어 갈 것을 기대할 수 있다.

이렇게 일대다 화자 분리 모델을 이용하는 경우, 예를 들어 신호 처리 장치(11)의 음원 분리부(21)는 미리 학습에 의해 얻어진 일대다 화자 분리 모델을 음원 분리 모델로서 유지하고 있다. 그리고, 신호 처리 장치(11)는 도 3을 참조하여 설명한 음원 분리 처리를 행하여, 각 화자의 분리 신호를 얻는다.

단, 이 경우, 스텝 S11이나 스텝 S13에서는 음원 분리부(21)는, 일대다 화자 분리 모델에 기초하여 음원 분리를 행한다. 이 때, 헤드 1의 출력은 1 화자의 발화의 분리 신호로 되어 있으므로, 헤드 2의 출력(분리 신호)에 대하여 일대다 화자 분리 모델에 의한 음원 분리가 재귀적으로 행해지게 된다.

또한, 스텝 S12에서는, 최후에 행한 음원 분리의 헤드 2의 출력(분리 신호)의 평균 레벨이 소정의 역치 이하인 경우, 종료 조건이 충족되었다고 판정되고, 처리는 스텝 S14로 진행된다.

또한, 여기에서는 하나의 입력 음향 신호를 입력으로 하고, 2 헤드, 즉 헤드 1과 헤드 2의 2개의 출력이 얻어지는 일대다 화자 분리 모델을 사용하는 예에 대하여 설명하였다.

그러나, 이에 한정되지 않고, 예를 들어 3 헤드의 출력이 얻어지는 일대다 화자 분리 모델을 사용하여 음원 분리를 행하게 해도 된다.

그러한 경우, 예를 들어 헤드 1 내지 헤드 3 중, 헤드 1와 헤드 2의 출력이 1명의 화자인 발화만을 포함하는 분리 신호가 되고, 헤드 3의 출력이 기타 나머지 화자의 발화를 포함하는 분리 신호가 되게 학습된다.

<제4 실시 형태>

<일대다 화자 분리 모델과 클러스터링의 조합에 대하여>

또한, 음원 분리 모델로서 일대다 화자 분리 모델을 사용하는 경우에 있어서도, 반드시 음원, 즉 화자마다의 발화를 완전히 분리할 수 없는 경우가 있다. 즉, 예를 들어 헤드 1에 출력되어야 할 화자의 발화가, 약간 헤드 2의 출력에 누출되어버리는 경우가 있다.

따라서, 이러한 경우에는, 도 4를 참조하여 설명한 바와 같이 재귀적인 음원 분리에 의해 얻어진 복수의 분리 신호에 동일 화자의 발화가 분산되어버리게 된다. 단, 이 경우, 한쪽의 분리 신호에 포함되는 화자의 발화는 약간 누출된 성분이기 때문에, 다른 쪽의 분리 신호에 포함되는 화자의 발화와 비교하여 훨씬 음량이 작아지게 있다.

그래서, 음원 분리 모델로서 일대다 화자 분리 모델을 사용하는 경우에 있어서도, 제2 실시 형태와 마찬가지로 클러스터링을 행하게 해도 된다.

그러한 경우, 예를 들어 신호 처리 장치(51)의 음원 분리부(21)는 미리 학습에 의해 얻어진 일대다 화자 분리 모델을 음원 분리 모델로서 유지하고 있다.

그리고, 신호 처리 장치(51)는 도 6을 참조하여 설명한 음원 분리 처리를 행하여, 각 화자의 분리 신호를 얻는다.

단, 이 경우, 스텝 S41이나 스텝 S43에서는, 제3 실시 형태에 있어서의 경우와 마찬가지로, 음원 분리부(21)는 일대다 화자 분리 모델에 기초하여 음원 분리를 행한다.

또한, 스텝 S44에서는, 상술한 화자 식별 모델의 출력 등이 화자를 나타내는 특징량으로서 산출되고, 2개의 분리 신호의 특징량간의 거리가 역치 이하일 때, 그들 2개의 분리 신호는 동일 화자의 것이라고 판정된다.

그 밖에도, 예를 들어 분리 신호의 시간적인 에너지 변동이 화자를 나타내는 특징량으로 여겨지고, 2개의 분리 신호의 특징량의 상관, 즉 분리 신호의 에너지 변동의 상관이 역치 이상일 경우에, 그들 2개의 분리 신호는 동일 화자의 것이라고 판정되어도 된다.

<기타 변형예 1>

<단일 화자 판정 모델의 이용에 대하여>

그런데, 이상에 있어서 설명한 각 실시 형태에서는, 음원 분리에 의해 얻어진 분리 신호의 평균 레벨(에너지)이 충분히 작아졌을 경우, 즉 평균 레벨이 역치 이하로 된 경우에, 재귀적인 음원 분리의 종료 조건이 충족되었다고 판정되는 예에 대하여 설명하였다.

이 경우, 단일 화자의 발화만이 포함되는 분리 신호에 대하여 음원 분리가 행해졌을 때, 무음의 분리 신호가 얻어져 종료 조건이 충족되었다고 판정된다.

그 때문에, 본래라면 단일 화자의 발화만이 포함되는 분리 신호가 얻어진 시점에서 각 화자의 분리 신호가 얻어졌음에도 불구하고, 추가로 한번 더 음원 분리를 행해야만 하므로, 그만큼 음원 분리의 처리 횟수가 많아져버린다. 이러한 것은, 예를 들어 처리 시간이 한정되어 있는 애플리케이션 등에서는 바람직하다고는 할 수 없다.

그래서, 분리 신호를 입력으로 하고, 그 분리 신호가 단일 화자의 발화만이 포함되어 있는 음향 신호인지, 또는 복수 화자의 발화가 포함되어 있는 혼합 음성의 음향 신호인지를 판정하는 음향 모델인 단일 화자 판정 모델을 사용하여 종료 판정을 행하게 해도 된다.

바꾸어 말하면, 단일 화자 판정 모델은, 입력된 분리 신호에 포함되는 발화의 화자수가 1명인지 여부를 판정하기 위한 음향 모델이다.

이러한 예에서는, 예를 들어 신호 처리 장치(11)나 신호 처리 장치(51)의 종료 판정부(22)에는, 미리 학습에 의해 구해진 단일 화자 판정 모델이 유지되어 있다.

그리고, 예를 들어 도 3의 스텝 S12나 도 6의 스텝 S42에서는, 종료 판정부(22)는 유지하고 있는 단일 화자 판정 모델과, 음원 분리에 의해 얻어진 분리 신호에 기초하는 연산을 행하여, 분리 신호에 포함되는 발화의 화자수가 1명인지 여부를 판정한다. 바꾸어 말하면, 분리 신호가 단일 화자의 발화만을 포함하는 신호인지 여부가 판정된다.

그리고 종료 판정부(22)는 모든 분리 신호에 포함되는 발화의 화자수가 1명인, 즉 분리 신호가 단일 화자의 발화만을 포함하는 신호라는 판정 결과가 얻어진 경우에, 종료 조건이 충족되었다고 판정한다.

이러한 단일 화자 판정 모델에 의한 판정에서는, 분리 신호에 포함되어 있는 발화의 화자수를 추정하는 화자수 추정 모델에 의한 추정과 비교하여 태스크가 간단해진다. 그 때문에, 보다 작은 모델 규모로, 보다 고성능의 음향 모델(단일 화자 판정 모델)을 얻을 수 있다는 장점이 있다. 즉, 화자수 추정 모델을 사용하는 경우와 비교하여, 보다 간단하게 음원 분리를 행할 수 있다.

이상과 같이 단일 화자 판정 모델을 사용하여 종료 조건이 충족되었는지를 판정함으로써, 도 3이나 도 6을 참조하여 설명한 음원 분리 처리의 전체의 처리량(처리 횟수)이나 처리 시간을 저감시킬 수 있다.

또한, 예를 들어 단일 화자 판정 모델 등을 사용하여 종료 판정을 행하는 경우, 도 3이나 도 6을 참조하여 설명한 음원 분리 처리에 있어서, 먼저 종료 판정, 즉 종료 조건을 충족하는지 여부를 판정한 후, 그 판정 결과에 따라서 재귀적인 음원 분리를 행하게 해도 된다.

이 경우, 예를 들어 단일 화자 판정 모델이 종료 판정에 사용될 때에는, 단일 화자 판정 모델에 의해, 단일 화자의 발화만을 포함하는 분리 신호가 아니라고 여겨진 분리 신호에 대하여 재귀적인 음원 분리가 행해지게 된다.

그 밖에도, 음원 분리부(21)가 대략적인 화자수를 판정하는 화자수 판정 모델을 사용하여, 재귀적인 음원 분리에 사용하는 음원 분리 모델을 선택하도록 해도 된다.

구체적으로는, 예를 들어 음원 분리부(21)가 입력된 음향 신호가 2 이하인 화자의 발화를 포함하는 신호인지, 또는 3 이상의 화자의 발화를 포함하는 신호인지를 판정하는 화자수 판정 모델과, 2 화자 분리 모델과, 3 화자 분리 모델을 유지하고 있는 것으로 한다.

이 경우, 음원 분리부(21)는 입력 음향 신호나, 음원 분리에 의해 얻어진 분리 신호에 대하여 화자수 판정 모델을 사용한 화자수의 판정을 행하여, 음원 분리에 사용하는 음원 분리 모델로서, 2 화자 분리 모델과 3 화자 분리 모델 중 어느 것을 선택한다.

즉, 예를 들어 음원 분리부(21)는 3 이상의 화자의 발화를 포함하는 신호라고 판정된 입력 음향 신호나 분리 신호에 대하여는, 3 화자 분리 모델에 의한 음원 분리를 행한다.

이에 비해, 음원 분리부(21)는 2 이하의 화자의 발화를 포함하는 신호라고 판정된 입력 음향 신호나 분리 신호에 대하여는, 2 화자 분리 모델에 의한 음원 분리를 행한다.

이렇게 함으로써, 적절한 음원 분리 모델을 선택적으로 사용하여 음원 분리를 행할 수 있다.

<기타 변형예 2>

<언어 정보의 이용에 대하여>

또한, 제2 실시 형태나 제4 실시 형태에 있어서, 복수의 분리 신호의 언어 정보에 기초하여 동일 화자 판정이 행해지게 해도 된다. 특히, 여기에서는 언어 정보로서, 분리 신호에 기초하는 음성(발화)의 내용을 나타내는 텍스트 정보가 사용되는 예에 대하여 설명한다.

그러한 경우, 예를 들어 신호 처리 장치(51)의 동일 화자 판정부(61)는, 종료 판정부(22)로부터 공급된 화자마다의 분리 신호에 대하여 음성 인식 처리를 행하여, 그들 화자마다의 분리 신호의 음성을 텍스트화한다. 즉, 음성 인식 처리에 의해, 분리 신호에 기초하는 발화의 내용을 나타내는 텍스트 정보가 생성된다.

그리고, 동일 화자 판정부(61)는 임의의 2 이상의 분리 신호의 텍스트 정보에 의해 나타내어지는 텍스트, 즉 발화 내용을 머지(통합)하였을 때, 머지 후의 텍스트가 문장으로서 성립되는 경우에는, 그들 분리 신호가 동일 화자의 것인 것으로 한다.

구체적으로는, 예를 들어 2개의 분리 신호의 각 텍스트 정보에 의해 나타내어지는 발화의 타이밍과 발화 내용이 동일한 경우, 그들 2개의 분리 신호는 동일 화자의 것으로 여겨진다.

또한, 예를 들어 2개의 분리 신호의 텍스트 정보에 의해 나타내어지는 발화의 타이밍은 다르지만, 그들의 발화를 통합하여 하나의 발화로 하였을 때에 의미가 있는 하나의 문장으로서 성립되는 경우, 그들 2개의 분리 신호는 동일 화자인 것으로 여겨진다.

이렇게 텍스트 정보 등의 언어 정보를 사용하면, 동일 화자 판정의 판정 정밀도를 향상시킬 수 있고, 이에 의해 분리 성능을 향상시킬 수 있다.

<기타 변형예 3>

<동일 화자 판정 모델의 이용에 대하여>

또한, 제2 실시 형태나 제4 실시 형태에 있어서, 임의의 2개의 분리 신호 각각에 포함되어 있는 발화의 화자가 동일한지 여부, 즉 2개의 분리 신호가 동일 화자의 신호인지 여부를 판별(판정)하는 동일 화자 판정 모델에 기초하여 동일 화자 판정이 행해지게 해도 된다.

여기서, 동일 화자 판정 모델은, 2개의 분리 신호를 입력으로 하고, 그들 분리 신호의 각각에 포함되어 있는 발화의 화자가 동일한지, 또는 서로 다른 화자인지의 판정 결과를 출력으로 하는 음향 모델이다.

그러한 경우, 예를 들어 신호 처리 장치(51)의 동일 화자 판정부(61)는 미리 학습에 의해 구해진 동일 화자 판정 모델을 유지하고 있다.

동일 화자 판정부(61)는 유지하고 있는 동일 화자 판정 모델과, 종료 판정부(22)로부터 공급된 화자마다의 분리 신호에 기초하여, 모든 취할 수 있는 조합에 대하여 2개의 분리 신호 각각에 포함되는 발화의 화자가 동일한지 여부를 판정한다.

이러한 동일 화자 판정 모델에 의한 동일 화자 판정에서는, 상술한 화자 식별 모델에 있어서의 경우와 비교하여 태스크가 간단해진다. 그 때문에, 보다 작은 모델 규모로, 보다 고성능의 음향 모델(동일 화자 판정 모델)을 얻을 수 있다는 장점이 있다.

또한, 동일 화자 판정 시에 있어서는, 이상에 있어서 설명한 특징량간의 거리를 사용하는 방법이나, 언어 정보를 사용하는 방법, 동일 화자 판정 모델을 사용하는 방법 등의 복수의 임의의 방법을 조합하여 동일 화자의 분리 신호를 특정하도록 해도 된다.

<컴퓨터의 구성예>

그런데, 상술한 일련의 처리는 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.

도 7은, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어 구성예를 나타내는 블록도이다.

컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.

버스(504)에는, 또한 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509) 및 드라이브(510)가 접속되어 있다.

입력부(506)는 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는 디스플레이, 스피커 등을 포함한다. 기록부(508)는 하드 디스크나 불휘발성 메모리 등을 포함한다. 통신부(509)는 네트워크 인터페이스 등을 포함한다. 드라이브(510)는 자기 디스크, 광 디스크, 광자기 디스크 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.

이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통해 RAM(503)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.

컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록하여 제공할 수 있다. 또한, 프로그램은 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.

컴퓨터에서는, 프로그램은 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통해 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은 유선 또는 무선의 전송 매체를 통해 통신부(509)에서 수신하고, 기록부(508)에 인스톨할 수 있다. 그 밖에도, 프로그램은 ROM(502)이나 기록부(508)에 미리 인스톨해둘 수 있다.

또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라서 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.

또한, 본 기술의 실시 형태는 상술한 실시 형태에 한정되는 것은 아니며, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.

예를 들어, 본 기술은 하나의 기능을 네트워크를 통해 복수의 장치에서 분담, 공통으로 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.

또한, 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치에서 실행하는 것 외에도, 복수의 장치에서 분담하여 실행할 수 있다.

또한, 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치에서 실행하는 것 외에도, 복수의 장치에서 분담하여 실행할 수 있다.

또한, 본 기술은 이하의 구성으로 하는 것도 가능하다.

(1)

소정의 음원을 포함하는 학습용 음향 신호로부터 상기 소정의 음원을 분리하도록 미리 학습된 소정의 음원 분리 모델에 의한 음원 분리를, 입력된 음향 신호에 대하여 재귀적으로 행하는 음원 분리부를 구비하는

신호 처리 장치.

(2)

상기 음원 분리부는, 상기 음원 분리에 의해 상기 음향 신호로부터 화자의 발화의 분리 신호를 분리하는

(1)에 기재된 신호 처리 장치.

(3)

상기 음원 분리부는, 화자수가 미지인 상기 음향 신호에 대하여 상기 음원 분리를 행하는

(2)에 기재된 신호 처리 장치.

(4)

상기 음원 분리 모델은, 2명의 화자의 발화가 포함되는 상기 학습용 음향 신호를, 한쪽 화자의 발화를 포함하는 분리 신호와, 다른 쪽 화자의 발화를 포함하는 분리 신호로 분리하도록 학습된 화자 분리 모델인

(2) 또는 (3)에 기재된 신호 처리 장치.

(5)

상기 음원 분리 모델은, 3명의 화자의 발화가 포함되는 상기 학습용 음향 신호를, 상기 3명의 화자 각각의 발화를 포함하는 3개의 분리 신호의 각각으로 분리하도록 학습된 화자 분리 모델인

(2) 또는 (3)에 기재된 신호 처리 장치.

(6)

상기 음원 분리 모델은, 임의의 복수의 화자의 발화가 포함되는 상기 학습용 음향 신호를, 1명의 화자의 발화를 포함하는 분리 신호와, 상기 복수의 화자 중 상기 1명의 화자를 제외한 나머지 화자의 발화를 포함하는 분리 신호로 분리하도록 학습된 화자 분리 모델인

(2) 또는 (3)에 기재된 신호 처리 장치.

(7)

상기 음원 분리부는, 상기 소정의 상기 음원 분리 모델로서 서로 다른 복수의 음원 분리 모델을 사용하여 상기 음원 분리를 재귀적으로 행하는

(2) 내지 (6) 중 어느 한 항에 기재된 신호 처리 장치.

(8)

상기 음원 분리에 의해 얻어진 상기 분리 신호에 기초하여, 재귀적인 상기 음원 분리를 종료할지 여부를 판정하는 종료 판정부를 더 구비하는

(2) 내지 (7) 중 어느 한 항에 기재된 신호 처리 장치.

(9)

상기 종료 판정부는, 상기 음원 분리에 의해 얻어진 하나의 상기 분리 신호가 무음 신호인 경우, 재귀적인 상기 음원 분리를 종료한다고 판정하는

(8)에 기재된 신호 처리 장치.

(10)

상기 종료 판정부는, 상기 분리 신호에 포함되는 발화의 화자수가 1명인지 여부를 판정하기 위한 단일 화자 판정 모델과 상기 분리 신호에 기초하여, 상기 음원 분리에 의해 얻어진 상기 분리 신호에 포함되는 발화의 화자수가 1명이라고 판정된 경우, 재귀적인 상기 음원 분리를 종료한다고 판정하는

(8)에 기재된 신호 처리 장치.

(11)

재귀적인 상기 음원 분리에 의해 얻어진 복수의 상기 분리 신호가 동일 화자의 신호인지 여부의 동일 화자 판정을 행하고, 동일 화자의 복수의 상기 분리 신호를 합성하는 동일 화자 판정부를 더 구비하는

(2) 내지 (10) 중 어느 한 항에 기재된 신호 처리 장치.

(12)

상기 동일 화자 판정부는 상기 분리 신호의 클러스터링을 행함으로써 상기 동일 화자 판정을 행하는

(11)에 기재된 신호 처리 장치.

(13)

상기 동일 화자 판정부는 상기 분리 신호의 특징량을 산출하여, 2개의 상기 분리 신호의 상기 특징량간의 거리가 역치 이하인 경우, 상기 2개의 상기 분리 신호는 동일 화자의 신호라고 판정하는

(12)에 기재된 신호 처리 장치.

(14)

상기 동일 화자 판정부는 2개의 상기 분리 신호의 시간적인 에너지 변동의 상관에 기초하여 상기 동일 화자 판정을 행하는

(12)에 기재된 신호 처리 장치.

(15)

상기 동일 화자 판정부는 복수의 상기 분리 신호의 언어 정보에 기초하여 상기 동일 화자 판정을 행하는

(11)에 기재된 신호 처리 장치.

(16)

상기 동일 화자 판정부는, 2개의 상기 분리 신호가 동일 화자의 신호인지를 판정하는 동일 화자 판정 모델에 기초하여 상기 동일 화자 판정을 행하는

(11)에 기재된 신호 처리 장치.

(17)

신호 처리 장치가,

소정의 음원을 포함하는 학습용 음향 신호로부터 상기 소정의 음원을 분리하도록 미리 학습된 소정의 음원 분리 모델에 의한 음원 분리를, 입력된 음향 신호에 대하여 재귀적으로 행하는

신호 처리 방법.

(18)

스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.

11: 신호 처리 장치
21: 음원 분리부
22: 종료 판정부
51: 신호 처리 장치
61: 동일 화자 판정부

Claims

소정의 음원을 포함하는 학습용 음향 신호로부터 상기 소정의 음원을 분리하도록 미리 학습된 소정의 음원 분리 모델에 의한 음원 분리를, 입력된 음향 신호에 대하여 재귀적으로 행하는 음원 분리부를 구비하는
신호 처리 장치.
제1항에 있어서, 상기 음원 분리부는, 상기 음원 분리에 의해 상기 음향 신호로부터 화자의 발화의 분리 신호를 분리하는
신호 처리 장치.
제2항에 있어서, 상기 음원 분리부는, 화자수가 미지인 상기 음향 신호에 대하여 상기 음원 분리를 행하는
신호 처리 장치.
제2항에 있어서, 상기 음원 분리 모델은, 2명의 화자의 발화가 포함되는 상기 학습용 음향 신호를, 한쪽 화자의 발화를 포함하는 분리 신호와, 다른 쪽 화자의 발화를 포함하는 분리 신호로 분리하도록 학습된 화자 분리 모델인
신호 처리 장치.
제2항에 있어서, 상기 음원 분리 모델은, 3명의 화자의 발화가 포함되는 상기 학습용 음향 신호를, 상기 3명의 화자 각각의 발화를 포함하는 3개의 분리 신호의 각각으로 분리하도록 학습된 화자 분리 모델인
신호 처리 장치.
제2항에 있어서, 상기 음원 분리 모델은, 임의의 복수의 화자의 발화가 포함되는 상기 학습용 음향 신호를, 1명의 화자의 발화를 포함하는 분리 신호와, 상기 복수의 화자 중 상기 1명의 화자를 제외한 나머지 화자의 발화를 포함하는 분리 신호로 분리하도록 학습된 화자 분리 모델인
신호 처리 장치.
제2항에 있어서, 상기 음원 분리부는, 상기 소정의 상기 음원 분리 모델로서 서로 다른 복수의 음원 분리 모델을 사용하여 상기 음원 분리를 재귀적으로 행하는
신호 처리 장치.
제2항에 있어서, 상기 음원 분리에 의해 얻어진 상기 분리 신호에 기초하여, 재귀적인 상기 음원 분리를 종료할지 여부를 판정하는 종료 판정부를 더 구비하는
신호 처리 장치.
제8항에 있어서, 상기 종료 판정부는, 상기 음원 분리에 의해 얻어진 하나의 상기 분리 신호가 무음 신호인 경우, 재귀적인 상기 음원 분리를 종료한다고 판정하는
신호 처리 장치.
제8항에 있어서, 상기 종료 판정부는, 상기 분리 신호에 포함되는 발화의 화자수가 1명인지 여부를 판정하기 위한 단일 화자 판정 모델과 상기 분리 신호에 기초하여, 상기 음원 분리에 의해 얻어진 상기 분리 신호에 포함되는 발화의 화자수가 1명이라고 판정된 경우, 재귀적인 상기 음원 분리를 종료한다고 판정하는
신호 처리 장치.
제2항에 있어서, 재귀적인 상기 음원 분리에 의해 얻어진 복수의 상기 분리 신호가 동일 화자의 신호인지 여부의 동일 화자 판정을 행하고, 동일 화자의 복수의 상기 분리 신호를 합성하는 동일 화자 판정부를 더 구비하는
신호 처리 장치.
제11항에 있어서, 상기 동일 화자 판정부는, 상기 분리 신호의 클러스터링을 행함으로써 상기 동일 화자 판정을 행하는
신호 처리 장치.
제12항에 있어서, 상기 동일 화자 판정부는, 상기 분리 신호의 특징량을 산출하고, 2개의 상기 분리 신호의 상기 특징량간의 거리가 역치 이하인 경우, 상기 2개의 상기 분리 신호는 동일 화자의 신호라고 판정하는
신호 처리 장치.
제12항에 있어서, 상기 동일 화자 판정부는, 2개의 상기 분리 신호의 시간적인 에너지 변동의 상관에 기초하여 상기 동일 화자 판정을 행하는
신호 처리 장치.
제11항에 있어서, 상기 동일 화자 판정부는, 복수의 상기 분리 신호의 언어 정보에 기초하여 상기 동일 화자 판정을 행하는
신호 처리 장치.
제11항에 있어서, 상기 동일 화자 판정부는, 2개의 상기 분리 신호가 동일 화자의 신호인지를 판정하는 동일 화자 판정 모델에 기초하여 상기 동일 화자 판정을 행하는
신호 처리 장치.
신호 처리 장치가,
소정의 음원을 포함하는 학습용 음향 신호로부터 상기 소정의 음원을 분리하도록 미리 학습된 소정의 음원 분리 모델에 의한 음원 분리를, 입력된 음향 신호에 대하여 재귀적으로 행하는
신호 처리 방법.
소정의 음원을 포함하는 학습용 음향 신호로부터 상기 소정의 음원을 분리하도록 미리 학습된 소정의 음원 분리 모델에 의한 음원 분리를, 입력된 음향 신호에 대하여 재귀적으로 행하는
스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.