KR20230061016A

KR20230061016A - 복수의 화자를 포함하는 음성 신호로부터 화자를 분리하는 화자 분리 시스템 및 방법

Info

Publication number: KR20230061016A
Application number: KR1020210145826A
Authority: KR
Inventors: 동성희; 박기영; 박전규
Original assignee: 한국전자통신연구원
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2023-05-08

Abstract

복수의 화자를 포함하는 음성 신호로부터 화자를 분리하는 화자 분리 시스템이 제공된다. 상기 시스템은 복수의 화자가 포함된 혼합 음성 신호로부터 특징 정보를 생성하는 인코더, 타겟 화자의 기 등록된 음성을 입력받아 타겟 특징 정보를 생성하는 보조 네트워크부, 상기 특징 정보 및 타겟 특징 정보에 기초하여 상기 혼합 음성 신호 중 타겟 음성을 제외한 타 음성 및 음원을 제거한 구분자 마스크(Separator mask)를 추정하는 분리기 및 상기 구분자 마스크를 기반으로 상기 혼합 음성 신호에 대한 타겟 음성을 출력하는 디코더를 포함한다.

Description

복수의 화자를 포함하는 음성 신호로부터 화자를 분리하는 화자 분리 시스템 및 방법{SPEAKER DIARIZATION SYSTEM AND METHOD FROM VOICE SIGNAL COMPRISING PLURALITY OF SPEAKERS}

본 발명은 복수의 화자를 포함하는 음성 신호로부터 화자를 분리하는 화자 분리 시스템 및 방법에 관한 것으로, 스피커 인벤토리가 있는 보조 네트워크를 사용하여 단일 채널 및 복수의 화자 환경에서 타겟 화자의 음성을 추축하기 위한 시스템 및 방법에 관한 것이다.

화자 분리 시스템은 여러 화자의 음성이 혼합된 소리를 입력으로 받아, 특정 하자의 음성만을 분리하여 출력하는 방법을 학습한 모델을 적용한 시스템을 의미한다.

여기에서, 화자 분리는 신호 분리 연구의 한 분야로, 응급 상황, 재난 상황, 전쟁 상황, 토론 상황 및 특정 화자 음성 인식 등 여러 화자가 동시에 발화를 하여 화자 구분이 힘든 혼잡한 환경에서 특정 화자만의 음성을 타겟으로 들어야만 할 때 유용하게 활용되며, 다양한 필드에서 응용할 수 있기 때문에 활발히 연구가 진행되고 있다.

한편, 회의 상황, 자유 발화 등 2명 이상의 화자가 발화하는 상황에서, 발화 겹침이 발생하는 경우, 이는 음성인식의 성능을 크게 떨어뜨리는 요인이 될 수 있다. 이러한 상황에서 타겟 음성만을 추출해야 할 필요가 있는 경우가 있는데, 이는 타겟 음성 분리 방법을 통해 해결될 수 있다.

하지만, 복수의 음성이 동시에 발화되는 경우, 타겟 화자의 음성만을 추출하는 것은 잡음을 제거하는 것보다 성능이 현저하게 떨어지는 문제가 있다.

공개특허공보 제10-2016-0013592호 (2016.02.05)

본 발명이 해결하고자 하는 과제는 음원 분리 네트워크를 활용하여 비 타겟 화자의 음성을 제거할 수 있는, 복수의 화자를 포함하는 음성 신호로부터 화자를 분리하는 화자 분리 시스템 및 방법을 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 제1 측면에 따른 복수의 화자를 포함하는 음성 신호로부터 화자를 분리하는 화자 분리 시스템은 복수의 화자가 포함된 혼합 음성 신호로부터 특징 정보를 생성하는 인코더, 타겟 화자의 기 등록된 음성을 입력받아 타겟 특징 정보를 생성하는 보조 네트워크부, 상기 특징 정보 및 타겟 특징 정보에 기초하여 상기 혼합 음성 신호 중 타겟 음성을 제외한 타 음성 및 음원을 제거한 구분자 마스크(Separator mask)를 추정하는 분리기 및 상기 구분자 마스크를 입력받아 타겟 음성을 출력하는 디코더를 포함한다.

본 발명의 일부 실시예에서, 상기 보조 네트워크부는 복수의 타겟 화자에 대한 기 등록된 음성을 입력받아, 각 타겟 화자에 상응하는 타겟 특징 정보를 생성하는 복수의 타겟 인코더를 포함할 수 있다.

본 발명의 일부 실시예에서, 상기 분리기는 TCN(Temporal Convolutional Network) 구조로 구성될 수 있다.

본 발명의 일부 실시예에서, 상기 분리기는 정보 손실을 최소화하기 위하여 시간 축을 기준으로 상기 타겟 특징 정보를 생성할 수 있다.

본 발명의 일부 실시예에서, 상기 디코더는 상기 혼합 음성 신호를 대상으로 잡음이 제거된 타겟 음성을 출력할 수 있다.

또한, 본 발명의 제2 측면에 따른 복수의 화자를 포함하는 음성 신호로부터 화자를 분리하는 화자 분리 방법은 복수의 화자가 포함된 혼합 음성 신호를 수신하는 단계; 상기 혼합 음성 신호를 인코더에 입력하여 특징 정보를 생성하는 단계; 타겟 화자의 기 등록된 음성을 입력받아 타겟 특징 정보를 생성하는 단계; 상기 특징 정보 및 타겟 특징 정보에 기초하여 상기 혼합 음성 신호 중 타겟 음성을 제외한 타 음성 및 음원을 제거한 구분자 마스크(Separator mask)를 추정하는 단계; 및 디코더를 통해 상기 구분자 마스크를 입력받아 타겟 음성을 출력하는 단계를 포함한다.

상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 복수의 화자를 포함하는 음성 신호로부터 화자를 분리하는 방법을 실행하며, 컴퓨터 판독가능 기록매체에 저장된다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

전술한 본 발명의 일 실시예는, 혼합 음성으로부터 타겟 화자의 음성을 추출하는 경우, 기 등록된 타겟 음성을 사용하여 겹쳐진 음성 속에서 타겟 음성만을 추출할 수 있다.

또한, 본 발명의 일 실시예는 시간 축에서 타겟 음성의 추출이 수행되기 때문에 주파수 축에서 수행되는 기존의 방법에 비해 정보 손실을 최소화할 수 있으며, 잡음 환경 속에서도 타겟 음성 추출 성능을 향상시킬 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 화자 분리 시스템의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 화자 분리 시스템의 기능을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 화자 분리 방법의 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

도 1은 본 발명의 일 실시예에 따른 화자 분리 시스템(100)의 블록도이다.

본 발명의 일 실시예에 따른 화자 분리 시스템(100)은 스피커(110), 통신모듈(120), 메모리(130) 및 프로세서(140)를 포함하여 구성된다.

스피커(110)는 복수의 화자가 포함된 혼합 음성 신호를 입력받으며, 통신모듈(120)은 스피커(110)를 통해 혼합 음성 신호를 수신한다.

메모리(130)에는 상기 혼합 음성 신호로부터 타겟 화자에 상응하는 타겟 음성을 추출하기 위한 프로그램이 저장되며, 프로세서(140)는 메모리(130)에 저장된 프로그램을 실행시킨다. 여기에서, 메모리(130)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.

예를 들어, 메모리(130)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.

도 2는 본 발명의 일 실시예에 따른 화자 분리 시스템(100)의 기능을 설명하기 위한 도면이다.

도 2는 프로세서(140)에 의해 수행되는 기능을 설명하기 위한 도면으로, 화자 분리 시스템(100)은 인코더(141), 보조 네트워크부(142), 분리기(143) 및 디코더(144)를 포함할 수 있다.

인코더(141, Encoder)는 복수의 화자가 포함된 혼합 음성 신호로부터 유의미한 특징 정보를 생성한다.

보조 네트워크부(142, Auxiliary Network)는 타겟 화자의 기 등록된 음성을 입력받아 타겟 특징 정보를 생성한다.

일 실시예로, 보조 네트워크부(142)는 복수의 타겟 화자에 대한 기 등록된 음성을 입력받아, 각 타겟 화자에 상응하는 타겟 특징 정보를 생성하는 복수의 타겟 인코더를 포함하여 구성될 수 있다.

예를 들어, 제1 내지 제3 화자가 존재하는 경우 제1 내지 제3 화자에 대한 각 음성을 등록하고(ss1, ss2, ss3), 제1 내지 제3 화자의 수만큼 타겟 인코더를 구성하여 각 화자에 상응하는 타겟 특징 정보를 생성할 수 있다.

이에 따라, 제1 화자의 음성이 타겟 음성인 경우, 보조 네트워크부(142)는 제1 화자에 상응하는 제1 타겟 인코더를 통해 제1 타겟 특징 정보를 생성하게 된다.

분리기(143, Separator)는 인코더(141)로부터 추출된 특징 정보 및 타겟 인코더로부터 생성된 타겟 특징 정보에 기초하여, 혼합 음성 신호 중 타겟 음성을 제외한 타 음성 및 음원을 제거한 구분자 마스크(Separator mask)를 추정한다.

일 실시예로, 분리기(143)는 TCN(Temporal Convolutional Network) 구조로 구성될 수 있다. 이러한 TCN 구조를 통해 분리기(143)는 적은 모델 사이즈로 구분자 마스크를 추정할 수 있다.

일 실시예로, 분리기(143)는 시간 축을 기준으로 구분자 마스크를 추정함으로써, 기존 주파수 축에서 수행되는 방법들에 정보 손실을 최소화할 수 있다.

분리기(143)를 통해 추정된 구분자 마스크는 디코더(134, Decoder)를 통과함에 따라, 혼합 음성 신호에 대한 타겟 음성이 출력된다.

디코더(144)의 출력 신호는 입력된 혼합 음성 신호로부터 추출된 타겟 화자의 음성이며, 이때 디코더(144)는 훈련 환경에 따라 혼합 음성 신호를 대상으로 잡음이 제거된 타겟 음성을 출력할 수 있다.

이처럼, 본 발명의 일 실시예에 따른 화자분리 시스템(100)은 시간 축에서 음성 추출을 수행함으로써, 혼합된 음성의 특성이 비슷한 경우에도 음성 분리를 용이하게 수행할 수 있으며, 잡음에 강인한 특성을 갖는 타겟 음성을 추출할 수 있다.

이하에서는 도 3을 참조하여 본 발명의 일 실시예에 따른 복수의 화자를 포함하는 음성 신호로부터 화자를 분리하는 화자 분리 방법에 대해 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 화자 분리 방법의 순서도이다.

한편, 도 3에 도시된 각 단계들은 전술한 화자 분리 시스템(100)에 의해 수행되는 것으로 이해될 수 있으나, 반드시 이에 한정되는 것은 아니다.

먼저, 복수의 화자가 포함된 혼합 음성 신호를 수신하면(S110), 혼합 음성 신호를 인코더에 입력하여 특징 정보를 생성한다(S120).

다음으로, 타겟 화자의 기 등록된 음성을 입력받아 타겟 특징 정보를 생서하고(S130), 특징 정보 및 타겟 특징 정보에 기초하여 혼합 음성 신호 중 타겟 음성을 제외한 타 음성 및 음원을 제거한 구분자 마스크를 추정한다(S140).

다음으로, 디코더를 통해 구분자 마스크를 입력받아 혼합 음성 신호에 대한 타겟 음성을 출력한다(S150).

한편, 상술한 설명에서, 단계 S110 내지 S150은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 한편, 도 1 내지 도 2의 화자 분리 시스템(100)의 내용은 도 3의 내용에도 적용될 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 복수의 화자를 포함하는 음성 신호로부터 화자를 분리하는 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 화자 분리 시스템
110: 통신모듈
120: 메모리
130: 프로세서

Claims

복수의 화자를 포함하는 음성 신호로부터 화자를 분리하는 화자 분리 시스템에 있어서,
복수의 화자가 포함된 혼합 음성 신호로부터 특징 정보를 생성하는 인코더,
타겟 화자의 기 등록된 음성을 입력받아 타겟 특징 정보를 생성하는 보조 네트워크부,
상기 특징 정보 및 타겟 특징 정보에 기초하여 상기 혼합 음성 신호 중 타겟 음성을 제외한 타 음성 및 음원을 제거한 구분자 마스크(Separator mask)를 추정하는 분리기 및
상기 구분자 마스크를 기반으로 상기 혼합 음성 신호에 대한 타겟 음성을 출력하는 디코더를 포함하는,
화자 분리 시스템.