KR102661005B1 - 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 - Google Patents

다채널 다화자 환경에서 화자별 음원분리장치 및 방법 Download PDF

Info

Publication number
KR102661005B1
KR102661005B1 KR1020230025313A KR20230025313A KR102661005B1 KR 102661005 B1 KR102661005 B1 KR 102661005B1 KR 1020230025313 A KR1020230025313 A KR 1020230025313A KR 20230025313 A KR20230025313 A KR 20230025313A KR 102661005 B1 KR102661005 B1 KR 102661005B1
Authority
KR
South Korea
Prior art keywords
channel
channels
speaker
active
sound source
Prior art date
Application number
KR1020230025313A
Other languages
English (en)
Inventor
최인정
Original Assignee
(주)페르소나에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)페르소나에이아이 filed Critical (주)페르소나에이아이
Priority to KR1020230025313A priority Critical patent/KR102661005B1/ko
Application granted granted Critical
Publication of KR102661005B1 publication Critical patent/KR102661005B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경에서 화자별 음원분리장치는 다수의 마이크에서 수신된 다채널 신호 간의 채널간 스펙트럼 유사도를 이용하여 인접한 마이크 간 간섭효과에 의한 간섭음성입력과 화자의 실제 발화에 기인한 발화음성입력을 구별하고, 상기 다채널 중 상기 발화음성입력이 발생한 활성채널을 식별하는 채널식별부;상기 채널식별부에서 복수의 활성채널을 식별한 경우, 상기 복수의 채널 각각의 음원을 분리하는 음원분리부;및 상기 복수의 채널 각각에서 분리된 음원을 화자별 음원으로 재분류하는 화자별음성검출부;를 포함하는 것을 특징으로 한다.

Description

다채널 다화자 환경에서 화자별 음원분리장치 및 방법{Method and Device for speaker's sound separation from a multi-channel speech signals of multiple speaker}
본 발명은 다채널, 다화자 화경에서 화자별 음원 분리를 수행하는 장치 및 방법에 관한 것이다.
다수의 화자 각각에게 적어도 하나의 유선 또는 무선 마이크가 부여된 상황에서 화자가 발화한 음성은 인접한 화자들의 마이크에 입력되는 간섭효과가 발생할 수 있다. 이 경우, 화자의 마이크에서 수신된 채널별로 화자의 음성을 텍스트로 변환하는 경우 간섭효과로 인하여 화자의 음성이 잘못 검출되는 문제가 발생할 수 있다. 특히, 성량이 높은 참가자가 있을 경우 심각한 오류가 발생한다.
또한, 복수의 화자가 동시에 발화하는 경우, 각 채널별로 녹음된 신호에 복수의 화자의 음성이 함께 섞여 들어옴으로써 음성 인식 성능이 저하되는 문제가 발생한다.
뿐만 아니라, 다수의 화자 각각에게 마이크를 매핑한 상태에서, 화자가 이동하면서 본인에게 매핑되지 않은 다른 마이크를 이용하는 경우, 화자 인식에 오류가 발생할 수 있다. 예를 들어 다채널 음원분리 과정에서 채널 뒤바뀜 현상이 발생하여, 다른 마이크에 기매핑된 화자로 인식될 오류가 있다.
KR 10-1970347
본 발명의 바람직한 일 실시예에서는 다채널 다화자 환경에서 인접한 마이크 간 간섭효과를 줄이거나 제거하고자 한다.
본 발명의 또 다른 바람직한 일 실시예에서는, 복수의 화자가 동시에 발화하는 경우에도 실시간으로 각 채널별로 음성을 분리하고, 채널별로 분리된 음성을 화자별로 재분류하여 발화자를 식별하고자 한다.
본 발명의 또 다른 바람직한 일 실시예에서는, 화자식별 기술을 이용하여 다채널 다화자 환경에서 화자가 이동하면서 발화하는 경우에도 화자의 음성이 입력된 채널을 추적하여 화자별로 음성을 추출하고자 한다.
본 발명의 또 다른 바람직한 일 실시예에서는, 의료 진료, 법률 상담, 금융상품 판매 상담, 회의, 조서 작성 등의 다화자 대화음성을 문서화하는 대화형 음성인식 서비스에서 실시간으로 화자별 음원을 분리하여 발화자 정보와 발화 텍스트 내용을 동시에 문서화하고자 한다.
본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경에서 화자별 음원분리장치는 다수의 마이크에서 수신된 다채널 신호 간의 채널간 스펙트럼 유사도를 이용하여 인접한 마이크 간 간섭효과에 의한 간섭음성입력과 화자의 실제 발화에 기인한 발화음성입력을 구별하고, 상기 다채널 중 상기 발화음성입력이 발생한 활성채널을 식별하는 채널식별부;상기 채널식별부에서 복수의 활성채널을 식별한 경우, 상기 복수의 채널 각각의 음원을 분리하는 음원분리부;및 상기 복수의 채널 각각에서 분리된 음원을 화자별 음원으로 재분류하는 화자별음성검출부;를 포함하는 것을 특징으로 한다.
본 발명의 바람직한 일 실시예에서는 다채널 다화자 환경에서 인접한 마이크 간 간섭효과를 줄이거나 제거하는 효과가 있다.
본 발명의 또 다른 바람직한 일 실시예에서는, 복수의 화자가 동시에 발화하는 경우에도 실시간으로 각 채널별로 음성을 분리하고, 채널별로 분리된 음성을 추가로 화자별로 재분류하여 실시간으로 발화자의 음성을 식별할 수 있는 효과가 있다.
본 발명의 또 다른 바람직한 일 실시예에서는, 화자식별 기술을 이용하여 다채널 다화자 환경에서 화자가 이동하면서 발화하는 경우에도 화자의 음성이 입력된 채널을 추적하여 화자별로 음성을 추출함으로써 화자별 음성분리 정확도를 개선하는 효과가 있다.
본 발명의 또 다른 바람직한 일 실시예에서는, 의료 진료, 법률 상담, 금융상품 판매 상담, 회의, 조서 작성 등의 다화자 대화음성을 문서화하는 대화형 음성인식 서비스에서 실시간으로 화자별 음원을 분리하여 발화자 정보와 발화 텍스트 내용을 동시에 문서화함으로써 개선된 대화형 음식 서비스를 제공하는 효과가 있다.
도 1 은 본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경에서 화자별로 음원을 분리하는 음원분리장치의 내부 구성도를 도시한다.
도 2 는 본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경의 일 예를 도시한다.
도 3 은 본 발명의 바람직한 일 실시예로서, 채널식별부에서 활성채널을 식별하는 일 예를 도시한다.
도 4 는 본 발명의 바람직한 일 실시예로서, 음원분리부에서 실시간으로 화자별 음원으로 분리하는 일 예를 도시한다.
도 5 는 본 발명의 바람직한 일 실시예로서, 성문모델학습부에서 학습을 수행하는 과정의 일 예를 도시한다.
도 6 내지 7 은 본 발명의 바람직한 일 실시예로서, 화자별음성검출부에서 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류하는 일 예를 도시한다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명한다.
도 1 은 본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경에서 화자별로 음원을 분리하는 음원분리장치의 내부 구성도를 도시한다.
본 발명은 다수의 화자(101, 102, 103) 각각에게 유선 또는 무선 마이크(101a, 102a, 103a, 103b)를 적어도 하나씩 부여된 것을 가정한다. 화자별음원분리장치(100)는 다수의 화자(101, 102, 103) 각각이 이용하는 마이크(101a, 102a, 103a, 103b)로부터 채널신호를 수신한다. 화자별음원분리장치(100)는 수신부를 통해 복수의 마이크(101a, 102a, 103a, 103b)로부터 입력되는 채널신호를 동기화하여 수신할 수 있다.
화자별음원분리장치(100)는 채널식별부(130), 음원분리부(140) 및 성문모델학습부(150)를 포함한다. 음원분리부(140)는 화자별 음성검출부(160)를 더 포함한다.
화자별음원분리장치(100)는 변환부(120)를 더 포함할 수 있다. 변환부(120)는 화자별음원분리장치(100)에 통합되거나 또는 유무선 통신을 통해 화자별음원분리장치(100)와 통신을 수행할 수 있다. 변환부(120)의 일 예로는 음성인식 클라우드 서버가 있다.
화자별음원분리장치(100)는 프로세서, 메모리, 통신부, 그리고 마이크로부터 수신되는 채널 신호를 수신하는 수신부를 포함하는 단말기에 구현될 수 있다. 단말기는 화자별음원분리장치(100)에서 화자별로 추출한 음성을 변환한 텍스트를 표시하는 디스플레이를 더 포함할 수 있다. 단말기는 컴퓨터, 노트북, 핸드폰, 스마트폰, 스마트 와치, 테블릿, 핸드헬드 장치, 웨어러블 디바이스 등을 포함한다.
화자별음원분리장치(100)의 내부 구성을 살펴본다.
채널식별부(130)는 다수의 마이크(101a, 102a, 103a, 103b)에서 수신된 다채널 신호 간의 채널간 스펙트럼 유사도를 이용하여 인접한 마이크 간 간섭효과에 의한 간섭음성입력과 화자의 실제 발화에 기인한 발화음성입력을 구별하고, 발화음성입력이 발생한 활성채널을 식별한다.
채널식별부(130)는 채널별로 음성발화구간을 검출할 수 있다. 또한, 복수의 활성채널을 식별한 경우, 식별된 복수의 활성채널 각각에서 복수의 화자가 동시에 발화한 동시발화구간을 더 검출할 수 있다.
채널식별부(130)는 식별된 활성채널 간 스펙트럼 유사도를 이용하여 발화자 수의 단수 또는 복수여부를 판단한다. 또한 채널식별부(130)는 파워스펙트럼 차분값 기반의 정규화된 전역밴드 로그에너지를 이용하여 간섭음성입력과 발화음성입력을 구별할 수 있다. 채널식별부(130)에서 채널별로 음성 및 비음성을 분류하는 과정을 통해 활성채널을 식별하는 일 예는 도 3 을 참고한다.
음원분리부(140)는 채널식별부(130)에서 식별한 채널에서 수신한 음원을 분리한다. 음원분리부(140)는 채널식별부(130)에서 복수의 활성채널을 식별한 경우, 복수의 채널 각각의 음원을 분리한다. 또한, 음원분리부(140)는 채널식별부(130)에서 동시발화구간을 검출한 경우, 동시발화구간에서 실시간으로 활성채널별로 음원을 분리할 수 있다. 복수의 화자가 동시에 발화한 경우 음원분리부(140)에서 실시간으로 화자별 음원으로 분리하는 일 예는 도 4를 참고한다.
성문모델학습부(150)는 다수의 마이크에서 수신된 다채널 각각에서 추출된 발화음성입력을 축적하여 화자별로 성문모델을 생성하고 업데이트한다. 성문모델학습부(150)에서 학습을 수행하는 과정은 도 5를 참고한다.
화자별음성검출부(160)는 음원분리부(140)에서 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류한다. 화자별음성검출부(160)는 화자식별 기술을 이용하여 다채널 다화자 환경에서 화자가 이동하면서 발화하는 경우에도 화자의 음성이 입력된 채널을 추적하여 화자별로 음성을 추출한다. 화자별음성검출부(160)는 분류된 화자별 음원에 자동이득제어(AGC, automatic gain control)와 음성향상 기법(speech enhancement) 등의 후처리를 적용할 수 있다. 후처리가 적용된 화자별 음원은 음성인식에 적용될 최종 음성데이터로 출력될 수 있다. 후처리는 각 채널별로 독립적으로 수행될 수 있다. 화자별음성검출부(160)에서 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류하는 과정은 도 6 및 7을 참고한다.
본 발명의 바람직한 일 실시예에서는 성문모델학습부(150)에서 성문모델을 학습하여 화자를 식별하고 인증하고, 화자별음성검출부(160)에서 성문모델학습부(150)의 학습결과를 이용하여 음원분리부(140)에서 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류함으로써, 화자가 회의 또는 상담 도중에 이동하여 본인에게 매핑된 마이크가 아닌 다른 마이크를 이용하는 경우에도, 화자를 잘못 인식하던 기존의 문제점을 해결할 수 있다.
변환부(120)는 화자별음성검출부에서 화자별로 분류한 음원을 텍스트로 변환한다. 변환부(120)는 여러 명의 화자가 발화하는 상황에서도, 화자별음성검출부(160)에서 화자별로 분류한 음원을 수신하여 발화자 정보 및 발화 내용을 실시간으로 텍스트로 변환하여 문서화한다. 변환부(120)는 화자별로 분류한 음성데이터로 음성인식을 수행함으로써 화자정보가 포함된 문서를 제공할 수 있다.
도 2 는 본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경의 일 예를 도시한다. 도 2 의 그래프에서 x축은 시간, y축은 파형을 나타낸다.
도 2 는 다채널 다화자 환경에서 화자별 음원분리장치에서 TV홈쇼핑에서 핀마이크를 착용한 3명 호스트의 녹음 음성의 파형(201a, 202a,203a)에서 간섭효과(210)를 제거하고, 채널별로 음원을 분류한 후 화자별로 음원을 재분류한 파형(201b, 202b,203b)을 도시한다. 또한, 도 2에는 3명 호스트가 동시에 발화한 동시발화구간(220)에서 복수 화자의 목소리가 섞인 신호로부터 각 화자의 음성을 분리한 파형(201b, 202b,203b)이 도시되어 있다.
도 3 은 본 발명의 바람직한 일 실시예로서, 채널식별부에서 활성채널을 식별하는 일 예를 도시한다.
채널식별부는 프레임 단위의 분석구간마다 제 1 마이크 M1(301a)부터 제 n 마스크 MN(302a) 각각에서 들어오는 채널신호 각각에서 음성활성검출(VAD, voice activity detection)을 수행하여 묵음, 무성음, 유성음을 구별한다. 일반적으로 음성인식 기술에서는 기설정된 길이의 프레임이 10msec이지만, 본 발명에서는 다채널 환경에서 화자별 음원을 분리하기 위하여 100msec 길이 단위로 이용한다. 채널식별부는 프레임 이동 길이를 100msec 이용하며, 한 프레임의 분석창 길이는 인접한 프레임들을 포함한 300msec 를 이용한다. 다만, 이는 실시예일 뿐 이에 제한되는 것은 아니다.
도 3을 참고하면, 채널식별부는 음성활성검출을 통해 음성 프레임과 비음성 프레임을 분류한다(S301, S302). 이를 위해 채널식별부는 각 채널에 대해 원시 전역밴드(full-band) 로그에너지 F1(c)가 제 1 임계값 th1(c)보다 크고, 동시에 정규화된 전역밴드 로그에너지값 F4(c)가 제 4 임계값 th4(c)보다 큰지 판단한다. 이 경우, 제 1 임계값 th1(c)과 제 4 임계값 th4(c)은 채널별로 매 프레임마다 적응적으로 결정된다. 채널 식별부는 F1(c) > th1(c) 조건과 F4(c) > th4(c) 조건을 만족하면 음성프레임으로 분류한다.
F1(c)
F4(c)
: positive part function
c는 채널 인덱스, k는 주파수 빈(bin), DPS(c, k)는 파워스펙트럼 차분값, Pck는 채널 c, 주파수 bin k 영역에서의 파워 스펙트럼, 그리고 f+(x)는 특정채널과 다른 채널과의 차이값이 양(+)인 부분을 합한 함수를 나타낸다.
그리고, 음성 프레임이 판별된 채널들은 채널별로 유성음과 무성음 프레임을 분류한다(S311, S312). 유성음과 무성음을 분류하는 기술은 일반적인 음성신호처리 기술과 유성음들은 주로 3kHz 이하의 저주파수 영역에 파워스텍트럼 성분이 존재한다는 사실을 이용할 수 있다. 채널식별부는 채널별로 사용자가 실제로 발화한 음성에 해당하는 유성음이 검출된 프레임을 취합하여 음성발화구간을 검출한다.
채널식별부는 또한 복수 개의 채널에서 유성음이 검출되는 경우, 채널간 스펙트럼 유사도에 기초하여 입력음원이 단수인지 목수인지를 추정하여 활성채널을 식별한다(S320). 복수 개의 채널들이 활성화된 경우, 채널간 신호특성의 유사성에 따라 입력 음원 소스들이 하나인지, 복수 개인지 검사한다. 음원 소스가 하나로 판별된 경우에는 가장 강한 채널만 활성화시키고 나머지 채널들은 비활성화한다.
채널 i의 파워스펙트럼 벡터를 ]라 할 때, 채널 i 및 채널 j 간 스펙트럼 유사도는 다음과 같이 추정된다.
=
음원 소스가 하나로 판별된 경우에는 채널 i 및 채널 j 간 스펙트럼 유사도가 매우 높다. 따라서, s(i,j)가 기설정된 임계값보다 큰 조건을 만족시키면 약한 채널은 비활성화시킨다. s(i,j)가 기설정된 임계값 미만인 경우에는 서로 상이한 음원 소스들로 판단하여 해당 채널들을 모두 활성채널로 판단한다.
본 발명의 또 다른 바람직한 일 실시예에서 채널식별부는 정규화된 전역밴드 로그에너지값 F4(c)을 이용하여 활성채널과 비활성채널을 구별할 수 있다. 그리고, 채널식별부는 파워스펙트럼 차분값 기반의 정규화된 전역밴드 로그에너지 F4(c)를 이용하여 간섭음성입력과 발화음성입력을 구별한다.
도 2에서, 간섭효과(210)가 발생한 시점 t1에서 제 1 파형(201a), 제 2 파형(202a) 및 제 3 파형(203a)의 정규화된 전역밴드 로그에너지 F4(c)값은 각각 16.56, 16.73, 그리고 25.20이다. 도 2의 그래프에서, 채널식별부는 t1 시점에서 정규화된 전역밴드 로그에너지 F4(c)값이 기설정된 값보다 작은 제 1 파형(201a), 제 2 파형(202a)은 비활성채널로 판단하고, 정규화된 전역밴드 로그에너지 F4(c)값이 기설정된 값 보다 큰 제 3 파형(203a)은 활성채널로 검출한다.
또한, 도 2에서, 3명 호스트가 동시에 발화한 동시발화구간(220) 내의 시점 t2(221)에서 제 1 파형(201a), 제 2 파형(202a) 및 제 3 파형(203a)의 정규화된 전역밴드 로그에너지 F4(c)값은 각각 22.95, 22.34, 그리고 24.63이다. 채널식별부는 t2 시점(221)에서 정규화된 전역밴드 로그에너지 F4(c)값이 기설정된 값보다 큰 제 1 파형(201a), 제 2 파형(202a) 및 제 3 파형(203a)은 활성채널로 검출한다.
도 4 는 본 발명의 바람직한 일 실시예로서, 음원분리부에서 실시간으로 화자별 음원으로 분리하는 일 예를 도시한다.
도 4 는 두명의 화자가 음원A(401)와 음원B(402)를 동시에 발화하여 음원A(401)와 음원B(402)가 함께 섞여 제 1 혼합신호(410) 및 제 2 혼합신호(420)로 입력되는 것을 음원분리부(440)에서 분리된 음원 A(451)와 분리된 음원 B(461)로 분리하는 것을 도시한다.
도 2를 참고하면, 채널식별부는 t2 시점(221)에서 복수 개의 채널이 활성화된 것으로 식별되는 경우, 음원분리부(440)는 동시발화구간에서 실시간으로 활성채널별로 음원을 분리한다. 음원분리부(440)는 활성채널별로 음원을 분리하기 위해 암묵신호분리(BSS, blind source separation) 기법을 이용할 수 있다. 또한, 실시간으로 다채널 음원 분리는 ICA(independent component analysis), IVA(independent vector analysis) 기법 등을 이용할 수 있다. 음원분리부(440)는 동시발화구간에서 실시간으로 활성채널별로 음원을 분리하기 위하여 이동 길이를 30msec, 그리고 분석창 길이를 120msec로 설정하여 음원분리를 수행할 수 있다. 다만, 이는 일 실시예일뿐 다양한 변형이 가능하다.
도 5 는 본 발명의 바람직한 일 실시예로서, 성문모델학습부에서 학습을 수행하는 과정의 일 예를 도시한다.
본 발명의 바람직한 일 실시예로서, 성문모델학습부는 성문모델을 생성 전 특정 채널 하나만 활성화 된 경우(S510, S520), 해당 채널의 음성데이터를 출력하여 성문모델을 생성한다(S540). 성문모델학습부는 성문모델 생성 전에(S510) 복수 개의 채널이 동시 활성화된 경우에는 음원분리를 통해 출력된 데이터를 그대로 출력한다(S522).
성문모델학습부는 성문모델이 생성되면 학습된 성문모델로 화자 식별 및 인증 과정을 거치고(S510, S512), 특정화자로 인증이 확정되면(S530) 성문모델DB(502)를 업데이트한다(S532). 성문모델은 고정된 길이의 성문벡터로 표현되며, i-vector, d-vector, x-vector, r-vector 등의 성문벡터들이 이용될 수 있다. 성문모델은 약 5초 길이의 음성데이터가 입력되면 생성될 수 있다. 업데이트 방식은 새로운 발화데이터에 대한 성문벡터를 추출하고, 기존 성문벡터와 가중 평균에 의해 모델을 업데이트한다. 이 때, 가중치는 기존 성문벡터 추출에 적용된 음성길이와 새로운 발화데이터의 음성길이에 따라 결정될 수 있다. 그리고 등록된 화자의 음성데이터를 출력한다(S534).
화자 식별 및 인증 과정을 거치고(S510, S512), 특정화자로 인증이 되지 않은 경우에는 성문모델을 생성(S540)하고, 신규화자의 음성데이터를 출력한다(S542).
도 6 내지 7 은 본 발명의 바람직한 일 실시예로서, 화자별음성검출부에서 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류하는 일 예를 도시한다.
음원분리부에서 복수의 채널 각각에서 들어온 음원을 분리하면, 화자별음성검출부는 학습된 화자별 성문모델을 이용하여 채널별로 분리된 음원을 화자별 음성으로 재분류한다. 도 7 을 참고하면, 음원 분리부는 제1 채널(70)에서 제 1 음원(701a), 제 2 채널(702)에서 제 2 음원(702a) 및 제 3 음원(702b), 제 3 채널(703)에서 제 4 음원(703b), 그리고 제 4 채널(704)에서 제 5 음원(705a)을 각각 분리하였다.
도 7에는 화자A(710)가 이동하면서 발화하여, 제 1 음원(701a)은 제 1 채널(701)로부터 입력되었으나, 화자 A(710)의 제 3 음원(702b)이 제 2 채널(702)로부터 입력된 경우가 도시되어 있다.
화자별음성검출부는 성문모델학습부에서 실시간으로 학습된 성문모델을 이용하여 화자를 식별하고 인증을 수행함으로써 발화자가 이동중에도 발화자 음성이 입력된 채널을 추적하여 화자별로 음성을 추출할 수 있다.
화자별음성검출부는 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류하기 위하여 화자의 성문모델 벡터와 활성 채널에서 추출된 발화음성에 대한 벡터 사이의 유사도를 코사인 유사도 점수, PLDA(probabilistic linear discriminant analysis) 유사도 점수 등으로 계산한다. 그리고, 식별된 화자의 유사도 점수가 기준치 이상인 경우 동일한 화자로 인증한다.
도 7을 참고하면, 화자별음성검출부는 제 1 채널(701)로부터 입력된 제 1 음원(701a)과 제 2 채널(702)로부터 입력된 제 3 음원(702b)을 화자 A(710)의 음원으로 재분류한다.
도 6 을 참고하면, 화자별음성검출부는 활성채널 i의 음성데이터(601)를 수신하면, 활성채널 i에 할당된 화자가 있는지 판단한다(S610). 활성채널 i에 할당된 화자가 인증되면(S620, S630), 활성채널 i에 할당된 화자의 음성 데이터를 출력하고 성문모델을 업데이트한다(S632). 활성채널 i에 할당된 화자가 인증되지 않는 경우 화자를 식별하고(S640), 화자의 식별점수가 기설정된 임계값 이상이거나 또는 화자의 수가 채널의 수 이상이면 식별된 화자 음성데이터로 출력한다(S650, S660). 이를 만족하지 못하는 경우에는 신규 화자 음성데이터로 출력한다(S650, S670).
화자별음성검출부는 활성채널 i의 음성데이터(601)를 수신하면, 활성채널 i에 할당된 화자가 없는 경우에도(S610), 성문모델DB(602)를 참고하여 화자를 식별한다(S640~S670).
화자별음성검출부는 채널과 화자의 매핑 관계가 일치하는 경우에 적용하는 임계값 Th1 와 그렇지 않은 경우의 임계값 Th2 를 다르게 설정하여 채널과 화자 관계가 일치할 때는 해당 화자로 식별되면 최대한 승인될 수 있게 설정할 수 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

Claims (15)

  1. 다수의 마이크에서 수신된 다채널 신호 간의 채널간 스펙트럼 유사도를 이용하여 인접한 마이크 간 간섭효과에 의한 간섭음성입력과 화자의 실제 발화에 기인한 발화음성입력을 구별하고, 상기 다채널 중 상기 발화음성입력이 발생한 활성채널을 식별하는 채널식별부;
    상기 채널식별부에서 복수의 활성채널을 식별한 경우, 상기 복수의 채널 각각의 음원을 분리하는 음원분리부;및
    상기 복수의 채널 각각에서 분리된 음원을 화자별 음원으로 재분류하는 화자별음성검출부;를 포함하는 것을 특징으로 하고,
    상기 채널식별부는,
    상기 복수의 채널 별 원시 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제1 임계 값보다 크고 상기 복수의 채널 별 파워스펙트럼 차분값 기반의 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제2 임계 값보다 크면, 상기 복수의 채널 각각의 신호를 상기 발화음성입력으로 구별하는 것을 특징으로 하고,
    상기 채널식별부는,
    상기 간섭효과가 발생한 시점에서 상기 복수의 채널 별 파형의 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제1 값보다 큰 파형의 채널은 상기 활성채널로 판단하고, 상기 제1 값보다 작은 파형의 채널은 비활성채널로 판단하는 것을 특징으로 하고,
    상기 채널식별부는,
    복수의 활성채널을 식별한 경우, 식별된 복수의 활성채널 각각에서 복수의 화자가 동시에 발화한 동시발화구간을 더 검출하는 것을 특징으로 하고,
    상기 동시발화구간 내의 시점에서 상기 복수의 채널 별 파형의 상기 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제2 값보다 큰 파형의 채널은 상기 활성채널로 판단하고, 상기 제2 값보다 작은 파형의 채널은 상기 비활성채널로 판단하는 것을 특징으로 하고,
    상기 채널식별부는,
    상기 채널간 스펙트럼 유사도를 이용하여 발화자 수의 단수, 복수여부를 판단하여 상기 활성채널을 식별하는 것을 특징으로 하고,
    상기 채널 간 스펙트럼 유사도가 기설정된 제3 값보다 큰 경우, 상기 채널 간의 발화자가 동일한 것으로 판별하여 신호가 강한 채널은 상기 활성채널로 식별하고 신호가 약한 채널은 비활성화 시키는 것을 특징으로 하고,
    상기 복수의 채널 간 스펙트럼 유사도가 상기 제3 값보다 작은 경우, 상기 채널 간의 발화자가 서로 상이한 것으로 판별하여 상기 복수의 채널 모두를 활성채널로 식별하는 것을 특징으로 하는 다채널 다화자 환경에서 화자별 음원분리장치.
  2. 제 1 항에 있어서,
    상기 화자별 음원분리장치는,
    다수의 마이크에서 수신된 다채널 각각에서 추출된 발화음성입력을 축적하여 화자별로 성문모델을 생성하고 업데이트하는 성문모델학습부;를 더 포함하는 것을 특징으로 하는 다채널 다화자 환경에서 화자별 음원분리장치.
  3. 삭제
  4. 삭제
  5. 제 1 항에 있어서,
    상기 음원분리부는
    상기 동시발화구간에서 실시간으로 활성채널별로 음원을 분리하는 것을 특징으로 하는 다채널 다화자 환경에서 화자별 음원분리장치.
  6. 제 1 항에 있어서,
    상기 화자별 음원분리장치는,
    복수의 화자가 동시에 발화하는 상황에서 실시간으로 상기 각 활성채널별로 발화음성입력을 구별하고, 구별된 발화음성입력과 발화자 정보를 텍스트로 변환하는 변환부;를 더 포함하는 것을 특징으로 하는 다채널 다화자 환경에서 화자별 음원분리장치.
  7. 삭제
  8. 다채널 다화자 환경에서 화자별로 음원을 분리하는 방법으로서,
    채널식별부에서 다수의 마이크에서 수신된 다채널 신호 간의 채널간 스펙트럼 유사도를 이용하여 인접한 마이크 간 간섭효과에 의한 간섭음성입력과 화자의 실제 발화에 기인한 발화음성입력을 구별하는 단계;
    상기 채널식별부에서 상기 다채널 중 상기 발화음성입력이 발생한 활성채널을 식별하는 단계;
    상기 채널식별부에서 복수의 활성채널을 식별한 경우, 음원분리부에서 상기 복수의 채널 각각의 음원을 분리하는 단계; 및
    화자별음성검출부에서 상기 복수의 채널 각각에서 분리된 음원을 화자별 음원으로 재분류하는 단계;를 포함하고,
    상기 발화음성입력을 구별하는 단계는,
    상기 복수의 채널 별 원시 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제1 임계 값보다 크고 상기 복수의 채널 별 파워스펙트럼 차분값 기반의 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제2 임계 값보다 크면, 상기 복수의 채널 각각의 신호를 상기 발화음성입력으로 구별하는 것을 특징으로 하고,
    상기 활성채널을 식별하는 단계는,
    상기 간섭효과가 발생한 시점에서 상기 복수의 채널 별 파형의 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제1 값보다 큰 파형의 채널은 상기 활성채널로 판단하고, 상기 제1 값보다 작은 파형의 채널은 비활성채널로 판단하는 것을 특징으로 하고,
    상기 활성채널을 식별하는 단계는,
    복수의 활성채널을 식별한 경우, 식별된 복수의 활성채널 각각에서 복수의 화자가 동시에 발화한 동시발화구간을 더 검출하는 것을 특징으로 하고,
    상기 동시발화구간 내의 시점에서 상기 복수의 채널 별 파형의 상기 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제2 값보다 큰 파형의 채널은 상기 활성채널로 판단하고, 상기 제2 값보다 작은 파형의 채널은 상기 비활성채널로 판단하는 것을 특징으로 하고,
    상기 활성채널을 식별하는 단계는,
    상기 채널간 스펙트럼 유사도를 이용하여 발화자 수의 단수, 복수여부를 판단하여 상기 활성채널을 식별하는 것을 특징으로 하고,
    상기 채널 간 스펙트럼 유사도가 기설정된 제3 값보다 큰 경우, 상기 채널 간의 발화자가 동일한 것으로 판별하여 신호가 강한 채널은 상기 활성채널로 식별하고 신호가 약한 채널은 비활성화 시키고,
    상기 복수의 채널 간 스펙트럼 유사도가 상기 제3 값보다 작은 경우, 상기 채널 간의 발화자가 서로 상이한 것으로 판별하여 상기 복수의 채널 모두를 활성채널로 식별하는 것을 특징으로 하는 방법.
  9. 제 8 항에 있어서,
    상기 화자별로 음원을 분리하는 방법은,
    성문모델학습부에서 다수의 마이크에서 수신된 다채널 각각에서 추출된 발화음성입력을 축적하여 화자별로 성문모델을 생성하고 업데이트하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  10. 삭제
  11. 제 8 항에 있어서,
    상기 활성채널을 식별하는 단계는,
    채널 i의 파워스펙트럼 벡터를 ]라 할 때,
    =
    채널 i 및 채널 j 간 스펙트럼 유사도는 S(i,j)로 추정되는 것을 특징으로 하는 방법.
  12. 제 8 항에 있어서,
    상기 복수의 채널 각각의 음원을 분리하는 단계는,
    상기 동시발화구간에서 실시간으로 활성채널별로 음원을 분리하는 것을 특징으로 하는 방법.
  13. 제 8 항에 있어서,
    상기 화자별로 음원을 분리하는 방법은,
    변환부에서 상기 화자별 음원 및 발화자 정보를 텍스트로 변환하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  14. 삭제
  15. 제 8 항의 다채널 다화자 환경에서 화자별로 음원을 분리하는 방법을 구현하는 프로그램을 저장한 컴퓨터 판독 가능한 기록매체.
KR1020230025313A 2023-02-24 2023-02-24 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 KR102661005B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230025313A KR102661005B1 (ko) 2023-02-24 2023-02-24 다채널 다화자 환경에서 화자별 음원분리장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230025313A KR102661005B1 (ko) 2023-02-24 2023-02-24 다채널 다화자 환경에서 화자별 음원분리장치 및 방법

Publications (1)

Publication Number Publication Date
KR102661005B1 true KR102661005B1 (ko) 2024-04-25

Family

ID=90884974

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230025313A KR102661005B1 (ko) 2023-02-24 2023-02-24 다채널 다화자 환경에서 화자별 음원분리장치 및 방법

Country Status (1)

Country Link
KR (1) KR102661005B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100776803B1 (ko) * 2006-09-26 2007-11-19 한국전자통신연구원 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
KR101970347B1 (ko) 2019-02-19 2019-04-17 주식회사 소리자바 화자 음성의 노이즈를 제거하는 음성인식장치
KR20190120535A (ko) * 2018-04-16 2019-10-24 엘지전자 주식회사 음성 신호 선별 기반 음성 인식 장치
KR102462219B1 (ko) * 2021-06-15 2022-11-04 (주)미소정보기술 화자 분리 기술을 이용한 회의록 자동 생성 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100776803B1 (ko) * 2006-09-26 2007-11-19 한국전자통신연구원 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
KR20190120535A (ko) * 2018-04-16 2019-10-24 엘지전자 주식회사 음성 신호 선별 기반 음성 인식 장치
KR101970347B1 (ko) 2019-02-19 2019-04-17 주식회사 소리자바 화자 음성의 노이즈를 제거하는 음성인식장치
KR102462219B1 (ko) * 2021-06-15 2022-11-04 (주)미소정보기술 화자 분리 기술을 이용한 회의록 자동 생성 방법

Similar Documents

Publication Publication Date Title
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
Shiota et al. Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification
US8762144B2 (en) Method and apparatus for voice activity detection
Wrigley et al. Speech and crosstalk detection in multichannel audio
US8249867B2 (en) Microphone array based speech recognition system and target speech extracting method of the system
Zhang et al. Whisper-island detection based on unsupervised segmentation with entropy-based speech feature processing
US20140156276A1 (en) Conversation system and a method for recognizing speech
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
CN113748462A (zh) 确定用于语音处理引擎的输入
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
CN112509598A (zh) 音频检测方法及装置、存储介质
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Këpuska Wake-up-word speech recognition
JP2012032557A (ja) 音声に含まれる吸気音を検出する装置、方法、及びプログラム
JP3838159B2 (ja) 音声認識対話装置およびプログラム
KR101809511B1 (ko) 발화자의 연령대 인식 장치 및 방법
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
KR102661005B1 (ko) 다채널 다화자 환경에서 화자별 음원분리장치 및 방법
CN114303186A (zh) 用于在语音合成中适配人类说话者嵌入的系统和方法
Yella et al. Information bottleneck based speaker diarization of meetings using non-speech as side information
Hu et al. Single-channel speaker diarization based on spatial features
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
Lee et al. Space-time voice activity detection
KR20190120535A (ko) 음성 신호 선별 기반 음성 인식 장치
US11437019B1 (en) System and method for source authentication in voice-controlled automation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant