KR102661005B1 - 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 - Google Patents
다채널 다화자 환경에서 화자별 음원분리장치 및 방법 Download PDFInfo
- Publication number
- KR102661005B1 KR102661005B1 KR1020230025313A KR20230025313A KR102661005B1 KR 102661005 B1 KR102661005 B1 KR 102661005B1 KR 1020230025313 A KR1020230025313 A KR 1020230025313A KR 20230025313 A KR20230025313 A KR 20230025313A KR 102661005 B1 KR102661005 B1 KR 102661005B1
- Authority
- KR
- South Korea
- Prior art keywords
- channel
- channels
- speaker
- active
- sound source
- Prior art date
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims description 22
- 238000001514 detection method Methods 0.000 claims abstract description 24
- 230000000694 effects Effects 0.000 claims abstract description 20
- 230000003595 spectral effect Effects 0.000 claims abstract description 16
- 108091006146 Channels Proteins 0.000 claims description 225
- 239000013598 vector Substances 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000010304 firing Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경에서 화자별 음원분리장치는 다수의 마이크에서 수신된 다채널 신호 간의 채널간 스펙트럼 유사도를 이용하여 인접한 마이크 간 간섭효과에 의한 간섭음성입력과 화자의 실제 발화에 기인한 발화음성입력을 구별하고, 상기 다채널 중 상기 발화음성입력이 발생한 활성채널을 식별하는 채널식별부;상기 채널식별부에서 복수의 활성채널을 식별한 경우, 상기 복수의 채널 각각의 음원을 분리하는 음원분리부;및 상기 복수의 채널 각각에서 분리된 음원을 화자별 음원으로 재분류하는 화자별음성검출부;를 포함하는 것을 특징으로 한다.
Description
본 발명은 다채널, 다화자 화경에서 화자별 음원 분리를 수행하는 장치 및 방법에 관한 것이다.
다수의 화자 각각에게 적어도 하나의 유선 또는 무선 마이크가 부여된 상황에서 화자가 발화한 음성은 인접한 화자들의 마이크에 입력되는 간섭효과가 발생할 수 있다. 이 경우, 화자의 마이크에서 수신된 채널별로 화자의 음성을 텍스트로 변환하는 경우 간섭효과로 인하여 화자의 음성이 잘못 검출되는 문제가 발생할 수 있다. 특히, 성량이 높은 참가자가 있을 경우 심각한 오류가 발생한다.
또한, 복수의 화자가 동시에 발화하는 경우, 각 채널별로 녹음된 신호에 복수의 화자의 음성이 함께 섞여 들어옴으로써 음성 인식 성능이 저하되는 문제가 발생한다.
뿐만 아니라, 다수의 화자 각각에게 마이크를 매핑한 상태에서, 화자가 이동하면서 본인에게 매핑되지 않은 다른 마이크를 이용하는 경우, 화자 인식에 오류가 발생할 수 있다. 예를 들어 다채널 음원분리 과정에서 채널 뒤바뀜 현상이 발생하여, 다른 마이크에 기매핑된 화자로 인식될 오류가 있다.
본 발명의 바람직한 일 실시예에서는 다채널 다화자 환경에서 인접한 마이크 간 간섭효과를 줄이거나 제거하고자 한다.
본 발명의 또 다른 바람직한 일 실시예에서는, 복수의 화자가 동시에 발화하는 경우에도 실시간으로 각 채널별로 음성을 분리하고, 채널별로 분리된 음성을 화자별로 재분류하여 발화자를 식별하고자 한다.
본 발명의 또 다른 바람직한 일 실시예에서는, 화자식별 기술을 이용하여 다채널 다화자 환경에서 화자가 이동하면서 발화하는 경우에도 화자의 음성이 입력된 채널을 추적하여 화자별로 음성을 추출하고자 한다.
본 발명의 또 다른 바람직한 일 실시예에서는, 의료 진료, 법률 상담, 금융상품 판매 상담, 회의, 조서 작성 등의 다화자 대화음성을 문서화하는 대화형 음성인식 서비스에서 실시간으로 화자별 음원을 분리하여 발화자 정보와 발화 텍스트 내용을 동시에 문서화하고자 한다.
본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경에서 화자별 음원분리장치는 다수의 마이크에서 수신된 다채널 신호 간의 채널간 스펙트럼 유사도를 이용하여 인접한 마이크 간 간섭효과에 의한 간섭음성입력과 화자의 실제 발화에 기인한 발화음성입력을 구별하고, 상기 다채널 중 상기 발화음성입력이 발생한 활성채널을 식별하는 채널식별부;상기 채널식별부에서 복수의 활성채널을 식별한 경우, 상기 복수의 채널 각각의 음원을 분리하는 음원분리부;및 상기 복수의 채널 각각에서 분리된 음원을 화자별 음원으로 재분류하는 화자별음성검출부;를 포함하는 것을 특징으로 한다.
본 발명의 바람직한 일 실시예에서는 다채널 다화자 환경에서 인접한 마이크 간 간섭효과를 줄이거나 제거하는 효과가 있다.
본 발명의 또 다른 바람직한 일 실시예에서는, 복수의 화자가 동시에 발화하는 경우에도 실시간으로 각 채널별로 음성을 분리하고, 채널별로 분리된 음성을 추가로 화자별로 재분류하여 실시간으로 발화자의 음성을 식별할 수 있는 효과가 있다.
본 발명의 또 다른 바람직한 일 실시예에서는, 화자식별 기술을 이용하여 다채널 다화자 환경에서 화자가 이동하면서 발화하는 경우에도 화자의 음성이 입력된 채널을 추적하여 화자별로 음성을 추출함으로써 화자별 음성분리 정확도를 개선하는 효과가 있다.
본 발명의 또 다른 바람직한 일 실시예에서는, 의료 진료, 법률 상담, 금융상품 판매 상담, 회의, 조서 작성 등의 다화자 대화음성을 문서화하는 대화형 음성인식 서비스에서 실시간으로 화자별 음원을 분리하여 발화자 정보와 발화 텍스트 내용을 동시에 문서화함으로써 개선된 대화형 음식 서비스를 제공하는 효과가 있다.
도 1 은 본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경에서 화자별로 음원을 분리하는 음원분리장치의 내부 구성도를 도시한다.
도 2 는 본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경의 일 예를 도시한다.
도 3 은 본 발명의 바람직한 일 실시예로서, 채널식별부에서 활성채널을 식별하는 일 예를 도시한다.
도 4 는 본 발명의 바람직한 일 실시예로서, 음원분리부에서 실시간으로 화자별 음원으로 분리하는 일 예를 도시한다.
도 5 는 본 발명의 바람직한 일 실시예로서, 성문모델학습부에서 학습을 수행하는 과정의 일 예를 도시한다.
도 6 내지 7 은 본 발명의 바람직한 일 실시예로서, 화자별음성검출부에서 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류하는 일 예를 도시한다.
도 2 는 본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경의 일 예를 도시한다.
도 3 은 본 발명의 바람직한 일 실시예로서, 채널식별부에서 활성채널을 식별하는 일 예를 도시한다.
도 4 는 본 발명의 바람직한 일 실시예로서, 음원분리부에서 실시간으로 화자별 음원으로 분리하는 일 예를 도시한다.
도 5 는 본 발명의 바람직한 일 실시예로서, 성문모델학습부에서 학습을 수행하는 과정의 일 예를 도시한다.
도 6 내지 7 은 본 발명의 바람직한 일 실시예로서, 화자별음성검출부에서 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류하는 일 예를 도시한다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명한다.
도 1 은 본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경에서 화자별로 음원을 분리하는 음원분리장치의 내부 구성도를 도시한다.
본 발명은 다수의 화자(101, 102, 103) 각각에게 유선 또는 무선 마이크(101a, 102a, 103a, 103b)를 적어도 하나씩 부여된 것을 가정한다. 화자별음원분리장치(100)는 다수의 화자(101, 102, 103) 각각이 이용하는 마이크(101a, 102a, 103a, 103b)로부터 채널신호를 수신한다. 화자별음원분리장치(100)는 수신부를 통해 복수의 마이크(101a, 102a, 103a, 103b)로부터 입력되는 채널신호를 동기화하여 수신할 수 있다.
화자별음원분리장치(100)는 채널식별부(130), 음원분리부(140) 및 성문모델학습부(150)를 포함한다. 음원분리부(140)는 화자별 음성검출부(160)를 더 포함한다.
화자별음원분리장치(100)는 변환부(120)를 더 포함할 수 있다. 변환부(120)는 화자별음원분리장치(100)에 통합되거나 또는 유무선 통신을 통해 화자별음원분리장치(100)와 통신을 수행할 수 있다. 변환부(120)의 일 예로는 음성인식 클라우드 서버가 있다.
화자별음원분리장치(100)는 프로세서, 메모리, 통신부, 그리고 마이크로부터 수신되는 채널 신호를 수신하는 수신부를 포함하는 단말기에 구현될 수 있다. 단말기는 화자별음원분리장치(100)에서 화자별로 추출한 음성을 변환한 텍스트를 표시하는 디스플레이를 더 포함할 수 있다. 단말기는 컴퓨터, 노트북, 핸드폰, 스마트폰, 스마트 와치, 테블릿, 핸드헬드 장치, 웨어러블 디바이스 등을 포함한다.
화자별음원분리장치(100)의 내부 구성을 살펴본다.
채널식별부(130)는 다수의 마이크(101a, 102a, 103a, 103b)에서 수신된 다채널 신호 간의 채널간 스펙트럼 유사도를 이용하여 인접한 마이크 간 간섭효과에 의한 간섭음성입력과 화자의 실제 발화에 기인한 발화음성입력을 구별하고, 발화음성입력이 발생한 활성채널을 식별한다.
채널식별부(130)는 채널별로 음성발화구간을 검출할 수 있다. 또한, 복수의 활성채널을 식별한 경우, 식별된 복수의 활성채널 각각에서 복수의 화자가 동시에 발화한 동시발화구간을 더 검출할 수 있다.
채널식별부(130)는 식별된 활성채널 간 스펙트럼 유사도를 이용하여 발화자 수의 단수 또는 복수여부를 판단한다. 또한 채널식별부(130)는 파워스펙트럼 차분값 기반의 정규화된 전역밴드 로그에너지를 이용하여 간섭음성입력과 발화음성입력을 구별할 수 있다. 채널식별부(130)에서 채널별로 음성 및 비음성을 분류하는 과정을 통해 활성채널을 식별하는 일 예는 도 3 을 참고한다.
음원분리부(140)는 채널식별부(130)에서 식별한 채널에서 수신한 음원을 분리한다. 음원분리부(140)는 채널식별부(130)에서 복수의 활성채널을 식별한 경우, 복수의 채널 각각의 음원을 분리한다. 또한, 음원분리부(140)는 채널식별부(130)에서 동시발화구간을 검출한 경우, 동시발화구간에서 실시간으로 활성채널별로 음원을 분리할 수 있다. 복수의 화자가 동시에 발화한 경우 음원분리부(140)에서 실시간으로 화자별 음원으로 분리하는 일 예는 도 4를 참고한다.
성문모델학습부(150)는 다수의 마이크에서 수신된 다채널 각각에서 추출된 발화음성입력을 축적하여 화자별로 성문모델을 생성하고 업데이트한다. 성문모델학습부(150)에서 학습을 수행하는 과정은 도 5를 참고한다.
화자별음성검출부(160)는 음원분리부(140)에서 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류한다. 화자별음성검출부(160)는 화자식별 기술을 이용하여 다채널 다화자 환경에서 화자가 이동하면서 발화하는 경우에도 화자의 음성이 입력된 채널을 추적하여 화자별로 음성을 추출한다. 화자별음성검출부(160)는 분류된 화자별 음원에 자동이득제어(AGC, automatic gain control)와 음성향상 기법(speech enhancement) 등의 후처리를 적용할 수 있다. 후처리가 적용된 화자별 음원은 음성인식에 적용될 최종 음성데이터로 출력될 수 있다. 후처리는 각 채널별로 독립적으로 수행될 수 있다. 화자별음성검출부(160)에서 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류하는 과정은 도 6 및 7을 참고한다.
본 발명의 바람직한 일 실시예에서는 성문모델학습부(150)에서 성문모델을 학습하여 화자를 식별하고 인증하고, 화자별음성검출부(160)에서 성문모델학습부(150)의 학습결과를 이용하여 음원분리부(140)에서 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류함으로써, 화자가 회의 또는 상담 도중에 이동하여 본인에게 매핑된 마이크가 아닌 다른 마이크를 이용하는 경우에도, 화자를 잘못 인식하던 기존의 문제점을 해결할 수 있다.
변환부(120)는 화자별음성검출부에서 화자별로 분류한 음원을 텍스트로 변환한다. 변환부(120)는 여러 명의 화자가 발화하는 상황에서도, 화자별음성검출부(160)에서 화자별로 분류한 음원을 수신하여 발화자 정보 및 발화 내용을 실시간으로 텍스트로 변환하여 문서화한다. 변환부(120)는 화자별로 분류한 음성데이터로 음성인식을 수행함으로써 화자정보가 포함된 문서를 제공할 수 있다.
도 2 는 본 발명의 바람직한 일 실시예로서, 다채널 다화자 환경의 일 예를 도시한다. 도 2 의 그래프에서 x축은 시간, y축은 파형을 나타낸다.
도 2 는 다채널 다화자 환경에서 화자별 음원분리장치에서 TV홈쇼핑에서 핀마이크를 착용한 3명 호스트의 녹음 음성의 파형(201a, 202a,203a)에서 간섭효과(210)를 제거하고, 채널별로 음원을 분류한 후 화자별로 음원을 재분류한 파형(201b, 202b,203b)을 도시한다. 또한, 도 2에는 3명 호스트가 동시에 발화한 동시발화구간(220)에서 복수 화자의 목소리가 섞인 신호로부터 각 화자의 음성을 분리한 파형(201b, 202b,203b)이 도시되어 있다.
도 3 은 본 발명의 바람직한 일 실시예로서, 채널식별부에서 활성채널을 식별하는 일 예를 도시한다.
채널식별부는 프레임 단위의 분석구간마다 제 1 마이크 M1(301a)부터 제 n 마스크 MN(302a) 각각에서 들어오는 채널신호 각각에서 음성활성검출(VAD, voice activity detection)을 수행하여 묵음, 무성음, 유성음을 구별한다. 일반적으로 음성인식 기술에서는 기설정된 길이의 프레임이 10msec이지만, 본 발명에서는 다채널 환경에서 화자별 음원을 분리하기 위하여 100msec 길이 단위로 이용한다. 채널식별부는 프레임 이동 길이를 100msec 이용하며, 한 프레임의 분석창 길이는 인접한 프레임들을 포함한 300msec 를 이용한다. 다만, 이는 실시예일 뿐 이에 제한되는 것은 아니다.
도 3을 참고하면, 채널식별부는 음성활성검출을 통해 음성 프레임과 비음성 프레임을 분류한다(S301, S302). 이를 위해 채널식별부는 각 채널에 대해 원시 전역밴드(full-band) 로그에너지 F1(c)가 제 1 임계값 th1(c)보다 크고, 동시에 정규화된 전역밴드 로그에너지값 F4(c)가 제 4 임계값 th4(c)보다 큰지 판단한다. 이 경우, 제 1 임계값 th1(c)과 제 4 임계값 th4(c)은 채널별로 매 프레임마다 적응적으로 결정된다. 채널 식별부는 F1(c) > th1(c) 조건과 F4(c) > th4(c) 조건을 만족하면 음성프레임으로 분류한다.
F1(c)
F4(c)
: positive part function
c는 채널 인덱스, k는 주파수 빈(bin), DPS(c, k)는 파워스펙트럼 차분값, Pck는 채널 c, 주파수 bin k 영역에서의 파워 스펙트럼, 그리고 f+(x)는 특정채널과 다른 채널과의 차이값이 양(+)인 부분을 합한 함수를 나타낸다.
그리고, 음성 프레임이 판별된 채널들은 채널별로 유성음과 무성음 프레임을 분류한다(S311, S312). 유성음과 무성음을 분류하는 기술은 일반적인 음성신호처리 기술과 유성음들은 주로 3kHz 이하의 저주파수 영역에 파워스텍트럼 성분이 존재한다는 사실을 이용할 수 있다. 채널식별부는 채널별로 사용자가 실제로 발화한 음성에 해당하는 유성음이 검출된 프레임을 취합하여 음성발화구간을 검출한다.
채널식별부는 또한 복수 개의 채널에서 유성음이 검출되는 경우, 채널간 스펙트럼 유사도에 기초하여 입력음원이 단수인지 목수인지를 추정하여 활성채널을 식별한다(S320). 복수 개의 채널들이 활성화된 경우, 채널간 신호특성의 유사성에 따라 입력 음원 소스들이 하나인지, 복수 개인지 검사한다. 음원 소스가 하나로 판별된 경우에는 가장 강한 채널만 활성화시키고 나머지 채널들은 비활성화한다.
채널 i의 파워스펙트럼 벡터를 ]라 할 때, 채널 i 및 채널 j 간 스펙트럼 유사도는 다음과 같이 추정된다.
=
음원 소스가 하나로 판별된 경우에는 채널 i 및 채널 j 간 스펙트럼 유사도가 매우 높다. 따라서, s(i,j)가 기설정된 임계값보다 큰 조건을 만족시키면 약한 채널은 비활성화시킨다. s(i,j)가 기설정된 임계값 미만인 경우에는 서로 상이한 음원 소스들로 판단하여 해당 채널들을 모두 활성채널로 판단한다.
본 발명의 또 다른 바람직한 일 실시예에서 채널식별부는 정규화된 전역밴드 로그에너지값 F4(c)을 이용하여 활성채널과 비활성채널을 구별할 수 있다. 그리고, 채널식별부는 파워스펙트럼 차분값 기반의 정규화된 전역밴드 로그에너지 F4(c)를 이용하여 간섭음성입력과 발화음성입력을 구별한다.
도 2에서, 간섭효과(210)가 발생한 시점 t1에서 제 1 파형(201a), 제 2 파형(202a) 및 제 3 파형(203a)의 정규화된 전역밴드 로그에너지 F4(c)값은 각각 16.56, 16.73, 그리고 25.20이다. 도 2의 그래프에서, 채널식별부는 t1 시점에서 정규화된 전역밴드 로그에너지 F4(c)값이 기설정된 값보다 작은 제 1 파형(201a), 제 2 파형(202a)은 비활성채널로 판단하고, 정규화된 전역밴드 로그에너지 F4(c)값이 기설정된 값 보다 큰 제 3 파형(203a)은 활성채널로 검출한다.
또한, 도 2에서, 3명 호스트가 동시에 발화한 동시발화구간(220) 내의 시점 t2(221)에서 제 1 파형(201a), 제 2 파형(202a) 및 제 3 파형(203a)의 정규화된 전역밴드 로그에너지 F4(c)값은 각각 22.95, 22.34, 그리고 24.63이다. 채널식별부는 t2 시점(221)에서 정규화된 전역밴드 로그에너지 F4(c)값이 기설정된 값보다 큰 제 1 파형(201a), 제 2 파형(202a) 및 제 3 파형(203a)은 활성채널로 검출한다.
도 4 는 본 발명의 바람직한 일 실시예로서, 음원분리부에서 실시간으로 화자별 음원으로 분리하는 일 예를 도시한다.
도 4 는 두명의 화자가 음원A(401)와 음원B(402)를 동시에 발화하여 음원A(401)와 음원B(402)가 함께 섞여 제 1 혼합신호(410) 및 제 2 혼합신호(420)로 입력되는 것을 음원분리부(440)에서 분리된 음원 A(451)와 분리된 음원 B(461)로 분리하는 것을 도시한다.
도 2를 참고하면, 채널식별부는 t2 시점(221)에서 복수 개의 채널이 활성화된 것으로 식별되는 경우, 음원분리부(440)는 동시발화구간에서 실시간으로 활성채널별로 음원을 분리한다. 음원분리부(440)는 활성채널별로 음원을 분리하기 위해 암묵신호분리(BSS, blind source separation) 기법을 이용할 수 있다. 또한, 실시간으로 다채널 음원 분리는 ICA(independent component analysis), IVA(independent vector analysis) 기법 등을 이용할 수 있다. 음원분리부(440)는 동시발화구간에서 실시간으로 활성채널별로 음원을 분리하기 위하여 이동 길이를 30msec, 그리고 분석창 길이를 120msec로 설정하여 음원분리를 수행할 수 있다. 다만, 이는 일 실시예일뿐 다양한 변형이 가능하다.
도 5 는 본 발명의 바람직한 일 실시예로서, 성문모델학습부에서 학습을 수행하는 과정의 일 예를 도시한다.
본 발명의 바람직한 일 실시예로서, 성문모델학습부는 성문모델을 생성 전 특정 채널 하나만 활성화 된 경우(S510, S520), 해당 채널의 음성데이터를 출력하여 성문모델을 생성한다(S540). 성문모델학습부는 성문모델 생성 전에(S510) 복수 개의 채널이 동시 활성화된 경우에는 음원분리를 통해 출력된 데이터를 그대로 출력한다(S522).
성문모델학습부는 성문모델이 생성되면 학습된 성문모델로 화자 식별 및 인증 과정을 거치고(S510, S512), 특정화자로 인증이 확정되면(S530) 성문모델DB(502)를 업데이트한다(S532). 성문모델은 고정된 길이의 성문벡터로 표현되며, i-vector, d-vector, x-vector, r-vector 등의 성문벡터들이 이용될 수 있다. 성문모델은 약 5초 길이의 음성데이터가 입력되면 생성될 수 있다. 업데이트 방식은 새로운 발화데이터에 대한 성문벡터를 추출하고, 기존 성문벡터와 가중 평균에 의해 모델을 업데이트한다. 이 때, 가중치는 기존 성문벡터 추출에 적용된 음성길이와 새로운 발화데이터의 음성길이에 따라 결정될 수 있다. 그리고 등록된 화자의 음성데이터를 출력한다(S534).
화자 식별 및 인증 과정을 거치고(S510, S512), 특정화자로 인증이 되지 않은 경우에는 성문모델을 생성(S540)하고, 신규화자의 음성데이터를 출력한다(S542).
도 6 내지 7 은 본 발명의 바람직한 일 실시예로서, 화자별음성검출부에서 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류하는 일 예를 도시한다.
음원분리부에서 복수의 채널 각각에서 들어온 음원을 분리하면, 화자별음성검출부는 학습된 화자별 성문모델을 이용하여 채널별로 분리된 음원을 화자별 음성으로 재분류한다. 도 7 을 참고하면, 음원 분리부는 제1 채널(70)에서 제 1 음원(701a), 제 2 채널(702)에서 제 2 음원(702a) 및 제 3 음원(702b), 제 3 채널(703)에서 제 4 음원(703b), 그리고 제 4 채널(704)에서 제 5 음원(705a)을 각각 분리하였다.
도 7에는 화자A(710)가 이동하면서 발화하여, 제 1 음원(701a)은 제 1 채널(701)로부터 입력되었으나, 화자 A(710)의 제 3 음원(702b)이 제 2 채널(702)로부터 입력된 경우가 도시되어 있다.
화자별음성검출부는 성문모델학습부에서 실시간으로 학습된 성문모델을 이용하여 화자를 식별하고 인증을 수행함으로써 발화자가 이동중에도 발화자 음성이 입력된 채널을 추적하여 화자별로 음성을 추출할 수 있다.
화자별음성검출부는 복수의 채널별로 분리된 음원을 화자별 음원으로 재분류하기 위하여 화자의 성문모델 벡터와 활성 채널에서 추출된 발화음성에 대한 벡터 사이의 유사도를 코사인 유사도 점수, PLDA(probabilistic linear discriminant analysis) 유사도 점수 등으로 계산한다. 그리고, 식별된 화자의 유사도 점수가 기준치 이상인 경우 동일한 화자로 인증한다.
도 7을 참고하면, 화자별음성검출부는 제 1 채널(701)로부터 입력된 제 1 음원(701a)과 제 2 채널(702)로부터 입력된 제 3 음원(702b)을 화자 A(710)의 음원으로 재분류한다.
도 6 을 참고하면, 화자별음성검출부는 활성채널 i의 음성데이터(601)를 수신하면, 활성채널 i에 할당된 화자가 있는지 판단한다(S610). 활성채널 i에 할당된 화자가 인증되면(S620, S630), 활성채널 i에 할당된 화자의 음성 데이터를 출력하고 성문모델을 업데이트한다(S632). 활성채널 i에 할당된 화자가 인증되지 않는 경우 화자를 식별하고(S640), 화자의 식별점수가 기설정된 임계값 이상이거나 또는 화자의 수가 채널의 수 이상이면 식별된 화자 음성데이터로 출력한다(S650, S660). 이를 만족하지 못하는 경우에는 신규 화자 음성데이터로 출력한다(S650, S670).
화자별음성검출부는 활성채널 i의 음성데이터(601)를 수신하면, 활성채널 i에 할당된 화자가 없는 경우에도(S610), 성문모델DB(602)를 참고하여 화자를 식별한다(S640~S670).
화자별음성검출부는 채널과 화자의 매핑 관계가 일치하는 경우에 적용하는 임계값 Th1 와 그렇지 않은 경우의 임계값 Th2 를 다르게 설정하여 채널과 화자 관계가 일치할 때는 해당 화자로 식별되면 최대한 승인될 수 있게 설정할 수 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
Claims (15)
- 다수의 마이크에서 수신된 다채널 신호 간의 채널간 스펙트럼 유사도를 이용하여 인접한 마이크 간 간섭효과에 의한 간섭음성입력과 화자의 실제 발화에 기인한 발화음성입력을 구별하고, 상기 다채널 중 상기 발화음성입력이 발생한 활성채널을 식별하는 채널식별부;
상기 채널식별부에서 복수의 활성채널을 식별한 경우, 상기 복수의 채널 각각의 음원을 분리하는 음원분리부;및
상기 복수의 채널 각각에서 분리된 음원을 화자별 음원으로 재분류하는 화자별음성검출부;를 포함하는 것을 특징으로 하고,
상기 채널식별부는,
상기 복수의 채널 별 원시 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제1 임계 값보다 크고 상기 복수의 채널 별 파워스펙트럼 차분값 기반의 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제2 임계 값보다 크면, 상기 복수의 채널 각각의 신호를 상기 발화음성입력으로 구별하는 것을 특징으로 하고,
상기 채널식별부는,
상기 간섭효과가 발생한 시점에서 상기 복수의 채널 별 파형의 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제1 값보다 큰 파형의 채널은 상기 활성채널로 판단하고, 상기 제1 값보다 작은 파형의 채널은 비활성채널로 판단하는 것을 특징으로 하고,
상기 채널식별부는,
복수의 활성채널을 식별한 경우, 식별된 복수의 활성채널 각각에서 복수의 화자가 동시에 발화한 동시발화구간을 더 검출하는 것을 특징으로 하고,
상기 동시발화구간 내의 시점에서 상기 복수의 채널 별 파형의 상기 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제2 값보다 큰 파형의 채널은 상기 활성채널로 판단하고, 상기 제2 값보다 작은 파형의 채널은 상기 비활성채널로 판단하는 것을 특징으로 하고,
상기 채널식별부는,
상기 채널간 스펙트럼 유사도를 이용하여 발화자 수의 단수, 복수여부를 판단하여 상기 활성채널을 식별하는 것을 특징으로 하고,
상기 채널 간 스펙트럼 유사도가 기설정된 제3 값보다 큰 경우, 상기 채널 간의 발화자가 동일한 것으로 판별하여 신호가 강한 채널은 상기 활성채널로 식별하고 신호가 약한 채널은 비활성화 시키는 것을 특징으로 하고,
상기 복수의 채널 간 스펙트럼 유사도가 상기 제3 값보다 작은 경우, 상기 채널 간의 발화자가 서로 상이한 것으로 판별하여 상기 복수의 채널 모두를 활성채널로 식별하는 것을 특징으로 하는 다채널 다화자 환경에서 화자별 음원분리장치. - 제 1 항에 있어서,
상기 화자별 음원분리장치는,
다수의 마이크에서 수신된 다채널 각각에서 추출된 발화음성입력을 축적하여 화자별로 성문모델을 생성하고 업데이트하는 성문모델학습부;를 더 포함하는 것을 특징으로 하는 다채널 다화자 환경에서 화자별 음원분리장치. - 삭제
- 삭제
- 제 1 항에 있어서,
상기 음원분리부는
상기 동시발화구간에서 실시간으로 활성채널별로 음원을 분리하는 것을 특징으로 하는 다채널 다화자 환경에서 화자별 음원분리장치. - 제 1 항에 있어서,
상기 화자별 음원분리장치는,
복수의 화자가 동시에 발화하는 상황에서 실시간으로 상기 각 활성채널별로 발화음성입력을 구별하고, 구별된 발화음성입력과 발화자 정보를 텍스트로 변환하는 변환부;를 더 포함하는 것을 특징으로 하는 다채널 다화자 환경에서 화자별 음원분리장치. - 삭제
- 다채널 다화자 환경에서 화자별로 음원을 분리하는 방법으로서,
채널식별부에서 다수의 마이크에서 수신된 다채널 신호 간의 채널간 스펙트럼 유사도를 이용하여 인접한 마이크 간 간섭효과에 의한 간섭음성입력과 화자의 실제 발화에 기인한 발화음성입력을 구별하는 단계;
상기 채널식별부에서 상기 다채널 중 상기 발화음성입력이 발생한 활성채널을 식별하는 단계;
상기 채널식별부에서 복수의 활성채널을 식별한 경우, 음원분리부에서 상기 복수의 채널 각각의 음원을 분리하는 단계; 및
화자별음성검출부에서 상기 복수의 채널 각각에서 분리된 음원을 화자별 음원으로 재분류하는 단계;를 포함하고,
상기 발화음성입력을 구별하는 단계는,
상기 복수의 채널 별 원시 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제1 임계 값보다 크고 상기 복수의 채널 별 파워스펙트럼 차분값 기반의 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제2 임계 값보다 크면, 상기 복수의 채널 각각의 신호를 상기 발화음성입력으로 구별하는 것을 특징으로 하고,
상기 활성채널을 식별하는 단계는,
상기 간섭효과가 발생한 시점에서 상기 복수의 채널 별 파형의 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제1 값보다 큰 파형의 채널은 상기 활성채널로 판단하고, 상기 제1 값보다 작은 파형의 채널은 비활성채널로 판단하는 것을 특징으로 하고,
상기 활성채널을 식별하는 단계는,
복수의 활성채널을 식별한 경우, 식별된 복수의 활성채널 각각에서 복수의 화자가 동시에 발화한 동시발화구간을 더 검출하는 것을 특징으로 하고,
상기 동시발화구간 내의 시점에서 상기 복수의 채널 별 파형의 상기 정규화된 전역밴드 로그에너지가 상기 복수의 채널 별로 기설정된 제2 값보다 큰 파형의 채널은 상기 활성채널로 판단하고, 상기 제2 값보다 작은 파형의 채널은 상기 비활성채널로 판단하는 것을 특징으로 하고,
상기 활성채널을 식별하는 단계는,
상기 채널간 스펙트럼 유사도를 이용하여 발화자 수의 단수, 복수여부를 판단하여 상기 활성채널을 식별하는 것을 특징으로 하고,
상기 채널 간 스펙트럼 유사도가 기설정된 제3 값보다 큰 경우, 상기 채널 간의 발화자가 동일한 것으로 판별하여 신호가 강한 채널은 상기 활성채널로 식별하고 신호가 약한 채널은 비활성화 시키고,
상기 복수의 채널 간 스펙트럼 유사도가 상기 제3 값보다 작은 경우, 상기 채널 간의 발화자가 서로 상이한 것으로 판별하여 상기 복수의 채널 모두를 활성채널로 식별하는 것을 특징으로 하는 방법. - 제 8 항에 있어서,
상기 화자별로 음원을 분리하는 방법은,
성문모델학습부에서 다수의 마이크에서 수신된 다채널 각각에서 추출된 발화음성입력을 축적하여 화자별로 성문모델을 생성하고 업데이트하는 단계;를 더 포함하는 것을 특징으로 하는 방법. - 삭제
- 제 8 항에 있어서,
상기 활성채널을 식별하는 단계는,
채널 i의 파워스펙트럼 벡터를 ]라 할 때,
=
채널 i 및 채널 j 간 스펙트럼 유사도는 S(i,j)로 추정되는 것을 특징으로 하는 방법. - 제 8 항에 있어서,
상기 복수의 채널 각각의 음원을 분리하는 단계는,
상기 동시발화구간에서 실시간으로 활성채널별로 음원을 분리하는 것을 특징으로 하는 방법. - 제 8 항에 있어서,
상기 화자별로 음원을 분리하는 방법은,
변환부에서 상기 화자별 음원 및 발화자 정보를 텍스트로 변환하는 단계;를 더 포함하는 것을 특징으로 하는 방법. - 삭제
- 제 8 항의 다채널 다화자 환경에서 화자별로 음원을 분리하는 방법을 구현하는 프로그램을 저장한 컴퓨터 판독 가능한 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230025313A KR102661005B1 (ko) | 2023-02-24 | 2023-02-24 | 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230025313A KR102661005B1 (ko) | 2023-02-24 | 2023-02-24 | 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102661005B1 true KR102661005B1 (ko) | 2024-04-25 |
Family
ID=90884974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230025313A KR102661005B1 (ko) | 2023-02-24 | 2023-02-24 | 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102661005B1 (ko) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100776803B1 (ko) * | 2006-09-26 | 2007-11-19 | 한국전자통신연구원 | 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 |
JP2008309856A (ja) * | 2007-06-12 | 2008-12-25 | Yamaha Corp | 音声認識装置及び会議システム |
KR101970347B1 (ko) | 2019-02-19 | 2019-04-17 | 주식회사 소리자바 | 화자 음성의 노이즈를 제거하는 음성인식장치 |
KR20190120535A (ko) * | 2018-04-16 | 2019-10-24 | 엘지전자 주식회사 | 음성 신호 선별 기반 음성 인식 장치 |
KR102462219B1 (ko) * | 2021-06-15 | 2022-11-04 | (주)미소정보기술 | 화자 분리 기술을 이용한 회의록 자동 생성 방법 |
-
2023
- 2023-02-24 KR KR1020230025313A patent/KR102661005B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100776803B1 (ko) * | 2006-09-26 | 2007-11-19 | 한국전자통신연구원 | 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 |
JP2008309856A (ja) * | 2007-06-12 | 2008-12-25 | Yamaha Corp | 音声認識装置及び会議システム |
KR20190120535A (ko) * | 2018-04-16 | 2019-10-24 | 엘지전자 주식회사 | 음성 신호 선별 기반 음성 인식 장치 |
KR101970347B1 (ko) | 2019-02-19 | 2019-04-17 | 주식회사 소리자바 | 화자 음성의 노이즈를 제거하는 음성인식장치 |
KR102462219B1 (ko) * | 2021-06-15 | 2022-11-04 | (주)미소정보기술 | 화자 분리 기술을 이용한 회의록 자동 생성 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
Shiota et al. | Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification | |
US8762144B2 (en) | Method and apparatus for voice activity detection | |
Wrigley et al. | Speech and crosstalk detection in multichannel audio | |
US8249867B2 (en) | Microphone array based speech recognition system and target speech extracting method of the system | |
Zhang et al. | Whisper-island detection based on unsupervised segmentation with entropy-based speech feature processing | |
US20140156276A1 (en) | Conversation system and a method for recognizing speech | |
KR101616112B1 (ko) | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 | |
CN113748462A (zh) | 确定用于语音处理引擎的输入 | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
CN112509598A (zh) | 音频检测方法及装置、存储介质 | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
Këpuska | Wake-up-word speech recognition | |
JP2012032557A (ja) | 音声に含まれる吸気音を検出する装置、方法、及びプログラム | |
JP3838159B2 (ja) | 音声認識対話装置およびプログラム | |
KR101809511B1 (ko) | 발화자의 연령대 인식 장치 및 방법 | |
CN112185357A (zh) | 一种同时识别人声和非人声的装置及方法 | |
KR102661005B1 (ko) | 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 | |
CN114303186A (zh) | 用于在语音合成中适配人类说话者嵌入的系统和方法 | |
Yella et al. | Information bottleneck based speaker diarization of meetings using non-speech as side information | |
Hu et al. | Single-channel speaker diarization based on spatial features | |
JP2011013383A (ja) | オーディオ信号補正装置及びオーディオ信号補正方法 | |
Lee et al. | Space-time voice activity detection | |
KR20190120535A (ko) | 음성 신호 선별 기반 음성 인식 장치 | |
US11437019B1 (en) | System and method for source authentication in voice-controlled automation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |