KR20220134877A - 잡음환경에 강건한 대화 음성 분리 기능을 갖춘 대면 녹취장치 및 방법 - Google Patents

잡음환경에 강건한 대화 음성 분리 기능을 갖춘 대면 녹취장치 및 방법 Download PDF

Info

Publication number
KR20220134877A
KR20220134877A KR1020210040098A KR20210040098A KR20220134877A KR 20220134877 A KR20220134877 A KR 20220134877A KR 1020210040098 A KR1020210040098 A KR 1020210040098A KR 20210040098 A KR20210040098 A KR 20210040098A KR 20220134877 A KR20220134877 A KR 20220134877A
Authority
KR
South Korea
Prior art keywords
face
signal
voice
sound signal
noise
Prior art date
Application number
KR1020210040098A
Other languages
English (en)
Other versions
KR102504043B1 (ko
Inventor
김선만
이광훈
김회민
전성국
Original Assignee
한국광기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국광기술원 filed Critical 한국광기술원
Priority to KR1020210040098A priority Critical patent/KR102504043B1/ko
Publication of KR20220134877A publication Critical patent/KR20220134877A/ko
Application granted granted Critical
Publication of KR102504043B1 publication Critical patent/KR102504043B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/24Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

잡음환경에 강건한 대화 음성 분리 기능을 갖춘 대면 녹취장치 및 방법을 개시한다.
본 발명의 일 실시예에 따르면, 기 설정된 장소에 배치되어 장소 내에서 생성되는 소리 신호를 녹취하는 마이크로폰과 상기 마이크로폰에서 녹취된 소리신호를 인가받아, 소리 신호 내 잡음 신호만을 필터링하고, 잡음 신호가 필터링된 소리 신호 내에서 음성 신호들 각각을 분리하는 대면 녹취장치 및 상기 대면 녹취장치가 분리한 음성 신호들을 수신하여 저장하는 음원 저장장치를 포함하는 것을 특징으로 하는 대면 녹취 시스템을 제공한다.

Description

잡음환경에 강건한 대화 음성 분리 기능을 갖춘 대면 녹취장치 및 방법{Face-to-face Recording Apparatus and Method with Robust Dialogue Voice Separation in Noise Environments}
본 발명은 잡음환경에 강건하게 대화 음성 분리 기능을 갖추며, 분리된 음성에 손쉽게 태깅이 가능한 대면 녹취장치 및 방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
최근 금융 상품 판매사들은 고객에게 투자상품들의 설명의무를 지는데, 고객으로부터 온전히 설명듣지 못했다는 등의 클레임에 의한 금전적·정신적 피해사례가 증가하고 있다. 금전적인 피해사례의 예로서, 은행 또는 증권사 등 금융 상품 판매사들이 설명 의무를 어기거나 불공정행위를 하면, 위반행위 관련 수입의 최대 50%까지 징벌적 과징금으로 배상해야 한다.
따라서, (금융상품 판매사들이 설명의무를 수행하였음에도) 고객들이 상품에 대해 제대로 듣지 못했다며 설명의무 위반으로 손해배상을 청구했을 때, 금융상품 판매사들은 이러한 피해를 방지하기 위해, 금융사가 금융상품을 설명하였음을 증명하여야 한다. 이에 대한 일환으로, 금융상품 판매사들은 대면 녹취시스템을 도입하고 있으며, 관련 시장이 점점 커지고 있다.
고객과 (금융상품) 판매사가 상담하는 공간 내에 음성을 녹취하는 녹취기가 있으며, 녹취된 음성을 저장하여 전술한 상황을 대비한다. 이때, 녹취된 음성 내에서 주변 잡음을 분리하고, 고객과 판매사의 음성을 분리하여 각각 저장하는 것이 효율적인데, 종래의 녹취 시스템 상에서는 이를 모두 수행하는 것에 기술적 어려움이 존재하여 녹취 음성의 질이 떨어지거나 녹취 음성의 용량이 커지는 등의 불편이 있었다.
본 발명의 일 실시예는, 음성을 녹취하며, 녹취된 파일 내 잡음을 제거하고 음원마다 분리하고 이를 태깅하여 저장하는 대면 녹취장치 및 방법을 제공하는 데 일 목적이 있다.
본 발명의 일 측면에 의하면, 기 설정된 장소에 배치되어 장소 내에서 생성되는 소리 신호를 녹취하는 마이크로폰과 상기 마이크로폰에서 녹취된 소리신호를 인가받아, 소리 신호 내 잡음 신호만을 필터링하고, 잡음 신호가 필터링된 소리 신호 내에서 음성 신호들 각각을 분리하는 대면 녹취장치 및 상기 대면 녹취장치가 분리한 음성 신호들을 수신하여 저장하는 음원 저장장치를 포함하는 것을 특징으로 하는 대면 녹취 시스템을 제공한다.
본 발명의 일 측면에 의하면, 상기 마이크로폰은 하나 이상의 채널을 구비할 수 있는 것을 특징으로 한다.
본 발명의 일 측면에 의하면, 상기 대면 녹취장치는 인가받은 소리신호를 주파수 도메인으로 변환하는 것을 특징으로 한다.
본 발명의 일 측면에 의하면, 상기 대면 녹취장치는 잡음 신호와 음성 신호 각각을 저장하는 데이터베이스를 포함하며, 각 데이터 베이스 내 잡음 신호와 음성 신호를 학습하는 것을 특징으로 한다.
본 발명의 일 측면에 의하면, 상기 대면 녹취장치는 학습 결과와 주파수 변환된 소리 신호를 토대로 잡음 신호를 필터링할 잡음제거 주파수 필터를 추론하는 것을 특징으로 한다.
본 발명의 일 측면에 의하면, 대면 녹취 시스템이 소리 신호를 녹취하고 음성 신호만을 분리하여 저장하는 방법에 있어서, 기 설정된 장소에 배치되어 생성되는 소리 신호를 녹취하는 녹취과정과 상기 녹취과정에서 녹취된 소리 신호를 인가받아 소리 신호 내 잡음 신호만을 필터링하는 필터링과정과 상기 필터링과정에 의해 잡음 신호가 필터링된 소리 신호 내에서 음성 신호들 각각을 분리하는 분리과정과 상기 분리과정에 의해 분리된 음성 신호들을 수신하여 저장하는 저장과정을 포함하는 것을 특징으로 하는 음성 신호 분리방법을 제공한다.
본 발명의 일 측면에 의하면, 기 설정된 장소에서의 소리 신호를 수신하여 소리 신호의 도메인을 주파수 도메인으로 변환하는 도메인 변환부와 음성 신호 및 잡음 신호를 학습하고, 상기 도메인 변환부에서 변환된 신호를 수신하여 학습된 결과로부터 잡음제거 주파수 필터를 추론하는 필터 추론부와 추론된 필터를 이용하여 상기 도메인 변환부에서 변환된 신호 내 잡음 신호를 필터링하는 필터링부와 상기 필터링부에 의해 잡음 신호가 제거된 소리 신호 내에서 각 음성 신호들을 분리하는 음성 분리부 및 분리된 각 음성 신호들의 발원지의 위치나 방향을 태깅하는 태깅부를 포함하는 것을 특징으로 하는 대면 녹취장치를 제공한다.
본 발명의 일 측면에 의하면, 상기 도메인 변환부는 FFT(Fast Fourier Transform)를 수행하여 소리 신호의 도메인을 주파수 도메인으로 변환하는 것을 특징으로 한다.
본 발명의 일 측면에 의하면, 상기 도메인 변환부가 수신하는 소리 신호는 하나 이상의 채널로부터 녹취된 소리 신호인 것을 특징으로 한다.
본 발명의 일 측면에 의하면, 상기 필터 추론부는 음성 신호를 저장하는 음성 데이터 베이스 및 잡음 신호를 저장하는 잡음 데이터베이스를 포함하는 것을 특징으로 한다.
본 발명의 일 측면에 의하면, 상기 필터 추론부는 음성 신호를 학습함에 있어, 상기 소리 신호가 녹취된 채널의 개수 이하의 개수만큼 음성 신호가 존재하는 음성신호를 학습하는 것을 특징으로 한다.
본 발명의 일 측면에 의하면, 상기 음성 분리부는 암묵 음원분리 기술을 사용하는 것을 특징으로 한다.
본 발명의 일 측면에 의하면, 대면 녹취장치가 소리 신호 내 음성 신호만을 분리하여 태깅하는 방법에 있어서, 기 설정된 장소에서의 소리 신호를 수신하여 소리 신호의 도메인을 주파수 도메인으로 변환하는 변환과정과 음성 신호 및 잡음 신호를 학습하고, 상기 변환과정에서 변환된 신호를 수신하여 학습된 결과로부터 잡음제거 주파수 필터를 추론하는 추론과정과 상기 추론과정에서 추론된 필터를 이용하여 상기 변환과정에서 변환된 신호 내 잡음 신호를 필터링하는 필터링과정과 상기 필터링과정을 거쳐 잡음 신호가 제거된 소리 신호 내에서 각 음성 신호들을 분리하는 분리과정 및 상기 분리과정에서 분리된 각 음성 신호들의 발원지의 위치나 방향을 태깅하는 태깅과정을 포함하는 것을 특징으로 하는 대면 녹취방법을 제공한다.
본 발명의 일 측면에 의하면, 상기 변환과정은 FFT(Fast Fourier Transform)를 수행하여 소리 신호의 도메인을 주파수 도메인으로 변환하는 것을 특징으로 한다.
이상에서 설명한 바와 같이, 본 발명의 일 측면에 따르면, 음성을 녹취하며, 녹취된 파일 내 잡음을 제거하고 음원마다 분리하고 이를 태깅함으로써, 각 음원들을 구분하여 저장할 수 있으며 저장된 음원의 음질이 향상될 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 대면 녹취 시스템의 구성을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 대면 녹취장치의 구성을 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 필터 추론부의 구성을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 태깅부가 분석한 히스토그램을 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 대면 녹취장치가 녹취하여 각 음원들을 분리하여 태깅하는 방법을 도시한 순서도이다.
도 6은 본 발명의 일 실시예에 따른 대면 녹취 시스템이 소리 신호를 녹취하여 음성 신호만을 분리 후 저장하는 방법을 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에서, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서 "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해서 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 본 발명의 각 실시예에 포함된 각 구성, 과정, 공정 또는 방법 등은 기술적으로 상호간 모순되지 않는 범위 내에서 공유될 수 있다.
도 1은 본 발명의 일 실시예에 따른 대면 녹취 시스템의 구성을 도시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 대면 녹취 시스템(100)은 마이크로폰(110), 대면 녹취장치(120) 및 음원 저장장치(130)를 포함한다.
대면 녹취 시스템(100)은 1인 또는 2 이상의 인원이 존재하는 공간에서, 해당 인원 또는 각 인원들의 음성을 녹취한다. 이때, 공간의 특성 상 인원 또는 각 인원들의 음성 외에 잡음이 존재할 확률이 높은데, 대면 녹취 시스템(100)은 녹취된 파일을 토대로 잡음을 필터링하여 고품질의 음성만을 분리하여 저장한다. 또한, 공간 내 2인 이상의 인원이 존재하는 경우, 각 인원들의 음성을 분리하고 음성의 발원지의 위치(방향)를 구분하여, 구분된 음성이 어떠한 인원으로부터 나온 것인지 태깅한다. 이에 따라, 음원 저장장치(130)는 태그를 이용해 원하는 대상의 음성들을 분류하여 저장해둘 수 있으며, 필요치 않은 음성들은 삭제나 별도로 관리할 수 있다. 또한, 저장된 음성들도 잡음이 필터링된 상태이기 때문에, 음성의 품질이 높아질 수 있다.
마이크로폰(110)은 인원 또는 각 인원이 존재하는 공간 내에서 발생하는 소리 신호를 녹취한다. 도 1에 도시된 바와 같이, 마이크로폰(110)은 공간 내에 존재하는 인원의 수만큼 채널을 구비하며, 각 채널들은 공간에서 발생하는 소리 신호를 녹취한다. 마이크로폰(110)은 녹취된 녹음파일을 대면 녹취장치(120)로 전달한다.
대면 녹취장치(120)는 마이크로폰(110)에서 녹취된 소리 신호를 수신하여, 잡음 신호를 필터링하고 각 인원이 발생시킨 음성 신호를 구분하여 태깅한다. 대면 녹취장치(120)는 1차적으로 빅데이터의 학습을 토대로 잡음 신호와 인간의 음성 신호를 분리(필터링)할 필터를 추론하여 잡음 신호와 인간의 음성 신호를 분리한다. 대면 녹취장치(120)는 복수의 인원이 해당 장소에서 음성을 발생시켰을 경우 2차적으로 분리된 인간의 음성 신호를 음원 분리를 이용해 각 음성 신호를 분리한다. 이때, 대면 녹취장치(120)는 음성 신호의 분리 후 음성 신호의 발원지의 위치(방향)를 분리하여 해당 음성 신호가 어느 위치에 있던 누구로부터 나온 것인지 구분한다. 대면 녹취 시스템(100)이 배경이 되는 기술에서 언급한 바와 같이 금융상품을 설명하는 공간 등에서 사용될 경우, 통상 고객과 판매사 및 기타 인원의 위치는 정해져 있다. 이에, 음성 신호의 발원지의 위치를 알 수 있다면, 해당 음성 신호가 누구의 음성인지 구분하여 태깅할 수 있다. 대면 녹취장치(120)는 빅데이터의 학습(딥러닝)을 토대로 잡음 신호와 인간의 음성 신호를 분리하기 때문에, 간편하면서도 정확히 잡음 신호와 인간의 음성 신호를 분리할 수 있다. 또한, 대면 녹취장치(120)는 잡음 신호가 분리된 음성 신호에 대해서는 암묵 음원분리 기술을 사용하기 때문에, 일일이 각 인원의 음성 신호들을 학습할 필요없이 잡음 신호가 분리된 상태의 음성 신호를 정확히 분리해낼 수 있다. 대면 녹취장치(120)에 대한 구체적인 구조는 도 2 및 3을 참조하여 후술한다.
음원 저장장치(130)는 대면 녹취장치(120)에서 분리되어 태깅된 음성 신호들을 저장한다. 음원 저장장치(130)로는 각 인원이 분리된 채 태깅되어 전달되기 때문에, 음원 저장장치(130)는 각 인원들의 음성 신호들을 각각 분리하여 저장할 수 있다. 이에, 보다 관리 및 탐색이 용이해질 수 있다. 또한, 마이크로폰(110)으로부터 녹취된 소리 신호 내에서 잡음 신호가 분리되기 때문에, 상대적으로 음성 신호의 크기가 줄어들게 된다. 이에, 음원 저장장치(130)의 저장 용량도 보다 여유가 생길 수 있다.
도 2는 본 발명의 일 실시예에 따른 대면 녹취장치의 구성을 도시한 도면이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 대면 녹취장치(120)는 도메인 변환부(210), 필터 추론부(220), 필터링부(230), 음성 분리부(240) 및 태깅부(250)를 포함한다.
도메인 변환부(210)는 마이크로폰(110)이 녹취한 소리 신호를 마이크로폰(110)으로부터 입력받아 주파수 도메인으로 변환한다. 도메인 변환부(210)는 마이크로폰(110)으로부터 소리 신호를 입력받음에 있어, 마이크로폰(110)이 다 채널로 각각 소리 신호를 녹취한 경우, 이들을 구분하여 입력받는다. 도메인 변환부(210)가 입력받은 소리 신호는 시간 도메인의 데이터인 점에서, 도메인 변환부(210)는 입력받은 소리 신호를 주파수 도메인으로 변환한다. 도메인 변환부(210)는 전술한 동작을 수행함에 있어 FFT(Fast Fourier Transform)를 수행할 수 있다.
필터 추론부(220)는 저장된 음성 신호와 잡음 신호를 학습하고, 도메인 변환부(210)에서 변환된 소리 신호를 이용하여 입력된 소리 신호 내 잡음 신호를 분리할 최적의 필터를 추론한다. 필터 추론부(220)는 다양한 공간에서 발생할 수 있는 다양한 잡음 신호들과 다양한 인간들의 음성 신호를 학습한다. 필터 추론부(220)는 도메인 변환부(210)에서 변환된 소리 신호를 수신하는데, 수신한 데이터를 이용하여 학습한 결과를 토대로 수신한 데이터에 최적의 필터를 추론한다. 필터 추론부(220)의 구체적인 구조는 도 3에 도시되어 있다.
도 3은 본 발명의 일 실시예에 따른 필터 추론부의 구성을 도시한 도면이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 필터 추론부(120)는 음성 데이터베이스(310), 잡음 데이터베이스(315), 다중음성 생성부(320), 딥러닝부(330) 및 추론부(340)를 포함한다.
음성 데이터베이스(310)는 대면 녹취장치(120)가 잡음 신호와 분리하여 획득하고자 하는, 다양한 종류의 음성 신호들을 저장한다. 전술한 예와 같이, 마이크로폰(110)이 배치된 (또는 배치될) 장소에 위치한 인원 또는 각 인원들의 음성 신호를 분리하고자 한다면, 음성 데이터베이스(310)는 딥러닝부(330)가 학습할, 다양한 인간들의 수많은 음성 신호들을 저장한다.
잡음 데이터베이스(315)는 대면 녹취장치(120)가 음성 신호와 분리하고자 하는, 다양한 종류의 잡음 신호를 저장한다. 전술한 예와 같이, 잡음 데이터베이스(315)는 딥러닝부(330)가 학습할, 마이크로폰(110)이 배치된 또는 배치될 장소에서 발생할 수 있는 다양한 종류의 잡음 신호를 저장한다.
다중음성 생성부(320)는 음성 데이터베이스(310) 내 저장된 음성 신호들 중 딥러닝부(330)가 학습할 다중 음성 신호들을 생성한다. 다중음성 생성부(320)는 녹취장치에 설치되어 있는 마이크로폰 채널 수 이하의 개수만큼 음성 신호들이 존재하는 다중 음성을 생성한다. 예를 들어, 마이크로폰(110)이 2인이 위치한 장소에서 2개의 채널로 소리 신호를 녹취하는 경우를 고려하면, 다중음성 생성부(320)는 1개의 단일 음성 신호 혹은 동시에 2개의 음성 신호가 존재하는 다중 음성 신호들을 랜덤으로 번갈아가며 딥러닝부(330)가 학습할 정도의 양만큼 생성한다. 딥러닝부(330)가 이처럼 실제 해당 장소에 존재하는 인원수에 맞는 음성 신호를 학습하여야, 정확히 마이크로폰(110)이 녹취한 소리 신호에서 잡음 신호만을 분리할 필터를 학습하여 추론할 수 있다.
딥러닝부(330)는 잡음 데이터베이스(315)로부터 잡음 신호들을, 음성 데이터베이스(310) 또는 다중음성 생성부(320)로부터 음성 신호들을 입력받아 잡음제거 주파수 필터의 생성을 위한 학습을 수행한다. 딥러닝부(330)는 데이터베이스(310, 315)들 내 저장된 데이터들을 학습한다. 딥러닝부(330)는 잡음 데이터베이스(315) 내 저장된 데이터들을 학습하여 잡음 신호에 관한 정보를 인식하며, 음성 데이터베이스(310)로부터 각 음성 신호 및 마이크로폰 채널 수 이하의 음성이 섞인 다중음성 생성부(320)를 거치며 생성된 다중 음성 신호들을 학습하여 음성 신호에 관한 정보를 인식한다. 딥러닝부(330)는 이러한 학습에 의해, 양자가 혼합된 소리 신호 내에서 잡음 신호만을 필터링할 수 있는 잡음제거 주파수 필터를 생성할 수 있도록 학습한다.
추론부(340)는 딥러닝부(330)의 학습결과를 토대로, 도메인 변환부(210)가 변환한 주파수값을 수신하여 잡음제거 주파수 필터를 추론한다. 추론부(340)는 딥러닝부(330)의 학습결과를, 도메인 변환부(210)가 변환한 주파수값을 수신한다. 이때, 도메인 변환부가 복수의 채널로부터 녹취된 소리 신호를 각각 주파수 도메인으로 변환한 경우, 추론부(340)로 수신되는 주파수 값은 각 채널로 입력된 소리 신호로부터 변환된 값을 각각을 입력받는 것이 아니라, 각 채널로 입력된 소리 신호로부터 변환된 값들을 평균한 하나의 값을 수신한다. 추론부(340)가 평균값을 수신하는 것이 아닌 각 채널로 입력된 소리 신호로부터 변환된 값을 각각 입력받을 경우, 공간 특성이 달라져 잡음 신호 제거 후 음성 신호를 분리할 때 음성의 발원지 위치(방향)을 추론하기 곤란하다. 추론부(340)가 도메인 변환부(210)에서 변환된 값의 평균값을 수신하여야 주파수 필터를 공통으로 사용할 수 있다. 이에, 잡음이 제거된 각 음성 신호들의 공간 특성이 동일해진다. 이에, 추론부(340)로는 각 채널로 입력된 소리 신호로부터 변환된 값들의 평균값이 수신되며, 추론부(340)는 수신값을 토대로 잡음제거 주파수 필터를 추론한다.
다시 도 2를 참조하면, 필터링부(230)는 필터 추론부(220), 특히, 추론부(340)가 추론한 필터를 이용하여 도메인 변환부(210)로 입력된 소리 신호 내에서 잡음 신호를 필터링한다. 필터링부(230)는 추론한 (잡음제거 주파수) 필터와 도메인 변환부(210)에서 변환된 주파수 도메인 값을 곱하여, 녹취된 소리 신호 내에서 잡음 신호만을 제거한다. 이때, 도메인 변환부(210)로 복수의 채널에서 녹취된 각각의 소리 신호가 입력되는 경우, 필터링부(230)는 각 소리 신호가 주파수 변환된 값 각각을 필터링한다. 이에 따라, 각 채널에서 녹취된 소리 신호 중 잡음 신호가 제거된 음성 (주파수 도메인 값)이 도출된다.
음성 분리부(240)는 암묵 음원분리기술을 이용하여 음성 신호들을 분리한다. 음성 신호가 복수 개가 존재할 경우, 음성 분리부(240)는 각 음성 신호들을 분리한다. 예를 들어, 주파수 k인덱스, 시간 t인 경우에서 임의의 공간 상에 음성 신호 S1(t, k), S2(t, k)가 마이크로폰 채널 1, 2에 녹취되는 상황이 존재할 수 있다. 마이크로폰 채널 1, 2에 녹취된 음성 신호를 각각 X1(t, k), X2(t, k)라 하면, X1(t, k), X2(t, k)는 다음을 만족한다.
X1(t, k)=H11(t, k)S1(t, k)+H12(t, k)S2(t, k)
X2(t, k)=H21(t, k)S1(t, k)+H22(t, k)S2(t, k)
여기서, H11(t, k)은 마이크로폰 1번 채널과 제1 음성 신호 간의 전달변환 복소 가중치를, H12(t, k)은 마이크로폰 1번 채널과 제2 음성 신호 간의 전달변환 복소 가중치를, H21(t, k)은 마이크로폰 2번 채널과 제1 음성 신호 간의 전달변환 복소 가중치를, H22(t, k)은 마이크로폰 2번 채널과 제2 음성 신호 간의 전달변환 복소 가중치를 의미한다.
음성 분리부(240)는 잡음이 제거된 녹취 음성 신호 X1(t, k), X2(t, k)로부터 S1(t, k), S2(t, k)를 추정하여 분리한다. 전술한 수식에 따라,
Figure pat00001
가 성립한다. 전술한 수식에 의해,
Figure pat00002
가 만족한다.
이때,
Figure pat00003
를 만족하는 음원 분리행렬W(k)가 존재한다고 가정할 경우, 음성 분리부(240)는 S1(t, k)와 S2(t, k)가 서로 독립적(상관관계가 존재하지 않음)인 값을 갖는 W(k)를 연산(X1(t, k)와 X2(t, k)는 알고 있는 값이기 때문에)하여 추정한다.
음성 분리부(240)는 암묵 음원분리를 이용하여 음원 분리행렬인 W(k)를 추정함으로써, 음원 S1(t, k)와 S2(t, k)를 분리할 수 있다.
태깅부(250)는 음성 분리부(240)에서 추정된 음원 분리행렬을 이용하여, 음성의 방향을 분석하여 음성 신호의 발원지의 위치(방향)를 태깅한다. 태깅부(250)는 음원 분리행렬의 위상각을 다음과 같이 연산한다.
Figure pat00004
전술한 수식과 같이, 태깅부(250)는 음원 분리행렬 중 동일한 음원의 복소 가중치들의 위상각을 연산한다.
태깅부(250)는 연산된 위상각 결과를 토대로 히스토그램을 분석한다. 태깅부(250)가 분석한 히스토그램의 일 예는 도 4에 도시되어 있다.
도 4는 본 발명의 일 실시예에 따른 태깅부가 분석한 히스토그램을 도시한 도면이다.
도 4는 마이크로폰(110)이 2인이 위치한 장소에서 2개의 채널로 소리 신호를 녹취한 경우에서의 히스토그램을 도시하고 있다. 도 4의 그래프 내에서 x축은 각도를, y축은 빈도수를 의미한다.
기준값(Threshold, 예를 들어, 마이크로폰(110)의 중심축)을 기준으로 좌측에서 음성 신호가 발원되었다면, 도 4a와 같이 기준값보다 작은 각도에서 월등히 많은 빈도수를 보이고 있는 것을 확인할 수 있다.
반대로, 기준값(Threshold, 예를 들어, 마이크로폰(110)의 중심축)을 기준으로 우측에서 음성 신호가 발원되었다면, 도 4b와 같이 기준값보다 큰 각도에서 월등히 많은 빈도수를 보이고 있는 것을 확인할 수 있다.
통상, 고객과 판매사 및 기타 인원의 위치는 정해져 있기 때문에, 태깅부(250)는 음성 신호의 발원지의 위치(방향)를 토대로 각 음성 신호가 누구의 음성 인지를 태깅한다.
추론부(340)가 각 채널로 입력된 소리 신호의 주파수 도메인의 평균값을 수신하며 잡음제거 주파수 필터를 추론하기 때문에, 공간 특성이 달라지지 않는다. 이에 따라, 음성 분리부(240)에서 음원의 분리나 태깅부(250)에서의 태깅이 어려움없이 수행된다.
태깅부(250)에서의 태깅이 완료된 음성파일은 음원 저장장치(130)에 저장된다.
도 5는 본 발명의 일 실시예에 따른 대면 녹취장치가 녹취하여 각 음원들을 분리하여 태깅하는 방법을 도시한 순서도이다.
도메인 변환부(210)는 마이크로폰의 각 채널에 녹음된 소리 신호들을 인가받아 각각을 주파수 도메인으로 변환한다(S510).
필터 추론부(220)는 잡음 신호와 채널의 개수 이하의 개수의 음성 신호들을 학습한다(S520).
필터 추론부(220)는 주파수 도메인으로 변환된 각 소리 신호의 평균값을 수신하여 학습된 결과로부터 잡음제거 주파수 필터를 추론한다(S530),
필터링부(230)는 추론된 필터를 토대로 주파수 도메인으로 변환된 각 소리 신호 내 잡음신호를 필터링한다(S540),
음성 분리부(240)는 잡음이 제거된 소리 신호 내에서 각 음성 신호들을 분리한다(S550).
태깅부(250)는 분리된 각 음성 신호들의 발원지의 위치 또는 방향을 태깅한다(S560).
도 6은 본 발명의 일 실시예에 따른 대면 녹취 시스템이 소리 신호를 녹취하여 음성 신호만을 분리 후 저장하는 방법을 도시한 도면이다.
마이크로폰(110)은 기 설정된 장소에 배치되어 생성되는 소리 신호를 녹취한다(S610).
대면 녹취장치(120)는 마이크로폰의 각 채널에 녹음된 소리 신호들을 인가받아 각각을 주파수 도메인으로 변환한다(S620).
대면 녹취장치(120)는 잡음 신호와 채널의 개수 이하의 개수의 음성 신호들을 학습한다(S630).
대면 녹취장치(120)는 주파수 도메인으로 변환된 각 소리 신호의 평균값을 수신하여 학습된 결과로부터 잡음제거 주파수 필터를 추론한다(S640),
대면 녹취장치(120)는 추론된 필터를 토대로 주파수 도메인으로 변환된 각 소리 신호 내 잡음신호를 필터링한다(S650),
대면 녹취장치(120)는 잡음이 제거된 소리 신호 내에서 각 음성 신호들을 분리한다(S660).
대면 녹취장치(120)는 분리된 각 음성 신호들의 발원지의 위치 또는 방향을 태깅한다(S670).
음원 저장장치(130)는 대면 녹취장치(120)에 의해 태깅된 음성 신호들을 수신하여 저장한다(S680).
도 5 및 6에서는 각 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 각 도면에 기재된 순서를 변경하여 실행하거나 각 과정 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 5 및 6은 시계열적인 순서로 한정되는 것은 아니다.
한편, 도 5 및 6에 도시된 과정들은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽힐 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 즉, 컴퓨터가 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등) 및 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 대면 녹취 시스템
110: 마이크로폰
120: 대면 녹취장치
130: 음원 저장장치
210: 도메인 변환부
220: 필터 추론부
230: 필터링부
240: 음성 분리부
250: 태깅부
310: 음성 데이터베이스
315: 잡음 데이터베이스
320: 다중음성 생성부
330: 딥러닝부
340: 추론부

Claims (14)

  1. 기 설정된 장소에 배치되어 장소 내에서 생성되는 소리 신호를 녹취하는 마이크로폰;
    상기 마이크로폰에서 녹취된 소리신호를 인가받아, 소리 신호 내 잡음 신호만을 필터링하고, 잡음 신호가 필터링된 소리 신호 내에서 음성 신호들 각각을 분리하는 대면 녹취장치; 및
    상기 대면 녹취장치가 분리한 음성 신호들을 수신하여 저장하는 음원 저장장치
    를 포함하는 것을 특징으로 하는 대면 녹취 시스템.
  2. 제1항에 있어서,
    상기 마이크로폰은,
    하나 이상의 채널을 구비할 수 있는 것을 특징으로 하는 대면 녹취 시스템.
  3. 제1항에 있어서,
    상기 대면 녹취장치는,
    인가받은 소리신호를 주파수 도메인으로 변환하는 것을 특징으로 하는 대면 녹취 시스템.
  4. 제3항에 있어서,
    상기 대면 녹취장치는,
    잡음 신호와 음성 신호 각각을 저장하는 데이터베이스를 포함하며, 각 데이터 베이스 내 잡음 신호와 음성 신호를 학습하는 것을 특징으로 하는 대면 녹취 시스템.
  5. 제4항에 있어서,
    상기 대면 녹취장치는,
    학습 결과와 주파수 변환된 소리 신호를 토대로 잡음 신호를 필터링할 잡음제거 주파수 필터를 추론하는 것을 특징으로 하는 대면 녹취 시스템.
  6. 대면 녹취 시스템이 소리 신호를 녹취하고 음성 신호만을 분리하여 저장하는 방법에 있어서,
    기 설정된 장소에 배치되어 생성되는 소리 신호를 녹취하는 녹취과정;
    상기 녹취과정에서 녹취된 소리 신호를 인가받아 소리 신호 내 잡음 신호만을 필터링하는 필터링과정;
    상기 필터링과정에 의해 잡음 신호가 필터링된 소리 신호 내에서 음성 신호들 각각을 분리하는 분리과정;
    상기 분리과정에 의해 분리된 음성 신호들을 수신하여 저장하는 저장과정
    을 포함하는 것을 특징으로 하는 음성 신호 분리방법.
  7. 기 설정된 장소에서의 소리 신호를 수신하여 소리 신호의 도메인을 주파수 도메인으로 변환하는 도메인 변환부;
    음성 신호 및 잡음 신호를 학습하고, 상기 도메인 변환부에서 변환된 신호를 수신하여 학습된 결과로부터 잡음제거 주파수 필터를 추론하는 필터 추론부;
    추론된 필터를 이용하여 상기 도메인 변환부에서 변환된 신호 내 잡음 신호를 필터링하는 필터링부;
    상기 필터링부에 의해 잡음 신호가 제거된 소리 신호 내에서 각 음성 신호들을 분리하는 음성 분리부; 및
    분리된 각 음성 신호들의 발원지의 위치나 방향을 태깅하는 태깅부
    를 포함하는 것을 특징으로 하는 대면 녹취장치.
  8. 제7항에 있어서,
    상기 도메인 변환부는,
    FFT(Fast Fourier Transform)를 수행하여 소리 신호의 도메인을 주파수 도메인으로 변환하는 것을 특징으로 하는 대면 녹취장치.
  9. 제7항에 있어서,
    상기 도메인 변환부가 수신하는 소리 신호는,
    하나 이상의 채널로부터 녹취된 소리 신호인 것을 특징으로 하는 대면 녹취장치.
  10. 제7항에 있어서,
    상기 필터 추론부는,
    음성 신호를 저장하는 음성 데이터 베이스 및 잡음 신호를 저장하는 잡음 데이터베이스를 포함하는 것을 특징으로 하는 대면 녹취장치.
  11. 제9항 또는 제10항에 있어서,
    상기 필터 추론부는,
    음성 신호를 학습함에 있어, 상기 소리 신호가 녹취된 채널의 개수 이하의 개수만큼 음성 신호가 존재하는 음성신호를 학습하는 것을 특징으로 하는 대면 녹취장치.
  12. 제7항에 있어서,
    상기 음성 분리부는,
    암묵 음원분리 기술을 사용하는 것을 특징으로 하는 대면 녹취장치.
  13. 대면 녹취장치가 소리 신호 내 음성 신호만을 분리하여 태깅하는 방법에 있어서,
    기 설정된 장소에서의 소리 신호를 수신하여 소리 신호의 도메인을 주파수 도메인으로 변환하는 변환과정;
    음성 신호 및 잡음 신호를 학습하고, 상기 변환과정에서 변환된 신호를 수신하여 학습된 결과로부터 잡음제거 주파수 필터를 추론하는 추론과정;
    상기 추론과정에서 추론된 필터를 이용하여 상기 변환과정에서 변환된 신호 내 잡음 신호를 필터링하는 필터링과정;
    상기 필터링과정을 거쳐 잡음 신호가 제거된 소리 신호 내에서 각 음성 신호들을 분리하는 분리과정; 및
    상기 분리과정에서 분리된 각 음성 신호들의 발원지의 위치나 방향을 태깅하는 태깅과정
    을 포함하는 것을 특징으로 하는 대면 녹취방법.
  14. 제13항에 있어서,
    상기 변환과정은,
    FFT(Fast Fourier Transform)를 수행하여 소리 신호의 도메인을 주파수 도메인으로 변환하는 것을 특징으로 하는 대면 녹취방법.
KR1020210040098A 2021-03-29 2021-03-29 잡음환경에 강건한 대화 음성 분리 기능을 갖춘 대면 녹취장치 및 방법 KR102504043B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210040098A KR102504043B1 (ko) 2021-03-29 2021-03-29 잡음환경에 강건한 대화 음성 분리 기능을 갖춘 대면 녹취장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210040098A KR102504043B1 (ko) 2021-03-29 2021-03-29 잡음환경에 강건한 대화 음성 분리 기능을 갖춘 대면 녹취장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220134877A true KR20220134877A (ko) 2022-10-06
KR102504043B1 KR102504043B1 (ko) 2023-02-28

Family

ID=83597405

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210040098A KR102504043B1 (ko) 2021-03-29 2021-03-29 잡음환경에 강건한 대화 음성 분리 기능을 갖춘 대면 녹취장치 및 방법

Country Status (1)

Country Link
KR (1) KR102504043B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090033716A (ko) * 2007-10-01 2009-04-06 삼성전자주식회사 혼합 사운드로부터의 음원 판별 방법 및 장치
JP2011191337A (ja) * 2010-03-11 2011-09-29 Nara Institute Of Science & Technology 雑音抑制装置、方法、及びプログラム
KR20160026317A (ko) * 2014-08-29 2016-03-09 삼성전자주식회사 음성 녹음 방법 및 장치
KR20190096305A (ko) * 2019-07-29 2019-08-19 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090033716A (ko) * 2007-10-01 2009-04-06 삼성전자주식회사 혼합 사운드로부터의 음원 판별 방법 및 장치
JP2011191337A (ja) * 2010-03-11 2011-09-29 Nara Institute Of Science & Technology 雑音抑制装置、方法、及びプログラム
KR20160026317A (ko) * 2014-08-29 2016-03-09 삼성전자주식회사 음성 녹음 방법 및 장치
KR20190096305A (ko) * 2019-07-29 2019-08-19 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버

Also Published As

Publication number Publication date
KR102504043B1 (ko) 2023-02-28

Similar Documents

Publication Publication Date Title
US9489965B2 (en) Method and apparatus for acoustic signal characterization
US20200066260A1 (en) Signal generation device, signal generation system, signal generation method, and computer program product
JP2021524973A (ja) パタン認識装置、パタン認識方法、及びプログラム
CN106663446A (zh) 知晓用户环境的声学降噪
CN112949708B (zh) 情绪识别方法、装置、计算机设备和存储介质
JP2007519047A (ja) 会話の話題を決定して関連するコンテンツを取得して提示する方法及びシステム
US20120232890A1 (en) Apparatus and method for discriminating speech, and computer readable medium
Malik Securing voice-driven interfaces against fake (cloned) audio attacks
JP2009216840A (ja) 2者間の対話の音声データを処理するシステム、方法およびプログラム
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
CN113284507B (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN107358958B (zh) 对讲方法、装置及系统
JP6676009B2 (ja) 話者判定装置、話者判定情報生成方法、プログラム
GB2596351A (en) Forensic interaction understanding: A system and method for determining the nature of spoken interactions using acoustic and linguistic markers
KR102504043B1 (ko) 잡음환경에 강건한 대화 음성 분리 기능을 갖춘 대면 녹취장치 및 방법
KR20180024256A (ko) 화자 분류 장치 및 화자 식별 장치
WO2020261552A1 (en) Spoofing detection apparatus, spoofing detection method, and computer-readable storage medium
Valero et al. Support vector machines and self-organizing maps for the recognition of sound events in urban soundscapes
KR102101627B1 (ko) 발성 장애 개선 장치 및 방법
Sekkate et al. A multiresolution-based fusion strategy for improving speech emotion recognition efficiency
US20210219048A1 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
WO2020066673A1 (ja) タグ推定装置、タグ推定方法、プログラム
CN114678037B (zh) 一种重叠语音的检测方法、装置、电子设备及存储介质
KR101862352B1 (ko) 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법
Sethi et al. Text-independent voice authentication system using MFCC features

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant