KR20220051715A - 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치 - Google Patents

음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치 Download PDF

Info

Publication number
KR20220051715A
KR20220051715A KR1020200135454A KR20200135454A KR20220051715A KR 20220051715 A KR20220051715 A KR 20220051715A KR 1020200135454 A KR1020200135454 A KR 1020200135454A KR 20200135454 A KR20200135454 A KR 20200135454A KR 20220051715 A KR20220051715 A KR 20220051715A
Authority
KR
South Korea
Prior art keywords
voice data
axis
processing
data
quality
Prior art date
Application number
KR1020200135454A
Other languages
English (en)
Other versions
KR102492212B1 (ko
Inventor
안강헌
김성원
Original Assignee
주식회사 딥히어링
충남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥히어링, 충남대학교산학협력단 filed Critical 주식회사 딥히어링
Priority to KR1020200135454A priority Critical patent/KR102492212B1/ko
Priority to PCT/KR2020/016507 priority patent/WO2022085846A1/ko
Priority to EP20958796.3A priority patent/EP4246515A1/en
Priority to US18/031,268 priority patent/US11830513B2/en
Priority to JP2023523586A priority patent/JP7481696B2/ja
Publication of KR20220051715A publication Critical patent/KR20220051715A/ko
Application granted granted Critical
Publication of KR102492212B1 publication Critical patent/KR102492212B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명의 실시 예에 따른 음성 데이터의 품질 향상 방법은 노이즈가 포함된 혼합 음성 데이터에 대한 스펙트럼을 획득하는 단계, 상기 스펙트럼에 상응하는 2차원 입력 데이터를 다운샘플링 처리와 업샘플링 처리를 포함하는 컨볼루션 네트워크로 입력하여, 상기 컨볼루션 네트워크의 출력 데이터를 획득하는 단계, 획득한 상기 출력 데이터를 기초로, 상기 음성 데이터에 포함된 노이즈를 제거하기 위한 마스크를 생성하는 단계 및 생성된 상기 마스크를 이용하여, 상기 혼합 음성 데이터에서 노이즈를 제거하는 단계를 포함하되, 상기 컨볼루션 네트워크는, 상기 다운샘플링 처리와 상기 업샘플링 처리는 상기 2차원 입력 데이터의 제1축에서 처리하고, 상기 다운샘플링 처리와 상기 업샘플링 처리 이외의 나머지 처리 과정은 상기 제1축 및 제2축에서 처리한다.

Description

음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치{METHOD FOR ENHANCING QUALITY OF AUDIO DATA, AND DEVICE USING THE SAME}
본 발명은 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치에 관한 것으로, 보다 상세하게는 다운샘플링 처리와 업샘플링 처리는 2차원 입력 데이터의 제1축에서 처리하고, 나머지 처리 과정은 상기 제1축과 제2축에서 처리하는 컨볼루션 네트워크를 이용하는 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치에 관한 것이다.
다양한 녹음 환경에서 수집된 음성 데이터를 서로 주고 받을 때, 음성 데이터에는 여러가지 원인으로 인한 노이즈가 섞이게 된다. 음성 데이터 기반의 서비스의 품질은 음성 데이터에 섞인 노이즈를 얼마나 효과적으로 제거하는지에 의해 좌우된다.
최근, 실시간으로 음성 데이터를 주고 받는 화상회의가 활성화 됨에 따라 적은 연산량으로도 음성 데이터에 포함되어 있는 노이즈를 제거할 수 있는 기술에 대한 요구가 증대되고 있다.
본 발명이 이루고자 하는 기술적 과제는 다운샘플링 처리와 업샘플링 처리는 2차원 입력 데이터의 제1축에서 처리하고, 나머지 처리 과정은 상기 제1축과 제2축에서 처리하는 컨볼루션 네트워크를 이용하는 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치를 제공하는 것이다.
본 발명의 일 실시 예에 따른 음성 데이터의 품질 향상 방법은 노이즈가 포함된 혼합 음성 데이터에 대한 스펙트럼을 획득하는 단계, 상기 스펙트럼에 상응하는 2차원 입력 데이터를 다운샘플링 처리와 업샘플링 처리를 포함하는 컨볼루션 네트워크로 입력하여, 상기 컨볼루션 네트워크의 출력 데이터를 획득하는 단계, 획득한 상기 출력 데이터를 기초로, 상기 음성 데이터에 포함된 노이즈를 제거하기 위한 마스크를 생성하는 단계 및 생성된 상기 마스크를 이용하여, 상기 혼합 음성 데이터에서 노이즈를 제거하는 단계를 포함하되, 상기 컨볼루션 네트워크는, 상기 다운샘플링 처리와 상기 업샘플링 처리는 상기 2차원 입력 데이터의 제1축에서 처리하고, 상기 다운샘플링 처리와 상기 업샘플링 처리 이외의 나머지 처리 과정은 제2축에서 처리할 수 있다.
실시 예에 따라, 상기 컨볼루션 네트워크는, U-NET 컨볼루션 네트워크일 수 있다.
실시 예에 따라, 상기 제1축은 상기 주파수 축이고, 상기 제2축은 상기 시간 축일 수 있다.
실시 예에 따라, 상기 음성 데이터의 품질 향상 방법은, 상기 제2축에서 상기 2차원 입력 데이터에 대하여 인과적 컨볼루션(causal convolution)을 수행하는 단계를 더 포함하고, 상기 인과적 컨볼루션을 수행하는 단계는, 상기 2차원 입력 데이터에서, 시간 축을 기준으로 상대적으로 과거에 해당하는 기설정된 크기의 데이터에 대하여 제로 패딩(zero padding) 처리를 수행할 수 있다.
실시 예에 따라, 상기 인과적 컨볼루션을 수행하는 단계는, 상기 제2축에서 처리될 수 있다.
실시 예에 따라, 상기 음성 데이터의 품질 향상 방법은, 상기 다운샘플링 처리 이전에, 배치 정규화(batch normalization) 처리 과정을 수행할 수 있다.
실시 예에 따라, 상기 노이즈가 포함된 혼합 음성 데이터에 대한 스펙트럼을 획득하는 단계는, 상기 노이즈가 포함된 혼합 음성 데이터에 STFT(Short-Time Fourier Transform)를 적용하여 상기 스펙트럼을 획득할 수 있다.
실시 예에 따라, 상기 음성 데이터의 품질 향상 방법은, 실시간으로 수집되는 상기 음성 데이터에 대하여 수행될 수 있다.
본 발명의 실시 예에 따른 음성 데이터 처리 장치는 노이즈가 포함된 혼합 음성 데이터에 대한 스펙트럼을 획득하는 음성 데이터 전처리 모듈, 상기 스펙트럼에 상응하는 2차원 입력 데이터를 다운샘플링 처리와 업샘플링 처리를 포함하는 컨볼루션 네트워크로 입력하여, 상기 컨볼루션 네트워크의 출력 데이터를 획득하는 인코더 및 디코더, 획득한 상기 출력 데이터를 기초로, 상기 음성 데이터에 포함된 노이즈를 제거하기 위한 마스크를 생성하고, 생성된 상기 마스크를 이용하여, 상기 혼합 음성 데이터에서 노이즈를 제거하는 음성 데이터 후처리 모듈을 포함하되, 상기 컨볼루션 네트워크는, 상기 다운샘플링 처리와 상기 업샘플링 처리는 상기 2차원 입력 데이터의 제1축에서 처리하고, 상기 다운샘플링 처리와 상기 업샘플링 처리 이외의 나머지 처리 과정은 제2축에서 처리할 수 있다.
본 발명의 실시 예에 따른 방법과 장치들은 과제는 다운샘플링 처리와 업샘플링 처리는 2차원 입력 데이터의 제1축에서 처리하고, 나머지 처리 과정은 상기 제1축과 제2축에서 처리하는 컨볼루션 네트워크를 이용함으로써, 체커보드 아티팩트(checkerboard artifacts)가 발생하는 현상을 개선할 수 있다.
또한, 본 발명의 실시 예에 따른 방법과 장치들은 시간 축에서 2차원 입력 데이터에 대하여 인과적 컨볼루션(causal convolution)을 수행함으로써, 수집되는 음성 데이터에 대하여 실시간 처리가 가능하다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시 예에 따른 음성 데이터 처리 장치의 블록도이다.
도 2는 도 1의 음성 데이터 처리 장치에서 음성 데이터를 처리하는 세부 과정을 나타낸 도면이다.
도 3은 본 발명의 일 실시 예에 따른 음성 데이터의 품질 향상 방법의 플로우차트이다.
도 4는 본 발명의 일 실시 예에 따른 음성 데이터의 품질 향상 방법과 비교예에서의 다운샘플링 처리와 업샘플링 처리에 따른 체커보드 아티팩트를 비교하기 위한 도면이다.
도 5는 본 발명의 일 실시 예에 따른 음성 데이터의 품질 향상 방법에 따라 사용되는 데이터 블록을 시간 축에서 표시한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 음성 데이터의 품질 향상 방법에 따른 성능을 여러 비교 예들과 비교한 표이다.
본 발명의 기술적 사상은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세히 설명하고자 한다. 그러나, 이는 본 발명의 기술적 사상을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상의 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명의 기술적 사상을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에 기재된 "~부", "~기", "~자", "~모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 프로세서(Processor), 마이크로 프로세서(Micro Processer), 마이크로 컨트롤러(Micro Controller), CPU(Central Processing Unit), GPU(Graphics Processing Unit), APU(Accelerate Processor Unit), DSP(Drive Signal Processor), ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등과 같은 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있으며, 적어도 하나의 기능이나 동작의 처리에 필요한 데이터를 저장하는 메모리(memory)와 결합되는 형태로 구현될 수도 있다.
그리고 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
도 1은 본 발명의 일 실시 예에 따른 음성 데이터 처리 장치의 블록도이다.
도 1을 참조하면, 음성 데이터 처리 장치(100)는 음성 데이터 획득 유닛(110), 메모리(120), 통신 인터페이스(130), 및 프로세서(140)를 포함할 수 있다.
실시 예에 따라, 음성 데이터 처리 장치(100)는 원격으로 음성 데이터를 주고 받는 장치(예컨대, 화상 회의를 위한 장치)의 일부로 구현되어, 음성 이외의 노이즈를 처리할 수 있는 다양한 형태로 구현될 수 있으며, 적용 분야가 이에 한정되는 것은 아니다.
음성 데이터 획득 유닛(110)은 사람의 음성이 포함된 음성 데이터를 획득할 수 있다.
실시 예에 따라, 음성 데이터 획득 유닛(110)은 음성을 녹음하기 위한 구성들, 예컨대 레코더(recoder) 등을 포함하는 형태로 구현될 수 있다.
실시 예에 따라, 음성 데이터 획득 유닛(110)은 음성 데이터 처리 장치(100)와 별개로 구현될 수 있으며, 이 경우, 음성 데이터 처리 장치(100)는 별개로 구현된 음성 데이터 획득 유닛(110)으로부터 음성 데이터를 수신할 수 있다.
실시 예에 따라, 음성 데이터 획득 유닛(110)에 의해 획득한 음성 데이터는 파형 데이터(wave form data)일 수 있다.
본 명세서에서 "음성 데이터"는 사람의 음성이 포함된 소리 데이터를 폭넓게 의미할 수 있다.
메모리(120)는 음성 데이터 처리 장치(100)의 동작 전반에 필요한 데이터 또는 프로그램을 저장할 수 있다.
메모리(120)는 음성 데이터 획득 유닛(110)에 의해 획득한 음성 데이터 또는 프로세서(140)에 의해 처리 중이거나 처리된 음성 데이터를 저장할 수 있다.
통신 인터페이스(130)는 음성 데이터 처리 장치(100)와 외부의 타 장치와의 통신을 인터페이싱할 수 있다.
예컨대, 통신 인터페이스(130)는 음성 데이터 처리 장치(100)에 의해 품질이 향상된 음성 데이터를 통신망을 통하여 다른 장치로 전송할 수 있다.
프로세서(140)는 음성 데이터 획득 유닛(110)에 의해 획득한 음성 데이터를 전처리하고, 전처리된 음성 데이터를 컨볼루션 네트워크에 입력하고, 컨볼루션 네트워크로부터 출력된 출력 데이터를 이용하여, 음성 데이터에 포함된 노이즈를 제거하는 후처리를 수행할 수 있다.
실시 예에 따라, 프로세서(140)는 NPU(Neural Processing Unit), GPU(Graphic Processing Unit), CPU(Central Processing Unit) 등으로 구현될 수 있으며, 다양한 변형이 가능하다.
프로세서(140)는 음성 데이터 전처리 모듈(142), 인코더(144), 디코더(146), 및 음성 데이터 후처리 모듈(148)을 포함할 수 있다.
음성 데이터 전처리 모듈(142), 인코더(144), 디코더(146), 및 음성 데이터 후처리 모듈(148)는 그 기능에 따라 논리적으로 구분된 것일 뿐이며, 각각 또는 적어도 둘 이상의 조합이 프로세서(140) 내의 일 기능으로 구현될 수도 있다.
음성 데이터 전처리 모듈(142)은 음성 데이터 획득 유닛(110)에 의해 획득된 음성 데이터를 처리하여 인코더(144)와 디코더(146)에서 처리 가능한 형태의 2차원 입력 데이터를 생성할 수 있다.
음성 데이터 획득 유닛(110)에 의해 획득된 음성 데이터는 하기의 (수식1)과 같이 표현될 수 있다.
(수식 1)
Figure pat00001
(상기 xn은 노이즈가 섞인 혼합 음성 신호, 상기 sn은 음성 신호, nn은 노이즈 신호, n은 신호의 시간 인덱스를 의미함)
실시 예에 따라, 음성 데이터 전처리 모듈(142)은 음성 데이터(xn)에 대하여 STFT(Short-Time Fourier Transform)를 적용하여, 노이즈가 섞인 혼합 음성 신호(xn)에 대한 스펙트럼(Xk i)를 획득할 수 있다. 스펙트럼(Xk i)은 하기의 (수식 2)와 같이 표현될 수 있다.
(수식 2)
Figure pat00002
(상기 Xk i은 혼합 음성 신호에 대한 스펙트럼, Sk i은 음성 신호에 대한 스펙트럼, Nk i은 노이즈 신호에 대한 스펙트럼, i는 time-step, k는 frequency index를 의미함)
실시 예에 따라, 음성 데이터 전처리 모듈(142)은 STFT를 적용하여 획득한 스펙트럼의 실수부와 허수부를 분리하여, 분리된 실수부와 허수부를 인코더(144)에 2채널(channel)로 입력할 수 있다.
본 명세서에서 "2차원 입력 데이터"는 그 형태(예컨대, 실수부와 허수부가 별개 채널로 구분되는 등의 형태)와 무관하게 적어도 2차원의 성분(예컨대, 시간 축 성분, 주파수 축 성분)으로 구성된 입력 데이터를 폭넓게 의미할 수 있다. 실시 예에 따라, "2차원 입력 데이터"는 스펙트로그램으로 호칭될 수도 있다.
인코더(144)와 디코더(146)은 하나의 컨볼루션 네트워크를 구성할 수 있다.
실시 예에 따라, 인코더(144)는 2차원 입력 데이터에 대하여 다운샘플링 처리 과정을 포함하는 컨트랙팅 패스(contracting path)를 구성할 수 있으며, 디코더(146)는 인코더(144)에 의해 출력된 피쳐맵을 업샘플링 처리하는 과정을 포함하는 익스팬시브 패스(expansive path)를 구성할 수 있다.
인코더(144)와 디코더(146)에 의해 구현되는 컨볼루션 네트워크의 세부 모델은 도 2를 참조하여 후술하도록 한다.
음성 데이터 후처리 모듈(148)은 디코더(146)의 출력 데이터를 기초로, 음성 데이터에 포함된 노이즈를 제거하기 위한 마스크를 생성하고, 생성된 마스크를 이용하여 혼합 음성 데이터에서 노이즈를 제거할 수 있다.
실시 예에 따라, 음성 데이터 후처리 모듈(148)은 하기의 (수식 3)에서와 같이 마스킹 방법(masking method)에서 추정한 마스크(Mk i)를 혼합 음성 신호에 대한 스펙트럼(Xk i)에 곱하여, 추정된 노이즈가 제거된 음성 신호에 대한 스펙트럼(
Figure pat00003
)을 획득할 수 있다.
(수식 3)
Figure pat00004
도 2는 도 1의 음성 데이터 처리 장치에서 음성 데이터를 처리하는 세부 과정을 나타낸 도면이다.
도 1과 도 2를 참조하면, 음성 데이터 전처리 모듈(142)에 의해 전처리된 음성 데이터(즉, 2차원 입력 데이터)가 인코더(144)의 입력 데이터(Model Input)로 입력될 수 있다.
인코더(144)는 입력된 2차원 입력 데이터에 대하여 다운샘플링 처리를 수행할 수 있다.
실시 예에 따라, 인코더(144)는 다운샘플링 처리 이전에, 입력된 2차원 입력 데이터에 대하여 컨볼루션, 정규화, 활성화 함수 처리를 수행할 수 있다.
실시 예에 따라, 인코더(144)에 의해 수행되는 컨볼루션은 인과적 컨볼루션(causal convolution)이 사용될 수 있다. 이 경우, 인과적 컨볼루션 처리는 시간 축에서 수행될 수 있으며, 2차원 입력 데이터 중에서 시간 축을 기준으로 상대적으로 과거에 해당하는 기설정된 크기의 데이터에 대하여 제로 패딩(zero padding) 처리가 이루어질 수 있다.
실시 예에 따라, 출력 버퍼(output buffer)를 입력 버퍼(input buffer)에 비하여 작은 크기로 구현할 수 있으며, 이 경우 패딩(padding) 처리 없이 인과적 컨볼루션 처리를 수행할 수 있다.
실시 예에 따라, 인코더(144)에 의해 수행되는 정규하는 배치 정규화(batch normalization)일 수 있다.
실시 예에 따라, 인코더(144)의 2차원 입력 데이터의 처리 과정에서 배치 정규화는 생략될 수 있다.
실시 예에 따라, 활성화 함수는 PReLU(Parametric ReLU) 함수가 사용될 수 있으나, 이에 한정되는 것은 아니다.
실시 예에 따라, 인코더(144)는 다운샘플링 처리 이후에, 2차원 입력 데이터에 대하여 정규화, 활성화 함수 처리를 수행하여 2차원 입력 데이터에 대한 피쳐맵을 출력할 수 있다.
인코더(144)의 처리 과정에서의 컨트랙팅 패스 중에서 활성화 함수 처리의 결과(피쳐)의 적어도 일부는 복사되고(copy), 잘라져서(crop) 디코더(146)의 concat(concatenate) 처리에 사용될 수 있다.
인코더(144)에서 최종적으로 출력되는 피쳐맵은 디코더(146)로 입력되어, 디코더(146)에 의해 업샘플링 처리될 수 있다.
실시 예에 따라, 디코더(146)은 업샘플링 처리 이전에, 입력된 특징맵에 대하여 컨볼루션, 정규화, 활성화 함수 처리를 수행할 수 있다.
실시 예에 따라, 디코더(146)에 의해 수행되는 컨볼루션은 인과적 컨볼루션(causal convolution)이 사용될 수 있다.
실시 예에 따라, 디코더(146)에 의해 수행되는 정규하는 배치 정규화(batch normalization)일 수 있다.
실시 예에 따라, 디코더(146)의 2차원 입력 데이터의 처리 과정에서 배치 정규화는 생략될 수 있다.
실시 예에 따라, 활성화 함수는 PReLU(Parametric ReLU) 함수가 사용될 수 있으나, 이에 한정되는 것은 아니다.
실시 예에 따라, 디코더(146)는 업샘플링 처리 이후에, 특징맵에 대하여 정규화, 활성화 함수 처리를 수행한 이후에, concat(concatenate) 처리를 수행할 수 있다.
concat(concatenate) 처리는 인코더(144)에서 최종적으로 출력된 피쳐맵 이외에, 인코더(144)로부터 전달되는 다양한 사이즈의 피쳐맵을 함께 활용하여 컨볼루션 과정에서의 가장자리 픽셀에 대한 정보 손실을 막기 위한 처리이다.
실시 예에 따라, 인코더(144)의 다운샘플링 과정과 디코더(146)의 업샘플링 과정은 대칭적으로 구성되며, 다움샘플링, 업샘플링, 컨볼루션, 정규화, 또는 활성화함수 처리 과정의 반복 횟수는 다양한 변경이 가능하다.
실시 예에 따라, 인코더(144)와 디코더(146)에 의해 구현되는 컨볼루션 네트워크는 U-NET 컨볼루션 네트워크일 수 있으나 이에 제한되는 것은 아니다.
디코더(146)로부터 출력되는 출력 데이터는 음성 데이터 후처리 모듈(148)의 후처리 과정, 예컨대 인과적 컨볼루션(casual convolution)과 포인트와이즈 컨볼루션(pointwise convolution) 처리를 통하여 마스크(output mask)를 출력할 수 있다.
실시 예에 따라, 음성 데이터 후처리 모듈(148)의 후처리 과정에 포함된 인과적 컨볼루션은 뎁스와이즈 세퍼러블 컨볼루션(depthwise saparable convolution)일 수 있다.
실시 예에 따라, 디코더(146)의 출력은 실수부와 허수부를 가진 2채널 출력값으로 얻어질 수 있으며, 음성 데이터 후처리 모듈(148)은 하기의 (수식 4)와 (수식 5)에 따라 마스크를 출력할 수 있다.
(수식 4)
Figure pat00005
(수식 5)
Figure pat00006
(상기 M은 마스크, 상기 O는 2채널 출력값을 의미함)
음성 데이터 후처리 모듈(148)은 획득한 마스크를 (수식 3)에 적용함으로써, 노이즈가 제거된 음성 신호에 대한 스펙트럼을 획득할 수 있다.
실시 예에 따라, 음성 데이터 후처리 모듈(148)은 노이즈가 제거된 음성 신호에 대한 스펙트럼을 최종적으로 ISTFT(Inverse STFT) 처리하여 노이즈가 제거된 음성의 파형 데이터를 획득할 수 있다.
실시 예에 따라, 인코더(144)와 디코더(146)에 의해 구현되는 컨볼루션 네트워크에서, 다운샘플링 처리와 업샘플링 처리는 2차원 입력 데이터의 제1축(예컨대, 주파수 축)에서 처리되고, 다운샘플링 처리와 업샘플링 처리 이외의 나머지 처리 과정(예컨대, 컨볼루션, 정규화, 활성화 함수 처리)은 제1축(예컨대, 주파수 축) 및 제2축(예컨대, 시간 축)에서 처리될 수 있다. 실시 예에 따라, 다운샘플링 처리와 업샘플링 처리 이외의 나머지 처리 과정 중에서 인과적 컨볼루션의 수행은 제2축(예컨대, 시간 축)에서만 처리될 수 있다.
다른 실시 예에 따라, 인코더(144)와 디코더(146)에 의해 구현되는 컨볼루션 네트워크에서, 다운샘플링 처리와 업샘플링 처리는 2차원 입력 데이터의 제2축(예컨대, 시간 축)에서 처리되고, 다운샘플링 처리와 업샘플링 처리 이외의 나머지 처리 과정은 제1축(예컨대, 주파수 축)과 제2축(예컨대, 시간 축)에서 처리될 수 있다.
또 다른 실시 예에 따라, 입력 데이터가 음성 데이터가 아닌 2차원 이미지 데이터인 경우에, 제1축과 제2축은 상기 2차원 이미지에서 서로 직교하는 두 축을 의미할 수도 있다.
도 3은 본 발명의 일 실시 예에 따른 음성 데이터의 품질 향상 방법의 플로우차트이다.
도 1 내지 도 3을 참조하면, 본 발명의 실시 예에 다른 음성 데이터 처리 장치(100)는 노이즈가 포함된 혼합 음성 데이터에 대한 스펙트럼을 획득할 수 있다(S310)
실시 예에 따라, 음성 데이터 처리 장치(100)는 STFT를 통하여 노이즈가 포함된 혼합 음성 데이터에 대한 스펙트럼을 획득할 수 있다.
음성 데이터 처리 장치(100)는 S310 단계에서 획득된 스펙트럼에 상응하는 2차원 입력 데이터를 다운샘플링 처리와 업샘플링 처리를 포함하는 컨볼루션 네트워크로 입력할 수 있다(S320).
실시 예에 따라, 인코더(144)와 디코더(146)의 처리 과정이 하나의 컨볼루션 네트워크를 형성할 수 있다.
실시 예에 따라, 컨볼루션 네트워크는 U-NET 컨볼루션 네트워크일 수 있다.
실시 예에 따라, 컨볼루션 네트워크에서, 다운샘플링 처리와 업샘플링 처리는 2차원 입력 데이터의 제1축(예컨대, 주파수 축)에서 처리되고, 다운샘플링 처리와 업샘플링 처리 이외의 나머지 처리 과정(예컨대, 컨볼루션, 정규화, 활성화 함수 처리)은 제1축(예컨대, 주파수 축) 및 제2축(예컨대, 시간 축)에서 처리될 수 있다. 실시 예에 따라, 다운샘플링 처리와 업샘플링 처리 이외의 나머지 처리 과정 중에서 인과적 컨볼루션의 수행은 제2축(예컨대, 시간 축)에서만 처리될 수 있다.
음성 데이터 처리 장치(100)는 컨볼루션 네트워크의 출력 데이터를 획득하고(S330), 획득한 출력 데이터를 기초로 음성 데이터에 포함된 노이즈를 제거하기 위한 마스크를 생성할 수 있다(S340).
음성 데이터 처리 장치(100)는 S340 단계에서 생성된 마스크를 이용하여, 혼합 음성 데이터로부터 노이즈를 제거할 수 있다(S350).
도 4는 본 발명의 일 실시 예에 따른 음성 데이터의 품질 향상 방법과 비교예에서의 다운샘플링 처리와 업샘플링 처리에 따른 체커보드 아티팩트를 비교하기 위한 도면이다.
도 4를 참조하면, 도 4(a)의 경우 다운샘플링 처리와 업샘플링 처리를 시간 축에서 처리한 비교 예이며, 도 4(b)는 본 발명의 실시 예에 따라 다운샘플링 처리와 업샘플링 처리를 주파수 축에서 처리하고, 나머지 처리는 시간 축에서 처리한 경우의 2차원 입력 데이터를 나타낸 도면이다.
도 4에서 확인할 수 있듯이 도 4(a)의 비교 예에서는 처리된 음성 데이터에 줄무늬 형태의 체커보드 아티팩트가 상당히 많이 나타나는 것을 확인할 수 있으며, 도 4(b)의 본 발명의 실시 예에 따라 처리된 음성 데이터의 경우에는 상대적으로 체커보드 아티팩트가 상당히 개선된 것을 확인할 수 있다.
도 5는 본 발명의 일 실시 예에 따른 음성 데이터의 품질 향상 방법에 따라 사용되는 데이터 블록을 시간 축에서 표시한 도면이다.
도 5를 참조하면, 음성 데이터의 시간 축에 대한 L1 loss가 나타나며, 시간 축에서 우측에 위치한, 즉 최근 데이터 블록의 경우에 L1 loss가 상대적으로 작은 값을 가지는 것을 확인할 수 있다.
본 발명의 실시 예에 따른 음성 데이터 품질 향상 방법에서는 다운샘플링 처리와 업샘플링 처리 이외의 나머지 처리, 특히 컨볼루션 처리(예컨대, 인과적 컨볼루션(causal convolution)는 시간 축에서 수행함에 따라, 박스 표시된 음성 데이터만(즉, 소량의 최근 데이터)을 이용함으로써 실시간 처리에 유리하다.
도 6은 본 발명의 일 실시 예에 따른 음성 데이터의 품질 향상 방법에 따른 성능을 여러 비교 예들과 비교한 표이다.
도 6을 참조하면, 본 발명의 실시 예에 따른 음성 데이터의 품질 향상 방법(Our Model)의 경우에 동일한 데이터를 사용한 SEGAN, WAVENET, MMSE-GAN, Deep Feature Losses, Coarse-to-fine optimization 등의 타 모델을 적용한 경우에 비하여, CSIG, CBAK, COVL, PESQ, SSNR 수치가 모두 높은 값을 가져 가장 뛰어난 성능을 나타냄을 확인할 수 있다.
이상, 본 발명을 바람직한 실시 예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시 예에 한정되지 않고, 본 발명의 기술적 사상 및 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러가지 변형 및 변경이 가능하다.
100 : 음성 데이터 처리 장치
110 : 음성 데이터 획득 유닛
120 : 메모리
130 : 통신 인터페이스
140 : 프로세서

Claims (9)

  1. 노이즈가 포함된 혼합 음성 데이터에 대한 스펙트럼을 획득하는 단계;
    상기 스펙트럼에 상응하는 2차원 입력 데이터를 다운샘플링 처리와 업샘플링 처리를 포함하는 컨볼루션 네트워크로 입력하여, 상기 컨볼루션 네트워크의 출력 데이터를 획득하는 단계;
    획득한 상기 출력 데이터를 기초로, 상기 음성 데이터에 포함된 노이즈를 제거하기 위한 마스크를 생성하는 단계; 및
    생성된 상기 마스크를 이용하여, 상기 혼합 음성 데이터에서 노이즈를 제거하는 단계를 포함하되,
    상기 컨볼루션 네트워크는, 상기 다운샘플링 처리와 상기 업샘플링 처리는 상기 2차원 입력 데이터의 제1축에서 처리하고, 상기 다운샘플링 처리와 상기 업샘플링 처리 이외의 나머지 처리 과정은 상기 제1축 및 제2축에서 처리하는, 음성 데이터의 품질 향상 방법.
  2. 제1항에 있어서,
    상기 컨볼루션 네트워크는,
    U-NET 컨볼루션 네트워크인, 음성 데이터의 품질 향상 방법.
  3. 제2항에 있어서,
    상기 제1축은 상기 주파수 축이고,
    상기 제2축은 상기 시간 축인, 음성 데이터의 품질 향상 방법.
  4. 제3항에 있어서,
    상기 음성 데이터의 품질 향상 방법은,
    상기 제2축에서 상기 2차원 입력 데이터에 대하여 인과적 컨볼루션(causal convolution)을 수행하는 단계를 더 포함하고,
    상기 인과적 컨볼루션을 수행하는 단계는,
    상기 2차원 입력 데이터에서, 시간 축을 기준으로 상대적으로 과거에 해당하는 기설정된 크기의 데이터에 대하여 제로 패딩(zero padding) 처리를 수행하는, 음성 데이터의 품질 향상 방법.
  5. 제4항에 있어서,
    상기 인과적 컨볼루션을 수행하는 단계는,
    상기 제2축에서 처리되는, 음성 데이터의 품질 향상 방법.
  6. 제1항에 있어서,
    상기 음성 데이터의 품질 향상 방법은,
    상기 다운샘플링 처리 이전에, 배치 정규화(batch normalization) 처리 과정을 수행하는, 음성 데이터의 품질 향상 방법.
  7. 제1항에 있어서,
    상기 노이즈가 포함된 혼합 음성 데이터에 대한 스펙트럼을 획득하는 단계는,
    상기 노이즈가 포함된 혼합 음성 데이터에 STFT(Short-Time Fourier Transform)를 적용하여 상기 스펙트럼을 획득하는, 음성 데이터의 품질 향상 방법.
  8. 제1항에 있어서,
    상기 음성 데이터의 품질 향상 방법은,
    실시간으로 수집되는 상기 음성 데이터에 대하여 수행되는, 음성 데이터의 품질 향상 방법.
  9. 노이즈가 포함된 혼합 음성 데이터에 대한 스펙트럼을 획득하는 음성 데이터 전처리 모듈;
    상기 스펙트럼에 상응하는 2차원 입력 데이터를 다운샘플링 처리와 업샘플링 처리를 포함하는 컨볼루션 네트워크로 입력하여, 상기 컨볼루션 네트워크의 출력 데이터를 획득하는 인코더 및 디코더;
    획득한 상기 출력 데이터를 기초로, 상기 음성 데이터에 포함된 노이즈를 제거하기 위한 마스크를 생성하고, 생성된 상기 마스크를 이용하여, 상기 혼합 음성 데이터에서 노이즈를 제거하는 음성 데이터 후처리 모듈을 포함하되,
    상기 컨볼루션 네트워크는, 상기 다운샘플링 처리와 상기 업샘플링 처리는 상기 2차원 입력 데이터의 제1축에서 처리하고, 상기 다운샘플링 처리와 상기 업샘플링 처리 이외의 나머지 처리 과정은 상기 제1축 및 제2축에서 처리하는, 음성 데이터 처리 장치.
KR1020200135454A 2020-10-19 2020-10-19 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치 KR102492212B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020200135454A KR102492212B1 (ko) 2020-10-19 2020-10-19 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치
PCT/KR2020/016507 WO2022085846A1 (ko) 2020-10-19 2020-11-20 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치
EP20958796.3A EP4246515A1 (en) 2020-10-19 2020-11-20 Method for improving quality of voice data, and apparatus using same
US18/031,268 US11830513B2 (en) 2020-10-19 2020-11-20 Method for enhancing quality of audio data, and device using the same
JP2023523586A JP7481696B2 (ja) 2020-10-19 2020-11-20 音声データの品質向上方法、及びこれを用いる装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200135454A KR102492212B1 (ko) 2020-10-19 2020-10-19 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치

Publications (2)

Publication Number Publication Date
KR20220051715A true KR20220051715A (ko) 2022-04-26
KR102492212B1 KR102492212B1 (ko) 2023-01-27

Family

ID=81289831

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200135454A KR102492212B1 (ko) 2020-10-19 2020-10-19 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치

Country Status (5)

Country Link
US (1) US11830513B2 (ko)
EP (1) EP4246515A1 (ko)
JP (1) JP7481696B2 (ko)
KR (1) KR102492212B1 (ko)
WO (1) WO2022085846A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798455B (zh) * 2023-02-07 2023-06-02 深圳元象信息科技有限公司 语音合成方法、系统、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318755A1 (en) * 2018-04-13 2019-10-17 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5061500A (en) * 1999-06-09 2001-01-02 Beamcontrol Aps A method for determining the channel gain between emitters and receivers
EP2770503B1 (en) 2011-10-21 2019-05-29 Samsung Electronics Co., Ltd. Method and apparatus for concealing frame errors and method and apparatus for audio decoding
US8694306B1 (en) * 2012-05-04 2014-04-08 Kaonyx Labs LLC Systems and methods for source signal separation
WO2019081070A1 (en) * 2017-10-27 2019-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR
KR102393948B1 (ko) 2017-12-11 2022-05-04 한국전자통신연구원 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법
US10991379B2 (en) * 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
US10977555B2 (en) 2018-08-06 2021-04-13 Spotify Ab Automatic isolation of multiple instruments from musical mixtures
JP2023534364A (ja) * 2020-05-12 2023-08-09 クイーン メアリ ユニバーシティ オブ ロンドン ディープニューラルネットワークを使用した時変および非線形オーディオ信号処理

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318755A1 (en) * 2018-04-13 2019-10-17 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hyeong-Seok Choi et al., ‘PHASE-AWARE SPEECH ENHANCEMENT WITH DEEP COMPLEX U-NET’, ICLR 2019, 28 April 2019.* *
Tomasz Grzywalski et al., ‘USING RECURRENCES IN TIME AND FREQUENCY WITHIN U-NET ARCHITECTURE FOR SPEECH ENHANCEMENT’, ICASSP 2019, 12 May 2019.* *
Xiang Hao et al., ‘UNetGAN: A Robust Speech Enhancement Approach in Time Domain for Extremely Low Signal-to-noise Ratio Condition’, INTERSPEECH 2019, 15 September 2019.* *

Also Published As

Publication number Publication date
EP4246515A1 (en) 2023-09-20
KR102492212B1 (ko) 2023-01-27
US20230274754A1 (en) 2023-08-31
WO2022085846A1 (ko) 2022-04-28
JP2023541717A (ja) 2023-10-03
JP7481696B2 (ja) 2024-05-13
US11830513B2 (en) 2023-11-28

Similar Documents

Publication Publication Date Title
CN108198154B (zh) 图像去噪方法、装置、设备及存储介质
US20210134312A1 (en) Audio-visual speech enhancement
CN111081266B (zh) 一种训练生成对抗网络、语音增强方法及系统
CN110765868A (zh) 唇读模型的生成方法、装置、设备及存储介质
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
CN110503967B (zh) 一种语音增强方法、装置、介质和设备
KR102492212B1 (ko) 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치
CN111863014A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
CN111354367A (zh) 一种语音处理方法、装置及计算机存储介质
CN113035225B (zh) 视觉声纹辅助的语音分离方法及装置
Mesgarani et al. Denoising in the domain of spectrotemporal modulations
EP3680901A1 (en) A sound processing apparatus and method
CN117496990A (zh) 语音去噪方法、装置、计算机设备及存储介质
Kumari et al. A wavelet based denoising of speech signal
CN114996489A (zh) 新闻数据的违规检测方法、装置、设备及存储介质
Mazur et al. A sparsity based criterion for solving the permutation ambiguity in convolutive blind source separation
CN110992966B (zh) 一种人声分离方法及系统
US7778479B2 (en) Modified Gabor filter for image processing
CN111341321A (zh) 一种基于Matlab的语谱图生成及显示方法和装置
Thiem et al. Reducing artifacts in GAN audio synthesis
Hussain A Comparative Analysis of Signal Denoising Schemes for Cricket DRS
CN111462736A (zh) 基于语音的图像生成方法、装置和电子设备
CN112201229B (zh) 一种语音处理方法、装置及系统
Choong et al. Improving the Quality of Sound Recovered Using the Visual Microphone with Frame-wise Image Denoising Preprocessing
CN112002343B (zh) 语音纯度的识别方法、装置、存储介质及电子装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right