KR20230120734A - Voice enhancing method - Google Patents

Voice enhancing method Download PDF

Info

Publication number
KR20230120734A
KR20230120734A KR1020220017315A KR20220017315A KR20230120734A KR 20230120734 A KR20230120734 A KR 20230120734A KR 1020220017315 A KR1020220017315 A KR 1020220017315A KR 20220017315 A KR20220017315 A KR 20220017315A KR 20230120734 A KR20230120734 A KR 20230120734A
Authority
KR
South Korea
Prior art keywords
voice
signal
noise
enhancement
input signal
Prior art date
Application number
KR1020220017315A
Other languages
Korean (ko)
Inventor
오민재
이규하
Original Assignee
주식회사 이엠텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이엠텍 filed Critical 주식회사 이엠텍
Priority to KR1020220017315A priority Critical patent/KR20230120734A/en
Publication of KR20230120734A publication Critical patent/KR20230120734A/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

본 발명은 머신러닝 모델을 사용하는 노이즈 제거 기능과 음성 강조 기능을 적용하여 노이즈 제거와 음성 강화를 수행하는 음성 강화 방법에 관한 것이다.
본 발명인 음성 강화 방법은 음성 입력 신호에 대하여 FFT 기능을 수행하여 주파수 영역의 음성 입력 신호를 생성하는 제 1 단계와, 주파수 영역의 음성 입력 신호를 입력값으로 하여, 제 1 기계 학습 모듈에 의해 노이즈 마스킹 스펙트럼을 출력값으로 생성하는 제 2 단계와, 주파수 영역의 음성 입력 신호와 노이즈 마스킹 스펙트럼의 어텐션 값을 입력값으로 하여, 제 2 기계 학습 모듈에 의해 음성 성분이 강조된 제 1 음성 강조 신호를 생성하는 제 3 단계를 포함한다.
The present invention relates to a voice enhancement method for performing noise elimination and voice enhancement by applying a noise elimination function using a machine learning model and a voice enhancement function.
The voice enhancement method of the present invention includes a first step of generating a voice input signal in the frequency domain by performing an FFT function on the voice input signal, and using the voice input signal in the frequency domain as an input value to generate noise by a first machine learning module. A second step of generating a masking spectrum as an output value, and a voice input signal in the frequency domain and an attention value of the noise masking spectrum as input values, generating a first voice enhancement signal in which voice components are enhanced by a second machine learning module Including the 3rd step.

Description

음성 강화 방법{VOICE ENHANCING METHOD}Voice enhancement method {VOICE ENHANCEING METHOD}

본 발명은 음성 강화 방법에 관한 것으로서, 특히 머신 러닝 모델을 사용하는 노이즈 제거 기능과 음성 강조 기능을 적용하여 노이즈 제거와 음성 강화를 수행하는 음성 강화 방법에 관한 것이다.The present invention relates to a voice enhancement method, and more particularly, to a voice enhancement method for removing noise and enhancing voice by applying a noise removal function using a machine learning model and a voice enhancement function.

최근, VoIP와 같은 인터넷 통화에 대한 관심과, 기타 음성/사운드 신호를 활용하는 콘텐츠의 개발 및 제공에 대해 관심이 높아짐에 따라, 음성 신호로부터 노이즈를 제거하는 기술에 대한 관심 역시 높아지고 있다.Recently, as interest in Internet calls such as VoIP and development and provision of content utilizing other voice/sound signals has increased, interest in technology for removing noise from voice signals has also increased.

음성 신호는 일반적으로 8kHz 또는 16kHz의 대역폭을 가지며, 음성 신호로부터 노이즈를 제거하는 기술 역시 이러한 8kHz 또는 16kHz의 대역폭을 갖는 음성 신호를 타겟으로 개발되어 왔다. 그러나, 이러한 노이즈 제거 기술은 24kHz 혹은 그 이상의 대역폭(즉, 풀 밴드(Full Band))을 갖는 고음질의 음성 신호에 포함된 노이즈를 제거하기 위해 적용되기는 어렵다. 말하자면, 풀 밴드의 음성 신호를 제공하는 서비스에 대해서는 기존의 노이즈 제거 기술이 적용되기가 어려우며, 이러한 풀 밴드의 음성 신호로부터 노이즈를 제거하기 위해 샘플링 레이트(sampling rate)를 높일 경우에는 연산량이 급증하게 되는 문제가 있다.A voice signal generally has a bandwidth of 8 kHz or 16 kHz, and a technology for removing noise from the voice signal has also been developed targeting the voice signal having a bandwidth of 8 kHz or 16 kHz. However, it is difficult to apply this noise removal technique to remove noise included in a high-quality voice signal having a bandwidth of 24 kHz or more (ie, full band). In other words, it is difficult to apply the existing noise removal technology to a service that provides a full-band voice signal, and when the sampling rate is increased to remove noise from the full-band voice signal, the amount of computation increases rapidly. there is a problem

또한, 음성 신호를 복원함에 있어서 진폭 신호만을 복원하고, 위상 신호는 노이즈가 포함된 신호를 그대로 사용하는 경우에는, 노이즈가 심한 경우(예컨대, SNR이 0dB 이하인 경우) 노이즈가 적절하게 제거된 음성 신호를 복원할 수 없으며, 특히, 높은 샘플링 레이트의 음성 신호에 대해 진폭 신호와 위상 신호에 포함된 노이즈를 효과적으로 제거하기는 어렵다.In addition, in restoring a voice signal, when only an amplitude signal is restored and a signal containing noise is used as it is as a phase signal, when the noise is severe (eg, when the SNR is 0 dB or less), the voice signal from which the noise is properly removed cannot be restored, and in particular, it is difficult to effectively remove noise included in an amplitude signal and a phase signal for a high sampling rate audio signal.

본 발명은 머신러닝 모델을 사용하는 노이즈 제거 기능과 음성 강조 기능을 적용하여 노이즈 제거와 음성 강화를 수행하는 음성 강화 방법을 제공하는 것을 목적으로 한다.An object of the present invention is to provide a voice enhancement method for performing noise removal and voice enhancement by applying a noise removal function using a machine learning model and a voice enhancement function.

본 발명인 음성 강화 방법은 음성 입력 신호에 대하여 FFT 기능을 수행하여 주파수 영역의 음성 입력 신호를 생성하는 제 1 단계와, 주파수 영역의 음성 입력 신호를 입력값으로 하여, 제 1 기계 학습 모듈에 의해 노이즈 마스킹 스펙트럼을 출력값으로 생성하는 제 2 단계와, 주파수 영역의 음성 입력 신호와 노이즈 마스킹 스펙트럼의 어텐션 값을 입력값으로 하여, 제 2 기계 학습 모듈에 의해 음성 성분이 강조된 제 1 음성 강조 신호를 생성하는 제 3 단계를 포함한다.The voice enhancement method of the present invention includes a first step of generating a voice input signal in the frequency domain by performing an FFT function on the voice input signal, and using the voice input signal in the frequency domain as an input value to generate noise by a first machine learning module. A second step of generating a masking spectrum as an output value, and a voice input signal in the frequency domain and an attention value of the noise masking spectrum as input values, generating a first voice enhancement signal in which voice components are enhanced by a second machine learning module Including the 3rd step.

또한, 음성 강화 방법은 제 1 음성 강조 신호와 노이즈 마스킹 스펙트럼의 노이즈 마스크를 곱셈 연산하여 노이즈를 제거하여 제 2 음성 강조 신호를 생성하는 제 4 단계와, 제 2 음성 강조 신호에 대하여 IFFT 기능을 수행하여 음성 출력 신호를 생성하는 제 5 단계를 포함하는 것이 바람직하다.In addition, the voice enhancement method includes a fourth step of generating a second voice enhancement signal by removing noise by multiplying the first voice enhancement signal by a noise mask of the noise masking spectrum, and performing an IFFT function on the second voice enhancement signal It is preferable to include a fifth step of generating an audio output signal by doing so.

또한, 어텐션 값은 0 ~ 1.0 사이의 값인 것이 바람직하다.Also, the attention value is preferably between 0 and 1.0.

본 발명은 머신러닝 모델을 사용하는 노이즈 제거 기능과 음성 강조 기능을 적용하여 노이즈 제거와 음성 강화를 수행하는 효과가 있다.The present invention has an effect of performing noise removal and voice enhancement by applying a noise removal function using a machine learning model and a voice enhancement function.

도 1은 본 발명에 따른 음성 강화 방법을 수행하는 음성 강화 장치의 제어 구성도이다.
도 2는 본 발명에 따른 음성 강화 방법의 제어 순서도이다.
1 is a control block diagram of a voice enhancement device that performs a voice enhancement method according to the present invention.
2 is a control flow chart of a voice enhancement method according to the present invention.

이하에서, 본 발명은 실시예와 도면을 통하여 상세하게 설명된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.Hereinafter, the present invention will be described in detail through examples and drawings. However, it should be understood that this is not intended to limit the present invention to the specific embodiments, and includes various modifications, equivalents, and/or alternatives of the embodiments of the present invention. In connection with the description of the drawings, like reference numerals may be used for like elements.

본 문서에서, "가진다", "가질 수 있다", "포함한다", 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.In this document, expressions such as "has", "may have", "includes", or "may include" refer to the presence of a corresponding feature (eg, numerical value, function, operation, or component such as a part). , which does not preclude the existence of additional features.

본 문서에서, "A 또는 B", "A 또는/및 B 중 적어도 하나", 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B", "A 및 B 중 적어도 하나", 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.In this document, expressions such as "A or B", "at least one of A and/and B", or "one or more of A or/and B" may include all possible combinations of the items listed together. . For example, "A or B", "at least one of A and B", or "at least one of A or B" includes (1) at least one A, (2) at least one B, Or (3) may refer to all cases including at least one A and at least one B.

본 문서에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.Expressions such as "first", "second", "first", or "second" as used herein may modify various elements, in any order and/or importance, and may refer to one element as another. It is used to distinguish from components, but does not limit the components. For example, a first user device and a second user device may represent different user devices regardless of order or importance. For example, without departing from the scope of rights described in this document, a first element may be called a second element, and similarly, the second element may also be renamed to the first element.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.A component (e.g., a first component) is "(operatively or communicatively) coupled with/to" another component (e.g., a second component); When referred to as "connected to", it should be understood that the certain component may be directly connected to the other component or connected through another component (eg, a third component). On the other hand, when an element (eg, a first element) is referred to as being “directly connected” or “directly connected” to another element (eg, a second element), the element and the above It may be understood that other components (eg, third components) do not exist between the other components.

본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성(또는 설정)된"은 하드웨어적으로 "특별히 설계된(specifically designed to)"것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성(또는 설정)된 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.As used in this document, the expression "configured to" means "suitable for", "having the capacity to", depending on the situation. ", "designed to", "adapted to", "made to", or "capable of" can be used interchangeably. The term "configured (or set) to" may not necessarily mean only "specifically designed to" hardware. Instead, in some contexts, the phrase "device configured to" may mean that the device is "capable of" in conjunction with other devices or components. For example, the phrase "a processor configured (or set) to perform A, B, and C" may include a dedicated processor (eg, an embedded processor) to perform those operations, or one or more software programs stored in a memory device that executes By doing so, it may mean a general-purpose processor (eg, CPU or application processor) capable of performing corresponding operations.

본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은 관련 기술의 문맥 상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시 예들을 배제하도록 해석될 수 없다.Terms used in this document are only used to describe a specific embodiment, and may not be intended to limit the scope of other embodiments. Singular expressions may include plural expressions unless the context clearly dictates otherwise. Terms used herein, including technical or scientific terms, may have the same meaning as commonly understood by a person of ordinary skill in the technical field described in this document. Among the terms used in this document, terms defined in general dictionaries may be interpreted as having the same or similar meaning as the meaning in the context of the related art, and unless explicitly defined in this document, in an ideal or excessively formal meaning. not interpreted In some cases, even terms defined in this document cannot be interpreted to exclude the embodiments of this document.

도 1은 본 발명에 따른 음성 강화 방법을 수행하는 음성 강화 장치의 제어 구성도이다.1 is a control block diagram of a voice enhancement device that performs a voice enhancement method according to the present invention.

음성 강화 장치(10)는 음성 입력 신호를 획득하거나 수신하여 프로세서(9)에 인가하는 입력부(1)와, 음성 성분이 강화되고 노이즈가 제거되거나 억제된 음성 출력 신호를 프로세서(9)로부터 인가 받아 음 방출하거나 전송하는 출력부(2)와, 프로세서(9)로부터 인가되는 주파수 영역의 음성 입력 신호를 입력값으로 입력 받아 노이즈 마스킹 스펙트럼(노이즈 마스크(noise mask), 어텐션(attention) 값 또는 가중치를 포함함)을 출력값으로 출력하는 노이즈 제거 모듈(4)과, 프로세서(9)로부터 인가되는 주파수 영역의 음성 입력 신호와, 어텐션 값을 입력값으로 입력 받아 음성 성분을 강화시킨 제 1 음성 강조 신호를 출력값으로 생성하여 프로세서(9)에 인가하는 음성 강조 모듈(5)과, 상술된 구성요소들을 제어하여 음성 입력 신호에서 노이즈를 제거하고 음성을 강화시켜 음성 출력 신호를 출력하는 음성 강화 기능을 수행하는 프로세서(9) 등을 포함하여 구성된다. 다만, 전원부(미도시)는 본 발명이 속하는 기술분야에 익숙한 사람들에게 당연히 인식되는 기술에 해당되어, 그 상세한 설명이 생략된다.The voice enhancement device 10 includes an input unit 1 that acquires or receives a voice input signal and applies it to a processor 9, and receives an audio output signal in which voice components are enhanced and noise is removed or suppressed from the processor 9. The output unit 2 that emits or transmits sound and the audio input signal in the frequency domain applied from the processor 9 is input as an input value, and the noise masking spectrum (noise mask, attention value or weight is calculated) including) as an output value, a voice input signal in the frequency domain applied from the processor 9, and a first voice enhancement signal in which the voice component is enhanced by receiving the attention value as an input value A voice enhancement module 5 that generates an output value and applies it to the processor 9, and a voice enhancement function that removes noise from the voice input signal and enhances the voice to output the voice output signal by controlling the above-described components. It is configured to include a processor 9 and the like. However, since the power supply unit (not shown) corresponds to a technology naturally recognized by those familiar with the technical field to which the present invention belongs, a detailed description thereof will be omitted.

본 실시예에서, 음성 입력 신호는 음성 및/또는 노이즈를 포함하는 신호이다.In this embodiment, the voice input signal is a signal containing voice and/or noise.

입력부(1)는 노이즈 및/또는 음성을 획득하는 마이크나, 외부 장치로부터 음성 입력 신호를 수신하거나 인가 받는 통신부로 구현될 수 있다.The input unit 1 may be implemented as a microphone that acquires noise and/or voice, or a communication unit that receives or receives a voice input signal from an external device.

출력부(2)는 음성 출력 신호를 음 방출하는 스피커나, 외부 장치로 음성 출력 신호를 전송하거나 인가하는 통신부로 구현될 수 있다.The output unit 2 may be implemented as a speaker that emits a sound output signal or a communication unit that transmits or applies an audio output signal to an external device.

노이즈 제거 모듈(4)은 머신 러닝이나 딥러닝을 수행하는 알고리즘이거나, 그러한 알고리즘에 따른 연산을 수행하여 출력하는 실행기로 구현될 수 있으며, RNN계열의 LSTM이 사용되거나 내장될 수 있다. 노이즈 제거 모듈(4)은 주파수 영역의 음성 입력 신호(노이즈와 클린(clean) 음성 신호의 혼합 신호)를 입력값으로 하고, 클린 음성 신호를 정답으로 전달하며, 피처값(feature)을 sigmoid 함수를 통해 노이즈 마스킹(noise masking) 스펙트럼을 생성하여 프로세서(9)로 출력한다. 즉, 노이즈 제거 모듈(4)은 노이즈 마스크(또는 노이즈 마스킹 스펙트럼)와 주파수 영역의 음성 입력 신호의 입력 스펙트럼(input spectrum)과의 곱과 정답인 클린 음성 신호의 차이가 줄어들도록 학습한다. 또는, 노이즈 제거 모듈(4)은 이러한 학습에 의해 생성된 실행기일 수 있다.The noise removal module 4 may be an algorithm that performs machine learning or deep learning, or may be implemented as an executor that performs and outputs an operation according to such an algorithm, and an RNN-based LSTM may be used or embedded. The noise removal module 4 takes a voice input signal in the frequency domain (a mixed signal of noise and a clean voice signal) as an input value, transfers the clean voice signal as an answer, and converts the feature value into a sigmoid function. Through this, a noise masking spectrum is generated and output to the processor 9. That is, the noise removal module 4 learns to reduce the difference between the product of the noise mask (or noise masking spectrum) and the input spectrum of the voice input signal in the frequency domain and the correct answer, the clean voice signal. Alternatively, the noise removal module 4 may be an executor generated by such learning.

노이즈 제거 모듈(4)은 음성 입력 신호에서 음성 성분을 유지하며 노이즈 성분을 감소시키는 기능을 수행하기 위한 노이즈 마스킹 스펙트럼을 프로세서(9)에 인가한다. 본 실시예에서, 노이즈 마스킹(Noise Masking)은 주파수 영역의 음성 입력 신호의 입력 스펙트럼에서 sigmoid 함수를 통해 각 주파수 bin에 0.0~1.0 사이의 값을 매핑(mapping)한 결과값이며 어텐션 값(attention value)과 같은 의미를 갖는다. 예를 들면, 노이즈 마스킹 스펙트럼은 각 주파수 bin마다 sigmoid 함수를 통해 0.0~1.0 사이의 게인 값이면서 어텐션 값을 지니며, 음성 성분이라고 판단되는 주파수 bin에는 음성 성분의 손실을 막기 위해 높은 게인(높은 가중치)이 부여되고, 노이즈 성분으로 판단되는 주파수 bin에는 노이즈 성분의 제거를 위해 낮은 게인(낮은 가중치)이 부여된다. The noise removal module 4 applies a noise masking spectrum to the processor 9 to perform a function of reducing the noise component while maintaining the voice component in the voice input signal. In this embodiment, noise masking is a result of mapping a value between 0.0 and 1.0 to each frequency bin through a sigmoid function in the input spectrum of a voice input signal in the frequency domain, and is an attention value ) has the same meaning. For example, the noise masking spectrum has a gain value between 0.0 and 1.0 and an attention value through a sigmoid function for each frequency bin. ) is given, and a low gain (low weight) is given to the frequency bin determined to be a noise component to remove the noise component.

음성 강조 모듈(5)은 기계 학습이나 딥러닝을 수행하는 알고리즘이나, 그러한 알고리즘에 따른 연산을 수행하여 출력하는 실행기로 구현될 수 있으며, CNN기반의 모델 또는 RNN 기반의 모델이 사용되거나 내장될 수 있다. The voice enhancement module 5 may be implemented as an algorithm that performs machine learning or deep learning, or an executor that performs and outputs an operation according to such an algorithm, and a CNN-based model or an RNN-based model may be used or embedded. there is.

음성 강조 모듈(5)은 주파수 영역의 음성 입력 신호와 어텐션 값을 입력값으로 하며, 어텐션 값을 이용하여 주파수 영역의 음성 입력 신호의 각 주파수 bin의 값에 가중치인 어텐션 값을 적용함으로써 음성 성분이 강조되거나 강화된 제 1 음성 강조 신호를 출력값으로 프로세서(9)에 출력한다. 음성 강조 모듈(5)은 주파수 영역의 음성 입력 신호의 입력 스펙트럼의 각 주파수 bin 값을 보정하는 것으로, 보정에 사용되는 어텐션 값이 높다는 것은 해당 주파수 bin에 음성 성분이 있을 확률이 높으니, 추론 시 해당 주파수 bin 값의 손실(음성 성분의 손실)을 막는 방향(강화나 강조 보정 수행)으로 학습을 진행하거나, 그러한 학습 수행에 의해 생성된 실행기일 수 있다. The voice enhancement module 5 takes the voice input signal and the attention value in the frequency domain as input values, and applies the attention value, which is a weight, to the value of each frequency bin of the voice input signal in the frequency domain using the attention value, so that the voice component is The emphasized or enhanced first audio enhancement signal is output to the processor 9 as an output value. The voice enhancement module 5 corrects each frequency bin value of the input spectrum of the voice input signal in the frequency domain. The higher the attention value used for correction, the higher the probability that there is a voice component in the corresponding frequency bin. It may be an executor created by performing learning or performing learning in a direction (performing reinforcement or emphasis correction) to prevent loss of the corresponding frequency bin value (loss of speech component).

프로세서(9)는 음성 강화 기능을 수행하는 프로세서로서, 고속 푸리에 변환(FFT) 기능과 인버스 고속 푸리에 변환(IFFT) 기능을 구비하며, 연산 기능(예를 들면, 곱셈 기능 등) 및 저장 기능(예를 들면, 메모리 등)을 구비하는 전자적 및/또는 전기적 회로 장치이다. 프로세서(9)에 의해 수행되는 음성 강화 기능에 대해서는 도 2에서 상세하게 기재된다.The processor 9 is a processor that performs a voice enhancement function, and includes a fast Fourier transform (FFT) function and an inverse fast Fourier transform (IFFT) function, and an arithmetic function (eg, a multiplication function) and a storage function (eg, a multiplication function). For example, memory, etc.) is an electronic and / or electrical circuit device having. The voice enhancement function performed by the processor 9 is described in detail in FIG. 2 .

도 2는 본 발명에 따른 음성 강화 방법의 제어 순서도이다.2 is a control flow chart of a voice enhancement method according to the present invention.

단계(S1)에서, 프로세서(9)는 입력부(1)로부터 음성 입력 신호를 수신하거나 인가 받는다. 프로세서(9)는 음성 입력 신호를 입력 받으면서 단계(S3)로 진행하되, 기설정 크기의 데이터 프레임 단위마다 단계(S3)로 진행할 수도 있다. In step S1, the processor 9 receives or receives a voice input signal from the input unit 1. The processor 9 proceeds to step S3 while receiving the voice input signal, but may proceed to step S3 for each data frame unit having a predetermined size.

단계(S3)에서, 프로세서(9)는 음성 입력 신호에 대하여 FFT 기능을 수행하여 주파수 영역의 음성 입력 신호를 생성하고, 생성된 주파수 영역의 음성 입력 신호를 노이즈 제거 모듈(4)과 음성 강조 모듈(5) 각각에 인가하고, 단계(S5)로 진행한다.In step S3, the processor 9 performs an FFT function on the voice input signal to generate a voice input signal in the frequency domain, and converts the generated voice input signal into the noise removal module 4 and the voice enhancement module. (5) Apply to each, and proceed to step S5.

단계(S5)에서, 노이즈 제거 모듈(4)은 인가된 주파수 영역의 음성 입력 신호를 입력값으로 하여, 상술된 바와 같이, 노이즈 마스킹 스펙트럼을 출력값으로 생성하여 프로세서(9)에 인가하고, 프로세서(9)는 노이즈 마스킹 스펙트럼을 인가 받으며, 인가된 노이즈 마스킹 스펙트럼의 어텐션 값을 음성 강조 모듈(5)에 인가한다. 프로세서(9)는 단계(S5)를 수행하고 단계(S7)로 진행한다.In step S5, the noise removal module 4 takes the applied frequency domain audio input signal as an input value and, as described above, generates a noise masking spectrum as an output value and applies it to the processor 9, and the processor ( 9) receives the noise masking spectrum, and applies the attention value of the applied noise masking spectrum to the voice enhancement module 5. Processor 9 performs step S5 and proceeds to step S7.

단계(S7)에서, 음성 강조 모듈(5)은 인가된 주파수 영역의 음성 입력 신호와 어텐션 값을 입력값으로 하여, 상술된 바와 같이, 음성 성분이 강조된 제 1 음성 강조 신호를 생성하여 출력값으로 프로세서(9)에 인가한다. 프로세서(9)는 제 1 음성 강조 신호를 인가 받으며 단계(S9)로 진행한다.In step S7, the voice enhancement module 5 uses the applied frequency domain voice input signal and the attention value as input values to generate a first voice enhancement signal in which voice components are enhanced, as described above, and use the processor as an output value. (9) is authorized. The processor 9 receives the first voice enhancement signal and proceeds to step S9.

단계(S9)에서, 프로세서(9)는 제 1 음성 강조 신호와 노이즈 마스크를 곱셈 연산하여 노이즈를 제거하거나 억제시켜 제 2 음성 강조 신호를 생성한다. 프로세서(9)는 단계(S9)를 수행하고, 단계(S11)로 진행한다.In step S9, the processor 9 multiplies the first voice enhancement signal and the noise mask to remove or suppress noise to generate a second voice enhancement signal. Processor 9 performs step S9 and proceeds to step S11.

단계(S11)에서, 프로세서(9)는 주파수 영역 신호인 제 2 음성 강조 신호에 대하여 IFFT 기능을 수행하여 시간 영역의 음성 출력 신호를 생성하여 저장하거나, 출력부(2)에 인가한다.In step S11, the processor 9 generates and stores a time-domain audio output signal by performing an IFFT function on the second audio enhancement signal, which is a frequency domain signal, or applies it to the output unit 2.

프로세서(9)는 데이터 프레임 단위로 음성 입력 신호에 대하여 상술된 음성 강화 기능을 수행하여 음성 출력 신호를 생성하여 출력부(2)에 인가한다.The processor 9 generates an audio output signal by performing the above-described audio enhancement function on the audio input signal in units of data frames, and applies the generated audio output signal to the output unit 2 .

다양한 실시 예에 따른 장치(예: 프로세서 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 메모리가 될 수 있다.At least a part of a device (eg, a processor or functions thereof) or a method (eg, operations) according to various embodiments may be stored in a computer-readable storage medium in the form of a program module. Can be implemented as stored instructions. When the command is executed by a processor, the one or more processors may perform a function corresponding to the command. A computer-readable storage medium may be, for example, a memory.

컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(magnetic media)(예: 자기테이프), 광기록 매체(optical media)(예: CD-ROM, DVD(Digital Versatile Disc), 자기-광 매체(magnetoopticalmedia)(예: 플롭티컬 디스크(floptical disk)), 하드웨어 장치(예: ROM, RAM, 또는 플래시 메모리 등)등을 포함할 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 다양한 실시 예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.Computer-readable recording media include hard disks, floppy disks, magnetic media (eg magnetic tape), optical media (eg CD-ROM, DVD (Digital Versatile Disc), magnetic- It may include optical media (e.g., a floptical disk), hardware devices (e.g., ROM, RAM, or flash memory, etc.), etc. In addition, the program instructions may include the same as generated by a compiler. It may include not only machine code but also high-level language code that can be executed by a computer using an interpreter, etc. The above-described hardware device may be configured to operate as one or more software modules to perform operations of various embodiments, The reverse is the same.

다양한 실시 예에 따른 프로세서 또는 프로세서에 의한 기능들은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.Processors or functions by processors according to various embodiments may include at least one or more of the aforementioned elements, some may be omitted, or additional elements may be further included. Operations performed by modules, program modules, or other components according to various embodiments may be executed in a sequential, parallel, repetitive, or heuristic manner. Also, some actions may be performed in a different order, omitted, or other actions may be added.

이상 설명한 바와 같이, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형의 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.As described above, the present invention is not limited to the specific preferred embodiments described above, and anyone having ordinary knowledge in the technical field to which the present invention pertains can do various things without departing from the gist of the present invention claimed in the claims. Of course, variations are possible, and such variations are within the scope of the claims.

1: 입력부 2: 출력부
4: 노이즈 제거 모듈 5: 음성 강조 모듈
1: input 2: output
4: noise cancellation module 5: voice enhancement module

Claims (5)

음성 입력 신호에 대하여 FFT 기능을 수행하여 주파수 영역의 음성 입력 신호를 생성하는 제 1 단계와;
주파수 영역의 음성 입력 신호를 입력값으로 하여, 제 1 기계 학습 모듈에 의해 노이즈 마스킹 스펙트럼을 출력값으로 생성하는 제 2 단계와;
주파수 영역의 음성 입력 신호와 노이즈 마스킹 스펙트럼의 어텐션 값을 입력값으로 하여, 제 2 기계 학습 모듈에 의해 음성 성분이 강조된 제 1 음성 강조 신호를 생성하는 제 3 단계를 포함하는 것을 특징으로 하는 음성 강화 방법.
a first step of generating a voice input signal in a frequency domain by performing an FFT function on the voice input signal;
a second step of generating a noise masking spectrum as an output value by a first machine learning module by using the voice input signal in the frequency domain as an input value;
A third step of generating a first speech enhanced signal in which speech components are enhanced by a second machine learning module using the speech input signal in the frequency domain and the attention value of the noise masking spectrum as input values. method.
제 1 항에 있어서,
음성 강화 방법은 제 1 음성 강조 신호와 노이즈 마스킹 스펙트럼의 노이즈 마스크를 곱셈 연산하여 노이즈를 제거하여 제 2 음성 강조 신호를 생성하는 제 4 단계와;
제 2 음성 강조 신호에 대하여 IFFT 기능을 수행하여 음성 출력 신호를 생성하는 제 5 단계를 포함하는 것을 특징으로 하는 음성 강화 방법.
According to claim 1,
The voice enhancement method includes a fourth step of generating a second voice enhancement signal by multiplying a first voice enhancement signal and a noise mask of a noise masking spectrum to remove noise;
and a fifth step of generating an audio output signal by performing an IFFT function on the second audio enhancement signal.
제 1 항에 있어서,
어텐션 값은 0 ~ 1.0 사이의 값인 것을 특징으로 하는 음성 강화 방법.
According to claim 1,
The voice reinforcement method, characterized in that the attention value is a value between 0 and 1.0.
음성 입력 신호를 프로세서에 인가하는 입력부와;
프로세서로부터 인가되는 주파수 영역의 음성 입력 신호를 입력값으로 입력 받아 노이즈 마스킹 스펙트럼을 출력값으로 출력하는 기계 학습 모듈인 노이즈 제거 모듈과;
프로세서로부터 인가되는 주파수 영역의 음성 입력 신호와, 노이즈 마스킹 스펙트럼의 어텐션 값을 입력값으로 입력 받아 제 1 음성 강조 신호를 출력값으로 생성하여 프로세서에 인가하는 기계 학습 모듈인 음성 강조 모듈과;
입력부로부터의 음성 입력 신호에 대하여 FFT 기능을 수행하여 주파수 영역의 음성 입력 신호를 노이즈 제어 모듈과 음성 강조 모듈에 인가하고, 노이즈 제어 모듈로부터 노이즈 마스킹 스펙트럼을 인가 받아 음성 강조 모듈에 인가하고, 음성 강조 모듈로부터의 제 1 음성 강조 신호를 수신하는 프로세서를 포함하여 구성된 것을 특징으로 하는 음성 강화 장치.
an input unit for applying a voice input signal to the processor;
a noise removal module that is a machine learning module that receives the voice input signal in the frequency domain applied from the processor as an input value and outputs a noise masking spectrum as an output value;
a voice enhancement module that is a machine learning module that receives a voice input signal of a frequency domain applied from the processor and an attention value of a noise masking spectrum as input values, generates a first voice enhancement signal as an output value, and applies the output value to the processor;
The FFT function is performed on the voice input signal from the input unit, and the voice input signal in the frequency domain is applied to the noise control module and the voice enhancement module, and the noise masking spectrum is received from the noise control module and applied to the voice enhancement module, and the voice enhancement A speech enhancement device comprising a processor to receive a first speech enhancement signal from the module.
제 4 항에 있어서,
프로세서는 제 1 음성 강조 신호와 노이즈 마스킹 스펙트럼의 노이즈 마스크를 곱셈 연산하여 제 2 음성 강조 신호를 생성하고, 생성된 제 2 음성 강조 신호에 대하여 IFFT를 수행하여 음성 출력 신호를 생성하는 것을 특징으로 하는 음성 강화 장치.
According to claim 4,
The processor multiplies the first voice enhancement signal with a noise mask of the noise masking spectrum to generate a second voice enhancement signal, and performs an IFFT on the generated second voice enhancement signal to generate a voice output signal. Characterized in that voice enhancer.
KR1020220017315A 2022-02-10 2022-02-10 Voice enhancing method KR20230120734A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220017315A KR20230120734A (en) 2022-02-10 2022-02-10 Voice enhancing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220017315A KR20230120734A (en) 2022-02-10 2022-02-10 Voice enhancing method

Publications (1)

Publication Number Publication Date
KR20230120734A true KR20230120734A (en) 2023-08-17

Family

ID=87800555

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220017315A KR20230120734A (en) 2022-02-10 2022-02-10 Voice enhancing method

Country Status (1)

Country Link
KR (1) KR20230120734A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392994A (en) * 2023-12-12 2024-01-12 腾讯科技(深圳)有限公司 Audio signal processing method, device, equipment and storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392994A (en) * 2023-12-12 2024-01-12 腾讯科技(深圳)有限公司 Audio signal processing method, device, equipment and storage medium
CN117392994B (en) * 2023-12-12 2024-03-01 腾讯科技(深圳)有限公司 Audio signal processing method, device, equipment and storage medium

Similar Documents

Publication Publication Date Title
US10511908B1 (en) Audio denoising and normalization using image transforming neural network
US7890321B2 (en) Noise reduction device, program and method
US10477031B2 (en) System and method for suppression of non-linear acoustic echoes
US7359838B2 (en) Method of processing a noisy sound signal and device for implementing said method
US8725506B2 (en) Speech audio processing
JP6636937B2 (en) Transient suppression depending on the situation
US20090214048A1 (en) Harmonic distortion residual echo suppression
CN101727910B (en) Noise suppression device and method
KR20160125984A (en) Systems and methods for speaker dictionary based speech modeling
KR20080019222A (en) Multi-sensory speech enhancement using a speech-state model
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
CN103632677A (en) Method and device for processing voice signal with noise, and server
US10762914B2 (en) Adaptive multichannel dereverberation for automatic speech recognition
JP5003419B2 (en) Sound processing apparatus and program
JP2022031196A (en) Noise removal method and device
JP2023536104A (en) Noise reduction using machine learning
KR20230120734A (en) Voice enhancing method
CN110062945B (en) Processing of audio input signals
CN117219102A (en) Low-complexity voice enhancement method based on auditory perception
US9491541B2 (en) Signal processing for eliminating speaker and enclosure buzz
KR102408689B1 (en) Musical noise eliminating device using neural network voice activity detection
KR102238429B1 (en) Sporadic noise detecting apparatus
US20130044890A1 (en) Information processing device, information processing method and program
KR20230121316A (en) Sound processing apparatus
KR20240055337A (en) Acoustic signal processing apparatus considering a plurality of acoustic environments