KR20220053498A - 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치 - Google Patents

기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치 Download PDF

Info

Publication number
KR20220053498A
KR20220053498A KR1020210141076A KR20210141076A KR20220053498A KR 20220053498 A KR20220053498 A KR 20220053498A KR 1020210141076 A KR1020210141076 A KR 1020210141076A KR 20210141076 A KR20210141076 A KR 20210141076A KR 20220053498 A KR20220053498 A KR 20220053498A
Authority
KR
South Korea
Prior art keywords
audio signal
loudness
machine learning
learning model
signal component
Prior art date
Application number
KR1020210141076A
Other languages
English (en)
Other versions
KR102718005B1 (ko
Inventor
전상배
박수철
Original Assignee
가우디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가우디오랩 주식회사 filed Critical 가우디오랩 주식회사
Publication of KR20220053498A publication Critical patent/KR20220053498A/ko
Application granted granted Critical
Publication of KR102718005B1 publication Critical patent/KR102718005B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

제1 오디오 신호 성분과 제2 오디오 신호 성분을 포함하는 오디오 신호를 처리하는 오디오 신호 처리 장치의 동작 방법이 개시된다. 동작 방법은 상기 오디오 신호를 수신하는 단계; 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계; 기계 학습 모델을 이용하여 상기 라우드니스가 평준화된 오디오 신호로부터 상기 제1 오디오 신호 성분을 획득하는 단계; 및 상기 미리 지정된 타겟 라우드니스를 기초로 상기 제1 오디오 신호 성분의 라우드니스를 역평준화하는 단계를 포함한다.

Description

기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치{AUDIO SIGNAL PROCESSING APPARATUS INCLUDING PLURALITY OF SIGNAL COMPONENT USING MACHINE LEARNING MODEL}
본 발명은 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 방법 및 장치에 관한 것이다.
최근 심층 신경망 네트워크 기술의 발달로 오디오 신호 처리 분야에서도 다양한 기계 학습 모델이 사용되고 있다. 오랜 시간 오디오 신호 처리 분야에서 음원 분리(source separation)는 인기 있는 주제였던 음원 분리 기술에도 기계 학습 모델이 적극적으로 도입되고 있다. 또한, 음원 분리 기술은 음원 스트리밍 서비스의 노래방 기능을 위한 가수의 목소리와 악기 연주를 분리하거나 비대면 회의 서비스에서 화자의 목소리와 주변 소음을 제거하는 등, 여러 가지 용도로 사용되고 있다. 이러한 이유로 다양한 기계 학습 모델을 이용한 음원 분리 기술이 시도되고 있다. 음원 분리 성능을 향상 시키기 위해서는 음원 분리 기계 학습 모델을 위한 오디오 신호의 전처리 방법, 음원 분리에 최적화된 기계 학습 모델이 필요하다.
본 발명의 일 실시예는 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 일 실시예에 따라 적어도 하나의 프로세스에서 동작하고, 제1 오디오 신호 성분과 제2 오디오 신호 성분을 포함하는 오디오 신호를 처리하는 오디오 신호 처리 장치의 동작방법은 상기 오디오 신호를 수신하는 단계; 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계; 기계 학습 모델을 이용하여 상기 라우드니스가 평준화된 오디오 신호로부터 상기 제1 오디오 신호 성분을 획득하는 단계; 및 상기 미리 지정된 타겟 라우드니스를 기초로 상기 제1 오디오 신호 성분의 라우드니스를 역평준화하는 단계를 포함한다.
상기 제1 오디오 신호 성분과 상기 제2 오디오 신호 성분 중 적어도 어느 하나는 음성에 해당하는 오디오 신호 성분일 수 있다.
상기 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계는 상기 오디오 신호가 포함하는 컨텐츠 단위로 라우드니스를 평준화하는 단계를 포함할 수 있다.
상기 기계 학습 모델은 라우드니스가 평준화된 오디오 신호를 주파수 영역에서 처리할 수 있다.
상기 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계는 상기 오디오 신호는 복수의 미리 지정된 시간 구간으로 구분되고, 상기 복수의 미리 지정된 시간 구간의 라우드니스 값은 복수의 레벨로 구분되고, 상기 복수의 레벨 별 라우드니스 값 분포를 사용하여 상기 오디오 신호의 라우드니스를 획득하는 단계와, 상기 오디오 신호의 라우드니스를 타겟 라우드니스로 평준화하는 단계를 포함할 수 있다.
상기 기계 학습 모델은 게이트 로직을 포함할 수 있다.
상기 기계 학습 모델을 이용하여 라우드니스가 평준화된 오디오 신호로부터 제1 오디오 신호 성분을 획득하는 단계는 상기 기계 학습 모델로부터 획득된 주파수 빈별 스코어를 미리 지정된 문턱값을 기준으로 분류하는 단계를 포함할 수 있다. 상기 스코어는 상기 제1 오디오 신호 성분에 얼마나 가까운지를 나타내는 점수일 수 있다.
본 발명의 실시 예에 따라 적어도 하나의 프로세스에서 동작하고, 서로 다른 소스로부터 획득된 제1 오디오 신호 성분과 제2 오디오 신호 성분을 포함하는 오디오 신호로부터 제1 오디오 신호 성분을 분류하는 기계 학습 모델의 학습 방법은 상기 오디오 신호를 수신하는 단계; 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계; 기계 학습 모델을 이용하여 라우드니스가 평준화된 오디오 신호로부터 제1 오디오 신호 성분을 획득하는 단계; 및 상기 미리 지정된 타겟 라우드니스를 기초로 제1 오디오 신호 성분의 라우드니스를 복원하는 단계를 포함한다.
상기 제1 오디오 신호 성분과 상기 제2 오디오 신호 성분 중 적어도 어느 하나는 음성에 해당하는 오디오 신호 성분일 수 있다.
상기 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계는 상기 오디오 신호가 포함하는 컨텐츠 단위로 라우드니스를 평준화하는 단계를 포함할 수 있다.
상기 기계 학습 모델은 라우드니스가 평준화된 오디오 신호를 주파수 영역에서 처리할 수 있다.
상기 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계는 상기 오디오 신호는 복수의 미리 지정된 시간 구간으로 구분되고, 상기 복수의 미리 지정된 시간 구간의 라우드니스 값은 복수의 레벨로 구분되고, 상기 복수의 레벨 별 라우드니스 값 분포를 사용하여 상기 오디오 신호의 라우드니스를 획득하는 단계와, 상기 오디오 신호의 라우드니스를 타겟 라우드니스로 평준화하는 단계를 포함할 수 있다.
상기 기계 학습 모델은 게이트 로직을 포함할 수 있다.
상기 기계 학습 모델을 이용하여 라우드니스가 평준화된 오디오 신호로부터 제1 오디오 신호 성분을 획득하는 단계는 상기 기계 학습 모델로부터 획득된 주파수 빈별 스코어를 미리 지정된 문턱값을 기준으로 분류하는 단계를 포함할 수 있다. 상기 스코어는 상기 제1 오디오 신호 성분에 얼마나 가까운지를 나타내는 점수일 수 있다.
본 발명의 실시 예에 따라 제1 오디오 신호 성분과 제2 오디오 신호 성분을 포함하는 오디오 신호를 처리하는 오디오 신호 처리 장치는 적어도 하나의 프로세서를 포함한다. 상기 적어도 하나의 프로세서는 상기 오디오 신호를 수신하고, 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하고, 기계 학습 모델을 이용하여 상기 라우드니스가 평준화된 오디오 신호로부터 상기 제1 오디오 신호 성분을 획득하고, 상기 미리 지정된 타겟 라우드니스를 기초로 상기 제1 오디오 신호 성분의 라우드니스를 역평준화할 수 있다.
본 발명의 일 실시예에 따른 장치 및 방법은 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 방법 및 장치를 제공할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치가 오디오 신호를 처리하는 과정을 나타내는 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치가 주파수 도메인에서 오디오 신호를 처리하는 과정을 나타내는 블록도이다.
도 3는 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치가 사용하는 기계학습 모델을 보여준다.
도 4는 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치가 사용하는 마스크 워핑 함수를 보여준다.
도 5는 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치가 사용하는 기계학습 모델에 포함되는 게이트 CBHG를 보여준다.
도 6은 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치와 다른 오디오 신호 처리 장치의 성능 평가 결과를 보여준다.
도 7은 본 발명의 일 실시 예에 따른 오디오 신호 처리 동작을 보여준다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 발명의 실시 예에 따른 오디오 신호 처리 장치는 적어도 하나의 프로세서를 포함한다. 본 발명에서 설명하는 오디오 신호 처리의 동작은 오디오 신호 처리 장치가 포함하는 프로세서에서 동작하는 인스터럭션 셋의 동작일 수 있다.
하나의 컨텐츠 내에는 다양한 소스의 오디오 신호 성분이 포함되고, 컨텐츠 내에서 각 오디오 신호 성분의 인지적 크기인 라우드니스는 다양하게 변화한다. 예컨대, 하나의 곡 내에서 각 소스의 오디오 신호 성분은 음악적 표현을 위해 피아니시모부터 포르티시모까지 연주 또는 발성된다. 이때, 음원 분리를 수행하는 기계 학습 모델이 오디오 신호 성분의 특성을 일반화하여 판단하기 어려울 수 있다. 따라서 음원 분리 전에 오디오 신호의 라우드니스 크기를 평준화할 수 있다. 라우드니스 평준화를 통해 기계 학습 모델은 각 오디오 신호 성분의 특성을 조금 더 정확하게 인식할 수 있다. 따라서 오디오 신호의 라우드니스 크기를 평준화가 수행되는 경우, 음원 분리 성능 향상이 기대될 수 있다. 또한, 컨텐츠의 믹싱이 신호의 물리적인 크기가 아닌 청각 특성을 기초로 수행되므로, 오디오 신호의 물리적인 크기가 아니라 라우드니스를 평준화하여야 다양한 오디오 신호 성분 사이의 비율이 입력 오디오 신호와 유사하게 유지될 수 있다. 따라서 오디오 신호의 물리적인 크기가 아니라 라우드니스를 평준화하는 것이 음원 분리 성능 향상에 더 효율적일 수 있다. 오디오 신호 처리장치는 오디오 신호의 라우드니스를 타겟 라우드니스로 평준화하고, 라우드니스가 평준화된 오디오 신호에 음원 분리를 위한 기계학습 모델을 적용할 수 있다. 이에 대해서는 도 1을 통해 설명한다. 본 명세서에서 라우드니스는 청각을 통해 인지되는 음향의 크기를 나타낼 수 있다. 라우드니스 레벨은 라우드니스를 나타내는 수치일 수 있다. 예를 들어, 라우드니스 레벨은 LKFS(Loudness K-Weighted relative to Full Scale) 또는 LUFS(Loudness Unit relative to Full Scale)와 같은 단위를 사용하여 표시될 수 있다. 또한, 라우드니스 레벨은 sone 또는 phon과 같은 단위를 사용하여 표시될 수도 있다. 또한, 라우드니스 레벨은 사람의 청각 특성을 반영하는 인지모델 필터링 된 신호의 크기를 활용한 수치로 표현될 수도 있다. 이때, 인지모델 필터링은 A/B/C/D-weighting 중 적어도 어느 하나를 포함할 수 있다.
도 1 내지 도 2는 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치가 오디오 신호를 처리하는 과정을 나타내는 블록도이다.
오디오 신호 처리 장치는 라우드니스 평준화부(1000), 기계 학습 모델(2000) 및 라우드니스 역평준화부(3000)를 포함할 수 있다.
라우드니스 평준화부(1000)는 입력 오디오 신호(m(n))의 라우드니스를 타겟 라우드니스로 평준화한 후, 라우드니스 평준화부(1000)는 라우드니스가 평준화된 오디오 신호(mLN(n))를 기계 학습 모델에 입력한다. 기계 학습 모델(2000)은 라우드니스가 평준화된 오디오 신호로부터 라우드니스가 평준화된 제1 신호 성분(S^LN(n))을 출력한다. 라우드니스 역평준화부(3000)는 라우드니스가 평준화된 제1 신호 성분(S^LN(n))을 타겟 라우드니스를 기초로 역평준화하여 제1 신호 성분(S^LN(n))을 획득할 수 있다. 구체적으로 라우드니스 역평준화부(3000)는 타겟 라우드니스와 입력 오디오 신호를 기초로 라우드니스 역평준화에 사용되는 게인(gLN)을 획득할 수 있다. 구체적으로 역평준화는 다음의 수식에 의해 획득될 수 있다.
gLN = 10(L T -L I )/20
gLN은 라우드니스 역평준화에 사용되는 게인을 나타내고, LT는 타겟 라우드니스를 나타내고, LI는 입력 오디오 신호의 인터그레이티드(integrated) 라우드니스를 나타낸다.
라우드니스 역평준화부(3000)는 획득한 게인을 사용하여 기계 학습 모델(2000)이 출력한 라우드니스가 평준화된 제1 신호 성분(S^LN(n))을 역평준화하여 제1 신호 성분(S^ LN (n))을 획득할 수 있다.
또한, 라우드니스 역평준화부(3000)는 라우드니스 평준화에 사용한 라우드니스 분포 정보를 사용하여 오디오 신호의 라우드니스를 역평준화할 수 있다.
앞서 설명한 동작에서 타겟 라우드니스는 입력 오디오 신호(m(n))의 컨텐츠에 따라 결정될 수 있다. 이는 컨텐츠 별로 음원 분리의 대상인 오디오 신호 성분과 나머지 신호 성분의 비율이 달라질 수 있기 때문이다. 오디오 신호 처리 장치가 분리의 대상인 오디오 신호 성분의 라우드니스로 입력 오디오 신호의 라우드니스를 평준화할 때, 음원 분리 성능을 높일 수 있다. 다만, 오디오 신호 처리 장치가 분리의 대상인 오디오 신호 성분의 라우드니스를 판단할 수 없으므로 오디오 신호 처리 장치는 입력 오디오 신호에서 분리 대상인 오디오 신호 성분의 비율을 예측하고, 예측된 비율을 기초로 타겟 라우드니스를 결정할 수 있다. 이때, 예측된 비율은 컨텐츠 특성 별로 미리 지정된 값일 수 있다. 예컨대, 입력 오디오 신호(m(n))의 컨텐츠가 영화일 때 적용되는 타겟 라우드니스의 크기가 입력 오디오 신호(m(n))의 컨텐츠가 음악일 때 적용되는 타겟 라우드니스의 크기보다 작을 수 있다. 또한, 입력 오디오 신호(m(n))의 컨텐츠가 록 음악일 때 적용되는 타겟 라우드니스의 크기가 입력 오디오 신호(m(n))의 컨텐츠가 클래식 음악일 때 적용되는 타겟 라우드니스의 크기보다 클 수 있다. 또 다른 구체적인 실시 예에서 타겟 라우드니스는 입력 오디오 신호의 평균 라우드니스일 수 있다. 구체적으로 타겟 라우드니스는 입력 오디오 신호의 평균 라우드니스일 수 있다.
또한, 라우드니스 평준화부(1000)는 입력 오디오 신호를 입력 오디오 신호가 포함하는 컨텐츠 단위로 라우드니스의 크기를 평준화할 수 있다. 예컨대, 입력 오디오 신호가 음악을 포함하는 경우, 라우드니스 평준화부(1000)는 입력 오디오 신호를 곡 단위로 라우드니스의 크기를 평준화할 수 있다. 이는 오디오 믹싱 작업 시 컨텐츠 단위로 라우드니스가 되고, 특정 컨텐츠의 경우 각 지역의 규정에 따라 라우드니스가 유지되기 때문이다. 예컨대, TV 방송의 경우 -23~-25 LKFS를 유지하는 것이 규정되어 있다.
또한, 라우드니스 평준화부(1000)는 입력 오디오 신호의 시간 구간 별 라우드니스를 기초로 입력 오디오 신호의 라우드니스를 평준화할 수 있다. 구체적인 실시 예에서 라우드니스 평준화부(1000)는 해당 시간 구간의 통합 (integrated) 라우드니스에 미리 지정된 크기를 더한 타겟 라우드니스로 결정할 수 있다. 이러한 실시 예들에서 입력 오디오 신호는 실시간으로 생성되는 오디오 신호일 수 있다. 예컨대, 입력 오디오 신호는 화상 통화를 위한 오디오 신호, 생방송 스트리밍일 수 있다. 실시간으로 생성되는 오디오 신호에서 각 오디오 신호 성분의 라우드니스가 균일하게 유지되지 않을 수 있기 때문이다.또한, 입력 오디오 신호가 음성을 포함하는 경우, 라우드니스 평준화부(1000)는 화자 별로 입력 오디오 신호 구간을 구분하고, 화자 별로 구분된 오디오 신호 구간 별로 라우드니스를 평준화할 수 있다. 예컨대, A라는 화자가 이야기하는 X 구간과 B라는 화자가 이야기하는 Y 구간이 있을 때, 라우드니스 평준화부(1000)는 X 구간과 Y구간의 라우드니스를 독립적으로 평준화할 수 있다.
또한, 라우드니스 평준화부(1000)는 라우드니스 히스토그램을 사용하여 입력 오디오 신호(m(n))의 라우드니스를 평준화할 수 있다. 이때, 라우드니스 히스토그램에서 입력 오디오 신호(m(n))는 복수의 미리 지정된 시간 구간으로 구분되고, 복수의 미리 지정된 시간 구간의 라우드니스 값은 복수의 레벨로 구분된다. 라우드니스 히스토그램은 복수의 레벨 별 라우드니스 값 분포를 나타낸다.
또한, 입력 오디오 신호(m(n))는 음성에 해당하는 신호 성분을 포함할 수 있다. 이때, 기계 학습 모델(2000)은 라우드니스가 평준화된 오디오 신호(mLN(n))로부터 음성에 해당하는 신호 성분을 획득할 수 있다. 예컨대, 기계 학습 모델(2000)은 음성에 해당하는 신호 성분과 주변 소리에 해당하는 신호 성분을 포함하는 오디오 신호로부터 음성에 해당하는 신호 성분을 출력할 수 있다. 또 다른 구체적인 실시 예에서 기계 학습 모델(2000)은 가수의 노래에 해당하는 신호 성분과 악기 연주에 해당하는 신호 성분을 포함하는 오디오 신호로부터 악기 연주에 해당하는 신호 성분을 출력할 수 있다.
또한, 기계 학습 모델(2000)은 라우드니스가 평준화된 오디오 신호(mLN(n))를 주파수 영역에서 처리할 수 있다. 이를 위해 오디오 신호 처리 장치는 라우드니스가 평준화된 오디오 신호(mLN(n))에 퓨리에 변환(fourier transform)을 적용하고, 획득한 라우드니스가 평준화된 오디오 신호(mLN(n))에 역퓨리에 변환(inverse fourier transform)을 적용할 수 있다. 이때, 퓨리에 변환과 역퓨리에 변환 각각은 단시간 퓨리에 변환(short time fourier transform)과 단시간 역퓨리에 변환(short time inverse fourier transform)일 수 있다.
기계 학습 모델(2000)은 음원 분리를 위해 최적화될 수 있다. 이에 대해서는 도 3을 통해 설명한다.
도 3는 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치가 사용하는 기계학습 모델을 보여준다.
본 발명의 실시 예에 따른 오디오 신호 처리 장치의 기계 학습 모델은 게이트 로직을 포함할 수 있다. 게이트 로직(logic)은 오디오 신호의 활성화(activation) 감지 및 특성 추출에 적합하기 때문이다. 구체적으로 기계 학습 모델은 게이트 로직을 포함하는 LSTM(long short term memory) 기반 기계 학습 모델일 수 있다. 또 다른 구체적인 실시 예에서 기계 학습 모델은 GRU(gated recurrent unit) 기반 기계 학습 모델일 수 있다. 이는 오디오 신호의 특성은 일정 시간 구간 이상에서 드러나기 때문이다. 구체적으로 기계 학습 모델은 게이트 CBHG(convolutional 1-D filters, bank, highway networks, gated recurrent unit bidirectional)일 수 있다.
기계 학습 모델(2000)은 16KHz 크롭핑, 입력 스케일러, 3개의 선형 계층 블록, CBHG 및 출력 스케일러를 포함할 수 있다.
또한, 기계 학습 모델(2000)은 기계 학습 모델 내에서 획득한 주파수 빈(bin) 별 스코어를 미리 지정된 문턱값을 기준으로 분류할 수 있다. 구체적으로 기계 학습 모델(2000)은 입력신호의 주파수 빈 별 마스크 값을 계산할 수 있다. 마스크 값은 주파수 빈별로 산출된다. 또한, 마스크 값은 입력 신호에서 분리하려는 오디오 성분에 대한 비율의 예측값이다. 마스크 값은 0~1 사이의 소프트 디시전(Soft-Decision) 값을 가질 수 있다. 예를 들어 특정 시점의 특정 주파수 빈에 대한 마스크 값이 1인 경우, 마스크 값은 해당 주파수 빈의 신호는 분리하려는 오디오 신호 성분과 동일함을 나타낼 수 있다. 특정 시점의 특정 주파수 빈에 대한 마스크 값이 0인 경우, 마스크 값은 해당 주파수 빈의 신호는 분리하려는 오디오 신호 성분을 포함하지 않음을 나타낼 수 있다. 기계 학습 모델(2000)로 산출된 주파수 빈 별 마스크 값을 주파수 빈 별 입력 신호에 곱하여 분리하려는 오디오 신호 성분을 분리한다. 특정 시점의 특정 주파수 빈에 대한 마스크 값이 0.5인 경우, 마스크 값은 해당 주파수 빈에 분리하려는 오디오 신호 성분과 나머지 오디오 신호 성분이 1:1로 혼재함을 나타낼 수 있다. 이와 같이 분리하려는 오디오 신호 성분과 나머지 오디오 신호 성분이 비등하게 혼재하는 경우, 분리한 오디오 신호 성분에 간섭(interference)가 존재할 수 있다. 구체적으로 기계 학습 모델(2000)은 스코어 사이의 간격을 조정할 수 있다. 구체적으로 도 4에 도시된 것과 같은 마스크 워핑을 적용할 수 있다. 예컨대, 기계 학습 모델(2000)은 주파수 빈(bin) 별 스코어에 지수 함수 형태의 마스크 워핑을 적용할 수 있다. 이때, 지수 함수는 다음의 수학식과 같을 수 있다.
f(x) = xn
이때, n은 마스크 워핑의 강도를 기초로 결정될 수 있다. 이러한 실시 예들을 통해 기계 학습 모델(2000)은 분리된 오디오 신호의 간섭을 줄일 수 있다.
또한, 앞서 설명한 게이트 CHBG는 도 5와 같은 형태를 가질 수 있다.
앞서 설명한 도 3의 기계 학습 모델과 도 5의 게이트 CHBG가 적용된 경우 효과에 대해서는 도 6을 통해 설명한다.
도 6은 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치와 다른 오디오 신호 처리 장치의 성능 평가 결과를 보여준다.
기존 음원 분리 방법으로 스플리터(SPLEETER, Romain Hennequin, Anis Khlif, Felix Voituret, Manuel Moussallam, "Spleeter: A fast and state-of-the-art music source separation tool with pre-trained models," 20th International Society for Music Information Retrieval Conference, Delft, Netherlands, 2019), 오픈 언믹스(OPEN UNMIX, Fabian-Robert Stㆆter, Stefan Uhlich, Antoine Liutkus, and Yuki Mitsufuji, "Open-unmix-a reference implementation for music source separation," Journal of Open Source Software, 2019), 디먹스(DEMUCS, Alexandre Dㅹfossez, Nicolas Usunier, Lㅹon Bottou, Francis Bach, "Demucs: Deep Extractor for Music Sources with extra unlabeled data remixed," 2019)가 광범위하게 사용되었다. 도 1을 통해 설명한 라우드니스 평준화 도 2 내지 도 5를 통해 설명한 기계 학습 모델을 적용한 오디오 신호 처리 방법을 GSEP이라 지칭한다. GSEP의 성능을 평가하기 위해서는 기존 음원 분리 방법들과 비교가 필요하다.
성능 평가를 위해 GSEP은 MUSDB818과 3000개의 음악 및 스피치 데이터시트로 학습되었다. 기계 학습 모델의 학습에 사용되는 개별 오디오 세그멘트(segment) 다음과 같이 생성되었다. 무작위로 하나의 목소리 음원이 선택되고, 선택된 음원의 라우드니스는 0 LUFS로 조정된다. 무작위로 세 개의 비음성 음원이 선택되고, 선택된 3개의 음원의 라우드니스는 -12 LUFS에서 12 LUFS 사이의 무작위 값으로 조정된다. 생성된 4개의 음원을 믹싱하여 기계 학습 모델의 학습에 사용되는 개별 오디오 세그멘트를 생성하였다.
또한, 성능 평가에서 표 1의 음원을 사용하여 음성을 제외한 나머지 신호 성분을 추출하는 것에 대한 평가가 수행되었다. 또한, 성능 평가에서 표 2의 음원을 사용하여 영화와 TV 쇼에서 대화만을 추출하는 것에 대한 평가가 수행되었다.
[표 1]
Figure pat00001
[표 2]
Figure pat00002
도 6에서 보이는 것과 같이 GSEP의 음원 분리 성능에 대한 주관적 평가가 기존 음원 분리 방법이 사용되는 경우보다 높은 평가를 받았다. 또한, 객곽적인 성능 평가에서도 표3과 같은 결과가 나와 GSEP의 성능이 기존 음원 분리 방법보다 뛰어난 것으로 평가되었다.
[표 3]
Figure pat00003
또한, 연산 효율 평가에서도 표 4에서과 같이 GSEP이 평가 대상인 음원 분리 방법 중 가장 효율적인 것으로 평가되었다.
[표 4]
Figure pat00004
도 7은 본 발명의 일 실시 예에 따른 오디오 신호 처리 동작을 보여준다.
오디오 신호 처리 장치는 제1 오디오 신호 성분과 제2 오디오 신호 성분을 포함하는 오디오 신호를 수신한다(S710). 이때, 제1 오디오 신호 성분과 제2 오디오 신호 성분 중 적어도 어느 하나는 음성에 해당하는 오디오 신호 성분일 수 있다. 또한, 다른 하나는 음성에 해당하지 않는 오디오 신호 성분일 수 있다.
오디오 신호 처리 장치는 미리 지정된 타겟 라우드니스를 기초로 오디오 신호의 라우드니스를 평준화한다(S730). 구체적으로 오디오 신호 처리 장치는 오디오 신호의 라우드니스를 미리 지정된 타겟 라우드니스로 평준화할 수 있다. 이때, 오디오 신호 처리 장치는 라우드니스의 크기에 따라 구분된 복수의 단계마다 오디오 신호 중 각 단계에 해당하는 오디오 신호의 양과 오디오 신호 전체의 양 사이의 비율을 나타내는 라우드니스 분포 정보를 사용하여 오디오 신호의 라우드니스를 평준화할 수 있다. 또한, 오디오 신호 처리 장치는 오디오 신호가 포함하는 컨텐츠 단위로 라우드니스를 평준화할 수 있다. 오디오 신호 처리 장치는 도 1을 통해 설명한 실시 예들에 따라 오디오 신호의 라우드니스를 평준화할 수 있다.
오디오 신호 처리 장치는 기계 학습 모델을 이용하여 라우드니스가 평준화된 오디오 신호로부터 제1 오디오 신호 성분을 획득한다(S750). 이때, 기계 학습 모델은 라우드니스가 평준화된 오디오 신호를 주파수 영역에서 처리할 수 있다. 또한, 기계 학습 모델은 게이트 로직을 포함할 수 있다. 구체적으로 기계 학습 모델은 게이트 로직을 포함하는 LSTM(long short term memory) 기반 기계 학습 모델일 수 있다. 또 다른 구체적인 실시 예에서 기계 학습 모델은 GRU(gated recurrent unit) 기반 기계 학습 모델일 수 있다. 구체적으로 기계 학습 모델은 도 2 내지 도 5를 통해 설명한 기계 학습 모델에 관한 실시 예를 따라 동작할 수 있다.
또한, 오디오 신호 처리 장치는 기계 학습 모델 내에서 획득한 주파수 빈(bin) 별 스코어를 미리 지정된 문턱값을 기준으로 분류할 수 있다. 이때, 스코어는 제1 오디오 신호 성분에 얼마나 가까운지를 나타낼 수 있다. 오디오 신호 처리 장치는 스코어의 분포를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 스코어 사이의 간격을 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 주파수 빈 별 스코어에 도 5를 통해 설명한 마스크 워핑을 적용할 수 있다.
오디오 신호 처리 장치는 미리 지정된 타겟 라우드니스를 기초로 제1 오디오 신호 성분의 라우드니스를 역평준화한다(S770). 구체적으로 오디오 신호 처리 장치는 오디오 신호의 라우드니스를 미리 지정된 타겟 라우드니스를 기초로 역평준화할 수 있다. 구체적으로 오디오 신호 처리 장치는 타겟 라우드니스와 입력 오디오 신호를 기초로 라우드니스 역평준화에 사용되는 게인을 획득할 수 있다. 또한, 오디오 신호 처리 장치는 라우드니스 평준화에 사용한 라우드니스 분포 정보를 사용하여 오디오 신호의 라우드니스를 역평준화할 수 있다. 오디오 신호 처리 장치는 도 1을 통해 설명한 실시 예들에 따라 오디오 신호의 라우드니스를 역평준화할 수 있다.
오디오 신호 처리의 이러한 동작은 오디오 신호를 처리할 때뿐만 아니라 기계 학습 모델을 학습시킬 때에도 동일하게 적용될 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다.
이상에서는 본 개시를 구체적인 실시예를 통하여 설명하였으나, 본 개시가 속하는 기술분야의 통상의 지식을 가진 당업자라면 본 개시의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 개시는 오디오 신호에 대한 라우드니스 레벨 보정의 실시예에 대하여 설명하였지만, 본 개시는 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 개시의 상세한 설명 및 실시예로부터 본 개시가 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 개시의 권리범위에 속하는 것으로 해석된다.

Claims (15)

  1. 적어도 하나의 프로세스에서 동작하고, 제1 오디오 신호 성분과 제2 오디오 신호 성분을 포함하는 오디오 신호를 처리하는 오디오 신호 처리 장치의 동작방법에서,
    상기 오디오 신호를 수신하는 단계;
    미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계;
    기계 학습 모델을 이용하여 상기 라우드니스가 평준화된 오디오 신호로부터 상기 제1 오디오 신호 성분을 획득하는 단계; 및
    상기 미리 지정된 타겟 라우드니스를 기초로 상기 제1 오디오 신호 성분의 라우드니스를 역평준화하는 단계를 포함하는
    동작 방법.
  2. 제1항에서,
    상기 제1 오디오 신호 성분과 상기 제2 오디오 신호 성분 중 적어도 어느 하나는 음성에 해당하는 오디오 신호 성분인
    동작 방법.
  3. 제1항에서,
    상기 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계는
    상기 오디오 신호가 포함하는 컨텐츠 단위로 라우드니스를 평준화하는 단계를 포함하는
    동작 방법.
  4. 제1항에서,
    상기 기계 학습 모델은 라우드니스가 평준화된 오디오 신호를 주파수 영역에서 처리하는
    동작 방법.
  5. 제1항에서,
    상기 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계는
    상기 오디오 신호는 복수의 미리 지정된 시간 구간으로 구분되고, 상기 복수의 미리 지정된 시간 구간의 라우드니스 값은 복수의 레벨로 구분되고, 상기 복수의 레벨 별 라우드니스 값 분포를 사용하여 상기 오디오 신호의 라우드니스를 획득하는 단계와, 상기 오디오 신호의 라우드니스를 타겟 라우드니스로 평준화하는 단계를 포함하는
    동작 방법.
  6. 제1항에서,
    상기 기계 학습 모델은 게이트 로직을 포함하는
    동작 방법.
  7. 제1항에서,
    상기 기계 학습 모델을 이용하여 라우드니스가 평준화된 오디오 신호로부터 제1 오디오 신호 성분을 획득하는 단계는
    상기 기계 학습 모델로부터 획득된 주파수 빈별 스코어를 미리 지정된 문턱값을 기준으로 분류하는 단계를 포함하고,
    상기 스코어는 상기 제1 오디오 신호 성분에 얼마나 가까운지를 나타내는 점수인
    동작 방법.
  8. 적어도 하나의 프로세스에서 동작하고, 서로 다른 소스로부터 획득된 제1 오디오 신호 성분과 제2 오디오 신호 성분을 포함하는 오디오 신호로부터 제1 오디오 신호 성분을 분류하는 기계 학습 모델의 학습 방법은
    상기 오디오 신호를 수신하는 단계;
    미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계;
    기계 학습 모델을 이용하여 라우드니스가 평준화된 오디오 신호로부터 제1 오디오 신호 성분을 획득하는 단계; 및
    상기 미리 지정된 타겟 라우드니스를 기초로 제1 오디오 신호 성분의 라우드니스를 복원하는 단계를 포함하는
    학습 방법.
  9. 제8항에서,
    상기 제1 오디오 신호 성분과 상기 제2 오디오 신호 성분 중 적어도 어느 하나는 음성에 해당하는 오디오 신호 성분인
    학습 방법.
  10. 제8항에서,
    상기 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계는
    상기 오디오 신호가 포함하는 컨텐츠 단위로 라우드니스를 평준화하는 단계를 포함하는
    학습 방법.
  11. 제8항에서,
    상기 기계 학습 모델은 라우드니스가 평준화된 오디오 신호를 주파수 영역에서 처리하는
    학습 방법.
  12. 제8항에서,
    상기 미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하는 단계는
    상기 오디오 신호는 복수의 미리 지정된 시간 구간으로 구분되고, 상기 복수의 미리 지정된 시간 구간의 라우드니스 값은 복수의 레벨로 구분되고, 상기 복수의 레벨 별 라우드니스 값 분포를 사용하여 상기 오디오 신호의 라우드니스를 획득하는 단계와, 상기 오디오 신호의 라우드니스를 타겟 라우드니스로 평준화하는 단계를 포함하는
    학습 방법.
  13. 제8항에서,
    상기 기계 학습 모델은 게이트 로직을 포함하는
    학습 방법.
  14. 제8항에서,
    상기 기계 학습 모델을 이용하여 라우드니스가 평준화된 오디오 신호로부터 제1 오디오 신호 성분을 획득하는 단계는
    상기 기계 학습 모델로부터 획득된 주파수 빈별 스코어를 미리 지정된 문턱값을 기준으로 분류하는 단계를 포함하고,
    상기 스코어는 상기 제1 오디오 신호 성분에 얼마나 가까운지를 나타내는 점수인
    학습 방법.
  15. 제1 오디오 신호 성분과 제2 오디오 신호 성분을 포함하는 오디오 신호를 처리하는 오디오 신호 처리 장치는
    적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는
    상기 오디오 신호를 수신하고,
    미리 지정된 타겟 라우드니스를 기초로 상기 오디오 신호의 라우드니스를 평준화하고,
    기계 학습 모델을 이용하여 상기 라우드니스가 평준화된 오디오 신호로부터 상기 제1 오디오 신호 성분을 획득하고,
    상기 미리 지정된 타겟 라우드니스를 기초로 상기 제1 오디오 신호 성분의 라우드니스를 역평준화하는
    동작 방법.
KR1020210141076A 2020-10-22 2021-10-21 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치 KR102718005B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20200137269 2020-10-22
KR1020200137269 2020-10-22
US202063118979P 2020-11-30 2020-11-30
US63/118,979 2020-11-30

Publications (2)

Publication Number Publication Date
KR20220053498A true KR20220053498A (ko) 2022-04-29
KR102718005B1 KR102718005B1 (ko) 2024-10-16

Family

ID=

Also Published As

Publication number Publication date
US11714596B2 (en) 2023-08-01
JP2023546700A (ja) 2023-11-07
WO2022086196A1 (ko) 2022-04-28
US20220129237A1 (en) 2022-04-28
JP7505830B2 (ja) 2024-06-25

Similar Documents

Publication Publication Date Title
JP7566835B2 (ja) ボリューム平準化器コントローラおよび制御方法
CN110709924B (zh) 视听语音分离
Shiota et al. Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification
EP2979359B1 (en) Equalizer controller and controlling method
EP3598448B2 (en) Apparatuses and methods for audio classifying and processing
JP4797342B2 (ja) オーディオデータを自動的に認識する方法及び装置
CN102394062A (zh) 一种自动录音设备源识别的方法和系统
US20210118464A1 (en) Method and apparatus for emotion recognition from speech
JP7505830B2 (ja) 機械学習モデルを用いて複数の信号成分を含むオーディオ信号処理装置
US12073844B2 (en) Audio-visual hearing aid
KR102718005B1 (ko) 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치
JP2020134887A (ja) 音信号処理プログラム、音信号処理方法及び音信号処理装置
Uhle et al. Speech enhancement of movie sound
JP2023539121A (ja) オーディオコンテンツの識別
CN113380244A (zh) 一种设备播放音量的智能调节方法和系统
Bae et al. A neural text-to-speech model utilizing broadcast data mixed with background music
KR102365220B1 (ko) 음성 정보를 기반으로 감정 정보를 결정하는 방법 및 이러한 방법을 수행하는 장치
CN116631406B (zh) 基于声学特征生成的身份特征提取方法、设备及存储介质
Patil et al. Dynamic database creation for speaker recognition system
Babu et al. Speech Emotion Recognition Methods
EP4278350A1 (en) Detection and enhancement of speech in binaural recordings
CN111768801A (zh) 气流杂音消除方法、装置、计算机设备及存储介质
CN116745844A (zh) 双耳录音中语音的检测和增强
CN118351880A (zh) 录制视频的安全性分析方法和装置
Kuhnapfel et al. Deakin Research Online

Legal Events

Date Code Title Description
E902 Notification of reason for refusal