KR20210110622A - 음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법 - Google Patents

음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법 Download PDF

Info

Publication number
KR20210110622A
KR20210110622A KR1020217023148A KR20217023148A KR20210110622A KR 20210110622 A KR20210110622 A KR 20210110622A KR 1020217023148 A KR1020217023148 A KR 1020217023148A KR 20217023148 A KR20217023148 A KR 20217023148A KR 20210110622 A KR20210110622 A KR 20210110622A
Authority
KR
South Korea
Prior art keywords
signal
audio
estimated
values
residual
Prior art date
Application number
KR1020217023148A
Other languages
English (en)
Other versions
KR102630449B1 (ko
Inventor
크리스티안 울레
마테오 토르콜리
사샤 디쉬
유니 파울루스
유르겐 헤르레
올리버 헬무트
하할드 푹스
Original Assignee
프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 filed Critical 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Publication of KR20210110622A publication Critical patent/KR20210110622A/ko
Application granted granted Critical
Publication of KR102630449B1 publication Critical patent/KR102630449B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

오디오 입력 신호로부터 분리된 오디오 신호를 생성하는 장치가 제공된다. 상기 오디오 입력 신호는 타깃 오디오 신호 부분과 잔차 오디오 신호 부분을 포함한다. 상기 잔차 오디오 신호 부분은 상기 오디오 입력 신호와 상기 타깃 오디오 신호 부분 사이의 잔차를 나타낸다. 상기 장치는 소스 분리기(110), 결정 모듈(120), 및 신호 프로세서(130)를 포함한다. 상기 소스 분리기(110)는 상기 오디오 입력 신호에 의존하는 추정 타깃 신호를 결정하도록 구성되며, 상기 추정 타깃 신호는 상기 타깃 오디오 신호 부분만을 포함하는 신호의 추정이다. 상기 결정 모듈(120)은 하나 이상의 파라미터 값을 획득하기 위하여 상기 추정 타깃 신호의 추정 음질을 기초로 하나 이상의 결과 값을 결정하도록 구성된다. 여기서, 상기 하나 이상의 파라미터 값은 상기 하나 이상의 결과 값이거나 또는 상기 하나 이상의 결과 값에 기초한다. 상기 신호 프로세서(130)는 상기 하나 이상의 파라미터 값에 기초하고, 또한 상기 추정 타깃 신호와 상기 오디오 입력 신호와 추정 잔차 신호 중 적어도 하나에 기초하여 상기 분리된 오디오 신호를 생성하도록 구성된다. 상기 추정 잔차 신호는 상기 잔차 오디오 신호 부분만을 포함하는 신호의 추정이다.

Description

음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법
본 발명은 오디오 신호의 소스 분리, 특히 분리된 출력 신호의 음질의 신호 적응적 제어, 및 특히, 음질의 추정과 제어를 이용한 소스 분리 장치 및 방법에 관한 것이다.
소스 분리에서, 출력 신호의 품질이 저하되며 이러한 저하는 간섭 신호의 감쇠와 함께 단조롭게 증가한다.
과거에 오디오 신호의 소스 분리가 수행된 바 있다.
오디오 신호의 소스 분리는 혼합 신호
Figure pct00001
이 주어졌을 때 타깃 신호
Figure pct00002
를 얻는 것을 목표로 한다.
Figure pct00003
(1)
여기서,
Figure pct00004
은 모든 간섭 신호를 포함하며 이하에서 “간섭 신호”로 지칭된다. 분리의 출력
Figure pct00005
은 타깃 신호의 추정치
Figure pct00006
이며,
Figure pct00007
(2)
추가적으로 간섭 신호의 추정치
Figure pct00008
가 될 수도 있다.
Figure pct00009
(3)
이러한 프로세싱은 일반적으로 출력 신호에서 음질을 저하시키는 아티팩트를 유발한다. 이와 같은 음질의 저하는 분리 정도, 간섭 신호의 감쇠에 따라 단조롭게 증가한다. 대다수의 응용은 완전한 분리가 아닌 부분적인 향상이 요구되므로, 간섭 사운드는 감쇠되지만 여전히 출력 신호에 존재하게 된다.
이에 따르면 더 적은 아티팩트가 유입되고 간섭 신호의 누설이 감지된 아티팩트를 부분적으로 마스킹하기(mask) 때문에 완전하게 분리된 신호보다 음질이 더 높다는 부가적인 이점이 있다.
오디오 신호의 부분적인 마스킹은 그것의 라우드니스 (예컨대, 그것의 인지된 강도)가 부분적으로 감소한다는 것을 의미한다. 더 나아가 큰 감쇠를 달성하기보다는 출력의 음질이 정의된 음질 레벨 아래로 떨어지지 않는 것이 바람직하며, 또한 이것이 요구된다고 할 수 있다.
이러한 응용의 예는 대화 향상(dialog enhancement)이다. TV, 라디오 방송, 및 영화 사운드의 오디오 신호에는 대개 스피치 신호와 환경의 소리 및 음악과 같은 배경 신호가 혼합되어 있다. 이러한 신호들이 혼합되어 스피치의 레벨이 배경의 레벨에 비하여 지나치게 낮은 경우, 청취자는 말한 내용을 이해하는데 어려움을 겪거나, 또는 듣고 이해하는데 매우 많은 노력이 필요할 수 있으며, 이는 곧 청취자의 피로를 유발하게 된다. 이와 같은 시나리오에 배경의 레벨을 자동으로 낮추는 방법들이 적용될 수 있으나, 그 결과는 높은 음질이어야 한다.
소스 분리를 위한 다양한 방법들이 선행기술에 존재한다. 신호의 혼합으로부터 타깃 신호를 분리하는 것은 선행기술에서 논의되어 왔다. 이러한 방법들은 두 가지 접근 방식으로 분류할 수 있다. 방법의 첫 번째 카테고리는 신호 모델 및/또는 혼합 모델에 관한 공식화된 가정에 기반한다. 신호 모델은 입력 신호(여기서는
Figure pct00010
)의 특성을 설명한다. 혼합 모델은 입력 신호가 결합되어 혼합 신호
Figure pct00011
가 생성되는 방법(여기서는 덧셈을 통하여)의 특성을 설명한다.
이러한 가정을 기반으로, 방법은 분석적으로 또는 경험적으로 설계된다. 예를 들면, 혼합신호가 통계적으로 독립적인 두 개의 소스 신호를 포함하고, 혼합신호가 두 개의 마이크에 의하여 캡쳐되었으며, 믹싱(mixing)이 두 신호를 더하여(순간 혼합신호 생성) 이루어졌음을 가정하는 것을 통하여 독립 성분 분석(Independent Component Analysis) 방법이 도출될 수 있다. 믹싱의 역 프로세스는 믹싱 행렬의 역변환으로서 수학적으로 도출되고 위 언믹싱 행렬의 요소는 특정 방법에 따라 계산된다. 대부분의 분석적 도출 방법들은 기준의 수치 최적화(예: 실제 타깃과 추정 타깃 간의 평균제곱오차)로서 분리 문제를 공식화함으로써 도출된다.
두 번째 카테고리는 데이터 기반이다. 여기서, 타깃 신호의 표현이 추정되거나, 또는 입력 혼합신호로부터 타깃 신호를 획득하기 위한 파라미터 세트가 추정된다. 추정은 훈련 데이터 세트에 대하여 훈련된 모델을 기반으로 하므로, "데이터 기반(data driven)"이라 명명된다. 추정은 기준의 최적화를 통하여 도출된다. 추정은, 예를 들면, 훈련 데이터가 주어지면, 실제 타깃과 추정된 타깃 간의 평균제곱오차를 최소화함으로써 도출된다. 위 카테고리의 예로는 스피치 신호와 간섭 신호의 혼합에 대해서, 스피치 신호의 추정치를 출력하도록 훈련된 인공신경망(ANN)을 들 수 있다. 훈련 중에는, 훈련 데이터 세트에 대하여 계산되는 성능 기준이 전체 데이터 세트에 걸쳐 평균적으로 최적화되도록 인공 신경망의 조정 가능한 파라미터가 결정된다.
소스 분리와 관련하여, 평균제곱오차 관점에서 최적인 솔루션 또는 임의의 다른 수치적 기준에 대하여 최적인 솔루션이 반드시 인간 청취자가 선호하는 최고의 음질을 가지는 솔루션인 것은 아니다.
두 번째 문제는 소스 분리가 항상 두 가지 효과를 초래한다는 사실로부터 비롯된다. 첫 번째는 간섭 사운드의 바람직한 감쇠이고, 두 번째는 음질의 원치 않는 저하이다. 두 효과는 서로 상관관계가 있다. 예컨대, 원하는 효과를 증가시키면 원치 않는 효과도 증가된다. 궁극적인 목표는 둘 사이의 트레이드 오프(trade-off)를 조절하는 것이다.
음질은 추정될 수 있다. 예컨대, 음질은 청취 테스트 또는 음질의 계산 모델을 통하여 정량화될 수 있다. 음질은 다양한 측면을 가지는데, 이는 이하에서 음질 요소들(Sound Quality Components, SQCs)로 지칭된다.
예를 들면, 음질은 아티팩트(이것은 소스 분리와 같은 신호 처리에 의하여 유발되는 것으로 음질을 감소시키는 신호 성분임)의 감지된 강도에 의하여 결정된다.
또는, 예컨대, 음질은 간섭 신호의 감지된 강도에 의하여 결정되거나, 또는, 예컨대 스피치 명료도(타깃 신호가 스피치인 경우), 또는, 예컨대 종합적인 음질에 의하여 결정된다.
음질 요소
Figure pct00012
(
Figure pct00013
, 여기서 M은 음질 요소의 개수를 나타냄)을 계산(추정)하는 다양한 음질 계산 모델이 존재한다.
이러한 방법들은 일반적으로 다음과 같이 타깃 신호와 타깃 신호에 대한 추정치를 고려하여 음질 요소를 추정하거나,
Figure pct00014
(4)
또는 간섭 신호 또한 고려하여 음질 요소를 추정한다.
Figure pct00015
(5)
실제 응용에서, 타깃 신호
Figure pct00016
(그리고 간섭 신호
Figure pct00017
)은 사용할 수 없다. 만약 사용할 수 있다면 분리는 필요하지 않을 것이다. 오직 입력 신호
Figure pct00018
와 타깃 신호의 추정치인
Figure pct00019
만 사용 가능한 경우, 이러한 방법들로는 음질 요소를 계산할 수 없다.
선행기술에서는, 명료도를 포함하여 음질의 측면을 추정하기 위한 여러 계산 모델이 설명되었다.
블라인드 소스 분리 평가(Blind Source Separation Evaluation, BSSEval) ([1] 참조)는 다중 기준 성능 평가 툴박스이다. 추정된 신호는 직교 투영에 의하여 타깃 신호 성분, 다른 소스로부터의 간섭, 및 아티팩트로 분해된다. 매트릭(Metric)은 이들 성분들의 에너지 비율로 계산되며, dB로 표현된다. 메트릭은 소스 대 왜곡 비율(SDR), 소스 대 간섭 비율(SIR), 및 소스 대 아티팩트 비율(SAR)이다.
오디오 소스 분리를 위한 지각적 평가 방법(Perceptual Evaluation methods for Audio Source Separation, PEASS)([2] 참조)은 BSSEval의 지각적 유도의(perceptually-motivated) 후속 기술로서 설계되었다. 신호 투영은 시간 세그먼트에서 수행되며 감마톤(gammatone) 필터뱅크를 사용하여 수행된다.
PEMO-Q([3] 참조)는 다양한 특징을 제공하는데 사용된다. 주관적 등급평가를 통하여 훈련된 신경망을 사용하여 이들 특징들로부터 4개의 지각 점수가 획득된다. 점수는 종합 지각 점수(OPS), 간섭 관련 지각 점수(IPS), 아티팩트 관련 지각 점수(APS), 및 타깃 관련 지각 점수(TPS)이다.
오디오 품질의 지각적 평가(Perceptual Evaluation of Audio Quality, PEAQ)([4] 참조)는 오디오 코딩을 위하여 설계된 메트릭이다. 그것은 기준 신호와 테스트 신호의 기저막(basilar membrane) 표현을 산출하기 위하여 말초 귀 모델(peripheral ear model)을 적용한다. 이들 표현 간의 차이의 측면은 몇 개의 출력 변수들에 의하여 정량화된다. 주관적인 데이터로 훈련된 신경망을 통하여, 이들 변수들은 결합되어 종합 차이 등급(Overall Difference Grade, ODG)과 같은 주요 출력을 제공한다.
스피치 품질의 지각적 평가(Perceptual Evaluation of Speech Quality, PESQ)([5] 참조)는 전기통신 네트워크를 통해 전송되는 스피치를 위하여 설계된 메트릭이다. 따라서, 이 방법은 전화 핸드셋을 모방하는 전처리를 포함한다. 가청 방해에 대한 측정값은 신호의 특정 라우드니스로부터 계산되고 PESQ 점수에 결합된다. 이들로부터 MOS 점수가 다항 맵핑 함수를 통하여 예측된다([6] 참조).
ViSQOLAudio([7] 참조)는 가상 스피치 품질 목표 청취자(Virtual Speech Quality Objective Listener, ViSQOL)로부터 개발된 낮은 비트율로 인코딩된 음악용으로 설계된 메트릭이다. 두 매트릭 모두 신경도(neurogram)라 불리는 신호의 체내 표현을 생성하기 위한 말초 청각 시스템의 모델에 기반한다. 이들은 본래 압축 이미지의 품질을 평가하기 위하여 개발된 구조적 유사성 인덱스의 조정을 통하여 비교된다.
보청기 오디오 품질 인덱스(Hearing-Aid Audio Quality Index, HAAQI)([8] 참조)는 보청기를 통하여 듣는 개인을 위하여 음악 품질을 예측하기 위하여 설계된 인덱스이다. 이 인덱스는 청력 손실의 영향을 포함하도록 확장된 청각 말초 모델을 기반으로 한다. 이것은 정상 청력 또는 청력 장애를 가진 청취자에 의하여 만들어진 품질 등급 데이터베이스에 피팅된다. 청력 손실 시뮬레이션은 바이패스될 수 있으며, 인덱스는 정상 청각을 가진 사람들에게도 유효해진다. 동일한 청각 모델을 기반으로, HAAQI의 저자는 스피치 품질에 대한 인덱스인 보청기 스피치 품질 인덱스(Hearing-Aid Speech Quality Index, HASQI)([9] 참조)와 스피치 명료도에 대한 인덱스인 보청기 스피치 지각 인덱스(Hearing-Aid Speech Perception Index, HASPI)([10] 참조)도 제안하였다.
단시간 목표 명료도(Short-Time Objective Intelligibility, STOI)([11] 참조)는 평균 스피치 명료도와 단조(monotonic) 관계를 가질 것으로 예상되는 척도이다. 그것은 특히 특정 유형의 시간-주파수 가중치에 의하여 처리되는 스피치를 다룬다.
[12]에서 인공 신경망은 입력 신호와 출력 추정된 타깃 신호만 고려하여 소스 대 왜곡 비율을 추정하도록 훈련된다. 여기서, 소스 대 왜곡 비율의 계산은 일반적으로 실제 타깃과 간섭 신호도 입력으로서 사용하여 이루어진다. 분리 알고리즘의 풀(pool)은 동일한 입력 신호에 대해서 병렬적으로 실행된다. 소스 대 왜곡 비율 추정치는 각 시간 프레임에 대하여 가장 좋은 소스 대 왜곡 비율을 가지는 알고리즘으로부터 출력을 선택하는데 활용된다. 따라서, 음질과 분리 사이의 트레이드 오프에 대한 제어가 공식화되지 않으며, 분리 알고리즘의 파라미터의 제어가 제안되지 않는다. 더 나아가, 소스 대 왜곡 비율이 사용되는데, 이는 지각적 유도(perceptually-motivated)가 아니며 [13]에서도 나타난 바와 같이, 인지된 품질과 상관관계가 낮은 것으로 나타났다.
또한, 음질 요소 추정치가 비용 함수에 통합되는 지도 학습을 통한 스피치 향상에 대한 최근 연구가 있으나, 전통적으로 스피치 향상 모델은 추정 스피치와 깨끗한 스피치 간의 평균제곱오차(MSE)에 기반하여 최적화된다. 예를 들면, [14], [15], [16]에서는 MSE 대신에 STOI 기반 비용함수가 사용된다. [17]에서는 PESQ 또는 PEASS에 기반한 강화 학습이 사용된다. 그러나, 음질과 분리 사이의 트레이드 오프에 대한 제어는 가능하지 않다.
[18]에서는 프로세싱에 의하여 적용되는 시간-주파수 이득을 제어하기 위하여 아티팩트 식별 측정과 함께 가청도 측정이 사용되는 오디오 처리 디바이스가 제안된다. 이는 예컨대, 아티팩트가 도입되지 않는다는 것을 제약 조건으로 노이즈 감소의 양이 최대 레벨에 있음을 제공하기 위한 것이며, 음질과 분리 사이의 트레이드 오프는 고정된다. 또한, 시스템은 지도 학습을 포함하지 않는다. 아티팩트를 식별하기 위하여, 첨도 비율(Kurtosis Ratio)이 사용되며, 이는 실제 타깃 신호와 간섭 신호의 필요 없이 출력 신호와 입력 신호를 직접 비교(스피치가 존재하지 않는 세그먼트에서 가능)하는 측정치이다. 이 간단한 측정은 가청도 측정에 의하여 강화된다.
본 발명의 목적은 소스 분리에 대한 개선된 컨셉을 제공하는 것이다.
본 발명의 목적은 청구항 1에 따른 장치, 청구항 16에 따른 방법, 및 청구항 17에 따른 컴퓨터 프로그램에 의하여 달성된다.
오디오 입력 신호로부터 분리된 오디오 신호를 생성하는 장치가 제공된다. 상기 오디오 입력 신호는 타깃 오디오 신호 부분과 잔차 오디오 신호 부분을 포함한다. 상기 잔차 오디오 신호 부분은 상기 오디오 입력 신호와 상기 타깃 오디오 신호 부분 사이의 잔차를 나타낸다. 상기 장치는 소스 분리기, 결정 모듈, 및 신호 프로세서를 포함한다. 상기 소스 분리기는 상기 오디오 입력 신호에 의존하는 추정 타깃 신호를 결정하도록 구성되며, 상기 추정 타깃 신호는 상기 타깃 오디오 신호 부분만을 포함하는 신호의 추정이다. 상기 결정 모듈은 하나 이상의 파라미터 값을 획득하기 위하여 상기 추정 타깃 신호의 추정 음질을 기초로 하나 이상의 결과 값을 결정하도록 구성된다. 여기서, 상기 하나 이상의 파라미터 값은 상기 하나 이상의 결과 값이거나 또는 상기 하나 이상의 결과 값에 기초한다. 상기 신호 프로세서는 상기 하나 이상의 파라미터 값에 기초하고, 또한 상기 추정 타깃 신호와 상기 오디오 입력 신호와 추정 잔차 신호 중 적어도 하나에 기초하여 상기 분리된 오디오 신호를 생성하도록 구성된다. 상기 추정 잔차 신호는 상기 잔차 오디오 신호 부분만을 포함하는 신호의 추정이다.
더 나아가, 오디오 입력 신호로부터 분리된 오디오 신호를 생성하는 방법이 제공된다. 상기 오디오 입력 신호는 타깃 오디오 신호 부분과 잔차 오디오 신호 부분을 포함한다. 상기 잔차 오디오 신호 부분은 상기 오디오 입력 신호와 상기 타깃 오디오 신호 부분 사이의 잔차를 나타낸다. 상기 방법은,
- 상기 오디오 입력 신호에 의존하는 추정 타깃 신호를 결정하는 단계로서, 상기 추정 타깃 신호는 상기 타깃 오디오 신호 부분만을 포함하는 신호의 추정인 단계,
- 하나 이상의 파라미터 값을 획득하기 위하여 상기 추정 타깃 신호의 추정 음질을 기초로 하나 이상의 결과 값을 결정하는 단계로서, 상기 하나 이상의 파라미터 값은 상기 하나 이상의 결과 값이거나 또는 상기 하나 이상의 결과 값에 기초하는 단계, 및
- 상기 하나 이상의 파라미터 값에 기초하고 또한 상기 추정 타깃 신호와 상기 오디오 입력 신호와 추정 잔차 신호 중 적어도 하나에 기초하여 상기 분리된 오디오 신호를 생성하는 단계로서, 상기 추정 잔차 신호는 상기 잔차 오디오 신호 부분만을 포함하는 신호의 추정인 단계를 포함한다.
더 나아가, 컴퓨터 또는 신호 프로세서에서 실행될 때, 전술된 방법을 수행하기 위한 컴퓨터 프로그램이 제공된다.
본 발명에 따르면, 소스 분리에 대한 개선된 컨셉을 제공한다.
도 1a는 일 실시예에 따른 오디오 입력 신호로부터 분리된 오디오 신호를 생성하는 장치를 도시하고,
도 1b는 인공 신경망을 더 포함하는, 다른 실시예에 따른 분리된 오디오 신호를 생성하는 장치를 도시하며,
도 2는 음질의 추정을 사용하도록 구성되고, 후처리를 수행하도록 구성되는 일 실시예에 따른 장치를 도시하고,
도 3은 후처리 파라미터의 직접 추정이 수행되는 다른 실시예에 따른 장치를 도시하고,
도 4는 음질의 추정 및 2차 분리가 수행되는 추가 실시예에 따른 장치를 도시하며,
도 5는 분리 파라미터의 직접 추정이 수행되는 다른 실시예에 따른 장치를 도시한다.
이하에서, 다음의 도면을 참조하여 본 발명의 실시예가 더욱 상세하게 설명된다.
도 1a는 일 실시예에 따른 오디오 입력 신호로부터 분리된 오디오 신호를 생성하는 장치를 도시한다. 오디오 입력 신호는 타깃 오디오 신호 부분과 잔차 오디오 신호 부분을 포함한다. 잔차 오디오 신호 부분은 오디오 입력 신호와 타깃 오디오 신호 부분 사이의 잔차를 나타낸다.
장치는 소스 분리기(110), 결정 모듈(120), 및 신호 프로세서(130)를 포함한다.
소스 분리기(110)는 오디오 입력 신호에 의존하는 추정 타깃 신호를 결정하도록 구성된다. 추정 타깃 신호는 타깃 오디오 신호 부분만을 포함하는 신호의 추정치(estimate)이다.
결정 모듈(120)은 하나 이상의 파라미터 값을 획득하기 위하여 추정 타깃 신호의 추정 음질을 기초로 하나 이상의 결과 값을 결정하도록 구성된다. 여기서, 하나 이상의 파라미터 값은 하나 이상의 결과 값이거나 또는 하나 이상의 결과 값에 기초한다.
신호 프로세서(130)는 하나 이상의 파라미터 값에 기초하고, 또한 추정 타깃 신호와 오디오 입력 신호와 추정 잔차 신호 중 적어도 하나에 기초하여 분리된 오디오 신호를 생성하도록 구성된다. 추정 잔차 신호는 잔차 오디오 신호 부분만을 포함하는 신호의 추정치이다.
선택적으로, 실시예에서는, 결정 모듈(120)은, 예를 들어, 추정 타깃 신호에 기초하고, 또한, 오디오 입력 신호와 추정 잔차 신호 중 적어도 하나에 기초하여 하나 이상의 결과 값을 결정하도록 구성될 수 있다.
실시예들은 지도 학습을 사용하여 음질과 분리 사이의 트레이드 오프에 대한 지각적-유도(perceptually-motivated)와 신호-적응 제어를 제공한다. 이것은 두 가지 방법으로 달성될 수 있다. 제1 방법은 출력 신호의 음질을 추정하고 이 추정치를 사용하여 분리의 파라미터 또는 분리된 신호의 후처리(post-processing)의 파라미터를 조정하는 것이다. 제2 실시예에서, 회귀 방법은 출력 신호의 음질이 미리 정의된 요구 사항을 충족하도록 제어 파라미터를 직접 출력한다.
실시예에 따르면, 분리의 입력 신호와 출력 신호를 분석하여 음질의 추정치
Figure pct00020
를 산출하고, (결정된 프로세싱 파라미터를 사용할 때) 출력의 음질이 정의된 품질 값보다 낮지 않도록
Figure pct00021
를 기초로 프로세싱 파라미터를 결정한다.
일부 실시예에서는, 분석은 (9)에서 품질 값
Figure pct00022
을 출력한다. 품질 값으로부터 아래의 공식 (13)의 제어 파라미터
Figure pct00023
이 계산되고(예컨대, 스케일링 인자(scaling factor)), 최종 출력은 아래의 공식 (13)과 같이 초기 출력과 입력을 믹싱(mixing)함으로써 얻어진다. 계산
Figure pct00024
는 반복적으로 또는 회귀에 의하여 수행될 수 있으며, 도 2를 참조하면, 회귀 파라미터는 훈련 신호 세트로부터 학습된다. 실시예에서는 스케일링 인자 대신, 제어 파라미터는 예컨대, 평활 파라미터(smoothing parameter) 등이 될 수 있다.
일부 실시예에서, 도 3을 참조하면, 분석은 (13)의 제어 파라미터
Figure pct00025
을 직접 산출한다.
도 4 및 도 5는 추가 실시예를 정의한다.
일부 실시예는 아래에서 설명되는 바와 같이, 후처리 단계에서 음질의 제어를 달성한다.
본 명세서에서 기재된 실시예의 부분 집합은 분리 방법과 독립적으로 적용될 수 있다. 본 명세서에서 기재된 일부 실시예들은 분리 프로세스의 파라미터를 제어한다.
스펙트럼의 가중치를 사용한 소스 분리는 시간-주파수 도메인 또는 단시간 스펙트럼 도메인의 신호를 처리한다. 입력 신호
Figure pct00026
는 단시간 푸리에 변환(short-time Fourier transform, STFT)을 통하여 변환되거나 또는 필터뱅크를 통하여 처리되어, 복소수 형태의 STFT 계수 또는 서브밴드(subband) 신호
Figure pct00027
를 산출한다. 여기서,
Figure pct00028
은 시간 프레임 인덱스를 나타내며,
Figure pct00029
는 주파수 빈 인덱스(frequency bin index) 또는 서브밴드 인덱스를 나타낸다. 원하는 신호의 복소수 형태의 STFT 계수 또는 서브밴드 신호는
Figure pct00030
이고, 간섭 신호의 복소수 형태의 STFT 계수 또는 서브밴드 신호는
Figure pct00031
이다.
분리된 출력 신호는 스펙트럼 가중치를 통하여 다음과 같이 계산된다.
Figure pct00032
(6)
여기서, 스펙트럼 가중치
Figure pct00033
는 입력 신호와 성분별로 곱해진다. 목표는 간섭자(interferer)
Figure pct00034
가 큰
Figure pct00035
의 성분들을 감쇠하는 것이다. 이를 위하여, 스펙트럼 가중치는 타깃의 추정치
Figure pct00036
또는 간섭자의 추정치
Figure pct00037
또는 신호 대 간섭자 비율의 추정치를 기초로 산출될 수 있다. 예컨대,
Figure pct00038
(7)
또는,
Figure pct00039
(8)
을 통하여 산출될 수 있다.
여기서,
Figure pct00040
Figure pct00041
는 분리를 제어하는 파라미터이다. 예를 들면,
Figure pct00042
를 증가시키면 간섭자의 감쇠는 더 커질 수 있으나 음질이 더 크게 저하될 수 있다. 스펙트럼 가중치는 예컨대,
Figure pct00043
가 임계값보다 더 크도록 임계값을 지정하는 것에 의하여 추가적으로 수정될 수 있다. 수정된 이득
Figure pct00044
은 다음과 같이 계산된다.
Figure pct00045
임계값 v를 높이면 간섭자의 감쇠가 줄어들고 음질의 잠재적인 저하가 감소된다.
필요한 수량의 추정(타깃
Figure pct00046
또는 간섭자
Figure pct00047
또는 신호 대 간섭자 비율)이 이러한 방법들의 핵심이며, 과거에 다양한 추정 방법이 개발되었다. 개발된 추정 방법들은 위에서 설명된 두 가지 접근 방식 중 하나를 따른다.
그리고 출력 신호
Figure pct00048
는 STFT 또는 필터뱅크의 역 프로세싱을 통하여 산출된다.
이하에서는, 타깃 신호의 추정을 사용한 소스 분리의 실시예들이 설명된다.
타깃 신호의 표현은 입력 신호로부터 직접적으로 추정될 수도 있다. 예컨대, 인공 신경망을 통하여 추정될 수 있다. 최근에 인공 신경망이 타깃 시간 신호, 또는 그 STFT 계수, 또는 STFT 계수의 크기를 추정하도록 훈련되는 다양한 방법들이 제안되었다.
음질에 관련하여, 음질 요소(Sound Quality Component, SQC)는 지도 학습 모델
Figure pct00049
을 적용하여 이들 계산 모델의 출력을 추정하는 것을 통하여 획득된다.
Figure pct00050
(9)
지도 학습 방법
Figure pct00051
은 다음을 통하여 실현된다:
1. 학습 가능한 파라미터,
Figure pct00052
입력 변수 및
Figure pct00053
출력 변수로 지도 학습 모델
Figure pct00054
을 구성하는 단계,
2. 타깃신호
Figure pct00055
및 혼합신호
Figure pct00056
에 대한 표본 신호(example signal)로 데이터 세트를 생성하는 단계,
3. 소스 분리를 통하여 타깃 신호에 대한 추정값을 산출하는 단계(
Figure pct00057
),
4. (9) 또는 (10)에 따른 음질의 계산 모델을 사용하여 획득된 신호로부터 음질 요소
Figure pct00058
을 산출하는 단계,
5. 지도 학습 모델
Figure pct00059
이 추정 타깃
Figure pct00060
(소스 분리의 출력) 및 혼합신호
Figure pct00061
에 대한 해당 표본 신호가 주어졌을 때 추정값
Figure pct00062
을 출력하도록 지도 학습 모델
Figure pct00063
을 훈련시키는 단계, 또는 지도 학습 모델
Figure pct00064
Figure pct00065
Figure pct00066
이 주어졌을 때 (
Figure pct00067
인 경우) 추정값
Figure pct00068
을 출력하도록 지도 학습 모델
Figure pct00069
을 훈련시키는 단계.
6. 응용에서, 훈련된 모델에는 혼합신호
Figure pct00070
와 함께 소스 분리 방법을 사용하여 혼합신호
Figure pct00071
로부터 얻은 추정 타깃
Figure pct00072
(소스 분리의 출력)이 제공된다.
분리된 출력 신호의 품질 제어를 위한 지도 학습 방법의 응용이 제공된다.
이하에서는, 실시예에 따른 지도 학습을 이용한 음질의 추정에 대하여 설명하기로 한다.
도 1b는 결정 모듈(120)이 인공 신경망(125)을 포함하는 실시예를 도시한다. 인공 신경망(125)은, 예를 들어, 추정 타깃 신호를 기초로 하나 이상의 결과 값을 결정하도록 구성될 수 있다. 인공 신경망(125)은, 예를 들어, 복수의 입력값을 수신하도록 구성될 수 있으며, 복수의 입력값 각각은 추정 타깃 신호와 추정 잔차 신호와 오디오 입력 신호 중 적어도 하나에 기초할 수 있다. 인공 신경망(125)는, 예를 들어, 인공 신경망(125)의 하나 이상의 출력값으로서 하나 이상의 결과값을 결정하도록 구성될 수 있다.
선택적으로, 일 실시예에서, 인공 신경망(125)은, 예를 들어, 추정 타깃 신호에 기초하고, 또한, 오디오 입력 신호와 추정 잔차 신호 중 적어도 하나에 기초하여 하나 이상의 결과값을 결정하도록 구성될 수 있다.
일 실시예에서, 복수의 입력값 각각은, 예를 들어, 추정 타깃 신호와 추정 잔차 신호와 오디오 입력 신호 중 적어도 하나에 기초할 수 있다. 하나 이상의 결과값은, 예를 들어, 추정 타깃 신호의 추정 음질을 나타낼 수 있다.
일 실시예에 따르면, 복수의 입력값 각각은, 예를 들어, 추정 타깃 신호와 추정 잔차 신호와 오디오 입력 신호 중 적어도 하나에 기초할 수 있다. 하나 이상의 결과값은, 예를 들어, 하나 이상의 파라미터 값일 수 있다.
일 실시예에서, 인공 신경망(125)은, 예를 들어, 복수의 훈련 세트를 수신하는 것을 통하여 훈련되도록 구성될 수 있다. 여기서, 복수의 훈련 세트의 각각은 인공 신경망(125)의 복수의 입력 훈련값 및 인공 신경망(125)의 하나 이상의 출력 훈련값을 포함한다. 복수의 출력 훈련값 각각은, 예를 들어, 훈련 타깃 신호, 훈련 잔차 신호, 및 훈련 입력 신호 중 적어도 하나에 기초할 수 있다. 여기서, 하나 이상의 출력 훈련값 각각은, 예를 들어, 훈련 타깃 신호의 음질의 추정에 기초할 수 있다.
실시예에서, 음질 요소에 대한 추정치는 예컨대, 인공 신경망(ANN)(125)과 같이 지도 학습 모델(SLM)을 사용한 지도 학습을 통하여 획득된다. 인공 신경망(125)은 예를 들어, A 유닛을 가지는 입력 레이어, 각각 적어도 2개의 유닛의 입력 레이어를 가지는 적어도 하나의 은닉 레이어, 및 하나 이상의 유닛을 가지는 출력 레이어를 포함하는 완전 연결(fully connected) 인공 신경망(125)일 수 있다.
지도 학습 모델은 회귀 모델 또는 분류 모델로 구현될 수 있다. 회귀 모델은 출력 레이어의 하나의 유닛의 출력에서 타깃 값 하나를 추정한다. 또는, 회귀 문제는 출력값을 최소 3단계로 양자화(quantize)하고
Figure pct00073
유닛들을 가지는 출력 레이어를 사용하여 분류 문제로 공식화될 수 있다. 여기서,
Figure pct00074
는 양자화 단계의 수와 같다.
각각의 양자화 단계에 대해서, 하나의 출력 유닛이 사용된다.
지도 학습 모델은 먼저 혼합 신호
Figure pct00075
, 추정된 타깃
Figure pct00076
, 및 음질 요소
Figure pct00077
의 다수의 예시를 포함하는 데이터 세트로 훈련된다. 여기서, 음질 요소는, 예를 들어, 추정된 타깃
Figure pct00078
, 및 실제 타깃
Figure pct00079
으로부터 계산되었다. 데이터 세트의 하나의 항목은
Figure pct00080
로 나타낸다. 여기서 지도 학습 모델의 출력은
Figure pct00081
로 나타낸다.
입력 레이어
Figure pct00082
의 유닛 수는 입력값의 수에 대응된다. 모델에 대한 입력은 입력 신호로부터 계산된다. 각 신호는, 예컨대, 단기 푸리에 변환(short-term Fourier transform, STFT)과 같은 시간-주파수 변환의 필터뱅크를 통하여 선택적으로 처리될 수 있다. 예를 들면, 입력은
Figure pct00083
Figure pct00084
을 통하여
Figure pct00085
인접 프레임들로부터 계산된 STFT 계수를 연결하여 구성될 수 있다. 여기서
Figure pct00086
또는
Figure pct00087
이다.
Figure pct00088
가 프레임당 스펙트럼 계수의 총 개수라고 할 때, 입력 계수의 총 개수는
Figure pct00089
이다.
인공 신경망(125)의 각 유닛은, 입력 값들의 선형 결합으로서 그 출력을 계산하고, 이후 출력은 비선형 압축 함수를 이용하여 선택적으로 처리된다.
Figure pct00090
(10)
여기서,
Figure pct00091
는 단일 뉴런의 출력을 나타내고,
Figure pct00092
Figure pct00093
입력 값들을 나타내며,
Figure pct00094
는 선형 결합을 위한
Figure pct00095
가중치를 나타내고,
Figure pct00096
Figure pct00097
추가 바이어스 항(additional bias term)이다. 제1 은닉 레이어의 유닛에 대하여, 입력 값들의 수
Figure pct00098
는 입력 계수 의 수 D와 같다.
Figure pct00099
Figure pct00100
는 모두 훈련 절차에서 결정되는 인공 신경망(125)의 파라미터이다.
하나의 레이어의 유닛들은 다음 레이어의 유닛들에 연결되고, 이전 레이어의 유닛들의 출력은 다음 레이어의 유닛들로의 입력이 된다.
훈련은 예컨대, 경사하강법과 같은 수치 최적화 방법을 사용하여 예측 오차를 최소화하는 것을 통하여 수행된다. 단일 항목에 대한 예측 오차는 차이(difference)의 함수
Figure pct00101
이다. 최적화 기준이 사용되는 전체 데이터 세트 또는 데이터 세트의 서브세트에 대한 예측 오차는, 예를 들어, 평균 제곱 오차(MSE) 또는 평균 절대 오차(MAE)이다. 여기서,
Figure pct00102
은 데이터 세트 내 항목의 수를 나타낸다.
Figure pct00103
(11)
Figure pct00104
(12)
다른 오차 메트릭들은 오차 메트릭들이
Figure pct00105
의 단조 함수이고 미분가능한 경우 훈련 목적으로 적합하다. 또한, 예를 들면, 컨볼루션 신경망 레이어 또는 순환 신경망 레이어와 같이 인공 신경망을 구성하기 위한 다른 구조 및 요소들이 존재한다.
그것들은 모두 다차원 입력으로부터 1차원 또는 다차원 출력으로 맵핑을 구현한다는 점에서 공통점이 있다. 여기서, 맵핑 함수는 스칼라 기준을 최적화하는 것을 통하여 훈련 절차에서 결정되는 파라미터 세트 (예:
Figure pct00106
Figure pct00107
)에 의하여 제어된다.
훈련 후에, 지도 학습 모델은 실제 타깃
Figure pct00108
의 필요 없이 혼합신호가 주어졌을 때 미지의 추정 타깃
Figure pct00109
의 음질의 추정을 위하여 사용될 수 있다.
음질의 계산 모델과 관련하여, 실시예에 따른 실험들에서 [1]-[11]에서 설명된 것과 같은 계산 모델, 특히, 블라인드 소스 분리 평가(BSSEval) ([1] 참조), 오디오 소스 분리를 위한 지각적 평가 방법(PEASS)([2] 참조), PEMO-Q([3] 참조), 오디오 품질의 지각적 평가(PEAQ)([4] 참조), 스피치 품질의 지각적 평가(PESQ)([5] 및 [6] 참조), ViSQOLAudio([7] 참조), 보청기 오디오 품질 인덱스(HAAQI)([8] 참조), 보청기 스피치 품질 인덱스(HASQI)([9] 참조), 보청기 스피치 지각 인덱스(HASPI)([10] 참조), 및 단시간 목표 명료도(STOI)([11] 참조)와 같이 음질(명료도 포함)의 측면을 추정하기 위한 다양한 계산 모델이 성공적으로 사용되었다.
따라서, 실시예에 따르면, 훈련 타깃 신호의 음질의 추정은, 예를 들어, 하나 이상의 음질의 계산 모델에 기초할 수 있다.
예를 들어, 일 실시예에서, 훈련 타깃 신호의 음질의 추정은, 예를 들어, 다음의 하나 이상의 음질 계산 모델에 기초할 수 있다:
블라인드 소스 분리 평가(Blind Source Separation Evaluation),
오디오 소스 분리를 위한 지각적 평가 방법(Perceptual Evaluation methods for Audio Source Separation),
오디오 품질의 지각적 평가(Perceptual Evaluation of Audio Quality),
스피치 품질의 지각적 평가(Perceptual Evaluation of Speech Quality),
가상 스피치 품질 목표 청취자 오디오(Virtual Speech Quality Objective Listener Audio),
보청기 오디오 품질 인덱스(Hearing-Aid Audio Quality Index),
보청기 스피치 품질 인덱스(Hearing-Aid Speech Quality Index),
보청기 스피치 지각 인덱스(Hearing-Aid Speech Perception Index), 및
단시간 목표 명료도(Short-Time Objective Intelligibility).
다른 음질 계산 모델 또한, 예를 들어, 다른 실시예들에서 사용될 수 있다.
이하에서는, 음질의 제어에 대해 설명하기로 한다.
음질 제어는 음질 요소(Sound Quality Component)을 추정하고 음질 요소 추정치를 기초로 프로세싱 파라미터를 계산하는 것을 통하여 구현되거나, 또는 음질 요소가 타깃 값
Figure pct00110
을 충족하도록 (또는 그 타깃 밑으로 떨어지지 않도록) 최적 프로세싱 파라미터를 직접적으로 추정하는 것을 통하여 구현될 수 있다.
음질 요소의 추정에 관해서는 위에서 설명되었다. 유사한 방식으로 최적 프로세싱 파라미터에 대한 원하는 값으로 회귀 방법을 훈련하는 것을 통하여 최적 프로세싱 파라미터를 추정할 수 있다. 최적 프로세싱 파라미터는 아래에 설명되는 바와 같이 계산된다. 이러한 처리를 이하에서는 파라미터 추정 모듈(Parameter Estimation Module, PEM)로 지칭하기로 한다.
음질에 대한 타깃 값
Figure pct00111
은 분리와 음질 간의 균형(trade-off)을 결정할 것이다. 위 파라미터는 사용자에 의하여 제어되거나, 또는 사운드 재생 시나리오에 따라 특정된다. 집에서 고품질 장비를 통하여 조용한 환경에서 사운드를 재생하면 더 높은 음질과 더 낮은 분리도로부터 이익을 얻을 수 있다. 차량에서 스마트폰에 내장된 라우드스피커를 통하여 시끄러운 환경에서 사운드를 재생하면 음질은 떨어지지만 더 높은 분리도와 스피치 명료도를 얻을 수 있다.
또한, 추정된 수량(quantity)(음질 요소 또는 프로세싱 파라미터)은 후처리를 제어하거나 또는 2차 분리를 제어하는데 추가적으로 적용될 수 있다.
결과적으로, 제안된 방법의 구현을 위하여 4개의 상이한 컨셉들이 사용될 수 있다. 이러한 컨셉들은 도 2, 도 3, 도 4 및 도 5에 도시되며, 이하에서 설명된다.
도 2는 음질의 추정을 사용하도록 구성되고 후처리를 수행하도록 구성된 일 실시예에 따른 장치를 도시한다.
이러한 실시예에 따르면, 결정 모듈(120)은, 예를 들어, 추정 타깃 신호, 오디오 입력 신호, 및 추정 잔차 신호 중 적어도 하나에 기초하여, 음질 값을 하나 이상의 결과값으로 추정하도록 구성될 수 있다. 여기서, 음질 값은 추정 타깃 신호의 추정된 음질을 나타낸다. 결정 모듈(120)은, 예를 들어, 음질 값에 기초하여 하나 이상의 파라미터 값을 결정하도록 구성될 수 있다.
따라서, 일 실시예에 따르면, 결정 모듈(120)은, 예를 들어, 추정 타깃 신호의 추정된 음질에 기초하여, 하나 이상의 파라미터 값으로서 제어 파라미터를 결정하도록 구성될 수 있다. 신호 프로세서(130)는, 예를 들어, 제어 파라미터에 기초하고, 또한, 추정 타깃 신호, 오디오 입력 신호, 및 추정 잔차 신호 중 적어도 하나에 기초하여 분리된 오디오 신호를 결정하도록 구성될 수 있다.
특정 실시예들이, 이하에서 설명된다.
제1 단계에서, 분리가 적용된다. 분리된 신호 및 미처리된 신호는 품질 추정 모듈(Quality Estimation Module, QEM)에 대한 입력이다. QEM은 음질 요소의 추정치인,
Figure pct00112
을 계산한다.
추정된 음질 요소
Figure pct00113
는 후처리를 제어하기 위한 파라미터 세트
Figure pct00114
를 계산하는데 사용된다.
변수
Figure pct00115
,
Figure pct00116
,
Figure pct00117
, 및
Figure pct00118
은 시간 가변적일 수 있으나, 이하에서는 명확한 표기를 위하여 시간 종속성은 생략하기로 한다.
이러한 후처리는, 예를 들어, 입력 신호의 스케일링 또는 필터링된 복제신호(copy)를 출력 신호의 스케일링 또는 필터링된 복제신호에 더함으로써, 간섭 신호(예컨대, 분리의 영향)의 감쇠를 줄인다. 예를 들면, 다음과 같다.
Figure pct00119
(13)
여기서, 파라미터
Figure pct00120
는 분리 정도를 제어한다.
다른 실시예에서, 예컨대, 다음과 같은 수식이 적용될 수 있다:
Figure pct00121
여기서,
Figure pct00122
는 추정 잔차 신호이다.
분리를 감소시키면 다음과 같은 결과를 얻을 수 있다.
1) 아티팩트 양의 감소 및
2) 분리 아티팩트를 마스킹하는 간섭 사운드의 누설 증가
따라서, 일 실시예에서는, 신호 프로세서(130)는, 예를 들어, 수식 (13)에 따라 분리된 오디오 신호를 결정하도록 구성될 수 있다. 여기서,
Figure pct00123
는 분리된 오디오 신호이고,
Figure pct00124
는 추정 타깃 신호,
Figure pct00125
는 오디오 입력 신호,
Figure pct00126
은 제어 파라미터이고,
Figure pct00127
은 인덱스이다.
파라미터는 음질의 추정치
Figure pct00128
와 타깃 품질 측정값
Figure pct00129
을 고려하여 계산된다.
Figure pct00130
(14)
이 함수
Figure pct00131
는, 예를 들어, 아래의 의사코드에 나타난 바와 같이, 반복적인 광범위 검색(iterative extensive search)일 수 있다.
Figure pct00132
또는,
Figure pct00133
인 관계는 다음을 통하여 계산될 수 있다.
1.
Figure pct00134
값들의 세트에 대한
Figure pct00135
계산 (
Figure pct00136
)
2. 보간 및 외삽을 통하여
Figure pct00137
의 나머지 값들을 계산
예컨대, 프로세싱 파라미터
Figure pct00138
가 수식 (13)에서와 같이 후처리를 제어하는 경우,
Figure pct00139
는 고정된 수의
Figure pct00140
의 값들에 대하여 계산된다. 예를 들면,
Figure pct00141
의 상대 증폭인 18, 12, 및 6 dB에 대응하여 계산된다.
이로 인하여, 맵핑
Figure pct00142
는 근사화되고,
Figure pct00143
가 선택될 수 있다.
요약하면, 일 실시예에서, 신호 프로세서(130)는, 예를 들어, 분리된 오디오 신호의 제1 버전을 결정하는 것을 통하여, 그리고 분리된 오디오 신호의 하나 이상의 중간 버전을 획득하기 위하여 분리된 오디오 신호를 한번 이상 수정하는 것을 통하여 분리된 오디오 신호를 생성하도록 구성될 수 있다. 결정 모듈(120)은, 예를 들어, 분리된 오디오 신호의 하나 이상의 중간 값들 중 하나에 기초하여 음질 값을 수정하도록 구성될 수 있다. 신호 프로세서(130)는, 예를 들어, 음질 값이 정해진 품질 값보다 크거나 같은 경우 분리된 오디오 신호를 수정하는 것을 중지하도록 구성될 수 있다.
도 3은 다른 실시예에 따른 장치를 도시하는 것으로, 본 실시예에서는 후처리 프로세싱 파라미터의 직접적인 추정이 수행된다.
먼저, 분리가 적용된다. 분리된 신호는 파라미터 추정 모듈(PEM)에 대한 입력이 된다. 추정된 파라미터는 후처리를 제어하는데 적용된다. PEM은 분리된 신호
Figure pct00144
와 입력 신호
Figure pct00145
로부터 p(n)을 직접적으로 추정하도록 훈련된 것이다. 이는 수식 14의 연산이 훈련 단계로 이동되고 회귀 방법이
Figure pct00146
대신
Figure pct00147
를 추정하도록 훈련됨을 의미한다. 이에 따라, 다음의 함수가 학습된다.
Figure pct00148
(15)
이 절차는 전술된 절차와 달리 계산이 적게 요구된다는 장점이 있음은 자명하다. 이것은 모델이
Figure pct00149
의 고정된 설정에 대하여 훈련되기 때문에, 유연성이 저하되는 대가를 치르게 된다. 그러나, 여러 모델이 상이한
Figure pct00150
값들에 대하여 훈련될 수 있다. 이러한 방식으로,
Figure pct00151
의 선택에 대한 최종적인 유연성을 유지할 수 있다.
일 실시예에서, 신호 프로세서(130)은, 예를 들어, 하나 이상의 파라미터 값들에 기초하고, 또한 추정 타깃 신호의 후처리에 기초하여 분리된 오디오 신호를 생성하도록 구성될 수 있다.
도 4는 추가 실시예에 따른 장치를 도시한 것으로, 본 실시예에서는 음질의 추정 및 2차 분리가 수행된다.
먼저, 분리가 적용된다. 분리된 신호는 QEM에 대한 입력이다. 추정된 음질 요소는 2차 분리를 제어하기 위한 파라미터 세트를 계산하는데 사용된다. 2차 분리 에 대한 입력
Figure pct00152
은 입력 신호
Figure pct00153
또는 제1 분리의 출력
Figure pct00154
으로서, 둘의 선형 조합(
Figure pct00155
)이다. 여기서,
Figure pct00156
Figure pct00157
는 가중치 파라미터 또는 제1 분리의 중간 결과이다.
따라서, 이와 같은 실시예에서, 신호 프로세서(130)는, 예를 들어, 하나 이상의 파라미터 값에 기초하고 또한 추정 타깃 신호와 오디오 입력 신호의 선형 결합에 기초하여 분리된 오디오 신호를 생성하도록 구성될 수 있다. 또는, 신호 프로세서(130)는, 예를 들어, 하나 이상의 파라미터 값에 기초하고 또한 추정 타깃 신호와 추정 잔차 신호의 선형 결합에 기초하여 분리된 오디오 신호를 생성하도록 구성될 수 있다.
2차 분리를 제어하기 위한 적절한 파라미터는, 예를 들어, 스펙트럼 가중치를 수정하는 파라미터이다.
도 5는 다른 실시예에 따른 장치를 도시한 것으로서, 본 실시예에서는 분리 파라미터의 직접 추정이 수행된다.
먼저 분리가 적용된다. 분리된 신호는 PEM에 대한 입력이다. 추정된 파라미터는 2차 분리를 제어한다.
2차 분리에 대한 입력
Figure pct00158
은 입력 신호
Figure pct00159
또는 제1 분리의 출력
Figure pct00160
으로서, 둘의 선형 조합(
Figure pct00161
)이다. 여기서,
Figure pct00162
Figure pct00163
는 가중치 파라미터 또는 제1 분리의 중간 결과이다.
예를 들어, 다음의 파라미터들이 제어된다: 전술된, 수식 (5),(6)으로부터의
Figure pct00164
, 및
Figure pct00165
Figure pct00166
실시예에 따른 반복 프로세싱에 관하여, 도 4 및 도 5는 1회 반복을 통한 반복 프로세싱을 도시한다. 일반적으로, 이는 여러 번 반복될 수 있으며, 루프에서 구현될 수 있다.
반복 프로세싱 (그 사이에 품질 추정 없음)은 여러 분리를 결합하는 다른 이전 방법들과 매우 유사하다.
이러한 접근 방식은, 예를 들어, 여러 상이한 방법들을 결합하는데 적합할 수 있다 (이것이 하나의 방법을 반복하는 것보다 더 효과적임).
몇 개의 양태가 장치의 맥락에서 설명되었으나, 이러한 양태들은 이에 대응하는 방법의 설명 또한 나타내는 것임은 명백하다. 위 방법에서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 해당한다. 이와 유사하게, 방법 단계의 맥락에서 설명된 양태들은 또한 이에 대응되는 장치의 대응되는 블록 또는 아이템 또는 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전체 방법 단계는, 예컨대, 마이크로프로세서, 프로그램 작동 가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의하여 실행될 수 있다. 일부 실시예에서는, 가장 중요한 방법 단계들 중 하나 이상의 단계가 이러한 장치에 의하여 실행될 수 있다.
소정의 구현 요건에 기초하여, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있으며, 또는 적어도 부분적으로는 하드웨어로 또는 적어도 부분적으로는 소프트웨어로 구현될 수 있다. 구현은, 예컨대, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM, 또는 플래시 메모리와 같이 전자적으로 판독 가능한 제어 신호가 저장된 디지털 저장 매체를 사용하여 수행될 수 있다. 디지털 저장 매체는 각각의 방법이 수행되도록 프로그램 작동 가능한 컴퓨터 시스템과 협력(또는 협력 가능)한다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시예들은 전자적으로 판독 가능한 제어 신호를 가지는 데이터 캐리어를 포함한다. 이 데이터 캐리어는 본 명세서에서 설명된 방법 중 하나가 수행되도록 프로그램 작동 가능한 컴퓨터 시스템과 협력할 수 있다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 가지는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 전술된 방법 중 하나를 수행하도록 동작한다. 프로그램 코드는 예컨대 기계 판독 가능 캐리어에 저장될 수 있다.
다른 실시예들은 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다. 컴퓨터 프로그램은 기계 판독 가능 캐리어에 저장된다.
즉, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터상에서 실행될 때, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 가지는 컴퓨터 프로그램이다.
본 발명의 방법들의 추가 실시예는, 따라서, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 기록하여 포함하고 있는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어, 디지털 저장 매체, 또는 기록 매체는 일반적으로 유형적이고 및/또는 비일시적이다.
본 발명의 방법의 추가 실시예는, 따라서, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예컨대 데이터 통신 연결을 통하여, 예를 들어 인터넷을 통하여 전달되도록 구현될 수 있다.
추가적인 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위하여 구성되거나 또는 개조된, 예컨대 컴퓨터 또는 프로그램 작동 가능 로직 디바이스와 같은 프로세싱 수단을 포함한다.
추가 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 전송(예를 들어, 전자적으로 또는 광학적으로)하도록 구성된 장치 또는 시스템을 포함한다. 수신기는, 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은, 예를 들어, 수신기로 컴퓨터 프로그램을 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예에서는, 프로그램 작동 가능 로직 디바이스(예를 들어 필드 프로그램 작동 가능 게이트 어레이)가 본 명세서에서 설명된 방법들의 일부 또는 모든 기능들을 수행하기 위하여 사용될 수 있다. 일부 실시예에서는, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위하여 필드 프로그램 작동 가능 게이트 어레이가 마이크로프로세서와 협력할 수 있다. 일반적으로, 위 방법들은 바람직하게는 임의의 하드웨어 장치에 의하여 수행된다.
본 명세서에서 설명된 장치는 하드웨어 장치, 컴퓨터, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본 명세서에서 설명된 방법들은 하드웨어 장치, 컴퓨터, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
전술된 실시예들은 단지 본 발명의 원리에 대한 예시일 뿐이다. 본 명세서에서 설명된 방식 및 세부사항들의 수정 및 변경은 해당 기술분야의 당업자에게 자명한 것으로 이해된다. 따라서, 본 명세서의 실시예에 대한 개시 및 설명을 통하여 제시된 구체적인 세부 사항이 아닌, 특허 청구항의 범위에 의해서만 한정되어야 한다.
참고 문헌:
[1] E. Vincent, R. Gribonval, and C. Fevotte, "Performance measurement in blind audio source separation," IEEE Transactions on Audio, Speech and Language Processing, vol. 14, no. 4, pp. 1462-1469, 2006.
[2] V. Emiya, E. Vincent, N. Harlander, and V. Hohmann, "Subjective and objective quality assessment of audio source separation," IEEE Trans. Audio, Speech and Language Process., vol. 19, no. 7, 2011.
[3] R. Huber and B. Kollmeier, "PEMO-Q - a new method for objective audio quality assessment using a model of audatory perception," IEEE Trans. Audio, Speech and Language Process., vol. 14, 2006.
[4] ITU-R Rec. BS.1387-1, "Method for objective measurements of perceived audio quality," 2001.
[5] ITU-T Rec. P.862, "Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs," 2001.
[6] ITU-T Rec. P.862.1, "Mapping function for transforming P.862 raw results scores to MOS-LQO," 2003.
[7] A. Hines, E. Gillen et al., "ViSQOLAudio: An Objective Audio Quality Metric for Low Bitrate Codecs," J. Acoust. Soc. Am., vol. 137, no. 6, 2015.
[8] J. M. Kates and K. H. Arehart, "The Hearing-Aid Audio Quality Index (HAAQI)," IEEE Trans. Audio, Speech and Language Process., vol. 24, no. 2, 2016, evaluation code kindly provided by Prof. J.M. Kates.
[9] J. M. Kates and K. H. Arehart, "The Hearing-Aid Speech Quality Index (HASQI) version 2," Journal of the Audio Engineering Society, vol. 62, no. 3, pp. 99-117, 2014.
[10] J. M. Kates and K. H. Arehart, "The Hearing-Aid Speech Perception Index (HASPI)," Speech Communication, vol. 65, pp. 75-93, 2014.
[11] C. Taal, R. Hendriks, R. Heusdens, and J. Jensen, "An algorithm for intelligibility prediction of time-frequency weighted noisy speech," IEEE Trans. Audio, Speech and Language Process., vol. 19, no. 7, 2011.
[12] E. Manilow, P. Seetharaman, F. Pishdadian, and B. Pardo, "Predicting algorithm efficacy for adaptive multi-cue source separation," in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2017 IEEE Workshop on, 2017, pp. 274-278.
[13] M. Cartwright, B. Pardo, G. J. Mysore, and M. Hoffman, "Fast and easy crowdsourced perceptual audio evaluation," in Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on, 2016.
[14] S.-W. Fu, T.-W. Wang, Y. Tsao, X. Lu, and H. Kawai, "End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks," IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 26, no. 9, 2018.
[15] Y. Koizumi, K. Niwa, Y. Hioka, K. Koabayashi, and Y. Haneda, "Dnn-based source enhancement to increase objective sound quality assessment score," IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018.
[16] Y. Zhao, B. Xu, R. Giri, and T. Zhang, "Perceptually guided speech enhancement using deep neural networks," in Acoustics, Speech and Signal Processing (ICASSP), 2018 IEEE International Conference on, 2018.
[17] Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda, "Dnn-based source enhancement self-optimized by reinforcement learning using sound quality measurements," in Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on, 2017.
[18] J. Jensen and M. S. Pedersen, "Audio processing device comprising artifact reduction," US Patent US 9,432,766 B2, Aug. 30, 2016.

Claims (17)

  1. 오디오 입력 신호로부터 분리된 오디오 신호를 생성하는 장치로서, 상기 오디오 입력 신호는 타깃 오디오 신호 부분과 잔차 오디오 신호 부분을 포함하며, 상기 잔차 오디오 신호 부분은 상기 오디오 입력 신호와 상기 타깃 오디오 신호 부분 사이의 잔차(residual)를 나타내는 상기 장치에 있어서,
    상기 오디오 입력 신호에 의존하는 추정 타깃 신호를 결정하는 소스 분리기(110)로서, 상기 추정 타깃 신호는 상기 타깃 오디오 신호 부분만을 포함하는 신호의 추정인 상기 소스 분리기(110),
    하나 이상의 파라미터 값을 획득하기 위하여 상기 추정 타깃 신호의 추정 음질을 기초로 하나 이상의 결과 값을 결정하도록 구성되는 결정 모듈(120)로서, 상기 하나 이상의 파라미터 값은 상기 하나 이상의 결과 값이거나 또는 상기 하나 이상의 결과 값에 기초하는 상기 결정 모듈(120), 및
    상기 하나 이상의 파라미터 값에 기초하고, 또한 상기 추정 타깃 신호와 상기 오디오 입력 신호와 추정 잔차 신호 중 적어도 하나에 기초하여 상기 분리된 오디오 신호를 생성하는 신호 프로세서(130)로서, 상기 추정 잔차 신호는 상기 잔차 오디오 신호 부분만을 포함하는 신호의 추정인 상기 신호 프로세서(130)를 포함하는 장치.
  2. 제1항에 있어서,
    상기 결정 모듈(120)은 상기 추정 타깃 신호의 상기 추정 음질을 기초로, 상기 하나 이상의 파라미터 값으로서 제어 파라미터를 결정하도록 구성되고,
    상기 신호 프로세서는 상기 제어 파라미터에 기초하고, 또한 상기 추정 타깃 신호와 상기 오디오 입력 신호와 상기 추정 잔차 신호 중 적어도 하나에 기초하여 상기 분리된 오디오 신호를 결정하도록 구성되는 장치.
  3. 제2항에 있어서,
    상기 신호 프로세서(130)는 다음에 기초하여 상기 분리된 오디오 신호를 결정하도록 구성되는 장치:
    Figure pct00167
    ,
    또는,
    Figure pct00168
    .
    (여기서,
    Figure pct00169
    는 상기 분리된 오디오 신호,
    Figure pct00170
    는 상기 추정 타깃 신호,
    Figure pct00171
    는 상기 오디오 입력 신호,
    Figure pct00172
    는 상기 추정 잔차 신호,
    Figure pct00173
    는 상기 제어 파라미터, 및
    Figure pct00174
    은 인덱스임)
  4. 제2항 또는 제3항에 있어서,
    상기 결정 모듈(120)은 상기 추정 타깃 신호와 상기 오디오 입력 신호와 상기 추정 잔차 신호 중 적어도 하나를 기초로, 상기 하나 이상의 결과값으로서 음질 값을 추정하도록 구성되고, 상기 음질 값은 상기 추정 타깃 신호의 상기 추정 음질을 나타내며,
    상기 결정 모듈(120)은 상기 음질 값을 기초로 상기 하나 이상의 파라미터 값을 결정하도록 구성되는 장치.
  5. 제4항에 있어서,
    상기 신호 프로세서(130)는 상기 분리된 오디오 신호의 제1 버전을 결정하는 것을 통하여 또한 상기 분리된 오디오 신호의 하나 이상의 중간 버전을 획득하기 위하여 상기 분리된 오디오 신호를 한번 이상 수정하는 것을 통하여 상기 분리된 오디오 신호를 생성하도록 구성되고,
    상기 결정 모듈(120)은 상기 분리된 오디오 신호의 하나 이상의 중간 값 중 하나를 기초로 상기 음질 값을 수정하도록 구성되고,
    상기 신호 프로세서(130)는 상기 음질 값이 정의된 품질 값보다 크거나 또는 같으면 상기 분리된 오디오 신호를 수정하는 것을 중지하도록 구성되는 장치.
  6. 이전 청구항 중 하나에 있어서,
    상기 결정 모듈(120)은 상기 추정 타깃 신호에 기초하고 또한 상기 오디오 입력 신호와 상기 추정 잔차 신호 중 적어도 하나에 기초하여 상기 하나 이상의 결과 값을 결정하도록 구성되는 장치.
  7. 이전 청구항 중 하나에 있어서,
    상기 결정 모듈(120)은 상기 추정 타깃 신호를 기초로 상기 하나 이상의 결과 값을 결정하기 위한 인공 신경망(125)을 포함하고, 상기 인공 신경망(125)은 복수의 입력 값을 수신하도록 구성되며, 상기 복수의 입력 값 각각은 상기 추정 타깃 신호와 상기 추정 잔차 신호와 상기 오디오 입력 신호 중 적어도 하나에 기초하고, 상기 인공 신경망(125)은 상기 인공 신경망(125)의 하나 이상의 출력 값으로서 상기 하나 이상의 결과 값을 결정하도록 구성되는 장치.
  8. 제7항에 있어서,
    상기 복수의 입력 값 각각은 상기 추정 타깃 신호와 상기 추정 잔차 신호와 상기 오디오 입력 신호 중 적어도 하나에 기초하고,
    상기 하나 이상의 결과 값은 상기 추정 타깃 신호의 상기 추정 음질을 나타내는, 장치.
  9. 제7항에 있어서,
    상기 복수의 입력 값 각각은 상기 추정 타깃 신호와 상기 추정 잔차 신호와 상기 오디오 입력 신호 중 적어도 하나에 기초하고,
    상기 하나 이상의 결과 값은 상기 하나 이상의 파라미터 값인, 장치.
  10. 제7항 내지 제9항 중 하나에 있어서,
    상기 인공 신경망(125)은 복수의 훈련 세트를 수신하는 것을 통하여 훈련되도록 구성되며, 상기 복수의 훈련 세트의 각각은 상기 인공 신경망(125)의 복수의 입력 훈련 값과 상기 인공 신경망(125)의 하나 이상의 출력 훈련 값을 포함하고, 복수의 상기 출력 훈련 값 각각은 훈련 타깃 신호와 훈련 잔차 신호와 훈련 입력 신호 중 적어도 하나에 기초하고, 상기 하나 이상의 출력 훈련 값 각각은 상기 훈련 타깃 신호의 음질의 추정에 기초하는, 장치.
  11. 제10항에 있어서,
    상기 훈련 타깃 신호의 음질의 추정은 하나 이상의 음질 계산 모델에 기초하는, 장치.
  12. 제11항에 있어서,
    상기 하나 이상의 음질 계산 모델은 다음 중 적어도 하나인, 장치:
    블라인드 소스 분리 평가(Blind Source Separation Evaluation),
    오디오 소스 분리를 위한 지각적 평가 방법(Perceptual Evaluation methods for Audio Source Separation),
    오디오 품질의 지각적 평가(Perceptual Evaluation of Audio Quality),
    스피치 품질의 지각적 평가(Perceptual Evaluation of Speech Quality),
    가상 스피치 품질 목표 청취자 오디오(Virtual Speech Quality Objective Listener Audio),
    보청기 오디오 품질 인덱스(Hearing-Aid Audio Quality Index),
    보청기 스피치 품질 인덱스(Hearing-Aid Speech Quality Index),
    보청기 스피치 지각 인덱스(Hearing-Aid Speech Perception Index), 및
    단시간 목표 명료도(Short-Time Objective Intelligibility).
  13. 제7항 내지 제12항 중 하나에 있어서,
    상기 인공 신경망(125)은 상기 추정 타깃 신호에 기초하고 또한 상기 오디오 입력 신호와 상기 추정 잔차 신호 중 적어도 하나에 기초하여 상기 하나 이상의 결과 값을 결정하도록 구성되는 장치.
  14. 이전 청구항 중 하나에 있어서,
    상기 신호 프로세서(130)는 상기 하나 이상의 파라미터 값에 기초하고 또한 상기 추정 타깃 신호의 후처리(post-processing)를 기초로 상기 분리된 오디오 신호를 생성하도록 구성되는 장치.
  15. 이전 청구항 중 하나에 있어서,
    상기 신호 프로세서(130)는 상기 하나 이상의 파라미터 값에 기초하고 또한 상기 추정 타깃 신호와 상기 오디오 입력 신호의 선형 결합(linear combination)에 기초하여 상기 분리된 오디오 신호를 생성하도록 구성되거나, 또는
    상기 신호 프로세서(130)는 상기 하나 이상의 파라미터 값에 기초하고 또한 상기 추정 타깃 신호와 상기 추정 잔차 신호의 선형 결합에 기초하여 상기 분리된 오디오 신호를 생성하도록 구성되는 장치.
  16. 오디오 입력 신호로부터 분리된 오디오 신호를 생성하는 방법으로서, 상기 오디오 입력 신호는 타깃 오디오 신호 부분과 잔차 오디오 신호 부분을 포함하며, 상기 잔차 오디오 신호 부분은 상기 오디오 입력 신호와 상기 타깃 오디오 신호 부분 사이의 잔차를 나타내는, 상기 방법에 있어서,
    상기 오디오 입력 신호에 의존하는 추정 타깃 신호를 결정하는 단계로서, 상기 추정 타깃 신호는 상기 타깃 오디오 신호 부분만을 포함하는 신호의 추정인 단계,
    하나 이상의 파라미터 값을 획득하기 위하여 상기 추정 타깃 신호의 추정 음질을 기초로 하나 이상의 결과 값을 결정하는 단계로서, 상기 하나 이상의 파라미터 값은 상기 하나 이상의 결과 값이거나 또는 상기 하나 이상의 결과 값에 기초하는 단계, 및
    상기 하나 이상의 파라미터 값에 기초하고 또한 상기 추정 타깃 신호와 상기 오디오 입력 신호와 추정 잔차 신호 중 적어도 하나에 기초하여 상기 분리된 오디오 신호를 생성하는 단계로서, 상기 추정 잔차 신호는 상기 잔차 오디오 신호 부분만을 포함하는 신호의 추정인 단계를 포함하는 방법.
  17. 컴퓨터 또는 신호 프로세서에서 실행될 때, 제16항의 방법을 수행하기 위한 컴퓨터 프로그램.
KR1020217023148A 2018-12-21 2019-12-20 음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법 KR102630449B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18215707.3 2018-12-21
EP18215707.3A EP3671739A1 (en) 2018-12-21 2018-12-21 Apparatus and method for source separation using an estimation and control of sound quality
PCT/EP2019/086565 WO2020127900A1 (en) 2018-12-21 2019-12-20 Apparatus and method for source separation using an estimation and control of sound quality

Publications (2)

Publication Number Publication Date
KR20210110622A true KR20210110622A (ko) 2021-09-08
KR102630449B1 KR102630449B1 (ko) 2024-01-31

Family

ID=65011753

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217023148A KR102630449B1 (ko) 2018-12-21 2019-12-20 음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법

Country Status (10)

Country Link
US (1) US20210312939A1 (ko)
EP (2) EP3671739A1 (ko)
JP (1) JP7314279B2 (ko)
KR (1) KR102630449B1 (ko)
CN (1) CN113574597B (ko)
BR (1) BR112021012308A2 (ko)
CA (1) CA3124017C (ko)
ES (1) ES2966063T3 (ko)
MX (1) MX2021007323A (ko)
WO (1) WO2020127900A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116997962A (zh) * 2020-11-30 2023-11-03 杜比国际公司 基于卷积神经网络的鲁棒侵入式感知音频质量评估
CN113470689B (zh) * 2021-08-23 2024-01-30 杭州国芯科技股份有限公司 一种语音分离方法
AU2022379024A1 (en) * 2021-10-27 2024-05-30 WingNut Films Productions Limited Audio source separation processing workflow systems and methods
US11763826B2 (en) 2021-10-27 2023-09-19 WingNut Films Productions Limited Audio source separation processing pipeline systems and methods
US20230126779A1 (en) * 2021-10-27 2023-04-27 WingNut Films Productions Limited Audio Source Separation Systems and Methods
CN113850246B (zh) * 2021-11-30 2022-02-18 杭州一知智能科技有限公司 基于对偶一致网络的声源定位与声源分离的方法和系统
CN117475360B (zh) * 2023-12-27 2024-03-26 南京纳实医学科技有限公司 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080059147A (ko) * 2005-07-22 2008-06-26 소프트맥스 인코퍼레이티드 노이즈 환경에서 스피치 신호의 강건한 분리
KR20170101629A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 스테레오 오디오 신호 기반의 다국어 오디오 서비스 제공 장치 및 방법
KR20180054823A (ko) * 2015-09-25 2018-05-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더 및 방법

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808571A (zh) * 2005-01-19 2006-07-26 松下电器产业株式会社 声音信号分离系统及方法
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
DE102011084035A1 (de) * 2011-10-05 2013-04-11 Nero Ag Vorrichtung, verfahren und computerprogramm zur bewertung einer wahrgenommenen audioqualität
EP2747081A1 (en) 2012-12-18 2014-06-25 Oticon A/s An audio processing device comprising artifact reduction
KR101984115B1 (ko) * 2013-03-05 2019-05-31 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 신호 처리를 위한 다채널 다이렉트-앰비언트 분해를 위한 장치 및 방법
EP2790419A1 (en) * 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
GB2516483B (en) * 2013-07-24 2018-07-18 Canon Kk Sound source separation method
WO2015097829A1 (ja) * 2013-12-26 2015-07-02 株式会社東芝 方法、電子機器およびプログラム
EP3252766B1 (en) * 2016-05-30 2021-07-07 Oticon A/s An audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
WO2016033269A1 (en) * 2014-08-28 2016-03-03 Analog Devices, Inc. Audio processing using an intelligent microphone
US10397711B2 (en) * 2015-09-24 2019-08-27 Gn Hearing A/S Method of determining objective perceptual quantities of noisy speech signals
EP3220661B1 (en) * 2016-03-15 2019-11-20 Oticon A/s A method for predicting the intelligibility of noisy and/or enhanced speech and a binaural hearing system
EP3453187B1 (en) * 2016-05-25 2020-05-13 Huawei Technologies Co., Ltd. Audio signal processing stage, audio signal processing apparatus and audio signal processing method
US10861478B2 (en) * 2016-05-30 2020-12-08 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
CN106531190B (zh) * 2016-10-12 2020-05-05 科大讯飞股份有限公司 语音质量评价方法和装置
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
EP3474280B1 (en) * 2017-10-19 2021-07-07 Goodix Technology (HK) Company Limited Signal processor for speech signal enhancement
CN107993671A (zh) * 2017-12-04 2018-05-04 南京地平线机器人技术有限公司 声音处理方法、装置和电子设备
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080059147A (ko) * 2005-07-22 2008-06-26 소프트맥스 인코퍼레이티드 노이즈 환경에서 스피치 신호의 강건한 분리
KR20180054823A (ko) * 2015-09-25 2018-05-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 선형 예측 코딩을 사용하여 감소된 배경 잡음을 갖는 오디오 신호를 인코딩하기 위한 인코더 및 방법
KR20170101629A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 스테레오 오디오 신호 기반의 다국어 오디오 서비스 제공 장치 및 방법

Also Published As

Publication number Publication date
CA3124017C (en) 2024-01-16
WO2020127900A1 (en) 2020-06-25
KR102630449B1 (ko) 2024-01-31
EP3899936C0 (en) 2023-09-06
CN113574597A (zh) 2021-10-29
EP3899936B1 (en) 2023-09-06
CN113574597B (zh) 2024-04-12
EP3671739A1 (en) 2020-06-24
BR112021012308A2 (pt) 2021-09-08
CA3124017A1 (en) 2020-06-25
ES2966063T3 (es) 2024-04-18
JP2022514878A (ja) 2022-02-16
MX2021007323A (es) 2021-08-24
EP3899936A1 (en) 2021-10-27
JP7314279B2 (ja) 2023-07-25
US20210312939A1 (en) 2021-10-07

Similar Documents

Publication Publication Date Title
KR102630449B1 (ko) 음질의 추정 및 제어를 이용한 소스 분리 장치 및 방법
JP5341983B2 (ja) サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置
EP1253581B1 (en) Method and system for speech enhancement in a noisy environment
JP5674827B2 (ja) 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム
Ma et al. Speech enhancement using a masking threshold constrained Kalman filter and its heuristic implementations
US20230087486A1 (en) Method and apparatus for processing an initial audio signal
WO2020016440A1 (en) Systems and methods for modifying an audio signal using custom psychoacoustic models
KR102556098B1 (ko) 심리음향 기반 가중된 오류 함수를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 오디오 신호 복호화 방법 및 장치
EP2943954B1 (en) Improving speech intelligibility in background noise by speech-intelligibility-dependent amplification
Kates Modeling the effects of single-microphone noise-suppression
JP2005531811A (ja) 音声の聴覚明瞭度分析を実施する方法
US20090161882A1 (en) Method of Measuring an Audio Signal Perceived Quality Degraded by a Noise Presence
Záviška et al. Psychoacoustically motivated audio declipping based on weighted l 1 minimization
US11224360B2 (en) Systems and methods for evaluating hearing health
Ghorpade et al. Single-channel speech enhancement using single dimension change accelerated particle swarm optimization for subspace partitioning
RU2782364C1 (ru) Устройство и способ отделения источников с использованием оценки и управления качеством звука
Delgado et al. A data-driven cognitive salience model for objective perceptual audio quality assessment
Li et al. Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement
Langjahr et al. Objective quality assessment of target speaker separation performance in multisource reverberant environment
Mahé et al. Correction of the voice timbre distortions in telephone networks: method and evaluation
Rohdenburg et al. Subband-based parameter optimization in noise reduction schemes by means of objective perceptual quality measures
Freiwald et al. Loss Functions for Deep Monaural Speech Enhancement

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right