KR20200028852A - 암묵 신호 분리를 위한 방법, 장치 및 전자 장치 - Google Patents

암묵 신호 분리를 위한 방법, 장치 및 전자 장치 Download PDF

Info

Publication number
KR20200028852A
KR20200028852A KR1020190109632A KR20190109632A KR20200028852A KR 20200028852 A KR20200028852 A KR 20200028852A KR 1020190109632 A KR1020190109632 A KR 1020190109632A KR 20190109632 A KR20190109632 A KR 20190109632A KR 20200028852 A KR20200028852 A KR 20200028852A
Authority
KR
South Korea
Prior art keywords
modeling
sound source
signal
signal separation
tacit
Prior art date
Application number
KR1020190109632A
Other languages
English (en)
Other versions
KR102194194B1 (ko
Inventor
후 유시앙
주 창바오
Original Assignee
난징 호라이즌 로보틱스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 난징 호라이즌 로보틱스 테크놀로지 컴퍼니 리미티드 filed Critical 난징 호라이즌 로보틱스 테크놀로지 컴퍼니 리미티드
Publication of KR20200028852A publication Critical patent/KR20200028852A/ko
Application granted granted Critical
Publication of KR102194194B1 publication Critical patent/KR102194194B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

암묵 신호 분리를 위한 방법 및 장치와 전자 장치가 개시된다. 이 방법은 복잡한 가우시안 분포로 음원을 모델링하여 음원의 확률 밀도 분포를 결정하는 단계; 확률 밀도 분포에 기초하여 암묵 신호 분리 모델을 업데이트하는 단계; 및 업데이트된 암묵 신호 분리 모델로 오디오 신호를 분리하여 복수의 분리된 출력 신호를 얻는 단계를 포함한다. 이러한 방식으로, 암묵 신호 분리 모델은 복잡한 가우시안 분포에 기초하여 획득된 음원의 확률 밀도 분포를 통해 업데이트될 수 있으며, 이에 따라 특정 시나리오에서 암묵 신호 분리 알고리즘의 분리 성능을 효과적으로 개선 할 수 있다.

Description

암묵 신호 분리를 위한 방법, 장치 및 전자 디바이스{METHOD, APPARATUS FOR BLIND SIGNAL SEPERATING AND ELECTRONIC DEVICE}
본 개시는 오디오 신호 프로세싱 기술에 관한 것이고, 더 상세하게는, 암묵 신호를 분리하기 위한 방법, 암묵 신호를 분리하기 위한 장치 및 전자 디바이스에 관한 것이다.
"칵테일 파티"는 스피치 향상 시스템들에서 가장 어려운 문제들 중 하나이며, 그 어려움은, 음악, 차량 잡음 및 다른 인간 음성들을 포함하는 잡음있는 환경으로부터 원하는 화자의 스피치 신호를 분리하고 추출해야 하나든 요구에 있다. 반면, 인간 청각 시스템은 이러한 환경으로부터 관심있는 오디오 신호를 쉽게 추출할 수 있다.
기존의 솔루션은 인간의 청각 시스템을 시뮬레이트하기 위해, 즉, 특정 음원으로부터의 음향을 인식하고 향상시키기 위해 암묵 신호 분리 시스템을 사용하는 것이다.
그러나, 기존의 암묵 신호 분리 시스템에는 특정 시나리오에 대한 적응가능성과 같은 문제점이 여전히 존재한다. 예를 들어, 다변량 라플라스 분포(multivariate Laplace distribution)에 기초한 암묵 신호 분리 알고리즘은 대부분의 음향 신호들에 적용될 수 있고 실시간 프로세싱 시나리오로 확장될 수 있지만, 고조파 구조를 갖는 음악 신호들과 같은 특정 스펙트럼 구조를 갖는 일부 신호들에 대해 다변량 라플라스 모델은 이러한 신호들을 잘 설명할 수 없다. 추가로, 고조파 모델에 기초한 암묵 신호 분리 알고리즘은 음성 및 음악의 혼합 신호를 효과적으로 분리할 수 있지만, 고조파 모델의 경우, 분리 신호들의 분산은 1인 것으로 가정되고, 이는 화이트닝(whitening) 동작을 요구하고, 따라서 이는 오직 오프라인 시나리오에 대해서만 적합하며 실시간 프로세싱 시나리오로 확장될 수 없다.
따라서, 개선된 암묵 신호 분리 솔루션을 제공하는 것이 여전히 바람직하다.
상기 기술적 문제점들을 해결하기 위해, 본 개시가 제공된다. 본 개시의 실시예들은 복소 가우시안 분포에 기초하여 획득된 음원의 확률 밀도 분포에 의해 암묵 신호 분리 모델을 업데이트하여 특정 시나리오에서 암묵 신호 분리 알고리즘의 분리 성능을 효과적으로 개선하는 암묵 신호 분리를 위한 방법 및 장치, 전자 디바이스를 제공한다.
본 개시의 일 양상에 따르면, 암묵 신호 분리를 위한 방법이 개시되며, 방법은, 음원의 확률 밀도 분포를 결정하기 위해 복소 가우시안 분포에 의해 음원을 모델링하는 단계; 확률 밀도 분포에 기초하여 암묵 신호 분리 모델을 업데이트하는 단계; 및 복수의 분리된 출력 신호들을 획득하기 위해 업데이트된 암묵 신호 분리 모델에 의해 오디오 신호를 분리하는 단계를 포함한다.
본 개시의 일 양상에 따르면, 암묵 신호 분리를 위한 장치가 개시되며, 장치는, 음원의 확률 밀도 분포를 결정하기 위해 복소 가우시안 분포에 의해 음원을 모델링하도록 구성되는 모델링 유닛; 음원의 확률 밀도 분포에 기초하여 암묵 신호 분리 모델을 업데이트하도록 구성되는 업데이트 유닛; 및 복수의 분리된 출력 신호들을 획득하기 위해 업데이트된 암묵 신호 분리 모델에 의해 오디오 신호를 분리하도록 구성되는 분리 유닛을 포함한다.
본 개시의 다른 양상에 따르면, 프로세서 및 컴퓨터 프로그램 명령들이 저장된 메모리를 포함하는 전자 디바이스가 개시되고, 컴퓨터 프로그램 명령들은 실행되는 경우, 프로세서가 앞서 설명된 바와 같은 암묵 신호 분리를 위한 방법을 수행할 수 있게 한다.
본 개시의 또 다른 양상에 따르면, 컴퓨터 프로그램 명령들이 저장된 컴퓨터 판독가능 저장 매체가 개시되고, 컴퓨터 프로그램 명령들은 실행되는 경우, 프로세서가 앞서 설명된 바와 같은 암묵 신호 분리를 위한 방법을 수행할 수 있게 한다.
종래 기술에 비해, 본 개시에 의해 제공되는 암묵 신호 분리를 위한 방법, 암묵 신호 분리를 위한 장치 및 전자 디바이스는 음원의 확률 밀도 분포를 결정하기 위해 복소 가우시안 분포에 의해 음원을 모델링하고; 음원의 확률 밀도 분포에 기초하여 암묵 신호 분리 모델을 업데이트하고; 복수의 분리된 출력 신호들을 획득하기 위해 암묵 신호 분리 모델에 의해 오디오 신호를 분리할 수 있다. 이러한 방식으로, 고조파 구조들을 갖는 음악 신호의 실시간 분리의 경우와 같은 특정 시나리오에서 암묵 신호 분리 알고리즘의 분리 수행은 효과적으로 개선될 수 있다.
본 개시의 상기 및 다른 목적들, 특징들 및 이점들은, 본 개시의 실시예들을 첨부된 도면들을 참조하여 더 상세히 설명함으로써 더 자명해질 것이다. 도면들은 본 개시의 실시예들의 추가적 이해를 제공하도록 사용되고 본 명세서의 일부를 구성하며, 도면들은 본 개시의 실시예들과 함께, 본 개시를 설명하기 위해 사용되며 제한을 구성하지 않는다. 도면들에서, 동일한 참조 부호들은 일반적으로 동일한 부분 또는 단계를 지칭한다.
도 1은 본 개시의 일 실시예에 따른 암묵 신호 분리를 위한 방법의 적용 시나리오의 개략도를 도시한다.
도 2는 본 개시의 일 실시예에 따른 암묵 신호 분리를 위한 방법의 흐름도를 도시한다.
도 3은 오프라인 모델링에 대응하는 전체-감독되는 암묵 신호 분리 시스템의 개략도를 도시한다.
도 4는 온라인 모델링에 대응하는 실시간 암묵 신호 분리 시스템의 개략도를 도시한다.
도 5는 오프라인 모델링 및 온라인 모델링의 조합에 대응하는 반-감독되는 실시간 암묵 신호 분리 시스템의 개략도를 도시한다.
도 6은 본 개시의 일 실시예에 따른 암묵 신호 분리를 위한 장치의 블록도를 도시한다.
도 7은 본 개시의 일 실시예에 따른 전자 디바이스의 블록도를 도시한다.
이하, 도면들을 참조하여 본 개시내용의 실시예가 상세히 설명될 것이다. 물론, 설명되는 실시예들은 본 개시의 실시예들의 오직 일부이며, 본 개시의 모든 실시예들은 아니며, 본 개시는 본 명세서에 설명된 예시적인 실시예들에 의해 제한되지 않음을 이해해야 한다.
본 개시의 요약
앞서 설명된 바와 같이, 암묵 신호 분리를 위한 기존의 시스템은 특정 시나리오에 대한 적응가능성과 같은 결함들을 갖는다. 그 이유는, 기존의 암묵 신호 분리 알고리즘이 다변량 라플라스 분포에 기초한 다변량 라플라스 모델을 사용하며, 이는 대부분의 음향 신호들에 적용될 수 있고 실시간 프로세싱 시나리오로 확장될 수 있지만, 고조파 구조들을 갖는 음악 신호들과 같은 특정 스펙트럼 구조들을 갖는 일부 신호들에 대해 다변량 라플라스 모델이 이러한 신호들을 잘 설명할 수 없기 때문이다. 다른 측면에서, 수퍼-가우시안 분포를 채택한 고조파 모델이 사용되면, 음성 및 음악의 혼합 신호들이 효과적으로 분리될 수 있지만, 고조파 모델은 분리된 신호들의 1의 분산을 갖는 것으로 가정되고, 이는 화이트닝 동작을 수행하도록 요구되고, 따라서 이는 오직 오프라인 시나리오에 대해서만 적합하며 실시간 프로세싱 시나리오로 확장될 수 없다.
상기 기술적 문제점들에 기초하여, 본 개시의 기본 개념은 복소 가우시안 분포(complex Gaussian distribution)에 기초하여 모델링하고 종래의 분리 알고리즘에서 다변량 라플라스 모델 또는 고조파 모델을 대체하는 것이다. 특정 적용 시나리오에 따르면, 모델링 프로세스는 오프라인 모델링 또는 온라인 모델링일 수 있고, 암묵 신호 분리 모델은 모델링에 기초하여 반복적으로 업데이트되어, 특정 시나리오에서 암묵 신호 분리 알고리즘의 분리 성능을 개선한다.
구체적으로, 본 개시에 의해 제공되는 암묵 신호 분리를 위한 방법, 암묵 신호 분리를 위한 장치 및 전자 디바이스는 먼저, 음원의 확률 밀도 분포를 결정하기 위해 복소 가우시안 분포를 사용함으로써 음원을 모델링하고; 그 다음, 음원의 확률 밀도 분포에 기초하여 암묵 신호 분리 모델을 업데이트하고; 마지막으로 복수의 분리된 출력 신호들을 획득하기 위해 암묵 신호 분리 모델을 사용함으로써 오디오 신호를 분리한다. 따라서, 고조파 구조들을 갖는 음악 신호들의 실시간 분리의 경우와 같은 특정 시나리오에서 암묵 신호 분리 알고리즘의 분리 수행은 효과적으로 개선될 수 있다.
본 개시의 기본적 원리들을 소개한 후, 아래에서 도면들을 참조하여 본 개시의 다양한 비제한적인 실시예들이 구체적으로 설명될 것이다.
예시적인 시스템
도 1은 본 개시의 일 실시예에 따른 암묵 신호 분리 기술의 적용 시나리오의 개략도를 도시한다.
도 1에 도시된 바와 같이, 암묵 신호 분리 시스템(S110)은 복수의 음원들(110-1, 110-2, ..., 110-N)로부터 음향 신호들을 수신할 수 있고, 각각의 음원은 공지된 음원, 예를 들어, 음악 음원, 스피치 음원, 환경 잡음 등일 수 있거나 또는 공지되지 않은 음원일 수 있는데, 즉, 음원의 유형이 공지되지 않는다.
암묵 신호 분리 시스템(S110)은 특정 화자로부터의 스피치와 같은 특정 음원으로부터의 음향을 인식하고 향상시키기 위해 암묵 신호 분리 모델을 활용할 수 있다. 아래에서 상세히 설명되는 바와 같이, 암묵 신호 분리 모델은 복소 가우시안 분포에 기초한 모델일 수 있다. 음원 유형이 공지된 경우, 동일한 유형의 깨끗한 음성 신호가 오프라인 모델링을 위해 사용될 수 있고; 한편, 음원 유형이 공지되지 않으면, 온라인 모델링 및 반복적으로 모델을 업데이트하는 모드가 사용될 수 있다.
각각의 음원으로부터의 혼합 음성 신호가 암묵 신호 분리 모델에 의해 분리된 후, 복수의 분리된 출력 음성 신호들(S1, S2...SM-1)이 생성되고, 그로부터 사용자는 원하는 음성 신호를 선택하고 향상시킬 수 있다.
다음으로, 본 개시의 실시예에 따른 암묵 신호 분리를 위한 방법의 특정 예가 상세히 설명될 것이다.
예시적인 방법
도 2는 본 개시의 일 실시예에 따른 암묵 신호 분리를 위한 방법의 흐름도를 도시한다.
도 2에 도시된 바와 같이, 본 개시의 실시예에 따른 암묵 신호 분리를 위한 방법은, 음원의 확률 밀도 분포를 결정하기 위해 복소 가우시안 분포를 사용함으로써 음원을 모델링하는 단계(S210); 확률 밀도 분포에 기초하여 암묵 신호 분리 모델을 업데이트하는 단계(S220); 및 복수의 분리된 출력 신호들을 획득하기 위해 업데이트된 암묵 신호 분리 모델을 사용함으로써 오디오 신호를 분리하는 단계(S230)를 포함할 수 있다.
단계(S210)에서, 음원의 확률 밀도 분포를 결정하기 위해 복소 가우시안 분포를 사용함으로써 음원을 모델링하는 단계가 수행된다. 모델링 단계는 다양한 모드들에서 수행될 수 있다. 예를 들어, 각각의 음원의 유형이 공지된 경우, 각각의 음원의 확률 밀도 분포를 결정하기 위한 오프라인 모델링을 위해 동일한 유형의 음원으로부터 깨끗한 오디오 신호가 미리 활용될 수 있다. 오프라인 모델링의 하나의 이점은, 공지된 유형의 깨끗한 음성 신호가 모델링을 위해 사용되기 때문에 모델링 효율이 높고 분리 효과가 양호하다는 점이다. 그러나, 오프라인 모델링은, 분리될 암묵 신호의 음원 유형이 미리 공지되지 않은 경우에는 적합하지 않다. 이러한 경우, 온라인 모델링이 사용될 수 있다. 온라인 모델링에서, 암묵 신호를 분리하기 위해 초기 모델이 사용될 수 있고, 그 다음 분리된 신호들에 대응하는 음원의 확률 밀도 분포를 결정하기 위해 분리된 신호들에 대해 온라인 모델링이 수행될 수 있다. 다른 경우들에서, 오프라인 모델링 및 온라인 모델링의 조합 모드가 또한 사용될 수 있다. 예를 들어, 이러한 모드는, 암묵 신호들의 음원 유형들 중 일부가 공지되지만 다른 음원 유형들이 공지되지 않은 경우 사용될 수 있다. 구체적으로, 공지된 음원 유형의 깨끗한 오디오 신호는 오프라인 모델링에 대해 사용되는 한편, 온라인 모델링은 공지되지 않은 음원 유형에 대해 사용되고, 모델링 프로세스는, 각각의 음원의 확률 밀도 분포를 결정하기 위해, 상기 오프라인 모델링 및 온라인 모델링의 프로세스와 동일하다.
다음으로, 단계(S220)에서, 암묵 신호 분리 모델은 각각의 음원의 확률 밀도 분포를 사용함으로써 결정 또는 업데이트될 수 있다. 본 개시의 일 실시예에서, 암묵 신호 분리 모델의 비용 함수 QBSS가 다음과 같이 표현될 수 있고:
Figure pat00001
여기서 W(k)는 k번째 주파수 포인트에 대한 분리 모델이고, yi는 i번재 음원에 대한 분리된 신호들을 표현하고, G(yi)는 콘트라스트 함수이고 log q(yi)로서 표현되며, q(yi)는 i번째 음원의 확률 밀도 분포이다. 본 개시의 일 실시예에서, 앞서 설명된 바와 같이, 확률 밀도 분포 q(yi)는 종래의 모델에서 다변량 라플라스 분포 또는 수퍼-가우시안 분포 대신 복소 가우시안 분포를 사용한다. 단계(S210)에서 음원을 모델링하는 것을 통해, 각각의 음원의 복소 가우시안 분포 q(yi)의 파라미터들, 예를 들어, 분산이 결정될 수 있다. 그리고 그 다음, 비용 함수 QBSS를 사용하여, 분리 모델 W가 결정될 수 있다. 단계(S220에서, 분리 모델 W는 음원의 확률 밀도 분포에 기초하여 결정될 수 있고 원래 사용된 분리 모델을 업데이트하기 위해 사용될 수 있다.
그 다음, 단계(S230)에서, 복수의 출력 신호들을 획득하기 위해 암묵 신호 분리 모델 W를 사용함으로써 오디오 신호가 분리될 수 있다. 분리 단계(S230)에서, 주파수 도메인에서 암묵 신호 분리 모델에 의한 분리를 수행하기 위해, 암묵 신호는 단기 푸리에 변환(short-time Fourier transform)에 의해 주파수 도메인 신호로 변환될 수 있다. 따라서, 획득된 복수의 출력 신호들은 주파수 도메인 신호들이고, 그에 요구되는 신호들은 시간 도메인 신호들로 변환될 수 있고, 그 다음, 예를 들어, 마이크로폰을 통해 음성 신호들로서 출력될 수 있다.
당업자들은 상기 설명에 기초하여 그리고 아래에서 더 상세히 설명되는 실시예들과 조합하여, 암묵 신호 분리 모델에 대한 업데이트가 상기 오프라인 모델링 프로세스 또는 온라인 모델링 프로세스 동안 반복적인 프로세스임을 이해할 수 있다. 즉, 복수의 분리된 출력 신호들을 획득하기 위해 암묵 신호 분리 모델을 사용함으로써 오디오 신호가 분리된 후, 모델링은 암묵 신호 분리 모델을 업데이트하기 위해 획득된 복수의 분리된 출력 신호들에 기초하여 추가로 수행된다. 따라서, 업데이트된 암묵 신호 분리 모델을 사용함으로써 오디오 신호의 다음 프레임이 추가로 분리된다. 이러한 방식으로, 분리되는 암묵 신호에 적합한 더 양호한 분리 프로세스가 실현될 수 있다.
본 개시의 실시예에 따른 암묵 신호 분리를 위한 방법에서 온라인 모델링 또는 오프라인 모델링 또는 둘 모두의 조합을 사용하기 위해, 대응하는 암묵 신호 분리 시스템은 전체-감독된 암묵 신호 분리 시스템, 실시간 암묵 신호 분리 시스템 또는 반-감독된 실시간 암묵 신호 분리 시스템으로서 실현될 수 있고, 이들은 아래에서 추가로 설명될 것이다.
도 3은 오프라인 모델링에 대응하는 전체-감독되는 암묵 신호 분리 시스템의 개략도를 도시한다. 도 3에 도시된 바와 같이, 오프라인 모델링은 음원의 확률 밀도 분포를 결정하기 위해 공지된 음원 유형의 깨끗한 오디오 신호를 사용함으로써 수행된다. 모델링을 위해 사용된 음성 신호가 공지되기 때문에, 모델링 프로세스는 전체-감독된 프로세스로 지칭될 수 있고, 이는 양호한 모델링 효율 및 모델 정확도를 갖는다. 그리고 그 다음, 암묵 신호 분리 모델은 비용 함수에 기초하여 결정될 수 있다. 마이크로폰 어레이에 의해 수신된 신호들은 단기 푸리에 변환(STFT)에 의해 주파수 도메인으로 변환되고, 복수의 출력 신호들을 획득하기 위해 암묵 신호는 암묵 신호 분리 모델을 사용함으로써 주파수 도메인에서 분리된다. 출력 신호는 오디오 출력을 실현하기 위해 시간 도메인으로 다시 변환될 수 있다. 일부 실시예들에서, 획득된 복수의 출력 신호들은 또한 암묵 신호 분리 모델을 추가로 결정 및 업데이트하기 위해 모델링될 수 있고, 프로세스는 최상의 분리 효과를 실현하기 위해 반복적으로 수행될 수 있다.
도 4는 온라인 모델링에 대응하는 실시간 암묵 신호 분리 시스템의 개략도를 도시한다. 도 4에 도시된 바와 같이, 마이크로폰에 의해 수신된 신호는 단기 푸리에 변환(STFT)에 의해 주파수 도메인으로 변환되고, 복수의 출력 신호들을 획득하기 위해 암묵 신호는 초기 암묵 신호 분리 모델을 사용함으로써 주파수 도메인에서 분리된다. 온라인 모델링은, 공지되지 않은 유형의 각각의 음원의 확률 밀도 분포를 결정하고 그 다음 암묵 신호 분리 모델을 결정하기 위해 분리함으로써 생성된 복수의 출력 신호들에 대해 수행된다. 온라인 모델링에 의해 결정된 암묵 신호 분리 모델은 이전에 사용된 암묵 신호 분리 모델을 업데이트하기 위해 사용되고, 후속 프레임들의 분리가 계속된다. 프로세스는 반복적으로 수행되고, 암묵 신호 분리 모델이 연속적으로 업데이트되고, 따라서 분리 효과가 개선된다. 이러한 프로세스에서, 음원 유형이 미리 공지되지 않기 때문에, 실시간 모델링 솔루션이 사용된다.
도 5는 오프라인 모델링 및 온라인 모델링의 조합에 대응하는 반-감독되는 실시간 암묵 신호 분리 시스템의 개략도를 도시한다. 도 5에 도시된 바와 같이, 공지된 유형의 음원들 중 일부에 대해, 이들의 확률 밀도 분포들을 결정하기 위해 오프라인 모델링이 사용될 수 있고; 공지되지 않은 유형의 음원들의 일부에 대해, 이들의 확률 밀도 분포들을 결정하기 위해 온라인 모델링이 사용된다. 초기 시간에, 공지되지 않은 음원에 대해, 오프라인 모델링에 의해 결정된 공지된 음원의 확률 밀도 분포와 조합하여 분리 모델을 결정하기 위해, 랜덤 분포와 같은 미리 결정된 초기 확률 밀도 분포가 사용될 수 있다. 마이크로폰에 의해 수신된 신호들은 단기 푸리에 변환(STFT)에 의해 주파수 도메인으로 변환되고, 공지된 유형의 출력 신호(1) 및 공지되지 않은 유형의 출력 신호(2)를 생성하기 위해 결정된 암묵 신호 분리 모델을 사용함으로써 주파수 도메인에서 분리된다. 공지되지 않은 유형의 출력 신호(2)에 대해, 그 확률 밀도 분포를 업데이트하기 위해 전술된 온라인 모델링 프로세스가 수행될 수 있고, 따라서 암묵 신호 분리 모델을 업데이트한다. 일부 실시예들에서, 모델링 프로세스는 또한 공지된 유형의 출력 신호(1)에 대해 수행되어 오프라인 모델링에 의해 결정된 그 대응하는 확률 밀도 분포를 업데이트한다. 상기 프로세스에서, 공지된 유형들을 갖는 음원들 중 오직 일부에 대해 모델링을 수행하기 위해 깨끗한 오디오 신호가 사용되고, 공지되지 않은 음원들에 대해 실시간 모델링이 사용되지 않고, 따라서, 이는 또한 반-감독된 실시간 모델링 시스템으로 지칭된다.
종래의 다변량 라플라스 모델은 분리될 신호를 정확하게 모델링할 수 없고, 실시간 독립적 벡터 분석 알고리즘은 출력 신호의 신호 대 간섭비를 효과적으로 맞출 수 없지만, 본 개시의 반-감독된 실시간 암묵 신호 분리 알고리즘을 사용하는 것은 분리 신호들의 신호 대 간섭비를 효과적으로 개선할 수 있다. 일례에서, 본 개시의 실시예에 따른 암묵 신호 분리를 위한 방법을 사용함으로써 음악이 스피치와 혼합된 음향 신호의 조각에 대해 실시간 분리가 수행되고, 분리 전 마이크로폰 데이터의 신호 대 간섭비는 10.66dB이고, 다변량 라플라스 모델에 기초한 실시간 독립적 벡터 분석 알고리즘을 사용함으로써 신호에 대해 분리가 수행되고, 분리 후 신호 대 간섭비는 9.82 dB인 한편, 도 5에 도시된 바와 같이 반-감독된 실시간 암묵 신호 분리 시스템을 사용함으로써 신호에 대해 분리가 수행되고, 여기서 음악 신호는 공지되고 분리 후 신호 대 간섭비는 16.91 dB이다.
예시적인 장치
도 6은 본 개시의 일 실시예에 따른 암묵 신호 분리를 위한 장치의 블록도를 도시한다.
도 6에 도시된 바와 같이, 본 개시의 실시예에 따른 암묵 신호 분리(300)를 위한 장치는, 음원의 확률 밀도 분포를 획득하기 위해 복소 가우시안 분포에 의해 음원을 모델링하기 위한 모델링 유닛(310); 및 음원의 확률 밀도 분포에 기초하여 암묵 신호 분리 모델을 업데이트하기 위한 업데이트 유닛(320); 및 복수의 분리된 출력 신호들을 획득하기 위해 업데이트된 암묵 신호 분리 모델을 사용함으로써 오디오 신호를 분리하기 위한 분리 유닛(330)을 포함한다.
일례에서, 암묵 신호 분리(300)를 위한 상기 장치에서, 모델링 유닛(310)은 오프라인 모델링 유닛 및 온라인 모델링 유닛 중 적어도 하나를 포함할 수 있다. 오프라인 모델링 유닛은, 음원의 확률 밀도 분포를 획득하기 위해 분리될 오디오 신호의 음원과 동일한 유형의 음원으로부터 깨끗한 오디오 신호를 사용함으로써 모델링을 수행하기 위해 사용될 수 있다. 온라인 모델링 유닛은 각각의 음원의 확률 밀도 분포를 획득하기 위해 오디오 신호의 이전 프레임을 분리함으로써 획득된 복수의 출력 신호들에 대한 모델링을 수행하기 위해 사용될 수 있다. 오프라인 모델링 유닛은 공지된 음원 유형들에 대해 사용될 수 있는 한편, 온라인 모델링 유닛은 공지되지 않은 음원 유형들에 대해 사용될 수 있음이 이해될 수 있다. 일부 실시예들에서, 모델링 유닛(310)은 또한 오프라인 모델링 유닛 및 온라인 모델링 유닛 둘 모두를 포함할 수 있다.
모델링 유닛(310)의 모델링 결과는 암묵 신호 분리 모델을 업데이트하기 위한 업데이트 유닛(320)에 대해 사용될 수 있고, 따라서 분리 유닛(330)은 복수의 출력들을 생성하기 위해 오디오 신호를 분리하는 분리 모델을 사용한다. 프로세스들은 반복적으로 수행될 수 있음을 이해해야 한다. 즉, 모델링 유닛(310)은 더 양호한 분리 효과를 실현하기 위해 암묵 신호 분리 모델을 연속적으로 업데이트하는 분리 유닛(330)에 의해 생성된 복수의 출력들 중 하나 이상에 대한 모델링을 수행할 수 있다.
일례에서, 암묵 신호 분리(300)를 위한 장치는, 주파수 도메인에서 분리하기 위해 오디오 신호를 주파수 도메인 신호로 변환하기 위한 주파수 도메인 변환 유닛(340) - 복수의 분리된 출력 신호들은 또한 주파수 도메인 신호들임 -; 및 분리된 주파수 도메인 출력 신호들 중 적어도 하나를 오디오 출력이 되도록 시간 도메인 신호로 변환하기 위한 시간 도메인 변환 유닛(350)을 더 포함할 수 있다.
암묵 신호 분리(300)를 위한 상기 장치의 다양한 유닛들 및 모듈들의 특정 기능 및 동작은 도 1 내지 도 5를 참조하여 상기 설명에서 상세히 설명되었고, 따라서 오직 간략한 설명만이 여기서 주어질 것이고 반복된 상세한 설명은 생략될 것임을 이해할 수 있다.
앞서 설명된 바와 같이, 본 개시의 실시예에 따른 암묵 신호 분리(300)를 위한 장치는 음성 신호 분리를 위한 오디오 프로세싱 디바이스 등과 같은 다양한 단말 디바이스들에 의해 실현될 수 있다. 일례에서, 본 개시의 실시예에 따른 장치(300)는 소프트웨어 모듈 및/또는 하드웨어 모듈로서 단말 디바이스에 통합될 수 있다. 예를 들어, 본 장치(300)는 이러한 단말 디바이스의 운영 시스템의 소프트웨어 모듈일 수 있거나, 또는 이러한 단말 디바이스에 대해 개발된 애플리케이션 프로그램일 수 있고; 물론, 이러한 장치(300)는 또한 이러한 단말 디바이스의 다수의 하드웨어 모듈들 중 하나일 수 있다.
대안적으로, 다른 예에서, 암묵 신호 분리(300)를 위한 이러한 장치 및 이러한 단말 디바이스는 또한 분리된 디바이스들일 수 있고; 이러한 장치(300)는 유선 및/또는 무선 네트워크를 통해 이러한 단말 디바이스에 접속될 수 있고 미리 결정된 데이터 포맷에 따라 상호작용 정보를 송신할 수 있다.
예시적인 전자 디바이스
이후, 본 개시의 일 실시예에 따른 전자 디바이스는 도 7을 참조하여 설명될 것이다. 도 7에 도시된 바와 같이, 전자 디바이스(10)는 하나 이상의 프로세서들(11) 및 메모리들(12)을 포함한다.
프로세서(11)는 중앙 프로세싱 유닛(CPU) 또는 데이터 프로세싱 능력들 및/또는 명령 실행 능력들을 갖는 다른 형태들의 프로세싱 유닛일 수 있고, 원하는 기능들을 시행하기 위해 전자 디바이스(10) 내의 다른 조립체들을 제어할 수 있다.
메모리(12)는 휘발성 메모리 및/또는 비휘발성 메모리와 같은 다양한 형태들의 컴퓨터 판독가능 저장 매체를 포함할 수 있는 하나 이상의 컴퓨터 프로그램 제품들을 포함할 수 있다. 휘발성 메모리는 예를 들어, 랜덤 액세스 메모리(RAM) 및/또는 캐시 등을 포함할 수 있다. 비휘발성 메모리는 예를 들어, 판독 전용 메모리(ROM), 하드 디스크, 플래시 메모리 등을 포함할 수 있다. 하나 이상의 컴퓨터 프로그램 명령들은 컴퓨터 판독가능 저장 매체에 저장될 수 있고, 프로세서(11)는 앞서 설명된 바와 같이 본 개시의 다양한 실시예들의 암묵 신호 분리 및/또는 다른 원하는 기능들을 위한 방법을 구현하기 위해 프로그램 명령들을 실행할 수 있다. 공지된 음원 유형의 깨끗한 오디오 신호 등이 또한 컴퓨터 판독가능 저장 매체에 저장될 수 있다.
일례에서, 전자 디바이스(10)는 또한 입력 디바이스(13) 및 출력 디바이스(14)를 포함할 수 있고, 이러한 조립체들은 버스 시스템 및/또는 다른 형태들의 접속 메커니즘(미도시)에 의해 상호접속된다.
예를 들어, 이러한 입력 디바이스(13)는 음원으로부터의 입력 신호들을 실시간으로 캡처하기 위한 마이크로폰 또는 마이크로폰들의 어레이일 수 있다. 이러한 입력 디바이스(13)는 또한 다양한 입력 인터페이스들, 예를 들어, 외부로부터 디지털화된 오디오 신호들을 수신하기 위한 통신 네트워크 커넥터일 수 있다. 추가로, 입력 디바이스(13)는 또한, 예를 들어, 키보드, 마우스 등을 포함할 수 있다.
출력 디바이스(14)는 복수의 분리된 출력 신호들 등을 포함하는 다양한 정보를 외부로 출력할 수 있다. 출력 디바이스(14)는 예를 들어, 디스플레이, 스피커, 및 통신 네트워크 인터페이스 및 그에 접속된 원격 외부 디바이스들 등을 포함할 수 있다.
물론, 간략화를 위해, 전자 디바이스(10)에서 본 개시와 관련된 조립체들 중 오직 일부만이 도 7에 도시되고, 버스, 입력/출력 인터페이스 등과 같은 조립체들은 생략된다. 또한, 전자 디바이스(10)는 특정 애플리케이션에 따라 임의의 다른 적절한 조립체들을 포함할 수 있다.
예시적인 컴퓨터 프로그램 제품 및 컴퓨터 판독가능 저장 매체
앞서 설명된 방법 및 장치에 추가로, 본 개시의 실시예들은 또한 컴퓨터 프로그램 명령들을 포함하는 컴퓨터 프로그램 제품(Computer Program Product)일 수 있고, 상기 컴퓨터 프로그램 명령들은 프로세서에 의해 실행되는 경우, 프로세서로 하여금 본 개시의 전술된 "예시적인 방법" 부분에서 설명된 바와 같이 본 개시의 다양한 실시예들에 따른 암묵 신호 분리를 위한 방법의 단계들을 수행하게 한다.
컴퓨터 프로그램 제품은 하나 이상의 프로그래밍 언어들의 임의의 조합으로 본 개시의 실시예들의 동작들을 수행하기 위한 프로그램 코드를 기록할 수 있고, 상기 프로그래밍 언어들은 자바(Java) C++ 등과 같은 객체 지향형 프로그래밍 언어들 및 "C" 언어 또는 유사한 프로그래밍 언어들과 같은 종래의 절차적 프로그래밍 언어들을 포함한다. 프로그램 코드는 전적으로 사용자 컴퓨팅 디바이스 상에서 실행될 수 있거나, 독립형 소프트웨어 패키지로서 실행될 수 있거나, 부분적으로 사용자 컴퓨팅 디바이스 상에서 실행되고 부분적으로 원격 컴퓨팅 디바이스 상에서 실행되거나, 또는 전적으로 원격 컴퓨팅 디바이스 또는 서버 상에서 실행될 수 있다.
또한 본 개시의 실시예들은 또한 컴퓨터 프로그램 명령들이 저장된 컴퓨터 판독가능 저장 매체(Computer Readable Storage Medium)일 수 있고, 상기 컴퓨터 프로그램 명령들은 프로세서에 의해 실행되는 경우, 프로세서로 하여금 본 개시의 전술된 "예시적인 방법" 부분에서 설명된 바와 같이 본 개시의 다양한 실시예들에 따른 암묵 신호 분리를 위한 방법의 단계들을 수행하게 한다.
컴퓨터 판독가능 저장 매체는 하나 이상의 판독가능 매체들의 임의의 조합을 사용할 수 있다. 판독가능 매체는 판독가능 신호 매체 또는 판독가능 저장 매체일 수 있다. 컴퓨터 판독가능 저장 매체는 전기, 자기, 광학, 전자기, 적외선 또는 반도체 또는 상기한 것의 임의의 조합의 시스템, 장치, 또는 디바이스를 포함할 수 있지만 이에 제한되는 것은 아니다. 판독가능 저장 매체의 더 특정한 예들(비포괄적 리스트)은, 하나 이상의 와이어들을 갖는 전기 접속, 휴대용 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스 또는 전술한 것의 임의의 적절한 조합을 포함한다.
본 출원의 기본적인 원리들은 특정 실시예들과 관련하여 앞서 설명되었지만, 본 출원에 언급된 이점들, 우수성들 및 효과들 등은 단지 예시들이고 본 발명을 제한하도록 의도되지 않으며, 이러한 이점들, 우수성들, 효과들 등은 본 출원의 실시예들에 필수적인 것으로 고려되지 않을 것이다. 또한, 전술한 개시의 특정 세부사항들은 제한의 목적이 아니라 단지 예시의 목적 및 이해의 용이함을 위한 것이고, 상기 세부사항들은 본 출원을 전술된 특정 세부사항들에서 구현되도록 제한하지 않는다.
본 출원에 참조된 디바이스들, 장치들, 장비, 시스템들의 블록도들은 단지 예시적인 예들이며, 접속들, 배열들 및 구성들이 블록도들에 도시된 방식으로 행해져야 하는 것을 요구하거나 의미하도록 의도되지 않는다. 당업자들이 인식할 바와 같이, 이러한 디바이스들, 장치들, 장비, 시스템들은 임의의 방식으로 접속, 배열 또는 구성될 수 있다. "포함하는", "구비하는", "갖는" 등과 같은 용어들은 개방형 단어들이고, 이는 "포함하지만 그에 제한되는 것은 아닌" 것을 의미하고 교환가능하게 사용될 수 있다. 본 명세서에서 사용되는 바와 같이 용어들 "또는" 및 "및"은 문맥 상 명시적으로 달리 지정되지 않는 한 용어 "및/또는"을 지칭한다. 본 명세서에서 사용되는 바와 같이 용어 "~와 같은"은 어구 "~와 같지만 그에 제한되는 것은 아닌"을 지칭하며 교환가능하게 사용된다.
본 출원의 장치, 장비 및 방법에서, 각각의 컴포넌트 또는 각각의 단계는 분해 및/또는 재결합될 수 있음을 또한 주목한다. 이러한 분해들 및/또는 재조합은 본 출원의 균등물로서 간주되어야 한다.
개시된 양상들의 상기 설명은 당업자들이 본 출원을 실시 및 사용할 수 있게 하기 위해 제공된다. 이러한 양상들에 대한 다양한 수정들은 당업자들에게 매우 자명하고, 본 명세서에 정의된 일반 원리들은 본 출원의 범위를 벗어나지 않으면서 다른 양상들에 적용될 수 있다. 따라서, 본 출원은 본 명세서에 도시된 양상들로 제한되는 것으로 의도되는 것이 아니라, 본 명세서에 개시된 원리들 및 신규한 특징들에 일치하는 가장 넓은 범위를 제공한다.
상기 설명은 예시 및 설명의 목적으로 제공되었다. 또한, 이러한 설명은 본 출원의 실시예들을 본 명세서에 개시된 형태들로 제한하도록 의도되지 않는다. 다양한 예시적인 양상들 및 실시예들이 앞서 논의되었지만, 당업자들은 특정 변형들, 수정들, 변경들 및 추가들, 및 이들의 하부 조합들을 인식할 것이다.

Claims (15)

  1. 암묵 신호 분리를 위한 방법으로서,
    음원의 확률 밀도 분포를 결정하기 위해 복소 가우시안 분포에 의해 상기 음원을 모델링하는 단계;
    상기 확률 밀도 분포에 기초하여 암묵 신호 분리 모델을 업데이트하는 단계; 및
    복수의 분리된 출력 신호들을 획득하기 위해 상기 업데이트된 암묵 신호 분리 모델에 의해 오디오 신호를 분리하는 단계;를 포함하는,
    암묵 신호 분리를 위한 방법.
  2. 제1항에 있어서,
    상기 암묵 신호 분리 모델의 비용 함수는,
    Figure pat00002

    와 같고, W(k)는 k번째 주파수 포인트에 대한 분리 모델이고, yi는 i번재 음원에 대한 분리된 신호를 표현하고, G(yi)는 콘트라스트 함수이고 log q(yi)로서 표현되며, q(yi)는 i번째 음원의 확률 밀도 분포인,
    암묵 신호 분리를 위한 방법.
  3. 제1항에 있어서,
    복소 가우시안 분포에 의해 음원을 모델링하는 단계는 오프라인 모델링, 온라인 모델링 또는 이들의 조합을 포함하는,
    암묵 신호 분리를 위한 방법.
  4. 제3항에 있어서,
    상기 오프라인 모델링은,
    상기 음원의 확률 밀도 분포를 획득하기 위해 분리될 오디오 신호의 음원과 동일한 유형의 음원으로부터 깨끗한 오디오 신호를 사용함으로써 모델링하는 단계를 포함하는,
    암묵 신호 분리를 위한 방법.
  5. 제4항에 있어서,
    상기 획득된 복수의 분리된 출력 신호들에 기초하여 상기 암묵 신호 분리 모델을 업데이트하는 단계를 더 포함하는,
    암묵 신호 분리를 위한 방법.
  6. 제3항에 있어서,
    상기 온라인 모델링은 각각의 음원의 확률 밀도 분포를 획득하기 위해 오디오 신호의 이전 프레임을 분리함으로써 획득된 복수의 출력 신호들에 대한 모델링을 포함하거나, 또는
    오프라인 모델링 및 온라인 모델링의 조합은, 분리될 오디오 신호의 음원들의 일부에 대해 오프라인 모델링을 수행하는 단계; 및 상기 분리될 오디오 신호의 나머지 음원들에 대해 온라인 모델링을 수행하는 단계;를 포함하는,
    암묵 신호 분리를 위한 방법.
  7. 제1항에 있어서,
    상기 업데이트된 암묵 신호 분리 모델에 의해 오디오 신호를 분리하는 단계는,
    주파수 도메인에서 분리를 수행하기 위해 상기 오디오 신호를 주파수 도메인 신호로 변환하는 단계를 포함하고, 상기 복수의 분리된 출력 신호들은 주파수 도메인 신호들인,
    암묵 신호 분리를 위한 방법.
  8. 제7항에 있어서,
    상기 복수의 분리된 출력 신호들 중 적어도 하나를 시간 도메인 신호로 변환하는 단계를 더 포함하는,
    암묵 신호 분리를 위한 방법.
  9. 암묵 신호 분리를 위한 장치로서,
    음원의 확률 밀도 분포를 결정하기 위해 복소 가우시안 분포에 의해 상기 음원을 모델링하도록 구성되는 모델링 유닛;
    상기 음원의 확률 밀도 분포에 기초하여 암묵 신호 분리 모델을 업데이트하도록 구성되는 업데이트 유닛; 및
    복수의 분리된 출력 신호들을 획득하기 위해 상기 업데이트된 암묵 신호 분리 모델에 의해 오디오 신호를 분리하도록 구성되는 분리 유닛을 포함하는,
    암묵 신호 분리를 위한 장치.
  10. 제9항에 있어서,
    상기 모델링 유닛은 오프라인 모델링 유닛 및 온라인 모델링 유닛 중 적어도 하나를 포함하는,
    암묵 신호 분리를 위한 장치.
  11. 제10항에 있어서,
    상기 오프라인 모델링 유닛은, 상기 음원의 확률 밀도 분포를 획득하기 위해 분리될 오디오 신호의 음원과 동일한 유형의 음원으로부터 깨끗한 오디오 신호를 사용함으로써 모델링을 수행하도록 구성되고, 상기 온라인 모델링 유닛은 각각의 음원의 확률 밀도 분포를 획득하기 위해 상기 오디오 신호의 이전 프레임을 분리함으로써 획득된 복수의 출력 신호들에 대한 모델링하도록 구성되는,
    암묵 신호 분리를 위한 장치.
  12. 제11항에 있어서,
    상기 모델링 유닛은 오프라인 모델링 유닛 및 온라인 모델링 유닛 둘 모두를 포함하고, 상기 오프라인 모델링 유닛은 상기 분리될 오디오 신호의 공지된 음원들에 대한 오프라인 모델링을 수행하도록 구성되고, 상기 온라인 모델링 유닛은 상기 분리될 오디오 신호의 공지되지 않은 음원들에 대한 온라인 모델링을 수행하도록 구성되는,
    암묵 신호 분리를 위한 장치.
  13. 제9항에 있어서,
    주파수 도메인에서 분리를 수행하기 위해 상기 오디오 신호를 주파수 도메인 신호로 변환하도록 구성되는 주파수 도메인 변환 유닛 - 상기 복수의 분리된 출력 신호들은 주파수 도메인 신호들임 -; 및
    상기 분리된 주파수 도메인 출력 신호들 중 적어도 하나를 시간 도메인 신호로 변환하도록 구성되는 시간 도메인 변환 유닛;을 더 포함하는,
    암묵 신호 분리를 위한 장치.
  14. 전자 디바이스로서,
    프로세서; 및
    컴퓨터 프로그램 명령들이 저장된 메모리;를 포함하고,
    상기 컴퓨터 프로그램 명령들은 실행되는 경우, 상기 프로세서로 하여금 암묵 신호 분리를 위한 방법을 수행할 수 있게 하고,
    상기 방법은
    음원의 확률 밀도 분포를 결정하기 위해 복소 가우시안 분포에 의해 상기 음원을 모델링하는 단계;
    상기 확률 밀도 분포에 기초하여 암묵 신호 분리 모델을 업데이트하는 단계; 및
    복수의 분리된 출력 신호들을 획득하기 위해 상기 업데이트된 암묵 신호 분리 모델에 의해 오디오 신호를 분리하는 단계;를 포함하는,
    전자 디바이스.
  15. 컴퓨터 프로그램 명령들이 저장된 컴퓨터 판독가능 저장 매체로서,
    상기 컴퓨터 프로그램 명령들은 실행되는 경우, 프로세서로 하여금 암묵 신호 분리를 위한 방법을 수행할 수 있게 하고,
    상기 방법은
    음원의 확률 밀도 분포를 결정하기 위해 복소 가우시안 분포에 의해 상기 음원을 모델링하는 단계;
    상기 확률 밀도 분포에 기초하여 암묵 신호 분리 모델을 업데이트하는 단계; 및
    복수의 분리된 출력 신호들을 획득하기 위해 상기 업데이트된 암묵 신호 분리 모델에 의해 오디오 신호를 분리하는 단계;를 포함하는,
    컴퓨터 판독가능 저장 매체.
KR1020190109632A 2018-09-07 2019-09-04 암묵 신호 분리를 위한 방법, 장치 및 전자 장치 KR102194194B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811045478.0 2018-09-07
CN201811045478.0A CN110890098B (zh) 2018-09-07 2018-09-07 盲信号分离方法、装置和电子设备

Publications (2)

Publication Number Publication Date
KR20200028852A true KR20200028852A (ko) 2020-03-17
KR102194194B1 KR102194194B1 (ko) 2020-12-22

Family

ID=67847636

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190109632A KR102194194B1 (ko) 2018-09-07 2019-09-04 암묵 신호 분리를 위한 방법, 장치 및 전자 장치

Country Status (5)

Country Link
US (1) US10978089B2 (ko)
EP (1) EP3624117A1 (ko)
JP (1) JP6966750B2 (ko)
KR (1) KR102194194B1 (ko)
CN (1) CN110890098B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112339684A (zh) * 2020-10-27 2021-02-09 广州汽车集团股份有限公司 一种基于概率分布的汽车安全机制触发方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863020B (zh) * 2020-07-30 2022-09-20 腾讯科技(深圳)有限公司 语音信号处理方法、装置、设备及存储介质
CN112349292B (zh) * 2020-11-02 2024-04-19 深圳地平线机器人科技有限公司 信号分离方法和装置、计算机可读存储介质、电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150084941A (ko) * 2012-11-14 2015-07-22 퀄컴 인코포레이티드 오디오 환경들의 분류를 위한 시스템들 및 방법들

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007103037A2 (en) * 2006-03-01 2007-09-13 Softmax, Inc. System and method for generating a separated signal
JP4660739B2 (ja) * 2006-09-01 2011-03-30 独立行政法人産業技術総合研究所 音分析装置およびプログラム
US9047867B2 (en) * 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
JP6099032B2 (ja) * 2011-09-05 2017-03-22 大学共同利用機関法人情報・システム研究機構 信号処理装置、信号処理方法及びコンピュータプログラム
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
GB2548325B (en) * 2016-02-10 2021-12-01 Audiotelligence Ltd Acoustic source seperation systems
CN106887238B (zh) * 2017-03-01 2020-05-15 中国科学院上海微系统与信息技术研究所 一种基于改进独立向量分析算法的声信号盲分离方法
JP6976804B2 (ja) * 2017-10-16 2021-12-08 株式会社日立製作所 音源分離方法および音源分離装置
CN108364659B (zh) * 2018-02-05 2021-06-01 西安电子科技大学 基于多目标优化的频域卷积盲信号分离方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150084941A (ko) * 2012-11-14 2015-07-22 퀄컴 인코포레이티드 오디오 환경들의 분류를 위한 시스템들 및 방법들

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112339684A (zh) * 2020-10-27 2021-02-09 广州汽车集团股份有限公司 一种基于概率分布的汽车安全机制触发方法及装置
CN112339684B (zh) * 2020-10-27 2021-12-24 广州汽车集团股份有限公司 一种基于概率分布的汽车安全机制触发方法及装置

Also Published As

Publication number Publication date
JP2020042266A (ja) 2020-03-19
JP6966750B2 (ja) 2021-11-17
US10978089B2 (en) 2021-04-13
EP3624117A1 (en) 2020-03-18
US20200082838A1 (en) 2020-03-12
CN110890098A (zh) 2020-03-17
KR102194194B1 (ko) 2020-12-22
CN110890098B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
EP3192070B1 (en) Text-to-speech with emotional content
US20220036903A1 (en) Reverberation compensation for far-field speaker recognition
KR102194194B1 (ko) 암묵 신호 분리를 위한 방법, 장치 및 전자 장치
JP2019204074A (ja) 音声対話方法、装置及びシステム
Ravanelli et al. Realistic multi-microphone data simulation for distant speech recognition
CN113436643B (zh) 语音增强模型的训练及应用方法、装置、设备及存储介质
KR102615154B1 (ko) 전자 장치 및 전자 장치의 제어 방법
US9484044B1 (en) Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US20240046955A1 (en) Voice extraction method and apparatus, and electronic device
KR20180012639A (ko) 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법
US9208794B1 (en) Providing sound models of an input signal using continuous and/or linear fitting
CN111696520A (zh) 智能配音方法、装置、介质及电子设备
CN105390137A (zh) 响应生成方法、响应生成装置和响应生成程序
Kim et al. Efficient implementation of the room simulator for training deep neural network acoustic models
JP2023540376A (ja) 音声認識方法及び装置、記録媒体及び電子機器
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
WO2020017226A1 (ja) 耐雑音音声認識装置及び方法、並びにコンピュータプログラム
CN117558269B (zh) 声音识别方法、装置、介质和电子设备
CN115376501B (zh) 语音增强方法及装置、存储介质、电子设备
JP2003076393A (ja) 騒音環境下における音声推定方法および音声認識方法
US20230081543A1 (en) Method for synthetizing speech and electronic device
CN111768771B (zh) 用于唤醒电子设备的方法和装置
US20240112676A1 (en) Apparatus performing based on voice recognition and artificial intelligence and method for controlling thereof
KR20230141251A (ko) 성도 및 여기 신호 정보를 이용한 자동 음성 인식 방법 및 장치
Guo et al. Single-channel speech separation using dictionary-updated orthogonal matching pursuit and temporal structure information

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant