KR20170008799A - 온-더-플라이 오디오 소스 분리 방법 및 시스템 - Google Patents

온-더-플라이 오디오 소스 분리 방법 및 시스템 Download PDF

Info

Publication number
KR20170008799A
KR20170008799A KR1020167035072A KR20167035072A KR20170008799A KR 20170008799 A KR20170008799 A KR 20170008799A KR 1020167035072 A KR1020167035072 A KR 1020167035072A KR 20167035072 A KR20167035072 A KR 20167035072A KR 20170008799 A KR20170008799 A KR 20170008799A
Authority
KR
South Korea
Prior art keywords
audio
mixture
samples
database
auxiliary
Prior art date
Application number
KR1020167035072A
Other languages
English (en)
Inventor
깡까 녹 두옹
알렉씨 오제로브
발리아 엘바다위
Original Assignee
톰슨 라이센싱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 톰슨 라이센싱 filed Critical 톰슨 라이센싱
Publication of KR20170008799A publication Critical patent/KR20170008799A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F17/3074
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

오디오 소스 분리 방법 및 시스템(20)이 설명된다. 이 방법은, 오디오 혼합물 및 오디오 혼합물과 연관된 적어도 하나의 텍스트 문의를 수신하는 단계(10); 보조 오디오 데이터베이스로부터 적어도 하나의 오디오 샘플을 검색하는 단계(11); 검색된 오디오 샘플들을 평가하는 단계(12); 및 오디오 샘플들을 사용하여 오디오 혼합물을 복수의 오디오 소스들로 분리하는 단계(13)를 포함한다. 대응하는 시스템(20)은 방법을 구현하도록 구성되는 수신 유닛(21)과 프로세서(22)를 포함한다.

Description

온-더-플라이 오디오 소스 분리 방법 및 시스템{METHOD AND SYSTEM OF ON-THE-FLY AUDIO SOURCE SEPARATION}
본 발명은 오디오 소스 분리(audio source separation) 방법 및 시스템에 관한 것이다. 특히, 방법 및 시스템은 오디오 소스 분리를 위한 결합된 텍스트-및-예시 기반 접근법(combined text-and-example based approach)을 활용한다. 본 발명은 추가로, 이러한 방법 또는 시스템에 적합한 컴퓨터 판독가능 매체에 관한 것이다.
오디오 소스 분리는 오디오 혼합물을 오디오의 성분 음향 소스들로 분해하는 것과 관련된다. 이것은, 오디오/스피치 향상, 사후-제작, 3D 오디오 등에서 광범위한 애플리케이션들을 제공한다. 무엇보다도, 블라인드 소스 분리(Blind Source Separation)(BSS)는, 소스들, 혼합물 및/또는 그 혼합물을 생성한 혼합 프로세스에 대한 정보 없이 오디오 소스 분리가 수행되는 것을 가정한다. 한편, 통지된 소스 분리(Informed Source Separation)(ISS)는, 일부 보조 정보로부터의 안내를 이용하여 오디오 소스 분리가 수행되도록 허용한다.
감독된 오디오 소스 분리를 위한 기존의 접근법들 대부분은 예시-기반 방법들이다. 이러한 접근법들에 대한 전제조건은, 타겟 오디오 소스들과 유사한 일부 오디오 샘플들을 미리 포착하는 것이고, 이는 통상적으로 번거롭고, 항상 가능하지는 않다. 오디오 예시들이 미리 이용가능하지 않은 경우, 대안으로, 오디오 파일들을 탐색하기 위해 단순한 텍스트 문의들이 사용될 수 있다. 오디오 소스 분리를 위한 이러한 텍스트 문의 기반 접근법은 사용자에게 더 용이하고 더 효율적인데, 이는, 사용자가 단지 오디오 혼합물을 청취하고, 예를 들어, 자신들이 분리하기를 원하는 것을 설명하는 단어들을 제공하기만 하면 되기 때문이다. 그러나, 텍스트 문의 기반 접근법은 [XII]에서 설명되지만, 지금까지, 잡음이 있는 또는 비표현적인(non-representative) 검색된 예시들을 효율적으로 처리할 수 있을 어떠한 실용적인 솔루션도 존재하지 않는다.
예시-기반 오디오 소스 분리의 경우, 단일 채널 소스 분리는 불충분하게 결정된 문제이고, 따라서 가장 곤란한 문제들에 속한다. 몇몇 알고리즘들은, 오디오 혼합물로부터 개별적인 음향 소스들을 분리하기 위해, 이들의 미리 학습된 스펙트럼 특성들을 고려하는 것을 제안한다. 이를 달성하기 위해, 개별적인 타겟 소스들의 스펙트럼 특성들을 학습하고 표시하기 위한 예비적인 트레이닝 데이터를 포착할 필요가 있다. 감독된 알고리즘들의 클래스는, 비-음수 행렬 인수분해(non-negative matrix factorization)(NMF)[I, II, III] 또는 이에 대한 확률적 잠재 성분 분석(probabilistic latent component analysis)(PLCA)[IV, V]으로 공지된 확률적 공식화에 기초하여 제안된다. 그럼에도 불구하고, 트레이닝 데이터가 이용불가능하거나, 오디오 소스들을 충분히 표현하지 않는 경우, 상기 방법들은 소스에 대한 다른 보충적인 정보가 없으면 적용불가능하게 된다. 예를 들어, 보충적인 정보는, 혼합물에서의 음향들을 모방하는 "허밍된(hummed)" 음향들[V], 또는 대응하는 오디오 혼합물의 텍스트 전사(transcription)들[VI]을 포함한다.
오디오 소스 분리를 위한 NMF에 기반한 사용자-안내된 접근법들은 최근에 제안되었고[VII], 이에 따라 전반적인 오디오 소스 분리 프로세스는 몇몇 상호작용 분리 단계들을 포함할 수 있다. 이러한 접근법들은, 최종-사용자들이 각각의 음향 소스의 활동에 대한 정보를 수동으로 애노테이트(annotate)하도록 허용한다. 애노테이트된 정보는 상기 언급된 트레이닝 데이터 대신에, 소스 분리 프로세스를 안내하기 위해 사용된다. 또한, 사용자는 분리 프로세스 동안 중간적 분리 결과들의 스펙트로그램(spectrogram) 디스플레이들을 애노테이트함으로써 분리 결과를 검토하고 분리 결과의 에러들을 정정할 수 있다.
그러나, 상기 사용자-안내된 및 상호작용 접근법들의 경우, 사용자가 오디오 소스들의 특성들을 수동으로 특정하고 그에 따라 분리 프로세스와 상호작용하기 위해, 오디오 소스 스펙트로그램들 및 오디오 신호 프로세싱에 대한 일부 최소 지식을 갖는 것이 요구된다. 즉, 오디오 소스 분리의 임의적 상호작용 및 간섭은 용이하지 않고 최종-사용자에 대해 실용적이 아니다. 또한, 애노테이션(annotation) 프로세스는 전문적인 조작자에 대해서조차 시간 소모적이다.
본 발명의 목적은 오디오 소스 분리를 위한 개선된 솔루션을 제안하는 것이고, 상세하게는, 경험이 없는 최종-사용자가 소스 분리 작업을 용이하게 수행할 수 있도록 사용자 상호작용의 단순화를 제안하는 것이다.
본 발명의 제1 양태에 따르면, 오디오 소스 분리 방법은, 오디오 혼합물 및 오디오 혼합물과 연관된 적어도 하나의 텍스트 문의를 수신하는 단계; 텍스트 문의를 보조 오디오 데이터베이스와 연관된 시맨틱(semantic) 정보와 매칭시킴으로써 보조 오디오 데이터베이스로부터 적어도 하나의 오디오 샘플을 검색하는 단계; 보조 오디오 데이터베이스로부터 검색된 오디오 샘플들을 평가하는 단계; 및 검색된 오디오 샘플들을 사용하여 오디오 혼합물을 복수의 오디오 소스들로 분리하는 단계를 포함한다. 본 발명의 일 실시예에서, 오디오 샘플들을 평가하는 단계 및 오디오 혼합물을 분리하는 단계는 오디오 혼합물 및 오디오 샘플들에 비-음수 행렬 인수분해를 적용함으로써 공동으로 수행된다.
따라서, 오디오 소스 분리 방법을 구현하도록 구성되는 시스템은, 오디오 혼합물 및 오디오 혼합물과 연관된 적어도 하나의 텍스트 문의를 수신하도록 구성되는 수신 유닛; 텍스트 문의를 보조 오디오 데이터베이스와 연관된 시맨틱 정보와 매칭시킴으로써 보조 오디오 데이터베이스로부터 적어도 하나의 오디오 샘플을 검색하고; 보조 오디오 데이터베이스로부터 검색된 오디오 샘플을 평가하고; 오디오 샘플을 사용하여 오디오 혼합물을 복수의 오디오 소스들로 분리하도록 구성되는 프로세서를 포함한다.
또한, 오디오 혼합물에 대한 오디오 소스 분리를 위한 명령어들을 저장하는 컴퓨터 판독가능 매체로서, 명령어들은, 컴퓨터에 의해 실행될 때, 컴퓨터로 하여금, 오디오 혼합물 및 오디오 혼합물과 연관된 적어도 하나의 텍스트 문의를 수신하게 하고; 텍스트 문의를 보조 오디오 데이터베이스와 연관된 시맨틱 정보와 매칭시킴으로써 보조 오디오 데이터베이스로부터 적어도 하나의 오디오 샘플을 검색하게 하고; 보조 오디오 데이터베이스로부터 검색된 오디오 샘플들을 평가하게 하고; 오디오 샘플을 사용하여 오디오 혼합물을 복수의 오디오 소스들로 분리하게 한다.
본 발명의 오디오 소스 분리 방법은 프로세스를 단순화시키고 소스 분리의 결과를 개선시킨다. 결합된 텍스트-및-예시 접근법에 있어서, 최종 사용자는, 혼합물의 음향들을 설명하는 텍스트 문의 또는 발화된(spoken) 오디오 문의를 단순히 제공함으로써, 오디오 소스 분리를 수행하는 시스템과 쉽게 상호작용하도록 허용된다. 발화된 오디오 문의의 경우, 발화된 오디오 문의를 텍스트 문의로 변환하기 위해 스피치 투 텍스트(speech to text) 인터페이스가 사용된다. 예비적으로 검색된 오디오 샘플의 평가는 더 양호하게 트레이닝된 소스 샘플들의 프로비전(provision)에 의해 후속 오디오 소스 분리를 개선시킨다. 오디오 샘플들의 평가 및 오디오 혼합물의 소스 분리가 공동으로 수행되는 본 발명의 일 실시예에서, 오디오 소스 분리의 전체 프로세스는 더 효율적이 된다.
더 양호한 이해를 위해, 본 발명은 이제, 도면들을 참조로 하기 설명에서 더 상세히 설명될 것이다. 본 발명은 이러한 개시된 예시적인 실시예들로 제한되지 않으며, 첨부된 청구항들에 정의된 바와 같은 본 발명의 범주로부터 벗어남이 없이 특정된 특징들이 또한 편의상 결합 및/또는 수정될 수 있음이 이해된다.
도 1은 본 발명에 따른 오디오 소스 분리 방법의 바람직한 실시예를 예시하는 흐름도이다.
도 2는 본 발명에 따른 방법의 소스 분리 스테이지의 일 실시예를 예시하는 흐름도이다.
도 3은 NMF 분해를 도시하는 예시적인 도면이다.
도 4는 본 발명에 따른 방법의 다른 바람직한 실시예를 예시하는 흐름도이다.
도 5는, 반복적 프로세스 동안 NMF 적용의 최적화 함수 공식에서 트레이드-오프(trade-off) 파라미터 λ가 적응적으로 변경되는 일 실시예를 예시하는 도면이다.
도 6은 본 발명의 NMF 적용에 대한 그룹 희소성 패널티 접근법(group sparsity penalty approach)의 효과를 도시하는 예시적인 도면이다.
도 7은 본 발명의 NMF 적용에 대한 결합된 그룹 및 행(row) 희소성 패널티 접근법의 효과를 도시하는 예시적인 도면이다.
도 8은 본 발명에 따른 오디오 소스 분리 방법을 구현하는 시스템을 예시하는 개략도이다.
도 1을 참조하면, 본 발명에 따른 오디오 소스 분리 방법의 하나의 바람직한 실시예는, 오디오 혼합물 및 오디오 혼합물과 연관된 적어도 하나의 텍스트 문의를 수신하는 단계(10); 텍스트 문의를 보조 오디오 데이터베이스와 연관된 시맨틱 정보와 매칭시킴으로써 보조 오디오 데이터베이스로부터 적어도 하나의 오디오 샘플을 검색하는 단계(11); 보조 오디오 데이터베이스로부터 검색된 오디오 샘플을 평가하는 단계(12); 및 오디오 샘플을 사용하여 오디오 혼합물을 복수의 오디오 소스들로 분리하는 단계(13)를 포함한다. 오디오 소스 분리 방법은 시스템에서, 및/또는 프로세서, 서버 또는 임의의 적절한 디바이스들에 의해 수행될 수 있다.
텍스트 문의는 사용자 입력 디바이스 등, 예를 들어, 타이핑 디바이스 또는 원격 제어를 통해 사용자에 의해 제공될 수 있다. 사용자는 오디오 혼합물을 청취하고, 오디오 혼합물에서 오디오 소스들 구별하고, 그 다음 임의로 텍스트 문의들을 제공한다. 대안적으로, 텍스트 문의는 스피치-투-텍스트 또는 유사한 기술들을 수행하는 디바이스에 의해 직접 제공될 수 있다. 텍스트 문의는 바람직하게는, 오디오 혼합물에 포함된 오디오 소스들, 예를 들어, 개가 짖는 것, 새가 우는 것 등 및/또는 스피치 콘텍스트와 같은 오디오 혼합물의 텍스트 컨텐츠를 설명한다. 또한, 샘플링 레이트, 채널들의 수, 오디오 파일의 타입(wav, mp3 등)과 같은 다른 특정된 파라미터들이 또한 텍스트 문의에 포함되고 그와 결합될 수 있고, 이는 각각 개별적인 또는 몇몇 오디오 소스들로 지칭된다. 물론, 텍스트 문의의 길이, 형식 및/또는 다른 특성들은 제한적이 아니며, 상이한 요구들에 대해 유연할 수 있다.
텍스트 문의는 후속적으로, 보조 데이터베이스로부터 오디오 샘플들의 오디오 검색(11)을 위해 사용된다. 보조 오디오 데이터베이스는, 바람직하게는 데이터베이스의 오디오 데이터의 컨텐츠를 식별하는 일부 시맨틱 정보와 연관된 데이터베이스이다. 물론, 시맨틱 정보는, 태그들, 파일 명칭들, 대응하는 웹 페이지들 등과 같이 소스 분리에서 적용가능한 임의의 형식을 가질 수 있다. 바람직하게는, 보조 데이터베이스는 공개적이고, Google 및 Findsounds와 같은 개방된 검색 엔진들과 같이 쉽게 액세스가능한 데이터베이스이다. 이러한 경우, 검색된 오디오 샘플들은 추가적인 프로세싱을 위해 로컬로 다운로드될 수 있고 그리고/또는 URL들의 리스트가 보조 데이터베이스에 의해 제공될 수 있다. 대안적으로, 보조 데이터베이스는 또한, 오디오 소스 분리를 위해 준비된 로컬 또는 임의의 타입의 데이터베이스일 수 있다.
보조 데이터베이스와 연관된 적어도 일부의 시맨틱 정보가 존재하기 때문에, 오디오 샘플들의 검색은, 수신된 텍스트 문의를 보조 데이터베이스의 시맨틱 정보와 매칭시킴으로써 수행된다. 즉, 오디오 샘플들의 오디오 검색은 본 기술분야의 임의의 공지된 텍스트-기반 오디오 검색 기술에 기초하여 수행될 수 있다.
검색된 오디오 샘플들을 평가하는 단계(12)는 보조 데이터베이스의 제공자 또는 로컬 서버에 의해 다양한 기준에 기초하여 수행될 수 있다. 따라서, 오디오 혼합물의 후속적인 분리(13)는 오디오 샘플들의 평가 결과에 따라 모든 검색된 오디오 샘플들 또는 이들의 오직 서브세트를 사용하여 수행될 수 있다. 오디오 샘플들의 평가(12)는 상이한 알고리즘들을 포함하는 몇몇 방법들에 의해 달성될 수 있다.
본 발명의 일 실시예에서, 오디오 샘플들을 검색하는 단계(11) 및 평가하는 단계(12)는 보조 데이터베이스의 제공자에 의해 수행된다. 보조 데이터베이스, 예를 들어, 인터넷 검색 엔진은, 제공된 텍스트 문의와 오디오 샘플들의 매칭에 따라 랭크된 오디오 샘플들의 리스트를 제공한다. 오디오 샘플들의 시퀀스는 임의적으로 최상의 매칭으로부터 최악의 매칭으로 시작한다. 임의로, 후속 오디오 분리를 위해 특정 수의 최상의 매칭들이 사용된다. 예를 들어, 사용자는 오직 최상위 3개의 오디오 샘플들만을 사용하고 나머지는 배제하는 것으로 결정할 수 있다. 또한, 사용자는 매칭 스코어(score)에 기초하여 각각의 샘플들에 대한 상이한 가중치들을 할당할 수 있다.
본 발명의 일 실시예에서, 오디오 샘플들은 수신된 오디오 혼합물과의 상관에 따라 랭크된다. 오디오 샘플들은 오디오 혼합물과 시간상 상호 상관되고, 그 출력은 개별적인 오디오 샘플들에 대한 스코어를 획득하기 위해 요약된다. 예를 들어, 더 높은 스코어는 오디오 혼합물과 오디오 샘플의 더 양호한 매칭을 표현할 수 있다. 유사하게, 후속 오디오 소스 분리를 위한 오디오 샘플들의 서브세트가 선택될 수 있다.
본 발명의 다른 실시예에서, 오디오 샘플들은 오디오 특징 유사성에 따라 랭크될 수 있고, 오디오 특징 유사성은 오디오 샘플들과 오디오 혼합물 사이의 더 견고한 매칭을 제공할 수 있다. 먼저, 스펙트럼 중심(centroid), 멜-주파수 켑스트럼 계수(Mel-frequency cepstrum coefficient)(MFCC), 스펙트럼 확산, 스펙트럼 대역 에너지 등과 같은 오디오 특징들이 검색된 오디오 샘플들 및 오디오 혼합물로부터 각각 추출된다. 추출된 특징들에 기초하여, 오디오 샘플들 및 오디오 혼합물에 대한 특징 벡터들이 각각 컴퓨팅되고, 정규화된 상호 상관에 의해 비교된다. 이러한 경우, 오디오 샘플들 및 오디오 혼합물은 특히, 이들의 미처리 신호들보다는 유도된 특징 벡터들에 따라 비교 및 매칭된다. 특징 벡터들에 대한 대안으로, 오디오 샘플들 및 오디오 혼합물의 단어 주머니(bag-of-words) 표현이 추출될 수 있고, 상관, 코사인 유사성 또는 다른 거리 메트릭들을 사용한 오디오 샘플들과 혼합물 사이의 비교가 후속된다.
물론, 보조 데이터베이스로부터 검색된 오디오 샘플들을 평가(12)하기 위해 다른 대안적인 방법들이 또한 사용될 수 있다. 또한, 오디오 샘플들을 평가(12)한 후, 더 높이 랭크된 오디오 샘플들에 더 큰 가중치가 부여되는 가중된 비-음수 행렬 인수분해 [VIII, IX]가 임의적으로 적용될 수 있다.
도 2는 본 발명에 따른 방법의 소스 분리 스테이지의 하나의 바람직한 실시예를 예시한다. 하기 설명에서, NMF 모델에 기반한 방법은 단순화를 위한 예로서 설명됨을 주목해야 한다. 온-더-플라이(on-the-fly) 소스 분리 방법 및 시스템은 또한 다른 스펙트럼 모델들, 예를 들어, 확률적 잠재 성분 분석(PLCA) [IV, V] 또는 가우시안 혼합 모델(GMM) 등을 사용할 수 있다.
먼저, 평가된 오디오 샘플들은 단시간 푸리에 변환(STFT)을 통해 시간-주파수 표현으로 변환되고, 오디오 샘플들의 STFT 계수들(스펙트로그램, 행렬로서 공지됨)의 진폭 또는 제곱 진폭이 사용된다. 이러한 행렬은, 오디오 소스들의 스펙트럼 특성들을 설명하는 스펙트럼 모델 행렬(W) 및 시간 활성화 행렬(H)을 획득하기 위해, 비-음수 행렬 인수분해(NMF) 알고리즘에 의해 인수분해된다. 스펙트럼 행렬 W는, STFT를 통해 변환됨으로써 또한 포착되는 오디오 혼합물의 스펙트로그램의 인수분해를 안내하기 위해 학습 및 사용된다. 오디오 예시들로부터 미리-학습된 것들에 의해 스펙트럼 행렬의 일부의 또는 모든 열들이 고정된 경우, 오디오 혼합물의 스펙트로그램에 대해 NMF를 적용함으로써, 오디오 소스들의 추정된 STFT 계수들은 널리 공지된 위너(Wiener) 필터링에 의해 획득된다. 마지막으로, 소스들이 예를 들어, 웨이브 파일로서 저장될 수 있도록, 소스들의 시간-도메인 추정들을 획득하기 위해 역-STFT(ISTFT)가 적용된다.
본 발명의 방법의 바람직한 실시예들은 NMF 모델을 구현한다. NMF의 종래의 공식은
Figure pct00001
로서 정의될 수 있고, 여기서 V는 차원 F×N의 비-음수 행렬이다. NMF의 목적은, 행렬 V를, 각각 차원 F×KK×N의 2개의 단순한 비-음수 행렬들 WH의 곱으로 근사화하는 것이고, 행렬 V
Figure pct00002
에 의해 대략적으로 재구성되는 경우 에러가 최소화된다. 근사화의 에러는 다양한 비용 함수(cost function)들을 사용하여 측정될 수 있다.
본 발명의 실시예들에서 NMF의 공식, 즉,
Figure pct00003
를 적용하면, V는 오디오 혼합물의 비-음수 스펙트로그램 행렬을 나타내고, 이는 입력 혼합 신호들의 시간-주파수 표현이다. WH는 각각 오디오 소스들의 스펙트럼 원자(spectral atom)들 및 이들의 대응하는 활성화들을 표현한다. F는 총 주파수 빈(bin)들을 나타내고, N은 시간 프레임들의 수이고, K는, 오디오 소스들의 스펙트럼 특성들을 설명하는 스펙트럼 베이시스(basis)인 NMF 성분들의 수를 나타낸다. 즉, NMF는 행렬 W의 상이한 열들(및 행렬 H의 대응하는 행들)을 상이한 음향 소스들과 연관시킴으로써 단일-채널 오디오 혼합물을 분리할 수 있다. 도 3은 분해의 예를 도시한다.
따라서, 목적은, 하기 최적화 문제를 해결함으로써 근사화 에러를 최소화하는 것이다.
Figure pct00004
여기서,
Figure pct00005
여기서,
Figure pct00006
는 다이버전스이고, f(주파수 빈 인덱스) 및 n(시간 프레임 인덱스)는 제f 행 및 제n 열의 엘리먼트를 표시한다. 가능한 예시적인 다이버전스는 이타쿠라-사이토(Itakura-Saito) 다이버전스 [III]를 포함한다.
임의적으로, 스펙트럼 베이시스 행렬 W는 고정되어 유지되거나 업데이트될 수 있다. 검색된 오디오 샘플들이 비교적 양호하면, 추가적인 오디오 소스 분리를 위해, 학습된 W를 고정시키는 것이 바람직하다. 한편, 업데이트된 W는 유연하며, 입력 오디오 혼합물에 대한 더 양호한 근사화로 수렴한다. 대안적으로, 다른 옵션은, 먼저 제1 파라미터 업데이트 반복들 동안 행렬 W를 고정시키고, 추후의 반복들에서 W를 조절 및 업데이트하는 것이 후속되고, 이는, 오디오 혼합물에서 오디오 소스들의 스펙트럼 특성들을 더 양호하게 적응시킨다.
도 4는 본 발명에 따른 오디오 소스 분리 방법의 다른 바람직한 실시예를 도시한다. 이 실시예에서, 오디오 샘플을 평가하는 단계(12), 및 오디오 혼합물을 분리하는 단계(13)는 공동으로 수행된다. 즉, 어떠한 평가도 오디오 소스 분리에 앞서 미리 수행되지 않고, 모든 검색된 오디오 샘플들은 오디오 소스 분리 스테이지에 대한 입력으로서 제공된다.
일반적으로, 오디오 샘플들을 평가하고 오디오 혼합물을 분리하는 것은, 상이한 소스들에 대한 오디오 예시들로부터 학습된 스펙트럼 패턴 행렬들을 연접시킴으로써 구성되는 대형 스펙트럼 패턴 사전을 사용하여 오디오 혼합물에 비-음수 행렬 인수분해를 적용함으로써 공동으로 수행된다. 더 구체적으로, 2개의 소스들의 예시로서, 스펙트럼 패턴들의 행렬은 먼저 W=[W11,...,W1P, W21,...,W2Q]로서 구성되고, 여기서 P 및 Q는 각각 소스 1 및 2에 대한 검색된 예시들의 수이고, W1p (p=1,..,P) 및 W1q (q=1,..,Q)는 각각 소스 1(p로 인덱싱됨) 및 소스 2(q로 인덱싱됨)의 각각의 예시로부터 NMF에 의해 학습된 스펙트럼 패턴들의 행렬들이다. 시간 활성화 행렬 H는 동일한 방식으로 구성되지만, 모든 엔트리들이 먼저 랜덤으로 초기화되고, 그 다음 최적화 프로세스를 통해 업데이트된다. 본 발명의 이러한 실시예에서, 행렬 H에 대한 그룹 희소성을 강화하는 패널티 함수들은 글로벌(global) 최적화 비용으로 제시되어, 혼합물의 NMF 분해를 안내하기 위한 예시들로부터 학습된 오직 가장 적절한 스펙트럼 패턴들만을 선택하도록 허용한다. 이러한 전략은 2개의 소스들 및 각각의 소스에 대한 2개의 예시들의 예시적인 경우에 대해 도 6에서 설명되고, 여기서 W11 및 W12는 2개의 예시들 중 제1 소스에 대해 학습된 스펙트럼 패턴들이고, 유사하게 W21 및 W22는 제2 소스에 대한 스펙트럼 패턴들이다. 행렬 H는, 스펙트럼 패턴들에 대응하는 활성화들인 블록들 H11, H12, H21 및 H22로 이루어진다. 최적화 후, H12 및 H22의 엔트리들은 제로이고, 이는, 각각의 소스에 대해 오직 하나의 검색된 예시(1로 인덱싱됨)만이 분리 프로세스를 안내하도록 자동으로 선택되었음을 의미한다.
NMF 모델을 구현하는 오디오 소스 분리에서 직접적으로 오디오 샘플들의 평가를 통합하기 위해, 활성화 행렬 H에 대한 희소성 패널티 Ψ(H)가 NMF 비용 함수에 도입되고:
Figure pct00007
여기서
Figure pct00008
는 앞서 정의되었고, λ는 희소성 상수의 분포를 가중하는 트레이드-오프 파라미터이다.
임의적으로 그리고 바람직하게는, 비용 함수 공식에서 트레이드-오프 파라미터 λ는 적응적일 수 있어서 λ=f(i)이고, 여기서 f는 함수이고, i는 파라미터 업데이트 프로세스에서 반복 횟수이다. 아이디어는, 먼저, 희소성 패널티에 더 큰 가중치를 부여하는 높은 λ를 갖고, 그에 따라 기본 오디오 샘플들을 선택하고, 그에 후속하여, 더 양호한 근사화를 얻기 위해, λ를 점진적으로 감소시켜 제1 항, 즉, 다이버전스
Figure pct00009
에 더 양호하게 부합시키는 것이다. 트레이드-오프 파라미터 λ를 선형으로 적응시키는 이러한 전략의 예시들은 도 5에 도시된다.
[II]에는, 상기 언급된 비용 함수들을 최적화하기 위한 곱셈 업데이트들에 의한 반복적 알고리즘의 더 상세한 유도 및 설명이 상술되어 있다.
Figure pct00010
상이한 희소성 패널티들을 선택함으로써, 몇몇 최적화 방식들이 달성되며, 이는, 분리 프로세스를 안내하기 위해 오디오 샘플들의 스펙트럼 특성들을 활용하는 상이한 방식들의 기저를 이룬다. 아래와 같이 제안된 희소성 패널티들이 주어지면, 대응하는 파라미터 추정을 위한 대응하는 업데이트 규칙들이 유도될 수 있다.
일 실시예에서, 희소성 패널티는,
Figure pct00011
로서 정의되고, 여기서 G는 사용된 오디오 샘플들의 수에 대응하는 그룹들의 수를 나타내고, H g 는 제g 소스(제g 그룹)에 대응하는 활성화 행렬 H의 일부이다. Ψ(x)는 예를 들어, [I, II] 에 도시된 바와 같이 상이한 함수들에 의해 정의될 수 있다. 하나의 예시는, 단순화를 위해 실시예들에서 사용되는 Ψ(x)=log(x)이다. 물론, 상이한 함수들 Ψ가 또한 사용될 수 있다.
이러한 그룹 희소성 접근법은, 보조 데이터베이스로부터 검색되는 관련된 트레이닝 소스 샘플들의 평가 및 선택을 효율적으로 수행하도록 허용하고, 여기서 그룹은 하나의 트레이닝 오디오 샘플을 표현한다. 오직 하나의 소스에 대한 양호한 모델만이 포착되는 것으로 가정되는 [I] 의 개선으로서, 이 실시예에서, 모든 오디오 소스들에 대한 더 많은 모델들이 일반적으로 학습 및 달성된다. 도 6에 도시된 바와 같이, 활성화 행렬 H는, 더 높이 랭크된 오디오 샘플들에 대응하는 활성화들의 일부의 블록들을 포함하도록 강제된다.
일 실시예에서, 희소성 패널티는,
Figure pct00012
로 정의되고, 여기서 h g 는 활성화 행렬의 제g 행이다. 이러한 행 희소성 접근법은 더 많은 유연성 및 심지어 상이한 오디오 샘플들로부터 최상의 스펙트럼 원자들을 선택하는 것을 허용한다.
일 실시예에서, 페어링된(paired) 그룹 희소성 접근법이 적용되며, 여기서 희소성 패널티는 아래 식으로서 정의된다.
Figure pct00013
이것은, 희소성 패널티가 오직 하나의 소스로부터 오직 하나의 활성화된 그룹만을 유지하는 시나리오를 회피하기 위해, 한 쌍의 트레이닝 오디오 샘플들로서의 그룹이 각각 하나의 오디오 소스로부터 기인하는 것으로 정의된다. 이러한 접근법은 각각의 오디오 소스에서 적어도 하나의 활성화된 그룹을 유지할 수 있다.
다른 실시예에서, 유사하게, 접근법은 페어링된 행 희소성에 기반하며, 여기서 희소성 패널티는 아래 식으로서 정의된다.
Figure pct00014
바람직하게는, 또 다른 실시예에서, 결합된 그룹 및 행 희소성 접근법이 적용된다. 이러한 혼합된 접근법에 대한 비용 함수는 아래 식으로서 정의되고:
Figure pct00015
여기서,
Figure pct00016
β는 각각의 패널티의 기여를 결정하기 위한 가중치들이다. 이러한 접근법은, 알고리즘이 상이한 소스들로부터 양호한 스펙트럼 패턴들을 선택할 수 있는 도 7에서와 같이 가시화될 수 있다.
본 발명의 또 다른 실시예에서, 고려되는 스펙트럼 모델들은 멀티채널 오디오 혼합물들에서 온-더-플라이 소스 분리를 수행하기 위해 공간적 모델들 [X]와 결합될 수 있다. 고려되는 프레임워크의 멀티채널 경우로의 확장은 간단하며, 예를 들어, [XI]에 설명되어 있다.
도 8은 본 발명에 따른 오디오 소스 분리 방법을 수행하도록 구성된 시스템(20)의 바람직한 실시예를 개략적으로 예시한다. 시스템(20)은, 오디오 혼합물 및 오디오 혼합물과 연관된 적어도 하나의 텍스트 문의를 수신(10)하도록 구성되는 수신 유닛(21); 텍스트 문의를 보조 오디오 데이터베이스(23)와 연관된 시맨틱 정보와 매칭시킴으로써 보조 오디오 데이터베이스(23)로부터 적어도 하나의 오디오 샘플을 검색(11)하고; 보조 오디오 데이터베이스(23)로부터 검색된 오디오 샘플을 평가(12)하고; 오디오 샘플을 사용하여 오디오 혼합물을 복수의 오디오 소스들로 분리(13)하도록 구성되는 프로세서(22)를 포함한다.
바람직하게는, 프로세서(22)는 공동으로, 오디오 샘플을 평가하고(12), 오디오 혼합물을 분리한다(13). 더 바람직하게는, 프로세서(22)는 수신된 오디오 혼합물에 NMF를 적용함으로써 오디오 혼합물을 분리한다(13).
참고문헌
[I] D. L. Sun and G. J. Mysore. "Universal Speech Models for Speaker Independent Single Channel Source Separation," IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), May 2013.
[II] A. Lefevre, F. Bach, and C. Fevotte. "Itakura-Saito Non-negative Matrix Factorization with Group Sparsity,". ICASSP 2011.
[III] C. Fevotte, N. Bertin, and J. Durrieu. "Non-negative Matrix Factorization with the Itakura-Saito divergence. With Application to Music Analysis,". Neural Computation Vol. 21 No. 3. March 2009.
[IV] P. Smaragdis, B. Raj, and M. Shashanka, "Supervised and semi-supervised separation of sounds from single-channel mixtures," in Proc. Int. Conf. on Independent Component Analysis and Signal Separation (ICA), 2007, pp. 414 - 421.
[V] P. Smaragdis and G. J. Mysore, "Separation by humming: User-guided sound extraction from monophonic mixtures," in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2009, pp. 69 - 72.
[VI] L. L. Magoarou, A. Ozerov, and N. Q. K. Duong, "Text-informed audio source separation using nonnegative matrix partial co-factorization," in Proc. Int. Workshop on Machine Learning for Signal Processing (MLSP), 2013.
[VII] N. Q. K. Duong, A. Ozerov, L. Chevallier, and J. Sirot, "An interactive audio source separation framework based on nonnegative matrix factorization," Proc. ICASSP 2014
[VIII] N. Q. K. Duong, A. Ozerov, and L. Chevallier "Method of audio source separation and corresponding apparatus," European Patent Application No. 13305759.6
[IX] N. Q. K. Duong, A. Ozerov, and L. Chevallier, "Temporal annotation based audio source separation using weighted nonnegative matrix factorization", Proc. IEEE ICCE-Berlin, submitted, 2014.
[X] N. Q. K. Duong, E. Vincent and R. Gribonval, "Under-determined reverberant audio source separation using a full-rank spatial covariance model," IEEE Transactions on Audio, Speech and Language Processing, Special Issue on Processing Reverberant Speech, Vol. 18, No. 7, pp. 1830-1840, Sep. 2010
[XI] S Arberet, A. Ozerov, N. Q. K Duong, E. Vincent, R Gribonval, F. Bimbot and P Vandergheynst, "Nonnegative matrix factorization and spatial covariance model for under-determined reverberant audio source separation," Proc. International Conference on Information Science, Signal Processing and their Applications (ISSPA. IEEE), 2010

Claims (15)

  1. 프로세서에 의해 수행되는, 오디오 혼합물(audio mixture)에 대한 오디오 소스 분리 방법으로서,
    - 오디오 혼합물 및 상기 오디오 혼합물과 연관된 적어도 하나의 텍스트 문의(text query)를 수신하는 단계(10);
    - 상기 텍스트 문의를 보조 오디오 데이터베이스와 연관된 시맨틱(semantic) 정보와 매칭시킴으로써 상기 보조 오디오 데이터베이스로부터 적어도 하나의 오디오 샘플을 검색하는 단계(11);
    - 상기 보조 오디오 데이터베이스로부터 검색된 상기 오디오 샘플들을 평가하는 단계(12); 및
    - 상기 오디오 샘플을 사용하여 상기 오디오 혼합물을 복수의 오디오 소스들로 분리하는 단계(13)
    를 포함하는 방법.
  2. 제1항에 있어서, 상기 오디오 혼합물을 분리하는 단계(13)는 상기 오디오 샘플들의 평가 결과에 따라 상기 오디오 샘플들의 서브세트를 사용하는, 방법.
  3. 제1항에 있어서, 상기 오디오 샘플들을 평가하는 단계(12)는, 상기 수신된 텍스트 문의와의 매칭에 따라 상기 오디오 샘플들을 랭크시키는 단계를 포함하는, 방법.
  4. 제1항에 있어서, 상기 오디오 샘플들을 평가하는 단계(12)는, 상기 수신된 오디오 혼합물과의 상관에 따라 상기 오디오 샘플들을 랭크시키는 단계를 포함하는, 방법.
  5. 제1항에 있어서, 상기 오디오 샘플들을 평가하는 단계(12)는, 상기 검색된 오디오 샘플들과 상기 수신된 오디오 혼합물 사이의 오디오 특징 유사성(audio feature similarity)에 따라 상기 오디오 샘플들을 랭크시키는 단계를 포함하는, 방법.
  6. 제1항에 있어서, 상기 보조 오디오 데이터베이스는 인터넷 검색 엔진을 포함하는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 오디오 혼합물을 분리하는 단계(13)는 상기 오디오 혼합물에 비-음수 행렬 인수분해(non-negative matrix factorization)(NMF)를 적용하는 단계를 포함하는, 방법.
  8. 제1항에 있어서, 상기 오디오 샘플을 평가하는 단계(12)와 상기 오디오 혼합물을 분리하는 단계(13)는 공동으로 수행되는, 방법.
  9. 제8항에 있어서, 상기 오디오 샘플을 평가하는 단계(12)와 상기 오디오 혼합물을 분리하는 단계(13)는 상기 오디오 혼합물 및 상기 오디오 샘플들에 비-음수 행렬 인수분해(NMF)를 적용함으로써 공동으로 수행되는, 방법.
  10. 제9항에 있어서, 상기 오디오 샘플을 평가하는 단계(12)는, 상기 NMF 적용에 비용 함수(cost function)를 도입함으로써 수행되고, 상기 비용 함수는, 상기 혼합물의 분해를 안내하기 위해 상기 검색된 오디오 예시들로부터 학습된 스펙트럼 패턴들을 선택하는 것을 허용하도록 희소성 패널티(sparsity penalty)의 파라미터를 포함하는, 방법.
  11. 제10항에 있어서, 상기 희소성 패널티의 파라미터는, 파라미터 업데이트 프로세스(parameter updating process)에서 적응적으로 수정되는 트레이드-오프(trade-off) 파라미터와 연관되는, 방법.
  12. 오디오 혼합물에 대한 오디오 소스 분리 시스템(20)으로서,
    오디오 혼합물 및 상기 오디오 혼합물과 연관된 적어도 하나의 텍스트 문의를 수신하도록 구성되는 수신 유닛(21); 및
    상기 텍스트 문의를 보조 오디오 데이터베이스(23)와 연관된 시맨틱 정보와 매칭시킴으로써 상기 보조 오디오 데이터베이스(23)로부터 적어도 하나의 오디오 샘플을 검색하고, 상기 보조 오디오 데이터베이스(23)로부터 검색된 오디오 샘플을 평가하고, 상기 오디오 샘플을 사용하여 상기 오디오 혼합물을 복수의 오디오 소스들로 분리하도록 구성되는 프로세서(22)
    를 포함하는 시스템.
  13. 제12항에 있어서, 상기 프로세서(22)는 상기 오디오 혼합물에 비-음수 행렬 인수분해(NMF)를 적용함으로써 상기 오디오 혼합물을 분리하는, 시스템.
  14. 제12항에 있어서, 상기 프로세서(22)는 공동으로, 상기 오디오 샘플을 평가하고 상기 오디오 혼합물을 분리하는, 시스템.
  15. 오디오 혼합물에 대한 오디오 소스 분리를 위한 명령어들을 저장하는 컴퓨터 판독가능 매체로서,
    상기 명령어들은, 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금,
    - 오디오 혼합물 및 상기 오디오 혼합물과 연관된 적어도 하나의 텍스트 문의를 수신하게 하고;
    - 상기 텍스트 문의를 보조 오디오 데이터베이스와 연관된 시맨틱 정보와 매칭시킴으로써 상기 보조 오디오 데이터베이스로부터 적어도 하나의 오디오 샘플을 검색하게 하고;
    - 상기 보조 오디오 데이터베이스로부터 검색된 오디오 샘플들을 평가하게 하고;
    - 상기 오디오 샘플을 사용하여 상기 오디오 혼합물을 복수의 오디오 소스들로 분리하게 하는, 컴퓨터 판독가능 매체.
KR1020167035072A 2014-05-15 2015-05-11 온-더-플라이 오디오 소스 분리 방법 및 시스템 KR20170008799A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14305712 2014-05-15
EP14305712.3 2014-05-15
PCT/EP2015/060369 WO2015173192A1 (en) 2014-05-15 2015-05-11 Method and system of on-the-fly audio source separation

Publications (1)

Publication Number Publication Date
KR20170008799A true KR20170008799A (ko) 2017-01-24

Family

ID=50842205

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167035072A KR20170008799A (ko) 2014-05-15 2015-05-11 온-더-플라이 오디오 소스 분리 방법 및 시스템

Country Status (7)

Country Link
US (1) US10235126B2 (ko)
EP (1) EP3143619A1 (ko)
JP (1) JP2017520784A (ko)
KR (1) KR20170008799A (ko)
CN (1) CN106537503A (ko)
TW (1) TW201543472A (ko)
WO (1) WO2015173192A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105489215B (zh) * 2015-11-18 2019-03-12 珠海格力电器股份有限公司 一种噪声源识别方法及系统
WO2017143095A1 (en) * 2016-02-16 2017-08-24 Red Pill VR, Inc. Real-time adaptive audio source separation
JP6987075B2 (ja) 2016-04-08 2021-12-22 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ源分離
JP6618493B2 (ja) * 2017-02-20 2019-12-11 日本電信電話株式会社 信号解析装置、方法、及びプログラム
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
CN109346097B (zh) * 2018-03-30 2023-07-14 上海大学 一种基于Kullback-Leibler差异的语音增强方法
EP3853628A4 (en) * 2018-09-17 2022-03-16 Aselsan Elektronik Sanayi ve Ticaret Anonim Sirketi JOINT SOURCE LOCATION AND SEPARATION METHOD FOR ACOUSTIC SOURCES
JP2020056939A (ja) * 2018-10-03 2020-04-09 日本電信電話株式会社 信号分離装置、信号分離方法、及びプログラム
US20210358513A1 (en) * 2018-10-26 2021-11-18 Nec Corporation A source separation device, a method for a source separation device, and a non-transitory computer readable medium
CN111370019B (zh) * 2020-03-02 2023-08-29 字节跳动有限公司 声源分离方法及装置、神经网络的模型训练方法及装置
CN111724807B (zh) * 2020-08-05 2023-08-11 字节跳动有限公司 音频分离方法、装置、电子设备及计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415392B2 (en) * 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
EP2406787B1 (en) * 2009-03-11 2014-05-14 Google, Inc. Audio classification for information retrieval using sparse features
KR101081050B1 (ko) 2010-04-29 2011-11-09 서울대학교산학협력단 비음수 행렬 인수분해에 기초한 목표 신호 검출 방법 및 시스템
US20120316886A1 (en) 2011-06-08 2012-12-13 Ramin Pishehvar Sparse coding using object exttraction
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
WO2014195132A1 (en) 2013-06-05 2014-12-11 Thomson Licensing Method of audio source separation and corresponding apparatus
EP2887233A1 (en) 2013-12-20 2015-06-24 Thomson Licensing Method and system of audio retrieval and source separation

Also Published As

Publication number Publication date
JP2017520784A (ja) 2017-07-27
CN106537503A (zh) 2017-03-22
WO2015173192A1 (en) 2015-11-19
US10235126B2 (en) 2019-03-19
US20170075649A1 (en) 2017-03-16
TW201543472A (zh) 2015-11-16
EP3143619A1 (en) 2017-03-22

Similar Documents

Publication Publication Date Title
US10235126B2 (en) Method and system of on-the-fly audio source separation
EP4113511A1 (en) Method and system for automatically diarising a sound recording
EP4018437B1 (en) Optimizing a keyword spotting system
JPH0583918B2 (ko)
US11574628B1 (en) Deep multi-channel acoustic modeling using multiple microphone array geometries
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
El Badawy et al. On-the-fly audio source separation
WO2013030134A1 (en) Method and apparatus for acoustic source separation
Schröter et al. Segmentation, classification, and visualization of orca calls using deep learning
CN110534091A (zh) 一种基于微服务器及智能语音识别的人车交互方法
Huang et al. Singing voice detection based on convolutional neural networks
El Badawy et al. On-the-fly audio source separation—A novel user-friendly framework
El Badawy et al. Relative group sparsity for non-negative matrix factorization with application to on-the-fly audio source separation
CN115168563B (zh) 一种基于意图识别的机场服务引导方法、系统及装置
JP2020034870A (ja) 信号解析装置、方法、及びプログラム
Mandel et al. Learning a concatenative resynthesis system for noise suppression
Liaqat et al. Domain tuning methods for bird audio detection.
Tyagi Fepstrum features: Design and application to conversational speech recognition
Razik et al. Sparse coding for efficient bioacoustic data mining: Preliminary application to analysis of whale songs
Shiroma et al. Investigation on spatial and frequency-based features for asynchronous acoustic scene analysis
Kolesau et al. Investigation of acoustic features for voice activation problem
Sangeetha et al. A novel spoken document retrieval system using Auto Associative Neural Network based keyword spotting
Kokkinidis et al. Finding the optimum training solution for Byzantine music recognition—A Max/Msp approach
US20220208180A1 (en) Speech analyser and related method
Joshi et al. Mfcc-based voice recognition system for home automation using dynamic programming