KR20210154807A - 다이얼로그 검출기 - Google Patents

다이얼로그 검출기 Download PDF

Info

Publication number
KR20210154807A
KR20210154807A KR1020217032867A KR20217032867A KR20210154807A KR 20210154807 A KR20210154807 A KR 20210154807A KR 1020217032867 A KR1020217032867 A KR 1020217032867A KR 20217032867 A KR20217032867 A KR 20217032867A KR 20210154807 A KR20210154807 A KR 20210154807A
Authority
KR
South Korea
Prior art keywords
context
frames
dialog
term
frame
Prior art date
Application number
KR1020217032867A
Other languages
English (en)
Inventor
라이 루
신 리우
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20210154807A publication Critical patent/KR20210154807A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Image Analysis (AREA)

Abstract

본 출원은 입력 오디오 신호에 응답하여 다이얼로그 검출기에서 오디오 특징들을 추출하는 방법에 관한 것이며, 상기 방법은 입력 오디오 신호를 복수의 프레임들로 분할하는 것, 각각의 프레임으로부터 프레임 오디오 특징들을 추출하는 것, 콘텍스트 윈도우들의 세트를 결정하는 것으로서, 각각의 콘텍스트 윈도우는 현재 프레임을 둘러싼 복수의 프레임들을 포함하는, 상기 콘텍스트 윈도우들의 세트를 결정하는 것, 각각의 콘텍스트 윈도우에 대해, 각각의 개별 콘텍스트에서의 프레임들의 프레임 오디오 특징들에 기초하여 현재 프레임에 대한 관련 콘텍스트 오디오 특징을 도출하는 것, 및 현재 프레임을 나타내도록 조합된 특징 벡터를 형성하기 위해 각각의 콘텍스트 오디오 특징을 연쇄시키는 것을 포함한다. 상이한 길이를 가진 콘텍스트 윈도우들은 응답 속도를 개선하며 강건성을 개선할 수 있다.

Description

다이얼로그 검출기
관련 출원들에 대한 상호-참조
본 출원은 2019년 4월 18일에 출원된 PCT 특허 출원 번호 PCT/CN2019/083173호, 2019년 4월 30일에 출원된 미국 가특허 출원 번호 62/840,839, 및 2019년 8월 20일에 출원된 EP 특허 출원 번호 19192553.6에 대한 우선권을 주장하며, 그 각각은 전체적으로 참조로서 통합된다.
기술 분야
본 출원 개시는 일반적으로 오디오 신호 프로세싱에 관한 것이며, 특히 다이얼로그 검출기에 관한 것이다.
다이얼로그 검출기는 다이얼로그 강화, 잡음 감소 및 라우드니스 미터와 같은, 복수의 오디오 신호 프로세싱 알고리즘들에서의 주요 구성요소이다. 일반적으로, 현재 다이얼로그 검출기에서, 입력 오디오 신호는 먼저 샘플링 레이트 변환 또는 다운-믹싱 등에 의해 사전-프로세싱 구성요소에서 균일한 포맷으로 변환된다. 예를 들어, 사전-프로세싱으로서, 입력 오디오 신호는 모노 오디오 신호로 다운-믹싱될 수 있다. 다음으로, 프로세싱된 오디오 신호는 짧은 시간 프레임들로 분리되며, 오디오 특징들은 각각의 프레임의 특성들을 설명하기 위해 고정된 수의 프레임들을 포함하는 콘텍스트 윈도우로부터 추출된다. 그 후, 기계 학습 방법들을 사용하여 구축되는, 분류기는 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어에 오디오 특징들을 자동으로 매핑하기 위해 적용된다. 마지막에, 중간값 또는 평균값 필터와 같은, 사후-프로세싱이 획득된 신뢰도 스코어들의 바람직하지 않은 변동을 제거하거나 또는 평탄화하기 위해 적용될 수 있다. 신호는 신뢰도 스코어가 높은 경우에 다이얼로그로서 분류될 것이다. 그 후, 다이얼로그 신호는 다이얼로그 강화기와 같은, 오디오 개선 디바이스로 전송될 수 있다.
본 발명의 제1 양상은 입력 오디오 신호에 응답하여 다이얼로그 검출기에서 오디오 특징들을 추출하는 방법에 관한 것이며, 상기 방법은 입력 오디오 신호를 복수의 프레임들로 분할하는 것, 각각의 프레임으로부터 프레임 오디오 특징들을 추출하는 것, 콘텍스트 윈도우들의 세트를 결정하는 것으로서, 각각의 콘텍스트 윈도우는 현재 프레임을 둘러싼 복수의 프레임들을 포함하는, 상기 콘텍스트 윈도우들의 세트를 결정하는 것, 각각의 콘텍스트 윈도우에 대해, 각각의 개별 콘텍스트에서 프레임들의 프레임 오디오 특징들에 기초하여 현재 프레임에 대한 관련 콘텍스트 오디오 특징(relevant context audio feature)을 도출하는 것, 및 현재 프레임을 나타내도록 조합된 특징 벡터를 형성하기 위해 각각의 콘텍스트 오디오 특징을 연쇄시키는 것을 포함한다.
본 발명은 따라서, 상이한 콘텍스트들에서 프레임을 나타내기 위해, 각각이 상이한 수의 프레임들을 포함하는, 여러 콘텍스트 윈도우들을 사용하도록 제안하며, 여기에서 상이한 길이를 가진 콘텍스트 윈도우들은 타겟 프레임의 오디오 속성을 나타내는데 상이한 역할들을 할 것이다. 상이한 길이를 가진 콘텍스트 윈도우들은 응답 속도를 개선하며 강건성을 개선할 수 있다. 이를 위해, 본 출원은 상이한 길이 또는 범위를 가진 복수의, 예컨대 3개의, 콘텍스트 윈도우들, 예를 들어, 단기 콘텍스트(short-term context), 중기 콘텍스트(mid-term context) 및 장기 콘텍스트(long-term context)를 결정하기 위해 새로운 프로세스, 복합-기간(combo-term) 콘텍스트 결정을 도입하며; 그 후 오디오 특징들이 오디오 특징 추출 구성요소에서 콘텍스트들에서 추출된다.
몇몇 구현예들에서, 프레임 특징 추출 구성요소는 입력 오디오 신호로부터 분할된 복수의 프레임들의 각각의 프레임으로부터 프레임 오디오 특징들(즉, 프레임의 오디오 특징들)을 추출하며, 복합-기간 콘텍스트 결정 구성요소는 각각의 콘텍스트 윈도우의 길이 또는 범위를 결정한다. 그 후, 관련 콘텍스트 오디오 특징이 각각의 결정된 콘텍스트에서 프레임 오디오 특징들에 기초하여 도출된다. 각각의 콘텍스트 오디오 특징이 그 후 연쇄되며 현재 프레임을 나타내기 위해 조합된 특징 벡터를 형성한다.
몇몇 구현예들에서, 콘텍스트 윈도우들은 단기 콘텍스트, 중기 콘텍스트, 및 장기 콘텍스트를 포함한다. 단기 콘텍스트는 현재 프레임 주위의 국소 정보를 나타낸다. 중기 콘텍스트는 복수의 룩-백(look-back) 프레임들을 추가로 포함한다. 장기 콘텍스트는 복수의 장기 이력 프레임들을 추가로 포함한다.
몇몇 구현예들에서, 하나 이상의 콘텍스트들의 길이 또는 범위(즉, 각각의 콘텍스트 윈도우들에서 프레임들의 수)가 미리 결정될 수 있다. 예를 들어, 룩-어헤드(look-ahead) 버퍼가 이용 가능하다면, 단기 콘텍스트는 현재 프레임 및 룩-어헤드 프레임들을 포함할 수 있다. 중기 콘텍스트는 현재 프레임, 룩-어헤드 프레임들 및 룩-백 프레임들을 포함할 수 있다. 장기 콘텍스트는 현재 프레임, 룩-어헤드 프레임들, 룩-백 프레임들 및 장기 이력 프레임들을 포함할 수 있다. 일 구현예에서, 룩-어헤드 프레임들의 길이 또는 범위는 23 프레임으로 미리 결정될 수 있으며, 룩-백 프레임들의 길이 또는 범위는 24 프레임으로 미리 결정될 수 있을 뿐만 아니라 장기 이력 프레임들의 길이 또는 범위는 48 내지 96 프레임으로 미리 결정될 수 있다. 또 다른 예에서, 룩-어헤드 프레임이 이용 가능하지 않다면, 단기 콘텍스트는 현재 프레임 및 룩-백 프레임들의 제1 부분을 포함할 수 있다. 중기 콘텍스트는 현재 프레임, 룩-백 프레임들의 제1 부분 및 룩-백 프레임들의 제2 부분을 포함할 수 있다. 장기 콘텍스트는 현재 프레임, 룩-백 프레임들의 제1 부분, 룩-백 프레임들의 제2 부분 및 장기 이력 프레임들을 포함할 수 있다. 그러므로, 룩-백 프레임들의 제1 부분의 길이 또는 범위는 23 프레임으로 미리 결정될 수 있으며, 룩-백 프레임들의 제2 부분의 길이 또는 범위는 24 프레임으로 미리 결정될 수 있을 뿐만 아니라 장기 이력 프레임들의 길이 또는 범위는 48 내지 96 프레임으로 미리 결정될 수 있다.
몇몇 구현예들에서, 하나 이상의 콘텍스트들의 길이 또는 범위는 프레임-레벨 특징의 정상성(stationarity)을 분석함으로써 적응적으로 결정될 수 있다. 예를 들어, 적응적 결정은 입력 오디오 신호의 진폭에 관련된 정보에 기초한다. 구체적으로, 단기 콘텍스트의 길이 또는 범위를 적응적으로 결정하기 위한 하나의 방식은 강한 온셋 또는 과도 검출에 기초한다. 또 다른 예에서, 적응적 결정은 입력 오디오 신호의 스펙트럼에 관련된 정보에 기초한다. 구체적으로, 단기 콘텍스트의 길이 또는 범위를 적응적으로 결정하기 위한 하나의 방식은 베이지안 정보 기준들(Bayesian Information Criteria)을 사용함으로써 가장 큰 스펙트럼 불일치를 식별하는 것에 기초한다. 또한, 단기 콘텍스트는 룩-어헤드 및 룩-백 방향 양쪽 모두로 연장되거나, 또는 적응적 결정 구현예들에서 단지 하나의 방향으로만 연장될 수 있다. 몇몇 구현예들에서, 콘텍스트들의 길이 또는 범위는 적응적 결정과 조합하여 미리 정의될 수 있다.
또한, 본 출원은 저-SNR 다이얼로그에서 검출 정확도를 개선하기 위해, 신호에서 비상관 잡음들을 제거하기 위한 사전-클리닝 방법을 제안한다. 이를 위해, 본 출원은 상관 신호를 더 강조하여, 시간-주파수 의존 이득들과의 다운믹싱을 이용한다.
몇몇 구현예들에서, 입력 오디오 신호는 먼저 복수의 프레임들로 분할되며, 그 후 좌 채널 및 우 채널에서의 프레임들은 프레임들의 스펙트럼 표현으로 변환된다. 좌 채널 및 우 채널에서의 비상관 신호들은, 다운믹싱 후 신호를 획득하도록, 각각 좌 채널 및 우 채널에서의 스펙트럼에 주파수 의존 이득들을 적용함으로써 제거된다. 몇몇 구현예들에서, 주파수 의존 이득들은 공분산 행렬(covariance matrix)로부터 추정될 수 있다.
더욱이, 본 출원은 음악에서 거짓 알람들을 상당히 감소시키도록, 원래 다이얼로그 신뢰도 스코어를 정정하고 최종 정정된 다이얼로그 신뢰도 스코어를 획득하기 위해 음악 신뢰도 스코어 및 스피치 신뢰도 스코어 양쪽 모두가 함께 고려될 수 있도록 음악 콘텐트 검출기를 도입한다.
몇몇 구현예들에서, 스피처 콘텐트 검출기는 콘텍스트 윈도우들을 사용함으로써 추출된 특징들을 수신하며, 그 후 스피치 콘텐트 검출기는 스피치 신뢰도 스코어를 결정한다. 다음으로, 음악 콘텐트 검출기는 콘텍스트 윈도우들을 사용함으로써 추출된 특징들을 수신하며, 그 후 음악 콘텐트 검출기는 음악 신뢰도 스코어를 결정한다. 스피치 신뢰도 스코어 및 음악 신뢰도 스코어는 최종 다이얼로그 신뢰도 스코어를 획득하기 위해 조합된다. 몇몇 구현예들에서, 최종 다이얼로그 신뢰도 스코어는 이력 콘텍스트에서 스피치 또는 음악으로서 식별된 프레임들의 비율에 기초하여 계산될 수 있는 콘텍스트-의존 파라미터에 의해 정제(refine)될 수 있다. 몇몇 구현예들에서, 이력 콘텍스트는 길이가 10초 이상일 수 있다.
포함된 도면들은 예시적인 목적들을 위한 것이며 단지 개시된 본 발명의 방법들, 시스템 및 컴퓨터-판독 가능한 매체에 대한 가능한 예들 및 동작들을 제공하도록 작용한다. 이들 도면들은 개시된 구현예들의 사상 및 범위로부터 벗어나지 않고 이 기술분야에서의 숙련자에 의해 이루어질 수 있는 형태 및 세부사항에서의 임의의 변화들을 결코 제한하지 않는다.
도 1은 몇몇 구현예들에 따른, 복합-기간 콘텍스트 결정 구성요소(104)를 통합한 다이얼로그 검출기(100)의 블록도를 도시한다.
도 2는 몇몇 구현예들에 따른, 다이얼로그 검출기(100)에서 오디오 특징 추출 구성요소(102)의 블록도를 도시한다.
도 3은 복합-기간 콘텍스트 결정 구성요소(104)를 사용함으로써 복합-기간 콘텍스트의 길이 또는 범위를 미리 결정하기 위한 몇몇 구현예들의 방법(200)의 흐름도를 도시한다.
도 4a는 몇몇 구현예들에 따라, 룩-어헤드 버퍼가 이용 가능한 경우 복합-기간 콘텍스트의 미리 결정된 길이 또는 범위의 예를 도시한다.
도 4b는 몇몇 구현예들에 따라, 룩-어헤드 버퍼가 이용 가능하지 않은 경우 복합-기간 콘텍스트의 미리 결정된 길이 또는 범위의 예를 도시한다.
도 5a는 복합-기간 콘텍스트 결정 구성요소(104)를 사용함으로써 복합-기간 콘텍스트의 길이 또는 범위를 적응적으로 결정하기 위한 몇몇 구현예들의 방법(300)의 예의 흐름도를 도시한다.
도 5b는 콘텍스트 경계 탐색 범위에 예시된 방법(300)의 개략도를 도시한다.
도 6a는 복합-기간 콘텍스트 결정 구성요소(104)를 사용함으로써 복합-기간 콘텍스트의 길이 또는 범위를 적응적으로 결정하기 위한 몇몇 구현예들의 방법(400)의 또 다른 예의 흐름도를 도시한다.
도 6b는 베이지안 정보 기준 윈도우에 예시된 방법(400)의 개략도를 도시한다.
도 7은 몇몇 구현예들에 따라, 룩-어헤드 버퍼가 이용 가능한 경우 복합-기간 콘텍스트의 적응적으로 결정된 길이 또는 범위의 예를 도시한다.
도 8은 몇몇 구현예들에 따라 수행된, 다이얼로그 검출기의 입력 오디오 신호를 다운믹싱하는 방법(500)의 예의 흐름도를 도시한다.
도 9는 몇몇 구현예들에 따라, 다이얼로그 검출기(600)가 음악 콘텍트 검출기(606)를 추가로 통합하는 블록도를 도시한다.
상기 언급된 바와 같이, 종래의 현재 다이얼로그 검출기에서, 각각의 프레임은 콘텍스트, 즉 복수의 프레임들(32 또는 48 프레임과 같은)을 포함하는 윈도우에 의해 표현되며 이러한 콘텍스트 윈도우에서의 프레임들로부터 검출된 오디오 특징들에 대해 분류된다. 그러나, 이러한 종래의 다이얼로그 검출기가 가진 문제는 검출기가 단지 실시간 애플리케이션에 부정적인 영향을 줄 수 있는 여러 다이얼로그 프레임들을 식별한 후에만 다이얼로그가 존재하는지를 결정할 수 있으므로 그것이 때때로 검출 시 큰 대기시간을 도입할 수 있다는 것이다. 또한, 그것은 노래 음성 또는 랩으로부터 스피치를 식별하는데 기여할 수 있는 더 강력한 리드미컬한 특징들을 추출할 수 있으며, 따라서 다이얼로그 검출 시 강건성에 부정적인 영향을 줄 수 있다.
이들 문제들을 다루기 위해, 본 출원은 여러 스케일들로 프레임을 나타내기 위해 상이한-길이 콘텍스트 윈도우들의 세트를 통합하는 기술들을 개시하며, 여기에서 상이한 길이를 가진 콘텍스트 윈도우들은 타겟 프레임의 오디오 속성을 나타내는데 상이한 역할들을 할 것이다. 입력 오디오 신호에 응답적인 다이얼로그 검출기의 오디오 특징 추출을 위한 상기 기술들을 구현한 방법들, 시스템들 및 컴퓨터-판독 가능한 매체의 몇몇 예들은 다음과 같이 개시된다.
도 1은 몇몇 구현예들에 따라, 복합-기간 콘텍스트 윈도우 결정 구성요소(104)를 통합한 다이얼로그 검출기(100)의 블록도를 묘사한다. 도 1에서, 사전-프로세싱 구성요소(102)는 입력 오디오 신호를 수신한다. 사전-프로세싱 구성요소(102)에서, 입력 오디오 신호는 모노 오디오 신호로 다운-믹싱될 수 있다. 그것은 그 후 프레임들로 분할된다. 다음으로, 복합-기간 콘텍스트 결정 구성요소(104) 및 오디오 특징 추출 구성요소(106)가 각각 사전-프로세싱 구성요소(102)로부터 프레임들을 수신한다. 그 후, 오디오 특징 추출 구성요소(106)에서, 프레임 오디오 특징들은 각각의 프레임으로부터 추출된다. 또한, 복합-기간 콘텍스트 결정 구성요소(104)에서, 각각의 콘텍스트 윈도우의 길이 또는 범위가 결정된다. 오디오 특징 추출 구성요소(106)는 그 후 복합-기간 결정 구성요소(104)로부터 결정 결과를 수신한다. 다음으로, 오디오 특징 추출 구성요소(106)에서, 각각의 콘텍스트 윈도우에서의 프레임 오디오 특징들이 결정된 콘텍스트 윈도우에 의존하여 각각의 콘텍스트 특징을 도출하기 위해 사용된다. 각각의 콘텍스트 특징 세트는 그 후 연쇄되거나 또는 조합되며 공동 특징 벡터를 형성한다. 다음으로, 분류기(108)가 오디오 특징 추출 구성요소(106)로부터 추출된 특징 벡터를 수신한다. 분류기(108)에서, 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어가 획득된다. 최종적으로, 사후-프로세싱 구성요소(110)에서, 획득된 신뢰도 스코어들이 바람직하지 않은 변동을 제거하기 위해, 예를 들어, 중간값 필터 또는 평균값 필터에 의해 평탄화될 수 있다.
도 2는 몇몇 구현예들에 따라, 다이얼로그 검출기(100)에서 오디오 특징 추출 구성요소(106)의 블록도를 묘사한다. 구체적으로, 그것은 복합-기간 콘텍스트 특징 추출 및 조합을 기술한다. 도 2에서, 오디오 특징 추출 구성요소(106)에서, 프레임 오디오 특징들은 프레임 특징 추출 구성요소(1060)에 의해 각각의 수신된 프레임으로부터 추출된다. 그 후, 복합-기간 콘텍스트 결정 구성요소(104)에서, 각각의 콘텍스트 윈도우, 이 경우에 단기 콘텍스트 윈도우, 중기 콘텍스트 윈도우 및 장기 콘텍스트 윈도우의 길이 또는 범위가 결정된다. 다음으로, 단기 콘텍스트 오디오 특징, 중기 콘텍스트 오디오 특징 및 장기 콘텍스트 오디오 특징이 각각, 단기 콘텍스트 윈도우, 중기 콘텍스트 윈도우 및 장기 콘텍스트 윈도우에서 프레임 오디오 특징들에 기초하여 도출된다. 마지막으로, 이들 콘텍스트 특징 세트들은 연쇄되며 다-차원 특징 벡터를 형성한다. 예를 들어, 각각의 콘텍스트 특징이 100차원이라고 가정하면, 그 후 연쇄된 특징은 300차원일 것이다.
그러므로, 현재 프레임을 나타내기 위해 하나의 콘텍스트 윈도우보다는, 본 출원은 복수의 콘텍스트 윈도우들을 사용한다. 일 실시예에서, 현재 프레임을 나타내기 위해 상이한 길이 또는 범위를 가진 3개의 콘텍스트 윈도우들, 즉 단기 콘텍스트 윈도우, 중기 콘텍스트 윈도우 및 장기 콘텍스트 윈도우가 있다. 특히, 단기 콘텍스트는 다이얼로그가 나타날 때 검출기가 더 빠르게 응답할 수 있도록 타겟 프레임 주위의 로컬 정보를 나타낸다. 중기 콘텍스트는 그것이 오디오 콘텐트 분석을 위해 적정한 시간 스팬을 제공할 수 있으므로 기존의 검출기에서 사용된 상대이다. 장기 콘텍스트 윈도우는 단기 콘텍스트 또는 중기 콘텍스트 윈도우가 통상적으로 강력한 리드미컬한 특징들을 추출하기에 충분히 길지 않으므로 단지 리드미컬한 특징들만이 추출되는 더 전역적인 정보를 나타낸다. 즉, 본 출원은 응답 속도를 개선하기 위해 단기 콘텍스트 윈도우 및 강건성을 제공하기 위해 장기 콘텍스트를 부가한다. 따라서, 이들 3개의 콘텍스트 윈도우들의 길이는 특징 추출 동안 결정되어야 한다. 이를 위해, 본 출원은 단기 콘텍스트 윈도우, 중기 콘텍스트 윈도우 및 장기 콘텍스트 윈도우의 길이를 결정하기 위해 복합-기간 결정 구성요소를 도입한다.
예에서, 프레임 오디오 특징은 서브-대역 특징들 또는 전체 대역 특징들 중 적어도 하나를 포함할 수 있다. 서브-대역 특징들의 예들은: 서브-대역 스펙트럼 에너지 분포, 서브-대역 스펙트럼 대비, 서브-대역 부분 돌출, 멜-주파수 켑스트럴 계수들(Mel-frequency cepstral coefficients; MFCC), MFCC 플러스 및 베이스 에너지를 포함한다. 전체 대역 특징들의 예들은: 스펙트럼 플럭스, 잔여 및 단기 에너지를 포함한다.
예에서, 콘텍스트 오디오 특징은 하나 이상의 프레임 오디오 특징으로부터 도출될 수 있다. 예를 들어, 콘텍스트 오디오 특징은 평균값, 최빈값, 중간값, 분산 또는 표준 편차와 같은, 프레임 오디오 특징들의 통계들을 포함할 수 있다.
부가적으로 또는 대안적으로, 콘텍스트 오디오 특징은 2D 변조 특징, 리듬 세기, 리듬 명료성, 리듬 규칙성, 평균 템포 및/또는 윈도우-레벨 상관(즉, 콘텍스트-레벨 상관)과 같은, 리듬-관련 특징을 포함할 수 있다.
프레임 오디오 특징들 및 콘텍스트 오디오 특징들의 앞서 언급한 예들은 완전한 것은 아니며 다양한 다른 프레임 오디오 특징들 및 콘텍스트 오디오 특징들이 나열된 특징들 대신에 또는 그 외에 사용될 수 있다.
도 3은 복합-기간 콘텍스트 결정 구성요소(104)를 사용함으로써 복합-기간 콘텍스트의 길이 또는 범위를 미리 결정하기 위한 몇몇 구현예들의 방법(200)의 흐름도를 도시한다. 이러한 대표적인 실시예에서, 복합-기간 콘텍스트들의 길이 또는 범위가 미리 결정될 수 있다. 일 예에서, 룩-어헤드 버퍼가 이용 가능하다면, 202에서, 단기 콘텍스트는, 가장 최근 들어온 콘텐트를 분석하기 위해, 현재 프레임 및 룩-어헤드 프레임들의 길이 또는 범위가 23 프레임으로서 미리 정의될 수 있는 몇 개의 룩-어헤드 프레임들만을 포함하도록 결정될 수 있으며, 따라서 단기 콘텍스트의 총 길이 또는 범위는 24 프레임이다. 204에서, 중기 콘텍스트는 현재 프레임, 몇 개의 룩-어헤드 프레임들 및 몇 개의 룩-백 프레임들을 포함하도록 결정될 수 있으며 여기에서 룩-백 프레임들의 길이 또는 범위는 24 프레임으로 미리 정의될 수 있고, 따라서 중기 콘텍스트의 총 길이 또는 범위는 48 프레임이다. 다음으로, 206에서, 장기 콘텍스트는 안정된 리드미컬한 특징 분석을 갖기 위해, 현재 프레임, 몇 개의 룩-어헤드 프레임들, 몇 개의 룩-백 프레임들 및 더 많은 이력 프레임들을 포함하도록 결정될 수 있으며 여기에서 장기 이력 프레임들의 길이 또는 범위는 48 내지 96 프레임으로 미리 정의될 수 있고, 따라서 장기 콘텍스트의 총 길이 또는 범위는 96 프레임 내지 144 프레임들이다. 도 4a는 복합-기간 콘텍스트의 미리 결정된 길이 또는 범위의 이러한 예를 도시한다. 또 다른 예에서, 룩-어헤드 버퍼가 이용 가능하지 않다면, 208에서, 단기 콘텍스트는 단지 현재 프레임 및 룩-백 프레임들의 부분만을 포함하도록 결정될 수 있으며 여기에서 룩-백 프레임들의 부분의 길이 또는 범위는 23 프레임으로 미리 정의될 수 있고 따라서, 단기 콘텍스트의 총 길이 또는 범위는 24 프레임이다. 210에서, 중기 콘텍스트는 현재 프레임, 룩-백 프레임들의 부분 및 추가 룩-백 프레임들을 포함하도록 결정될 수 있으며 여기에서 추가 룩-백 프레임들의 길이 또는 범위는 24 프레임으로 미리 정의될 수 있고, 따라서 중기 콘텍스트의 총 길이 또는 범위는 48 프레임이다. 다음으로, 212에서, 장기 콘텍스트는 현재 프레임, 룩-백 프레임들의 부분, 추가 룩-백 프레임들 및 더 많은 이력 프레임들을 포함하도록 결정될 수 있으며 여기에서 장기 이력 프레임들의 길이 또는 범위는 48 내지 96 프레임으로 미리 정의될 수 있고, 따라서 장기 콘텍스트의 총 길이 또는 범위는 96 프레임 내지 144 프레임이다. 도 4b는 복합-기간 콘텍스트의 미리 결정된 길이 또는 범위의 이러한 예를 도시한다. 방법 200에서, 룩-어헤드 버퍼, 룩-백 버퍼 및 장기 이력의 길이 또는 범위는 모두 미리 정의될 수 있다. 대안적으로, 상기 수의 프레임들을 제외하고, 단기 콘텍스트가 단지 현재 프레임과 유사한 속성을 가진 프레임들만을 포함하며 장기 프레임이 강력한 리드미컬한 특징들을 추출하기 위해 충분한 이력 프레임들을 포함한다고 보장하는 한 다른 수의 프레임들이 사용될 수 있다.
대안적으로, 하나 이상의 콘텍스트 윈도우들의 길이 또는 범위는 프레임-레벨특징들의 정상성을 분석하고 그에 따라 오디오 프레임들을 그룹핑함으로써 복합-기간 콘텍스트 결정 구성요소(104)에서 적응적으로 결정될 수 있다. 도 5a는 복합-기간 콘텍스트 결정 구성요소(104)를 사용함으로써 복합-기간 콘텍스트 윈도우의 길이 또는 범위를 적응적으로 결정하기 위한 몇몇 구현예들의 방법(300)의 예의 흐름도를 묘사한다. 특히, 그것은 방법(300)을 설명하기 위해 예로서 단기 콘텍스트를 취한다. 방법 300은 강한 일시적 검출에 기초한다. 첫 번째로, 302에서, 프레임(k)의 짧은 시간 에너지(S(k))는 다음의 식(1)을 이용하여 계산된다:
Figure pct00001
(1)
여기에서 [xk,0, …, xk,N - 1]은 프레임 k의 PCM 샘플들이다. 샘플들은 또한 에너지를 계산하기 전에 윈도우잉/가중될 수 있으며, 에너지는 전체-대역 또는 서브-대역 신호로부터 도출될 수 있다.
그 후, 304에서, 프레임 에너지(S(k))는, 식(2)에 나타내어진 바와 같이, 에너지가 증가할 때 빠른 추적 계수를 및 에너지가 감소할 때 느린 감쇠를 갖고, 비대칭으로 평탄화된다:
Figure pct00002
(2)
여기에서
Figure pct00003
은 k번째 오디오 프레임에서 평탄화된 단기 에너지이다. 파라미터 α는 평탄화 인자이다.
다음으로, 306에서, 차이 필터가 평탄화된 에너지 엔벨로프 상에 인가되며, 주어진 임계치(δ)를 초과한 값들은 식(3)에서 나타내어진 바와 같이, 온셋(Eonset(k))으로서 고려될 수 있다:
Figure pct00004
(3)
그 후, 308에서, Eonset(k)는 탐색 범위에서 단기 에너지의 평균 값을 갖고 추가로 정규화될 수 있다. 다음으로, 단기 콘텍스트의 길이 또는 범위에 대한 경계는 310, 312 또는 314에서 결정될 수 있다. 310에서, 최대 Eonset(k)를 가진 위치는 콘텍스트 경계로서 취해질 것이다. 312에서, 0.3(그것은 0 내지 1 사이에서 동조될 수 있다)과 같은, 특정한 임계치를 초과한 피크 Eonset(k)는 콘텍스트 경계로서 택하여질 수 있다. 임계치 대신에, 314에서, Eonset(k)과 이전 식별된 강한 피크 사이에서의 거리가 고려될 수 있다. 즉, 단지 그것이 이전 강한 과도로부터, 1초와 같은, 특정한 거리를 가질 때에만, 그것은 강한 과도로서 결정되며 콘텍스트 경계로서 택하여질 것이다. 또한, 314에서, 탐색 범위에서 발견된 강한 과도가 없다면, 전체 룩-백 프레임들 및/또는 룩-어헤드 프레임들이 사용될 것이다. 도 5b는 콘텍스트 경계 탐색 범위에서 예시된 방법(300)의 개략도를 묘사한다. 특히, 그것은 오디오 신호들의 원래 파형, 단기 에너지, 정규화 후 차동 단기 에너지 및 결정된 단기 콘텍스트의 범위를 예시한다.
콘텍스트의 범위를 결정하기 위해 진폭 정보를 사용하는 대신에, 콘텍스트의 범위의 적응적 결정이 또한 스펙트럼 정보에 기초할 수 있다. 예를 들어, 최대 스펙트럼 불일치는 베이지안 정보 기준(BIC)을 사용함으로써 콘텍스트의 범위를 결정하기 위해 발견될 수 있다. 도 6a는 BIC-기반 경계 결정의 방법(400)을 묘사한다. 그것은 또한 방법(400)을 기술하기 위해 예로서 단기 콘텍스트를 취한다. 첫 번째로, 402에서, BIC 윈도우에서 시간스탬프(t)는 실제 경계인 것으로 가정되며 그것은 시간 T에서 분리되는 두 개의 분리된 가우시안 모델들에 의해 윈도우를 나타나는데 더 양호하다. 그 후, 404에서, BIC 윈도우에서의 시간스탬프(t)는 실제 경계가 아닌 것으로 가정되며 단지 하나의 가우시안 모델에 의해 윈도우를 나타내는 것이 더 양호하다. 다음으로, 406에서, 델타 BIC는 다음의 식(4)을 이용하여 계산된다:
Figure pct00005
(4)
여기에서 H0은 402에서의 가설이며 H1은 404에서의 가설이다. 도 6b는 두 개의 가설들 사이에서 로그 우도 차인 BIC 윈도우에서의 예시적인 △BIC(t) 곡선을 도시한다. 그 후, 408에서, 델타 BIC가 정규화될 수 있다. 다음으로, 410에서, △BIC(t)의 피크가 임계치보다 크다면(그것은 0 내지 1 사이에서 동조될 수 있다), 피크는 콘텍스트 경계의 가장 가능한 위치로서 택하여질 수 있다.
도 7은 몇몇 구현예들에 따라, 룩-어헤드 버퍼가 이용 가능한 경우 복합-기간 콘텍스트 윈도우의 길이 또는 범위를 적응적으로 결정하는 예를 도시한다. 특히, 단기 콘텍스트 윈도우의 길이 또는 범위는 방법(300) 또는 방법(400)에 기초하여 적응적으로 결정되며, 중기 콘텍스트 및 장기 콘텍스트의 길이 또는 범위는 방법(200)에 기초하여 미리 정의된다. 도 7에 도시된 바와 같이, 단기 콘텍스트는 룩-어헤드 버퍼가 이용 가능하다면 룩-어헤드 방향 및 룩-백 방향 양쪽 모두로 연장될 수 있다. 대안적으로, 단기 콘텍스트는 예를 들어, 룩-어헤드 버퍼가 이용 가능하지 않다면(도시되지 않음) 단지 하나의 방향으로만 연장될 수 있다. 본 출원에 따른 방법(300) 또는 방법(400)은 적응적 결정을 설명하기 위해 예로서 단기 콘텍스트를 취하지만, 중기의 길이 또는 범위는 또한 상기 방법(300 또는 400)과 유사한 방식들로 적응적으로 결정될 수 있다.
상기 언급된 바와 같이, 현재 다이얼로그 검출기는 계산 복잡도를 감소시키기 위해, 스테레오 신호에 대해 L/R 상에서 또는 5.1 신호에 대해 L/R/C 상에서 모노 다운믹스에 적용된다. 그러나, 채널들 모두를 함께 믹싱하는 것은 다이얼로그의 SNR을 감소시키며 다이얼로그 검출 정확도를 손상시킬 수 있다. 예를 들어, 큰 잡음(스포츠 게임에서와 같은)을 가진 다이얼로그 또는 집중적 동작 씬에서의 다이얼로그는 검출 시 손실될 수 있다. 이러한 문제를 다루기 위해, 식(5)에 나타내어진 바와 같이, 중심 채널 우세 다운믹스는, 다이얼로그의 대부분이 5.1 신호에서 채널 C에 있으므로 다이얼로그 스미어링을 줄이기 위해 적용된다.
M = 0.707C + g(L+R)/2 (5)
여기에서, C, L, R은 각각 중심, 좌 및 우 채널에서 모든 시간-스펙트럼 타일에 대한(즉, 모든 프레임 및 모든 빈/대역에 대한) 복소-값 스펙트럼을 나타내며, g는 L 및 R로부터의 기여를 감소시키기 위해 0 내지 1 사이에서의 파라미터이다. 그러나, 상기 방법은 5.1 신호에 대해 동작하지만 다이얼로그가 일반적으로 패닝된 신호로서 고려되며, 따라서 L 및 R에서, 스테레오에서 상관되므로 스테레오에 적용 가능하지 않다.
이러한 문제를 다루기 위해, 본 출원은 다운믹싱 후 다이얼로그를 더 현저하게 만들도록, 신호에서 비상관 잡음을 제거하기 위해 새로운 다운믹싱 방법을 제안한다. 도 8은 몇몇 구현예들에 따라 수행된, 다이얼로그 검출기의 입력 오디오 신호를 다운믹싱하는 방법(500)의 예를 묘사한다. 첫 번째로, 502에서, 입력 오디오 신호는 복수의 프레임들로 분할된다. 그 후, 504에서, 좌 채널 및 우 채널에서의 프레임들은 프레임들의 스펙트럼 표현으로 변환된다. 다음으로, 506에서, 비상관 신호들은 다음과 같이 식(6)에 의해 제거된다:
M = g1L + g2R (6)
여기에서 L은 좌 채널에서 프레임들의 스펙트럼 표현이며 R은 우 채널에서 프레임들의 스펙트럼 표현이고, g1 및 g2는 각각 L 및 R에 적용된, 광-대역 이득들보다는, 두 개의 주파수 의존적 이득들이다. 단순함을 위해, 식에서 주파수 대역에 대한 주석은 무시된다. 일 구현예에서, g1 및 g2는 식(7)에 나타내어진 바와 같이, 특정한 지속기간에서 모든 대역들에 대해 계산되는 공분산 행렬로부터 추정될 수 있다(단지 실수 부만이 고려되며 주파수 대역에 대한 주석은 또한 무시된다):
Figure pct00006
(7)
그 후, 고유벡터 분석 및 NGCS에서 분위기 추출의 사상에 이어서, g1 및 g2가 다음과 같이 나타내어질 수 있다.
Figure pct00007
(8)
Figure pct00008
(9)
여기에서, a, c 및 d는 식(8) 및 식(9)의 표현을 단순화하기 위해, 각각 공분산 계수들 |L|2, re(LR*) 및 |R|2의 대안적인 표현이다. 506 후, M을 다운믹싱한 후 신호는 508에서 획득될 것이다.
상기 방법(500)이 스테레오 신호에 기초하여 설명되고 개발되지만, 그것은 또한 5.1 신호에 적용 가능할 수 있다. 일 구현예에서, 5.1 신호는 식(10) 및 식(11)에 나타내어지는 바와 같이, 먼저 중심-우세 다운믹스로 스테레오 신호(Lc 및 Rc)로 변환될 수 있다:
LC = 0.707C + gL (10)
RC = 0.707C + gR (11)
그 후, LC 및 RC는 비상관 신호를 제거하기 위해 방법(500)을 따를 것이다.
비상관 신호를 제거하는 방법(500) 외에 또는 그 대신에, 몇몇 다른 방법들이 또한 적용될 수 있다. 몇몇 구현예들에서, 에코 소거와 유사한 방법이 기준 잡음 신호로서 (L+R)/2를 사용함으로써 중심 채널(C)에서 잡음을 감소하기 위해 적용될 수 있다. 대안적으로, NMF 스펙트럼 기반이 다이얼로그 또는 다이얼로그 및 잡음 둘 모두를 위해 구축될 수 있으며 그것들은 클린 다이얼로그 구성요소를 추출하기 위해 적용될 수 있다.
게다가, 현재 검출기에서, 음악 신호, 특히 아카펠라(많은 음악 배경이 없는)에서의 노래하는 음성 또는 다이얼로그와 유사한 많은 속성들을 공유한 랩이 다이얼로그로서 오분류될 수 있으며, 그러므로 거짓 알람들이 상당히 증가할 수 있다. 출원인은 음악 신뢰도 스코어가 또한 동일한 오분류된 프레임들에 대해서도 높음을 발견한다. 그러므로, 출원인은 다이얼로그 검출기와 동시에 음악 분류기를 도입하며, 따라서 음악 신뢰도 스코어가 음악에서 거짓 알람들을 상당히 감소시키도록, 원래 다이얼로그 신뢰도 스코어를 정제하거나 또는 정정하기 위해 기준으로서 사용될 수 있다.
도 9는 몇몇 구현예들에 따라, 음악 콘텐트 검출기(606)를 추가로 통합한 다이얼로그 검출기(600)의 블록도를 도시한다. 첫 번째로, 입력 오디오 신호는 복수의 프레임들로 분할되며 이산 푸리에 변환(DFT)(602)에 의해 스펙트럼 표현으로 변환된다. 그 후, 특징 추출 구성요소(604)에서, 특징들이 도 2에 의해 예시된 절차에 따라 모든 프레임을 나타내기 위해 추출된다. 다음으로, 음악 콘텐트 검출기(606)는 음악 신뢰도 스코어(Cm(t))를 획득하기 위해 추출된 특징들을 수신하고; 그 동안에, 스피치 콘텐트 검출기(608)가 또한 스피치 신뢰도 스코어(Cs(t))를 획득하기 위해 추출된 특징들을 수신한다. 또한, 음악 신뢰도 스코어(Cm(t)) 및 스피치 신뢰도 스코어(Cs(t))는 중간값 필터 또는 평균값 필터에 의해 추가로 평탄화될 수 있다. 게다가, 사후 프로세싱 구성요소(610)에서, 음악 신뢰도 스코어(Cm(t)) 및 스피치 신뢰도 스코어(Cs(t))는 최종 다이얼로그 신뢰도 스코어(
Figure pct00009
)를 획득하기 위해 조합된다. 특히, 원래 다이얼로그 신뢰도 스코어는 사후 프로세싱 구성요소(610)에서 정제된 최종 다이얼로그 신뢰도 스코어(
Figure pct00010
)를 획득하기 위해 정제될 것이다. 일반적으로, 원래 다이얼로그 신뢰도 스코어는 음악 신뢰도 스코어(Cm(t))가 또한 동일한 프레임에 대해 높다면 약간의 정도로 감소될 수 있다. 그러나, 다이얼로그가 음악 배경과 함께 존재한다면 실제 다이얼로그 콘텐트가 또한 높은 다이얼로그 신뢰도 스코어 및 높은 음악 신뢰도 스코어 양쪽 모두를 생성할 수 있으므로 그것은 스피치 신뢰도 스코어(Cs(t))를 과-감소시킬 수 있다. 이러한 문제를 다루기 위해, 이력 콘텐트는 다이얼로그 신뢰도 스코어를 정제하기 위해 음악 신뢰도 스코어(Cs(t))가 신뢰 가능하게 사용될 수 있는지를 결정하기 위해 적용될 수 있다. 이력 콘텍스트가 다이얼로그 우세이면, 다이얼로그 신뢰도 스코어를 정제하는 것, 즉 음악 신뢰도 스코어를 무시하도록 의도하는 것이 더 보수적일 것이다. 그러므로, 몇몇 구현예들에서, 최종 다이얼로그 신뢰도 스코어(
Figure pct00011
)는 다음의 식(12)에 의해 정제된다:
Figure pct00012
(12)
여기에서
Figure pct00013
은 프레임 t에서 정제된 다이얼로그 신뢰도 스코어이고, Cs(t)는 스피치 신뢰도 스코어이고, Cm(t)는 음악 신뢰도 스코어이며 β는 음악 신뢰도 스코어가 최종 다이얼로그 스코어에 얼마나 많은 영향을 주는지를 제어하는 콘텍스트-의존 파라미터이다. 일 구현예에서, β는 이력 콘텍스트에서 스피치 또는 음악으로서 식별된 프레임들의 비율에 기초하여 계산된다. 예를 들어, β는 단순한 이진 방법을 이용하여 이력 콘텍스트에서 음악으로서 식별된 프레임들의 비로 설정될 수 있다. 특히, 식(13)에 나타내어지는 바와 같이, β는 콘텍스트가 음악 우세인 경우 1로 설정될 수 있으며, β는 콘텍스트가 다이얼로그 우세인 경우 0으로 설정될 수 있다:
Figure pct00014
(13)
여기에서 Nm은 음악 프레임들의 수이며 N은 이력 콘텍스트에서의 전체 프레임들이고; rth는 임계치이고, 통상적으로 0.5로 설정되지만, 임계치는 또한 음악 프레임들이 얼마나 적극적으로 효력을 발휘하는지에 의존하여 0 내지 1 사이에서 동조 가능할 수 있다. 대안적으로, β는 연속 함수로서, 예를 들어 식(14)에 예시된 바와 같이 선형 함수로서, 또는 식(15)에 예시된 바와 같이 시그모이드 함수로서 표현될 수 있다:
Figure pct00015
(14)
Figure pct00016
(15)
A는 시그모이드 함수의 형태를 제어하는 스케일 인자이며, 본 출원에서 5로 설정될 수 있다. 또한, 콘텍스트-의존 파라미터(β)의 추정 시 사용된 이력 콘텍스트는 장기 특징 추출을 위해 사용된 이력 프레임들보다 훨씬 길 수 있으며, 예를 들어, 이력 콘텍스트의 길이 또는 범위는 10초 또는 훨씬 더 길게 설정될 수 있다.
본 출원에서 설명된 다이얼로그 검출기의 기술들은 하나 이상의 컴퓨팅 디바이스들에 의해 구현될 수 있다. 예를 들어, 특수-목적 컴퓨팅 디바이스의 제어기는 개시된 동작들을 수행하거나 이러한 동작들이 수행되게 하기 위해 하드-와이어링될 수 있으며 동작들을 수행하거나 또는 동작들이 수행되게 하도록 영구적으로 프로그램된 하나 이상의 애플리케이션-특정 집적 회로들(ASIC들) 또는 필드-프로그램 가능한 게이트 어레이들(FPGA)과 같은 디지털 전자 회로부를 포함할 수 있다. 몇몇 구현예들에서, 맞춤 프로그래밍을 가진 맞춤 하드-와이어드 로직, ASIC들 및/또는 FPGA들은 기술들을 성취하기 위해 조합된다.
몇몇 다른 구현예들에서, 일반 목적 컴퓨팅 디바이스는 펌웨어, 메모리, 다른 저장장치, 또는 그것의 조합에서의 프로그램 지시에 따라 개시된 동작들 중 하나 이상이 수행되게 하도록 프로그램된 중앙 프로세싱 유닛(CPU)을 통합한 제어기를 포함할 수 있다.
본 출원에서 사용된 바와 같이 용어 "컴퓨터-판독 가능한 저장 매체"는 컴퓨터 또는 기계의 유형이 특정 방식으로 수행하게 하는 지시들 및/또는 데이터를 저장하는 임의의 매체를 나타낸다. 본 출원에서 설명된 모델들, 검출기 및 동작들 중 임의의 것은 적절한 컴퓨터 언어를 사용하여 제어기의 프로세서에 의해 실행 가능한 소프트웨어 코드로서 구현되거나 또는 그것에 의해 구현되게 할 수 있다. 소프트웨어 코드는 저장을 위해 컴퓨터-판독 가능한 매체상에서 일련의 지시들로서 저장될 수 있다. 적절한 컴퓨터-판독 가능한 저장 매체의 예는 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 자기 매체, 광학 매체, 고체 상태 드라이브, 플래시 메모리, 및 임의의 다른 메모리 칩 또는 카트리지를 포함한다. 컴퓨터-판독 가능한 저장 매체는 이러한 저장 디바이스들의 임의의 조합일 수 있다. 임의의 이러한 컴퓨터-판독 가능한 저장 매체는 단일 컴퓨팅 디바이스 또는 전체 컴퓨터 시스템상에 또는 그것 내에 존재할 수 있으며, 시스템 또는 네트워크 내에서 다른 컴퓨터-판독 가능한 저장 매체 중에 있을 수 있다.
본 출원의 주제는 특히 그것의 구현예들을 참조하여 도시되고 설명되었지만, 개시된 구현예들의 형태 및 세부사항들에서의 변화들이 본 개시의 사상 또는 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 이 기술분야에서의 숙련자들에 의해 이해될 것이다. 이들 구현예들 중 일부의 예들은 수반된 도면들에서 예시되며, 특정 세부사항들은 그것의 철저한 이해를 제공하기 위해 제시된다. 구현예들은 이들 특정 세부사항들 중 일부 또는 모두 없이 실시될 수 있다는 것이 주의되어야 한다. 또한, 잘 알려진 특징들이 명료함을 촉진하기 위해 상세하게 설명되지 않을 수 있다. 최종적으로, 이점들이 본 출원에서 몇몇 구현예들을 참조하여 논의되었지만, 범위는 이러한 이점들에 대한 참조에 의해 제한되지 않아야 한다는 것이 이해될 것이다. 오히려, 범위는 첨부된 청구항들을 참조하여 결정되어야 한다.
본 발명의 다양한 양상들은 이어지는 열거된 예시적인 실시예들(EEE들)로부터 이해될 수 있다:
1. 입력 오디오 신호에 응답하여 다이얼로그 검출기에서 오디오 특징을 추출하는 방법으로서, 상기 방법은:
프레임 특징 추출 구성요소에 의해, 상기 입력 오디오 신호로부터 분할된 복수의 프레임들의 각각의 프레임으로부터 프레임 특징들을 추출하는 것;
복합-기간 콘텍스트 결정 구성요소에 의해, 각각의 콘텍스트의 길이 또는 범위를 결정하는 것;
각각의 결정된 콘텍스트에서의 프레임 특징들에 기초하여 관련 콘텍스트 특징을 도출하는 것; 및
각각의 콘텍스트 특징을 연쇄시키며 현재 프레임을 나타내기 위해 조합된 특징 벡터를 형성하는 것을 포함한다.
2. EEE 1의 방법으로서, 상기 복합-기간 콘텍스트는:
상기 현재 프레임 주위의 국소 정보를 나타내는, 단기 콘텍스트;
복수의 룩-백 프레임들을 추가로 포함하는, 중기 콘텍스트; 및
복수의 장기 이력 프레임들을 추가로 포함하는, 장기 콘텍스트를 포함한다.
3. EEE 1 또는 EEE 2의 방법으로서, 하나 이상의 콘텍스트들의 길이 또는 범위는 미리 결정될 수 있다.
4. EEE 2 또는 EEE 3의 방법으로서, 상기 단기 콘텍스트는 룩-어헤드 버퍼가 이용 가능하다면 상기 현재 프레임 및 상기 룩-어헤드 프레임들을 포함하거나; 또는 상기 단기 콘텍스트는 상기 룩-어헤드 버퍼가 이용 가능하지 않다면 상기 현재 프레임 및 상기 룩-백 프레임들의 제1 부분을 포함한다.
5. EEE 2 또는 EEE 3의 방법으로서, 상기 중기 콘텍스트는 상기 룩-어헤드 버퍼가 이용 가능하다면 상기 현재 프레임, 상기 룩-어헤드 프레임들 및 상기 룩-백 프레임들을 포함하거나; 또는 상기 중기 콘텍스트는 상기 룩-어헤드 버퍼가 이용 가능하지 않다면 상기 현재 프레임, 상기 룩-백 프레임들의 제1 부분 및 상기 룩-백 프레임들의 제2 부분을 포함한다.
6. EEE 2 또는 EEE 3의 방법으로서, 상기 장기 콘텍스트는 상기 룩-어헤드 버퍼가 이용 가능하다면 상기 현재 프레임, 상기 룩-어헤드 프레임들, 상기 룩-백 프레임들 및 장기 이력 프레임들을 포함하거나; 또는 상기 장기 콘텍스트는 상기 룩-어헤드 버퍼가 이용 가능하지 않다면 상기 현재 프레임, 상기 룩-백 프레임들의 제1 부분, 상기 룩-백 프레임들의 제2 부분 및 상기 장기 이력 프레임들을 포함한다.
7. EEE 1 또는 EEE 2의 방법으로서, 하나 이상의 콘텍스트들의 길이 또는 범위는 적응적으로 결정될 수 있다.
8. EEE 7의 방법으로서, 하나 이상의 콘텍스트들의 길이 또는 범위는 프레임-레벨 특징들의 정상성을 분석함으로써 적응적으로 결정될 수 있다.
9. EEE 8의 방법으로서, 상기 하나 이상의 콘텍스트들의 길이 또는 범위의 적응적 결정은 상기 입력 오디오 신호의 진폭에 관련된 정보에 기초한다.
10. EEE 2 또는 EEE 9의 방법으로서, 상기 단기 콘텍스트의 길이 또는 범위의 적응적 결정은:
상기 입력 오디오 신호의 복수의 프레임들의 프레임의 단시간 에너지를 계산하는 것;
상기 계산된 단시간 에너지를 평탄화하는 것;
상기 프레임의 평탄화된 단시간 에너지와 이전 프레임의 평탄화된 단시간 에너지 간의 차이를 결정하는 것;
상기 차이가 임계치를 만족하는지에 기초하여 온셋을 결정하는 것;
상기 온셋을 정규화하는 것;
상기 단기 콘텍스트의 길이 또는 범위에 대한 경계를 결정하는 것으로서:
상기 경계로서 최대 온셋을 가진 위치를 취하는 것; 또는
상기 피크가 임계치를 만족하는지에 기초하여 상기 경계로서 피크 온셋을 취하는 것; 또는
상기 임계치 및 상기 온셋과 상기 온셋 직전 강한 과도 간의 거리 양쪽 모두에 기초하여 상기 경계로서 피크 온셋을 취하는 것에 의한, 상기 단기 콘텍스트의 길이 또는 범위에 대한 경계를 설정하는 것을 포함한다.
11. EEE 8의 방법으로서, 하나 이상의 콘텍스트들의 길이 또는 범위의 적응적 결정은 상기 입력 오디오 신호의 스펙트럼에 관련된 정보에 기초한다.
12. EEE 2 또는 EEE 11의 방법으로서, 상기 단기 콘텍스트의 길이 도는 범위의 적응적 결정은:
상기 단기 콘텍스트의 길이 또는 범위에 대한 실제 경계로서 베이지안 정보 기준 윈도우에서 시간스탬프를 추정하는 것;
상기 단기 콘텍스트의 길이 또는 범위에 대한 실제 경계가 아닌 것으로 베이지안 정보 기준 윈도우에서 시간스탬프를 추정하는 것;
상기 두 개의 가설들 사이에서 차 베이지안 정보 기준을 결정하는 것;
상기 차 베이지안 정보 기준을 정규화하는 것; 및
상기 피크가 임계치를 만족하는지에 기초하여 상기 단기 콘텍스트의 길이 또는 범위에 대한 실제 경계의 위치로서 차 베이지안 정보 기준의 피크를 고려하는 것을 포함한다.
13. EEE 2, EEE 7 내지 EEE 12 중 어느 하나의 방법으로서, 상기 단기 콘텍스트는 룩-어헤드 및 룩-백 방향들 양쪽 모두로 연장되거나, 또는 단지 하나의 방향으로 연장될 수 있다.
14. EEE 1 내지 EEE 13 중 어느 하나의 방법으로서, 상기 콘텍스트들의 길이 또는 범위는 상기 적응적 결정과 조합하여 미리 정의될 수 있다.
15. 다이얼로그 검출기의 입력 오디오 신호를 다운믹싱하는 방법으로서, 상기 방법은:
입력 오디오 신호를 복수의 프레임들로 분할하는 것;
좌 채널 및 우 채널에서의 프레임들을 프레임들의 스펙트럼 표현으로 변환하는 것;
각각 상기 좌 채널 및 상기 우 채널에서의 스펙트럼에 주파수 의존 이득들을 적용함으로써 상기 좌 채널 및 상기 우 채널에서 비상관 신호들을 제거하는 것;
다운믹싱된 신호를 획득하는 것; 및
EEE 1 내지 EEE 14 중 어느 하나의 방법을 갖고 상기 다운믹싱된 신호를 다이얼로그 검출기에 공급하는 것을 포함한다.
16. EEE 15의 방법으로서, 상기 주파수 의존 이득들은 공분산 행렬로부터 추정될 수 있다.
17. 다이얼로그 검출기의 입력 오디오 신호를 분류하는 방법으로서, 상기 방법은:
스피치 콘텐트 검출기에 의해, EEE 1 내지 EEE 14 중 어느 하나의 방법에 따라 추출된 특징들을 수신하는 것;
상기 스피치 콘텐트 검출기에 의해, 스피치 신뢰도 스코어를 결정하는 것; 및
음악 콘텐트 검출기에 의해, EEE 1 내지 EEE 14 중 어느 하나의 방법에 따라 추출된 특징들을 수신하는 것;
상기 음악 콘텐트 검출기에 의해, 음악 신뢰도 스코어를 결정하는 것; 및
최종 다이얼로그 신뢰도 스코어를 획득하기 위해 상기 스피치 신뢰도 스코어 및 상기 음악 신뢰도 스코어를 조합하는 것을 포함한다.
18. EEE 17의 방법으로서, 상기 최종 다이얼로그 신뢰도 스코어는 콘텍스트-의존 파라미터에 의해 정제(refine)될 수 있다.
19. EEE 18의 방법으로서, 상기 콘텍스트-의존 파라미터는 이력 콘텍스트에서 스피치 또는 음악으로서 식별된 프레임들의 비율에 기초하여 계산될 수 있다.
20. EEE 19의 방법으로서, 상기 이력 콘텍스트는 10초 이상일 수 있다.

Claims (15)

  1. 입력 오디오 신호의 현재 프레임에서 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어를 획득하는 방법에 있어서:
    상기 입력 오디오 신호를 복수의 프레임들로 분할하는 단계;
    각각의 프레임(I)으로부터 프레임 오디오 특징들을 추출하는 단계;
    콘텍스트 윈도우들의 세트를 결정하는 단계로서, 각각의 콘텍스트 윈도우는 상기 현재 프레임을 둘러싼 복수의 프레임들을 포함하는, 상기 콘텍스트 윈도우들의 세트를 결정하는 단계;
    각각의 콘텍스트 윈도우에 대해, 각각의 개별 콘텍스트에서 프레임들의 프레임 오디오 특징들에 기초하여 상기 현재 프레임에 대한 관련 콘텍스트 오디오 특징을 도출하는 단계;
    상기 현재 프레임을 나타내도록 조합된 특징 벡터를 형성하기 위해 각각의 콘텍스트 오디오 특징을 연쇄시키는 단계; 및
    상기 조합된 특징 벡터를 사용하여 상기 현재 프레임에서 다이얼로그의 존재의 확률을 나타내는 스피치 신뢰도 스코어를 획득하는 단계를 포함하는, 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어를 획득하는 방법.
  2. 제1항에 있어서, 상기 콘텍스트 윈도우들의 세트는:
    상기 현재 프레임 및 상기 현재 프레임에 선행하는 및/또는 뒤를 잇는 복수의 프레임들을 포함하는, 단기 콘텍스트 윈도우(short-term context window);
    상기 단기 콘텍스트 윈도우의 프레임들 및 복수의 룩-백 프레임들을 포함하는, 중기 콘텍스트 윈도우(mid-term context window); 및
    상기 중기 콘텍스트 윈도우의 프레임들 및 복수의 장기 이력 프레임들을 포함하는, 장기 콘텍스트 윈도우(long-term context window)를 포함하는, 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어를 획득하는 방법.
  3. 제1항 또는 제2항에 있어서, 각각의 콘텍스트 윈도우에서 상기 프레임들의 수는 미리 결정되는, 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어를 획득하는 방법.
  4. 제2항 또는 제3항에 있어서, 상기 단기 콘텍스트 윈도우는 룩-어헤드 버퍼(look-ahead buffer)가 이용 가능하다면 상기 현재 프레임 및 상기 룩-어헤드 프레임들의 세트를 포함하는, 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어를 획득하는 방법.
  5. 제1항 또는 제2항에 있어서, 하나 이상의 콘텍스트 윈도우들에서 프레임들의 수는 추출된 프레임 오디오 특징들에 기초하여 적응적으로 결정되는, 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어를 획득하는 방법.
  6. 제5항에 있어서, 하나 이상의 콘텍스트 윈도우들에서 프레임들의 수는 프레임-레벨 오디오 특징들의 정상성(stationarity)을 분석함으로써 적응적으로 결정되는, 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어를 획득하는 방법.
  7. 제6항에 있어서, 하나 이상의 콘텍스트 윈도우들에서 상기 프레임들의 수의 적응적 결정은 상기 입력 오디오 신호의 진폭에 관련된 정보에 기초하는, 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어를 획득하는 방법.
  8. 제6항에 있어서, 하나 이상의 콘텍스트 윈도우들에서 상기 프레임들의 수의 적응적 결정은 상기 입력 오디오 신호의 스펙트럼에 관련된 정보에 기초하는, 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어를 획득하는 방법.
  9. 제1항 내지 제 8항 중 어느 한 항에 있어서,
    좌 채널 및 우 채널에서의 프레임들을 프레임들의 스펙트럼 표현으로 변환하는 단계;
    각각 상기 좌 채널 및 상기 우 채널에서의 스펙트럼 표현에 주파수 의존 이득들을 적용함으로써 상기 좌 채널 및 상기 우 채널에서 비상관 신호들을 제거하는 단계;
    상기 좌 및 우 채널들로부터 다운믹싱된 신호를 획득하는 단계; 및
    상기 다운믹싱된 신호를 상기 입력 오디오 신호로서 사용하는 단계를 더 포함하는, 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어를 획득하는 방법.
  10. 제9항에 있어서, 상기 주파수 의존 이득들은 공분산 행렬(covariance matrix)로부터 추정되는, 다이얼로그의 존재의 확률을 나타내는 신뢰도 스코어를 획득하는 방법.
  11. 다이얼로그 검출기의 입력 오디오 신호를 분류하는 방법에 있어서:
    제1항 내지 제10항 중 어느 한 항의 방법에 따라 스피치 신뢰도 스코어를 획득하는 단계;
    조합된 특징 벡터에 기초하여 음악 신뢰도 스코어를 결정하는 단계; 및
    최종 다이얼로그 신뢰도 스코어를 획득하기 위해 상기 스피치 신뢰도 스코어 및 상기 음악 신뢰도 스코어를 조합하는 단계를 포함하는, 다이얼로그 검출기의 입력 오디오 신호를 분류하는 방법.
  12. 제11항에 있어서, 상기 최종 다이얼로그 신뢰도 스코어는 콘텍스트-의존 파라미터에 의해 정제(refine)되는, 다이얼로그 검출기의 입력 오디오 신호를 분류하는 방법.
  13. 제12항에 있어서, 상기 콘텍스트-의존 파라미터는 예컨대 적어도 10초 길이인 이력 콘텍스트 윈도우에서 스피치 또는 음악으로서 분류된 프레임들의 비율에 기초하여 계산되는, 다이얼로그 검출기의 입력 오디오 신호를 분류하는 방법.
  14. 다이얼로그 검출기에 있어서,
    제1항 내지 제13항 중 어느 한 항에 따른 방법을 수행하기 위한 수단들을 포함하는, 다이얼로그 검출기.
  15. 컴퓨터 판독 가능한 저장 매체에 있어서,
    실행될 때, 컴퓨터가 제1항 내지 제13항 중 어느 한 항에 따른 방법을 수행하게 하는 지시들을 저장하는, 컴퓨터 판독 가능한 저장 매체.
KR1020217032867A 2019-04-18 2020-04-13 다이얼로그 검출기 KR20210154807A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN2019083173 2019-04-18
CNPCT/CN2019/083173 2019-04-18
US201962840839P 2019-04-30 2019-04-30
US62/840,839 2019-04-30
EP19192553.6 2019-08-20
EP19192553 2019-08-20
PCT/US2020/028001 WO2020214541A1 (en) 2019-04-18 2020-04-13 A dialog detector

Publications (1)

Publication Number Publication Date
KR20210154807A true KR20210154807A (ko) 2021-12-21

Family

ID=70480833

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217032867A KR20210154807A (ko) 2019-04-18 2020-04-13 다이얼로그 검출기

Country Status (7)

Country Link
US (1) US20220199074A1 (ko)
EP (1) EP3956890B1 (ko)
JP (1) JP2022529437A (ko)
KR (1) KR20210154807A (ko)
CN (1) CN113748461A (ko)
BR (1) BR112021020151A2 (ko)
WO (1) WO2020214541A1 (ko)

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
US9196249B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for identifying speech and music components of an analyzed audio signal
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
EP2936485B1 (en) * 2012-12-21 2017-01-04 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
US9767791B2 (en) * 2013-05-21 2017-09-19 Speech Morphing Systems, Inc. Method and apparatus for exemplary segment classification
US9521501B2 (en) * 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
US10181322B2 (en) * 2013-12-20 2019-01-15 Microsoft Technology Licensing, Llc Multi-user, multi-domain dialog system
US9620105B2 (en) * 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
MX2019003417A (es) * 2016-09-28 2019-10-07 Huawei Tech Co Ltd Metodo, aparato y sistema de procesamiento de señales de audio de multicanal.
CN109215667B (zh) * 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置

Also Published As

Publication number Publication date
CN113748461A (zh) 2021-12-03
BR112021020151A2 (pt) 2021-12-14
EP3956890B1 (en) 2024-02-21
JP2022529437A (ja) 2022-06-22
US20220199074A1 (en) 2022-06-23
EP3956890A1 (en) 2022-02-23
WO2020214541A1 (en) 2020-10-22

Similar Documents

Publication Publication Date Title
Graf et al. Features for voice activity detection: a comparative analysis
EP2058797B1 (en) Discrimination between foreground speech and background noise
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
Sadjadi et al. Unsupervised speech activity detection using voicing measures and perceptual spectral flux
US8311813B2 (en) Voice activity detection system and method
KR100312919B1 (ko) 화자인식을위한방법및장치
KR950013551B1 (ko) 잡음신호예측장치
US20020165713A1 (en) Detection of sound activity
US20060165202A1 (en) Signal processor for robust pattern recognition
JPS62217295A (ja) 音声認識方式
Hurmalainen et al. Detection, separation and recognition of speech from continuous signals using spectral factorisation
KR101808810B1 (ko) 음성/무음성 구간 검출 방법 및 장치
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
KR101122590B1 (ko) 음성 데이터 분할에 의한 음성 인식 장치 및 방법
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
CN112489692A (zh) 语音端点检测方法和装置
US20030046069A1 (en) Noise reduction system and method
EP3956890B1 (en) A dialog detector
JP2797861B2 (ja) 音声検出方法および音声検出装置
US9875755B2 (en) Voice enhancement device and voice enhancement method
RU2807170C2 (ru) Детектор диалогов
US7292981B2 (en) Signal variation feature based confidence measure
JP2001083978A (ja) 音声認識装置
Boehm et al. Effective metric-based speaker segmentation in the frequency domain
Thienpondt et al. Speaker Embeddings With Weakly Supervised Voice Activity Detection For Efficient Speaker Diarization