KR102306608B1 - 음성을 인식하기 위한 방법 및 장치 - Google Patents

음성을 인식하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR102306608B1
KR102306608B1 KR1020190087618A KR20190087618A KR102306608B1 KR 102306608 B1 KR102306608 B1 KR 102306608B1 KR 1020190087618 A KR1020190087618 A KR 1020190087618A KR 20190087618 A KR20190087618 A KR 20190087618A KR 102306608 B1 KR102306608 B1 KR 102306608B1
Authority
KR
South Korea
Prior art keywords
current frame
signal
signals
interest
recognition
Prior art date
Application number
KR1020190087618A
Other languages
English (en)
Other versions
KR20200010124A (ko
Inventor
주 창바오
뉴 지안웨이
류 딩
Original Assignee
난징 호라이즌 로보틱스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 난징 호라이즌 로보틱스 테크놀로지 컴퍼니 리미티드 filed Critical 난징 호라이즌 로보틱스 테크놀로지 컴퍼니 리미티드
Publication of KR20200010124A publication Critical patent/KR20200010124A/ko
Application granted granted Critical
Publication of KR102306608B1 publication Critical patent/KR102306608B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)

Abstract

음성 인식을 위한 방법 및 장치가 개시된다. 본 방법은, 입력 오디오 신호를 적어도 2개의 분리 신호들로 분리하는 단계; 현재 프레임에서의 잡음 제거 신호를 생성하는 단계; 현재 프레임에서의 각각의 관심 신호에 대해 예비 인식을 수행하는 단계; 및 현재 프레임에서의 각각의 관심 신호의 인식 스코어에 따라 인식 판정을 수행하는 단계를 포함한다. 본 개시내용의 방법 및 장치는 어레이 신호 프로세싱 및 음성 인식을 심층적으로 통합하고, 매우 낮은 신호-대-잡음비의 경우에도, 양호한 인식률이 획득될 수 있도록 다방향 인식들(multiway recognitions)을 사용한다.

Description

음성을 인식하기 위한 방법 및 장치 {METHOD AND APPARATUS FOR RECOGNIZING SPEECH}
본 개시내용은 일반적으로, 음성 인식의 기술 분야에 관한 것으로, 더 구체적으로, 음성을 인식하기 위한 방법 및 장치에 관한 것이다.
잡음이 많은 환경, 이를테면 텔레비전 간섭의 존재 시, 원거리 음성 인식의 인식률이 크게 감소되고, 원거리 음성 상호 작용이 영향을 받는다.
공간 필터링(Spatial filtering)이 마이크로폰 어레이를 통해 수행될 수 있고, 단일-채널 음성이 출력되고, 인식을 위해 음성 인식기로 전송된다. 그러나, 공간 필터링은 일반적으로, 음원 위치 파악(localization)에 의존하며, 신호-대-잡음비가 낮은 경우, 음원 위치 파악 자체의 정확성이 상당히 감소된다.
특허 문헌 US 8,249,867B2는 마이크 배열 기반 음성인식 시스템의 목표 음성 추출 방법을 개시하고 있으며, 이 방법은, 다수의 마이크를 통해 입력된 혼합신호들을 독립요소분석(ICA)을 통해 음원 신호로 분리하는 단계; 분리된 음원 신호들 중에서 음성 인식을 위해 발화된 하나의 목표 음성을 추출하는 단계; 및 추출된 목표 음성으로부터 원하는 음성을 인식하는 단계;를 포함하고, 상기 목표 음성을 추출하는 단계는, 분리된 음원 신호로부터 특징 벡터 시퀀스 Xi를 추출하는 단계; 추출된 특징 벡터 시퀀스의 i 번째 LLR(logarithm likelihood ration) LLRi를 계산하는 단계; LLRi를 사용하여 최대 값을 계산하는 단계; 최대 값을 미리 결정된 임계 값과 비교하는 단계; 및 최대 값이 임계 값보다 클 때 최대 값을 목표 음성으로 결정하는 단계를 포함한다. 그러나 이 특허 문헌에는 신호-대-잡음비가 낮은 경우가 언급되어 있지 않다.
일 양태에서, 음성을 인식하기 위한 방법이 개시되며, 그 방법은, 입력 오디오 신호를 적어도 2개의 분리 신호들로 분리하는 단계; 오디오 신호의 현재 프레임에서의 적어도 2개의 분리 신호들로부터 선택된, 일차 분리 신호 및 하나 이상의 이차 분리 신호들에 기초하여, 현재 프레임에서의 잡음 제거된 신호를 생성하는 단계; 현재 프레임에서의 복수의 관심 신호들 각각을 예비적으로 인식하는 단계 - 현재 프레임에서의 복수의 관심 신호들은 현재 프레임에서의 적어도 2개의 분리 신호들 및 잡음 제거된 신호를 포함하고, 현재 프레임에서의 복수의 관심 신호들 각각은 현재 프레임에서의 예비 인식의 결과와 연관된, 현재 프레임에서의 인식 스코어를 가짐 -; 및 현재 프레임에서의 복수의 관심 신호들 각각의 인식 스코어에 따라 인식 판정을 수행하는 단계를 포함한다.
다른 양태에서, 실행되는 경우, 위에서-언급된 방법을 수행할 수 있는 프로그램 명령들이 저장된 컴퓨터 판독가능 비-휘발성 저장 매체가 개시된다.
다른 양태에서, 음성을 인식하기 위한 장치가 개시되며, 그 장치는 하나 이상의 프로세서들을 포함할 수 있고, 하나 이상의 프로세서들은, 실행되는 경우, 위에서-언급된 방법을 수행하도록 구성된다.
다른 양태에서, 음성을 인식하기 위한 장치가 개시되며, 그 장치는, 입력 오디오 신호를 적어도 2개의 분리 신호들로 분리하도록 구성된 스플리터; 현재 프레임에서의 오디오 신호의 적어도 2개의 분리 신호들로부터 선택된, 일차 분리 신호 및 하나 이상의 이차 분리 신호들에 기초하여, 현재 프레임에서의 잡음 제거된 신호를 생성하도록 구성된 신호 생성기; 현재 프레임에서의 복수의 관심 신호들 각각을 예비적으로 인식하도록 구성된 인식기 - 현재 프레임에서의 복수의 관심 신호들은 현재 프레임에서의 적어도 2개의 분리 신호들 및 잡음 제거된 신호를 포함하고, 현재 프레임에서의 복수의 관심 신호들 각각은 현재 프레임에서의 예비 인식의 결과와 연관된, 현재 프레임에서의 인식 스코어를 가짐 -; 및 현재 프레임에서의 복수의 관심 신호들 각각의 인식 스코어에 따라 인식 판정을 수행하도록 구성된 판정 디바이스를 포함할 수 있다.
본 개시내용의 실시예들에 따른 음성을 인식하기 위한 방법 및 장치는 어레이 신호 프로세싱 및 음성 인식을 심층적으로 통합하고, 매우 낮은 신호-대-잡음비의 경우에도, 양호한 인식률이 획득될 수 있도록 다방향(multiway) 인식을 사용한다.
도 1은 본 개시내용의 실시예에 따른, 음성을 인식하기 위한 방법의 예를 도시한다.
도 2는 본 개시내용의 실시예에 따른 오디오 신호 분리의 예를 도시한다.
도 3은 본 개시내용의 실시예에 따른, 음성을 인식하기 위한 방법의 다른 예를 도시한다.
도 4는 본 개시내용의 실시예에 따른, 음성을 인식하기 위한 방법의 다른 예를 도시한다.
도 5는 본 개시내용의 실시예에 따른, 음성을 인식하기 위한 장치의 예를 도시한다.
본 개시내용의 실시예들에 따른, 음성을 인식하기 위한 방법 및 장치의 예들이 도면들을 참조하여 아래에서 설명된다.
도 1에 도시된 바와 같이, 본 개시내용의 실시예에 따른 예시적인 방법(100)은 S110 단계(오디오 신호 분리), S120 단계(잡음 제거된 신호 생성), S130 단계(예비 인식), 및 S140 단계(인식 판정 수행)를 포함할 수 있다.
S110 단계에서, 입력 오디오 신호는 적어도 2개의 분리 신호들로 분리될 수 있다.
일 실시예에서, 외부 음성이 픽업(pickup), 이를테면 마이크로폰 어레이 또는 픽업 회로를 통해 실시간으로 획득될 수 있고, 예컨대, 변환기, 이를테면 아날로그-대-디지털 변환기 또는 변환 회로를 통해 디지털 신호로 변환될 수 있으며, 그에 따라, 입력 오디오 신호가 획득될 수 있다. 다른 실시예에서, 입력 오디오 신호는 다른 적합한 모드들을 통해 획득될 수 있다. 본 개시내용은 입력 오디오 신호를 획득하기 위한 특정 모드 또는 특정 장치에 제한되지 않는다.
이어서, 일 실시예에서, 입력 오디오 신호는 신호 분리 기술, 이를테면 블라인드 소스 분리 또는 독립 성분 분석에 의해 적어도 2개의 분리 신호들로 분리될 수 있다. 다른 실시예에서, 입력 오디오 신호는, 예컨대 빔-형성 기술을 통해, 적어도 2개의 분리 신호들로 분리될 수 있다. 다른 실시예에서, 입력 오디오 신호는 다른 적절한 신호 분리 기술들을 사용함으로써 적어도 2개의 분리 신호들로 분리될 수 있다.
예컨대, 도 2에 도시된 바와 같이, 입력 오디오 신호(IN_SIG)는 분리 신호들(SIG1, SIG2, ..., SIGn)(n은 2 이상의 자연수임)로 분리될 수 있다. 도 2는 오디오 신호 및 대응하는 분리 신호의 실제 파형들이 아니라 신호의 개략도를 도시할 뿐이라는 것이 이해되어야 한다.
추가로, 도 2에 도시된 바와 같이, 입력 오디오 신호(IN_SIG)는 하나 이상의 프레임들(f0, f1, f2, f3, f4, f5, f6, f7, f8 등)을 포함할 수 있다. 본 개시내용에서, “현재 프레임”이라는 용어는 현재 주기(예컨대, 샘플링 주기)에 대응하는 신호 부분, 또는 현재 시간에 프로세싱되고 있는 신호 부분을 의미할 수 있다. 예컨대, 현재 프레임(f3)은 f3에 대응하는 주기에서의 오디오 신호(IN_SIG) 및/또는 각각의 분리 신호(SIGi (1≤i≤n))의 신호 부분을 나타낼 수 있다. 따라서, 현재 프레임(f3) 전의 선행 프레임(또는 “선행 프레임”이라고 또한 지칭됨)은 시간 상 현재 프레임(f3) 직전의 프레임(f2)을 나타낸다. 현재 프레임(f3)의 다음 프레임(또는 “다음 프레임”이라고 또한 지칭됨)은 시간 상 현재 프레임(f3) 직후의 프레임(f4)을 나타내며, 현재 프레임(f3)의 이전 프레임(들)(또는 “이전 프레임(들)”이라고 또한 지칭됨)은 시간 상 현재 프레임(f3)에 선행하는 하나 이상의 프레임들을 나타낸다(이전 프레임은 연속적일 수 있거나 또는 불연속적일 수 있음. 추가로, 이전 프레임은 현재 프레임(f3) 직전에 있을 수 있거나, 또는 이전 프레임은 현재 프레임(f3) 직전에 있지 않을 수 있음).
이어서, S120 단계에서, 오디오 신호의 현재 프레임에서의 S110 단계에서 분리된 적어도 2개의 분리 신호들로부터 선택된, 일차 분리 신호 및 하나 이상의 이차 분리 신호들에 기초하여, 현재 프레임에서의 잡음 제거된 신호(denoised signal)가 생성된다.
일 실시예에서, 현재 프레임에서의 위의 적어도 2개의 분리 신호들로부터 선택된 일차 분리 신호의 선행 프레임에서의 인식 스코어는 임의의 다른 분리 신호들의 선행 프레임에서의 인식 스코어 이상일 수 있다. 예컨대, 프레임(f3)에서의 SIG1 내지 SIGn 중 SIG2의 인식 스코어가 SIG1 내지 SIGn 중 임의의 다른 분리 신호들의 인식 스코어 이상인 경우, 프레임(f4)의 시작 시, SIG2가 프레임(f4)에서의 일차 분리 신호로서 선택될 수 있고, SIG1 내지 SIGn 중 임의의 다른 분리 신호들 중 하나 이상이 프레임(f4)에서의 이차 분리 신호들로서 사용될 수 있다.
신호의 인식 스코어는, 예컨대, 오디오 신호(IN_SIG) 또는 오디오 신호(IN_SIG)에 의해 표현되는 실제 내용들에 대한 신호 인식 결과의 접근 정도(approaching degree)를 나타내며, 인식 스코어가 높을수록, 접근 정도가 높게 된다. 각각의 프레임에서의 각각의 분리 신호에 대한 인식 스코어는 아래에서 더 상세히 설명될 것이다.
이어서, 일 실시예에서, 각각의 분리 신호(SIGi)는 그 각각의 분리 신호(SIGi)의 주파수 스펙트럼 및 전력 스펙트럼을 획득하기 위해 분석될 수 있다. 예컨대, 각각의 분리 신호(SIGi)의 주파수 스펙트럼은 적시 푸리에 분석(timely Fourier analysis)을 통해 획득될 수 있으며, 각각의 분리 신호(SIGi)의 전력 스펙트럼은 각각의 분리 신호(SIGi)의 주파수 스펙트럼에 기초하여 추가로 획득될 수 있다.
추가로, 선택된 일차 분리 신호의 전력 스펙트럼, 및 선택된 하나 이상의 이차 분리 신호들의 전력 스펙트럼에 따라, 잡음 제거 인자 또는 이득이 결정될 수 있다.
일 실시예에서, 전력 비율이 먼저 결정될 수 있고, 이어서, 일차 신호 및 이차 신호의 전력 비율에 따라, 잡음 제거 인자 또는 이득이 계산 또는 획득될 수 있다. 예컨대, 전력 비율은 선택된 일차 분리 신호의 전력 스펙트럼, 및 선택된 하나 이상의 이차 분리 신호들 중 하나의 이차 분리 신호의 전력 스펙트럼에 따라 획득된 전력 비율일 수 있다. 추가적인 예에서, 전력 비율은 선택된 일차 분리 신호의 전력 스펙트럼, 및 모든 선택된 이차 분리 신호들의 평균 전력 스펙트럼에 따라 획득된 전력 비율일 수 있다. 추가적인 예에서, 전력 비율은 선택된 일차 분리 신호의 전력 스펙트럼, 및 모든 선택된 이차 분리 신호들 중 복수의 이차 분리 신호들의 평균 전력 스펙트럼에 따라 획득된 전력 비율일 수 있다.
일 실시예에서, 잡음 제거 인자 또는 이득(g)은, 예컨대 g=a/(1+a)인 것으로 결정될 수 있으며, 여기서, a는 이전에 획득된 전력 비율이다. 추가적인 실시예에서, 잡음 제거 인자 또는 이득(g)은, 전력 비율이 클수록, 잡음 제거 인자 또는 이득(g)가 크게 되도록, 전력 비율에 따라 다른 모드들에 의해 결정될 수 있다.
이어서, 현재 프레임에서의 잡음 제거된 신호는 잡음 제거 인자 또는 이득(g), 및 일차 분리 신호의 주파수 스펙트럼에 따라 획득될 수 있다. 일 실시예에서, 현재 프레임에서의 잡음 제거된 신호를 획득하기 위해, 잡음 제거 인자 또는 이득(g)이 일차 분리 신호의 주파수 스펙트럼과 곱해질 수 있고, 합성 변환이 수행될 수 있다. 추가적인 실시예에서, 현재 프레임에서의 잡음 제거된 신호(아래에서 SIG_DN으로서 마킹됨)는 잡음 제거 인자 또는 이득(g) 및 일차 분리 신호의 주파수 스펙트럼에 따라, 임의의 적절한 잡음 제거 기술을 통해 획득될 수 있다.
이어서, 현재 프레임에서의 위의 적어도 2개의 분리 신호들(SIG1 내지 SIGn) 및 잡음 제거된 신호(SIG_DN)가 현재 프레임에서의 복수의(예컨대, n+1개의) 관심 신호들로서 사용될 수 있으며, 현재 프레임에서의 복수의 관심 신호들 각각에 따라 예비 인식을 수행하기 위해 S130 단계로 진행되고, 여기서, 현재 프레임에서의 복수의 관심 신호들 각각은 현재 프레임에서의 예비 인식의 결과와 연관된, 현재 프레임에서의 인식 스코어를 갖는다.
일 실시예에서, 선행 프레임에서의 각각의 분리 신호의 인식 스코어는, 예컨대, 적어도 다음 프레임에서 사용되기 위해 레코딩될 수 있다. 예컨대, 프레임(f3)에서, 적어도 이 프레임(f3)에서의 각각의 분리 신호(SIGi)의 적어도 대응하는 인식 스코어가 레코딩될 수 있고; 이어서, 프레임(f4)에서, 프레임(f3)에서 레코딩된 인식 스코어에 따라 분리 신호(SIGi)로부터 프레임(f4)에서의 일차 분리 신호가 선택될 수 있고, 이어서, 프레임(f4)에서의 잡음 제거된 신호가 획득될 수 있다.
S130 단계에서, 일 실시예에서, 현재의 프레임에서의 분리 신호들(SIG1 내지 SIGn) 및 잡음 제거된 신호(SIG_DN)를 포함하는 복수의 관심 신호들 각각에 대해, 현재 프레임에서의 음향 스코어가 음향 모델에 의해 결정될 수 있다.
상이한 실시예들에서, 음향 모델은, 이를테면 은닉 마르코프 모델(Hidden Markov Model; HMM), 심층 신경망(Deep Neural Network ; DNN) 등에 기초하여 구성된 임의의 적절한 음향 모델(SND)일 수 있다. 본 개시내용은 임의의 특정 음향 모델로 제한되지 않는다. 따라서, 각각의 관심 신호의 음향 스코어(S_SNDj)(예컨대, 1≤j≤n+1)는 S_SNDj=SND(ISjSND)로서 공식적으로 표현될 수 있으며, 여기서, ISj는 관심 신호를 나타내고, 예컨대, 현재 프레임에서의 임의의 분리 신호(SIGi) 또는 잡음 제거된 신호(SIG_DN)일 수 있고; θSND는 음향 모델(SND)의 모델 파라미터들, 이를테면 사전 트레이닝 또는 온라인 트레이닝 후의 모델 파라미터들을 나타낸다.
이어서, 각각의 관심 신호(ISj)에 대해, 현재의 프레임에서의 관심 신호(ISj)의 음향 스코어(S_SNDj)에 따라 관심 신호(ISj)에 대해 디코딩이 수행될 수 있다. 상이한 실시예들에 따르면, 디코딩은 임의의 적절한 디코딩 기법, 이를테면 비터비(Viterbi) 디코딩 및 동적 프로그래밍 디코딩을 사용함으로써 수행될 수 있다. 예컨대, 하나 이상의 미리 결정된 단어들을 포함할 수 있는 커맨드 단어에 대해, 관심 신호(ISj)를 인식 및 스코어링하기 위해, 하나 이상의 커맨드 단어 모델들, 이를테면 딥 러닝 네트워크 또는 은닉 마르코프 모델이 사용될 수 있다.
일 실시예에서, 현재 프레임에서의 각각의 관심 신호(ISj)를 디코딩함으로써 획득된 디코딩 결과는 각각의 관심 신호(ISj)에 대한 대응하는 디코딩 스코어(S_DECj)를 포함할 수 있으며, 디코딩 스코어(S_DECj)가 더 높은 것은 대응하는 관심 신호(ISj)의 디코딩 결과가 오디오 신호(IN_SIG)의 모든 표현된 실제 의미에 더 근접할 가능성이 더 높다는 것을 나타낼 수 있다.
일 실시예에서, S130 단계는 현재 프레임에서의 복수의 관심 신호들 각각의 디코딩 결과가 하나 이상의 미리 결정된 단어들을 포함하는 미리 결정된 문장과 매칭하는 신뢰 레벨을 결정하는 것을 포함할 수 있다. 이 실시예에서, 현재 프레임에서의 복수의 관심 신호들 각각의 인식 스코어는 현재 프레임에서 결정된 신뢰 레벨에 의존할 수 있다.
예컨대, 웨이크-업 단어 또는 커맨드 단어를 인식하는 경우, 디코딩 스코어(S_DECj)는, 현재 프레임에서의 대응하는 관심 신호(ISj)의 디코딩 결과가 하나 이상의 미리 결정된 단어들을 포함하는 미리 결정된 문장과 매칭하는 신뢰 레벨 또는 정도에 대응할 수 있거나 또는 기초할 수 있으며, 현재 프레임에서의 관심 신호(ISj)의 인식 스코어(S_IDj)는 신뢰 레벨에 따라 결정될 수 있고, 예컨대, 신뢰 레벨은 현재 프레임에서의 관심 신호(ISj)의 인식 스코어(S_IDj)로서 사용된다.
다른 실시예에서, S130 단계는 현재 프레임에서의 복수의 관심 신호들 각각의 디코딩 결과에 대해 자연 언어 프로세싱을 수행하는 것을 더 포함할 수 있다. 이 실시예에서, 현재 프레임에서의 복수의 관심 신호들 각각의 인식 스코어는 현재 프레임에서의 자연 언어 프로세싱의 스코어에 의존할 수 있다.
예컨대, 일반적인 음성 인식의 경우, 자연 언어 프로세싱은 현재 프레임에서의 각각의 관심 신호(ISj)의 디코딩 결과에 대해 추가로 수행될 수 있으며, 현재 프레임에서의 관심 신호(ISj)의 자연 언어 프로세싱의 스코어(S_NLPj)가 획득될 수 있다. 예컨대, 대응하는 자연 언어 프로세싱 스코어(S_NLPj)가 현재 프레임에서의 관심 신호(ISj)의 인식 스코어(S_IDj)로서 사용될 수 있거나, 또는 현재 프레임에서의 관심 신호(ISj)의 인식 스코어(S_IDj)가 대응하는 자연 언어 프로세싱 스코어에 기초하여 결정될 수 있다.
위에서 설명된 바와 같이, 현재 프레임에서의 각각의 관심 신호(ISj)의 인식 스코어는 다음 프레임에서 사용하기 위해 레코딩될 수 있다.
이어서, 예시적인 방법(100)은, 현재 프레임에서의 각각의 관심 신호(ISj)의 인식 스코어에 따라 인식 판정을 수행하기 위해, S140 단계로 진행할 수 있다.
예컨대, 하나의 미리 결정된 단어를 포함하는 웨이크-업 단어를 인식하는 경우, 또는 하나 이상의 미리 결정된 단어들을 포함하는 커맨드 단어를 인식하는 경우, 또는 일반적인 음성 인식의 경우, 현재 프레임에서의 모든 관심 신호들({ISj,1≤j≤n+1}) 중 하나 이상의 미리 결정된 조건들을 만족시키는 제1 관심 신호(ISk)(1≤k≤n+1)의 현재 프레임에서의 예비 인식 결과가 현재 프레임에서의 오디오 신호(IN_SIG)에 대한 인식 결과로서 결정될 수 있다.
상이한 실시예들에 따르면, S140 단계에서 고려될 수 있는 하나 이상의 미리 결정된 조건들은, 예컨대, 다음의 조건들 중 하나 이상을 포함할 수 있다(그러나 이에 제한되지는 않음):
- 현재 프레임에서의 제1 관심 신호(ISk)의 인식 스코어(S_IDk)가 현재 프레임에서의 임의의 다른 관심 신호(ISM)의 현재 프레임에서의 인식 스코어(S_IDm)(1≤m≤n+1, 및 m≠k) 이상인 조건;
- 현재 프레임에서의 제1 관심 신호(ISk)의 예비 인식 결과에 대응하는 미리 결정된 단어(들)의 일치 횟수들이 현재 프레임에서의 임의의 다른 관심 신호(ISm)의 예비 인식 결과에 대응하는 미리 결정된 단어(들)의 일치 횟수들 이상인 조건;
- 현재 프레임에서의 제1 관심 신호(ISk)의 인식 스코어(S_IDk)가 제1 임계치(TH1) 이상인 조건,(제1 임계치(TH1)는 필요에 따라 임의의 적절한 값으로서 세팅될 수 있음).
위의 미리 결정된 조건들이 모든 가능한 미리 결정된 조건들이 아니라 단지 예들일 뿐이라는 것이 이해되어야 한다. 예컨대, 하나의 미리 결정된 단어를 포함하는 웨이크-업 단어를 인식하는 경우, 현재 프레임에서의 오디오 신호(IN_SIG)에 대한 인식 결과는 웨이크-업 동작을 수행하는 것을 나타내는 것으로 결정되며, 이는 다음의 예시적인 조건들 중 하나 이상을 포함할 수 있다(그러나 이에 제한되지는 않음):
- 제1 관심 신호(ISk)가 현재 프레임에서의 모든 관심 신호들({ISj,1≤j≤n+1})에 존재하고, 현재 프레임에서의 제1 관심 신호(ISk)의 인식 스코어(S_IDk)가 제1 임계치(TH1) 이상인 조건;
- 현재 프레임에서의 모든 관심 신호들({ISj,1≤j≤n+1}) 중 미리 결정된 수(N1)(예컨대, 100개 이상)의 관심 신호(들)({ISr’,1≤r≤N1}) 중 각각의 관심 신호(ISr’)의 현재 프레임에서의 인식 스코어(S_IDr’)가 제2 임계치(TH2) 이상인 조건;
- 현재 프레임에서의 잡음 제거된 신호(SIG_DN)의 인식 스코어가 제3 임계치(TH3) 이상이고, 현재 프레임에서의 각각의 분리 신호(SIGi)의 인식 스코어가 제4 임계치(TH4) 이상인 조건;
- 현재 프레임에서의 잡음 제거된 신호(SIG_DN)의 인식 스코어(S_IDSIG_DN)가 제5 임계치(TH5) 이상이고, 그리고 현재 프레임에서의 분리 신호(SIGp)의 인식 스코어(S_IDSIGp)가 현재 프레임에서의 임의의 다른 분리 신호(SIGq)(1≤q≤n 및 q≠p)의 인식 스코어들(S_IDSIGq) 이상이며, 추가로, |S_IDSIG_DN-S_IDSIGp| < 제6 임계치(TH6)이고, S_IDSIGp ≥ 제7 임계치(TH7)가 되도록 하는 분리 신호(SIGp)(1≤p≤n)가 존재하는 조건.
상이한 실시예들에 따르면, 제1 임계치(TH1) 내지 제7 임계치(TH7)의 값들은 필요에 따라 임의의 적절한 값들로서 세팅될 수 있다.
일 실시예에서, 미리 결정된 조건에 따라, 현재 프레임에서의 오디오 신호(IN_SIG)에 대한 인식 결과가 웨이크-업 동작을 수행하기 위한 명령인 것으로 결정되는 경우, 예시적인 방법(100), 또는 예시적인 방법(100)의 S140 단계는 웨이크-업 동작을 수행하는 것을 더 포함할 수 있고, 그에 따라, 슬립 또는 스탠바이 상태에 있는 디바이스는, 예컨대, 일부 또는 모든 기능들을 턴온시킨다.
도 1에 도시된 예시적인 방법(100)에서, 다방향 인식이 채택되며, 선행 프레임의 피드백 정보가 각각의 프레임의 프로세싱에서 고려되고, 그에 따라, 낮은 신호-대-잡음비의 경우에서도 양호한 인식률이 획득될 수 있다.
도 3에 도시된 바와 같이, 예시적인 방법(100)은 화자 모델을 획득하기 위한 S150 단계를 더 포함한다. 따라서, S120 단계에서, 선행 프레임에서의 화자 모델의 피드백 정보가 또한 고려될 수 있다.
일 실시예에서, 화자 모델에 의해 결정된, 현재 프레임에서의 선택된 일차 분리 신호가 선행 프레임에서의 화자와 연관될 확률은, 화자 모델에 의해 결정된, 임의의 다른 분리 신호들이 선행 프레임에서의 화자와 연관될 확률 이상이고, 특정 임계치 이상이다.
예컨대, 신호들(SIG1 내지 SIGn) 중 각각의 분리 신호(SIGi)에 대해, 각각의 분리 신호가 화자와 연관될 확률(PSIGi)은 프레임(f3)에서의 화자 모델에 의해 결정될 수 있으며, 분리 신호(SIG2)의 확률(PSIG2)이 임의의 다른 분리 신호(SIGk)의 확률(PSIGk)보다 더 큰 경우, 프레임(f4)의 시작 시, SIG2가 프레임(f4)에서의 일차 분리 신호로서 선택될 수 있고, SIG1 내지 SIGn 중 임의의 다른 분리 신호들(1≤k≤n and k≠2) 중 하나 이상이 프레임(f4)에서의 이차 분리 신호들로서 사용될 수 있다.
그러한 화자 모델을 획득하기 위해, S150 단계에서, 적어도, 현재 프레임에서의 오디오 신호(IN_SIG)에 대한 인식 결과에 따라, 화자의 특징이 결정될 수 있고, 화자 특징을 트레이닝함으로써 화자 모델이 획득된다.
상이한 실시예들에 따르면, 화자 모델은 임의의 적절한 화자 모델, 이를테면, 카운터 전파(counter propagation)의 타입의 인공 신경망 화자 모델, 유전 알고리즘에 기초한 벡터 양자화(vector quantization) 화자 모델 등일 수 있다. 채택된 화자 모델에 따라, 결정될 필요가 있는 화자 특징의 세부사항들이 결정될 수 있다. 본 개시내용은 특정 화자 모델 및 특정 화자 특징으로 제한되지 않는다.
일 실시예에서, 현재 프레임 전의 적어도 하나의 이전 프레임의 시점에서의 대응하는 이전 관심 신호가 또한 레코딩될 수 있으며, 대응하는 이전 프레임에서의 각각의 이전 관심 신호의 예비 인식 결과는 대응하는 이전 프레임에서의 오디오 신호(IN_SIG)에 대한 인식 결과이다.
예컨대, 현재 프레임이 f4라고 가정하면, 프레임(f0)에서의 관심 신호(ISf0)(프레임(f0)에서의 잡음 제거된 신호 및 분리 신호들(SIG1 내지 SIGn) 중 위의 하나 이상의 미리 결정된 조건들을 만족시키는 관심 신호), 프레임(f1)에서의 관심 신호(ISf1)(프레임(f1)에서의 잡음 제거된 신호 및 분리 신호들(SIG1 내지 SIGn) 중 위의 하나 이상의 미리 결정된 조건들을 만족시키는 관심 신호), 프레임(f2)에서의 관심 신호(ISf2)(프레임(f2)에서의 잡음 제거된 신호 및 분리 신호들(SIG1 내지 SIGn) 중 위의 하나 이상의 미리 결정된 조건들을 만족시키는 관심 신호), 프레임(f3)에서의 관심 신호(ISf3)(프레임(f3)에서의 잡음 제거된 신호 및 분리 신호들(SIG1 내지 SIGn) 중 위의 하나 이상의 미리 결정된 조건들을 만족시키는 관심 신호)가 기록될 수 있다.
이어서, 화자 특징을 결정하는 경우, 대응하는 이전 프레임에서의 각각의 이전 관심 신호의 예비 인식 결과가 또한 고려될 수 있다.
예컨대, 화자 특징은, 프레임(f0)에서의 관심 신호(ISf0)의 예비 인식 결과(즉, 프레임(f0)에서의 오디오 신호(IN_SIG)에 대한 인식 결과), 프레임(f1)에서의 관심 신호(ISf1)의 예비 인식 결과(즉, 프레임(f1)에서의 오디오 신호(IN_SIG)에 대한 인식 결과), 프레임(f2)에서의 관심 신호(ISf2)의 예비 인식 결과(즉, 프레임(f2)에서의 오디오 신호(IN_SIG)에 대한 인식 결과), 프레임(f3)에서의 관심 신호(ISf3)의 예비 인식 결과(즉, 프레임(f3)에서의 오디오 신호(IN_SIG)에 대한 인식 결과), 및 프레임(f4)에서의 관심 신호(ISf4)의 예비 인식 결과에 따라 결정될 수 있다.
도 4는 본 개시내용의 실시예에 따른 방법의 다른 예를 예시하며, 여기서, S110 단계는 도 1 또는 도 3에 도시된 S110 단계와 동일할 수 있고, S150 단계는 도 3에 도시된 S150 단계와 동일할 수 있으며, 반복 부분들은 다시 설명되지 않을 것이다.
도 4의 예에서, 블록(A)은 웨이크-업 프로세스에 대응할 수 있고, 블록(A)의 S120', S130', 및 S140' 단계들은 각각, 도 1의 예의 S120, S130, 및 S140 단계들에 대응할 수 있지만, 이는 웨이크-업 단어들에 대한 인식에 더 중점을 둘 수 있고, 반복되는 부분은 다시 설명되지 않을 것이다. 따라서, S140’단계는 웨이크-업 동작을 수행하는 것을 포함할 수 있고, “웨이크-업 판정”이라고 지칭될 수 있으며, S130’단계가 또한, “웨이크-업 인식”이라고 지칭될 수 있다.
140’단계를 통해 웨이크-업 동작이 수행된 후, 블록(A)으로부터 블록(B)으로 전환될 수 있으며, 여기서, 블록(B)은 일반적인 인식 프로세스(예컨대, 커맨드 단어 인식 및 일반적인 음성 인식)에 대응할 수 있고, 블록(B)의 S120", S130", 및 S140”단계들은 각각, 도 3의 예에서의 S120, S130, 및 S140 단계들에 대응하며, 반복 부분은 다시 설명되지 않을 것이다.
도 3 또는 도 4의 예에서, 본 개시내용의 실시예에 따른 방법은 또한, 화자 모델에 따라 화자와의 연관을 결정하는 것을 고려하고, 그에 따라, 음성 제어 및 상호 작용 스테이지에 화자의 특징 정보가 추가로 통합될 수 있게 하고, 인식률을 더 개선한다.
일 실시예에서, 위의 방법의 다양한 단계들을 수행할 수 있는 프로그램 명령들이 하나 이상의 컴퓨터 판독가능 비-일시적 저장 매체 상에 저장 또는 구현될 수 있고, 그에 따라, 그러한 비-일시적 저장 매체는 컴퓨터 또는 임의의 다른 컴퓨팅 디바이스(예컨대, 프로세서)에 의해 판독되는 경우 대응하는 프로그램 명령들을 제공할 수 있고, 그러한 비-일시적 저장 매체는 컴퓨터 또는 임의의 다른 컴퓨팅 디바이스로 하여금 판독되는 프로그램 명령들에 따라 대응하는 동작을 수행할 수 있게 한다. 상이한 실시예들에 따르면, 프로그램 명령들은 다양한 형태들, 이를테면, 소스 코드, 이진 코드, 중간 코드 등으로 또는 다양한 조합으로 비-일시적 저장 매체 상에 구현 또는 저장될 수 있다.
도 5는 본 개시내용의 실시예에 따른 방법을 적용할 수 있는 예시적인 장치(200)를 도시하며, 그 장치(200)는 스플리터(SPT), 신호 생성기(GEN), 인식기(RGZ), 및 판정 디바이스(DEC)를 포함할 수 있다.
일 실시예에서, 스플리터(SPT)는 하나 이상의 프로세서들, 예컨대, 일반 프로세서 또는 프로세싱 디바이스, 이를테면 중앙 프로세싱 유닛(CPU) 및 필드 프로그래머블 게이트 어레이(FPGA), 또는 임의의 다른 특수한 프로세서 또는 프로세싱 디바이스를 포함할 수 있다. 일 실시예에서, 스플리터(SPT)(예컨대, 스플리터(SPT) 내의 프로세서)는 입력 오디오 신호(IN_SIG)를 적어도 2개의 분리 신호들(SIG1, SIG2, ..., SIGn)로 분리하도록 구성될 수 있다. 일 실시예에서, 스플리터(SPT) 또는 그 내부의 프로세서는, 예컨대, 예시적인 방법(100)의 S110 단계를 수행하도록 구성될 수 있다.
일 실시예에서, 신호 생성기(GEN)는 하나 이상의 프로세서들, 예컨대, 일반 프로세서 또는 프로세싱 디바이스, 이를테면 CPU 및 FPGA, 또는 임의의 다른 특수한 프로세서 또는 프로세싱 디바이스를 포함할 수 있다. 일 실시예에서, 신호 생성기(GEN)는 현재 프레임에서의 분리 신호들(SIG1, SIG2,..., SIGn)로부터 선택된, 일차 분리 신호(SIG_M) 및 하나 이상의 이차 분리 신호들(SIG_V1,..., SIG_Vn-1)에 기초하여, 현재 프레임에서의 잡음 제거된 신호(SIG_DN)를 생성하도록 구성될 수 있다. 일 실시예에서, 신호 생성기(GEN) 또는 그 내부의 프로세서는, 예컨대, 예시적인 방법(100)의 S120 단계를 수행하도록 구성될 수 있다.
일 실시예에서, 인식기(RGZ)는 하나 이상의 프로세서들, 예컨대, 일반 프로세서 또는 프로세싱 디바이스, 이를테면 CPU 및 FPGA, 또는 다른 특수한 프로세서 또는 프로세싱 디바이스를 포함할 수 있다. 일 실시예에서, 인식기(RGZ)는 현재 프레임에서의 복수의 관심 신호들 각각에 대해 예비 인식을 수행하도록 구성될 수 있으며, 현재 프레임에서의 복수의 관심 신호들은 현재 프레임에서의 분리 신호들(SIG1, SIG2 ..., SIGn) 및 잡음 제거된 신호(SIG_DN)를 포함할 수 있고, 현재 프레임에서의 복수의 관심 신호들 각각은 현재 프레임에서의 예비 인식의 결과(RGZj)(1≤j≤n+1)와 연관된, 현재 프레임에서의 인식 스코어를 갖는다. 일 실시예에서, 인식기(RGZ) 또는 그 내부의 프로세서는, 예컨대, 예시적인 방법(100)의 S130 단계를 수행하도록 구성될 수 있다.
일 실시예에서, 판정 디바이스(DEC)는 하나 이상의 프로세서들, 예컨대, 일반 프로세서 또는 프로세싱 디바이스, 이를테면 CPU 및 FPGA, 또는 임의의 다른 특수한 프로세서 또는 프로세싱 디바이스를 포함할 수 있다. 일 실시예에서, 판정 디바이스(DEC)는, 현재 프레임에서의 입력 오디오 신호(IN_SIG)에 대한 인식 결과(OUT_R)를 획득하기 위해, 현재 프레임에서의 복수의 관심 신호들 각각의 인식 스코어(상이한 실시예들에 따르면, 이는 RGZj일 수 있거나 또는 RGZj에 포함될 수 있음)에 따라 인식 판정을 수행하도록 구성될 수 있다. 일 실시예에서, 판정 디바이스(DEC) 또는 그 내부의 프로세서는, 예컨대, 예시적인 방법(100)의 S140 단계를 수행하도록 구성될 수 있다.
도 5에 도시된 구조가 단지 예시적인 것일 뿐이고 제한적인 것이 아니라는 것이 이해되어야 한다. 본 개시내용의 실시예에 따른 장치는 또한, 다른 컴포넌트 및/또는 구조를 가질 수 있다.
예컨대, 예시적인 장치(200)는 외부 음성을 획득하기 위한 픽업 또는 픽업 회로로서 역할을 하기 위한 마이크로폰 어레이를 더 포함할 수 있다. 부가하여, 예시적인 장치(200)는 또한, 컴포넌트들, 이를테면 변환기 또는 변환 회로, 이를테면 아날로그-대-디지털 변환기 및 필터 등을 포함할 수 있다.
예컨대, 본 개시내용의 실시예에 따른 장치는 하나 이상의 프로세서들(예컨대, 일반 프로세서 또는 프로세싱 디바이스, 이를테면 CPU 및 FPGA, 및/또는 특수한 프로세서 또는 프로세싱 디바이스)을 포함할 수 있으며, 그러한 하나 이상의 프로세서들은, 시작되는 경우, 적어도, 본 개시내용의 실시예에 따른 방법, 이를테면 예시적인 방법(100)을 수행하도록 구성될 수 있다.
예컨대, 본 개시내용의 실시예에 따른 장치는, 유선 모드 또는 무선 모드로 다른 컴포넌트들 또는 장치들과 정보/데이터 상호 작용을 수행하기 위해, I/O 인터페이스, 네트워크 인터페이스, 및/또는 메모리를 더 포함할 수 있다.
예컨대, 상이한 실시예들에 따르면, 장치 내의 메모리는 다양한 형태들의 컴퓨터 판독가능 및 기록가능 저장 매체, 예컨대 휘발성 메모리 및/또는 비-휘발성 메모리를 포함할 수 있다. 휘발성 메모리는, 예컨대, 랜덤 액세스 메모리(RAM) 캐시, 온-칩 메모리 등을 포함할 수 있다. 비-휘발성 메모리는, 예컨대, 판독 전용 메모리(ROM), 하드 디스크, 플래시 메모리 등을 포함할 수 있다. 판독가능 및 기록가능 저장 매체는 전기, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 또는 디바이스, 또는 이들의 임의의 조합을 포함할 수 있다(그러나 이에 제한되지는 않음). 일 실시예에서, 메모리는, 장치의 하나 이상의 프로세서들로 하여금 본 개시내용의 실시예들에 따른 방법의 단계들을 수행하게 하도록 명령하기 위한 프로그램 명령들을 저장할 수 있다.
문맥 상 명확히 달리 요구되지 않는 한, 상세한 설명 및 청구범위 전체에 걸쳐, 단어들, 이를테면 “포함하다” 및 “구비하다”는, 배타적 또는 철저한 의미와 대조적으로, 포괄적인 의미로 해석되어야 하며, 즉, “포함하지만 이에 제한되지는 않음”의 의미로 해석되어야 한다. 부가적으로, 본 개시내용에서 사용되는 단어들 “여기서”, “위의”, “아래의”, 및 유사한 의미의 단어들은 본 개시내용의 임의의 특정 부분들을 지칭하는 것이 아니라 본 개시내용 전체를 지칭할 것이다. 문맥상 허용되는 경우, 단수 또는 복수 개수를 사용하는 위의 상세한 설명에서의 단어들은 또한, 각각, 복수 또는 단수 개수를 포함할 수 있다. 예컨대, “제1 장애물” 또는 “제2 장애물”은 하나 이상의 “제1 장애물들” 또는 “제2 장애물들”을 의미할 수 있으며, “다른”은 또한, 다른 하나 이상을 의미할 수 있다. 2개 이상의 아이템들의 리스트에 관하여 단어 “또는”은 그 단어의 다음의 모든 해석들을 커버한다: 리스트 내의 아이템들 중 임의의 아이템, 리스트 내의 모든 아이템들, 및 리스트 내의 아이템들의 임의의 조합. 부가하여, “제1”, “제2” 등의 용어들은 순서 또는 중요성을 강조하는 것이 아니라 구별을 위해 사용되도록 의도된다.
본 발명의 일부 실시예들이 설명되었지만, 이들 실시예들은 단지 예로서 제공된 것이고, 본 개시내용의 범위를 제한하는 것으로 의도되지 않는다. 실제로, 본원에서 설명되는 신규한 방법들 및 시스템들은 다양한 다른 형태들로 실시될 수 있다. 게다가, 본원에서 설명되는 방법들 및 장치의 형태의 다양한 생략들, 치환들, 및 변화들이 본 개시내용의 사상으로부터 벗어나지 않으면서 이루어질 수 있다.

Claims (15)

  1. 음성을 인식하기 위한 방법으로서,
    입력 오디오 신호를 적어도 2개의 분리 신호들로 분리하는 단계;
    현재 프레임에서의 상기 오디오 신호의 상기 적어도 2개의 분리 신호들로부터 선택된, 일차 분리 신호 및 하나 이상의 이차 분리 신호들에 기초하여, 상기 현재 프레임에서의 잡음 제거된 신호(denoised signal)를 생성하는 단계;
    상기 현재 프레임에서의 복수의 관심 신호들 각각에 대해 예비 인식을 수행하는 단계 - 상기 현재 프레임에서의 상기 복수의 관심 신호들은 상기 현재 프레임에서의 상기 적어도 2개의 분리 신호들 및 상기 잡음 제거된 신호를 포함하고, 상기 현재 프레임에서의 상기 복수의 관심 신호들 각각은 상기 현재 프레임에서의 상기 예비 인식의 결과와 연관된, 상기 현재 프레임에서의 인식 스코어를 가짐 -; 및
    상기 현재 프레임에서의 상기 복수의 관심 신호들 각각의 인식 스코어에 따라 인식 판정을 수행하는 단계;를 포함하며,
    상기 현재 프레임에서 선택된 상기 일차 분리 신호는 선행 프레임에서의 상기 적어도 2개의 분리 신호들 중 임의의 다른 분리 신호의 인식 스코어 이상의, 상기 오디오 신호의 상기 선행 프레임에서의 인식 스코어를 갖는,
    음성을 인식하기 위한 방법.
  2. 제1항에 있어서,
    상기 예비 인식은,
    상기 현재 프레임에서의 상기 복수의 관심 신호들 각각의 음향 스코어를 결정하는 단계; 및
    상기 현재 프레임에서의 상기 복수의 관심 신호들 각각의 음향 스코어에 각각 기초하여, 상기 현재 프레임에서의 상기 복수의 관심 신호들 각각을 디코딩하는 단계;
    를 포함하는,
    음성을 인식하기 위한 방법.
  3. 제2항에 있어서,
    상기 예비 인식은,
    상기 현재 프레임에서의 상기 복수의 관심 신호들 각각의 디코딩 결과가 하나 이상의 미리 결정된 단어들을 포함하는 미리 결정된 문장과 매칭하는 신뢰 레벨을 결정하는 단계 - 상기 현재 프레임에서의 상기 복수의 관심 신호들 각각의 인식 스코어는 상기 현재 프레임에서 결정된 상기 신뢰 레벨에 의존함 -; 또는
    상기 현재 프레임에서의 상기 복수의 관심 신호들 각각의 상기 디코딩 결과에 대해 자연 언어 프로세싱을 수행하는 단계 - 상기 현재 프레임에서의 상기 복수의 관심 신호들 각각의 인식 스코어는 상기 현재 프레임에서의 상기 자연 언어 프로세싱의 스코어에 의존함 -;
    를 더 포함하는,
    음성을 인식하기 위한 방법.
  4. 제1항에 있어서,
    상기 인식 판정은,
    상기 현재 프레임에서의 상기 오디오 신호에 대한 인식 결과로서, 상기 현재 프레임에서의 상기 복수의 관심 신호들 중 미리 결정된 조건을 만족시키는 제1 관심 신호의 예비 인식의 결과를 결정하는 단계를 포함하는,
    음성을 인식하기 위한 방법.
  5. 제4항에 있어서,
    상기 미리 결정된 조건은,
    상기 현재 프레임에서의 상기 제1 관심 신호의 인식 스코어가 상기 현재 프레임에서의 상기 복수의 관심 신호들 중 임의의 다른 관심 신호의 인식 스코어 이상인 조건;
    상기 현재 프레임에서의 상기 제1 관심 신호의 예비 인식 결과에 대응하는 미리 결정된 단어 일치 횟수들이 상기 현재 프레임에서의 상기 복수의 관심 신호들 중 임의의 다른 관심 신호의 예비 인식 결과에 대응하는 미리 결정된 단어 일치 횟수들 이상인 조건; 및
    상기 현재 프레임에서의 상기 제1 관심 신호의 인식 스코어가 제1 임계치 이상인 조건;
    중 하나 이상을 포함하는,
    음성을 인식하기 위한 방법.
  6. 제1항에 있어서,
    현재 인식 판정은,
    미리 결정된 조건에 따라 웨이크-업 동작을 수행하기 위한 명령으로서, 상기 현재 프레임에서의 상기 오디오 신호에 대한 인식 결과를 결정하는 단계;를 포함하는,
    음성을 인식하기 위한 방법.
  7. 제6항에 있어서,
    상기 미리 결정된 조건은,
    상기 현재 프레임에서의 상기 복수의 관심 신호들이 제1 임계치 이상의, 상기 현재 프레임에서의 인식 스코어를 갖는 제1 관심 신호를 포함하는 조건;
    상기 현재 프레임에서의 상기 복수의 관심 신호들 중 제1 미리 결정된 수의 관심 신호들 각각의 인식 스코어가 제2 임계치 이상인 조건;
    상기 현재 프레임에서의 상기 잡음 제거된 신호의 인식 스코어가 제3 임계치 이상이고, 상기 현재 프레임에서의 상기 적어도 2개의 분리 신호들 각각의 인식 스코어가 제4 임계치 이상인 조건; 및
    상기 현재 프레임에서의 상기 잡음 제거된 신호의 인식 스코어가 제5 임계치 이상이고, 상기 현재 프레임에서의 상기 잡음 제거된 신호의 인식 스코어와 상기 현재 프레임에서의 상기 적어도 2개의 분리 신호들 중 제1 분리 신호의 인식 스코어 사이의 차이가 제6 임계치 미만인 조건 - 상기 현재 프레임에서의 상기 제1 분리 신호의 인식 스코어는 상기 현재 프레임에서의 상기 적어도 2개의 분리 신호들 중 임의의 다른 분리 신호의 인식 스코어들 이상이고, 제7 임계치 이상임 -;
    중 하나 이상을 포함하는,
    음성을 인식하기 위한 방법.
  8. 제1항에 있어서,
    적어도 상기 현재 프레임에서의 오디오 신호에 대한 인식 결과에 따라 화자의 특징을 결정하는 단계; 및
    상기 화자 특징을 트레이닝함으로써 화자 모델을 획득하는 단계;
    를 더 포함하는,
    음성을 인식하기 위한 방법.
  9. 제8항에 있어서,
    상기 현재 프레임 전의 적어도 하나의 이전 프레임의 시점에서 이전 관심 신호들을 레코딩하는 단계 - 대응하는 이전 프레임에서의 각각의 이전 관심 신호의 예비 인식 결과는 상기 대응하는 이전 프레임에서의 상기 오디오 신호에 대한 인식 결과임 -; 및
    상기 대응하는 이전 프레임에서의 각각의 이전 관심 신호의 예비 인식 결과에 따라 상기 화자 특징을 결정하는 단계;
    를 더 포함하며,
    상기 화자 모델에 의해 결정된, 상기 현재 프레임에서 선택된 상기 일차 분리 신호가 상기 이전 프레임에서의 화자와 연관될 확률은, 상기 화자 모델에 의해 결정된, 상기 적어도 2개의 분리 신호들 중 임의의 다른 분리 신호가 상기 선행 프레임에서의 화자와 연관될 확률 이상이고, 제1 임계치 이상인,
    음성을 인식하기 위한 방법.
  10. 제1항에 있어서,
    상기 현재 프레임에서의 잡음 제거된 신호를 생성하는 단계는,
    상기 적어도 2개의 분리 신호들 각각의 주파수 스펙트럼 및 전력 스펙트럼을 획득하기 위해, 상기 적어도 2개의 분리 신호들 각각을 분석하는 단계;
    상기 일차 분리 신호의 전력 스펙트럼 및 상기 하나 이상의 이차 분리 신호들의 전력 스펙트럼에 따라 잡음 제거 인자를 결정하는 단계; 및
    상기 잡음 제거 인자, 및 상기 일차 분리 신호의 주파수 스펙트럼에 따라, 상기 현재 프레임에서의 상기 잡음 제거된 신호를 획득하는 단계;
    를 포함하는,
    음성을 인식하기 위한 방법.
  11. 제10항에 있어서,
    상기 잡음 제거 인자를 결정하는 단계는,
    상기 일차 분리 신호의 전력 스펙트럼 및 상기 하나 이상의 이차 분리 신호들의 전력 스펙트럼에 따라 전력 비율을 결정하는 단계; 및
    상기 전력 비율이 클수록, 상기 잡음 제거 인자가 크게 되도록, 상기 전력 비율에 따라 상기 잡음 제거 인자를 결정하는 단계
    를 포함하는,
    음성을 인식하기 위한 방법.
  12. 음성을 인식하기 위한 장치로서,
    입력 오디오 신호를 적어도 2개의 분리 신호들로 분리하도록 구성된 스플리터;
    현재 프레임에서의 상기 오디오 신호의 상기 적어도 2개의 분리 신호들로부터 선택된, 일차 분리 신호 및 하나 이상의 이차 분리 신호들에 기초하여, 상기 현재 프레임에서의 잡음 제거된 신호를 생성하도록 구성된 신호 생성기 - 상기 현재 프레임에서 선택된 상기 일차 분리 신호는 선행 프레임에서의 상기 적어도 2개의 분리 신호들 중 임의의 다른 분리 신호의 인식 스코어 이상의, 상기 오디오 신호의 상기 선행 프레임에서의 인식 스코어를 가짐 -;
    상기 현재 프레임에서의 복수의 관심 신호들 각각에 대해 예비 인식을 수행하도록 구성된 인식기 - 상기 현재 프레임에서의 상기 복수의 관심 신호들은 상기 현재 프레임에서의 상기 적어도 2개의 분리 신호들 및 상기 잡음 제거된 신호를 포함하고, 상기 현재 프레임에서의 상기 복수의 관심 신호들 각각은 상기 현재 프레임에서의 상기 예비 인식의 결과와 연관된, 상기 현재 프레임에서의 인식 스코어를 가짐 -; 및
    상기 현재 프레임에서의 복수의 관심 신호들 각각의 상기 현재 프레임에서의 인식 스코어에 따라 인식 판정을 수행하도록 구성된 판정 디바이스
    를 포함하는,
    음성을 인식하기 위한 장치.
  13. 음성을 인식하기 위한 장치로서,
    시작 시, 적어도 제1항의 방법을 수행하도록 구성된 하나 이상의 프로세서들을 포함하는,
    음성을 인식하기 위한 장치.
  14. 실행되는 경우, 제1항의 방법을 수행하는 프로그램 명령들이 저장된, 컴퓨터 판독가능 비-휘발성 저장 매체.
  15. 삭제
KR1020190087618A 2018-07-19 2019-07-19 음성을 인식하기 위한 방법 및 장치 KR102306608B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810796701.9A CN110738990B (zh) 2018-07-19 2018-07-19 识别语音的方法和装置
CN201810796701.9 2018-07-19

Publications (2)

Publication Number Publication Date
KR20200010124A KR20200010124A (ko) 2020-01-30
KR102306608B1 true KR102306608B1 (ko) 2021-09-30

Family

ID=67437933

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190087618A KR102306608B1 (ko) 2018-07-19 2019-07-19 음성을 인식하기 위한 방법 및 장치

Country Status (5)

Country Link
US (1) US11183179B2 (ko)
EP (1) EP3598438A1 (ko)
JP (1) JP6978792B2 (ko)
KR (1) KR102306608B1 (ko)
CN (1) CN110738990B (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020231151A1 (en) 2019-05-16 2020-11-19 Samsung Electronics Co., Ltd. Electronic device and method of controlling thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180033428A1 (en) * 2016-07-29 2018-02-01 Qualcomm Incorporated Far-field audio processing

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7100000B1 (en) * 1999-05-28 2006-08-29 International Business Machines Corporation System and methods for processing audio using multiple speech technologies
DE69920461T2 (de) * 1999-10-29 2005-12-01 Telefonaktiebolaget Lm Ericsson (Publ) Verfahren und Vorrichtung zur robusten Merkmalsextraktion für die Spracherkennung
WO2004053839A1 (en) 2002-12-11 2004-06-24 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
US8477961B2 (en) * 2003-03-27 2013-07-02 Aliphcom, Inc. Microphone array with rear venting
US8935158B2 (en) * 2006-12-13 2015-01-13 Samsung Electronics Co., Ltd. Apparatus and method for comparing frames using spectral information of audio signal
US8249867B2 (en) 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
KR101023211B1 (ko) 2007-12-11 2011-03-18 한국전자통신연구원 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US8983832B2 (en) * 2008-07-03 2015-03-17 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
KR101253610B1 (ko) 2009-09-28 2013-04-11 한국전자통신연구원 사용자 음성을 이용한 위치 추적 장치 및 그 방법
JP2011107603A (ja) 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US8543402B1 (en) * 2010-04-30 2013-09-24 The Intellisis Corporation Speaker segmentation in noisy conversational speech
KR101154011B1 (ko) 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
US8725506B2 (en) * 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US9607627B2 (en) * 2015-02-05 2017-03-28 Adobe Systems Incorporated Sound enhancement through deverberation
DK3252766T3 (da) * 2016-05-30 2021-09-06 Oticon As Audiobehandlingsanordning og fremgangsmåde til estimering af signal-til-støj-forholdet for et lydsignal
CN107507623A (zh) * 2017-10-09 2017-12-22 维拓智能科技(深圳)有限公司 基于麦克风阵列语音交互的自助服务终端
CN108182937B (zh) * 2018-01-17 2021-04-13 出门问问创新科技有限公司 关键词识别方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180033428A1 (en) * 2016-07-29 2018-02-01 Qualcomm Incorporated Far-field audio processing

Also Published As

Publication number Publication date
EP3598438A1 (en) 2020-01-22
CN110738990B (zh) 2022-03-25
JP6978792B2 (ja) 2021-12-08
JP2020013129A (ja) 2020-01-23
US11183179B2 (en) 2021-11-23
US20200027450A1 (en) 2020-01-23
KR20200010124A (ko) 2020-01-30
CN110738990A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
Zhou et al. Modality attention for end-to-end audio-visual speech recognition
KR102371188B1 (ko) 음성 인식 장치 및 방법과 전자 장치
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
KR102072235B1 (ko) 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템
Gogate et al. DNN driven speaker independent audio-visual mask estimation for speech separation
US6959276B2 (en) Including the category of environmental noise when processing speech signals
KR101704926B1 (ko) 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
CN111179911B (zh) 目标语音提取方法、装置、设备、介质和联合训练方法
WO2019191554A1 (en) Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition
Tachioka et al. Discriminative methods for noise robust speech recognition: A CHiME challenge benchmark
CN112397083B (zh) 语音处理方法及相关装置
WO2021022094A1 (en) Per-epoch data augmentation for training acoustic models
US8046215B2 (en) Method and apparatus to detect voice activity by adding a random signal
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
CN113205803B (zh) 一种具有自适应降噪能力的语音识别方法及装置
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
KR102306608B1 (ko) 음성을 인식하기 위한 방법 및 장치
KR101811524B1 (ko) 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 방법
Park et al. The Second DIHARD Challenge: System Description for USC-SAIL Team.
CN109741761B (zh) 声音处理方法和装置
Maka et al. An analysis of the influence of acoustical adverse conditions on speaker gender identification
Seong et al. WADA-W: A modified WADA SNR estimator for audio-visual speech recognition
Wang et al. Robust speech recognition from ratio masks
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JP7291099B2 (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right