KR20180080446A - 음성 인식 방법 및 음성 인식 장치 - Google Patents

음성 인식 방법 및 음성 인식 장치 Download PDF

Info

Publication number
KR20180080446A
KR20180080446A KR1020170001173A KR20170001173A KR20180080446A KR 20180080446 A KR20180080446 A KR 20180080446A KR 1020170001173 A KR1020170001173 A KR 1020170001173A KR 20170001173 A KR20170001173 A KR 20170001173A KR 20180080446 A KR20180080446 A KR 20180080446A
Authority
KR
South Korea
Prior art keywords
speech recognition
output
speech
neural network
recognition model
Prior art date
Application number
KR1020170001173A
Other languages
English (en)
Inventor
이호식
나휘동
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170001173A priority Critical patent/KR20180080446A/ko
Priority to US15/808,324 priority patent/US10679612B2/en
Priority to JP2017245280A priority patent/JP7093626B2/ja
Priority to EP17209617.4A priority patent/EP3346462B1/en
Priority to CN201711462412.7A priority patent/CN108269569B/zh
Publication of KR20180080446A publication Critical patent/KR20180080446A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

뉴럴 네트워크 기반의 음성 인식 모델을 이용한 음성 인식 방법 및 음성 인식 장치가 개시된다. 음성 인식 방법은 뉴럴 네트워크의 하나 이상의 레이어가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정하는 단계, 어텐션 가중치를 현재 시간의 음성 신호에 적용하는 단계와 음성 인식 모델을 이용하여 상기 어텐션 가중치가 적용된 음성 신호를 인식하는 단계를 포함한다.

Description

음성 인식 방법 및 음성 인식 장치{VOICE RECOGNIZING METHOD AND VOICE RECOGNIZING APPRATUS}
아래의 설명은 음성 인식에 이용되는 음성 인식 모델을 학습시키는 기술 및 음성 인식 모델을 이용하여 음성 신호를 인식하는 기술에 관한 것이다.
음성 인식 기술은 인간이 의사 소통을 위하여 말하는 음성 언어를 컴퓨터가 해석하여 문자 데이터로 전환하는 기술로서, 편리함을 원하는 사용자들의 요구에 따라 빠르게 발전하고 있다. 최근에는, 뉴럴 네트워크(neural network)를 이용하여 음성 인식을 수행하는 기술이 활발히 연구되고 있다. 뉴럴 네트워크는 인간의 생물학적 신경 세포의 특성을 수학적 표현에 의해 모델링한 모델로서, 인간이 가지고 있는 학습이라는 능력을 모방한 알고리즘을 이용한다. 뉴럴 네트워크는 학습된 결과에 기초하여 학습에 이용되지 않았던 입력 패턴에 대하여 비교적 올바른 출력을 생성할 수 있는 일반화 능력을 가진다. 이러한 일반화 능력이 가지는 장점으로 인하여 뉴럴 네트워크가 음성 인식 기술 분야에 널리 이용되고 있다.
일 실시예에 따른 뉴럴 네트워크 기반의 음성 인식 모델을 이용한 음성 인식 방법은, 상기 뉴럴 네트워크의 하나 이상의 레이어가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정하는 단계; 상기 결정된 어텐션 가중치를 현재 시간의 음성 신호에 적용하는 단계; 및 상기 음성 인식 모델을 이용하여 상기 어텐션 가중치가 적용된 음성 신호를 인식하는 단계를 포함할 수 있다.
일 실시예에 따른 음성 인식 방법에서, 상기 결정하는 단계는, 상기 이전 시간에서 상기 뉴럴 네트워크의 히든 레이어 및 출력 레이어 중 하나 이상이 출력한 출력 값에 기초하여 상기 어텐션 가중치를 결정할 수 있다.
일 실시예에 따른 음성 인식 방법에서, 상기 결정하는 단계는, 상기 이전 시간에서 상기 하나 이상의 레이어가 출력한 출력 값 및 인식하고자 하는 화자의 정보에 기초하여 결정되는 컨텍스트 값에 기초하여 상기 어텐션 가중치를 결정할 수 있다.
일 실시예에 따른 음성 인식 방법에서, 상기 결정하는 단계는, 상기 이전 시간에서 상기 하나 이상의 레이어가 출력한 출력 값 및 상기 현재 시간에서 상기 음성 인식 모델에 입력되는 음성 프레임의 특징 값에 기초하여 상기 어텐션 가중치를 결정할 수 있다.
일 실시예에 따른 음성 인식 방법에서, 상기 결정하는 단계는, 상기 음성 인식 모델에 상기 음성 신호에 포함된 복수의 음성 프레임들이 입력되는 경우, 상기 음성 프레임들 각각에 대한 어텐션 가중치들을 결정하고, 상기 적용하는 단계는, 상기 결정된 어텐션 가중치들을 상기 어텐션 가중치들 각각에 대응하는 음성 프레임들에 적용할 수 있다.
다른 실시예에 따른 뉴럴 네트워크 기반의 음성 인식 모델을 이용한 음성 인식 방법은, 음선 신호를 수신하는 단계; 및 상기 음성 인식 모델을 이용하여 상기 음성 신호를 인식하는 단계를 포함하고, 상기 인식하는 단계는, 상기 뉴럴 네트워크의 하나 이상 레이어가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정하는 단계; 및 상기 결정된 어텐션 가중치를 상기 뉴럴 네트워크의 레이어가 현재 시간에서 출력한 출력 값에 적용하는 단계를 포함할 수 있다.
다른 실시예에 따른 음성 인식 방법에서, 상기 결정하는 단계는, 상기 이전 시간에서 상기 뉴럴 네트워크의 히든 레이어 및 출력 레이어 중 하나 이상이 출력한 출력 값에 기초하여 상기 어텐션 가중치를 결정할 수 있다.
다른 실시예에 따른 음성 인식 방법에서, 상기 결정하는 단계는, 상기 이전 시간에서 상기 하나 이상의 레이어가 출력한 출력 값 및 인식하고자 하는 화자의 정보에 기초하여 결정되는 컨텍스트 값에 기초하여 상기 어텐션 가중치를 결정할 수 있다.
다른 실시예에 따른 음성 인식 방법에서, 상기 어텐션 가중치가 상기 뉴럴 네트워크의 현재 레이어가 출력한 출력 값에 적용되는 경우, 상기 어텐션 가중치에 의해 상기 현재 레이어의 상위 레이어로 전달되는 상기 현재 레이어의 출력 값의 크기가 조정될 수 있다.
일 실시예에 따른 뉴럴 네트워크 기반의 음성 인식 모델을 이용한 음성 인식 장치는, 프로세서; 및 상기 프로세서에 의해 실행 가능한 하나 이상의 인스트럭션을 저장하는 메모리를 포함하고, 상기 하나 이상의 인스트럭션이 상기 프로세서에 의해 실행되면, 상기 프로세서는, 상기 뉴럴 네트워크의 하나 이상의 레이어가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정하고, 상기 결정된 어텐션 가중치를 현재 시간의 음성 신호에 적용하며, 상기 음성 인식 모델을 이용하여 상기 어텐션 가중치가 적용된 음성 신호를 인식할 수 있다.
일 실시예에 따른 뉴럴 네트워크 기반의 음성 인식 모델을 이용한 음성 인식 장치는, 프로세서; 및 상기 프로세서에 의해 실행 가능한 하나 이상의 인스트럭션을 포함하는 메모리를 포함하고, 상기 하나 이상의 인스트럭션이 상기 프로세서에 의해 실행되면, 상기 프로세서는, 상기 음성 인식 모델을 이용하여 음성 신호를 인식할 때, 상기 뉴럴 네트워크의 하나 이상 레이어가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정하며, 상기 결정된 어텐션 가중치를 상기 뉴럴 네트워크의 레이어가 현재 시간에서 출력한 출력 값에 적용하고, 상기 적용 결과에 기초하여 상기 음성 신호의 인식 결과를 추정할 수 있다.
도 1은 일 실시예에 따른 음성 인식 과정을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 음성 인식 방법의 동작을 도시하는 흐름도이다.
도 3은 일 실시예에 따른 음성 인식 과정을 보다 구체적으로 설명하기 위한 흐름도이다.
도 4 및 도 5는 일 실시예에 따른 음성 인식 모델에 기초하여 음성 인식이 수행되는 과정을 설명하기 위한 도면들이다.
도 6은 다른 실시예에 따른 음성 인식 과정을 보다 구체적으로 설명하기 위한 흐름도이다.
도 7 및 도 8은 다른 실시예에 따른 음성 인식 모델에 기초하여 음성 인식이 수행되는 과정을 설명하기 위한 도면들이다.
도 9는 또 다른 실시예에 따른 음성 인식 과정을 보다 구체적으로 설명하기 위한 흐름도이다.
도 10은 일 실시예에 따른 음성 인식 장치의 구성을 도시한 도면이다.
도 11은 일 실시예에 따른 음성 인식 모델의 학습 방법의 동작을 도시하는 흐름도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일 실시예에 따른 음성 인식 과정을 설명하기 위한 도면이다.
음성 인식 장치는 음성 인식을 수행하는 장치로서, 음성 인식 장치에 입력된 음성 신호를 인식하여 음성 인식 결과를 출력한다. 음성 인식은 음성 신호에 포함된 언어 정보를 이에 대응되는 텍스트 정보로 변환하는 과정이다. 음성 인식 장치는 입력된 음성 신호를 분석하여 음성 신호에 포함된 언어 정보가 어떠한 텍스트 정보를 나타내는지를 추정할 수 있다.
일 실시예에 따르면, 음성 인식 장치는 모바일 폰, 셀룰러 폰, 스마트 폰, 퍼스널 컴퓨터, 랩탑, 노트북, 넷북 또는 태블릿, 휴대 정보 단말기(personal digital assistant; PDA), 디지털 카메라, 게임 콘솔, MP3 플레이어, 퍼스널 멀티미디어 플레이어(personal multimedia player; PMP), 전자 북(E-Book), 네비게이션, 디스크 플레이어, 셋톱박스, 가정용 전자기기(home appliance), 통신 장치, 디스플레이 장치, 또는 다른 전자기기에 내장되거나 또는 이것들과 상호 동작할 수 있다. 또한, 음성 인식 장치는 스마트 가전 기기, 지능형 차량, 자율 주행 장치, 스마트 홈 환경, 스마트 빌딩 환경, 스마트 오피스 환경, 스마트 전자 보안 시스템 등에 내장되거나 또는 이것들과 상호 동작할 수 있다. 또한, 음성 인식 장치는 사용자의 신체에 착용되는 웨어러블 기기(wearable device)에 포함되어 동작하거나 이것과 상호 독작할 수 있다. 웨어러블 기기는 예를 들어, 반지, 시계, 안경, 팔찌, 벨트, 밴드, 목걸이, 귀걸이, 헬멧 또는 옷의 형태를 가질 수 있다.
음성 인식 장치는 음성 신호로부터 특징을 추출하고, 추출된 특징에 기반하여 음성 인식 결과를 추정한다. 일 예에서, 음성 인식 장치는 음성 신호로부터 스펙트로그램(spectrogram)을 획득하고, 스펙트로그램으로부터 음성 신호의 주파수 특징을 추출할 수 있다. 음성 인식 장치는 음성 신호를 푸리에 변환(Fourier transform)을 이용한 스펙트럼 분석 결과를 시간-주파수에 대해 표현하면 스펙트로그램을 획득할 수 있다. 음성 인식 장치는 푸리에 변환을 통해 음성 신호의 기본 주파수(fundamental frequency)를 계산하고, 기본 주파수의 자연수배(1, 2, 3, ... 배)에 해당하는 주파수의 진폭 값을 계산하여 주파수 값을 x 축에, 진폭 값을 y 축에 나타내 스펙트럼을 생성할 수 있다. 스펙트로그램은 생성된 스펙트럼에서 진폭 값이 클수록 빈(bin)의 크기를 크게 하고, 진폭 값이 작을수록 빈의 크기를 작게 나타내 각각의 주파수 위치에 대해 진폭 값의 크기를 연속으로 표시한 것이다. 음성 인식 장치는 스펙트로그램에 나타난 주파수 특징 정보를 음성 신호의 특징으로서 추출할 수 있다.
음성 신호로부터 특징을 추출하는 방법은 위 실시예에 한정되지 아니하며, 음성 신호의 특징을 추출하기 위해 다양한 방법이 이용될 수 있다. 예를 들어, 음성 인식 장치는 음성 인식을 위해 인간의 귀가 가지는 비선형적인 주파수 특징을 이용한 MFCC(Mel Frequency Cepstral Coefficients)의 특징 값을 이용할 수도 있다. MFCC의 특징 값은 (1) 시간 윈도우에 기반하여 음성 신호를 음성 프레임 단위로 분할 (2) FFT(Fast Fourier Transform)을 이용하여 음성 프레임을 주파수 영역으로 변환 (3) 필터뱅크(filterbank)를 이용하여 음성 프레임을 여러 주파수 대역의 신호로 나눔 (4) 각 주파수 대역의 신호의 에너지를 계산 (5) 계산된 에너지에 DCT(Discrete Cosine Transform)를 적용의 과정을 통해 획득될 수 있다.
음성 인식 장치는 음성 인식 결과를 추정하기 위해 음성 인식 모델로서, 음향 모델과 언어 모델을 이용할 수 있다. 음향 모델은 음성 신호로부터 추출된 특징에 기초하여 음성 신호를 음소(phoneme) 단위로 인식하는데 이용된다. 음성 인식 장치는 음향 모델에 의해 획득된 음소 단위의 인식 결과에 기초하여 음성 신호가 나타내는 단어들을 추정할 수 있다. 언어 모델은 단어들 사이의 연결 관계에 기초한 확률 정보를 획득하는데 이용된다. 언어 모델은 언어 모델에 입력된 단어에 연결될 다음 단어에 대한 확률 정보를 제공한다. 예를 들어, 언어 모델에 "this"의 단어가 입력되는 경우, 언어 모델은 "this" 다음에 "is" 또는 "was"가 연결될 확률 정보를 제공할 수 있다. 일 실시예에서, 음성 인식 장치는 언어 모델에 의해 확률 정보에 기초하여 가장 확률이 높은 단어들 간의 연결 관계를 선택하고, 선택 결과를 음성 인식 결과로서 출력할 수 있다.
위와 같은 음향 모델 및 언어 모델로서 뉴럴 네트워크가 이용될 수 있다. 뉴럴 네트워크는 많은 수의 인공 뉴런(또는, 노드)들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 인식 모델이다. 뉴럴 네트워크는 인공 뉴런들을 통해 인간의 인지 작용이나 학습 과정을 수행할 수 있다. 일 예에서, 이전 시간의 히든 레이어의 출력 값이 현재 시간의 히든 레이어에 다시 입력되는 리커런트 뉴럴 네트워크(recurrent neural network; RNN)이 음향 모델 및 언어 모델에 이용될 수 있다.
일 실시예에서, 뉴럴 네트워크에 기반한 음성 인식 모델은 이전 시간에서 해당 뉴럴 네트워크에 의해 계산된 결과를 피드백 받아 동적으로 스펙트럴 마스킹(spectral masking)을 구현할 수 있다. 스펙트럴 마스킹에서는 음성 신호의 주파수 대역별 특징 값들 그대로가 음성 인식에 이용되는 것이 아니라, 각 주파수 대역별 특징 값들의 크기를 조정한 결과가 음성 인식에 이용된다. 예를 들어, 소음이 섞인 음성 신호에서 소음이 아닌 사람의 음성만 집중해서 인식하거나 또는 음성 신호에 여러 사람의 화자(speaker)의 존재하는 경우에 인식하고자 하는 화자의 음성만을 집중해서 인식하고자 할 때 스펙트럴 마스킹이 이용될 수 있다.
사람은 입력되는 음성에 따라 특정한(particular) 스펙트럼 영역의 신호에 집중하고, 음성 신호에 포함된 소음을 적응적으로 제거하는 능력이 있다. 사람의 청각계는 뇌의 청각계로부터 말초로 내려오는 하행 경로가 존재하고, 이 하행 경로는 선택적 주의 집중 능력과 소음 환경에서 음성을 지각하는데 영향을 끼친다고 알려져 있다. 음성 인식 모델은 이와 같은 사람의 청각계에 존재하는 하행 경로를 모델링하여 소음 환경에서 음성을 보다 잘 인식하고, 선택적 주의 집중 능력을 구현 가능하게 하는 효과를 제공한다. 이를 위해, 음성 인식 모델을 형성하는 뉴럴 네트워크는 어텐션 가중치를 이용하여 뉴럴 네트워크에 입력되는 음성 신호를 조정할 수 있다. 뉴럴 네트워크에는 어텐션 가중치가 적용된 음성 프레임의 특징이 입력되고, 어텐션 가중치에 의해 음성 프레임의 주파수 영역별 특징 값들 중에서 어느 주파수 영역의 특징 값을 보다 중요하게 볼 것인지가 결정된다. 예를 들어, 어텐션 가중치는 음성 인식 모델에 음성 프레임의 주파수 영역별 특징 값들이 입력될 때, 각 주파수 영역의 특징 값들에 대한 비중(weight)을 결정한다.
일 실시예에 따르면, 음성 인식 장치는 이전 시간에서 뉴럴 네트워크의 하나 이상의 레이어가 출력한 출력 값에 기초하여 음성 신호에 적용될 어텐션 가중치를 결정할 수 있다. 다른 실시예에 따르면, 뉴럴 네트워크는 컨텍스트(context) 값을 추가적으로 고려하여 어텐션 가중치를 결정할 수도 있다. 또 다른 실시예에서는, 현재 시간에서 입력될 음성 신호의 특징 값이 어텐션 가중치를 결정하는데 추가적으로 이용될 수 있다.
음성 인식 장치는 이전 시간에서의 정보를 이용하여 어텐션 가중치를 결정할 수 있고, 어텐션 가중치를 통해 현재 시간에서 인식하고자 하는 음성 신호의 주파수 영역별 비중을 적응적으로 조절할 수 있다. 이를 통해, 음성 신호의 인식 결과에서 잡음 성분의 영향을 줄이거나 또는 특정한(particular) 화자의 음성 신호에 집중하여 인식할 수 있어 인식 성능을 개선시킬 수 있다.
이하에서는, 음성 인식 장치가 뉴럴 네트워크 기반의 음성 인식 모델을 이용하여 음성 신호를 인식하는 과정을 보다 구체적으로 설명한다.
도 2는 일 실시예에 따른 음성 인식 방법의 동작을 도시하는 흐름도이다.
음성 인식 방법은 음성 인식 장치(예를 들어, 도 1의 음성 인식 장치(120) 또는 도 10의 음성 인식 장치(1000))에 의해 수행될 수 있다. 도 2를 참조하면, 단계(210)에서 음성 인식 장치는 음성 신호를 수신한다. 일 실시예에서, 음성 인식 장치는 음성 신호를 수신한다. 일 예에서, 음성 신호는 시간에 따라 변화하는 음성 정보를 포함하는 복수의 음성 프레임들로 구성될 수 있다. 음성 프레임들은 예를 들어, 스펙트로그램에 나타난 주파수 성분에 따른 빈(bin)의 값 또는 MFCC의 주파수 특징 값을 포함할 수 있다. 음성 인식 장치는 음성 신호를 서로 다른 주파수 성분의 신호들로 분리하고, 분리된 신호들로부터 해당 주파수 특징 값을 추출할 수 있다. 각 음성 프레임들은 주파수 성분에 따른 복수의 채널들로 구성될 수 있고, 각 채널마다 대응되는 주파수 성분의 주파수 특징 값을 포함할 수 있다.
단계(220)에서, 음성 인식 장치는 뉴럴 네트워크 기반의 음성 인식 모델을 이용하여 음성 신호를 인식한다. 음성 인식 모델에는 하나의 음성 프레임이 입력될 수도 있고, 복수의 음성 프레임들이 동시에 입력될 수도 있다. 이 때, 음성 인식 모델에는 음성 신호에서 분리된 서로 다른 주파수 성분의 신호들에 대한 특징 값이 입력될 수 있다.
일 실시예에서, 음성 인식 장치는 이전 시간에서 음성 인식 모델을 형성하는 뉴럴 네트워크의 하나 이상의 레이어가 출력한 출력 값, 컨텍스트 값 및 현재 시간에서의 음성 인식 모델의 입력 값 중 하나 이상에 기초하여 어텐션 가중치를 결정하고, 결정된 어텐션 가중치를 음성 인식 모델에 입력되는 음성 신호에 적용할 수 있다. 음성 인식 장치는 음성 인식 모델에 입력되는 음성 프레임에서 주파수 성분별로 어텐션 가중치를 적용할 수 있다. 일례에서, 어텐션 가중치는 입력된 정보에 기반하여 어텐션 가중치를 결정하도록 학습된 뉴럴 네트워크 또는 음성 인식 모델의 뉴럴 네트워크에 포함된 하나 이상의 레이어에 의해 결정될 수 있다.
어텐션 가중치에 의해 음성 인식 모델에 입력되는 음성 프레임에서 특정 주파수 성분의 신호에 대한 비중이 커지거나, 작아지거나 또는 그대로 유지될 수 있다. 여기서, 비중이 커진다는 것은, 음성 인식 모델이 음성 프레임의 인식 결과를 추정하는데 있어 해당 주파수 성분의 신호를 보다 많이 고려한다는 것을 나타낸다. 반대로, 비중이 작아진다는 것은, 음성 인식 모델이 음성 프레임의 인식 결과를 추정하는데 있어 해당 주파수 성분의 신호를 보다 적게 고려한다는 것을 나타낸다. 이와 같이, 어텐션 가중치는 스펙트럴 마스킹의 역할을 한다.
다른 실시예에서, 음성 인식 장치는 어텐션 가중치를 뉴럴 네트워크의 레이어들 사이에서 전달되는 값에 적용할 수도 있다. 뉴럴 네트워크의 하위 레이어와 상위 레이어 간의 연결 관계들 중 하나 이상에 어텐션 가중치가 적용될 수 있다. 어텐션 가중치가 적용되는 경우, 하위 레이어에서 상위 레이어로 전달되는 값의 크기가 어텐션 가중치에 의해 달라질 수 있다. 어텐션 가중치는 이전 시간에서 뉴럴 네트워크의 하나 이상의 레이어가 출력한 출력 값, 컨텍스트 값 및 현재 시간에서의 음성 인식 모델의 입력 값 중 하나 이상에 기초하여 결정될 수 있다.
음성 인식 장치는 음성 인식 모델을 이용하여 어텐션 가중치가 적용된 음성 신호를 인식하고, 인식 결과를 출력할 수 있다. 일 실시예에서, 음성 인식 모델은 음성 신호에 포함된 언어 정보를 음소 단위로 추정하는 음향 모델일 수 있다. 음소 단위로 추정된 인식 결과는 언어 모델과 같은 다른 음성 인식 모델에 입력되고, 다른 음성 인식 모델에 의해 음성 신호에 포함된 언어 정보의 전체적인 텍스트 정보가 추정될 수 있다. 음성 인식 모델을 형성하는 뉴럴 네트워크는 입력된 정보에 대응하는 인식 결과를 출력하도록 사전에 학습될 수 있다. 음성 인식 모델이 출력하는 인식 결과는 학습 과정에서 결정된 뉴럴 네트워크의 구조적인 특징에 기인한다.
음성 인식 장치가 음성 인식 모델을 이용하여 음성 신호를 인식하는 실시예들을 이하 도 3 내지 도 9를 참조하여 보다 자세히 설명한다.
도 3은 일 실시예에 따른 음성 인식 과정을 보다 구체적으로 설명하기 위한 흐름도이다. 도 3의 실시예에서, 음성 인식 장치는 어텐션 가중치를 음성 인식 모델에 입력되는 음성 신호에 적용하고, 어텐션 가중치가 적용된 음성 신호에 대해 음성 인식을 수행한다.
도 3을 참조하면, 단계(310)에서 음성 인식 장치는 음성 인식 모델을 형성하는 뉴럴 네트워크의 하나 이상의 레이어(예를 들어, 히든 레이어 및 출력 레이어 중 하나 이상의 레이어)가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정한다. 일 실시예에서, 음성 인식 모델에는 서로 다른 주파수 성분의 신호들을 포함하는 음성 프레임이 입력되고, 음성 인식 장치는 서로 다른 주파수 성분의 신호들 각각에 대한 어텐션 가중치를 결정할 수 있다. 어텐션 가중치는 음성 프레임이 음성 인식 모델에 의해 인식될 때 음성 인식 모델에 입력되는 서로 다른 주파수 성분의 신호들 간의 비중을 결정한다. 다른 실시예에서, 음성 인식 장치는 현재 시간에서 음성 인식 모델에 입력되는 음성 프레임의 특징 값을 더 이용하여 어텐션 가중치를 결정할 수도 있다.
또 다른 실시예에서, 음성 인식 장치는 이전 시간에서 뉴럴 네트워크의 하나 이상의 레이어가 출력한 출력 값뿐만 아니라 인식하고자 하는 화자의 정보에 기초하여 결정되는 컨텍스트 값을 더 이용하여 어텐션 가중치를 결정할 수 있다. 컨텍스트 값은 음성 신호에 여러 화자들의 음성이 포함된 경우에 인식하고자 하는 화자의 음성만을 집중해서 인식하고자 할 때 이용될 수 있다. 컨텍스트 값은 예를 들어, 화자의 나이, 성별, 화자에 대한 샘플 음성 또는 화자가 위치한 방향에 관한 정보에 기초하여 결정될 수 있다. 또한, 음성 인식 장치는 컨텍스트 값뿐만 아니라 현재 시간에서 음성 인식 모델에 입력되는 음성 프레임의 특징 값을 더 이용하여 어텐션 가중치를 결정할 수도 있다.
단계(320)에서, 음성 인식 장치는 결정된 어텐션 가중치를 현재 시간의 음성 신호에 적용한다. 음성 인식 장치는 음성 인식 모델에 입력되는 음성 프레임의 각 주파수 성분의 신호에 어텐션 가중치를 적용한다. 어텐션 가중치에 의해 각 주파수 성분별로 음성 인식 모델에 입력되는 신호의 비중이 조절될 수 있고, 이를 통해 음성 인식에서 잡음 성분의 영향을 줄이거나 특정 화자의 음성에 집중하여 음성 인식을 수행할 수 있다.
다른 실시예에 따르면, 음성 인식 모델에 음성 신호에 포함된 복수의 음성 프레임들이 동시에 입력될 수도 있다. 이 경우, 음성 인식 장치는 입력되는 음성 프레임들 각각에 대한 어텐션 가중치들을 결정하고, 결정된 어텐션 가중치들을 어텐션 가중치들 각각에 대응하는 음성 프레임들에 적용할 수 있다.
단계(330)에서, 음성 인식 장치는 음성 인식 모델을 이용하여 어텐션 가중치가 적용된 음성 신호를 인식한다. 일 실시예에서, 음성 인식 모델은 어텐션 가중치가 적용된 음성 신호를 입력받으면, 해당 음성 신호가 나타내는 언어 정보를 음소 단위로 추정하고, 추정 결과를 출력한다.
도 4 및 도 5는 일 실시예에 따른 음성 인식 모델에 기초하여 음성 인식이 수행되는 과정을 설명하기 위한 도면들이다.
도 4를 참조하면, 음성 인식 모델(410)에는 매 시간 단계마다 음성 신호의 특징이 입력된다. 예를 들어, 제1 시간에서 음성 인식 모델(410)에는 음성 신호 Vt-1의 특징이 입력되고, 제2 및 제3 시간에서는 각각 음성 신호 Vt 및 Vt+1의 특징이 음성 인식 모델(410)에 입력될 수 있다. Vt-1, Vt 및 Vt+1은 시간에 따라 순차적으로 음성 인식 모델에 입력되는 음성 프레임들일 수 있다. 음성 신호의 특징은 예를 들어, 스펙트로그램으로부터 추출된 특징 값(예를 들어, 주파수 성분 값), 필터뱅크를 이용하여 추출된 특징 값 및 MFCC의 특징 값을 포함한다.
음성 인식 모델(410)을 형성하는 뉴럴 네트워크는 여러 레이어들(415, 420, 425)을 포함하는데, 레이어들(415, 420)은 히든 레이어들이고, 레이어(425)는 음성 인식 모델(410)의 인식 결과인 Yt-1, Yt, Yt+1를 출력하는 출력 레이어이다. 뉴럴 네트워크는 이전 시간 단계에서 계산된 정보를 현재 시간 단계에서 이용하는 순환형(recurrent) 연결을 가지는 리커런트 뉴럴 네트워크(recurrent neural network)일 수 있다. 순환형 연결에 의해 이전 시간에서 계산된 정보가 현재 시간의 레이어에 입력된다. 예를 들어, 제1 시간에서 레이어(420)로부터 출력된 출력 값은 제1 시간의 다음 시간인 제2 시간에서 다시 레이어(420)에 입력되고, 제2 시간에서 레이어(420)로부터 출력된 출력 값은 다시 제2 시간의 다음 시간은 제3 시간에서 레이어(420)에 입력된다. 레이어(420)는 제1 시간에서 출력된 레이어(420)의 출력 값에 기초하여 제2 시간에서 출력할 값을 계산한다.
음성 인식 모델(410)에 포함되는 가중치 결정기(430)는 뉴럴 네트워크의 상위 레이어로부터 이전 시간의 정보를 피드백 받고, 피드백 받은 정보에 기초하여 음성 신호에 적용될 어텐션 가중치를 적응적으로 결정한다. 예를 들어, 가중치 결정기(430)는 제1 시간에서 뉴럴 네트워크의 레이어들(415, 420, 425) 중 하나 이상의 레이어가 출력한 출력 값을 피드백 받고, 피드백 받은 정보에 기초하여 제2 시간에서 음성 신호 Vt에 적용할 어텐션 가중치를 결정할 수 있다. 어텐션 가중치에 의해 음성 신호 Vt에 포함된 여러 주파수 영역의 신호들 간의 비중이 조절될 수 있다. 가중치 결정기(430)는 이전 시간에서 출력된 뉴럴 네트워크의 히든 레이어의 출력 값 또는 출력 레이어의 출력 값(또는, 음성 인식 모델(410)의 출력 값)을 입력으로 받고, 입력받은 정보에 기초하여 입력되는 음성 신호의 주파수 성분을 동적으로 조절하기 때문에, 사람의 청각계에 존재하는 하행 경로와 같은 역할을 한다. 일 실시예에서, 가중치 결정기(430)는 음성 인식 모델(410)의 뉴럴 네트워크에 포함되는 하나 이상의 레이어로 구성되거나 또는 별도의 뉴럴 네트워크로 형성될 수 있다.
다른 실시예에 따르면, 가중치 결정기(430)는 컨텍스트 값 Ct 현재 시간에서 입력되는 음성 신호 Vt 중 하나 이상을 더 고려하여 어텐션 가중치를 결정할 수 있다. 컨텍스트 값은 인식하고자 하는 화자의 정보(예를 들어, 화자의 나이, 성별, 화자에 대한 샘플 음성 또는 화자가 위치한 방향)에 기초하여 결정될 수 있다.
일 실시예에서, 가중치 결정기(430)는 다음의 수학식 1 및 2에 기초하여 어텐션 가중치를 결정할 수 있다.
Figure pat00001
여기서, Vt 는 현재 시간 t에서 음성 인식 모델(410)에 입력되는 입력 값으로서, 예를 들어 음성 프레임의 주파수 특징 값들일 수 있다.
Figure pat00002
는 이전 시간 t-1에서 히든 레이어들 h1, h2, h3, ... 로부터 출력된 출력 값들(또는 히든 스테이트 값들(hidden state values))이다. St-1 은 이전 시간 t-1에서 출력 레이어로부터 출력된 출력 값이다. 예를 들어, St-1 은 뉴럴 네트워크에 포함된 소프트맥스(softmax) 레이어(예를 들어, 레이어(425))의 출력 값으로서, 이전 음성 프레임에 대한 인식 결과 값(예를 들어, 음소에 대한 확률 값 또는 확률 벡터)일 수 있다. 어텐션 가중치를 결정하기 위해
Figure pat00003
중 하나 이상의 레이어의 출력 값이 이용될 수 있다. Ct 는 인식하고자 한 타겟 화자에 대한 정보를 포함하는 컨텍스트 값으로서, 타겟 화자의 음성에 집중하여 음성 인식을 수행하기 위한 파라미터이다. Ct 는 예를 들어, 타겟 화자의 영상, 목소리, 아이디, 타겟 화자가 위치한 방향에 대한 정보를 포함할 수 있다. 예를 들어, Ct 로서, A라는 화자의 음성에 대한 샘플 정보가 입력되면, 음성 인식 모델(410)은 A의 화자의 음성에 적합한 음성 신호 필터로 기능할 수 있다. 어텐션 가중치를 결정하기 위해 위 파라미터들 중 하나 이상이 이용될 수 있다.
attend()는 위 파라미터들에 기초하여 중간 결과 값 et 를 계산하는 함수이다. 일 예에서, attend()는 뉴럴 네트워크에서 파라미터들이 입력되면 et 를 계산하는 하나 이상의 레이어로 구현될 수 있다.
Figure pat00004
Figure pat00005
는 () 안의 값을 0 부터 1까지의 값 중 어느 하나의 값으로 출력하는 시그모이드 함수(sigmoid function)이다. αt 는 시그모이드 함수에 중간 결과 값 et 을 적용한 결과 값으로서, 어텐션 가중치를 나타낸다. 일 예에서, αt 는 et 는 음성 인식 모델에 입력되는 음성 프레임의 특징 값(입력 벡터)과 같은 차원(dimension)을 가지는 벡터일 수 있다.
수학식 1 및 2에 따르면, 가중치 결정기(430)는 입력된 하나 이상의 파라미터에 기초하여 0 부터 1 사이의 값을 가지는 어텐션 가중치 αt 를 계산한다. 일 예에서, 음성 인식 모델(410)에 입력되는 음성 프레임은 주파수 대역에 따라 여러 채널로 구성될 수 있고, 각 채널마다 대응되는 αt 가 계산될 수 있다.
일 실시예에서, 어텐션 가중치가 음성 신호에 적용되었을 때, 도 4에서 뉴럴 네트워크의 히든 레이어(415)의 출력 값 Ot 는 다음의 수학식 3과 같이 계산될 수 있다.
Figure pat00006
Vt 는 현재 시간 t에서 음성 인식 모델(410)에 입력되는 입력 값이고, αt 는 현재 시간 t에서 가중치 결정기(430)에 의해 결정된 어텐션 가중치이다.
Figure pat00007
는 엘리먼트별 곱셈(element wise multiplication) 연산을 나타낸다. ht-1은 이전 시간 t-1에서 히든 레이어로부터 출력된 출력 값이다. Wf는 하위 레이어와 현재 레이어 사이에 적용되는 포워드 가중치(forward weight)이고, Wr은 ht-1에 적용되는 리커런트 뉴럴 네트워크에서의 리커런트 가중치(recurrent weight)이다. b는 현재 시간 t에서 히든 레이어(415)에 의해 출력된 출력 값 Ot 를 조절하기 위한 바이어스(bias) 값이다.
Figure pat00008
는 시그모이드 함수이다. 뉴럴 네트워크의 학습 과정에서는 αt, Wf, Wr, b가 학습된다.
수학식 3에 따르면, 뉴럴 네트워크의 히든 레이어는 어텐션 가중치가 적용된 음성 신호에 기초하여 상위 레이어에 전달할 출력 값을 계산한다.
다른 실시예에 따르면, 음성 인식 모델(410)에 음성 신호에 포함된 복수의 음성 프레임들이 동시에 입력될 수도 있다. 이 경우, 음성 인식 장치는 입력되는 음성 프레임들 각각에 대한 어텐션 가중치들을 결정하고, 결정된 어텐션 가중치들을 어텐션 가중치들 각각에 대응하는 음성 프레임들에 적용할 수 있다. 음성 인식 모델(410)이 복수의 음성 프레임들을 입력받는 경우, 인접한 시간의 음성 프레임의 컨텍스트까지 고려하여 음성 인식을 수행할 수 있다.
도 5를 참조하면, 가중치 결정기의 기능은 음성 인식 모델(510)의 뉴럴 네트워크에 포함되는 하나 이상의 레이어(515)로 구현될 수 있다. 레이어(515)에는 뉴럴 네트워크의 하나 이상의 레이어가 이전 시간에서 출력한 출력 값, 현재 시간에서 음성 인식 모델에 입력되는 음성 프레임의 특징 값 및 컨텍스트 값 중 하나 이상이 입력될 수 있다. 일 예에서, 레이어(515)는 위 수학식 1 및 2에 따라 어텐션 가중치를 결정할 수 있다. 레이어(515)는 어텐션 가중치를 입력된 음성 신호에 적용하고, 어텐션 가중치가 적용된 음성 신호에 기초하여 레이어(515)의 출력 값을 계산할 수 있다. 레이어(515)의 출력 값은 상위 레이어(520)에 전달되고, 레이어(525) 및 레이어(530)를 거쳐 음성 인식 모델(510)의 인식 결과 Yt 가 결정된다.
도 6은 다른 실시예에 따른 음성 인식 과정을 보다 구체적으로 설명하기 위한 흐름도이다. 도 6의 실시예에서, 음성 인식 장치는 어텐션 가중치를 뉴럴 네트워크의 레이어들 사이에서 전달되는 값에 적용한다. 위에 설명된 도 3에 대한 내용은 아래 도 6에 대한 설명에 적용될 수 있다.
도 6을 참조하면, 단계(610)에서 음성 인식 장치는 음성 인식 모델을 형성하는 뉴럴 네트워크의 하나 이상의 레이어가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정한다. 어텐션 가중치는 뉴럴 네트워크의 현재 레이어의 상위 레이어로 전달되는 현재 레이어의 출력 값의 크기를 조정하는 역할을 한다. 일 실시예에서, 음성 인식 장치는 이전 시간에서 뉴럴 네트워크의 히든 레이어와 출력 레이어 중 하나 이상이 출력한 출력 값에 기초하여 어텐션 가중치를 결정할 수 있다. 다른 실시예에서, 음성 인식 장치는 현재 시간에서 음성 인식 모델에 입력되는 음성 프레임의 특징 값을 더 이용하여 어텐션 가중치를 결정할 수도 있다.
또 다른 실시예에서, 음성 인식 장치는 이전 시간에서 뉴럴 네트워크의 하나 이상의 레이어가 출력한 출력 값뿐만 아니라 인식하고자 하는 화자의 정보에 기초하여 결정되는 컨텍스트 값을 더 이용하여 어텐션 가중치를 결정할 수 있다. 다른 예에서, 음성 인식 장치는 이전 시간에서 뉴럴 네트워크의 하나 이상의 레이어가 출력한 출력 값, 현재 시간의 음성 프레임의 특징 값 및 컨텍스트 값을 모두 이용하여 어텐션 가중치를 결정할 수도 있다.
단계(620)에서, 음성 인식 장치는 결정된 어텐션 가중치를 하나 이상의 레이어가 현재 시간에서 출력한 출력 값에 적용한다. 음성 인식 장치는 어텐션 가중치를 뉴럴 네트워크의 하위 레이어와 상위 레이어 간의 연결 관계들 중 하나 이상에 적용할 수 있다. 어텐션 가중치가 적용되는 경우, 하위 레이어에서 상위 레이어로 전달되는 값의 크기가 어텐션 가중치에 의해 달라질 수 있다. 예를 들어, 어텐션 가중치에 의해 해당 전달되는 값이 0이 되거나 또는 원래의 값의 1/2, 1/4, 또는 1/8 배가 될 수 있다.
어텐션 가중치는 여러 연결 관계에 적용될 수도 있고, 하나의 연결 관계에만 적용될 수도 있다. 어텐션 가중치가 여러 연결 관계에 적용되는 경우, 적용되는 각 어텐션 가중치는 서로 동일할 수도 있고, 서로 다를 수도 있다. 예를 들어, 어텐션 가중치가 한 번 결정되면, 결정된 동일한 값의 어텐션 가중치가 여러 연결 관계에 적용될 수 있다. 또는, 어텐션 가중치가 적용되는 연결 관계마다 적용될 어텐션 가중치가 독립적으로 결정될 수 있고, 이에 따라 적용되는 어텐션 가중치가 연결 관계 사이에서 서로 다를 수 있다.
단계(630)에서, 음성 인식 장치는 음성 신호의 인식 결과를 출력한다. 일 예에서, 인식 결과는 음소에 대한 확률 값 또는 확률 벡터의 정보일 수 있다.
도 7 및 도 8은 다른 실시예에 따른 음성 인식 모델에 기초하여 음성 인식이 수행되는 과정을 설명하기 위한 도면들이다.
도 7을 참조하면, 음성 인식 모델(710)은 현재 시간 t에서 입력된 음성 신호 Vt 에 기초하여 인식 결과 Yt 를 출력한다. 음성 인식 모델(710)을 형성하는 뉴럴 네트워크는 여러 레이어들(715, 720, 730, 735)을 포함한다. 뉴럴 네트워크는 순환형 연결을 가지는 리커런트 뉴럴 네트워크일 수 있다.
도 4에서 설명한 것과 유사하게, 가중치 결정기(740)는 뉴럴 네트워크의 상위 레이어로부터 수신한 이전 시간의 정보에 기초하여 어텐션 가중치를 결정한다. 예를 들어, 가중치 결정기(740)는 이전 시간에서 뉴럴 네트워크의 레이어들(715, 720, 730, 735) 중 하나 이상의 레이어가 출력한 출력 값을 피드백 받고, 피드백 받은 정보에 기초하여 현재 시간에서의 어텐션 가중치를 결정할 수 있다. 예를 들어, 가중치 결정기(740)는 위 수학식 1 및 2에 기초하여 어텐션 가중치를 결정할 수 있다. 이 때, 수학식 1 및 2의 αt 는 et 는 어텐션 가중치가 적용되는 레이어의 출력 값과 같은 차원을 가지는 벡터들일 수 있다.
가중치 결정기(740)는 음성 인식 모델(710)의 뉴럴 네트워크에 포함되는 하나 이상의 레이어로 구성되거나 또는 별도의 뉴럴 네트워크로 형성될 수 있다. 또는, 가중치 결정기(740)는 컨텍스트 값 Ct 및 현재 시간에서 입력되는 음성 신호 Vt 중 하나 이상을 더 고려하여 어텐션 가중치를 결정할 수 있다. 어텐션 가중치를 결정하는 것과 관련하여, 위에 설명된 도 4의 내용이 참조로서 여기에 포함된다.
가중치 결정기(740)에 의해 결정된 어텐션 가중치는 뉴럴 네트워크의 하위 레이어와 상위 레이어 간의 연결 관계들 중 하나 이상에 적용될 수 있다. 도 7에 도시된 실시예에서는, 어텐션 가중치가 레이어(720)의 출력 값에 적용된 후 상위 레이어(730)에 전달된다. 다른 실시예에서는, 어텐션 가중치가 레이어들 사이의 연결 관계마다 적용될 수도 있고, 적용되는 어텐션 가중치들도 서로 다를 수 있다. 어텐션 가중치에 의해 음성 인식에서 특정한(particular) 컴포넌트의 영향을 줄이는 마스킹 기능이 구현될 수 있다.
도 8을 참조하면, 가중치 결정기의 기능은 음성 인식 모델(810)의 뉴럴 네트워크에 포함되는 하나 이상의 레이어(825)로 구현될 수 있다. 현재 시간 t에서 음성 신호 Vt 가 레이어(815)에 입력되면, 레이어들(815, 820)을 거쳐 계산된 값이 레이어(825)에 전달된다. 레이어(825)에는 또한, 뉴럴 네트워크의 하나 이상의 레이어가 이전 시간에서 출력한 출력 값 및 컨텍스트 값 중 하나 이상이 입력될 수 있고, 레이어(825)는 입력된 정보에 기초하여 어텐션 가중치를 결정할 수 있다. 레이어(825)는 어텐션 가중치를 하위 레이어로부터 전달받은 값에 적용한 후 적용된 값을 상위 레이어(830)에 전달할 수 있다. 레이어(830) 및 레이어(835)를 거쳐 음성 인식 모델(810)의 인식 결과 Yt 가 결정된다. 음성 인식 모델(810)의 뉴럴 네트워크는 위 레이어(825)의 기능을 수행하는 레이어를 하나 이상 포함할 수 있다.
도 9는 또 다른 실시예에 따른 음성 인식 과정을 보다 구체적으로 설명하기 위한 흐름도이다. 도 9에 도시된 동작들은 도시된 바와 같이 순차적으로 수행되거나 또는 설명된 실시예들의 범위 및 기술적 사상으로부터 벗어나는 것 없이 동작들의 순서가 변경될 수도 있다. 또한, 도 9에 도시된 동작들은 병렬적으로 또는 동시에 수행될 수도 있다.
도 9를 참조하면, 단계(910)에서 음성 인식 장치는 음성 프레임의 스펙트로그램을 획득한다. 일 예에서, 음성 인식 장치는 푸리에 변환 등을 이용하여 음성 신호를 주파수 영역의 신호로 변환하여 스펙트로그램을 생성하고, 스펙트로그램으로부터 음성 신호의 특징을 추출할 수 있다. 스펙트로그램으로부터 음성 신호의 특징을 추출하는 것과 관련하여, 위에 설명된 도 1의 내용이 참조로서 여기에 포함된다. 단계(920)에서, 음성 인식 장치는 음성 프레임에 적용될 어텐션 가중치를 결정한다. 어텐션 가중치는 결정하는 과정에 대한 설명은 도 1 내지 도 5에 설명된 내용이 참조로서 여기에 포함된다. 단계(930)에서, 음성 인식 장치는 음성 인식 모델을 이용하여 어텐션 가중치가 적용된 음성 프레임을 음소 단위로 인식한다. 음성 인식 장치는 음소 단위의 인식 결과에 기초하여 음성 신호가 나타내는 단어들을 추정할 수 있다.
단계(940)에서, 음성 인식 장치는 현재 음성 프레임이 마지막 음성 프레임인지 여부를 판단한다. 판단 결과, 현재 음성 프레임이 마지막 음성 프레임이면 위 과정을 종료하고, 현재 음성 프레임이 마지막 음성 프레임이 아니면 다음 음성 프레임에 대해 위 단계(910) 내지 단계(940)의 과정을 다시 수행한다.
도 10은 일 실시예에 따른 음성 인식 장치의 구성을 도시한 도면이다.
도 10을 참조하면, 음성 인식 장치(1000)는 메모리(1020) 및 프로세서(1010)를 포함한다. 메모리(1020)는 프로세서(1010)에 의해 실행 가능한 하나 이상의 인스트럭션을 저장한다. 프로세서(1010)는 메모리(1020)에 저장된 하나 이상의 인스트럭션을 실행한다. 프로세서(1010)는 인스트럭션을 실행하는 것에 의해 도 2 내지 도 9와 관련하여 위에서 설명된 하나 이상의 동작을 실행할 수 있다. 프로세서(1010)는 인스트럭션에 따라 뉴럴 네트워크 기반의 음성 인식 모델을 이용하여 음성 신호를 인식한다. 뉴럴 네트워크의 구조 및 동작에 대해서는 도 3, 도 4, 도 7 및 도 8과 관련하여 위에서 설명된 내용이 참조로서 여기에 포함될 수 있다.
일 실시예에 따르면, 프로세서(1010)는 뉴럴 네트워크의 하나 이상의 레이어가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정할 수 있다. 프로세서(1010)는 결정된 어텐션 가중치를 현재 시간의 음성 신호에 적용하고, 음성 인식 모델을 이용하여 위 어텐션 가중치가 적용된 음성 신호를 인식할 수 있다.
다른 실시예에 따르면, 프로세서(1010)는 음성 인식 모델을 이용하여 음성 신호를 인식할 때, 뉴럴 네트워크의 하나 이상 레이어가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정하고, 결정된 어텐션 가중치를 뉴럴 네트워크의 레이어가 현재 시간에서 출력한 출력 값에 적용할 수 있다. 프로세서(1010)는 적용 결과에 기초하여 음성 신호의 인식 결과를 추정할 수 있다.
도 11은 일 실시예에 따른 음성 인식 모델의 학습 방법의 동작을 도시하는 흐름도이다. 도 11의 학습 방법은 트레이닝 장치에 의해 수행될 수 있고, 도 1 내지 도 10의 음성 인식 모델을 학습하는데 적용될 수 있다.
도 11을 참조하면, 단계(1110)에서 트레이닝 장치는 학습 데이터에 적용될 어텐션 가중치를 결정한다. 학습 데이터는 음성 인식 모델의 학습 과정에 이용되는 데이터로서, 음성 신호 및 컨텍스트 값을 포함한다. 일 예에서, 트레이닝 장치는 위 수학식 1 및 2에 따라 어텐션 가중치를 결정할 수 있다.
단계(1120)에서, 트레이닝 장치는 음성 인식 모델을 이용하여 학습 데이터의 인식 결과를 획득한다. 트레이닝 장치는 학습을 위한 음성 신호에 어텐션 가중치를 적용하고, 어텐션 가중치가 적용된 음성 신호를 음성 인식 모델에 입력시킬 수 있다. 일 예에서, 음성 인식 모델은 어텐션 가중치가 적용된 음성 신호에 기초하여 음소 단위의 인식 결과를 출력할 수 있다.
단계(1130)에서, 트레이닝 장치는 단계(1120)의 인식 결과에 기초하여 음성 인식 모델을 학습시킨다. 일 실시예에 따르면, 트레이닝 장치는 감독 학습(supervised learning) 기법을 통해 음성 인식 모델을 학습시킬 수 있다. 예를 들어, 트레이닝 장치는 음성 인식 모델이 학습 데이터에 대응하는 바람직한 인식 결과를 출력하도록 음성 인식 모델의 뉴럴 네트워크를 구성하는 인공 뉴런들 간의 연결 가중치를 업데이트할 수 있다. 트레이닝 장치는 손실 역 전파 학습(back-propagation learning)을 통해 인공 뉴런들 사이의 연결 가중치를 업데이트할 수 있다. 손실 역 전파 학습은, 주어진 학습 데이터에 대해 전방 계산(forward computation)을 통하여 손실을 추정한 후, 뉴럴 네트워크의 출력 레이어에서 시작하여 하위 레이어로 향하는 역 방향으로 추정한 손실을 전파하면서, 손실을 줄이는 방향으로 연결 가중치를 업데이트하는 방법이다. 트레이닝 장치는 현재 설정된 연결 가중치들이 얼마나 최적에 가까운지를 측정하기 위한 목적 함수(objective function)를 정의하고, 목적 함수의 결과에 기초하여 연결 가중치들을 계속 변경하고, 음성 인식 모델의 학습을 반복적으로 수행할 수 있다.
학습 과정은 어텐션 가중치를 결정하는 동작을 학습시키는 과정을 포함한다. 일 실시예에서, 음성 신호의 서로 다른 주파수 성분의 특징 값들이 음성 인식 모델에 입력될 때, 음성 인식 모델은 이전 시간의 정보를 이용하여 현재 시간에서 주파수 성분의 특징 값들 중 어느 주파수 성분의 특징 값을 더 집중적으로 보아야 하는지가 학습될 수 있다. 일 예에서, 트레이닝 장치는 어텐션 가중치가 얼마나 최적에 가까운지를 측정하기 위한 목적 함수를 정의하고, 목적 함수의 결과가 최적에 가까워지도록 어텐션 가중치를 결정하는 레이어의 파라미터들을 계속적으로 업데이트할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (20)

  1. 뉴럴 네트워크 기반의 음성 인식 모델을 이용한 음성 인식 방법에 있어서,
    상기 뉴럴 네트워크의 하나 이상의 레이어가 이전 시간(previous time)에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정하는 단계;
    상기 결정된 어텐션 가중치를 현재 시간의 음성 신호에 적용하는 단계; 및
    상기 음성 인식 모델을 이용하여 상기 어텐션 가중치가 적용된 음성 신호를 인식하는 단계
    를 포함하는 음성 인식 방법.
  2. 제1항에 있어서,
    상기 결정하는 단계는,
    상기 이전 시간에서 상기 뉴럴 네트워크의 히든 레이어 및 출력 레이어 중 하나 이상이 출력한 출력 값에 기초하여 상기 어텐션 가중치를 결정하는, 음성 인식 방법.
  3. 제1항에 있어서,
    상기 결정하는 단계는,
    상기 이전 시간에서 상기 하나 이상의 레이어가 출력한 출력 값 및 인식하고자 하는 화자(speaker)의 정보에 기초하여 결정되는 컨텍스트 값에 기초하여 상기 어텐션 가중치를 결정하는, 음성 인식 방법.
  4. 제1항에 있어서,
    상기 결정하는 단계는,
    상기 이전 시간에서 상기 하나 이상의 레이어가 출력한 출력 값 및 상기 현재 시간에서 상기 음성 인식 모델에 입력되는 음성 프레임의 특징 값에 기초하여 상기 어텐션 가중치를 결정하는, 음성 인식 방법.
  5. 제1항에 있어서,
    상기 음성 신호를 서로 다른 주파수 성분의 신호들로 분리하는 단계
    를 더 포함하고,
    상기 적용하는 단계는,
    상기 결정된 어텐션 가중치를 상기 서로 다른 주파수 성분의 신호들에 대한 특징 값들에 적용하는, 음성 인식 방법.
  6. 제5항에 있어서,
    상기 어텐션 가중치는,
    상기 음성 프레임이 상기 음성 인식 모델에 의해 인식될 때, 상기 음성 인식 모델에 입력되는 상기 서로 다른 주파수 성분의 신호들 간의 비중(weight)을 결정하는, 음성 인식 방법.
  7. 제1항에 있어서,
    상기 결정하는 단계는,
    상기 음성 인식 모델에 상기 음성 신호에 포함된 복수의 음성 프레임들이 입력되는 경우, 상기 음성 프레임들 각각에 대한 어텐션 가중치들을 결정하고,
    상기 적용하는 단계는,
    상기 결정된 어텐션 가중치들을 상기 어텐션 가중치들 각각에 대응하는 음성 프레임들에 적용하는, 음성 인식 방법.
  8. 제1항에 있어서,
    상기 인식하는 단계는,
    상기 음성 인식 모델을 이용하여 상기 어텐션 가중치가 적용된 음성 신호가 나타내는 언어 정보를 추정하는, 음성 인식 방법.
  9. 제1항에 있어서,
    상기 뉴럴 네트워크는,
    리커런트 뉴럴 네트워크(recurrent neural network)인, 음성 인식 방법.
  10. 뉴럴 네트워크 기반의 음성 인식 모델을 이용한 음성 인식 방법에 있어서,
    음선 신호를 수신하는 단계; 및
    상기 음성 인식 모델을 이용하여 상기 음성 신호를 인식하는 단계
    를 포함하고,
    상기 인식하는 단계는,
    상기 뉴럴 네트워크의 하나 이상 레이어가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정하는 단계; 및
    상기 결정된 어텐션 가중치를 상기 뉴럴 네트워크의 레이어가 현재 시간에서 출력한 출력 값에 적용하는 단계
    를 포함하는 음성 인식 방법.
  11. 제10항에 있어서,
    상기 결정하는 단계는,
    상기 이전 시간에서 상기 뉴럴 네트워크의 히든 레이어 및 출력 레이어 중 하나 이상이 출력한 출력 값에 기초하여 상기 어텐션 가중치를 결정하는, 음성 인식 방법.
  12. 제10항에 있어서,
    상기 결정하는 단계는,
    상기 이전 시간에서 상기 하나 이상의 레이어가 출력한 출력 값 및 인식하고자 하는 화자의 정보에 기초하여 결정되는 컨텍스트 값에 기초하여 상기 어텐션 가중치를 결정하는, 음성 인식 방법.
  13. 제10항에 있어서,
    상기 결정하는 단계는,
    상기 이전 시간에서 상기 하나 이상의 레이어가 출력한 출력 값 및 상기 현재 시간에서 상기 음성 인식 모델에 입력되는 음성 프레임의 특징 값에 기초하여 상기 어텐션 가중치를 결정하는, 음성 인식 방법.
  14. 제10항에 있어서,
    상기 어텐션 가중치가 상기 뉴럴 네트워크의 현재 레이어가 출력한 출력 값에 적용되는 경우, 상기 어텐션 가중치에 의해 상기 현재 레이어의 상위 레이어로 전달되는 상기 현재 레이어의 출력 값의 크기가 조정되는, 음성 인식 방법.
  15. 제1항 내지 제14항 중 어느 하나의 항의 방법을 실행하기 위한 인스트럭션들을 저장하는 컴퓨터 판독 가능한 저장 매체.
  16. 뉴럴 네트워크 기반의 음성 인식 모델을 이용한 음성 인식 장치에 있어서,
    프로세서; 및
    상기 프로세서에 의해 실행 가능한 하나 이상의 인스트럭션(instruction)을 저장하는 메모리
    를 포함하고, 상기 하나 이상의 인스트럭션이 상기 프로세서에 의해 실행되면, 상기 프로세서는,
    상기 뉴럴 네트워크의 하나 이상의 레이어가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정하고, 상기 결정된 어텐션 가중치를 현재 시간의 음성 신호에 적용하며, 상기 음성 인식 모델을 이용하여 상기 어텐션 가중치가 적용된 음성 신호를 인식하는, 음성 인식 장치.
  17. 제16항에 있어서,
    상기 뉴럴 네트워크는,
    상기 어텐션 가중치를 결정하기 위한 하나 이상의 레이어를 포함하는, 음성 인식 장치.
  18. 제17항에 있어서,
    상기 어텐션 가중치를 결정하기 위한 하나 이상의 레이어에는, 상기 뉴럴 네트워크의 하나 이상의 레이어가 이전 시간에서 출력한 출력 값, 상기 현재 시간에서 상기 음성 인식 모델에 입력되는 음성 프레임의 특징 값 및 컨텍스트 값 중 적어도 하나가 입력되는, 음성 인식 장치.
  19. 뉴럴 네트워크 기반의 음성 인식 모델을 이용한 음성 인식 장치에 있어서,
    프로세서; 및
    상기 프로세서에 의해 실행 가능한 하나 이상의 인스트럭션을 포함하는 메모리
    를 포함하고, 상기 하나 이상의 인스트럭션이 상기 프로세서에 의해 실행되면, 상기 프로세서는,
    상기 음성 인식 모델을 이용하여 음성 신호를 인식할 때, 상기 뉴럴 네트워크의 하나 이상 레이어가 이전 시간에서 출력한 출력 값에 기초하여 어텐션 가중치를 결정하며, 상기 결정된 어텐션 가중치를 상기 뉴럴 네트워크의 레이어가 현재 시간에서 출력한 출력 값에 적용하고, 상기 적용 결과에 기초하여 상기 음성 신호의 인식 결과를 추정하는, 음성 인식 장치.
  20. 제19항에 있어서,
    상기 뉴럴 네트워크는,
    상기 뉴럴 네트워크의 하나 이상의 레이어가 이전 시간에서 출력한 출력 값, 상기 현재 시간에서 상기 음성 인식 모델에 입력되는 음성 프레임의 특징 값 및 컨텍스트 값 중 적어도 하나에 기초하여 상기 어텐션 가중치를 결정하는 하나 이상의 레이어를 포함하는, 음성 인식 장치.
KR1020170001173A 2017-01-04 2017-01-04 음성 인식 방법 및 음성 인식 장치 KR20180080446A (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020170001173A KR20180080446A (ko) 2017-01-04 2017-01-04 음성 인식 방법 및 음성 인식 장치
US15/808,324 US10679612B2 (en) 2017-01-04 2017-11-09 Speech recognizing method and apparatus
JP2017245280A JP7093626B2 (ja) 2017-01-04 2017-12-21 音声認識方法及び音声認識装置
EP17209617.4A EP3346462B1 (en) 2017-01-04 2017-12-21 Speech recognizing method and apparatus
CN201711462412.7A CN108269569B (zh) 2017-01-04 2017-12-28 语音识别方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170001173A KR20180080446A (ko) 2017-01-04 2017-01-04 음성 인식 방법 및 음성 인식 장치

Publications (1)

Publication Number Publication Date
KR20180080446A true KR20180080446A (ko) 2018-07-12

Family

ID=60781901

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170001173A KR20180080446A (ko) 2017-01-04 2017-01-04 음성 인식 방법 및 음성 인식 장치

Country Status (5)

Country Link
US (1) US10679612B2 (ko)
EP (1) EP3346462B1 (ko)
JP (1) JP7093626B2 (ko)
KR (1) KR20180080446A (ko)
CN (1) CN108269569B (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200113432A (ko) * 2019-03-25 2020-10-07 한국과학기술원 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법
KR20210047709A (ko) * 2019-10-22 2021-04-30 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
WO2021096040A1 (ko) * 2019-11-15 2021-05-20 주식회사 셀바스에이아이 음성 트레이닝 데이터 선별 방법 및 이를 이용하는 장치
KR20220008789A (ko) * 2020-07-14 2022-01-21 고려대학교 산학협력단 신경질환 양방향 모니터링 시스템
WO2022086274A1 (ko) * 2020-10-22 2022-04-28 삼성전자 주식회사 전자 장치 및 이의 제어 방법
WO2023282463A1 (ko) * 2021-07-08 2023-01-12 삼성전자주식회사 전자 장치 및 전자 장치의 화자 인증 방법
WO2024090778A1 (ko) * 2022-10-26 2024-05-02 삼성전자주식회사 오디오 데이터로부터 오디오 객체를 분리하기 위한 전자 장치 및 그 제어 방법

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6736786B2 (ja) * 2017-03-29 2020-08-05 グーグル エルエルシー エンドツーエンドのテキスト音声変換
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN107679618B (zh) * 2017-07-28 2021-06-11 赛灵思电子科技(北京)有限公司 一种静态策略定点化训练方法及装置
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US10311861B1 (en) * 2018-01-15 2019-06-04 Gyrfalcon Technology Inc. System and method for encoding data in a voice recognition integrated circuit solution
CA3020884A1 (en) * 2018-01-24 2019-07-24 Wai Kit Ricky Fok Parallel residual neural network architechture and system and method for trainning a residual neural network
WO2019176986A1 (ja) * 2018-03-15 2019-09-19 日本電気株式会社 信号処理システム、信号処理装置、信号処理方法、および記録媒体
US10937438B2 (en) * 2018-03-29 2021-03-02 Ford Global Technologies, Llc Neural network generative modeling to transform speech utterances and augment training data
CN110209807A (zh) * 2018-07-03 2019-09-06 腾讯科技(深圳)有限公司 一种事件识别的方法、模型训练的方法、设备及存储介质
US10720151B2 (en) 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
CN109256135B (zh) * 2018-08-28 2021-05-18 桂林电子科技大学 一种端到端说话人确认方法、装置及存储介质
CN110931028B (zh) * 2018-09-19 2024-04-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN109147774B (zh) * 2018-09-19 2021-07-20 华南理工大学 一种改进的延时神经网络声学模型
CN110931000B (zh) * 2018-09-20 2022-08-02 杭州海康威视数字技术股份有限公司 语音识别的方法和装置
KR102651413B1 (ko) * 2018-10-17 2024-03-27 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN111091817B (zh) * 2018-10-24 2022-10-11 中国科学院声学研究所 一种基于窗口输入的双向回馈神经网络的语音识别方法
CN109472024B (zh) * 2018-10-25 2022-10-11 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
KR20200059703A (ko) * 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN109448707A (zh) * 2018-12-18 2019-03-08 北京嘉楠捷思信息技术有限公司 一种语音识别方法及装置、设备、介质
JP7160170B2 (ja) * 2019-02-07 2022-10-25 日本電信電話株式会社 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム
JP7028203B2 (ja) * 2019-02-07 2022-03-02 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム
US10803875B2 (en) * 2019-02-08 2020-10-13 Nec Corporation Speaker recognition system and method of using the same
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
KR20200119377A (ko) * 2019-03-25 2020-10-20 삼성전자주식회사 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치
CN110135427B (zh) * 2019-04-11 2021-07-27 北京百度网讯科技有限公司 用于识别图像中的字符的方法、装置、设备和介质
US11170789B2 (en) * 2019-04-16 2021-11-09 Microsoft Technology Licensing, Llc Attentive adversarial domain-invariant training
CN113330511B (zh) * 2019-04-17 2022-04-22 深圳市欢太科技有限公司 语音识别方法、装置、存储介质及电子设备
CN110085249B (zh) * 2019-05-09 2021-03-16 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
WO2020232180A1 (en) * 2019-05-14 2020-11-19 Dolby Laboratories Licensing Corporation Method and apparatus for speech source separation based on a convolutional neural network
CN110299149A (zh) * 2019-06-18 2019-10-01 电子科技大学 一种基于注意力机制的语音增强算法
US11217231B2 (en) 2019-06-19 2022-01-04 Google Llc Contextual biasing for speech recognition using grapheme and phoneme data
CN112242144A (zh) * 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
KR20210010133A (ko) * 2019-07-19 2021-01-27 삼성전자주식회사 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들
CN110556114B (zh) * 2019-07-26 2022-06-17 国家计算机网络与信息安全管理中心 基于注意力机制的通话人识别方法及装置
KR20210014949A (ko) * 2019-07-31 2021-02-10 삼성전자주식회사 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치
JP7306626B2 (ja) * 2019-08-13 2023-07-11 日本電信電話株式会社 予測装置、予測方法及び予測プログラム
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
CN111128117B (zh) * 2019-12-30 2022-03-29 思必驰科技股份有限公司 声码器模型、语音合成方法及装置
JP2021117800A (ja) * 2020-01-28 2021-08-10 株式会社東芝 信号処理装置、信号処理方法およびプログラム
CN111312288A (zh) * 2020-02-20 2020-06-19 阿基米德(上海)传媒有限公司 一种广播音频事件处理方法、系统和计算机可读存储介质
CN111383628B (zh) * 2020-03-09 2023-08-25 第四范式(北京)技术有限公司 一种声学模型的训练方法、装置、电子设备及存储介质
CN111554305B (zh) * 2020-04-26 2023-06-09 兰州理工大学 一种基于语谱图和注意力机制的声纹识别方法
CN111582382B (zh) * 2020-05-09 2023-10-31 Oppo广东移动通信有限公司 状态识别方法、装置以及电子设备
US11678120B2 (en) * 2020-05-14 2023-06-13 Nvidia Corporation Audio noise determination using one or more neural networks
CN112133288A (zh) * 2020-09-22 2020-12-25 中用科技有限公司 一种语音转文字的处理方法、系统及设备
CN112581979B (zh) * 2020-12-10 2022-07-12 重庆邮电大学 一种基于语谱图的语音情绪识别方法
US20220319494A1 (en) * 2021-03-31 2022-10-06 International Business Machines Corporation End to end spoken language understanding model
CN113782051B (zh) * 2021-07-28 2024-03-19 北京中科模识科技有限公司 广播效果分类方法及系统、电子设备和存储介质
CN114596879B (zh) * 2022-03-25 2022-12-30 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质
WO2024036213A1 (en) * 2022-08-09 2024-02-15 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for decoding speech from neural activity
CN115602152B (zh) * 2022-12-14 2023-02-28 成都启英泰伦科技有限公司 一种基于多阶段注意力网络的语音增强方法
CN115631746B (zh) * 2022-12-20 2023-04-07 深圳元象信息科技有限公司 热词识别方法、装置、计算机设备及存储介质
CN116782093B (zh) * 2023-08-28 2023-11-07 深圳市奇创想科技有限公司 便携式音箱的音频调节方法、装置、电子设备及介质
CN117470976B (zh) * 2023-12-28 2024-03-26 烟台宇控软件有限公司 一种基于声纹特征的输电线路缺陷检测方法及系统

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0586714B1 (en) * 1992-03-30 2000-03-08 Seiko Epson Corporation Speech recognition apparatus using neural network, and learning method therefor
US5991726A (en) * 1997-05-09 1999-11-23 Immarco; Peter Speech recognition devices
US20030233233A1 (en) 2002-06-13 2003-12-18 Industrial Technology Research Institute Speech recognition involving a neural network
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9263036B1 (en) 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
JP6222821B2 (ja) 2013-10-10 2017-11-01 日本放送協会 誤り修正モデル学習装置、及びプログラム
US9881631B2 (en) 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
US9286888B1 (en) * 2014-11-13 2016-03-15 Hyundai Motor Company Speech recognition system and speech recognition method
US10832138B2 (en) 2014-11-27 2020-11-10 Samsung Electronics Co., Ltd. Method and apparatus for extending neural network
KR102380833B1 (ko) 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN104700828B (zh) * 2015-03-19 2018-01-12 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN104952448A (zh) 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
JP6628350B2 (ja) * 2015-05-11 2020-01-08 国立研究開発法人情報通信研究機構 リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
JP6614639B2 (ja) * 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US9818409B2 (en) * 2015-06-19 2017-11-14 Google Inc. Context-dependent modeling of phonemes
CN108475505B (zh) * 2015-11-12 2023-03-17 谷歌有限责任公司 使用部分条件从输入序列生成目标序列
US9792534B2 (en) * 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US10366163B2 (en) * 2016-09-07 2019-07-30 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
US11086918B2 (en) * 2016-12-07 2021-08-10 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-label classification
US10607463B2 (en) * 2016-12-09 2020-03-31 The Boeing Company Automated object and activity tracking in a live video feed
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
US10354656B2 (en) * 2017-06-23 2019-07-16 Microsoft Technology Licensing, Llc Speaker recognition

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200113432A (ko) * 2019-03-25 2020-10-07 한국과학기술원 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법
KR20210047709A (ko) * 2019-10-22 2021-04-30 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
WO2021096040A1 (ko) * 2019-11-15 2021-05-20 주식회사 셀바스에이아이 음성 트레이닝 데이터 선별 방법 및 이를 이용하는 장치
KR20220008789A (ko) * 2020-07-14 2022-01-21 고려대학교 산학협력단 신경질환 양방향 모니터링 시스템
WO2022086274A1 (ko) * 2020-10-22 2022-04-28 삼성전자 주식회사 전자 장치 및 이의 제어 방법
WO2023282463A1 (ko) * 2021-07-08 2023-01-12 삼성전자주식회사 전자 장치 및 전자 장치의 화자 인증 방법
WO2024090778A1 (ko) * 2022-10-26 2024-05-02 삼성전자주식회사 오디오 데이터로부터 오디오 객체를 분리하기 위한 전자 장치 및 그 제어 방법

Also Published As

Publication number Publication date
EP3346462A1 (en) 2018-07-11
CN108269569A (zh) 2018-07-10
US20180190268A1 (en) 2018-07-05
JP7093626B2 (ja) 2022-06-30
US10679612B2 (en) 2020-06-09
CN108269569B (zh) 2023-10-27
JP2018109760A (ja) 2018-07-12
EP3346462B1 (en) 2022-06-08

Similar Documents

Publication Publication Date Title
KR20180080446A (ko) 음성 인식 방법 및 음성 인식 장치
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
Zhang et al. Deep learning based binaural speech separation in reverberant environments
CN110288978B (zh) 一种语音识别模型训练方法及装置
Qian et al. Speech Enhancement Using Bayesian Wavenet.
JP7258182B2 (ja) 音声処理方法、装置、電子機器及びコンピュータプログラム
US10089979B2 (en) Signal processing algorithm-integrated deep neural network-based speech recognition apparatus and learning method thereof
US9020822B2 (en) Emotion recognition using auditory attention cues extracted from users voice
US20220172737A1 (en) Speech signal processing method and speech separation method
Takeuchi et al. Real-time speech enhancement using equilibriated RNN
KR20190018278A (ko) 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
JP2019197203A (ja) 音声認識モデルを個人化する方法及び装置
KR101984283B1 (ko) 기계학습모델을 이용한 자동화된 피평가자분석 시스템, 방법, 및 컴퓨터 판독가능매체
CN113257282B (zh) 语音情感识别方法、装置、电子设备以及存储介质
KR102499299B1 (ko) 음성 인식 장치, 프로그램 및 그것의 학습 제어 방법
KR20200025750A (ko) 음성 인식 모델을 개인화하는 방법 및 장치
CN115497500B (zh) 音频处理方法、装置、存储介质及智能眼镜
Salvati et al. A late fusion deep neural network for robust speaker identification using raw waveforms and gammatone cepstral coefficients
Darekar et al. A hybrid meta-heuristic ensemble based classification technique speech emotion recognition
Venkateswarlu et al. Speech recognition by using recurrent neural networks
Sekiguchi et al. Direction-aware adaptive online neural speech enhancement with an augmented reality headset in real noisy conversational environments
González-Salazar et al. Enhancing speech recorded from a wearable sensor using a collection of autoencoders
Xia et al. Ava: An adaptive audio filtering architecture for enhancing mobile, embedded, and cyber-physical systems
CN113763978B (zh) 语音信号处理方法、装置、电子设备以及存储介质
KR20230078376A (ko) 인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal