KR20180071029A - 음성 인식 방법 및 장치 - Google Patents

음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR20180071029A
KR20180071029A KR1020160173746A KR20160173746A KR20180071029A KR 20180071029 A KR20180071029 A KR 20180071029A KR 1020160173746 A KR1020160173746 A KR 1020160173746A KR 20160173746 A KR20160173746 A KR 20160173746A KR 20180071029 A KR20180071029 A KR 20180071029A
Authority
KR
South Korea
Prior art keywords
text
speech
sequence
speech recognition
acquiring
Prior art date
Application number
KR1020160173746A
Other languages
English (en)
Inventor
최준휘
최영상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020160173746A priority Critical patent/KR20180071029A/ko
Priority to US15/597,668 priority patent/US10468030B2/en
Publication of KR20180071029A publication Critical patent/KR20180071029A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Probability & Statistics with Applications (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

음성 인식을 위한 방법 및 장치가 개시된다. 음성 인식 방법은 2 단계의 인식 단계를 포함하고, 제1 인식 단계는 음향 모델과 언어 모델을 사용하며, 제2 인식 단계는 음향 모델과 언어 모델의 구분 없이 음성 인식을 수행할 수 있다. 제2 인식 단계는 제1 인식 단계의 결과의 정확도가 낮은 경우에 수행될 수 있다.

Description

음성 인식 방법 및 장치{METHOD AND APPARATUS FOR SPEECH RECOGNITION}
아래의 설명은 음성 시퀀스로부터 음성을 인식하여 텍스트를 획득하는 기술에 관한 것이다.
음성은 인간이 사용하는 가장 편리한 정보전달의 수단이다. 음성에 의해 전달되는 정보는 인간 사이의 정보 교환뿐만 아니라 인간이 사용하는 기계나 장치를 동작하기 위한 수단으로서도 유용하다. 최근 보다 편리하게 기계나 장치를 동작하기 위한 인터페이스로서 음성 인식이 가능한 인터페이스의 필요성이 대두되고 있다.
일 실시예에 따른 음성 인식 방법은 음향 모델 및 언어 모델을 이용하여 음성을 포함하는 음성 시퀀스로부터 제1 텍스트를 획득하는 단계, 상기 제1 텍스트의 정확도가 미리 설정된 기준을 만족하는지 판단하는 단계 및 상기 제1 텍스트의 정확도가 미리 설정된 기준을 만족하지 못하는 경우, 상기 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 상기 제1 텍스트로부터 제2 텍스트를 획득하는 단계를 포함할 수 있다.
상기 음성 인식 방법은 상기 제1 텍스트의 정확도가 미리 설정된 기준을 만족하는 경우, 상기 제1 테스트를 출력하는 단계를 더 포함할 수 있다.
상기 파라미터는, 상기 음성 시퀀스로부터 추출된 특징 벡터, 상기 음성 시퀀스에 대응하는 상기 음향 모델의 은닉 상태, 상기 음성 시퀀스에 대응하는 상기 언어 모델의 은닉 상태 또는 상기 음성 시퀀스를 포함할 수 있다.
상기 판단하는 단계는, 상기 제1 텍스트의 정확도를 계산하는 단계, 상기 정확도와 상기 미리 설정된 기준을 비교하는 단계를 포함할 수 있다.
상기 계산하는 단계는, 상기 파라미터를 기초로 상기 제1 텍스트의 정확도를 계산할 수 있다.
상기 제2 텍스트를 획득하는 단계는, 상기 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 상기 제1 텍스트를 인코딩하여 컨텍스트를 생성하는 단계, 상기 컨텍스트를 디코딩하여 제2 텍스트를 결정하는 단계를 포함할 수 있다.
상기 제2 텍스트를 결정하는 단계는, 뉴럴 네트워크를 이용하여 상기 컨텍스트로부터 상기 제2 텍스트를 결정할 수 있다.
상기 제1 텍스트를 획득하는 단계는, 상기 음향 모델을 이용하여 상기 음성 시퀀스로부터 발음 시퀀스를 획득하는 단계, 상기 언어 모델을 이용하여 상기 발음 시퀀스로부터 확률 시퀀스를 획득하는 단계 및 상기 확률 시퀀스로부터 제1 텍스트를 생성하는 단계를 포함할 수 있다.
상기 제1 텍스트를 획득하는 단계는, 상기 음성 시퀀스로부터 특징 벡터를 추출하는 단계를 더 포함하고, 상기 발음 시퀀스를 획득하는 단계는, 상기 음향 모델을 이용하여 상기 특징 벡터로부터 발음 시퀀스를 획득할 수 있다.
상기 발음 시퀀스를 획득하는 단계는, 상기 음성 시퀀스를 구성하는 복수의 음성 구간의 상태에 대한 통계적 정보 및 상기 복수의 음성 구간의 상태 사이의 천이에 대한 통계적 정보를 기초로 상기 발음 시퀀스를 획득하고, 상기 음향 모델의 은닉 상태는 상기 복수의 음성 구간의 상태 또는 상기 복수의 음성 구간의 상태 사이의 천이에 관한 정보를 포함할 수 있다.
상기 음향 모델은, 학습 데이터에 의해 사전 학습이 수행된 뉴럴 네트워크를 포함하고, 상기 음향 모델의 은닉 상태는 상기 뉴럴 네트워크의 은닉 계층의 파라미터를 포함할 수 있다.
음향 모델 및 언어 모델을 이용하여 음성 시퀀스로부터 제1 텍스트를 획득하는 단계 및 상기 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 상기 제1 텍스트로부터 제2 텍스트를 획득하는 단계를 포함할 수 있다.
상기 파라미터는, 상기 음성 시퀀스로부터 추출된 특징 벡터, 상기 음성 시퀀스에 대응하는 상기 음향 모델의 은닉 상태, 상기 음성 시퀀스에 대응하는 상기 언어 모델의 은닉 상태 또는 상기 음성 시퀀스를 포함할 수 있다.
일 실시예에 따른 비일시적인(non-transitory) 컴퓨터 판독 가능한 저장 매체는, 컴퓨팅 하드웨어가 상기 방법들 중 어느 하나의 항의 방법을 실행하도록 하는 인스트럭션들을 저장할 수 있다.
일 실시예에 따른 음성 인식 장치는, 적어도 하나의 프로세서 및 상기 프로세서에 의해 실행될 인스트럭션들(instructions)을 저장하는 적어도 하나의 메모리를 포함하고, 상기 인스트럭션들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 음향 모델 및 언어 모델을 이용하여 음성을 포함하는 음성 시퀀스로부터 제1 텍스트를 획득하는 동작, 상기 제1 텍스트의 정확도가 미리 설정된 기준을 만족하는지 판단하는 동작 및 상기 제1 텍스트의 정확도가 미리 설정된 기준을 만족하지 못하는 경우, 상기 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 상기 제1 텍스트로부터 제2 텍스트를 획득하는 동작을 실행하도록 구성될 수 있다.
일 실시예에 따른 음성 인식 장치는, 적어도 하나의 프로세서 및 상기 프로세서에 의해 실행될 인스트럭션들(instructions)을 저장하는 적어도 하나의 메모리를 포함하고, 상기 인스트럭션들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 음향 모델 및 언어 모델을 이용하여 음성 시퀀스로부터 제1 텍스트를 획득하는 동작 및 상기 제1 텍스트를 획득하는 동작에서 생성된 파라미터를 기초로 상기 제1 텍스트로부터 제2 텍스트를 획득하는 동작을 실행하도록 구성될 수 있다.
도 1은 일 실시예에 따른 음성 인식 장치의 전체적인 구성을 도시한 도면이다.
도 2는 일 실시예에 따른 음성 인식 방법의 순서도를 도시한 도면이다.
도 3은 일 실시예에 따른 음성 인식을 위한 과정의 일례를 도시한 도면이다.
도 4는 일 실시예에 따른 음성 인식 장치에 적용될 은닉 마르코프 모델을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 음성 인식 장치에 적용될 뉴럴 네트워크를 설명하기 위해 도시한 도면이다.
도 6은 일 실시예에 따른 제2 인식 단계에 적용될 뉴럴 네트워크를 도시한 도면이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
일 실시예에 따른 음성 인식 방법은 스마트폰, 웨어러블 디바이스 또는 자동차의 유저 인터페이스 등과 같이 사용자와 음성으로 커뮤니케이션이 필요한 전자 제품 또는 번역 서비스 또는 검색 서비스와 같은 소프트웨어 제품 등에 적용될 수 있다. 이하에서, 음성 인식(Speech Recognition)은 STT(Speech-to-Text)를 포함할 수 있다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일 실시예에 따른 음성 인식 장치의 전체적인 구성을 도시한 도면이다.
음성 인식 장치(100)는 음성 인식을 수행하는 장치로서, 음성 인식 장치에 입력된 음성 신호를 인식하여 음성 인식 결과를 출력한다. 음성 인식은 음성 신호에 포함된 언어 정보를 이에 대응되는 텍스트 정보로 변환하는 과정이다. 음성 인식 장치는 입력된 음성 신호를 분석하여 음성 신호에 포함된 언어 정보가 어떠한 텍스트 정보를 나타내는지를 추정할 수 있다. 음성 신호는 음성 시퀀스의 형태를 가질 수 있다.
일 실시예에 따르면, 음성 인식 장치(100)는 모바일 폰, 셀룰러 폰, 스마트 폰, 퍼스널 컴퓨터, 랩탑, 노트북, 넷북 또는 태블릿, 휴대 정보 단말기(personal digital assistant; PDA), 디지털 카메라, 게임 콘솔, MP3 플레이어, 퍼스널 멀티미디어 플레이어(personal multimedia player; PMP), 전자 북(E-Book), 네비게이션, 디스크 플레이어, 셋톱박스, 가정용 전자기기(home appliance), 통신 장치, 디스플레이 장치, 또는 다른 전자기기에 내장되거나 또는 이것들과 상호 동작할 수 있다. 또한, 음성 인식 장치는 스마트 가전 기기, 지능형 차량, 자율 주행 장치, 스마트 홈 환경, 스마트 빌딩 환경, 스마트 오피스 환경, 스마트 전자 보안 시스템 등에 내장되거나 또는 이것들과 상호 동작할 수 있다. 또한, 음성 인식 장치는 사용자의 신체에 착용되는 웨어러블 기기(wearable device)에 포함되어 동작하거나 이것과 상호 독작할 수 있다. 웨어러블 기기는 예를 들어, 반지, 시계, 안경, 팔찌, 벨트, 밴드, 목걸이, 귀걸이, 헬멧 또는 옷의 형태를 가질 수 있다.
일 실시예에 따르면, 음성 인식 장치(100)는 음성 인식을 2단계로 나누어 수행할 수 있다. 음성 인식 장치(100)는 음향 모델과 언어 모델을 이용하여 제1 인식 단계를 수행하고, 제1 인식 단계의 결과의 정확도를 판단하여 정확도가 낮을 경우 음향 모델과 언어 모델을 구분하지 않는 제2 인식 단계를 수행할 수 있다.
여기서, 제1 인식 단계는 음향 모델 및 언어 모델을 이용하여 음성을 포함하는 음성 시퀀스로부터 제1 텍스트를 획득하는 단계를 지칭할 수 있다. 제2 인식 단계는 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 제1 텍스트로부터 제2 텍스트를 획득하는 단계를 지칭할 수 있다.
일 실시예에 따르면, 음성 인식 장치(100)는 입출력 인터페이스(110), 프로세서(120) 및 메모리(130)를 포함할 수 있다.
일 실시예에 따르면, 입출력 인터페이스(110)는 음성을 포함하는 음성 시퀀스를 입력 받을 수 있다. 예를 들어, 입출력 인터페이스(110)는 마이크 등을 포함할 수 있다. 프로세서(120)에 의해 음성 인식이 수행된 후, 입출력 인터페이스(110)는 인식된 음성에 대응되는 텍스트를 출력할 수 있다. 예를 들어, 입출력 인터페이스(110)는 디스플레이 등을 포함할 수 있다.
다른 실시예에 따르면, 입출력 인터페이스(110)는 음성과 함께 영상을 포함하는 멀티미디어 시퀀스를 입력 받을 수 있다. 프로세서(120)는 영상을 이용하여 멀티미디어 시퀀스로부터 더욱 정확하게 음성을 인식할 수 있다. 예를 들어, 영상 에 포함된 사람의 입 모양을 이용하여 더욱 정확한 음성이 인식될 수 있다.
일 실시예에 따르면, 메모리(130)는 입출력 인터페이스(110)로부터 음성 시퀀스 또는 멀티미디어 시퀀스를 전송 받을 수 있다. 메모리(130)는 프로세서(120)에 의해 실행될 인트럭션들(instructions)을 저장할 수 있다. 메모리(130)는 제1 인식 단계 또는 제2 인식 단계의 결과를 저장할 수 있다. 메모리(130)는 제1 인식 단계에서 생성된 파라미터를 저장할 수 있다. 메모리(130)는 제1 인식 단계에서 사용되는 음향 모델 또는 언어 모델에 관한 정보를 포함할 수 있다. 메모리(130)는 제2 인식 단계에서 사용되는 뉴럴 네트워크(Neural Network)에 관한 정보를 포함할 수 있다.
일 실시예에 따르면, 프로세서(120)는 입출력 인터페이스(110)로부터 음성 시퀀스 또는 멀티미디어 시퀀스를 전송 받아 음성 인식을 수행할 수 있다. 프로세서(120)는 2 단계로 나누어 음성 인식을 수행할 수 있다. 프로세서(120)는 제1 인식 단계를 수행하고, 제1 인식 단계의 결과의 정확도를 판단하여 정확도가 낮을 경우 제2 인식 단계를 수행할 수 있다.
제1 인식 단계는 음향 모델(Acoustic Model) 및 언어 모델(Language Model)을 이용하는 음성 인식 단계일 수 있다. 음향 모델은 음소(phone) 또는 아음소(sub-phone) 단위의 음향이 반영되어 생성될 수 있다. 예를 들어, 음향 모델은 음소 또는 아음소 단위의 학습 데이터를 기초로 훈련될 수 있다. 언어 모델은 인식 어휘에 해당하는 음절 또는 단어 등의 언어적인 관계를 반영하여 생성될 수 있다. 예를 들어, 언어 모델은 발음 시퀀스를 학습 데이터로 입력 받아 정확한 순서의 음절 또는 단어 등의 시퀀스에 대응하는 확률 시퀀스를 생성하도록 훈련될 수 있다.
제1 인식 단계는 음향 모델을 이용하여 발음 시퀀스를 생성하는 단계와 언어 모델을 이용하여 발음 시퀀스로부터 확률 시퀀스를 생성하는 단계를 구별함으로써 일반적인 음성 시퀀스에 포함된 음성을 보다 정확하고 빠르게 인식할 수 있다. 다만, 음성 시퀀스에 소음이 많이 포함될 경우 음향 모델의 정확도는 줄어들 수 있다. 또한, 언어 모델로 표현될 수 없는 음절 또는 단어 등의 시퀀스에 대해 언어 모델의 정확도는 줄어들 수 있다.
제2 인식 단계는 음향 모델 및 언어 모델을 구분하지 않는 음성 인식 단계일 수 있다. 음향 모델 및 언어 모델을 이용하지 않으므로, 제2 인식 단계는 발음 시퀀스를 생성하지 않고 음성 시퀀스로부터 바로 확률 시퀀스를 획득할 수 있다. 제2 인식 단계는 뉴럴 네트워크를 이용할 수 있다. 뉴럴 네트워크는 음소 또는 아음소 단위의 학습 데이터에 국한되어 훈련되지 않고 음성 시퀀스 전체를 학습 데이터로 입력 받아 훈련될 수 있으므로 소음 등에 더욱 강인할 수 있다. 또한, 제2 인식 단계에서 인식되는 음성 시퀀스는 언어 모델에 의해 제한되지 않는다. 언어 모델로 표현될 수 없는 음절 또는 단어 등의 시퀀스에 대해서도 비교적 높은 정확도를 유지할 수 있다.
일 실시예에 따르면, 음성 인식 장치(100)는 제1 인식 단계를 수행한 후에 결과의 정확도를 판단하여 제2 인식 단계의 수행 여부를 결정함으로써 제1 인식 단계와 제2 인식 단계의 장점을 결합할 수 있다. 결과의 정확도가 높은 경우, 음성 인식 장치(100)는 제1 인식 단계만 수행함으로써 보다 빠른 음성 인식을 수행할 수 있다. 결과의 정확도가 낮은 경우, 음성 인식 장치(100)는 제2 인식 단계까지 수행함으로써 보다 정확한 음성 인식을 수행할 수 있다.
일 실시예에 따르면, 음성 인식 장치(100)는 정확도의 기준을 조정할 수 있다. 정확도의 기준을 조정함으로써 음성 인식 장치(100)는 사용자가 원하는 수준의 속도 및 정확도를 제공할 수 있다.
도 2는 일 실시예에 따른 음성 인식 방법의 순서도를 도시한 도면이다.
일 실시예에 따르면, 단계(201)에서, 음성 인식 장치(100)는 음향 모델 및 언어 모델을 이용하여 음성을 포함하는 음성 시퀀스로부터 제1 텍스트를 획득할 수 있다. 단계(201)는 제1 인식 단계를 의미할 수 있다.
단계(201)에서, 음성 인식 장치(100)는 제1 텍스트를 획득하기 위하여 음향 모델을 이용하여 음성 시퀀스로부터 발음 시퀀스를 획득할 수 있다. 음성 인식 장치(100)는 언어 모델을 이용하여 발음 시퀀스로부터 확률 시퀀스를 획득할 수 있다. 음성 인식 장치(100)는 확률 시퀀스로부터 제1 텍스트를 생성할 수 있다.
음성 인식 장치(100)는 음성 시퀀스로부터 특징 벡터를 추출한 후, 음향 모델을 이용하여 특징 벡터로부터 발음 시퀀스를 획득할 수 있다. 예를 들어, 음성 인식 장치(100)는 음성 시퀀스를 구성하는 복수의 음성 구간의 상태에 대한 통계적 정보 및 복수의 음성 구간의 상태 사이의 천이에 대한 통계적 정보를 기초로 발음 시퀀스를 획득할 수 있다. 예를 들어, 음향 모델은 은닉 마르코프 모델(Hidden Markov Model, HMM)을 포함할 수 있다. 이 경우에, 음향 모델의 은닉 상태(hidden state)는 복수의 음성 구간의 상태 또는 복수의 음성 구간의 상태 사이의 천이(transition)에 관한 정보를 포함할 수 있다.
음성 인식 장치(100)는 복수의 가우시안(Gaussian) 확률 밀도 함수를 이용하여 음성 시퀀스를 복수의 음성 구간으로 분할할 수 있다. 예를 들어, 음성 인식 장치(100)는 가우시안 혼합 모델(Gaussian Mixture Model, GMM)을 이용할 수 있다.
음향 모델은 학습 데이터에 의해 사전 학습이 수행된 뉴럴 네트워크를 포함할 수 있다. 예를 들어, 음향 모델은 딥 뉴럴 네트워크(Deep Neural Network, DNN)를 포함할 수 있다. 이 경우에, 음향 모델의 은닉 상태는 뉴럴 네트워크의 은닉 계층의 파라미터를 포함할 수 있다.
음성 시퀀스에 제1 음성 구간과 제2 음성 구간이 포함되는 경우, 음성 인식 장치(100)는 제1 음성 구간에 대한 뉴럴 네트워크의 결과를 제2 음성 구간과 함께 뉴럴 네트워크에 입력함으로써 발음 시퀀스를 획득할 수 있다. 예를 들어, 음향 모델은 순환형 뉴럴 네트워크(Recurrent Neural Network, RNN)를 포함할 수 있다.
음성 인식 장치(100)는 언어 모델을 이용하여 발음 시퀀스로부터 확률 시퀀스를 획득할 수 있다. 언어 모델은 특정 언어의 문장 구조를 기초로 특정 문자 마다 특정 문자 이후에 연결될 수 있는 복수의 문자에 관한 정보를 포함할 수 있다. 음성 인식 장치(100)는 발음 시퀀스의 각 발음에 대응하는 문자를 선택할 수 있고, 선택된 문자 이후에 연결되는 문자가 무엇일지 예측할 수 있다. 음성 인식 장치(100)는 각 발음에 대응하는 것으로 선택된 문자 이후에 연결되는 문자의 확률을 고려하여 선택된 문자의 확률을 포함하는 확률 시퀀스를 생성할 수 있다.
음성 인식 장치(100)는 발음 시퀀스를 구성하는 복수의 발음 구간 사이의 확률을 기초로 확률 시퀀스를 생성할 수 있다. 발음 시퀀스는 n 개의 마디를 가지는 윈도우를 이용하여 처리될 수 있다. 여기서 한 마디는 한 개의 발음 구간에 대응될 수 있다. 음성 인식 장치(100)는 n 개의 마디를 가지는 윈도우를 슬라이딩하면서 발음 시퀀스를 분석하여 확률 시퀀스를 생성할 수 있다. 예를 들어, 언어 모델은 n-GRAM 모델을 포함할 수 있다.
음향 모델과 마찬가지로, 언어 모델도 학습 데이터에 의해 사전 학습이 수행된 뉴럴 네트워크를 포함할 수 있다. 예를 들어, 언어 모델은 딥 뉴럴 네트워크를 포함할 수 있다. 이 경우에, 언어 모델의 은닉 상태는 뉴럴 네트워크의 은닉 계층의 파라미터 또는 결과 값을 포함할 수 있다.
음향 모델과 마찬가지로, 언어 모델도 순환형 뉴럴 네트워크를 포함할 수 있다. 발음 시퀀스에 제1 발음 구간과 제2 발음 구간이 포함되는 경우, 음성 인식 장치(100)는 제1 발음 구간에 대한 뉴럴 네트워크의 결과를 제2 발음 구간과 함께 뉴럴 네트워크에 입력함으로써 확률 시퀀스를 획득할 수 있다.
확률 시퀀스로부터 제1 텍스트를 생성하는 것은 디코딩 단계로 지칭될 수 있다. 디코딩 단계에서, 음성 인식 장치(100)는 최적의 확률 시퀀스를 선택할 수 있고, 언어 모델에 포함된 확률과 문자의 관계를 기초로 확률 시퀀스로부터 제1 텍스트를 획득할 수 있다.
일 실시예에 따르면, 단계(203)에서, 음성 인식 장치(100)는 제1 텍스트의 정확도가 미리 설정된 기준을 만족하는지 판단할 수 있다. 음성 인식 장치(100)는 제1 텍스트의 정확도를 계산할 수 있다. 음성 인식 장치(100)는 정확도와 미리 설정된 기준을 비교할 수 있다. 음성 인식 장치(100)는 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 제1 텍스트의 정확도를 계산할 수 있다.
정확도는 미리 설정된 함수 등을 이용하여 계산될 수 있다. 음성 인식 장치(100)는 음성 시퀀스로부터 추출된 특징 벡터, 음성 시퀀스에 대응하는 음향 모델의 은닉 상태, 음성 시퀀스에 대응하는 언어 모델의 은닉 상태 또는 음성 시퀀스를 기초로 제1 텍스트의 정확도를 점수로 나타낼 수 있다.
미리 설정된 기준도 점수로 표현될 수 있다. 미리 설정된 기준은 실시간 음성 인식 서비스에서 요구되는 속도와 정확도 사이에서 적절한 품질을 고려하여 설정될 수 있다.
일 실시예에 따르면, 파라미터는 음성 시퀀스로부터 추출된 특징 벡터, 음성 시퀀스에 대응하는 음향 모델의 은닉 상태, 음성 시퀀스에 대응하는 언어 모델의 은닉 상태 또는 음성 시퀀스를 포함할 수 있다.
일 실시예에 따르면, 단계(205)에서, 음성 인식 장치(100)는 제1 텍스트의 정확도가 미리 설정된 기준을 만족하지 못하는 경우, 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 제1 텍스트로부터 제2 텍스트를 획득할 수 있다. 단계(205)는 제2 인식 단계를 의미할 수 있다.
음성 인식 장치(100)는 인코딩 단계를 수행할 수 있다. 인코딩 단계에서, 음성 인식 장치(100)는 제2 텍스트를 획득하기 위하여 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 제1 텍스트를 인코딩하여 컨텍스트를 생성할 수 있다. 음성 인식 장치(100)는 디코딩 단계를 수행할 수 있다. 디코딩 단계에서, 음성 인식 장치(100)는 컨텍스트를 디코딩하여 제2 텍스트를 결정할 수 있다.
음성 인식 장치(100)는 뉴럴 네트워크를 이용하여 컨텍스트로부터 제2 텍스트를 결정할 수 있다. 예를 들어, 뉴럴 네트워크는 학습 데이터에 의해 사전 학습이 수행되는 딥 뉴럴 네트워크일 수 있다. 예를 들어, 뉴럴 네트워크는 이전의 입력에 대한 뉴럴 네트워크의 결과를 이전의 입력과 함께 뉴럴 네트워크에 입력함으로써 제2 텍스트를 결정하는 순환형 뉴럴 네트워크일 수 있다.
다른 실시예에 따르면, 음성 인식 장치(100)는 제1 인식 단계를 수행한 후 정확도를 판단하지 않고 제2 인식 단계를 수행할 수 있다. 음성 인식 장치(100)는 음향 모델 및 언어 모델을 이용하여 음성 시퀀스로부터 제1 텍스트를 획득한 후, 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 제1 텍스트로부터 제2 텍스트를 획득할 수 있다. 이를 통하여, 음성 인식 장치는 음향 모델 또는 언어 모델로 표현될 수 있는 입력에 대해 높은 정확도를 유지하는 동시에 음향 모델 또는 언어 모델로 표현될 수 없는 입력에 대해서도 높은 정확도를 유지할 수 있다.
도 3은 일 실시예에 따른 음성 인식을 위한 과정의 일례를 도시한 도면이다.
도 3을 참조하면, 음성 인식 장치(100)는 2단계의 음성 인식을 수행할 수 있다. 음성 인식 장치(100)는 제1 인식 단계(320)를 수행하여 제1 텍스트(318) 및 제1 텍스트(318)의 정확도(319)를 획득할 수 있다.
음성 인식 장치(100)는 입출력 인터페이스로부터 전송 받은 음성 시퀀스(311)에 대하여 특징 추출 단계(321)를 수행할 수 있다. 특징 추출 단계(321)에서 음성 인식 장치(100)는 음성 시퀀스(311)로부터 특징 벡터(313)를 추출할 수 있다.
음성 인식 장치(100)는 음성 시퀀스(311)를 특정 프레임 간격으로 분할하고, 각 프레임에서 주파수 대역 별 정보를 획득할 수 있다. 주파수 대역 별 정보는 주파수 대역 별 에너지 분포 등을 포함할 수 있다. 각 프레임의 주파수 대역 별 정보는 수치화될 수 있고, 수치화된 정보로부터 특징 벡터(313)가 획득될 수 있다.
음성 시퀀스(311)가 분할되는 경우, 음성 인식 장치(100)는 가우시안 혼합 모델을 이용하여 유사한 성질을 가지는 구간 별로 음성 시퀀스(311)를 클러스터링하여 분할할 수 있다. 유사한 성질을 가지는 구간으로 클러스터링되기 때문에, 음성 인식 장치(100)는 음향 모델(323)을 적용하기에 더욱 적합한 특징 벡터(313)를 추출할 수 있다.
음성 인식 장치(100)는 음향 모델(323)을 이용하여 특징 벡터로부터 발음 시퀀스(314)를 획득할 수 있다. 발음 시퀀스(314)는 복수의 발음을 포함할 수 있고, 발음은 음소 또는 아음소를 포함할 수 있다. 예를 들어, 음향 모델(323)은 은닉 마르코프 모델 또는 뉴럴 네트워크 등을 포함할 수 있다.
은닉 상태(315)는 음향 모델(323) 내부의 파라미터 또는 결과 값을 의미할 수 있다. 은닉 상태(315)는 음향 모델(323)에 따라 대응되는 정보를 포함할 수 있다. 예를 들어, 음향 모델(323)이 은닉 마르코프 모델인 경우, 은닉 상태(315)는 복수의 음성 구간의 상태 또는 복수의 음성 구간의 상태 사이의 천이에 관한 정보를 포함할 수 있다. 예를 들어, 음향 모델(323)이 뉴럴 네트워크인 경우, 은닉 상태(315)는 뉴럴 네트워크의 은닉 계층의 파라미터 또는 결과 값을 포함할 수 있다.
음성 인식 장치(100)는 언어 모델(325)을 이용하여 발음 시퀀스(314)로부터 확률 시퀀스(316)를 생성할 수 있다. 언어 모델(325)은 특정 문자의 선후에 배치될 수 있는 문자들에 대한 확률을 고려하여 발음 시퀀스(314)에 대응되는 문자간의 연결 관계에 대한 확률 시퀀스(325)를 생성할 수 있다. 음성 인식 장치(100)는 확률 시퀀스(316)를 생성하는 과정에서 언어 모델(325)의 은닉 상태(317)를 생성할 수 있다.
은닉 상태(317)는 언어 모델 내부의 파라미터 또는 결과 값을 의미할 수 있다. 은닉 상태(317)는 언어 모델에 따라 대응되는 정보를 포함할 수 있다. 예를 들어, 파라미터는 n-GRAM 모델 내부의 파라미터 또는 뉴럴 네트워크의 은닉 계층의 파라미터 또는 결과 값을 포함할 수 있다.
디코딩 단계(327)에서 음성 인식 장치(100)는 확률 시퀀스(325)로부터 전체 확률을 계산하여 가장 높은 확률을 가지는 확률 시퀀스(325)를 선택할 수 있다. 음성 인식 장치(100)는 가장 높은 확률을 가지는 확률 시퀀스(325)로부터 제1 텍스트를 획득할 수 있다.
평가 단계(341)에서 음성 인식 장치(100)는 정확도(319)를 기초로 제2 인식 단계(340)를 수행할 지를 결정할 수 있다. 음성 인식 장치(100)는 정확도(319)를 점수로 표현할 수 있다. 음성 인식 장치(100)는 미리 설정된 점수와 정확도(319)를 비교할 수 있다. 정확도(319)가 미리 설정된 점수 이상인 경우, 음성 인식 장치(100)는 제1 텍스트(333)를 최종 결과로 결정할 수 있다. 제1 텍스트(333)는 제1 텍스트(318)와 동일할 수 있다. 이처럼, 제1 텍스트의 정확도가 미리 설정된 기준을 만족하는 경우, 제1 테스트를 최종 결과로 출력할 수 있다.
정확도(319)가 미리 설정된 점수 미만인 경우, 음성 인식 장치(100)는 제2 인식 단계(340)를 수행할 수 있다. 정확도(319)가 미리 설정된 점수 미만인 경우, 음성 인식 장치(100)는 구동 신호(331)를 프로세서로 전송하여, 프로세서로 하여금 인코딩 단계(343)를 수행하도록 명령할 수 있다.
제2 인식 단계(340)에서 음성 인식 장치(100)는 제1 인식 단계(320)에서 생성된 파라미터를 기초로 제1 텍스트(318)를 수정할 수 있다. 인코딩 단계(343)에서 음성 인식 장치(100)는 파라미터를 기초로 제1 텍스트(318)를 인코딩할 수 있다. 여기서, 파라미터는 특징 벡터(313), 은닉 상태(315), 은닉 상태(317) 또는 정확도(319)를 포함할 수 있으나, 이에 한정되지 않고 제1 인식 단계(320)에서 생성된 다른 파라미터도 포함할 수 있다.
제1 인식 단계(320)의 음성 시퀀스(311), 발음 시퀀스(314), 확률 시퀀스(316) 및 제1 텍스트(318)는 시계열적인 시퀀스일 수 있다. 이에 따라, 각 파라미터는 제1 텍스트(318)와 시간적으로 대응될 수 있다. 예를 들어, 제1 텍스트(318)를 구성하는 특정 문자가 시간 t0에 발화된 음성에 대응하는 경우, t0에 대응하는 특징 벡터 또는 은닉 상태가 존재할 수 있다.
인코딩 단계(343)에서 음성 인식 장치(100)는 시계열적인 제1 텍스트(318) 및 그에 대응하는 파라미터를 인코딩하여 시간적 차원이 응축된 컨텍스트(335)를 생성할 수 있다. 컨텍스트(335)는 일종의 벡터일 수 있다.
예를 들어, 음성 인식 장치(100)는 뉴럴 네트워크를 이용할 수 있다. 음성 인식 장치(100)는 뉴럴 네트워크의 입력 계층에 제1 텍스트(318)에 포함된 문자 및 그에 대응하는 파라미터를 순서대로 입력하여 출력 계층으로부터 컨텍스트를 획득할 수 있다.
디코딩 단계(345)에서 음성 인식 장치(100)는 컨텍스트(335)를 해석하여 제2 텍스트(337)를 획득할 수 있다. 예를 들어, 음성 인식 장치(100)는 뉴럴 네트워크를 이용할 수 있다. 음성 인식 장치(100)는 컨텍스트(335)를 뉴럴 네트워크의 입력 계층에 입력한 후, 출력 계층으로부터 획득한 결과를 컨텍스트(335)와 함께 다시 입력 계층에 입력할 수 있다. 음성 인식 장치(100)는 이전의 입력을 결과와 함께 다시 입력하는 과정을 반복함으로써 보다 높은 정확도를 가지는 제2 텍스트를 획득할 수 있다.
도 4는 일 실시예에 따른 음성 인식 장치에 적용될 은닉 마르코프 모델을 설명하기 위한 도면이다.
음성 인식 장치(100)는 음성 시퀀스로부터 특징 벡터를 추출할 수 있다. 음성 인식 장치(100)는 은닉 마르코프 모델을 이용하여 특징 벡터로부터 발음 시퀀스를 획득할 수 있다.
음성 인식 장치(100)는 음성 시퀀스를 복수의 음성 구간으로 분할할 수 있다. 음성 시퀀스는 유사한 특징을 가지는 음성 구간으로 분할될 수 있다. 예를 들어, 음성 인식 장치(100)는 가우시안 혼합 모델을 이용하여 음성 시퀀스를 복수의 음성 구간으로 분할할 수 있다.
은닉 마르코프 모델은 복수의 음성 구간에 대응하는 상태로 구성될 수 있다. 예를 들어, 도 4를 참조하면, 은닉 마르코프 모델은 상태(401), 상태(402), 상태(403) 및 상태(404)를 포함할 수 있다. 은닉 마르코프 모델은 임의의 음성 구간에 대한 통계적 정보를 포함할 수 있다. 통계적 정보는 확률 분포를 포함할 수 있다.
음성 인식 장치(100)는 각 상태에 대하여 관찰 확률 분포를 계산할 수 있다. 관찰 확률 분포는 임의의 음성 구간에 대한 통계적 정보 중에서 각 상태에 대응하는 음성 구간의 특징의 패턴에 대응하는 확률 분포를 의미할 수 있다. 예를 들어, 상태(401), 상태(402), 상태(403) 및 상태(404)는 각각 관찰 확률 분포 b1, b2, b3 및 b4에 대응될 수 있다.
음성 인식 장치(100)는 각 상태 사이의 천이 확률을 계산할 수 있다. 예를 들어, 상태(401)에서 상태(401)로 변화될 확률은 a11으로 표현될 수 있다. 상태(401)에서 상태(402)로 변화될 확률은 a12으로 표현될 수 있다. 이처럼, 음성 인식 장치(100)는 상태(401), 상태(402), 상태(403) 및 상태(404) 사이의 천이 확률인 a11, a22, a33, a44, a12, a23 및 a34를 계산할 수 있다.
음성 인식 장치(100)는 음성 시퀀스를 구성하는 복수의 음성 구간의 상태에 대한 통계적 정보 및 복수의 음성 구간의 상태 사이의 천이에 대한 통계적 정보를 기초로 발음 시퀀스를 획득할 수 있다. 여기서, 음성 구간의 상태에 대한 통계적 정보는 관찰 확률 분포이고, 상태 사이의 천이에 대한 통계적 정보는 천이 확률을 의미할 수 있다. 음성 인식 장치(100)는 관찰 확률 분포 및 천이 확률을 기초로 음성 시퀀스의 특징 벡터에 부합하는 최적의 상태열을 결정할 수 있다. 음성 인식 장치(100)는 결정된 상태열을 디코딩하여 발음 시퀀스를 획득할 수 있다.
도 5는 일 실시예에 따른 음성 인식 장치에 적용될 뉴럴 네트워크를 설명하기 위해 도시한 도면이다.
도 5를 참조하면, 음성 인식 장치(100)에 적용될 뉴럴 네트워크는 입력 계층(510), 은닉 계층(520) 및 출력 계층(530)을 포함할 수 있다. 입력 계층(510), 은닉 계층(520) 및 출력 계층(530)은 각각 복수의 뉴런을 포함할 수 있다.
입력 계층(510)은 입력 데이터가 입력되는 계층을 의미할 수 있다. 여기서, 입력 데이터는 뉴럴 네트워크가 사용되는 단계에 따라 달라질 수 있다. 뉴럴 네트워크가 음향 모델에 적용되는 경우, 입력 데이터는 음성 시퀀스 또는 특징 벡터를 포함할 수 있다. 뉴럴 네트워크가 언어 모델에 적용되는 경우, 입력 데이터는 발음 시퀀스를 포함할 수 있다. 뉴럴 네트워크가 제2 인식 단계에 적용되는 경우, 입력 데이터는 제1 텍스트 및 제1 인식 단계에서 생성된 파라미터를 포함할 수 있다.
은닉 계층(520)은 다시 복수의 계층을 포함할 수 있다. 각 계층에 포함된 노드는 다음 계층에 포함된 하나 이상의 노드와 연결선으로 연결될 수 있다. 각 노드 및 연결선은 고유의 상태값과 속성값을 가질 수 있다. 연결선의 상태값은 가중치로 지칭될 수 있다. 여기서 상태값은 입력되는 데이터에 따라 변화될 수 있으며, 속성값은 변화되지 않을 수 있다.
연결선 전단에 연결된 노드로부터 연결선을 통하여 입력되는 데이터는 연결선 후단에 연결된 노드의 상태값을 갱신하고, 연결선 후단에 연결된 노드에 인접한 노드에 영향을 미칠 수 있다. 입력되는 데이터는 노드에서 처리되어 새로운 데이터를 획득할 수 있다. 이처럼, 입력 데이터는 각 계층의 연결선을 따라 노드 및 연결선의 상태값을 갱신하면서 각 노드에서 처리될 수 있고, 입력 계층(530)에 도달할 수 있다.
음성 인식 장치(100)는 입력 계층(530)에 포함된 노드의 상태값 및 입력 계층(530)에서 처리되어 도출된 데이터를 기초로 결과 데이터를 생성할 수 있다. 여기서, 결과 데이터는 뉴럴 네트워크가 사용되는 단계에 따라 달라질 수 있다. 뉴럴 네트워크가 음향 모델에 적용되는 경우, 결과 데이터는 발음 시퀀스를 포함할 수 있다. 뉴럴 네트워크가 언어 모델에 적용되는 경우, 결과 데이터는 확률 시퀀스를 포함할 수 있다. 뉴럴 네트워크가 제2 인식 단계에 적용되는 경우, 결과 데이터는 제2 텍스트를 포함할 수 있다.
음성 인식 장치(100)는 미리 학습된 뉴럴 네트워크를 사용할 수 있다. 뉴럴 네트워크에 포함된 파라미터 또는 가중치는 학습 데이터를 기초로 학습될 수 있다. 예를 들어, 뉴럴 네트워크가 음향 모델에 적용되는 경우, 음성 시퀀스가 학습 데이터로서 사용될 수 있고, 정확한 발음 시퀀스를 도출할 때까지 뉴럴 네트워크에 포함된 파라미터 또는 가중치가 조정될 수 있다. 뉴럴 네트워크에 포함된 가중치는 무작위로 초기화되는 대신, 비지도 학습(unsupervised learning)을 통해 전처리될 수도 있다.
도 6은 일 실시예에 따른 제2 인식 단계에 적용될 뉴럴 네트워크를 도시한 도면이다.
제2 인식 단계에서, 음성 인식 장치(100)는 음향 모델 및 언어 모델을 구분하지 않고 제1 인식 단계에서 생성된 특징 벡터, 은닉 상태 또는 정확도 등을 기초로 제1 텍스트로부터 제2 테스트를 획득할 수 있다. 이를 위하여, 음성 인식 장치(100)는 뉴럴 네트워크를 이용할 수 있다.
예를 들어, 음성 인식 장치(100)는 순환형 뉴럴 네트워크를 이용할 수 있다. 인코딩 단계는 시계열적으로 수행될 수 있다. 여기서, 컨텍스트는 시계열적으로 압축된 정보를 포함할 수 있다. 예를 들어, 제1 텍스트는 전단부, 중단부 및 후단부로 구분될 수 있다. 단계(601)에서 음성 인식 장치(100)는 입력 계층에 제1 텍스트의 전단부 및 전단부에 대응하는 파라미터를 포함하는 입력(A)를 입력할 수 있다. 단계(602)에서 음성 인식 장치(100)는 제1 텍스트의 중단부 및 중단부에 대응하는 파라미터를 포함하는 입력(B)와 단계(601)의 결과를 입력 계층에 입력할 수 있다. 단계(603)에서 음성 인식 장치(100)는 제1 텍스트의 후단부 및 후단부에 대응하는 파라미터를 포함하는 입력(C)와 단계(602)의 결과를 입력 계층에 입력할 수 있다. 이처럼, 입력(A), 입력(B) 및 입력(C)는 동일한 속성의 입력일 수 있다.
음성 인식 장치(100)는 뉴럴 네트워크를 이용하여 컨텍스트를 디코딩할 수 있다. 디코딩된 결과로서 제2 텍스트가 생성될 수 있다. 도 6을 참조하면, 디코딩 단계는 단계(604), 단계(605), 단계(606) 및 단계(607)를 포함할 수 있다.
예를 들어, 음성 인식 장치(100)는 구동 신호에 반응하여 디코딩 단계를 시작할 수 있다. 도 6의 <go>는 구동 신호를 지칭할 수 있다. 단계(604)에서, 음성 인식 장치(100)는 컨텍스트를 뉴럴 네트워크의 입력 계층에 입력하여 결과(w)를 획득할 수 있다. 단계(605)에서 음성 인식 장치(100)는 컨텍스트를 결과(w)와 함께 입력 계층에 입력하여 결과(w)가 반영된 컨텍스트 및 결과(x)를 획득할 수 있다. 단계(606)에서 음성 인식 장치(100)는 결과(w)가 반영된 컨텍스트 및 결과(x)를 입력 계층에 입력하여 결과(w)와 결과(x)가 반영된 컨텍스트 및 결과(y)를 획득할 수 있다. 단계(607)에서 음성 인식 장치(100)는 결과(w)와 결과(x)가 반영된 컨텍스트 및 결과(y)를 입력 계층에 입력하여 결과(w), 결과(x) 및 결과(y)가 반영된 컨텍스트와 결과(z)를 획득할 수 있다.
일 실시예에 따르면, 음성 인식 장치(100)는 결과(w), 결과(x), 결과(y) 및 결과(z)를 결합하여 제2 택스트를 생성할 수 있다. 여기서, 결과(w), 결과(x), 결과(y) 및 결과(z)는 각각 단어에 대응될 수 있다. 다른 실시예에 따르면, 결과(w), 결과(x), 결과(y) 및 결과(z)는 각각 확률에 대응될 수 있다. 음성 인식 장치(100)는 결과(w), 결과(x), 결과(y) 및 결과(z)로 구성된 확률 시퀀스를 디코딩하여 제2 텍스트를 생성할 수 있다. 여기서 디코딩은 단계(604) 내지 단계(607)과는 상이한 것으로 도 3의 디코딩 단계(327)에 대응할 수 있다.
이처럼, 음성 인식 장치(100)는 출력 계층으로부터 획득한 결과를 이전의 입력과 함께 다시 입력 계층에 입력하는 순환적인 과정을 반복하여 보다 높은 정확도를 가지는 제2 텍스트를 획득할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (15)

  1. 음향 모델 및 언어 모델을 이용하여 음성을 포함하는 음성 시퀀스로부터 제1 텍스트를 획득하는 단계;
    상기 제1 텍스트의 정확도가 미리 설정된 기준을 만족하는지 판단하는 단계; 및
    상기 제1 텍스트의 정확도가 미리 설정된 기준을 만족하지 못하는 경우, 상기 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 상기 제1 텍스트로부터 제2 텍스트를 획득하는 단계
    를 포함하는 음성 인식 방법.
  2. 제1항에 있어서,
    상기 제1 텍스트의 정확도가 미리 설정된 기준을 만족하는 경우, 상기 제1 테스트를 출력하는 단계를 더 포함하는, 음성 인식 방법.
  3. 제1항에 있어서,
    상기 파라미터는,
    상기 음성 시퀀스로부터 추출된 특징 벡터, 상기 음성 시퀀스에 대응하는 상기 음향 모델의 은닉 상태, 상기 음성 시퀀스에 대응하는 상기 언어 모델의 은닉 상태 또는 상기 음성 시퀀스를 포함하는,
    음성 인식 방법.
  4. 제1항에 있어서,
    상기 판단하는 단계는,
    상기 파라미터를 기초로 상기 제1 텍스트의 정확도를 계산하는 단계; 및
    상기 정확도와 상기 미리 설정된 기준을 비교하는 단계
    를 포함하는 음성 인식 방법.
  5. 제1항에 있어서,
    상기 제2 텍스트를 획득하는 단계는,
    상기 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 상기 제1 텍스트를 인코딩하여 컨텍스트를 생성하는 단계; 및
    상기 컨텍스트를 디코딩하여 제2 텍스트를 결정하는 단계를 포함하는,
    음성 인식 방법.
  6. 제5항에 있어서,
    상기 제2 텍스트를 결정하는 단계는,
    뉴럴 네트워크를 이용하여 상기 컨텍스트를 디코딩하는, 음성 인식 방법.
  7. 제1항에 있어서,
    상기 제1 텍스트를 획득하는 단계는,
    상기 음향 모델을 이용하여 상기 음성 시퀀스로부터 발음 시퀀스를 획득하는 단계;
    상기 언어 모델을 이용하여 상기 발음 시퀀스로부터 확률 시퀀스를 획득하는 단계; 및
    상기 확률 시퀀스로부터 제1 텍스트를 생성하는 단계를 포함하는,
    음성 인식 방법.
  8. 제7항에 있어서,
    상기 제1 텍스트를 획득하는 단계는, 상기 음성 시퀀스로부터 특징 벡터를 추출하는 단계를 더 포함하고,
    상기 발음 시퀀스를 획득하는 단계는, 상기 음향 모델을 이용하여 상기 특징 벡터로부터 발음 시퀀스를 획득하는,
    음성 인식 방법.
  9. 제7항에 있어서,
    상기 발음 시퀀스를 획득하는 단계는,
    상기 음성 시퀀스를 구성하는 복수의 음성 구간의 상태에 대한 통계적 정보 및 상기 복수의 음성 구간의 상태 사이의 천이에 대한 통계적 정보를 기초로 상기 발음 시퀀스를 획득하고,
    상기 음향 모델의 은닉 상태는 상기 복수의 음성 구간의 상태 또는 상기 복수의 음성 구간의 상태 사이의 천이에 관한 정보를 포함하는, 음성 인식 방법.
  10. 제7항에 있어서,
    상기 음향 모델은,
    학습 데이터에 의해 사전 학습이 수행된 뉴럴 네트워크를 포함하고,
    상기 음향 모델의 은닉 상태는 상기 뉴럴 네트워크의 은닉 계층의 파라미터를 포함하는, 음성 인식 방법.
  11. 음향 모델 및 언어 모델을 이용하여 음성 시퀀스로부터 제1 텍스트를 획득하는 단계; 및
    상기 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 상기 제1 텍스트로부터 제2 텍스트를 획득하는 단계
    를 포함하는 음성 인식 방법.
  12. 제11항에 있어서,
    상기 파라미터는,
    상기 음성 시퀀스로부터 추출된 특징 벡터, 상기 음성 시퀀스에 대응하는 상기 음향 모델의 은닉 상태, 상기 음성 시퀀스에 대응하는 상기 언어 모델의 은닉 상태 또는 상기 음성 시퀀스를 포함하는,
    음성 인식 방법.
  13. 컴퓨팅 하드웨어가 제1항 내지 제12항 중 어느 하나의 항의 방법을 실행하도록 하는 인스트럭션들을 저장하는 비일시적인(non-transitory) 컴퓨터 판독 가능한 저장 매체.
  14. 적어도 하나의 프로세서; 및
    상기 프로세서에 의해 실행될 인스트럭션들(instructions)을 저장하는 적어도 하나의 메모리를 포함하고,
    상기 인스트럭션들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
    음향 모델 및 언어 모델을 이용하여 음성을 포함하는 음성 시퀀스로부터 제1 텍스트를 획득하는 동작;
    상기 제1 텍스트의 정확도가 미리 설정된 기준을 만족하는지 판단하는 동작; 및
    상기 제1 텍스트의 정확도가 미리 설정된 기준을 만족하지 못하는 경우, 상기 제1 텍스트를 획득하는 단계에서 생성된 파라미터를 기초로 상기 제1 텍스트로부터 제2 텍스트를 획득하는 동작
    을 실행하도록 구성되는 음성 인식 장치.
  15. 적어도 하나의 프로세서; 및
    상기 프로세서에 의해 실행될 인스트럭션들(instructions)을 저장하는 적어도 하나의 메모리를 포함하고,
    상기 인스트럭션들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
    음향 모델 및 언어 모델을 이용하여 음성 시퀀스로부터 제1 텍스트를 획득하는 동작; 및
    상기 제1 텍스트를 획득하는 동작에서 생성된 파라미터를 기초로 상기 제1 텍스트로부터 제2 텍스트를 획득하는 동작
    을 실행하도록 구성되는 음성 인식 장치.
KR1020160173746A 2016-12-19 2016-12-19 음성 인식 방법 및 장치 KR20180071029A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160173746A KR20180071029A (ko) 2016-12-19 2016-12-19 음성 인식 방법 및 장치
US15/597,668 US10468030B2 (en) 2016-12-19 2017-05-17 Speech recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160173746A KR20180071029A (ko) 2016-12-19 2016-12-19 음성 인식 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20180071029A true KR20180071029A (ko) 2018-06-27

Family

ID=62561950

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160173746A KR20180071029A (ko) 2016-12-19 2016-12-19 음성 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US10468030B2 (ko)
KR (1) KR20180071029A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020027619A1 (ko) * 2018-08-02 2020-02-06 네오사피엔스 주식회사 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
CN111681670A (zh) * 2019-02-25 2020-09-18 北京嘀嘀无限科技发展有限公司 信息识别方法、装置、电子设备及存储介质
KR20210001859A (ko) * 2019-06-28 2021-01-06 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 3차원 가상 인물 입모양 변화 제어 방법 및 장치
CN112466294A (zh) * 2020-11-24 2021-03-09 北京百度网讯科技有限公司 声学模型的生成方法、装置及电子设备
WO2022149662A1 (ko) * 2021-01-11 2022-07-14 주식회사 헤이스타즈 입술 모양을 이용한 인공지능 기반 한국어 발음 평가 방법 및 장치
KR102583764B1 (ko) * 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법
US11929059B2 (en) 2018-08-02 2024-03-12 Neosapience, Inc. Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
KR20180124564A (ko) * 2017-05-12 2018-11-21 네이버 주식회사 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN107293296B (zh) * 2017-06-28 2020-11-20 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
US20190147855A1 (en) * 2017-11-13 2019-05-16 GM Global Technology Operations LLC Neural network for use in speech recognition arbitration
CN110148427B (zh) * 2018-08-22 2024-04-19 腾讯数码(天津)有限公司 音频处理方法、装置、系统、存储介质、终端及服务器
CN109273023B (zh) * 2018-09-20 2022-05-17 科大讯飞股份有限公司 一种数据评测方法、装置、设备及可读存储介质
CN111611804A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 危险识别方法、装置、电子设备及存储介质
US11158307B1 (en) * 2019-03-25 2021-10-26 Amazon Technologies, Inc. Alternate utterance generation
CN111862944B (zh) * 2019-04-30 2024-04-02 北京嘀嘀无限科技发展有限公司 语音识别装置、方法、电子设备和计算机可读存储介质
CN110288995B (zh) * 2019-07-19 2021-07-16 出门问问(苏州)信息科技有限公司 基于语音识别的交互方法、装置、存储介质和电子设备
EP3980991B1 (en) 2019-08-13 2024-01-03 Samsung Electronics Co., Ltd. System and method for recognizing user's speech
CN114223029A (zh) * 2019-08-13 2022-03-22 三星电子株式会社 支持装置进行语音识别的服务器及服务器的操作方法
WO2021029643A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
CN110459208B (zh) * 2019-09-09 2022-01-11 中科极限元(杭州)智能科技股份有限公司 一种基于知识迁移的序列到序列语音识别模型训练方法
CN110544470B (zh) * 2019-09-11 2022-03-29 拉扎斯网络科技(上海)有限公司 语音识别方法、装置、可读存储介质和电子设备
CN110795997B (zh) * 2019-09-19 2023-07-28 平安科技(深圳)有限公司 基于长短期记忆的教学方法、装置和计算机设备
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN113112993B (zh) * 2020-01-10 2024-04-02 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质
US20230046763A1 (en) 2020-02-19 2023-02-16 Nec Corporation Speech recognition apparatus, control method, and non-transitory storage medium
CN111724766B (zh) * 2020-06-29 2024-01-05 合肥讯飞数码科技有限公司 语种识别方法、相关设备及可读存储介质
CN112634892B (zh) * 2020-12-17 2023-11-24 北京大米科技有限公司 一种语音处理方法、装置、可读存储介质和电子设备
WO2022203167A1 (en) * 2021-03-25 2022-09-29 Samsung Electronics Co., Ltd. Speech recognition method, apparatus, electronic device and computer readable storage medium
CN113362811B (zh) * 2021-06-30 2023-03-24 北京有竹居网络技术有限公司 语音识别模型的训练方法、语音识别方法和装置
CN114420087B (zh) * 2021-12-27 2022-10-21 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05188998A (ja) 1992-01-17 1993-07-30 Meidensha Corp 音声認識方法
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
KR101394253B1 (ko) 2012-05-16 2014-05-13 광주과학기술원 음성 인식 오류 보정 장치
WO2015102127A1 (ko) 2013-12-31 2015-07-09 엘지전자 주식회사 음성 인식 시스템 및 방법
KR102380833B1 (ko) 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10431240B2 (en) 2015-01-23 2019-10-01 Samsung Electronics Co., Ltd Speech enhancement method and system

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020027619A1 (ko) * 2018-08-02 2020-02-06 네오사피엔스 주식회사 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US11929059B2 (en) 2018-08-02 2024-03-12 Neosapience, Inc. Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
CN111681670A (zh) * 2019-02-25 2020-09-18 北京嘀嘀无限科技发展有限公司 信息识别方法、装置、电子设备及存储介质
CN111681670B (zh) * 2019-02-25 2023-05-12 北京嘀嘀无限科技发展有限公司 信息识别方法、装置、电子设备及存储介质
KR20210001859A (ko) * 2019-06-28 2021-01-06 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 3차원 가상 인물 입모양 변화 제어 방법 및 장치
US11308671B2 (en) 2019-06-28 2022-04-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for controlling mouth shape changes of three-dimensional virtual portrait
CN112466294A (zh) * 2020-11-24 2021-03-09 北京百度网讯科技有限公司 声学模型的生成方法、装置及电子设备
WO2022149662A1 (ko) * 2021-01-11 2022-07-14 주식회사 헤이스타즈 입술 모양을 이용한 인공지능 기반 한국어 발음 평가 방법 및 장치
KR102583764B1 (ko) * 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법
US11972756B2 (en) 2022-06-29 2024-04-30 Actionpower Corp. Method for recognizing the voice of audio containing foreign languages

Also Published As

Publication number Publication date
US10468030B2 (en) 2019-11-05
US20180174589A1 (en) 2018-06-21

Similar Documents

Publication Publication Date Title
KR20180071029A (ko) 음성 인식 방법 및 장치
KR102550932B1 (ko) 음성 인식 모델의 개인화 방법 및 장치
US10733979B2 (en) Latency constraints for acoustic modeling
KR102167719B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
KR102134201B1 (ko) 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체
CN108711421B (zh) 一种语音识别声学模型建立方法及装置和电子设备
Peddinti et al. A time delay neural network architecture for efficient modeling of long temporal contexts.
WO2017218465A1 (en) Neural network-based voiceprint information extraction method and apparatus
US11205420B1 (en) Speech processing using a recurrent neural network
CN111179905A (zh) 一种快速配音生成方法及装置
KR20210047709A (ko) 음성 인식 방법 및 음성 인식 장치
Cardona et al. Online phoneme recognition using multi-layer perceptron networks combined with recurrent non-linear autoregressive neural networks with exogenous inputs
KR20210014949A (ko) 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치
Liu et al. Graph-based semi-supervised acoustic modeling in DNN-based speech recognition
Kimanuka et al. Turkish speech recognition based on deep neural networks
CN114678032B (zh) 一种训练方法、语音转换方法及装置和电子设备
Becerra et al. Speech recognition in a dialog system: From conventional to deep processing: A case study applied to Spanish
Zhang et al. Wake-up-word spotting using end-to-end deep neural network system
US11984126B2 (en) Device for recognizing speech input of user and operating method thereof
KR20210042696A (ko) 모델 학습 방법 및 장치
Chen et al. Discrete Duration Model for Speech Synthesis.
US9953638B2 (en) Meta-data inputs to front end processing for automatic speech recognition
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
Sodanil et al. Thai word recognition using hybrid MLP-HMM
KR20170090815A (ko) 음성 인식 장치 및 이의 동작방법

Legal Events

Date Code Title Description
A201 Request for examination