KR102209689B1 - 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 - Google Patents

음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR102209689B1
KR102209689B1 KR1020150128456A KR20150128456A KR102209689B1 KR 102209689 B1 KR102209689 B1 KR 102209689B1 KR 1020150128456 A KR1020150128456 A KR 1020150128456A KR 20150128456 A KR20150128456 A KR 20150128456A KR 102209689 B1 KR102209689 B1 KR 102209689B1
Authority
KR
South Korea
Prior art keywords
noise
acoustic model
data
training
learning
Prior art date
Application number
KR1020150128456A
Other languages
English (en)
Other versions
KR20170030923A (ko
Inventor
이호식
최희열
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150128456A priority Critical patent/KR102209689B1/ko
Priority to US15/231,909 priority patent/US10127905B2/en
Priority to CN201610803609.1A priority patent/CN106531155B/zh
Priority to EP16187723.8A priority patent/EP3142106B1/en
Priority to JP2016175350A priority patent/JP6751322B2/ja
Publication of KR20170030923A publication Critical patent/KR20170030923A/ko
Application granted granted Critical
Publication of KR102209689B1 publication Critical patent/KR102209689B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법이 개시된다. 일 양상에 따른 음향 모델 생성 장치는, 노이즈 모델을 이용하여 노이즈 데이터를 대표하는 노이즈 표현(noise representation)을 산출하는 노이즈 표현 산출부와, 음성(speech) 데이터와 노이즈 데이터가 혼합된 훈련용 노이지 음성(training noisy speech) 데이터, 음성 데이터에 대응하는 음소열, 및 노이즈 표현을 이용하여 학습을 통해 음향 모델을 생성하는 음향 모델 생성부를 포함할 수 있다.

Description

음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법{Apparatus and method for generating an acoustic model, Apparatus and method for speech recognition}
음성 인식 기술에 관한 것으로, 특히, 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법과 관련된다.
최근의 음성인식 기술은 과거와 비교하여 많은 주목을 받고 있는 상황이다. 그 이유는 음성 인식 기술이 구현될 경우, 인터넷 정보 이용이나 전자 상거래, 각종 유비쿼터스 환경을 보다 편리하게 음성을 통하여 조작할 수 있을 뿐만 아니라, 손을 사용하기 어려운 차량 운행 등과 같은 경우에도 인터넷을 액세스한다든가 사무나 기타 서비스를 이용할 수 있게 되어, 사용자의 다양한 니즈(needs)를 충족 시켜줄 수 있기 때문이다.
음성 인식 기술에서 중요한 문제 중의 하나는 주변 환경에 의해 발생하는 노이즈를 효율적으로 제거하는 것이다. 이러한 주변 환경에 의해 생성된 노이즈로 인해 발생되는, 훈련 환경과 실제 음성 인식 환경간의 불일치는 음성 인식 시스템의 음성 인식 성능을 저하시키는 주요 원인 중의 하나이다.
따라서, 다양한 노이즈를 포함하는 실제 음성 인식 환경에서 사용될 수 있는 노이즈에 강건한(robust) 음향 모델 생성 기술의 필요성이 대두된다.
노이즈에 강건한 음향 모델 생성 장치 및 방법과, 노이즈에 강건한 음향 모델을 이용하는 음성 인식 장치 및 방법을 제공하는 것을 목적으로 한다.
일 양상에 따른 음향 모델 생성 장치는, 노이즈 모델을 이용하여 노이즈 데이터를 대표하는 노이즈 표현(noise representation)을 산출하는 노이즈 표현 산출부와, 음성(speech) 데이터와 노이즈 데이터가 혼합된 훈련용 노이지 음성(training noisy speech) 데이터, 음성 데이터에 대응하는 음소열, 및 노이즈 표현을 이용하여 학습을 통해 음향 모델을 생성하는 음향 모델 생성부를 포함할 수 있다.
노이즈 표현 산출부는 노이즈 데이터의 특징(feature)을 추출하는 특징 추출부와, 노이즈 모델을 이용하여 추출된 특징으로부터 노이즈 데이터를 대표하는 노이즈 표현을 산출하는 노이즈 모델링부를 포함할 수 있다.
노이즈 모델은 다수의 훈련용 노이즈(training noise) 데이터를 이용하여 Auto-encoder를 통하여 미리 생성될 수 있다.
음향 모델은 신경망 기반 음향 모델일 수 있다.
음향 모델 생성부는 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 음향 모델을 생성할 수 있다.
음향 모델 생성부는 음소 확률을 맞추게 학습하는 제1 목적함수와 노이즈 표현(noise representation)을 맞추게 학습하는 제2 목적함수의 가중합으로 나타나는 제3 목적함수를 이용하여 음향 모델을 생성할 수 있다.
음향 모델 생성부는 음성 데이터와 상기 노이즈 데이터를 혼합하여 훈련용 노이지 음성 데이터를 생성하는 혼합부와, 생성된 훈련용 노이지 음성 데이터의 특징을 추출하는 특징 추출부와, 추출된 훈련용 노이지 음성 데이터의 특징을 입력 데이터로 하고, 음성 데이터에 대응하는 음소열 및 노이즈 표현을 정답(target) 데이터로 하여 음향 모델을 학습하는 음향 모델 학습부를 포함할 수 있다.
다른 양상에 따른 음향 모델 생성 방법은, 노이즈 모델을 이용하여 노이즈 데이터를 대표하는 노이즈 표현(noise representation)을 산출하는 단계와, 음성(speech) 데이터와 노이즈 데이터가 혼합된 훈련용 노이지 음성(training noisy speech) 데이터, 음성 데이터에 대응하는 음소열, 및 노이즈 표현을 이용하여 학습을 통해 음향 모델을 생성하는 단계를 포함할 수 있다.
노이즈 표현을 산출하는 단계는 노이즈 데이터의 특징(feature)을 추출하는 단계와, 노이즈 모델을 이용하여 추출된 노이즈 데이터의 특징으로부터 노이즈 데이터를 대표하는 노이즈 표현을 산출하는 단계를 포함할 수 있다.
노이즈 모델은 다수의 훈련용 노이즈(training noise) 데이터를 이용하여 Auto-encoder를 통하여 미리 생성될 수 있다.
음향 모델은 신경망 기반 음향 모델일 수 있다.
음향 모델을 생성하는 단계는 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 음향 모델을 생성할 수 있다.
음향 모델을 생성하는 단계는 음소 확률을 맞추게 학습하는 제1 목적함수와 노이즈 표현(noise representation)을 맞추게 학습하는 제2 목적함수의 가중합으로 나타나는 제3 목적함수를 이용하여 음향 모델을 생성할 수 있다.
음향 모델을 생성하는 단계는 음성 데이터와 노이즈 데이터를 혼합하여 훈련용 노이지 음성 데이터를 생성하는 단계와, 생성된 훈련용 노이지 음성 데이터의 특징을 추출하는 단계와, 추출된 훈련용 노이지 음성 데이터의 특징을 입력 데이터로 하고, 음성 데이터에 대응하는 음소열 및 노이즈 표현을 정답(target) 데이터로 하여 음향 모델을 학습하는 단계를 포함할 수 있다.
다른 양상에 따른 음성 인식 장치는 음향 모델을 저장하는 저장부와, 저장된 음향 모델을 이용하여 입력된 노이지 음성 데이터의 음소 확률을 산출하는 산출부를 포함하고, 음향 모델은 음성(speech) 데이터와 노이즈 데이터가 혼합된 훈련용 노이지 음성(training noisy speech) 데이터, 음성 데이터에 대응하는 음소열, 및 노이즈 데이터를 대표하는 노이즈 표현(noise representation)을 이용하여 학습을 통해 생성될 수 있다.
산출부는, 입력된 노이지 음성 데이터의 특징을 추출하는 특징 추출부와, 음향 모델을 이용하여 추출된 특징에 대응하는 음소의 확률을 산출하는 음소 확률 산출부를 포함할 수 있다.
노이즈 표현은 노이즈 모델을 이용하여 산출될 수 있다.
노이즈 모델은 다수의 훈련용 노이즈(training noise) 데이터를 이용하여 Auto-encoder를 통하여 미리 생성될 수 있다.
음향 모델은 신경망 기반 음향 모델일 수 있다.
음향 모델은 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 생성될 수 있다.
음향 모델은 음소 확률을 맞추게 학습하는 제1 목적함수와 노이즈 표현(noise representation)을 맞추게 학습하는 제2 목적함수의 가중합으로 나타나는 제3 목적함수를 이용하여 생성될 수 있다.
음향 모델은 상기 훈련용 노이지 음성 데이터를 입력 데이터로 하고, 음성 데이터에 대응하는 음소열 및 노이즈 표현을 정답(target) 데이터로 하여 학습을 통해 생성될 수 있다.
다른 양상에 따른 음성 인식 방법은 입력된 노이지 음성(noisy speech) 데이터의 특징을 추출하는 단계와, 음향 모델을 이용하여 추출된 특징에 대응하는 음소의 확률을 산출하는 단계를 포함하고, 음향 모델은 음성(speech) 데이터와 노이즈 데이터가 혼합된 훈련용 노이지 음성(training noisy speech), 음성 데이터에 대응하는 음소열, 및 노이즈 데이터를 대표하는 노이즈 표현(noise representation)을 이용하여 학습을 통해 생성될 수 있다.
노이즈 표현은 노이즈 모델을 이용하여 산출될 수 있다.
노이즈 모델은 다수의 훈련용 노이즈(training noise) 데이터를 이용하여 Auto-encoder를 통하여 미리 생성될 수 있다.
음향 모델은 신경망 기반 음향 모델일 수 있다.
음향 모델은 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 생성될 수 있다.
음향 모델은 음소 확률을 맞추게 학습하는 제1 목적함수와 노이즈 표현(noise representation)을 맞추게 학습하는 제2 목적함수의 가중합으로 나타나는 제3 목적함수를 이용하여 생성될 수 있다.
음향 모델은 훈련용 노이지 음성 데이터를 입력 데이터로 하고, 음성 데이터에 대응하는 음소열 및 노이즈 표현을 정답(target) 데이터로 하여 학습을 통해 생성될 수 있다.
미리 생성된 노이즈 모델을 이용하여 노이즈의 표현(representation)을 산출하여 음향 모델의 학습에 이용함으로써 노이즈에 강건한(robust) 음향 모델을 생성할 수 있다.
노이즈에 강건한 음향 모델을 이용하여 음성 인식을 수행함으로써 음성 인식 성능을 향상시킬 수 있다.
도 1은 음향 모델 생성 장치의 일 실시예를 도시한 블록도이다.
도 2는 노이즈 모델의 생성을 설명하기 위한 예시도이다.
도 3은 음향 모델의 생성을 설명하기 위한 예시도이다.
도 4는 음성 인식 장치의 일 실시예를 도시한 블록도이다.
도 5는 음향 모델 생성 방법의 일 실시예를 도시한 흐름도이다.
도 6은 도 5의 노이즈 표현을 산출하는 단계(510)의 상세 흐름도이다.
도 7은 도 5의 음향 모델을 생성하는 단계(520)의 상세 흐름도이다.
도 8은 음성 인식 방법의 일 실시예를 도시한 흐름도이다.
도 9는 노이즈 모델 생성 장치의 일 실시예를 도시한 도면이다.
도 10은 노이즈 모델 생성 방법의 일 실시예를 도시한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 음향 모델 생성 장치의 일 실시예를 도시한 블록도이다.
도 1을 참조하면, 음향 모델 생성 장치(100)는 입력부(110), 노이즈 표현 산출부(120) 및 음향 모델 생성부(130)를 포함할 수 있다.
입력부(110)는 음향 모델 생성을 위한 훈련용 음성 데이터(training speech data)(이하, 음향 모델 훈련용 음성 데이터) 및 훈련용 노이즈 데이터(training noise data)(이하, 음향 모델 훈련용 노이즈 데이터)를 입력 받을 수 있다.
노이즈 표현 산출부(120)는 미리 생성된 노이즈 모델을 이용하여 음향 모델 훈련용 노이즈 데이터를 대표하는 노이즈 표현(noise representation)을 산출할 수 있다. 이를 위해 노이즈 표현 산출부(120)는 특징 추출부(121), 노이즈 모델 저장부(122) 및 노이즈 모델링부(123)를 포함할 수 있다.
특징 추출부(121)는 소정의 알고리즘을 이용하여 음향 모델 훈련용 노이즈 데이터의 특징을 추출할 수 있다. 이때, 소정의 알고리즘은 음향 모델 훈련용 노이즈 데이터를 다른 노이즈 데이터로부터 식별할 수 있도록 하는 특징을 추출할 수 있는 것이라면 그 종류와 기능에 제한은 없다.
노이즈 모델 저장부(122)는 노이즈 모델을 저장할 수 있다. 이때, 노이즈 모델은 다수의 훈련용 노이즈 데이터(training noise data)(이하, 노이즈 모델 훈련용 노이즈 데이터)를 이용하여 Auto-encoder를 통하여 미리 학습 및 생성될 수 있다. 이때, 노이즈 모델 훈련용 노이즈 데이터는 음향 모델 생성에 사용되는 음향 모델 훈련용 노이즈 데이터를 포함하는 모든 노이즈 데이터를 포함할 수 있다.
노이즈 모델 저장부(122)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어, SD 또는 XD 메모리 등), 램(Random Access Memory: RAM) SRAM(Static Random Access Memory), 롬(Read-Only Memory: ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
한편, 도 1은 노이즈 모델 저장부(122)가 노이즈 표현 산출부(120)의 내부에 포함되어 있는 것으로 도시되어 있으나, 이에 한정되는 것은 아니다. 다시 말하면, 노이즈 모델 저장부(122)는 노이즈 표현 산출부(120)의 내부에 구현되는 것도 가능하며 노이즈 표현 산출부(120)의 외부의 별개의 구성요소로서 구현되는 것도 가능하다.
노이즈 모델링부(123)는 노이즈 모델 저장부(122)에 저장된 노이즈 모델을 이용하여, 특징 추출부(121)에서 추출된 음향 모델 훈련용 노이즈 데이터의 특징으로부터 음향 모델 훈련용 노이즈 데이터를 대표하는 노이즈 표현을 산출할 수 있다.
노이즈 모델의 생성 및 이용에 관한 자세한 설명은 도 2를 참조하여 후술하기로 한다.
음향 모델 생성부(130)는 음향 모델 훈련용 음성 데이터, 음향 모델 훈련용 노이즈 데이터, 음향 모델 훈련용 음성 데이터에 대응하는 음소열, 및 음향 모델 훈련용 노이즈 데이터의 노이즈 표현을 기반으로 학습을 통해 음향 모델을 생성할 수 있다. 일 실시예에 따르면, 음향 모델 생성부(130)는 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 음향 모델을 생성할 수 있다. 이를 위해, 음향 모델 생성부(130)는 혼합부(131), 특징 추출부(132) 및 음향 모델 학습부(133)를 포함할 수 있다.
혼합부(131)는 음향 모델 훈련용 음성 데이터 및 음향 모델 훈련용 노이즈 데이터를 혼합하여 훈련용 노이지 음성 데이터(training noisy speech data)(이하, 음향 모델 훈련용 노이지 음성 데이터)를 생성할 수 있다.
특징 추출부(132)는 소정의 알고리즘을 이용하여 음향 모델 훈련용 노이지 음성 데이터의 특징을 추출할 수 있다. 전술한 바와 같이, 소정의 알고리즘은 음향 모델 훈련용 노이지 음성 데이터를 다른 노이지 음성 데이터로부터 식별할 수 있도록 하는 특징을 추출할 수 있는 것이라면 그 종류와 기능에 제한은 없다.
음향 모델 학습부(133)는 음향 모델 훈련용 노이지 음성 데이터의 특징을 입력 데이터로 하고, 음향 모델 훈련용 음성 데이터에 대응하는 음소열 및 음향 모델 훈련용 노이즈 데이터의 노이즈 표현을 정답 데이터로 하여 음향 모델을 학습할 수 있다. 다시 말하면, 음향 모델 학습부(133)는 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 음향 모델이 음소 분류(phoneme classification)와 노이즈 표현(noise representation) 추출을 동시에 수행할 수 있도록 음향 모델을 학습할 수 있다.
이때, 음향 모델은 신경망(Neural Network) 기반 음향 모델일 수 있으나, 이에 한정되는 것은 아니다.
한편, 신경망 기반 음향 모델의 경우 복수의 히든 레이어를 포함할 수 있으며, 전형적인 오류역전파 기법을 이용하여 학습될 수 있다.
일 실시예에 따르면, 음향 모델 학습부(133)는 수학식 1의 목적 함수(objective function)를 이용하여 음향 모델을 학습할 수 있다.
Figure 112015088222675-pat00001
여기서,
Figure 112015088222675-pat00002
는 음소 확률을 맞추도록 학습하는 목적 함수(이하, 제1 목적 함수)이고,
Figure 112015088222675-pat00003
는 노이즈 표현을 맞추도록 학습하는 목적 함수(이하, 제2 목적 함수)이다.
수학식 1에서 알 수 있듯이, 음향 모델 학습에 이용되는 목적 함수는 제1 목적 함수와 제2 목적 함수의 가중합(weighted sum)의 형태로 나타난다.
일 실시예에 따르면, 제1 목적 함수
Figure 112015088222675-pat00004
는 멀티-클래스 분류(multi-class classification)에 주로 사용되는 cross-entropy를 이용할 수 있다. 이를 수학식으로 표현하면 수학식 2와 같다.
Figure 112015088222675-pat00005
여기서,
Figure 112015088222675-pat00006
는 출력 클래스(output class)의 개수(예컨대, 음소의 개수)를 나타낸다.
Figure 112015088222675-pat00007
는 정답 클래스인 경우 1을, 정답 클래스가 아닌 경우 0의 값을 갖는다.
일 실시예에 따르면, 제2 목적 함수
Figure 112015088222675-pat00008
는 회귀(regression)에 주로 사용되는 유클리드 거리(Euclidian distance)를 이용할 수 있다. 이를 수학식으로 표현하면 수학식 3과 같다.
Figure 112015088222675-pat00009
여기서,
Figure 112015088222675-pat00010
는 입력 (출력) 특징의 차원(the dimension of input (output) feature)을 나타내며,
Figure 112015088222675-pat00011
는 p번째 입력 노드들의 활성화 값(activation value of pth input nodes)을 나타내며,
Figure 112015088222675-pat00012
는 p번째 출력 노드들의 활성화 값(activation value of pth output nodes)을 나타낸다.
한편, 도 1은 음향 모델 생성 장치(100)가 입력부(110) 및 노이즈 모델 저장부(122)를 포함하는 것으로 도시되어 있으나, 입력부(110) 및 노이즈 모델 저장부(122)는 필수 구성이 아니며, 시스템의 성능 및 용도에 따라 생략 가능하다.
도 2는 노이즈 모델의 생성을 설명하기 위한 예시도이다. 도시된 예의 노이즈 모델은 Auto-encoder 기반 노이즈 모델을 나타낸다.
일 실시예에 따르면, 노이즈 모델은 Auto-encoder를 통하여 학습될 수 있다. Auto-encoder는 복수개의 히든 레이어(hidden layer)를 포함하며, filterbank와 같은 특징을 입력으로 받아 입력으로부터 입력의 표현(representation)(210)을 산출하고, 표현(210)으로부터 입력과 최대한 유사한 출력을 재구성하도록 학습된다.
일 실시예에 따르면, Auto-encoder 기반 노이즈 모델은 수학식 4와 같은 목적 함수를 이용하여 학습될 수 있다.
Figure 112015088222675-pat00013
여기서,
Figure 112015088222675-pat00014
는 입력을 나타내며,
Figure 112015088222675-pat00015
는 출력을 나타낸다. K는 음향 모델 훈련용 노이즈 데이터 샘플 인덱스를 나타낸다. 즉, Auto-encoder 기반 노이즈 모델은 출력이 입력을 재구성하도록 훈련된다.
일 실시예에 따르면, Auto-encoder는 중간의 히든 레이어의 노드의 개수가 입력/출력의 차원(dimension)보다 작거나, 또는 L1 norm과 같이 sparseness를 주는 제약(constraint)이 필요하다. 예컨대, 123개의 filterbank (41 dim static filterbank + delta + delta-delta)가 입력되는 경우, Auto-encoder의 중간의 히든 레이어(특히, 노이즈 표현 부분의 레이어)의 노드의 개수는 이보다 작은 40개로 할 수 있다. 이러한 Auto-encoder를 통해, 차원 축소(dimension reduction)와 동일한 효과를 얻을 수 있으며, 입력으로부터 입력을 대표하는 표현을 산출할 수 있도록 학습하게 된다.
Auto-encoder는 입력을 표현으로 바꿔주는 인코더 부분(220)과 표현을 다시 출력으로 바꿔주는 디코더 부분(230)을 포함한다. 노이즈 모델은 학습된 Auto-encoder에서 디코더 부분(230)을 제거함으로써 생성될 수 있다. 즉, 노이즈 모델은 학습된 Auto-encoder의 인코더 부분(220)만으로 구성될 수 있다.
도 3은 음향 모델의 생성을 설명하기 위한 예시도이다.
도 1 및 도 3을 참조하면, 특징 추출부(121)는 음향 모델 훈련용 노이즈 데이터(310)를 수신하여 음향 모델 훈련용 노이즈 데이터(310)의 특징(fbank_noise)을 추출한다.
노이즈 모델링부(123)는 미리 생성된 노이즈 모델(340)을 이용하여 특징(fbank_noise)으로부터 음향 모델 훈련용 노이즈 데이터(310)에 대응하는 노이즈 표현(350)을 산출한다.
혼합부(131)는 음향 모델 훈련용 음성 데이터(320)와 음향 모델 훈련용 노이즈 데이터(310)를 혼합하여 음향 모델 훈련용 노이지 음성 데이터(330)를 생성한다.
특징 추출부(132)는 음향 모델 훈련용 노이지 음성 데이터(330)를 수신하여 음향 모델 훈련용 노이지 음성 데이터(330)의 특징(fbank_noisy_speech)를 추출한다.
음향 모델 학습부(133)는 특징(fbank_noisy_speech)을 입력 데이터로 하고, 음향 모델 훈련용 음성 데이터에 대응하는 음소열 및 음향 모델 훈련용 노이즈 데이터의 노이즈 표현(350)을 정답 데이터로 하여 음향 모델(370)을 학습한다. 다시 말하면, 음향 모델 학습부(133)는 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 음향 모델(370)이 음소 분류(phoneme classification)(260)와 노이즈 표현(noise representation)(350) 추출을 동시에 수행할 수 있도록 음향 모델(370)을 학습한다.
도 4는 음성 인식 장치의 일 실시예를 도시한 블록도이다.
도 4를 참조하면, 일 실시예에 따른 음성 인식 장치(400)는 입력부(410), 음향 모델 저장부(420) 및 산출부(430)를 포함할 수 있다.
입력부(410)는 음성 인식의 대상이 되는 음성 데이터와 노이즈 데이터가 혼합된 노이지 음성 데이터를 입력 받을 수 있다.
음향 모델 저장부(420)는 미리 학습되어 생성된 음향 모델을 저장할 수 있다. 이때, 음향 모델은 도 1의 음향 모델 생성 장치(100)에서 생성된 음향 모델일 수 있다.
자세하게는, 음향 모델은 음향 모델 훈련용 음성 데이터, 음향 모델 훈련용 노이즈 데이터, 음향 모델 훈련용 음성 데이터에 대응하는 음소열, 및 음향 모델 훈련용 노이즈 데이터의 노이즈 표현을 기반으로 학습을 통해 생성된 음향 모델일 수 있다. 이때, 노이즈 표현은 노이즈 모델을 이용하여 산출될 수 있으며, 노이즈 모델은 다수의 노이즈 모델 훈련용 노이즈 데이터를 기반으로 Auto-encoder를 통해 생성될 수 있다.
음향 모델은 신경망 기반 음향 모델로서 멀티 태스크 러닝 기법을 이용하여 생성된 음향 모델일 수 있다. 다시 말하면, 음향 모델은 음향 모델 훈련용 음성 데이터와 음향 모델 훈련용 노이즈 데이터가 혼합된 음향 모델 훈련용 노이지 음성 데이터의 특징을 입력 데이터로 하고, 음향 모델 훈련용 음성 데이터에 대응하는 음소열 및 음향 모델 훈련용 노이즈 데이터의 노이즈 표현을 정답 데이터로 하여 학습을 통해 생성된 음향 모델일 수 있다. 이때, 음향 모델은 수학식 1 내지 3의 목적 함수를 이용하여 학습될 수 있다.
음향 모델 저장부(420)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어, SD 또는 XD 메모리 등), 램(Random Access Memory: RAM) SRAM(Static Random Access Memory), 롬(Read-Only Memory: ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
산출부(430)는 음향 모델 저장부(420)에 저장된 음향 모델을 이용하여 입력된 노이지 음성 데이터의 음소 확률을 산출할 수 있다. 이를 위해, 산출부(430)는 특징 추출부(431) 및 음소 확률 산출부(432)를 포함할 수 있다.
특징 추출부(431)는 소정의 알고리즘을 이용하여 입력된 노이지 음성 데이터의 특징을 추출할 수 있다. 전술한 바와 같이, 소정의 알고리즘은 노이지 음성 데이터를 다른 노이지 음성 데이터로부터 식별할 수 있도록 하는 특징을 추출할 수 있는 것이라면 그 종류와 기능에 제한은 없다.
음소 확률 산출부(432)는 음향 모델 저장부(420)에 저장된 음향 모델을 이용하여 특징 추출부(431)에서 추출된 노이지 음성 데이터의 특징에 대응하는 음소의 확률을 산출할 수 있다.
한편, 도 4는 음성 인식 장치(400)가 입력부(410) 및 음향 모델 저장부(420)를 포함하는 것으로 도시되어 있으나, 입력부(410) 및 노이즈 모델 저장부(420)는 필수 구성이 아니며, 시스템의 성능 및 용도에 따라 생략 가능하다.
도 5는 음향 모델 생성 방법의 일 실시예를 도시한 흐름도이다.
도 1 및 도 5를 참조하면, 음향 모델 생성 장치(100)가 미리 생성된 노이즈 모델을 이용하여 음향 모델 훈련용 노이즈 데이터를 대표하는 노이즈 표현을 산출한다(510).
여기서, 노이즈 모델은 다수의 노이즈 모델 훈련용 노이즈 데이터를 이용하여 Auto-encoder를 통하여 미리 학습 및 생성될 수 있다. 이때, 노이즈 모델 훈련용 노이즈 데이터는 음향 모델 생성에 사용되는 음향 모델 훈련용 노이즈 데이터를 포함하는 모든 노이즈 데이터를 포함할 수 있다.
노이즈 모델의 생성에 관한 구체적인 내용은 도 2를 참조하여 전술하였으므로 그 상세한 설명은 생략하기로 한다.
그 후, 음향 모델 생성 장치(100)가 음향 모델 훈련용 음성 데이터, 음향 모델 훈련용 노이즈 데이터, 음향 모델 훈련용 음성 데이터에 대응하는 음소열, 및 음향 모델 훈련용 노이즈 데이터의 노이즈 표현을 기반으로 학습을 통해 음향 모델을 생성한다(520).
도 6은 도 5의 노이즈 표현을 산출하는 단계(510)의 상세 흐름도이다.
도 1 및 도 6을 참조하면, 음향 모델 생성 장치(100)가 소정의 알고리즘을 이용하여 음향 모델 훈련용 노이즈 데이터의 특징을 추출한다(610). 이때, 소정의 알고리즘은 음향 모델 훈련용 노이즈 데이터를 다른 노이즈 데이터로부터 식별할 수 있도록 하는 특징을 추출할 수 있는 것이라면 그 종류와 기능에 제한은 없다.
그 후, 음향 모델 생성 장치(100)가 노이즈 모델을 이용하여, 추출된 음향 모델 훈련용 노이즈 데이터의 특징으로부터 음향 모델 훈련용 노이즈 데이터를 대표하는 노이즈 표현을 산출한다(620).
도 7은 도 5의 음향 모델을 생성하는 단계(520)의 상세 흐름도이다.
도 1 및 도 7을 참조하면, 음향 모델 생성 장치(100)가 음향 모델 훈련용 음성 데이터 및 음향 모델 훈련용 노이즈 데이터를 혼합하여 음향 모델 훈련용 노이지 음성 데이터를 생성한다(710).
그 후, 음향 모델 생성 장치(100)가 소정의 알고리즘을 이용하여 음향 모델 훈련용 노이지 음성 데이터의 특징을 추출한다(720). 전술한 바와 같이, 소정의 알고리즘은 음향 모델 훈련용 노이지 음성 데이터를 다른 노이지 음성 데이터로부터 식별할 수 있도록 하는 특징을 추출할 수 있는 것이라면 그 종류와 기능에 제한은 없다.
그 후, 음향 모델 생성 장치(100)가 음향 모델 훈련용 노이지 음성 데이터의 특징을 입력 데이터로 하고, 음향 모델 훈련용 음성 데이터에 대응하는 음소열 및 음향 모델 훈련용 노이즈 데이터의 노이즈 표현을 정답 데이터로 하여 음향 모델을 학습한다(730). 다시 말하면, 음향 모델 생성 장치(133)는 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 음향 모델이 음소 분류(phoneme classification)와 노이즈 표현(noise representation) 추출을 동시에 수행할 수 있도록 음향 모델을 학습할 수 있다.
이때, 음향 모델은 신경망(Neural Network) 기반 음향 모델일 수 있으나, 이에 한정되는 것은 아니다.
한편, 신경망 기반 음향 모델의 경우 복수의 히든 레이어를 포함할 수 있으며, 전형적인 오류역전파 기법을 이용하여 학습될 수 있다.
일 실시예에 따르면, 음향 모델 생성 장치(100)는 수학식 1 내지 3의 목적 함수를 이용하여 음향 모델을 학습할 수 있다.
도 8은 음성 인식 방법의 일 실시예를 도시한 흐름도이다.
도 4 및 도 8을 참조하면, 음성 인식 장치(400)가 소정의 알고리즘을 이용하여 입력된 노이지 음성 데이터의 특징을 추출한다(810). 전술한 바와 같이, 소정의 알고리즘은 노이지 음성 데이터를 다른 노이지 음성 데이터로부터 식별할 수 있도록 하는 특징을 추출할 수 있는 것이라면 그 종류와 기능에 제한은 없다.
그 후, 음성 인식 장치(400)가 음향 모델을 이용하여 추출된 노이지 음성 데이터의 특징에 대응하는 음소의 확률을 산출한다(820).
여기서, 음향 모델은 음향 모델 훈련용 음성 데이터, 음향 모델 훈련용 노이즈 데이터, 음향 모델 훈련용 음성 데이터에 대응하는 음소열, 및 음향 모델 훈련용 노이즈 데이터의 노이즈 표현을 기반으로 학습을 통해 생성된 음향 모델일 수 있다. 이때, 노이즈 표현은 노이즈 모델을 이용하여 산출될 수 있으며, 노이즈 모델은 다수의 노이즈 모델 훈련용 노이즈 데이터를 기반으로 Auto-encoder를 통해 생성될 수 있다.
음향 모델은 신경망 기반 음향 모델로서 멀티 태스크 러닝 기법을 이용하여 생성된 음향 모델일 수 있다. 다시 말하면, 음향 모델은 음향 모델 훈련용 음성 데이터와 음향 모델 훈련용 노이즈 데이터가 혼합된 음향 모델 훈련용 노이지 음성 데이터의 특징을 입력 데이터로 하고, 음향 모델 훈련용 음성 데이터에 대응하는 음소열 및 음향 모델 훈련용 노이즈 데이터의 노이즈 표현을 정답 데이터로 하여 학습을 통해 생성된 음향 모델일 수 있다. 이때, 음향 모델은 수학식 1 내지 3의 목적 함수를 이용하여 학습될 수 있다.
도 9는 노이즈 모델 생성 장치의 일 실시예를 도시한 도면이다.
도 9를 참조하면, 노이즈 모델 생성 장치(900)는 학습부(910) 및 제거부(920)를 포함할 수 있다.
학습부(910)는 다수의 훈련용 노이즈 데이터를 이용하여 Auto-encoder를 학습할 수 있다. 이때, Auto-encoder는 입력을 표현으로 바꿔주는 인코더 부분과 표현을 다시 출력으로 바꿔주는 디코더 부분을 포함한다.
일 실시예에 따르면, 학습부(910)는 수학식 4의 목적 함수를 이용하여 Auto-encoder를 학습할 수 있다.
생성부(920)는 학습된 Auto-encoder의 디코더 부분을 제거하여 노이즈 모델을 생성할 수 있다.
도 10은 노이즈 모델 생성 방법의 일 실시예를 도시한 흐름도이다.
도 9 및 도 10을 참조하면, 노이즈 모델 생성 장치(900)는 다수의 훈련용 노이즈 데이터를 이용하여 Auto-encoder를 학습한다(1010). 이때, Auto-encoder는 입력을 표현으로 바꿔주는 인코더 부분과 표현을 다시 출력으로 바꿔주는 디코더 부분을 포함한다.
일 실시예에 따르면, 노이즈 모델 생성 장치(900)는 수학식 4의 목적 함수를 이용하여 Auto-encoder를 학습할 수 있다.
그 다음, 노이즈 모델 생성 장치(900)는 학습된 Auto-encoder의 디코더 부분을 제거하여 노이즈 모델을 생성한다(1020).
본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
100: 음향 모델 생성 장치
110, 410: 입력부
120: 노이즈 표현 산출부
130: 음향 모델 생성부
121, 132, 431: 특징 추출부
122: 노이즈 모델 저장부
123: 노이즈 모델링부
131: 혼합부
133: 음향 모델 학습부
400: 음성 인식 장치
420: 음향 모델 저장부
430: 산출부
432: 음소 확률 산출부
900: 노이즈 모델 생성 장치
910: 학습부
920: 생성부

Claims (29)

  1. 노이즈 데이터의 특징(feature)을 추출하고 노이즈 모델을 이용하여 상기 추출된 특징으로부터 노이즈 데이터를 대표하는 노이즈 표현(noise representation)을 산출하는 노이즈 표현 산출부;
    음성(speech) 데이터와 상기 노이즈 데이터를 혼합하여 훈련용 노이지 음성(training noisy speech) 데이터를 생성하고, 상기 생성된 훈련용 노이지 음성 데이터의 특징을 추출하고, 상기 추출된 훈련용 노이지 음성 데이터의 특징을 입력 데이터로 하고, 상기 음성 데이터에 대응하는 음소열, 및 상기 노이즈 표현을 정답(target) 데이터로 하여 학습을 통해 음향 모델을 생성하되, 상기 음소열의 분류와 상기 노이즈 표현 추출을 동시에 수행할 수 있도록 상기 음향 모델을 학습하는 음향 모델 생성부; 를 포함하는 음향 모델 생성 장치.
  2. 삭제
  3. 제1 항에 있어서,
    상기 노이즈 모델은 다수의 훈련용 노이즈(training noise) 데이터를 이용하여 Auto-encoder를 통하여 미리 생성되는 음향 모델 생성 장치.
  4. 제1 항에 있어서,
    상기 생성된 음향 모델은 신경망 기반 음향 모델인 음향 모델 생성 장치.
  5. 제1 항에 있어서,
    상기 음향 모델 생성부는 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 상기 음향 모델을 생성하는 음향 모델 생성 장치.
  6. 제5 항에 있어서,
    상기 음향 모델 생성부는 음소 확률을 맞추게 학습하는 제1 목적함수와 노이즈 표현(noise representation)을 맞추게 학습하는 제2 목적함수의 가중합으로 나타나는 제3 목적함수를 이용하여 상기 음향 모델을 생성하는 음향 모델 생성 장치.
  7. 삭제
  8. 노이즈 데이터의 특징(feature)을 추출하고 노이즈 모델을 이용하여 상기 추출된 특징으로부터 상기 노이즈 데이터를 대표하는 노이즈 표현(noise representation)을 산출하는 단계;
    음성(speech) 데이터와 상기 노이즈 데이터를 혼합하여 훈련용 노이지 음성(training noisy speech) 데이터를 생성하는 단계;
    상기 생성된 훈련용 노이지 음성 데이터의 특징을 추출하는 단계;
    상기 추출된 훈련용 노이지 음성 데이터의 특징을 입력 데이터로 하고, 상기 음성 데이터에 대응하는 음소열, 및 상기 노이즈 표현을 정답(target) 데이터로 하여 학습을 통해 음향 모델을 생성하는 단계; 를 포함하고,
    상기 음소열의 분류와 상기 노이즈 표현 추출을 동시에 수행할 수 있도록 상기 음향 모델을 학습하는 음향 모델 생성 방법.
  9. 삭제
  10. 제8 항에 있어서,
    상기 노이즈 모델은 다수의 훈련용 노이즈(training noise) 데이터를 이용하여 Auto-encoder를 통하여 미리 생성되는 음향 모델 생성 방법.
  11. 제8 항에 있어서,
    상기 생성된 음향 모델은 신경망 기반 음향 모델인 음향 모델 생성 방법.
  12. 제8 항에 있어서,
    상기 음향 모델을 생성하는 단계는 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 상기 음향 모델을 생성하는 음향 모델 생성 방법.
  13. 제12 항에 있어서,
    상기 음향 모델을 생성하는 단계는 음소 확률을 맞추게 학습하는 제1 목적함수와 노이즈 표현(noise representation)을 맞추게 학습하는 제2 목적함수의 가중합으로 나타나는 제3 목적함수를 이용하여 상기 음향 모델을 생성하는 음향 모델 생성 방법.
  14. 삭제
  15. 음향 모델을 저장하는 저장부; 및
    상기 저장된 음향 모델을 이용하여 입력된 노이지 음성 데이터의 음소 확률을 산출하는 산출부; 를 포함하고,
    상기 음향 모델은 음성(speech) 데이터와 노이즈 데이터가 혼합된 훈련용 노이지 음성(training noisy speech) 데이터, 상기 음성 데이터에 대응하는 음소열, 및 상기 노이즈 데이터를 대표하는 노이즈 표현(noise representation)을 이용하여 학습을 통해 생성되고,
    상기 음향 모델은 상기 훈련용 노이지 음성 데이터를 입력 데이터로 하고, 상기 음성 데이터에 대응하는 음소열 및 상기 노이즈 표현을 정답(target) 데이터로 하여 학습을 통해 생성하되, 상기 음소열의 분류와 상기 노이즈 표현 추출을 동시에 수행할 수 있도록 상기 음향 모델을 학습하는 음성 인식 장치.
  16. 제15 항에 있어서,
    상기 산출부는,
    상기 입력된 노이지 음성 데이터의 특징을 추출하는 특징 추출부; 및
    상기 음향 모델을 이용하여 상기 추출된 특징에 대응하는 음소의 확률을 산출하는 음소 확률 산출부; 를 포함하는 음성 인식 장치.
  17. 제15 항에 있어서,
    상기 노이즈 표현은 노이즈 모델을 이용하여 산출되는 음성 인식 장치.
  18. 제17 항에 있어서,
    상기 노이즈 모델은 다수의 훈련용 노이즈(training noise) 데이터를 이용하여 Auto-encoder를 통하여 미리 생성되는 음성 인식 장치.
  19. 제15 항에 있어서,
    상기 음향 모델은 신경망 기반 음향 모델인 음성 인식 장치.
  20. 제15 항에 있어서,
    상기 음향 모델은 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 생성되는 음성 인식 장치.
  21. 제20 항에 있어서,
    상기 음향 모델은 음소 확률을 맞추게 학습하는 제1 목적함수와 노이즈 표현(noise representation)을 맞추게 학습하는 제2 목적함수의 가중합으로 나타나는 제3 목적함수를 이용하여 생성되는 음성 인식 장치.
  22. 삭제
  23. 입력된 노이지 음성(noisy speech) 데이터의 특징을 추출하는 단계; 및
    음향 모델을 이용하여 상기 추출된 특징에 대응하는 음소의 확률을 산출하는 단계; 를 포함하고,
    상기 음향 모델은 음성(speech) 데이터와 노이즈 데이터가 혼합된 훈련용 노이지 음성(training noisy speech), 상기 음성 데이터에 대응하는 음소열, 및 상기 노이즈 데이터를 대표하는 노이즈 표현(noise representation)을 이용하여 학습을 통해 생성되고,
    상기 음향 모델은 상기 훈련용 노이지 음성 데이터를 입력 데이터로 하고, 상기 음성 데이터에 대응하는 음소열 및 상기 노이즈 표현을 정답(target) 데이터로 하여 학습을 통해 생성하되, 상기 음소열의 분류와 상기 노이즈 표현 추출을 동시에 수행할 수 있도록 상기 음향 모델을 학습하는 음성 인식 방법.
  24. 제23 항에 있어서,
    상기 노이즈 표현은 노이즈 모델을 이용하여 산출되는 음성 인식 방법.
  25. 제24 항에 있어서,
    상기 노이즈 모델은 다수의 훈련용 노이즈(training noise) 데이터를 이용하여 Auto-encoder를 통하여 미리 생성되는 음성 인식 방법.
  26. 제23 항에 있어서,
    상기 음향 모델은 신경망 기반 음향 모델인 음성 인식 방법.
  27. 제23 항에 있어서,
    상기 음향 모델은 멀티 태스크 러닝(Multi-Task Learning) 기법을 이용하여 생성되는 음성 인식 방법.
  28. 제27 항에 있어서,
    상기 음향 모델은 음소 확률을 맞추게 학습하는 제1 목적함수와 노이즈 표현(noise representation)을 맞추게 학습하는 제2 목적함수의 가중합으로 나타나는 제3 목적함수를 이용하여 생성되는 음성 인식 방법.
  29. 삭제
KR1020150128456A 2015-09-10 2015-09-10 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 KR102209689B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020150128456A KR102209689B1 (ko) 2015-09-10 2015-09-10 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
US15/231,909 US10127905B2 (en) 2015-09-10 2016-08-09 Apparatus and method for generating acoustic model for speech, and apparatus and method for speech recognition using acoustic model
CN201610803609.1A CN106531155B (zh) 2015-09-10 2016-09-05 生成声学模型的设备和方法和用于语音识别的设备和方法
EP16187723.8A EP3142106B1 (en) 2015-09-10 2016-09-08 Apparatus and method for generating acoustic model, and apparatus and method for speech recognition
JP2016175350A JP6751322B2 (ja) 2015-09-10 2016-09-08 音響モデル生成装置及び方法、音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150128456A KR102209689B1 (ko) 2015-09-10 2015-09-10 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170030923A KR20170030923A (ko) 2017-03-20
KR102209689B1 true KR102209689B1 (ko) 2021-01-28

Family

ID=56888976

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150128456A KR102209689B1 (ko) 2015-09-10 2015-09-10 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법

Country Status (5)

Country Link
US (1) US10127905B2 (ko)
EP (1) EP3142106B1 (ko)
JP (1) JP6751322B2 (ko)
KR (1) KR102209689B1 (ko)
CN (1) CN106531155B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024019265A1 (ko) * 2022-07-18 2024-01-25 삼성전자주식회사 학습 데이터를 획득하기 위한 로봇 및 이의 제어 방법

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
KR102218046B1 (ko) * 2017-11-28 2021-02-22 한국전자통신연구원 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及系统
CN108416096B (zh) * 2018-02-01 2022-02-25 北京百度网讯科技有限公司 基于人工智能的远场语音数据信噪比估计方法及装置
KR20190136578A (ko) 2018-05-31 2019-12-10 삼성전자주식회사 음성 인식 방법 및 장치
CN109192216A (zh) * 2018-08-08 2019-01-11 联智科技(天津)有限责任公司 一种声纹识别用训练数据集仿真获取方法及其获取装置
CN109243429B (zh) * 2018-11-21 2021-12-10 苏州奇梦者网络科技有限公司 一种语音建模方法及装置
JP6733752B1 (ja) 2019-02-08 2020-08-05 トヨタ自動車株式会社 内燃機関のノッキング検出装置およびノッキング検出方法
KR102321798B1 (ko) * 2019-08-15 2021-11-05 엘지전자 주식회사 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스
CN110570845B (zh) * 2019-08-15 2021-10-22 武汉理工大学 一种基于域不变特征的语音识别方法
CN110473557B (zh) * 2019-08-22 2021-05-28 浙江树人学院(浙江树人大学) 一种基于深度自编码器的语音信号编解码方法
JP6733795B1 (ja) * 2019-09-24 2020-08-05 トヨタ自動車株式会社 内燃機関の点火時期制御装置
US20220335964A1 (en) * 2019-10-15 2022-10-20 Nec Corporation Model generation method, model generation apparatus, and program
KR20210119181A (ko) 2020-03-24 2021-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR20220115453A (ko) * 2021-02-10 2022-08-17 삼성전자주식회사 음성 구간 인식의 향상을 지원하는 전자 장치
WO2023283965A1 (zh) * 2021-07-16 2023-01-19 华为技术有限公司 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质
GB2624832A (en) * 2021-11-16 2024-05-29 Landmark Graphics Corp Random noise attenuation for seismic data
CN115116458B (zh) * 2022-06-10 2024-03-08 腾讯科技(深圳)有限公司 语音数据转换方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004206063A (ja) 2002-10-31 2004-07-22 Seiko Epson Corp 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0566015A3 (en) 1992-04-14 1994-07-06 Eastman Kodak Co Neural network optical character recognition system and method for classifying characters in amoving web
JP3102195B2 (ja) * 1993-04-02 2000-10-23 三菱電機株式会社 音声認識装置
JP3702978B2 (ja) * 1996-12-26 2005-10-05 ソニー株式会社 認識装置および認識方法、並びに学習装置および学習方法
US6178398B1 (en) * 1997-11-18 2001-01-23 Motorola, Inc. Method, device and system for noise-tolerant language understanding
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
DE10052720C2 (de) 2000-10-24 2002-09-12 Siemens Ag Vorrichtung und Verfahren zur Ratenanpassung
US7319959B1 (en) * 2002-05-14 2008-01-15 Audience, Inc. Multi-source phoneme classification for noise-robust automatic speech recognition
DE60319796T2 (de) * 2003-01-24 2009-05-20 Sony Ericsson Mobile Communications Ab Rauschreduzierung und audiovisuelle Sprachaktivitätsdetektion
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
WO2008042900A2 (en) 2006-10-02 2008-04-10 University Of Florida Research Foundation, Inc. Pulse-based feature extraction for neural recordings
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
KR20080114023A (ko) 2007-06-26 2008-12-31 전자부품연구원 나노와이어 제작 방법
US8440467B2 (en) * 2007-09-28 2013-05-14 William Marsh Rice University Electronic switching, memory, and sensor devices from a discontinuous graphene and/or graphite carbon layer on dielectric materials
CN101281745B (zh) * 2008-05-23 2011-08-10 深圳市北科瑞声科技有限公司 一种车载语音交互系统
EP2351083B1 (en) * 2008-10-20 2016-09-28 The Regents of the University of Michigan A silicon based nanoscale crossbar memory
WO2011010647A1 (ja) * 2009-07-21 2011-01-27 独立行政法人産業技術総合研究所 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法
CN101710490B (zh) * 2009-11-20 2012-01-04 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
KR101200150B1 (ko) 2010-03-08 2012-11-12 경기대학교 산학협력단 나노 와이어 제조 방법 및 나노 와이어를 갖는 전자 소자
US8972256B2 (en) * 2011-10-17 2015-03-03 Nuance Communications, Inc. System and method for dynamic noise adaptation for robust automatic speech recognition
US8484022B1 (en) * 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
CN103095911B (zh) * 2012-12-18 2014-12-17 苏州思必驰信息科技有限公司 一种通过语音唤醒寻找手机的方法及系统
JP2014122939A (ja) * 2012-12-20 2014-07-03 Sony Corp 音声処理装置および方法、並びにプログラム
JP5982297B2 (ja) * 2013-02-18 2016-08-31 日本電信電話株式会社 音声認識装置、音響モデル学習装置、その方法及びプログラム
US9318106B2 (en) * 2013-08-08 2016-04-19 Adobe Systems Incorporated Joint sound model generation techniques
JP6289891B2 (ja) * 2013-12-11 2018-03-07 株式会社藤商事 遊技機
CN103915103B (zh) * 2014-04-15 2017-04-19 成都凌天科创信息技术有限责任公司 语音质量增强系统
US20170249445A1 (en) * 2014-09-12 2017-08-31 Blacktree Fitness Technologies Inc. Portable devices and methods for measuring nutritional intake
CN204331706U (zh) * 2015-01-14 2015-05-13 郑州职业技术学院 一种计算机语音识别输入电路
US9786270B2 (en) * 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004206063A (ja) 2002-10-31 2004-07-22 Seiko Epson Corp 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Feng 등, ‘SPEECH FEATURE DENOISING AND DEREVERBERATION VIA DEEP AUTOENCODERS FOR NOISY REVERBERANT SPEECH RECOGNITION’, ICASSP 2014, pp. 1778-1782, 2014.05.09. 1부.*
Giri 등, ‘IMPROVING SPEECH RECOGNITION IN REVERBERATION USING A ROOM-AWARE DEEP NEURAL NETWORK AND MULTI-TASK LEARNING’, ICASSP 2015, pp. 5014-5018, 2015.04.24. 1부.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024019265A1 (ko) * 2022-07-18 2024-01-25 삼성전자주식회사 학습 데이터를 획득하기 위한 로봇 및 이의 제어 방법

Also Published As

Publication number Publication date
CN106531155B (zh) 2022-03-15
JP2017054122A (ja) 2017-03-16
EP3142106B1 (en) 2023-03-15
CN106531155A (zh) 2017-03-22
EP3142106A1 (en) 2017-03-15
US20170076719A1 (en) 2017-03-16
US10127905B2 (en) 2018-11-13
KR20170030923A (ko) 2017-03-20
JP6751322B2 (ja) 2020-09-02

Similar Documents

Publication Publication Date Title
KR102209689B1 (ko) 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
KR102494139B1 (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
EP3857543B1 (en) Conversational agent pipeline trained on synthetic data
US20220059076A1 (en) Speech Processing System And A Method Of Processing A Speech Signal
JP6911208B2 (ja) 発話スタイル転移
KR102305584B1 (ko) 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
US20200410976A1 (en) Speech style transfer
JP6823809B2 (ja) 対話行為推定方法、対話行為推定装置およびプログラム
CN112825249A (zh) 语音处理方法和设备
CN112863489B (zh) 语音识别方法、装置、设备及介质
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
JP2020042257A (ja) 音声認識方法及び装置
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
CN115836300A (zh) 用于文本到语音的自训练WaveNet
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
JP7088796B2 (ja) 音声合成に用いる統計モデルを学習する学習装置及びプログラム
Chung et al. Rank‐weighted reconstruction feature for a robust deep neural network‐based acoustic model
CN110910904A (zh) 一种建立语音情感识别模型的方法及语音情感识别方法
Khan et al. Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis
JP6712540B2 (ja) モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム
Agarwalla et al. Composite feature set for mood recognition in dialectal assamese speech
JP2008139747A (ja) 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant