KR20220070709A - 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법 - Google Patents

음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법 Download PDF

Info

Publication number
KR20220070709A
KR20220070709A KR1020200157551A KR20200157551A KR20220070709A KR 20220070709 A KR20220070709 A KR 20220070709A KR 1020200157551 A KR1020200157551 A KR 1020200157551A KR 20200157551 A KR20200157551 A KR 20200157551A KR 20220070709 A KR20220070709 A KR 20220070709A
Authority
KR
South Korea
Prior art keywords
text
voice
speech
features
information
Prior art date
Application number
KR1020200157551A
Other languages
English (en)
Inventor
정민화
김종인
조원익
정지오
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020200157551A priority Critical patent/KR20220070709A/ko
Publication of KR20220070709A publication Critical patent/KR20220070709A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 텍스트와 함께 음성 특징이 가지고 있는 억양 리듬 강세 및 음향 환경 특징을 이용하여 음성인식기에서 발생한 오류를 모델링하고, 인코더(Encoder)와 디코더(Decoder)를 구성하여 어텐션 기법을 적용하는 시퀀스 투 시퀀스(seq2seq) 기반의 음성인식 오류교정 모델링 방법에 관한 것으로, 호출어를 입력하지 않고 자연스러운 발화로부터 추출한 텍스트와 음향정보를 이용하여 응대 또는 비응대 여부를 판별한다. 본 발명의 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법은 기존의 텍스트 정보만을 이용하여 오류 교정을 시도했던 모델과 다르게, 음성정보 특징을 이용하여, 음성이 담고 있는 억양, 운율, 강세 등 초언어적 특징(paralinguistic feature) 정보를 이용하여, 강건한 모델을 구성할 수 있고, 또한 어텐션 기법을 적용하여, 음성정보와 음성인식오류 정보간의 관계에 대해서 학습시킬 수 있으며, 이를 통해 음성정보가 담고 있는 억양, 강세, 리듬에 관한 정보, 음향 환경들과 음성인식 오류 텍스트 간의 관계에 대해서 학습시키는 것도 가능하다.

Description

음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법{Speech Recognition Error Correction Modeling Method using Text and Speech Characteristics of Speech Recognition}
본 발명은 음성인식 오류교정 모델링 방법에 관한 것으로, 특히 상세하게는 텍스트와 함께 음성 특징이 가지고 있는 억양 리듬 강세 및 음향 환경 특징을 이용하여 음성인식기에서 발생한 오류를 모델링하고, 인코더(Encoder)와 디코더(Decoder)를 구성하여 어텐션 기법을 적용하는 시퀀스 투 시퀀스(seq2seq) 기반의 음성인식 오류교정 모델링 방법에 관한 것이다.
음성 인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리로, 미리 기록해 둔 특정인의 음성 패턴과 비교해 인증용도로 사용하는 화자인식과는 구별되는 기술이다. 정보통신과 자동차 산업이 융합된 텔레매틱스(telematics)나 로봇 등 지능형 기계에서 음성으로 기기를 제어하고 정보를 검색하는데 폭넓게 사용된다. 사용자 범위를 넓힐 수 있도록 다양한 화자들이 발성한 음성을 통계적으로 모델링하여 음향모델 및 발음모델을 구성하고, 말뭉치 수집을 통해 언어모델을 구성한다.
'말'을 이용하여 인간과 기계의 대화가 가능하기 위해서는 지능형 기계의 입출력 인터페이스가 음성이어야 하고, 이러한 기계를 음성인식 기기라고도 한다. 음성인식 기기의 음성인식율 정확도가 높아지면서 음성인식기술의 응용서비스도 확대되어 스마트폰의 비서형 음성인식 시스템에서 스피커형 인공지능(Artificial Intelligence)비서를 거쳐 사물인터넷(Internet of Things)의 입력기술로 확장되고 있다.
최근 머신러닝의 발전으로 인하여, 음성인식의 성능이 향상됨에 따라, 음성인식을 이용한 응용 어플리케이션에 대한 수요가 증가하고 있다. 실제로 해외의 대표적인 기업인 구글과 아마존에서는 구글나우와 알렉사를 출시하여, 인공지능 스피커 제품의 발전 가능성을 보여줬다. 국내에서는 네이버와 카카오에서 클로바와, 카카오 미니 등을 출시하였다. 이러한 대다수의 음성인식 소프트웨어는 음성인식 결과와 자연어처리 기술을 융합하는 형태로 개발되고 있다. 그러므로 음성인식 결과가 정확하지 않은 경우에는 자연어처리 성능이 아무리 좋더라도 성능이 좋은 소프트웨어를 만드는데 어려움이 따른다.
즉 성능이 좋은 소프트웨어를 만들기 위해서는 음성인식 오류를 처리하는 것이 중요하다. 음성인식 오류를 처리하기 위한 종래기술은 다음과 같다. 첫째는 규칙 기반의 방법이다. 이는 음성인식 오류 패턴들이 일정한 규칙성을 따를 것이라는 점을 이용한다. 데이터 베이스에 오류가 발생할 만한 패턴들을 저장해 놓고, 실제 그 오류가 발생할 경우에 정답으로 치환하는 방식으로 이용된다. 이 방법은 정확성이 높지만, DB에 저장되어 있지 않거나, 규칙에 해당하지 않는 오류에 대해서는 대응하기 어렵다.
둘째는 통계 기반의 방법이다. 음성인식오류로 발생되는 에러 패턴에 대해서 통계적인 모델을 이용하여 모델링한다.
셋째는 뉴럴넷을 이용한 기계번역 관점에서 이 문제를 바라본다. 구글에서 제안된 이 방법은 음성인식 오류를 교정하는 문제를 기계 번역 문제로 해석했다. 즉 기계 번역에서 이용되는 seq2seq 문제로 해석하여, 음성인식오류 텍스트와 정답 텍스트를 학습 시켰다. Oleksii Hrinchuk, Mariya Popova, and Boris Ginsburg, “Correction of Automatic Speech Recognition with Transformer Sequence-to-sequence Model”, (2019), https://arxiv.org/abs/1910.10697는 음성인식 오류교정 문제를 transformer 모델을 이용하여 교정하는 방법(도 1)을 제시하였다. 하지만, 이 모델의 경우 단순히 텍스트만을 이용하여 모델링한 것이라는 한계를 갖는다.
대한민국 공개특허 제10-2016-0161799호는 ‘음성인식오류’에 관한 것으로, 워드 임베딩을 이용하여 음성인식 오류를 결정하며, 이를 통해 교정 어휘 후보를 이용하여 대체하는 방법을 제시한다. 역시 음성 특징을 반영하지 못하는 한계를 가진다.
대한민국 공개특허 제10-2016-0161799호, 음성인식오류
Oleksii Hrinchuk, Mariya Popova, and Boris Ginsburg, "Correction of Automatic Speech Recognition with Transformer Sequence-to-sequence Model", (2019), https://arxiv.org/abs/1910.10697
본 발명은 사용자가 발화한 음성에서 텍스트로 변환시키고, 운율, 억양, 강세 등의 정보를 포함하고 있는 음성 특징을 반영하여 음성인식오류를 보정하는, 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법을 제공하고자 한다.
본 발명은 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법으로: 상기 방법은, 정답 텍스트를 준비하는 단계; 상기 정답 텍스트의 음성을 음성인식기에서 인식하여 음성 특징을 추출하는 단계; 상기 정답 텍스트의 음성을 인식기에서 인식하여 음성결과 텍스트를 추출하는 단계; 상기 추출된 음성특징을 인코더에 입력하는 단계; 상기 추출된 음성결과 텍스트를 디코더에 입력하는 단계; 상기 정답 텍스트를 디코더의 출력으로 설정하는 단계; 및 상기 인코더와 디코더를 어텐션(Attention) 기법으로 모델링하여 상기 추출된 음성 특징과 상기 추출된 음성결과 텍스트의 관계를 모델링하는 단계를 포함하고, 상기 음성 특징은 주파수 성분 추출 알고리즘인 MFCC(Mel Frequency Cepstral Coefficient)로 추출하는, 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법을 제공한다.
본 발명은 또한, 상기 어텐션(Attention) 기법은, 닷 프로덕트 어텐션을 사용하는, 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법을 제공한다.
본 발명은 또한, 상기 MFCC(Mel Frequency Cepstral Coefficient)는, 삼각형 모양의 필터를 사용하며 중심주파수는 1 kHz까지는 선형적으로 위치하고 그 이상에서는 멜(mel) 척도로 분포하는 20개의 뱅크로 이루어진, 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법을 제공한다.
본 발명의 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법은 기존의 텍스트 정보만을 이용하여 오류 교정을 시도했던 모델과 다르게, 음성정보 특징을 이용하여, 음성이 담고 있는 억양, 운율, 강세 등 초언어적 특징(paralinguistic feature) 정보를 이용하여, 강건한 모델을 구성할 수 있고, 또한 어텐션 기법을 적용하여, 음성정보와 음성인식오류 정보간의 관계에 대해서 학습시킬 수 있으며, 이를 통해 음성정보가 담고 있는 억양, 강세, 리듬에 관한 정보, 음향 환경들과 음성인식 오류 텍스트 간의 관계에 대해서 학습시키는 것도 가능하다.
도 1은 음성오류 교정을 종래기술인 기계번역 관점에서 파악하여, 음성인식오류 텍스트와 정답 텍스트 학습으로 처리한 모델의 개념적인 흐름도를 나타낸다.
도 2는 본 발명에 따른 음성인식기의 결과 텍스트와 음성 특징(MFCC)를 이용하여 교정하는 음성오류 교정 모델의 개념적인 흐름도를 나타낸다.
도 3은 본 발명에 따른 음성인식 오류 교정 모델을 나타낸다.
도 4는 본 발명에 따른 어텐션 기법을 이용한 음성인식 오류 교정 모델링의 개념도를 나타낸다.
다양한 양상이 도면을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나 이상의 양상의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항이 개시된다. 그러나 이러한 양상은 각각의 구체적인 세부사항 없이도 실행될 수 있다는 점이 인식될 것이다. 이후의 기재 및 첨부된 도면은 하나 이상의 양상에 대한 특정한 예시적인 양상을 상세하게 기술한다. 하지만, 이러한 양상은 예시적인 것이고 다양한 양상의 원리에서 다양한 방법 중 일부가 이용될 수 있으며 기술되는 설명은 그러한 양상 및 그 균등물을 모두 포함하고자 하는 의도이다.
다양한 양상 및 특징이 다수의 장치, 모듈 등을 포함할 수 있는 시스템에 의하여 제시될 것이다. 다양한 시스템이 추가적인 장치, 부품, 구성품 등을 포함할 수 있고 그리고/또는 도면들과 관련하여 논의된 장치, 부품, 구성품 등 모두를 포함할 수 없다는 점 또한 이해되고 인식되어야 한다.
본 명세서에서 사용되는 "실시예", "예", "양상", "예시" 등은 기술된 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않아야 한다. 아래에서 사용되는 용어인 '시스템' '서버' 단말기 등은 일반적으로 컴퓨터 관련 실체(computer-related entity)를 의미하며, 예를 들어, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어를 의미할 수 있다.
더불어, 용어 "또는"은 배타적 "또는"이 아니라 내포적 "또는"을 의미하는 것으로 의도된다. 즉, 달리 특정되지 않거나 문맥상 명확하지 않은 경우에, "X는 A 또는 B를 이용한다"는 자연적인 내포적 치환 중 하나를 의미하는 것으로 의도된다. 즉, X가 A를 이용하거나; X가 B를 이용하거나; 또는 X가 A 및 B 모두를 이용하는 경우, "X는 A 또는 B를 이용한다"가 상기 경우 어느 것으로도 적용될 수 있다. 또한, 본 명세서에 사용된 "및/또는"이라는 용어는 열거된 관련 항목 중 하나 이상 항목의 가능한 모든 조합을 지칭하고 포함하는 것으로 이해되어야 한다.
또한, "포함한다" 및/또는 "포함하는" 이라는 용어는, 해당 특징, 단계, 동작, 모듈, 및/또는 구성요소가 존재함을 의미하지만, 하나 이상의 다른 특징, 단계, 동작, 모듈, 구성요소, 및/또는 이 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다. 더불어, 본 명세서에서 제1 및 제2 등의 용어가 다양한 구성요소를 설명하기 위해 사용될 수 있지만, 이들 구성요소는 이러한 용어에 의해 한정되지 아니한다. 즉, 이러한 용어는 둘 이상의 구성요소 간의 구별을 위해서 사용될 뿐이고, 순서 또는 우선순위를 의미하는 것으로 해석되지 않아야 한다. 또한, 달리 특정되지 않거나 단수 형태를 지시하는 것으로 문맥상 명확하지 않은 경우에, 본 명세서와 청구범위에서 단수는 일반적으로 "하나 또는 그 이상"을 의미하는 것으로 해석되어야 한다. 이하 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다.
도 2는 본 발명에 따른 음성인식기의 결과 텍스트와 음성 특징(MFCC)를 이용하여 교정하는 음성오류 교정 모델의 개념적인 흐름도를 나타낸다. 본 발명은 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법으로: 상기 방법은, 정답 텍스트를 준비하는 단계; 상기 정답 텍스트의 음성을 음성인식기에서 인식하여 음성 특징을 추출하는 단계; 상기 정답 텍스트의 음성을 인식기에서 인식하여 음성결과 텍스트를 추출하는 단계; 상기 추출된 음성특징을 인코더에 입력하는 단계; 상기 추출된 음성결과 텍스트를 디코더에 입력하는 단계; 상기 정답 텍스트를 디코더의 출력으로 설정하는 단계; 및 상기 인코더와 디코더를 어텐션(Attention) 기법으로 모델링하여 상기 추출된 음성 특징과 상기 추출된 음성결과 텍스트의 관계를 모델링하는 단계를 포함한다. 본 발명의 일 구현예에서 상기 음성 특징은 주파수 성분 추출 알고리즘인 MFCC (Mel Frequency Cepstral Coefficient)로 추출한다.
본 발명의 일 구현예에서, 음성인식 오류 교정 모듈은 음성인식기의 결과 텍스트와 음성 특징(MFCC)을 이용하여 교정한다. 이 때 다음과 같은 가정을 따른다. 음성 인식기는 음성 특징을 텍스트로 변환하는 과정이다. 이 때 음성 인식기의 오류는 일정한 규칙성을 가진다. 그러므로 이를 시퀀스-투-시퀀스(seq2seq) 문제로 변환하여 해석한다. 즉, 음성인식기 오류에는 일정한 패턴이 있음을 가정한다. 음성인식기에서 발생한 오류는 일정한 패턴에 의하여 모델링 되며, 이러한 패턴들을 뉴럴넷을 이용하여 모델링한다. seq2seq 모델을 이용하여, Encoder와 Decoder를 구성하며, 어텐션 기법을 적용한다.
또한 기존의 연구에서는 텍스트만을 이용하여 오류 교정 모듈을 구성했지만, 본 모델은 음성인식기에서 사용된 음성 특징을 이용하여, 오류 교정 모델을 이용한다. 이를 통해, 음성 특징이 가지고 있는 억양 리듬 강세 및 음향 환경 특징 등에 대해 오류 교정모델에 반영한다. 시퀀스-투-시퀀스(Sequence-to-Sequence)는 입력된 시퀀스로부터 다른 도메인의 시퀀스를 출력하는 다양한 분야에서 사용되는 모델이다. 챗봇(Chatbot)과 기계 번역(Machine Translation)이 대표적인 예로, 입력 시퀀스와 출력 시퀀스를 각각 질문과 대답으로 구성하면 챗봇으로 만들 수 있고, 입력 시퀀스와 출력 시퀀스를 각각 입력 문장과 번역 문장으로 만들면 번역기로 만들 수 있다. seq2seq는 크게 두 개로 구성된 아키텍처로 구성되는데, 바로 인코더와 디코더이다. 인코더는 입력 문장의 모든 단어들을 순차적으로 입력 받은 뒤 마지막에 이 모든 단어 정보들을 압축해서 하나의 벡터로 만드는데, 이를 컨텍스트 벡터(context vector)라고 한다. 입력 문장의 정보가 하나의 컨텍스트 벡터로 모두 압축되면 인코더는 컨텍스트 벡터를 디코더로 전송하고, 디코더는 컨텍스트 벡터를 받아서 번역된 단어를 한 개씩 순차적으로 출력한다.
기존의 방법은 단순히 음성인식 오류를 포함하고 있는 결과 텍스트를 정답에 해당하는 전사 텍스트에 매칭하는 문제로 보았다. 즉 텍스트-to-텍스트 맵핑의 관점에서 문제를 바라보았다. 하지만 단순하게 자연언어처리 관점에서 텍스트-to-텍스트로 모듈을 할 경우, 음성 정보 및 음향 정보에 대해서 대응하기 힘들다. 실제로 음성인식은 음향 환경에 영향을 받는다. 그러므로 음성 인식 오류 교정 모듈에서는 단순히 텍스트 정보뿐만 아니라 음성 특징 혹은 음향 특징 정보를 포함해야 한다. 그러나 본 특허에서는 단순히 음향 특징의 정보를 텍스트 정보와 함께 주는 것이 아닌, 어텐션 기법을 이용하여, 음향 특징과 텍스트 정보와의 관계를 뉴럴넷이 학습할 수 있도록 구성하였다.
도 3은 본 발명에 따른 음성인식 오류 교정 모델을 나타낸다. 기존의 텍스트 정보만을 이용하여 오류 교정을 시도했던 모델과 다르게, 음성정보 특징인 음성이 담고 있는 paralinguistic feature(억양, 운율, 강세) 등의 정보를 이용하여, 모델을 구성할 수 있다. 또한 어텐션 기법을 적용하여, 음성정보와 음성인식오류 정보간의 관계에 대해서 학습시킬 수 있다. 이로 인해, 음성정보가 담고 있는 억양, 강세, 리듬에 관한 정보, 음향 환경들과 음성인식 오류 텍스트 간의 관계에 대해서 학습 시킬 수 있게 되었다 이러한 정보의 반영으로 음성인식교정 모델이 좀 더 유연하게 대처할 수 있게 되었다. 본 발명의 일 구현예에서 음성인식 오류교정 모델은 음성 특징과 텍스트를 모두 이용한다. 우선, 음성 특징과 정답 텍스트를 추출한다. 이 때 일반적으로 음성 특징은 MFCC를 추출한다. 이후에 학습된 음성인식기에서 생성된 음성인식 결과 텍스트를 추출한다. 음성인식 결과 텍스트에는 올바르게 인식된 텍스트와, 오타가 있는 텍스트 모두 존재한다. 상기 데이터를 이용하여 음성인식 교정모듈을 모델링하기 위해서는 음성인식기 모듈의 인풋을 구성할 때, 음성인식 특징(MFCC)은 인코더를 이용하여 모델링하며, 음성인식 오류 텍스트는 디코더를 이용하여 모델링한다. 이 경우, 디코더의 아웃풋은 음성인식 정답 텍스트를 이용한다. 이 때 인코더와 디코더를 어텐션 기법을 활용하여 모델링하며, 이를 통해 음성에서 추출한 음성 특징과 음성인식 오류 텍스트 간의 관계를 모델링 할 수 있다.
본 발명의 일 구현예에서 상기 MFCC (Mel Frequency Cepstral Coefficient)는, 삼각형 모양의 필터를 사용하며 중심주파수는 1 kHz까지는 선형적으로 위치하고 그 이상에서는 멜(mel) 척도로 분포하는 26개의 뱅크로 이루어질 수 있다. MFCC 추출과정은 우선 오디오 신호를 프레임별로 나누어 고속푸리에변환(fast Fourier transform, FFT)을 적용해 스펙트럼을 구하고, 상기 스펙트럼에서 멜 스케일(Mel Scale) 필터를 사용한 멜 필터 뱅크(Mel Filter Bank)를 적용해 멜 스펙트럼(Mel Spectrum)을 구한다. 이 멜 스펙트럼에 역방향 고속 푸리에 변환(inverse FFT)을 적용한 셉스트럼(Cepstrum)분석으로 MFCC를 획득한다. 본 발명의 일 구현예에서 필터 뱅크(Filter Bank)를 계산하는데, 상기 필터 뱅크는 20 내지 40개의 삼각필터 세트로 이루어질 수 있다. 본 발명의 일 구현예에서 필터뱅크의 모양 및 중심주파수의 설정은 귀의 청각적 특성인 달팽이관에서의 주파수 특성을 고려하여 결정된다.
도 4는 본 발명에 따른 어텐션 기법을 이용한 음성인식 오류 교정 모델링의 개념도를 나타낸다. 본 발명의 일 구현예에서 상기 어텐션(Attention) 기법은, 닷 프로덕트 어텐션을 사용할 수 있다. 어텐션의 기본 아이디어는 디코더에서 출력 단어를 예측하는 매 시점(time step)마다, 인코더에서의 전체 입력 문장을 다시 한 번 참고한다는 것이다. 단, 전체 입력 문장을 전부 다 동일한 비율로 참고하는 것이 아니라, 해당 시점에서 예측해야 할 단어와 연관이 있는 입력 단어 부분을 좀 더 집중(attention)해서 보게 된다. 어텐션 프로덕트 기법으로는 닷(dot), 스케일드 닷(scaled dot), 제너럴(general), 콘캣(concat) 그리고 로케이션 베이스(location-base) 등이 있다. 이 중 닷 프로덕트 어텐션과 다른 어텐션의 차이는 주로 중간 수식의 차이이지만 매커니즘 자체는 거의 유사하다. 닷 프로덕트 어텐션은 1)어텐션 스코어(Attention Score)를 구하고, 2)소프트맥스 함수를 통해 어텐션 분포(Attention Distribution)를 구하며, 3)각 인코더의 어텐션 가중치와 은닉 상태를 가중합하여 어텐션값(Attention Value)을 구한다. 여기에 4)어텐션 값과 디코더의 어느 시간 t시점의 은닉 상태를 연결하고(Concatenate), 5)출력층 연산의 입력이 되는 벡터를 계산하고, 6)벡터를 출력층의 입력으로 사용하여 예측 벡터를 얻는다.
이상 살펴본 바와 같이 본 발명은 자연어 문장에서 응대 여부를 판단하는 음성인식 방법에 관한 것이다. 이 발명은 예를 들어 자동차분야에서 주행 중에 즉각적으로 사용자의 요구를 반영하는데 응용될 수 있으며, 홈 오토메이션 분야의 사물인터넷(Internet of Things) 환경에서 사용자 인터페이스 편의성 증가에 응용가능하고, 인공지능 비서 응용에서는 스마트 스피커 또는 로봇의 사용자 인터페이스 편의성 증가에 활용될 수 있다.
여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 관리서버 및/또는 시스템 자체로 구현될 수 있다.
소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 씌여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 관리서버 및/또는 데이터베이스에 저장되고, 앱에 의해 실행될 수 있다.
한편, 여기서 제시된 다양한 실시예들은 방법, 장치, 또는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용한 제조 물품(article)으로 구현될 수 있다. 용어 "제조 물품"은 임의의 컴퓨터 판독가능한 장치로부터 액세스 가능한 컴퓨터 프로그램, 캐리어, 또는 매체(media)를 포함한다. 예를 들어, 컴퓨터 판독가능한 매체는 자기 저장 장치(예를 들면, 하드 디스크, 플로피 디스크, 자기 스트립, 등), 광학 디스크(예를 들면, CD, DVD, 등), 스마트 카드, 및 플래쉬 메모리 장치(예를 들면, EEPROM, 카드, 스틱, 키 드라이브, 등)를 포함하지만, 이들로 제한되는 것은 아니다. 또한, 여기서 제시되는 다양한 저장 매체는 정보를 저장하기 위한 하나 이상의 장치 및/또는 다른 기계-판독가능한 매체를 포함한다. 용어 "기계-판독가능한 매체"는 명령(들) 및/또는 데이터를 저장, 보유, 및/또는 전달할 수 있는 무선 채널 및 다양한 다른 매체를 포함하지만, 이들로 제한되는 것은 아니다.
제시된 실시예들에 대한 설명은 임의의 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

Claims (3)

  1. 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법으로:
    상기 방법은, 정답 텍스트를 준비하는 단계;
    상기 정답 텍스트의 음성을 음성인식기에서 인식하여 음성 특징을 추출하는 단계;
    상기 정답 텍스트의 음성을 인식기에서 인식하여 음성결과 텍스트를 추출하는 단계;
    상기 추출된 음성특징을 인코더에 입력하는 단계;
    상기 추출된 음성결과 텍스트를 디코더에 입력하는 단계;
    상기 정답 텍스트를 디코더의 출력으로 설정하는 단계; 및
    상기 인코더와 디코더를 어텐션(Attention) 기법으로 모델링하여 상기 추출된 음성 특징과 상기 추출된 음성결과 텍스트의 관계를 모델링하는 단계를 포함하고,
    상기 음성 특징은 주파수 성분 추출 알고리즘인 MFCC(Mel Frequency Cepstral Coefficient)로 추출하는,
    음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법.
  2. 제 1항에 있어서,
    상기 어텐션(Attention) 기법은,
    닷 프로덕트 어텐션을 사용하는,
    음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법.
  3. 제 1항에 있어서,
    상기 MFCC(Mel Frequency Cepstral Coefficient)는,
    삼각형 모양의 필터를 사용하며 중심주파수는 1 kHz까지는 선형적으로 위치하고 그 이상에서는 멜(mel) 척도로 분포하는 26개의 뱅크로 이루어진,
    음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법.
KR1020200157551A 2020-11-23 2020-11-23 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법 KR20220070709A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200157551A KR20220070709A (ko) 2020-11-23 2020-11-23 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200157551A KR20220070709A (ko) 2020-11-23 2020-11-23 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법

Publications (1)

Publication Number Publication Date
KR20220070709A true KR20220070709A (ko) 2022-05-31

Family

ID=81787435

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200157551A KR20220070709A (ko) 2020-11-23 2020-11-23 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법

Country Status (1)

Country Link
KR (1) KR20220070709A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102517571B1 (ko) * 2022-08-18 2023-04-04 주식회사 포티투마루 사용자 상태 분석 방법, 사용자 상태 분석 장치, 및 사용자 상태 분석 시스템
KR102557092B1 (ko) * 2022-11-11 2023-07-19 주식회사 디엠티랩스 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템
CN116665675A (zh) * 2023-07-25 2023-08-29 上海蜜度信息技术有限公司 语音转写方法、系统、电子设备和存储介质
KR102654803B1 (ko) * 2023-11-20 2024-04-08 주식회사 액션파워 음성인식 학습 데이터에서 음성-텍스트 정렬 오류를 검출하는 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Oleksii Hrinchuk, Mariya Popova, and Boris Ginsburg, "Correction of Automatic Speech Recognition with Transformer Sequence-to-sequence Model", (2019), https://arxiv.org/abs/1910.10697

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102517571B1 (ko) * 2022-08-18 2023-04-04 주식회사 포티투마루 사용자 상태 분석 방법, 사용자 상태 분석 장치, 및 사용자 상태 분석 시스템
KR102557092B1 (ko) * 2022-11-11 2023-07-19 주식회사 디엠티랩스 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템
CN116665675A (zh) * 2023-07-25 2023-08-29 上海蜜度信息技术有限公司 语音转写方法、系统、电子设备和存储介质
CN116665675B (zh) * 2023-07-25 2023-12-12 上海蜜度信息技术有限公司 语音转写方法、系统、电子设备和存储介质
KR102654803B1 (ko) * 2023-11-20 2024-04-08 주식회사 액션파워 음성인식 학습 데이터에서 음성-텍스트 정렬 오류를 검출하는 방법

Similar Documents

Publication Publication Date Title
KR20220070709A (ko) 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법
US11587569B2 (en) Generating and using text-to-speech data for speech recognition models
Ghai et al. Literature review on automatic speech recognition
US7136816B1 (en) System and method for predicting prosodic parameters
CN106875942B (zh) 基于口音瓶颈特征的声学模型自适应方法
CN113707125B (zh) 一种多语言语音合成模型的训练方法及装置
Coto-Jiménez et al. Improving automatic speech recognition containing additive noise using deep denoising autoencoders of LSTM networks
JP2020042257A (ja) 音声認識方法及び装置
Sun et al. Speech emotion recognition based on genetic algorithm–decision tree fusion of deep and acoustic features
Hassan et al. Enhancement automatic speech recognition by deep neural networks
Huang et al. Rapid Speaker Adaptation for Conformer Transducer: Attention and Bias Are All You Need.
Ronanki et al. A Hierarchical Encoder-Decoder Model for Statistical Parametric Speech Synthesis.
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
Badenhorst et al. Collecting and evaluating speech recognition corpora for 11 South African languages
CN114495969A (zh) 一种融合语音增强的语音识别方法
Sahu et al. A study on automatic speech recognition toolkits
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
CN113744727A (zh) 模型训练方法、系统、终端设备及存储介质
Ponting Computational Models of Speech Pattern Processing
Kadyan et al. Training augmentation with TANDEM acoustic modelling in Punjabi adult speech recognition system
Sakamoto et al. StarGAN-VC+ ASR: Stargan-based non-parallel voice conversion regularized by automatic speech recognition
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Chunwijitra et al. A hybrid input-type recurrent neural network for LVCSR language modeling
Mohanty et al. Isolated Odia digit recognition using HTK: an implementation view

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application