KR20230125872A - 음성 인식 장치 및 그것의 제어 방법 - Google Patents

음성 인식 장치 및 그것의 제어 방법 Download PDF

Info

Publication number
KR20230125872A
KR20230125872A KR1020220022637A KR20220022637A KR20230125872A KR 20230125872 A KR20230125872 A KR 20230125872A KR 1020220022637 A KR1020220022637 A KR 1020220022637A KR 20220022637 A KR20220022637 A KR 20220022637A KR 20230125872 A KR20230125872 A KR 20230125872A
Authority
KR
South Korea
Prior art keywords
category
text
voice recognition
denormalization
model
Prior art date
Application number
KR1020220022637A
Other languages
English (en)
Inventor
장윤정
박종세
Original Assignee
주식회사 카카오엔터프라이즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 카카오엔터프라이즈 filed Critical 주식회사 카카오엔터프라이즈
Priority to KR1020220022637A priority Critical patent/KR20230125872A/ko
Publication of KR20230125872A publication Critical patent/KR20230125872A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 인식 텍스트에 대하여 역정규화를 수행하는 장치 및 제어 방법에 관한 것이다. 보다 구체적으로 본 발명은, 음성 인식 텍스트를 음성 인식 장치의 제어 방법에 있어서, 카테고리 별로 적어도 하나의 역정규화 모델을 저장하고, 음성 인식 텍스트를 입력 받으며, 카테고리 예측기가 상기 입력된 음성 인식 텍스트의 카테고리를 예측하고, 상기 저장된 적어도 하나의 역정규화 모델 중에서, 상기 예측된 카테고리에 대응하는 역정규화 모델을 선택하며, 상기 선택된 역정규화 모델에 기초하여 상기 입력된 음성 인식 텍스트에 대한 역정규화를 수행하는 역정규화하는 기술에 관한 것이다.

Description

음성 인식 장치 및 그것의 제어 방법{AUTOMATIC SPEECH RECOGNITION DEVICE AND CONTROL METHOD THEREOF}
본 발명은 음성 인식 장치 및 그것의 제어 방법에 관한 것으로, 보다 구체적으로는 음성 인식 결과인 텍스트에 대한 역정규화를 수행하는 음성 인식 장치 및 제어 방법에 관한 것이다.
최근 음성 인식 기술이 다양한 사회 분야에 적용되고 있다. 스마트폰 같은 전자기기뿐만 아니라 콜센터, 회의록, 동영상 등 음성 인식 기술의 사용범위가 매우 넓어지고 있다.
음성 인식 기술은 사람의 음성을 텍스트로 바꿔주는 것이다. 이때 인식된 결과는 언어모델을 구성하는 텍스트의 형식에 따라 정해진다. 만약 모든 언어모델 학습용 텍스트가 한글로 표기된 데이터를 사용하면 음성 인식 결과는 모두 한글 형태로 출력된다. 또는 숫자나 영문을 혼용해서 표기한 데이터를 사용하면 음성 인식 결과는 이에 맞춰 숫자나 영문이 함께 출력된다.
최근 다양한 서비스에 음성 인식 기술이 적용되면서 서비스의 종류나 목적에 따라 음성 인식 결과 출력 방식에 대한 요구사항이 다양하다. 어떤 서비스는 날짜 시간 등이 가독성이 좋게 표시되어야 하고, 어떤 서비스는 전부다 한글로 출력해야 하는 경우가 생긴다. 하지만 요구사항에 따라서 매번 텍스트 코퍼스를 수정하거나 언어모델을 다시 구성하는 것은 매우 어려운 일이다.
이에 따라, 서비스 종류에 따라서 언어모델을 선택적으로 적용할 수 있는 기술에 대한 연구가 요구되는 실정이다.
본 발명이 해결하고자 하는 과제는 음성 인식 결과를 표시하는데 있어서, 다양한 서비스에 맞도록 음성 인식 텍스트의 숫자, 영문, 기호 등을 표시하는 장치 및 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는 음성 인식 결과에 기초하여 서비스의 카테고리를 결정하고, 결정된 카테고리에 최적의 표시 방법에 따른 출력을 제공하는 것이다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 또는 다른 과제를 해결하기 위해 본 발명의 일 측면에 따르면, 음성 인식 텍스트를 음성 인식 장치의 제어 방법에 있어서, 음성 인식 텍스트를 입력 받는 단계; 카테고리 예측기가 상기 입력된 음성 인식 텍스트의 카테고리를 예측하는 단계; 적어도 하나의 카테고리 별로 구성된 역정규화 모델 중에서, 상기 예측된 카테고리에 대응하는 역정규화 모델을 선택하는 단계; 및 상기 선택된 역정규화 모델에 기초하여 상기 입력된 음성 인식 텍스트에 대한 역정규화를 수행하는 단계를 포함하는, 음성 인식 장치의 제어 방법를 제공한다.
상기 카테고리 예측기는, 인공 신경망 알고리즘에 기초하고, 상기 인공 신경망을 학습하는 단계를 더 포함할 수 있다.
상기 학습하는 단계는, 분석 대상 텍스트와 상기 분석 대상 텍스트의 정답 카테고리가 하나의 세트를 이루고, 적어도 하나의 상기 세트로 구성되는 훈련 데이터(Training Data)에 기초하여 학습이 수행될 수 있다.
상기 학습하는 단계는 상기 훈련 데이터 중 하나의 세트가 입력되면, 상기 하나의 세트에 포함되는 분석 대상 텍스트에 대하여 형태소를 분석하는 단계; 상기 형태소 분석 결과를 벡터열로 변환하는 단계를 포함할 수 있다.
상기 학습하는 단계는, 동일한 정답 카테고리에 해당하는 벡터열 간에 거리가 가까워지도록 상기 인공 신경망의 파라미터를 업데이트할 수 있다.
상기 또는 다른 과제를 해결하기 위해 본 발명의 다른 측면에 따르면, 음성 인식 텍스트를 음성 인식 장치에 있어서, 카테고리 별로 적어도 하나의 역정규화 모델을 저장하는 메모리; 및 상기 저장된 명령어들을 실행하도록 설정된 프로세서를 포함하고, 상기 프로세서는: 음성 인식 텍스트를 입력 받고, 카테고리 예측기가 상기 입력된 음성 인식 텍스트의 카테고리를 예측하며, 상기 저장된 적어도 하나의 역정규화 모델 중에서, 상기 예측된 카테고리에 대응하는 역정규화 모델을 선택하고, 상기 선택된 역정규화 모델에 기초하여 상기 입력된 음성 인식 텍스트에 대한 역정규화를 수행하는, 음성 인식 장치를 제공한다.
상기 카테고리 예측기는, 인공 신경망 알고리즘에 기초하고, 상기 프로세서는 상기 인공 신경망을 학습시킬 수 있다.
상기 프로세서는 학습을 수행하는데 있어서 분석 대상 텍스트와 상기 분석 대상 텍스트의 정답 카테고리가 하나의 세트를 이루고, 적어도 하나의 세트로 구성되는 훈련 데이터(Training Data)에 기초하여 학습이 수행될 수 있다.
상기 프로세서는 학습을 수행하는데 있어서, 상기 훈련 데이터 중 하나의 세트가 입력되면, 상기 하나의 세트에 포함되는 분석 대상 텍스트에 대하여 형태소를 분석하고, 상기 형태소 분석 결과를 벡터열로 변환시킬 수 있다.
상기 프로세서는 학습을 수행하는데 있어서, 동일한 정답 카테고리에 해당하는 벡터열 간에 거리가 가까워지도록 상기 인공 신경망의 파라미터를 업데이트할 수 있다.
본 발명에 따른 음성 인식 장치 및 제어 방법의 효과에 대해 설명하면 다음과 같다.
본 발명의 실시 예들 중 적어도 하나에 의하면, 음성 인식 결과를 표시하는데 있어서, 다양한 서비스에 맞도록 음성 인식 텍스트의 숫자, 영문, 기호 등을 표시할 수 있다는 장점이 있다.
또한, 본 발명의 실시 예들 중 적어도 하나에 의하면, 음성 인식 결과에 기초하여 서비스의 카테고리를 결정하고, 결정된 카테고리에 최적의 표시 방법에 따른 출력을 제공할 수 있다는 장점이 있다.
본 발명의 적용 가능성의 추가적인 범위는 이하의 상세한 설명으로부터 명백해질 것이다. 그러나 본 발명의 사상 및 범위 내에서 다양한 변경 및 수정은 당업자에게 명확하게 이해될 수 있으므로, 상세한 설명 및 본 발명의 바람직한 실시 예와 같은 특정 실시 예는 단지 예시로 주어진 것으로 이해되어야 한다.
도 1은 본 발명의 일실시예에서 사용되는 WFST(Weighted Finite State Transducer) 모델의 네트워크 구조를 설명하기 위한 개념도이다.
도 2는 본 발명의 일실시예에 따른 훈련 데이터와 WFST 모델 간의 매칭 개념도를 도시한다.
도 3은 본 발명의 일실시예에 따른 복수 개의 WFST 모델들의 출력의 예시를 도시하는 도면이다.
도 4는 본 발명의 일실시예에 따른 음성 인식 장치(100)의 블록도를 도시하는 도면이다.
도 5는 본 발명의 일실시예에 따른 음성 인식 장치(100)가 사용자로부터 카테고리를 입력 받아 역정규화 모델을 선택하는 순서도를 도시하는 도면이다.
도 6은 본 발명의 일실시예에 따라, 카테고리 예측을 통한 텍스트 역정규화 순서도를 도시한다.
도 7은 본 발명의 일실시예에 따른 학습부(409)의 블록도를 도시하는 도면이다.
도 8은 본 발명의 일실시예에 따른 훈련 데이터(801)의 개념도를 도시하는 도면이다.
도 9는 본 발명의 일실시예에 따른 학습부(409)의 학습 순서도를 도시하는 도면이다.
도 10은 본 발명의 일실시예에 따른 학습부(409)의 학습 과정에 대한 개념도를 도시한다.
도 11은 본 발명의 일실시예에 따른 사용자 의사를 반영하기 위한 인터페이스 상태도를 도시하는 도면이다.
도 12는 본 발명의 일실시예에 따른 음성 인식 장치(100)가 사용자의 의사에 기초하여 훈련 데이터를 변경하는 예시를 도시한다.
도 13은 일 실시예에 따른 음성 인식 장치(100)의 구성을 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1은 본 발명의 일실시예에서 사용되는 WFST(Weighted Finite State Transducer) 모델의 네트워크 구조를 설명하기 위한 개념도이다.
음성 인식은 사람의 음성을 텍스트로 변환하는 과정이다. 여기서 텍스트는 다양한 표기 방식이 존재한다. 특히 숫자나 영문 등은 다양하게 표기할 수 있다.
예를 들어, "이십킬로그램"이라는 무게를 의미하는 음성을 인식하고, 이를 텍스트로 표시할 때 "20kg, 20 kilogram, 20킬로그램, 20 키로그램, 20키로, 이십 킬로그램"과 같이 다양한 방법이 존재할 수 있다.
이렇게 다양한 표현을 한가지 방식(보통은 발음 표기인 한글)으로 정해서 변환하는 것을 텍스트 정규화(Text Normalization)라고 하고, 이와 반대의 과정을 텍스트 역정규화(Inverse Text Normalization, ITN)라고 한다.
텍스트 역정규화는 음성 인식(ASR) 후처리 파이프라인의 일부로써, 텍스트 가독성을 향상시키기 위하여 음성 인식 모델의 원시 음성 출력을 적절한 형식을 갖는 텍스트 형식으로 변환하는 작업이다.
예를 들어 텍스트 역정규화는, "천구백칠십오년에"를 "1975년에"로, 그리고 "천이백원입니다" -> "1,200원입니다"로 변환하는 것을 말한다.
음성 인식에서는 인식결과를 원하는 글자 형태로 출력하기 위한 텍스트 역정규화가 필요할 수 있다.
텍스트 역정규화는 규칙 기반 방식 또는 확률모델 기반 방식으로 동작할 수 있다. 본 발명의 일실시예에서는, 확률모델 기반 방식 중에서는 WFST(Weighted Finite State Transducer) 모델을 사용하도록 제안한다.
음성 인식 텍스트가 "가격은 사만 오천원입니다" 라면, 먼저 이를 형태소 단위로 분리한다.
도시된 예시의 텍스트는, 제 1 내지 제 8 형태소인 "가격"(101-1), "은"(101-2), "사"(101-3), "만"(101-4), "오"(101-5), "천"(101-6), "원"(101-7) 및 "입니다"(101-8)로 분리될 수 있다.
이어서 분리된 형태소 각각에 대해서, 숫자나 영문으로 변환될 수 있는 모든 후보를 나열한다. 예를 들어, "사"라는 형태소(101-3)는, 숫자 "4"(101-9)로, "만"(101-4)은 "10000"(101-10)으로, "사만"(101-3, 101-4)은 "40000"(101-13)으로 변환될 수 있다.
상기 분리된 제 1 내지 제 8 형태소의 텍스트 블록과 함께, 숫자나 영문으로 변환될 수 있는 후보 형태소들 텍스트 블록이 나열되면, 이를 도 1에 도시된 바와 같이 단어 네트워크가 구성될 수 있다.
단어 네트워크가 구성되면, 각 단어간의 천이(Transition) 확률이 계산된다. 이러한 천이 확률의 계산은, 많은 개수의 훈련 데이터(training data)에 포함되어 있는 텍스트에 대한 통계 정보에 기초하여 이루어질 수 있을 것이다. 도 1에서 계산된 확률값은, 제 1 훈련 데이터를 통하여 만들어진 확률값으로 가정한다.
도 1에서 각 단어 간에 계산된 천이 확률값(102-1 ~ 102-4)은 도면에 도시된다. "가격은" 다음에 나올 수 있는 형태소는, "사", "4", "40000", "45000"이다. 따라서, 단어 네트워크 상에서 제 2 형태소(101-2)인 "은"(101-2)은, "사"(101-3), "4"(101-9), "40000"(101-13), "45000"(101-15)에 대한 텍스트 블록 각각과 서로 브랜치로 연결된다. 그리고, 각 연결로 천이될 수 있는 확률값이 도시된다.
예를 들어, "은"(101-2) 다음에 "4"(101-9)가 나오는 확률값(102-2)은 0.6(60%)이고, "40000"(101-13)이 나올 확률값(102-3)은 0.05(5%), 그리고 "사"(101-3)가 나올 확률값(102-1)은 0.1(10%) 그리고 "45000"(101-15)이 나올 확률값(102-4)은 0.25(25%)이다. 즉, "은"(101-2) 다음에 "4"(101-9)가 나올 확률이 가장 높다고 해석될 수 있다.
기술된 방식으로 각 텍스트 블록에서부터 분할되는 브랜치로 연결한 가능한 모든 경로에 대한 확률값을 계산할 수 있다.
각 텍스트 블록으로부터 분할되는 브랜치들 중에서 가장 높은 확률의 브랜치를 선택하는 방식으로 경로를 완성할 경우, 해당 단어 시퀀스가 최종 출력 문장으로 만들어질 수 있을 것이다.
도시된 예시에서 가장 높은 확률의 브랜치를 선택하여 전체 경로(110)를 완성할 경우, "가격은 4만 5천원 입니다"를 완성할 수 있을 것이다.
WFST와 같이 확률모델 기반 텍스트 역정규화 방식은 확률모델을 만들 때 사용된 텍스트 코퍼스(훈련 데이터의 종류)의 형태에 따라서 모델이 결정된다. 원하는 목적에 맞게 텍스트 코퍼스를 구성하여 모델을 학습할 수 있다. 예를 들어, '일상 생활'에 관련된 역정규화를 수행하는 경우라면, '일상 생활'과 관련되는 텍스트 코퍼스를 기초로 하여 만들어진 WFST 모델을 이용하도록 제안하는 것이다.
도 2는 본 발명의 일실시예에 따른 훈련 데이터와 WFST 모델 간의 매칭 개념도를 도시한다.
도 3은 본 발명의 일실시예에 따른 복수 개의 WFST 모델들의 출력의 예시를 도시하는 도면이다.
제 1 내지 제 3 훈련 데이터(201-1 ~ 201-3) 각각을 이용하여 제 1 내지 제 3 WFST 모델(202-1 ~ 202-3)에 대한 학습을 진행한 것으로 가정한다.
제 1 훈련 데이터(201-1)는, 일상 생활에서 흔히 쓰는 텍스트로 구성된다. 즉, 제 1 훈련 데이터(201-1)의 카테고리는 '일상 생활'으로 설정할 수 있다. 마찬가지로 제 2 훈련 데이터(201-2)의 카테고리는 '상담원 대화', 제 3 훈련 데이터(201-3)의 카테고리는 '법률 자문'인 것으로 가정하고 설명한다.
도 3의 예시에서와 같이 제 1 WFST 모델(202-1)에 기초하여 계산된 확률값으로 전체 경로를 완성할 경우, 음성 인식 텍스트인 "가격은 사만 오천원입니다"(301) 입력에 대해서 "가격은 4만 5천원 입니다"(302-1)로 출력될 수 있다.
제 2 훈련 데이터(201-2)로 훈련된 제 2 WFST 모델(202-2)에 음성 인식 텍스트인 "가격은 사만 오천원입니다"(301)가 입력될 경우, "가격은 45,000원 입니다."(302-2)로 출력될 수 있다.
요약하면, 만약 음성 인식 결과가 '일상 대화' 카테고리에 속한다는 것으로 판단되었다면, 제 1 WSFT 모델(202-1)을 이용하여 입력된 음성 인식 텍스트를 '일상 대화'에 가장 적절하도록 역정규화를 수행할 수 있는 것이다.
한편, 도 1 내지 도 3에서는, 설명의 편의성을 위하여 WFST 모델을 예시로 들었을 뿐, 본 발명이 WFST 모델에 한정되는 것은 아니다. 이하에서는, 음성 인식 텍스트를 적절한 표현 방식으로 출력해 주는 기능을 가진 구성을 '역정규화 모델'이라고 부른다.
이하, 도 4를 참조하여, 본 발명의 일실시예에 따른 음성 인식 장치(100)의 구성을 설명한다.
도 4는 본 발명의 일실시예에 따른 음성 인식 장치(100)의 블록도를 도시하는 도면이다.
본 발명의 일실시예에 따른 음성 인식 장치(100)는, 음성 인식부(401), 코퍼스 저장부(402), 모델 생성부(403), 모델 저장부(404), 카테고리 예측부(405), 모델 선택부(406), 출력부(407), 카테고리 입력부(408) 및 학습부(409)를 포함하도록 구성될 수 있다.
도 4에 도시된 구성요소들은 음성 인식 장치(100)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 음성 인식 장치(100)는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.
음성 인식부(401)는 음성 입력이 수신되면, 이를 인식하여 텍스트로 변환시킨다. 이하 본 발명의 상세한 설명에서는, 음성 인식에 의해서 변환된 텍스트를 "음성 인식 텍스트"라고 부른다.
코퍼스 저장부(402)는, 역정규화 모델을 생성하기 위한 적어도 하나의 코퍼스를 저장한다. 코퍼스 저정부(402)에 저장되어 있는 코퍼스는, 이하에서 후술하는 카테고리 각각에 대응되는 코퍼스일 수 있다. 예를 들어, 코퍼스 저장부(402)에 저장되는 코퍼스는, 일상 생활 코퍼스, 상담원 대화 코퍼스 내지 법률 자문 관련 코퍼스를 저장할 수 있다.
모델 생성부(403)는, 코퍼스 저장부(402)에 저장되어 있는 적어도 하나의 코퍼스 각각에 대해서 역정규화 모델을 생성한다.
모델 저장부(404)는 모델 생성부(403)가 생성한 적어도 하나의 역정규화 모델을 저장한다.
카테고리 예측부(405)는 음성 입력이 수신되면, 수신된 음성 입력에 대한 카테고리가 무엇인지 예측한다. 이때 예측되는 카테고리는, 기설정된 카테고리 항목 중에서 어느 하나를 의미할 수 있다. 카테고리 예측부(405)는, 음성 인식부(401)에 의해서 변환된 텍스트에 기초하여 카테고리를 예측할 수 있다.
모델 선택부(406)는, 적어도 하나의 역정규화 모델 중에서 가장 적합한 역정규화 모델을 선택한다. 예를 들어, 카테고리 예측부(405)가 예측한 카테고리에 적합한 역정규화 모델을 선택할 수 있을 것이다. 본 발명의 일실시예에 따른 모델 선택부(406)는, 예측한 카테고리에 속하는 코퍼스에 기초하여 생성된 역정규화 모델을 선택할 수 있을 것이다.
또 다른 예시로 모델 선택부(406)는, 카테고리 입력부(408)를 통하여 사용자가 입력한 카테고리에 맞는 역정규화 모델을 선택할 수 있다.
출력부(407)는, 모델 선택부(406)가 선택된 역정규화 모델에 기초하여 음성 인식 텍스트를 변환시키고, 변환 결과를 출력한다.
카테고리 입력부(408)는, 사용자로부터 직접 카테고리가 무엇인지 입력을 받기 위한 구성이다.
학습부(409)는 카테고리 예측부(405)에 대한 학습(훈련)을 수행하기 위한 구성이다. 카테고리 예측부(405)의 학습에 대해서는 이하 도 7 및 도 8을 참고하여 후술하기로 한다.
이하 도 5 및 6을 참조하여, 음성 인식 결과를 출력하는 제어 방법의 순서도를 설명한다.
도 5는 본 발명의 일실시예에 따른 음성 인식 장치(100)가 사용자로부터 카테고리를 입력 받아 역정규화 모델을 선택하는 순서도를 도시하는 도면이다.
먼저 음성 인식부(401)는 S501 단계에서 음성 입력을 수신한다. S502 단계에서 카테고리 입력부(408)는 사용자로부터 카테고리를 선택하는 입력을 수신한다. 예를 들어서 '일상 생활' 카테고리라는 입력을 수신할 수 있다.
S503 단계에서 모델 선택부(406)는, 모델 저장부(404)에 저장되어 있는 적어도 하나의 역정규화 모델 중에서, 사용자가 선택한 카테고리에 맞는 역정규화 모델을 선택한다.
S504 단계에서 음성 인식부(401)는 입력된 음성에 대하여 자동 음성 인식(ASR)을 수행하여, 음성 인식 텍스트를 출력한다.
출력부(407)는 모델 선택부(406)에 의해서 선택된 역정규화 모델에 기초하여 텍스트 역정규화를 수행하고, 텍스트 역정규화 결과를 출력한다. 이러한 텍스트 역정규화는 도 3에서 상술한 예시에서와 동일하다.
도 5에서 설명되는 제어 순서에 의할 경우, 사용자에 의해서 선택된 주제(카테고리)에 맞도록 텍스트 역정규화가 수행될 수 있을 것이다.
지금까지 상술한 도 5에서는, 사용자에 의해서 카테고리가 직접 선택이 이루어지고, 선택된 카테고리에 부합되는 역정규화 모델이 선택되었다. 이하에서 설명되는 실시예에서는, 입력된 음성에 기초하여 자동으로 카테고리를 파악(예측)하고, 파악된 결과에 기초하여 역정규화 모델을 선택하는 방법을 제안한다.
도 6은 본 발명의 일실시예에 따라, 카테고리 예측을 통한 텍스트 역정규화 순서도를 도시한다.
먼저 음성 인식부(401)는 S601 단계에서 음성 입력을 수신한다. S602 단계에서 음성 인식부(401)는 입력된 음성에 대하여 자동 음성 인식(ASR)을 수행하여, 음성 인식 텍스트를 출력한다.
S603 단계에서 카테고리 예측부(405)는, 음성 인식 텍스트에 기초하여 입력된 음성에 대한 카테고리가 무엇인지 예측한다.
S604 단계에서 모델 선택부(406)는, 모델 저장부(404)에 저장되어 있는 적어도 하나의 역정규화 모델 중에서, 예측된 카테고리에 맞는 역정규화 모델을 선택한다.
S605 단계에서 출력부(407)는 모델 선택부(406)에 의해서 선택된 역정규화 모델에 기초하여 텍스트 역정규화를 수행하고, 텍스트 역정규화 결과를 출력한다.
도 6에서 설명되는 제어 순서에 의할 경우, 입력된 음성으로부터 카테고리를 예측함으로써, 입력된 음성에 최적화된 텍스트 역정규화가 수행될 수 있을 것이다.
한편, 카테고리 예측부(405)는 훈련 데이터에 기초하여 학습이 될 수 있는 인공 신경망으로 구성되도록 제안한다. 카테고리 예측부(405)에 대한 개념에 대해서 도 7을 참조하여 보다 구체적으로 설명한다.
도 7은 본 발명의 일실시예에 따른 학습부(409)의 블록도를 도시하는 도면이다.
도 8은 본 발명의 일실시예에 따른 훈련 데이터(801)의 개념도를 도시하는 도면이다. 이하, 도 7 및 도 8을 함께 참조하여 설명한다.
본 발명의 일실시예에 따른 카테고리 예측부(405)는, 인공 신경망으로 구성될 수 있다. 상기 인공 신경망은, SVM(Support Vector Machine) 및 DNN(Deep Neural Networ) 중 하나일 수 있다.
도 7을 참조하면, 본 발명의 일실시예에 따른 학습부(409)는, 형태소 분석부(701), 벡터열 변환부(702) 및 파라미터 업데이트부(703)를 포함하도록 구성될 수 있다. 도 7에 도시된 구성요소들은 학습부(409)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 학습부(409)는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.
형태소 분석부(701)는, 훈련 데이터가 입력되면, 훈련 데이터에 포함되어 있는 분석 대상 텍스트의 형태소를 분석한다.
벡터열 변환부(702)는 형태소 분석부(701)에 의해서 형태소가 분석된 결과를 벡터열로 변환시킨다.
파라미터 업데이트부(703)는 동일한 카테고리에 속한 벡터열 간에 거리가 가까워지는 방향으로, 카테고리 예측부(405)의 파라미터를 업데이트시킨다.
도 8을 참조하면, 본 발명의 일실시예에 따른 훈련 데이터(801)는 지도 학습(Supervised Learning)을 위한 데이터일 수 있다. 즉, 훈련 데이터(801)는 분석 대상 텍스트와 상기 분석 대상 텍스트의 정답 카테고리가 하나의 세트를 이루는 데이터이며, 전체 훈련 데이터(801)는 적어도 하나의 세트로 구성될 수 있을 것이다.
도시된 도면에서는 정답 카테고리 별로 분석 대상 텍스트가 분류되어 도시되지만, 반드시 이에 한정되는 것은 아니다.
학습부(409)는, 상술한 훈련 데이터(801)를 입력을 받고, 카테고리 예측부(405)에 대한 지도 학습을 수행할 수 있다.
도 9는 본 발명의 일실시예에 따른 학습부(409)의 학습 순서도를 도시하는 도면이다. 도 10은 본 발명의 일실시예에 따른 학습부(409)의 학습 과정에 대한 개념도를 도시한다.
도 9 및 도 10을 함께 참조하여 설명한다.
S901 단계에서 학습부(409)는 한 세트의 훈련 데이터를 입력 받는다. 이때 한 세트의 훈련 데이터는, 상술한 바와 같이 분석 대상 텍스트와 상기 분석 대상 텍스트의 정답 카테고리가 매칭되어 저장된 데이터를 의미할 수 있다.
도 10의 예시에서, '일상 대화' 카테고리에 속한 제 1 분석 대상 텍스트(1001-1)가 입력될 수 있다. 즉, 제 1 분석 대상 텍스트(1001-1)에 대한 정답 카테고리는 '일상 대화' 카테고리일 수 있다.
S902 단계에서 형태소 분석부(701)는 입력된 훈련 데이터의 분석 대상 텍스트의 형태소를 분석한다. 도 10의 예시에서 제 1 분석 대상 텍스트(1001-1)에 대하여 형태소가 분석된 결과(1002-1)가 형태소 분석부(701)에 의해서 출력될 수 있다.
S903 단계에서 벡터열 변환부(702)는 형태소 분석부(701)에 의해서 형태소가 분석된 결과를 벡터열로 변환시킨다. 도 10의 예시에서 제 1 형태소 분석 결과(1002-1)가 제 1 벡터열(1003-1)로 변환되었다.
S904 단계에서 제 1 벡터열(1003-1)은, 가상의 공간 상에서 카테고리 별로 배치될 수 있다. 도 10의 예시를 참조하면, '일상 대화' 카테고리에 속한 벡터열은 가상의 공간 상에서 '○'로 표시되며, '콜센터 녹취' 카테고리에 속한 벡터열은 가상의 공간 상에서 '△'로 표시된다.
S905 단계에서 파라미터 업데이트부(703)는, 가상의 공간 상에서 서로 같은 카테고리에 속한 벡터열은 서로 가까워지고, 서로 다른 카테고리에 속한 벡터열은 서로 멀어지는 방향으로 카테고리 예측부(405)의 파라미터를 업데이트(카테고리 예측부 학습)한다.
S906 단계에서 학습부(409)는, 반복이 필요한지 여부를 판단한다. 예를 들어서 훈련 데이터(801)에 저장되어 있는 적어도 하나의 세트에 대해서 충분히 반복적으로 학습이 수행되었는지 여부에 기초하여 판단할 수 있을 것이다. 반복이 충분히 이루어졌다면, 카테고리 예측부(405)에 대한 판단을 종료할 수 있다. 반복이 충분하지 않다면, 다시 S901 단계로 복귀하여 훈련 데이터(801)에 저장되어 있는 복수 개의 세트 중 다른 세트를 입력 받아 S901 ~ S905 단계를 반복적으로 수행할 수 있다.
도 10의 예시에서 훈련 데이터(801)의 두 번째 세트로, '콜센터 녹취' 카테고리에 대한 제 2 분석 대상 텍스트(1001-2)를 입력받고, 이 세트에 대해서 형태소 분석, 벡터열 변환, 가상 공간에 배치 과정 및 파라미터 업데이트 과정(카테고리 예측부 학습)을 수행할 수 있다.
한편, 상술한 실시예에서는, 사용자의 의사와는 무관하게 최적의 출력 형태를 자동으로 결정하여 출력하였다. 이는 확률모델을 만들 때 사용된 텍스트 코퍼스가 사용자의 의사와는 무관하게 선정되었기 때문이다. 즉, '일상 대화' 카테고리로 선정된 코퍼스는, 수많은 발화자에 의하여 생성된 코퍼스에 불과할 뿐, 사용자 개인에게 최적화된 코퍼스라고 볼 수는 없기 때문이다. 만약, 학습에 사용될 수 있는 코퍼스를 사용자에게 최적화시킬 수 있다면, 해당 사용자에게 최적화된 역정규화 모델을 제공할 수 있을 것이다.
이하에서는, 사용자의 의사를 고려하여 출력 형태를 결정할 수 있는 실시예를 설명한다.
도 11은 본 발명의 일실시예에 따른 사용자 의사를 반영하기 위한 인터페이스 상태도를 도시하는 도면이다.
도시된 도면에서는 이동 단말기의 출력 화면을 예시로 설명하고 있지만, 반드시 이러한 단말기의 형태에 한정되지는 않을 것이다.
도 11 (a)를 참조하면, 이동 단말기의 디스플레이 상에 음성 인식 텍스트에 대해서 역정규화가 수행된 역정규화 문장(1101)이 표시된다. 본 발명의 일실시예에 따른 음성 인식 장치(100)는 역정규화 문장(1101)을 출력할 때, 역정규화 방식을 변경할 수 있는 일부 영역을 강조하여 출력(1102)할 수 있다. 도시된 예시에서는 역정규화 문장(1101)으로 "이는 작년에 비해 10000000만원 이상 증가한 수치다."가 출력되고 있으며, 역정규화 방식 변경이 가능한 부분으로 "10000000만원" 부분이 강조되어 출력(1102)된다.
강조된 부분(1102)이 사용자에 의해서 선택(10a)되면, 음성 인식 장치(100)는 복수 개의 선택 항목을 포함하는 팝업창(1103)을 출력할 수 있다. 도시된 예시에서는 "10000000만원"에 대한 복수 개의 선택 항목으로, "천만원", "1000만원", "1,000 만원" 및 "10,000,000원"이 포함된다. 복수 개의 선택 항목은, 음성 인식 텍스트에 대하여 변환 가능한 후보들일 수 있을 것이다.
본 발명의 일실시예에 따른 음성 인식 장치(100)는, 팝업창(1103) 상에서 어느 하나를 선택받는 입력(10b)을 통하여, 사용자의 의사를 반영할 수 있다.
팝업창(1103) 상에서 어느 하나를 선택받는 입력(10b)이 수신되면, 음성 인식 장치(100)는 선택된 항목에 대응하는 역정규화 방식으로 역정규화 문장(1101)을 변경할 수 있다. 즉, 도시된 예시에서 "이는 작년에 비해 10000000만원 이상 증가한 수치다."로 출력되던 역정규화 문장(1101)은, "이는 작년에 비해 1000만원 이상 증가한 수치다."의 재구성 문장(1101')으로 변경될 수 있다.
더 나아가, 본 발명의 일실시예에서는, 사용자에 의해서 선택된 역정규화 방식으로 훈련 데이터를 변경하도록 제안한다. 즉, 사용자는 '일상 대화' 카테고리 상에서 금액의 표시를, "10000000원"이라는 표현 대신 "1000만원"이라는 표시를 더 선호한다고 볼 수 있을 것이다. 따라서, 사용자가 선택하면 이를 학습 코퍼스(훈련 데이터)에 포함시켜 재학습시하도록 제안한다. '일상 대화' 카테고리에 속해 있는 다른 훈련 데이터(801)들에 포함되어 있는 금액 표시를, 사용자의 의사에 맞도록 변경할 필요가 있을 것이다. 변경된 훈련 데이터에 기초하여 역정규화 모델이 '재학습'될 경우, 사용자의 의사가 반영된 '일상 대화' 카테고리에 맞는 역정규화 모델을 획득할 수 있을 것이다.
한편, 사용자가 선택한 항목으로 재구성된 문장(1101')은 입출력 패턴으로 일반화하여(클래스화) 다양한 문장으로 생성하도록 제안한다. 즉, 재구성된 문장(1101') 하나만을 훈련 데이터에 추가하는 것이 아니라, 다양한 문장을 훈련 데이터에 포함시킴으로써 훈련 데이터가 충분히 사용자의 의사를 반영하도록 하기 위함이다.
도 12는 본 발명의 일실시예에 따른 음성 인식 장치(100)가 사용자의 의사에 기초하여 훈련 데이터를 변경하는 예시를 도시한다.
도 11에서 사용자에 의해서 선택된 역정규화 방식에 의하면, "10000000원"이라는 표현 대신 "1000만원"을 더 선호하는 것으로 판단할 수 있다. 이에 따라서 본 발명의 일실시예에서는, 기존에 훈련 데이터에 포함되어 있는 분석 대상 텍스트 중에서 금액을 포함하는 세트가 존재할 경우, 해당 분석 대상 텍스트의 금액 부분을 사용자의 선호 형태로 변경(예를 들면, 도 12 예시에서와 같이 65000000원 -> 6500만원)하도록 제안한다. 즉, 이와 같이 변경된 훈련 데이터(1201')를 만들고, 변경된 훈련 데이터(1201')에 기초하여 상술한 역정규화 모델을 재학습(재훈련)시킬 수 있을 것이다.
도 13은 일 실시예에 따른 음성 인식 장치(100)의 구성을 도시한 도면이다.
도 13을 참조하면, 음성 인식 장치(100)는 프로세서(1301) 및 메모리(1302)를 포함한다. 메모리(1302)는 프로세서(1301)에 의해 실행 가능한 하나 이상의 명령어를 저장한다. 프로세서(1301)는 메모리(1302)에 저장된 하나 이상의 명령어를 실행한다. 프로세서(1301)는 명령어를 실행하는 것에 의해 도 1 내지 도 12와 관련하여 위에서 설명된 하나 이상의 동작을 실행할 수 있다. 또한 도 4와 함께 상술한 본 발명의 구성은 프로세서(1301)에 의해서 실행되는 명령어에 의해서 구현되는 구성일 수 있을 것이다.
이상으로 본 발명에 따른 음성 인식 장치 및 그것의 제어 방법의 실시예를 설시하였으나 이는 적어도 하나의 실시예로서 설명되는 것이며, 이에 의하여 본 발명의 기술적 사상과 그 구성 및 작용이 제한되지는 아니하는 것으로, 본 발명의 기술적 사상의 범위가 도면 또는 도면을 참조한 설명에 의해 한정/제한되지는 아니하는 것이다. 또한 본 발명에서 제시된 발명의 개념과 실시예가 본 발명의 동일 목적을 수행하기 위하여 다른 구조로 수정하거나 설계하기 위한 기초로써 본 발명이 속하는 기술분야의 통상의 지식을 가진 자에 의해 사용되어질 수 있을 것인데, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자에 의한 수정 또는 변경된 등가 구조는 청구범위에서 기술되는 본 발명의 기술적 범위에 구속되는 것으로서, 청구범위에서 기술한 발명의 사상이나 범위를 벗어나지 않는 한도 내에서 다양한 변화, 치환 및 변경이 가능한 것이다.

Claims (10)

  1. 음성 인식 텍스트를 음성 인식 장치의 제어 방법에 있어서,
    음성 인식 텍스트를 입력 받는 단계;
    카테고리 예측기가 상기 입력된 음성 인식 텍스트의 카테고리를 예측하는 단계;
    적어도 하나의 카테고리 별로 구성된 역정규화 모델 중에서, 상기 예측된 카테고리에 대응하는 역정규화 모델을 선택하는 단계; 및
    상기 선택된 역정규화 모델에 기초하여 상기 입력된 음성 인식 텍스트에 대한 역정규화를 수행하는 단계를 포함하는,
    음성 인식 장치의 제어 방법.
  2. 제 1 항에 있어서,
    상기 카테고리 예측기는, 인공 신경망 알고리즘에 기초하고,
    상기 인공 신경망을 학습하는 단계를 더 포함하는,
    음성 인식 장치의 제어 방법.
  3. 제 2 항에 있어서, 상기 학습하는 단계는,
    분석 대상 텍스트와 상기 분석 대상 텍스트의 정답 카테고리가 하나의 세트를 이루고,
    적어도 하나의 상기 세트로 구성되는 훈련 데이터(Training Data)에 기초하여 학습이 수행되는,
    음성 인식 장치의 제어 방법.
  4. 제 3 항에 있어서,
    상기 학습하는 단계는 상기 훈련 데이터 중 하나의 세트가 입력되면, 상기 하나의 세트에 포함되는 분석 대상 텍스트에 대하여 형태소를 분석하는 단계;
    상기 형태소 분석 결과를 벡터열로 변환하는 단계를 포함하는,
    음성 인식 장치의 제어 방법.
  5. 제 4 항에 있어서, 상기 학습하는 단계는,
    동일한 정답 카테고리에 해당하는 벡터열 간에 거리가 가까워지도록 상기 인공 신경망의 파라미터를 업데이트하는,
    음성 인식 장치의 제어 방법.
  6. 음성 인식 텍스트를 음성 인식 장치에 있어서,
    카테고리 별로 적어도 하나의 역정규화 모델을 저장하는 메모리; 및
    상기 저장된 명령어들을 실행하도록 설정된 프로세서를 포함하고, 상기 프로세서는:
    음성 인식 텍스트를 입력 받고,
    카테고리 예측기가 상기 입력된 음성 인식 텍스트의 카테고리를 예측하며,
    상기 저장된 적어도 하나의 역정규화 모델 중에서, 상기 예측된 카테고리에 대응하는 역정규화 모델을 선택하고,
    상기 선택된 역정규화 모델에 기초하여 상기 입력된 음성 인식 텍스트에 대한 역정규화를 수행하는,
    음성 인식 장치.
  7. 제 6 항에 있어서,
    상기 카테고리 예측기는, 인공 신경망 알고리즘에 기초하고,
    상기 프로세서는 상기 인공 신경망을 학습시키는,
    음성 인식 장치.
  8. 제 7 항에 있어서, 상기 프로세서는 학습을 수행하는데 있어서
    분석 대상 텍스트와 상기 분석 대상 텍스트의 정답 카테고리가 하나의 세트를 이루고,
    적어도 하나의 세트로 구성되는 훈련 데이터(Training Data)에 기초하여 학습이 수행되는,
    음성 인식 장치.
  9. 제 8 항에 있어서, 상기 프로세서는 학습을 수행하는데 있어서,
    상기 훈련 데이터 중 하나의 세트가 입력되면, 상기 하나의 세트에 포함되는 분석 대상 텍스트에 대하여 형태소를 분석하고,
    상기 형태소 분석 결과를 벡터열로 변환하는,
    음성 인식 장치.
  10. 제 9 항에 있어서, 상기 프로세서는 학습을 수행하는데 있어서,
    동일한 정답 카테고리에 해당하는 벡터열 간에 거리가 가까워지도록 상기 인공 신경망의 파라미터를 업데이트하는,
    음성 인식 장치.
KR1020220022637A 2022-02-22 2022-02-22 음성 인식 장치 및 그것의 제어 방법 KR20230125872A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220022637A KR20230125872A (ko) 2022-02-22 2022-02-22 음성 인식 장치 및 그것의 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220022637A KR20230125872A (ko) 2022-02-22 2022-02-22 음성 인식 장치 및 그것의 제어 방법

Publications (1)

Publication Number Publication Date
KR20230125872A true KR20230125872A (ko) 2023-08-29

Family

ID=87802737

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220022637A KR20230125872A (ko) 2022-02-22 2022-02-22 음성 인식 장치 및 그것의 제어 방법

Country Status (1)

Country Link
KR (1) KR20230125872A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174111A (zh) * 2023-11-02 2023-12-05 浙江同花顺智能科技有限公司 重叠语音检测方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174111A (zh) * 2023-11-02 2023-12-05 浙江同花顺智能科技有限公司 重叠语音检测方法、装置、电子设备及存储介质
CN117174111B (zh) * 2023-11-02 2024-01-30 浙江同花顺智能科技有限公司 重叠语音检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108960277A (zh) 使用语言模型对序列到序列模型进行冷聚变
US10592607B2 (en) Iterative alternating neural attention for machine reading
CN109215637A (zh) 语音识别方法
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
CN110050302A (zh) 语音合成
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
CN107077841A (zh) 用于文本到语音的超结构循环神经网络
CN112470143A (zh) 痴呆症预测装置、预测模型生成装置及痴呆症预测用程序
US11875120B2 (en) Augmenting textual data for sentence classification using weakly-supervised multi-reward reinforcement learning
Li et al. Mutual-learning sequence-level knowledge distillation for automatic speech recognition
CN112837669A (zh) 语音合成方法、装置及服务器
CN112669845A (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
KR20230125872A (ko) 음성 인식 장치 및 그것의 제어 방법
KR20210051523A (ko) 도메인 자동 분류 대화 시스템
Rajendran et al. A robust syllable centric pronunciation model for Tamil text to speech synthesizer
Nenadić et al. Computational modelling of an auditory lexical decision experiment using jTRACE and TISK
Sawant et al. Analytical and Sentiment based text generative chatbot
Ribeiro et al. Learning word vector representations based on acoustic counts
CN112133325B (zh) 错误音素识别方法及装置
Chowdhury et al. Bangla grapheme to phoneme conversion using conditional random fields
CN114333760A (zh) 一种信息预测模块的构建方法、信息预测方法及相关设备
Kreyssig Deep learning for user simulation in a dialogue system
JP2017167378A (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
US20240144915A1 (en) Speech recognition apparatus, speech recognition method, learning apparatus, learning method, and recording medium
Ghadekar et al. ASR for Indian regional language using Nvidia’s NeMo toolkit