KR20210158382A - 음성인식을 위한 전자장치와 그 데이터 처리 방법 - Google Patents

음성인식을 위한 전자장치와 그 데이터 처리 방법 Download PDF

Info

Publication number
KR20210158382A
KR20210158382A KR1020217040504A KR20217040504A KR20210158382A KR 20210158382 A KR20210158382 A KR 20210158382A KR 1020217040504 A KR1020217040504 A KR 1020217040504A KR 20217040504 A KR20217040504 A KR 20217040504A KR 20210158382 A KR20210158382 A KR 20210158382A
Authority
KR
South Korea
Prior art keywords
language
data
unknown
speech
character data
Prior art date
Application number
KR1020217040504A
Other languages
English (en)
Inventor
지창진
황명진
강민호
오영대
Original Assignee
주식회사 엘솔루
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘솔루 filed Critical 주식회사 엘솔루
Publication of KR20210158382A publication Critical patent/KR20210158382A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

개시된 전자장치의 데이터 처리 방법은, 제1 언어의 문자 데이터에 대한 제1 언어 음성합성 처리를 통하여 제1 언어의 음성 데이터를 생성하는 단계와, 상기 제1 언어의 음성 데이터에 대한 제2 언어 음성인식 처리를 통하여 미지의 문자 데이터를 생성하는 단계와, 상기 미지의 문자 데이터와 상기 제1 언어의 문자 데이터를 학습 데이터 셋으로 이용하여 시퀀스투시퀀스(Sequence To Sequence) 모델을 학습시켜 미지의 문자를 제1 언어로 변환하는 언어변환 모델을 획득하는 단계를 포함한다.

Description

음성인식을 위한 전자장치와 그 데이터 처리 방법
본 발명은 음성인식을 위한 전자장치와 이러한 전자장치의 데이터 처리 방법에 관한 것이다.
주지하고 있는 바와 같이, 음성인식(STT, Speech To Text)은 음성 데이터에 대응하는 문자 데이터를 생성하는 기술이다.
통상의 음성인식 기술에 있어서, 특정 언어를 위한 음성인식 모델을 개발한다는 것은 발음모델(pronunciation model, PM), 음향모델(acoustic model, AM) 및 언어 모델(Language Model)을 확보하는 것을 의미한다. 발음모델은 G2P(grapheme to phoneme)라고도 하며, 철자와 단어에 대한 발음 사전을 만들어서 음성 정보와 문자 정보를 상호 변환해 주는 역할을 한다. 음향모델은 다양한 발음과 억양을 학습하여 발음을 추정하는 모델이고, 실제 서비스를 제공하면서 새로운 사용자들의 발음 데이터를 수집해 꾸준히 추가로 학습할 수도 있다. 언어모델은 단어 시퀀스에 확률을 할당(assign)하는 모델로서, 가장 자연스러운 단어 시퀀스를 찾아내는 모델이다.
이러한 발음모델, 음향모델 및 언어모델은 새로운 언어를 위한 음성인식 장치를 개발 및 제작할 때에 우선 확보하여야 하는 기술이며, 이들 모델을 개발하는 데에는 많은 시간과 비용이 소요된다.
특히, 음향모델의 훈련을 위해서는 음성 데이터 및 이에 대응하는 문자 데이터로 이루어진 음성-문자 병렬 데이터를 확보하여야 한다. 그런데, 대용량의 음성-문자 병렬 데이터를 확보하여야만 음성인식 성능을 높일 수 있기 때문에, 기존에 구축된 데이터를 확보하지 못한다면 시간과 비용이 많이 소요될 수 밖에 없다.
실시예에 의하면, 기 개발된 언어를 위한 음성인식 알고리즘 및 음성합성(TTS, Text To Speech) 알고리즘을 이용하여 새로운 언어를 위한 언어변환 모델을 획득하는 음성인식을 위한 전자장치와 그 데이터 처리 방법을 제공한다.
기술적 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
제1 관점에 따른 전자장치의 데이터 처리 방법은, 제1 언어의 문자 데이터에 대한 제1 언어 음성합성 처리를 통하여 제1 언어의 음성 데이터를 생성하는 단계와, 상기 제1 언어의 음성 데이터에 대한 제2 언어 음성인식 처리를 통하여 미지의 문자 데이터를 생성하는 단계와, 상기 미지의 문자 데이터와 상기 제1 언어의 문자 데이터를 학습 데이터 셋으로 이용하여 시퀀스투시퀀스(Sequence To Sequence) 모델을 학습시켜 미지의 문자를 제1 언어로 변환하는 언어변환 모델을 획득하는 단계를 포함한다.
제2 관점에 따른 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체의 상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면, 제1 언어의 문자 데이터에 대한 제1 언어 음성합성 처리를 통하여 제1 언어의 음성 데이터를 생성하는 단계와, 상기 제1 언어의 음성 데이터에 대한 제2 언어 음성인식 처리를 통하여 미지의 문자 데이터를 생성하는 단계와, 상기 미지의 문자 데이터와 상기 제1 언어의 문자 데이터를 학습 데이터 셋으로 이용하여 시퀀스투시퀀스 모델을 학습시켜 미지의 문자를 제1 언어로 변환하는 언어변환 모델을 획득하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함한다.
제3 관점에 따른 전자장치는, 제1 언어의 문자 데이터가 저장된 저장부와, 데이터를 처리하는 제어부를 포함하고, 상기 제어부는, 상기 제1 언어의 문자 데이터에 대한 제1 언어 음성합성 처리를 통하여 제1 언어의 음성 데이터를 생성하며, 상기 제1 언어의 음성 데이터에 대한 제2 언어 음성인식 처리를 통하여 미지의 문자 데이터를 생성하고, 상기 미지의 문자 데이터와 상기 제1 언어의 문자 데이터를 학습 데이터 셋으로 이용하여 시퀀스투시퀀스 모델을 학습시켜 미지의 문자를 제1 언어로 변환하는 언어변환 모델을 획득한다.
실시예에 의하면, 기 개발된 언어를 위한 음성인식 알고리즘 및 음성합성 알고리즘을 이용하여 새로운 언어를 위한 언어변환 모델을 획득할 수 있고, 이를 이용하여 새로운 언어에 대한 음성인식 처리를 수행할 수 있다.
그러므로, 새로운 언어를 위한 음성인식 장치를 개발 및 제작할 때에, 많은 시간과 비용이 소요되는 음향모델을 위한 음성-문자 병렬 데이터를 직접 확보할 필요가 없다. 아울러, 발음모델 또한 개발할 필요가 없다. 따라서, 소요 시간 및 소요 비용이 감소하는 효과가 있다.
도 1은 본 발명의 실시예에 따른 음성인식을 위한 전자장치의 구성도이다.
도 2는 본 발명의 실시예에 따른 음성인식을 위한 전자장치의 데이터 처리 방법을 설명하기 위한 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다름을 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, '포함하다' 또는 '구성하다' 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 발명의 실시예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한 어떤 부분이 어떤 구성 요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 실시예에 따른 음성인식을 위한 전자장치(100)의 구성도이다.
도 1에 나타낸 바와 같이 실시예에 따른 전자장치(100)는 입력부(110), 저장부(120), 제어부(130) 및 출력부(140)를 포함할 수 있다.
입력부(110)는 제1 언어에 대한 음성인식(STT, Speech To Text) 과정 중에 제1 언어의 인식대상 음성 데이터를 입력 받아 제어부(130)에 제공한다.
저장부(120)에는 입력부(110)를 통하여 입력되는 제1 언어의 인식대상 음성 데이터가 저장될 수 있다. 또, 저장부(120)에는 제1 언어의 문자 데이터, 제1 언어를 위한 음성합성(TTS, Text To Speech) 모델, 제2 언어를 위한 음성인식 모델, 제1 언어를 위한 언어변환 모델로 학습되기 전의 시퀀스투시퀀스(Sequence To Sequence) 모델 등이 사전에 저장될 수 있다. 또, 저장부(120)에는 제어부(130)에 의하여 생성된 제1 언어의 음성 데이터, 미지의 문자 데이터, 제1 언어의 문자 데이터, 인식대상 문자 데이터, 제1 언어의 음성인식 데이터 등이 저장될 수 있다.
제어부(130)는 제1 언어를 위한 언어변환 모델을 획득할 수 있고, 제1 언어의 인식대상 음성 데이터에 대한 음성인식 처리를 통하여 제1 언어의 문자 데이터를 획득할 수 있다. 이러한 제어부(130)는 예를 들어, 마이크로프로세서(microprocessor) 등과 같은 컴퓨팅 연산수단을 포함할 수 있다.
이러한 제어부(130)는 제1 언어의 문자 데이터에 대한 제1 언어 음성합성 처리를 통하여 제1 언어의 음성 데이터를 생성할 수 있다. 그리고, 제어부(130)는 제1 언어의 음성 데이터에 대한 제2 언어 음성인식 처리를 통하여 미지의 문자 데이터를 생성할 수 있다. 그리고, 제어부(130)는 미지의 문자 데이터와 제1 언어의 문자 데이터를 학습 데이터 셋으로 이용하여 시퀀스투시퀀스 모델을 학습시켜 미지의 문자를 제1 언어로 변환하는 언어변환 모델을 획득할 수 있다. 또한, 제어부(130)는 제1 언어의 인식대상 음성 데이터에 대한 제2 언어 음성인식 처리를 통하여 인식대상 문자 데이터를 생성할 수 있다. 그리고, 제어부(130)는 인식대상 문자 데이터를 학습된 언어변환 모델에 입력하여 언어변환 모델의 출력으로서 제1 언어의 음성인식 데이터를 획득할 수 있다.
한편, 제어부(130)는 제1 언어의 음성 데이터에 대한 제2 언어 음성인식 처리를 통하여 생성된 미지의 문자 데이터를 제2 언어의 음절 단위 또는 음소 단위로 단위화할 수 있다. 그리고, 제어부(130)는 단위화된 미지의 문자 데이터와 제1 언어의 문자 데이터를 시퀀스투시퀀스 모델의 학습 데이터 셋으로 이용할 수 있다. 또한, 제어부(130)는 제1 언어의 인식대상 음성 데이터에 대한 제2 언어 음성인식 처리를 통하여 생성된 인식대상 문자 데이터를 제2 언어의 음절 단위 또는 음소 단위로 단위화할 수 있다. 그리고, 제어부(130)는 단위화된 인식대상 문자 데이터를 언어변환 모델에 입력하여 제1 언어의 음성인식 데이터를 획득할 수 있다.
출력부(140)는 제어부(130)에 의하여 획득된 제1 언어를 위한 언어변환 모델을 출력하거나 언어변환 모델이 출력하는 제1 언어의 음성인식 데이터를 출력할 수 있다. 예를 들어, 출력부(140)는 출력 인터페이스를 포함할 수 있고, 제어부(130)의 제어에 따라 언어변환 모델과 제1 언어의 음성인식 데이터를 출력 인터페이스에 연결된 다른 전자장치로 출력할 수 있다. 또는, 출력부(140)는 네트워크 카드를 포함할 수 있고, 제어부(130)의 제어에 따라 언어변환 모델과 제1 언어의 음성인식 데이터를 네트워크를 통하여 송신할 수도 있다.
도 2는 본 발명의 실시예에 따른 음성인식을 위한 전자장치(100)의 데이터 처리 방법을 설명하기 위한 흐름도이다.
이하, 도 1 및 도 2를 참조하여 본 발명의 실시예에 따른 전자장치(100)가 제1 언어를 위한 언어변환 모델의 획득과 제1 언어에 대한 음성인식 처리를 위하여 각종 데이터를 처리하는 과정에 대하여 살펴보기로 한다.
전자장치(100)의 저장부(120)에 제1 언어를 위한 음성합성 모델, 제2 언어를 위한 음성인식 모델, 제1 언어를 위한 언어변환 모델로 학습되기 전의 시퀀스투시퀀스 모델 등을 사전에 저장할 수 있다. 다만, 이처럼 여러 개의 모델들을 저장부(120)에 미리 저장하는 것은 실시예에 의한 것이다. 예를 들어, 전자장치(100)의 제어부(130)에 의한 데이터 처리 과정 중에 제1 언어를 위한 음성합성 모델, 제2 언어를 위한 음성인식 모델, 제1 언어를 위한 언어변환 모델로 학습되기 전의 시퀀스투시퀀스 모델 등이 입력부(110)를 통하여 입력될 수 있다.
이처럼, 제1 언어를 위한 음성합성 모델과 제2 언어를 위한 음성인식 모델이 저장부(120)에 사전 저장되거나 입력부(110)를 통하여 입력될 수 있다는 것은 제1 언어의 음성합성(TTS, Text To Speech) 알고리즘과 제2 언어를 위한 음성인식(STT, Speech To Text) 알고리즘이 개발 및 확보된 상황을 의미한다. 이러한 상황에서 제어부(130)는 제1 언어의 음성합성 알고리즘 및 제2 언어를 위한 음성인식 알고리즘을 활용하여 제1 언어를 위한 언어변환 모델을 획득할 수 있다.
먼저, 제어부(130)는 저장부(120)에 저장된 제1 언어의 문자 데이터에 대하여 제1 언어의 음성합성 알고리즘을 이용한 제1 언어 음성합성 처리를 통하여 제1 언어의 음성 데이터를 생성한다(S210).
그리고, 단계 S210에서 생성된 제1 언어의 음성 데이터에 대하여 제2 언어의 음성인식 알고리즘을 이용한 제2 언어 음성인식 처리를 통하여 미지의 문자 데이터를 생성한다. 여기서, 음성인식 알고리즘은 제2 언어를 위한 것인데 해당 음성인식 알고리즘에 입력되는 음성 데이터는 제1 언어이기 때문에 해당 음성인식 알고리즘이 출력하는 문자 데이터는 제1 언어도 아니고 제2 언어도 아닌 미지의 문자 데이터라 할 수 있다(S220).
이어서, 제어부(130)는 단계 S220에서 생성된 미지의 문자 데이터를 제2 언어의 음절 단위 또는 음소 단위로 단위화할 수 있다. 이처럼, 미지의 문자 데이터를 단위화하여 얻을 수 있는 이득은 아래에서 설명하기로 한다(S230).
그리고, 제어부(130)는 단계 S230에서 단위화된 미지의 문자 데이터와 단계 S210에서 이용된 제1 언어의 문자 데이터를 학습 데이터 셋으로 이용하여 시퀀스투시퀀스 모델을 학습시켜 미지의 문자 데이터를 제1 언어로 변환하는 언어변환 모델을 획득한다. 이러한 모델 학습 과정은 단계 S230에서 단위화된 미지의 문자 데이터를 이용하지 않고, 단위화되기 전인 단계 S220의 미지의 문자 데이터를 학습에 이용할 수도 있다. 즉, 단계 S230은 생략할 수도 있다. 다만, 음절 단위 또는 음소 단위로 단위화하는 경우가 언어의 변화에 따른 변동이 적기 때문에 단계 S230을 수행하는 경우가 이득이 더 많다고 할 수 있다. 예를 들어, 이렇게 획득된 제1 언어를 위한 언어변환 모델은 제어부(130)의 제어에 따라 저장부(120)에 저장되거나 출력부(140)를 통하여 출력될 수 있다(S240).
한편, 전자장치(100)의 입력부(110)는 제1 언어의 인식대상 음성 데이터를 입력 받아 제어부(130)에 제공할 수 있다. 그러면, 제어부(130)는 제1 언어의 인식대상 음성 데이터에 대하여 제2 언어의 음성인식 알고리즘을 이용한 제2 언어 음성인식 처리를 통하여 인식대상 문자 데이터를 생성한다(S250).
이어서, 제어부(130)는 단계 S250에서 생성된 인식대상 문자 데이터를 제2 언어의 음절 단위 또는 음소 단위로 단위화할 수 있다. 이처럼, 인식대상 문자 데이터를 단위화하는 것은 단계 S230과 마찬가지로 단위화에 따른 이득을 얻기 위한 것이고, 단계 S230과 마찬가지로 생략할 수도 있다(S260).
다음으로, 제어부(130)는 단계 S260에서 단위화된 인식대상 문자 데이터를 단계 S240에서 획득된 언어변환 모델에 입력하고, 해당 언어변환 모델의 출력으로서 제1 언어의 문자 데이터를 획득한다. 즉, 단계 S250의 제1 언어의 인식대상 음성 데이터에 대한 음성인식 결과로서 제1 언어의 음성인식 데이터를 획득하는 것이다. 예를 들어, 이렇게 획득된 제1 언어의 문자 데이터는 제어부(130)의 제어에 따라 저장부(120)에 저장되거나 출력부(140)를 통하여 출력될 수 있다(S270).
지금까지 설명한 바와 같이 실시예에 의하면, 기 개발된 언어를 위한 음성인식 알고리즘 및 음성합성 알고리즘을 이용하여 새로운 언어를 위한 언어변환 모델을 획득할 수 있고, 이를 이용하여 새로운 언어에 대한 음성인식 처리를 수행할 수 있다.
그러므로, 새로운 언어를 위한 음성인식 장치를 개발 및 제작할 때에, 많은 시간과 비용이 소요되는 음향모델을 위한 음성-문자 병렬 데이터를 직접 확보할 필요가 없다. 아울러, 발음모델 또한 개발할 필요가 없다. 따라서, 소요 시간 및 소요 비용이 감소된다.
본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (9)

  1. 전자장치의 데이터 처리 방법으로서,
    제1 언어의 문자 데이터에 대한 제1 언어 음성합성 처리를 통하여 제1 언어의 음성 데이터를 생성하는 단계와,
    상기 제1 언어의 음성 데이터에 대한 제2 언어 음성인식 처리를 통하여 미지의 문자 데이터를 생성하는 단계와,
    상기 미지의 문자 데이터와 상기 제1 언어의 문자 데이터를 학습 데이터 셋으로 이용하여 시퀀스투시퀀스(Sequence To Sequence) 모델을 학습시켜 미지의 문자를 제1 언어로 변환하는 언어변환 모델을 획득하는 단계를 포함하는
    데이터 처리 방법.
  2. 제1항에 있어서,
    상기 생성된 미지의 문자 데이터를 제2 언어의 음절 단위 또는 음소 단위로 단위화하는 단계를 더 포함하고,
    상기 언어변환 모델을 획득하는 단계는, 상기 단위화된 미지의 문자 데이터와 상기 제1 언어의 문자 데이터를 상기 학습 데이터 셋으로 이용하는
    데이터 처리 방법.
  3. 제1항에 있어서,
    제1 언어의 인식대상 음성 데이터에 대한 상기 제2 언어 음성인식 처리를 통하여 인식대상 문자 데이터를 생성하는 단계와,
    상기 인식대상 문자 데이터를 상기 언어변환 모델에 입력하여 상기 언어변환 모델의 출력으로서 상기 제1 언어의 음성인식 데이터를 획득하는 단계를 더 포함하는
    데이터 처리 방법.
  4. 제3항에 있어서,
    상기 생성된 미지의 문자 데이터를 제2 언어의 음절 단위 또는 음소 단위로 단위화하는 단계와,
    상기 생성된 인식대상 문자 데이터를 상기 제2 언어의 음절 단위 또는 음소 단위로 단위화하는 단계를 더 포함하고,
    상기 학습시키는 단계는, 상기 단위화된 미지의 문자 데이터와 상기 제1 언어의 문자 데이터를 상기 학습 데이터 셋으로 이용하며,
    상기 제1 언어의 음성인식 데이터를 획득하는 단계는, 상기 단위화된 인식대상 문자 데이터를 상기 언어변환 모델에 입력하는
    데이터 처리 방법.
  5. 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
    제1 언어의 문자 데이터에 대한 제1 언어 음성합성 처리를 통하여 제1 언어의 음성 데이터를 생성하는 단계와,
    상기 제1 언어의 음성 데이터에 대한 제2 언어 음성인식 처리를 통하여 미지의 문자 데이터를 생성하는 단계와,
    상기 미지의 문자 데이터와 상기 제1 언어의 문자 데이터를 학습 데이터 셋으로 이용하여 시퀀스투시퀀스(Sequence To Sequence) 모델을 학습시켜 미지의 문자를 제1 언어로 변환하는 언어변환 모델을 획득하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는
    컴퓨터 판독 가능한 기록매체.
  6. 제1 언어의 문자 데이터가 저장된 저장부와,
    데이터를 처리하는 제어부를 포함하고,
    상기 제어부는,
    상기 제1 언어의 문자 데이터에 대한 제1 언어 음성합성 처리를 통하여 제1 언어의 음성 데이터를 생성하며, 상기 제1 언어의 음성 데이터에 대한 제2 언어 음성인식 처리를 통하여 미지의 문자 데이터를 생성하고, 상기 미지의 문자 데이터와 상기 제1 언어의 문자 데이터를 학습 데이터 셋으로 이용하여 시퀀스투시퀀스(Sequence To Sequence) 모델을 학습시켜 미지의 문자를 제1 언어로 변환하는 언어변환 모델을 획득하는
    전자장치.
  7. 제6항에 있어서,
    상기 제어부는, 상기 생성된 미지의 문자 데이터를 제2 언어의 음절 단위 또는 음소 단위로 단위화하고, 상기 단위화된 미지의 문자 데이터와 상기 제1 언어의 문자 데이터를 상기 학습 데이터 셋으로 이용하는
    전자장치.
  8. 제6항에 있어서,
    제1 언어의 인식대상 음성 데이터를 입력 받는 입력부를 더 포함하고,
    상기 제어부는, 상기 제1 언어의 인식대상 음성 데이터에 대한 상기 제2 언어 음성인식 처리를 통하여 인식대상 문자 데이터를 생성하고, 상기 인식대상 문자 데이터를 상기 언어변환 모델에 입력하여 상기 언어변환 모델의 출력으로서 상기 제1 언어의 음성인식 데이터를 획득하는
    전자장치.
  9. 제8항에 있어서,
    상기 제어부는, 상기 생성된 미지의 문자 데이터를 제2 언어의 음절 단위 또는 음소 단위로 단위화하며, 상기 생성된 인식대상 문자 데이터를 상기 제2 언어의 음절 단위 또는 음소 단위로 단위화하고, 상기 단위화된 미지의 문자 데이터와 상기 제1 언어의 문자 데이터를 상기 학습 데이터 셋으로 이용하며, 상기 단위화된 인식대상 문자 데이터를 상기 언어변환 모델에 입력하는
    전자장치.
KR1020217040504A 2019-11-28 2019-11-28 음성인식을 위한 전자장치와 그 데이터 처리 방법 KR20210158382A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/016561 WO2021107189A1 (ko) 2019-11-28 2019-11-28 음성인식을 위한 전자장치와 그 데이터 처리 방법

Publications (1)

Publication Number Publication Date
KR20210158382A true KR20210158382A (ko) 2021-12-30

Family

ID=76130624

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217040504A KR20210158382A (ko) 2019-11-28 2019-11-28 음성인식을 위한 전자장치와 그 데이터 처리 방법

Country Status (2)

Country Link
KR (1) KR20210158382A (ko)
WO (1) WO2021107189A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7684988B2 (en) * 2004-10-15 2010-03-23 Microsoft Corporation Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
AU2017347995A1 (en) * 2016-10-24 2019-03-28 Semantic Machines, Inc. Sequence to sequence transformations for speech synthesis via recurrent neural networks
CA3206223A1 (en) * 2017-03-29 2018-10-04 Google Llc End-to-end text-to-speech conversion
KR102058657B1 (ko) * 2017-12-11 2019-12-23 주식회사 엘솔루 자동 음성인식 시스템 및 이의 도메인 적응 방법
KR102199050B1 (ko) * 2018-01-11 2021-01-06 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Also Published As

Publication number Publication date
WO2021107189A1 (ko) 2021-06-03

Similar Documents

Publication Publication Date Title
KR102246943B1 (ko) 다중 언어 텍스트-음성 합성 방법
US10741170B2 (en) Speech recognition method and apparatus
JP5405672B2 (ja) 外国語学習装置及び対話システム
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
CN111339278B (zh) 训练话术生成模型、生成应答话术的方法和装置
US20060041429A1 (en) Text-to-speech system and method
KR102152902B1 (ko) 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
CN111145718A (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN108074562B (zh) 语音识别装置、语音识别方法以及存储介质
CN112669845B (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
JP2019101065A (ja) 音声対話装置、音声対話方法及びプログラム
KR20210059995A (ko) 학습 기반의 외국어 말하기 평가 방법 및 그 시스템
CN113628608A (zh) 语音生成方法、装置、电子设备及可读存储介质
KR20210158382A (ko) 음성인식을 위한 전자장치와 그 데이터 처리 방법
WO2017159207A1 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
KR102288051B1 (ko) 딥러닝 기반 엔드투엔드 음성 합성 시스템의 음성 합성 경량화 방법
KR102598304B1 (ko) Stt 변환 방법 및 장치
JP2001188556A (ja) 音声認識方法及び装置
KR102369923B1 (ko) 음성 합성 시스템 및 이의 방법
JP2010224152A (ja) 音声対話装置及びプログラム
CN116597809A (zh) 多音字消歧方法、装置、电子设备及可读存储介质
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法
CN118154198A (zh) 大语言模型的微调方法、召回应答方法及装置
Bharthi et al. Unit selection based speech synthesis for converting short text message into voice message in mobile phones

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E601 Decision to refuse application