KR20170103209A - 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 - Google Patents

원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 Download PDF

Info

Publication number
KR20170103209A
KR20170103209A KR1020160025685A KR20160025685A KR20170103209A KR 20170103209 A KR20170103209 A KR 20170103209A KR 1020160025685 A KR1020160025685 A KR 1020160025685A KR 20160025685 A KR20160025685 A KR 20160025685A KR 20170103209 A KR20170103209 A KR 20170103209A
Authority
KR
South Korea
Prior art keywords
information
speech
generating
synthesized
voice
Prior art date
Application number
KR1020160025685A
Other languages
English (en)
Other versions
KR102525209B1 (ko
Inventor
윤승
김기현
김상훈
김윤영
김정세
이민규
이수종
이영직
최무열
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160025685A priority Critical patent/KR102525209B1/ko
Priority to US15/214,215 priority patent/US10108606B2/en
Publication of KR20170103209A publication Critical patent/KR20170103209A/ko
Application granted granted Critical
Publication of KR102525209B1 publication Critical patent/KR102525209B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F17/2809
    • G06F17/289
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/75Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

본 발명은 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법에 관한 것으로서, 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템은 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 음성 인식 모듈, 상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 자동 번역 모듈, 및 상기 합성 대상 번역문에 대한 합성음을 생성하는 음성 합성 모듈을 포함한다.

Description

원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법{Simultaneous interpretation system for generating a synthesized voice similar to the native talker's voice and method thereof}
본 발명은 자동 통역 기술에 관한 것으로, 특히 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법에 관한 것이다.
기존 자동통역기에서는 상대방에게 전달되는 음성 합성음에 대한 특별한 고려가 없이 번역된 문장만을 이용하여 중립된 합성음으로 생성하는 것이 일반적이었다. 이보다 진보된 기술에서도, 원시 발화자의 성별을 이용해 남녀 목소리를 구분해 합성하는 정도만을 제안하고 있다.
자동 통역이 아닌 음성 합성 기술만을 고려할 때도, 감정을 표현하고자 하는 시도는 존재하였으나, 이는 주어진 텍스트 문장에 의존해서 행복, 슬픔, 분노 등의 몇 가지 감정을 표현할 수 있도록 합성하는 것에 지나지 않았다.
경우에 따라서, 로봇 등과 같은 대화 시스템에 있어서 대화 상대방 인간의 개인 운율 모델 정보를 이용해 분노, 두려움, 행복, 슬픔 등과 같은 감정 운율 구조를 분석하고 이를 이용해 로봇 측에서 발화하는 합성음에 감정 정보를 가미하고자 하는 시도가 있었다. 그러나, 이는 대화 상대방의 음성 특성을 이용하는 것으로, 발화자 본인의 음성이 번역되어 합성되는 자동통역에서와는 다른 방향의 접근이다. 또한, 상대방의 기본 감정을 정의하고 이를 이용해 감정 정보를 부여하기 때문에, 원시 발화자의 음성 특징을 그대로 모사하여 번역, 합성함으로써, 원시 발화자의 발화 의도와 감정을 동일하게 통역 상대방에게 전달하고자 하는 자동통역 상황에는 적합하지 않다.
한편, 국제표준화기구인 ISO/IEC JTC1 SC35 User Interface의 WG4 Culture and Linguistic Adaptability에서는 2015년 1월 회의에서 다국어 자동통역의 사용자인터페이스를 회원국의 투표를 거쳐 새로운 NP(New Project)로 선정하였다.
본 발명의 목적은 원시 발화자의 목소리와 유사한 특성을 갖는 번역된 합성음을 생성하는 자동 통역 시스템 및 방법을 제공함에 있다.
전술한 과제를 달성하기 위한 본 발명의 일 양상에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템은 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 음성 인식 모듈, 상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 자동 번역 모듈, 및 상기 합성 대상 번역문에 대한 합성음을 생성하는 음성 합성 모듈을 포함한다.
상기 음성 인식 모듈은 아날로그 형태의 상기 원시 음성 신호로부터 단어 및 문장을 추출하여 디지털 형태의 텍스트 데이터로 변환하는 단어 및 문장 추출부, 상기 원시 음성 신호에서 음높이 및 음높이 궤적을 추출하는 음높이 추출부, 상기 원시 음성 신호에서 발성 강도를 추출하는 발성 강도 추출부, 상기 원시 음성 신호에서 발화 속도를 측정하여 추출하는 발화 속도 추출부, 및 상기 원시 음성 신호에서 성도 특징 파라미터를 추출하는 성도 특징 추출부를 포함한다.
상기 음높이 추출부는 상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출한다.
상기 발성 강도 추출부는 추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장한다.
상기 발화 속도 추출부는 상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장한다.
상기 성도 특징 추출부는 MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 적어도 하나의 특징 파라미터를 추출한다.
상기 자동 번역 모듈은 규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출한다.
상기 자동 번역 모듈은 통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출한다.
상기 음성 합성 모듈은 상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 전처리부, 변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 발음 변환부, 상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하는 운율 처리부, 및 운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 합성음 생성부를 포함한다.
상기 운율 처리부는 상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 운율을 부여한다.
상기 합성음 생성부는 상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성한다.
한편, 전술한 과제를 달성하기 위한 본 발명의 다른 양상에 따른 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법은 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성 신호에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 단계, 상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 단계, 및 상기 합성 대상 번역문에 대한 합성음을 생성하는 단계를 포함한다.
상기 특성 정보를 추출하는 단계는 상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출한다.
상기 특성 정보를 추출하는 단계는 추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장한다.
상기 특성 정보를 추출하는 단계는 상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장한다.
상기 특성 정보를 추출하는 단계는 MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 적어도 하나의 특징 파라미터를 추출한다.
상기 합성 대상 번역문을 생성하는 단계는 규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출하며, 통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출한다.
상기 합성음을 생성하는 단계는 상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 단계, 변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 단계, 상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하여 운율을 처리하는 단계, 및 운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 단계를 포함한다.
상기 운율을 처리하는 단계는 상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 운율을 부여한다.
상기 검색 결과를 기반으로 합성음을 생성하는 단계는 상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성한다.
본 발명의 실시예에 따르면, 자동통역 상황에서 사용자의 발화 의도 및 감정과 유사한 특성을 지니는 번역된 합성음을 상대방에게 전달함으로써, 기계와 대화하는 것 같은 느낌을 주는 현재의 자동 통역기보다 자연성을 대폭 개선할 수 있으며, 또한 외국인과의 대화 과정에서 더욱 자연스럽게 상대방의 말을 이해할 수 있어 자동통역 성능 개선 효과 또한 동시에 얻을 수 있다.
또한, 본 발명의 실시예에 따르면, 각 대화 상대방의 음성 특징이 그대로 전달되므로, 여러명이 동시에 발화하는 다자간 자동 통역 상황에서 현재 말하고 있는 사람이 누구인지를 분명히 구분할 수 있는 효과가 있다.
아울러, 본 발명의 실시예에 따르면, 원시 발화자의 목소리 특성을 그대로 번역된 합성음에 실어 전달함으로써, 궁극적으로는 자동통역기계를 이용해 대화하는 것이 아니라 사람과 자연스럽게 직접 대화하는 것과 같은 형상을 실현할 수 있다.
도 1은 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 구성도.
도 2는 본 발명의 실시예에 따른 자동 통역 시스템의 음성 인식 모듈의 상세 구성도.
도 3은 본 발명의 실시예에 따른 자동 통역 시스템의 음성 합성 모듈의 상세 구성도.
도 4는 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 방법 흐름도.
도 5는 본 발명의 실시예에 따른 원시 음성의 특성 정보를 추출하는 방법 흐름도.
도 6은 본 발명의 실시예에 따른 원시 음성의 특성을 갖는 합성음을 생성 및 변환하는 방법 흐름도.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가급적 동일한 부호를 부여하고, 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있는 경우에는 그 상세한 설명은 생략한다.
도 1은 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 구성도이다.
도 1에 도시된 바와 같이, 자동 통역 시스템(100)은 음성 인식 모듈(110), 자동 번역 모듈(120) 및 음성 합성 모듈(130)을 포함한다. 아울러, 각 모듈(음성 인식 모듈(110), 자동 번역 모듈(120) 및 음성 합성 모듈(130))에서 추출되는 정보 및 동작을 위해 이용되는 정보는 별도의 데이터베이스(140)에 저장될 수 있다.
음성 인식 모듈(110)은 화자(원시 발화자)가 발화하는 원시 음성에 대한 원시 음성 신호를 수신하고, 수신되는 원시 음성 신호 에서 원시 음성의 특성 정보를 추출한다. 음성 인식 모듈(110)은 원시 발화자의 음성 입력이 완료되면, 통상적인 음성 인식 수행 절차를 거쳐 인식된 단어와 문장을 추출하는 동시에 추가 정보들을 추출한다. 여기서, 추가 정보들은 음높이(Pitch) 정보, 강도(Intensity) 정보, 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보일 수 있다.
이를 위해, 음성 인식 모듈(110)은 도 2에 도시된 바와 같이 단어 및 문장 추출부(111), 음높이 추출부(112), 발성 강도 추출부(113), 발화 속도 추출부(114) 및 성도 특징 추출부(115)를 포함한다. 아울러, 음성 인식 모듈(110)의 각 추출부(111~115)에서 추출된 정보는 별도의 음성 특징 데이터베이스(141)에 저장될 수 있다.
단어 및 문장 추출부(111)는 마이크를 통해 수신되는 원시 발화자의 원시 음성 신호를 디코딩하여 텍스트 데이터를 생성한다. 이때, 단어 및 문장 추출부(111)는 음성 인식(Speech Recognizer)을 통해 아날로그 형태의 원시 음성 신호를 디지털 형태의 텍스트 데이터로 변환할 수 있다. 또한, 단어 및 문장 추출부(111)는 디코딩(음성 인식) 결과에 대한 정확도 및 신뢰도를 계산한다.
아울러, 단어 및 문장 추출부(111)는 원시 음성 신호에서 문장의 끝을 파악한다. 이때, 단어 및 문장 추출부(111)는 EPD(End-Point Detector)를 통해 원시 음성 신호를 분석하여 문장의 맨 앞과 맨 뒤를 파악할 수 있다. 나아가, 단어 및 문장 추출부(111)는 텍스트 데이터 및 신뢰도 정보와, EPD 정보를 이용하여 텍스트 데이터에서의 의미단위 및 문장의 끝을 판별한다.
이와 같은 과정을 통해, 단어 및 문장 추출부(111)는 원시 음성 신호로부터 단어 및 문장(음성 인식 결과)을 추출할 수 있다. 이하에서는, 설명의 편의를 위해 원시 발화자가 하나의 문장을 발화하여, 원시 음성 신호로부터 하나의 문장을 추출한 것으로 가정하여 설명한다.
음높이 추출부(112)는 음높이 정보를 문장 레벨에서 측정하여 저장한다. 구체적으로, 음높이 추출부(112)는 원시 음성 신호에서 음높이 정보 및 음높이 궤적 정보를 추출할 수 있다.
이때, 음높이 추출부(112)는 단어 및 문장 추출부(111)의 음성 인식 결과와 원시 음성 신호의 음높이(Pitch) 및 음높이 궤적 정보를 동시에 이용해 억양구(Intonation Phrase) 단위 정보도 함께 추출한다. 아울러, 음높이 추출부(112)는 추출된 억양구에 대해서도 추가적으로 음높이 궤적 정보를 이용하여 L%, LH%, HL%, LH% LHL%, LHLH%, HLH%, HLHL%, LHLHL%(L: Low, H: High, %: 경계 성조(boundary tones)) 등과 같이 해당 발화의 억양구별 운율 구조를 추출 및 저장한다. 이때, 저장되는 운율 구조의 형태는 언어별로 달라질 수 있다.
발성 강도 추출부(113)는 원시 음성 신호에서의 발성 강도를 단어, 문장, 억양구 등 각 단위별로 측정한다. 구체적으로, 발성 강도 추출부(113)는 실제 원시 발화자가 발성한 음성의 발성 강도를 각 단위별로 측정한다. 발성 강도 추출부(113)는 측정된 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교한다. 비교 결과를 기반으로 발성 강도 추출부(113)는 평균 발성 강도 대비 실제로 원시 발화자가 발성한 원시 음성의 발성 강도에 대한 상대 값을 저장한다.
발화 속도 추출부(114)는 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 등 각 단위별로 측정한다. 구체적으로, 발화 속도 추출부(114)는 원시 발화자가 발성한 원시 음성의 발화 속도를 단위별로 측정한다. 발화 속도 추출부(114)는 측정된 원시 음성의 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 해당 단위별 음절 수 기반의 평균 속도를 비교한다. 비교 결과를 기반으로 발화 속도 추출부(114)는 평균 속도 대비 실제 발성된 속도에 대한 상대 값을 저장한다.
성도 특징 추출부(115)는 원시 음성 신호에서 MFCC(Mel-Frequency Cepstral Coefficient) 등과 같은 성도 특징 파라미터를 추출하여 저장한다. 필요에 따라서, 성도 특징 추출부(115)는 성대파(Glottal Wave)의 특징 파라미터도 추출하여 저장할 수 있다. 이렇게 추출된 특징 파라미터는 원시 발화자의 음색에 해당하는 정보이다.
자동 번역 모듈(120)은 음성 인식 모듈(110)의 음성 인식 결과를 이용하여 원시 음성을 번역한다. 구체적으로, 자동 번역 모듈(120)은 음성 인식 모듈(110)에 의해 생성된 원시 음성 신호에 대한 텍스트 데이터를 다른 언어로 번역하여 합성 대상 번역문(번역된 텍스트 데이터)을 생성한다. 예컨대, 자동 번역 모듈(120)은 국문의 텍스트 데이터를 번역하여 영문의 텍스트 데이터로 변환할 수 있다.
이때, 자동 번역 모듈(120)은 음성 인식 모듈(110)의 음성 인식 결과(원시 음성의 특성 정보)와 번역 결과의 단위별 대응 정보를 추출 및 저장할 수 있다. 또는, 자동 번역 모듈(120)은 자동 번역 결과와 음성 인식 결과에 대한 후처리를 통해 단위별 대응 정보를 추출 및 저장할 수 있다.
이때, 자동 번역 모듈(120)이 규칙 기반의 자동번역기(Rule-Based Machine Translator)라면, 번역 과정에서 양쪽 언어에 대응하는 단어, 억양구, 문장 정보를 함께 얻을 수 있다. 만약, 자동 번역 모듈(120)이 통계 기반의 자동번역기(Statistical Machine Translator)라면 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위 청킹(Chunking) 등을 실시하고, 이를 원시 문장(원시 음성의 음성 인식 결과)과 번역된 문장에 대응시켜 단어, 억양구의 대응 정보를 추출한다. 최종 번역 결과를 이용하게 되면 문장도 대응이 된다.
이렇게 대응된 단어, 억양구, 문장 정보는 단위별 대응 정보 데이터베이스(142)에 저장되었다가 이후 음성 합성 모듈(130)에서 합성음을 생성 및 변환하는 과정에서 활용될 수 있다.
음성 합성 모듈(130)은 원시 발화자의 목소리와 유사한 특성을 지니도록 번역문에 대한 합성음을 생성하고 변환한다. 이를 위해, 음성 합성 모듈(130)은 도 3에 도시된 바와 같이, 전처리부(131), 발음 변환부(132), 운율 처리부(133), 합성음 생성부(134)를 포함한다.
먼저, 전처리부(131)는 자동 번역 모듈(120)에 의해 번역된 텍스트 데이터(합성 대상 번역문)에서의 숫자, 기호 등을 문자로 변환한다. 예컨대, 전처리부(131)는 합성 대상 번역문에서 '1', '#'과 같은 숫자와 기호를 '일(또는 하나) ', '샵'과 같이 문자로 변환한다.
이후, 발음 변환부(132)에서 합성 대상 번역문의 문자에 대한 발음 변환을 실시한다. 예컨대, 발음 변환부(132)는 문자로 변환된 합성 대상 번역문을 기저장된 발음 기호에 따라 실제로 발음되는 발음 데이터로 변환할 수 있다.
운율 처리부(133)는 합성 대상 번역문에서 억양구를 찾아내어 억양구 및 문장에 억양 및 강도를 부가한다.
먼저, 운율 처리부(133)는 합성음을 원시 발화자와 목소리와 유사한 특성을 지니도록 합성음을 생성하기 위해서, 발음 변환된 합성 대상 번역문의 기본 음높이를 원시 발화자의 음높이와 같게 유지되도록 부여한다. 이때, 운율 처리부(133)는 문장에 억양을 부가 시, 단순히 텍스트 데이터에 의해서만 억양을 부가하는 것이 아니라, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수를 비교하며, 비교 결과에 따라 운율을 부여한다.
만약, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수가 1:1로 대응될 때에는 번역문과 대응되는 원시 발화의 억양구 운율 구조와 같은 특성을 지니도록 운율을 부여한다. 예컨대, 영어를 한국어로 자동통역하는 상황에서 'Are you hungry'라고 발성한 음성에 대해 '밥 먹었어요'라는 문장으로 번역되었다고 가정한다. 이 경우, 단순히 텍스트 데이터만을 이용하여 운율을 부여한다면 'L%'로 억양이 부여된다.
하지만, 만약 원시 발화의 억양구 운율이 'LH%'로 측정되었다면, 운율 처리부(133)는 1:1로 억양구의 숫자가 동일한 상황에서는 이 정보를 이용해 대응되는 억양구인 '밥 먹었어요'에 대해서 'LH%'의 운율이 생성될 수 있도록 하는 것이다. 이때 운율 구조 생성에 있어 단순하게 원시 발화와 동일한 운율을 가지는 억양구로 대응되는 것이 아니라, 원시 언어와 통역되는 상대방 목적 언어의 운율 구조를 고려하여 같은 의도를 가지는 자연스러운 억양구 운율 구조로 대응하여 생성될 수 있도록 한다. 이런 과정을 거치게 되면 원시 음성과 유사한 감정과 의도를 가지는 운율로 번역된 합성음을 생성할 수 있다.
다음으로, 운율 처리부(133)는 강도를 부여할 때도 남녀 성별을 기준으로 삼은 다음, 중립적으로 생성되어야 할 강도에 자연성을 해치지 않는 범위 내에서 전체 문장에 원시 발화 음성에서 측정된 것과 동일한 상대 값을 가지도록 강도를 부여한다. 이때, 만약 원시 발화 음성에서 특정 단어 및 억양구에 미리 설정한 기준치 이상 또는 이하의 강도가 측정되었다면, 생성되는 합성음에서도 이에 대응되는 해당 단어 및 억양구에 기준치 대비 같은 상대값을 가지도록 강도를 부여하고 나머지 다른 단어 및 억양구의 강도를 함께 조절하여 전체적으로는 같은 수준의 강도를 가질 수 있게 한다. 이렇게 하면 원시 음성과 유사한 감정과 의도를 가지는 강도로 번역된 합성음을 생성할 수 있다.
이후, 합성음 생성부(134)는 운율 처리된 합성 대상 번역문(입력 문장)의 합성 단위들을 합성단위 데이터베이스(143)로부터 검색하고, 검색 결과를 이용하여 합성단위들을 연결하여 합성음을 생성하고 출력하게 된다. 통상의 경우라면 중립적으로 생성될 발화 속도를 자연성을 해치지 않는 범위 내에서 전체 문장에 대해 원시 발화 음성과 동일한 상대 값을 가지도록 조절한다. 이때, 만약 미리 설정한 기준치 이하 또는 이상의 발화 속도 변화가 원시 발화 음성의 특정 단어 및 억양구에서 발견되었다면, 합성음 생성부(134)는 이에 대응하는 합성음의 해당 단어 및 억양구를 원시 발화의 속도에 따라 느리게 또는 빠르게 바꾸는 동시에 나머지 단어 및 억양구의 속도도 상대적으로 조절하여 전체 속도는 동일한 상대값을 가지도록 유지시켜 준다. 이를 통해 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있도록 속도를 조절할 수 있다.
마지막으로는 합성음 생성부(134)는 음색 정보 특징 파라미터가 원시 발화자의 음색 정보 특징 파라미터와 유사한 값을 가질 수 있도록 자연성을 해치지 않는 범위 내에서 시간축 또는 주파수 축에서 음색변환을 실시한다. 이렇게 변환을 실시하면 최종 합성음의 음색이 원시 발화자의 음색과 유사해지게 되어, 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있다.
이와 같이, 본 발명의 실시예에 따르면 자동통역 상황에서 사용자의 발화 의도 및 감정과 유사한 특성을 지니는 번역된 합성음을 상대방에게 전달함으로써, 기계와 대화하는 것 같은 느낌을 주는 현재의 자동 통역기보다 자연성을 대폭 개선할 수 있으며, 또한 외국인과의 대화 과정에서 더욱 자연스럽게 상대방의 말을 이해할 수 있어 자동통역 성능 개선 효과 또한 동시에 얻을 수 있다.
또한, 본 발명의 실시예에 따르면, 각 대화 상대방의 음성 특징이 그대로 전달되므로, 여러명이 동시에 발화하는 다자간 자동 통역 상황에서 현재 말하고 있는 사람이 누구인지를 분명히 구분할 수 있는 효과가 있다.
아울러, 본 발명의 실시예에 따르면, 원시 발화자의 목소리 특성을 그대로 번역된 합성음에 실어 전달함으로써, 궁극적으로는 자동통역기계를 이용해 대화하는 것이 아니라 사람과 자연스럽게 직접 대화하는 것과 같은 형상을 실현할 수 있다.
도 4는 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 방법 흐름도이다.
이하에서는 별도의 언급이 없는 한, 각 단계는 본 발명의 실시예에 다른 자동 통역 시스템(100)에 의해 수행되는 것으로 간주한다.
먼저, 자동 통역 시스템(100)은 화자(원시 발화자)가 발화하는 원시 음성에 대한 음성 데이터를 수신하고, 수신되는 음성 데이터에서 원시 음성의 특성 정보를 추출한다. 구체적으로, 자동 통역 시스템(100)은 원시 발화자의 음성 입력이 완료되면, 통상적인 음성 인식 수행 절차를 거쳐 인식된 단어와 문장을 추출하는 동시에 추가 정보들을 추출한다. 여기서, 추가 정보들은 음높이(Pitch) 정보, 강도(Intensity) 정보, 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보일 수 있다.
먼저, 자동 통역 시스템(100)은 마이크를 통해 수신되는 원시 발화자의 음성 신호(원시 음성 신호)를 디코딩하여 텍스트 데이터를 생성한다. 이때, 자동 통역 시스템(100)은 음성 인식(Speech Recognizer)을 통해 아날로그 형태의 원시 음성 신호를 디지털 형태의 텍스트 데이터로 변환할 수 있다. 또한, 자동 통역 시스템(100)은 디코딩(음성 인식) 결과에 대한 정확도 및 신뢰도를 계산한다.
아울러, 자동 통역 시스템(100)은 원시 음성 신호에서 문장의 끝을 파악한다. 이때, 자동 통역 시스템(100)은 EPD(End-Point Detector)를 통해 원시 음성 신호를 분석하여 문장의 맨 앞과 맨 뒤를 파악할 수 있다. 나아가, 자동 통역 시스템(100)은 텍스트 데이터 및 신뢰도 정보와, EPD 정보를 이용하여 텍스트 데이터에서의 의미단위 및 문장의 끝을 판별한다.
이와 같은 과정을 통해, 자동 통역 시스템(100)은 원시 음성 신호로부터 단어 및 문장(음성 인식 결과)을 추출할 수 있다. 이하에서는, 설명의 편의를 위해 원시 발화자가 하나의 문장을 발화하여, 원시 음성 신호로부터 하나의 문장을 추출한 것으로 가정하여 설명한다.
아울러, 자동 통역 시스템(100)은 도 5와 같은 동작 흐름을 통해 원시 음성의 특성 정보를 추출할 수 있다.
도 5는 본 발명의 실시예에 따른 원시 음성의 특성 정보를 추출하는 방법 흐름도이다
자동 통역 시스템(100)은 원시 음성 신호의 문장 레벨에서 음높이 정보 및 음높이 궤적 정보를 추출한다(S501).
또한, 자동 통역 시스템(100)은 음성 인식 결과와 원시 음성 신호의 음높이(Pitch) 및 음높이 궤적 정보를 동시에 이용해 억양구(Intonation Phrase) 단위 정보도 함께 추출한다(S502).
아울러, 자동 통역 시스템(100)은 추출된 억양구에 대해서 억양구 운율 구조 정보를 추출한다(S503). 예컨대, 자동 통역 시스템(100)은 추출된 억양구에 대해서도 추가적으로 음높이 궤적 정보를 이용하여 L%, LH%, HL%, LH% LHL%, LHLH%, HLH%, HLHL%, LHLHL%(L: Low, H: High, %: 경계 성조(boundary tones)) 등과 같이 해당 발화의 억양구별 운율 구조를 추출 및 저장한다. 이때, 저장되는 운율 구조의 형태는 언어별로 달라질 수 있다.
자동 통역 시스템(100)은 원시 음성 신호에서의 발성 강도를 단어, 문장, 억양구 등 각 단위별로 측정한다(S504). 구체적으로, 자동 통역 시스템(100)은 실제 원시 발화자가 발성한 음성의 발성 강도를 각 단위별로 측정한다.
또한, 자동 통역 시스템(100)은 측정된 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교한다(S505).
자동 통역 시스템(100)은 단계 S505의 비교 결과를 기반으로 평균 발성 강도 대비 실제로 원시 발화자가 발성한 원시 음성의 발성 강도에 대한 상대 값을 추출하여 저장한다(S506).
자동 통역 시스템(100)은 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 등 각 단위별로 측정한다(S507). 구체적으로, 자동 통역 시스템(100)은 원시 발화자가 발성한 원시 음성의 발화 속도를 단위별로 측정한다.
또한, 자동 통역 시스템(100)은 측정된 원시 음성의 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 해당 단위별 음절 수 기반의 평균 속도를 비교한다(S508).
자동 통역 시스템(100)은 단계 S508의 비교 결과를 기반으로 평균 속도 대비 실제 발성된 속도에 대한 상대 값을 추출하여 저장한다(S509).
자동 통역 시스템(100)은 원시 음성 신호에서 MFCC(Mel-Frequency Cepstral Coefficient) 등과 같은 성도 특징 파라미터를 추출하여 저장한다(S510). 필요에 따라서, 자동 통역 시스템(100)은 성대파(Glottal Wave)의 특징 파라미터도 추출하여 저장할 수 있다. 이렇게 추출된 특징 파라미터는 원시 발화자의 음색에 해당하는 정보이다.
다시 도 4의 동작 흐름도로 돌아가서, 자동 통역 시스템(100)은 단계 S401의 음성 인식 결과를 이용하여 원시 음성을 번역한다(S402). 구체적으로, 자동 통역 시스템(100)은 단계 S402에서 생성된 원시 음성 신호에 대한 텍스트 데이터를 다른 언어로 번역한다. 예컨대, 국문의 텍스트 데이터를 번역하여 영문의 텍스트 데이터로 변환할 수 있다.
이때, 자동 통역 시스템(100)은 음성 인식 결과(원시 음성의 특성 정보)와 번역 결과의 단위별 대응 정보를 추출 및 저장할 수 있다. 또는, 자동 통역 시스템(100)은 자동 번역 결과와 음성 인식 결과에 대한 후처리를 통해 단위별 대응 정보를 추출 및 저장할 수 있다.
이때, 자동 통역 시스템(100)이 규칙 기반의 자동번역기(Rule-Based Machine Translator)라면, 번역 과정에서 양쪽 언어에 대응하는 단어, 억양구, 문장 정보를 함께 얻을 수 있다. 만약, 자동 통역 시스템(100)이 통계 기반의 자동번역기(Statistical Machine Translator)라면 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위 청킹(Chunking) 등을 실시하고, 이를 원시 문장(원시 음성의 음성 인식 결과)과 번역된 문장에 대응시켜 단어, 억양구의 대응 정보를 추출한다. 최종 번역 결과를 이용하게 되면 문장도 대응이 된다.
이렇게 대응된 단어, 억양구, 문장 정보는 단위별 대응 정보 데이터베이스(142)에 저장되었다가 이후 합성음을 생성 및 변환하는 과정에서 활용될 수 있다.
자동 통역 시스템(100)은 원시 발화자의 목소리와 유사한 특성을 지니도록 번역문에 대한 합성음을 생성하고 변환한다(S403).
이때, 자동 통역 시스템(100)은 도 6과 같은 동작 흐름을 통해 합성음을 생성 및 변환할 수 있다.
도 6은 본 발명의 실시예에 따른 원시 음성의 특성을 갖는 합성음을 생성 및 변환하는 방법 흐름도이다
먼저, 자동 통역 시스템(100)은 단계 S402에서 번역된 텍스트 데이터(합성 대상 번역문)를 전처리한다(S601). 구체적으로, 자동 통역 시스템(100)은 합성 대상 번역문에서의 숫자, 기호 등을 문자로 변환한다. 예컨대, 자동 통역 시스템(100)은 합성 대상 번역문에서 '1', '#'과 같은 숫자와 기호를 '일(또는 하나) ', '샵'과 같이 문자로 변환한다.
이후, 자동 통역 시스템(100)은 합성 대상 번역문의 문자에 대한 발음 변환을 실시한다(S602). 예컨대, 자동 통역 시스템(100)은 문자로 변환된 합성 대상 번역문을 기저장된 발음 기호에 따라 실제로 발음되는 발음 데이터로 변환할 수 있다.
자동 통역 시스템(100)은 합성음을 원시 발화자와 목소리와 유사한 특성을 지니도록 합성음을 생성하기 위해서, 발음 변환된 합성 대상 번역문의 기본 음높이를 원시 발화자의 음높이와 같게 유지되도록 부여한다(S603). 이때, 자동 통역 시스템(100)은 문장에 억양을 부가 시, 단순히 텍스트 데이터에 의해서만 억양을 부가하는 것이 아니라, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수를 비교하며(S604), 비교 결과에 따라 운율을 부여한다.
만약, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수가 1:1로 대응될 때에는, 역문과 대응되는 원시 발화의 억양구 운율 구조와 같은 특성을 지니도록 운율을 부여한다(S605). 예컨대, 영어를 한국어로 자동통역하는 상황에서 'Are you hungry'라고 발성한 음성에 대해 '밥 먹었어요'라는 문장으로 번역되었다고 가정한다. 이 경우, 단순히 텍스트 데이터만을 이용하여 운율을 부여한다면 'L%'로 억양이 부여된다. 하지만, 만약 원시 발화의 억양구 운율이 'LH%'로 측정되었다면, 1:1로 억양구의 숫자가 동일한 상황에서는 이 정보를 이용해 대응되는 억양구인 '밥 먹었어요'에 대해서 'LH%'의 운율이 생성될 수 있도록 하는 것이다. 이 때 운율 구조 생성에 있어 단순하게 원시 발화와 동일한 운율을 가지는 억양구로 대응되는 것이 아니라, 원시 언어와 통역되는 상대방 목적 언어의 운율 구조를 고려하여 같은 의도를 가지는 자연스러운 억양구 운율 구조로 대응하여 생성될 수 있도록 한다. 이런 과정을 거치게 되면 원시 음성과 유사한 감정과 의도를 가지는 운율로 번역된 합성음을 생성할 수 있다.
아울러, 자동 통역 시스템(100)은 원시 발화 음성에서 측정된 값과 동일한 상대값을 가지도록 합성음의 강도를 부여한다(S606). 강도를 부여할 때도 자동 통역 시스템(100)은 남녀 성별을 기준으로 삼은 다음, 중립적으로 생성되어야 할 강도에 자연성을 해치지 않는 범위 내에서 전체 문장에 원시 발화 음성에서 측정된 것과 동일한 상대 값을 가지도록 강도를 부여한다. 이때, 만약 원시 발화 음성에서 특정 단어 및 억양구에 미리 설정한 기준치 이상 또는 이하의 강도가 측정되었다면, 생성되는 합성음에서도 이에 대응되는 해당 단어 및 억양구에 기준치 대비 같은 상대값을 가지도록 강도를 부여하고 나머지 다른 단어 및 억양구의 강도를 함께 조절하여 전체적으로는 같은 수준의 강도를 가질 수 있게 한다. 이렇게 하면 원시 음성과 유사한 감정과 의도를 가지는 강도로 번역된 합성음을 생성할 수 있다.
이후, 자동 통역 시스템(100)은 운율 처리된 합성 대상 번역문(입력 문장)의 합성 단위들을 합성단위 데이터베이스(143)로부터 검색하고, 검색 결과를 이용하여 합성단위들을 연결하여 합성음을 생성한다(S607). 이때, 통상의 경우라면 중립적으로 생성될 발화 속도를 자연성을 해치지 않는 범위 내에서 전체 문장에 대해 원시 발화 음성과 동일한 상대 값을 가지도록 조절한다.
예컨대, 자동 통역 시스템(100)은 원시 음성과 동일한 상대값을 가지도록 합성음의 발화 속도를 조절한다(S608). 만약 미리 설정한 기준치 이하 또는 이상의 발화 속도 변화가 원시 발화 음성의 특정 단어 및 억양구에서 발견되었다면, 이에 대응하는 합성음의 해당 단어 및 억양구를 원시 발화의 속도에 따라 느리게 또는 빠르게 바꾸는 동시에 나머지 단어 및 억양구의 속도도 상대적으로 조절하여 전체 속도는 동일한 상대값을 가지도록 유지시켜 준다. 이를 통해 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있도록 속도를 조절할 수 있다.
또한, 자동 통역 시스템(100)은 원시 발화자의 음색과 유사하도록 합성음의 음색을 변환한다(S609). 구체적으로, 자동 통역 시스템(100)은 음색 정보 특징 파라미터가 원시 발화자의 음색 정보 특징 파라미터와 유사한 값을 가질 수 있도록 자연성을 해치지 않는 범위 내에서 시간축 또는 주파수 축에서 음색변환을 실시한다. 이렇게 변환을 실시하면 최종 합성음의 음색이 원시 발화자의 음색과 유사해지게 되어, 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있다.
이후, 자동 통역 시스템(100)은 생성된 합성음을 출력함으로써, 원시 발화자의 특성을 갖는 번역된 합성음을 제공할 수 있다(S610).
이와 같이, 본 발명의 실시예에 따르면 자동통역 상황에서 사용자의 발화 의도 및 감정과 유사한 특성을 지니는 번역된 합성음을 상대방에게 전달함으로써, 기계와 대화하는 것 같은 느낌을 주는 현재의 자동 통역기보다 자연성을 대폭 개선할 수 있으며, 또한 외국인과의 대화 과정에서 더욱 자연스럽게 상대방의 말을 이해할 수 있어 자동통역 성능 개선 효과 또한 동시에 얻을 수 있다.
또한, 본 발명의 실시예에 따르면, 각 대화 상대방의 음성 특징이 그대로 전달되므로, 여러명이 동시에 발화하는 다자간 자동 통역 상황에서 현재 말하고 있는 사람이 누구인지를 분명히 구분할 수 있는 효과가 있다.
아울러, 본 발명의 실시예에 따르면, 원시 발화자의 목소리 특성을 그대로 번역된 합성음에 실어 전달함으로써, 궁극적으로는 자동통역기계를 이용해 대화하는 것이 아니라 사람과 자연스럽게 직접 대화하는 것과 같은 형상을 실현할 수 있다.
이상, 본 발명의 바람직한 실시예를 통하여 본 발명의 구성을 상세히 설명하였으나, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 명세서에 개시된 내용과는 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
110 : 음성 인식 모듈 111 : 단어 및 문장 추출부
112 : 음높이 추출부 123 : 발성 강도 추출부
124 : 발화 속도 추출부 125 : 성도 특징 추출부
120 : 자동 번역 모듈 130 : 음성 합성 모듈
131 : 전처리부 132 : 발음 변환부
133 : 운율 처리부 134 : 합성음 생성부

Claims (20)

  1. 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 음성 인식 모듈;
    상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 자동 번역 모듈; 및
    상기 합성 대상 번역문에 대한 합성음을 생성하는 음성 합성 모듈;
    을 포함하는 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
  2. 제1항에 있어서, 상기 음성 인식 모듈은,
    아날로그 형태의 상기 원시 음성 신호로부터 단어 및 문장을 추출하여 디지털 형태의 텍스트 데이터로 변환하는 단어 및 문장 추출부;
    상기 원시 음성 신호에서 음높이 및 음높이 궤적을 추출하는 음높이 추출부;
    상기 원시 음성 신호에서 발성 강도를 추출하는 발성 강도 추출부;
    상기 원시 음성 신호에서 발화 속도를 측정하여 추출하는 발화 속도 추출부; 및
    상기 원시 음성 신호에서 성도 특징 파라미터를 추출하는 성도 특징 추출부;
    를 포함하는 것인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
  3. 제2항에 있어서, 상기 음높이 추출부는,
    상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출하는 것
    인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
  4. 제2항에 있어서, 상기 발성 강도 추출부는,
    추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장하는 것
    인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
  5. 제2항에 있어서, 상기 발화 속도 추출부는,
    상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장하는 것
    인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
  6. 제2항에 있어서, 상기 성도 특징 추출부는,
    MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 적어도 하나의 특징 파라미터를 추출하는 것
    인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
  7. 제1항에 있어서, 상기 자동 번역 모듈은
    규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출하는 것
    인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
  8. 제1항에 있어서, 상기 자동 번역 모듈은,
    통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출하는 것
    인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
  9. 제1항에 있어서, 상기 음성 합성 모듈은,
    상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 전처리부;
    변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 발음 변환부;
    상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하는 운율 처리부; 및
    운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 합성음 생성부;
    를 포함하는 것인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
  10. 제9항에 있어서, 상기 운율 처리부는,
    상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 운율을 부여하는 것
    인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
  11. 제9항에 있어서, 상기 합성음 생성부는,
    상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 것
    인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
  12. 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성 신호에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 단계;
    상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 단계; 및
    상기 합성 대상 번역문에 대한 합성음을 생성하는 단계;
    를 포함하는 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
  13. 제12항에 있어서, 상기 특성 정보를 추출하는 단계는,
    상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출하는 것
    인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
  14. 제12항에 있어서, 상기 특성 정보를 추출하는 단계는,
    추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장하는 것
    인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
  15. 제12항에 있어서, 상기 특성 정보를 추출하는 단계는,
    상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장하는 것
    인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
  16. 제12항에 있어서, 상기 특성 정보를 추출하는 단계는,
    MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 적어도 하나의 특징 파라미터를 추출하는 것
    인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
  17. 제12항에 있어서, 상기 합성 대상 번역문을 생성하는 단계는,
    규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출하며,
    통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출하는 것
    인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
  18. 제12항에 있어서, 상기 합성음을 생성하는 단계는,
    상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 단계;
    변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 단계;
    상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하여 운율을 처리하는 단계; 및
    운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 단계;
    를 포함하는 것인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
  19. 제18항에 있어서, 상기 운율을 처리하는 단계는,
    상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 운율을 부여하는 것
    인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
  20. 제18항에 있어서, 상기 검색 결과를 기반으로 합성음을 생성하는 단계는,
    상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 것
    인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
KR1020160025685A 2016-03-03 2016-03-03 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 KR102525209B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160025685A KR102525209B1 (ko) 2016-03-03 2016-03-03 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
US15/214,215 US10108606B2 (en) 2016-03-03 2016-07-19 Automatic interpretation system and method for generating synthetic sound having characteristics similar to those of original speaker's voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160025685A KR102525209B1 (ko) 2016-03-03 2016-03-03 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20170103209A true KR20170103209A (ko) 2017-09-13
KR102525209B1 KR102525209B1 (ko) 2023-04-25

Family

ID=59724267

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160025685A KR102525209B1 (ko) 2016-03-03 2016-03-03 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법

Country Status (2)

Country Link
US (1) US10108606B2 (ko)
KR (1) KR102525209B1 (ko)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658916A (zh) * 2018-12-19 2019-04-19 腾讯科技(深圳)有限公司 语音合成方法、装置、存储介质和计算机设备
KR20190062274A (ko) * 2017-11-28 2019-06-05 도요타지도샤가부시키가이샤 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템
WO2019139431A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
WO2020009261A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법
KR20210020774A (ko) * 2019-08-14 2021-02-24 한국전자통신연구원 자동 통역 장치 및 그 방법
US11120785B2 (en) 2018-09-04 2021-09-14 Lg Electronics Inc. Voice synthesis device
WO2022270752A1 (ko) * 2021-06-22 2022-12-29 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11620978B2 (en) 2019-08-14 2023-04-04 Electronics And Telecommunications Research Institute Automatic interpretation apparatus and method
US11810548B2 (en) 2018-01-11 2023-11-07 Neosapience, Inc. Speech translation method and system using multilingual text-to-speech synthesis model
US11848004B2 (en) 2021-06-22 2023-12-19 Samsung Electronics Co., Ltd. Electronic device and method for controlling thereof
WO2024043592A1 (ko) * 2022-08-26 2024-02-29 삼성전자주식회사 전자 장치 및 텍스트 음성 변환의 속도 제어 방법

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071541A1 (zh) * 2017-10-12 2019-04-18 深圳市沃特沃德股份有限公司 语音翻译方法、装置和终端设备
US10777198B2 (en) 2017-11-24 2020-09-15 Electronics And Telecommunications Research Institute Apparatus for determining speech properties and motion properties of interactive robot and method thereof
CN110149805A (zh) * 2017-12-06 2019-08-20 创次源股份有限公司 双向语音翻译系统、双向语音翻译方法和程序
CN108447486B (zh) * 2018-02-28 2021-12-03 科大讯飞股份有限公司 一种语音翻译方法及装置
JP1621612S (ko) 2018-05-25 2019-01-07
CN109300469A (zh) * 2018-09-05 2019-02-01 满金坝(深圳)科技有限公司 基于机器学习的同声传译方法及装置
CN109448694A (zh) * 2018-12-27 2019-03-08 苏州思必驰信息科技有限公司 一种快速合成tts语音的方法及装置
US11159597B2 (en) 2019-02-01 2021-10-26 Vidubly Ltd Systems and methods for artificial dubbing
CN109979474B (zh) * 2019-03-01 2021-04-13 珠海格力电器股份有限公司 语音设备及其用户语速修正方法、装置和存储介质
US11202131B2 (en) * 2019-03-10 2021-12-14 Vidubly Ltd Maintaining original volume changes of a character in revoiced media stream
KR20200111853A (ko) 2019-03-19 2020-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 음성 인식 제어 방법
US11373633B2 (en) * 2019-09-27 2022-06-28 Amazon Technologies, Inc. Text-to-speech processing using input voice characteristic data
CN110706707B (zh) * 2019-11-13 2020-09-18 百度在线网络技术(北京)有限公司 用于语音交互的方法、装置、设备和计算机可读存储介质
CN113327627B (zh) * 2021-05-24 2024-04-05 清华大学深圳国际研究生院 一种基于特征解耦的多因素可控的语音转换方法及系统
CN114038484B (zh) * 2021-12-16 2024-01-30 游密科技(深圳)有限公司 语音数据处理方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330538B1 (en) * 1995-06-13 2001-12-11 British Telecommunications Public Limited Company Phonetic unit duration adjustment for text-to-speech system
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation
US20100082326A1 (en) * 2008-09-30 2010-04-01 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
JP4213755B2 (ja) 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
KR20100068965A (ko) 2008-12-15 2010-06-24 한국전자통신연구원 자동 통역 장치 및 그 방법
KR20140120560A (ko) * 2013-04-03 2014-10-14 삼성전자주식회사 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말
KR20150085145A (ko) 2014-01-13 2015-07-23 한국전자통신연구원 사용자 반응 기반 통역 시스템 및 그 방법
KR20150093482A (ko) 2014-02-07 2015-08-18 한국전자통신연구원 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330538B1 (en) * 1995-06-13 2001-12-11 British Telecommunications Public Limited Company Phonetic unit duration adjustment for text-to-speech system
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation
US20100082326A1 (en) * 2008-09-30 2010-04-01 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190062274A (ko) * 2017-11-28 2019-06-05 도요타지도샤가부시키가이샤 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템
WO2019139431A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
US11810548B2 (en) 2018-01-11 2023-11-07 Neosapience, Inc. Speech translation method and system using multilingual text-to-speech synthesis model
WO2020009261A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법
US11120785B2 (en) 2018-09-04 2021-09-14 Lg Electronics Inc. Voice synthesis device
CN109658916A (zh) * 2018-12-19 2019-04-19 腾讯科技(深圳)有限公司 语音合成方法、装置、存储介质和计算机设备
CN109658916B (zh) * 2018-12-19 2021-03-09 腾讯科技(深圳)有限公司 语音合成方法、装置、存储介质和计算机设备
KR20210020774A (ko) * 2019-08-14 2021-02-24 한국전자통신연구원 자동 통역 장치 및 그 방법
US11620978B2 (en) 2019-08-14 2023-04-04 Electronics And Telecommunications Research Institute Automatic interpretation apparatus and method
WO2022270752A1 (ko) * 2021-06-22 2022-12-29 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11848004B2 (en) 2021-06-22 2023-12-19 Samsung Electronics Co., Ltd. Electronic device and method for controlling thereof
WO2024043592A1 (ko) * 2022-08-26 2024-02-29 삼성전자주식회사 전자 장치 및 텍스트 음성 변환의 속도 제어 방법

Also Published As

Publication number Publication date
US20170255616A1 (en) 2017-09-07
US10108606B2 (en) 2018-10-23
KR102525209B1 (ko) 2023-04-25

Similar Documents

Publication Publication Date Title
KR102525209B1 (ko) 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
Zhang et al. Learning to speak fluently in a foreign language: Multilingual speech synthesis and cross-language voice cloning
JP2021511536A (ja) 多言語テキスト音声合成方法
US10163436B1 (en) Training a speech processing system using spoken utterances
US20100057435A1 (en) System and method for speech-to-speech translation
US20110238407A1 (en) Systems and methods for speech-to-speech translation
KR20030085075A (ko) 음성-음성 변환 생성 시스템 및 방법
JP2008032834A (ja) 音声翻訳装置及びその方法
JP2012073941A (ja) 音声翻訳装置、方法、及びプログラム
JP2009048003A (ja) 音声翻訳装置及び方法
JPH10504404A (ja) 音声認識のための方法および装置
Wu et al. Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations
KR20100068965A (ko) 자동 통역 장치 및 그 방법
TWI467566B (zh) 多語言語音合成方法
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
Mullah et al. Development of an HMM-based speech synthesis system for Indian English language
Tan et al. A Malay dialect translation and synthesis system: Proposal and preliminary system
CN116933806A (zh) 一种同传翻译系统及同传翻译终端
JP6397641B2 (ja) 自動通訳装置及び方法
Abdelmalek et al. High quality Arabic text-to-speech synthesis using unit selection
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
JPWO2010104040A1 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
Nursetyo LatAksLate: Javanese script translator based on Indonesian speech recognition using sphinx-4 and google API
Rafieee et al. Considerations to spoken language recognition for text-to-speech applications
Hase et al. Speech Recognition: A Concise Significance

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant