KR20210020774A - 자동 통역 장치 및 그 방법 - Google Patents

자동 통역 장치 및 그 방법 Download PDF

Info

Publication number
KR20210020774A
KR20210020774A KR1020200091907A KR20200091907A KR20210020774A KR 20210020774 A KR20210020774 A KR 20210020774A KR 1020200091907 A KR1020200091907 A KR 1020200091907A KR 20200091907 A KR20200091907 A KR 20200091907A KR 20210020774 A KR20210020774 A KR 20210020774A
Authority
KR
South Korea
Prior art keywords
voice
voice feature
terminal
speech
automatic
Prior art date
Application number
KR1020200091907A
Other languages
English (en)
Other versions
KR102457822B1 (ko
Inventor
윤승
김상훈
이민규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US16/990,482 priority Critical patent/US11620978B2/en
Publication of KR20210020774A publication Critical patent/KR20210020774A/ko
Application granted granted Critical
Publication of KR102457822B1 publication Critical patent/KR102457822B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 자동 통역 방법은, 발화자 단말과 통신하는 상대 단말에서 수행하는 자동 통역 방법으로서, 통신기가, 상기 발화자 단말로부터, 발화자가 원시 언어로 발화한 음성을 목적 언어로 자동 번역하여 획득한 자동 번역 결과와 상기 발화자의 음성 특징 정보를 수신하는 단계; 및 음성 합성기가, 상기 자동 번역 결과와 상기 음성 특징 정보를 기반으로 음성 합성을 수행하여, 개인화된 합성음을 자동 통역 결과로서 출력하는 단계;를 포함한다. 여기서, 상기 발화자의 음성 특징 정보는, 상기 발화자의 음성으로부터 추출된 제1 부가 음성 자질과 음성 특징 파라메터를 포함하는 은닉 변수 및 제2 부가 음성 자질을 포함한다.

Description

자동 통역 장치 및 그 방법{apparatus and method for automatic speech interpretation}
본 발명은 자동 통역 기술에 관한 것이다.
자동 통역 기술(automatic interpretation technology)은 발화자에 의해 어떤 특정 언어로 발화된 음성을 음성 인식(voice recognition), 자동 번역(automatic translation) 등의 과정을 거쳐서 다른 특정 언어로 변환하고, 이를 텍스트 형태의 자막으로 출력하거나 혹은 음성과 합성된 합성음으로 출력하는 기술을 의미한다.
최근 자동 통역의 요소 기술들 중의 하나인 음성 합성에 대한 관심이 높아지면서, 단순한 의사 전달 수준을 넘어서 '개인화된 음성 합성(Personalized voice synthesis)'에 대한 연구가 진행되고 있다.
개인화된 음성 합성은 음성 인식 및 자동 번역 등을 통해 원시 언어로부터 변환된(또는 번역된) 목적 언어를 발화자의 발화 음색(또는 발화 스타일)에 가까운 합성음으로 출력하는 기술을 의미한다.
한편, 최근 대다수의 사용자가 스마트 폰과 같은 개인용 단말을 보유하고 있고, 해외 여행이 보편화되면서, 자동 통역 기능이 기본적으로 탑재된 개인용 단말 및 자동 통역과 관련된 다양한 앱이 출시되고 있다.
이처럼 발화자의 개인용 단말(이하, '발화자 단말'이라 함)은 발화자가 원시 언어로 발화한 음성을 목적 언어로 자동 번역(automatic translation)한 후, 그 목적 언어를 개인화된 음성 합성 과정을 거쳐 자신(발화자)의 발화 음색에 가까운 개인화된 합성음으로 재생할 수 있다.
그런데, 다른 사용자의 단말(이하, '상대 단말'이라 함)이 발화자 음성에 가까운 개인화된 합성음을 자동 통역 결과로서 재생하고자 하는 경우, 발화자 단말은 상대 단말에게 발화자의 원시 음성 파일을 제공하고, 상대 단말은 발화자 단말로부터 제공된 음성 파일을 분석하여 발화자의 음성 특징과 관련된 정보들을 추출해야 한다.
이후, 상대 단말은 그 추출된 발화자의 음성 특징과 관련된 정보와 상대 단말에서 번역한 번역문을 합성하여 음성 합성을 수행함으로써, 발화자의 음성과 유사한 개인화된 합성음을 자동 통역 결과로서 재생한다.
이처럼 상대 단말은, 발화자의 음성과 유사한 음성으로 개인화된 합성음을 자동 통역 결과로 재생하기 위해, 발화자 단말로부터 제공된 원시 음성 파일로부터 음성 특징을 추출해야 하기 때문에, 그 음성 특징 추출에 필요한 처리 시간은 자동 통역의 실시간 처리 성능을 저하시키는 요소이다.
또한, 발화자 단말이 상대 단말로 원시 음성 파일을 전송하는 과정에서 통신 환경에 기인한 전송 지연이 발생할 수 있고, 이러한 전송 지연 또한 자동 통역의 실시간 처리 성능을 저하시키는 요소이다.
또한, 종래의 자동 통역 기술에 따른 음성 합성 과정은 개인화된 합성음을 사용자가 원하는 음색으로 변환하는 것이 불가능하다.
상술한 문제점을 해결하기 위한 본 발명은 발화자 단말에서 발화자의 원시 음성 파일 자체를 상대 단말에게 전송하지 않고서도, 상대 단말이 발화자의 음성(또는 음색)에 가까운 개인화된 합성음을 자동 통역 결과로서 출력할 수 있는 자동 통역 장치 및 그 방법을 제공하는 데 그 목적이 있다.
또한, 본 발명은 개인화된 합성음의 음색을 자유롭게 조정 및 변환할 수 있는 자동 통역 장치 및 그 방법을 제공하는 데 다른 목적이 있다.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부된 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
상술한 목적을 달성하기 위한 본 발명의 일면에 따른 자동 통역 방법은, 발화자 단말과 통신하는 상대 단말로서, 상기 상대 단말에서 수행하는 자동 통역 방법으로서, 통신기가, 상기 발화자 단말로부터, 발화자가 원시 언어로 발화한 음성을 목적 언어로 자동 번역하여 획득한 자동 번역 결과와 상기 발화자의 음성 특징 정보를 수신하는 단계; 및 음성 합성기가, 상기 자동 번역 결과와 상기 음성 특징 정보를 기반으로 음성 합성을 수행하여, 개인화된 합성음을 자동 통역 결과로서 출력하는 단계;를 포함한다. 여기서, 상기 발화자의 음성 특징 정보는, 상기 발화자의 음성으로부터 추출된 제1 부가 음성 자질과 음성 특징 파라메터를 포함하는 은닉 변수 및 제2 부가 음성 자질을 포함한다.
본 발명의 다른 일면에 따른 자동 통역방법은, 상대 단말과 통신하는 발화자 단말로서, 상기 발화자 단말에서 수행하는 자동 통역 방법으로서, 제1 음성특징 추출기가, 발화자가 발화한 음성으로부터 제1 부가 음성 자질과 음성 특징 파라메터를 포함하는 은닉 변수를 추출하는 단계; 제2 음성특징 추출기가, 상기 음성으로부터 제2 부가 음성 자질을 추출하는 단계; 음성 인식기가, 상기 음성에 대해 음성 인식을 수행하여 음성 인식 결과를 획득하는 단계; 자동 번역기가, 상기 음성 인식 결과에 대해 자동 번역을 수행하여 자동 번역 결과를 획득하는 단계; 및 통신기가, 상기 자동 번역 결과, 상기 은닉 변수 및 상기 제2 부가 음성 자질을 상기 상대 단말로 송신하는 단계를 포함한다.
본 발명의 또 다른 일면에 따른 자동 통역 장치는, 발화자 단말과 통신하는 상대 단말에 포함된 장치로서, 상기 발화자 단말로부터, 발화자가 원시 언어로 발화한 음성을 목적 언어로 자동 번역하여 획득한 자동 번역 결과와 상기 발화자의 음성 특징 정보를 수신하는 통신기; 및 상기 자동 번역 결과와 상기 음성 특징 정보를 기반으로 음성 합성을 수행하여, 개인화된 합성음을 자동 통역 결과로서 출력하는 음성 합성기를 포함한다. 여기서, 상기 발화자의 음성 특징 정보는, 상기 발화자의 음성으로부터 추출된 제1 부가 음성 자질과 음성 특징 파라메터를 포함하는 은닉 변수 및 제2 부가 음성 자질을 포함한다.
본 발명에 의하면, 발화자 단말에서 자동 통역 결과인 개인화된 합성음의 음성 파일 자체를 상대 단말에게 전송하는 것이 아니라 발화자 단말의 사용자가 발화한 음성으로부터 추출된 규격화된 음성 특징 정보, 예를 들면, 부가 음성 자질 및 이를 포함하는 은닉 변수를 전송함으로써, 상대 단말이 발화자 단말의 사용자 음성과 유사한 음성으로 개인화된 합성음을 자동 통역 결과로서 출력할 수 있다.
또한, 음성 특징 정보가 사용자에 의해 자유롭게 조정됨으로써, 사용자가 원하는 다양한 음색을 갖는 개인화된 합성음의 생성이 가능하다.
도 1은 본 발명의 실시 예에 따른 자동 통역을 위한 전체 시스템 구성을 나타내는 블록도이다.
도 2는 도 1에 도시한 발화자 단말의 내부 구성을 나타내는 블록도이다.
도 3은 도 2에 도시한 음성 합성기의 내부 구성을 나타내는 블록도이다.
도 4는 도 1에 도시한 상대 단말의 내부 구성을 나타내는 블록도이다.
도 5는 도 4에 도시한 음성 합성기의 내부 구성을 나타내는 블록도이다.
도 6은 본 발명의 실시 예에 따른 상대 단말에서 수행하는 자동 통역 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 실시 예에 따른 발화자 단말에서 수행하는 자동 통역 방법을 설명하기 위한 흐름도이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 실시 예에 따른 자동 통역을 위한 전체 시스템 구성을 나타내는 블록도이다.
도 1을 참조하면, 본 발명의 실시 예에 따른 자동 통역을 위한 전체 시스템(300)은 발화자 단말(100)과 상대 단말(200)을 포함한다.
발화자 단말(100)과 상대 단말(200)은 본 발명에 따른 자동 통역 프로세스를 각각 수행한다. 자동 통역 과정을 수행하기 위해, 발화자 단말(100)과 상대 단말(200) 각각은 데이터 처리 기능을 구비한 컴퓨팅 장치일 수 있다.
컴퓨팅 장치는, 스마트폰, 웨어러블 디바이스, 헤드셋 장치, 노트북, PDA, 태블릿, 스마트 안경, 스마트 워치 등과 같은 휴대 가능한 이동식 장치일 수 있으며, 이에 한정하지 않고, 데스크 탑과 같이 고정식 장치일 수도 있다.
발화자 단말(100)과 상대 단말(200) 각각은 데이터 처리 기능 외에 유선 및/또는 무선 통신 기능을 갖는다. 발화자 단말(100)과 상대 단말(200)은 유선 및/또는 무선 통신을 이용하여 각자의 자동 통역을 위한 정보들을 교환한다.
무선 통신은, 예를 들면, 근거리 무선 통신, 이동 통신(예, 3G 통신, 4G 통신, 5G 통신) 및 인터넷 무선 통신 등을 포함한다. 근거리 무선 통신은 와이파이, 블루투스 등을 예로 들 수 있다.
도 1에서는 하나의 발화자 단말(100)이 하나의 상대 단말(200)과 통신하는 것을 도시하지만, 하나의 발화자 단말(100)이 다수의 상대 단말들과 통신할 수도 있다.
발화자 단말(100) 및 상대 단말(200)에서 수행하는 자동 통역 과정(automatic interpretation 또는 automatic speech interpretation)은 음성 인식(voice recognition, automatic speech recognition 또는 Speech-to-Text), 자동 번역(automatic translation 또는 automatic speech translation) 및 음성 합성(voice synthesis 또는 speech synthesis)로 이루어진 요소 기술들을 포함한다.
따라서, 발화자 단말(100)과 상대 단말(200)이 자동 통역을 위해 교환하는 정보들은 음성 인식에 필요한 정보들, 자동 번역에 필요한 정보들 및 음성 합성에 필요한 정보들을 포함한다.
아래에서 설명하겠지만, 본 발명에 따른 음성 합성에 필요한 정보들은 부가 음성 자질(additional voice features)과 관련된 정보들과 개인 음성 특징과 관련된 은닉 변수(hidden variables 또는 latent variables) 정보들을 포함한다.
본 발명에 따른 상대 단말(200)은 발화자 단말(100)로부터 수신한 발화자의 고유 음성 특징, 즉, 부가 음성 자질(additional voice features)과 개인 음성 특징과 관련된 은닉 변수(hidden variables)를 음성 합성에 필요한 정보들로 활용하여, 발화자의 음성에 가까운 개인화된 합성음을 자동 통역 결과로서 출력(재생)한다.
이처럼 본 발명에서는 상대 단말(200)이 발화자 음성에 가까운 개인화된 합성음을 자동 통역 결과로서 재생하고자 하는 경우, 상대 단말(200)이 발화자 단말(100)로부터 원시 음성 파일 자체를 수신하는 것이 아니라 발화자의 고유 음성 특징과 관련된 정규화된 부가 음성 자질과 개인 음성 특징과 관련된 은닉 변수를 수신함으로써, 상대 단말(200)은 음성 합성을 위해 발화자 단말(100)로부터 수신한 발화자의 음성 파일로부터 발화자의 음성 특징을 추출하는 처리 과정을 수행할 필요가 없다.
따라서, 상대 단말(200)은 발화자의 원시 음성 파일 자체를 송수신하는 과정이 없고, 발화자의 원시 음성 파일로부터 발화자의 음성 특징 추출을 수행하지 않기 때문에, 상대 단말(200)이 자동 통역을 실시간으로 처리할 수 있다.
또한, 발화자 단말(100)의 음성 합성기와 상대 단말(200)의 음성 합성기가 서로 다른 신경망 구조로 이루어진 경우, 신경망 구조가 다르기 때문에, 상대 단말(200)의 음성 합성 과정에 의해 재생되는 개인화된 합성음은 발화자 음성과 차이가 발생하거나 상대 단말(200)에서 음성 합성이 불가능할 수도 있다.
그러나 본 발명에서는 발화자 단말(100)이 상대 단말(200)로 발화자의 음성 특징 즉, 정규화된 부가 음성 자질과 개인 음성 특징과 관련된 은닉 변수를 상대 단말(200)로 제공하고, 상대 단말(200)은 발화자 단말(100)로부터 제공된 정규화된 부가 음성 자질과 개인 음성 특징 은닉 변수를 기반으로 자신(상대 단말)의 음성 합성기를 학습시킨다. 이때, 실시간 자동 통역을 위해, 음성 학습기는 학습 없이, 음성 합성을 실시간으로 수행할 수도 있다.
따라서, 본 발명에서는 발화자 단말(100)에서 재생하는 개인화된 합성음의 음색과 상대 단말(200)에서 재생하는 개인화된 합성음의 음색 간의 차이를 현저히 줄일 수 있고, 각 단말에 설치된 음성 합성기의 사양(신경망 구조)에 대한 의존성을 줄일 수 있다.
이하, 상술한 기술적 효과를 달성하기 위한 발화자 단말과 상대 단말의 내부 구성에 대해 상세히 설명하기로 한다.
설명에 앞서, 도 1에 도시된 발화자 단말(100)과 상대 단말(200)은 동일한 자동 통역 프로세스를 수행하도록 동일하게 설계된다.
상대 단말(200)은 발화자 단말(100)로부터 음성 합성에 필요한 정보들(부가 음성 자질과 은닉 변수)을 수신하여 이를 기반으로 음성 합성 과정을 수행하고, 반대로 발화자 단말(100)은 상대 단말(200)로부터 수신한 부가 음성 자질과 개인 음성 특징과 관련된 은닉 변수를 기반으로 음성 합성 과정을 수행할 수도 있다.
즉, 음성 합성에 필요한 정보를 수신하는 단말에 따라, 발화자 단말이 상대 단말일 수 있고, 상대 단말이 발화자 단말일 수 있다.
본 발명에서는 음성 합성에 필요한 정보를 송신하는 단말은 음성 합성을 수행하지 않고, 그 정보를 수신하는 단말이 음성 합성을 수행하는 것으로 가정한다. 물론 음성 합성에 필요한 정보를 송신하는 단말이 다른 단말로부터 음성 합성에 필요한 정보를 수신하면, 그 단말이 음성 합성을 수행하는 것은 당연하다.
도 2는 도 1에 도시한 발화자 단말의 내부 구성을 나타내는 블록도이다.
도 2를 참조하면, 발화자 단말(100)은 자동 통역을 위한 통역 전용 단말이거나 자동 통역 장치를 포함하는 단말일 수 있다.
발화자 단말(100)은, 자동 통역을 위해, 음성 수집기(101), 음성 인식기(103), 자동 번역기(105), 음성 합성기(107), 음성 출력기(109), 통신기(111)를 포함하며, 추가로, 부가 음성 자질 추출기(113), 개인 음성 특징 인코더(115), 저장 유닛(117), 부가 음성 자질 변환기(119), 개인 음성 특징 변환기(121) 및 학습기(123)를 포함한다.
또한, 발화자 단말(100)은 상기 구성들(101, 103, 105, 107, 109, 111, 113, 115, 117, 119, 121 및 123)의 동작을 제어하고, 실행하는 프로세서(125) 및 상기 프로세서(125)에 의해 처리된 중간 데이터 및 결과 데이터를 일시적으로 저장하거나 상기 프로세서(125)에 의해 실행되는 자동 통역과 관련된 프로그램 또는 소프트웨어 모듈의 실행 공간을 제공하는 메모리(127)를 더 포함하도록 구성될 수 있다.
프로세서(125)는 중앙 처리 장치로 불리 수 있으며, 적어도 하나 이상의 ALU(arithmetic logic unit) 와 처리 레지스터를 포함하고, 이러한 ALU와 처리 레지스터를 기반으로 데이터 포맷 변환 등의 데이터 처리 기능을 갖는 하드웨어 유닛이다.
음성 수집기(101)
음성 수집기(101)는 발화자가 원시 언어로 발화한 음성(음성 신호)을 수집하는 구성으로, 예를 들면, 마이크일 수 있다. 본 명세서에서는 음성 수집기(101)에 의해 수집된 아날로그 형태의 음성에 대한 처리 과정, 예를 들면, 잡음 제거 과정, 증폭 과정, 주파수 변환 과정, 샘플링 과정, 디지털 형태의 데이터로 변환하는 과정들은 본 발명의 핵심적인 특징이 아니기 때문에, 이들에 대한 구체 설명은 공지 기술로 대신한다.
음성 인식기(103)
음성 인식기(103)는 프로세서(125)에 의해 제어되는 하드웨어 모듈이거나, 프로세서(125)에 내장된 디지털 회로일 수 있다. 또는 음성 인식기(103)는 메모리(127)에 로딩되어 프로세서(125)에 의해 실행되는 소프트웨어 모듈일 수 있다. 소프트웨어 모듈은 특정 언어로 프로그래밍 된 프로그램일 수 있다.
음성 인식기(103)는 음성 수집기(101)에 의해 수집된 음성을 문장(또는 문자열)로 변환하기 위해, 음성 인식 과정을 수행한다. 음성 인식 과정을 수행하기 위해, 예를 들면, 확률 통계 기반의 음향 모델(acoustic model), 언어 모델(language model) 및 종단형 음성인식 구조 등이 사용될 수 있다.
여기서, 음향 모델은, 예를 들면, GMM(Gaussian Mixture Model) 또는 딥 러닝(deep learning) 아키텍쳐 중 하나인 DNN(Deep Neural Network)일 수 있고, 언어 모델은, 예를 들면, N-gram 또는 RNN(Recursive Neural Network)일 수 있다. 또는 음향모델과 언어모델은 하나의 종단형(End-to-End) 구조로 통합될 수 있다.
음성 인식기(103)가 음성 인식 과정을 처리하여 획득하는 음성 인식 결과는 발화자가 발화한 원시 언어의 문장(또는 문자열) 외에 문장 경계에 대한 정보를 더 포함하도록 구성될 수 있다.
자동 번역기(105)
자동 번역기(105)는 프로세서(125)에 의해 제어되는 하드웨어 모듈이거나, 프로세서(125) 내에 내장된 디지털 회로일 수 있다. 또는 자동 번역기(105)는 메모리(127)에 로딩되어 프로세서(125)에 의해 실행되는 소프트웨어 모듈일 수 있다.
자동 번역기(105)는 음성 인식기(103)로부터 입력되는 음성 인식 결과, 즉, 원시 언어로 구성된 문장(이하, '원시 언어 문장'이라 함)을 목표 언어로 구성된 문장(또는 문자열)(이하, '목표 언어 문장'이라 함)으로 변환한다.
원시 언어 문장을 목표 언어 문장으로 변환하기 위해, 예를 들면, 규칙에 기반 기계 번역(Rule-Based MachineTranslation: RBMT), 말뭉치(corpus) 기반 기계 번역(Corpus-Based Machine Translation: CBMT), 통계 기반 기계 번역(Statistical Based Machine Translation: SBMT), 신경망 기반 기계 번역(Neural Machine Translation) 등이 이용될 수 있다.
도 1에서는 음성 인식기(103)와 자동 번역기(105)가 분리되어 있으나, 이들은 하나로 통합될 수 있다. 즉, 음성 인식 과정과 자동 전역 과정이 하나의 과정을 통합될 수 있다. 이처럼 음성 인식기(103)와 자동 번역기(105)가 하나로 통합된 형태를 '종단형(end-to-end) 자동 통역'이라 부른다. 본 발명은 종단형(end-to-end) 자동 통역 장치에도 적용될 수 있음은 당연하다.
아래에서 설명하겠지만, 부가 음성 자질 추출기(113)에서 수행하는 부가 음성 자질을 추출하는 과정과 개인 음성 특징 인코더(115)에서 수행하는 개인 음성 특징과 관련된 은닉 변수를 추출하는 과정은 음성 인식기(103)에서 수행하는 음성 인식 과정에서 포함될 수도 있다.
음성 합성기(107, voice synthesis)
음성 합성기(107)는 프로세서(125)에 의해 제어되는 하드웨어 모듈이거나, 프로세서(125) 내에 내장된 디지털 회로일 수 있다. 또는 음성 합성기(107)는 메모리(127)에 로딩되어 프로세서(125)에 의해 실행되는 소프트웨어 모듈일 수 있다.
음성 합성기(107)는 자동 번역기(105)로부터 입력되는 목표 언어 문장을 상대 단말(200)의 상대 화자의 음성 특징(도 4의 23, 25)과 합성하여 개인화된 합성음을 생성한다. 개인화된 합성음을 생성하기 위해, 음성 합성기(107)는 신경망(Neural Network) 기반의 음성 합성 과정을 수행할 수 있다.
음성 합성기(107)의 신경망 구조는, 예를 들면, 순환 신경망(Recurrent Neural Network: RNN)으로 각각 구성된 인코더(encoder)-디코더(decoder) 모델과 같은 신경망 모델로 구성될 수 있다. 이때, 인코더와 디코더 각각은 다수의 메모리 셀(memory cell) 또는 다수의 RNN 셀로 구성될 수 있다.
이러한 신경망 기반의 음성 합성기(107)는 학습기(123)에 의해 사전 학습될 수 있다. 예를 들면, 학습기(223)는 다중 화자의 입력 텍스트와 상대 단말(200)의 상대 화자를 포함하는 다중 화자의 부가 음성 자질을 훈련 데이터로 이용하여 학습시킬 수 있다.
이하, 도 3을 참조하여 음성 합성기(107)에 대해 더욱 상세히 설명하기로 한다.
도 3은 도 2에 도시한 음성 합성기의 내부 구성을 나타내는 블록도이다.
도 3을 참조하면, 음성 합성기(107)는, 크게, 인코더(encoder)(107A), 차원 정규화기(107B), 디코더(decoder)(107C) 및 보코더(vocoder)(107D)를 포함하도록 구성될 수 있다.
인코더(107A)는 다수의 RNN 셀로 구성된 RNN과 같은 신경망으로서, 자동 번역기(105)로부터 입력되는 자동 번역 결과(10), 통신기(111)를 통해 상대 단말(200)로부터 제공된 부가 음성 자질(23) 및 통신기(111)를 통해 상대 단말(200)로부터 제고된 개인 음성 특징과 관련된 은닉 변수(25)를 인코딩한다. 여기서, 부가 음성 자질(23)와 은닉 변수(25)은 상대 단말(200)에서 추출한 상대 화자의 음성 특징과 관련된 정보이다. 또한, 자동 번역 결과(10)는 통신기(111)를 통해 상대 단말(200)에 제공된 자동 번역 결과(도 4의 30)으로 대체될 수 있다.
인코더(107A)로부터 출력되는 인코딩 결과는 자동 번역 결과(10)를 기반으로 획득된 언어학적 내용(linguistic content)과 부가 음성 자질(13)을 기반으로 획득된 음성학적 내용(acoustic feature)을 포함하도록 구성된다.
언어학적 내용은, 예를 들면, 자동 번역 결과(10)(목표 언어 문장)로부터 획득된 문자열(text)및 이로부터 추출된 음소(phoneme)를 포함하도록 구성된 정보일 수 있다.
음성학적 내용은, 예를 들면, 상대 단말(200)로부터 제공된 부가 음성 자질(23)로부터 획득된 상대 화자의 음색(억양, 강도, 높낮이 등)과 관련된 정보일 수 있다.
차원 정규화기(107B)는, 인코더(107A)로부터 입력되는 인코딩 결과(60)와 상대 단말(200)로부터 제공된 개인 음성 특징과 관련된 은닉 변수(25)가 결합 가능하도록 동일한 데이터 차원으로 정규화는 과정을 수행한다.
개인 음성 특징 은닉 변수는 상대 단말(200) 내의 개인 음성 특징 인코더(215)로부터 제공된다. 상대 단말(200) 내의 개인 음성 특징 인코더(215)는 신경망 구조로 구성된다. 이때, 개인 음성 특징 인코더(215)의 신경망 구조와 상기 인코더(107A)의 신경망 구조가 다른 경우, 개인 음성 특징 은닉 변수(25)와 상기 인코더(107A)로부터의 인코딩 결과(60)는 서로 다른 데이터 차원을 가질 수 있다.
이처럼 데이터 차원이 다른 개인 음성 특징 은닉 변수(25)와 상기 인코딩 결과(60)가 아래에서 설명할 디코더(107C)에 입력되는 경우, 디코더(107C)는 부정확한 디코딩 결과를 출력하게 된다.
정확한 디코딩 결과를 획득하기 위해, 차원 정규화기(107B)는 은닉 변수(23)와 상기 인코딩 결과(60)의 데이터 결합이 가능하도록 은닉 변수(23)와 상기 인코딩 결과(60)를 동일한 데이터 차원으로 정규화 한다.
물론, 상대 단말 내의 개인 음성 특징 인코더(215)가 상기 인코더(107A)의 신경망 구조와 동일하거나 유사한 신경망 구조를 갖는 경우, 차원 정규화기(107B)에 의해 수행되는 차원 정규화 과정은 수행되지 않을 수도 있다.
디코더(107C)는 상대 단말(200)로부터 제공된 개인 음성 특징과 관련된 은닉 변수(25)와 상기 인코딩 결과(60)를 디코딩한다. 이러한 디코딩 과정은 상대 화자의 음성을 결정하는 파라메터(Parameter)를 생성하는 과정일 수 있다. 여기서, 파라메터는, 예를 들면, 스펙트로그램(spectrogram) 기반의 특징 벡터일 수 있다.
보코더(107D)는 디코더(107C)로부터 입력된 파라메터를 기반으로 개인화된 합성음을 자동 통역 결과로서 생성한다. 여기서, 디코더(107C)가 디코딩 결과를 개인화된 합성음으로서 직접 생성하는 경우, 보코더(107D)의 설계는 생략될 수 있다.
이상 설명한 바와 같이, 음성 합성기(107)는 자동 번역 결과(10 또는 도 4의 30), 상대 단말(200)로부터 제공된 부가 음성 자질(23) 및 상대 단말(200)로부터 제공된 개인 음성 특징과 관련된 은닉 변수(25)를 입력으로 이용하여 개인화된 합성음을 생성한다.
설계에 따라, 음성 합성기(107)는 상대 단말(200)로부터 제공된 부가 음성 자질(23) 및 은닉 변수(25) 중에서 어느 하나의 정보만을 이용하여 자동 번역 결과(10 또는 도 4의 30)에 대한 음성 합성을 수행할 수도 있다.
아래에서 설명하겠지만, 은닉 변수와 관련된 음성 특징은 부가 음성 자질과 관련된 음성 특징보다 상대 화자의 음색과 관련된 더 많은 정보를 담고 있다. 음성 합성기(107)는 상대 단말(200)로부터 제공된 은닉 변수(25)만을 이용하여 자동 번역 결과(10 또는 도 4의 30)에 대한 음성 합성을 수행할 수 있다. 이 경우, 음성 합성기(107) 내의 인코더(107A)는 자동 번역 결과(10 또는 도 4의 30)만을 인코딩한다.
물론 음성 합성기(107)가 상대 단말(200)로부터 제공된 부가 음성 자질(23)만을 이용하여 자동 번역 결과(10 또는 도 4의 30)에 대한 음성 합성을 수행할 수도 있다. 다만, 이 경우는 음성 합성에 따라 생성된 개인화된 합성음의 품질은 다소 낮을 수 있다.
또한, 음성 합성기(107)는 상대 단말(200)로부터의 변환된(업데이트된 또는 수정된) 부가 음성 자질(23) 및/또는 상대 단말(200)로부터의 변환된(업데이트된 또는 수정된) 은닉 변수(25)를 이용하여 자동 번역 결과(10 또는 도 4의 30)에 대한 음성 합성을 수행할 수 있다. 이 경우, 음성 합성기(107)는 상대 단말(200)의 상대 화자 또는 발화자 단말(100)의 발화자가 원하는 음색으로 변환된(업데이트된) 개인화된 합성음을 생성한다.
음성 합성기(107)가 발화자가 원하는 음색으로 변환된(업데이트된) 개인화된 합성음을 생성하고자 하는 경우, 아래에서 설명하겠지만, 발화자 단말(100) 내의 부가 음성 자질 변환기(119) 및 개인 음성 특징 변환기(121)가 통신기(111)를 통해 상대 단말(200)로부터 수신한 부가 음성 자질(도 4의 23)과 은닉 변수(도 4의 25)를 각각 변환하고, 이를 음성 합성기(107)에 전달한다.
한편, 음성 합성기(107)가 자동 번역 결과(10 또는 도 4의 30)만을 입력으로 이용하여 합성음을 생성하는 경우, 상기 생성된 합성음은 개인화된 합성음이 아니다.
음성 출력기(109)
다시 도 1을 참조하면, 음성 출력기(109)는 음성 합성기(107)가 자동 통역 결과로서 생성한 개인화된 합성음을 재생(출력)하는 것으로, 예를 들면, 스피커일 수 있다.
통신기(111)
통신기(111)는, 발화자 단말과 상대 단말 간의 정보 교환을 위해, 상대 단말(200)과 유선 또는 무선 방식으로 통신한다.
통신기(111)는 상대 단말(200)로 저장 유닛(117)에 저장된 부가 음성 자질(13) 및 개인 음성 특징 은닉 변수(15)를 송신한다. 이때, 자동 번역기(105)로부터 입력되는 자동 번역 결과(10)를 상대 단말(200)로 더 송신할 수 있다.
반대로, 통신기(111)는 상대 단말(200)로부터 부가 음성 자질(23) 및 은닉 변수(25)를 수신하고, 이를 음성 합성기(107)로 전달한다. 이때, 통신기(111)는 상대 단말(200)에서 수행한 자동 번역 결과(도 4의 30)를 상대 단말로부터 더 수신하고, 이를 음성 합성기(107)로 전달할 수 있다.
또한, 통신기(111)는 상대 단말(200)로 부가 음성 자질 변환기(119)에 의해 변환된(업데이트된) 부가 음성 자질(19) 및/또는 개인 음성 특징 변환기(121)에 의해 변환된(업데이트된) 은닉 변수(21)를 송신한다.
반대로 통신기(111)는 상대 단말(200)로부터 상대 단말(200)내의 부가 음성 자질 변환기(219)에 의해 변환된(업데이트된) 부가 음성 자질(29) 및/또는 개인 음성 특징 변환기(221)에 의해 변환된(업데이트된) 은닉 변수(31)를 수신하고, 이를 음성 합성기(107)로 전달할 수 있다.
부가 음성 자질 추출기(113)
부가 음성 자질 추출기(113)는 프로세서(125)에 의해 제어되는 하드웨어 모듈이거나, 프로세서(125) 내에 내장된 디지털 회로일 수 있다. 또는 부가 음성 자질 추출기(113)는 메모리(127)에 로딩되어 프로세서(125)에 의해 실행되는 소프트웨어 모듈일 수 있다.
부가 음성 자질 추출기(113)는 음성 수집기(101)로부터 입력된 발화자의 음성(또는 음성 신호)으로부터 부가 음성 자질(13)(또는 부가 음성 특징)을 추출한다.
부가 음성 자질(13)은 통신기(111)를 통해 상대 단말(200)로 송신되고, 상대 단말(200)의 음성 합성기(207)는 부가 음성 자질(13)을 음성 합성에 필요한 정보로 이용한다.
부가 음성 자질 추출기(113)는, 예를 들면, 비 신경망 기반의 알고리즘을 이용하여 부가 음성 자질(13)을 추출한다. 여기서, 비 신경망 기반의 알고리즘은 발화자의 음성 신호에서 반복적으로 나타나는 파형의 특징적인 패턴을 분석하는 알고리즘(이하, '파형 분석 알고리즘'라 함)일 수 있다.
비 신경망을 기반으로 제2 부가 음성 자질(13)을 추출하는 방법은, 예를 들면, 먼저, 발화자의 음성 신호를 수치화 된 디지털화된 파형(digitalized waveform(디지털화된 파형)으로 변환하는 과정, 변환된 디지털화된 파형에서 특정 주기를 설정하는 과정 및 파형 분석 알고리즘을 기반으로 파형의 진폭과 주기를 분석하여 상기 설정된 특정 주기에서의 특징적인 패턴을 추출하는 과정으로 포함한다.
도 1에서는 부가 음성 자질 추출기(113)가 하나의 독립된 블록으로 도시되어 있으나, 음성 인식기(103) 내에 통합될 수 있다. 이 경우, 음성 인식기 (103)에서 수행하는 음성 인식 과정은 부가 음성 자질의 추출 과정을 더 포함한다.
부가 음성 자질은 감정(차분, 공손, 공포, 행복, 긍정, 부정 등), 강도(intensity), 억양(intonation), 높낮이(pitch), 속도, 지속 시간 등을 나타내는 발화자 음성(voice of speaker(talker))의 음색 또는 스타일과 관련된 음성 특징일 수 있다.
부가 음성 자질 추출기(113)는 발화자의 음성 신호로부터 추출한 부가 음성 자질과 상기 음성 신호를 매핑하여, 그 매핑 결과들을 사전에 정해진 시간 구간에 따라 분류한다.
이후, 부가 음성 자질 추출기(113)는 상기 분류된 매핑 결과들을 사전에 정해진 규칙에 따라 수치화하고, 그 수치화 된 결과를 부가 음성 자질(13)로서 저장 유닛(117)에 데이터베이스 형태(117A)로 저장한다. 여기서, 상기 수치화 된 결과는 정수값, 실수값 또는 백분율 등의 형태일 수 있다.
한편, 상대 단말(200) 내의 부가 음성 자질 추출기(213)는 부가 음성 자질 추출기(113)와 동일한 구성 및 기능을 갖는다. 다만, 부가 음성 자질 추출기(113)는 발화자의 음성으로부터 부가 음성 자질(13)을 추출하고, 부가 음성 자질 추출기(213)는 상대 화자의 음성으로부터 부가 음성 자질(도 4의 23)을 추출하는 점에서 차이가 있을 뿐이다.
개인 음성 특징 인코더(115)
개인 음성 특징 인코더(115)는 프로세서(125)에 의해 제어되는 하드웨어 모듈이거나, 프로세서(125) 내에 내장된 디지털 회로일 수 있다. 또는 개인 음성 특징 인코더(115)는 메모리(127)에 로딩되어 프로세서(125)에 의해 실행되는 소프트웨어 모듈일 수 있다.
개인 음성 특징 인코더(115)는, 음성 수집기(101)로부터 입력된 발화자의 음성 신호에 대해 인코딩 과정을 수행하여, 개인 음성 특징을 포함하는 은닉 변수(15)를 생성한다.
개인 음성 특징은 부가 음성 자질과 음성 특징 파라메터를 포함하거나 이들을 결합한 정보일 수 있다. 여기서, 음성 특징 파라메터는, 예를 들면, 멜 주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficient: MFCC) 기반의 특징 벡터일 수 있다.
은닉 변수(15)는, 부가 음성 자질 추출기(113)에 의해 추출된 부가 음성 자질(13)과 함께, 음성 합성기(107)에서 음성 합성 과정을 수행하는데 필요한 정보로 활용된다.
은닉 변수(15)는, 부가 음성 자질(13)과 유사한 부가 음성 자질 외에 MFCC와 같은 음성 특징 파라메터를 더 포함하기 때문에, 부가 음성 자질(13)보다 발화자의 음성 특징(발화 음색, 발화 스타일 등)과 관련된 정보를 더 많이 포함하고 있는 정보일 수도 있다. 이 경우, 상대 단말(200) 내의 음성 합성기(207)는 발화자 단말(100)로부터 발화자 단말(100)에서 추출한 상기 은닉 변수(15)만을 수신하여 상기 은닉 변수(15)만을 음성 합성에 필요한 정보로 이용할 수 있다.
이러한 은닉 변수(15)를 생성하기 위해, 개인 음성 특징 인코더(115)은 사전 학습된 신경망 구조로 이루어질 수 있다.
개인 음성 특징 인코더(115)의 신경망 구조는 상대 단말(200) 내의 음성 합성기(도 4의 207)의 신경망 구조와 동일하거나 다를 수도 있다. 전술한 바와 같이, 신경망 구조가 다른 경우, 도시하지는 않았으나, 상대 단말(200) 내의 음성 합성기(도 4의 207)는 데이터 차원을 정규화하는 차원 정규화기와 같은 처리 블록을 더 포함하도록 구성된다.
상대 단말(200) 내의 음성 합성기(207)는 부가 음성 자질 추출기(113)으로부터 제공된 부가 음성 자질(13)만을 활용하여 개인화된 합성음을 생성할 수 있지만, 개인화된 합성음의 정확도를 더욱 높이기 위해, 부가 음성 자질 추출기(113)으로부터 제공된 은닉 변수(15)을 주 정보로 활용하고, 부가 음성 자질 추출기(113)으로부터 제공된 부가 음성 자질(13)를 보조 정보로 활용하여 음성 합성을 수행할 수 있다.
반대로, 상대 단말(200) 내의 음성 합성기(207)는 부가 음성 자질 추출기(113)으로부터 제공된 부가 음성 자질(13)을 주 정보로 활용하고, 부가 음성 자질 추출기(113)로부터 제공된 은닉 변수(15)를 보조 정보로 활용하여 음성 합성을 수행할 수도 있다.
개인 음성 특징 인코더(115)의 신경망 구조는 정해진 규칙 또는 다양한 훈련 데이터의 특성(예, 다양한 데이터 차원)에 따라 다양하게 변형된 신경망 구조로 학습될 수 있다.
이처럼 개인 음성 특징 인코더(115)의 신경망 구조가 훈련 데이터의 특성에 따라 다양한 신경망 구조로 학습되는 경우, 발화자 단말(100)의 개인 음성 특징 인코더(115)의 신경망 구조는 상대 단말(200) 내의 음성 합성기(207) 내의 인코더의 신경망 구조와 다를 수 있다.
따라서, 개인 음성 특징 인코더(115)에 의해 생성된 은닉 변수(15)의 데이터 차원은 상대 단말(200)의 음성 합성기(207) 내의 인코더에 의해 생성된 인코딩 결과의 데이터 차원이 동일하도록 차원 정규화 과정을 수행하는 것이 바람직하다.
한편, 개인 음성 특징 인코더(115)에서 생성한 인코딩 결과, 즉, 은닉 변수(15)는 저장 유닛(117) 내에 데이터베이스 형태(117B)로 저장된다.
개인 음성 특징 인코더(115)와 상대 단말(200) 내의 개인 음성 특징 인코더(215)는 동일한 구성 및 기능을 갖는다. 다만, 개인 음성 특징 인코더(115)는 발화자의 개인 음성 특징과 관련된 은닉 변수(15)를 추출하고, 개인 음성 특징 인코더(215)는 상대 화자의 개인 음성 특징과 관련된 은닉 변수(25)를 추출하는 점에서 차이가 있을 뿐이다.
저장 유닛(117)
저장 유닛(117)은 부가 음성 자질 추출기(113) 및 개인 음성 특징 인코더(115)로부터 각각 출력된 부가 음성 자질(13)과 개인 음성 특징 은닉 변수(15)를 데이터 베이스 형태(117A, 117B)로 일시적 또는 영구적으로 저장하는 유닛으로, 휘발성 및 비휘발성 저장 매체로 구현될 수 있다.
저장 유닛(117)에 저장된 부가 음성 자질(13)과 은닉 변수(15)는 음성 수집기(101)에 의해 새롭게 수집된 음성 신호를 기반으로 획득한 새로운 부가 음성 자질과 새로운 은닉 변수로 실시간으로 업데이트될 수 있다.
부가 음성 자질 변환기(119)
부가 음성 자질 변환기(119)는 프로세서(125)에 의해 제어되는 하드웨어 모듈이거나, 프로세서(125) 내에 내장된 디지털 회로일 수 있다. 또는 부가 음성 자질 변환기(119)는 메모리(127)에 로딩되어 프로세서(125)에 의해 실행되는 소프트웨어 모듈일 수 있다.
부가 음성 자질 변환기(119)는 발화자의 요구에 따라 부가 음성 추출기(113)에 의해 추출된 부가 음성 자질(13)의 특정값 또는 상대 단말(200)로부터 제공된 부가 음성 자질(23)의 특정값을 수정하여 업데이트된 부가 음성 자질로 변환시킨다.
부가 음성 자질의 변환은, 예를 들면, 발화자 또는 상대 화자의 음성 높낮이를 변환하는 경우, 상기 음성 높낮이에 대응하는 특정값을 조정하는 것일 수 있다.
이러한 부가 음성 자질의 변환은 발화자에 의해 수행될 수 있다. 예를 들면, 발화자가 사용자 인터페이스(도시하지 않음)를 통해 상기 특정값을 입력하면, 사용자 인터페이스는 상기 특정값을 부가 음성 자질 변환기(119)로 전달하고, 부가 음성 자질 변환기(119)는 사용자 인터페이스를 통해 입력된 상기 특정값을 기반으로 부가 음성 자질(13) 또는 상대 단말(200)로부터 제공된 부가 음성 자질(23)을 변환시킨다.
다르게, 발화 단말(100)이 통신기(111)를 통해 부가 음성 자질(13)을 상대 단말(200)로 전송하면, 상대 단말(200) 내의 부가 음성 자질 변환기(219)가 상기 수신된 부가 음성 자질(13)을 특정값을 조정하는 방식으로 발화 단말(100)로부터 수신된 부가 음성 자질(13)을 변환시킬 수 있다.
이때, 상대 단말(200)이 수신한 부가 음성 자질(13)이 발화 단말(100)의 부가 음성 자질 변환기(119)에 의해 업데이트된 부가 음성 자질(19)인 경우, 상대 단말(100) 내의 부가 음성 자질 변환기(219)는 발화 단말(100)에 의해 업데이트된 부가 음성 자질(29)을 상대 단말(200)의 상대 화자가 원하는 음색으로 한번 더 업데이트(변환)할 수 있다.
개인 음성 특징 변환기(121)
개인 음성 특징 변환기(121)는 프로세서(125)에 의해 제어되는 하드웨어 모듈이거나, 프로세서(125) 내에 내장된 디지털 회로일 수 있다. 또는 개인 음성 특징 변환기(121)는 메모리(127)에 로딩되어 프로세서(125)에 의해 실행되는 소프트웨어 모듈일 수 있다.
개인 음성 특징 변환기(121)는 개인 음성 특징 인코더(115)에 의해 인코딩된 은닉 변수(15)의 특정값을 변경하여 은닉 변수를 업데이트할 수 있다.
은닉 변수(15)에 포함된 부가 음성 자질과 음성 특징 파라메터(예, MFCC)는 신경망의 처리 과정에서 은닉 변수에 은닉된 정보이이므로, 그 은닉 변수가 발화자가 발화한 음성의 어떤 부가 음성 자질과 관련성이 있는지 알 수 없다. 따라서, 발화자가 은닉 변수를 변경하려면, 부가 음성 자질과 은닉 변수 간의 관계를 알아내는 선행 작업이 필요하다.
선행 작업은, 예를 들면, 발화자 음성의 높낮이를 변경한 경우, 은닉 변수의 어떤 특정값이 변경되었는 지를 분석하는 작업일 수 있다.
또는 선행 작업은 은닉 변수를 변경한 후, 변경된 은닉 변수를 기반으로 음성 합성을 수행하여 획득한 개인화된 합성음의 어떤 부가 음성 자질이 어떻게 변경되었는 지를 분석하는 작업일 수 있다.
이러한 선행 작업은 신경망 학습을 통해 가능하며, 선행 작업을 통해, 은닉 변수의 특정값과 부가 음성 자질의 특정값 간의 관련성이 확인되면, 그 관련성은 매핑 테이블로 구성한다.
개인 음성 특징 변환기(121)는 사용자 인터페이스(도시하지 않음)로부터 발화자가 변경하고자 하는 개인화된 합성음의 부가 음성 자질의 특정값을 수신하고, 상기 매핑 테이블을 참조하여 상기 부가 음성 자질의 특정값에 대응하는 은닉 변수의 특정값을 변경(업데이트)한다.
이와 같이 상기 변경된(업데이트된) 은닉 변수(21)는 통신기(111)를 통해 상대 단말(200)로 전송되고, 그 은닉 변수(21)는 상대 단말(200) 내의 음성 합성기(207)에서 음성 합성 수행에 필요한 정보로 활용된다.
또한, 상대 단말(200) 내의 개인 음성 특징 변환기(221)는 발화자 단말(100)로부터 수신된 상기 변경된(업데이트된) 은닉 변수(21)를 상대 단말(200)의 상대 화자가 원하는 값으로 다시 변경(업데이트)할 수 있다.
학습기(123)
학습기(123)는 프로세서(125)에 의해 제어되는 하드웨어 모듈이거나, 프로세서(125) 내에 내장된 디지털 회로일 수 있다. 또는 학습기(123)는 메모리(127)에 로딩되어 프로세서(125)에 의해 실행되는 소프트웨어 모듈일 수 있다.
학습기(123)는 음성 학습기(107)를 학습시키는 구성일 수 있다.
학습기(123)에 의해 수행되는 학습 방법은 지도 학습 및/또는 비지도 학습을 포함하는 기계학습일 수 있다.
학습기(123)는 상대 단말(200)로부터 수신된 상대 화자의 음성 특징을 나타내는 부가 음성 자질(도 4의 23), 은닉 변수(도 4의 25), 변경된 부가 음성 자질(도 4의 29) 및 변경된 은닉 변수(도 4의 31)를 훈련 데이터로 이용하여 음성 합성기(107)를 학습시킬 수 있다.
도 4는 도 1에 도시한 상대 단말의 내부 구성을 나타내는 블록도이고, 도 5는 도 4에 도시한 음성 합성기의 내부 구성을 나타내는 블록도이다.
도 4를 참조하면, 상대 단말(200)는 음성 수집기(201), 음성 인식기(203), 자동 번역기(205), 음성 합성기(207), 음성 출력기(209), 통신기(211), 부가 음성 자질 추출기(213), 개인 음성 특징 인코더(215), 저장 유닛(217), 부가 음성 자질 변환기(219), 개인 음성 특징 변환기(221) 및 학습기(223)를 포함한다.
상기 구성들(201, 203, 205, 207, 209, 211, 213, 215, 217, 219, 221 및 223)은 도 2에 도시한 구성들(101, 103, 105, 107, 109, 111, 113, 115, 117, 119, 121 및 123)과 동일한 구조 및 기능을 갖는다.
따라서, 상기 구성들(201, 203, 205, 207, 209, 211, 213, 215, 217, 219, 221 및 223) 각각 대한 설명은 도 2에 도시한 구성들(101, 103, 105, 107, 109, 111, 113, 115, 117, 119, 121 및 123) 각각에 대한 설명으로 대신한다.
다만, 상대 단말(200)이 발화자 단말(100)로부터 자동 번역 결과(10), 부가 음성 자질(13) 및 은닉 변수(15)를 수신한 경우, 자동 번역 결과(10), 부가 음성 자질(13) 및 은닉 변수(15)의 처리와 관련된 구성들에 대해서만 간략히 설명하기로 한다.
우선, 통신기(211)는 발화자 단말(100)로부터 자동 번역 결과(10), 부가 음성 자질(13) 및 은닉 변수(15)를 수신한다. 이때, 통신기(211)는 자동 번역 결과(10)를 수신하지 않고, 부가 음성 자질(13) 및 개인 음성 특징과 관련된 은닉 변수(15)만을 수신할 수도 있다.
상대 단말(200)의 통신기(211)가 발화자 단말(100)로부터 자동 번역 결과(10), 부가 음성 자질(13) 및 개인 음성 특징과 관련된 은닉 변수(15)를 수신한 경우, 통신기(211)는 자동 번역 결과(10), 부가 음성 자질(13) 및 은닉 변수(15)를 음성 합성기(207)로 전달한다.
음성 합성기(207)는 통신기(211)로부터 전달된 자동 번역 결과(10), 부가 음성 자질(13) 및 은닉 변수(15)를 이용하여 발화자 단말(100)에서 전송한 자동 번역 결과()에 대한 음성 합성을 수행하여 개인화된 합성음을 재생(출력)할 수 있다.
다르게, 상대 단말(200)이 발화자 단말(100)로부터 부가 음성 자질(13) 및 은닉 변수(15)만을 수신하는 경우, 음성 합성기(207)는 발화자 단말(100)로부터 수신된 부가 음성 자질(13)과 은닉 변수(15)를 이용하여 자동 번역기(205)로부터 입력되는 자동 번역 결과(30)에 대한 음성 합성을 수행할 수 있다.
한편, 발화자 단말(100)로부터 부가 음성 자질(13) 및 은닉 변수(15)은 부가 음성 자질 변환기(219) 및 개인 음성 특징 변환기(221)에 의해 상대 화자가 원하는 음색으로 각각 업데이트할 수 있다.
음성 합성기(207)는 업데이트된 부가 음성 자질과 업데이트된 은닉 변수를 이용하여 발화자 단말(100)로부터 수신된 자동 번역 결과(10) 또는 자동 번역기(205)에서 제공하는 자동 번역 결과(30)에 대해 음성 합성을 수행할 수도 있다.
또한 음성 합성기(207)는 발화자 단말에서 이미 업데이트된 부가 음성 자질(19) 및 은닉 변수(21)를 이용하여 발화자 단말(100)로부터 수신된 자동 번역 결과(10) 또는 자동 번역기(205)에서 제공하는 자동 번역 결과(30)에 대해 음성 합성을 수행할 수도 있다.
학습기(223)는 발화자 단말(100)로부터 수신된 부가 음성 자질(13)과 은닉 변수(15)를 훈련 데이터로 이용하여 음성 합성기(207)를 학습시킬 수 있다.
또한, 학습기(223)는 발화자 단말(100)로부터 수신된 업데이트된 부가 음성 자질(19)과 업데이트된 은닉 변수(21)를 훈련 데이터로 이용하여 음성 합성기(207)를 학습시킬 수 있다.
또한, 상대 단말(200) 내의 부가 음성 자질 변환기(219)와 개인 음성 특징 변환기(221)가 발화자 단말(100)로부터 수신한 부가 음성 자질(13)과 은닉 변수(15)를 각각 업데이트하는 경우, 학습기(223)는 상기 업데이트된 부가 음성 자질(29)과 상기 업데이트된 은닉 변수(31)를 훈련 데이터로 이용하여 음성 학습기(207)를 학습시킬 수 있다.
그 밖에 참조 번호 23은 부가 음성 자질 추출기(213)가 음성 수집기(201)가 수집한 음성 신호를 기반으로 생성한 부가 음성 자질(23)을 지시하는 것이고, 참조 번호 25는 개인 음성 특징 인코더(215)가 음성 수집기(201)가 수집한 음성 신호를 기반으로 생성한 개인 음성 특징과 관련된 은닉 변수(25)를 지시하는 것이다.
참조 번호 30은 자동 번역기(205)가 음성 인식기(203)로부터 입력된 음성 인식 결과에 대한 자동 번역 결과를 지시한다.
상대 단말(200) 내에서 개인 음성 특징 인코더(215)의 신경망 구조와 발화자 단말(100) 내에서 개인 음성 특징 인코더(115)의 신경망 구조는 동일하거나 다를 수 있다.
또한, 상대 단말(200) 내에서 개인 음성 특징 인코더(215)의 신경망 구조와 발화자 단말(100) 내에서 음성 합성기(107)에 구비된 인코더(도 3의 107A)의 신경망 구조는 동일하거나 다를 수 있다.
또한, 상대 단말(200) 내에서 음성 합성기(207)에 구비된 인코더(207A)의 신경망 구조와 발화자 단말(100) 내에서 음성 합성기(107)에 구비된 인코더(도 3의 107A)의 신경망 구조는 동일하거나 다를 수 있다.
이처럼 서로 다른 단말에서 인코더들(107A, 207A)의 신경망 구조가 다르기 때문에, 발화자 단말(100) 또는 상대 단말(200)에 구비된 음성 합성기 내의 디코더(107D 또는 207D)는 서로 다른 데이터 차원의 인코딩 결과들을 디코딩하는 문제가 발생할 수 있다.
그러나, 본 발명에서는 발화자 단말(100) 또는 상대 단말(200) 내의 음성 합성기가 데이터 차원을 동일한 차원으로 정규화하는 과정을 수행하기 때문에, 데이터 차원의 불일치에 따른 디코딩 결과의 오류를 최소화할 수 있다.
즉, 각 단말에 설치된 음성 합성기(107 또는 207)의 사양(신경망 구조)에 대한 의존성을 줄임으로써, 발화자 단말(100)과 상대 단말(200)이 발화자의 음성 특징을 기반으로 개인화된 합성음을 자동 번역 결과로 재생하는 경우, 발화자 단말(100) 및 상대 단말(200)은 동일한 발화자의 음성 특징을 기반으로 개인화된 합성음을 자동 통역 결과로 제공할 수 있다.
도 5에 도시한 음성 합성기(207)의 내부 구성들(207A, 207B, 207C, 207D)은 도 3에 도시한 발화자 단말(100)에 구비된 음성 합성기(107)의 내부 구성들(107A, 107B, 107C, 107D)과 각각 동일한 기능을 갖는다. 따라서, 음성 합성기(207)의 각 내부 구성에 대한 설명은 도 3에 도시한 음성 합성기(107)의 내부 구성들(107A, 107B, 107C, 107D)에 대한 설명으로 대신한다.
다만, 상대 단말의 음성 합성기(207)는 발화자 단말(100)로부터 수신된 자동 번역 결과(10), 은닉 변수(15) 및 부가 음성 자질(13)을 기반으로 상기 자동 번역 결과(10)에 대한 음성 합성을 수행하고, 발화자 단말(100)의 음성 합성기(107)는 상대 단말(200)로부터 수신된 자동 번역 결과(30), 은닉 변수(25) 및 부가 음성 자질(23)을 기반으로 상기 자동 번역 결과(30)에 대한 음성 합성을 수행하는 점에서 차이가 있을 뿐이다.
도 6은 본 발명의 실시 예에 따른 상대 단말에서 수행하는 자동 통역 방법을 설명하기 위한 흐름도이다.
용어의 명확한 구분을 위해, 도 2 및 4에 도시한 개인 음성 특징 인코더(115 또는 215)에서 획득한 은닉 변수(15 또는 25)에 포함된 부가 음성 자질을 '제1 부가 음성 자질', 부가 음성 추출기(113, 또는 213)에서 추출한 부가 음성 자질(13 또는 23)을 '제2 부가 음성 자질'이라 칭한다.
또한, 도 2 및 4에 도시한 개인 음성 특징 인코더(115, 215)는 '제1 음성 특징 추출기'라 칭하고, 부가 음성 자질 추출기(113, 213)은 '제2 음성 특징 추출기'라 칭한다.
또한, 도 2 및 4에 도시한 개인 음성 특징 변환기(121 또는 221)는 '제1 음성 특징 변환기', 부가 음성 자질 변환기(119 또는 219)는 '제2 음성 특징 변환기'로 칭한다.
도 5를 참조하면, 먼저, S510에서, 상대 단말(200)의 통신기(211)에서, 발화자 단말(100)로부터 자동 번역 결과(10)와 발화자가 발화한 음성으로부터 추출된 음성 특징 정보를 수신하는 과정이 수행된다.
이어, S520에서, 상대 단말(200)의 음성 합성기(207)에서, 상기 자동 번역 결과(10)와 상기 음성 특징 정보(13 및 15)를 기반으로 음성 합성을 수행하여 개인화된 합성음을 자동 통역 결과로서 출력하는 과정이 수행된다.
상기 발화자 단말(100)로부터 제공되는 음성 특징 정보는 은닉 변수(도 2의 15)와 제2 부가 음성 자질(도 2의 13)을 포함한다.
은닉 변수(도 2의 15)는 발화자 단말(100) 내의 제1 음성 특징 추출기(도 2의 115)에서 신경망 알고리즘을 기반으로 추출한 정보로서, 제1 부가 음성 자질과 음성 특징 파라메터를 포함한다. 여기서, 음성 특징 파라메터는, 예를 들면, 멜 주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficient: MFCC) 기반의 특징 벡터일 수 있다.
제2 부가 음성 자질(도 2의 13)은 발화자 단말(100) 내의 제2 음성 특징 추출기(도 2의 113)에서 비 신경망 알고리즘을 기반으로 추출한 정보일 수 있다. 여기서, 비 신경망 알고리즘은 상발화자의 음성에서 반복적으로 나타나는 파형 특징을 분석하는 알고리즘일 수 있다.
상기 제2 부가 음성 자질(13)과 은닉 변수(15)에 포함된 상기 제1 부가 음성 자질은 발화자 음성의 강도, 억양, 높낮이 및 속도 등과 관련된 정보로서, 발화자가 발화한 음성의 음색과 관련된 특징일 수 있다.
상기 S520에서, 개인화된 합성을 출력하는 과정은, 다음과 같다.
먼저, 인코더(도 5의 207A)에서, 상기 자동 번역 결과(10)와 상기 제2 부가 음성 자질을 인코딩하여 획득한 인코딩 결과(도 5의 70)를 출력하는 과정이 수행된다.
이어, 차원 정규화기(도 5의 207B)에서, 상기 인코딩 결과(도 5의 70)의 데이터 차원과 상기 은닉 변수(15)의 데이터 차원을 동일한 데이터 차원으로 정규화하는 과정이 수행된다.
이어, 디코더(207C)에서, 상기 동일한 데이터 차원으로 정규화된 상기 은닉 변수와 상기 인코딩 결과를 디코딩하여, 상기 개인화된 합성음을 생성하는 과정이 수행된다.
또는 디코더(207D)가 개인화된 합성을 생성하지 않고, 발화자의 음성을 결정하는 파라메터(Parameter)를 생성하는 경우, 보코더(도 5의 207D) 디코더(도 5의 207C)로부터 입력된 파라메터를 기반으로 개인화된 합성음을 출력하는 과정이 더 추가될 수 있다. 여기서, 파라메터는, 예를 들면, 스펙트로그램(spectrogram) 기반의 특징 벡터일 수 있다.
한편, 상대 단말(200)에서 수행하는 자동 통역 방법은, 상대 단말(200)의 상대 화자가 상기 발화자가 발화한 음성의 음색을 다른 음색으로 변경하고자 하는 경우, 제1 음성 특징 조정기(도 4의 221)가, 발화자 단말(100)로부터 제공된 은닉 변수(도 2의 15)의 특정값을 조정하여, 상기 은닉 변수(도2의 15)를 업데이트하는 과정 및 제2 음성 특징 조정기(도 4의 219)가, 발화자 단말(100)로부터 제공된 제2 부가 음성 자질(도 2의 13)의 특정값을 조정하여, 상기 제2 부가 음성 자질(13)을 업데이트하는 과정을 더 포함할 수 있다.
이처럼 발화자 단말(100)로부터 제공된 상기 은닉 변수(도 2의 15)와 제2 부가 음성 자질(도 2의 13)가 업데이트되는 경우, 상대 단말(200) 내의 음성 합성기(도 4의 207)에서는, 상기 업데이트된 은닉 변수와 상기 업데이트된 제2 부가 음성 자질을 기반으로 음성 합성을 수행하여, 상기 상대 화자가 원하는 상기 다른 음색을 갖는 개인화된 합성음을 출력하는 과정이 수행될 수 있다.
도 7은 본 발명의 실시 예에 따른 발화자 단말에서 수행하는 자동 통역 방법을 설명하기 위한 흐름도이다.
용어의 명확한 구분을 위해, 도 2 및 4에 도시한 개인 음성 특징 인코더(115 또는 215)에서 획득한 은닉 변수(15 또는 25)에 포함된 부가 음성 자질을 '제1 부가 음성 자질', 부가 음성 추출기(113, 또는 213)에서 추출한 부가 음성 자질(13 또는 23)을 '제2 부가 음성 자질'이라 칭한다.
또한, 도 2 및 4에 도시한 개인 음성 특징 인코더(115, 215)는 '제1 음성 특징 추출기'라 칭하고, 부가 음성 자질 추출기(113, 213)은 '제2 음성 특징 추출기'라 칭한다.
또한, 도 2 및 4에 도시한 개인 음성 특징 변환기(121 또는 221)는 '제1 음성 특징 변환기', 부가 음성 자질 변환기(119 또는 219)는 '제2 음성 특징 변환기'로 칭한다.
도 7을 참조하면, 먼저, S710에서, 제1 음성특징 추출기(도 2의 115)에서, 발화자가 발화한 음성으로부터 제1 부가 음성 자질과 음성 특징 파라메터를 포함하는 은닉 변수(도 2의 15)를 추출하는 과정이 수행된다. 여기서, 은닉 변수(도 2의 15)의 추출을 위해, 신경망 기반 알고리즘이 이용될 수 있다.
이어, S720에서, 제2 음성특징 추출기(도2의 113)에서, 상기 음성으로부터 제2 부가 음성 자질(도 2의 13)을 추출하는 과정이 수행된다. 여기서, 제2 부가 음성 자질(도 2의 13)을 추출을 위해, 비 신경망 기반 알고리즘이 이용될 수 있다. 비 신경망 기반 알고리즘은, 예를 들면, 상기 발화자의 음성에서 반복적으로 나타나는 파형 특징을 분석하는 알고리즘일 수 있다.
이어, S730에서, 음성 인식기(도 2의 103)에서, 상기 음성에 대해 음성 인식을 수행하여 음성 인식 결과를 획득하는 과정이 수행된다.
이어, S740에서, 자동 번역기(도 2의 105)에서, 상기 음성 인식 결과에 대해 자동 번역을 수행하여 자동 번역 결과를 획득하는 과정이 수행된다.
이어, S750에서, 통신기(도 2의 111)에서, 상기 상대 단말(200)이 상기 은닉 변수와 상기 제2 부가 음성 자질을 기반으로 상기 자동 번역 결과에 대한 음성 합성을 수행하도록 상기 자동 번역 결과(10), 상기 은닉 변수(15) 및 상기 제2 부가 음성 자질(13)을 상기 상대 단말(200)로 송신하는 과정이 수행된다.
선택적으로, 발화자 단말에서 수행하는 자동 통역 방법은 제1 음성 특징 조정기(도 2의 121)가 상기 은닉 변수(15)의 특정값을 조정하여, 상기 은닉 변수(15)를 업데이트하는 과정과 제2 음성 특징 조정기(도 2의 119)가 상기 제2 부가 음성 자질(13)의 특정값을 조정하여, 상기 제2 부가 음성 자질(13)을 업데이트 하는 과정을 더 포함할 수 있다.
상기 은닉 변수(15)와 상기 제2 부가 음성 자질(13)이 업데이트 된 경우, 상기 통신기(도 2의 111)에서, 상기 상대 단말(200)이 상기 업데이트된 은닉 변수와 상기 업데이트된 제2 부가 음성 자질을 기반으로 상기 자동 번역 결과(10)에 대한 음성 합성을 수행하도록, 상기 자동 번역 결과(10), 상기 업데이트된 은닉 변수(15) 및 상기 업데이트된 제2 부가 음성 자질(13)을 상기 상대 단말(200)로 송신하는 과정이 수행될 수 있다.
S740에 따른 자동 번역은 상대 단말(200)에서 수행될 수 있다. 이 경우, 상대 단말(200)이, S730에 따라 획득된 음성 인식 결과에 대한 자동 번역을 수행하도록, 상기 통신기(도 2의 111)에서, 상기 음성 인식 결과를 상기 상대 단말(200)로 송신하는 과정이 수행될 수 있다.
이제까지 본 발명을 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양하게 변경 또는 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명을 위한 예시적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (19)

  1. 발화자 단말과 통신하는 상대 단말로서, 상기 상대 단말에서 수행하는 자동 통역 방법에서,
    통신기가, 상기 발화자 단말로부터, 발화자가 원시 언어로 발화한 음성을 목적 언어로 자동 번역하여 획득한 자동 번역 결과와 상기 발화자의 음성 특징 정보를 수신하는 단계; 및
    음성 합성기가, 상기 자동 번역 결과와 상기 음성 특징 정보를 기반으로 음성 합성을 수행하여, 개인화된 합성음을 자동 통역 결과로서 출력하는 단계;를 포함하고,
    상기 발화자의 음성 특징 정보는,
    상기 발화자의 음성으로부터 추출된 제1 부가 음성 자질과 음성 특징 파라메터를 포함하는 은닉 변수 및 제2 부가 음성 자질을 포함하는 것인 자동 통역 방법.
  2. 제1항에서,
    상기 은닉 변수는,
    상기 발화자 단말에서 신경망 알고리즘을 기반으로 추출한 것인 자동 통역 방법.
  3. 제1항에서,
    상기 제2 부가 음성 자질은,
    상기 발화자 단말에서 비 신경망 알고리즘을 기반으로 추출된 것인 자동 통역 방법.
  4. 제3항에서,
    상기 비 신경망 기반의 알고리즘은,
    상기 발화자의 음성에서 반복적으로 나타나는 파형 특징을 분석하는 알고리즘인 것인 자동 통역 방법.
  5. 제1항에서,
    상기 제1 및 제2 부가 음성 자질 각각은,
    상기 사용자 음성의 강도, 억양, 높낮이 및 속도를 나타내는 사용자 음성의 음색 또는 스타일과 관련된 음성 특징인 것인 자동 통역 방법.
  6. 제1항에서,
    상기 개인화된 합성음을 자동 통역 결과로서 출력하는 단계는,
    인코더가, 상기 자동 번역 결과와 상기 제2 부가 음성 자질을 인코딩하여 획득한 인코딩 결과를 출력하는 단계;
    차원 정규화기가, 상기 인코딩 결과의 데이터 차원과 상기 은닉 변수의 데이터 차원을 동일한 데이터 차원으로 정규화하는 단계; 및
    디코더가, 상기 동일한 데이터 차원으로 정규화된 상기 은닉 변수와 상기 인코딩 결과를 디코딩하여, 상기 개인화된 합성음을 생성하는 단계
    를 포함하는 자동 통역 방법.
  7. 제1항에서,
    상기 상대 단말의 상대 화자가 상기 발화자가 발화한 음성의 음색을 다른 음색으로 변경하고자 하는 경우,
    제1 음성 특징 조정기가, 상기 은닉 변수의 특정값을 조정하여, 상기 은닉 변수를 업데이트하는 단계; 및
    제2 음성 특징 조정기가, 상기 제2 부가 음성 자질의 특정값을 조정하여, 상기 제2 부가 음성 자질을 업데이트하는 단계;
    를 더 포함하는 자동 통역 방법.
  8. 제7항에서,
    상기 개인화된 합성음을 자동 통역 결과로서 출력하는 단계는,
    상기 업데이트된 은닉 변수와 상기 업데이트된 제2 부가 음성 자질을 기반으로 음성 합성을 수행하여, 상기 상대 화자가 원하는 상기 다른 음색을 갖는 개인화된 합성음을 상기 자동 통역 결과로서 출력하는 단계
    를 포함하는 자동 통역 방법.
  9. 상대 단말과 통신하는 발화자 단말로서, 상기 발화자 단말에서 수행하는 자동 통역 방법에서,
    제1 음성특징 추출기가, 발화자가 발화한 음성으로부터 제1 부가 음성 자질과 음성 특징 파라메터를 포함하는 은닉 변수를 추출하는 단계;
    제2 음성특징 추출기가, 상기 음성으로부터 제2 부가 음성 자질을 추출하는 단계;
    음성 인식기가, 상기 음성에 대해 음성 인식을 수행하여 음성 인식 결과를 획득하는 단계;
    자동 번역기가, 상기 음성 인식 결과에 대해 자동 번역을 수행하여 자동 번역 결과를 획득하는 단계; 및
    통신기가, 상기 자동 번역 결과, 상기 은닉 변수 및 상기 제2 부가 음성 자질을 상기 상대 단말로 송신하는 단계를 포함하는 자동 통역 방법.
  10. 제9항에서,
    상기 발화자 단말의 발화자가 상기 발화자가 발화한 음성의 음색을 다른 음색으로 변경하고자 하는 경우,
    제1 음성 특징 조정기가, 상기 은닉 변수의 특정값을 조정하여, 상기 은닉 변수를 업데이트하는 단계;
    제2 음성 특징 조정기가, 상기 제2 부가 음성 자질의 특정값을 조정하여, 상기 제2 부가 음성 자질을 업데이트 하는 단계를 더 포함하는 자동 통역 방법.
  11. 제10항에서,
    상기 통신기가, 상기 상대 단말에서 상기 업데이트 된 은닉 변수와 상기 업데이트 된 제2 부가 음성 자질을 기반으로 상기 자동 번역 결과에 대한 음성 합성을 수행하도록, 상기 업데이트 된 은닉 변수와 상기 업데이트 된 제2 부가 음성 자질을 상기 상대 단말로 송신하는 단계;를 더 포함하는 것인 자동 통역 방법.
  12. 제9항에서,
    상기 은닉 변수를 추출하는 단계는,
    신경망 기반 알고리즘을 기반으로 상기 음성으로부터 상기 은닉 변수를 추출하는 단계인 것인 자동 통역 방법.
  13. 제9항에서,
    상기 제2 부가 음성 자질을 추출하는 단계는,
    비 신경망 기반 알고리즘을 기반으로 상기 음성으로부터 상기 제2 부가 음성 자질을 추출하는 단계인 것인 자동 통역 방법.
  14. 제9항에서,
    상기 상대 단말로 송신하는 단계는,
    상기 음성 인식 결과에 대해 자동 번역을 상기 상대 단말에서 수행하는 경우, 상기 통신기가, 상기 자동 번역 결과 대신에 상기 음성 인식 결과를 상기 상대 단말로 송신하는 단계인 것인 자동 통역 방법.
  15. 발화자 단말과 통신하는 상대 단말로서, 상기 상대 단말은 자동 통역 장치를 포함하고,
    상기 자동 통역 장치는,
    상기 발화자 단말로부터, 발화자가 원시 언어로 발화한 음성을 목적 언어로 자동 번역하여 획득한 자동 번역 결과와 상기 발화자의 음성 특징 정보를 수신하는 통신기; 및
    상기 자동 번역 결과와 상기 음성 특징 정보를 기반으로 음성 합성을 수행하여, 개인화된 합성음을 자동 통역 결과로서 출력하는 음성 합성기를 포함하고,
    상기 발화자의 음성 특징 정보는,
    상기 발화자의 음성으로부터 추출된 제1 부가 음성 자질과 음성 특징 파라메터를 포함하는 은닉 변수 및 제2 부가 음성 자질을 포함하는 것인 자동 통역 장치.
  16. 제15항에서,
    상기 상대 단말의 상대 화자가 상기 발화자가 발화한 음성의 음색을 다른 음색으로 변경하고자 하는 경우,
    상기 은닉 변수의 특정값을 조정하여, 상기 은닉 변수를 업데이트하는 제1 음성 특징 조정기; 및
    상기 제2 부가 음성 자질의 특정값을 조정하여, 상기 제2 부가 음성 자질을 업데이트하는 제2 음성 특징 조정기
    를 더 포함하는 것인 자동 통역 장치.
  17. 제15항에서,
    상기 음성 합성기는,
    상기 자동 번역 결과, 상기 업데이트된 은닉 변수 및 상기 업데이트된 제2 부가 음성 자질을 기반으로 음성 합성을 수행하여, 상기 개인화된 합성음을 자동 통역 결과로서 출력하는 것인 자동 통역 장치.
  18. 제15항에서,
    상기 음성 합성기는,
    상기 자동 번역 결과와 상기 제2 부가 음성 자질을 인코딩하여 획득한 인코딩 결과를 출력하는 인코더;
    상기 인코딩 결과의 데이터 차원과 상기 은닉 변수의 데이터 차원을 동일한 데이터 차원으로 정규화하는 차원 정규화기; 및
    상기 동일한 데이터 차원으로 정규화된 상기 은닉 변수와 상기 인코딩 결과를 디코딩하여, 상기 개인화된 합성음을 생성하는 디코더
    를 포함하는 자동 통역 장치.
  19. 제15항에서,
    신경망 알고리즘을 기반으로, 상기 상대 단말의 상대 화자가 발화한 음성으로부터 상기 상대 화자의 음색 특징을 나타내는 제1 부가 음성 자질 A과 음성 특징 파라메터 B를 포함하는 은닉 변수 C를 추출하는 제1 음성 특징 추출기;
    비 신경망 알고리즘을 기반으로 상기 상대 화자가 발화한 음성으로부터 상기 상대 화자의 음색 특징을 나타내는 제2 부가 음성 자질 D을 추출하는 제2 음성 특징 추출기;
    상기 상대 화자가 발화한 음성에 대해 음성 인식을 수행하여 음성 인식 결과를 획득하는 음성 인식기; 및
    상기 음성 인식 결과에 대해 자동 번역을 수행하여 자동 번역 결과 E를 획득하는 자동 번역기를 더 포함하고,
    상기 통신기는,
    상기 발화자 단말이 상기 은닉 변수 C, 상기 제2 부가 음성 자질 D 및 상기 자동 번역 결과 E를 기반으로 상기 음성 합성을 수행하도록, 상기 은닉 변수 C, 상기 제2 부가 음성 자질 D 및 상기 자동 번역 결과 E를 상기 발화자 단말로 송신하는 것인 자동 통역 장치.
KR1020200091907A 2019-08-14 2020-07-23 자동 통역 장치 및 그 방법 KR102457822B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/990,482 US11620978B2 (en) 2019-08-14 2020-08-11 Automatic interpretation apparatus and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190099935 2019-08-14
KR1020190099935 2019-08-14

Publications (2)

Publication Number Publication Date
KR20210020774A true KR20210020774A (ko) 2021-02-24
KR102457822B1 KR102457822B1 (ko) 2022-10-24

Family

ID=74689340

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200091907A KR102457822B1 (ko) 2019-08-14 2020-07-23 자동 통역 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102457822B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170103209A (ko) * 2016-03-03 2017-09-13 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
KR20190008137A (ko) * 2017-07-13 2019-01-23 한국전자통신연구원 다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법
KR20190085883A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170103209A (ko) * 2016-03-03 2017-09-13 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
KR20190008137A (ko) * 2017-07-13 2019-01-23 한국전자통신연구원 다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법
KR20190085883A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Also Published As

Publication number Publication date
KR102457822B1 (ko) 2022-10-24

Similar Documents

Publication Publication Date Title
KR102265972B1 (ko) 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
CN111048062B (zh) 语音合成方法及设备
WO2022083083A1 (zh) 一种声音变换系统以及声音变换系统的训练方法
JP2022107032A (ja) 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
JP2023539888A (ja) 声変換および音声認識モデルを使用した合成データ拡大
JP2024508033A (ja) 対話中のテキスト-音声の瞬時学習
CN112382270A (zh) 语音合成方法、装置、设备以及存储介质
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
KR20110087742A (ko) 청각 장애인을 위한 수화 통역 시스템, 그 장치 및 방법
US11620978B2 (en) Automatic interpretation apparatus and method
CN112242134A (zh) 语音合成方法及装置
CN113314097B (zh) 语音合成方法、语音合成模型处理方法、装置和电子设备
CN115359778A (zh) 基于说话人情感语音合成模型的对抗与元学习方法
KR102457822B1 (ko) 자동 통역 장치 및 그 방법
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
Ajayi et al. Systematic review on speech recognition tools and techniques needed for speech application development
Labied et al. Moroccan dialect “Darija” automatic speech recognition: a survey
CN113948062A (zh) 数据转换方法及计算机存储介质
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
Maciel et al. Five–framework for an integrated voice environment
JP2021148942A (ja) 声質変換システムおよび声質変換方法
Sulír et al. Development of the Slovak HMM-based tts system and evaluation of voices in respect to the used vocoding techniques
Houidhek et al. Evaluation of speech unit modelling for HMM-based speech synthesis for Arabic
González-Docasal et al. Exploring the limits of neural voice cloning: A case study on two well-known personalities
Johar et al. Where speech recognition is going: conclusion and future scope

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant