KR20150014235A - 자동 통역 장치 및 방법 - Google Patents

자동 통역 장치 및 방법 Download PDF

Info

Publication number
KR20150014235A
KR20150014235A KR1020130089649A KR20130089649A KR20150014235A KR 20150014235 A KR20150014235 A KR 20150014235A KR 1020130089649 A KR1020130089649 A KR 1020130089649A KR 20130089649 A KR20130089649 A KR 20130089649A KR 20150014235 A KR20150014235 A KR 20150014235A
Authority
KR
South Korea
Prior art keywords
language
text
unit
source language
speech
Prior art date
Application number
KR1020130089649A
Other languages
English (en)
Other versions
KR102069697B1 (ko
Inventor
이수종
김상훈
김정세
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130089649A priority Critical patent/KR102069697B1/ko
Priority to JP2014056505A priority patent/JP6397641B2/ja
Publication of KR20150014235A publication Critical patent/KR20150014235A/ko
Application granted granted Critical
Publication of KR102069697B1 publication Critical patent/KR102069697B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

자동 통역 장치 및 방법을 공개한다. 본 발명은 사용자로부터 사용자 명령과 통역 대상이 되는 소스 언어 기반 음성을 인가받고, 소스 언어 기반 음성이 번역된 타겟 언어 기반 텍스트의 발성음을 소스 언어로 표시하는 소스 언어 텍스트를 출력하는 인터페이스부, 사용자 명령에 응답하여 소스 언어와 타겟 언어에 대한 정보를 설정하는 설정부 및 인터페이스부를 통해 소스 언어 기반 음성을 인가받아 음성 인식하여 소스 언어 기반 텍스트로 변환하고, 소스 언어 기반 텍스트를 타겟 언어 기반 텍스트로 번역하고, 번역된 타겟 언어 기반 텍스트에 부가하여 타겟 언어 기반 텍스트의 발성음을 소스 언어 텍스트로 변환하여 인터페이스부로 전송하는 통역부를 포함한다.

Description

자동 통역 장치 및 방법{APPARATUS AND METHOD FOR AUTOMATIC INTERPRETATION}
본 발명은 자동 통역 장치 및 방법에 관한 것으로, 특히 자동 통역시에 출력되는 음성 인식 텍스트 및 자동 번역 텍스트 각각의 발성음을 상대국 언어 또는 발음 표기법으로 표시할 수 있는 자동 통역 장치 및 방법에 관한 것이다.
자동 통역 장치는 서로 다른 언어를 사용하는 사람들간에 의사소통을 보다 원활하게 해 주는 장치로서, 일반적으로 소스 언어의 사용자가 소스 언어로 발성하면, 발성된 소스 언어를 음성 인식하여, 상대국 언어의 사용자가 사용하는 타겟 언어로 자동 번역하고, 번역된 타겟 언어를 합성 음성으로 출력한다.
즉 기존의 자동 통역 장치에서 소스언어의 발성음은 음성인식에 의해 소스언어의 텍스트로 표시되고, 자동번역에 의해 타겟 언어의 텍스트로 번역된다. 타겟 언어의 텍스트는 타겟 언어의 음성으로 합성하여 출력한다. 그러나, 합성되어 출력되는 음성은 곧바로 소멸되기 때문에 사용자가 상대국 언어의 발성음을 직접 재현하여 의사소통에 활용하기에 어렵다는 문제가 있다.
또한 기존 대부분의 자동 통역 장치들은 대부분 사용빈도가 낮은 고유명사가 입력되는 경우나 잡음이 심한 환경에서는 음성인식 성능이 급격히 저하되는 현상을 보이고 있다. 이렇게 음성 인식 성능이 저하되는 경우에는 사용자가 자동 통역 장치에 직접 텍스트를 입력하여 의사 소통하거나, 자동통역에 의하지 않고 상대국 언어를 직접 발성해야 할 필요성이 제기된다. 따라서, 사용자의 원활한 의사소통을 위해서는 다양한 인터페이스가 최대한 제공되어야 한다.
본 발명의 목적은 소스 언어를 음성 인식하여 타겟 언어로 자동 변환하여 음성으로 출력함과 동시에 사용자가 번역된 타겟 언어를 직접 발음할 수 있도록 타겟 언어를 소스 언어의 발음 표기법에 따라 표시할 수 있는 자동 통역 장치를 제공하는데 있다.
본 발명의 다른 목적은 상기 목적을 달성하기 위한 자동 통역 장치의 자동 통역 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 예에 따른 자동 통역 장치는 사용자로부터 사용자 명령과 통역 대상이 되는 소스 언어 기반 음성을 인가받고, 상기 소스 언어 기반 음성이 번역된 타겟 언어 기반 텍스트의 발성음을 소스 언어로 표시하는 소스 언어 텍스트를 출력하는 인터페이스부; 상기 사용자 명령에 응답하여 상기 소스 언어와 상기 타겟 언어에 대한 정보를 설정하는 설정부; 및 상기 인터페이스부를 통해 상기 소스 언어 기반 음성을 인가받아 음성 인식하여 소스 언어 기반 텍스트로 변환하고, 상기 소스 언어 기반 텍스트를 상기 타겟 언어 기반 텍스트로 번역하고, 번역된 상기 타겟 언어 기반 텍스트에 부가하여 상기 타겟 언어 기반 텍스트의 발성음을 상기 소스 언어 텍스트로 변환하여 상기 인터페이스부로 전송하는 통역부; 를 포함한다.
상기 통역부는 상기 소스 언어 및 상기 타겟 언어에 대한 언어모델, 음향 모델 및 발음 사전을 통합한 인식 네트워크를 저장하는 음향 및 언어 데이터베이스부; 상기 인터페이스부로부터 수신되는 상기 소스 언어 기반 음성을 상기 음향 및 언어 데이터베이스부의 상기 인식 네트워크를 기반으로 분석하여 소스 언어 기반 텍스트로 변환하는 음성 인식부; 상기 음성 인식부로부터 상기 소스 언어 기반 텍스트를 수신하여 상기 소스 언어 기반 텍스트를 상기 타겟 언어 기반 텍스트로 번역하는 텍스트 번역부; 상기 텍스트 번역부로부터 상기 타겟 언어 기반 텍스트를 수신하여 상기 타겟 언어 기반 텍스트에 대응하는 음성을 합성하여 합성음을 생성하여 상기 인터페이스부로 전송하는 음성 합성부; 및 상기 타겟 언어 기반 텍스트를 수신하여 상기 타겟 언어 기반 텍스트의 발성음을 상기 소스 언어 텍스트로 변환하여 상기 인터페이스부로 출력하는 발성음 변환부; 를 포함하는 것을 특징으로 한다.
상기 발성음 변환부는 상기 음성 인식부 및 상기 텍스트 번역부 중 하나로부터 상기 소스 언어 기반 텍스트를 수신하고, 상기 언어 데이터 베이스부의 인식 네트워크를 이용하여 수신된 상기 소스 언어 기반 텍스트의 발성음을 상기 타겟 언어 텍스트로 변환하여 상기 인터페이스부로 출력하는 제1 발성음 변환부; 및 상기 텍스트 번역부 및 상기 음성 합성부 중 하나로부터 상기 타겟 언어 기반 텍스트를 수신하여, 상기 타겟 언어 기반 텍스트의 발성음을 상기 소스 언어 텍스트로 변환하여 상기 인터페이스부로 출력하는 제2 발성음 변환부; 를 포함하는 것을 특징으로 한다.
상기 제1 및 제2 발성음 변환부 각각은 상기 소스 언어 기반 텍스트 및 상기 타겟 언어 기반 텍스트에서 문법 오류를 분석하여 수정하고, 상기 소스 언어 기반 텍스트 및 상기 타겟 언어 기반 텍스트에 포함된 기호를 대응하는 언어 기반 텍스트로 변환하는 전처리부를 더 포함하는 것을 특징으로 한다.
상기 음향 및 언어 데이터베이스부는 상기 소스 언어 및 상기 타겟 언어의 종류에 따라 상기 인식 네트워크가 발음 변이 데이터베이스, 문자소-음소(grapheme to phoneme 이하 : g2p) 변환 테이블 및 발음 대역 데이터 베이스, 대역어 데이터 베이스 중 적어도 하나를 구비하는 것을 특징으로 한다.
상기 다른 목적을 달성하기 위한 본 발명의 일 예에 따른 자동 통역 방법은 인터페이스부와 설정부 및 통역부를 구비하는 자동 통역 장치의 자동 통역 방법에 있어서, 상기 자동 통역 장치가 상기 인터페이스부를 통해 인가되는 사용자 명령에 응답하여 자동 통역 설정을 저장하는 단계; 상기 인터페이스부를 통해 소스 언어 기반 음성이 인가되는지 판별하는 단계; 상기 소스 언어 기반 음성이 인가되면, 상기 통역부의 음향 및 언어 데이터베이스부에 저장된 상기 소스 언어 및 상기 타겟 언어에 대한 언어모델, 음향 모델 및 발음 사전을 통합한 인식 네트워크를 이용하여 음성 인식을 수행하여 소스 언어 기반 텍스트를 생성하는 단계; 상기 소스 언어 기반 텍스트를 상기 인식 네트워크를 이용하여 타겟 언어 기반 텍스트로 번역하는 단계; 및 상기 번역된 타겟 언어 기반 텍스트의 발성음을 소스 언어 텍스트로 변환하여 출력하는 단계; 를 포함한다.
상기 소스 언어는 한국어이며, 상기 타겟 언어는 일본어인 것을 특징으로 한다.
상기 인식 네트워크는 상기 소스 언어 및 상기 타겟 언어의 종류에 따라 발음 변이 데이터베이스, 문자소-음소(grapheme to phoneme 이하 : g2p) 변환 테이블 및 발음 대역 데이터 베이스, 대역어 데이터 베이스 중 적어도 하나를 포함하는 것을 특징으로 한다.
상기 타겟 언어 텍스트로 변환하여 출력하는 단계는 상기 소스 언어 기반 텍스트에 대해 상기 소스 언어의 특성에 따른 발음 변이 현상에 대응하기 위한 발음 변이 변환을 수행하는 단계; 상기 발음 변이 변환이 수행된 상기 소스 언어 기반 텍스트를 어절, 음절 및 음소 단위로 순차적으로 분리하는 단계; 상기 g2p 변환 테이블을 이용하여 분리된 상기 음소를 음소 단위의 발음 기호로 변환하는 단계; 상기 변환된 음소 단위 발음 기호를 음절 단위로 결합하는 단계; 상기 결합된 음절에 대응하는 상기 타겟 언어의 음절로 변환하는 단계; 상기 변환된 음절을 결합하여 상기 어절을 복원함으로써 상기 소스 언어 기반 텍스트의 발성음을 표시하는 상기 타겟 언어 텍스트를 생성하는 단계; 및 상기 타겟 언어 텍스트를 상기 인터페이스부를 통해 출력하는 단계; 를 포함하는 것을 특징으로 한다.
상기 소스 언어 텍스트로 변환하여 출력하는 단계는 상기 타겟 언어 기반 텍스트에 소스 언어에서 관습적으로 사용하고 있는 어휘인 대역어가 존재하는지 판별하는 단계; 상기 대역어가 존재하는 어휘에 대해서는 대역어의 발음을 적용하는 단계; 상기 대역어가 존재하지 않는 어휘에 대해서 어절, 음절 및 음소 단위로 순차적으로 분리하는 단계; 상기 g2p 변환 테이블을 이용하여 분리된 상기 음소를 음소 단위의 발음 기호로 변환하는 단계; 상기 변환된 음소 단위 발음 기호를 음절 단위로 결합하는 단계; 상기 결합된 음절에 대응하는 상기 소스 언어의 음절로 변환하는 단계; 상기 대역어의 발음과 변환된 음절을 결합하여 상기 어절을 복원함으로써 상기 타겟 언어 기반 텍스트의 발성음을 표시하는 상기 소스 언어 텍스트를 생성하는 단계; 및 상기 소스 언어 텍스트를 상기 인터페이스부를 통해 출력하는 단계; 를 포함하는 것을 특징으로 한다.
따라서, 본 발명의 자동 통역 장치 및 방법은 기존의 자동 통역 장치와 같이 사용자의 소스 언어 발성음을 수신하여 음성 인식하여 자동으로 타겟 언어로 번역 및 음성으로 출력할 뿐만 아니라 음성 인식된 텍스트에 부가하여 그 발성음을 타겟 언어로 표시하고, 번역된 타겟 언어의 발음을 소스 언어의 발음 표기법에 따라 표시함으로써, 사용자가 직접 음성 인식 텍스트를 발음하거나 번역된 타겟 언어를 발음할 수 있도록 한다. 그러므로, 사용자는 상황에 따라 음성 인식 대상 텍스트나 통역된 타겟 언어를 직접 발성할 수 있어 대화 상대와 원활한 소통을 할 수 있을 뿐만 아니라, 상대국의 언어를 이해하고 알아 듣기 어려운 외국어의 발음을 용이하게 인식하여 발음을 따라 할 수 있으므로, 외국어 학습 성취도를 크게 높일 수 있다. 더불어 사용자의 발성음에 대한 음성 인식 결과를 소스 언어와 타겟 언어로 함께 표시함으로써, 자동 통역 장치의 오류 여부를 신속하고 정확하게 판단하여 대처할 수 있도록 한다.
도1 은 본 발명의 일실시예에 따른 자동 통역 장치의 구성을 나타낸다.
도2 는 본 발명의 일실시예에 따른 자동 통역 장치의 자동 통역 방법을 나타낸다.
도3 은 도2 의 자동 통역 방법에서 제1 발성음 변환 단계를 상세하게 나타낸다.
도4 는 도2 의 자동 통역 방법에서 제2 발성음 변환 단계를 상세하게 나타낸다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로서, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도1 은 본 발명의 일실시예에 따른 자동 통역 장치의 구성을 나타낸다.
도1 을 참조하면, 본 발명의 자동 통역 장치는 인터페이스부, 설정부(200) 및 통역부(300)를 포함한다.
인터페이스부는 자동 통역 장치의 입출력부로서, 사용자의 명령을 인가받고, 사용자에게 통역 결과를 출력한다. 인터페이스부는 음성 감지부(110), 사용자 입력부(120), 디스플레이부(130) 및 음성 출력부(140)를 포함한다. 음성 감지부(110)는 마이크와 같은 음성 감지 센서를 포함하여, 사용자가 입력하는 음성 신호(in)를 감지하여 통역부(300)로 전송한다. 사용자 입력부(120)는 키보드, 마우스, 터치 패드, 터치 스크린등과 같은 사용자 명령 입력 수단으로 구현되어, 사용자가 사용자 명령 또는 텍스트를 자동 통역 장치로 인가할 수 있도록 한다. 사용자 입력부(120)는 사용자 명령이 인가되면 설정부(200)로 전송하고, 통역할 텍스트가 입력되면 텍스트를 통역부(300)로 전송한다.
디스플레이부(130)는 스크린, 모니터 등과 같은 디스플레이 수단으로 구현될 수 있으며, 경우에 따라서는 터치 스크린이나 터치 패널과 같이 사용자 입력부(120)과 결합된 형태로 구현될 수 도 있다. 디스플레이부(130)는 사용자가 음성으로 입력한 소스 언어에 대한 음성 인식 결과나 사용자가 입력한 텍스트, 통역된 타겟 언어 텍스트를 표시한다. 특히 본 발명의 자동 통역 장치의 디스플레이부(130)는 소스 언어에 대한 음성 인식 결과나 사용자가 입력한 텍스트에 대한 발음을 타겟 언어로 표시하고, 통역된 타겟 언어 텍스트에 대한 발음을 소스 언어로 함께 표시한다. 이는 곧바로 소멸해버리는 음성과 달리 사용자가 상대의 언어의 발음을 인지하여 직접 발음할 수 있도록 한다. 그리고 통역된 타겟 언어가 음성으로 출력되고, 타겟 언어 텍스트에 대한 발음이 소스 언어로 함께 표시되면, 음성으로만 발성되는 경우에 비해 사용자가 통역된 언어의 발음에 대해 더욱 이해하기 용이하여 외국어 학습에도 큰 성과를 얻을 수 있다.
음성 출력부(140)는 통역부(300)에서 통역된 타겟 언어가 합성음으로 생성되면, 생성된 합성음을 출력한다. 음성 출력부(140)는 스피커와 같은 음성 출력 수단으로 구현될 수 있다.
설정부(200)는 사용자 입력부(120)를 통해 인가되는 사용자 명령에 응답하여 소스 언어 정보, 타겟 언어 정보, 합성음의 출력 설정 등을 설정하여 저장한다. 여기서 소스 언어 정보는 사용자가 음성 또는 텍스트로 입력하여 통역 대상이 되는 소스 언어가 어떠한 언어인지에 대한 정보를 포함한다. 유사하게 타겟 언어 정보는 입력된 소스 언어를 어떤 언어로 통역할지에 대한 정보를 포함한다. 예를 들면, 소스 언어 정보 및 타겟 언어 정보로서 한국어, 영어, 일본어, 중국어 등으로 설정할 수 있다.
통역부(300)는 사용자가 입력한 소스 언어 기반의 음성 또는 텍스트를 번역하여 타겟 언어 기반의 텍스트로 번역하고, 번역된 타겟 언어 기반의 텍스트를 합성음으로 생성하여 통역을 수행한다. 특히 본 발명에서 통역부(300)는 소스 언어 기반의 텍스트의 발성음을 타겟 언어로 표시하고, 번역된 타겟 언어 기반의 텍스트의 발성음을 소스 언어로 표시한다. 즉 소스 언어와 타겟 언어 각각에 대해 발성음을 서로 상대국의 언어로 표시함에 따라 서로 다른 언어를 사용하는 복수의 사용자들이 서로 상대방의 언어를 직접 발음할 수 있도록 한다.
통역부(300)는 음성 및 언어 데이터베이스부(310), 음성 인식부(320), 텍스트 번역부(330), 음성 합성부(340), 제1 발성음 변환부(350) 및 제2 발성음 변환부(360)을 포함한다.
음성 및 언어 데이터베이스부(310)는 소스 언어 및 타겟 언어에 대한 데이터를 저장한다. 음성 및 언어 데이터베이스부(310)에는 일반적으로 음성인식장치는 음성인식을 하기 위해 사용하는 언어 모델, 발음 사전 및 음향 모델이 저장된다. 언어 모델은 자연어 안에서 문법, 구문, 단어 등에 대한 어떤 규칙성을 찾아내고, 그 규칙성을 이용하기 위해 구비되며, 음향 모델은 음성은 인식 단위로 분리하고 모델링하여 인식단위의 음성을 인식단위의 음소로 변환하기 위해 구비된다. 발음 사전은 각 언어의 발음 표기법 및 발음 특성 정보를 포함하여 언어별 언어 표기법을 제공한다. 언어 모델, 음향 모델 및 발음 사전은 소스 언어 및 타겟 언어에 대해 각각 구비될 수 있으며, 다른 언어에 대해서도 구비될 수 있다. 그리고 음성 및 언어 데이터베이스부(310)는 언어 모델, 발음 사전 및 음향 모델을 통합한 인식 네트워크를 형성하여 저장할 수 있다.
특히 본 발명에서 자동 통역 장치는 기존의 통역 장치와 달리 입력된 소스 언어를 타겟 언어로 변환하여 출력할 뿐만 아니라, 타겟 언어로 변환된 텍스트에 대한 발성음을 소스 언어로 표시하거나, 입력된 소스 언어의 텍스트의 발성음을 타겟 언어로 표시할 수 있도록 한다. 또한 각각의 언어는 고유한 문자 체계 및 발음 체계를 갖고 있는 경우가 많다. 이에 본 발명의 음성 및 언어 데이터베이스부(310)는 언어 모델의 종류에 따라 발음 사전, 발음 변이 데이터베이스, 문자소-음소(grapheme to phoneme 이하 : g2p) 변환 테이블 및 발음 대역 데이터 베이스, 대역어 데이터 베이스 중 적어도 하나를 구비할 수 있다.
일 예로 한국어를 일본어로, 일본어를 한국어로 상호 통역하는 경우를 가정하면, 한국어는 음절 및 음소 문자 체계 인데 비해, 일본어는 음절 단위의 문자 체계이므로, 발음 표기법이 서로 상이하다.
먼저 한국어의 발성음을 일본어로 표시하는 경우를 살펴보면, 발음 사전은 문자를 음소 단위의 발음 기호로 변환시키기 위한 규칙이 저장되며, g2p 변환 테이블의 토대가 된다. 즉 문자소가 입력되면, 입력되는 문자소를 대응하는 음소의 발음 기호로 변환하여 출력할 수 있다.
발음 대역 데이터 베이스는 한국어 음절에 대응하는 음소의 결합구조를 저장하고, 음소의 결합에 대응하는 일본어 음절을 저장하여 한국어 음절을 일본어 음절로 변환 할 수 있도록 한다.
그리고 한국어의 경우에는 자음 동화, 구개 음화, 축약 등의 다양한 발음 변이 현상이 존재한다. 이에 발음 변이 데이터 베이스는 발음 변이 정보를 저장하여 각 어휘들의 실제 발음에 대응하는 발음을 추출할 수 있도록 한다. 예를 들어, 한국어 "신라"를 일본어로 표시하고자 하는 경우에 실제 발음인 "신라" 의 실제 발음인 "실라" 에 대응하는 일본어가 표시될 수 있도록 하고, "굳이"의 경우에는 실제 발음인 "구지" 에 대응하는 일본어가 표시될 수 있도록 한다.
반면 일본어의 발성음을 한국어로 표시하는 경우를 살펴보면, g2p 변환 테이블은 한국어의 발음을 일본어로 표시하는 경우와 동일하게 동작한다. 발음 대역 데이터 베이스는 일본어 음절의 발음 기호를 한국어 음절로 대비하여 변환할 수 있도록 한다. 그러나 일본어의 경우에는 한국어와 같은 발음 변이가 상대적으로 적기 때문에 발음 변이 데이터 베이스가 생략될 수 있다. 대신 일본어 중에는 한국어의 표기가 이미 관습화 되어있는 어휘가 상당수 존재한다. 대역어 데이터 베이스는 일본어에 대해 관습화된 대역어를 제공하여 관습화된 어휘에 대응할 수 있도록 한다.
음성 인식부(320)는 음성 감지부(110)을 통해 음성 신호(in)를 수신하고, 음성 및 언어 데이터베이스부(310)에 저장된 음향 모델과 언어 모델을 기반으로 설정된 인식 네트워크를 이용하여 텍스트로 변환한다. 이때 변환된 텍스트는 소스 언어 기반 텍스트이다.
텍스트 번역부(330)는 음성 신호(in)가 변환된 소스 언어 기반 텍스트를 음성 인식부(320)로부터 수신하거나, 사용자가 사용자 입력부(120)를 이용하여 입력한 소스 언어 기반 텍스트를 타겟 언어 기반 텍스트로 번역한다. 만일 한국어 음성 신호(in)가 한국어 "안녕히 계세요."로 음성 인식되었다면, 텍스트 번역부(330)는 "안녕히 계세요."에 대응하는 일본어인 "さようなら"로 변환할 수 있다. 텍스트 번역부(330)는 음성 및 언어 데이터베이스부(310)의 언어 모델을 기반하여 소스 언어 기반 텍스트를 타겟 언어 기반 텍스트로 번역한다. 텍스트를 번역하는 기법은 공지된 다양한 기술이 존재하므로 여기서는 상세한 설명을 생략한다.
그리고 텍스트 번역부(330)는 전처리부(미도시)를 구비할 수 있다. 전처리부는 텍스트 번역 전에 아라비아 숫자와 같은 기호를 텍스트로 변환하거나, 맞춤법 오류를 체크하여 수정하는 전처리 작업을 수행할 수 있다. 그러나 숫자나 기호의 경우에는 여러 언어에서 통합되어 사용되는 경우도 많으므로, 텍스트로 변환할 필요가 없을 수 있다. 그러나 숫자나 기호에 대한 발음은 각 언어별로 상이한 경우가 대부분이므로, 전처리부는 텍스트를 발성음에 따라 변환하는 제1 및 제2 발성음 변환부(350, 360)에 포함될 수도 있다.
음성 합성부(340)는 번역된 타겟 언어 기반 텍스트를 음성 합성하여 사용자가 청취할 수 있도록 합성음을 생성하여 음성 출력부(140)로 출력한다. 이때 음성 합성부(340)는 설정부(200)는 설정부의 설정에 따라 합성음을 남성의 음성 또는 여성의 음성이나 성인이나 어린이의 음성 등으로 다양하게 합성할 수 있다.
제1 발성음 변환부(350)는 음성 인식부(320)에서 인식된 소스 언어 기반텍스트를 음성 및 언어 데이터 베이스의 발음 사전에 기초로 하여 타겟 언어로 변환한다. 즉 음성 신호(in)가 입력되어 음성 인식부(320)에서 소스 언어 기반 텍스트로 변환되면, 변환된 소스 언어 기반 텍스트의 발성음을 타겟 언어로 표시한다. 상기한 예에서와 같이, 한국어를 일본어로 통역하는 경우, 음성 신호(in)는 소스 언어가 한국어인 한국어 기반 음성 신호로 입력된다. 그리고 한국어 기반 음성 신호는 음성 인식부(320)에서 한국어 기반 텍스트로 변환된다. 이에 제1 발성음 변환부(350)는 한국어 기반 텍스트의 발성음을 타겟 언어인 일본어 텍스트로 변환한다. 만일 입력 신호(in)가 "안녕히 계세요."로 음성 인식되었다면, 제1 발성음 변환부(350)는 "안녕히 계세요."를 음성 및 언어 데이터베이스부(310)의 데이터를 이용하여 일본어 가타가나 표기"アンニョンヒ ギェセヨ"로 변환한다. 이는 텍스트 번역부(330)가 수행하는 의미적인 번역인 "さようなら"와 달리 한국어 발성음을 "アンニョンヒ ギェセヨ"로 변환함으로써 상대자인 일본인이 한국어 발음을 자국어를 보고 용이하게 발성할 수 있도록 한다.
그리고 제1 발성음 변환부(350)는 음성 인식부(320)에서 인식된 소스 언어 기반 텍스트와 소스 언어 기반 텍스트의 발성음을 표시한 타겟 언어 텍스트를 디스플레이부(130)로 전송하여, 디스플레이부(130)가 음성 인식된 소스 언어 기반 텍스트에 부가하여 소스 언어 기반 텍스트의 발성음을 표시한 타겟 언어 텍스트를 표시할 수 있도록 한다. 이에 사용자는 자신이 발화한 음성을 자동 통역 장치가 정확하게 인식하였는지 판별할 수 있고, 이에 대응하는 발성음을 타겟 언어 표기도 확인할 수 있다.
상기에서는 제1 발성음 변환부(350)가 음성 인식부(320)로부터 소스 언어 기반 텍스트를 수신하는 것으로 설명하였으나, 소스 언어 기반 텍스트는 텍스트 번역부로부터 수신할 수도 있다.
제2 발성음 변환부(360)는 제1 발성음 변환부(350)과 반대로 텍스트 번역부(330)에서 번역된 타겟 언어 기반 텍스트의 발성음을 언어 데이터 베이스를 기초로 하여 소스 언어의 텍스트로 변환한다. 제2 발성음 변환부(360)는 음성 합성부(340)로 인가된 타겟 언어로 번역된 텍스트를 수신하여, 번역된 타겟 언어 텍스트의 발성음을 소스 언어로 변환한다. 상기한 예에서 제2 발성음 변환부(360)는 한국어 "안녕히 계세요."가 번역된 일본어 "さようなら"를 한국어 "사요-나라"로 변환한다. 여기서 "-"은 장음 표기 기호이다.
그리고 제1 발성음 변환부(350)와 마찬가지로 제2 발성음 변환부(360)가 번역된 일본어의 발성음을 표시하는 한국어를 일본어 텍스트와 함께 디스플레이부(130)로 전송하여 표시되도록 함으로써, 사용자는 타겟 언어로 번역된 텍스트에 대한 발음을 한국어로 확인할 수 있어, 발음에 대한 높은 이해도를 갖고 직접 번역된 텍스트를 용이하게 발화할 수 있다.
동시에 타겟 언어로 번역된 텍스트에 대응하는 합성음이 음성 출력부(140)를 통해 출력되므로, 발음에 대한 높은 이해도를 가질 수 있어 어학 학습 시에도 성취도를 높일 수 있다.
상기에서는 설명의 편의를 위해 제1 발성음 변환부(350)와 제2 발성음 변환부(360)를 별도로 도시하였으나, 제1 발성음 변환부(350)와 제2 발성음 변환부(360)는 통합되어 구현되어도 무방하다. 또한 도1 에서는 제2 발성음 변환부(360)가 음성 합성부(340)로부터 번역된 타겟 언어 기반 텍스트를 수신하는 것으로 도시하였으나, 제2 발성음 변환부(360)는 텍스트 번역부(330)로부터 타겟 언어 기반 텍스트를 수신하여도 무방하다.
그리고 도1 에서는 설정부(200)를 통역부(300)과 별도로 도시하였으나, 설정부(200)는 통역부(300)에 포함될 수도 있다.
도1 의 자동 통역 장치는 통역을 위한 별도의 장치로 구현될 수도 있으나, 설정부(200) 및 통역부(300)는 소프트웨어로 구현 가능하므로, 인터페이스부를 구비하는 다양한 장치가 자동 통역 장치로 활용될 수 있다. 예를 들면, 스마트폰, 스마트 패드, PDA, PC 등과 같은 각종 정보 통신 기기가 자동 통역 장치로 활용 될 수 있다.
도2 는 본 발명의 일실시예에 따른 자동 통역 장치의 자동 통역 방법을 나타낸다.
도2 의 자동 통역 방법 또한 도1 에서와 같이 한국어를 일본어로 통역하는 경우를 예로 들어 설명한다. 도1 을 참조하여 도2 의 자동 통역 방법을 설명하면, 자동 통역 장치는 우선 사용자가 사용자 입력부(120)를 통해 인가하는 사용자 명령으로 자동 통역 설정을 수신하여 저장한다(S10). 여기서 자동 통역 설정은 소스 언어 및 타겟 언어 정보, 합성음의 출력 설정 등을 저장한다. 자동 통역 설정은 기본값이 미리 지정되어 사용자가 설정하지 않더라도 기본 설정에 의해 통역이 수행될 수 있다.
자동 통역 설정이 지정되면, 자동 통역 장치는 음성 신호(in)인 소스어 음성이 입력되는지 판별한다(S20). 소스어 음성은 사용자가 사용하는 소스 언어 기반의 음성으로서 음성 감지부(110)를 통해 입력될 수 있으며, 사용자는 사용자 입력부(120)을 통해 사용자 명령으로 음성 입력 명령을 인가함으로써 소스어 음성이 입력되도록 할 수 있으며, 경우에 따라서는 자동 통역 장치가 자동으로 음성 입력 여부를 감지할 수 있도록 할 수도 있다. 만일 소스어 음성이 입력된 것으로 판별되면, 음성 인식부(320)가 음성 및 언어 데이터베이스부(310)에서 음향 모델, 발음 사전 및 언어 모델을 통합하여 저장된 인식 네트워크를 이용하여 음성 인식을 수행하여 소스 언어 기반 텍스트를 생성한다(S30).
한편 소스어 음성이 입력되지 않으면, 소스어 텍스트가 입력되는지 판별한다(S40). 사용자는 통역하고자 하는 문장을 음성으로 자동 통역 장치로 인가할 수도 있으나, 잡음이 많은 경우나, 음성으로 발화하기 어려운 환경과 같이 특별한 경우에는 사용자 입력부(120)를 이용하여 통역하고자 하는 문장을 텍스트로 직접 입력할 수도 있다. 이 경우에는 음성 인식이 불필요하므로 음성 인식 단계(S30)을 생략한다.
음성 인식 또는 소스 텍스트 입력에 의해 소스 언어 기반 텍스트가 획득되면, 제1 발성음 변환부(350)는 소스 언어 기반 텍스트의 발음을 타겟 언어의 타겟 언어의 텍스트로 변환하고, 소스 언어 기반 텍스트와 소스 언어 텍스트의 발성음을 표시하는 타겟 언어 텍스트로 디스플레이부(130)를 통해 출력한다(S50).
그리고 소스 언어 기반 텍스트를 자동 통역 설정에 따라 자동으로 번역하여 타겟 언어 텍스트로 변환한다(S60).
자동 번역이 수행되어 타겟 언어 텍스트가 획득되면, 자동 통역 장치의 제2 발성음 변환부(260)가 번역된 타겟 언어 텍스트의 발음을 소스 언어 텍스트로 변환하고, 타겟 언어 텍스트와 타겟 언어 텍스트의 발성음을 표시하는 소스 언어 텍스트를 디스플레이부(130)를 통해 출력한다(S70).
한편, 음성 합성부(340)는 타겟 언어 기반 텍스트에 대응하는 음성을 합성하여 합성음을 생성한다(S80). 그리고 음성 출력부(140)는 합성음을 수신하여 출력한다(S90).
합성음을 출력한 후, 자동 통역 장치는 반대로 타겟어에 대한 통역 여부를 사용자 입력부(120)를 통해 인가되는 사용자 명령에 따라 판별한다(S100). 만일 타겟어에 대한 통역 명령이 인가된다면, 기설정된 자동 통역 설정에서 소스어와 타겟어를 상호 교체하는 통역 설정 전환을 수행한다(S110).
상기한 바와 같이 본 발명에 따른 자동 통역 장치의 자동 통역 방법은 소스어가 음성 또는 텍스트로 입력되면 입력된 소스어의 발음에 대응하는 타겟 언어 텍스트와 소스어가 번역된 타겟어에 부가하여 그 발성음을 표기한 소스 언어 텍스트를 출력함으로써, 사용자가 발화한 음성에 대한 타겟어의 발음 표기와 통역된 타겟어에 대한 소스어의 발음 표기를 모두 확인할 수 있다. 따라서 사용자가 통역된 타겟 언어의 발음을 용이하게 인지할 수 있어 직접 발화할 수 있도록 할 뿐만 아니라, 어학 학습에 도움을 줄 수 있다.
상기에서는 소스 언어 기반 텍스트의 발음을 타겟 언어 텍스트로 변환하는 제1 발성음 변환 단계(S50)를 기술하였으나, 실제 사용자는 타겟 언어 텍스트를 필요로 하지 않을 수 있다. 이 경우, 제1 발성음 변환 단계(S50)는 생략될 수 있으며, 제1 발성음 변환부(350) 또한 자동 통역 장치에서 제거 될 수 있다.
도3 은 도2 의 자동 통역 방법에서 제1 발성음 변환 단계를 상세하게 나타내고, 도4 는 도2 의 자동 통역 방법에서 제2 발성음 변환 단계를 상세하게 나타낸다.
도3 및 도4 또한 한국어에서 일본어로의 통역을 일예로서 설명하며, 전처리부가 텍스트 번역부가 아닌 제1 및 제2 발성음 변환부(350, 360)에 각각 구비되는 것으로 가정하여 설명한다.
도3 의 제1 발성음 변환 단계(S50)는 소스 언어 기반 텍스트의 발성음을 타겟 언어 텍스트로 변환하는 단계로서, 우선 음성 인식되거나, 소스어 텍스트가 입력되어 획득된 소스 언어 기반 텍스트에 대해 전처리 작업을 수행한다(S51). 전처리 작업은 상기한 바와 같이, 맞춤법 체크와 같이 문법적 오류를 수정하고, 숫자나 기호를 소스 언어 기반 텍스트로 변환하여 수행될 수 있다. 그리고 음성 및 언어 데이터베이스부(310)의 발음 변이 데이터베이스를 이용하여 발음 변이 변환을 수행한다(S52). 발음 변이 변환은 상기한 바와 같이 한국어의 특성인 자음 동화, 구개 음화, 축약 등의 다양한 발음 변이 현상이 소스 언어 기반 텍스트에 적용되도록 한다. 즉 소스 언어 기반 텍스트를 발음 기반 텍스트로 일부 변환한다.
발음 변이 변환을 수행한 후, 소스 언어 기반 텍스트를 어절 단위로 분리한다(S53). 어절 분리는 언어의 종류에 무관하게 띄어쓰기가 반영되도록 하기 위함이다. 어절이 분리되면, 음절 분리를 수행한다(S54). 그리고 음절이 분리되면, 각 음절을 초성, 중성 및 종성으로 음소 분리를 수행한다(S55). 음소 분리는 한국어가 음소 기반 언어이기 때문으로, 음소를 분리할 수 없는 일본어나 중국어의 경우에는 음소 분리를 생략할 수 있다.
음소 분리가 수행되면, 음성 및 언어 데이터베이스부(310)의 g2p 변환 테이블을 이용하여 분리된 음소들을 음소 단위의 발음 기호로 변환한다(S56). 표1 은 한국어를 발음기호로 변환하기 위한 g2p 변환 테이블의 일 예를 나타낸다.
Figure pat00001
그리고 음성 및 언어 데이터베이스부(310)의 발음 대역 데이터 베이스를 이용하여 변환된 음소 단위 발음 기호를 음절 단위로 결합한 후, 결합된 음절에 대응하는 타겟어(여기서는 일본어) 음절로 변환한다(S57). 표2 는 한국어를 일본어 음절로 변환하기 위한 발음 대역 데이터 베이스의 일예를 나타낸다.
Figure pat00002
분리된 음절들이 모두 타겟어 음절로 변환되면, 변환된 음절들을 다시 결합하여 어절을 복원한다(S58). 복원된 어절은 소스 언어 기반 텍스트의 발성음이 타겟 언어 텍스트로 변환 된 것으로서, 자동 통역 장치는 디스플레이부(130)을 통해 타겟 언어 텍스트를 표시한다(S59). 이때, 소스 언어 기반 텍스트와 소스 언어 기반 텍스트의 발성음에 대한 타겟 언어 텍스트가 부가되어 함께 표시될 수 있다.
한편 도4 의 제2 발성음 변환 단계(S70)는 번역된 타겟 언어 기반 텍스트의 발성음을 소스 언어 텍스트로 변환하는 단계로서, 제1 발성음 변환 단계(S50)과 마찬가지로 우선 전처리 단계를 수행할 수 있다(S71). 그리고 대역어 검색 단계를 수행한다(S72). 상기한 바와 같이 일본어 기반 텍스트의 발성음을 한국어 텍스트로 변환하는 경우에, 이미 관습화 되어있는 어휘인 대역어가 상당수 존재하므로 이를 반영할 수 있어야 한다. 이러한 대역어가 발음에 적용되도록 음성 및 언어 데이터베이스부(310)에 포함된 대역어 데이터 베이스를 이용하여 타겟 언어 기반 텍스트에 소스 언어에서 대역어가 존재하는지 판단한다.
만일 대역어가 존재하는 것으로 판별되면, 음성 및 언어 데이터베이스부(310)에 저장된 대역어를 호출하여 적용한다(S74). 대역어를 적용하는 경우에는 해당 어휘에 대해서는 별도의 변환을 위한 과정이 필요하지 않다.
한편 대역어가 존재하지 않는 어휘들에 대해서는 도3 과 유사하게 음절 분리 단계(S75), g2p 변환 단계(S76) 및 발음 대역 변환 단계(S77)를 수행한다. 다만 g2p 변환을 위한 g2p 변환 테이블과 발음 대역 데이터베이스의 경우에는 한국어의 발음을 일본어로 변환하는 경우와 일본어의 발음을 한국어로 변환하는 경우가 다르므로, 서로 다른 g2p 변환 테이블과 발음 대역 데이터베이스를 사용할 수 있다.
표3 은 일본어를 발음기호로 변환하기 위한 g2p 변환 테이블의 일예를 나타낸다.
Figure pat00003
표4 는 일본어를 한국어 음절로 변환하기 위한 발음 대역 데이터 베이스의 일예를 나타낸다.
Figure pat00004
표1 내지 4 에서 알파벳 대문자 B 와 L 는 일본어 발음 특성상 어두, 어중, 어미에 따라 달리 발음되는 발성을 반영한 것이며, ":" 는 장음을 나타낸다.
대역어가 존재하는 어휘에 대해 대역어가 적용되고, 대역어가 존재하지 않는 어휘에 대해 음절 분리, g2p변환 및 발음 대역 변환이 수행되면, 대역어와 발음대역이 수행된 어휘를 다시 문장으로 결합한다(S78).
결합된 문장은 번역된 타겟 언어 기반 텍스트의 발성음이 소스 언어 텍스트로 변환 된 것으로서, 자동 통역 장치는 디스플레이부(130)을 통해 소스 언어 텍스트를 표시한다(S79). 이에 번역된 타겟 언어 기반 텍스트와 함께 그 발성음을 소스 언어로 표시한 소스 언어 텍스트를 함께 표시될 수 있다.
도3 및 도4 는 한국어가 일본어로 통역되는 경우를 가정하여 설명하였으나, 일본어가 한국어로 통역되는 경우에는 도3 이 제2 발성음 변환 단계로 수행될 수 있으며, 도4 가 제1 발성음 변환 단계로 수행될 수 있을 것이다.
상기에서는 일예로 한국어와 일본어 사이의 통역을 예로 들어 설명하였으나 본 발명은 이에 한정되지 않고, 다른 종류의 언어에 대해서도 적용 될 수 있음은 자명하다.
본 발명에 따른 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (18)

  1. 사용자로부터 사용자 명령과 통역 대상이 되는 소스 언어 기반 음성을 인가받고, 상기 소스 언어 기반 음성이 번역된 타겟 언어 기반 텍스트의 발성음을 소스 언어로 표시하는 소스 언어 텍스트를 출력하는 인터페이스부;
    상기 사용자 명령에 응답하여 상기 소스 언어와 상기 타겟 언어에 대한 정보를 설정하는 설정부; 및
    상기 인터페이스부를 통해 상기 소스 언어 기반 음성을 인가받아 음성 인식하여 소스 언어 기반 텍스트로 변환하고, 상기 소스 언어 기반 텍스트를 상기 타겟 언어 기반 텍스트로 번역하고, 번역된 상기 타겟 언어 기반 텍스트에 부가하여 상기 타겟 언어 기반 텍스트의 발성음을 상기 소스 언어 텍스트로 변환하여 상기 인터페이스부로 전송하는 통역부; 를 포함하는 자동 통역 장치.
  2. 제1 항에 있어서, 상기 통역부는
    상기 소스 언어 및 상기 타겟 언어에 대한 언어모델, 음향 모델 및 발음 사전을 통합한 인식 네트워크를 저장하는 음향 및 언어 데이터베이스부;
    상기 인터페이스부로부터 수신되는 상기 소스 언어 기반 음성을 상기 음향 및 언어 데이터베이스부의 상기 인식 네트워크를 기반으로 분석하여 소스 언어 기반 텍스트로 변환하는 음성 인식부;
    상기 음성 인식부로부터 상기 소스 언어 기반 텍스트를 수신하여 상기 소스 언어 기반 텍스트를 상기 타겟 언어 기반 텍스트로 번역하는 텍스트 번역부;
    상기 텍스트 번역부로부터 상기 타겟 언어 기반 텍스트를 수신하여 상기 타겟 언어 기반 텍스트에 대응하는 음성을 합성하여 합성음을 생성하여 상기 인터페이스부로 전송하는 음성 합성부; 및
    상기 타겟 언어 기반 텍스트를 수신하여 상기 타겟 언어 기반 텍스트의 발성음을 상기 소스 언어 텍스트로 변환하여 상기 인터페이스부로 출력하는 발성음 변환부; 를 포함하는 것을 특징으로 하는 자동 통역 장치.
  3. 제2 항에 있어서, 상기 발성음 변환부는
    상기 음성 인식부 및 상기 텍스트 번역부 중 하나로부터 상기 소스 언어 기반 텍스트를 수신하고, 상기 언어 데이터 베이스부의 인식 네트워크를 이용하여 수신된 상기 소스 언어 기반 텍스트의 발성음을 상기 타겟 언어 텍스트로 변환하여 상기 인터페이스부로 출력하는 제1 발성음 변환부; 및
    상기 텍스트 번역부 및 상기 음성 합성부 중 하나로부터 상기 타겟 언어 기반 텍스트를 수신하여, 상기 타겟 언어 기반 텍스트의 발성음을 상기 소스 언어 텍스트로 변환하여 상기 인터페이스부로 출력하는 제2 발성음 변환부; 를 포함하는 것을 특징으로 하는 자동 통역 장치.
  4. 제3 항에 있어서, 상기 제1 및 제2 발성음 변환부 각각은
    상기 소스 언어 기반 텍스트 및 상기 타겟 언어 기반 텍스트에서 문법 오류를 분석하여 수정하고, 상기 소스 언어 기반 텍스트 및 상기 타겟 언어 기반 텍스트에 포함된 기호를 대응하는 언어 기반 텍스트로 변환하는 전처리부를 더 포함하는 것을 특징으로 하는 자동 통역 장치.
  5. 제3 항에 있어서, 상기 음향 및 언어 데이터베이스부는
    상기 소스 언어 및 상기 타겟 언어의 종류에 따라 상기 인식 네트워크가 발음 변이 데이터베이스, 문자소-음소(grapheme to phoneme 이하 : g2p) 변환 테이블 및 발음 대역 데이터 베이스, 대역어 데이터 베이스 중 적어도 하나를 구비하는 것을 특징으로 하는 자동 통역 장치.
  6. 제5 항에 있어서, 상기 소스 언어는 한국어이며, 상기 타겟 언어는 일본어인 것을 특징으로 하는 자동 통역 장치.
  7. 제6 항에 있어서, 상기 제1 발성음 변환부는
    상기 소스 언어 기반 텍스트에 대해 상기 소스 언어의 특성에 따른 발음 변이 현상에 대응하기 위한 발음 변이 변환을 수행하고, 어절, 음절 및 음소 단위로 순차적으로 분리하고, 상기 g2p 변환 테이블을 이용하여 분리된 상기 음소를 음소 단위의 발음 기호로 변환하며, 변환된 음소 단위 발음 기호를 음절 단위로 결합한 후, 상기 결합된 음절에 대응하는 상기 타겟 언어의 음절로 변환하고, 변환된 음절을 결합하여 상기 어절을 복원함으로써 상기 소스 언어 기반 텍스트의 발성음을 표시하는 상기 타겟 언어 텍스트를 생성하는 것을 특징으로 하는 자동 통역 장치.
  8. 제7 항에 있어서, 상기 제2 발성음 변환부는
    상기 타겟 언어 기반 텍스트에 소스 언어에서 관습적으로 사용하고 있는 어휘인 대역어가 존재하는지 판별하고, 대역어가 존재하는 어휘에 대해서는 대역어의 발음을 적용하고, 대역어가 존재하지 않는 어휘에 대해서는 어절, 음절 및 음소 단위로 순차적으로 분리하고, 상기 g2p 변환 테이블을 이용하여 분리된 상기 음소를 음소 단위의 발음 기호로 변환하며, 변환된 음소 단위 발음 기호를 음절 단위로 결합한 후, 상기 결합된 음절에 대응하는 상기 소스 언어의 음절로 변환하고, 상기 대역어의 발음과 변환된 음절을 결합하여 상기 어절을 복원함으로써 상기 타겟 언어 기반 텍스트의 발성음을 표시하는 상기 소스 언어 텍스트를 생성하는 것을 특징으로 하는 자동 통역 장치.
  9. 제2 항에 있어서, 상기 인터페이스부는
    상기 사용자가 입력하는 음성을 감지하여 상기 통역부로 전송하는 음성 감지부;
    사용자 명령 입력 수단으로 구현되어, 상기 사용자 명령 또는 상기 소스 언어 기반 텍스트를 입력 받는 사용자 입력부;
    디스플레이 수단으로 구현되어 상기 소스 언어 기반 텍스트와 번역된 상기 타겟 언어 기반 텍스트, 상기 타겟 언어 기반 텍스트의 발성음을 소스 언어로 표시한 소스 언어로 표기한 상기 소스 언어 텍스트 및 상기 소스 언어 기반 텍스트의 발성음을 타겟 언어로 표기한 상기 타겟 언어 텍스트 중 적어도 하나를 표시하는 디스플레이부; 및
    음성 출력 수단으로 구현되어 상기 합성음을 출력하는 음성 출력부를 포함하는 것을 특징으로 하는 자동 통역 장치.
  10. 인터페이스부와 설정부 및 통역부를 구비하는 자동 통역 장치의 자동 통역 방법에 있어서, 상기 자동 통역 장치가
    상기 인터페이스부를 통해 인가되는 사용자 명령에 응답하여 자동 통역 설정을 저장하는 단계;
    상기 인터페이스부를 통해 소스 언어 기반 음성이 인가되는지 판별하는 단계;
    상기 소스 언어 기반 음성이 인가되면, 상기 통역부의 음향 및 언어 데이터베이스부에 저장된 상기 소스 언어 및 상기 타겟 언어에 대한 언어모델, 음향 모델 및 발음 사전을 통합한 인식 네트워크를 이용하여 음성 인식을 수행하여 소스 언어 기반 텍스트를 생성하는 단계;
    상기 소스 언어 기반 텍스트를 상기 인식 네트워크를 이용하여 타겟 언어 기반 텍스트로 번역하는 단계; 및
    상기 번역된 타겟 언어 기반 텍스트의 발성음을 소스 언어 텍스트로 변환하여 출력하는 단계; 를 포함하는 자동 통역 방법.
  11. 제10 항에 있어서, 상기 자동 통역 방법은
    상기 타겟 언어 기반 텍스트로 번역하는 단계 이전에 상기 소스 언어 기반 텍스트의 발성음을 상기 타겟 언어 텍스트로 변환하여 출력하는 단계; 를 더 포함하는 것을 특징으로 하는 자동 통역 방법.
  12. 제11 항에 있어서, 상기 소스 언어는 한국어이며, 상기 타겟 언어는 일본어인 것을 특징으로 하는 자동 통역 방법.
  13. 제12 항에 있어서, 상기 인식 네트워크는
    상기 소스 언어 및 상기 타겟 언어의 종류에 따라 발음 변이 데이터베이스, 문자소-음소(grapheme to phoneme 이하 : g2p) 변환 테이블 및 발음 대역 데이터 베이스, 대역어 데이터 베이스 중 적어도 하나를 포함하는 것을 특징으로 하는 자동 통역 방법.
  14. 제13 항에 있어서, 상기 타겟 언어 텍스트로 변환하여 출력하는 단계는
    상기 소스 언어 기반 텍스트에 대해 상기 소스 언어의 특성에 따른 발음 변이 현상에 대응하기 위한 발음 변이 변환을 수행하는 단계;
    상기 발음 변이 변환이 수행된 상기 소스 언어 기반 텍스트를 어절, 음절 및 음소 단위로 순차적으로 분리하는 단계;
    상기 g2p 변환 테이블을 이용하여 분리된 상기 음소를 음소 단위의 발음 기호로 변환하는 단계;
    상기 변환된 음소 단위 발음 기호를 음절 단위로 결합하는 단계;
    상기 결합된 음절에 대응하는 상기 타겟 언어의 음절로 변환하는 단계;
    상기 변환된 음절을 결합하여 상기 어절을 복원함으로써 상기 소스 언어 기반 텍스트의 발성음을 표시하는 상기 타겟 언어 텍스트를 생성하는 단계; 및
    상기 타겟 언어 텍스트를 상기 인터페이스부를 통해 출력하는 단계; 를 포함하는 것을 특징으로 하는 자동 통역 방법.
  15. 제14 항에 있어서, 상기 소스 언어 텍스트로 변환하여 출력하는 단계는
    상기 타겟 언어 기반 텍스트에 소스 언어에서 관습적으로 사용하고 있는 어휘인 대역어가 존재하는지 판별하는 단계;
    상기 대역어가 존재하는 어휘에 대해서는 대역어의 발음을 적용하는 단계;
    상기 대역어가 존재하지 않는 어휘에 대해서 어절, 음절 및 음소 단위로 순차적으로 분리하는 단계;
    상기 g2p 변환 테이블을 이용하여 분리된 상기 음소를 음소 단위의 발음 기호로 변환하는 단계;
    상기 변환된 음소 단위 발음 기호를 음절 단위로 결합하는 단계;
    상기 결합된 음절에 대응하는 상기 소스 언어의 음절로 변환하는 단계;
    상기 대역어의 발음과 변환된 음절을 결합하여 상기 어절을 복원함으로써 상기 타겟 언어 기반 텍스트의 발성음을 표시하는 상기 소스 언어 텍스트를 생성하는 단계; 및
    상기 소스 언어 텍스트를 상기 인터페이스부를 통해 출력하는 단계; 를 포함하는 것을 특징으로 하는 자동 통역 방법.
  16. 제15 항에 있어서, 상기 타겟 언어 텍스트로 변환하여 출력하는 단계 및 상기 소스 언어 텍스트로 변환하여 출력하는 단계 각각은
    상기 발음 변이 변환을 수행하는 단계 및 상기 대역어가 존재하는지 판별하는 단계 이전에 상기 소스 언어 기반 텍스트 및 상기 타겟 언어 기반 텍스트에서 문법 오류를 분석하여 수정하고, 상기 소스 언어 기반 텍스트 및 상기 타겟 언어 기반 텍스트에 포함된 기호를 대응하는 언어 기반 텍스트로 변환하는 전처리 단계를 더 포함하는 것을 특징으로 하는 자동 통역 방법.
  17. 제10 항에 있어서, 상기 자동 통역 방법은
    상기 타겟 언어 기반 텍스트로 번역하는 단계 이전에 상기 소스 언어 기반 음성이 인가되지 않으면, 상기 인터페이스부를 통해 소스 언어 기반 텍스트를 직접 인가받는 단계; 및
    상기 타겟 언어 기반 텍스트로 번역하는 단계 이후, 상기 타겟 언어 기반 텍스트에 대응하는 음성을 합성하여 합성음을 생성하여 상기 인터페이스부를 통해 합성음을 출력하는 단계; 를 더 포함하는 것을 특징으로 하는 자동 통역 방법.
  18. 제10 항 내지 제17 항 중 어느 한 항에 따른 자동 통역 장치의 자동 통역 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록 매체.
KR1020130089649A 2013-07-29 2013-07-29 자동 통역 장치 및 방법 KR102069697B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130089649A KR102069697B1 (ko) 2013-07-29 2013-07-29 자동 통역 장치 및 방법
JP2014056505A JP6397641B2 (ja) 2013-07-29 2014-03-19 自動通訳装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130089649A KR102069697B1 (ko) 2013-07-29 2013-07-29 자동 통역 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150014235A true KR20150014235A (ko) 2015-02-06
KR102069697B1 KR102069697B1 (ko) 2020-02-24

Family

ID=52490724

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130089649A KR102069697B1 (ko) 2013-07-29 2013-07-29 자동 통역 장치 및 방법

Country Status (2)

Country Link
JP (1) JP6397641B2 (ko)
KR (1) KR102069697B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180016840A (ko) * 2016-08-08 2018-02-20 단국대학교 산학협력단 등장인물 추출 방법 및 장치
KR20210073762A (ko) * 2019-12-11 2021-06-21 김월수 출입국 민원 대행 서비스 제공 방법 및 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107957995A (zh) * 2017-12-07 2018-04-24 赵华杰 一种可方便翻译语音的翻译系统
CN108447486B (zh) * 2018-02-28 2021-12-03 科大讯飞股份有限公司 一种语音翻译方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288170A (ja) * 2001-03-23 2002-10-04 Evidence:Kk 多言語間コミュニケーション支援システム
KR20070027726A (ko) * 2004-06-23 2007-03-09 구글 잉크. 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법
KR20110018717A (ko) * 2009-08-18 2011-02-24 한국전자통신연구원 중국어 구조조사 오류의 자동정정 장치 및 방법
KR20120109776A (ko) * 2011-03-28 2012-10-09 김정희 영어학습교재
JP2013061371A (ja) * 2011-09-12 2013-04-04 National Institute Of Information & Communication Technology 発音辞書作成装置、発音辞書の生産方法、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0798709A (ja) * 1993-05-14 1995-04-11 Ricoh Co Ltd 音訳器
JPH08166966A (ja) * 1994-12-15 1996-06-25 Sony Corp 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置
JPH11161651A (ja) * 1997-11-28 1999-06-18 Matsushita Electric Ind Co Ltd 発音記号生成装置
JP2002288167A (ja) * 2001-01-18 2002-10-04 Kodensha Co Ltd 翻訳システム
JP2005149042A (ja) * 2003-11-14 2005-06-09 Toshiba Corp 音声入力翻訳装置、翻訳プログラム
GB0403202D0 (en) * 2004-02-13 2004-03-17 Payn Roger A foreign language communication aid

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288170A (ja) * 2001-03-23 2002-10-04 Evidence:Kk 多言語間コミュニケーション支援システム
KR20070027726A (ko) * 2004-06-23 2007-03-09 구글 잉크. 비-로마자 문자 및 단어의 철자 정정을 위한 시스템 및방법
KR20110018717A (ko) * 2009-08-18 2011-02-24 한국전자통신연구원 중국어 구조조사 오류의 자동정정 장치 및 방법
KR20120109776A (ko) * 2011-03-28 2012-10-09 김정희 영어학습교재
JP2013061371A (ja) * 2011-09-12 2013-04-04 National Institute Of Information & Communication Technology 発音辞書作成装置、発音辞書の生産方法、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180016840A (ko) * 2016-08-08 2018-02-20 단국대학교 산학협력단 등장인물 추출 방법 및 장치
KR20210073762A (ko) * 2019-12-11 2021-06-21 김월수 출입국 민원 대행 서비스 제공 방법 및 시스템

Also Published As

Publication number Publication date
JP2015026054A (ja) 2015-02-05
JP6397641B2 (ja) 2018-09-26
KR102069697B1 (ko) 2020-02-24

Similar Documents

Publication Publication Date Title
Këpuska et al. Comparing speech recognition systems (Microsoft API, Google API and CMU Sphinx)
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4786384B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
Neto et al. Free tools and resources for Brazilian Portuguese speech recognition
US20100057435A1 (en) System and method for speech-to-speech translation
US20110238407A1 (en) Systems and methods for speech-to-speech translation
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
KR20140121580A (ko) 자동 번역 및 통역 장치 및 그 방법
CN104899192B (zh) 用于自动通译的设备和方法
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP6397641B2 (ja) 自動通訳装置及び方法
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
Badino et al. Language independent phoneme mapping for foreign TTS
KR20210036169A (ko) 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
US20040006469A1 (en) Apparatus and method for updating lexicon
KR101553469B1 (ko) 다언어 어휘 음성 인식 장치 및 방법
Soman et al. Corpus driven malayalam text-to-speech synthesis for interactive voice response system
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
JP2021148942A (ja) 声質変換システムおよび声質変換方法
JP2001117752A (ja) 情報処理装置および情報処理方法、並びに記録媒体
JP7165439B2 (ja) ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right