KR20140121580A - 자동 번역 및 통역 장치 및 그 방법 - Google Patents

자동 번역 및 통역 장치 및 그 방법 Download PDF

Info

Publication number
KR20140121580A
KR20140121580A KR1020130037936A KR20130037936A KR20140121580A KR 20140121580 A KR20140121580 A KR 20140121580A KR 1020130037936 A KR1020130037936 A KR 1020130037936A KR 20130037936 A KR20130037936 A KR 20130037936A KR 20140121580 A KR20140121580 A KR 20140121580A
Authority
KR
South Korea
Prior art keywords
language
text
unit
word
sentence
Prior art date
Application number
KR1020130037936A
Other languages
English (en)
Inventor
이수종
김상훈
김정세
윤승
이민규
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130037936A priority Critical patent/KR20140121580A/ko
Priority to US14/161,593 priority patent/US9292499B2/en
Publication of KR20140121580A publication Critical patent/KR20140121580A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 자동 번역 및 통역 장치 및 그 방법에 관한 것으로, 제1 언어의 음성 신호를 입력 받는 음성 입력부; 상기 제1 언어의 텍스트를 입력 받는 텍스트 입력부; 상기 음성 입력부로부터 수신되는 음성 신호에서 음성 특징을 추출하거나 상기 텍스트 입력부로부터 수신되는 텍스트의 각 단어에 대한 유사도를 측정하여 번역하고자 하는 제1 언어의 문장을 인식하는 문장 인식부; 인식된 상기 제1 언어의 문장을 제2 언어의 문장으로 번역하는 번역부; 번역된 상기 제2 언어의 문장에 대한 발성음을 음성으로 출력하는 음성 출력부; 및 번역된 상기 제2 언어의 문장에 대한 발성음을 상기 제1 언어로 표기한 텍스트로 변환하여 출력하는 텍스트 출력부; 를 포함한다.

Description

자동 번역 및 통역 장치 및 그 방법{APPARATUS AND METHOD FOR AUTOMATIC TRANSLATION AND INTERPRETATION}
본 발명은 자동 번역 및 통역 장치 및 그 방법에 관한 것으로, 보다 자세하게는 서로 다른 언어를 사용하는 사람들 간의 원활한 의사소통을 가능하게 하는 자동 번역 및 통역 장치 및 그 방법에 관한 것이다.
잘 알려진 바와 같이, 자동 번역 및 통역 장치는 서로 다른 언어를 사용하는 사람들이 자신들의 모국어로도 의사소통을 할 수 있도록 하기 위한 장치로서, 음성 신호를 받아 음성 인식을 수행하고 그 결과를 제2 언어로 자동 번역한 후에 그 결과를 다시 음성으로 합성하여 출력한다. 그러나, 발성음은 바로 소멸되기 때문에 제2 언어를 직접 재현하여 의사소통에 활용하기는 불가능하다는 문제점이 있었다.
그리고 사용 빈도가 낮은 고유명사 또는 잡음환경에서는 음성 인식 성능이 급격히 저하되어 이러한 경우에는 텍스트 문장을 직접 입력하여 의사 소통하거나, 자동 통역에 의하지 않고 제2 언어를 직접 발성해야 할 필요성이 제기된다.
또한, 기존의 자동 번역 엔진은 텍스트 문장을 대상으로 하기 때문에 번역 대상 문장이 문법적으로나 의미적으로 완벽하다는 가정을 하고 있지만, 음성 인식 엔진에서 자동 번역기에 넘겨주는 결과는 그러한 가정을 만족시키지 못하기 때문에, 음성 인식에서 나타나는 인식 오류가 번역에 악영향을 미쳐 번역 후에는 그 오류의 정도가 더욱 심해지는 현상이 나타난다. 이러한 문제를 해결하기 위하여 기존의 자동 통역 장치에서는 제2 언어로 자동 번역한 결과를 다시 제1 언어로 자동 번역하여 그 결과를 사용자에게 확인하게 함으로써 이러한 문제를 개선하려는 시도를 하고 있다.
관련하여, 한국공개특허 10-2010-0068965호는 "자동 통역 장치 및 그 방법"에 관한 기술을 개시하고 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 발명된 것으로서, 제1 언어의 발성음 또는 텍스트를 기반으로 하여 제2 언어로 자동 번역 및 통역함은 물론 번역 및 통역된 제2 언어의 발성음을 음성 또는 제1 언어로 표기한 텍스트로 출력해줌으로써, 번역 및 통역된 제2 언어를 자신의 음성으로 재현해 낼 수 있도록 하는 자동 번역 및 통역 장치 및 그 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 제1 언어를 텍스트로 입력함에 있어서, 오타 또는 맞춤법 오류가 있는 경우 단어 간 유사도 측정을 통해 의도한 단어를 정확하게 추출할 수 있도록 하는 자동 번역 및 통역 장치 및 그 방법을 제공하는데 그 목적이 있다.
상기한 목적을 달성하기 위한 본 발명에 따른 자동 번역 및 통역 장치는, 제1 언어의 음성 신호를 입력 받는 음성 입력부; 제1 언어의 텍스트를 입력 받는 텍스트 입력부; 상기 음성 입력부로부터 수신되는 음성 신호에서 음성 특징을 추출하거나 상기 텍스트 입력부로부터 수신되는 텍스트의 각 단어에 대한 유사도를 측정하여 번역하고자 하는 제1 언어의 문장을 인식하는 문장 인식부; 인식된 제1 언어의 문장을 제2 언어의 문장으로 번역하는 번역부; 번역된 제2 언어의 문장에 대한 발성음을 음성으로 출력하는 음성 출력부; 및 번역된 제2 언어의 문장에 대한 발성음을 제1 언어로 표기한 텍스트로 변환하여 출력하는 텍스트 출력부;를 포함한다.
또한, 상기 문장 인식부는, 상기 음성 입력부로부터 음성 신호를 수신 받는 음성 신호 수신부; 수신된 음성 신호로부터 음성 구간 및 비 음성 구간을 분리하는 음성 구간 분리부; 음성 구간에서 음성 특징을 추출하는 음성 특징 추출부; 상기 텍스트 입력부로부터 수신되는 텍스트 데이터의 각 단어에 대한 유사도를 측정하여, 최대 유사도를 가지는 대역 단어를 추출하는 유사도 측정부; 및 미리 구축된 음성 DB 또는 단어 DB를 기반으로 구축된 음향 모델, 발음사전 및 언어 모델을 토대로 하는 문장 인식 모듈을 이용하여 음성 특징 또는 대역 단어를 제1 언어의 문장으로 추출하여 출력하는 문장 추출부; 를 포함할 수 있다.
또한, 상기 유사도 측정부는, 미리 구축된 대역 단어 DB에 저장된 단어와 입력된 텍스트의 각 단어를 비교하는 비교부; 비교 결과에 따라 일치하는 음소의 수를 입력된 텍스트의 각 단어의 음소의 수로 나누어 유사도를 산출하는 제1 산출부; 비교 결과에 따라 일치하는 음소의 수를 상기 대역 단어 DB에 저장된 단어의 음소의 수로 나누어 유사도를 산출하는 제2 산출부; 상기 제1 산출부 및 제2 산출부에서 산출된 값 중 최소 산출 값을 텍스트의 각 단어의 음소의 수와 상기 대역 단어 DB에 저장된 단어의 음소의 수의 평균값으로 나누어 유사도를 산출하는 제3 산출부; 및 상기 대역 단어 DB에서 상기 제1 산출부, 제2 산출부 및 제3 산출부에서 산출된 값과 유사한 최대 유사도를 가지는 대역 단어를 추출하는 대역 단어 추출부;를 포함할 수 있다.
이때, 상기 대역 단어 DB는 제1 언어의 단어를 제2 언어의 단어로 또는 제2 언어의 단어를 제1 언어의 단어로 대역되는 대역 단어가 저장될 수 있다.
또한, 상기 텍스트 출력부는, 제1 언어가 영어이고 제 2 언어가 한국어인 경우에 번역된 제2 언어의 문장에 대한 발성음을 로마자로 표기한 텍스트로 변환하여 출력하는 한영 텍스트 출력부를 포함할 수 있다.
이때, 상기 한영 텍스트 출력부는, 번역된 제2 언어의 문장에서 특수기호를 제거하는 전처리를 수행하는 제1 전처리부; 미리 구축된 발음변환 DB를 통해 제2 언어의 문장에 대한 발성음을 제1 언어의 발성음으로 변환하는 발성음 변환부; 미리 구축된 한영 대역 단어 DB를 통해 번역된 제2 언어의 문장을 띄어쓰기 단위로 단어 별로 분리하는 제1 문장 분리부; 미리 구축된 한영 대역 단어 DB를 통해 분리된 단어의 음절 및 음소를 분리하는 단어 분리부; 미리 구축된 음소단위 로마자 DB를 통해 변환된 발성음을 음소별 로마자로 표기하는 제1 표기부; 및 로마자로 표기한 음소를 음절 및 단어로 결합하여 출력하는 제1 결합부;를 포함할 수 있다.
또한, 상기 텍스트 출력부는, 제1 언어가 한국어이고 제 2 언어가 영어인 경우에 번역된 제2 언어의 문장에 대한 발성음을 한국어로 표기한 텍스트로 변환하여 출력하는 영한 텍스트 출력부를 포함할 수 있다.
이때, 상기 영한 텍스트 출력부는, 번역된 제2 언어의 문장에 대해 특수기호를 제거하는 전처리를 수행하는 제2 전처리부; 미리 구축된 영한 대역 단어 DB를 통해 번역된 제2 언어의 문장을 띄어쓰기 단위로 단어를 분리하는 제2 문장 분리부;분리된 단어의 발성음을 한국어로 표기하는 제2 표기부; 및 한국어로 표기한 단어를 문장으로 결합하여 출력하는 제2 결합부;를 포함할 수 있다.
상기한 목적을 달성하기 위한 본 발명에 따른 자동 통역 방볍은, 음성 입력부에 의해, 제1 언어의 음성 신호를 입력 받는 단계; 텍스트 입력부에 의해, 제1 언어의 텍스트를 입력 받는 텍스트 입력부; 문장 인식부에 의해, 상기 음성 입력부로부터 수신되는 음성 신호에서 음성 특징을 추출하거나 상기 텍스트 입력부로부터 수신되는 텍스트의 각 단어에 대한 유사도를 측정하여 번역하고자 하는 제1 언어의 문장을 인식하는 단계; 번역부에 의해, 인식된 제1 언어의 문장을 제2 언어의 문장으로 번역하는 단계; 음성 출력부에 의해, 번역된 제2 언어의 문장에 대한 발성음을 음성으로 출력하는 단계: 및 텍스트 출력부에 의해, 번역된 제2 언어의 문장에 대한 발성음을 제1 언어로 표기한 텍스트로 변환하여 출력하는 단계;를 포함할 수 있다.
또한, 상기 음성 입력부로부터 수신되는 음성 신호에서 음성 특징을 추출하거나 상기 텍스트 입력부로부터 수신되는 텍스트의 각 단어에 대한 유사도를 측정하여 번역하고자 하는 제1 언어의 문장을 인식하는 단계에서, 상기 음성 입력부로부터 음성 신호를 수신 받는 단계; 수신된 음성 신호로부터 음성 구간 및 비 음성 구간을 분리하는 단계; 음성 구간에서 음성 특징을 추출하는 단계; 상기 텍스트 입력부로부터 수신되는 텍스트 데이터의 각 단어에 대한 유사도를 측정하여, 최대 유사도를 가지는 대역 단어를 추출하는 단계; 및 미리 구축된 음성 DB 또는 단어 DB를 기반으로 구축된 음향 모델, 발음사전 및 언어 모델을 토대로 하는 문장 인식 모듈을 이용하여 음성 특징 또는 대역 단어를 제1 언어의 문장으로 추출하여 출력하는 단계;를 포함할 수 있다.
또한, 상기 텍스트 입력부로부터 수신되는 텍스트 데이터의 각 단어에 대한 유사도를 측정하여, 최대 유사도를 가지는 대역 단어를 추출하는 단계는, 미리 구축된 대역 단어 DB에 저장된 단어와 입력된 텍스트의 각 단어를 비교하는 단계; 비교 결과에 따라 일치하는 음소의 수를 입력된 텍스트의 각 단어의 음소의 수로 나누어 유사도를 산출하는 단계; 비교 결과에 따라 일치하는 음소의 수를 상기 대역 단어 DB에 저장된 단어의 음소의 수로 나누어 유사도를 산출하는 단계; 상기 1 산출부 및 제2 산출부에서 산출된 값 중 최소 산출 값을 텍스트의 각 단어의 음소의 수와 상기 대역 단어 DB에 저장된 단어의 음소의 수의 평균값으로 나누어 유사도를 산출하는 단계; 및 상기 대역 단어 DB에서 상기 제1 산출부, 제2 산출부 및 제3 산출부에서 산출된 값과 유사한 최대 유사도를 가지는 대역 단어를 추출하는 단계;를 포함할 수 있다.
또한, 번역된 제2 언어의 문장에 대한 발성음을 제1 언어로 표기한 텍스트로 변환하여 출력하는 단계에서, 제1 언어가 영어이고 제 2 언어가 한국어인 경우에 번역된 제2 언어의 문장에 대한 발성음을 로마자로 표기한 텍스트로 변환하여 출력하는 단계;를 포함할 수 있다.
이때, 제1 언어가 영어이고 제 2 언어가 한국어인 경우에 번역된 제2 언어의 문장에 대한 발성음을 로마자로 표기한 텍스트로 변환하여 출력하는 단계는, 번역된 제2 언어의 문장에서 특수기호를 제거하는 전처리를 수행하는 단계; 미리 구축된 발음변환 DB를 통해 제2 언어의 문장에 대한 발성음을 제1 언어의 발성음으로 변환하는 단계; 번역된 제2 언어의 문장을 띄어쓰기 단위로 단어 별로 분리하는 단계; 분리된 단어의 음절 및 음소를 분리하는 단계; 미리 구축된 음소단위 로마자 대역 DB를 통해 변환된 발성음을 음소별 로마자로 표기하는 단계; 및 로마자로 표기한 음소를 음절 및 단어로 결합하여 출력하는 단계;를 포함할 수 있다.
또한, 번역된 제2 언어의 문장에 대한 발성음을 제1 언어로 표기한 텍스트로 변환하여 출력하는 단계에서, 제1 언어가 한국어이고 제 2 언어가 영어인 경우에 번역된 제2 언어의 문장에 대한 발성음을 한국어로 표기한 텍스트로 변환하여 출력하는 단계;를 포함할 수 있다.
이때, 제1 언어가 한국어이고 제 2 언어가 영어인 경우에 번역된 제2 언어의 문장에 대한 발성음을 한국어로 표기한 텍스트로 변환하여 출력하는 단계는, 번역된 제2 언어의 문장에 대해 특수기호를 제거하는 전처리를 수행하는 단계; 번역된 제2 언어의 문장을 띄어쓰기 단위로 단어를 분리하는 단계; 분리된 단어의 발성음을 한국어로 표기하는 단계; 및 한국어로 표기한 발성음에 대한 단어를 문장으로 결합하여 출력하는 단계;를 포함할 수 있다.
상기와 같은 구성을 갖는 본 발명에 따른 자동 번역 및 통역 장치 및 그 방법은 제1 언어의 발성음 또는 텍스트를 기반으로 하여 제2 언어로 자동 번역함은 물론 번역된 제2 언어의 발성음을 음성 또는 제1 언어로 표기한 텍스트로 출력함으로써, 번역 및 통역된 제2 언어를 자신의 음성으로 재현할 수 있는 기회를 제공하여 서로 다른 언어를 사용하는 사람들 간의 원활한 의사소통을 가능하게 하는 효과가 있다.
또한, 본 발명은 제1 언어를 텍스트로 입력함에 있어서, 오타 또는 맞춤법 오류가 있는 경우 단어 간 유사도 측정을 통해 의도한 단어를 추출함으로써, 제1 언어를 정확하게 제2 언어로 번역 및 통역될 수 있도록 하여 자동 번역 및 통역 서비스의 품질을 개선할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 자동 번역 및 통역 장치에 대한 구성도이다.
도 2는 본 발명의 실시예에 따른 자동 번역 및 통역 장치에 채용되는 문장 인식부에 대한 세부 구성도이다.
도 3은 도 2의 문장 인식부에 채용되는 유사도 측정부에 대한 세부 구성도이다.
도 4는 본 발명의 실시예에 따른 자동 번역 및 통역 장치에 채용되는 텍스트 출력부에 대한 세부 구성도이다.
도 5는 도 4의 텍스트 출력부에 채용되는 한영 텍스트 출력부에 대한 세부 구성도이다.
도 6은 도 5의 한영 텍스트 출력부의 출력 결과를 나타내는 도면이다.
도 7은 도 4의 텍스트 출력부에 채용되는 영한 텍스트 출력부에 대한 세부 구성도이다.
도 8은 도 6에 따른 영한 텍스트 출력부의 출력 결과를 나타내는 도면이다.
도 9는 본 발명의 실시예에 따른 자동 번역 및 통역 방법에 대한 순서도이다.
도 10은 도 9에서의 번역하고자 하는 제1 언어의 문장을 인식하는 단계에 대한 세부 순서도이다.
도 11는 도 10에서의 최대 유사도를 가지는 대역 단어를 추출하는 단계에 대한 세부 순서도이다.
도 12은 도 11에서의 대역 단어 DB에 저장된 단어와 입력된 텍스트의 각 단어를 비교하는 단계에서 텍스트의 단어와 대역 단어 DB를 비교하는 방법을 설명하기 위한 도면이다.
도 13은 도 9에서의 제2 언어의 문장에 대한 발성음을 제1 언어로 표기한 텍스트로 변환하여 출력하는 단계에서, 한국어 문장의 발성음을 로마자로 변환하여 출력하는 방법을 설명하기 위한 도면이다.
도 14는 도 8에서의 제2 언어의 문장에 대한 발성음을 제1 언어로 표기한 텍스트로 변환하여 출력하는 단계에서, 영어 문장의 발성음을 한국어로 변환하여 출력하는 방법을 설명하기 위한 도면이다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선, 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명에 따른 자동 번역 및 통역 장치 및 그 방법은 각 언어의 문장을 발성음에 기반하여 상대국 언어로 표기해 주는 인터페이스를 구축하였고, 또한 텍스트 입력의 경우에 발생할 수 있는 오탈자 오류에도 보다 정확하게 상대국 언어로 표기될 수 있도록 하였다. 먼저, 각 언어의 문장을 발성음에 기반하여 상대국 언어로 표기하기 위해서, 한국어 문장의 발성음 기반 로마자 변환 절차에 관련한 알고리즘과 관련 DB를 구축하였다. 또한, 영어 문장의 발성음 기반 한국어 변환 절차에 관련한 알고리즘과 관련 DB를 구축하였다.
그리고 본 발명에서의 언어 구분은 한영 자동 번역 및 통역의 경우를 예로 들면, 한국어를 제1 언어로 하면 제2 언어는 영어가 되고, 영어를 제1 언어로 하면 제2 언어는 한국어가 된다. 본 발명에서는 설명의 편의상 제1 언어를 한국어, 제2 언어는 영어로 하나 이에 한정되지 않고 다국어에 모두 적용 가능하다.
또한, 본 발명에 따른 자동 번역 및 통역 장치는 이동 단말기에 어플리케이션 형태로 구비된다. 이동 단말기의 화면에는 자동 번역 및 통역 설정 버튼(미도시)을 구비되어, 자동 통역을 필요로 하는 언어 쌍, 번역된 문장의 음성 출력에 있어 남성 음성 또는 여성 음성으로 설정, 자동 번역 및 통역 기록 삭제 여부 등의 과정을 설정할 수 있다. 또한, 이동 단말기의 화면에는 발성 시작 버튼과 발성 종료 버튼 그리고 텍스트 입력 시작 버튼과 텍스트 입력 종료 버튼이 구비하여 음성 발성 외에도 텍스트 문장을 직접 입력할 수 있게 하였다.
이하에서는 본 발명의 실시예에 따른 자동 번역 및 통역 장치 및 방법에 대하여 첨부한 도면을 참고로 하여 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 자동 번역 및 통역 장치에 대한 구성도이다.
도 1을 참조하여 설명하면, 본 발명에 따른 자동 번역 및 통역 장치(100)는 크게 음성 입력부(110), 텍스트 입력부(120), 문장 인식부(130), 번역부(150), 음성 출력부(160) 및 텍스트 출력부(170)를 포함한다.
음성 입력부(110)는 제1 언어의 음성 신호를 입력 받는다. 음성 입력부(110)는 제1 언어의 사용자가 발성 시작 버튼을 누른 후 발성하고, 발성 완료 후에는 발성 종료 버튼을 누르는 과정을 통해 제1 언어의 음성 신호를 입력 받는다. 이때, 음성 입력부(110)는 이동 단말기에 구비되는 마이크를 통해 음성 신호를 입력 받는다.
텍스트 입력부(120)는 제1 언어의 텍스트를 입력 받는다. 텍스트 입력부(120)는 제1 언어의 사용자가 텍스트 입력 시작 버튼을 누르고 텍스트를 입력하고, 텍스트 입력 완료 후에는 텍스트 입력 종료 버튼을 누르는 과정을 통해 제1 언어의 텍스트를 입력 받는다. 이때, 텍스트 입력부(120)는 이동 단말기에 구비되는 키보드를 통해 텍스트를 입력 받는다.
문장 인식부(130)는 음성 입력부(110)로부터 수신되는 음성 신호에서 음성 특징을 추출하거나 텍스트 입력부(120)로부터 수신되는 텍스트의 각 단어에 대한 유사도를 측정하여 번역하고자 하는 제1 언어의 문장을 인식한다. 이러한, 문장 인식부(130)의 구성에 따른 실시예에 대해서는 이후 도 2와 함께 자세하게 후술하기로 한다.
번역부(150)는 인식된 제1 언어의 문장을 제2 언어의 문장으로 번역한다.
음성 출력부(160)는 번역된 제2 언어의 문장에 대한 발성음을 음성으로 스피커를 통해 출력한다.
텍스트 출력부(170)는 번역된 제2 언어의 문장에 대한 발성음을 제1 언어로 표기한 텍스트로 변환하여 출력한다. 텍스트 출력부(170)는 한국어의 “안녕하세요?” 문장과 영어의 “How are you?” 문장에 대해, “안녕하세요?” 의 발성음을 “(Annyeong_Haseyo?)”로 “How are you?”의 발성음을 “(하우 아 유?)”로 표기하여 출력한다. 이러한 텍스트 출력부(170)의 구성에 대해서는 도 4에서 자세하게 후술하기로 한다.
도 2는 본 발명의 실시예에 따른 자동 번역 및 통역 장치에 채용되는 문장 인식부에 대한 세부 구성도이다
도 2를 참조하여 설명하면, 본 발명에 따른 문장 인식부(130)는 음성 신호 수신부(131). 음성 구간 분리부(132), 음성 특징 추출부(133), 유사도 측정부(134) 및 문장 추출부(140)를 포함한다.
음성 신호 수신부(131)는 음성 입력부(110)로부터 음성 신호를 수신 받는다.
음성 구간 분리부(132)는 수신된 음성 신호로부터 음성 구간 및 비 음성 구간을 분리한다.
음성 특징 추출부(133)는 음성 구간에서 음성 특징을 추출한다.
유사도 측정부(134)는 텍스트 입력부(120)로부터 수신되는 텍스트 데이터의 각 단어에 대한 유사도를 측정하여, 최대 유사도를 가지는 대역 단어를 추출한다. 즉, 유사도 측정부(134)는 한영 대역 단어 DB 또는 영한 대역 단어 DB로부터 입력된 단어와 유사도가 가장 높은 단어를 추출한다. 이러한 유사도 측정부(134)의 구성 에 따른 실시예에 대해서는 이후 도 3과 함께 자세하게 후술하기로 한다.
문장 추출부(140)는 음성 DB 또는 단어 DB를 기반으로 구축된 문장 인식 모듈(141)을 이용하여 음성 특징 또는 대역 단어를 제1 언어의 문장으로 추출하여 이동 단말기의 화면에 출력한다. 이때, 문장 인식 모듈(141)은 음성 DB 또는 단어 DB를 기반하여 음향 모델, 발음 사전, 언어 모델을 구축하여 통합된 모듈이다.
도 3은 도 2의 문장 인식부에 채용되는 유사도 측정부에 대한 세부 구성도이다.
도 3을 참조하여 설명하면, 본 발명에 따른 유사도 측정부(134)는 비교부(135), 제1 산출부(136), 제2 산출부(137), 제3 산출부(138) 및 대역 단어 추출부(139)를 포함한다.
비교부(135)는 대역 단어 DB에 저장된 단어와 입력된 텍스트의 각 단어를 비교한다. 비교부(135)는 대역 단어 DB의 하나의 단어를 대상으로 음성 또는 텍스트로 입력된 단어와 비교한다.
이때, 대역 단어 DB는 제1 언어의 단어를 제2 언어의 단어로 또는 제2 언어의 단어를 제1 언어의 단어로 대역되는 대역 단어가 저장되어 있다.
제1 산출부(136)는 비교 결과에 따라 일치하는 음소의 수를 입력된 텍스트의 각 단어의 음소의 수로 나누어 유사도를 산출한다.
제2 산출부(137)는 비교 결과에 따라 일치하는 음소의 수를 대역 단어 DB에 저장된 단어의 음소의 수로 나누어 유사도를 산출한다.
제3 산출부(138)는 제1 산출부(136) 및 제2 산출부(137)에서 산출된 값 중 최소 산출 값을 텍스트의 각 단어의 음소의 수와 대역 단어 DB에 저장된 단어의 음소의 수의 평균값으로 나누어 유사도를 산출한다. 예를 들면, 제3 산출부(138)는 입력단어의 음소수가 4, 대역 단어 DB의 음소수가 6인 경우에 4/[(4+6)/2]로서 0.8의 값을 갖는다.
대역 단어 추출부(139)는 대역 단어 DB에서 제1 산출부(136), 제2 산출부(137) 및 제3 산출부(138)에서 산출된 값과 유사한 최대 유사도를 가지는 대역 단어를 추출하여 이동 단말기의 화면에 출력한다.
상기와 같은 유사도 측정부(134)에 따른 단어 간 유사도 측정은 A*B*C로 산출하며, 같은 방법으로 입력된 단어들의 유사도를 산출하여 대역 단어를 추출한다. 즉, 유사도 측정부(134)는 “Washington”을 출력하기 위하여, “와싱톤”으로 텍스트를 직접 입력한 경우에도 한영 대역 단어 DB 내에서 한글 단어 유사도가 높은 “와싱턴/Washington”를 추출할 수 있도록 한다.
도 4는 본 발명의 실시예에 따른 자동 번역 및 통역 장치에 채용되는 텍스트 출력부에 대한 세부 구성도이다.
도 4를 참조하여 설명하면, 본 발명에 따른 텍스트 출력부(170)는 제1 언어가 영어이고 제 2 언어가 한국어인 경우에 번역된 제2 언어의 문장에 대한 발성음을 로마자로 표기한 텍스트로 변환하여 출력하는 한영 텍스트 출력부(171)와 제1 언어가 한국어이고 제 2 언어가 영어인 경우에 번역된 제2 언어의 문장에 대한 발성음을 한국어로 표기한 텍스트로 변환하여 출력하는 영한 텍스트 출력부(172)를 포함한다.
이러한, 한영 텍스트 출력부(171)에 따른 실시예에 대해서는 이후 도 5 및 도 6 과 함께 자세하게 후술하기로 하고, 영한 텍스트 출력부(178)에 따른 실시예에 대해서는 이후 도 7 및 도 8과 함께 자세하게 후술하기로 한다.
도 5는 도 4의 텍스트 출력부에 채용되는 한영 텍스트 출력부에 대한 세부 구성도이고, 도 6은 도 5의 한영 텍스트 출력부의 출력 결과를 나타내는 도면이다.
도 5를 참조하여 설명하면, 본 발명에 따른 한영 텍스트 출력부(171)는 제1 전처리부(172), 발성음 변환부(173), 제1 문장 분리부(174), 단어 분리부(175), 제1 표기부(176) 및 제1 결합부(177)를 포함한다.
제1 전처리부(172)는 번역된 제2 언어의 문장에서 특수기호를 제거하는 전처리를 수행한다. 이때, 제1 전처리부(172)는 제2 언어의 문장에서 문장부호를 제외한 특수기호를 제거한다.
발성음 변환부(173)는 미리 구축된 발음변환 DB를 통해 제2 언어의 문장에 대한 발성음을 제1 언어의 발성음으로 변환한다. 이때, 발음변환 DB는 발성과정에서 발음변이가 일어나는 단어를 수집한 것이다. 예를 들어, “국민/궁민”, “신라/실라”, “밥물/밤물” 등과 같은 단어들을 말한다.
제1 문장 분리부(174)는 미리 구축된 한영 대역 단어 DB를 통해 번역된 제2 언어의 문장을 띄어쓰기 단위로 단어 별로 분리한다. 제1 문장 분리부(174)는 단어 단위로 미리 구축된 한영 대역 단어 DB를 검색하여 존재하는 경우에는 제1 결합부를 통한 단어 결합을 바로 진행한다. 이때, 한영 대역 단어 DB는 한글발음사전을 참조하여 구축하되, 다양한 복합고유명사의 한/영 대역어를 추가하여 구축한다. 예를 들어,“제주스파/Jeju_spa”, “샤브샤브/Shabu_shabu” 등과 같은 단어들을 말한다.
단어 분리부(175)는 미리 구축된 한영 대역 단어 DB를 통해 분리된 단어의 음절 및 음소를 분리한다. 즉, 단어 분리부(175)는 로마자 변환을 위해 음절을 구분하고 이를 다시 음소로 분리하여 초성, 중성, 종성을 구하되, 의문기호(?). 마침표(.) 등과 같은 문장기호는 그대도 유지시킨다.
제1 표기부(176)는 미리 구축된 음소단위 로마자 DB를 통해 변환된 발성음을 음소별 로마자 텍스트로 표기한다. 이때, 음소단위 로마자 DB는 한글 음소와 로마자 간의 대역관계로 구성되고, 같은 음소인 경우라도 초성과 종성에 따라 다르게 구축된다. 예를 들어,“ㄱ/k”, “ㄱ/g”, “ㄲ/kk”, “ㅏ/a”, “ㅓ/eo”등과 같은 단어들을 말한다. 또한 종성이 없는 음절의 경우에는 특수기호를 사용하여 로마자변환 과정에 적용할 수 있다.
제1 결합부(177)는 로마자로 표기한 음소를 음절 및 단어로 결합하여 출력한다. 예를 들어, 제1 결합부(177)는 도 6에 도시된 바와 같이“안녕하세요?”에 대한 발성음이 “(Annyeong Haseyo?)”와 같은 텍스트 형태로 이동 단말기(200)의 화면에 출력한다. 이때, 제1 결합부(177)는 단어 단위 또는 음절 단위의 첫 자를 대문자로 변경하여 이동 단말기에 출력할 수도 있다.
도 7은 도 4의 텍스트 출력부에 채용되는 영한 텍스트 출력부에 대한 세부 구성도이고, 도 8은 도 6에 따른 영한 텍스트 출력부의 출력 결과를 나타내는 도면이다.
도 7을 참조하여 설명하면, 본 발명에 따른 영한 텍스트 출력부(178)는 제2 전처리부(179), 제2 문장 분리부(180), 제2 표기부(181) 및 제2 결합부(182)를 포함한다.
제2 전처리부(179)는 번역된 제2 언어의 문장에 대해 특수기호를 제거하는 전처리를 수행한다. 제2 전처리부(179)는 제2 언어의 문장에서 문장부호를 제외한 특수기호를 제거한다.
제2 문장 분리부(180)는 미리 구축된 영한 대역 단어 DB를 통해 번역된 제2 언어의 문장을 띄어쓰기 단위로 단어를 분리한다. 이때, 영한 대역 단어 DB는 영어발음사전을 참조하여 영어 발성음의 단위 음소별로 한국어 단위 음소 대역DB를 구축한다. 예를 들어, “y uw/유”, “b iy l/빌” 등과 같은 단어를 말한다. 이를 통하여, 영어발음사전과 같이 발성음 단위의 음소조합으로 정의된 영어 단어는 각 단위음소를 한국어 단위음소 또는 음절로 변환할 수 있게 되며, 발성음 기반의 단어대역DB가 구축될 수 있다. 예를 들어, “Shop/샵”, “Front/프런트”등과 같은 단어를 말한다. 이러한, 영한 대역 단어DB는 기본적으로 영어발음사전의 표제어가 대상이 되며, 이에 다수의 고유명사를 추가하여 구축한다.
제2 표기부(181)는 분리된 단어의 발성음을 한국어 텍스트로 표기한다.
제2 결합부(182)는 한국어로 표기한 단어를 문장으로 결합하고 문장부호 추가 등 후처리를 거쳐 출력한다. 예를 들어, 제2 결합부(182)는 도 8에 도시된 바와 같이 "How are you?” 에 대한 발성음이 “(하우 아 유?)”와 같은 텍스트 형태로 이동 단말기(200)의 화면에 출력한다.
도 9는 본 발명의 실시예에 따른 자동 번역 및 통역 방법에 대한 순서도이다.
도 9를 참조하여 설명하면, 본 발명에 따른 자동 번역 및 통역 방법은 앞서 설명한 자동 번역 및 통역 장치를 이용하는 방법으로 이하 중복되는 설명은 생략하기로 한다.
먼저, 제1 언어의 음성 신호를 입력 받는다.(S900)
다음, 제1 언어의 텍스트를 입력 받는다.(S910)
다음, 입력된 음성 신호에서 음성 특징을 추출하거나 입력된 텍스트의 각 단어에 대한 유사도를 측정하여 번역하고자 하는 제1 언어의 문장을 인식한다.(S920) 이러한 제1 언어의 문장 인식방법에 대해서는 도 10에서 자세하게 후술하기로 한다.
다음, 인식된 제1 언어의 문장을 제2 언어의 문장으로 번역한다.(S930)
다음, 번역된 제2 언어의 문장에 대한 발성음을 음성으로 출력한다.(S940)
마지막으로, 번역된 제2 언어의 문장에 대한 발성음을 제1 언어로 표기한 텍스트로 변환하여 출력한다.(S950) 이러한 발성음 텍스트 출력 방법에 대해서는 도 13 및 도 14에서 자세하게 후술하기로 한다.
도 10은 도 9에서의 번역하고자 하는 제1 언어의 문장을 인식하는 단계에 대한 세부 순서도이다.
도 10을 참조하여 설명하면, 먼저, 음성 신호를 수신 받는다.(S1000)
다음, 수신된 음성 신호로부터 음성 구간 및 비 음성 구간을 분리한다.(S1010)
다음, 음성 구간에서 음성 특징을 추출한다.(S1020)
다음, 텍스트 데이터의 각 단어에 대한 유사도를 측정하여, 최대 유사도를 가지는 대역 단어를 추출한다.(S1030) 이러한 유사도 측정에 따른 대역 단어 추출 방법에 대해서는 도 11에서 자세하게 후술하기로 한다.
마지막으로, 음성 DB 또는 단어 DB를 기반으로 구축된 음향 모델, 발음사전 및 언어 모델을 토대로 하는 문장 인식 모듈을 이용하여 음성 특징 또는 대역 단어를 제1 언어의 문장으로 추출하여 출력한다.(S1040)
도 11는 도 10에서의 최대 유사도를 가지는 대역 단어를 추출하는 단계에 대한 세부 순서도이고, 도 12은 도 11에서의 대역 단어 DB에 저장된 단어와 입력된 텍스트의 각 단어를 비교하는 단계에서 텍스트의 단어와 대역 단어 DB를 비교하는 방법을 설명하기 위한 도면이다.
도 11을 참조하여 설명하면, 먼저, 대역 단어 DB에 저장된 단어와 입력된 텍스트의 각 단어를 비교한다.(S1100) 예를 들어, 도 12에 도시된 바와 같이 음성 또는 텍스트로 입력된 입력단어 "a1a2a3"와 대역 단어 DB에 저장된 “a1b2a3b4/KOR1", "c1a2c3c4/KOR2" 와 같은 대역 단어들을 비교한다.
다음, 비교 결과에 따라 일치하는 음소의 수를 산출한다.(S1110) 이는 비교 결과에 따라 일치하는 음소의 수를 입력된 텍스트의 각 단어의 음소의 수로 나누어 유사도를 산출하고, 비교 결과에 따라 일치하는 음소의 수를 대역 단어 DB에 저장된 단어의 음소의 수로 나누어 유사도를 산출하고, 앞서 산출된 값 중 최소 산출 값을 텍스트의 각 단어의 음소의 수와 대역 단어 DB에 저장된 단어의 음소의 수의 평균값으로 나누어 유사도를 산출한다.
마지막으로, 대역 단어 DB에서 S1100 단계에서 산출된 값과 유사한 최대 유사도를 가지는 대역 단어를 추출한다.(S1120)
도 13은 도 9에서의 제2 언어의 문장에 대한 발성음을 제1 언어로 표기한 텍스트로 변환하여 출력하는 단계에서, 한국어 문장의 발성음을 로마자 텍스트로 변환하여 출력하는 방법을 설명하기 위한 도면이다.
도 13을 참조하여 설명하면, 제1 언어가 영어이고 제 2 언어가 한국어인 경우에 번역된 제2 언어의 문장에 대한 발성음을 로마자로 표기한 텍스트로 변환하여 출력하는 경우 먼저, 번역된 제2 언어의 문장에서 특수기호를 제거하는 전처리를 수행한다.(S1300)
다음, 미리 구축된 발음변환 DB를 통해 제2 언어의 문장에 대한 발성음을 제1 언어의 발성음으로 변환한다.(S1310)
다음, 번역된 제2 언어의 문장을 띄어쓰기 단위로 단어 별로 분리한다.(S1320)
다음, 분리된 단어의 음절 및 음소를 분리한다.(S1330)
다음, 미리 구축된 음소단위 로마자 대역 DB를 통해 변환된 발성음을 음소별 로마자 텍스트로 표기한다.(S1340)
다음, 로마자 텍스트로 표기한 음소를 음절 및 단어로 결합하여 출력한다.(S1350) 예를 들면, S1350 단계를 통해 “안녕하세요?”에 대한 발성음이 “(Annyeong Haseyo?)”와 같은 텍스트 형태로 이동 단말기(200)의 화면에 출력한다.
도 14는 도 8에서의 제2 언어의 문장에 대한 발성음을 제1 언어로 표기한 텍스트로 변환하여 출력하는 단계에서, 영어 문장의 발성음을 한국어로 변환하여 출력하는 방법을 설명하기 위한 도면이다.
도 14를 참조하면, 제1 언어가 한국어이고 제 2 언어가 영어인 경우에 번역된 제2 언어의 문장에 대한 발성음을 한국어로 표기한 텍스트로 변환하여 출력하는 경우 먼저, 번역된 제2 언어의 문장에 대해 특수기호를 제거하는 전처리를 수행한다.(S1400)
다음, 번역된 제2 언어의 문장을 띄어쓰기 단위로 단어를 분리한다.(S1410)
다음, 분리된 단어의 발성음을 한국어 텍스트로 표기한다.(S1420)
다음, 한국어 텍스트로 표기한 단어를 문장으로 결합하여 출력한다.(S1430) 예를 들면, S1430 단계를 통해 "How are you? 에 대한 발성음이 “(하우 아 유?)”와 같은 텍스트 형태로 이동 단말기(200)의 화면에 출력한다.
이처럼, 본 발명에 따른 자동 번역 및 통역 장치 및 그 방법은 제1 언어의 발성음 또는 텍스트를 기반으로 하여 제2 언어로 자동 번역함은 물론 번역된 제2 언어의 발성음을 음성 또는 제1 언어로 표기한 텍스트로 출력함으로써, 번역 및 통역된 제2 언어를 자신의 음성으로 재현할 수 있는 기회를 제공하여 서로 다른 언어를 사용하는 사람들 간의 원활한 의사소통을 가능하게 한다.
또한, 본 발명은 제1 언어를 텍스트로 입력함에 있어서, 오타 또는 맞춤법 오류가 있는 경우 단어 간 유사도 측정을 통해 의도한 단어를 추출함으로써, 제1 언어를 정확하게 제2 언어로 번역 및 통역될 수 있도록 하여 자동 번역 및 통역 서비스의 품질을 개선할 수 있다.
이상에서, 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진 자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
100 : 자동 번역 및 통역 장치
110 : 음성 입력부 120 : 텍스트 입력부
130 : 문장 인식부 150 : 번역부
160 : 음성 출력부 170 : 텍스트 출력부

Claims (15)

  1. 제1 언어의 음성 신호를 입력 받는 음성 입력부;
    상기 제1 언어의 텍스트를 입력 받는 텍스트 입력부;
    상기 음성 입력부로부터 수신되는 음성 신호에서 음성 특징을 추출하거나 상기 텍스트 입력부로부터 수신되는 텍스트의 각 단어에 대한 유사도를 측정하여 번역하고자 하는 제1 언어의 문장을 인식하는 문장 인식부;
    인식된 상기 제1 언어의 문장을 제2 언어의 문장으로 번역하는 번역부;
    번역된 상기 제2 언어의 문장에 대한 발성음을 음성으로 출력하는 음성 출력부; 및
    번역된 상기 제2 언어의 문장에 대한 발성음을 상기 제1 언어로 표기한 텍스트로 변환하여 출력하는 텍스트 출력부;
    를 포함하는 것을 특징으로 하는 자동 번역 및 통역 장치.
  2. 제 1항에 있어서,
    상기 문장 인식부는,
    상기 음성 입력부로부터 음성 신호를 수신 받는 음성 신호 수신부;
    수신된 상기 음성 신호로부터 음성 구간 및 비 음성 구간을 분리하는 음성 구간 분리부;
    상기 음성 구간에서 상기 음성 특징을 추출하는 음성 특징 추출부;
    상기 텍스트 입력부로부터 수신되는 텍스트 데이터의 각 단어에 대한 유사도를 측정하여, 최대 유사도를 가지는 대역 단어를 추출하는 유사도 측정부; 및
    음성 DB 또는 단어 DB를 기반으로 구축된 음향 모델, 발음사전 및 언어 모델을 토대로 하는 문장 인식 모듈을 이용하여 상기 음성 특징 또는 대역 단어를 상기 제1 언어의 문장으로 추출하여 출력하는 문장 추출부;
    를 포함하는 것을 특징으로 하는 자동 번역 및 통역 장치.
  3. 제 2항에 있어서,
    상기 유사도 측정부는,
    대역 단어 DB에 저장된 단어와 입력된 텍스트의 각 단어를 비교하는 비교부;
    비교 결과에 따라 일치하는 음소의 수를 입력된 텍스트의 각 단어의 음소의 수로 나누어 유사도를 산출하는 제1 산출부;
    비교 결과에 따라 일치하는 음소의 수를 상기 대역 단어 DB에 저장된 단어의 음소의 수로 나누어 유사도를 산출하는 제2 산출부;
    상기 제1 산출부 및 제2 산출부에서 산출된 값 중 최소 산출 값을 상기 텍스트의 각 단어의 음소의 수와 상기 대역 단어 DB에 저장된 단어의 음소의 수의 평균값으로 나누어 유사도를 산출하는 제3 산출부; 및
    상기 대역 단어 DB에서 상기 제1 산출부, 제2 산출부 및 제3 산출부에서 산출된 값과 유사한 최대 유사도를 가지는 대역 단어를 추출하는 대역 단어 추출부;
    를 포함하는 것을 특징으로 하는 자동 번역 및 통역 장치.
  4. 제 3항에 있어서,
    상기 대역 단어 DB는 상기 제1 언어의 단어를 상기 제2 언어의 단어로 또는 상기 제2 언어의 단어를 상기 제1 언어의 단어로 대역되는 대역 단어가 저장되어 있는 것을 특징으로 하는 자동 번역 및 통역 장치.
  5. 제 1항에 있어서,
    상기 텍스트 출력부는, 상기 제1 언어가 영어이고 상기 제 2 언어가 한국어인 경우에 번역된 상기 제2 언어의 문장에 대한 발성음을 로마자로 표기한 텍스트로 변환하여 출력하는 한영 텍스트 출력부를 포함하는 것을 특징으로 하는 자동 번역 및 통역 장치.
  6. 제 5항에 있어서,
    상기 한영 텍스트 출력부는,
    번역된 상기 제2 언어의 문장에서 특수기호를 제거하는 전처리를 수행하는 제1 전처리부;
    미리 구축된 발음변환 DB를 통해 상기 제2 언어의 문장에 대한 발성음을 제1 언어의 발성음으로 변환하는 발성음 변환부;
    미리 구축된 한영 대역 단어 DB를 통해 상기 제2 언어의 문장을 띄어쓰기 단위로 단어 별로 분리하는 제1 문장 분리부;
    미리 구축된 한영 대역 단어 DB를 통해 분리된 단어의 음절 및 음소를 분리하는 단어 분리부;
    미리 구축된 음소단위 로마자 DB를 통해 변환된 발성음을 음소별 로마자 텍스트로 표기하는 제1 표기부; 및
    상기 로마자 텍스트의 음소들을 음절 및 단어로 결합하여 출력하는 제1 결합부;
    를 포함하는 것을 특징으로 하는 자동 번역 및 통역 장치.
  7. 제 1항에 있어서,
    상기 텍스트 출력부는, 상기 제1 언어가 한국어이고 상기 제 2 언어가 영어인 경우에 번역된 상기 제2 언어의 문장에 대한 발성음을 한국어로 표기한 텍스트로 변환하여 출력하는 영한 텍스트 출력부를 포함하는 것을 특징으로 하는 자동 번역 및 통역 장치.
  8. 제 7항에 있어서,
    상기 영한 텍스트 출력부는,
    번역된 상기 제2 언어의 문장에 대해 특수기호를 제거하는 전처리를 수행하는 제2 전처리부;
    미리 구축된 영한 대역 단어 DB를 통해 번역된 상기 제2 언어의 문장을 띄어쓰기 단위로 단어를 분리하는 제2 문장 분리부;
    분리된 단어의 발성음을 한국어 텍스트로 표기하는 제2 표기부; 및
    상기 한국어 텍스트의 단어를 문장으로 결합하여 출력하는 제2 결합부;
    를 포함하는 것을 특징으로 하는 자동 번역 및 통역 장치.
  9. 음성 입력부에 의해, 제1 언어의 음성 신호를 입력 받는 단계;
    텍스트 입력부에 의해, 상기 제1 언어의 텍스트를 입력 받는 텍스트 입력부;
    문장 인식부에 의해, 상기 음성 입력부로부터 수신되는 음성 신호에서 음성 특징을 추출하거나 상기 텍스트 입력부로부터 수신되는 텍스트의 각 단어에 대한 유사도를 측정하여 번역하고자 하는 상기 제1 언어의 문장을 인식하는 단계;
    번역부에 의해, 인식된 상기 제1 언어의 문장을 제2 언어의 문장으로 번역하는 단계;
    음성 출력부에 의해, 번역된 상기 제2 언어의 문장에 대한 발성음을 음성으로 출력하는 단계: 및
    텍스트 출력부에 의해, 번역된 상기 제2 언어의 문장에 대한 발성음을 상기 제1 언어로 표기한 텍스트로 변환하여 출력하는 단계;
    를 포함하는 것을 특징으로 하는 자동 번역 및 통역 방법.
  10. 제 9항에 있어서,
    상기 음성 입력부로부터 수신되는 음성 신호에서 음성 특징을 추출하거나 상기 텍스트 입력부로부터 수신되는 텍스트의 각 단어에 대한 유사도를 측정하여 번역하고자 하는 제1 언어의 문장을 인식하는 단계에서,
    상기 음성 입력부로부터 음성 신호를 수신 받는 단계;
    수신된 상기 음성 신호로부터 음성 구간 및 비 음성 구간을 분리하는 단계;
    상기 음성 구간에서 상기 음성 특징을 추출하는 단계;
    상기 텍스트 입력부로부터 수신되는 텍스트 데이터의 각 단어에 대한 유사도를 측정하여, 최대 유사도를 가지는 대역 단어를 추출하는 단계; 및
    미리 구축된 음성 DB 또는 단어 DB를 기반으로 구축된 음향 모델, 발음사전 및 언어 모델을 토대로 하는 문장 인식 모듈을 이용하여 상기 음성 특징 또는 상기 대역 단어를 토대로 상기 제1 언어의 문장으로 추출하여 출력하는 단계;
    를 포함하는 것을 특징으로 하는 자동 번역 및 통역 방법.
  11. 제 10항에 있어서,
    상기 텍스트 입력부로부터 수신되는 텍스트 데이터의 각 단어에 대한 유사도를 측정하여, 최대 유사도를 가지는 대역 단어를 추출하는 단계는,
    미리 구축된 대역 단어 DB에 저장된 단어와 입력된 텍스트의 각 단어를 비교하는 단계;
    비교 결과에 따라 일치하는 음소의 수를 입력된 텍스트의 각 단어의 음소의 수로 나누어 유사도를 산출하는 단계;
    비교 결과에 따라 일치하는 음소의 수를 상기 대역 단어 DB에 저장된 단어의 음소의 수로 나누어 유사도를 산출하는 단계;
    상기 제1 산출부 및 제2 산출부에서 산출된 값 중 최소 산출 값을 상기 텍스트의 각 단어의 음소의 수와 상기 대역 단어 DB에 저장된 단어의 음소의 수의 평균값으로 나누어 유사도를 산출하는 단계; 및
    상기 대역 단어 DB에서 상기 제1 산출부, 제2 산출부 및 제3 산출부에서 산출된 값과 유사한 최대 유사도를 가지는 상기 대역 단어를 추출하는 단계;
    를 포함하는 것을 특징으로 하는 자동 번역 및 통역 방법.
  12. 제 9항에 있어서,
    번역된 제2 언어의 문장에 대한 발성음을 제1 언어로 표기한 텍스트로 변환하여 출력하는 단계에서,
    상기 제1 언어가 영어이고 상기 제 2 언어가 한국어인 경우에 번역된 상기 제2 언어의 문장에 대한 발성음을 로마자로 표기한 텍스트로 변환하여 출력하는 단계;를 포함하는 것을 특징으로 하는 자동 번역 및 통역 방법.
  13. 제 12항에 있어서,
    상기 제1 언어가 영어이고 상기 언어가 한국어인 경우에 번역된 상기 언어의 문장에 대한 발성음을 로마자로 표기한 텍스트로 변환하여 출력하는 단계는,
    번역된 상기 언어의 문장에서 특수기호를 제거하는 전처리를 수행하는 단계;
    미리 구축된 발음변환 DB를 통해 상기 제2 언어의 문장에 대한 발성음을 제1 언어의 발성음으로 변환하는 단계;
    번역된 상기 제2 언어의 문장을 띄어쓰기 단위로 단어 별로 분리하는 단계;
    분리된 단어의 음절 및 음소를 분리하는 단계;
    미리 구축된 음소단위 로마자 대역 DB를 통해 변환된 발성음을 음소별 로마자 텍스트로 표기하는 단계; 및
    상기 로마자 텍스트로 표기한 음소를 음절 및 단어로 결합하여 출력하는 단계;
    를 포함하는 것을 특징으로 하는 자동 번역 및 통역 방법.
  14. 제 9항에 있어서,
    번역된 상기 제2 언어의 문장에 대한 발성음을 상기 제1 언어로 표기한 텍스트로 변환하여 출력하는 단계에서,
    상기 제1 언어가 한국어이고 상기 제 2 언어가 영어인 경우에 번역된 상기 제2 언어의 문장에 대한 발성음을 한국어로 표기한 텍스트로 변환하여 출력하는 단계;를 포함하는 것을 특징으로 하는 자동 번역 및 통역 방법.
  15. 제 14항에 있어서,
    상기 제1 언어가 한국어이고 상기 제 2 언어가 영어인 경우에 번역된 상기 제2 언어의 문장에 대한 발성음을 한국어로 표기한 텍스트로 변환하여 출력하는 단계는,
    번역된 상기 제2 언어의 문장에 대해 특수기호를 제거하는 전처리를 수행하는 단계;
    번역된 상기 제2 언어의 문장을 띄어쓰기 단위로 단어를 분리하는 단계;
    분리된 단어의 발성음을 한국어 텍스트로 표기하는 단계; 및
    상기 한국어 텍스트로 표기한 단어를 문장으로 결합하여 출력하는 단계;
    를 포함하는 것을 특징으로 하는 자동 번역 및 통역 방법.
KR1020130037936A 2013-04-08 2013-04-08 자동 번역 및 통역 장치 및 그 방법 KR20140121580A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130037936A KR20140121580A (ko) 2013-04-08 2013-04-08 자동 번역 및 통역 장치 및 그 방법
US14/161,593 US9292499B2 (en) 2013-04-08 2014-01-22 Automatic translation and interpretation apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130037936A KR20140121580A (ko) 2013-04-08 2013-04-08 자동 번역 및 통역 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20140121580A true KR20140121580A (ko) 2014-10-16

Family

ID=51655079

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130037936A KR20140121580A (ko) 2013-04-08 2013-04-08 자동 번역 및 통역 장치 및 그 방법

Country Status (2)

Country Link
US (1) US9292499B2 (ko)
KR (1) KR20140121580A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180060903A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
KR20190040891A (ko) * 2017-10-11 2019-04-19 주식회사 산타 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법
KR20190040890A (ko) * 2018-08-24 2019-04-19 주식회사 산타 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템
WO2020009261A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6090757B2 (ja) * 2015-04-14 2017-03-08 シントレーディング株式会社 通訳配信装置、通訳配信方法、およびプログラム
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US10366173B2 (en) 2016-09-09 2019-07-30 Electronics And Telecommunications Research Institute Device and method of simultaneous interpretation based on real-time extraction of interpretation unit
US10431216B1 (en) * 2016-12-29 2019-10-01 Amazon Technologies, Inc. Enhanced graphical user interface for voice communications
US11582174B1 (en) 2017-02-24 2023-02-14 Amazon Technologies, Inc. Messaging content data storage
CN107170453B (zh) 2017-05-18 2020-11-03 百度在线网络技术(北京)有限公司 基于人工智能的跨语种语音转录方法、设备及可读介质
JP7230804B2 (ja) * 2017-08-01 2023-03-01 ソニーグループ株式会社 情報処理装置、及び情報処理方法
US10713441B2 (en) * 2018-03-23 2020-07-14 Servicenow, Inc. Hybrid learning system for natural language intent extraction from a dialog utterance
US11520992B2 (en) 2018-03-23 2022-12-06 Servicenow, Inc. Hybrid learning system for natural language understanding
CN108986793A (zh) * 2018-09-28 2018-12-11 北京百度网讯科技有限公司 翻译处理方法、装置及设备
US20220027397A1 (en) * 2018-10-16 2022-01-27 Shimadzu Corporation Case search method
CN109830229A (zh) * 2018-12-11 2019-05-31 平安科技(深圳)有限公司 音频语料智能清洗方法、装置、存储介质和计算机设备
CN110008468B (zh) * 2019-03-04 2023-08-01 广州虎牙信息科技有限公司 语言系统管理方法、信息转换方法、服务器以及存储介质
US11487945B2 (en) 2019-07-02 2022-11-01 Servicenow, Inc. Predictive similarity scoring subsystem in a natural language understanding (NLU) framework
US11468238B2 (en) 2019-11-06 2022-10-11 ServiceNow Inc. Data processing systems and methods
US11455357B2 (en) 2019-11-06 2022-09-27 Servicenow, Inc. Data processing systems and methods
US11481417B2 (en) 2019-11-06 2022-10-25 Servicenow, Inc. Generation and utilization of vector indexes for data processing systems and methods
US11429795B2 (en) * 2020-01-13 2022-08-30 International Business Machines Corporation Machine translation integrated with user analysis
CN111652005B (zh) * 2020-05-27 2023-04-25 沙塔尔江·吾甫尔 汉语与乌尔都语同步互译系统及方法
CN112818707B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 基于逆向文本共识的多翻引擎协作语音翻译系统与方法
CN112818706B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 基于逆向结果稳定性的语音翻译实时争端记录系统与方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100238189B1 (ko) * 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
JP2002288167A (ja) 2001-01-18 2002-10-04 Kodensha Co Ltd 翻訳システム
KR20040015638A (ko) 2002-08-13 2004-02-19 엘지전자 주식회사 외국어 자동 통역 전화기
TWI281145B (en) * 2004-12-10 2007-05-11 Delta Electronics Inc System and method for transforming text to speech
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
JP2009048003A (ja) * 2007-08-21 2009-03-05 Toshiba Corp 音声翻訳装置及び方法
JP2009186820A (ja) * 2008-02-07 2009-08-20 Hitachi Ltd 音声処理システム、音声処理プログラム及び音声処理方法
KR20100068965A (ko) 2008-12-15 2010-06-24 한국전자통신연구원 자동 통역 장치 및 그 방법
KR20120044205A (ko) 2010-10-27 2012-05-07 안재홍 맞춤법 검사 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180060903A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
KR20190040891A (ko) * 2017-10-11 2019-04-19 주식회사 산타 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법
WO2020009261A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법
KR20190040890A (ko) * 2018-08-24 2019-04-19 주식회사 산타 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템

Also Published As

Publication number Publication date
US20140303957A1 (en) 2014-10-09
US9292499B2 (en) 2016-03-22

Similar Documents

Publication Publication Date Title
KR20140121580A (ko) 자동 번역 및 통역 장치 및 그 방법
CN108447486B (zh) 一种语音翻译方法及装置
US10108606B2 (en) Automatic interpretation system and method for generating synthetic sound having characteristics similar to those of original speaker's voice
RU2466468C1 (ru) Система и способ распознавания речи
JP2008077601A (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
KR20150105075A (ko) 자동 통역 장치 및 방법
Masmoudi et al. Phonetic tool for the Tunisian Arabic
TWI467566B (zh) 多語言語音合成方法
JP6397641B2 (ja) 自動通訳装置及び方法
KR20180025559A (ko) 발음 사전 학습 방법 및 장치
US11817079B1 (en) GAN-based speech synthesis model and training method
Kruse et al. Alinha-pb: A phonetic aligner for brazilian portuguese
Cahyaningtyas et al. Development of under-resourced Bahasa Indonesia speech corpus
Labied et al. Moroccan dialect “Darija” automatic speech recognition: a survey
KR101765154B1 (ko) 음성을 사이버 수화로 제공하는 방법
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
KR20130067854A (ko) 코퍼스 기반 언어모델 변별학습 방법 및 그 장치
KR101553469B1 (ko) 다언어 어휘 음성 인식 장치 및 방법
Arafat et al. Speech synthesis for bangla text to speech conversion
Biczysko Automatic Annotation of Speech: Exploring Boundaries within Forced Alignment for Swedish and Norwegian
Jain et al. IE-CPS Lexicon: An automatic speech recognition oriented Indian-English pronunciation dictionary
Ahmed et al. Non-native accent pronunciation modeling in automatic speech recognition
Igras et al. Length of phonemes in a context of their positions in polish sentences
Hosn et al. New resources for brazilian portuguese: Results for grapheme-to-phoneme and phone classification

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid