KR102564008B1

KR102564008B1 - 실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법

Info

Publication number: KR102564008B1
Application number: KR1020170115412A
Authority: KR
Inventors: 김창현; 김영길; 이윤근
Original assignee: 현대자동차주식회사; 기아 주식회사
Priority date: 2016-09-09
Filing date: 2017-09-08
Publication date: 2023-08-07
Also published as: KR20180028980A

Abstract

본 발명은 실시간 통역단위문 추출에 기반한 동시통역 장치에 관한 것으로, 입력되는 실시간 음성 발화문에서 문장 또는 번역 단위로 음성단위문을 인식하는 음성인식 모듈; 적어도 하나 이상의 음성단위문을 통역단위문으로 구성하는 실시간 통역단위 추출 모듈; 및 실시간 통역단위 추출 모듈을 통해 구성된 통역단위문 단위로 통역 작업을 수행하는 실시간 통역모듈;을 포함하여 이루어진 것을 특징으로 한다.

Description

실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법{Device and Method of real-time Speech Translation based on the extraction of translation unit}

본 발명은 실시간 연속 발화가 발생하는 상황에서 실시간 연속 발화에 대해 자동통역의 결과를 실시간으로 제공하는 장치 및 방법에 관한 것으로서, 보다 구체적으로는 실시간 발화의 특성으로 인해, 정상적인 발화문, 정상적인 발화문이나 상당히 길게 발화되는 문장, 문장 단위로 보면 정상이나 올바르게 번역되기에는 상당히 짧게 발화되는 문장들의 연속이거나, 정상적인 문장이 아닌 파편화된 문장의 일부인 경우에 대해서도 실시간 자동 통역의 결과를 제공할 수 있는 실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법에 관한 것이다.

현재 출시되는 자동번역 및 자동통역 장치들은 대부분 통번역 단위로 문장을 가정하고 있기 때문에 입력 발화의 기본 단위가 문장이다.

경우에 따라 여러 문장이 입력으로 들어오는 경우에는 간단한 문장 분절 규칙에 따라 문장 단위로 분리를 한 후 문장 단위로 번역을 수행하게 된다.

따라서, 종래 장치들의 번역은 문장 단위로 정확한 번역 결과를 충실하게 제공하는 것을 목표로 하고 있으며, 해당 문장 단위로의 충실한 자동 번역은 대부분의 경우 해당 문장만을 대상으로 분석 및 대역문을 잘 생성함으로써 충실한 번역문을 만들 수 있다.

더구나, 이러한 문장 단위를 대상으로 하는 자동 통번역의 경우, 자동 통번역을 사용하는 사용자들은 자동 통번역 환경을 인지하고 있는 상황이라, 자동 통번역에 적합한 발화를 하게 되며, 자동 통번역 장치를 통한 의사전달을 하므로 발화의 단위가 문장 단위로 이어지게 된다.

그러나, 전화 통화, 강연 발표 등 실시간 연속 발화를 대상으로 자동 통번역을 수행하고자 할 경우에는, 입력 단위가 입력문자열 단위라는 기존의 가정이 성립되지 않는 경우가 빈번히 발생한다.

앞에서 언급한 기존의 자동 통번역의 경우, 문자 입력의 완결을 위해 완결 버튼이나 포즈(Pause) 정보를 이용하게 되며, 완결 버튼이나 일정 길이 이상의 포즈가 발생하는 경우, 문장 입력 또는 발화가 완결된 것으로 간주되고, 해당 발화 혹은 입력문자열은 번역 문장으로 간주된다.

그러나, 실시간 발화를 대상으로 통번역을 수행할 경우, 완결버튼을 사용할 수가 없으며, 문장 단위를 판별하는 기준으로는 음성적 특징인 포즈를 사용하게 된다.

이와 같이 번역 단위를 판별하는 기준으로 포즈를 사용할 경우, 해당 발화 자체가 문장 단위가 아닌 경우가 많다. 예를 들어, 여러 문장으로 구성된 상당히 긴 발화가 한번의 호흡으로 발화되거나, 하나의 문장이 여러 호흡으로 발화되거나, 문장으로 완결되지 않은 발화이거나, 의미 없는 간투사 등이 빈번하게 발생하는 경우, 이러한 특성으로 인해 기존의 문장 단위의 자동번역 방법론으로는 올바른 번역 결과를 생성할 수 없게 되는 문제점이 있다.

본 발명은 전술한 바와 같은 기술적 배경에서 안출된 것으로서, 본 발명의 목적은 발화자의 연속 발화를 포즈에 기반하여 입력 단위로 사용하지 않고, 실시간 발화의 특성을 고려하여 포즈 단위로 구분되는 사용자의 발화들에 대해, 문장 단위가 아닌 발화의 파악, 여러 포즈에 걸쳐 있는 발화의 문장단위로의 결합, 여러 문장으로 구성되는 발화를 문장 단위로 분리하여 연속 발화의 올바른 통번역 결과를 제공할 수 있는 실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법을 제공하는데 있다.

또한 본 발명의 다른 목적은 문맥 관리기를 통해 하나 이상의 발화 및 번역 결과를 관리할 수 있는 실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법을 제공하는데 있다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 목적을 달성하기 위한 본 발명의 일면에 따른 실시간 통역단위 추출에 기반한 실시간 동시통역 장치는 입력되는 실시간 음성 발화문에서 문장 또는 번역 단위로 음성단위문을 인식하는 음성인식 모듈; 적어도 하나 이상의 상기 음성단위문을 통역단위문으로 구성하는 실시간 통역단위 추출 모듈; 및 상기 실시간 통역단위 추출 모듈을 통해 구성된 통역단위문 단위로 통역 작업을 수행하는 실시간 통역모듈;을 포함하는 것을 특징으로 한다.

본 발명의 다른 일면에 따른 실시간 통역단위문 추출에 기반한 동시통역 방법은 음성인식 모듈이 입력되는 실시간 음성 발화문에서 문장 또는 번역 단위로 음성단위문을 인식하는 단계; 실시간 통역단위 추출 모듈이 적어도 하나 이상의 상기 음성단위문을 통역단위문으로 구성하는 단계; 및 실시간 통역모듈이 상기 실시간 통역단위 추출 모듈을 통해 구성된 통역단위문 단위로 통역 작업을 수행하는 단계;를 포함하여 이루어진 것을 특징으로 한다.

본 발명에 따르면, 본 발명의 일 실시예에 따르면, 실시간 연속 발화를 통역하기 위한 실시간 통번역 상황에서, 실시간 발화의 특성으로 인해 정상적인 발화문들 뿐만 아니라, 정상적인 발화문이지만 상당히 길게 발화되는 문장이거나, 또는 반대로 문장 단위로 보면 정상적이지만 올바로 번역되기에는 상당히 짧게 발화되는 문장들의 연속이거나, 또는 정상적인 문장이 아닌 파편화된 문장의 일부분이거나 한 경우들에 대해서도 실시간 자동 통역의 결과를 제공할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 실시간 통역단위문 추출에 기반한 동시통역 장치를 설명하기 위한 구조도.
도 2는 본 발명의 일 실시예에 채용된 실시간 통역단위 추출 모듈을 설명하기 위한 구조도.
도 3은 본 발명의 일 실시예에 채용된 단위문 분리부를 설명하기 위한 구조도.
도 4는 본 발명의 일 실시예에 채용된 실시간 통역모듈을 설명하기 위한 구성도.
도 5는 본 발명의 일 실시예에 따른 실시간 통역단위문 추출에 기반한 동시통역 방법을 설명하기 위한 순서도.
도 6은 본 발명의 일 실시예에 채용된 실시간 통역단위 추출 모듈을 설명하기 위한 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른 실시간 통역단위문 추출에 기반한 동시통역 장치를 설명하기 위한 구조도이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 실시간 통역단위문 추출에 기반한 동시통역 장치는 음성인식 모듈(100), 실시간 통역단위 추출 모듈(200), 실시간 통역모듈(300)을 포함한다.

음성인식 모듈(100)은 입력되는 실시간 음성 발화문에서 문장 또는 번역 단위로 음성단위문을 인식하는 역할을 한다. 본 발명의 일 실시예에서의 음성단위문은 실시간으로 발화에서 포즈(Pause)를 기준으로 인식되는 단위를 의미한다.

예를 들어, “채피라는 영화를 보시면은 로봇이 어린아이처럼 주변 환경과 상호 작용을 하면서 심지어는 그림책을 보면서 스스로 지식을 습득해 가지고 사람을 닮아 가는 이러한 로봇이 곧 다가올 거라고까지 예견하고 있습니다.”와 같은 실시간 발화문이 입력되면, 상기 음성인식 모듈(100)은 포즈를 기준으로 하나의 문장이 시간적인 흐름에 따라 음성단위문을 인식한다.

그 예로, 음성인식 모듈(100)은 상기 실시간 발화문을 10개의 음성단위문으로 인식하게 된다. 즉, 음성단위문은 “채피라는 영화를 보시면은”(1), “로봇이”(2), “어린아이처럼”(3), “주변 환경과”(4), “상호 작용을 하면서”(5), “심지어는 그림책을 보면서”(6), “스스로 지식을 습득해 가지고”(7), “사람을 닮아 가는 이러한 로봇이”(8), “곧”(9), “다가올 거라고까지 예견하고 있습니다.”(10)로 인식될 수 있다.

이어서, 실시간 통역단위 추출 모듈(200)은 적어도 하나 이상의 상기 음성단위문을 통역단위문으로 구성한다. 본 실시예에서의 통역단위문은 통역을 위해 구성되는 단위문이다. 즉, 종래의 자동 통번역 장치를 이용하여 음성단위문을 번역을 하게 되면 올바른 번역 결과를 얻을 수 없는 문제점이 있기 때문에 본 발명의 일 실시예에서는 음성단위문을 결합하거나 분리하여 올바른 번역 단위인 통역단위문으로 구성한다.

이후, 실시간 통역모듈(300)은 실시간 통역단위 추출 모듈(200)을 통해 구성된 통역단위문 단위로 통역 작업을 수행하게 된다.

본 발명의 일 실시예에 따르면, 실시간 연속 발화를 통역하기 위한 실시간 통번역 상황에서, 실시간 발화의 특성으로 인한 정상적인 발화문들 뿐만 아니라, 정상적인 발화문이지만 상당히 길게 발화되는 문장이거나, 또는 반대로 문장 단위로 보면 정상적이지만 올바로 번역되기에는 상당히 짧게 발화되는 문장들의 연속이거나, 또는 정상적인 문장이 아닌 파편화된 문장의 일부분이거나 한 경우들에 대해서도 실시간 자동 통역의 결과를 제공할 수 있는 효과가 있다.

도 2는 본 발명의 일 실시예에 채용된 실시간 통역단위 추출 모듈을 설명하기 위한 구조도이다. 도 2에 도시된 바와 같이, 실시간 통역단위 추출 모듈(200)은 입력버퍼관리부(210), 단위분리용 형태소분석부(220), 음성단위문 분리부(230) 및 통역단위 구성부(240)를 포함하여 이루어진다.

입력버퍼관리부(210)는 입력으로 들어오는 음성단위문과, 이전의 통역단위 추출 결과로 인해 아직까지 통역에 포함되지 못한 잔여 음성단위문을 저장 관리한다.

그리고 단위분리용 형태소분석부(220)는 입력버퍼관리부(210)에 저장된 각 음성단위문에 대한 형태소를 검출한다.

음성단위문 분리부(230)는 단위분리용 형태소분석부(220)의 형태소 분석 결과에 따라, 음성단위문을 재분리 한다.

통역단위 구성부(240)는 현재의 음성단위문과 이전의 음성단위문을 결합하여 통역단위문으로 구성한다.

예를 들어 “특이한 습성들이 있습니다 예를 들면 쥐는 달리기를 하는데, 토끼는 깡총깡총 뛴다든지”와 같이 실시간 발화가 이루어지면, 입력버퍼관리부(210)에는 “특이한 습성들이 있습니다 예를 들면 쥐는(11), 달리기를 하는데(12), 토끼는 깡총깡총 뛴다든지(13)”와 같이 음성단위문(11, 12, 13)이 저장될 수 있다.

이렇게 저장된 음성단위문은 단위분리용 형태소분석부(220)에 의해 각 음성단위문에 대한 형태소가 분석된다. 하기에서는 “특이한 습성들이 있습니다 예를 들면 쥐는”(11)와 같은 음성 단위문을 예로 들어 설명한다.

음성단위문 분리부(230)는 상기 단위분리용 형태소분석부(220)의 분석에 따라 자립형태소인 형용사와 의존형태소인 종결어미가 나타나 있다고 판단되면, 해당 위치를 통역단위 분리위치로 판단할 수 있으며, 음성단위문인 “특이한 습성들이 있습니다 예를 들면 쥐는”(11)을 “특이한 습성들이 있습니다(11-1)”와 “예를 들면 쥐는”(11-2)의 통역단위문으로 분리할 수 있다.

이후, 통역단위 구성부(240)는 음성단위문 분리부(230)를 통해 분리된 “특이한 습성들이 있습니다”(11-1)의 경우, 자립형태소인 형용사와 의존형태소인 종결어미가 검출됨에 따라 이전에 번역되지 않고 입력버퍼관리부(210)에 저장된 음성단위문과 결합시켜 번역을 수행하게 된다. 그리고, 통역단위 구성부(240)는 통역 진행 여부를 입력버퍼 관리부가 판단할 수 있도록, 통역단위 정보를 입력버퍼관리부(210)에 제공한다.

그리고, 음성단위문인 “예를 들면 쥐는”(11-2)은 입력버퍼관리부(210)에 저장되어 있다가 다음 음성단위문인 “달리기를 하는데”(12)와 결합되어 “예를 들면 쥐는 달리기를 하는데”와 같이 통역단위문 형태로 구성된다.

이러한, 본 발명의 일 실시예에 채용된 단위문 분리부(230)는, 도 3에 도시된 바와 같이, 어휘특성(231), 형태소특성(232), 음향특성(233) 및 시간특성(234)을 기준으로, 입력버퍼관리부(210)에 저장된 현재의 음성단위문을 재분리한다.

여기서, 상기 어휘특성(231)은, 각 언어별 문장의 시작 부분이라 판단할 수 있는 단어의 포함 여부이다. 즉, 음성단위문 내에 어휘특성(231)을 갖는 단어가 포함되어 있는지를 판단하는 것이다. 예를 들어, 상기 음성단위문인 “예를 들면 쥐는”(11-2)에는 어휘 특성을 갖는 단어 “예를 들면”이 포함되어 있다.

따라서, 어휘특성(231)을 갖는 단어 앞 또는 뒤에 분리될 수 있는 음성단위문이 있을 경우, 음성단위문 분리부(230)는 어휘특성(231)을 갖는 단어를 기준으로 음성단위문을 분리하고, 통역단위 구성부(240)는 어휘특성(231)을 갖는 음성단위문을 기준으로 통역단위문을 구성한다.

이와 같이, 본 발명의 일 실시예에서 어휘특성(231)을 통해 음성단위문을 분리하거나 통역단위문을 구성할 경우, 커버리지는 높지 않을 수 있으나 정확성 면에서는 만족할만한 결과를 얻을 수 있는 효과가 있다.

또한, 형태소특성(232)은, 음성단위문에 대해 형태소 정보이다. 음성단위문 분리부(230)에서 이용되는 형태소 분석은 입력 단위가 통역단위문이 아닌 경우에도 올바른 형태소 분석을 해야 하기 때문에, 학습기반의 형태소 분석의 경우, 문장 단위가 아닌 학습 문장을 포함하여 학습하게 되며, 이로 인해 단위분리에 더 적합한 분석 결과를 생성할 수 있다.

본 발명의 다른 실시예로, “로봇이(21)-로봇/명사+이/조사, 어린아이처럼(22)-어린아이/명사+처럼/조사, 주변 환경과(23)-주변/명사 환경/명사+과/조사, 상호 작용을 하면서(24)-상호/명사 작용/명사+을/조사 하/동사+면서/연결어미”와 같은 음성단위문에 대하여 형태소를 분석한다. 이러한 형태소 분석 결과 음성단위문인(21 내지 23)까지는 통역문 단위의 경계를 판단할 수 있는 형태소인 용언(동사, 형용사)이나 종결어미 형태소가 검출되지 않기 때문에 통역단위문으로 결정할 수 없다. 그러나 음성단위문(24)에서는 동사에 해당하는 형태소가 검출됨에 따라 음성단위문(21) ~ 음성단위문(24)를 통역단위문으로 결정한다.

여기서, 음성단위문(21, 22, 23)은 용언이 없으므로 현재까지는 형태소 특성 기준으로 단독으로 문장을 구성할 수 없고, 시간적으로나 음향 특성적으로도 번역단위 생성이 필요한 상황이 아니므로 단위가 될 수 없다.

따라서, 음성단위문(21, 22, 23)은 뒤이어 입력되는 음성단위문(24)를 살펴본 후에 통역단위문으로 구성될지 여부가 판단된다. 음성단위문(24)는 동사를 포함하고 있으므로 문장으로 구성될 수 있기 때문에 통역단위 구성부(240)는 이전 통역단위문으로 구성되지 못하고 입력버퍼관리부(210)에 저장중인 음성단위문(21, 22, 23)을 음성단위문(24)과 결합시켜, “로봇이 어린아이처럼 주변 환경과 상호 작용을 하면서”와 같이 통역단위문으로 구성한다.

본 발명의 다른 실시예로, “특이한 습성들이 있습니다 예를 들면 쥐는”(11) 이 음성단위문으로 입력버퍼관리부(210)에 저장될 수 있다.

이렇게 입력버퍼관리부(210)에 저장된 음성단위문(11)인 “특이한 습성들이 있습니다 쥐는”(11)은, “있/형용사+습니다/종결어미”, “쥐/명사+는/조사”와 같이 통역단위문으로 분리할 수 있는 형태소 특성을 포함하고 있습니다. 따라서, 종결어미의 형태소 특성을 갖는 “특이한 습성들이 있습니다”(11-1)는 통역단위문으로 결정되고, “예를 들면 쥐는”(11-2)은 향후 저장될 음성단위문과 함께 통역단위문으로 구성될지의 여부를 판단하게 된다.

본 발명의 또 다른 실시예로, “그래서 저희가 뽀로로 영화 여러분 뽀로로 아시나요”와 같은 실시간 발화문을 살펴보면, 상기의 실시간 발화문은 “그래서 저희가”(31), “뽀로로 영화”(32), “여러분 뽀로로 아시나요”(33)와 같은 음성단위문으로 구성된다.

상기 음성단위문(31 내지 33)으로 이루어진 발화문에 대하여 형태소 특성 만을 반영하여 음성단위문 분리를 수행하면, 음성단위문(31, 32)는 용언이 발생하지 않으므로, 다음 음성단위문(33)을 살펴본 후 통역단위문의 구성 여부를 판단하게 된다. 즉, 음성단위문(33)에는 “알다”라는 용언이 포함되어 있음을 형태소 분석을 통해 알 수 있다.

이와 같은 본 발명의 또 다른 실시예에 따르면, 다른 실시예에서와 유사하게, 음성단위문(31, 32, 33)이 하나의 통역단위문으로 구성될 수 있을 것이다.

그러나, 형태소 특성만으로 통역단위문을 구성하게 될 경우, 잘못된 통역이 이루어질 수 있다.

즉, 음성단위문(31, 32, 33) 중 음성단위문(33)에는 “여러분”과 같이 어휘특성(233) 정보가 포함되어 있기 때문에, 단독으로 통역단위문으로 구성되는 것이 바람직하다. 따라서, 음성단위문(31), 음성단위문(32) 및 음성단위문(33)은 각각의 통역단위문으로 구성되는 것이 바람직하다.

본 발명의 또 다른 실시예에서 적용된 음향특성(233)은, Pause 정보 및 운율(Prosody)과 강세 정보를 포함하는 것이 바람직하다. 예를 들어, pause 정보의 경우, 그 길이에 따라 pause의 유/무가 아니라 여러 단계, 예를 들어 10단계로 나누어 발화자가 얼마나 길게 pause를 가지는지를 확인함으로써, 해당 발화에 대해 발화자가 어떤 의도를 가지는지를 판단할 수도 있다. Pause뿐만 아니라 prosody나 강세 정보도 중요한 단서가 된다.

그 뿐만 아니라, 시간특성은 실시간 자동통역의 기본 원칙 가운데 하나이기 때문에, 실시간성을 확보하기 위해 번역단위 판단에 시간을 고려해야 하는 것이 바람직하다.

만약, 음성단위문이 통역단위문으로 판단할 수 없는 입력이라 할지라도, 일정 시간 이내에 추가적인 입력이 들어오지 않게 되거나 혹은 일정시간 이내에서 통역단위문 판단이 어려울 경우, 시간 요소를 우선하여 기존의 입력 음성단위문에 대해 통역단위문으로 판단하고 이후 자동번역을 수행하는 것이 바람직하다.

한편, 통역단위문 추출은 규칙 기반 방법론과 기계학습 방법론으로 구축이 되며, 이들의 하이브리딩을 통해 최종적인 번역단위가 결정될 수 있다. 여기서, 규칙 기반 방법론은 주로 어휘 및 형태소 특성에 기반하여 결정을 내리게 되며, 기계학습 방법론은 어휘, 형태소 및 음향특성에 포함된 통역단위 분리 코퍼스를 이용하여 학습을 하게 된다. 이때의 기계학습 방법론은 특정 방법론을 제한하지 않으며, CRF, SVM, DNN 등의 모든 방법론이 가능하다. 그리고, 시간을 고려한 번역단위 결정은 시스템에서 주어지는 시간을 기준으로 결정을 하게 된다.

도 4는 본 발명의 일 실시예에 채용된 실시간 통역모듈을 설명하기 위한 구성도이다. 도 4에 도시된 바와 같이, 본 발명의 일 실시예에 채용된 실시간 통역모듈(300)은 형태소분석, 구문분석, 변환, 생성 모듈을 기반으로 하는 모듈 기반 방법과 SMT, DNN 등을 이용한 기계학습 방법을 연동하여 번역하는 것이 바람직하다.

이에, 실시간 통역단위 추출 모듈(200)을 통해 추출된 통역단위문은 실시간 통역모듈(300)의 모듈 기반 번역 방법과 기계학습 번역 방법을 수행하는 장치에서 각각 번역된다.

예를 들어, 종래 통번역의 경우, “인공지능은 사람처럼 생각하고, 행동하는 기계를 만들려는 시도였구요”와 같은 통역단위문이 입력되면, “인공 지능은”(41) => Artificial intelligence, “사람처럼 생각하고”(42) => thinks like humans and, “행동하는 기계를 만들려는 시도였구요”(43) => it is an attempt to make an acting machine으로 번역된다.

그러나, 이러한 종래 통번역은 발화자의 의도를 정확하게 반영하지 못하고 있으며, 위의 세 번역 단위를 하나의 문장으로 조합하여야만 올바른 번역 결과를 생성할 수 있다.

이에 반해, 본 발명은 “인공 지능은”(41), “사람처럼 생각하고”(42), “행동하는 기계를 만들려는 시도였구요”(43)”와 같은 음성단위문이 입력되면, 각 음성단위문(41, 42, 43)을 “인공지능은 사람처럼 생각하고 행동하는 기계를 만들려는 시도였군요”와 같은 통역단위문으로 구성한다.

이에, “인공지능은 사람처럼 생각하고 행동하는 기계를 만들려는 시도였군요”와 같은 통역단위문은 “Artificial intelligence is an attempt to make a machine which thinks and acts like humans”과 같이 발화자의 의도를 반영한 번역이 가능해지는 효과가 있다.

이러한, 최종 번역된 결과는 음성 및 화면으로 출력이 가능하며, 음성 출력의 경우 추후 수정이 불가능하나, 화면 출력의 경우 추후 번역결과의 수정이 가능하다.

한편, 본 발명의 또 다른 실시예에서는, 이전까지의 모든 통역단위문, 그 통역단위문에 대한 형태소/구문 분석 및 생성 결과와 번역결과를 저장하는 문맥관리모듈;을 더 포함할 수 있다.

이와 같이, 본 발명의 또 다른 실시예에 채용된 문맥관리모듈에 따르면, 문맥을 통해 기존의 번역 결과에 대한 후 수정을 하는 것 이외에도, 각 모듈별로도 문맥을 이용해 기존의 오류를 수정하여 올바른 결과를 생성해 낼 수 있는 장점이 있다.

예를 들어 설명하면, “대전에서 사신 분 손들어보세요?”의 경우, “사신”은 “사다” 또는 “살다”와 같이 중의적인 의미로 해석된다.

그러나, 문맥관리모듈에 따르면, 다음에 등장하는 통역단위문인 “지금도 대전에 살고 계시는 분 손들어보세요?”에도 “… 살/동사+고/어미 …”로 이루어진 바와 같이 “살고”즉, “살다”는 의미를 가지는 단어로부터 문맥을 파악하여 이전의 “사신”을 “살다”로 번역할 수 있다.

이와 같이, 본 발명의 또 다른 실시예에 따르면, 뒷부분의 문장을 이용해 이전 문장에서 발생했던 번역 오류를 수정할 수 있는 장점이 있다.

이하, 하기에서는 본 발명의 일 실시예에 따른 실시간 통역단위문 추출에 기반한 동시통역 방법에 대하여 도 5를 참조하여 설명하기로 한다.

먼저, 음성인식 모듈(100)이 입력되는 실시간 음성 발화문에서 문장 또는 번역 단위로 음성단위문을 인식한다(S100). 본 발명의 일 실시예에서는 포즈(Pause)를 기준으로 음성단위문을 인식한다.

예를 들어, “채피라는 영화를 보시면은 로봇이 어린아이처럼 주변 환경과 상호 작용을 하면서 심지어는 그림책을 보면서 스스로 지식을 습득해 가지고 사람을 닮아 가는 이러한 로봇이 곧 다가올 거라고까지 예견하고 있습니다.”와 같은 실시간 음성이 입력되면, 상기 음성인식 모듈(100)은 포즈를 기준으로 하나의 문장이 시간적인 흐름에 따라 포즈를 가지고 발화되면서 음성단위문을 인식한다.

예를 들어, 음성인식 모듈(100)은 10개의 음성단위문을 인식하게 된다.

즉, 음성단위문은 “채피라는 영화를 보시면은”(1), “로봇이”(2), “어린아이처럼”(3), “주변 환경과”(4), “상호 작용을 하면서”(5), “심지어는 그림책을 보면서”(6), “스스로 지식을 습득해 가지고”(7), “사람을 닮아 가는 이러한 로봇이”(8), “곧”(9), “다가올 거라고까지 예견하고 있습니다.”(10)로 인식될 수 있다.

이어서, 실시간 통역단위 추출 모듈(200)이 적어도 하나 이상의 상기 음성단위문을 통역단위문으로 구성한다(S200). 즉, 종래의 자동 통번역 장치를 이용하여 음성단위문을 통역단위문으로 번역을 하게 되면 올바른 번역 결과를 얻을 수 없는 문제점이 있기 때문에 본 발명의 일 실시예에서는 음성단위문을 결합하거나 분리하여 올바른 번역 단위로 구성한다.

이후, 실시간 통역모듈(300)이 상기 실시간 통역단위 추출 모듈(200)을 통해 구성된 통역단위문 단위로 통역 작업을 수행한다(S300).

본 발명의 일 실시예에 따르면, 실시간 연속 발화를 통역하기 위한 실시간 통번역 상황에서, 실시간 발화의 특성으로 인해 정상적인 발화문들 뿐만 아니라, 정상적인 발화문이지만 상당히 길게 발화되는 문장이거나, 또는 반대로 문장 단위로 보면 정상적이지만 올바로 번역되기에는 상당히 짧게 발화되는 문장들의 연속이거나, 또는 정상적인 문장이 아닌 파편화된 문장의 일부분이거나 한 경우들에 대해서도 실시간 자동 통역의 결과를 제공할 수 있는 효과가 있다.

이하, 하기에서는 본 발명의 일 실시예에 채용된 음성단위문을 통역단위문으로 구성하는 단계(S200)의 세부 동작과정을 도 6을 참조하여 설명하기로 한다.

먼저, 입력버퍼관리부(210)가 입력으로 들어오는 음성단위문과, 이전의 통역단위문 추출 결과로 인해 아직까지 번역문장에 포함되지 못한 잔여 음성단위문을 저장한다(S210).

이어서, 단위분리용 형태소분석부(220)가 추출된 각 음성단위문에 대한 형태소를 검출한다(S220).

이후, 음성단위문 분리부(230)가 상기 단위분리용 형태소분석부(220)의 형태소 분석 결과에 따라, 음성단위문을 재분리한다(S230).

이어서, 통역단위 구성부(240)가 현재의 음성단위문과 이전의 음성단위문을 결합하여 통역단위문으로 구성한다(S240). 그리고, 통역단위 구성부(240)는 통역 진행 여부를 입력버퍼 관리부가 판단할 수 있도록, 통역단위 정보를 입력버퍼관리부(210)에 제공한다.

따라서, 음성단위문 분리부(230)는 상기 단위분리용 형태소분석부(220)의 분석에 따라 자립형태소인 형용사와 의존형태소인 종결어미가 나타나 있다고 판단되면 해당 위치를 통역단위 분리위치로 판단할 수 있으며, 음성단위문인 “특이한 습성들이 있습니다 예를 들면 쥐는”(11)을 “특이한 습성들이 있습니다(11-1)”와 “예를 들면 쥐는”(11-2)의 통역단위문으로 분리할 수 있다.

이후, 통역단위문으로 구성하는 단계(S240)는 음성단위문 분리부(230)를 통해 분리된 “특이한 습성들이 있습니다”(11-1)의 경우 자립형태소인 형용사와 의존형태소인 종결어미가 검출됨에 따라 이전에 번역되지 않고 입력버퍼관리부(210)에 저장된 음성단위문과 결합시켜 번역을 수행하게 된다. 그리고, 통역단위 구성부(240)는 통역 진행 여부를 입력버퍼 관리부가 판단할 수 있도록, 통역단위 정보를 입력버퍼관리부(210)에 제공한다.

한편, 본 발명의 일 실시예에 채용된 상기 통역단위문 분리를 수행하는 단계(S230)는, 어휘특성(231), 형태소특성(232), 음향특성(233) 및 시간특성(234)을 기준으로, 상기 입력버퍼관리부(210)에 저장된 음성단위문을 재분리하는 것이 바람직하다.

또한, 형태소특성(232)은, 음성단위문에 대한 형태소 정보이다. 음성단위문 분리부(230)에서 이용되는 형태소 분석은 입력 단위가 통역단위문이 아닌 경우에도 올바른 형태소 분석을 해야 하기 때문에, 학습기반의 형태소 분석의 경우, 문장 단위가 아닌 학습 문장을 포함하여 학습하게 되며, 이로 인해 단위분리에 더 적합한 분석 결과를 생성할 수 있다.

본 발명의 다른 실시예로, “로봇이(21)-로봇/명사+이/조사, 어린아이처럼(22)-어린아이/명사+처럼/조사, 주변환경과(23)-주변/명사 환경/명사+과/조사, 상호 작용을 하면서(24)-상호/명사 작용/명사+을/조사 하/동사+면서/연결어미”와 같은 음성단위문이 입력되면 해당 음성단위문의 형태소를 분석한다. 이러한 분석 결과 음성단위문인(21 내지 23)까지는 통역문 단위의 경계를 판단할 수 있는 형태소인 용언(동사,형용사)이나 종결어미 형태소가 검출되지 않고 음성단위문(24)에서 동사가 검출됨에 따라 음성단위문(21) ~ 음성단위문(24)를 통역단위문으로 결정한다.

여기서, 음성단위문(21, 22, 23)은 용언이 없으므로 현재까지는 형태소 특성 기준으로 단독으로 문장을 구성할 수 없는 상태이고, 시간적으로나 음향 특성적으로도 번역단위 생성이 필요한 상황이 아니므로 단위가 될 수 없다.

따라서, 음성단위문(21, 22, 23)은 뒤이어 입력되는 음성단위문(24)를 살펴본 후에 통역단위문으로 구성될지 여부가 판단된다. 음성단위문(24)의 경우, 동사를 포함하고 있으므로 통역단위 구성부(240)는 이전 통역단위문으로 구성되지 못하고 입력버퍼관리부(210)에 저장중인 음성단위문(21, 22, 23)을 음성단위문(24)과 결합시켜, “로봇이 어린아이처럼 주변 환경과 상호 작용을 하면서”와 같이 통역단위문으로 구성한다.

본 발명의 다른 실시예에서는, “특이한 습성들이 있습니다 예를 들면 쥐는”(11)과 같은 음성단위문을 예로 설명한다.

입력버퍼관리부(210)에 저장된 음성단위문(11)인 “특이한 습성들이 있습니다 쥐는”(11)은, “있/형용사+습니다/종결어미”, “쥐/명사+는/조사”와 같이 통역단위문으로 분리할 수 있는 형태소 특성을 포함하고 있습니다.

따라서, 종결어미의 형태소 특성을 갖는 “특이한 습성들이 있습니다”(11-1)는 통역단위문으로 구성되고, “예를 들면 쥐는”(11-2)은 향후 저장될 음성단위문과 함께 통역단위문으로 구성될지의 여부를 판단하게 된다.

본 발명의 또 다른 실시예로, “그래서 저희가 뽀로로 영화 여러분 뽀로로 아시나요”와 같은 실시간 발화문을 살펴보면, 상기의 실시간 발화문은 “그래서 저희가”(31), “뽀로로 영화”(32), “여러분 뽀로로 아시나요”(33)과 같이 음성단위문으로 분리될 수 있다.

상기 음성단위문(31 내지 33)으로 이루어진 발화문에 대하여 형태소 특성 만을 반영하여 음성단위문 분리를 수행하면, 음성단위문(31, 32)는 용언이 발생하지 않으므로, 다음 음성단위문(33)을 살펴본 후 통역단위문의 구성 여부를 판단하게 된다. 음성단위문(33)에는 “알다”라는 용언이 포함되어 있음을 형태소 분석을 통해 알 수 있다.

따라서, 본 발명의 또 다른 실시예에 따르면, 다른 실시예에서와 유사하게, 음성단위문(31, 32, 33)이 하나의 통역단위문으로 구성될 수 있을 것이다.

즉, 음성단위문(31, 32, 33) 중 음성단위문(33)에는 “여러분”과 같이 어휘특성(233) 정보가 포함되어 있기 때문에, 단독으로 통역단위문으로 구성되는 것이 바람직하다.

따라서, 음성단위문(31), 음성단위문(32) 및 음성단위문(33)은 각각의 통역단위문으로 구성되는 것이 바람직하다.

그 뿐만 아니라, 시간특성(234)은 실시간 자동통역의 기본 원칙 가운데 하나이기 때문에, 실시간성을 확보하기 위해 번역단위 판단에 시간을 고려해야 하는 것이 바람직하다.

한편, 본 발명의 일 실시예에 채용된 상기 번역 단위로 통역 작업을 수행하는 단계는, 형태소분석, 구문분석, 변환, 생성 모듈을 기반으로 하는 모듈 기반 방법과 SMT, DNN 등을 이용한 기계학습 방법을 연동하여 번역하는 것이 바람직하다.

그리고, 상기 번역 단위로 통역 작업을 수행하는 단계는, 이전까지의 모든 통역단위문, 그 통역단위문에 대한 형태소/구문 분석 및 생성 결과와 번역결과를 저장한다.

이와 같이, 본 발명의 또 다른 실시예에 채용된 상기 번역 단위로 통역 작업을 수행하는 단계에 따르면, 문맥을 통해 기존의 번역 결과에 대한 후 수정을 하는 것 이외에도, 각 모듈별로도 문맥을 이용해 기존의 오류를 수정하여 올바른 결과를 생성해 낼 수 있는 장점이 있다.

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

100 : 음성인식 모듈 200 : 실시간 통역단위 추출 모듈
210 : 입력버퍼관리부 220 : 단위분리용 형태소분석부
230 : 음성단위문 분리부 240 : 통역단위 구성부
300 : 실시간 통역모듈

Claims

실시간 연속 발화를 자동 통역시에 통역의 단위를 판별하는 기준으로 포즈(pause)를 사용하는 통역 장치로,
입력되는 실시간 음성 발화문에서 문장 또는 번역 단위로 음성단위문 - 여기서 음성단위문은 포즈를 기준으로 시간 흐름에 따라 분리된 문장임 - 을 인식하는 음성인식 모듈;
적어도 하나 이상의 상기 음성단위문을 처리하여 실시간 번역 단위인 통역단위문으로 구성하는 실시간 통역단위 추출 모듈; 및
상기 실시간 통역단위 추출 모듈을 통해 구성된 통역단위문을 단위로 통역 작업을 수행하고, 적어도 하나의 통역단위문, 그 통역단위문에 대한 분석 결과, 번역결과, 또는 이들의 어느 조합 중의 적어도 하나를 저장하는 문맥 관리 모듈을 포함하는 실시간 통역모듈; 을 포함하고,
상기 문맥 관리 모듈은,
문장의 문맥을 파악하여 이전 문장의 통역 또는 번역 중 적어도 일부를 수정하도록 구성되는,
을 포함하는 실시간 통역단위문 추출에 기반한 동시통역 장치.
제 1항에 있어서,
상기 실시간 통역단위 추출 모듈은,
입력으로 들어오는 음성단위문과, 이전의 통역단위 추출 결과로 인해 아직까지 번역문장에 포함되지 못한 잔여 음성단위문을 저장하는 입력버퍼관리부;
각 음성단위문에 대한 형태소를 검출하는 단위분리용 형태소분석부;
상기 단위분리용 형태소분석부의 형태소 분석 결과에 따라, 음성단위문을 재분리 하는 음성단위문 분리부; 및
현재의 음성단위문과 이전의 음성단위문을 결합하여 통역단위문으로 구성하는 통역단위 구성부;를 포함하는 실시간 통역단위문 추출에 기반한 동시통역 장치.
제 2항에 있어서,
상기 음성단위문 분리부는,
어휘특성, 형태소특성, 음향특성 및 시간특성을 기준으로, 상기 입력버퍼관리부에 저장된 음성단위문을 재분리하는 것인 실시간 통역단위문 추출에 기반한 동시통역 장치.
제 3항에 있어서,
상기 어휘특성은,
각 언어별 문장의 시작 부분이라 판단할 수 있는 단어의 포함 여부를 판단하는 특성인 실시간 통역단위문 추출에 기반한 동시통역 장치.
제 3항에 있어서,
상기 형태소특성은,
음성단위문에 대해 형태소 분석 결과를 획득한 후 용언, 종결어미의 포함 여부를 판단하는 특성인 실시간 통역단위문 추출에 기반한 동시통역 장치.
제 3항에 있어서,
상기 음향특성은,
Pause 정보 및 운율(Prosody)과 강세 정보 특성인 실시간 통역단위문 추출에 기반한 동시통역 장치.
제 1항에 있어서,
상기 실시간 통역모듈은,
형태소분석, 구문분석, 변환, 생성 모듈을 기반으로 하는 모듈 기반 방법과 SMT, DNN 등을 이용한 기계학습 방법을 연동하여 번역하는 것인 실시간 통역단위문 추출에 기반한 동시통역 장치.
제 1항에 있어서,
상기 문맥 관리 모듈은,
이전까지의 모든 상기 통역단위문, 그 통역단위문에 대한 형태소/구문 분석 및 생성 결과와 상기 번역결과를 저장하도록 구성되는, 실시간 통역단위문 추출에 기반한 동시통역 장치.
실시간 연속 발화를 자동 통역시에 통역의 단위를 판별하는 기준으로 포즈(pause)를 사용하는 청구항 1에 기재된 통역 장치에 의해 수행되는 통역 방법으로,
음성인식 모듈이, 입력되는 실시간 음성 발화문에서 문장 또는 번역 단위로 음성단위문 - 여기서 음성단위문은 포즈를 기준으로 시간 흐름에 따라 분리된 문장임 - 을 인식하는 단계;
실시간 통역단위 추출 모듈이, 적어도 하나 이상의 상기 음성단위문을 처리하여 실시간 번역 단위인 통역단위문으로 구성하는 단계;
실시간 통역모듈이, 상기 실시간 통역단위 추출 모듈을 통해 구성된 통역단위문을 단위로 통역 작업을 수행하는 단계;
상기 실시간 통역 모듈이, 문맥 관리 모듈을 이용하여 적어도 하나의 통역단위문, 그 통역단위문에 대한 분석 결과, 번역결과, 또는 이들의 어느 조합 중의 적어도 하나를 저장하는 단계; 및
상기 실시간 통역 모듈이, 상기 문맥 관리 모듈을 이용하여 문장의 문맥을 파악하여 이전 문장의 번역 중 적어도 일부를 수정하는 단계;
를 포함하는 실시간 통역단위문 추출에 기반한 동시통역 방법.
제 9항에 있어서,
상기 음성단위문을 통역단위문으로 구성하는 단계는,
입력버퍼관리부가 입력으로 들어오는 음성단위문과, 이전의 통역단위문 추출 결과로 인해 아직까지 번역문장에 포함되지 못한 잔여 음성단위문을 저장하는 단계;
단위분리용 형태소분석부가 추출된 각 음성단위문에 대한 형태소를 검출하는 단계;
음성단위문 분리부가 상기 단위분리용 형태소분석부의 형태소 분석 결과에 따라, 음성단위문을 재분리 하는 단계; 및
통역단위 구성부가 현재의 음성단위문과 이전의 음성단위문을 결합하여 통역단위문으로 구성하는 단계;를 포함하는 실시간 통역단위문 추출에 기반한 동시통역 방법.
제 10항에 있어서,
상기 음성단위문을 재분리하는 단계는,
어휘특성, 형태소특성, 음향특성 및 시간특성을 기준으로, 상기 입력버퍼관리부에 저장된 음성단위문을 재분리하는 것인 실시간 통역단위문 추출에 기반한 동시통역 방법.
제 11항에 있어서,
상기 어휘특성은,
각 언어별 문장의 시작 부분이라 판단할 수 있는 단어의 포함 여부를 판단하는 특성인 실시간 통역단위문 추출에 기반한 동시통역 방법.
제 11항에 있어서,
상기 형태소특성은,
음성단위문에 대해 형태소 분석 결과를 획득한 후 용언, 종결어미의 포함 여부를 판단하는 특성인 실시간 통역단위문 추출에 기반한 동시통역 방법.
제 11항에 있어서,
상기 음향특성은,
Pause 정보 및 운율(Prosody)과 강세 정보 특성인 실시간 통역단위문 추출에 기반한 동시통역 방법.
제 9항에 있어서,
상기 번역 단위로 통역 작업을 수행하는 단계는,
형태소분석, 구문분석, 변환, 생성 모듈을 기반으로 하는 모듈 기반 방법과 SMT, DNN 등을 이용한 기계학습 방법을 연동하여 번역하는 것인 실시간 통역단위문 추출에 기반한 동시통역 방법.
제 15항에 있어서,
상기 실시간 통역 모듈이, 문맥 관리 모듈을 이용하여 적어도 하나의 통역단위문, 그 통역단위문에 대한 분석 결과, 번역결과, 또는 이들의 어느 조합 중의 적어도 하나를 저장하는 단계는,
이전까지의 모든 상기 통역단위문, 그 통역단위문에 대한 형태소/구문 분석 및 생성 결과와 상기 번역결과를 저장하는 것인 실시간 통역단위문 추출에 기반한 동시통역 방법.