KR102385851B1

KR102385851B1 - 음성 인식 및 번역 시스템，방법 및 컴퓨터 프로그램

Info

Publication number: KR102385851B1
Application number: KR1020150073235A
Authority: KR
Inventors: 신종호
Original assignee: 주식회사 케이티
Priority date: 2015-05-26
Filing date: 2015-05-26
Publication date: 2022-04-13
Also published as: KR20160138837A

Abstract

본 발명은 음성 인식 및 번역 시스템, 방법 및 컴퓨터 프로그램에 관한 것으로서, 보다 구체적으로는 화자의 발화 문장을 인식하여 음성 인식 문장을 도출하고, 화자의 입술 움직임 영상과 함께 상기 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 입력하여 상기 발화 문장에 대한 번역 문장을 도출함으로써, 번역 문장의 정확성을 획기적으로 개선할 수 있는 음성 인식 및 번역 시스템, 방법, 및 컴퓨터 프로그램에 관한 것이다.
본 발명은 화자가 발화한 제1 언어의 발화 문장을 인식하여 제2 언어의 번역 문장으로 번역하는 시스템에 있어서, 상기 발화 문장을 인식하여 음성 인식 문장을 도출하는 음성 인식부; 및 상기 화자의 발화 문장에 대한 입술 움직임 영상 정보와 상기 도출된 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 입력하여 상기 발화 문장에 대한 번역 문장을 도출하는 문장 번역부를 포함하여 구성되며, 상기 딥 러닝(deep learning) 신경망 회로는, 복수 종류의 문장 구성 단위에 대하여, 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하고, 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정한 후, 상기 제2 언어의 번역 문장을 도출하는 것을 특징으로 하는 시스템을 구현하는 효과를 갖는다.

Description

음성 인식 및 번역 시스템，방법 및 컴퓨터 프로그램 {System, method and computer program for speech recognition and translation}

본 발명은 음성 인식 및 번역 시스템, 방법 및 컴퓨터 프로그램에 관한 것으로서, 보다 구체적으로는 화자의 발화 문장을 인식하여 음성 인식 문장을 도출하고, 화자의 입술 움직임 영상과 함께 상기 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 입력하여 상기 발화 문장에 대한 번역 문장을 도출함으로써, 번역 문장의 정확성을 획기적으로 개선할 수 있는 음성 인식 및 번역 시스템, 방법, 및 컴퓨터 프로그램에 관한 것이다.

최근 음성 인식 및 자동 번역 기술은 인간과 인간, 인간과 컴퓨터 간의 상호 작용과 관련한 다양한 응용 분야에서 적용되고 있다.

그러나, 종래의 음성 인식 및 번역 기술은 문법이나 데이터에 기반한 매칭 알고리즘 등을 이용하여 구현되었다. 특히 종래 기술의 경우 음성 인식 및 번역 과정을 거치면서 두 단계에서 발생하는 오류가 발생하더라도 단순 통계, 문법이나 단어 수준 매칭 등에 근거하는 방안으로 대처하는 데 그쳤으며, 이에 따라 종래의 음성 인식 및 번역 기술은 사용자가 만족할 만한 수준의 성능을 제공하지 못하였다.

예를 들어, 음성 인식 과정에서 발생할 수 있는 오류에 대응하기 위하여 통계나 문법에 기반한 기법을 사용하는 경우 다양한 어법을 구사하는 사용자들의 사용 환경에 적절하게 대응하지 못하며, 또한 음성 인식 후 번역 단계에서의 오류에 대응하기 위하여 단순한 단어 매칭 기법을 사용하는 경우에도 다양한 단어의 의미를 포함하는 어절이나 구절 등을 적절하게 번역하지 못하는 문제가 나타나게 된다.

이에 따라, 음성 인식 및 번역 과정을 거쳐 도출되는 번역 문장의 품질이 크게 떨어질 수 있으나, 이러한 문제점을 적절하게 해결할 수 있는 해결 방안이 아직 제시되지 못하고 있다.

한국 특허공개공보 제 10-2008-0040960호(2008년 05월 09일 공개) 한국 특허공개공보 제 10-2014-0002171호(2014년 01월 08일 공개)

본 발명의 상기와 같은 종래 기술의 문제점을 해결하기 위해 창안된 것으로, 음성 인식 및 번역 단계를 거치면서 나타날 수 있는 오류에 따라 번역 문장의 품질이 떨어지는 문제를 해결하고 최종적으로 도출되는 번역 문장의 정확성을 획기적으로 향상시키는데 그 목적이 있다.

상기 과제를 해결하기 위한 본 발명의 한 측면에 따른 시스템은, 화자가 발화한 제1 언어의 발화 문장을 인식하여 제2 언어의 번역 문장으로 번역하는 시스템으로서, 상기 발화 문장을 인식하여 음성 인식 문장을 도출하는 음성 인식부; 및 상기 화자의 발화 문장에 대한 입술 움직임 영상 정보와 상기 도출된 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 입력하여 상기 발화 문장에 대한 번역 문장을 도출하는 문장 번역부를 포함하여 구성되며, 상기 딥 러닝(deep learning) 신경망 회로는, 복수 종류의 문장 구성 단위에 대하여, 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하고, 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정한 후, 상기 제2 언어의 번역 문장을 도출하는 것을 특징으로 한다.

여기서, 상기 딥 러닝(deep learning) 신경망 회로는, 복수 종류의 문장 구성 단위에 대하여, 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하는 문장 구성 단위 및 확률 도출 수단; 상기 도출된 각 문장 구성 단위 및 각 매칭 확률을 고려하여, 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여, 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정하는 문장 구성 단위 종류 결정 수단; 및 상기 결정된 종류의 문장 구성 단위를 사용하여 상기 제2 언어의 번역 문장을 도출하는 번역 문장 도출 수단을 포함할 수 있다.

또한, 상기 복수 종류의 문장 구조 단위로서, 어절(phrase)과 함께, 형태소, 단어, 문장 중 하나 이상을 문장 구성 단위로 사용할 수 있다.

또한, 상기 딥 러닝(deep learning) 신경망 회로에는, 상기 입술 움직임 영상 정보 및 상기 음성 인식 문장과 함께, 상기 화자의 발화 문장에 대한 음성 정보도 함께 입력되어 상기 번역 문장을 도출할 수 있다.

또한, 상기 문장 구성 단위 종류 결정 수단에서는, 보다 큰 단위의 문장 구성 단위에 대하여 보다 작은 단위의 문장 구성 단위보다 높은 가중치를 부여할 수 있다.

또한, 상기 딥 러닝(deep learning) 신경망 회로는, 콘볼루션 네트워크 딥 러닝(convolution network deep learning)에 의하여 학습되어 상기 발화 문장에 대한 번역 문장을 도출할 수 있다.

이때, 상기 도출된 번역 문장에 대한 사용자의 반응을 고려하여 상기 콘볼루션 네트워크 딥 러닝(convolution network deep learning)에 의한 학습을 갱신할 수 있다.

또한, 상기 화자의 발화 문장에 대한 입술 움직임 영상 정보를 이용하여 상기 제1 언어의 종류를 감지하고, 상기 감지된 제1 언어의 종류를 고려하여 제2 언어의 번역 문장을 도출할 수 있다.

본 발명의 다른 측면에 따른 시스템은, 화자가 발화한 제1 언어의 발화 문장을 인식하여 음성 인식 문장을 도출하는 시스템으로서, 화자의 발화 문장에 대한 입술 움직임 영상 정보를 전달받아, 복수 종류의 문장 구성 단위에 대하여, 각 종류별로 상기 음성 인식 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하는 문장 구성 단위 및 확률 도출부; 상기 도출된 각 문장 구성 단위 및 각 매칭 확률을 고려하여, 각 종류별로 상기 음성 인식 문장 전체에 대한 매칭 확률을 산출하여, 어느 종류의 문장 구성 단위에서 음성 인식 문장을 도출할 것인지를 결정하는 문장 구성 단위 종류 결정부; 및 상기 결정된 종류의 문장 구성 단위를 사용하여 상기 화자의 입술 움직임에 대응하는 음성 인식 문장을 도출하는 음성 인식 문장 도출부를 포함하여 구성되는 것을 특징으로 한다.

본 발명의 또 다른 측면에 따른 방법은, 서버가 음성 인식에 관한 데이터를 전달받아 처리하는 방법으로서, 화자의 제1 언어 발화 문장을 인식하여 음성 인식 문장을 도출하는 음성 인식 단계; 및 상기 화자의 발화 문장에 대한 입술 움직임 영상 정보와 상기 도출된 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 입력하여 상기 발화 문장에 대한 번역 문장을 도출하는 문장 번역 단계를 포함하여 구성되며, 상기 딥 러닝(deep learning) 신경망 회로는, 복수 종류의 문장 구성 단위에 대하여, 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하고, 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정한 후, 제2 언어의 번역 문장을 도출하는 것을 특징으로 한다.

본 발명의 또 다른 측면에 따른 방법은, 단말이 음성 인식에 관한 데이터를 수집하여 처리하는 방법으로서, 화자의 제1 언어 발화 문장을 인식하여 음성 인식 문장을 도출하는 음성 인식 단계; 및 상기 화자의 발화 문장에 대한 입술 움직임 영상 정보와 상기 도출된 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 전달하여 상기 발화 문장에 대한 번역 문장을 도출하는 문장 번역 단계를 포함하여 구성되며, 상기 딥 러닝(deep learning) 신경망 회로는, 복수 종류의 문장 구성 단위에 대하여, 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하고, 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정한 후, 제2 언어의 번역 문장을 도출하는 것을 특징으로 한다.

본 발명의 다른 측면에 따른 컴퓨터 프로그램은 컴퓨터에서 앞서 기재된 방법의 각 단계를 실행하기 위하여 컴퓨터로 판독가능한 매체에 기록된 컴퓨터 프로그램인 것을 특징으로 한다.

본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템, 방법 및 컴퓨터 프로그램은 화자의 발화 문장을 인식하여 음성 인식 문장을 도출하고, 화자의 입술 움직임 영상과 함께 상기 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 입력하여 상기 발화 문장에 대한 번역 문장을 도출함으로써, 번역 문장의 정확성을 획기적으로 개선시킬 수 있다.

또한, 본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템, 방법 및 컴퓨터 프로그램은 복수 종류의 문장 구성 단위에 대하여, 각 종류별로 문장 구성 단위 및 그에 대한 매칭 확률을 도출하고, 나아가 번역 문장 전체에 대한 매칭 확률을 산출하여 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정한 후 번역 문장을 도출함으로써, 도출되는 번역 문장의 품질을 크게 향상시킬 수 있다.

또한, 본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템, 방법 및 컴퓨터 프로그램은 도출된 번역 문장에 대한 사용자의 반응을 고려하여 딥 러닝(deep learning) 신경망 회로를 갱신함으로써, 번역 문장의 품질을 지속적으로 개선할 수 있게 된다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템의 동작을 설명하는 도면이다.
도 3은 본 발명의 일 실시예에 따른 콘볼루션 네트워크 딥 러닝(convolution network deep learning)에 의한 학습 과정에 대한 설명도이다.
도 4는 본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템의 사용자 화면 및 동작에 대한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 음성 인식 시스템의 구성도이다.
도 6은 본 발명의 일 실시예에 따른 음성 인식 및 번역 방법의 순서도이다.
도 7은 본 발명의 다른 실시예에 따른 음성 인식 및 번역 방법의 흐름도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 이하에서는 특정 실시예들을 첨부된 도면을 기초로 상세히 설명하고자 한다.

본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되는 것은 아니며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

이하, 본 발명에 따른 음성 인식 및 번역 시스템, 방법 및 컴퓨터 프로그램의 예시적인 실시형태들을 첨부된 도면을 참조하여 상세히 설명한다.

먼저, 도 1에서는 본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템(100)의 구성도를 도시하고 있다. 도 1에서 볼 수 있는 바와 같이 본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템(100)은 음성 인식부(110)와 문장 번역부(120)를 포함하여 구성될 수 있다.

상기 음성 인식부(110)는 화자가 발화한 제1 언어의 발화 문장을 인식하여 음성 인식 문장을 도출하게 된다.

또한, 상기 문장 번역부(120)에서는 상기 음성 인식부(110)에서 도출한 상기 발화 문장에 대한 음성 인식 문장 데이터와 함께, 상기 화자가 상기 발화 문장을 발화하는데 따른 입술의 움직임을 포함하는 입술 움직임 영상 정보를 딥 러닝(deep learning) 신경망 회로로 입력하여 상기 발화 문장에 대한 번역 문장을 도출하게 된다.

여기서, 상기 딥 러닝(deep learning) 신경망 회로는, 복수 종류의 문장 구성 단위(예를 들어, 형태소, 단어, 어절, 문장 등)에 대하여, 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하고, 이어서 상기 문장 구성 단위의 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정한 후, 상기 제1 언어의 발화 문장에 대한 제2 언어의 번역 문장을 도출하게 된다.

나아가, 상기 딥 러닝(deep learning) 신경망 회로는 문장 구성 단위 및 확률 도출 수단(122), 문장 구성 단위 종류 결정 수단(124) 및 번역 문장 도출 수단(126)을 포함할 수 있다.

이때, 상기 문장 구성 단위 및 확률 도출 수단(122)은 복수 종류의 문장 구성 단위에 대하여 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하게 된다.

또한, 상기 문장 구성 단위 종류 결정 수단(124)에서는 상기 도출된 각 문장 구성 단위 및 각 매칭 확률을 고려하여, 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여, 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정하게 된다.

나아가, 상기 문장 구성 단위 종류 결정 수단(124)에서는 상기 문장 구성 단위 중 보다 큰 단위의 문장 구성 단위에 대하여 보다 작은 단위의 문장 구성 단위보다 높을 가중치를 부여할 수도 있다. 예를 들어, 문장 단위에서의 번역 문장 전체에 대한 매칭 확률과 어절 단위에서의 번역 문장 전체에 대한 매칭 확률이 동일할 경우, 보다 큰 단위의 문장 구성 단위인 문장에 대하여 소정의 가중치를 부여함으로써, 문장 단위에서 번역 문장을 도출하도록 결정할 수도 있다.

마지막으로, 상기 번역 문장 도출 수단(126)에서는 상기 결정된 종류의 문장 구성 단위를 사용하여 상기 제2 언어의 번역 문장을 도출하게 된다.

보다 구체적인 예를 들어, 화자가 "This is a book"이라는 문장을 발화하는 경우에 대하여 살펴본다.

화자가 문장을 발화하면 음성 인식부(110)에서는 상기 화자의 입술 움직임 영상 정보를 이용하여 상기 제1 언어(예를 들어 영어)로 발화된 문장에 대한 음성 인식 문장을 도출하게 된다. 이어서, 상기 문장 번역부(120)에서는 상기 화자의 발화 문장에 대한 입술 움직임 영상 정보와 상기 도출된 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 입력하여 상기 발화 문장에 대한 제2 언어(예를 들어 한국어)의 번역 문장을 도출하게 된다.

이때, 상기 딥 러닝(deep learning) 신경망 회로에서는, 먼저 문장 구성 단위 및 확률 도출 수단(122)에서 복수 종류의 문장 구성 단위(예를 들어, 형태소, 단어, 어절, 문장 등)에 대하여 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하게 된다.

예를 들어, 단어에 대하여 상기 발화 문장의 문장 구성 단위를 구하면 "This", "is", "a", "book"이 될 수 있고, 그에 대한 번역 단어는 각각 "이것은", "~입니다", "하나의", "책"이 될 수 있으며, 이때 신경망 회로로 입력되는 입력 값이 신경망 회로에서 산출되는 결과 값에 매칭될 확률, 즉 매칭 확률은 각 단어에 대하여 각각 80%, 90%, 80%, 90%가 될 수 있다.

또한 어절(phrase)에 대하여 상기 발화 문장의 문장 구성 단위를 구하면 "This is", "a book" 등이 될 수 있고, 그에 대한 번역 어절은 각각 "이것은 ~ 입니다", "(한권의) 책"이 될 수 있으며, 이때 각 어절에 대한 매칭 확률은 각각 70%, 80%가 될 수 있다.

또한, 문장에 대하여 상기 발화 문장의 문장 구성 단위를 구하면 "This is a book" 이 될 수 있고, 그에 대한 번역 어절은 각각 "이것은 (한권의) 책입니다"가 될 수 있으며, 그에 대한 매칭 확률은 55%가 될 수 있다.

이어서, 문장 구성 단위 종류 결정 수단(124)에서는 상기 문장 구성 단위의 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하게 된다.

예를 들어, 상기 단어에 대하여 상기 번역 문장 전체에 대한 매칭 확률을 구하면, 각 단어가 모두 매칭되어야 전체 문장이 매칭될 수 있으므로 각 단어에 대한 매칭 확률을 곱하는 방식으로 상기 번역 문장 전체에 대한 매칭 확률을 산출할 수도 있다. 이러한 경우 단어에 대한 번역 문장 전체의 매칭 확률은 80% x 90% x 80% x 90% = 51.84%가 된다.

마찬가지로, 상기 어절(phrase)에 대하여 상기 번역 문장 전체에 대한 매칭 확률을 구하면, 70% x 80% = 56%가 되며, 또한 문장에 대하여 상기 번역 문장 전체에 대한 매칭 확률은 55%가 된다.

이에 따라, 상기 문장 구성 단위 종류 결정 수단(124)에서는 각 문장 구성 단위에 대한 전체 문장의 매칭 확률을 고려하여, 가장 정확한 번역 문장을 도출할 수 있을 것으로 예상되는 어절 수준에서 번역 문장을 도출할 것을 결정할 수 있게 된다.

이어서, 상기 번역 문장 도출 수단(126)에서는 상기 결정된 문장 구성 단위를 사용하여 상기 제1 언어의 발화 문장에 대한 제2 언어의 번역 문장을 도출하게 되며, 이에 따라 앞서 살핀 예에서는 어절 수준에서 번역 문장 전체에 대한 매칭 확률이 가장 높았으므로, 어절 수준에서 번역 문장을 도출하게 되고, 이에 따라 상기 번역 문장 도출 수단(126)에서는 상기 문장 구성 단위 및 확률 도출 수단(122)에서 도출된 어절들을 조합하여 제2 언어의 번역 문장을 도출하게 된다.

이에 따라, 종래 번역 기법에서는 단어 수준에 대한 입력 데이터를 이용하고, 또한 문법 기반의 번역 과정을 거치는 과정에서 번역 문장의 품질 저하가 나타날 수 있었으나, 본 발명에서는 발화 문장에 대한 번역 문장을 도출함에 있어서, 음성 인식 문장과 함께 발화자의 입술 움직임 영상 정보를 함께 고려하고, 나아가 단순하게 단어 수준에서 번역 작업을 수행하는 것이 아니라 어절이나 문장 등 다양한 종류의 문장 구성 단위에서의 전체 문장에 대한 매칭 확률을 고려하여, 가장 정확하게 번역 문장을 도출할 수 있는 문장 구성 단위에서 번역 문장을 도출함으로써 번역 문장의 정확성을 획기적으로 개선할 수 있게 된다.

특히, 종래 기술에서 단어 수준에서 음성 인식 및 번역 작업이 수행되었던 점과 비교할 때, 본 발명에서는 복수개의 단어가 묶여 하나의 단위로 사용되는 어절(phrase) 수준에서 음성을 인식하거나 번역 작업을 수행함으로써, 종래 기술에서 나타날 수 있었던 음성 인식 및 번역 과정에서의 오류를 효과적으로 억제할 수 있게 된다.

나아가, 문장 단위에서 음성을 인식하고 번역 작업을 수행하는 경우, 그 정확성을 보다 높일 수도 있겠으나, 모든 문장에 대한 데이터베이스를 구축하는 것은 불가능하다고 할 것이므로, 쓰임새가 많은 중요한 문장들을 중심으로 음성 인식 및 번역 작업에 반영함으로써, 그 효용을 높일 수 있을 것이다.

도 2에서는 본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템(100)의 동작을 설명하기 위한 도면이 제시되고 있다. 도 2에서 볼 수 있는 바와 같이, 화자가 발화 문장(도 2의 "This is a book"을 발화하면, 컨퍼런스 콜용 단말기나 스마트폰, 캠코더나 PC용 카메라 등 다양한 영상 장치에서 화자의 발화 문장에 대한 입술 움직임을 포함하는 영상을 획득할 수 있게 된다.

이때, 상기와 같은 화자의 발화 문장에 대한 입술 움직임 영상 정보는 여러 가지 형태로 만들어질 수 있는데, 전체 화자의 영상 중 입술 부분의 영상만을 추출할 수도 있고, 상기 입술의 외곽선의 움직임 만을 추출할 수도 있으며, 나아가 화자의 입술에 대한 특이점을 선정하여 상기 특이점의 움직임에 대한 정보를 추출하는 등 다양한 방식으로 입술 움직임 영상 정보를 생성할 수 있다. 이외에도 화자의 입술 움직임을 효과적으로 인식할 수 있는 방식이라면 특별한 제한없이 본 발명에 적용하는 것이 가능하다.

이에 따라, 상기 음성 인식부(110)에서는 상기 화자의 발화 문장에 대한 입술 움직임 영상 정보를 이용하여 음성 인식 문장(도 2의 "This is a book"을 도출하게 된다.

상기와 같이, 화자의 발화 문장에 대한 입술 움직임 영상 정보를 이용하여 음성 인식 문장을 도출함으로써, 다른 화자의 음성이나 잡음 등 주변 환경에 따라 나타날 수 있는 음성 인식 과정에서의 오류를 억제하여 보다 정확도가 높은 음성 인식 문장을 도출할 수 있게 된다.

나아가, 상기 음성 인식부(110)에서는 상기 화자의 발화 문장에 대한 입술 움직임 영상 정보와 함께, 상기 화자의 발화 문장에 대한 음성 정보도 함께 사용하여 상기 음성 인식 문장을 도출함으로써, 도출되는 음성 인식 문장의 정확성을 보다 개선할 수도 있다.

또한, 상기 음성 인식부(110)에서는 상기 화자가 발화하는 제1언어의 발화 문장이 어떤 언어인지를 감지함으로써, 문장 번역부(120)에서 상기 감지된 제1 언어의 종류를 고려하여 제2 언어의 번역 문장을 도출하도록 할 수도 있다.

이어서, 문장 번역부(120)에서는 상기와 같이 도출된 음성 인식 문장과 함께, 상기 화자의 발화 문장에 대한 입술 움직임 영상 정보를 딥 러닝(deep learning) 신경망 회로로 전달하여 상기 제1 언어의 발화 문장에 대한 제2 언어의 번역 문장을 도출하게 된다. 이때, 상기 문장 번역부(120)에서 상기 번역 문장을 도출함에 있어서, 상기 화자의 발화 문장에 대한 음성 정보도 함께 이용할 수도 있다.

특히, 상기 딥 러닝(deep learning) 신경망 회로로서 콘볼루션 네트워크 딥 러닝(convolution network deep learning) 신경망 회로를 사용하고, 앞서 살핀 바와 같이 화자의 발화 문장에 대한 음성 인식 문장과 함께 입술 움직임 영상 정보를 입력하며, 나아가 상기 화자의 발화 문장에 대한 음성 정보도 함께 입력하여 줌으로써, 종래 번역 과정에서 나타날 수 있었던 오류들을 효과적으로 억제하여 번역 문장의 정확성을 크게 개선할 수 있게 된다.

특히, 콘볼루션 네트워크 딥 러닝(convolution network deep learning)에서는 소정의 단계마다 지속적인 업데이트를 수행하여 줌으로써 보다 효과적인 번역 작업을 가능하게 해준다.

도 3에서는 본 발명의 일 실시예에 따른 콘볼루션 네트워크 딥 러닝(convolution network deep learning)에 의한 학습 과정에 대한 설명도를 도시하고 있다. 본 발명의 일 실시예에 따른 콘볼루션 네트워크 딥 러닝(convolution network deep learning)에서도 주어진 학습 자료(training set)에 대하여 문장 단위, 어절 단위, 단어 단위, 형태소 단위로 계층적으로 학습을 반복하여 줌으로써, 콘볼루션 네트워크 딥 러닝(convolution network deep learning) 신경망 회로를 학습시킬 수 있게 된다.

상기와 같은 콘볼루션 네트워크 딥 러닝(convolution network deep learning) 학습에 있어서는 아래의 수학식 1이 사용될 수 있다.

[수학식 1]

(1차원 변수의 경우)

(2차원 변수의 경우)

여기서, n은 1차 변수, m은 2차 변수, u는 1차 수식에서 숨겨진(hidden) 변수, v는 2차 수식에서 숨겨진(hidden) 변수에 해당한다.

또한, 본 발명의 일 실시예에 따른 콘볼루션 네트워크 딥 러닝(convolution network deep learning) 신경망 회로는 도출된 번역 문장에 대한 사용자의 반응을 고려하여 갱신되도록 함으로써 지속적으로 번역 문장의 정확성을 개선할 수 있게 되고, 나아가 각 사용자에 따른 특성도 반영하게 됨으로써 각 사용자에 대한 개인화도 가능하게 된다는 장점을 가질 수 있다.

이러한 과정을 거쳐, 도 2에서 볼 수 있는 바와 같이 제1언어(영어)와 제2 언어(한국어)의 문장 쌍으로부터 어절 및 단어, 형태소 정보를 추출하고, 확률적 기계 번역(Statistical Machine Translation, SMT) 또는 예제 기반 번역(Example based Translation)을 위한 데이터베이스와 신경망 회로를 구축함으로써, 본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템(100)을 구현할 수 있게 된다.

나아가, 도 4에서는 본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템(100)의 사용자 화면 및 동작에 대한 예시도를 보여주고 있다. 도 4에서 볼 수 있는 바와 같이, 음성 인식부(110)에서 인식된 하나 혹은 복수개의 음성 인식 결과 화면에 제시될 수 있고, 사용자는 제시된 음성 인식 결과 중 하나를 선택하거나, 수정을 요청하거나, 재시도하도록 할 수 있으며, 작업을 취소할 수도 있다.

또한, 음성 인식부(110)에서는 이러한 사용자의 반응을 반영함으로써 음성 인식의 정확성을 개선하거나 사용자의 특성을 반영할 수 있는 개인화도 가능해진다.

사용자가 음성 인식 문장을 확정하면, 다시 사용자에게 번역 화면이 제시될 수 있다. 예를 들어, 도 4에서 사용자는 확률적 기계 번역 또는 예제 기반 번역 중 하나를 선택하여 번역 문장을 도출할 수 있다.

또한, 문장 번역부(120)에서도 번역 문장에 대한 사용자의 반응을 고려하여 신경망 회로를 갱신하여 줌으로써 번역의 정확성을 개선하거나 사용자의 특성을 반영하는 개인화도 가능하게 된다.

상기와 같은 사용자의 반응은 사용자가 화면을 터치하거나 사용자의 제스쳐를 인식하는 등 다양한 방법으로 수집할 수 있다.

나아가, 상기와 같은 사용자 인터페이스의 구성은 보다 다양한 형태로 구현될 수도 있다. 예를 들어, 동시 통역을 위한 어플리케이션에 적용되기 위해서는, 도 4에서 볼 수 있는 다양한 사용자의 선택 메뉴를 제거하고, 음성 인식 결과 중 최적의 문장을 자동으로 선택하도록 하고, 나아가 그에 따른 최적의 번역 문장을 자동으로 제시하는 방식으로 구현될 수도 있다.

상기한 본 발명의 일 실시예에 따른 음성 인식 및 번역 시스템(100)은 서버로 구현되어 그에 연결되는 단말과 연동될 수도 있겠으나, 음성 인식 및 번역을 위한 전용 장치나 동시 통역 장치로 구현될 수도 있으며, 나아가 스마트폰에서 구동되는 앱이나 프로그램의 형태로도 구현될 수 있을 것이다.

또한, 도 6에서는 본 발명의 일 실시예에 따른 음성 인식 시스템(500)의 구조도를 도시하고 있다. 도 6에서 볼 수 있는 바와 같이 본 발명의 일 실시예에 따른 음성 인식 시스템(500)은 문장 구성 단위 및 확률 도출부(510), 문장 구성 단위 종류 결정부(520) 및 음성 인식 문장 도출부(530)를 포함하여 구성될 수 있다.

본 발명의 일 실시예에 따른 음성 인식 시스템(500)은 화자가 발화한 제1 언어의 발화 문장을 인식하여 음성 인식 문장을 도출할 수 있다.

이때, 상기 문장 구성 단위 및 확률 도출부(510)에서는 화자의 발화 문장에 대한 입술 움직임 영상 정보를 전달받아, 복수 종류의 문장 구성 단위에 대하여, 각 종류별로 상기 음성 인식 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하게 된다.

또한, 상기 문장 구성 단위 종류 결정부(520)에서는 상기 도출된 각 문장 구성 단위 및 각 매칭 확률을 고려하여, 각 종류별로 상기 음성 인식 문장 전체에 대한 매칭 확률을 산출하여, 어느 종류의 문장 구성 단위에서 음성 인식 문장을 도출할 것인지를 결정하게 된다.

마지막으로, 상기 음성 인식 문장 도출부(530)에서는 상기 결정된 종류의 문장 구성 단위를 사용하여 상기 화자의 입술 움직임에 대응하는 음성 인식 문장을 도출하게 된다.

이에 따라, 종래 음성 인식 기법에서는 단어 수준에서 음성 인식을 수행하는데 그침으로써 음성 인식 문장의 정확도가 떨어지는 문제가 나타날 수 있었으나, 본 발명에서는 발화 문장에 대한 음성 인식 문장을 도출함에 있어서 발화자의 입술 움직임 영상 정보를 함께 고려하고, 나아가 단순하게 단어 수준에서 음성 인식 작업을 수행하는 것이 아니라 어절이나 문장 등 다양한 종류의 문장 구성 단위에서의 전체 문장에 대한 매칭 확률을 고려하여, 가장 정확하게 음성 인식 문장을 도출할 수 있는 문장 구성 단위에서 음성 인식 문장을 도출함으로써 음성 인식 문장의 정확성을 획기적으로 개선할 수 있게 된다.

또한, 도 6에서는 본 발명의 일 실시예에 따른 음성 인식 및 번역 방법의 순서도를 도시하고 있다. 도 6에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 음성 인식 및 번역 방법은, 화자의 발화 문장을 인식하여 음성 인식 문장을 도출하는 음성 인식 단계(S610) 및 상기 화자의 발화 문장에 대한 입술 움직임 영상 정보와 상기 도출된 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 입력하여 상기 발화 문장에 대한 번역 문장을 도출하는 문장 번역 단계(S620)를 포함할 수 있다.

이때, 상기 딥 러닝(deep learning) 신경망 회로는, 복수 종류의 문장 구성 단위에 대하여, 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하고, 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정한 후, 상기 제2 언어의 번역 문장을 도출하게 된다.

상기와 같은 본 발명의 일 실시예에 따른 음성 인식 및 번역 방법은 서버에서 구현되어 그에 연결되는 단말과 연동될 수도 있겠으나, 음성 인식 및 번역을 위한 전용 장치나 동시 통역 장치에서 구현될 수도 있으며, 나아가 스마트폰에서 구동되는 앱이나 프로그램의 형태로도 구현될 수 있을 것이다.

도 7에서는 본 발명의 다른 실시예에 따른 음성 인식 및 번역 방법의 흐름도를 예시하고 있다. 도 7을 살펴보면, 먼저 화자의 발화 문장에 대한 입술 움직임을 인식하게 된다. 이때, 입술 움직임 데이터 베이스를 사용하여 입술 움직임에 대응하는 문장 구성 단위(예를 들어, 형태소, 단어, 어절, 문장 등)를 산출할 수 있다.

이어서, 상기 복수 종류의 문장 구성 단위에 대하여 음성 인식 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 고려하여 최적의 음성 인식 결과를 도출할 수 있는 문장 구성 단위를 선정하고, 그에 따라 음성 인식 문장을 도출하게 된다. 이때, 음성 인식 문장을 도출하기 위하여 미리 만들어진 음성 인식 모델 데이터 베이스를 사용할 수 있다. 나아가, 상기 음성 인식 모델 데이터 베이스는 사용자의 입술 움직임 데이터 등을 이용하여 지속적으로 갱신될 수도 있다.

다음으로, 상기 도출된 음성 인식 결과를 제시하여 사용자의 선택을 거치거나, 또는 자동으로 최적의 음성 인식 문장을 산출하게 된다.

이어서, 사용자에게 확률적 기계 번역 또는 예제 기반 번역 등 번역 방법에 대한 선택 화면을 제시하여 사용자의 선택을 거치도록 하거나, 또는 자동으로 번역 방법을 선택하여, 상기 산출된 음성 인식 문장으로부터 번역 문장을 산출한 후, 이를 사용자에게 제공하게 된다.

이때, 상기 사용자에게 제공된 번역 문장에 대한 사용자의 반응, 즉 사용자 로그를 수집하여 이를 각각 음성 인식, 번역, 매칭 알고리즘에 적용하고, 나아가 정기적으로 딥 러닝(deep learning)을 수행하여 줌으로써 음성 인식 및 번역의 정확도를 지속적으로 개선할 수 있게 된다. 나아가, 상기 사용자 로그를 이용하여 사용자의 특성을 반영하여 줌으로써, 사용자의 특성까지도 고려할 수 있는 개인화도 가능하게 된다는 장점이 있다.

본 발명의 다른 측면에 따른 컴퓨터 프로그램은 앞서 기재된 음성 인식 및 번역 방법의 각 단계를 컴퓨터에서 실행하기 위하여 컴퓨터로 판독가능한 매체에 기록된 컴퓨터 프로그램인 것을 특징으로 한다.

상기 컴퓨터로 판독 가능한 프로그램이 기록된 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광 기록매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광매체(magneto-optical medium) 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함되며, 스마트폰이나 PC 등 단말의 저장 장치에 기록될 수도 있다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어코드 뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 기재된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의해서 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 음성 인식 및 번역 시스템
110 : 음성 인식부
120 : 문장 번역부
122 : 문장 구성 단위 및 확률 도출 수단
124 : 문장 구성 단위 종류 결정 수단
126 : 번역 문장 도출 수단
500 : 음성 인식 시스템
510 : 문장 구성 단위 및 확률 도출부
520 : 문장 구성 단위 종류 결정부
530 : 음성 인식 문장 도출부

Claims

화자가 발화한 제1 언어의 발화 문장을 인식하여 제2 언어의 번역 문장으로 번역하는 시스템에 있어서,
상기 발화 문장을 인식하여 음성 인식 문장을 도출하는 음성 인식부; 및
상기 화자의 발화 문장에 대한 입술 움직임 영상 정보와 상기 도출된 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 입력하여 상기 발화 문장에 대한 번역 문장을 도출하는 문장 번역부를 포함하여 구성되며,
상기 문장 번역부에서는,
복수 종류의 문장 구성 단위의 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하고,
상기 문장 구성 단위에 대한 매칭 확률을 고려해 상기 복수 종류의 문장 구성 단위의 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정한 후,
상기 제2 언어의 번역 문장을 도출하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 딥 러닝(deep learning) 신경망 회로는,
복수 종류의 문장 구성 단위의 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하는 문장 구성 단위 및 확률 도출 수단;
상기 도출된 각 문장 구성 단위 및 각 매칭 확률을 고려하여,
상기 복수 종류의 문장 구성 단위의 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여, 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정하는 문장 구성 단위 종류 결정 수단; 및
상기 결정된 종류의 문장 구성 단위를 사용하여 상기 제2 언어의 번역 문장을 도출하는 번역 문장 도출 수단을 포함하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 복수 종류의 문장 구조 단위로서,
어절(phrase)과 함께,
형태소, 단어, 문장 중 하나 이상을 문장 구성 단위로 사용하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 딥 러닝(deep learning) 신경망 회로에는,
상기 입술 움직임 영상 정보 및 상기 음성 인식 문장과 함께,
상기 화자의 발화 문장에 대한 음성 정보도 함께 입력되어 상기 번역 문장을 도출하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 문장 구성 단위 종류 결정 수단에서는,
보다 큰 단위의 문장 구성 단위에 대하여 보다 작은 단위의 문장 구성 단위보다 높은 가중치를 부여하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 딥 러닝(deep learning) 신경망 회로는,
콘볼루션 네트워크 딥 러닝(convolution network deep learning)에 의하여 학습되어 상기 발화 문장에 대한 번역 문장을 도출하는 것을 특징으로 하는 시스템.
제6항에 있어서,
상기 도출된 번역 문장에 대한 사용자의 반응을 고려하여 상기 콘볼루션 네트워크 딥 러닝(convolution network deep learning)에 의한 학습을 갱신하는 것을 특징으로 하는 시스템.
삭제
화자가 발화한 제1 언어의 발화 문장을 인식하여 음성 인식 문장을 도출하는 시스템에 있어서,
화자의 발화 문장에 대한 입술 움직임 영상 정보를 전달받아, 복수 종류의 문장 구성 단위의 각 종류별로 상기 음성 인식 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하는 문장 구성 단위 및 확률 도출부;
상기 도출된 각 문장 구성 단위 및 각 매칭 확률을 고려하여, 상기 복수 종류의 문장 구성 단위의 각 종류별로 상기 음성 인식 문장 전체에 대한 매칭 확률을 산출하여, 어느 종류의 문장 구성 단위에서 음성 인식 문장을 도출할 것인지를 결정하는 문장 구성 단위 종류 결정부; 및
상기 결정된 종류의 문장 구성 단위를 사용하여 상기 화자의 입술 움직임에 대응하는 음성 인식 문장을 도출하는 음성 인식 문장 도출부를 포함하여 구성되는 것을 특징으로 하는 시스템.
서버가 음성 인식에 관한 데이터를 전달받아 처리하는 방법에 있어서,
화자의 제1 언어 발화 문장을 인식하여 음성 인식 문장을 도출하는 음성 인식 단계; 및
상기 화자의 발화 문장에 대한 입술 움직임 영상 정보와 상기 도출된 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 입력하여 상기 발화 문장에 대한 번역 문장을 도출하는 문장 번역 단계를 포함하여 구성되며,
상기 문장 번역 단계에서는,
복수 종류의 문장 구성 단위의 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하고,
상기 문장 구성 단위에 대한 매칭 확률을 고려해 상기 복수 종류의 문장 구성 단위의 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정한 후,
제2 언어의 번역 문장을 도출하는 것을 특징으로 하는 방법.
단말이 음성 인식에 관한 데이터를 수집하여 처리하는 방법에 있어서,
화자의 제1 언어 발화 문장을 인식하여 음성 인식 문장을 도출하는 음성 인식 단계; 및
상기 화자의 발화 문장에 대한 입술 움직임 영상 정보와 상기 도출된 음성 인식 문장을 딥 러닝(deep learning) 신경망 회로로 전달하여 상기 발화 문장에 대한 번역 문장을 도출하는 문장 번역 단계를 포함하여 구성되며,
상기 문장 번역 단계에서는,
복수 종류의 문장 구성 단위의 각 종류별로 상기 번역 문장을 구성하는 문장 구성 단위 및 그에 대한 매칭 확률을 도출하고,
상기 문장 구성 단위에 대한 매칭 확률을 고려해 상기 복수 종류의 문장 구성 단위의 각 종류별로 상기 번역 문장 전체에 대한 매칭 확률을 산출하여 어느 종류의 문장 구성 단위에서 번역 문장을 도출할 것인지를 결정한 후,
제2 언어의 번역 문장을 도출하는 것을 특징으로 하는 방법.
삭제