KR20210039834A

KR20210039834A - 인공지능 기반 실시간 자막번역 시스템 및 방법

Info

Publication number: KR20210039834A
Application number: KR1020190122534A
Authority: KR
Inventors: 진실희
Original assignee: 중앙대학교 산학협력단
Priority date: 2019-10-02
Filing date: 2019-10-02
Publication date: 2021-04-12

Abstract

본 발명은 음성신호 데이터를 입력받아 기 저장된 발화정보에 따라 기계번역이 용이한 문자 데이터로 변환하는 신호 데이터 입력 및 변환부, 상기 변환된 문자 데이터를 기계번역 데이터베이스에 기초하여 번역하는 번역부, 상기 번역된 문자 데이터를 스퍼팅 기술(Spotting)에 기초하여 자막으로 출력하는 자막 출력부, 상기 출력된 자막의 오류 여부를 판단한 후, 상기 판단된 결과에 따라 상기 출력된 자막을 후처리하는 자막 후처리부를 포함하여, 번역의 신뢰도를 높일 수 있는 효과를 가진다.

Description

인공지능 기반 실시간 자막번역 시스템 및 방법{Real time caption translation system and method based on artificial intelligence}

본 발명은 실시간 자막번역에 관한 것으로, 더욱 상세하게는 인공지능을 기반으로 자막번역이 용이하도록 데이터를 전처리 및 후처리함으로써 번역의 신뢰도를 높이는 인공지능 기반 실시간 자막번역 시스템 및 방법에 관한 것이다.

동시통역 서비스는 처음 개발된 후, 많은 사회문화적 변화가 있었다. 국내에서는 법 개정을 통해 청각장애인의 정보 접근권 보호를 위한 자막 방송을 의무화하였다. 뿐만 아니라 국내에는 많은 외국인 인구가 유입되어 다문화 가정을 이루는 등 사회 전반에 걸쳐 자막 형태(글)의 통번역 서비스에 대한 필요가 증가하였다.

이와 같은 수요를 충족시키기 위해, 최근 방송에서는 동시통역사 외에 자막 속기사 팀을 동원하여 동시통역사가 말하는 것을 자막 형태로 내보내고 있다. 보다 상세하게, 이와 같은 과정은 방음부스, 수신기, 통신장비로 구성되는 동시통역 시스템이 사용되어왔다.

이 때 동시통역 시스템은 말(음성)의 형태로 전달되는 연사의 음성을 통역사의 음성으로 수신기(이어폰)에 전달해주는 시스템을 말한다. 이와 같은 서비스를 제공하기 위해서는 동시통역팀과 자막속기사팀이 한 조로 구성되는데, 이는 많은 인력과 장비가 동원되어야 하며 통역 과정에 있어서 지연이 발생한다는 한계점을 안고 있다.

이에 통역 과정에 있어서 장비 및 인력을 최소화하고 통역 과정의 지연을 방지할 수 있는 번역 기술을 개발할 필요성이 있다.

한국공개특허공보 제2014-0121516호

이에 본 발명은 상기와 같은 제반 사항을 고려하여 제안된 것으로, 인공지능을 기반으로 번역이 용이하도록 데이터를 전처리하고, 번역된 데이터를 다시 한 번 후처리함으로써 번역의 신뢰도를 높이는 것을 목적으로 한다.

또한, 본 발명은 음성인식 데이터를 기계번역이 용이한 데이터로 변환함으로써 기계번역의 정확도 및 활용도를 높이는 것을 목적으로 한다.

또한, 본 발명은 기계번역 데이터베이스의 데이터 축적, 누적 학습을 통해 번역의 신뢰도 및 속도를 높이는 것을 목적으로 한다.

또한, 본 발명은 출력하고자 하는 언어별 스퍼팅(Spotting) 기준에 기초하여 자막을 출력함으로써 자막의 가독성을 높이는 것을 목적으로 한다.

또한, 본 발명은 언어별로 저장된 언어 데이터베이스를 통해 각 언어 특성에 적합한 오류 판단 및 수정이 가능하여 번역의 신뢰도를 높이는 것을 목적으로 한다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해할 수 있을 것이다.

상기와 같은 목적을 달성하기 위하여 본 발명의 기술적 사상에 의한 인공지능 기반 실시간 자막번역 시스템은 음성신호 데이터를 입력받아 기 저장된 발화정보에 따라 기계번역이 용이한 문자 데이터로 변환하는 신호 데이터 입력 및 변환부, 상기 변환된 문자 데이터를 기계번역 데이터베이스에 기초하여 번역하는 번역부, 상기 번역된 문자 데이터를 스퍼팅 기술(Spotting)에 기초하여 자막으로 출력하는 자막 출력부, 상기 출력된 자막의 오류 여부를 판단한 후, 상기 판단된 결과에 따라 상기 출력된 자막을 후처리하는 자막 후처리부를 포함할 수 있다.

이 때 상기 신호 데이터 입력 및 변환부는 음성신호 데이터를 입력받는 신호 데이터 입력부, 상기 입력받은 음성신호 데이터를 적어도 하나의 단어가 포함된 구절로 분리하는 구절 분리부, 상기 분리된 구절을 기 저장된 발화정보에 대응하는 형태로 재구성하는 형태 재구성부, 상기 재구성된 구절을 기계번역이 용이한 문자 데이터로 변환하는 문자 데이터 변환부를 포함할 수 있다.

상기 기 저장된 발화정보는 적어도 하나 이상의 문장구조 유형이 저장된 정보라 할 수 있다.

상기 자막 출력부는 상기 번역된 문자 데이터를 스퍼팅 기술(Spotting)을 이용하여 출력 데이터 범위, 한 줄당 출력 글자 수, 출력 데이터 정렬방법 중 적어도 어느 하나 이상을 제어하여 자막을 출력하는 자막 출력 데이터 제어부, 상기 출력된 자막을 상기 신호 데이터 입력 및 변환부에 의해 입력받는 음성신호 데이터의 입력 속도에 기초하여 체류시간을 제어하는 자막 체류시간 제어부를 포함할 수 있다.

상기 스퍼팅 기술(Spotting)은 출력하고자 하는 자막의 언어별로 출력을 제어하는 기술이라 할 수 있다.

상기 자막 후처리부는 상기 출력된 자막의 언어에 대한 문법구조, 용어 표기법, 전문용어 중 적어도 어느 하나 이상이 저장된 언어 데이터베이스를 기초로 상기 출력된 자막의 오류 여부를 판단하는 오류 판단부, 상기 판단된 오류 여부로부터 오류가 검출되면 상기 출력된 자막을 수정하는 오류 수정부를 포함할 수 있다.

한편, 상기와 같은 목적을 달성하기 위하여 본 발명의 기술적 사상에 의한 인공지능 기반 실시간 자막번역 시스템은 상기 후처리된 자막, 상기 입력받은 음성신호 데이터, 상기 분리된 구절 및 상기 재구성된 구절을 상기 기계번역 데이터베이스에 저장하여 업데이트하는 업데이트부를 더 포함할 수 있다.

상기와 같은 목적을 달성하기 위하여 본 발명의 기술적 사상에 의한 인공지능 기반 실시간 자막번역 방법은 신호 데이터 입력 및 변환부에서 음성신호 데이터를 입력받아 기 저장된 발화정보에 따라 기계번역이 용이한 문자 데이터로 변환하는 신호 데이터 입력 및 변환단계, 번역부에서 상기 변환된 문자 데이터를 기계번역 데이터베이스에 기초하여 번역하는 번역단계, 자막 출력부에서 상기 번역된 문자 데이터를 스퍼팅 기술(Spotting)에 기초하여 자막으로 출력하는 자막 출력단계, 자막 후처리부에서 상기 출력된 자막의 오류 여부를 판단한 후, 상기 판단된 결과에 따라 상기 출력된 자막을 후처리하는 자막 후처리단계를 포함할 수 있다.

이 때 상기 신호 데이터 입력 및 변환단계는 신호 데이터 입력부에서 음성신호 데이터를 입력받는 신호 데이터 입력단계, 구절 분리부에서 상기 입력받은 음성신호 데이터를 적어도 하나의 단어가 포함된 구절로 분리하는 구절 분리단계, 형태 재구성부에서 상기 분리된 구절을 기 저장된 발화정보에 대응하는 형태로 재구성하는 형태 재구성단계, 문자 데이터 변환부에서 상기 재구성된 구절을 기계번역이 용이한 문자 데이터로 변환하는 문자 데이터 변환단계를 포함할 수 있다.

상기 자막 출력단계는 자막 출력 데이터 제어부에서 상기 번역된 문자 데이터를 스퍼팅 기술(Spotting)을 이용하여 출력 데이터 범위, 한 줄당 출력 글자 수, 출력 데이터 정렬방법 중 적어도 어느 하나 이상을 제어하여 자막을 출력하는 자막 출력 데이터 제어단계, 자막 체류시간 제어부에서 상기 출력된 자막을 상기 신호 데이터 입력 및 변환부에 의해 입력받은 음성신호 데이터의 입력 속도에 기초하여 체류시간을 제어하는 자막 체류시간 제어단계를 포함할 수 있다.

상기 자막 후처리단계는 오류 판단부에서 상기 출력된 자막의 언어에 대한 문법구조, 용어 표기법, 전문용어 중 적어도 어느 하나 이상이 저장된 언어 데이터베이스를 기초로 상기 출력된 자막의 오류 여부를 판단하는 오류 판단단계, 오류 수정부에서 상기 판단된 오류 여부로부터 오류가 검출되면 상기 출력된 자막을 수정하는 오류 수정단계를 포함할 수 있다.

한편, 상기와 같은 목적을 달성하기 위하여 본 발명의 기술적 사상에 의한 인공지능 기반 실시간 자막번역 방법에서 상기 기계번역 데이터베이스는 업데이트부에 의해 상기 후처리된 자막, 상기 입력받은 음성신호 데이터, 상기 분리된 구절 및 상기 재구성된 구절이 저장되어 업데이트된 데이터베이스라 할 수 있다.

이상에서 설명한 바와 같은 인공지능 기반 실시간 자막번역 시스템 및 방법에 따르면,

첫째, 인공지능을 기반으로 번역이 용이하도록 데이터를 전처리하고, 번역된 데이터를 다시 한 번 후처리함으로써 번역의 신뢰도를 높일 수 있는 효과를 가진다.

둘째, 음성인식 데이터를 기계번역이 용이한 데이터로 변환함으로써 기계번역의 정확도 및 활용도를 높일 수 있는 효과를 가진다.

셋째, 기계번역 데이터베이스의 데이터 축적, 누적 학습을 통해 번역의 신뢰도 및 속도를 높일 수 있는 효과를 가진다.

넷째, 출력하고자 하는 언어별 스퍼팅(Spotting) 기준에 기초하여 자막을 출력함으로써 자막의 가독성을 높일 수 있는 효과를 가진다.

다섯째, 언어별로 저장된 언어 데이터베이스를 통해 각 언어 특성에 적합한 오류 판단 및 수정이 가능하여 번역의 신뢰도를 높일 수 있는 효과를 가진다.

도 1은 본 발명의 실시예에 따른 인공지능 기반 실시간 자막번역 시스템을 나타낸 구성도.
도 2는 본 발명의 실시예에 따른 인공지능 기반 실시간 자막번역 방법을 나타낸 순서도.
도 3은 도 2에 따른 신호 데이터 입력 및 변환단계(S100)를 나타낸 순서도.
도 4는 도 2에 따른 자막 출력단계(S300)를 나타낸 순서도.
도 5는 도 2에 따른 자막 후처리단계(S400)를 나타낸 순서도.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다. 본 발명의 특징 및 이점들은 첨부 도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명의 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다. 또한 본 발명과 관련된 공지 기능 및 그 구성에 대한 구체적인 설명은 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 구체적인 설명을 생략하였음에 유의해야할 것이다.

도 1은 본 발명의 실시예에 따른 인공지능 기반 실시간 자막번역 시스템을 나타낸 구성도이다.

도 1을 참조하면, 본 발명의 실시예에 따른 인공지능 기반 실시간 자막번역 시스템은 신호 데이터 입력 및 변환부(100), 번역부(200), 자막 출력부(300) 및 자막 후처리부(400)를 포함할 수 있다.

신호 데이터 입력 및 변환부(100)는 음성신호 데이터를 입력받아 기 저장된 발화정보에 따라 기계번역이 용이한 문자 데이터로 변환할 수 있다.

보다 상세하게 신호 데이터 입력 및 변환부(100)는 신호 데이터 입력부(110), 구절 분리부(130), 형태 재구성부(150) 및 문자 데이터 변환부(170)를 포함할 수 있다.

신호 데이터 입력부(110)는 음성신호 데이터를 입력받을 수 있다. 이는 번역하고자 하는 데이터인 음성신호 데이터를 입력받기 위한 구성요소라 할 수 있다.

구절 분리부(130)는 신호 데이터 입력부(110)로부터 입력받은 음성신호 데이터를 구절로 분리할 수 있다. 이는 음성신호를 입력하는 사람의 구어체를 재구성하기 위해, 일정한 기준으로 구절을 분리하기 위한 구성요소라 할 수 있다.

이 때 구절 분리부(130)는 입력받은 음성신호 데이터를 적어도 하나의 단어가 포함된 구절로 분리할 수 있다. 이는 무분별한 구절 분리를 방지하기 위한 구절 분리 기준이라 할 수 있다.

형태 재구성부(150)는 구절 분리부(130)로부터 분리된 구절을 재구성할 수 있다. 이는 다양한 구어체 특성을 가진 사람들의 음성신호 데이터를 일정한 기준에 맞추어 재구성함으로써, 기계번역이 용이하도록 전처리하는 구성요소라 할 수 있다.

이 때 형태 재구성부(150)의 재구성 기준은 기 저장된 발화정보에 대응하는 형태라 할 수 있다. 기 저장된 발화정보는 음성인식 장치, 기계번역 장치 등과 같은 인식 또는 번역장치의 원리에 기초하여 사전에 저장된 정보라 할 수 있다. 이를 기초로 분리된 구절은 배열 및 문어체로 변환 등 다양하게 재구성될 수 있다.

즉, 형태 재구성부(150)는 구절 분리부(130)로부터 분리된 구절을 하나의 완성된 문장으로 변환하기 위한 구성요소라 할 수 있다.

이 때 기 저장된 발화정보는 적어도 하나 이상의 문장구조 유형이 저장된 정보라 할 수 있다. 즉, 기 저장된 발화정보란 기계번역의 용이한 처리를 위해 긴 문장을 단문 등으로 전환하기 위한 목적으로, 말에 내포된 문장종결어미 및 연결어를 추출해 전환할 수 있도록 제공하는 매칭정보라 할 수 있다.

형태 재구성부(150)의 예시는 다음과 같다.

분리된 구절 : 미얀마 정부의 경제개혁으로 매년 6-7%의 빠른 성장을 달성하고 있으며...

재구성된 구절 : 미얀마 정부의 경제개혁으로 매년 6-7%의 빠른 성장을 달성하고 있다. 그리고...

위의 예시와 같이 “있으며“는 ”있다. 그리고”의 의미를 내포한다 할 수 있다. 이처럼 문장의 형태가 아닐지라도 문장종결어미와 후속 문장의 연결어를 내포하고 있는 표현에 대해 매칭되는 표현으로 대체할 수 있다.

문자 데이터 변환부(170)는 형태 재구성부(150)로부터 재구성된 구절을 기계번역이 용이한 문자 데이터로 변환할 수 있다. 이는 신호 데이터 입력부(110) 내지 형태 재구성부(150)를 통해 전처리된 데이터를 기계 번역이 용이하도록 문자 형태의 데이터로 변환하기 위한 구성요소라 할 수 있다.

즉, 신호 데이터 입력 및 변환부(100)는 한국어에서 한국어로, 영어에서 영어와 같이 동일한 언어로 변환하고자, 음성신호를 문자 데이터로 변환하기 위한 구성요소라 할 수 있다. 이 때 문자 데이터 변환은 기계번역이 용이한 것으로, 단문 등의 문자 데이터로의 변환 등이 포함될 수 있다.

번역부(200)는 신호 데이터 입력 및 변환부(100)로부터 변환된 문자 데이터를 기계번역 데이터베이스(DB1)에 기초하여 번역할 수 있다. 이는 기계번역이 용이한 데이터로 변환된 문자 데이터를 번역함으로써 기계번역의 정확도 및 활용도를 높이기 위한 구성요소라 할 수 있다.

기 저장된 발화정보를 통해 음성신호 데이터가 변환된 예시는 다음과 같다.

입력된 음성인식 데이터: 네 뭐 그것도 사실 훌륭한 지적이십니다만, 앞서 말씀하신 내용과 연결해보면 제 생각에는 사실 누가 고양이의 목에 방울을 달지의 문제로 귀결되는 것이 아닌가 하는 생각이 드는데요.

변환된 문자 데이터: 훌륭한 지적이십니다. 결국 누가 고양이의 목에 방울을 달지의 문제로 귀결됩니다.

그리고, 번역부(200)를 통해 변환된 문자 데이터가 번역된 예시는 다음과 같다.

번역된 문자 데이터: It is a great point. Eventually, it will result in the issue of who drops the cat's neck.

즉, 번역부(200)는 한국어에서 영어와 같이 다른 언어로 변환하고자, 언어적인 변환을 하기 위한 구성요소라 할 수 있다.

자막 출력부(300)는 번역부(200)로부터 번역된 문자 데이터를 스퍼팅 기술(Spotting)에 기초하여 자막으로 출력할 수 있다. 이는 번역된 문자 데이터를 청중들이 독해할 수 있도록 자막으로 출력하기 위한 구성요소라 할 수 있다.

보다 상세하게 자막 출력부(300)는 자막 출력 데이터 제어부(310), 자막 체류시간 제어부(330)를 포함할 수 있다.

자막 출력 데이터 제어부(310)는 번역부(200)로부터 번역된 문자 데이터를 스퍼팅 기술(Spotting)을 이용하여 출력 데이터 범위, 한 줄당 출력 글자 수, 출력 데이터 정렬방법 중 적어도 어느 하나 이상을 제어하여 자막을 출력할 수 있다. 이는 번역된 문자 데이터의 독해력을 높이기 위해 출력하고자 하는 자막을 제어하기 위한 구성요소라 할 수 있다. 이 때 제어하고자 하는 대상은 출력 데이터 범위, 한 줄당 출력 글자 수, 출력 데이터 정렬방법 외에 독해력을 높일 수 있는 다양한 제어 대상이 포함될 수 있다.

자막 출력 데이터 제어부(310)의 스퍼팅 기술(Spotting)은 출력하고자 하는 자막의 언어별로 출력을 제어하는 기술이라 할 수 있다.

예를 들어 영어 자막의 경우 35글자를 넘길 수 없으며, 행은 두 줄을 넘길 수 없고, 가운데 또는 왼쪽 정렬로 화면 하단에 배치될 수 있도록 하는 기준을 입력할 수 있다. 중국어 자막의 경우 한 줄로 15자를 넘기지 못하며, 6초 이상 화면 상에 남아있지 못하게 하는 기준을 입력할 수 있다. 한국어 자막의 경우 1행은 빈칸 포함 13자를 기준으로 하고, 자막의 크기는 일정 크기 이상으어야 하며, 문장의 길이는 이해 가능한 범위 등 다양하게 기준을 입력할 수 있다.

자막 출력 데이터 제어부(310)를 통해 번역된 문자 데이터가 제어되어 출력된 예시는 다음과 같다.

문자 데이터: 네 뭐 그것도 사실 훌륭한 지적이십니다만, 앞서 말씀하신 내용과 연결해보면 제 생각에는 사실 누가 고양이의 목에 방울을 달지의 문제로 귀결되는 것이 아닌가 하는 생각이 드는데요.

자막 1: Excellent point.

자막 2: It boils down to the issue of who will bell the cat.

자막 체류시간 제어부(330)는 자막 출력 데이터 제어부(310)로부터 출력된 자막을 상기 신호 데이터 입력 및 변환부(100)에 의해 입력받는 음성신호 데이터의 입력 속도에 기초하여 체류시간을 제어할 수 있다. 예를 들어 자막의 체류시간을 음성신호 데이터가 입력되는 속도에 비례하도록 조절하는 것이라 할 수 있다. 연사의 발화속도(음성신호 데이터가 입력되는 속도)가 빠른 경우 자막 체류시간을 상대적으로 짧게 제어하고, 연사의 발화속도가 느린 경우 자막 체류시간을 상대적으로 길게 제어할 수 있다.

한편, 자막 출력부(300)는 카메라, 마이크 또는 센서 등을 더 포함하여 음성신호를 입력하는 사람의 모습과 음성을 포착 또는 인식할 수 있다. 이는 음성신호를 입력하는 사람이 변경되거나, 음성신호를 입력하는 사람이 적어도 2명 이상일 때 출력하고자 하는 자막을 구별하여 표기하기 위한 특징이라 할 수 있다.

이 때 자막의 구별은 자막의 색상, 폰트 등을 상이하게 하는 등 다양한 형태로 표기할 수 있다. 또한, 청중(출력된 자막을 독해하는 사람)이 아닌, 음성신호를 입력하는 사람이 발표자, 사회사, 패널 등 주요 연사일 경우 사전에 정식 또는 약식의 직함을 입력하여 함께 표기할 수 있다.

정식 식별 표기 예시는 다음과 같다.

중앙대 홍길동 교수(사회자): 훌륭한 지적이십니다만, 문제는 누가 고양이의 목에 방울을 달지 ...

미시건 대 Stuart 교수(패널): 제 생각에는 사회에서 제도적으로 이 같은 현실을 ...

약식 식별 표기 예시는 다음과 같다.

사회자: 훌륭한 지적이십니다만, 문제는 누가 고양이의 목에 방울을 달지 ...

패널 1: 제 생각에는 사회에서 제도적으로 이 같은 현실을 ...

나아가, 음성신호를 입력하는 사람 식별은 회의장에 지정된 마이크 사용에 따라 식별이 가능하도록 할 수 있다. 일반적으로 회의장에서는 사회자 마이크, 패널 마이크, 청중 마이크 등으로 사전에 배정되기 때문에, 이에 기초하여 어떤 마이크를 통해 음성이 들어오는지에 따라 자막 출력부(300)에 ‘사회자’, ‘강사’, ‘패널1’, ‘패널2’, ‘청중’ 등을 사전에 입력하여 식별 기능을 구현할 수 있다.

즉, 자막 출력부(300)는 자막이 용이하게 읽히도록 자막의 출력을 제어하는 구성요소라 할 수 있다.

자막 후처리부(400)는 자막 출력부(300)로부터 출력된 자막의 오류 여부를 판단한 후, 상기 판단된 결과에 따라 상기 출력된 자막을 후처리할 수 있다. 이는 출력된 자막의 신뢰도를 높이고자 다시 한 번 후처리하기 위한 구성요소라 할 수 있다.

보다 상세하게 자막 후처리부(400)는 오류 판단부(410) 및 오류 수정부(430)를 포함할 수 있다.

오류 판단부(410)는 자막 출력부(300)로부터 출력된 자막의 언어에 대한 문법구조, 용어 표기법, 전문용어 중 적어도 어느 하나 이상이 저장된 언어 데이터베이스(DB2)를 기초로 상기 출력된 자막의 오류 여부를 판단할 수 있다. 이는 사전에 저장된 전문분야 등의 구분에 따른 언어 데이터베이스에 기반하여, 인명, 고유명사, 철자, 문법, 자연스러운 언어사용, 전문용어의 정확성 등의 차원에서 자막번역의 완성도를 높이는 기능을 구현하기 위한 구성요소라 할 수 있다.

오류 수정부(430)는 오류 판단부(410)로부터 판단된 오류 여부로부터 오류가 검출되면 상기 출력된 자막을 수정할 수 있다. 이는 번역의 신뢰도를 높이기 위한 언어 특성에 적합한 오류 판단을 기초로 상기 출력된 자막을 수정하기 위한 구성요소라 할 수 있다.

자막 후처리부(400)를 통해 출력된 자막을 후처리한 예시는 다음과 같다.

출력된 자막: It is a great point. Eventually, it will result in the issue of who drops the cat's neck.

후처리한 자막: Excellent point. It boils down to the issue of who will bell the cat.

즉, 자막 후처리부(400)는 자막 후처리부(300)로부터 출력된 자막의 언어에 해당하는 문법, 전문용어, 인명, 고유명사 등의 오류 등을 완성도 있게 수정 및 변환하는 구성요소라 할 수 있다.

이와 같이 후처리된 자막은 청중(출력된 자막을 독해하는 사람) 각자의 태블릿 PC, 스마트폰 또는 중앙 모니터 등을 통해 출력될 수 있다.

청중(출력된 자막을 독해하는 사람) 개인의 디바이스에서는 관련 어플리케이션 등의 설치를 통해 자막을 확인할 수 있다. 이 때 개인별 디바이스 장치에서의 경우, 청중 각자가 자막을 2줄 형태로 볼 것인지, 기존의 자막들이 계속 긴 텍스트처럼 누적되는 형식으로 볼 것인지를 선택 가능하도록 구현될 수 있다.

일시적 자막 출력 예시는 다음과 같다.

자막1: 훌륭한 지적이십니다.

문제는 누가 고양이의 목에 (5초 체류 후 사라짐)

자막 2: 방울을 달지의 문제로 귀결되는 것 같습니다. (5초 체류 후 사라짐)

누적형 자막 출력 예시는 다음과 같다.

발표자: 네 이상으로 제 발표를 마치겠습니다.

사회자: 훌륭한 지적이십니다. 문제는 누가 고양이의 목에 방울을 달지의 문제로 귀결되는 것 같습니다.

패널: 제 생각에는 우리사회에서 제도적으로 이 같은 현실을 해결할 수 있는 유일한 방법은 다음과 같습니다.

한편, 기계번역 데이터베이스(DB1)는 업데이트부(미도시)를 더 포함하여 구축될 수 있다. 보다 상세하게 업데이트부는 신호 데이터 입력부(110)로부터 입력받은 음성신호 데이터, 구절 분리부(130)로부터 분리된 구절, 형태 재구성부(150)로부터 재구성된 구절, 자막 후처리부(400)로부터 후처리된 자막을 기계번역 데이터베이스(DB1)에 저장하여 업데이트할 수 있다.

업데이트부에 의해 업데이트된 기계번역 데이터베이스(DB1)는 추후 유사 또는 동일한 음성신호 데이터를 입력받을 때 활용될 수 있다. 즉, 기계번역 데이터베이스(DB1)의 데이터 축적, 누적 학습을 통해 번역의 신뢰도 및 속도를 높일 수 있다.

기계번역 데이터베이스(DB1)에 저장 및 업데이트되는 데이터 예시는 다음과 같다.

문장 1: 훌륭한 지적이십니다. Excellent point.

문장 2: 결국 누가 고양이의 목에 방울을 달지의 문제로 귀결됩니다/It boils down to the issue of who will bell the cat.

도 2는 본 발명의 실시예에 따른 인공지능 기반 실시간 자막번역 방법을 나타낸 순서도이다.

도 2를 참조하면, 본 발명의 실시예에 따른 인공지능 기반 실시간 자막번역 방법은 신호 데이터 입력 및 변환단계(S100), 번역단계(S200), 자막 출력단계(S300) 및 자막 후처리단계(S400)를 포함할 수 있다.

신호 데이터 입력 및 변환단계는 신호 데이터 입력 및 변환부(100)에서 음성신호 데이터를 입력받아 기 저장된 발화정보에 따라 기계번역이 용이한 문자 데이터로 변환할 수 있다(S100).

보다 상세하게 신호 데이터 입력 및 변환단계(S100)는 도 3을 참조하여 설명할 수 있다. 도 3은 도 2에 따른 신호 데이터 입력 및 변환단계(S100)를 나타낸 순서도이다.

도 3을 참조하면, 신호 데이터 입력 및 변환단계(S100)는 신호 데이터 입력단계(S110), 구절 분리단계(S130), 형태 재구성단계(S150) 및 문자 데이터 변환단계(S170)를 포함할 수 있다.

신호 데이터 입력단계는 음성신호 데이터를 입력받을 수 있다(S110). 이는 번역하고자 하는 데이터인 음성신호 데이터를 입력받기 위한 단계라 할 수 있다.

구절 분리단계는 신호 데이터 입력부(S110)로부터 입력받은 음성신호 데이터를 구절로 분리할 수 있다(S130). 이는 음성신호를 입력하는 사람의 구어체를 재구성하기 위해, 일정한 기준으로 구절을 분리하기 위한 단계라 할 수 있다.

이 때 구절 분리단계(S130)는 입력받은 음성신호 데이터를 적어도 하나의 단어가 포함된 구절로 분리할 수 있다. 이는 무분별한 구절 분리를 방지하기 위한 구절 분리 기준이라 할 수 있다.

형태 재구성단계는 구절 분리단계(S130)로부터 분리된 구절을 재구성할 수 있다(S150). 이는 다양한 구어체 특성을 가진 사람들의 음성신호 데이터를 일정한 기준에 맞추어 재구성함으로써, 기계번역이 용이하도록 전처리하는 단계라 할 수 있다.

이 때 형태 재구성단계(S150)의 재구성 기준은 기 저장된 발화정보에 대응하는 형태라 할 수 있다. 기 저장된 발화정보는 음성인식 장치, 기계번역 장치 등과 같은 인식 또는 번역장치의 원리에 기초하여 사전에 저장된 정보라 할 수 있다. 이를 기초로 분리된 구절은 배열 및 문어체로 변환 등 다양하게 재구성될 수 있다.

즉, 형태 재구성단계(S150)는 구절 분리단계(S130)로부터 분리된 구절을 하나의 완성된 문장으로 변환하기 위한 단계라 할 수 있다.

문자 데이터 변환단계는 문자 데이터 변환부(170)에서 형태 재구성부(150)로부터 재구성된 구절을 기계번역이 용이한 문자 데이터로 변환할 수 있다(S170). 이는 신호 데이터 입력단계(S110) 내지 형태 재구성단계(S150)를 통해 전처리된 데이터를 기계 번역이 용이하도록 문자 형태의 데이터로 변환하기 위한 단계라 할 수 있다.

즉, 신호 데이터 입력 및 변환단계(S100)는 한국어에서 한국어로, 영어에서 영어와 같이 동일한 언어로 변환하고자, 음성신호를 문자 데이터로 변환하기 위한 단계라 할 수 있다. 이 때 문자 데이터 변환은 기계번역이 용이한 것으로, 단문 등의 문자 데이터로의 변환 등이 포함될 수 있다.

번역단계는 신호 데이터 입력 및 변환단계(S100)로부터 변환된 문자 데이터를 기계번역 데이터베이스(DB1)에 기초하여 번역할 수 있다(S200). 이는 기계번역이 용이한 데이터로 변환된 문자 데이터를 번역함으로써 기계번역의 정확도 및 활용도를 높이기 위한 단계라 할 수 있다.

즉, 번역단계(S200)는 한국어에서 영어와 같이 다른 언어로 변환하고자, 언어적인 변환을 하기 위한 단계라 할 수 있다.

자막 출력단계는 번역단계(S200)로부터 번역된 문자 데이터를 스퍼팅 기술(Spotting)에 기초하여 자막으로 출력할 수 있다(S300). 이는 번역된 문자 데이터를 청중들이 독해할 수 있도록 자막으로 출력하기 위한 단계라 할 수 있다.

보다 상세하게 자막 출력단계(S300)는 도 4를 참조하여 설명할 수 있다. 도 4는 도 2에 따른 자막 출력단계(S300)를 나타낸 순서도이다.

도 4를 참조하면, 자막 출력단계(S300)는 자막 출력 데이터 제어단계(S310), 자막 체류시간 제어단계(S330)를 포함할 수 있다.

자막 출력 데이터 제어단계는 번역단계(S200)로부터 번역된 문자 데이터를 스퍼팅 기술(Spotting)을 이용하여 출력 데이터 범위, 한 줄당 출력 글자 수, 출력 데이터 정렬방법 중 적어도 어느 하나 이상을 제어하여 자막을 출력할 수 있다(S310). 이는 번역된 문자 데이터의 독해력을 높이기 위해 출력하고자 하는 자막을 제어하기 위한 단계라 할 수 있다. 이 때 제어하고자 하는 대상은 출력 데이터 범위, 한 줄당 출력 글자 수, 출력 데이터 정렬방법 외에 독해력을 높일 수 있는 다양한 제어 대상이 포함될 수 있다.

자막 출력 데이터 제어단계(S310)의 스퍼팅 기술(Spotting)은 출력하고자 하는 자막의 언어별로 출력을 제어하는 기술이라 할 수 있다.

예를 들어 영어 자막의 경우 35글자를 넘길 수 없으며, 행은 두 줄을 넘길 수 없고, 가운데 또는 왼쪽 정렬로 화면 하단에 배치될 수 있도록 하는 기준을 입력할 수 있다. 중국어 자막의 경우 한 줄로 15자를 넘기지 못하며, 6초 이상 화면 상에 남아있지 못하게 하는 기준을 입력할 수 있다. 한국어 자막의 경우 1행은 빈칸 포함 13자를 기준으로 하고, 자막의 크기는 일정 크기 이상이어야 하며, 문장의 길이는 이해 가능한 범위 등 다양하게 기준을 입력할 수 있다.

자막 체류시간 제어단계는 자막 출력 데이터 제어단계(S310)로부터 출력된 자막을 상기 신호 데이터 입력 및 변환부(100)에 의해 입력받는 음성신호 데이터의 입력 속도에 기초하여 체류시간을 제어할 수 있다(S330). 예를 들어 자막의 체류시간을 음성신호 데이터가 입력되는 속도에 비례하도록 조절하는 것이라 할 수 있다. 연사의 발화속도(음성신호 데이터가 입력되는 속도)가 빠른 경우 자막 체류시간을 상대적으로 짧게 제어하고, 연사의 발화속도가 느린 경우 자막 체류시간을 상대적으로 길게 제어할 수 있다.

한편, 자막 출력단계(S300)는 카메라, 마이크 또는 센서 등을 더 포함하여 음성신호를 입력하는 사람의 모습과 음성을 포착 또는 인식할 수 있다. 이는 음성신호를 입력하는 사람이 변경되거나, 음성신호를 입력하는 사람이 적어도 2명 이상일 때 출력하고자 하는 자막을 구별하여 표기하기 위한 특징이라 할 수 있다.

즉, 자막 출력단계(S300)는 자막이 용이하게 읽히도록 자막의 출력을 제어하는 단계라 할 수 있다.

자막 후처리단계는 자막 출력단계(S300)로부터 출력된 자막의 오류 여부를 판단한 후, 상기 판단된 결과에 따라 상기 출력된 자막을 후처리할 수 있다(S400). 이는 출력된 자막의 신뢰도를 높이고자 다시 한 번 후처리하기 위한 단계라 할 수 있다.

보다 상세하게 자막 후처리단계(S400)는 도 5를 참조하여 설명할 수 있다. 도 5는 도 2에 따른 자막 후처리단계(S400)를 나타낸 순서도이다.

도 5를 참조하면, 자막 후처리단계(S400)는 오류 판단단계(S410), 오류 수정단계(S430)를 포함할 수 있다.

오류 판단단계는 자막 출력단계(S300)로부터 출력된 자막의 언어에 대한 문법구조, 용어 표기법, 전문용어 중 적어도 어느 하나 이상이 저장된 언어 데이터베이스(DB2)를 기초로 상기 출력된 자막의 오류 여부를 판단할 수 있다(S410). 이는 사전에 저장된 전문분야 등의 구분에 따른 언어 데이터베이스에 기반하여, 인명, 고유명사, 철자, 문법, 자연스러운 언어사용, 전문용어의 정확성 등의 차원에서 자막번역의 완성도를 높이는 기능을 구현하기 위한 단계라 할 수 있다.

오류 수정단계는 오류 판단단계(410)로부터 판단된 오류 여부로부터 오류가 검출되면 상기 출력된 자막을 수정할 수 있다(S430). 이는 번역의 신뢰도를 높이기 위한 언어 특성에 적합한 오류 판단을 기초로 상기 출력된 자막을 수정하기 위한 단계라 할 수 있다.

즉, 자막 후처리단계(S400)는 자막 후처리단계(S300)로부터 출력된 자막의 언어에 해당하는 문법, 전문용어, 인명, 고유명사 등의 오류 등을 완성도 있게 수정 및 변환하는 단계라 할 수 있다.

한편, 기계번역 데이터베이스(DB1)는 업데이트부에 의해 데이터가 저장되어 업데이트될 수 있다. 이 때 저장 및 업데이트되는 데이터는 신호 데이터 입력단계(S110)로부터 입력받은 음성신호 데이터, 구절 분리단계(S130)로부터 분리된 구절, 형태 재구성단계(S150)로부터 재구성된 구절, 자막 후처리단계(S400)로부터 후처리된 자막이라 할 수 있다.

이상에서 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시 예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정들도 본 발명의 범위에 속하는 것으로 간주되어야할 것이다.

100 : 신호 데이터 입력 및 변환부 110 : 신호 데이터 입력부
130 : 구절 분리부 150 : 형태 재구성부
170 : 문자 데이터 변환부 200 : 번역부
300 : 자막 출력부 310 : 자막 출력 데이터 제어부
330 : 자막 체류시간 제어부 400 : 자막 후처리부
410 : 오류 판단부 430 : 오류 수정부
DB1 : 기계번역 데이터베이스 DB2 : 언어 데이터베이스

Claims

음성신호 데이터를 입력받아 기 저장된 발화정보에 따라 기계번역이 용이한 문자 데이터로 변환하는 신호 데이터 입력 및 변환부;
상기 변환된 문자 데이터를 기계번역 데이터베이스에 기초하여 번역하는 번역부;
상기 번역된 문자 데이터를 스퍼팅 기술(Spotting)에 기초하여 자막으로 출력하는 자막 출력부; 및
상기 출력된 자막의 오류 여부를 판단한 후, 상기 판단된 결과에 따라 상기 출력된 자막을 후처리하는 자막 후처리부;를 포함하는 인공지능 기반 실시간 자막번역 시스템.
제 1 항에 있어서, 상기 신호 데이터 입력 및 변환부는,
음성신호 데이터를 입력받는 신호 데이터 입력부;
상기 입력받은 음성신호 데이터를 적어도 하나의 단어가 포함된 구절로 분리하는 구절 분리부;
상기 분리된 구절을 기 저장된 발화정보에 대응하는 형태로 재구성하는 형태 재구성부; 및
상기 재구성된 구절을 기계번역이 용이한 문자 데이터로 변환하는 문자 데이터 변환부;를 포함하는 인공지능 기반 실시간 자막번역 시스템.
제 2 항에 있어서,
상기 후처리된 자막, 상기 입력받은 음성신호 데이터, 상기 분리된 구절 및 상기 재구성된 구절을 상기 기계번역 데이터베이스에 저장하여 업데이트하는 업데이트부;를 더 포함하는 인공지능 기반 실시간 자막번역 시스템.
제 2 항에 있어서, 상기 기 저장된 발화정보는,
적어도 하나 이상의 문장구조 유형이 저장된 정보인 인공지능 기반 실시간 자막번역 시스템.
제 1 항에 있어서, 상기 자막 출력부는,
상기 번역된 문자 데이터를 스퍼팅 기술(Spotting)을 이용하여 출력 데이터 범위, 한 줄당 출력 글자 수, 출력 데이터 정렬방법 중 적어도 어느 하나 이상을 제어하여 자막을 출력하는 자막 출력 데이터 제어부; 및
상기 출력된 자막을 상기 신호 데이터 입력 및 변환부에 의해 입력받는 음성신호 데이터의 입력 속도에 기초하여 체류시간을 제어하는 자막 체류시간 제어부;를 포함하는 인공지능 기반 실시간 자막번역 시스템.
제 5 항에 있어서, 상기 스퍼팅 기술(Spotting)은,
출력하고자 하는 자막의 언어별로 출력을 제어하는 기술인 인공지능 기반 실시간 자막번역 시스템.
제 1 항에 있어서, 상기 자막 후처리부는,
상기 출력된 자막의 언어에 대한 문법구조, 용어 표기법, 전문용어 중 적어도 어느 하나 이상이 저장된 언어 데이터베이스를 기초로 상기 출력된 자막의 오류 여부를 판단하는 오류 판단부; 및
상기 판단된 오류 여부로부터 오류가 검출되면 상기 출력된 자막을 수정하는 오류 수정부;를 포함하는 인공지능 기반 실시간 자막번역 시스템.
신호 데이터 입력 및 변환부에서 음성신호 데이터를 입력받아 기 저장된 발화정보에 따라 기계번역이 용이한 문자 데이터로 변환하는 신호 데이터 입력 및 변환단계;
번역부에서 상기 변환된 문자 데이터를 기계번역 데이터베이스에 기초하여 번역하는 번역단계;
자막 출력부에서 상기 번역된 문자 데이터를 스퍼팅 기술(Spotting)에 기초하여 자막으로 출력하는 자막 출력단계; 및
자막 후처리부에서 상기 출력된 자막의 오류 여부를 판단한 후, 상기 판단된 결과에 따라 상기 출력된 자막을 후처리하는 자막 후처리단계;를 포함하는 인공지능 기반 실시간 자막번역 방법.
제 8 항에 있어서, 상기 신호 데이터 입력 및 변환단계는,
신호 데이터 입력부에서 음성신호 데이터를 입력받는 신호 데이터 입력단계;
구절 분리부에서 상기 입력받은 음성신호 데이터를 적어도 하나의 단어가 포함된 구절로 분리하는 구절 분리단계;
형태 재구성부에서 상기 분리된 구절을 기 저장된 발화정보에 대응하는 형태로 재구성하는 형태 재구성단계; 및
문자 데이터 변환부에서 상기 재구성된 구절을 기계번역이 용이한 문자 데이터로 변환하는 문자 데이터 변환단계;를 포함하는 인공지능 기반 실시간 자막번역 방법.
제 9 항에 있어서, 기계번역 데이터베이스는,
업데이트부에 의해 상기 후처리된 자막, 상기 입력받은 음성신호 데이터, 상기 분리된 구절 및 상기 재구성된 구절이 저장되어 업데이트된 데이터베이스인 인공지능 기반 실시간 자막번역 방법.
제 9 항에 있어서, 상기 기 저장된 발화정보는,
적어도 하나 이상의 문장구조 유형이 저장된 정보인 인공지능 기반 실시간 자막번역 방법.
제 8 항에 있어서, 상기 자막 출력단계는,
자막 출력 데이터 제어부에서 상기 번역된 문자 데이터를 스퍼팅 기술(Spotting)을 이용하여 출력 데이터 범위, 한 줄당 출력 글자 수, 출력 데이터 정렬방법 중 적어도 어느 하나 이상을 제어하여 자막을 출력하는 자막 출력 데이터 제어단계; 및
자막 체류시간 제어부에서 상기 출력된 자막을 상기 신호 데이터 입력 및 변환부에 의해 입력받은 음성신호 데이터의 입력 속도에 기초하여 체류시간을 제어하는 자막 체류시간 제어단계;를 포함하는 인공지능 기반 실시간 자막번역 방법.
제 12 항에 있어서, 상기 스퍼팅 기술(Spotting)은,
출력하고자 하는 자막의 언어별로 출력을 제어하는 기술인 인공지능 기반 실시간 자막번역 방법.
제 8 항에 있어서, 상기 자막 후처리단계는,
오류 판단부에서 상기 출력된 자막의 언어에 대한 문법구조, 용어 표기법, 전문용어 중 적어도 어느 하나 이상이 저장된 언어 데이터베이스를 기초로 상기 출력된 자막의 오류 여부를 판단하는 오류 판단단계; 및
오류 수정부에서 상기 판단된 오류 여부로부터 오류가 검출되면 상기 출력된 자막을 수정하는 오류 수정단계;를 포함하는 인공지능 기반 실시간 자막번역 방법.