KR20190052924A

KR20190052924A - 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법

Info

Publication number: KR20190052924A
Application number: KR1020170148777A
Authority: KR
Inventors: 이기영; 김창현; 김영길
Original assignee: 한국전자통신연구원
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2019-05-17
Also published as: KR102253015B1

Abstract

본 발명은 실시간 강연 자동통역의 사전작업으로서 강연자의 발표자료 분석을 통하여 실시간 자동 동시통역 시스템의 번역지식을 해당 강연 도메인에 맞도록 조정하는 방식을 포함하는 것으로, 강연자의 발표자료를 자동으로 분석하여 사용자사전 확장, 음성인식 사전 반영, 미등록어 대역어 구축, 시스템 사전 대역어 가중치 조절 등의 도메인 적용(adaptation) 과정을 수행하는 것을 특징으로 한다.

Description

발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법{Apparatus and method of an automatic simultaneous interpretation using presentation scripts analysis}

본 발명은 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법에 관한 것으로, 특히, 동시 통역 성능을 개선하기 위해 강연자의 발표자료를 자동으로 분석하여 실시간으로 이루어지는 자동 동시 통역 성능을 향상시키도록 한 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법 에 관한 것이다.

최근, 자연어 처리 분야의 비약적인 발전은 음성언어와 관련된 많은 어플리케이션의 개발을 가능하게 하였다. 특히 신경망 기반 자동 학습 기술의 발달은 음성인식 및 자동 번역의 품질을 한 단계 높이는 직접적인 원인이 되었다.

이러한 결과로 최근에는 연속적인 발화를 자동으로 번역하는 실시간 동시 통역과 같은 기술에 많은 관심이 집중되고 있다.

실시간 자동 동시 통역은 강연이나 강좌에서 강연자와 청중의 모국어가 다를 경우, 이러한 언어적 차이를 해소하기 위하여 강연 내용을 실시간으로 동시통역하여 청중에게 제공함으로써 청중이 강연내용을 이해하도록 도와주는 기술이다.

일반적으로 사람에 의한 동시통역을 생각해 볼 때, 동시통역가는 통역을 위한 준비 작업으로 자신이 통역할 강연의 도메인(분야) 정보나 통역할 강연과 관련된 단어집 등을 미리 준비한다. 이러한 사전 작업을 통하여 동시통역가는 실제 통역 상황에서 발생할 수도 있는 다양한 언어적 모호성 문제를 해결할 수 있다. 이러한 이유는 영한 동시통역의 예를 들 때, 많은 영어 어휘가 다양한 한국어로 번역될 수 있기 때문이다.

동일한 이유로 실시간 자동 동시통역의 경우에도 해당 강연에 대한 사전 정보를 미리 알 수 있다면, 언어가 갖는 번역 모호성의 해소와 문맥에 맞는 대역문장 생성에 도움이 될 수 있다.

실시간 자동 동시통역을 위해 기본적으로 음성인식과 자동번역 장치를 구비하여 동시통역 장치를 구성한다고 할 때, 단순히 문장 단위의 번역은 수행할 수 있다. 하지만, 보다 양질의 번역결과를 생성하는 측면에서 볼 때, 단순히 시스템이 가지고 있는 일반적인 번역지식을 활용해서는 문맥에 맞는 정확한 번역을 수행할 수 없다. 이러한 이유는 기존의 자동통번역 시스템은 특정 강연을 위해 최적화되어 있지 않으며, 그 번역지식도 최적화되어 있지 않기 때문이다.

예를 들어, “You may change its resolution or leave it unchanged.” 과 같은 영어 문장을 한국어로 동시통역할 때, 의미적 모호성을 지니는 resolution의 대역어를 결정하는 것은 문맥을 고려하지 않고서는 상당히 어렵다.

이러한 경우, 강연자가 강연할 내용을 미리 아는 것은 정확한 번역 품질을 제공하는데 있어서 상당히 중요한 역할을 할 수 있다.

따라서, 강연자의 발표자료를 자동으로 분석함으로써 강연 의도, 내용, 어휘, 문장 등을 미리 파악하여 올바른 번역결과를 제공할 수 있는 연구가 필요한 실정이다.

따라서, 상기한 기술적 문제점을 해결하기 위한 본 발명의 목적은, 실시간 자동 동시통역을 하는데 있어서 문맥 정보를 미리 자동으로 파악하여 강연 도메인 및 문맥에 맞는 가장 정확하고 자연스러운 번역결과를 생성하도록 한 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법을 제공함에 있다.

즉, 본 발명은 강연자의 발표자료를 자동으로 스캔하여 발표자료의 어휘, 문장 등을 분석하고, 미등록어, 고유명사, 의미관계 및 대역어 정보 등을 가공하여 번역 지식화함으로써 강연자의 강연을 보다 정확하게 동시통역하도록 한 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법을 제공함에 그 목적이 있는 것이다.

상기한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치는 문서 또는 전자 문서에 포함된 문자열 정보를 인식하고 이를 텍스트화하는 문자 인식부; 상기 문자 인식부를 통해 인식된 텍스트에 대하여 형태소 분석을 수행하여 토큰을 추출하는 형태소 분석부; 상기 형태소 분석부에서 제공되는 토큰을 번역 사전 데이터베이스에 저장된 등록어와 비교하여 미등록어를 추출하는 미등록어 추출부; 및 상기 미등록어 추출부를 통해 추출된 미등록어를 상기 번역 사전 데이터베이스에 등록하여 갱신하는 번역 지식 반영부;를 포함한다.

본 발명의 일 실시예에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법은 문자 인식부가 문서 또는 전자 문서에 포함된 문자열 정보를 인식하고 이를 텍스트화하는 단계; 형태소 분석부가 상기 문자 인식부를 통해 인식된 텍스트에 대하여 형태소 분석을 수행하여 토큰을 추출하는 단계; 미등록어 추출부가 상기 형태소 분석부에서 제공되는 토큰을 번역 사전 데이터베이스에 저장된 등록어와 비교하여 미등록어를 추출하는 단계; 및 번역 지식 반영부가 상기 미등록어 추출부를 통해 추출된 미등록어를 상기 번역 사전 데이터베이스에 등록하여 갱신하는 단계;를 포함한다.

본 발명에 따르면, 종래의 강연 동시통역 장치는 대부분의 자동번역 장치가 갖는 문제점들을 가지고 있다. 즉, 미등록어 문제, 고유명사 문제, 음성인식 오류, 도메인 적용 오류 등이 바로 그것이다. 이러한 문제들은 강연자의 강연이 청중에게 정확하게 전달되지 않도록 한다.

이를 위해 강연과 가장 직접, 간접적으로 관련이 있는 강연자의 발표자료를 분석함으로써 강연을 구성하고 있는 주요 어휘와 이들 어휘 간의 의미관계를 파악한다. 이러한 분석 과정을 통해서 사용자 사전 구축, 미등록어 등록, 음성인식 지식 확장 및 대역어 가중치 조절을 수행한다. 이렇게 번역지식이 강연을 위해 조정된 후, 강연 동시통역에 적용될 경우, 상기의 오류들을 상당히 줄일 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치에 대한 블록 구성을 나타낸 도면,
도 2는 본 발명의 일 실시예에 채용된 특수 대역어 추출부를 설명하기 위한 기능블럭도.
도 3은 본 발명의 일 실시예에 채용된 문자 인식부를 설명하기 위한 기능 블록도.
도 4는 본 발명의 본 발명의 다른 실시예에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치를 설명하기 위한 기능블럭도.
도 5는 본 발명의 일 실시예에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법을 설명하기 위한 순서도.
도 6은 본 발명의 다른 실시예에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법 방법을 설명하기 위한 순서도이다.

이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 설명한다. 본 발명에 따른 동작 및 작용을 이해하는 데 필요한 부분을 중심으로 상세히 설명한다. 본 발명의 실시 예를 설명하면서, 본 발명이 속하는 기술 분야에 익히 알려졌고 본 발명과 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 요지를 흐리지 않고 더욱 명확히 전달하기 위함이다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 동일한 명칭의 구성 요소에 대하여 도면에 따라 다른 참조부호를 부여할 수도 있으며, 서로 다른 도면임에도 동일한 참조부호를 부여할 수도 있다. 그러나 이와 같은 경우라 하더라도 해당 구성 요소가 실시 예에 따라 서로 다른 기능을 갖는다는 것을 의미하거나, 서로 다른 실시 예에서 동일한 기능을 갖는다는 것을 의미하는 것은 아니며, 각각의 구성 요소의 기능은 해당 실시 예에서의 각각의 구성 요소에 대한 설명에 기초하여 판단하여야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치에 대한 블록 구성을 나타낸 도면이다.

도 1에 도시한 바와 같이, 본 발명에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치는, 문자 인식부(100), 형태소 분석부(200), 번역사전 데이터베이스(300), 특수 대역어 추출부(400), 특수 대역어 표시부(500), 사용자 대역어 처리부(600) 및 번역 지식 반영부(700)를 포함하여 이루어진다.

문자 인식부(100)는 문서 또는 전자 문서에 포함된 문자열 정보를 인식하고 이를 텍스트화하는 역할을 한다.

그리고 형태소 분석부(200)는 상기 문자 인식부(100)를 통해 인식된 텍스트에 대하여 형태소 분석을 수행하여 토큰을 추출하는 역할을 한다.

특수 대역어 추출부(400)는 상기 형태소 분석부(200)의 형태소 분석된 발표자료에 등장하는 어휘들을 분석하여 특수 대역어를 추출하는 역할을 한다.

그리고 특수 대역어 표시부(500)는 상기 추출된 특수 대역어를 표시하는 역할을 한다.

또한 사용자 대역어 처리부(600)는 상기 특수 대역어 표시부(500)를 통해 표시된 상기 특수 대역어에 대하여 사용자가 직접 대역어를 결정할 수 있도록, 상기 특수 대역어에 대한 사용자 대역어를 입력받는 역할을 한다.

그리고, 상기 번역 지식 반영부(700)는, 상기 사용자 대역어 처리부(600)를 통해 입력된 사용자 대역어를 상기 번역 사전 데이터베이스(130)에 등록하여 갱신할 수 있다.

이러한 본 발명의 일 실시예에 따르면, 강연과 직, 간접적으로 관련이 있는 강연자의 발표자료를 사전에 분석하여 강연을 구성하고 있는 주요 어휘와 이들 어휘 간의 이미 관계를 파악하여, 실제 강연 시 이용될 번역 사전의 등록어를 조정함으로써, 강연에 대한 동시 통역 시 통역 오류를 줄여줄 수 있는 효과가 있다.

한편, 번역 지식 반영부(700)는 사용자 대역어를 번역 사전 데이터베이스(130)에만 갱신하지 않고, 음성인식용 사전에도 등록할 수 있다. 이와 같이, 번역 지식 반영부(700)가 음성인식용 사전에 사용자 대역어를 등록함으로써, 특정 어휘에 대한 발음 사전을 비롯한 음성인식 지식에 발표자료의 어휘에 대한 정보를 미리 반영할 수 있게 된다.

따라서, 실제 강연에서 음성인식을 할 때, 해당 사용자 대역어에 대한 가중치를 높이 할당함으로써 음성인식 오류를 줄이는데 도움을 줄 수 있다.

여기서, 본 발명의 일 실시예에 채용된 특수 대역어 추출부(400)는 형태소 분석을 통해 획득한 토큰에서 의미적 모호성을 지니는 대역어를 추출하는 것이 바람직하다. 즉, 특수 대역어 추출부(400)는 원시어휘와 대역어휘를 동일한 의미벡터 스페이스 상에 투사하여 강연에 등장하는 어휘의 전반적인 의미관계와 도메인 정보를 의미적으로 파악함으로써, 문맥과 맞지 않는 대역어를 추출할 수 있다.

도 2는 본 발명의 일 실시예에 채용된 특수 대역어 추출부를 설명하기 위한 기능블럭도이다.

도 2에 도시된 바와 같이, 그리고, 본 발명의 일 실시예에 채용된 특수 대역어 추출부(400)는 언어적 특성 등을 이용하여 추출된 어휘의 고유명사 여부를 파악하는 고유명사 인식부(410)를 포함할 수 있다.

여기서 고유명사 인식부(410)는 영어의 경우, 음성인식된 강연 발화문장은 모두 소문자로 구성되어 있어서 고유명사를 인식하기 어렵지만, 발표자료 상의 고유명사는 대문자로 시작하기 때문에 고유명사임을 쉽게 인식할 수 있다.

또한, 본 발명의 일 실시예에 채용된 특수 대역어 추출부(400)는 전체 발표자료 상의 어휘들 간의 의미관계를 분석하는 어휘 의미관계 분석부(420)를 포함할 수 있다. 본 발명의 일 실시예에 채용된 어휘 의미관계 분석부(420)는 word2vec 기술을 이용하는 것이 바람직하다.

그리고, 특수 대역어 추출부(400)는 보통 의미적으로 연관성을 지니는 어휘들은 유사한 의미 클러스터 주변에 투사되며, 이들 유사 의미 클러스터 주변의 어휘들은 서로 의미적 관계가 크다고 볼 수 있기 때문에, 의미관계를 이용하여 대역어 선택 모호성이 있는 어휘들의 대역어를 결정하기 위한 가중치를 조정하는 가중치 조정부(430)를 더 포함할 수 있다.

이러한, 본 발명의 다른 실시예에 채용된 가중치 조정부(430)에 따르면, 문맥과 맞지 않는 대역어에 대한 가중치를 낮추고, 문맥에 맞는 대역어에 대한 가중치를 높여서 문맥에 맞는 자연스러운 번역이 가능하도록 하는 장점이 있다.

도 3은 본 발명의 일 실시예에 채용된 문자 인식부를 설명하기 위한 기능 블록도이다.

도 3에 도시된 바와 같이, 본 발명의 일 실시예에 채용된 문자 인식부(100)는, 발표자료가 하드카피인 경우, 하드카피내 문자열 정보를 인식한 후, 텍스트화하여 상기 형태소 분석부(200)로 제공하는 OCR 문자 인식부(110)인 것이 바람직하다.

그리고, 발표자료가 전자파일인 경우, 상기 문자 인식부(100)는 전자파일내 문자열 정보를 인식한 후, 텍스트화하여 상기 형태소 분석부(200)로 제공하는 전자파일 인식부(120)를 포함할 수 있다.

도 4는 본 발명의 본 발명의 다른 실시예에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치를 설명하기 위한 기능블럭도이다.

도 4에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치는 미등록어 추출부(800)를 더 포함하여 이루어질 수 있다.

미등록어 추출부(800)는 상기 형태소 분석부(200)에서 제공되는 토큰을 번역 사전 데이터베이스(130)에 저장된 등록어와 비교하여 미등록어를 추출하는 역할을 한다.

이에, 번역 지식 반영부(700)는 미등록어 추출부(800)를 통해 추출된 미등록어를 상기 번역 사전 데이터베이스(130)에 등록하여 갱신하는 역할을 한다.

이러한 본 발명의 일 실시예에 따르면, 강연과 직, 간접적으로 관련이 있는 강연자의 발표자료를 사전에 분석하여 번역사전에 미등록어를 등록함으로써, 실제 강연에서 동시 통역 시 통역 오류를 줄여줄 수 있는 효과가 있다.

본 발명의 일 실시예에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법에 대하여 도 5를 참조하여 설명하기로 한다.

먼저, 문자 인식부(100)가 문서 또는 전자 문서에 포함된 문자열 정보를 인식하고 이를 텍스트화한다(S100).

이어서, 형태소 분석부(200)가 문자 인식부(100)를 통해 인식된 텍스트에 대하여 형태소 분석을 수행하여 토큰을 추출한다(S200).

특수 대역어 추출부(400)가 상기 형태소 분석부(200)의 형태소 분석된 발표자료에 등장하는 어휘들을 분석하여 특수 대역어를 추출한다(S300).

이어서, 특수 대역어 표시부(500)가 상기 추출된 특수 대역어를 표시한다(S400).

이후, 사용자 대역어 처리부(600)가 상기 특수 대역어 표시부(500)를 통해 표시된 상기 특수 대역어에 대하여 사용자가 직접 대역어를 결정할 수 있도록 상기 특수 대역어에 대한 사용자 대역어를 입력받는다(S500).

이후, 상기 번역 지식 반영부(700)가 상기 사용자 대역어 처리부(600)를 통해 입력된 사용자 대역어를 상기 번역 사전 데이터베이스(130)에 등록하여 갱신한다(S600).

여기서, 상기 특수 대역어를 추출하는 단계(S300)는, 고유명사 인식부(410)가 언어적 특성 등을 이용하여 추출된 어휘의 고유명사 여부를 파악하는 단계를 더 포함할 수 있다(S310).

상기 특수 대역어를 추출하는 단계(S300)는, 어휘 의미관계 분석부(420)가 전체 발표자료 상의 어휘들 간의 의미관계를 분석하는 단계(S320)를 더 포함할 수 있다. 여기서, 상기 의미관계를 분석하는 단계(S320)는 word2vec 기술을 이용하는 것이 바람직하다.

상기 의미관계를 분석하는 단계(S320)는 가중치 조정부(430)가 의미관계를 이용하여 대역어 선택 모호성이 있는 어휘들의 대역어를 결정하기 위한 가중치를 조정하는 단계(S330)를 더 포함할 수 있다.

한편, 상기 특수 대역어를 추출하는 단계(S300)는, 원시어휘와 대역어휘를 동일한 의미벡터 스페이스 상에 투사하여 강연에 등장하는 어휘의 전반적인 의미관계와 도메인 정보를 의미적으로 파악함으로써, 문맥과 맞지 않는 대역어를 추출하는 것이 바람직하다.

본 발명의 일 실시예에 채용된 상기 텍스트화하는 단계(S100)는 OCR 문자 인식부(110)가 발표자료가 하드카피인 경우, 하드카피내 문자열 정보를 인식한 후, 텍스트화하여 상기 형태소 분석부(200)로 제공하는 것이 바람직하다.

본 발명의 일 실시예에 채용된 상기 텍스트화하는 단계(S100)는 전자파일 인식부(120)가 발표자료가 전자파일인 경우, 전자파일내 문자열 정보를 인식한 후, 텍스트화하여 상기 형태소 분석부(200)로 제공할 수 있다.

한편, 본 발명의 다른 실시예에 따른 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법 방법에 대하여 도 6을 참조하여 설명하기로 한다.

형태소 분석부(200)가 문자 인식부(100)를 통해 인식된 텍스트에 대하여 형태소 분석을 수행하여 토큰을 추출한다(S200).

이후, 미등록어 추출부가 형태소 분석부(200)에서 제공되는 토큰을 번역 사전 데이터베이스(130)에 저장된 등록어와 비교하여 미등록어를 추출한다(S700).

그러면, 번역 지식 반영부(700)가 미등록어 추출부를 통해 추출된 미등록어를 상기 번역 사전 데이터베이스(130)에 등록하여 갱신한다(S800).

이상에서 설명한 실시 예들은 그 일 예로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

문서 또는 전자 문서에 포함된 문자열 정보를 인식하고 이를 텍스트화하는 문자 인식부;
상기 문자 인식부를 통해 인식된 텍스트에 대하여 형태소 분석을 수행하여 토큰을 추출하는 형태소 분석부;
상기 형태소 분석부의 형태소 분석된 발표자료에 등장하는 어휘들을 분석하여 특수 대역어를 추출하는 특수 대역어 추출부;
상기 추출된 특수 대역어를 표시하는 특수 대역어 표시부; 및
상기 특수 대역어 표시부를 통해 표시된 상기 특수 대역어에 대하여 사용자가 직접 대역어를 결정할 수 있도록 상기 특수 대역어에 대한 사용자 대역어를 입력받는 사용자 대역어 처리부; 및
상기 사용자 대역어 처리부를 통해 입력된 사용자 대역어를 상기 번역 사전 데이터베이스에 등록하여 갱신하는 번역 지식 반영부를 포함하는 것인 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치.
제 1항에 있어서,
상기 특수 대역어 추출부는,
언어적 특성 등을 이용하여 추출된 어휘의 고유명사 여부를 파악하는 고유명사 인식부;를 더 포함하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치.
제 1항에 있어서,
상기 특수 대역어 추출부는,
전체 발표자료 상의 어휘들 간의 의미관계를 분석하는 어휘 의미관계 분석부;를 더 포함하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치.
제 3항에 있어서,
상기 어휘 의미관계 분석부는,
word2vec 기술을 이용하는 것인 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치.
제 4항에 있어서,
상기 특수 대역어 추출부는
의미관계를 이용하여 대역어 선택 모호성이 있는 어휘들의 대역어를 결정하기 위한 가중치를 조정하는 가중치 조정부를 더 포함하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치.
제 1항에 있어서,
상기 특수 대역어 추출부는
원시어휘와 대역어휘를 동일한 의미벡터 스페이스 상에 투사하여 강연에 등장하는 어휘의 전반적인 의미관계와 도메인 정보를 의미적으로 파악함으로써, 문맥과 맞지 않는 대역어를 추출하는 것인 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치.
제 1항에 있어서,
상기 형태소 분석부에서 제공되는 토큰을 번역 사전 데이터베이스에 저장된 등록어와 비교하여 미등록어를 추출하는 미등록어 추출부; 및
상기 미등록어 추출부를 통해 추출된 미등록어를 상기 번역 사전 데이터베이스에 등록하여 갱신하는 번역 지식 반영부;를 포함하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치.
제 1항에 있어서,
상기 문자 인식부는,
하드카피내 문자열 정보를 인식한 후, 텍스트화하여 상기 형태소 분석부로 제공하는 OCR 문자 인식부인 것을 특징으로 하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치.
제 1항에 있어서,
상기 문자 인식부는,
전자파일내 문자열 정보를 인식한 후, 텍스트화하여 상기 형태소 분석부로 제공하는 전자파일 인식부인 것을 특징으로 하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치.
문자 인식부가 문서 또는 전자 문서에 포함된 문자열 정보를 인식하고 이를 텍스트화하는 단계;
형태소 분석부가 상기 문자 인식부를 통해 인식된 텍스트에 대하여 형태소 분석을 수행하여 토큰을 추출하는 단계;
특수 대역어 추출부가 상기 형태소 분석부의 형태소 분석된 발표자료에 등장하는 어휘들을 분석하여 특수 대역어를 추출하는 단계;
특수 대역어 표시부가 상기 추출된 특수 대역어를 표시하는 단계;
사용자 대역어 처리부가 상기 특수 대역어 표시부를 통해 표시된 상기 특수 대역어에 대하여 사용자가 직접 대역어를 결정할 수 있도록 상기 특수 대역어에 대한 사용자 대역어를 입력받는 단계; 및
상기 번역 지식 반영부가 상기 사용자 대역어 처리부를 통해 입력된 사용자 대역어를 상기 번역 사전 데이터베이스에 등록하여 갱신하는 단계;를 포함하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법.
제 10항에 있어서,
상기 특수 대역어를 추출하는 단계는,
고유명사 인식부가 언어적 특성 등을 이용하여 추출된 어휘의 고유명사 여부를 파악하는 단계;를 더 포함하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법.
제 10항에 있어서,
상기 특수 대역어를 추출하는 단계는,
어휘 의미관계 분석부가 전체 발표자료 상의 어휘들 간의 의미관계를 분석하는 단계;를 더 포함하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법.
제 12항에 있어서,
상기 의미관계를 분석하는 단계는,
word2vec 기술을 이용하는 것인 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법.
제 13항에 있어서,
상기 의미관계를 분석하는 단계는,
가중치 조정부가 의미관계를 이용하여 대역어 선택 모호성이 있는 어휘들의 대역어를 결정하기 위한 가중치를 조정하는 단계;를 더 포함하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법.
제 10항에 있어서,
상기 특수 대역어를 추출하는 단계는,
원시어휘와 대역어휘를 동일한 의미벡터 스페이스 상에 투사하여 강연에 등장하는 어휘의 전반적인 의미관계와 도메인 정보를 의미적으로 파악함으로써, 문맥과 맞지 않는 대역어를 추출하는 것인 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법.
제 10항에 있어서,
미등록어 추출부가 상기 형태소 분석부에서 제공되는 토큰을 번역 사전 데이터베이스에 저장된 등록어와 비교하여 미등록어를 추출하는 단계; 및
번역 지식 반영부가 상기 미등록어 추출부를 통해 추출된 미등록어를 상기 번역 사전 데이터베이스에 등록하여 갱신하는 단계;를 포함하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법.
제 10항에 있어서,
상기 텍스트화하는 단계는,
OCR 문자 인식부가 하드카피내 문자열 정보를 인식한 후, 텍스트화하여 상기 형태소 분석부로 제공하는 것을 특징으로 하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법.
제 10항에 있어서,
상기 텍스트화하는 단계는,
전자파일 인식부가 전자파일내 문자열 정보를 인식한 후, 텍스트화하여 상기 형태소 분석부로 제공하는 것을 특징으로 하는 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 방법.