KR102544249B1 - 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법 - Google Patents

발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102544249B1
KR102544249B1 KR1020170048534A KR20170048534A KR102544249B1 KR 102544249 B1 KR102544249 B1 KR 102544249B1 KR 1020170048534 A KR1020170048534 A KR 1020170048534A KR 20170048534 A KR20170048534 A KR 20170048534A KR 102544249 B1 KR102544249 B1 KR 102544249B1
Authority
KR
South Korea
Prior art keywords
language
text
context vector
output
input text
Prior art date
Application number
KR1020170048534A
Other languages
English (en)
Other versions
KR20180060903A (ko
Inventor
김상하
김은경
유지상
류종엽
이재원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to EP17873361.4A priority Critical patent/EP3540611A4/en
Priority to US16/463,959 priority patent/US11314951B2/en
Priority to CN201780081483.4A priority patent/CN110114765B/zh
Priority to PCT/KR2017/006627 priority patent/WO2018097439A1/ko
Publication of KR20180060903A publication Critical patent/KR20180060903A/ko
Application granted granted Critical
Publication of KR102544249B1 publication Critical patent/KR102544249B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다.

Description

발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법 {Electronic device and method thereof for performing translation by sharing context of utterance}
다양한 실시예들은 양방향 전자 장치 및 그 동작 방법에 관한 것으로서, 더욱 상세하게는 양방향 번역에 있어서 각 언어들의 문맥에 관한 정보를 공유하는 양방향 전자 장치 및 그 동작 방법에 관한 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
양방향 번역을 수행할 때에도 딥러닝이 이용될 수 있는데, 구체적으로 인공 신경망 기계 번역(NMT, Neural Machine Translation)이 개발 및 발전 중에 있다. NMT는 종래의 통계 기반 번역(SMT, Statistical Machine Translation)이 주로 구(phrase) 단위를 번역했던 것과 다르게 문장(sentence) 전체를 고려하여 번역하는 방식이다. 번역하고자 하는 문장의 번역 결과 중 최적의 결과를 컴퓨터가 반복적으로 학습하여 자연스러운 번역을 수행할 수 있도록 한다.
다양한 실시예들은 복수의 언어들로 대화가 이루어지는 환경에서, 대화의 문맥(context)과 관련된 정보를 포함하는 각 언어의 문맥 벡터를 이용하여 양방향 번역을 수행하는 장치 및 그 동작 방법을 제공하는데 그 목적이 있다.
일부 실시예에 따른 전자 장치의 동작 방법은, 발화된(uttered) 언어를 번역하는 방법에 있어서, 제 1 언어의 제 1 입력 텍스트를 획득하는 단계; 상기 제 1 입력 텍스트를 획득하기 전에 획득되었던 텍스트에 의하여 생성된 문맥 벡터에 기초하여, 상기 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 제 1 방향 번역을 수행하는 단계; 상기 제 1 입력 텍스트 및 상기 제 1 출력 텍스트에 기초하여 상기 문맥 벡터를 업데이트 하는 단계; 및 상기 제 1 출력 텍스트를 출력하는 단계를 포함할 수 있다.
일부 실시예에 따른 전자 장치는, 제 1 언어의 제 1 입력 텍스트를 획득하는 획득부; 상기 제 1 입력 텍스트를 획득하기 전에 획득되었던 텍스트에 의하여 생성된 문맥 벡터에 기초하여, 상기 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 제 1 방향 번역을 수행하고, 상기 제 1 입력 텍스트 및 상기 제 1 출력 텍스트에 기초하여 상기 문맥 벡터를 업데이트 하는 프로세서(processor); 및 상기 제 1 출력 텍스트를 출력하는 출력부를 포함할 수 있다.
일부 실시예에 따른 기록 매체는, 발화된(uttered) 언어를 번역하는 방법에 있어서, 제 1 언어의 제 1 입력 텍스트를 획득하는 단계; 상기 제 1 입력 텍스트를 획득하기 전에 획득되었던 텍스트에 의하여 생성된 문맥 벡터에 기초하여, 상기 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 제 1 방향 번역을 수행하는 단계; 상기 제 1 입력 텍스트 및 상기 제 1 출력 텍스트에 기초하여 상기 문맥 벡터를 업데이트 하는 단계; 및 상기 제 1 출력 텍스트를 출력하는 단계를 포함하는 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체이다.
도 1은 일 실시예에 따라 양방향 번역이 수행되는 일 예를 도시하는 도면이다.
도 2a 내지 도 2c는 일 실시예에 따른 양방향 번역 시스템을 도시하는 도면이다.
도 3은 일 실시예에 따른 전자 장치의 구성을 나타내는 블록도이다.
도 4는 일 실시예에 따른 전자 장치 내 프로세서의 구성을 나타내는 블록도이다.
도 5a는 일 실시예에 따라 전자 장치가 제 1 방향 번역을 수행하는 방법의 흐름도이고, 도 5b는 일 실시예에 따라 전자 장치가 양방향 번역을 수행하는 방법의 흐름도이다.
도 6은 일 실시예에 따라 제 1 방향 번역을 수행하는 과정을 도시한 도면이다.
도 7은 일 실시예에 따라 제 1 방향 번역 및 제 2 방향 번역을 수행하는 과정을 도시한 도면이다.
도 8은 일 실시예에 따라 문맥 벡터가 초기화되는 과정을 도시한 도면이다.
도 9는 일 실시예에 따라 전자 장치가 문맥 벡터를 업데이트 하거나 초기화 하는 방법의 흐름도이다.
도 10은 일 실시예에 따른 다수의 화자간 대화에서 문맥 벡터가 공유되는 방법을 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참조하여 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 실시예를 상세히 설명한다. 그러나 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서에서 사용된 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 개시의 다양한 실시 예에서 사용된 "제 1" 또는 "제 2" 등의 표현들은 다양한 실시 예들의 다양한 구성요소들을 수식할 수 있지만, 해당 구성요소들을 한정하지 않는다. 예를 들어, 상기 표현들은 해당 구성요소들의 순서 및/또는 중요도 등을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들어, 제 1 사용자 기기와 제 2 사용자 기기는 모두 사용자 기기이며, 서로 다른 사용자 기기를 나타낸다.
예를 들어, 본 개시의 다양한 실시 예의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 다른 부분과 “연결”되어 있다고 함은 어떤 부분이 다른 부분과 신호 송수신을 통해 데이터 통신을 수행할 수 있는 상태가 되어 있는 경우를 포함한다.
일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “모듈” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
본 개시에 기재된 실시예에서 "화자"라는 용어는 어떠한 말을 발화한 사람을 의미하고, "청자"라는 용어는 발화된 말을 듣는 사람을 의미할 수 있다. 복수의 사람들이 대화를 함에 있어서, 화자와 청자는 시시각각 변화하므로 각 사람을 구분하는데 혼선이 발생할 수 있다. 따라서, 본 개시에서는 각 사람이 사용하는 언어에 기초하여, 제 1 언어를 사용하는 사람을 "제 1 화자"로, 제 2 언어를 사용하는 사람을 "제 2 화자"로 구분하기도 할 것이다.
본 개시에 기재된 실시예에서 "텍스트"라는 용어는, 상대방에게 의미를 전달하는 것을 목적으로 하는 데이터를 의미할 수 있다. “텍스트”는, 문자, 기호, 단어, 구, 문장, 다이어그램, 도표 등의 자연 언어 형태의 데이터, 인공 언어 문자 배열 형태의 데이터 또는 음성 데이터를 포함할 수 있다. 예를 들어, “텍스트”는, 화자에 의해 발화된 말이 문자 또는 음성 신호로 표현된 것을 의미할 수 있다.
본 개시에 기재된 실시예에서 "타겟(target) 언어"라는 용어는 번역의 목적이 되는 언어를 의미한다. 예를 들어, 제 1 언어의 텍스트를 제 2 언어의 텍스트로 번역함에 있어서, 제 2 언어가 타겟 언어가 될 수 있다.
본 개시에 기재된 실시예에서 "입력 벡터"라는 용어는 입력 텍스트에 포함된 복수의 단어들 각각의 정보를 m차원(m은 임의의 자연수) 실수 벡터로 표현한 것을 의미하며, "문맥 벡터"라는 용어는 문맥에 관한 정보를 n차원(n은 임의의 자연수) 실수 벡터로 표현한 것을 의미한다. 입력 벡터 및 문맥 벡터는 특정 단어와 대응되는 벡터(word embedding vector) 일 수 있다.
또한, 본 개시에 기재된 실시예에서 "히든 벡터"라는 용어는, 입력 벡터에 기초하여 문맥 벡터를 업데이트 하고 입력 텍스트를 출력 텍스트로 번역할 때 이용하기 위해, 복수의 입력 벡터들에 의해 순차로 변화하는 임시의 정보들 각각을 k차원(k는 임의의 자연수) 벡터들로 표현한 것을 의미한다.
이하 첨부된 도면을 참고하여 개시를 상세히 설명하기로 한다.
도 1은 일 실시예에 따라 양방향 번역이 수행되는 일 예를 도시하는 도면이다.
도 1에는, 서로 다른 언어를 사용하는 제 1 화자(110) 및 제 2 화자(120)가 도시된다. 제 1 화자(110) 및 제 2 화자(120)가 대화하기 위해서는, 제 1 화자(110)가 사용하는 제 1 언어로 발화된 내용이 제 2 화자(120)가 사용하는 제 2 언어로 번역되는 제 1 방향 번역(130) 및 제 2 화자(120)가 제 2 언어로 발화된 내용이 제 1 화자(110)가 사용하는 제 1 언어로 번역되는 제 2 방향 번역(140)이 요구된다. 제 1 화자(110) 및 제 2 화자(120)는 제 1 방향 번역(130) 및 제 2 방향 번역(140) 기능을 수행하는 전자 장치를 이용할 수 있다.
예를 들어, 제 1 화자(110)가 한국어로 "안녕 젭슨. 오랜만이야."라고 발화하면, 일 실시예에 따른 전자 장치는 제 1 방향 번역(130)을 수행함으로써, 제 2 화자(120)에게 영어로 "Hi Japson. Long time no see."라고 번역된 텍스트를 출력할 수 있다. 이어서, 제 2 화자(120)가 영어로 "Oh Chul-soo. Nice to meet you!"라고 발화하면, 일 실시예에 따른 전자 장치는 제 2 방향 번역(140)을 수행함으로써, 제 1 화자(110)에게 한국어로 "오 철수야. 만나서 반가워!"라고 번역된 텍스트를 출력할 수 있다.
제 1 방향 번역(130) 및 제 2 방향 번역(140)이 독립적으로 수행되는 경우, 상대방의 발화를 고려하지 않고 번역이 수행되므로 화자의 의도와 다르게 번역되는 경우가 빈번하게 발생할 수 있다. 따라서, 일 실시예에 따른 전자 장치는, 도 1에 도시된 바와 같이 제 1 방향 번역(130)을 수행하면서 획득한 각 언어별 문맥에 관한 정보와 제 2 방향 번역(140)을 수행하면서 획득한 각 언어별 문맥에 관한 정보를 공유(150)하여 각 방향 번역에 이용할 수 있다. 일 실시예에 따른 전자 장치는, 문맥에 관한 정보를 공유함으로써 화자의 의도에 보다 부합하는 번역을 수행할 수 있다.
도 2a 내지 도 2c는 일 실시예에 따른 양방향 번역 시스템을 도시하는 도면이다.
도 2a 내지 도 2c에는 두 명의 화자만이 도시되어 있지만 화자의 수는 두 명에 한정되지 않으며, 도 2a 내지 도 2c의 개시 내용은 한 명의 화자가 독백하는 경우 또는 세 명 이상의 화자가 대화하는 경우에도 적용될 수 있다.
일 실시예에 따르면, 도 2a 내지 도 2c에 도시된 전자 장치(200-1, 200-2, 200-5, 200-6)는 스마트폰, 태블릿 PC, 노트북 컴퓨터(laptop computer), 웨어러블 디바이스(wearable device), 데스크탑, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어 등의 다양한 기기 또는 서버로 구현될 수 있으며, 이에 한정되지 않는다.
도 2a는 일 실시예에 따라 전자 장치(200-1)를 포함하는 번역 시스템을 도시하는 도면이다.
일 실시예에 따르면, 전자 장치(200-1)는 제 1 화자(110)가 제 1 언어로 발화하면, 제 1 화자(110)의 발화를 수신할 수 있다. 전자 장치(200-1)는 수신된 발화를 제 2 언어로 번역하여 제 2 화자(120)에게 출력할 수 있다.
예를 들어, 전자 장치(200-1)는 스마트폰일 수 있다. 제 1 화자(110)가 전자 장치(200-1)를 향해 한국어로 "안녕 젭슨. 오랜만이야."라고 발화하면, 전자 장치(200-1)는 발화를 수신한 후 영어로 번역하여 "Hi Japson. Long time no see."라는 발화를 출력할 수 있다. 전자 장치(200-1)는, 화면 상에 글자의 형태로 번역된 텍스트를 출력하거나, 음성 신호의 형태로 번역된 텍스트를 출력할 수 있다.
일 실시예에 따르면, 전자 장치(200-1)는 제 2 화자(120)가 제 2 언어로 발화하면, 제 2 화자(120)의 발화를 수신하고 제 1 언어로 번역하여 제 1 화자(110)에게 출력하는 역방향의 번역도 수행할 수 있다.
도 2b는 일 실시예에 따라 전자 장치(200-2) 및 서버(200-3)를 포함하는 번역 시스템을 도시하는 도면이다.
전자 장치(200-2) 및 서버(200-3)는 무선 또는 유선으로 상호 연결될 수 있으며, 상호간에 데이터를 송수신할 수 있다.
일 실시예에 따르면, 전자 장치(200-2)는 제 1 화자(110)가 제 1 언어로 발화하면, 제 1 화자(110)의 발화를 수신하고 제 2 언어로 번역하여 제 2 화자(120)에게 출력할 수 있으며, 이때 번역에 필요한 정보를 서버(200-3)로부터 수신할 수 있다.
또는, 제 1 화자(110)가 제 1 언어로 발화하면 전자 장치(200-2)는 발화된 내용을 수신하여 서버(200-3)에 송신하고, 서버는 발화된 내용을 제 2 언어로 번역하여 다시 전자 장치(200-2)로 송신할 수 있다. 전자 장치(200-2)는 제 2 언어로 번역된 내용을 제 2 화자(120)에게 전달할 수 있다.
예를 들어, 미국인 화자가 "I have two sisters."라고 발화한 경우, 전자 장치(200-2)는 발화된 내용을 수신하여 서버(200-3)에 송신할 수 있다. 서버(200-3)는 발화된 내용이 번역된 "나는 누나 한 명과 여동생 한 명이 있어."라는 텍스트를 전자 장치(200-2)에게 송신할 수 있다.
일 실시예에 따르면, 전자 장치(200-2)는 제 2 화자(120)가 제 2 언어로 발화하면, 제 2 화자(120)의 발화를 수신하고 제 1 언어로 번역하여 제 1 화자(110)에게 출력할 수 있으며, 이때 번역에 필요한 정보를 서버(200-3)로부터 수신할 수 있다.
또는, 제 2 화자(120)가 제 2 언어로 발화하면 전자 장치(200-2)는 발화된 내용을 수신하여 서버(200-3)에 송신하고, 서버는 발화된 내용을 제 1 언어로 번역하여 다시 전자 장치(200-2)로 송신할 수 있다. 전자 장치(200-2)는 제 1 언어로 번역된 내용을 제 1 화자(110)에게 전달할 수 있다.
도 2c는 일 실시예에 따라 서버(200-4) 및 복수의 전자 장치(200-5, 200-6)들을 포함하는 번역 시스템을 도시하는 도면이다.
일 실시예에 따르면, 제 1 화자(110)가 제 1 언어로 발화하면 전자 장치(200-5)는 발화된 내용을 수신하여 서버(200-4)로 송신할 수 있다. 서버(200-4)는 제 1 언어로 발화된 내용을 제 2 언어로 번역하여 전자 장치(200-6)에 송신할 수 있다. 전자 장치(200-6)는 번역된 내용을 제 2 화자(120)에게 출력할 수 있다.
일 실시예에 따르면, 제 2 화자(120)가 제 2 언어로 발화하면 전자 장치(200-6)는 발화된 내용을 수신하여 서버(200-4)로 송신할 수 있다. 서버(200-4)는 제 2 언어로 발화된 내용을 제 1 언어로 번역하여 전자 장치(200-5)에 송신할 수 있다. 전자 장치(200-5)는 번역된 내용을 제 1 화자(110)에게 출력할 수 있다.
도 2a, 2b 및 2c에 도시된 바와 같이, 다양한 실시예에 따른 번역 시스템은 적어도 하나의 전자 장치를 포함하고, 서버를 더 포함할 수 있다. 이하에서는, 설명의 편의를 위해 “전자 장치”에서 수행되는 양방향 번역 방법에 대해 서술하도록 하겠다. 다만, 이하에서 기술되는 전자 장치의 동작의 일부 또는 전부는 서버에서도 수행될 수 있으며, 복수의 전자 장치들에 의해 부분적으로 수행될 수 있다.
도 3은 일 실시예에 따른 전자 장치의 구성을 나타내는 블록도이다.
일 실시예에 따른 전자 장치(200)는 획득부(310), 프로세서(320) 및 출력부(330)를 포함할 수 있다. 그러나, 도 3에 도시된 구성 요소 모두보다 많은 구성 요소에 의해 전자 장치(200)가 구현될 수도 있다. 예를 들어, 본 발명의 일 실시예에 따른 전자 장치(200)는, 가전 제품, 모바일 컴퓨팅 디바이스 및 서버 중 적어도 하나에 포함되거나, 가전 제품, 모바일 컴퓨팅 디바이스 및 서버 중 적어도 하나에 유, 무선으로 연결되도록 구현될 수 있다.
일 실시예에 따른 획득부(310)는, 적어도 하나의 언어의 입력 텍스트를 획득할 수 있다. 예를 들어 획득부(310)는, 제 1 언어의 제 1 입력 텍스트를 획득할 수 있다. 또한, 획득부(310)는 제 2 언어의 제 2 입력 텍스트를 획득할 수 있다. 획득부(310)가 획득할 수 있는 입력 텍스트의 언어의 종류는 특정 언어에 한정되지 않는다.
예를 들어 제 1 화자(110)가 제 1 언어인 한국어로 "피곤하다"라고 발화하자 제 2 화자(120)가 제 2 언어인 영어로 "Me, too"라고 발화하는 경우, 획득부(310)는 "피곤하다"라는 발화 및 "Me, too"라는 발화를 프로세서(320)가 처리 가능한 형태의 텍스트로 변환하여 획득할 수 있다.
획득부(310)는, 마이크로폰(Microphone)을 포함하고, 마이크로폰을 통해 화자의 음성을 직접 수신할 수 있다. 획득부(310)는, 음성 인식을 수행함으로써 수신된 음성을 텍스트로 변환할 수 있다. 또는, 획득부(310)는 외부 장치에서 수신된 음성이 변환된 텍스트를 외부 장치로부터 수신할 수 있다. 도 3에는 획득부(310)가 전자 장치(200)의 내부에 포함되는 것으로 도시되었으나, 다른 일 실시예에 따른 획득부(310)는 별도의 장치 내에 포함되고 전자 장치(200)와는 유, 무선으로 연결되는 형태로 구현될 수 있다. 도 3에서는 설명의 편의를 위하여, 획득부(310)와 프로세서(320)를 별도의 구성으로 도시하였다. 그러나 실시예는 이에 한정되지 않는다. 일 실시예에 따른 획득부(310)는 프로세서(320)에 포함되는 구성이거나, 획득부(310)가 수행하는 기능의 일부 또는 전부가 프로세서(320)에 의해 수행될 수 있다.
프로세서(320)는, 일 실시예에서 획득부(310)가 획득한 입력 텍스트를 번역하는 일련의 프로세스를 수행할 수 있다.
일 실시예에 따르면, 프로세서(320)는 문맥 벡터에 기초하여 제 1 언어의 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 제 1 방향 번역(130)을 수행할 수 있다. 예를 들어, 제 1 언어의 제 1 입력 텍스트인 "피곤하다"를 제 2 언어의 제 1 출력 텍스트인 "Tired"로 번역할 수 있다.
일 실시예에 따르면, 프로세서(320)는 제 1 입력 텍스트 및 제 1 출력 텍스트에 기초하여 문맥 벡터를 업데이트 할 수 있다.
일 실시예에 따르면, 프로세서(320)는 업데이트 된 문맥 벡터에 기초하여 제 2 언어의 제 2 입력 텍스트를 제 1 언어의 제 2 출력 텍스트로 번역하는 제 2 방향 번역(140)을 수행할 수 있다. 예를 들어, 제 2 언어의 제 2 입력 텍스트인 "Me, too"를 제 1 언어의 제 2 출력 텍스트인 "나도 피곤하다"로 번역할 수 있다.
일 실시예에 따르면, 프로세서(320)는 제 2 입력 텍스트 및 제 2 출력 텍스트에 기초하여 문맥 벡터를 다시 업데이트(reupdate) 할 수 있다.
일 실시예에 따른 프로세서(320)는, 딥러닝에 기반한 인공지능 시스템에 의해 동작할 수 있다.
도 3에는 한 개의 프로세서만 도시되었지만, 전자 장치(200)는 복수개의 프로세서를 포함할 수 있다.
출력부(330)는, 프로세서(320)에서 수행된 번역 결과를 출력 할 수 있다. 출력부(330)는, 번역이 수행된 결과를 사용자에게 알리거나, 외부 디바이스(예를 들어, 스마트 폰, 스마트 TV, 스마트 와치, 서버 등)에게 송신할 수 있다. 예를 들어, 출력부(330)는 번역된 텍스트를 출력할 수 있는 디스플레이 또는 번역된 텍스트가 변환된 음성 신호를 출력할 수 있는 스피커를 포함할 수 있다.
일 실시예에 따른 출력부(330)는, 제 1 출력 텍스트 및 제 2 출력 텍스트 중 적어도 하나를 출력할 수 있다.
일 실시예에 따르면, 출력부(330)는 제 1 출력 텍스트 및 제 2 출력 텍스트 중 적어도 하나와 대응되는 음성을 출력하여 청자에게 전달할 수 있다. 제 1 출력 텍스트 및 제 2 출력 텍스트 중 적어도 하나와 대응되는 음성은 청자에게만 전달되거나, 청자 및 화자 모두에게 전달될 수 있다.
또는, 출력부(330)는 제 1 출력 텍스트 및 제 2 출력 텍스트중 적어도 하나와 대응되는 글자를 출력하여 청자에게 전달할 수 있다. 예를 들어, 출력부(330)는 제 1 출력 텍스트 및 제 2 출력 텍스트 중 적어도 하나와 대응되는 글자를 디스플레이를 통해 디스플레이 할 수 있다. 제 1 출력 텍스트 및 제 2 출력 텍스트 중 적어도 하나와 대응되는 글자는 청자에게만 전달되거나, 청자 및 화자 모두에게 전달될 수 있다.
제 1 출력 텍스트 및 제 2 출력 텍스트 중 적어도 하나를 출력하는 방법은 음성 및 글자를 이용하는 것에 한정되지 않는다.
도 3에 도시된 전자 장치(200)의 블록도는 도 2a 내지 도 2c에 도시된 전자 장치(200-1, 200-2, 200-5, 200-6)를 구현하는데 이용될 수 있다.
도 4는 일 실시예에 따른 전자 장치 내 프로세서의 구성을 나타내는 블록도이다.
도 4에 도시된 블록들의 일부 또는 전부는, 특정 기능을 실행하는 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 도 4에 도시된 블록들이 수행하는 기능들은, 하나 이상의 마이크로프로세서에 의해 구현되거나, 해당 기능을 위한 회로 구성들에 의해 구현될 수 있다. 도 4에 도시된 블록들의 일부 또는 전부는 일 실시예에 따른 프로세서(320)에서 실행되는 다양한 프로그래밍 언어 또는 스크립트 언어로 구성된 소프트웨어 모듈일 수 있다.
일 실시예에 따른 프로세서(320)는 언어 식별부(410), 문맥 관리부(420) 및 번역부(430)를 포함할 수 있다.
언어 식별부(410)는, 일 실시예에서 화자에 의해 발화된 언어의 종류를 식별할 수 있다. 보다 구체적으로, 언어 식별부(410)는 획득부(310)가 획득한 입력 텍스트를 분석하여 입력 텍스트의 언어의 종류를 식별할 수 있다. 제 1 화자(110)가 제 1 언어로 발화한 경우, 언어 식별부(410)는 발화된 언어의 종류가 제 1 언어임을 식별할 수 있다. 발화된 언어는 소스(source) 언어라고 지칭될 수 있다.
예를 들어 획득부(310)가 제 1 입력 텍스트를 획득하는 경우 언어 식별부(410)는 제 1 입력 텍스트를 분석하여 제 1 입력 텍스트의 언어의 종류가 제 1 언어임을 식별할 수 있고, 획득부(310)가 제 2 입력 텍스트를 획득하는 경우 언어 식별부(410)는 제 2 입력 텍스트를 분석하여 제 2 입력 텍스트의 언어의 종류가 제 2 언어임을 식별할 수 있다. 획득부(310)가 제 1 입력 텍스트를 획득하는 경우 언어 식별부(410)는 제 1 입력 텍스트를 분석하여 소스 언어가 제 1 언어임을 식별할 수 있고, 획득부(310)가 제 2 입력 텍스트를 획득하는 경우 언어 식별부(410)는 제 2 입력 텍스트를 분석하여 소스 언어가 제 2 언어임을 식별할 수 있다.
또한, 언어 식별부(410)는 발화된 언어를 어떠한 언어로 번역할 지 결정할 수 있다. 다시 말해, 언어 식별부(410)는 식별된 소스 언어에 기초하여 타겟(target) 언어를 결정할 수 있다. 예를 들어 제 1 화자(110)가 제 1 언어로 발화한 경우, 언어 식별부(410)는 제 1 언어의 발화들을 번역할 타겟 언어로서 제 2 언어를 결정할 수 있다.
일 실시예에 따르면, 전자 장치(200)는 양 방향 번역을 수행함에 있어서 이용되는 언어쌍을 미리 설정할 수 있다. 예를 들어, 전자 장치(200)는 양 방향 번역에 이용되는 언어쌍을 영어 및 한국어로 미리 설정할 수 있다. 이때, 만약 전자 장치(200)가 소스 언어로서 영어를 식별한 경우, 소스 언어가 번역될 타겟 언어는 자동으로 한국어로 결정될 수 있다. 반대로, 전자 장치(200)가 소스 언어로서 한국어를 식별한 경우, 소스 언어가 번역될 타겟 언어는 자동으로 영어로 결정될 수 있다. 다른 실시예에 따르면, 언어 식별부(410)는 메모리(도면에 도시되지 않음)에 미리 저장된 정보에 기초하여 타겟 언어를 결정할 수 있다. 예를 들어, 메모리는 화자가 전자 장치(200)를 이용할 때 가장 빈번하게 타겟 언어로 선택되는 언어의 종류를 저장하고 있다가, 이후에 타겟 언어를 결정할 때 참고 자료로서 이용할 수 있다.
또는, 언어 식별부(410)는 외부 센서(도면에 도시되지 않음)를 이용하여 청자를 식별할 수 있고, 식별된 청자가 사용하는 타겟 언어를 결정할 수 있다. 외부 센서는, 예를 들어 청자의 피부색, 홍채의 색, 손금, 지문, 음색 등에 기초하여 청자를 식별할 수 있고, 식별된 청자의 국적, 인종 등에 기초하여 청자가 사용하는 타겟 언어를 결정할 수 있다.
또는, 언어 식별부(410)는 화자 또는 청자로부터 입력 받은 정보에 기초하여 타겟 언어를 결정할 수 있다. 예를 들어, 입력부(도면에 도시되지 않음)는 화자 또는 청자로부터 청자가 사용하는 언어의 종류를 입력 받을 수 있고, 언어 식별부(410)는 화자 또는 청자로부터 입력 받은, 청자가 사용하는 언어의 종류에 기초하여 타겟 언어를 결정할 수 있다.
문맥 관리부(420)는, 일 실시예에서 제 1 언어의 제 1 입력 텍스트 및 제 2 언어의 제 1 출력 텍스트에 기초하여 문맥 벡터를 업데이트 할 수 있다. 보다 구체적으로, 문맥 관리부(420)는, 번역부(430)가 제 1 언어의 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 과정에서, 문맥 벡터를 업데이트 할 수 있다. 또한, 문맥 관리부(420)는 번역부(430)가 제 2 언어의 제 2 입력 텍스트를 제 1 언어의 제 2 출력 텍스트로 번역하는 과정에서도 문맥 벡터를 업데이트 할 수 있다.
또한, 문맥 관리부(420)는, 일 실시예에서 발화된 언어의 화제가 전환되었다고 판단되는 경우 문맥 벡터를 초기화 할 수 있다. 문맥 관리부(420)가 문맥 벡터를 초기화하는 구체적인 과정은 도 8에 대한 설명에서 후술하기로 한다.
번역부(430)는, 일 실시예에서 문맥 벡터에 기초하여 제 1 언어의 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 제 1 방향 번역(130)을 수행할 수 있다.
또한, 번역부(430)는 문맥 벡터에 기초하여 제 2 언어의 제 2 입력 텍스트를 제 1 언어의 제 2 출력 텍스트로 번역하는 제 2 방향 번역(140)을 수행할 수 있다.
일 실시예에 따른 번역부(430)는, 언어 식별부(410)로부터 대화의 화자가 전환되었다는 정보를 수신한 경우, 번역의 방향을 전환할 수 있다. 예를 들어, 화자가 제 1 화자(110)에서 제 2 화자(120)로 전환되었다는 정보를 언어 식별부(410)로부터 수신한 경우, 번역부(430)는 제 1 방향 번역(130)을 중단하고 제 2 방향 번역(140)을 수행할 수 있다.
한편, 도 3 및 도 4에 도시된 전자 장치(200) 및 프로세서(320)의 블록도는 일 실시예를 위한 블록도이다. 블록도의 각 구성요소는 실제 구현되는 전자 장치(200)의 사양에 따라 통합 또는 추가될 수 있다. 즉, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 또는 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 실시예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 개시의 권리범위를 제한하지 아니한다.
전술된 전자 장치(200)가 복수의 화자간 대화를 번역함에 있어서 이용될 수 있는 번역 엔진은, 하나의 프로세서(320) 또는 하나의 프로세서에 포함된 하나의 번역부(430)에 한정되지 않는다. 각 방향의 번역을 수행하면서, 각 방향별로 서로 다른 복수의 프로세서 또는 서로 다른 복수의 번역부가 이용될 수 있다.
또한, 전술된 전자 장치(200)가 제 1 방향 번역(130) 및 제 2 방향 번역(140) 등을 수행함에 있어서, 전자 장치(200)는 딥러닝에 기반한 인공지능 시스템을 이용할 수 있다. 예를 들어, 전자 장치(200)는 인공 신경망 기계 번역(NMT)을 이용할 수 있다.
도 5a는 일 실시예에 따라 전자 장치가 제 1 방향 번역을 수행하는 방법의 흐름도이고, 도 5b는 일 실시예에 따라 전자 장치가 양방향 번역을 수행하는 방법의 흐름도이다.
도 5a 및 도 5b에 도시된 방법의 각 단계는, 도 3에 도시된 전자 장치(200)의 구성 요소에 의해 수행될 수 있으며, 도 3에 대한 설명과 중복되는 구체적인 내용은 설명을 생략한다. 설명의 편의상 전자 장치(200)가 동작의 주체인 경우만을 예로 들어 설명하였지만, 이하의 설명은 서버가 동작의 주체인 경우에도 적용될 수 있다. 도 5a 및 도 5b에 도시된 방법의 각 단계는, 인공지능 기술을 이용하여 구현될 수 있다.
보다 나은 이해를 위해, 도 1에 도시된 제 1 화자(110)와 제 2 화자(120)의 대화 장면을 참조하여 설명하기로 한다.
단계 505에서, 전자 장치(200)는 제 1 언어의 제 1 입력 텍스트를 획득할 수 있다. 예를 들어, 도 1에 도시된 바와 같이 전자 장치(200)는 제 1 화자(110)의 발화로부터 "안녕 젭슨. 오랜만이야."라는 제 1 입력 텍스트를 획득할 수 있다.
단계 510에서, 전자 장치(200)는 문맥 벡터에 기초하여 제 1 언어의 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 제 1 방향 번역을 수행할 수 있다. 보다 구체적으로, 전자 장치(200)는 제 1 입력 텍스트를 획득하기 전에 획득되었던 텍스트에 기초하여 생성된 문맥 벡터에 기초하여, 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 제 1 방향 번역을 수행할 수 있다. 예를 들어, 도 1에 도시된 바와 같이 전자 장치(200)는 "안녕 젭슨. 오랜만이야."라는 제 1 입력 텍스트를 "Hi Japson. Long time no see."라는 제 1 출력 텍스트로 번역할 수 있다.
발화에는 다양한 문맥이 존재하며, 문맥에 따라 번역의 내용이 결정될 수 있다. 예를 들어, "미안하지만 꺼줄 수 있어"라는 한국어 입력 텍스트는 "Sorry, but could you turn off the radio?"로 번역될 수 있고, "Sorry, but could you put out the fire?"로 번역될 수도 있다. 이때 만약 이전 대화에서 영어를 사용하는 화자가 "I like this song on radio."라고 발화했었다면, "미안하지만 꺼줄 수 있어?"의 올바른 번역은 문맥상 "Sorry, but could you turn off the radio?"가 될 것임을 확인할 수 있다. 따라서, 일 실시예에 따른 전자 장치(200)는, 이전 대화의 내용이 반영된 문맥 벡터를 이용하여 번역을 수행함으로써, 번역의 정확도를 높일 수 있다.
문맥 벡터는, 전술한 바와 같이 문맥에 관한 정보를 n차원(n은 임의의 자연수) 공간상의 특정 위치에 대응하는 벡터로 표현한 것을 의미한다. 문맥 벡터는 문맥에 관한 정보가 축적될 때마다 업데이트 될 수 있다. 업데이트 된 문맥 벡터는 업데이트 전의 문맥 벡터와 비교할 때 n차원 벡터 공간상에서 벡터의 위치가 변화한 것뿐이지만, 대화가 축적되면서 발생한 다양한 문맥에 관한 정보를 누적하여 포함할 수 있다.
일 실시예에 따르면, 문맥 벡터는 제 1 언어의 텍스트에 기초하여 생성된 제 1 문맥 벡터와 제 2 언어의 텍스트에 기초하여 생성된 제 2 문맥 벡터를 포함할 수 있다. 그러나 실시예는 이에 한정되지 않으며, 문맥 벡터는 다른 언어의 문맥 벡터(예를 들어, 제3 언어의 제3 문맥 벡터)를 더 포함할 수 있다.
일 실시예에 따르면, 전자 장치(200)는 제 1 입력 텍스트를 획득하기 전에 획득되었던 제 1 언어의 입력 텍스트 및 제 1 입력 텍스트를 획득하기 전에 출력되었던 제 1 언어의 출력 텍스트 중 적어도 하나에 기초하여 제 1 문맥 벡터를 생성할 수 있다. 또한, 전자 장치(200)는 제 1 입력 텍스트를 획득하기 전에 획득되었던 제 2 언어의 입력 텍스트 및 제 1 입력 텍스트를 획득하기 전에 출력되었던 제 2 언어의 출력 텍스트 중 적어도 하나에 기초하여 제 2 문맥 벡터를 생성할 수 있다. 즉, 전자 장치(200)는 화자들의 이전 발화에 기초하여 문맥 벡터를 생성할 수 있다.
제 1 언어의 입력 텍스트를 제 2 언어의 출력 텍스트로 번역하는 제 1 방향 번역(130)에는 제 2 문맥 벡터가 이용될 수 있고, 제 2 언어의 입력 텍스트를 제 1 언어의 출력 텍스트로 번역하는 제 2 방향 번역(140)에는 제 1 문맥 벡터가 이용될 수 있다. 번역을 수행함에 있어서 문맥 벡터가 이용되는 구체적인 방법은 도 6에 대한 설명에서 후술하기로 한다.
단계 515에서, 전자 장치(200)는 제 1 입력 텍스트 및 제 1 출력 텍스트에 기초하여 문맥 벡터를 업데이트 할 수 있다.
일 실시예에 따르면, 화자가 최초로 발화하기 전의 문맥 벡터는 초기화 상태일 수 있다. 초기화 상태에서 n차원 문맥 벡터는 미리 설정된 초기값을 취할 수 있다. 전자 장치(200)는, 획득한 제 1 입력 텍스트 및 제 1 입력 텍스트가 번역된 제 1 출력 텍스트에 기초하여 문맥 벡터를 업데이트 할 수 있다.
일 실시예에 따르면, 제 1 입력 텍스트가 발화되기 이전에 이미 다른 발화가 존재했던 경우엔 이전 발화의 입력 텍스트 및 출력 텍스트에 기초하여 전자 장치(200)가 문맥 벡터를 업데이트 한 상태일 수 있다. 이때 전자 장치(200)는 획득한 제 1 입력 텍스트 및 제 1 입력 텍스트가 번역된 제 1 출력 텍스트에 기초하여 문맥 벡터를 다시 업데이트(reupdate) 할 수 있다.
단계 520에서, 전자 장치(200)는 제 1 출력 텍스트를 출력할 수 있다. 예를 들어, 도 1에 도시된 바와 같이 전자 장치(200)는 제 1 입력 텍스트가 번역되어 생성된 "Hi Japson. Long time no see."라는 제 1 출력 텍스트를 출력할 수 있다.
도 5a에서는 문맥 벡터를 이용하여 제 1 방향을 번역하는 방법을 설명하였으나 실시예는 이에 한정되지 않으며, 일 실시예에 따른 전자 장치(200)는 양방향 번역을 수행할 수 있다.
도 5b는 일 실시예에 따른 전자 장치의 제 1 방향 번역 방법 및 제 2 방향 번역 방법을 구체화한 흐름도이다.
도 5b는 제 1 화자(110)가 제 1 언어로 발화하자 발화에 응답하여 제 2 화자(120)가 제 2 언어로 발화하는 경우에, 제 1 언어를 제 2 언어로 번역하는 제 1 방향 번역(130) 및 제 2 언어를 제 1 언어로 번역하는 제 2 방향 번역(140)이 수행되는 일련의 과정을 도시한 흐름도이다. 단계 525 및 540은 도 5a의 단계 505 및 520에서의 동작과 동일한 동작을 수행하므로, 상세한 설명은 생략한다.
단계 525에서, 전자 장치(200)는 제 1 언어의 제 1 입력 텍스트를 획득할 수 있다.
단계 530에서, 전자 장치(200)는 제 2 언어의 텍스트에 의하여 생성된 제 2 문맥 벡터에 기초하여 제 1 언어의 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 제 1 방향 번역을 수행할 수 있다.
단계 535에서, 전자 장치(200)는 제 1 입력 텍스트에 기초하여 제 1 문맥 벡터를 업데이트 하고, 제 1 출력 텍스트에 기초하여 제 2 문맥 벡터를 업데이트 할 수 있다.
단계 540에서, 전자 장치(200)는 제 1 출력 텍스트를 출력할 수 있다.
단계 545에서, 전자 장치(200)는 제 2 언어의 제 2 입력 텍스트를 획득할 수 있다. 예를 들어, 전자 장치(200)는 제 2 화자(120)로부터 "Oh Chul-soo. Nice to meet you!"라는 제 2 입력 텍스트를 획득할 수 있다.
단계 550에서, 전자 장치(200)는 제 1 언어의 텍스트에 의하여 생성된 제 1 문맥 벡터에 기초하여 제 2 언어의 제 2 입력 텍스트를 제 1 언어의 제 2 출력 텍스트로 번역하는 제 2 방향 번역을 수행할 수 있다. 다시 말하면, 전자 장치(200)는 단계 530에서 업데이트 된 문맥 벡터에 기초하여 제 2 언어의 제 2 입력 텍스트를 제 1 언어의 제 2 출력 텍스트로 번역하는 제 2 방향 번역을 수행할 수 있다. 예를 들어, 전자 장치(200)는 "Oh Chul-soo. Nice to meet you!"라는 제 2 입력 텍스트를 "오 철수야. 만나서 반가워!"라는 제 2 출력 텍스트로 번역할 수 있다.
단계 555에서, 전자 장치(200)는 제 2 입력 텍스트에 기초하여 제 2 문맥 벡터를 업데이트 하고, 제 2 출력 텍스트에 기초하여 제 1 문맥 벡터를 업데이트 할 수 있다. 다시 말하면, 전자 장치(200)는 제 2 입력 텍스트 및 제 2 출력 텍스트에 기초하여, 단계 530에서 업데이트 되었던 문맥 벡터를 다시 업데이트(reupdate) 할 수 있다.
단계 560에서, 전자 장치(200)는 제 2 출력 텍스트를 출력할 수 있다. 예를 들어, 전자 장치(200)는 제 2 입력 텍스트가 번역되어 생성된 "오 철수야. 만나서 반가워!"라는 제 2 출력 텍스트를 출력할 수 있다.
도 6은 일 실시예에 따라 제 1 방향 번역을 수행하는 과정을 도시한 도면이다.
일 실시예에 따르면, 전자 장치(200)는 제 1 언어의 제 1 입력 텍스트에 포함된 복수의 단어들과 대응되는 복수의 제 1 입력 벡터들(610)을 결정할 수 있다.
예를 들어 전자 장치(200)가 "안녕 젭슨. 오랜만이야."라는 제 1 입력 텍스트를 획득한 경우, 전자 장치(200)는 "안녕"과 대응되는 제 1 입력 벡터 x1, "젭슨"과 대응되는 제 1 입력 벡터 x2 및 "오랜만이야"와 대응되는 제 1 입력 벡터 x3를 포함하는 복수의 제 1 입력 벡터들(610)을 결정할 수 있다.
일 실시예에 따르면, 전자 장치(200)는 결정된 복수의 제 1 입력 벡터들(610)에 기초하여, 복수의 제 1 히든 벡터들(640)을 순차로 생성할 수 있다.
예를 들어, 제 1 입력 벡터 xt가 m차원 벡터(m은 자연수)이고 제 1 히든 벡터 ht가 n차원인 경우, 제 1 히든 벡터는 아래의 수학식1을 통해 산출될 수 있다.
Figure 112017036728918-pat00001
t는 제 1 입력 텍스트에 포함된 복수의 단어들의 인덱스를 의미하고, T는 제 1 입력 텍스트에 포함된 복수의 단어들의 총 수를 의미할 수 있다. 함수 f1는 연산 과정에서 W를 이용할 수 있는데, 제 1 입력 벡터 xt의 차원을 제 1 히든 벡터 ht의 차원과 대응되도록 변경하기 위해 학습된(또는 학습될) 파라미터 매트릭스로 해석될 수 있다. W는 n*m행렬이며, 함수 f1의 연산 방법은 다양할 수 있다.
일 실시예에 따르면, 전자 장치(200)는 복수의 제 1 히든 벡터들(640) 각각의 가중치들을 결정할 수 있다. 가중치는 복수의 출력 히든 벡터들 s1, s2, ... , sK (K는 자연수, 제 1 출력 텍스트에 포함될 복수의 단어들의 총 수) 중 어느 것을 산출할 때 이용되느냐에 따라 달라질 수 있고, 복수의 제 1 히든 벡터들(640) h1, h2, ... , hT 중 어느 것과 대응되느냐에 따라 달라질 수 있다. 예를 들어 출력 히든 벡터 s3를 산출할 때 이용되는 가중치로서 제 1 히든 벡터 h2와 대응되는 가중치는 a3,2로 결정될 수 있다.
일 실시예에 따르면, 가중치는 t번째 출력 히든 벡터 st를 산출하기 위해 t-1 번째 출력 히든 벡터 st-1과 복수의 제 1 입력 히든 벡터들(640)간의 연산을 수행하는 과정에서 결정될 수 있다.
일 실시예에 따르면, 전자 장치(200)는 복수의 제 1 히든 벡터들(640) 각각의 가중치를 복수의 제 1 히든 벡터들(640) 각각에 적용한 벡터 bat를 산출할 수 있다. 벡터 bat를 산출하는 과정은 아래의 수학식2에서 확인할 수 있다.
Figure 112017036728918-pat00002
수학식2에서 i는 제 1 입력 텍스트에 포함된 복수의 단어들의 인덱스를 의미할 수 있고, j는 제 1 출력 텍스트에 포함된 복수의 단어들의 인덱스를 의미할 수 있다.
일 실시예에 따르면, 출력 히든 벡터 st(t=0, 1, ... , K)는 복수의 제 1 출력 벡터들(630)을 산출하는 과정에 이용되는 히든 벡터일 수 있다. 전자 장치(200)는 복수의 제 1 히든 벡터들(640)에 각각의 가중치들이 고려된 벡터(bat), t-1번째 출력 히든 벡터 st-1 및 t-1 번째 제 1 출력 벡터 yt -1을 이용하여 출력 히든 벡터 st를 결정할 수 있다. 출력 히든 벡터 st를 산출하는 공식은 아래의 수학식3에서 확인할 수 있다.
Figure 112017036728918-pat00003
출력 히든 벡터 s0는, 이전 발화들에 기초하여 업데이트 된 제 2 문맥 벡터 c2와 일치할 수 있다. 함수 f2의 연산 방법은 다양할 수 있다.
일 실시예에 따르면, 전자 장치(200)는 복수의 출력 히든 벡터들을 이용하여 제 2 문맥 벡터(620)를 업데이트 할 수 있다. 제 2 문맥 벡터(620)가 업데이트 되는 과정은 아래의 수학식4를 참조하면 확인할 수 있다.
Figure 112017036728918-pat00004
본 개시에서는 설명의 편의상 c2 u - 1 는 업데이트 전의 제 2 문맥 벡터(620)를, c2 u 는 업데이트 된 후의 제 2 문맥 벡터(620)를 의미하는 개념으로 해석하기로 한다. 업데이트 전의 제 2 문맥 벡터 c2 u - 1 와 출력 히든 벡터 st를 이용하여 함수 f3 연산을 수행하면 업데이트 된 후의 제 2 문맥 벡터 c2 u 를 산출할 수 있다. 함수 f3의 연산 방법은 다양할 수 있다.
일 실시예에 따르면, t-1번째 제 1 출력 벡터 yt -1, t번째 출력 히든 벡터 st 및 t번째 제 1 출력 벡터 yt 간에는 수학식5의 관계가 성립할 수 있으며, 수학식5의 관계를 이용하여 복수의 제 1 출력 벡터들(630) y1 내지 yK(K는 자연수)를 결정할 수 있다.
Figure 112017036728918-pat00005
함수 f4의 연산 방법은 다양할 수 있다.
일 실시예에 따르면, 전자 장치(200)는 결정된 복수의 제 1 출력 벡터들(630)에 기초하여 제 1 출력 텍스트에 포함될 복수의 단어들을 결정할 수 있다. 복수의 제 1 출력 벡터들(630)의 총 수는 제 1 출력 텍스트에 포함될 복수의 단어들의 총 수와 일치할 수 있다. 전자 장치(200)는 우선 각 제 1 출력 벡터 별로 하나 이상의 후보 단어를 선정한 후, 각 제 1 출력 벡터와 대응되는 하나의 단어씩만을 결정하여 결정된 단어들을 조합할 수 있다. 조합된 단어들은 제 1 출력 텍스트를 형성할 수 있다.
도 7은 일 실시예에 따라 제 1 방향 번역 및 제 2 방향 번역을 수행하는 과정을 도시한 도면이다.
도 7의 블록(702)은, 제 1 화자가 발화한 제 1 언어의 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 과정을 도시한다. 블록(703)은, 제 2 화자가 발화한 제 2 언어의 제 2 입력 텍스트를 제 1 언어의 제 2 출력 텍스트로 번역하는 과정을 도시한다. 블록(701)은, 제 1 화자가 제 1 입력 텍스트를 발화하기 전에 발화된 제 1 언어의 입력 텍스트를 제 2 언어의 출력 텍스트로 번역하는 과정을 의미한다. 블록(702)에서 번역이 수행되는 과정은 도 6에서 제 1 방향 번역을 수행하는 과정과 대응될 수 있다.
도 7에 도시된 제 1 문맥 벡터(710)는 제 1 언어의 텍스트에 기초하여 생성된 문맥 벡터이다. 일 실시예에 따르면, 제 1 문맥 벡터(710)는 제 1 언어의 입력 텍스트에 기초하여 업데이트 될 수 있다. 제 2 문맥 벡터(620)는 블록(701, 702)에서 번역이 수행되는 과정에서 이용될 수 있고, 제 2 언어의 출력 텍스트에 기초하여 업데이트 될 수 있다.
일 실시예에 따르면, 전자 장치(200)는 복수의 제 1 히든 벡터들(640)을 이용하여 제 1 문맥 벡터(710)를 업데이트 할 수 있다. 제 1 문맥 벡터(710)가 업데이트 되는 과정은 아래의 수학식6을 참조하면 확인할 수 있다.
Figure 112017036728918-pat00006
본 개시에서는 설명의 편의상 c1 u - 1 는 업데이트 전의 제 1 문맥 벡터(710)를, c1 u 는 업데이트 된 후의 제 1 문맥 벡터(710)를 의미하는 개념으로 해석하기로 한다. 업데이트 전의 제 1 문맥 벡터 c1 u - 1 와 제 1 히든 벡터 ht를 이용하여 함수 f5 연산을 수행하면 업데이트 된 후의 제 1 문맥 벡터 c1 u 를 산출할 수 있다. 함수 f5의 연산 방법은 다양할 수 있다.
도 7의 블록(702)에 도시된 바와 같이, 제 1 입력 텍스트를 제 1 출력 텍스트로 번역하기 위해 이용되는 제 2 문맥 벡터(620)는 블록(701)에 도시된 이전 발화들을 번역하는 과정에서 업데이트 되었을 수 있다.
블록(703)에 도시된 바와 같이, 제 2 화자가 발화한 제 2 언어의 제 2 입력 텍스트가 획득되면, 일 실시예에 따른 전자 장치(200)는, 제 2 입력 텍스트를 제 1 언어의 제 2 출력 텍스트로 번역할 수 있다. 다시 말하면, 전자 장치(200)는 제 2 화자(120)가 발화한 제 2 언어의 제 2 입력 텍스트를 제 1 언어의 제 2 출력 텍스트로 번역하는 제 2 방향 번역(140)을 수행한다.
보다 구체적으로, 전자 장치(200)는 제 2 입력 텍스트와 대응되는 복수의 제 2 입력 벡터들(720)을 생성할 수 있고, 복수의 제 2 입력 벡터들(720)에 기초하여 복수의 제 2 히든 벡터들(730)을 생성할 수 있으며, 제 1 문맥 벡터(710) 및 복수의 제 2 히든 벡터들(730)에 기초하여 복수의 제 2 출력 벡터들을 생성할 수 있다. 제 2 방향 번역(140)의 원리는 도 6에서 전술한 제 1 방향 번역(130)의 원리와 동일하다.
일 실시예에 따르면, 제 2 문맥 벡터(620)는 제 1 언어의 입력 텍스트에 기초하여 업데이트 될 수 있다. 제 1 문맥 벡터(710)는 블록(703)에서 번역이 수행되는 과정에서 이용될 수 있고, 제 1 언어의 출력 텍스트에 기초하여 업데이트 될 수 있다.
앞서 살펴본 바와 같이, 일 실시예에 따르면 전자 장치(200)는 문맥 벡터를 이용하여 제 1 방향 번역 및 제 2 방향 번역을 수행할 수 있다. 따라서, 화자들 간의 전체 대화 히스토리에 관한 정보를 데이터 베이스(DB)에 저장하고, 필요할 때 저장된 정보를 이용하는 방식과 비교할 때, 일 실시예에 따른 전자 장치(200)는 문맥 벡터를 이용하여 문맥에 관한 정보를 관리함으로써 전자 장치(200) 내의 데이터 저장 용량을 절감할 수 있다. 또한, 일 실시예에 따른 전자 장치(200)를 이용한 번역 방식은 데이터 베이스 검색 등의 추가 서치 작업을 요구하지 않으므로, 리소스 오버헤드(resource overhead)를 예방할 수 있다.
한편, 대화를 하는 도중에 화제가 바뀌는 경우, 이전의 발화들에 기초하여 생성된 문맥 벡터를 이용하는 것이 번역 품질 개선에 도움이 되지 않고 오히려 방해되는 경우가 발생할 수 있다. 일 실시예에 따른 전자 장치(200)는, 대화의 화제가 전환되는 경우 문맥 벡터를 초기화함으로써 전술된 문제점을 해결할 수 있다.
도 8은 일 실시예에 따라 문맥 벡터가 초기화되는 과정을 도시한 도면이다.
일 실시예에 따르면, 전자 장치(200)는 발화된 언어의 화제가 전환되었다고 판단되는 경우 문맥 벡터를 초기화 할 수 있다. 보다 구체적으로, 전자 장치(200)는 발화된 언어의 화제가 전환되었다고 판단되는 경우 제 1 문맥 벡터(810) 및 제 2 문맥 벡터(820)를 초기화 할 수 있다.
일 실시예에 따르면, 복수의 제 1 히든 벡터들 중 적어도 하나의 히든 벡터와 제 1 문맥 벡터(810)간의 연관도가 미리 결정된 기준값 미만인 경우, 전자 장치(200)는 제 1 문맥 벡터(810) 및 제 2 문맥 벡터(820)를 초기화 할 수 있다. 예를 들어, 제 1 히든 벡터 hT(830)가 복수의 제 1 히든 벡터들 중 최후에 생성된 경우에, 제 1 히든 벡터 hT(830)와 제 1 문맥 벡터(810)간의 연관도가 미리 결정된 기준값 미만이면, 전자 장치(200)는 제 1 문맥 벡터(810) 및 제 2 문맥 벡터(820)를 초기화 할 수 있다.
다시 말하면, 복수의 제 1 히든 벡터들(640) 중 최후에 생성된 벡터와 제 1 문맥 벡터(810)간의 거리가 미리 결정된 기준값보다 큰 경우, 전자 장치(200)는 제 1 문맥 벡터(810) 및 제 2 문맥 벡터(820)를 초기화 할 수 있다. 예를 들어, 제 1 히든 벡터 hT(830)가 복수의 제 1 히든 벡터들 중 최후에 생성된 경우에, 제 1 히든 벡터 hT(830)와 제 1 문맥 벡터(810)간의 거리가 미리 결정된 기준값보다 크면, 전자 장치(200)는 제 1 문맥 벡터(810) 및 제 2 문맥 벡터(820)를 초기화 할 수 있다. 제 1 히든 벡터 hT(830)와 제 1 문맥 벡터(810)간의 거리가 클수록 제 1 히든 벡터 hT(830)와 제 1 문맥 벡터(810)간의 연관도는 작을 수 있다.
예를 들어, 미리 결정된 기준값이 0.1인데 복수의 제 1 히든 벡터들(640) 중 hT(830)와 제 1 문맥 벡터(810)간의 거리가 0.11인 경우, 전자 장치(200)는 발화의 화제가 전환되었다고 판단하고 제 1 문맥 벡터(810) 및 제 2 문맥 벡터(820)를 초기화 할 수 있다.
한편, 실시예는 도 8에 의해 제한되지 않으며, 도 7에 도시된 바와 같이 다양한 방향의 번역에 있어서도 전자 장치(200)는 입력 벡터와 문맥 벡터 간의 연관도에 기초하여 문맥 벡터를 초기화 할 수 있다. 예를 들어 블록(703)을 참조하면, 전자 장치(200)는 복수의 제 2 히든 벡터들(730) 중 벡터 hT와 제 2 문맥 벡터(620)간의 연관도가 작을 경우 제 1 문맥 벡터(710) 및 제 2 문맥 벡터(620)를 초기화 할 수 있다.
따라서, 도 7과 같이 전자 장치(200)가 제 1 방향 번역(130) 및 제 2 방향 번역(140)을 수행함에 있어서, 복수의 제 1 히든 벡터들(640) 중 적어도 하나의 히든 벡터와 제 1 문맥 벡터(710) 간의 연관도가 미리 결정된 기준값 미만인 경우 또는 복수의 제 2 히든 벡터들(730) 중 적어도 하나의 히든 벡터와 제 2 문맥 벡터(620) 간의 연관도가 미리 결정된 기준값 미만인 경우, 전자 장치(200)는 제 1 문맥 벡터(710) 및 제 2 문맥 벡터(620)를 초기화 할 수 있다.
도 8에 도시된 바와 같이, 일 실시예에 따른 전자 장치(200)는 대화의 화제가 전환되는 경우 문맥 벡터를 초기화 함으로써, 이전 대화에 기초하여 업데이트 되었던 문맥 벡터를 이용함으로써 번역의 정확도가 떨어지는 것을 방지할 수 있다.
도 9는 일 실시예에 따라 전자 장치가 문맥 벡터를 업데이트 하거나 초기화 하는 방법의 흐름도이다.
단계 910, 960 및 970은 도 5a의 단계 505, 515 및 520에서의 동작과 동일한 동작을 수행하므로, 상세한 설명은 생략한다.
단계 910에서, 전자 장치(200)는 제 1 언어의 제 1 입력 텍스트를 획득할 수 있다.
단계 920에서, 전자 장치(200)는 제 1 입력 텍스트에 기초하여 복수의 제 1 히든 벡터들(640)을 생성할 수 있다.
단계 930에서, 전자 장치(200)는 복수의 제 1 히든 벡터들(640) 중 최후에 생성된 벡터와 제 1 문맥 벡터(710)간의 연관도가 미리 결정된 기준값 미만인지 여부를 판단할 수 있다.
단계 930에서 복수의 제 1 히든 벡터들(640) 중 최후에 생성된 벡터와 제 1 문맥 벡터(710)간의 연관도가 미리 결정된 기준값 미만이라고 판단된 경우, 단계 940에서 전자 장치(200)는 제 1 문맥 벡터(710) 및 제 2 문맥 벡터(620)를 초기화 할 수 있다.
단계 930에서 복수의 제 1 히든 벡터들(640) 중 최후에 생성된 벡터와 제 1 문맥 벡터(710)간의 연관도가 미리 결정된 기준값 이상이라고 판단된 경우, 곧바로 단계 950으로 진행하여 전자 장치(200)는 문맥 벡터에 기초하여 제 1 언어의 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 제 1 방향 번역(130)을 수행할 수 있다.
단계 960에서, 전자 장치(200)는 제 1 입력 텍스트 및 제 1 출력 텍스트에 기초하여 문맥 벡터를 업데이트 할 수 있다.
단계 970에서, 전자 장치(200)는 제 1 출력 텍스트를 출력할 수 있다.
도 10은 일 실시예에 따른 다수의 화자간 대화에서 문맥 벡터가 공유되는 방법을 설명하기 위한 도면이다.
전자 장치(200)는, 일 실시예에 따라 제 1 언어의 제 1 입력 텍스트, 제 2 언어의 제 2 입력 텍스트 및 제 3 언어의 제 3 입력 텍스트를 획득할 수 있다.
일 실시예에 따르면, 제 1 문맥 벡터(c1)는 제 1 언어를 사용하는 제 1 화자의 발화에 기초하거나, 타 언어를 사용하는 화자의 발화가 제 1 언어로 번역된 것에 기초하여 생성 및 업데이트 될 수 있다. 제 2 문맥 벡터(c2)는 제 2 언어를 사용하는 제 2 화자의 발화에 기초하거나, 타 언어를 사용하는 화자의 발화가 제 2 언어로 번역된 것에 기초하여 생성 및 업데이트 될 수 있다. 제 3 문맥 벡터(c3)는 제 3 언어를 사용하는 제 3 화자의 발화에 기초하거나, 타 언어를 사용하는 화자의 발화가 제 3 언어로 번역된 것에 기초하여 생성 및 업데이트 될 수 있다.
일 실시예에 따르면, 전자 장치(200)는 제 1 화자와 제 2 화자간의 대화를 번역하는 과정에서 제 1 문맥 벡터(c1)와 제 2 문맥 벡터(c2)를 업데이트 할 수 있다. 보다 구체적으로, 전자 장치(200)는 제 1 화자가 발화한 내용을 제 2 언어로 번역하는 제 1 방향 번역 및 제 2 화자가 발화한 내용을 제 1 언어로 번역하는 제 2 방향 번역을 수행함에 있어서, 제 1 문맥 벡터(c1)와 제 2 문맥 벡터(c2)를 업데이트 할 수 있다.
또한, 전자 장치(200)는 제 2 화자와 제 3 화자간의 대화를 번역하는 과정에서 제 2 문맥 벡터(c2)와 제 3 문맥 벡터(c3)를 업데이트 할 수 있다. 보다 구체적으로, 전자 장치(200)는 제 2 화자가 발화한 내용을 제 3 언어로 번역하고, 제 3 화자가 발화한 내용을 제 2 언어로 번역함에 있어서, 제 2 문맥 벡터(c2)와 제 3 문맥 벡터(c3)를 업데이트 할 수 있다.
또한, 전자 장치(200)는 제 1 화자와 제 3 화자간의 대화를 번역하는 과정에서 제 1 문맥 벡터(c1)와 제 3 문맥 벡터(c3)를 업데이트 할 수 있다. 보다 구체적으로, 전자 장치(200)는 제 3 화자가 발화한 내용을 제 1 언어로 번역하는 제 3 방향 번역(1010) 및 제 1 화자가 발화한 내용을 제 3 언어로 번역하는 제 4 방향 번역(1020)을 수행함에 있어서, 제 1 문맥 벡터(c1)와 제 3 문맥 벡터(c3)를 업데이트 할 수 있다.
일 실시예에 따르면, 전자 장치(200)가 제 3 화자가 발화한 내용을 제 1 언어로 번역하는 제 3 방향 번역 및 제 1 화자가 발화한 내용을 제 3 언어로 번역하는 제 4 방향 번역을 수행함에 있어서, 전자 장치(200)는 제 1 화자와 제 2 화자간 대화, 제 2 화자와 제 3 화자간 대화를 번역하면서 업데이트 된 제 1 문맥 벡터(c1) 및 제 3 문맥 벡터(c3) 중 적어도 하나를 이용(1030, 1040) 할 수 있다.
보다 구체적으로, 전자 장치(200)는 제 1 화자와 제 2 화자간 대화에서 업데이트 된 제 1 문맥 벡터(c1)에 기초하여, 제 3 언어의 제 3 입력 텍스트를 제 1 언어의 제 3 출력 텍스트로 번역하는 제 3 방향 번역(1010)을 수행할 수 있다.
전자 장치(200)는, 일 실시예에 따라 제 3 출력 텍스트를 출력할 수 있다.
도 10에 도시된 바와 같이, 하나의 전자 장치(200)는 다수의 화자간 번역을 수행할 수 있고, 다수의 화자 중 특정 조합의 화자간 대화를 번역하면서 업데이트 된 문맥 벡터는 또 다른 조합의 화자간 대화를 번역할 때 이용될 수 있다. 이를 통해 다양한 조합의 화자간 대화에서 추출된 문맥이 번역을 수행하는 과정에서 공유될 수 있으므로, 전자 장치(200)는 다수의 화자들간의 대화를 번역할 때 자연스럽고 정확한 번역을 수행할 수 있다.
전술한 발명의 설명은 예시를 위한 것이며, 발명이 속하는 기술분야의 통상의 지식을 가진 자는 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
개시의 권리범위는 후술하는 특허청구범위에 의하여 나타내어 질 수 있으며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함될 수 있는 것으로 해석되어야 한다.

Claims (20)

  1. 전자 장치가 발화된(uttered) 언어를 번역하는 방법에 있어서,
    제 1 언어의 제 1 입력 텍스트를 획득하는 단계;
    상기 제 1 입력 텍스트를 획득하기 전에 획득되었던 텍스트에 의하여 생성된 문맥 벡터에 기초하여, 상기 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 제 1 방향 번역을 수행하는 단계;
    상기 제 1 입력 텍스트 및 상기 제 1 출력 텍스트에 기초하여 상기 문맥 벡터를 업데이트 하는 단계; 및
    상기 제 1 출력 텍스트를 출력하는 단계를 포함하되,
    상기 문맥 벡터는,
    상기 제 1 언어의 텍스트에 기초하여 생성된 제 1 문맥 벡터 및 상기 제 2 언어의 텍스트에 기초하여 생성된 제 2 문맥 벡터를 포함하고,
    상기 제 1 방향 번역을 수행하는 단계는,
    상기 제 1 언어의 제 1 입력 텍스트에 포함된 복수의 단어들과 대응되는 복수의 제 1 입력 벡터들에 기초하여 복수의 제 1 히든 벡터들을 순차로 생성하는 단계;
    상기 복수의 제 1 히든 벡터들 각각의 가중치들을 결정하는 단계;
    상기 복수의 제 1 히든 벡터들 각각의 가중치들, 상기 복수의 제 1 히든 벡터들 및 상기 제 2 언어의 텍스트에 기초하여 생성된 제 2 문맥 벡터를 이용하여 복수의 제 1 출력 벡터들을 결정하는 단계; 및
    상기 복수의 제 1 출력 벡터들에 기초하여 상기 제 1 출력 텍스트에 포함될 복수의 단어들을 결정하는 단계를 포함하고,
    상기 문맥 벡터를 업데이트 하는 단계는,
    상기 제 1 입력 텍스트에 기초하여 상기 제 1 문맥 벡터를 업데이트 하는 단계; 및
    상기 제 1 출력 텍스트에 기초하여 상기 제 2 문맥 벡터를 업데이트 하는 단계를 포함하고,
    상기 방법은, 상기 발화된 언어의 화제가 전환되었다고 판단되는 경우 상기 제 1 문맥 벡터 및 상기 제 2 문맥 벡터를 초기화하는 단계를 더 포함하는, 방법.
  2. 제 1 항에 있어서,
    상기 제 2 언어의 제 2 입력 텍스트를 획득하는 단계;
    상기 업데이트 된 문맥 벡터에 기초하여 상기 제 2 입력 텍스트를 상기 제 1 언어의 제 2 출력 텍스트로 번역하는 제 2 방향 번역을 수행하는 단계;
    상기 제 2 입력 텍스트 및 상기 제 2 출력 텍스트에 기초하여 상기 업데이트 된 문맥 벡터를 다시 업데이트(reupdate) 하는 단계; 및
    상기 제 2 출력 텍스트를 출력하는 단계를 더 포함하는, 방법.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 제 1 문맥 벡터는,
    상기 제 1 입력 텍스트를 획득하기 전에 획득되었던 상기 제 1 언어의 입력 텍스트 및 상기 제 1 입력 텍스트를 획득하기 전에 출력되었던 상기 제 1 언어의 출력 텍스트 중 적어도 하나에 기초하여 생성되고,
    상기 제 2 문맥 벡터는,
    상기 제 1 입력 텍스트를 획득하기 전에 획득되었던 상기 제 2 언어의 입력 텍스트 및 상기 제 1 입력 텍스트를 획득하기 전에 출력되었던 상기 제 2 언어의 출력 텍스트 중 적어도 하나에 기초하여 생성되는, 방법.
  5. 삭제
  6. 제 1 항에 있어서,
    상기 제 1 방향 번역을 수행하는 단계는,
    상기 발화된 언어의 종류가 상기 제 1 언어임을 식별하는 단계; 및
    상기 제 1 언어의 발화들을 번역할 타겟(target) 언어로서 상기 제 2 언어를 결정하는 단계를 더 포함하는, 방법.
  7. 삭제
  8. 제 1 항에 있어서,
    상기 제 1 문맥 벡터 및 상기 제 2 문맥 벡터를 초기화하는 단계는,
    상기 복수의 제 1 히든 벡터들 중 최후에 생성된 벡터와 상기 제 1 문맥 벡터간의 연관도가 미리 결정된 기준값 미만인 경우 또는 상기 복수의 제 2 히든 벡터들 중 최후에 생성된 벡터와 상기 제 2 문맥 벡터간의 연관도가 미리 결정된 기준값 미만인 경우 상기 제 1 문맥 벡터 및 상기 제 2 문맥 벡터를 초기화하는 단계를 포함하는, 방법.
  9. 제 1 항에 있어서,
    상기 문맥 벡터는 제 3 언어의 텍스트에 기초하여 생성된 제 3 문맥 벡터를 더 포함하고,
    상기 방법은,
    상기 제 3 언어의 제 3 입력 텍스트를 획득하는 단계;
    상기 업데이트 된 제 1 문맥 벡터에 기초하여 상기 제 3 언어의 제 3 입력 텍스트를 상기 제 1 언어의 제 3 출력 텍스트로 번역하는 제 3 방향 번역을 수행하는 단계;
    상기 제 3 입력 텍스트 및 상기 제 3 출력 텍스트 각각에 기초하여 상기 업데이트 된 제1 문맥 벡터 및 상기 제3 문맥 벡터를 업데이트 하는 단계; 및
    상기 제 3 출력 텍스트를 출력하는 단계를 더 포함하는, 방법.
  10. 제 1 항에 있어서,
    상기 제 1 방향 번역은 인공 신경망 기계 번역(NMT)을 이용하여 수행되는, 방법.
  11. 발화된(uttered) 언어를 번역하는 전자 장치에 있어서,
    제 1 언어의 제 1 입력 텍스트를 획득하는 획득부;
    상기 제 1 입력 텍스트를 획득하기 전에 획득되었던 텍스트에 의하여 생성된 문맥 벡터에 기초하여, 상기 제 1 입력 텍스트를 제 2 언어의 제 1 출력 텍스트로 번역하는 제 1 방향 번역을 수행하고, 상기 제 1 입력 텍스트 및 상기 제 1 출력 텍스트에 기초하여 상기 문맥 벡터를 업데이트 하는 적어도 하나의 프로세서(processor); 및
    상기 제 1 출력 텍스트를 출력하는 출력부를 포함하되,
    상기 문맥 벡터는,
    상기 제 1 언어의 텍스트에 기초하여 생성된 제 1 문맥 벡터 및 상기 제 2 언어의 텍스트에 기초하여 생성된 제 2 문맥 벡터를 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 제 1 언어의 제 1 입력 텍스트에 포함된 복수의 단어들과 대응되는 복수의 제 1 입력 벡터들에 기초하여 복수의 제 1 히든 벡터들을 순차로 생성하고,
    상기 복수의 제 1 히든 벡터들 각각의 가중치들을 결정하고,
    상기 복수의 제 1 히든 벡터들 각각의 가중치들, 상기 복수의 제 1 히든 벡터들 및 상기 제 2 언어의 텍스트에 기초하여 생성된 제 2 문맥 벡터를 이용하여 복수의 제 1 출력 벡터들을 결정하고,
    상기 복수의 제 1 출력 벡터들에 기초하여 상기 제 1 출력 텍스트에 포함될 복수의 단어들을 결정하고,
    상기 제 1 입력 텍스트에 기초하여 상기 제 1 문맥 벡터를 업데이트 하고,
    상기 제 1 출력 텍스트에 기초하여 상기 제 2 문맥 벡터를 업데이트 하고,
    상기 발화된 언어의 화제가 전환되었다고 판단되는 경우 상기 제 1 문맥 벡터 및 상기 제 2 문맥 벡터를 초기화하는,
    전자 장치.
  12. 제 11 항에 있어서,
    상기 획득부는,
    상기 제 2 언어의 제 2 입력 텍스트를 획득하고,
    상기 적어도 하나의 프로세서는,
    상기 업데이트 된 문맥 벡터에 기초하여 상기 제 2 입력 텍스트를 상기 제 1 언어의 제 2 출력 텍스트로 번역하는 제 2 방향 번역을 수행하고, 상기 제 2 입력 텍스트 및 상기 제 2 출력 텍스트에 기초하여 상기 업데이트 된 문맥 벡터를 다시 업데이트 하며,
    상기 출력부는,
    상기 제 2 출력 텍스트를 출력하는, 전자 장치.
  13. 삭제
  14. ◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈
    제 11 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제 1 입력 텍스트를 획득하기 전에 획득되었던 상기 제 1 언어의 입력 텍스트 및 상기 제 1 입력 텍스트를 획득하기 전에 출력되었던 상기 제 1 언어의 출력 텍스트 중 적어도 하나에 기초하여 상기 제 1 문맥 벡터를 생성하고,
    상기 제 1 입력 텍스트를 획득하기 전에 획득되었던 상기 제 2 언어의 입력 텍스트 및 상기 제 1 입력 텍스트를 획득하기 전에 출력되었던 상기 제 2 언어의 출력 텍스트 중 적어도 하나에 기초하여 상기 제 2 문맥 벡터를 생성하는, 전자 장치.
  15. 삭제
  16. ◈청구항 16은(는) 설정등록료 납부시 포기되었습니다.◈
    제 11 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 발화된 언어의 종류가 상기 제 1 언어임을 식별하고, 상기 제 1 언어의 발화들을 번역할 타겟 언어로서 상기 제 2 언어를 결정하는, 전자 장치.
  17. 삭제
  18. ◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈
    제 11 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 복수의 제 1 히든 벡터들 중 최후에 생성된 벡터와 상기 제 1 문맥 벡터간의 연관도가 미리 결정된 기준값 미만인 경우 또는 상기 복수의 제 2 히든 벡터들 중 최후에 생성된 벡터와 상기 제 2 문맥 벡터간의 연관도가 미리 결정된 기준값 미만인 경우 상기 제 1 문맥 벡터 및 상기 제 2 문맥 벡터를 초기화하는, 전자 장치.
  19. ◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈
    제 11 항에 있어서,
    상기 문맥 벡터는 제 3 언어의 텍스트에 기초하여 생성된 제 3 문맥 벡터를 더 포함하고,
    상기 획득부는,
    상기 제 3 언어의 제 3 입력 텍스트를 더 획득하고,
    상기 적어도 하나의 프로세서는,
    상기 업데이트 된 제 1 문맥 벡터에 기초하여 상기 제 3 언어의 제 3 입력 텍스트를 상기 제 1 언어의 제 3 출력 텍스트로 번역하는 제 3 방향 번역을 수행하고, 상기 제 3 입력 텍스트 및 상기 제 3 출력 텍스트 각각에 기초하여 상기 업데이트 된 제1 문맥 벡터 및 상기 제3 문맥 벡터를 업데이트하며,
    상기 출력부는,
    상기 제3 출력 텍스트를 출력하는, 전자 장치.
  20. 제 1 항의 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체.
KR1020170048534A 2016-11-28 2017-04-14 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법 KR102544249B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP17873361.4A EP3540611A4 (en) 2016-11-28 2017-06-23 ELECTRONIC DEVICE FOR TRANSLATING BY SHARING THE CONTEXT OF AN EXPRESSION AND OPERATING METHOD THEREFOR
US16/463,959 US11314951B2 (en) 2016-11-28 2017-06-23 Electronic device for performing translation by sharing context of utterance and operation method therefor
CN201780081483.4A CN110114765B (zh) 2016-11-28 2017-06-23 通过共享话语的上下文执行翻译的电子设备及其操作方法
PCT/KR2017/006627 WO2018097439A1 (ko) 2016-11-28 2017-06-23 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20160159416 2016-11-28
KR1020160159416 2016-11-28

Publications (2)

Publication Number Publication Date
KR20180060903A KR20180060903A (ko) 2018-06-07
KR102544249B1 true KR102544249B1 (ko) 2023-06-16

Family

ID=62621669

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170048534A KR102544249B1 (ko) 2016-11-28 2017-04-14 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법

Country Status (3)

Country Link
EP (1) EP3540611A4 (ko)
KR (1) KR102544249B1 (ko)
CN (1) CN110114765B (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102128549B1 (ko) 2018-09-19 2020-07-08 주식회사 포티투마루 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램
KR102261199B1 (ko) * 2018-09-19 2021-06-07 주식회사 포티투마루 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램
CN112765998A (zh) * 2019-11-01 2021-05-07 华为技术有限公司 机器翻译方法、机器翻译模型训练方法、装置及存储介质
KR20220112563A (ko) * 2021-02-04 2022-08-11 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2023063569A1 (ko) * 2021-10-15 2023-04-20 삼성전자주식회사 전자 장치 및 그 제어 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11201404678RA (en) * 2012-03-14 2014-09-26 Nec Corp Term synonym acquisition method and term synonym acquisition apparatus
KR101694286B1 (ko) * 2012-05-02 2017-01-09 한국전자통신연구원 양방향 자동 통역 및 번역 서비스 제공 장치 및 그 방법
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
KR20140121580A (ko) * 2013-04-08 2014-10-16 한국전자통신연구원 자동 번역 및 통역 장치 및 그 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Dong et al. "Multi-task learning for multiple language translation." Proceedings of ACL-IJCNLP (Volume 1: Long Papers). 2015.
Firat, Orhan, Kyunghyun Cho, and Yoshua Bengio. "Multi-way, multilingual neural machine translation with a shared attention mechanism." arXiv preprint arXiv:1601.01073 (2016).
Huang et al. "Attention-based multimodal neural machine translation." Proceedings of the First Conference on Machine Translation: Volume 2, Shared Task Papers. (2016).
Kyunghyun Cho, "Introduction to Neural Machine Translation with GPUs (part 3)." [Online], [URL: https://developer.nvidia.com/blog/introduction-neural-machine-translation-gpus-part-3/], (2015.07.26.)*

Also Published As

Publication number Publication date
EP3540611A4 (en) 2019-12-18
CN110114765B (zh) 2023-07-25
KR20180060903A (ko) 2018-06-07
EP3540611A1 (en) 2019-09-18
CN110114765A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
US11031000B2 (en) Method and device for transmitting and receiving audio data
KR102544249B1 (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
US11769492B2 (en) Voice conversation analysis method and apparatus using artificial intelligence
KR102449875B1 (ko) 음성 신호 번역 방법 및 그에 따른 전자 장치
KR102623727B1 (ko) 전자 장치 및 이의 제어 방법
US11314951B2 (en) Electronic device for performing translation by sharing context of utterance and operation method therefor
US11847168B2 (en) Training model with model-provided candidate action
KR102490916B1 (ko) 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
US11423884B2 (en) Device with convolutional neural network for acquiring multiple intent words, and method thereof
KR20180108400A (ko) 전자 장치, 그의 제어 방법 및 비일시적 컴퓨터 판독가능 기록매체
US20240105159A1 (en) Speech processing method and related device
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
US11315553B2 (en) Electronic device and method for providing or obtaining data for training thereof
CN112384974A (zh) 电子装置和用于提供或获得用于训练电子装置的数据的方法
CN113590798A (zh) 对话意图识别、用于识别对话意图的模型的训练方法
CN115101075A (zh) 一种语音识别的方法以及相关装置
KR20210015977A (ko) 사망자와의 대화 구현 장치
US12001808B2 (en) Method and apparatus for providing interpretation situation information to one or more devices based on an accumulated delay among three devices in three different languages
US11308279B2 (en) Method and system simplifying the input of symbols used as a pair within a user interface
US20230186036A1 (en) Method and apparatus for providing interpretation situation information
KR102311218B1 (ko) 영상에 관한 대화 처리 장치, 방법 및 시스템
US20220083882A1 (en) Electronic device and operating method for providing information about why response has changed
KR20210094727A (ko) 전자 장치 및 이의 제어 방법
CN114817452A (zh) 一种语义匹配方法、装置、设备及可存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant