KR20210144975A

KR20210144975A - 텍스트 시퀀스를 번역하는 전자 장치 및 그 동작 방법

Info

Publication number: KR20210144975A
Application number: KR1020200060901A
Authority: KR
Inventors: 아날레 자말 아부아마르; 아야 수레이만 모하매드 알자파리; 무헤딘 콰셈 무헤딘 제이터; 루바 와리드 자이카트
Original assignee: 삼성전자주식회사
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2021-12-01
Also published as: WO2021235586A1

Abstract

제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득하고, 제1 컨텍스트 정보를 디코딩함으로써, 제1 텍스트 그룹과 대응되는, 제2 언어의 제2 텍스트 그룹을 획득하고, 제2 텍스트 그룹에서, 제2 토큰을 검출하고, 제2 토큰이 검출됨에 따라, 제2 텍스트 그룹을 제1 텍스트 그룹에 대한 번역 결과로서 출력하는, 제1 전자 장치에서, 텍스트 시퀀스를 번역하는 방법이 개시된다.

Description

텍스트 시퀀스를 번역하는 전자 장치 및 그 동작 방법 {Electronic device and operating method for translating a text sequence}

본 개시는, 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하는 전자 장치 및 그 동작 방법에 관한 것이다.

자동 음성 인식 기술 및 기계 번역 기술이 발전함에 따라서, 음성 신호를 인식하고, 이를 자동으로 번역하여 출력하는 음성 번역 서비스가 제공되고 있다.

강연이나 외국인과의 대화에서, 음성 번역 서비스가 제공되는 경우, 발화자에 의한 음성 신호가 수신될 때 마다, 음성 신호에 대해 번역된 결과를 최대한 빨리 출력하여야, 청취자가 대화나 강연을 수월하게 인식할 수 있다.

따라서, 지속적으로 수신되는 음성 신호에 따라서, 청취자가 발화자의 발화 내용을 빠르게 인식할 수 있도록, 음성 신호에 대한 번역 결과를 최대한 빠르게 출력하는 방법을 제공할 필요가 있다.

본 개시가 해결하고자 하는 과제는 전술한 문제를 해결하기 위한 것으로서, 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하는 전자 장치 및 그 동작 방법을 제공하기 위한 것이다.

또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 제1 전자 장치에서, 텍스트 시퀀스를 번역하는 방법에 있어서, 제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 상기 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득하는 단계; 상기 제1 컨텍스트 정보를 디코딩함으로써, 상기 제1 텍스트 그룹과 대응되는, 제2 언어의 제2 텍스트 그룹을 획득하는 단계; 상기 제2 텍스트 그룹에서, 제2 토큰을 검출하는 단계; 및 상기 제2 토큰이 검출됨에 따라, 상기 제2 텍스트 그룹을 상기 제1 텍스트 그룹에 대한 번역 결과로서 출력하는 단계를 포함하는, 방법을 제공할 수 있다.　

또한, 본 개시의 제2 측면은, 제2 전자 장치에서, 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 방법에 있어서, 제1 언어의 텍스트 시퀀스 및 상기 제1 언어의 텍스트 시퀀스와 대응되는 제2 언어의 텍스트 시퀀스를 획득하는 단계; 상기 제2 언어의 텍스트 시퀀스를 분할하고, 상기 분할된 위치에 제2 토큰을 삽입하는 단계; 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간과 대응되는, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별하는 단계; 및 상기 식별된 대응 관계에 기초하여, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하고, 상기 인코딩된 결과를 디코딩함에 따라 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력될 수 있도록, 상기 인공지능 모델을 학습하는 단계를 포함하는, 방법을 제공할 수 있다.　

또한, 본 개시의 제3 측면은, 텍스트 시퀀스를 번역하는 제1 전자 장치에 있어서, 텍스트 시퀀스를 번역하는데 필요한 데이터를 저장하는 메모리; 제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 상기 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득하고, 상기 제1 컨텍스트 정보를 디코딩함으로써, 상기 제1 텍스트 그룹과 대응되는, 제2 언어의 제2 텍스트 그룹을 획득하고, 상기 제2 텍스트 그룹에서, 제2 토큰을 검출하는 적어도 하나의 프로세서; 및 상기 제2 토큰이 검출됨에 따라, 상기 제2 텍스트 그룹을 상기 제1 텍스트 그룹에 대한 번역 결과로서 출력하는 출력부를 포함하는, 제1 전자 장치가 제공될 수 있다.

또한, 본 개시의 제4 측면은, 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 제2 전자 장치에 있어서, 제1 언어의 텍스트 시퀀스 및 상기 제1 언어의 텍스트 시퀀스와 대응되는 제2 언어의 텍스트 시퀀스를 획득하고, 상기 제2 언어의 텍스트 시퀀스를 분할하고, 상기 분할된 위치에 제2 토큰을 삽입하고, 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간과 대응되는, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별하고, 상기 식별된 대응 관계에 기초하여, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하고, 상기 인코딩된 결과를 디코딩함에 따라 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력될 수 있도록, 상기 인공지능 모델을 학습하는 적어도 하나의 프로세서; 및 상기 학습된 인공지능 모델을 저장하는 메모리를 포함하는, 제2 전자 장치를 제공할 수 있다.

또한, 본 개시의 제5 측면은, 제1 측면 또는 제2 측면의 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 제공할 수 있다.

일 실시 예에 의하면 순차적으로 획득되는, 제1 언어의 텍스트 시퀀스에 대한 번역 결과가 빠르게 출력될 수 있다.

도 1은 일 실시 예에 의한 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하는 방법의 일 예를 나타낸 블록도이다.
도 2는 일 실시 예에 의한 텍스트 시퀀스를 번역하는 일 예를 나타낸 도면이다.
도 3는 일 실시 예에 의한 제1 전자 장치의 내부 구성을 설명하기 위한 블록도이다.
도 4는 일 실시 예에 의한 제1 전자 장치의 내부 구성을 설명하기 위한 블록도이다.
도 5는 일 실시 예에 의한 텍스트 시퀀스를 번역하는 방법을 나타낸 순서도이다.
도 6은 일 실시 예에 의한 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 일 예를 나타낸 블록도이다.
도 7은 일 실시 예에 의한 제2 전자 장치의 내부 구성을 설명하기 위한 블록도이다.
도 8은 일 실시 예에 의한 제2 전자 장치의 내부 구성을 설명하기 위한 블록도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 일 실시 예에 의한 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하는 방법의 일 예를 나타낸 블록도이다.

도 1을 참조하면, 제1 전자 장치(1000)는 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하여, 출력할 수 있다. 일 실시 예에 따라 번역되는 제1 언어의 텍스트 시퀀스는, 제1 전자 장치(1000)에서 수신된 제1 언어의 음성 신호에 대해 음성 인식이 수행됨으로써 획득될 수 있다. 일 실시 예에 의한 제1 전자 장치(1000)는, 음성 인식에 한하지 않고, 다양한 방법을 통해, 제1 언어의 텍스트 시퀀스를 획득할 수 있다.

또한, 제1 전자 장치(1000)는, 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하고, 번역된 제2 언어의 텍스트 시퀀스를 음성 신호로 변환하여 출력할 수 있다. 상술한 예에 한하지 않고, 제1 전자 장치(1000)는 번역된 제2 언어의 텍스트 시퀀스를 다양한 형태로 변환하여 출력할 수 있다.

일 실시 예에 의한 제1 전자 장치(1000)는, 제1 언어의 음성 신호가 순차적으로 수신됨에 따라서, 음성 인식된 텍스트들의 집합인, 텍스트 시퀀스를 순차적으로 획득할 수 있다. 예를 들면, 제1 전자 장치(1000)는, 음성 신호의 어조나, 음성 신호에서 감지된 포즈(pose) 구간에 따라서, 구분된 음성 신호의 구간 별로, 음성 인식을 수행함으로써, 텍스트들이 차례대로 나열된 텍스트 시퀀스를 획득할 수 있다.

일 실시 예에 의하면, 텍스트 시퀀스의 끝에 텍스트 시퀀스의 종료, 예를 들면, 문장의 종료, 또는 문장의 끝을 나타내는 제1 토큰(ex. <eos> 토큰)이 포함된, 텍스트 시퀀스가 획득될 수 있다. 따라서, 일 실시 예에 의하면, 제1 토큰에 따라, 텍스트 시퀀스의 구간이 문장 단위로 구분될 수 있고, 구분된 텍스트 시퀀스 별로, 번역이 수행될 수 있다.

일 실시 예에 의한 텍스트 시퀀스는, 순서대로 배열된 적어도 하나의 텍스트를 포함할 수 있고, 제1 토큰이 텍스트 시퀀스에 삽입됨에 따라서, 텍스트 시퀀스가 문장 단위로 구분될 수 있다.

일 실시 예에 의한 제1 토큰은, 1개 문장과 대응되는 제1 언어의 텍스트 시퀀스가 인코딩될 때, 제1 토큰에 앞선 단어들이 순차적으로 먼저 인코딩된 후, 맨 마지막에 인코딩될 수 있다.

일 실시 예에 의한 인코딩 및 디코딩은, 단어 단위로 수행될 수 있으나, 이에 한하지 않고, 다양한 단위(ex. 어구, 형태소, 숙어)로 수행될 수 있다.

일 실시 예에 의하면, 1개 문장과 대응되는 제1 언어의 텍스트 시퀀스가 인코딩된 결과인, 컨텍스트 정보가, 디코딩됨으로써, 제2 언어의 텍스트 시퀀스가 획득될 수 있다. 일 실시 예에 의한 제2 언어의 텍스트 시퀀스는, 제1 언어의 텍스트 시퀀스와 동일하게, 텍스트 시퀀스의 맨 마지막에 위치한 제1 토큰을 포함할 수 있다.

일 실시 예에 의한 컨텍스트 정보는, 제1 언어의 텍스트 시퀀스에 포함된 단어들이 순차적으로 인코딩된 정보를 포함할 수 있다. 예를 들어, 컨텍스트 정보는, 제1 언어의 텍스트 시퀀스에 포함된 단어들이 순차적으로 부호화된 결과로서, 벡터 형식의 값들을 포함할 수 있다. 컨텍스트 정보는, 단어뿐 아니라, 제1 토큰이 더 인코딩된 정보를 포함할 수도 있다.

일 실시 예에 따라, 인코딩 및 디코딩에 이용되는, 인코더 및 디코더는, 단어들을 순차적으로 처리하기 위한, 적어도 하나의 인공지능 모델(ex. RNN(Recurrent Neural Network), LSTM(Long short-term memory))로 구성될 수 있다.

일 실시 예에 따른 인코더에서 인코딩하는데 이용되는 인공지능 모델은, 제1 언어의 텍스트 시퀀스에 포함된 단어들을 순차적으로 처리함으로써, 컨텍스트 정보를 출력할 수 있다. 예를 들어, 인코더의 인공지능 모델에 의해, 복수 개의 단어들이 순차적으로 처리되는 경우, 이전의 인코딩 단계에서 처리된 단어에 기초하여, 현재의 단어가 처리됨으로써, 컨텍스트 정보가 출력될 수 있다. 예를 들어, 첫번째로 인코딩된 단어 1의 처리 결과에 기초하여, 다음 단계에서, 단어 2가 인코딩됨으로써, 모든 단어들이 순서대로 인코딩된 결과인 컨텍스트 정보가 출력될 수 있다.

또한, 일 실시 예에 따른 디코더에서 디코딩하는데 이용되는 인공지능 모델은, 인코더에 의해 출력된 컨텍스트 정보에 기초하여, 제2 언어의 단어들을 순차적으로 출력할 수 있다. 예를 들어, 디코더의 인공지능 모델에 의해, 제2 언어의 단어들이 순차적으로 출력되는 경우, 이전의 디코딩 단계에서 출력된 단어에 기초하여 현재의 단어가 출력됨으로써, 디코더에서 출력된 단어들을 포함하는 제2 언어의 텍스트 시퀀스가 번역 결과로서 획득될 수 있다. 예를 들어, 이전 단계에서 디코딩 결과로 출력된 단어 1에 기초하여, 현재 단계에서 디코딩이 수행됨으로써, 단어 2가 출력될 수 있다. 즉, 단어 2는, 단어 1이 디코딩 결과로서 이전 단계에서 출력됨에 따라서, 현재 단계에서 디코딩 결과로서 출력될 수 있다.

일 실시 예에 따라, 인코더가 인코딩을 수행되는데 이용되는 인공지능 모델은, 제1 언어의 텍스트 시퀀스에 기초하여, 제2 언어의 텍스트 시퀀스를 획득할 수 있는 적절한 컨텍스트 정보를 출력할 수 있도록, 미리 학습될 수 있다. 또한, 일 실시 예에 따라, 디코더가 디코딩을 수행되는데 이용되는 인공지능 모델은, 컨텍스트 정보를 디코딩하여, 제1 언어의 텍스트 시퀀스에 대응하는 제2 언어의 텍스트 시퀀스를 출력할 수 있도록, 미리 학습될 수 있다.

일 실시 예에 따르면 인코딩 후 디코딩이 수행되므로, 미리 학습된 하나의 인공지능 모델에 의해 인코딩 및 디코딩이 수행될 수 있다. 이에 한하지 않고, 복수 개의 인공지능 모델에 의해 인코딩 및 디코딩이 각각 수행될 수도 있다.

일 실시 예에 따른 텍스트 시퀀스는, 제1 토큰에 따라 구분된, 문장 또는 구절 단위로, 번역이 수행될 수 있다. 예를 들면, 1개 문장과 대응되는 제1 언어의 텍스트 시퀀스에 대하여, 인코딩된 결과인 컨텍스트 정보가 디코딩됨으로써, 제2 언어의 텍스트 시퀀스가 획득될 수 있다. 일 실시 예에 의하면, 제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 단어들이 순차적으로 인코딩됨으로써 획득된 컨텍스트 정보가 디코딩될 수 있다.

문장 단위로 텍스트 시퀀스의 번역이 수행되는, 상술한 예에 한하지 않고, 제1 언어의 텍스트 시퀀스는 제1 토큰에 의해 구분된 다양한 단위에 따라 번역이 수행될 수 있다. 본 명세서에서는, 제1 토큰에 의해 구분된 텍스트 시퀀스의 단위를 문장 단위인 것으로 가정하였으나, 이에 한하지 않고, 다양한 단위로 구분될 수 있다.

일 실시 예에 의하면, 앞뒤 단어의 순서에 따라서, 인코딩 및 디코딩 결과가 변경될 수 있으므로, 순차적으로 제1 언어의 단어가 획득될 때마다 인코딩 및 디코딩이 수행되더라도, 디코딩된 결과의 출력은, 문장 단위의 제1 언어의 텍스트 시퀀스에 포함된 모든 단어에 대한 인코딩 및 디코딩된 결과가 출력됨이 바람직하다.

그러나, 일 실시 예에 의하면, 순차적으로 획득되는 제1 언어의 적어도 하나의 단어에 대해 인코딩된 결과인 컨텍스트 정보에 기초하여, 디코딩된 결과가, 미리 특정된 토큰을 포함하는 경우에는, 완전한 문장에 대한 디코딩 결과가 아님에도, 출력될 수 있다.

일 실시 예에 의하면, 디코딩된 결과가, 완전한 문장에 대한 컨텍스트 정보에 기초한 디코딩이 아님에도, 미리 특정된 토큰에 따라 분할된 구간 단위로, 인코딩된 컨텍스트 정보에 기초한 디코딩인 경우, 번역 결과로서 출력될 수 있다. 일 실시 예에 따라 미리 특정된 토큰은, 문맥 또는 문장 유형에 따라 구분된 제2 언어의 텍스트 시퀀스의 구간에 삽입될 수 있는 제2 토큰일 수 있다.

예를 들면, 제2 토큰은, 문맥 또는 문장 유형에 따라 구분된 위치에 제2 언어의 텍스트 시퀀스에서 삽입되어, 제2 토큰을 포함하는 제2 언어의 텍스트 시퀀스가 디코딩 단에서 미리 학습됨으로써, 디코딩 시에, 제2 언어의 텍스트 시퀀스로서 획득될 수 있는 토큰이다. 일 실시 예에 의하면, 문맥 또는 문장 유형에 따라 구분된 구간에서는, 해당 구간이 디코딩된 이후에, 제1 언어의 텍스트 시퀀스에서 획득된 단어에 따라 상기 디코딩된 결과가 크게 변하지 않음을 고려하여, 먼저 상기 디코딩된 결과가 출력됨으로써, 더 빠른 번역 결과를 얻고자 하는 사용자 편의가 도모될 수 있다.

일 실시 예에 의한 제2 토큰은, 제2 언어의 텍스트 시퀀스에서 문맥 또는 문장 유형에 따라 구분된 위치에 삽입되는 데에 한하지 않고, 사용자가 번역 결과를 인식하는데, 먼저 디코딩 결과로서 출력되어도, 이후에 획득되는 제1 언어의 적어도 하나의 단어에 의해, 먼저 출력된 디코딩 결과가 변형될 가능성이 상대적으로 낮은 구간인지에 따라서, 제2 토큰이 제2 언어의 텍스트 시퀀스에 삽입되어, 디코딩 단에서 미리 학습될 수 있다.

따라서, 일 실시 예에 의하면, 제1 언어의 완전한 문장이 획득되기 전에, 번역이 수행된 결과가 실시간으로 빠르게 출력될 수 있다.

일 실시 예에 의하면, 제1 언어의 텍스트 시퀀스의 모든 단어가 인코딩된 후 디코딩된 결과가 출력되는 대신, 순차적으로 입력된 제1 언어의 텍스트 시퀀스에 포함된 단어들이 각각 순차적으로 인코딩될 때마다, 디코딩이 수행될 수 있다. 예를 들어, 제1 언어의 텍스트 시퀀스에 포함된 단어들이 각각 순차적으로 인코딩될 때마다, 획득된 컨텍스트 정보에 대하여, 디코딩이 수행될 수 있다.

따라서, 일 실시 예에 의하면, 제1 언어의 텍스트 시퀀스에 포함된 단어들과, 마지막에 포함된 제1 토큰까지 인코딩된 후, 디코딩이 수행되는` 대신, 제1 토큰이 인코딩되기 전에, 획득된 컨텍스트 정보에 기초하여, 디코딩이 수행될 수 있다.

다만, 일 실시 예에 의하면, 디코딩이 수행되는 것은, 제1 언어의 단어가 순차적으로 획득될 때마다, 인코딩이 수행됨에 따라 수행될 수 있으나, 디코딩된 결과가 출력되는 것은, 제2 토큰이 검출됨에 따라 수행될 수 있다. 따라서, 일 실시 예에 의하면, 디코딩이 수행된 결과로부터 제2 토큰이 검출됨에 따라서, 제1 언어의 텍스트 시퀀스에서, 제1 토큰이 처리되기 전에, 제2 토큰이 출력될 때까지 획득된 제2 언어의 단어들이 번역 결과로서 출력될 수 있다.

따라서, 일 실시 예에 의하면, 음성 인식된 텍스트 시퀀스가 획득되는 문장 또는 구절 단위의 구간보다 상대적으로 더 짧은 구간 단위로, 번역된 결과가 출력됨에 따라서, 번역 결과가 더 빠르게 출력될 수 있다.

또한, 일 실시 예에 의한 제1 전자 장치(1000)는, 사용자에게 번역 결과를 빠르게 제공함에 따라서, 제1 언어의 음성 신호가 발화된 시점으로부터 크게 지연되지 않은 시점에, 번역된 결과가 제공될 수 있다. 따라서, 일 실시 예에 의하면, 통역 및 번역 서비스를 제공받는 사용자의 편의성이 높아질 수 있다.

일 실시예에 따른 제1 전자 장치(1000)는 다양한 형태로 구현될 수 있다. 예를 들어, 본 명세서에서 기술되는 제1 전자 장치(1000)는, 디지털 카메라, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 차량(vehicle) 등이 있을 수 있으나, 이에 한정되는 것은 아니다. 본 명세서에서 기술되는 제1 전자 장치(1000)는 사용자에 의해 착용될 수 있는 장치(wearable device)일 수 있다. 웨어러블 디바이스는 액세서리 형 장치(예컨대, 시계, 반지, 팔목 밴드, 발목 밴드, 목걸이, 안경, 콘택트 렌즈), 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형 장치(예: 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 이하에서는, 설명의 편의상, 제1 전자 장치(1000)가 스마트 폰인 경우를 예로 들어 설명하기로 한다.

일 실시 예에 의한, 제1 전자 장치(1000)는 서로 다른 언어를 사용하는 제1 사용자와 제2 사용자 간의 대화를 위하여 통역 또는 번역을 수행하기 위해, 일 실시 예에 따라, 제1 언어의 음성 신호를 제2 언어로 번역하여, 제2 언어의 음성 신호를 출력할 수 있다. 여기서, 통역은 제1 언어로 형성된 음성 신호를 제2 언어로 형성된 음성 신호인 '말(speech)'로 변환하는 것이고, 번역은 제1 언어로 형성된 음성 신호를 제2 언어로 형성된 '글(text)'로 변환하는 것이다.

일 실시 예에 의하면, 통역 및 번역 모두, 제1 언어의 음성 신호가 제1 언어의 텍스트로 변환된 후, 제2 언어의 텍스트가 번역된 결과로서 획득되는 동작을 포함할 수 있다. 따라서, 일 실시 예에 의한 텍스트를 번역하는 방법은, 통역 및 번역 모두에서 이용될 수 있다.

일 실시 예에 의한 제1 전자 장치(1000)는, 제1 언어의 텍스트 시퀀스 획득 단계(110), 인코딩을 통한 컨텍스트 정보 획득 단계(120), 디코딩을 통한 제2 언어의 텍스트 시퀀스 획득 단계(130) 및 제2 언어의 텍스트 시퀀스 출력 단계(140)를 수행함으로써, 텍스트를 번역하는 동작을 수행할 수 있다.

일 실시 예에 의한 제1 언어의 텍스트 시퀀스 획득 단계(110)에서, 제1 전자 장치(1000)는 번역하고자 하는, 제1 언어의 텍스트 시퀀스를 획득할 수 있다. 일 실시 예에 의한 제1 언어의 텍스트 시퀀스는, 제1 전자 장치(1000)에서, 제1 언어의 적어도 하나의 텍스트를 획득된 순서에 따라 나열된, 텍스트들을 포함할 수 있다.

일 실시 예에 의한 인코딩을 통한 컨텍스트 정보를 획득하는 단계(120)에서, 제1 전자 장치(1000)는, 텍스트 시퀀스에 포함된 텍스트들에 대해, 번역이 가능한 단위(ex. 단어, 숙어) 별로 인코딩을 수행하고, 컨텍스트 정보를 획득할 수 있다. 예를 들어, 제1 언어의 텍스트 시퀀스로, "look the weather is nice <eos>"의 단어들이 순차적으로 획득되는 경우, 제1 전자 장치(1000)는, "look", "the", "weather", "is", "nice" 및 <eos>에 대해 각각 순차적으로 인코딩을 수행하여, 컨텍스트 정보를 획득할 수 있다. 일 예로, "look"에 대해 인코딩한 결과 컨텍스트 정보 1이 획득될 수 있고, "look" 및 "the"를 순차적으로 인코딩한 결과 컨텍스트 정보 2가 획득될 수 있다. 마찬가지로 "look" 내지 <eos>까지 순차적으로 인코딩한 결과 컨텍스트 정보 6이 획득될 수 있다.

다만, 일 실시 예에 의하면, 컨텍스트 정보가 획득될 때마다, 컨텍스트 정보에 대한 디코딩이 수행될 수 있으나, 디코딩 결과, 이하 단계 150에서, 제1 토큰이 검출되는 경우, 디코딩된 컨텍스트 정보와 대응되는 제1 언어의 적어도 하나의 단어는 제외된 후, 인코딩이 수행될 수 있다. 예를 들어, 컨텍스트 정보 1에 대한 디코딩 결과에서, 제1 토큰이 검출된 경우, "look" 및 "the"를 순차적으로 인코딩하는 대신, "look"을 제외한 "the"에 대해 인코딩이 수행될 수 있다. 일 실시 예에 의하면, "look"에 대응하는 디코딩 결과가 제1 토큰이 검출됨에 따라 번역 결과로서 출력되므로, 이후에는 "look"이 인코딩되지 않음이 바람직하다.

또한, "the"에 대응하는 컨텍스트 정보에 대해 디코딩이 수행된 결과, 이하 단계 150에서, 제1 토큰이 검출되지 않은 경우, "the"는 이후 인코딩 동작에서 제외되지 않고, "the" 및 "weather"가 순서대로 인코딩된 컨텍스트 정보에 대하여, 디코딩이 수행될 수 있다. 반면, 제1 토큰이 검출된 경우, "the"는 이후 인코딩 동작에서 제외되고, "weather"가 인코딩된 컨텍스트 정보에 대해 디코딩이 수행될 수 있다.

일 실시 예에 의한 디코딩을 통한 제2 언어의 텍스트 시퀀스를 획득하는 단계(130)에서, 제1 전자 장치(1000)는 단계(120)에서 획득된 컨텍스트 정보를 디코딩함으로써, 제2 언어의 텍스트 시퀀스를 획득할 수 있다. 일 실시 예에 의하면, 컨텍스트 정보가 디코딩됨에 따라, 제2 언어의 단어들이, 순차적으로 획득될 수 있다. 일 실시 예에 의하면, 선행 단계에서 획득된 단어들의 순서에 기초하여 현재의 단어가 획득됨으로써, 상기 제2 언어의 단어들이 순서대로 획득될 수 있다.

일 실시 예에 의한 제2 언어의 텍스트 시퀀스를 출력하는 단계(140)에서, 제1 전자 장치(1000)는, 컨텍스트 정보를 디코딩한 결과, 출력된 제2 언어의 단어들 중에서, 제2 토큰을 검출함에 따라, 이전에 획득된 제2 언어의 단어들을 디코딩 결과로서 출력할 수 있다.

또한, 일 실시 예에 의한 제1 전자 장치(1000)는, 동시 통역 서비스를 제공하기 위해, 디코딩 결과로서 출력된 제2 언어의 텍스트 시퀀스를 제2 언어의 음성 신호로 변환하여 출력할 수 있다. 예를 들면, 제1 전자 장치(1000)는, 140 단계에서, 제2 언어의 텍스트 시퀀스가 출력될 때마다, TTS(text to speech) 기술에 따라서, 텍스트를 음성 신호로 변환하여, 출력할 수 있다.

일 실시 예에 의한 제1 토큰 검출 여부를 판단하는 단계(150)에서 제1 전자 장치(1000)는, 단계 140에서 디코딩 결과로 출력된 제2 언어의 텍스트 시퀀스에서, 제1 토큰이 검출되었는지에 따라서, 단계 120의 인코딩을 다시 수행할 수 있다.

일 실시 예에 의하면, 단계 150에서, 제1 전자 장치(1000)는 제2 언어의 텍스트 시퀀스에서, 문장의 종료를 나타내는 제1 토큰이 검출된 것으로 판단한 경우, 단계 120의 인코딩을 수행함이 없이, 단계 110에서 획득된 1개 문장을 포함한, 제1 언어의 텍스트 시퀀스에 대한 번역 동작을 종료할 수 있다.

또는 일 실시 예에 의한 제2 언어의 텍스트 시퀀스에서, 제1 토큰이 검출된 것으로 판단된 경우, 단계 120에서, 새로운 문장을 포함한 제1 언어의 텍스트 시퀀스에 대한 인코딩이 수행됨에 따라서, 단계 120 내지 150의 번역 동작이 수행될 수 있다.

일 실시 예에 따른 제2 언어의 텍스트 시퀀스가 제1 토큰을 포함하는 경우, 제2 언어의 텍스트 시퀀스가 종료된 것으로 판단될 수 있고, 제1 언어의 텍스트 시퀀스에 대한 번역이 종료될 수 있다.

또한, 일 실시 예에 의한 제1 전자 장치(1000)는, 독립적인 1개 문장을 포함하는 새로운 제1 언어의 텍스트를 수신하여, 단계 110 내지 150을 반복적으로 수행할 수 있다.

반면, 단계 150에서, 제2 언어의 텍스트 시퀀스에서, 문장의 종료를 나타내는 제1 토큰이 검출되지 않은 것으로 판단된 경우, 제1 전자 장치(1000)는, 단계 120에서, 아직 인코딩되지 않은 제1 언어의 텍스트 시퀀스에 포함된 단어를 순차적으로 인코딩할 수 있다.

도 2는 일 실시 예에 의한 텍스트 시퀀스를 번역하는 일 예를 나타낸 도면이다.

도 2를 참조하면, 시간축을 기준으로 윗단의 블록들은 일 실시 예에 의한 인코더의 동작을 나타내고, 아랫단의 블록들은 일 실시 예에 의한 디코더의 동작을 나타낸다.

일 실시 예에 의한 인코더 및 디코더는, 도시된 예와 같이, LSTM에 의하여, 텍스트들을 순차적으로 처리할 수 있다. 상술한 예에 한하지 않고, 인코더 및 디코더는, 다른 종류의 순환 신경망(ex. RNN)을 이용할 수도 있다.

t1에서, 인코더(210)는, 첫번째로 입력된 제1 언어의 텍스트 그룹인, "look"을 인코딩한 결과 제1 컨텍스트 정보를 출력할 수 있다.

일 실시 예에 의한 t1 내지 t17은, 각각의 LSTM에 의하여 인코딩 또는 디코딩 동작이 수행되는 시점을 나타낸다.

t2 및 t3에서, 디코더(220)는, 제1 컨텍스트 정보에 기초하여, 디코딩을 수행한 결과, "봐봐" 및 <sep> 토큰을 순차적으로 출력할 수 있다. 일 실시 예에 의하면, t2에서, 첫번째 LSTM(221)에 <go> 및 제1 컨텍스트 정보에 기초하여, "봐봐"가 출력될 수 있다. <go>는 문장의 시작을 나타내는 토큰으로, 디코딩이 시작될 때 초기값으로 LSTM(221)에 입력될 수 있다. 또한, t3에서, 두번째 LSTM(222)에, 첫번째 LSTM(221)의 출력 값인 "봐봐"가 입력됨에 따라, <sep>가 출력될 수 있다.

일 실시 예에 의하면, 제2 토큰인, <sep>가 출력됨에 따라서, "봐봐"가 제1 언어의 텍스트 그룹에 대한 번역 결과로서 출력(223)될 수 있다. 일 실시 예에 의한 <sep> 토큰에 따라 출력되는 "봐봐"는 이후 인코딩되는 제1 언어의 "the weather" 및 "is nice"에 의하여, 다른 단어로 크게 변경될 확률이 낮다고 판단됨에 따라서, 번역 결과로서 먼저 출력되어, 사용자에게 제공될 수 있다.

일 실시 예에 의하면, 현재 번역된 결과가 크게 변경될 확률이 낮다고 판단되는 경우, 먼저 출력되어 사용자에게 제공함으로써 사용자 편의를 도모할 수 있다. 따라서, 일 실시 예에 의한 학습 단계에서, 적절한 위치에 <sep> 토큰이 삽입되어, <eos> 토큰까지 인코딩되기 전에, 번역 결과가 먼저 출력될 수 있도록, 번역 동작을 위한 모델이 학습될 수 있다.

일 실시 예에 의하면, 제1 전자 장치(1000)에서 인식된 제1 언어의 텍스트 시퀀스가 <eos> 토큰으로 표시되는 문장 종료 위치까지 모두 인코딩되기 전에, "look"만 인코딩된 상태임에도, 디코딩 결과에서 <sep> 토큰이 검출됨에 따라, "look"과 대응되는 번역 결과가 먼저 출력될 수 있다. 따라서, 일 실시 예에 의하면, 동시 통역과 같이, 제1 언어의 텍스트들이 순차적으로 입력됨에 따라, 제1 언어의 텍스트 시퀀스가 모두 획득되기까지 상당한 시간이 소요되더라도, 제1 언어의 완전한 문장이 획득되기 전에 번역 결과가 출력될 수 있으므로, 사용자 편의가 도모될 수 있다.

t4에서, 인코더(232)는, "look" 다음으로 입력된 "the"를 인코딩한 결과, 제2' 컨텍스트 정보를 출력할 수 있다. 일 실시 예에 의한 인코더(232)는, "look"에 대응하는 제1 컨텍스트 정보에 기초하여 디코딩된 결과가, <sep>를 포함함에 따라, 번역 결과로서 출력된 경우, "look"을 제외하고 이후 수신된 "the"부터 새롭게 인코딩이 수행될 수 있다.

t5 및 t6에서, 디코더(240)는, 제2' 컨텍스트 정보에 기초하여, 디코딩을 수행한 결과, "그" 및 <continuous> 토큰을 순차적으로 출력할 수 있다. 일 실시 예에 의하면, t5에서, 첫번째 LSTM(241)에 <go> 및 제2' 컨텍스트 정보에 기초하여, "그"가 획득될 수 있다. <go>는 디코딩이 시작될 때 초기값으로 LSTM(241)에 입력될 수 있다. 또한, t6에서, 두번째 LSTM(242)에, 첫번째 LSTM(241)의 출력 값이 입력됨에 따라서, <continuous>가 출력될 수 있다.

일 실시 예에 의한 <continuous> 토큰은, 제2' 컨텍스트 정보에 기초한 디코딩 결과는, <sep> 토큰이 포함되지 않음을 나타낼 수 있다. 상술한 예에 한하지 않고, <continuous> 토큰 대신, 다양한 형태의 정보가 두번째 LSTM(242)의 디코딩 결과로서, 획득될 수 있다. 따라서, 제2' 컨텍스트 정보에 기초하여 디코딩된 결과는, <sep> 토큰이 디코딩 결과로서 획득되지 않음에 따라서, 번역 결과로도 출력되지 않을 수 있다.

일 실시 예에 의해 디코딩된 "그"는 이후 인코딩되는 제1 언어의 단어(ex. weather)에 의하여, 다른 단어로 크게 변경될 확률이 높다고 판단됨에 따라서, 번역 결과로서 먼저 출력되지 않도록, 인코딩 및 디코딩에 이용되는 인공지능 모델이 미리 학습될 수 있다. 예를 들면, 제2 언어의 디코딩 결과로서, "그" 다음에 <sep> 토큰이 출현하지 않도록, 인코딩 및 디코딩에 이용되는 인공지능 모델이 미리 학습될 수 있다.

일 실시 예에 의한 인코더(230)는, 제2' 컨텍스트 정보에 기초하여, 디코딩된 결과에서, <sep> 토큰이 검출되지 않음에 따라서, t7에서, "the"를 인코딩한 결과에 기초하여, 두번째 LSTM(233)에서, "weather"를 인코딩할 수 있다. 일 실시 예에 의하면, "the" 다음에 "weather"가 나오는 순서에 따라, 인코딩된 제2 컨텍스트 정보가 출력될 수 있다.

일 실시 예에 의한 인코더(230)의 두번째 LSTM(233)에서 "weather"가 인코딩됨에 따라서, "the"와 "weather"가 순서대로 인코딩된 정보인 제2 컨텍스트 정보가 출력될 수 있다.

t8, t9 및 t10에서, 디코더(250)는, 제2 컨텍스트 정보에 기초하여, 디코딩을 수행한 결과, "그", "날씨가" 및 <sep> 토큰을 순차적으로 출력할 수 있다. 일 실시 예에 의하면, t8에서, 첫번째 LSTM(251)에 <go> 및 제2 컨텍스트 정보에 기초하여, "그"가 출력될 수 있다. <go>는 디코딩이 시작될 때 초기값으로 LSTM(251)에 입력될 수 있다. 또한, t9에서, 두번째 LSTM(252)에, 첫번째 LSTM(251)의 출력값인, "그"가 입력됨에 따라, "날씨가"가 출력될 수 있다. 또한, t10에서, 세번째 LSTM(253)에, 두번째 LSTM(252)의 출력 값인 "날씨가"가 입력됨에 따라서, <sep> 토큰이 출력될 수 있다.

일 실시 예에 의하면, 제2 토큰인, <sep>가 출력됨에 따라서, "날씨가"가 제1 언어의 텍스트 그룹에 대한 번역 결과로서 출력(254)될 수 있다. 일 실시 예에 의한 "그"는 번역 문장에서 먼저 출력된 "봐봐(223)"를 고려하여, 불필요한 단어로 판단됨에 따라서, 제거된 후, "날씨가"만 출력될 수 있다. 상술한 예에 한하지 않고, "그"도 번역 결과로서 출력될 수도 있다.

t11에서, 인코더(262)는, "weather" 다음으로 입력된 "is"를 인코딩한 결과, 제3' 컨텍스트 정보를 출력할 수 있다. 일 실시 예에 의한 인코더(262)는, "the weather"에 대응하는 제2 컨텍스트 정보에 기초하여 디코딩된 결과가, <sep>를 포함함에 따라, 번역 결과로서 출력된 경우, "the weather"을 제외하고 이후 수신된 "is"부터 새롭게 인코딩이 수행될 수 있다.

t12 및 t13에서, 디코더(270)는, 제3' 컨텍스트 정보에 기초하여, 디코딩을 수행한 결과, "는" 및 <continuous> 토큰을 순차적으로 출력할 수 있다. 일 실시 예에 의하면, t12에서, 첫번째 LSTM(271)에 <go> 및 제3' 컨텍스트 정보에 기초하여, "는"가 출력될 수 있다. <go>는 디코딩이 시작될 때 초기값으로 LSTM(271)에 입력될 수 있다. 또한, t13에서, 두번째 LSTM(272)에, 첫번째 LSTM(271)의 출력 값이 입력됨에 따라서, <continuous>가 출력될 수 있다.

일 실시 예에 의한 <continuous> 토큰은, 제3' 컨텍스트 정보에 기초한 디코딩 결과는, <sep> 토큰이 포함되지 않음을 나타낼 수 있다. 상술한 예에 한하지 않고, <continuous> 토큰 대신, 다양한 형태의 정보가 두번째 LSTM(272)의 디코딩 결과로서, 획득될 수 있다. 따라서, 제3' 컨텍스트 정보에 기초하여 디코딩된 결과는, <sep> 토큰이 디코딩 결과로서 획득되지 않음에 따라서, 번역 결과로도 출력되지 않을 수 있다.

일 실시 예에 의해 디코딩된 "는"은 이후 인코딩되는 제1 언어의 단어(ex. weather)에 의하여, 다른 단어로 크게 변경될 확률이 높다고 판단됨에 따라서, 번역 결과로서 먼저 출력되지 않도록, 인코딩 및 디코딩에 이용되는 인공지능 모델이 미리 학습될 수 있다. 예를 들면, 제2 언어의 디코딩 결과로서, "는" 다음에 <sep> 토큰이 출현하지 않도록, 인코딩 및 디코딩에 이용되는 인공지능 모델이 미리 학습될 수 있다.

일 실시 예에 의한 인코더(260)는, 제3' 컨텍스트 정보에 기초하여, 디코딩된 결과에서, <sep> 토큰이 검출되지 않음에 따라서, t14에서, "is"를 인코딩한 결과에 기초하여, 두번째 LSTM(263)에서, "nice"를 인코딩할 수 있다.

일 실시 예에 의한 인코더(280)의 두번째 LSTM(263)에서 "nice"가 인코딩된 결과, 제3 컨텍스트 정보가 출력될 수 있다.

일 실시 예에 의한 제3 컨텍스트 정보는, "nice"가 인코딩된 결과에 기초하여, LSTM에서 문장 종료를 나타내는 <eos> 토큰이 추가적으로 더 인코딩된 결과에 따라 획득될 수도 있다. 이에 한하지 않고, 도시된 예와 같이, <eos> 토큰이 추가적으로 더 인코딩되지 않고 출력된 제3 컨텍스트 정보에 기초하여, 디코더(280)에서 디코딩이 수행될 수 있다.

t15, t16 및 t17에서, 디코더(280)는, 제3 컨텍스트 정보에 기초하여, 디코딩을 수행한 결과, "는", "좋아" 및 <eos> 토큰을 순차적으로 출력할 수 있다. 일 실시 예에 의하면, t15에서, 첫번째 LSTM(281)에 <go> 및 제3 컨텍스트 정보에 기초하여, "는"가 출력될 수 있다. <go>는 디코딩이 시작될 때 초기값으로 LSTM(281)에 입력될 수 있다. 또한, t16에서, 두번째 LSTM(282)에, 첫번째 LSTM(281)의 출력값인, "는"가 입력됨에 따라, "좋아"가 출력될 수 있다. 또한, t17에서, 세번째 LSTM(283)에, 두번째 LSTM(282)의 출력 값인 "좋아"가 입력됨에 따라서, <eos> 토큰이 출력될 수 있다.

일 실시 예에 의하면, 문장의 종료를 나타내는 제1 토큰인, <eos>가 출력됨에 따라서, "좋아"가 제1 언어의 텍스트 그룹에 대한 번역 결과로서 출력(254)될 수 있다. 일 실시 예에 의한 "는"은, 먼저 출력된 "봐봐, 날씨가"(223, 254)를 고려하여, 번역 문장에서 불필요한 단어로 판단됨에 따라서, 제거된 후, "좋아"만 출력될 수 있다. 상술한 예에 한하지 않고, "는"도 번역 결과로서 출력될 수도 있다.

도 3는 일 실시 예에 의한 제1 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.

도 4는 일 실시 예에 의한 제1 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.

도 3을 참조하면, 제1 전자 장치(1000)는, 프로세서(1300), 메모리(1700) 및 출력부(1200)을 포함할 수 있다. 그러나, 도 3에 도시된 구성 요소 모두가 제1 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 3에 도시된 구성 요소보다 많은 구성 요소에 의해 제1 전자 장치(1000)가 구현될 수도 있고, 도 3에 도시된 구성 요소보다 적은 구성 요소에 의해 제1 전자 장치(1000)가 구현될 수도 있다.

예를 들면, 제1 전자 장치(1000)는 도 4에 도시된 바와 같이, 일 실시예에 따른 제1 전자 장치(1000)는, 프로세서(1300), 메모리(1700) 및 출력부(1200) 이외에 사용자 입력부(1100), 센싱부(1400), 통신부(1500), 및 A/V 입력부(1600)를 더 포함할 수도 있다.

사용자 입력부(1100)는, 사용자가 제1 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.

일 실시 예에 의하면, 사용자 입력부(1100)는, 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하기 위한 사용자 입력을 수신할 수 있다.

출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.

디스플레이부(1210)는 제1 전자 장치(1000)에서 처리되는 정보를 표시 출력한다. 일 실시 예에 의하면, 디스플레이부(1210)는 텍스트 시퀀스가 번역된 결과를 출력할 수 있다.

한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 제1 전자 장치(1000)의 구현 형태에 따라 제1 전자 장치(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다.

음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 일 실시 예에 의하면, 음향 출력부(1220)는 텍스트 시퀀스가 번역된 결과를 출력할 수 있다. 예를 들면, 음향 출력부(1220)는, 음성 신호로 변환된 텍스트 시퀀스가 번역된 결과를 출력할 수 있다.

진동 모터(1230)는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다. 일 실시 예에 의하면, 진동 모터(1230)는 텍스트 시퀀스가 번역된 결과와 관련된 정보를 출력할 수 있다.

프로세서(1300)는, 통상적으로 제1 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다.

제1 전자 장치(1000)는 적어도 하나의 프로세서(1300)를 포함할 수 있다. 예를 들면, 제1 전자 장치(1000)는 CPU(Central Processing Unit), GPU(Graphics Processing Unit), NPU(Neural Processing Unit) 등의 다양한 종류의 프로세서를 포함할 수 있다.

프로세서(1300)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1700)로부터 프로세서(1300)에 제공되거나, 통신부(1500)를 통해 수신되어 프로세서(1300)로 제공될 수 있다. 예를 들면 프로세서(1300)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.

일 실시 예에 의한 프로세서(1300)는 제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득할 수 있다. 또한, 프로세서(1300)는 제1 컨텍스트 정보를 디코딩함으로써, 제1 텍스트 그룹과 대응되는, 제2 언어의 제2 텍스트 그룹을 획득하고, 제2 텍스트 그룹에 제2 토큰이 포함되어 있는지 여부를 판단할 수 있다.

일 실시 예에 의한 프로세서(1300)는, 제2 텍스트 그룹에서 제2 토큰을 검출함에 따라, 제2 텍스트 그룹을 제1 텍스트 그룹에 대한 번역 결과로서 출력할 수 있다.

일 실시 예에 의한 제2 토큰은, 제1 텍스트 그룹 이후에 인코딩된 상기 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 제2 언어의 텍스트 그룹에 삽입되어 학습될 수 있다. 예를 들면, 제2 텍스트 그룹이, 이후 출현할 다른 텍스트에 의하여, 다른 텍스트로 변경될 가능성이 상대적으로 낮다고 판단됨에 따라서, 제2 토큰이 제2 텍스트 그룹의 다음 순서에 삽입될 수 있다. 일 실시 예에 의하면, 제2 토큰이 삽입된 위치에, 디코딩 결과로서, 제2 토큰이 출현할 수 있도록, 디코딩에 이용되는 인공지능 모델이 학습될 수 있다.

반면, 프로세서(1300)는, 제2 텍스트 그룹에서, 제2 토큰이 검출되지 않은 경우, 제1 언어의 텍스트 시퀀스에서, 제1 텍스트 그룹 및 다음 순서의 적어도 하나의 텍스트를 포함하는 제3 텍스트 그룹을 인코딩할 수 있다. 또한, 프로세서(1300)는, 제3 텍스트 그룹이 인코딩된 결과, 제3 컨텍스트 정보를 획득하고, 제3 컨텍스트 정보를 디코딩함으로써, 제2 언어의 제4 텍스트 그룹을 획득할 수 있다.

센싱부(1400)는, 제1 전자 장치(1000)의 상태 또는 제1 전자 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다.

센싱부(1400)는, 지자기 센서(Geomagnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

통신부(1500)는, 제1 전자 장치(1000)가 서버(2000) 또는 외부 장치(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.

근거리 통신부(short-range wireless communication unit)(1510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 제1 전자 장치(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.

일 실시 예에 의한, 통신부(1500)는 텍스트 시퀀스를 번역하는데 필요한 데이터를 송수신할 수 있다. 예를 들면, 통신부(1500)는 번역하고자 하는 제1 언어의 텍스트 시퀀스를 외부로부터 수신할 수 있다.

A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.

마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 일 실시 예에 의한 마이크로폰(1620)은, 제1 언어의 텍스트 시퀀스와 대응되는, 사용자의 음성 신호를 순차적으로 수신할 수 있다. 일 실시 예에 의하면, 마이크로폰(1620)에서 수신된 사용자의 음성 신호에 대하여 음성 인식이 수행됨으로써, 제1 언어의 텍스트 시퀀스가 획득될 수 있다.

메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 제1 전자 장치(1000)로 입력되거나 제1 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다.

일 실시 예에 의한 메모리(1700)는, 텍스트 시퀀스를 번역하는데 필요한 데이터를 저장할 수 있다. 예를 들면, 메모리(1700)는 텍스트 시퀀스를 번역하기 위한 인코더 및 디코더에서 이용되는 학습 모델(ex. RNN, LSTM)을 저장할 수 있다.

메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.

UI 모듈(1710)은, 애플리케이션 별로 제1 전자 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.

터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 터치스크린의 터치를 감지하기 위한 센서의 일례로 촉각 센서가 있다. 촉각 센서는 사람이 느끼는 정도로 또는 그 이상으로 특정 물체의 접촉을 감지하는 센서를 말한다. 촉각 센서는 접촉면의 거칠기, 접촉 물체의 단단함, 접촉 지점의 온도 등의 다양한 정보를 감지할 수 있다.

사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.

알림 모듈(1730)은 제1 전자 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.

도 5는 일 실시 예에 의한 텍스트 시퀀스를 번역하는 방법을 나타낸 순서도이다.

도 5를 참조하면, 단계 510에서, 제1 전자 장치(1000)는, 제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득할 수 있다.

일 실시 예에 따른 제1 언어의 텍스트 시퀀스는, 제1 전자 장치(1000)에서 획득된 사용자의 음성 신호에 대해 음성 인식이 수행됨으로써, 획득될 수 있다. 일 실시 예에 의한 제1 텍스트 그룹은, 제1 언어의 텍스트 시퀀스에 포함된 텍스트들이 순차적으로 획득됨에 따라서, 완전한 문장이 아닌, 문장의 일부분을 구성하는 텍스트를 포함할 수 있다.

일 실시 예에 의한 제1 컨텍스트 정보는, 미리 학습된 학습 모델을 이용하여 인코딩을 수행하는 인코더에 의하여 인코딩됨으로써 획득될 수 있다.

단계 520에서, 제1 전자 장치(1000)는, 제1 컨텍스트 정보를 디코딩하여, 제2 언어의 제2 텍스트 그룹을 획득할 수 있다. 일 실시 예에 의한 제2 언어의 제2 텍스트 그룹은, 미리 학습된 학습 모델을 이용하여 디코딩을 수행하는 디코더에 의하여, 제1 컨텍스트 정보가 디코딩됨으로써 획득될 수 있다.

단계 530에서, 제1 전자 장치(1000)는, 제2 텍스트 그룹에 제2 토큰이 포함되어 있는지 여부를 판단할 수 있다. 일 실시 예에 의한 제2 토큰은, 제1 텍스트 그룹 이후에 인코딩된 상기 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 제2 언어의 텍스트 그룹에 삽입된 후, 제2 토큰이 삽입된 제2 텍스트 그룹에 기초하여, 학습이 수행될 수 있다.

또한, 단계 540에서, 제1 전자 장치(1000)는, 제2 텍스트 그룹에서 제2 토큰을 검출한 경우, 제2 텍스트 그룹을 번역 결과로서 외부로 출력할 수 있다. 예를 들면, 제1 전자 장치(1000)는 제2 토큰이 포함된 제2 텍스트 그룹의 텍스트들을 음성 신호로 변환하여, 스피커를 통해 출력하거나, 제2 텍스트 그룹의 텍스트들을 디스플레이에 표시할 수 있다.

반면, 제1 전자 장치(1000)는, 제2 텍스트 그룹에서, 제2 토큰이 검출되지 않은 경우, 제1 언어의 텍스트 시퀀스에서, 제1 텍스트 그룹 및 다음 순서의 적어도 하나의 텍스트를 포함하는 제3 텍스트 그룹을 인코딩할 수 있다. 또한, 제1 전자 장치(1000)는, 제3 텍스트 그룹이 인코딩된 결과, 제3 컨텍스트 정보를 획득하고, 제3 컨텍스트 정보를 디코딩함으로써, 제2 언어의 제4 텍스트 그룹을 획득할 수 있다.

도 6은 일 실시 예에 의한 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 일 예를 나타낸 블록도이다.

도 6을 참조하면, 제2 전자 장치(2000)는, 일 실시 예에 의한 제1 언어의 텍스트 시퀀스를 번역하여, 제2 언어의 텍스트 시퀀스를 획득하는데 이용되는 인공지능 모델을 학습할 수 있다. 일 실시 예에 의하면, 제1 언어의 텍스트 시퀀스를 인코딩하고, 인코딩된 결과를 디코딩하는데 이용되는 인공지능 모델이 학습될 수 있다.

일 실시 예에 의한 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 제2 전자 장치(2000)는, 텍스트 시퀀스를 번역하는 제1 전자 장치(1000)와 동일할 수 있으나, 이에 한하지 않고, 다른 장치일 수도 있다.

단계 610 및 620에서, 제2 전자 장치(2000)는, 제1 언어의 텍스트 시퀀스 및 제2 언어의 텍스트 시퀀스를 획득할 수 있다.

일 실시 예에 의하면, 제1 언어의 텍스트 시퀀스가 번역된 결과로서, 제2 언어의 텍스트 시퀀스가 획득될 수 있도록 인공지능 모델이 학습될 수 있다. 일 실시 예에 의한 제1 언어 및 제2 언어의 텍스트 시퀀스들은, 각각 1개의 완전한 문장을 포함할 수 있다.

단계 630에서, 제2 전자 장치(2000)는, 제2 언어의 텍스트 시퀀스에 제2 토큰을 삽입할 수 있다. 일 실시 예에 의한 제1 전자 장치(1000)는 이후에 인코딩된 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 현재 디코딩된 결과인 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 제2 언어의 텍스트 시퀀스를 분할하고, 분할된 위치에 제2 토큰을 삽입할 수 있다. 예를 들면, 제2 토큰은, 문맥 또는 문장 형식에 따라서, 제2 언어의 텍스트 시퀀스가 분할된 위치에 삽입될 수 있다.

일 실시 예에 의한 제2 언어의 텍스트 시퀀스가 분할된 각각의 구간은, 상기 각 구간의 끝에서, 제2 토큰 또는 제1 토큰을 포함할 수 있다. 따라서, 디코딩된 결과로, 제1 토큰 또는 제2 토큰이 검출되는 경우, 제1 언어의 텍스트 시퀀스의 모든 구간에 대한 인코딩이 완료되기 전에, 제2 토큰이 검출된 제2 언어의 텍스트 시퀀스의 일부 구간이 출력될 수 있다. 또한, 디코딩된 결과에서, 제1 토큰이 검출되는 경우, 제2 언어의 텍스트 시퀀스의 문장이 종료된 것으로 판단됨에 따라서, 제1 토큰이 검출된 제2 언어의 텍스트 시퀀스의 구간이 출력될 수 있다.

단계 640에서, 제2 전자 장치(2000)는, 제2 언어의 텍스트 시퀀스가 분할된 각각의 구간과 대응되는, 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별할 수 있다.

따라서, 단계 650에서, 제2 전자 장치(2000)는 식별된 대응 관계에 기초하여, 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하고, 인코딩된 결과를 디코딩함에 따라, 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력될 수 있도록, 상기 인공지능 모델을 학습할 수 있다. 일 실시 예에 따라, 인코더에 의해 인코딩된 결과는, 일 실시 예에 의한 컨텍스트 정보일 수 있다.

도 7은 일 실시 예에 의한 제2 전자 장치(2000)의 내부 구성을 설명하기 위한 블록도이다.

도 8은 일 실시 예에 의한 제2 전자 장치(2000)의 내부 구성을 설명하기 위한 블록도이다.

도 7을 참조하면, 제2 전자 장치(2000)는, 프로세서(2300) 및 메모리(2700)을 포함할 수 있다. 그러나, 도 7에 도시된 구성 요소 모두가 제2 전자 장치(2000)의 필수 구성 요소인 것은 아니다. 도 7에 도시된 구성 요소보다 많은 구성 요소에 의해 제2 전자 장치(2000)가 구현될 수도 있고, 도 7에 도시된 구성 요소보다 적은 구성 요소에 의해 제2 전자 장치(2000)가 구현될 수도 있다.

예를 들면, 제2 전자 장치(2000)는 도 8에 도시된 바와 같이, 일 실시예에 따른 제2 전자 장치(2000)는, 프로세서(2300) 및 메모리(2700) 이외에 사용자 입력부(2100), 센싱부(2400), A/V 입력부(2600), 통신부(2500) 및 출력부(1200)를 더 포함할 수도 있다.

사용자 입력부(2100)는, 사용자가 제2 전자 장치(2000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(2100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.

일 실시 예에 의하면, 사용자 입력부(2100)는, 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는데 필요한 사용자 입력을 수신할 수 있다.

출력부(2200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(2200)는 디스플레이부(2210), 음향 출력부(2220), 및 진동 모터(2230)를 포함할 수 있다.

디스플레이부(2210)는 제2 전자 장치(2000)에서 처리되는 정보를 표시 출력한다. 일 실시 예에 의하면, 디스플레이부(2210)는 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습한 결과와 관련된 정보를 출력할 수 있다.

한편, 디스플레이부(2210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(2210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(2210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 제2 전자 장치(2000)의 구현 형태에 따라 제2 전자 장치(2000)는 디스플레이부(2210)를 2개 이상 포함할 수도 있다.

음향 출력부(2220)는 통신부(2500)로부터 수신되거나 메모리(2700)에 저장된 오디오 데이터를 출력한다. 진동 모터(2230)는 진동 신호를 출력할 수 있다. 또한, 진동 모터(2230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다. 일 실시 예에 의하면, 음향 출력부(2220) 및 진동 모터(2230)는 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습한 결과와 관련된 정보를 출력할 수 있다.

프로세서(2300)는, 통상적으로 제2 전자 장치(2000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2300)는, 메모리(2700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(2100), 출력부(2200), 센싱부(2400), 통신부(2500), A/V 입력부(2600) 등을 전반적으로 제어할 수 있다.

제2 전자 장치(2000)는 적어도 하나의 프로세서(2300)를 포함할 수 있다. 예를 들면, 제2 전자 장치(2000)는 CPU(Central Processing Unit), GPU(Graphics Processing Unit), NPU(Neural Processing Unit) 등의 다양한 종류의 프로세서를 포함할 수 있다.

프로세서(2300)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(2700)로부터 프로세서(2300)에 제공되거나, 통신부(2500)를 통해 수신되어 프로세서(2300)로 제공될 수 있다. 예를 들면 프로세서(2300)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.

일 실시 예에 의한 프로세서(2300)는 텍스트 시퀀스를 번역하기 위한 인코더 및 디코더에서 이용되는 인공지능 모델을 학습할 수 있다. 일 실시 예에 의한 프로세서(2300)는, 제1 언어의 텍스트 시퀀스 및 이와 대응되는, 제2 언어의 텍스트 시퀀스에 기초하여, 제1 언어의 텍스트 시퀀스의 번역 결과로, 제2 언어의 텍스트 시퀀스가 출력될 수 있도록, 인코더 및 디코더에서 이용되는 인공지능 모델(ex. LSTM, RNN)을 학습할 수 있다.

일 실시 예에 의한 제1 언어 및 제2 언어의 텍스트 시퀀스들은, 각각 1개의 완전한 문장을 포함할 수 있다.

일 실시 예에 의한 프로세서(2300)는 제2 언어의 텍스트 시퀀스를 분할하고, 분할된 위치에 제2 토큰을 삽입할 수 있다. 일 실시 예에 의한 제2 토큰은 이후에 인코딩된 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 제2 언어의 텍스트 그룹에 삽입될 수 있는 토큰이다. 예를 들면, 문장 형식 또는 문맥에 따라서, 이후 인코딩된 결과에 따라, 현재 디코딩된 결과가 다른 텍스트로 크게 변경될 가능성이 상대적으로 낮은 것으로 보고, 제2 언어의 텍스트 시퀀스의 분할된 위치에 제2 토큰이 삽입될 수 있다.

일 실시 예에 의하면, 텍스트 시퀀스에 포함된 각각의 단어가 주어, 동사, 목적어, 보어 등의 동일한 문장 형식에 속하는 지를 판단함으로써, 문맥에 따른 텍스트 그룹이 분할될 수 있다. 또한, 서로 다른 문맥인 것으로 판단된 두 단어 사이에는, 제2 토큰이 삽입될 수 있다.

일 실시 예에 의한 문맥은, 상술한 문장 형식에 한하지 않고, 복수 개의 단어들을 복수 개의 그룹으로 분할하기 위한 다양한 기준에 따라 결정될 수 있다.

일 실시 예에 의하면, 제2 언어의 텍스트 시퀀스가 "봐봐, 날씨가 좋아"인 경우, "봐봐"는, 동사에 속하고, "날씨가"는 주어에 속함에 따라, "봐봐"와 "날씨가" 사이에 앞뒤 단어의 문장 형식이 다름에 의해 텍스트 그룹이 분할됨을 나타내는, 제2 토큰이 삽입될 수 있다. 또한, "좋다"는 보어로 판단됨에 따라, "날씨가"와, "좋다" 사이에 토큰이 삽입될 수 있다. 또한, "좋다" 다음에는, 문장이 종료됨을 나타내는 제1 토큰이 추가로 삽입될 수 있다.

일 실시 예에 의한 프로세서(2300)는, 제2 언어의 텍스트 시퀀스가 분할된 각각의 구간과 대응되는, 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별할 수 있다. 따라서, 프로세서(2300)는, 식별된 대응 관계에 기초하여, 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하는데 이용되는 인공지능 모델 및 인코딩된 결과를 디코딩함에 따라, 제2 언어의 텍스트 시퀀스가 분할된 각 구간에 대한 텍스트들을 출력하데 이용되는 인공지능 모델을 학습할 수 있다. 일 실시 예에 따라, 인코딩된 결과는, 일 실시 예에 의한 컨텍스트 정보일 수 있다.

따라서, 일 실시 예에 의하면, 도 2에 도시된, 제1 컨텍스트 정보, 제2 컨텍스트 정보 및 제3 컨텍스트 정보에 기초하여, 각각 디코딩된 결과로서, "봐봐"(223), "날씨가"(254), 및 "좋아"(284)가 출력될 수 있도록, 인코딩 및 디코딩에 이용되는 인공지능 모델이 학습될 수 있다.

센싱부(2400)는, 제2 전자 장치(2000)의 상태 또는 제2 전자 장치(2000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(2300)로 전달할 수 있다.

센싱부(2400)는, 지자기 센서(Geomagnetic sensor)(2410), 가속도 센서(Acceleration sensor)(2420), 온/습도 센서(2430), 적외선 센서(2440), 자이로스코프 센서(2450), 위치 센서(예컨대, GPS)(2460), 기압 센서(2470), 근접 센서(2480), 및 RGB 센서(illuminance sensor)(2490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.

통신부(2500)는, 제2 전자 장치(2000)가 서버(2000) 또는 외부 장치(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(2500)는, 근거리 통신부(2510), 이동 통신부(2520), 방송 수신부(2530)를 포함할 수 있다.

근거리 통신부(short-range wireless communication unit)(2510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

이동 통신부(2520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

방송 수신부(2530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 제2 전자 장치(2000)가 방송 수신부(2530)를 포함하지 않을 수도 있다.

일 실시 예에 의한, 통신부(2500)는 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는데 필요한 데이터를 송수신할 수 있다.

A/V(Audio/Video) 입력부(2600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(2610)와 마이크로폰(2620) 등이 포함될 수 있다. 카메라(2610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(2300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.

마이크로폰(2620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(2620)은 통화를 수행하기 위한 사용자의 음성 신호를 수신할 수 있다.

메모리(2700)는, 프로세서(2300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 제2 전자 장치(2000)로 입력되거나 제2 전자 장치(2000)로부터 출력되는 데이터를 저장할 수도 있다.

일 실시 예에 의한 메모리(2700)는 텍스트 시퀀스를 번역하기 위하여, 프로세서(2300)에 의해 학습된 인공지능 모델을 저장할 수 있다.

메모리(2700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

메모리(2700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(2710), 터치 스크린 모듈(2720), 알림 모듈(2730) 등으로 분류될 수 있다.

UI 모듈(2710)은, 애플리케이션 별로 제2 전자 장치(2000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(2720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(2300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(2720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(2720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.

알림 모듈(2730)은 제2 전자 장치(2000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.

일 실시 예에 의하면 순차적으로 획득되는, 텍스트 시퀀스에 대한 번역 결과가 빠르게 출력될 수 있다.

기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

제1 전자 장치에서, 텍스트 시퀀스를 번역하는 방법에 있어서,
제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 상기 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득하는 단계;
상기 제1 컨텍스트 정보를 디코딩함으로써, 상기 제1 텍스트 그룹과 대응되는, 제2 언어의 제2 텍스트 그룹을 획득하는 단계;
상기 제2 텍스트 그룹에서, 제2 토큰을 검출하는 단계; 및
상기 제2 토큰이 검출됨에 따라, 상기 제2 텍스트 그룹을 상기 제1 텍스트 그룹에 대한 번역 결과로서 출력하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 제2 토큰은
상기 제1 텍스트 그룹 이후에 인코딩된 상기 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 상기 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 상기 제2 언어의 텍스트 그룹에 삽입되어 학습된 토큰인, 방법.
제1항에 있어서,
상기 제2 텍스트 그룹에서, 상기 제2 토큰이 검출되지 않은 경우, 상기 제1 언어의 텍스트 시퀀스에서, 상기 제1 텍스트 그룹 및 다음 순서의 적어도 하나의 텍스트를 포함하는, 제3 텍스트 그룹을 인코딩함으로써, 상기 제3 텍스트 그룹과 대응되는 제3 컨텍스트 정보를 획득하는 단계;
상기 제3 컨텍스트 정보를 디코딩함으로써, 상기 제3 텍스트 그룹과 대응되는, 제2 언어의 제4 텍스트 그룹을 획득하는 단계; 및
상기 제4 텍스트 그룹에 기초하여, 상기 제1 언어의 텍스트 시퀀스를 번역하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 제2 텍스트 그룹을 출력한 이후, 상기 제1 텍스트 그룹을 제외한, 상기 적어도 하나의 텍스트 그룹을 순차적으로 인코딩함으로써 상기 제1 언어의 텍스트 시퀀스를 번역하는 단계를 더 포함하는, 방법.
제2 전자 장치에서, 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 방법에 있어서,
제1 언어의 텍스트 시퀀스 및 상기 제1 언어의 텍스트 시퀀스와 대응되는 제2 언어의 텍스트 시퀀스를 획득하는 단계;
상기 제2 언어의 텍스트 시퀀스를 분할하고, 상기 분할된 위치에 제2 토큰을 삽입하는 단계;
상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간과 대응되는, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별하는 단계; 및
상기 식별된 대응 관계에 기초하여, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하고, 상기 인코딩된 결과를 디코딩함에 따라 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력될 수 있도록, 상기 인공지능 모델을 학습하는 단계를 포함하는, 방법.
제5항에 있어서, 상기 제2 언어의 텍스트 시퀀스의 분할된 각 구간은,
상기 각 구간의 끝에서, 상기 텍스트 시퀀스가 분할됨을 나타내는 상기 제2 토큰 또는, 상기 텍스트 시퀀스가 종료됨을 나타내는 제1 토큰을 포함하는, 방법.
제5항에 있어서, 상기 학습하는 단계는
상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간이 인코딩된 결과 출력된 각각의 컨텍스트 정보가 상기 디코딩된 결과, 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력되도록, 상기 인공지능 모델을 학습하는 단계를 포함하는, 방법.
텍스트 시퀀스를 번역하는 제1 전자 장치에 있어서,
텍스트 시퀀스를 번역하는데 필요한 데이터를 저장하는 메모리;
제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 상기 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득하고, 상기 제1 컨텍스트 정보를 디코딩함으로써, 상기 제1 텍스트 그룹과 대응되는, 제2 언어의 제2 텍스트 그룹을 획득하고, 상기 제2 텍스트 그룹에서, 제2 토큰을 검출하는 적어도 하나의 프로세서; 및
상기 제2 토큰이 검출됨에 따라, 상기 제2 텍스트 그룹을 상기 제1 텍스트 그룹에 대한 번역 결과로서 출력하는 출력부를 포함하는, 제1 전자 장치.
제8항에 있어서, 상기 제2 토큰은
상기 제1 텍스트 그룹 이후에 인코딩된 상기 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 상기 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 상기 제2 언어의 텍스트 그룹에 삽입되어 학습되는, 제1 전자 장치.
제8항에 있어서, 상기 적어도 하나의 프로세서는
상기 제2 텍스트 그룹에서, 상기 제2 토큰이 검출되지 않은 경우, 상기 제1 언어의 텍스트 시퀀스에서, 상기 제1 텍스트 그룹 및 다음 순서의 적어도 하나의 텍스트를 포함하는, 제3 텍스트 그룹을 인코딩함으로써, 상기 제3 텍스트 그룹과 대응되는 제3 컨텍스트 정보를 획득하고,
상기 제3 컨텍스트 정보를 디코딩함으로써, 상기 제3 텍스트 그룹과 대응되는, 제2 언어의 제4 텍스트 그룹을 획득하고,
상기 제4 텍스트 그룹에 기초하여, 상기 제1 언어의 텍스트 시퀀스를 번역하는, 제1 전자 장치.
제8항에 있어서, 상기 적어도 하나의 프로세서는
상기 제2 텍스트 그룹을 출력한 이후, 상기 제1 텍스트 그룹을 제외한, 상기 적어도 하나의 텍스트 그룹을 순차적으로 인코딩함으로써 상기 제1 언어의 텍스트 시퀀스를 번역하는, 제1 전자 장치.
텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 제2 전자 장치에 있어서,
제1 언어의 텍스트 시퀀스 및 상기 제1 언어의 텍스트 시퀀스와 대응되는 제2 언어의 텍스트 시퀀스를 획득하고, 상기 제2 언어의 텍스트 시퀀스를 분할하고, 상기 분할된 위치에 제2 토큰을 삽입하고, 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간과 대응되는, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별하고, 상기 식별된 대응 관계에 기초하여, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하고, 상기 인코딩된 결과를 디코딩함에 따라 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력될 수 있도록, 상기 인공지능 모델을 학습하는 적어도 하나의 프로세서; 및
상기 학습된 인공지능 모델을 저장하는 메모리를 포함하는, 제2 전자 장치.
제12항에 있어서, 상기 제2 언어의 텍스트 시퀀스의 분할된 각 구간은,
상기 각 구간의 끝에서, 상기 텍스트 시퀀스가 분할됨을 나타내는 상기 제2 토큰 또는, 상기 텍스트 시퀀스가 종료됨을 나타내는 제1 토큰을 포함하는, 제2 전자 장치.
제12항에 있어서, 상기 적어도 하나의 프로세서는
상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간이 인코딩된 결과 출력된 각각의 컨텍스트 정보가 상기 디코딩된 결과, 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력되도록, 상기 인공지능 모델을 학습하는, 제2 전자 장치.
제1항 내지 제7항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.