KR20200142282A

KR20200142282A - 컨텐츠 번역 서비스를 제공하는 전자 장치 및 그 제어 방법

Info

Publication number: KR20200142282A
Application number: KR1020190069339A
Authority: KR
Inventors: 이범석; 김상하; 유지상
Original assignee: 삼성전자주식회사
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2020-12-22
Also published as: WO2020251122A1

Abstract

전자 장치가 개시된다. 본 전자 장치는, 회로를 포함하는 통신 인터페이스, 메모리, 통신 인터페이스 및 메모리와 연결되어 전자 장치를 제어하는 프로세서를 포함하고, 프로세서는, 메모리에 저장된 적어도 하나의 인스트럭션(instruction)을 실행함으로써, 통신 인터페이스를 통해 컨텐츠를 수신하고, 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하고, 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 컨텐츠를 출력한다.

Description

컨텐츠 번역 서비스를 제공하는 전자 장치 및 그 제어 방법 { ELECTRONIC APPARATUS FOR PROVIDING CONTENT TRANSLATION SERVICE AND CONTROLLING METHOD THEREOF }

본 개시는 컨텐츠의 음성 또는 자막에 대한 번역 서비스를 제공하는 전자 장치에 관한 것이다. 보다 상세하게는, 번역된 음성 또는 자막의 시간 길이가 기존의 컨텐츠와 어울릴 수 있도록 컨텐츠의 재생 속도를 조정하는 전자 장치에 관한 것이다.

종래에, 비디오 컨텐츠의 음성/자막에 대하여 기계 번역 및/또는 TTS(Text to Speech) 기술 등을 적용한 결과 획득한 음성/자막을 해당 비디오 컨텐츠에 다시 입혀 번역 서비스가 제공된 비디오 컨텐츠를 제공할 수 있었다.

다만, 이 경우 기존의 비디오 컨텐츠와 번역된 음성/자막이 서로 시간상 동기화되지 않는 경우가 발생하였다. 이는, 기존의 비디오 컨텐츠에 포함된 음성/자막과 번역된 음성/자막의 길이가 서로 달라질 수 있기 때문이다.

본 개시의 목적은, 컨텐츠에 포함된 음성/자막을 다른 언어로 번역하여 컨텐츠와 함께 출력하는 전자 장치를 제공하는 것이다.

특히, 전자 장치가 번역된 음성/자막을 컨텐츠와 함께 출력함에 있어, 컨텐츠의 영상이 번역된 음성/자막과 자연스럽게 어울릴 수 있도록 하는 전자 장치를 제공함에 주된 목적이 있다.

본 개시의 일 실시 예에 따른 전자 장치는, 회로를 포함하는 통신 인터페이스, 적어도 하나의 인스트럭션(instruction)을 포함하는 메모리, 상기 통신 인터페이스 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써, 상기 통신 인터페이스를 통해 컨텐츠를 수신하고, 상기 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하고, 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력한다.

이때, 상기 프로세서는, 상기 컨텐츠의 제1 구간에 대응되는 상기 제1 언어의 음성 데이터 또는 상기 제1 구간에 대응되는 상기 제1 언어의 자막 데이터를 기초로 상기 제1 언어의 텍스트 데이터를 획득하고, 상기 획득된 제1 언어의 텍스트 데이터를 번역하여 상기 제2 언어의 텍스트 데이터를 획득할 수 있다.

이 경우, 상기 프로세서는, 상기 제1 언어의 텍스트 데이터의 길이와 상기 제2 언어의 텍스트 데이터의 길이 차이를 판단하고, 상기 판단된 차이가 임계 값 이상이면, 상기 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 상기 제2 언어의 다른 텍스트 데이터를 획득할 수 있다.

또한, 상기 프로세서는, 입력된 사용자 명령에 기초하여, 상기 제2 언어의 텍스트 데이터를 자막 형태로 출력하거나 또는 상기 제2 언어의 텍스트 데이터가 변환된 음성 데이터를 음성 형태로 출력할 수도 있다.

상기 프로세서는, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며, 상기 제2 언어의 텍스트 데이터를 자막 형태로 상기 컨텐츠와 함께 출력할 수 있다.

또한, 상기 프로세서는, 상기 제2 언어의 텍스트 데이터를 변환하여 상기 제2 언어의 음성 데이터를 획득하고, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며, 상기 제2 언어의 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력할 수도 있다.

한편, 상기 프로세서는, 상기 컨텐츠에 포함된 이미지 데이터 또는 상기 컨텐츠에 포함된 상기 제1 언어의 음성 데이터를 기초로 상기 컨텐츠 내 화자의 특성을 판단하고, 상기 제2 언어의 텍스트 데이터를 상기 판단된 화자의 특성에 대응되는 음성 데이터로 변환하며, 상기 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력할 수 있다.

그리고, 상기 프로세서는, 상기 컨텐츠의 종류를 식별하고, 상기 식별된 종류가 기설정된 제1 종류인 경우 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하고, 상기 식별된 종류가 기설정된 제2 종류인 경우 상기 컨텐츠를 원 재생 속도로 출력할 수 있다.

그리고, 상기 프로세서는, 상기 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터에 대응되는 상기 컨텐츠의 이미지 데이터에 캐릭터(등장 인물)가 포함되는지 식별하고, 상기 이미지 데이터에 캐릭터가 포함되는 경우, 상기 컨텐츠를 원 재생 속도로부터 기설정된 범위 내의 재생 속도로 출력할 수도 있다.

본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 입력된 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하는 단계, 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하는 단계를 포함한다.

이때, 상기 제2 언어의 텍스트 데이터를 획득하는 단계는, 상기 컨텐츠의 제1 구간에 대응되는 상기 제1 언어의 음성 데이터 또는 상기 제1 구간에 대응되는 상기 제1 언어의 자막 데이터를 기초로 상기 제1 언어의 텍스트 데이터를 획득하는 단계, 상기 획득된 제1 언어의 텍스트 데이터를 번역하여 상기 제2 언어의 텍스트 데이터를 획득하는 단계를 포함할 수 있다.

이 경우, 본 제어 방법은, 상기 제1 언어의 텍스트 데이터의 길이와 상기 제2 언어의 텍스트 데이터의 길이 차이를 판단하는 단계, 상기 판단된 차이가 임계 값 이상이면, 상기 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 상기 제2 언어의 다른 텍스트 데이터를 획득하는 단계를 더 포함할 수도 있다.

본 제어 방법은, 입력된 사용자 명령에 기초하여, 상기 제2 언어의 텍스트 데이터를 자막 형태로 출력하거나 또는 상기 제2 언어의 텍스트 데이터가 변환된 음성 데이터를 음성 형태로 출력하는 단계를 더 포함할 수 있다.

한편, 상기 컨텐츠를 출력하는 단계는, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며, 상기 제2 언어의 텍스트 데이터를 자막 형태로 상기 컨텐츠와 함께 출력할 수 있다.

또한, 본 제어 방법은, 상기 제2 언어의 텍스트 데이터를 변환하여 상기 제2 언어의 음성 데이터를 획득하는 단계를 더 포함하고, 상기 컨텐츠를 출력하는 단계는, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며, 상기 제2 언어의 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력할 수도 있다.

한편, 본 제어 방법은, 상기 컨텐츠에 포함된 이미지 데이터 또는 상기 컨텐츠에 포함된 상기 제1 언어의 음성 데이터를 기초로 상기 컨텐츠 내 화자의 특성을 판단하는 단계, 상기 제2 언어의 텍스트 데이터를 상기 판단된 화자의 특성에 대응되는 음성 데이터로 변환하는 단계를 더 포함하고, 상기 컨텐츠를 출력하는 단계는, 상기 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출려할 수 있다.

그리고, 본 제어 방법은, 상기 컨텐츠의 종류를 식별하는 단계를 더 포함하고, 상기 컨텐츠를 출력하는 단계는, 상기 식별된 종류가 기설정된 제1 종류인 경우 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하고, 상기 식별된 종류가 기설정된 제2 종류인 경우 상기 컨텐츠를 원 재생 속도로 출력할 수 있다.

본 제어 방법은, 상기 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터에 대응되는 상기 컨텐츠의 이미지 데이터에 캐릭터(등장 인물)가 포함되는지 식별하는 단계를 더 포함하고, 상기 컨텐츠를 출력하는 단계는, 상기 이미지 데이터에 캐릭터가 포함되는 경우, 상기 컨텐츠를 원 재생 속도로부터 기설정된 범위 내의 재생 속도로 출력할 수도 있다.

본 개시의 일 실시 예에 따른 컴퓨터 판독 가능 매체에는, 전자 장치의 프로세서에 의해 실행되어 상기 전자 장치로 하여금, 입력된 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하는 단계, 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하는 단계를 포함하는 동작을 수행하도록 하는 컴퓨터 명령어(instructions)가 저장되어 있다.

본 개시에 따른 전자 장치는, 번역된 음성/자막과 시간상 동기화된 컨텐츠를 제공한다는 효과가 있다.

또한, 본 개시에 따른 전자 장치는, 컨텐츠의 상황을 고려하여 컨텐츠를 번역된 음성/자막과 동기화하기 때문에, 번역된 음성/자막과 동기화된 컨텐츠의 영상이 자칫 사용자에게 부자연스럽게 보이지 않도록 한다는 효과도 있다.

도 1은 본 개시에 따른 전자 장치의 개괄적인 동작을 설명하기 위한 도면,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,
도 3은 본 개시의 다양한 실시 예를 설명하기 위한 전자 장치의 상세한 구성을 설명하기 위한 블록도,
도 4는 본 개시의 일 실시 예에 따른 전자 장치의 소프트웨어 구조를 설명하기 위한 블록도,
도 5a는 번역된 음성이 원본 음성보다 긴 경우 컨텐츠의 출력 과정을 설명하기 위한 도면,
도 5b는 번역된 음성이 원본 음성보다 짧은 경우 컨텐츠의 출력 과정을 설명하기 위한 도면,
도 6은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 순서도,
도 7은 원본 컨텐츠로부터 번역된 텍스트 데이터를 획득하기 위한 일 예를 설명하기 위한 알고리즘,
도 8은 번역된 텍스트를 음성으로 출력하는 경우, 해당 음성의 길이에 기초하여 해당 음성을 컨텐츠와 함께 출력하는 일 예를 설명하기 위한 알고리즘,
도 9는 번역된 텍스트를 자막으로 출력하는 경우, 번역된 텍스트의 길이에 기초하여 번역된 텍스트를 컨텐츠와 함께 출력하는 일 예를 설명하기 위한 알고리즘이다.

본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.

먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.

또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.

또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.

본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.

또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 첨부된 도면을 이용하여 본 개시에 대해 구체적으로 설명한다.

도 1은 본 개시에 따른 전자 장치의 개괄적인 동작을 설명하기 위한 도면이다. 도 1을 참조하면, 본 개시의 전자 장치는 컨텐츠(10) 속 화자가 말하는 영어 음성(20)을 번역한 한국어 음성(30)을 제공할 수 있다.

이때, 전자 장치는 번역된 한국어 음성(30)을 컨텐츠(10)의 영상과 함께 제공할 수도 있는데, 이 경우 컨텐츠(10)의 재생 시간은 30초인 반면 번역된 한국어 음성(30)의 재생 시간은 25초가 되어 음성과 영상 간에 부자연스러운 차이가 생기게 된다.

따라서, 전자 장치는 컨텐츠(10)의 재생 시간이 번역된 한국어 음성(30)과 동일한 25초가 되도록 컨텐츠(10)의 재생 시간을 조정하여, 컨텐츠(10) 및 번역된 음성(30)을 출력할 수 있다.

이렇듯, 본 개시에 따른 전자 장치는 번역된 음성(또는 자막)의 속도를 더 빠르거나 느리게 하지 않으면서도 컨텐츠와 번역된 음성 간의 동기화에 성공할 수 있다는 장점이 있다.

이하 도면들을 통해, 본 개시의 전자 장치에 대한 구체적인 실시 예를 서술한다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.

도 2를 참조하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130)를 포함할 수 있다. 전자 장치(100)는 스마트폰, TV, 데스크탑 PC, 태블릿 PC, 노트북 PC 등 다양한 디스플레이 장치일 수 있다. 또한, 전자 장치(100)는 셋탑박스나 서버 등으로 구현될 수도 있다.

통신 인터페이스(110)는, 전자 장치(100)가 적어도 하나의 외부 장치와 통신을 수행하여 신호/데이터를 주고받기 위한 구성이다. 이를 위해 통신 인터페이스(110)는 회로를 포함할 수 있다.

통신 인터페이스(110)는 무선 통신 모듈, 유선 입출력 모듈, 방송 수신 모듈 등을 포함할 수 있다.

무선 통신 모듈은 외부 서버 또는 외부 장치로부터 컨텐츠를 수신하기 위하여 와이파이 (WIFI) 통신 모듈, 블루투스(bluetooth)모듈, 적외선 통신(IrDA, infrared data association)모듈, 3G(3세대) 이동통신 모듈, 4G(4세대) 이동통신 모듈, 4세대 LTE(Long Term Evolution) 통신 모듈 중 적어도 하나를 포함을 포함할 수 있다.

유선 입출력 모듈은 HDMI 포트, 디스플레이 포트, RGB 포트, DVI(Digital Visual Interface) 포트, 썬더볼트 및 컴포넌트 포트 등 유선 포트로 구현될 수 있다. 입출력 포트는 HDMI 포트나 썬더볼트 등으로 구현되어 이미지 및 음성 신호를 함께 전송하도록 구현될 수도 있지만, 이미지 신호를 전송하는 제1 포트 및 음성 신호를 전송하는 제2 포트가 각각 별도로 구현된 것일 수도 있다.

방송 수신 모듈은 방송 컨텐츠에 대한 신호를 수신할 수 있다. 방송 수신 모듈은 방송국으로부터 전송되는 방송 컨텐츠를 수신하기 위해 튜너, 복조기, 등화기 등과 같은 구성을 포함하는 형태로 구현될 수 있다.

통신 인터페이스(110)를 통해 수신된 컨텐츠는 영상 데이터, 음성 데이터, 자막 데이터, 메타 데이터 중 적어도 하나를 포함할 수 있다. 이때, 영상 데이터는 자막을 포함할 수 있다.

메모리(120)는 전자 장치(100)의 구성요소들의 전반적인 동작을 제어하기 위한 운영체제(OS: Operating System) 및 전자 장치(100)의 구성요소와 관련된 다양한 데이터를 저장하기 위한 구성이다. 메모리(130)는 전자 장치(100)의 하나 이상의 구성요소와 관련된 적어도 하나의 명령어(instruction)를 포함할 수도 있다.

이를 위해, 메모리(120)는 비휘발성 메모리(ex: 하드 디스크, SSD(Solid state drive), 플래시 메모리), 휘발성 메모리 등으로 구현될 수 있다.

메모리(120)에는 통신 인터페이스(110)를 통해 외부로부터 수신된 컨텐츠, 전자 장치(100) 내에서 자체적으로 생성된 컨텐츠 등이 저장될 수 있다. 또한, 메모리(120)에는 외부로부터 통신 인터페이스(110)를 통해 수신되는 컨텐츠가 일시적으로 저장될 수 있다. 이 경우, 일시적으로 저장된 컨텐츠는 전자 장치(100)를 통해 실시간으로 출력될 수 있다.

프로세서(130)는 전자 장치(100)의 전반적인 동작을 제어한다. 이를 위해, 프로세서(130)는 하드웨어적으로 CPU(central processing unit), GPU(Graphic processing unit) 등을 포함할 수 있으며, 전자 장치(100)에 포함된 다른 구성요소들의 제어에 관한 연산이나 데이터 처리를 실행할 수 있다.

프로세서(130)는 MPU(Micro Processing Unit)로 구현되거나, 또는 RAM(Random Access Memory) 및 ROM(Read Only Memory) 등이 CPU 등과 시스템 버스를 통해 연결된 컴퓨터에 해당할 수도 있다.

프로세서(130)는 전자 장치(100)에 포함된 하드웨어적 구성요소뿐만 아니라, 전자 장치(100)에 포함되는 하나 이상의 소프트웨어 모듈을 제어할 수도 있으며, 프로세서(130)가 소프트웨어 모듈을 제어한 결과가 하드웨어 구성들의 동작으로 도출될 수도 있다.

구체적으로, 프로세서(130)는, 통신 인터페이스(110) 및 메모리(120)와 연결되어 메모리(120)에 저장된 적어도 하나의 명령어를 실행함으로써 전자 장치(100)를 제어할 수 있다.

이하에서는 도 2의 구성요소들을 포함하는 전자 장치(100)의 동작을 보다 상세하게 설명한다.

본 개시의 일 실시 예에 있어서, 프로세서(130)는 먼저 컨텐츠를 획득할 수 있다. 구체적으로, 프로세서(130)는 통신 인터페이스(110)를 통해 다양한 소스(예로, 외부 서버, 외부 장치, 방송국 등)로부터 컨텐츠를 수신하거나 메모리(120)에 저장된 컨텐츠를 획득할 수 있다. 컨텐츠는 하나 이상의 이미지를 포함하는 영상 데이터 및 음성 데이터를 포함하는 비디오 컨텐츠에 해당할 수 있으며, 뉴스, 스포츠, 영화/드라마, 다큐 등 다양할 수 있다.

프로세서(130)는 획득된 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득할 수 있다. 이때, 제1 언어 및 제2 언어는 각각 서로 다른 국가 또는 지역의 언어를 의미하는 것으로, 예를 들어, 제1 언어는 영어이고 제2 언어는 한국어일 수 있으나 이에 한정되는 것은 아니다.

먼저, 프로세서(130)는, 컨텐츠의 제1 구간에 대응되는 제1 언어의 음성 데이터 또는 제1 구간에 대응되는 제1 언어의 자막 데이터를 기초로 제1 언어의 텍스트 데이터를 획득할 수 있다.

이때, 제1 구간은 컨텐츠의 영상 데이터 및 음성 데이터가 재생되는 전체 시간 구간 중 일부 구간을 의미하며, 컨텐츠의 영상 데이터 내에 포함된 자막 또는 음성 데이터에 대한 번역이 구분되어 이루어지는 복수의 단위 시간 구간 중 하나일 수 있다.

제1 구간은 기설정된 수의 단어나 문장에 대응되는 음성/자막이 출력되는 시간 구간에 해당하거나 또는 기설정된 간격만큼의 시간 구간에 해당할 수도 있다.

예를 들어, 제1 구간은 컨텐츠가 재생되는 전체 시간 구간 중에서 컨텐츠 속 화자가 특정한 하나의 문장을 발화하는 장면 동안의 시간 구간, 즉 해당 문장에 대한 음성이 출력되는 시간 구간에 해당할 수 있다.

번역의 대상이 제1 구간의 음성인 경우, 프로세서(130)는 제1 구간의 음성 데이터로부터 제1 언어의 텍스트 데이터를 획득하고, 번역의 대상이 제1 구간의 자막인 경우, 프로세서(130)는 제1 구간의 자막 데이터로부터 제1 언어의 텍스트 데이터를 획득될 수 있다.

번역의 대상이 제1 구간의 음성이 될지 자막이 될지는, 전자 장치(100)에 입력된 사용자 명령에 따라 달라질 수 있다. 즉, 전자 장치(100)의 번역 모드는 사용자 명령에 따라 음성 번역 모드 또는 자막 번역 모드로 구분될 수 있으며, 프로세서(130)는 사용자 명령에 따른 모드를 활성화시킬 수 있다.

전자 장치(100)의 번역 모드는, 상황에 따라 전자 장치(100)에 의해 자동으로 설정될 수도 있다. 예를 들어, 프로세서(130)는 획득된 컨텐츠에 자막 데이터가 별도로 존재하는지 판단하고, 자막 데이터가 존재하는 경우에는 자막 번역 모드를 활성화할 수 있다. 또는, 컨텐츠의 자막 데이터는 존재하지 않지만 컨텐츠의 음성 데이터는 존재하는 경우, 프로세서(130)는 음성 번역 모드를 활성화할 수도 있다.

다만, 획득된 컨텐츠 내에 자막 데이터가 별도로 존재하지 않더라도 컨텐츠의 영상 데이터로부터 자막 데이터가 추출될 수 있으므로, 획득된 컨텐츠에 자막 데이터가 존재하지 않더라도 프로세서(130)는 영상 데이터 내에 자막이 존재하는지 식별할 수 있다. 그리고, 영상 데이터 내에 자막이 존재하지 않는다면, 프로세서(130)는 음성 번역 모드를 활성화할 수도 있다. 다만, 프로세서(130)의 번역 모드 설정은 더욱 다양할 수 있고, 상술한 예들에만 한정되지는 않는다.

음성 번역 모드의 경우, 프로세서(130)는 음성 인식 모듈(STT(Speech-to-Text) 모듈)을 이용하여 음성 데이터에 대한 음성 인식을 수행하고, 음성 인식 수행 결과를 제1 언어의 텍스트 데이터로 획득할 수 있다. 음성 인식 모듈(STT 모듈)에 대한 자세한 내용은 도 4를 통해 후술한다.

자막 번역 모드의 경우, 프로세서(130)는 컨텐츠의 자막 데이터를 곧바로 제1 언어의 텍스트 데이터로 획득할 수 있다. 다만, 자막 데이터가 별도로 수신되거나 저장되어 있지 않는 경우, 프로세서(130)는 영상 데이터에 포함된 이미지로부터 문자를 인식하여 자막 데이터를 추출한 뒤 추출된 자막 데이터로부터 제1 언어의 텍스트 데이터를 추출할 수도 있는데, 이때 문자 인식 모듈을 이용할 수 있다. 문자 인식 모듈에 대한 자세한 설명은 도 4를 통해 후술한다.

상술한 실시 예들에 의해 제1 언어의 텍스트 데이터가 획득된 후, 프로세서(130)는 제1 언어의 텍스트 데이터를 번역하여 제2 언어의 텍스트 데이터를 획득할 수 있다.

제1 언어의 텍스트 데이터를 제2 언어의 텍스트 데이터로 번역하는 경우, 프로세서(130)는 번역 모듈을 이용할 수 있다. 번역 모듈에 대한 자세한 설명은 도 4를 통해 후술한다.

프로세서(130)는 제1 언어의 텍스트 데이터를 번역한 제2 언어의 텍스트 데이터를 자막 또는 음성 형태로 컨텐츠와 함께 출력할 수 있다. 제2 언어의 텍스트 데이터를 자막 형태로 출력하는 경우 자막 생성 모듈이 이용되고, 음성 형태로 출력하는 경우 TTS(Text-to-speech) 모듈이 이용될 수 있는데, 이에 대해서는 도 4를 통해 추가로 서술한다.

전자 장치(100)의 제2 언어의 텍스트 데이터를 자막 형태로 제공하는 자막 제공 모드, 제2 언어의 텍스트 데이터를 음성 형태로 제공하는 음성 제공 모드, 그리고 자막 및 음성 형태 모두 제공하는 종합 제공 모드 등으로 번역 서비스를 제공할 수 있다.

프로세서(130)는 사용자 명령 또는 기설정된 조건에 따라 번역 제공 모드를 달리할 수 있다. 예를 들어, 프로세서(130)는 사용자 명령에 따라 자막 제공 모드/음성 제공 모드/종합 제공 모드 중 어느 하나를 활성화할 수 있다. 또는, 번역 대상이 제1 언어의 음성 데이터인 경우 음성 제공 모드를, 번역 대상이 제1 언어의 자막 데이터인 경우 자막 제공 모드를 활성화시킬 수도 있다. 이러한 번역 제공 모드는 기설정된 조건에 따라 다양하게 설정될 수 있으며, 상술한 예들에만 한정되는 것은 아니다.

이렇듯 번역된 자막/음성을 제공함에 있어, 원본 컨텐츠와 번역된 자막/음성 간의 시간 길이가 맞지 않을 수 있다. 이를 해결하기 위해, 본 개시에 따른 전자 장치(100)의 프로세서(130)는, 컨텐츠의 재생 속도를 제2 언어의 텍스트 데이터의 길이에 맞게 제어할 수 있다.

구체적으로, 프로세서(130)는 컨텐츠의 영상 데이터의 재생 속도를 번역된 자막/음성의 길이에 맞게 조정할 수 있다. 또는, 프로세서(130)는 컨텐츠의 영상 데이터 및 음성 데이터의 재생 속도를 모두 번역된 자막의 길이에 맞게 조정할 수도 있다.

컨텐츠의 영상 데이터의 재생 속도를 조정하는 경우, 프로세서(130)는 영상 데이터 내 이미지 프레임들 간의 시간 간격을 늘이거나 줄임으로써 재생 속도를 낮추거나 높일 수 있다.

다만, 프로세서(130)는 이미지 프레임들 간의 시간 간격을 일정하게 유지하면서 컨텐츠의 영상 데이터의 재생 속도를 조정할 수도 있다. 구체적으로, 프로세서(130)는 새로운 이미지 프레임을 추가하거나 기존에 있던 이미지 프레임을 제외함으로써 재생 속도를 조정할 수도 있다.

일 예로, 프로세서(130)는 이미지 프레임들 사이사이에 새로운 이미지 프레임들을 추가함으로써 재생 속도를 낮출 수 있다. 이때, 기 존재하던 이미지 프레임들에 대한 interpolation 기법 등을 통해 추가될 이미지 프레임을 생성할 수 있다. 구체적인 예로, 기 존재하던 제1 이미지 프레임 및 제2 이미지 프레임 사이에 추가되는 제3 이미지 프레임은, 제1 이미지 프레임 및 제2 이미지 프레임의 interpolation 결과 생성된 이미지 프레임일 수 있다.

일 예로, 프로세서(130)는 기 존재하던 이미지 프레임들 중 하나 이상을 제외함으로써 재생 속도를 높일 수도 있다.

이 경우, 프로세서(130)는 중복되는 이미지 프레임을 우선적으로 제외할 수 있다. 이때, 제외되지 않은 나머지 이미지 프레임들의 출력 타이밍이 추가로 조정될 수도 있다.

또는, 기 존재하던 제1 이미지 프레임, 제2 이미지 프레임 및 제3 이미지 프레임이 제외되는 한편 새로운 제4 이미지 프레임 및 제5 이미지 프레임이 추가될 수도 있다. 이 경우, 제4 이미지 프레임은 제1 및 제2 이미지 프레임의 중간 값에 대응되고 제5 이미지 프레임은 제2 및 제3 이미지 프레임의 중간 값에 대응될 수 있다.

이렇듯, 재생 속도를 조정하는 방식은 다양할 수 있으며, 상술한 내용은 일부 예에 해당할 뿐 본 개시에 따른 전자 장치(100)의 재생 속도 조정이 이에 한정되는 것은 아니다.

한편, 컨텐츠의 영상 데이터가 일률적으로 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도로 출력되는 경우, 컨텐츠의 영상 데이터가 지나치게 빠르게 또는 느리게 재생되는 등 부자연스러워질 가능성이 있다.

따라서, 프로세서(130)는 제1 언어의 텍스트 데이터의 길이와 제2 언어의 텍스트 데이터의 길이 차이를 판단할 수 있다. 그리고, 판단된 차이가 임계 값 이상이면, 프로세서(130)는 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 제2 언어의 텍스트 데이터를 다른 것으로 다시 획득할 수 있다.

만약, 원본 컨텐츠 내에서 2명 이상의 화자의 (제1 언어의) 음성이 서로 적어도 일부 구간에서 서로 중첩되는 경우, 프로세서(130)는 각 화자의 제1 언어의 음성 데이터를 변환한 제1 텍스트 데이터의 길이와 최대한 유사한 길이를 갖는 제2 텍스트 데이터를 획득할 수 있다.

구체적으로, 프로세서(130)는 원본 컨텐츠 내에서 2명 이상의 화자의 음성이 서로 적어도 일부 구간에 중첩되는 경우, 그 외의 경우보다 제1 언어의 텍스트 데이터와 제2 언어의 텍스트 데이터의 길이 차에 대한 임계 값을 더 작게 하여, 해당(더 작은) 임계 값을 만족하는 제2 언어의 텍스트 데이터를 획득할 때까지 번역을 반복할 수 있다.

텍스트 데이터의 길이는, 일반적으로 텍스트 데이터의 용량에 비례하는 것으로 기설정될 수 있으나 이에 한정되는 것은 아니다. 예를 들어, 동일한 용량이라도 언어가 다른 경우라면 길이가 다른 것으로 정의될 수도 있다.

자막 제공 모드인 경우, 프로세서(130)는 제1 언어의 텍스트 데이터가 포함된 영상 데이터 또는 음성 데이터가 포함되는 원본 컨텐츠의 제1 구간의 재생 시간을 제2 언어의 텍스트 데이터의 길이에 대응되는 시간과 비교할 수 있다. 즉, 제2 언어의 텍스트 데이터의 길이에 대응되는 시간과 제1 구간의 재생 시간이 동일해지도록 원본 컨텐츠의 재생 시간을 조정할 수 있다.

이때, 텍스트 데이터의 길이에 대응되는 시간은, 개념적으로는 해당 텍스트 데이터의 텍스트들을 모두 읽기 위해 필요한 시간으로 정의/해석될 수 있다. 이 경우, 텍스트 데이터의 용량이 클수록 텍스트 데이터의 길이에 대응되는 시간이 길어지도록 기설정될 수 있다. 또는, 텍스트 데이터 내에 포함된 모든 문자 또는 단어 별로 기설정된 가독 시간들을 모두 더하는 방법으로 해당 텍스트 데이터의 길이에 대응되는 시간이 계산되는 등 다양한 실시 예가 가능하다.

구체적인 예로, 프로세서(130)는, 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 제1 구간에 대응되는 시간(원본 컨텐츠에서 제1 구간의 재생 시간)보다 긴 경우, 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 제1 구간에 대응되는 시간보다 짧은 경우, 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며, 제2 언어의 텍스트 데이터를 자막 형태로 (재생 속도가 변경된) 컨텐츠와 함께 출력할 수 있다.

음성 제공 모드 또는 종합 제공 모드인 경우, 프로세서(130)는, 제1 언어의 텍스트 데이터가 포함된 영상 데이터 또는 음성 데이터가 포함되는 원본 컨텐츠의 제1 구간의 재생 시간을, 제2 언어의 텍스트 데이터에 대응되는 음성 데이터의 재생 시간과 비교할 수 있다. 즉, 제2 언어의 텍스트 데이터에 대응되는 음성 데이터의 재생 시간과 제1 구간의 재생 시간이 동일해지도록 원본 컨텐츠의 재생 시간을 조정할 수 있다.

구체적인 예로, 프로세서(130)는 먼저 제2 언어의 텍스트 데이터를 변환하여 제2 언어의 음성 데이터를 획득할 수 있다. 그리고, 제2 언어의 음성 데이터의 재생 시간이 제1 구간에 대응되는 시간보다 긴 경우, 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 제2 언어의 음성 데이터의 재생 시간이 제1 구간에 대응되는 시간보다 짧은 경우, 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력할 수 있다.

이때, 프로세서(130)는 제2 언어의 음성 데이터에 대응되는 음성을 (재생 속도가 변경된) 컨텐츠와 함께 출력할 수 있다. 구체적으로, 프로세서(130)는 재생 속도가 변경된 컨텐츠의 영상 데이터를 제2 언어의 음성 데이터에 대응되는 음성과 함께 출력할 수 있다.

다만, 이 경우, 제2 언어의 텍스트 데이터가 어떤 특성의 음성 데이터로 변환되는지에 따라 컨텐츠의 재생 속도가 달라질 수 있음은 물론이다. 동일한 텍스트가 변환되더라도 기설정된 말투나 억양 또는 말 속도가 다르다면 변환된 음성 데이터 역시 달라지기 때문이다.

관련하여, 프로세서(130)는 컨텐츠에 포함된 영상 데이터 속 이미지 또는 음성 데이터의 속성을 고려하여 제2 언어의 음성 데이터를 획득할 수 있다.

구체적으로, 프로세서(130)는, 컨텐츠에 포함된 이미지 데이터 또는 컨텐츠에 포함된 제1 언어의 음성 데이터를 기초로 컨텐츠 내 화자의 특성을 판단하고, 제2 언어의 텍스트 데이터를 판단된 화자의 특성에 대응되는 음성 데이터로 변환하며, 음성 데이터에 대응되는 음성을 컨텐츠와 함께 출력할 수 있다.

화자의 특성은 성별, 나이 등을 의미하거나 발화의 어투, 톤 등에 해당할 수도 있다.

예로, 컨텐츠에 포함된 이미지 데이터 속에서 발화하는 사람이 젊은 남성인 경우, 프로세서(130)는 제2 언어의 텍스트 데이터를 기저장된 음성 데이터 중 젊은 남성의 음성 데이터로 변환할 수 있다. 이때, 프로세서(130)는 이미지 속 사람을 식별하고 식별된 사람의 나이/성별을 인식하도록 학습된 하나 이상의 CNN(Convolutional Neural Network)을 이용할 수도 있다.

예로, 컨텐츠에 포함된 음성 데이터가 젊은 여성의 음성에 해당하는 경우, 프로세서(130)는 제2 언어의 텍스트 데이터를 기저장된 음성 데이터 중 젊은 여성의 음성 데이터로 변화할 수 있다. 이 경우, 프로세서(130)는 음성 데이터 속 음성의 성별/나이를 식별하도록 학습된 하나 이상의 음성 특징 모델 또는 DNN(Deep Neural Network)을 이용할 수도 있다.

한편, 프로세서(130)는 원본 컨텐츠의 영상 데이터 또는 음성 데이터의 제1 부분으로부터 식별된 화자의 특성(ex. 젊은 여자 등)에 대한 정보를 메모리(110)에 별도로 저장해두고, 해당 컨텐츠의 제1 부분 외의 부분에 속하는 자막 및/또는 음성에 대하여 번역된 음성 데이터를 생성할 때에도 저장된 속성에 대한 정보를 이용할 수 있다.

만약, 원본 컨텐츠 내에서 2명 이상의 화자들의 음성이 서로 중첩되는 경우, 프로세서(130)는 화자들의 제1 언어의 음성 데이터 간의 재생 시작 시점의 차이 및 재생 종료 시점의 차이 간의 제1 비율을 식별할 수 있다. 그리고, 화자들의 제1 언어의 음성 데이터로부터 각각 생성된 제2 언어의 음성 데이터 간의 재생 시작 시점의 차이 및 재생 종료 시점의 차이 간의 비율이 식별된 제1 비율과 동일하거나 그로부터 기설정된 범위 내가 되도록 제2 언어의 음성 데이터 각각의 재생 시작(종료) 시점을 설정할 수 있다.

또는, 프로세서(130)는 화자들의 제1 언어의 음성 데이터 간의 재생 시작 시점의 차이 및 화자들의 제1 언어의 음성 데이터의 총 재생 시간 간의 제2 비율을 식별할 수도 있다. 그리고, 화자들의 제1 언어의 음성 데이터로부터 각각 생성된 제2 언어의 음성 데이터 간의 재생 시작 시점의 차이 및 제2 언어의 음성 데이터의 총 재생 시간 간의 비율이 식별된 제2 비율과 동일하거나 그로부터 기설정된 범위 내가 되도록 제2 언어의 음성 데이터 각각의 재생 시작 시점을 설정할 수 있다.

그리고, 프로세서(130)는 해당 화자들의 제2 언어의 음성 데이터 중 적어도 일부가 재생되기 시작하는 시점부터 해당 화자들의 제2 언어의 음성 데이터 전부가 종료되는 시점까지의 시간에 맞도록, 해당 화자들의 (제1 언어의) 음성과 대응되는 장면의 원본 영상 데이터들의 재생 시간을 조정할 수 있다.

예를 들어, 원본 컨텐츠 내에서 화자들의 서로 중첩되는 발화의 총 재생 시간이 10초이고, 화자들의 발화가 번역된 음성의 총 재생 시간이 5초인 경우(본 예는 쉬운 설명을 위한 것이며 실제로는 10초 - 5초만큼 번역 전후 음성 간 재생 시간 차이가 크게 나지 않는 것이 바람직하다)를 가정할 수 있다. 이때, 만약 원본 컨텐츠 내에서 화자들의 발화 시작 시점 간의 시간 차이가 2초라면, 번역된 음성 간의 재생 시작 시점 차이는 1초가 될 수 있다.

한편, 프로세서(130)는 컨텐츠의 종류 또는 구간별 상황에 따라 재생 속도가 조정된 컨텐츠를 출력할 수도 있다.

일 실시 예로, 제2 언어의 텍스트 데이터의 길이에 따라 컨텐츠의 재생 속도를 조정할 지 여부에 대한 사용자 명령에 따라, 프로세서(130)는 컨텐츠의 재생 속도를 조정할 수 있다. 구체적으로, 컨텐츠의 재생 속도를 번역된 자막/음성에 따라 조정하지 않도록 하는 사용자 명령이 입력되면(또는 컨텐츠의 재생 속도를 조정하라는 사용자 명령이 입력되지 않으면), 프로세서(130)는 제2 언어의 텍스트 데이터의 길이와 무관하게 컨텐츠의 영상 데이터의 재생 속도를 변경하지 않고 원본 그대로 유지할 수 있다.

프로세서(130)는, 원본 컨텐츠의 종류에 따라 컨텐츠의 재생 속도 조정을 달리할 수 있다.

이때, 프로세서(130)는 먼저 원본 컨텐츠의 종류를 식별할 수 있다. 프로세서(130)는 컨텐츠에 포함된 영상 데이터 또는 음성 데이터를 분석하여 컨텐츠가 뉴스, 스포츠, 드라마 등의 컨텐츠 중 어떤 컨텐츠에 해당하는지 식별할 수 있다.

또는, 프로세서(130)는 외부 장치로부터 수신되는 컨텐츠에 대한 정보를 통해 해당 컨텐츠의 종류를 식별할 수도 있다.

그리고, 프로세서(130)는, 식별된 종류가 기설정된 제1 종류인 경우 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 해당 컨텐츠를 출력하지만, 식별된 종류가 기설정된 제2 종류인 경우 해당 컨텐츠를 원 재생 속도로 출력할 수 있다.

예를 들어, 비록 번역된 음성의 재생 시간이 컨텐츠의 재생 시간과 다르더라도, 프로세서(130)는 스포츠나 드라마 컨텐츠에 대해서는 컨텐츠의 재생 시간을 조정하지 않을 수 있다.

반면, 뉴스나 광고 컨텐츠에 대해서는, 번역된 음성의 재생 시간에 따라 컨텐츠의 재생 시간을 조정할 수 있다. 한편, 번역된 자막/음성에 따라 컨텐츠의 재생 속도가 조정될 수 있는 컨텐츠의 종류는 다양하게 기설정될 수 있으며, 본 예와 같이 뉴스나 광고 컨텐츠의 경우로만 한정되는 것은 아니다.

프로세서(130)는 컨텐츠의 영상 데이터를 이미지 프레임 단위로 분석하는 한편, 해당 이미지 프레임이 포함되는 장면이 어떤 장면인지에 따라 재생 시간의 조정 여부를 달리할 수도 있다.

일 예로, 프로세서(130)는, 장면이 전환되기 직전 또는 직후의 이미지 프레임이 포함된 구간에 대해서는, 번역된 음성의 재생 시간에 따라 컨텐츠의 영상 데이터의 재생 시간을 조정하고, 반면 장면 전환과 무관한 구간에 대해서는, 설령 번역된 음성의 재생 시간이 원본 컨텐츠의 영상 데이터의 재생 시간과 다르더라도 컨텐츠의 재생 시간을 조정하지 않을 수도 있다.

일 예로, 프로세서(130)는, 인물 또는 캐릭터가 나타나는 이미지 프레임이 포함된 구간에 대해서는 컨텐츠의 영상 데이터의 재생 시간을 조정하지 않거나 또는 원본의 재생 속도로부터 기설정된 범위 내에서만 재생 시간을 조정할 수도 있다. 인물이 등장하는 영상이 너무 빨라지거나 느려지는 경우 사용자가 느끼는 거부감을 방지하기 위함이다.

구체적으로, 프로세서(130)는 컨텐츠의 영상 데이터 중 컨텐츠의 제1 언어의 음성 데이터 또는 제1 언어의 자막 데이터에 대응되는(원본 컨텐츠 내에서 시간상 매칭되는) 영상 데이터에 등장 인물(사람, 캐릭터 등)이 포함되는지 식별할 수 있다.

그리고, 프로세서(130)는 해당 영상 데이터에 등장 인물이 포함되는 경우, 설령 제1 언어의 음성 데이터 또는 제1 언어의 자막 데이터로부터 획득된 제2 언어의 텍스트 데이터의 길이가 해당 영상 데이터의 원 재생 속도와 대응되지 않는다고 할 지라도, 해당 영상 데이터를 원 재생 속도와 동일한 재생 속도로 출력할 수 있다.

또는, 프로세서(130)는, 해당 영상 데이터의 원 재생 속도로부터 기설정된 범위 내에서만, (번역 결과인) 제2 언어의 텍스트 데이터의 길이에 따라 해당 영상 데이터의 재생 속도를 조정할 수도 있다.

도 3은 본 개시의 다양한 실시 예를 설명하기 위한 전자 장치(100)의 상세한 구성을 설명하기 위한 블록도이다.

도 3을 참조하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130) 외에도 디스플레이(140), 오디오 출력부(150) 및 사용자 인터페이스(160) 중 적어도 하나를 더 포함할 수 있다.

디스플레이(140)를 통해, 프로세서(130)는 원본 컨텐츠의 영상 데이터 및 자막 데이터를 시각적으로 출력할 수 있다.

또한, 프로세서(130)는 디스플레이(140)를 통해 재생 속도가 조정된 컨텐츠의 영상 데이터를 출력할 수도 있다. 이 경우, 번역된 제2 언어의 텍스트 데이터가 자막 형태로 함께 출력될 수도 있다.

이를 위해, 디스플레이(140)는 LCD(Liquid Crystal Display), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diodes), TOLED(Transparent OLED), Micro LED 등으로 구현될 수 있다.

디스플레이(140)는, 사용자의 터치 조작을 감지할 수 있는 터치스크린 형태로 구현될 수 있으며, 접히거나 구부러질 수 있는 플렉서블 디스플레이로 구현될 수도 있다.

오디오 출력부(150)를 통해, 프로세서(130)는 원본 컨텐츠의 음성 데이터를 출력하거나 또는 제2 언어의 텍스트 데이터가 음성 형태로 변환된 번역 음성을 출력할 수 있다.

이를 위해, 오디오 출력부(150)는 스피커(도시되지 않음) 및/또는 헤드폰/이어폰 출력 단자(도시되지 않음)로 구현될 수 있다.

사용자 인터페이스(160)를 통해, 프로세서(130)는 번역 대상, 번역 제공 방식, 컨텐츠 재생 속도 조정 여부 등에 대한 사용자 명령을 수신할 수 있다.

구체적으로, 프로세서(130)는 번역 대상을 원본 컨텐츠의 자막으로 하는 자막 번역 모드와 번역 대상을 원본 컨텐츠의 음성으로 하는 음성 번역 모드 중 어느 하나를 선택하는 사용자 명령을 사용자 인터페이스(160)를 통해 수신할 수 있다.

또한, 프로세서(130)는 번역된 제2 언어의 텍스트 데이터를 자막 형태로 제공하는 자막 제공 모드, 음성 형태로 제공하는 음성 제공 모드, 두 가지 모두 제공하는 종합 제공 모드 중 어느 하나를 선택하는 사용자 명령을 사용자 인터페이스(160)를 통해 수신할 수 있다.

또한, 프로세서(130)는 현재 제공 중인 컨텐츠에 대하여, 번역된 자막/음성에 따라 컨텐츠의 영상 데이터의 재생 속도를 조정할 지 여부에 대한 사용자 명령을 사용자 인터페이스(160)를 통해 수신할 수 있다.

그 밖에도, 프로세서(130)는 사용자 인터페이스(160)를 통해 원본 컨텐츠에 포함된 음성/자막에 대한 번역 서비스를 제공할지 여부에 대한 사용자 명령을 수신하여, 번역 서비스를 제공하라는 사용자 명령이 수신된 때에만 원본 컨텐츠의 음성/자막을 번역한 음성/자막을 제공할 수도 있다.

이를 위해, 사용자 인터페이스(160)는 하나 이상의 버튼, 키보드, 마우스 등을 포함할 수 있다. 또한, 사용자 인터페이스(160)는 디스플레이(140)와 함께 구현된 터치 패널 또는 별도의 터치 패드(도시되지 않음)를 포함할 수 있다. 사용자 인터페이스(160)는 사용자의 명령 또는 정보를 음성으로 입력 받기 위해 마이크를 포함할 수도 있고, 사용자의 명령 또는 정보를 모션 형태로 인식하기 위한 카메라를 포함할 수도 있다.

도 4는 본 개시의 일 실시 예에 따른 전자 장치(100)의 소프트웨어 구조를 설명하기 위한 블록도이다.

도 4를 참조하면, 전자 장치(100)는 문자 인식 모듈(410), STT 모듈(420), 번역 모듈(430), 자막 생성 모듈(440), TTS 모듈(450), 컨텐츠 재생 모듈(460) 중 적어도 하나를 포함할 수 있다.

프로세서(130)는 획득된 컨텐츠에 별도의 자막 데이터가 없는 경우, 문자 인식 모듈(410)을 이용하여 컨텐츠의 영상 데이터 내 이미지로부터 문자를 인식할 수 있다. 그리고, 인식된 문자를 통해 원본 컨텐츠의 자막 데이터를 생성한 뒤 생성된 자막 데이터를 제1 언어의 텍스트 데이터로 식별할 수 있다.

문자 인식 모듈(410)은 OCR(Optical Character Recognition), 패턴 인식 또는 문자를 인식하도록 학습된 CNN(Convolutional Neural Network) 등을 통해 구현될 수 있다.

프로세서(130)는 획득된 컨텐츠의 음성 데이터를 번역의 대상으로 하는 경우, STT 모듈(420)를 통해 음성 데이터를 음성 인식할 수 있다. STT 모듈(420)은 음향 모델(Acoustic Model) 및 언어 모델(Language Model)을 포함할 수 있다. 음향 모델은 음소 또는 단어에 대응되는 음성 신호의 특징에 대한 정보를 포함하고, 언어 모델은 하나 이상의 음소 또는 단어의 배열 순서 및 관계에 대응되는 정보를 포함할 수 있다.

프로세서(130)는 입력된 음성 신호로부터 선형예측계수(Linear Predictive Coefficient), 켑스트럼(Cepstrum), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient, MFCC), 주파수 대역별 에너지(Filter Bank Energy) 등 다양한 특징을 추출하는 한편, 이를 음향 모델과 비교하여 음성 신호에 포함된 음소를 인식할 수 있다.

그리고, 프로세서(130)는 인식된 음소들의 언어적 순서 관계를 언어 모델을 이용하여 모델링한 결과, 단어 내지는 문장에 대응되는 텍스트를 획득하여 제1 언어의 텍스트 데이터로 식별할 수 있다. 이 경우, 프로세서(130)는 획득한 텍스트를 STT 모듈과 관련하여 기저장된 발음사전과 비교하여 수정/확정한 뒤 제1 언어의 텍스트 데이터로 식별할 수도 있다.

한편, 획득된 컨텐츠에 자막 데이터가 있고, 해당 자막 데이터가 번역의 대상인 경우, 프로세서(130)는 문자 인식 모듈(410) 및 STT 모듈(420)를 이용하지 않고 해당 자막 데이터를 곧바로 제1 언어의 텍스트 데이터로 식별할 수 있다.

프로세서(130)는 식별된 제1 언어의 텍스트 데이터를 번역 모듈(430)을 통해 번역하여 제2 언어의 텍스트 데이터를 획득할 수 있다. 이때, 번역 모듈(430)은 통계적 기계 번역(Statistical Machine Translation) 또는 인공신경망 기반 기계 번역(Neural Machine Translation)을 이용할 수 있으나 이에 한정되는 것은 아니다.

제2 언어의 텍스트 데이터가 자막 형태로 제공되는 경우, 프로세서(130)는 자막 생성 모듈(440)을 통해 제2 언어의 텍스트 데이터로 구성된 자막을 생성할 수 있다. 이 경우, 프로세서(130)는 자막 생성 모듈(440)을 통해 기설정된 글씨체, 사이즈로 제2 언어의 텍스트 데이터를 수정하거나 또는 제2 언어의 텍스트 데이터에 포함된 오기를 검출할 수도 있다.

제2 언어의 텍스트 데이터가 음성 형태로 제공되는 경우, 프로세서(130)는 TTS 모듈(450)을 통해 제2 언어의 텍스트 데이터를 제2 언어의 음성 데이터로 변환할 수 있다. 이 경우, 프로세서(130)는 TTS 모듈(450)과 관련하여 기설정된 목소리의 음성이 되도록 제2 언어의 텍스트 데이터를 변환할 수 있다.

프로세서(130)는 TTS 모듈(450)과 관련하여 기 저장된 다양한 특성의 목소리들 중, 원본 컨텐츠 영상 속 인물의 나이/성별 또는 원본 컨텐츠의 음성에 맞는 나이/성별 등에 적합한 목소리를 식별하고, 식별된 목소리에 맞는 제2 언어의 음성 데이터를 획득할 수도 있다.

프로세서(130)는 컨텐츠 재생 모듈(460)을 통해 제2 언어의 텍스트 데이터의 길이에 따라 컨텐츠의 재생 속도를 조정할 수 있다. 이때, 프로세서(130)는 컨텐츠 재생 모듈(460)을 통해 새로운 이미지 프레임을 추가하거나 또는 기존의 이미지 프레임들 중 적어도 하나를 제외할 수 있다. 그리고, 재생 속도가 조정된 컨텐츠를 영상 데이터를 번역된 자막/음성과 함께 출력할 수 있다.

이하 도 5a 및 도 5b는 원본 컨텐츠의 음성을 번역하여(음성 번역 모드) 음성 형태로 제공하는(음성 제공 모드) 경우를 가정한 것으로, 도 5a는 번역된 음성이 원본 음성보다 긴 경우 컨텐츠의 출력 과정을 설명하기 위한 도면이고, 도 5b는 번역된 음성이 원본 음성보다 짧은 경우 컨텐츠의 출력 과정을 설명하기 위한 도면이다.

도 5a를 참조하면, 원본 컨텐츠의 특정 구간이 원본 영상(510)과 원본 음성(520)으로 구분되어 도시되었다. 이때, 원본 음성은 “This is one way for an airline to increase its name recognition: misspell you own name.”이라는 영어 텍스트에 대응되는 것이다.

도 5a를 참조하면, 전자 장치(100)는 상술한 영어 텍스트를 “이것은 항공사가 이름에 대한 인식을 높이는 한 가지 방법이다: 자신의 이름을 잘 못 쓰는 것이다.”라는 한국어 텍스트로 번역한 뒤, 한국어 텍스트를 번역 음성(520')으로 변환할 수 있다. 이때, 번역 음성(520')은 원본 음성(520) 및 원본 영상(510)에 맞게 설정된 남성의 목소리일 수 있다.

도 5a를 참조하면, 번역 음성(520')의 재생 시간은 2분 36초로 원본 음성(520)의 재생 시간인 1분 48초보다 48초만큼 길다는 것을 확인할 수 있다. 그 결과, 전자 장치(100)는 원본 영상(510)의 재생 속도를 느리게 하여 그 재생 시간을 번역 음성(520')의 재생 시간만큼 늘린 수정 영상(510')을, 번역 음성(520')과 함께 출력할 수 있다.

도 5b를 참조하면, 원본 컨텐츠의 특정 구간이 원본 영상(560)과 원본 음성(570)으로 구분되어 도시되었다. 이때, 원본 음성(570)은 “But painters apparently didn't have an F at their fingertips, resulting in Cathay Pacific instead of Pacific.”이라는 영어 텍스트에 대응되는 것이다.

도 5b를 참조하면, 전자 장치(100)는 상술한 영어 텍스트를 “그러나 화가들은 분명히 F를 손가락 끝에 달지 않았고, 그 결과 태평양 대신 캐세이 파치옥이 탄생했다.”라는 한국어 텍스트로 번역한 뒤, 한국어 텍스트를 번역 음성(570')으로 변환할 수 있다. 이때, 번역 음성(570')은 원본 음성(570) 및 원본 영상(560)에 맞게 설정된 남성의 목소리일 수 있다.

도 5b를 참조하면, 번역 음성(570')의 재생 시간은 1분 40초로 원본 음성(570)의 재생 시간인 2분 10초보다 30초만큼 짧다는 것을 확인할 수 있다. 그 결과, 전자 장치(100)는 원본 영상(560)의 재생 속도를 느리게 하여 그 재생 시간을 번역 음성(570')의 재생 시간만큼 늘린 수정 영상(560')을, 번역 음성(570')과 함께 출력할 수 있다.

한편, 상술한 전자 장치(100)의 동작들은, 전자 장치(100) 단독이 아니라 전자 장치(100) 및 하나 이상의 외부 장치를 통해 수행할 수도 있다.

예를 들어, 전자 장치(100)가 TV 또는 스마트폰인 경우, 제1 언어의 텍스트 데이터가 전자 장치(100)에서 획득된 뒤 서버인 외부 장치에서 제1 언어의 텍스트 데이터에 대한 번역이 수행될 수 있다. 이 경우, 외부 장치로부터 제2 언어의 텍스트 데이터가 수신되면, 전자 장치(100)는 제2 언어의 텍스트 데이터의 길이에 따라 컨텐츠의 재생 속도를 조정하는 한편, 제2 언어의 텍스트 데이터를 음성/자막 형태로 변환하여 조정된 컨텐츠와 함께 출력할 수 있다.

다른 예로, 전자 장치(100)가 셋탑박스인 경우, 전자 장치(100)가 외부로부터 수신된 컨텐츠로부터 제1 언어의 텍스트 데이터를 획득하고, 제1 언어의 텍스트 데이터를 번역하여 제2 언어의 텍스트 데이터를 획득한 뒤, 제2 언어의 텍스트 데이터에 따라 재생 속도가 조정된 컨텐츠를 TV인 외부 장치로 전송할 수도 있다. 또한, 전자 장치(100)는 제2 언어의 텍스트 데이터를 음성/자막 형태로 변환하고 해당 데이터를 TV인 외부 장치로 전송할 수 있다. 이 경우, 조정된 컨텐츠 및 제2 언어의 텍스트 데이터가 변환된 자막/음성이 TV인 외부 장치를 통해 출력될 수 있다.

다른 예로, 전자 장치(100)가 서버인 경우, 전자 장치(100)는 컨텐츠로부터 제1 텍스트 데이터를 획득하고, 제1 텍스트 데이터를 번역하여 제2 텍스트 데이터를 획득하며, 제2 텍스트 데이터의 길이에 따라 재생 속도가 조정된 컨텐츠를 제2언어의 텍스트 데이터가 변환된 자막/음성에 대한 데이터와 함께 TV 또는 스마트폰인 외부 장치로 전송할 수도 있다. 이 경우, 조정된 컨텐츠 및 제2 언어의 텍스트 데이터가 변환된 자막/음성이 TV 또는 스마트폰인 외부 장치를 통해 출력될 수 있다.

이 밖에도 전자 장치(100)가 외부 장치와 함께 동작하는 다양한 실시 예들이 가능하며, 상술한 예들에 한정되지 않는다.

이하 도 6 내지 도 9를 통해서는 본 개시에 따른 전자 장치의 제어 방법을 설명한다.

도 6은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 순서도이다.

도 6을 참조하면, 본 제어 방법은 입력된 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득할 수 있다(S610).

이 경우, 컨텐츠의 제1 구간에 대응되는 제1 언어의 음성 데이터 또는 제1 구간에 대응되는 제1 언어의 자막 데이터를 기초로 제1 언어의 텍스트 데이터를 획득할 수 있다. 그리고, 획득된 제1 언어의 텍스트 데이터를 번역하여 제2 언어의 텍스트 데이터를 획득할 수 있다.

이때, 본 제어 방법은, 제1 언어의 텍스트 데이터의 길이와 제2 언어의 텍스트 데이터의 길이 차이를 판단한 뒤, 판단된 차이가 임계 값 이상이면, 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 제2 언어의 다른 텍스트 데이터를 획득할 수도 있다.

그리고, 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 컨텐츠를 출력할 수 있다(S620). 구체적으로는 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도로 재생 속도가 조정된 컨텐츠의 영상 데이터 및/또는 음성 데이터를 출력할 수 있다.

이때, 입력된 사용자 명령 또는 기설정된 조건에 기초하여, 제2 언어의 텍스트 데이터를 자막 형태로 출력하거나 또는 제2 언어의 텍스트 데이터가 변환된 음성 데이터를 음성 형태로 출력할 수 있다. 제2 언어의 텍스트 데이터가 음성/자막 형태로 출력되는 경우, 재생 속도가 조정된 컨텐츠와 함께 출력되어 '번역된 컨텐츠'가 제공될 수 있다.

컨텐츠의 재생 속도를 조정하는 구체적인 예로, 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 번역 대상인 원본 컨텐츠의 음성/자막(제1 언어의 텍스트 데이터와 매칭됨)이 포함되는 제1 구간에 대응되는 시간보다 긴 경우, 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 제1 구간에 대응되는 시간보다 짧은 경우, 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력할 수 있다. 이 경우, 제2 언어의 텍스트 데이터를 자막 형태로 컨텐츠와 함께 출력할 수 있다.

구체적인 다른 예로, 먼저 제2 언어의 텍스트 데이터를 변환하여 제2 언어의 음성 데이터를 획득할 수 있다. 예를 들어 '안녕하세요'라는 문자 텍스트의 데이터를 “안녕하세요”라는 음성에 대한 정보를 포함하는 오디오 신호로 변환할 수 있다.

이 경우, 원본 컨텐츠에 포함된 영상 데이터 또는 원본 컨텐츠에 포함된 제1 언어의 음성 데이터를 기초로 원본 컨텐츠 내 화자의 특성(나이, 성별, 감정 등)을 판단하고, 제2 언어의 텍스트 데이터를 판단된 화자의 특성에 대응되는 음성 데이터로 변환할 수 있다.

그리고, 제2 언어의 음성 데이터의 재생 시간이 번역 대상인 원본 컨텐츠의 음성/자막(제1 언어의 텍스트 데이터와 매칭됨)이 포함되는 제1 구간에 대응되는 시간보다 긴 경우, 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 제2 언어의 음성 데이터의 재생 시간이 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력할 수 있다. 이 경우, 제2 언어의 음성 데이터에 대응되는 음성을 컨텐츠와 함께 출력할 수 있다.

한편, 본 제어 방법은, 컨텐츠의 종류를 식별할 수 있다. 그리고, 식별된 종류가 기설정된 제1 종류인 경우 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 컨텐츠를 출력하고, 식별된 종류가 기설정된 제2 종류인 경우 컨텐츠를 원 재생 속도로 출력할 수 있다.

또한, 본 제어 방법은, 제1 언어의 음성 데이터 또는 제1 언어의 자막 데이터에 대응되는 컨텐츠의 이미지 데이터에 캐릭터(등장 인물)가 포함되는지 식별할 수 있다. 식별 결과 이미지 데이터에 캐릭터가 포함되는 경우, 컨텐츠를 원 재생 속도로부터 기설정된 범위 내의 재생 속도로 출력할 수 있다. 즉, 원 재생 속도로부터 기설정된 범위 내에서만, 영상 데이터의 재생 속도를 제2 언어의 텍스트 데이터에 따라 조정할 수 있다.

도 7은 원본 컨텐츠로부터 번역된 텍스트 데이터를 획득하기 위한 일 예를 설명하기 위한 알고리즘이다. 도 7의 과정은 도 6의 S610 단계의 구체적인 일 예에 해당한다.

도 7을 참조하면, 먼저 원본 컨텐츠의 영상 데이터와 음성 데이터를 분리할 수 있다(S710). 이때, 자막 데이터 및/또는 메타 데이터가 추가로 포함된 경우 본 데이터 역시 분리할 수 있다.

그리고, 원본 컨텐츠에 자막이 있는지 식별할 수 있다(S720). 구체적으로, 원본 컨텐츠의 자막 데이터가 별도로 존재하는지 또는 영상 데이터로부터 자막이 추출되는지 식별할 수 있다(S720).

자막이 있는 경우(S720 - Y), 자막에 대응되는 텍스트를 식별한 뒤 식별된 텍스트를 번역할 수 있다(S740).

반면, 자막이 없는 경우(S720 - N), 음성 데이터에 포함된 음성의 화자가 1명인지 판단할 수 있다(S750).

화자가 1명이라면(S750 - Y), 곧바로 해당 음성에 대한 음성 인식을 수행하고(S760), 음성 인식 결과를 번역할 수 있다(S740). 다만, 화자가 1명이 아니라면(S770 - N), 화자 별로 음성 데이터를 분리한(S770) 뒤 화자 별 음성을 인식하여(S760) 각각 번역할 수 있다(S740).

도 8은 번역된 텍스트를 음성으로 출력하는 경우, 해당 음성의 길이에 기초하여 해당 음성을 컨텐츠와 함께 출력하는 일 예를 설명하기 위한 알고리즘이다. 도 8은 도 6의 S620 단계의 구체적인 일 예일 수 있다.

도 8을 참조하면, 도 6의 S610 단계 등을 거쳐 번역된 텍스트가 획득된(S801) 상태에서, 번역 텍스트와 (번역 전)원본 텍스트 간 길이 차가 임계 값 이상인지 식별할 수 있다(S810). 만약, 임계 값 이상이라면(S810 - Y) 임계 값 미만(S810 - N)이 될 때까지 종전의 번역 텍스트와 동일한 언어의 다른 번역 텍스트를 획득할 수 있다(S820).

번역 텍스트와 원본 텍스트의 길이 차가 임계 값 미만인 경우(S810 - N), 번역 텍스트를 음성으로 변환할 수 있다(S830).

그리고, 변환된 음성의 재생 시간이 원본 컨텐츠의 음성의 재생 시간보다 길다면(S840 - Y), 원본 영상의 재생 속도를 느리게 수정하고(S850), 변환된 음성의 재생 시간이 원본 컨텐츠의 음성의 재생 시간보다 짧다면(S840 - N, S870 - Y), 원본 영상의 재생 속도를 빠르게 수정할 수 있다(S880). 그리고, 재생 속도가 수정된 영상을 변환된(번역된) 음성과 함께 출력할 수 있다(S860).

반면, 변환된 음성의 재생 시간이 원본 음성의 재생 시간과 동일한 경우(S840 - N, S870 - N), 원본 영상을 그대로 번역 음성과 함께 출력할 수 있다(S890).

도 9는 번역된 텍스트를 자막으로 출력하는 경우, 번역된 텍스트의 길이에 기초하여 번역된 텍스트를 컨텐츠와 함께 출력하는 일 예를 설명하기 위한 알고리즘이다. 도 9 역시 도 6의 S620 단계의 구체적인 일 예일 수 있다.

도 9를 참조하면, S910 및 S920 단계는 도 8의 S810 및 S820 단계와 동일할 수 있다. 다만, 도 9의 경우 도 8과 다르게 번역된 음성이 아닌 번역된 텍스트(자막)를 제공하기 때문에, 번역된 텍스트를 음성으로 변환하는 과정(S830)은 포함하지 않을 수 있다.

도 9를 참조하면, S910(S920 단계도 거칠 수 있음) 단계를 거친 후(S910 - N), 번역 텍스트가 원본 텍스트보다 길다면(S930 - Y), 원본 영상의 재생 속도를 느리게 수정하고(S940), 번역 텍스트가 원본 텍스트보다 짧다면(S930 - N, S960 - Y), 원본 영상의 재생 속도를 빠르게 수정할 수 있다(S970). 그리고, 재생 속도가 수정된 영상을 변환된(번역된) 음성과 함께 출력할 수 있다(S950). 이때, 원본 컨텐츠의 음성 역시 함께 출력할 수 있는데, 이 경우 원본 컨텐츠의 음성 데이터의 재생 속도를, 사용자 명령 또는 기설정된 조건에 따라 수정할 수도 수정하지 않을 수도 있다.

반면, 번역 텍스트와 원본 텍스트의 길이가 동일한 경우(S930 - N, S960 - N), 원본 영상을 그대로 번역 텍스트와 함께 출력할 수 있다(S890). 이때, 원본 음성도 함께 출력할 수 있다.

한편, 도 8과 도 9 각각을 통해서는, 번역 음성 또는 번역 테스트를 제공하는 경우를 구분하여 설명하였으나, 번역 음성과 번역 텍스트가 동시에 제공될 수도 있음은 물론이다. 이 경우, 번역 음성의 재생 시간에 따라 컨텐츠의 영상의 재생 속도를 조정하는 것이 바람직하지만, 반드시 이에 한정되는 것은 아니다.

이상 도 6 내지 도 9를 통해 설명된 전자 장치의 제어 방법은, 도 2 및 도 3을 통해 도시 및 설명한 전자 장치(100)를 통해 수행될 수 있다. 또는, 전자 장치(100) 및 하나 이상의 외부 장치를 포함하는 시스템을 통해 수행될 수도 있다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다.

일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(130) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상술한 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(100)에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 상술한 특정 기기가 수행하도록 한다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

100: 전자 장치 110: 통신 인터페이스
120: 메모리 130: 프로세서
140: 디스플레이 150: 오디오 출력부
160: 사용자 인터페이스

Claims

전자 장치에 있어서, 회로를 포함하는 통신 인터페이스;
적어도 하나의 인스트럭션(instruction)을 포함하는 메모리; 및
상기 통신 인터페이스 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서;를 포함하고,
상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써,
상기 통신 인터페이스를 통해 컨텐츠를 수신하고,
상기 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하고,
상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 컨텐츠의 제1 구간에 대응되는 상기 제1 언어의 음성 데이터 또는 상기 제1 구간에 대응되는 상기 제1 언어의 자막 데이터를 기초로 상기 제1 언어의 텍스트 데이터를 획득하고,
상기 획득된 제1 언어의 텍스트 데이터를 번역하여 상기 제2 언어의 텍스트 데이터를 획득하는, 전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 제1 언어의 텍스트 데이터의 길이와 상기 제2 언어의 텍스트 데이터의 길이 차이를 판단하고,
상기 판단된 차이가 임계 값 이상이면, 상기 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 상기 제2 언어의 다른 텍스트 데이터를 획득하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
입력된 사용자 명령에 기초하여, 상기 제2 언어의 텍스트 데이터를 자막 형태로 출력하거나 또는 상기 제2 언어의 텍스트 데이터가 변환된 음성 데이터를 음성 형태로 출력하는, 전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며,
상기 제2 언어의 텍스트 데이터를 자막 형태로 상기 컨텐츠와 함께 출력하는, 전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 제2 언어의 텍스트 데이터를 변환하여 상기 제2 언어의 음성 데이터를 획득하고,
상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며,
상기 제2 언어의 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 컨텐츠에 포함된 이미지 데이터 또는 상기 컨텐츠에 포함된 상기 제1 언어의 음성 데이터를 기초로 상기 컨텐츠 내 화자의 특성을 판단하고,
상기 제2 언어의 텍스트 데이터를 상기 판단된 화자의 특성에 대응되는 음성 데이터로 변환하며,
상기 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 컨텐츠의 종류를 식별하고,
상기 식별된 종류가 기설정된 제1 종류인 경우 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하고,
상기 식별된 종류가 기설정된 제2 종류인 경우 상기 컨텐츠를 원 재생 속도로 출력하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터에 대응되는 상기 컨텐츠의 이미지 데이터에 캐릭터(등장 인물)가 포함되는지 식별하고,
상기 이미지 데이터에 캐릭터가 포함되는 경우, 상기 컨텐츠를 원 재생 속도로부터 기설정된 범위 내의 재생 속도로 출력하는, 전자 장치.
전자 장치의 제어 방법에 있어서,
입력된 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하는 단계; 및
상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하는 단계;를 포함하는, 제어 방법.
제10항에 있어서,
상기 제2 언어의 텍스트 데이터를 획득하는 단계는,
상기 컨텐츠의 제1 구간에 대응되는 상기 제1 언어의 음성 데이터 또는 상기 제1 구간에 대응되는 상기 제1 언어의 자막 데이터를 기초로 상기 제1 언어의 텍스트 데이터를 획득하는 단계; 및
상기 획득된 제1 언어의 텍스트 데이터를 번역하여 상기 제2 언어의 텍스트 데이터를 획득하는 단계;를 포함하는, 제어 방법.
제11항에 있어서,
상기 제1 언어의 텍스트 데이터의 길이와 상기 제2 언어의 텍스트 데이터의 길이 차이를 판단하는 단계; 및
상기 판단된 차이가 임계 값 이상이면, 상기 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 상기 제2 언어의 다른 텍스트 데이터를 획득하는 단계;를 더 포함하는, 제어 방법.
제10항에 있어서,
입력된 사용자 명령에 기초하여, 상기 제2 언어의 텍스트 데이터를 자막 형태로 출력하거나 또는 상기 제2 언어의 텍스트 데이터가 변환된 음성 데이터를 음성 형태로 출력하는 단계;를 더 포함하는, 제어 방법.
제11항에 있어서,
상기 컨텐츠를 출력하는 단계는,
상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며,
상기 제2 언어의 텍스트 데이터를 자막 형태로 상기 컨텐츠와 함께 출력하는, 제어 방법.
제11항에 있어서,
상기 제2 언어의 텍스트 데이터를 변환하여 상기 제2 언어의 음성 데이터를 획득하는 단계;를 더 포함하고,
상기 컨텐츠를 출력하는 단계는,
상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며,
상기 제2 언어의 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력하는, 제어 방법.
제10항에 있어서,
상기 컨텐츠에 포함된 이미지 데이터 또는 상기 컨텐츠에 포함된 상기 제1 언어의 음성 데이터를 기초로 상기 컨텐츠 내 화자의 특성을 판단하는 단계; 및
상기 제2 언어의 텍스트 데이터를 상기 판단된 화자의 특성에 대응되는 음성 데이터로 변환하는 단계;를 더 포함하고,
상기 컨텐츠를 출력하는 단계는,
상기 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력하는, 제어 방법.
제10항에 있어서,
상기 컨텐츠의 종류를 식별하는 단계;를 더 포함하고,
상기 컨텐츠를 출력하는 단계는,
상기 식별된 종류가 기설정된 제1 종류인 경우 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하고, 상기 식별된 종류가 기설정된 제2 종류인 경우 상기 컨텐츠를 원 재생 속도로 출력하는, 제어 방법.
제10항에 있어서,
상기 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터에 대응되는 상기 컨텐츠의 이미지 데이터에 캐릭터(등장 인물)가 포함되는지 식별하는 단계;를 더 포함하고,
상기 컨텐츠를 출력하는 단계는,
상기 이미지 데이터에 캐릭터가 포함되는 경우, 상기 컨텐츠를 원 재생 속도로부터 기설정된 범위 내의 재생 속도로 출력하는, 제어 방법.
전자 장치의 프로세서에 의해 실행되어 상기 전자 장치로 하여금,
입력된 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하는 단계; 및
상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하는 단계;를 포함하는 동작을 수행하도록 하는 컴퓨터 명령어(instructions)가 저장된 컴퓨터 판독 가능 매체.